Hopp til innholdet
Hjem » Slik utfører du lineær regresjonsanalyse med SigmaPlot

Slik utfører du lineær regresjonsanalyse med SigmaPlot

    Introduksjon til regresjonsanalyse

    Ønsker du å forstå regresjonsanalyse og hvordan den kan hjelpe deg med å bedre forstå forholdet mellom variabler? I denne veiledningen vil jeg vise deg hvordan du gjør enkle lineære og multiple regresjonsanalyser med SigmaPlot. SigmaPlot inneholder mange statistiske metoder og hundrevis av regresjonsligninger å velge mellom, og du kan legge til din egen tilpassede regresjonsligning om nødvendig. Denne veiledningen vil forhåpentligvis gi deg en bedre forståelse av hvordan regresjonsanalyse fungerer og hvordan du kan bruke den i forskningen din.

    Linear regression analysis helps you connect the dots and tell a story from your data.

    SigmaPlot regression analysis video demonstration

    Regresjonsanalyse er uvurderlig for å få innsikt og ta bedre beslutninger basert på tilgjengelige data mens man undersøker komplekse sammenhenger.

    Regresjonsanalyse har fire hovedformål: beskrivelse, estimering, prediksjon og kontroll. Den beskriver forholdet mellom avhengige og uavhengige variabler, muliggjør estimering av den avhengige variabelen basert på observerte uavhengige variabler, forutsier utfall og endringer i den avhengige variabelen basert på forholdet mellom dem, og kontrollerer effekten av en eller flere uavhengige variabler mens den undersøker forholdet mellom en uavhengig variabel og den avhengige variabelen.

    Videodemonstrasjon

    Typer regresjonsanalyse

    Det finnes mange typer regresjonsanalyseblant annet:

    • Enkel lineær regresjon
      Dette innebærer modellering av forholdet mellom en enkelt uavhengig variabel og en avhengig variabel.
    • Multippel lineær regresjon
      Dette innebærer modellering av forholdet mellom flere uavhengige variabler og en avhengig variabel.
    • Logistisk regresjon
      Dette brukes for klassifiseringsproblemer og modellerer sannsynligheten for et binært utfall basert på en eller flere uavhengige variabler.
    • Ikke-lineær regresjon
      Dette innebærer å modellere forholdet mellom en uavhengig variabel og en avhengig variabel som en ikke-lineær funksjon.

    Dette er noen av de mest brukte regresjonsanalyseteknikkene, men mange andre kan brukes for spesifikke anvendelser eller formål. Uansett type undersøker alle former for regresjonsanalyse hvordan en eller flere uavhengige variabler påvirker en avhengig variabel.

    Lineære regresjonsmodeller, som enkel lineær og multippel lineær, er de vanligste. Men ikke-lineær regresjonsanalyse brukes ofte for mer kompliserte datasett der sammenhengen mellom avhengige og uavhengige variabler ikke er lineær.

    Denne veiledningen vil demonstrere hvordan du kan gjøre enkel lineær og multippel lineær regresjon i SigmaPlot. Vi vil bruke eksempeldata om boligpriser fra en artikkel om regresjonsanalyse med Excel. Forhåpentligvis vil du lære noen tips og triks om hvor enkelt og funksjonsrikt dette kan gjøres med SigmaPlot.

    For den enkle lineære regresjonen vil vi bruke ligningen:

    • y = b + a*x

    Og for den multiple lineære regresjonen vil vi bruke ligningen (to uavhengige variabler):

    • y = b + a1*x1 + a2*x2

    y er den avhengige variabelen, og x, x1 og x2 er de uavhengige variablene.

    Ved å gjøre en regresjonsanalyse kan vi finne de ukjente variablene b og a i ligningene ovenfor og deretter beregne den forventede verdien av y (den avhengige variabelen) for en gitt verdi av x (de uavhengige variablene).

    Hva er formålet med regresjonsanalyse?

    Linear regression analysis is like making a jigsaw puzzle – you have the pieces, but need to figure out how to fit them together.

    Regresjon er en statistisk teknikk som brukes til å bestemme forholdet mellom variabler i et datasett, slik at man kan evaluere styrken og den statistiske signifikansen av eventuelle sammenhenger. Den kan også brukes til å forutsi fremtidige resultater basert på tidligere hendelser.

    Hvorfor kalles det regresjon?

    Det kalles regresjon fordi det innebærer å finne den linjen med best tilpasning som beskriver forholdet mellom variablene, ofte referert til som en "regresjonslinje". Regresjonsanalyse tar sikte på å identifisere mønstre i dataene og bruke dem til å forutsi fremtidige resultater.

    Hvilke betingelser må være oppfylt for at regresjonsmodellene skal fungere?

    Regresjonsanalyse er ganske enkelt en beregning utført på isolerte data. Tolkningen av resultatet av en regresjon som en statistisk meningsfull størrelse som indikerer sammenhenger i den virkelige verden, krever at forskerne gjør en rekke klassiske antakelser, for eksempel:

    • Datainnsamling
      Sikre at datautvalget er representativt for populasjonen og at de uavhengige variablene måles uten feil.
    • Valg av modell
      Det første trinnet er å spesifisere riktig modell. Dette innebærer å bestemme den avhengige variabelen, de uavhengige variablene og deres funksjonelle former.
    • Observasjonenes uavhengighet
      Observasjonene i datasettet skal være uavhengige av hverandre. Dette betyr at en observasjons verdi ikke skal påvirke en annen observasjons verdi.
    • Ingen multikollinearitet
      De uavhengige variablene bør ikke være sterkt korrelert med hverandre. Dette kalles multikollinearitet og kan føre til ustabile parameterestimater og tolkningsproblemer.
    • Normalitet av residualer
      Residualene (forskjellene mellom de observerte og predikerte verdiene) bør være normalfordelte. Denne antagelsen er viktig for hypotesetesting og prediksjoner.
    • Homoscedastisitet
      Variansen til residualene skal være konstant på tvers av alle nivåer av de uavhengige variablene. Dette kalles homoskedastisitet. Ikke-konstant varians kalles heteroskedastisitet og kan påvirke hypotesetesting og prediksjonsnøyaktighet.
    • Ingen utelatt variabelskjevhet
      Alle relevante uavhengige variabler bør inkluderes i modellen. Utelatelse av viktige variabler kan føre til utelatt variabelskjevhet og feil parameterestimater.
    • Modelltilpasning
      Modellen bør passe godt til dataene. Dette kan vurderes ved hjelp av goodness-of-fit-statistikk som R-kvadrat, justert R-kvadrat og residualplottet.
    • Kausale slutninger
      Det bør utvises forsiktighet ved kausale slutninger basert på resultatene av en multippel regresjonsanalyse. Retningen på årsakssammenhengen bør fastslås på grunnlag av tidligere kunnskap, eksperimentell utforming eller tilleggsanalyser.

    Hvilke feil gjøres oftest når en utfører regresjonsanalyse?

    Det er viktig å huske at bare fordi det er en sammenheng mellom to ting, betyr ikke det nødvendigvis at den ene forårsaker den andre. Dette er en vanlig feil som kalles å forveksle årsak og årsakssammenheng. En vanlig årsak-og-virkningsfeil som involverer salgspriser og kvadratmeter er å anta at et større hus alltid vil gi en høyere salgspris. Dette er et eksempel på en kausalitetsfeil fordi det kan være andre faktorer som påvirker salgsprisen på et hus, for eksempel eiendommens beliggenhet, alder og tilstand. Så vær alltid forsiktig med å komme med årsakspåstander utelukkende basert på korrelasjon - det er ikke alltid så enkelt som det ser ut til!

    Unngå å undersøke alle tilgjengelige variabler samtidig. Dette kan føre til at man finner sammenhenger som ikke finnes. Dette konseptet kan sammenlignes med å slå mynt og krone. Hvis du fortsetter å gjøre det mange nok ganger, vil du til slutt finne mønstre som faktisk ikke er reelle, for eksempel et sett med kron og mynt etter hverandre.

    Vær forsiktig når du samler inn data, vurder hvordan de samles inn og om du kan stole på dataene.

    Det er viktig å ikke se bort fra feilleddet, da dette kan føre til en feilaktig oppfatning av sikkerheten i de analyserte sammenhengene. Regresjonsanalyse kan forklare 90 % av sammenhengen, men det er viktig å huske at resultatene i seg selv er usikre, og de resterende 10 % bør ikke overses.

    Det er viktig å stole på magefølelsen og dømmekraften din. Vurder om resultatene stemmer overens med din tidligere forståelse av situasjonen. Hvis noe virker feil, bør du stille spørsmål ved om det skyldes ukorrekte data eller en vesentlig feil. Det er avgjørende å kombinere regresjonsanalyser med observasjoner for å få et fullstendig bilde. De beste forskerne undersøker både data og observasjoner fra den virkelige verden.

    Eksempel på regresjonsanalyse av data

    I denne veiledningen vil vi følge og bruke data fra et kurs om enkel lineær og multippel regresjon ved Saint Leo University (link to original article). Datasettet inneholder (fiktiv) salgspris, antall kvadratmeter, antall soverom og alder (i år) på hus solgt i et nabolag de siste seks månedene.

    Example data

    Vår oppgave er å finne en modell som predikerer salgsprisen (avhengig variabel) basert på de uavhengige variablene kvadratmeter, antall soverom og alder.

    Ved å gjøre regresjonsanalyse på dette datasettet vil vi forsøke å besvare spørsmålene:

    Hvilke uavhengige variabler vil ha størst effekt på salgsprisen? Vil det være antall kvadratmeter, antall soverom eller husets alder? Vil vi få en bedre tilpasning hvis vi inkluderer alle de tre uavhengige variablene, og hvis ikke, hvilke to uavhengige variabler bør vi velge?

    Regresjonsanalyse er en teknikk som brukes til å vurdere hvilke variabler som påvirker hverandre matematisk. Den kan løse spørsmål som f.eks: Hvilke egenskaper er de mest innflytelsesrike? Hvilke komponenter kan man se bort fra? Hvordan samvirker disse egenskapene med hverandre? Og, kanskje viktigst av alt, hvor pålitelige er vi med hensyn til alle disse aspektene?

    Regresjonsanalyse med SigmaPlot

    1. Import av data til SigmaPlot

    I dette tilfellet hadde jeg bare tilgang til PDF-dokumentet fra Saint Leo University og ikke tilgang til datafilen. For å unngå å kaste bort tid på å legge inn dataene manuelt i et SigmaPlot-regneark, brukte jeg vår PDF-administrasjonsprogramvare, FineReader PDFsom har et skjermbilde-leseverktøy som kan trekke ut datatabeller direkte fra et hvilket som helst skjermbilde til Microsoft Excel.

    • FineReader PDF: Tools > Screenshot reader > [Send: Table to Excel]

    There are probably free tools out there doing the same. Try googling “screen capture data tables”. A decent screen-capturing tool is necessary when gathering data from different (old) sources. I can also recommend the screen-capturing tool Snagit for grabbing text from documents and images.

    SigmaPlot spiller godt sammen med Microsoft Excel, så når jeg har dataene i Excel-arket mitt, kan jeg enkelt kopiere og lime dem inn i SigmaPlot-regnearket mitt. Dette limer imidlertid inn kolonnetitlene i den første raden og ikke i SigmaPlots kolonneoverskrift/titler. For å flytte dem opp i kolonnetittelfeltet:

    1. Velg alle data ved å klikke på regnearkets hjørnecelle (øverst til venstre) i SigmaPlot-regnearket.
    2. SigmaPlot [Worksheet]: Titles > Promote row [1] to titles > [Promote]

    En annen måte å gjøre dette på er å importere Excel-filen til SigmaPlot-prosjektet ditt.

    1. SigmaPlot-knappen (øverst til venstre): File import > Fie limport > Naviger til Excel-filen og åpne den.

    2. Visualiser dataene dine i SigmaPlot

    Visualisering av dataene dine er et avgjørende skritt for å forstå og tolke resultatene dine. Med SigmaPlot har du et kraftig verktøy som kan hjelpe deg med å visualisere dataene dine effektivt og få en bedre forståelse av resultatene dine. Enten du vil lage enkle spredningsdiagrammer, histogrammer eller komplekse 3D-overflater.

    SigmaPlot scatter plots with regression lines

    La oss visualisere kvadratmeterne og alder vs. pris.

    1. SigmaPlot [Create graph]: Scatter > Simple Scatter – Regression
    2. Choose XY pair > Next
    3. Click X in the “Selected columns” field, and then click the top of your Square footage column in your worksheet, or select “2-Square footage” in the “Data for X” drop-down menu.
    4. Click Y in the “Selected columns” field, and then click the top of the Price column in your worksheet, or select “1-Price” in the “Data for Y” drop-down menu.
    5. Click Finish to create a scatter plot with a regression line in SigmaPlot.
    6. Bytt tilbake til dataarket i SigmaPlot, og gjør det samme igjen, men denne gangen velger du "4-Age" for "Data for X".
    7. Du skal nå ha en grafside med to punktdiagrammer oppå hverandre i SigmaPlot. Høyreklikk på grafsiden og velg "Layouts" > "2 up, 3.5″ x 3.5″ landscape".

    Vær oppmerksom på at du ganske enkelt kan dobbeltklikke på et hvilket som helst element på grafsiden for å redigere det. Dobbeltklikk f.eks. på tittelen for å endre tittelteksten for hver av grafene dine, dobbeltklikk på en akse for å endre etiketter og avkrysninger, eller klikk og dra i forklaringsboksene for å plassere dem under "X-data"-teksten.

    3. Analyser dataene dine og finn den beste undergruppen for regresjonen.

    Å finne det beste delsettet med data for regresjonsanalyse er et viktig skritt for å sikre nøyaktigheten og robustheten til resultatene dine. I vårt tilfelle har vi tre undergrupper, de tre uavhengige variablene: Kvadratmeter, antall soverom og alder. Hvilke av disse korrelerer mest med prisen, og er de alle relevante for studien vår?

    Best subset regression analysis

    SigmaPlot tilbyr en rekke diagnostiske verktøy som lar deg identifisere innflytelsesrike observasjoner og kontrollere forutsetningene for regresjonsmodellen din. Disse verktøyene kan hjelpe deg med å avgrense analysen og forbedre robustheten til resultatene dine. I dette tilfellet vil vi bruke analyseverktøyet "Best Subset Regression".

    1. SigmaPlot [Analysis]: Tests > Regressions > Best Subset…
    2. Velg "Pris" som avhengig variabel, og velg deretter Kvadratmeter, Soverom og Alder som uavhengige variabler for denne testen.
    3. Klikk på Finnish for å opprette rapporten i SigmaPlot.

    Når vi leser rapporten, finner vi at den beste undergruppen for våre regresjonsdata er:

    • One variable (simple linear regression): Age
    • Two variables (multiple linear regression): Square footage and Age

    Og Best Subset-rapporten viser at vi ikke får en bedre regresjonsmodell ved å inkludere variabelen antall soverom. R-kvadrat er lik for bruk av 2 vs 3 uavhengige variabler, men justert R-kvadrat er høyere for bruk av bare de to variablene, kvadratmeter og alder.

    4. Enkel lineær regresjon ved hjelp av SigmaPlots regresjonsveiviser

    Enkel lineær regresjon er en teknikk der korrelasjonen mellom en avhengig og uavhengig variabel analyseres etter ligningen Y = mX + b.

    Den enkle lineære modellen uttrykkes ved hjelp av følgende ligning:

    • Y = y0 + aX + ϵ

    Hvor:

    • Y er den avhengige variabelen
    • X er den uavhengige (forklarende) variabelen
    • y0 er Y-aksens skjæringspunkt
    • a er helningen på regresjonslinjen
    • ϵ er residualen (feilen).
    SigmaPlot graph with 95% confidence and prediction bands.

    Følg disse trinnene for å utføre en enkel lineær regresjon ved hjelp av SigmaPlot og regresjonsveiviseren:

    1. Start SigmaPlot og importer eller lim inn regnearket med dataene dine.
    2. I menyen "Analyse" velger du "Regression Wizard". Dette vil åpne regresjonsveiviseren.

      Vær oppmerksom på at SigmaPlot Regression Wizard inneholder hundrevis av modeller å velge mellom. Modellene er pent kategorisert etter ligningstype, og når du velger en av modellene, får du en fin visuell fremstilling av ligningen og grafen.
    3. Velg "Polynomial" som ligningskategori og "Linear" som ligningsnavn. Dette er den typen regresjonsanalyse vi ønsker å utføre.
    4. Klikk på Next for å gå til det neste trinnet, der vi velger våre uavhengige og avhengige variabler.
    5. Velg de to variablene du vil bruke i regresjonsanalysen. Den første variabelen vil være den uavhengige variabelen, Square footage (Kvadratfot), og den andre variabelen vil være den avhengige variabelen, Price (Salgspris).

      Vær oppmerksom på at du kan klikke på en variabel i feltet "Variabler", velge den valgte datakolonnen i rullegardinmenyen Variabelkolonner ovenfor, eller bare klikke på en kolonne i regnearket for å velge data.
    6. Når du har valgt Kvadratmeter som x-variabel og Pris som y-variabel, klikker du på Next.
    7. I det tredje trinnet finner du informasjon om antall iterasjoner SigmaPlot brukte for å finne regresjonsverdiene for ligningen din, og R-kvadrat, summen av kvadratet, y0 og a-verdier beregnet av SigmaPlot.
    8. Klikk på Next for å gå til neste trinn.
    9. I det fjerde trinnet kan du angi eventuelle tilleggsresultater og alternativer for regresjonsanalysen, for eksempel om du vil inkludere en rapport og restverdier i regresjonsanalysen.
    10. Klikk på Next for å gå til neste trinn.
    11. I det femte trinnet velger du hvordan du vil vise resultatgrafen. Du kan velge å legge til 95 % konfidens- og prediksjonsbånd, utvide tilpasningen og om du vil legge til ligningen i grafens tittel.
    12. Klikk på "Finish" for å fullføre regresjonsanalysen og vise resultatene.

    SigmaPlot vil lage et spredningsdiagram av dataene dine med regresjonstilpasningslinjen og 95 % konfidens- og prediksjonsbånd hvis du velger dette. Hvis du velger SigmaPlot for å lage en rapport, vil du også finne regresjonsrapportarket med alle statistiske testresultater for analysen din.

    Dette er en grunnleggende oversikt over hvordan du utfører en enkel lineær regresjon i SigmaPlot ved hjelp av regresjonsveiviseren. For mer detaljert informasjon og alternativer, se brukerveiledningen eller hjelpefilen for SigmaPlot.

    5. Multippel lineær regresjon med SigmaPlot

    I mange situasjoner kan det hende at en enkelt variabel ikke er tilstrekkelig til å forklare variasjonen i Y. En multivariat lineær regresjon kan da gjennomføres for å evaluere effekten av flere variabler på resultatet.

    I en multivariabel regresjonsmodell beskrives den avhengige variabelen Y som en lineær kombinasjon av de uavhengige variablene til X, gitt ved: Y = a + b1X1 + b2X2 +…+ bn*Xn.

    Multippel lineær regresjonsanalyse er i hovedsak lik enkel lineær regresjon, bortsett fra at det brukes flere uavhengige variabler i modellen. Multippel lineær regresjon følger de samme betingelsene som den enkle lineære modellen, men vær oppmerksom på at de uavhengige variablene bør vise et minimum av korrelasjon. Hvis de uavhengige variablene er sterkt korrelert, vil det være vanskelig å måle forholdet mellom de avhengige og uavhengige variablene nøyaktig.

    Subset-regresjonsanalysen for våre data viste at de beste uavhengige variablene å bruke var kvadratmeter og alder, så vi vil bruke disse to variablene for vår multiple regresjonsanalyse med SigmaPlot i det følgende.

    1. SigmaPlot [Analysis] > Tests > Regression > Multiple Linear
    2. Velg "Price" som avhengig variabel og "Square footage" (areal) og "Age" (alder) som de to uavhengige variablene.
    3. Klikk på Finish for å få den statistiske regresjonsrapporten i SigmaPlot.

      Vær oppmerksom på at siden vi bare har to uavhengige variabler, kan du også lage en graf over dataene dine.
    4. Velg regnearket "Multiple Regression Report".
    5. SigmaPlot [Analyse]: Create Result Graph > Velg "3D Scatter and Mesh" i listen Select Result Graph, og klikk OK.

      Vær oppmerksom på at du kan dobbeltklikke på grafen og velge "Rotation" for å endre rotasjon og perspektiv ved å dra i håndtakene.

    Konklusjon

    Regresjonsanalyse ved hjelp av SigmaPlot kan gi verdifull innsikt i forholdet mellom to eller flere variabler. Et viktig poeng med analysen er at resultatene fra regresjonsmodellen kan brukes til å forutsi den avhengige variabelens fremtidige verdier basert på den uavhengige variabelens verdier.

    I tillegg kan koeffisientverdiene og p-verdiene fra regresjonsanalysen brukes til å bestemme betydningen av hver uavhengige variabel for å forklare variasjonen i den avhengige variabelen. Det er viktig å vurdere forutsetningene om linearitet, homoskedastisitet og normalitet nøye og vurdere variablene eller bruke ikke-lineære regresjonsmetoder dersom disse forutsetningene ikke er oppfylt.