Introduksjon til regresjonsanalyse
Ønsker du å forstå regresjonsanalyse og hvordan den kan hjelpe deg med å bedre forstå forholdet mellom variabler? I denne veiledningen vil jeg vise deg hvordan du gjør enkle lineære og multiple regresjonsanalyser med SigmaPlot. SigmaPlot inneholder mange statistiske metoder og hundrevis av regresjonsligninger å velge mellom, og du kan legge til din egen tilpassede regresjonsligning om nødvendig. Denne veiledningen vil forhåpentligvis gi deg en bedre forståelse av hvordan regresjonsanalyse fungerer og hvordan du kan bruke den i forskningen din.

Regresjonsanalyse er uvurderlig for å få innsikt og ta bedre beslutninger basert på tilgjengelige data mens man undersøker komplekse sammenhenger.
Regresjonsanalyse har fire hovedformål: beskrivelse, estimering, prediksjon og kontroll. Den beskriver forholdet mellom avhengige og uavhengige variabler, muliggjør estimering av den avhengige variabelen basert på observerte uavhengige variabler, forutsier utfall og endringer i den avhengige variabelen basert på forholdet mellom dem, og kontrollerer effekten av en eller flere uavhengige variabler mens den undersøker forholdet mellom en uavhengig variabel og den avhengige variabelen.
Videodemonstrasjon
Typer regresjonsanalyse
Det finnes mange typer regresjonsanalyseblant annet:
Dette er noen av de mest brukte regresjonsanalyseteknikkene, men mange andre kan brukes for spesifikke anvendelser eller formål. Uansett type undersøker alle former for regresjonsanalyse hvordan en eller flere uavhengige variabler påvirker en avhengig variabel.
Lineære regresjonsmodeller, som enkel lineær og multippel lineær, er de vanligste. Men ikke-lineær regresjonsanalyse brukes ofte for mer kompliserte datasett der sammenhengen mellom avhengige og uavhengige variabler ikke er lineær.
Denne veiledningen vil demonstrere hvordan du kan gjøre enkel lineær og multippel lineær regresjon i SigmaPlot. Vi vil bruke eksempeldata om boligpriser fra en artikkel om regresjonsanalyse med Excel. Forhåpentligvis vil du lære noen tips og triks om hvor enkelt og funksjonsrikt dette kan gjøres med SigmaPlot.
For den enkle lineære regresjonen vil vi bruke ligningen:
Og for den multiple lineære regresjonen vil vi bruke ligningen (to uavhengige variabler):
y er den avhengige variabelen, og x, x1 og x2 er de uavhengige variablene.
Ved å gjøre en regresjonsanalyse kan vi finne de ukjente variablene b og a i ligningene ovenfor og deretter beregne den forventede verdien av y (den avhengige variabelen) for en gitt verdi av x (de uavhengige variablene).
Hva er formålet med regresjonsanalyse?
Regresjon er en statistisk teknikk som brukes til å bestemme forholdet mellom variabler i et datasett, slik at man kan evaluere styrken og den statistiske signifikansen av eventuelle sammenhenger. Den kan også brukes til å forutsi fremtidige resultater basert på tidligere hendelser.
Hvorfor kalles det regresjon?
Det kalles regresjon fordi det innebærer å finne den linjen med best tilpasning som beskriver forholdet mellom variablene, ofte referert til som en "regresjonslinje". Regresjonsanalyse tar sikte på å identifisere mønstre i dataene og bruke dem til å forutsi fremtidige resultater.
Hvilke betingelser må være oppfylt for at regresjonsmodellene skal fungere?
Regresjonsanalyse er ganske enkelt en beregning utført på isolerte data. Tolkningen av resultatet av en regresjon som en statistisk meningsfull størrelse som indikerer sammenhenger i den virkelige verden, krever at forskerne gjør en rekke klassiske antakelser, for eksempel:
Hvilke feil gjøres oftest når en utfører regresjonsanalyse?
Det er viktig å huske at bare fordi det er en sammenheng mellom to ting, betyr ikke det nødvendigvis at den ene forårsaker den andre. Dette er en vanlig feil som kalles å forveksle årsak og årsakssammenheng. En vanlig årsak-og-virkningsfeil som involverer salgspriser og kvadratmeter er å anta at et større hus alltid vil gi en høyere salgspris. Dette er et eksempel på en kausalitetsfeil fordi det kan være andre faktorer som påvirker salgsprisen på et hus, for eksempel eiendommens beliggenhet, alder og tilstand. Så vær alltid forsiktig med å komme med årsakspåstander utelukkende basert på korrelasjon - det er ikke alltid så enkelt som det ser ut til!
Unngå å undersøke alle tilgjengelige variabler samtidig. Dette kan føre til at man finner sammenhenger som ikke finnes. Dette konseptet kan sammenlignes med å slå mynt og krone. Hvis du fortsetter å gjøre det mange nok ganger, vil du til slutt finne mønstre som faktisk ikke er reelle, for eksempel et sett med kron og mynt etter hverandre.
Vær forsiktig når du samler inn data, vurder hvordan de samles inn og om du kan stole på dataene.
Det er viktig å ikke se bort fra feilleddet, da dette kan føre til en feilaktig oppfatning av sikkerheten i de analyserte sammenhengene. Regresjonsanalyse kan forklare 90 % av sammenhengen, men det er viktig å huske at resultatene i seg selv er usikre, og de resterende 10 % bør ikke overses.
Det er viktig å stole på magefølelsen og dømmekraften din. Vurder om resultatene stemmer overens med din tidligere forståelse av situasjonen. Hvis noe virker feil, bør du stille spørsmål ved om det skyldes ukorrekte data eller en vesentlig feil. Det er avgjørende å kombinere regresjonsanalyser med observasjoner for å få et fullstendig bilde. De beste forskerne undersøker både data og observasjoner fra den virkelige verden.
Eksempel på regresjonsanalyse av data
I denne veiledningen vil vi følge og bruke data fra et kurs om enkel lineær og multippel regresjon ved Saint Leo University (link to original article). Datasettet inneholder (fiktiv) salgspris, antall kvadratmeter, antall soverom og alder (i år) på hus solgt i et nabolag de siste seks månedene.

Vår oppgave er å finne en modell som predikerer salgsprisen (avhengig variabel) basert på de uavhengige variablene kvadratmeter, antall soverom og alder.
Ved å gjøre regresjonsanalyse på dette datasettet vil vi forsøke å besvare spørsmålene:
Hvilke uavhengige variabler vil ha størst effekt på salgsprisen? Vil det være antall kvadratmeter, antall soverom eller husets alder? Vil vi få en bedre tilpasning hvis vi inkluderer alle de tre uavhengige variablene, og hvis ikke, hvilke to uavhengige variabler bør vi velge?
Regresjonsanalyse er en teknikk som brukes til å vurdere hvilke variabler som påvirker hverandre matematisk. Den kan løse spørsmål som f.eks: Hvilke egenskaper er de mest innflytelsesrike? Hvilke komponenter kan man se bort fra? Hvordan samvirker disse egenskapene med hverandre? Og, kanskje viktigst av alt, hvor pålitelige er vi med hensyn til alle disse aspektene?
Regresjonsanalyse med SigmaPlot
1. Import av data til SigmaPlot
I dette tilfellet hadde jeg bare tilgang til PDF-dokumentet fra Saint Leo University og ikke tilgang til datafilen. For å unngå å kaste bort tid på å legge inn dataene manuelt i et SigmaPlot-regneark, brukte jeg vår PDF-administrasjonsprogramvare, FineReader PDFsom har et skjermbilde-leseverktøy som kan trekke ut datatabeller direkte fra et hvilket som helst skjermbilde til Microsoft Excel.
There are probably free tools out there doing the same. Try googling “screen capture data tables”. A decent screen-capturing tool is necessary when gathering data from different (old) sources. I can also recommend the screen-capturing tool Snagit for grabbing text from documents and images.
SigmaPlot spiller godt sammen med Microsoft Excel, så når jeg har dataene i Excel-arket mitt, kan jeg enkelt kopiere og lime dem inn i SigmaPlot-regnearket mitt. Dette limer imidlertid inn kolonnetitlene i den første raden og ikke i SigmaPlots kolonneoverskrift/titler. For å flytte dem opp i kolonnetittelfeltet:
En annen måte å gjøre dette på er å importere Excel-filen til SigmaPlot-prosjektet ditt.
2. Visualiser dataene dine i SigmaPlot
Visualisering av dataene dine er et avgjørende skritt for å forstå og tolke resultatene dine. Med SigmaPlot har du et kraftig verktøy som kan hjelpe deg med å visualisere dataene dine effektivt og få en bedre forståelse av resultatene dine. Enten du vil lage enkle spredningsdiagrammer, histogrammer eller komplekse 3D-overflater.

La oss visualisere kvadratmeterne og alder vs. pris.
Vær oppmerksom på at du ganske enkelt kan dobbeltklikke på et hvilket som helst element på grafsiden for å redigere det. Dobbeltklikk f.eks. på tittelen for å endre tittelteksten for hver av grafene dine, dobbeltklikk på en akse for å endre etiketter og avkrysninger, eller klikk og dra i forklaringsboksene for å plassere dem under "X-data"-teksten.
3. Analyser dataene dine og finn den beste undergruppen for regresjonen.
Å finne det beste delsettet med data for regresjonsanalyse er et viktig skritt for å sikre nøyaktigheten og robustheten til resultatene dine. I vårt tilfelle har vi tre undergrupper, de tre uavhengige variablene: Kvadratmeter, antall soverom og alder. Hvilke av disse korrelerer mest med prisen, og er de alle relevante for studien vår?

SigmaPlot tilbyr en rekke diagnostiske verktøy som lar deg identifisere innflytelsesrike observasjoner og kontrollere forutsetningene for regresjonsmodellen din. Disse verktøyene kan hjelpe deg med å avgrense analysen og forbedre robustheten til resultatene dine. I dette tilfellet vil vi bruke analyseverktøyet "Best Subset Regression".
Når vi leser rapporten, finner vi at den beste undergruppen for våre regresjonsdata er:
Og Best Subset-rapporten viser at vi ikke får en bedre regresjonsmodell ved å inkludere variabelen antall soverom. R-kvadrat er lik for bruk av 2 vs 3 uavhengige variabler, men justert R-kvadrat er høyere for bruk av bare de to variablene, kvadratmeter og alder.
4. Enkel lineær regresjon ved hjelp av SigmaPlots regresjonsveiviser
Enkel lineær regresjon er en teknikk der korrelasjonen mellom en avhengig og uavhengig variabel analyseres etter ligningen Y = mX + b.
Den enkle lineære modellen uttrykkes ved hjelp av følgende ligning:
Hvor:

Følg disse trinnene for å utføre en enkel lineær regresjon ved hjelp av SigmaPlot og regresjonsveiviseren:
SigmaPlot vil lage et spredningsdiagram av dataene dine med regresjonstilpasningslinjen og 95 % konfidens- og prediksjonsbånd hvis du velger dette. Hvis du velger SigmaPlot for å lage en rapport, vil du også finne regresjonsrapportarket med alle statistiske testresultater for analysen din.
Dette er en grunnleggende oversikt over hvordan du utfører en enkel lineær regresjon i SigmaPlot ved hjelp av regresjonsveiviseren. For mer detaljert informasjon og alternativer, se brukerveiledningen eller hjelpefilen for SigmaPlot.
5. Multippel lineær regresjon med SigmaPlot
I mange situasjoner kan det hende at en enkelt variabel ikke er tilstrekkelig til å forklare variasjonen i Y. En multivariat lineær regresjon kan da gjennomføres for å evaluere effekten av flere variabler på resultatet.
I en multivariabel regresjonsmodell beskrives den avhengige variabelen Y som en lineær kombinasjon av de uavhengige variablene til X, gitt ved: Y = a + b1X1 + b2X2 +…+ bn*Xn.
Multippel lineær regresjonsanalyse er i hovedsak lik enkel lineær regresjon, bortsett fra at det brukes flere uavhengige variabler i modellen. Multippel lineær regresjon følger de samme betingelsene som den enkle lineære modellen, men vær oppmerksom på at de uavhengige variablene bør vise et minimum av korrelasjon. Hvis de uavhengige variablene er sterkt korrelert, vil det være vanskelig å måle forholdet mellom de avhengige og uavhengige variablene nøyaktig.
Subset-regresjonsanalysen for våre data viste at de beste uavhengige variablene å bruke var kvadratmeter og alder, så vi vil bruke disse to variablene for vår multiple regresjonsanalyse med SigmaPlot i det følgende.
Konklusjon
Regresjonsanalyse ved hjelp av SigmaPlot kan gi verdifull innsikt i forholdet mellom to eller flere variabler. Et viktig poeng med analysen er at resultatene fra regresjonsmodellen kan brukes til å forutsi den avhengige variabelens fremtidige verdier basert på den uavhengige variabelens verdier.
I tillegg kan koeffisientverdiene og p-verdiene fra regresjonsanalysen brukes til å bestemme betydningen av hver uavhengige variabel for å forklare variasjonen i den avhengige variabelen. Det er viktig å vurdere forutsetningene om linearitet, homoskedastisitet og normalitet nøye og vurdere variablene eller bruke ikke-lineære regresjonsmetoder dersom disse forutsetningene ikke er oppfylt.