Sisältö
- Lineaarinen regressio on rajoitettu lineaarisiin suhteisiin
- Vain lineaarinen regressio näyttää riippuvaisen muuttujan keskiarvosta
- Lineaarinen regressio on herkkä poikkeaville
- Tietojen on oltava riippumattomia
Lineaarinen regressio on tilastollinen menetelmä riippuvaisen muuttujan välisen suhteen tutkimiseksi y, ja yksi tai useampi riippumaton muuttuja, merkitty x. Riippuvan muuttujan on oltava jatkuvaa, jotta se voi ottaa minkä tahansa arvon tai ainakin lähellä jatkuvaa. Riippumattomat muuttujat voivat olla mitä tahansa tyyppiä. Vaikka lineaarinen regressio ei voi itsessään osoittaa syy-yhteyttä, riippumattomat muuttujat vaikuttavat yleensä riippuvaiseen muuttujaan.
Lineaarinen regressio on rajoitettu lineaarisiin suhteisiin
Lineaarinen regressio tarkastelee luonteeltaan vain lineaarisia suhteita riippuvien ja riippumattomien muuttujien välillä. Toisin sanoen oletetaan, että niiden välillä on suora yhteys. Joskus tämä on väärin. Esimerkiksi tulojen ja iän välinen suhde on kaareva, ts. Tuloilla on taipumus nousta aikuisen varhaisessa vaiheessa, tasoittua myöhemmässä aikuisuudessa ja vähentyä ihmisten jäädessä eläkkeelle. Voit selvittää, onko tämä ongelma, tarkastelemalla suhteiden graafisia esityksiä.
Vain lineaarinen regressio näyttää riippuvaisen muuttujan keskiarvosta
Lineaarisella regressiolla tarkastellaan suhdetta riippuvaisen muuttujan keskiarvon ja riippumattomien muuttujien välillä. Jos tarkastellaan esimerkiksi imeväisten syntymäpainon ja äitiominaisuuksien, kuten iän, suhdetta, lineaarisella regressiolla tarkastellaan eri-ikäisille äideille syntyneiden vauvojen keskimääräistä painoa. Joskus sinun on kuitenkin tarkasteltava riippuvaisen muuttujan ääripisteitä, esimerkiksi vauvat ovat vaarassa, kun niiden paino on pieni, joten sinun kannattaa tarkastella tämän esimerkin ääripäätä.
Aivan kuten keskiarvo ei ole täydellinen kuvaus yhdestä muuttujasta, lineaarinen regressio ei ole täydellinen kuvaus muuttujien välisistä suhteista. Voit hoitaa tämän ongelman käyttämällä kvantilista regressiota.
Lineaarinen regressio on herkkä poikkeaville
Poikkeamat ovat yllättäviä tietoja. Poikkeamat voivat olla yksimuuttujia (yhden muuttujan perusteella) tai monimuuttujia. Jos tarkastelet ikää ja tuloja, yksimuuttujat ovat esimerkiksi 118-vuotias henkilö tai viime vuonna 12 miljoonaa dollaria saanut henkilö. Monimuuttujapoikkeama olisi 18-vuotias, joka ansaitsi 200 000 dollaria. Tässä tapauksessa ikä tai tulot eivät ole kovin äärimmäisiä, mutta vain harvat 18-vuotiaat ansaitsevat niin paljon rahaa.
Poikkeamilla voi olla valtavia vaikutuksia regressioon. Voit hoitaa tämän ongelman pyytämällä vaikutustilastoja tilasto-ohjelmistolta.
Tietojen on oltava riippumattomia
Lineaarinen regressio olettaa, että tiedot ovat riippumattomia. Tämä tarkoittaa, että yhden aiheen (kuten ihmisen) pistemäärällä ei ole mitään tekemistä toisen tutkijan pistemäärän kanssa. Tämä on usein, mutta ei aina, järkevää. Kaksi yleistä tapausta, jossa sillä ei ole järkeä, ovat ryhmittymät tilassa ja ajassa.
Klassinen esimerkki avaruusryhmittelystä on oppilaiden testitulokset, kun sinulla on oppilaita eri luokista, luokista, kouluista ja koulupiireistä. Saman luokan oppilaat ovat yleensä monin tavoin samanlaisia, ts. He ovat lähtöisin usein samoista alueista, heillä on samat opettajat jne. Siksi he eivät ole riippumattomia.
Esimerkkejä ryhmittelystä ajallaan ovat kaikki tutkimukset, joissa mitataan samat kohteet useita kertoja. Esimerkiksi ruokavalion ja painon tutkimuksessa saatat mitata jokaisen henkilön useita kertoja. Nämä tiedot eivät ole riippumattomia, koska se, mitä ihminen painaa yhdellä kertaa, liittyy siihen, mitä hän painaa muissa tilanteissa. Yksi tapa käsitellä tätä on monitasoiset mallit.