Sisältö
Kun tutkijat, taloustieteilijät tai tilastotieteilijät tekevät ennusteita teorian perusteella ja keräävät sitten todellista tietoa, he tarvitsevat tavan mitata ennustettujen ja mitattujen arvojen vaihtelua. Ne luottavat yleensä keskimääräiseen neliövirheeseen (MSE), joka on yksittäisten datapisteiden variaatioiden summa jaettuna neliömetriksi jaettuna datapisteiden määrällä vähennettynä 2. Kun tiedot näytetään kuvaajassa, määrität MSE: n summaamalla pystyakselin datapisteiden variaatiot. X-y-kuvaajassa nämä olisivat y-arvoja.
Miksi neliö variaatiot?
Ennustettavien ja havaittujen arvojen välisen variaation kertoamisella on kaksi toivottavaa vaikutusta. Ensimmäinen on varmistaa, että kaikki arvot ovat positiivisia. Jos yksi tai useampi arvo oli negatiivinen, kaikkien arvojen summa voi olla epärealistisesti pieni ja ennustettujen ja havaittujen arvojen todellisen vaihtelun heikko esitys. Toinen neliöinnin etuna on antaa enemmän painoa suuremmille eroille, mikä varmistaa, että MSE: n suuri arvo merkitsee suuria datavaihteluita.
Otoksen laskennan osakealgoritmi
Oletetaan, että sinulla on algoritmi, joka ennustaa tietyn osakkeen hinnat päivittäin. Maanantaina osakekurssi ennustaa olevan 5,50 dollaria, tiistaina 6,00 dollaria, keskiviikko 6,00 dollaria, torstai 7,50 dollaria ja perjantai 8,00 dollaria. Kun otetaan huomioon maanantai päiväksi 1, sinulla on datapiste, joka näyttää tältä: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) ja (5, 8.00). Todelliset hinnat ovat seuraavat: maanantaina 4,75 dollaria (1, 4,75); Tiistaina 5,35 dollaria (2, 5,35); Keskiviikko 6,25 dollaria (3, 6,25); Torstai 7,25 dollaria (4, 7,25); ja perjantai: 8,50 dollaria (5, 8,50).
Näiden pisteiden y-arvojen vaihtelut ovat vastaavasti 0,75, 0,65, -0,25, 0,25 ja -0,50, missä negatiivinen merkki osoittaa havaittua pienemmän ennustetun arvon. Laskeaksesi MSE: n, neliöit ensin jokaisen variaatioarvon, joka eliminoi miinusmerkit ja tuottaa 0,5625, 0,4225, 0,0625, 0,0625 ja 0,25. Kun nämä arvot summataan, saadaan 1,36 ja jakamalla mittausten lukumäärä vähennettynä 2: lla, joka on 3, saadaan MSE, joka osoittautuu 0,45.
MSE ja RMSE
Pienemmät MSE-arvot osoittavat tiiviimmän sopimuksen ennustettujen ja havaittujen tulosten välillä ja MSE 0,0 tarkoittaa täydellistä sopimusta. On kuitenkin tärkeää muistaa, että variaatioarvot ovat neliössä. Kun vaaditaan virhemittaus, joka on samoissa yksiköissä kuin datapisteet, tilastotieteilijät ottavat neliömäisen keskivirheen (RMSE). He saavat tämän ottamalla keskimääräisen neliövirheen neliöjuuren. Yllä olevassa esimerkissä RSME olisi 0,671 tai noin 67 senttiä.