Sisältö
Klusterianalyysi on menetelmä tietojen järjestämiseksi edustaviin ryhmiin samanlaisten ominaisuuksien perusteella. Jokaisella klusterin jäsenellä on enemmän yhteistä saman klusterin muiden jäsenten kanssa kuin muiden ryhmien jäsenillä. Ryhmän edustavinta pistettä kutsutaan centroidiksi. Yleensä tämä on klusterin datapisteiden arvojen keskiarvo.
Järjestä tiedot. Jos tiedot koostuvat yhdestä muuttujasta, histogrammi saattaa olla sopiva. Jos kyseessä on kaksi muuttujaa, piirrä tiedot koordinaattitasolle. Jos esimerkiksi tarkastelet luokkahuoneessa olevien koululaisten pituutta ja painoa, piirrä kunkin lapsen tietopisteet graafille siten, että paino on vaaka-akseli ja korkeus on pystyakseli. Jos kyseessä on enemmän kuin kaksi muuttujaa, tietojen näyttämiseksi voidaan tarvita matriiseja.
Ryhmitä tiedot klustereihin. Jokaisen klusterin tulisi koostua sitä lähinnä olevista datapisteistä. Ryhmitä pituus- ja painoesimerkissä kaikki datapisteet, jotka näyttävät olevan lähellä toisiaan. Klusterien lukumäärä ja sen, onko jokaisen datapisteen oltava klusterissa, voi riippua tutkimuksen tarkoituksista.
Lisää jokaiselle klusterille kaikkien jäsenten arvot.Esimerkiksi, jos dataryhmä koostuisi pisteistä (80, 56), (75, 53), (60, 50) ja (68,54), arvojen summa olisi (283, 213).
Jaa kokonaismäärä klusterin jäsenmäärällä. Yllä olevassa esimerkissä 283 jaettuna neljällä on 70,75 ja 213 jaettuna neljällä on 53,25, joten klusterin keskikohta on (70,75, 53,25).
Piirrä klusterin keskikohdat ja määritä, ovatko jotkin kohdat lähempänä toisen klusterin keskikohtaa kuin oman klusterin keskipisteessä. Jos jokin pisteistä on lähempänä toista keskikohtaa, jaa ne uudelleen klusteriin, joka sisältää lähempän keskikohdan.
Toista vaiheet 3, 4 ja 5, kunnes kaikki datapisteet ovat klusterissa, joka sisältää sen keskiasteen, johon ne ovat lähinnä.