Sisältö
Klusterianalyysi ja tekijäanalyysi ovat kaksi data-analyysin tilastollista menetelmää. Näitä kahta analyysimuotoa käytetään runsaasti luonnontieteissä ja käyttäytymistieteissä. Sekä klusterianalyysi että tekijäanalyysi sallivat käyttäjän ryhmitellä tiedot osista "klusteriin" tai "tekijöihin" analyysityypistä riippuen. Jotkut klusteri- ja tekijäanalyysimenetelmiin tutustuneet tutkijat saattavat tuntea, että nämä kaksi analyysityyppiä ovat kaiken kaikkiaan samanlaiset. Vaikka klusterianalyysi ja tekijäanalyysi vaikuttavat pinnalta samanlaisilta, ne eroavat monin tavoin, mukaan lukien niiden yleiset tavoitteet ja sovellukset.
Tavoite
Klusterianalyysillä ja tekijäanalyysillä on eri tavoitteet. Tekijäanalyysin tavallinen tavoite on selittää korrelaatio tietojoukossa ja suhteuttaa muuttujia toisiinsa, kun taas klusterianalyysin tavoitteena on käsitellä jokaisen tietojoukon heterogeenisyyttä. Hengessä klusterianalyysi on eräänlainen luokittelu, kun taas tekijäanalyysi on yksinkertaistamisen muoto.
Monimutkaisuus
Monimutkaisuus on yksi kysymys, jossa tekijäanalyysi ja klusterianalyysi eroavat toisistaan: tietojen koko vaikuttaa kuhunkin analyysiin eri tavalla. Kun tietojoukko kasvaa, klusterianalyysistä tulee laskennallisesti korvaamaton. Tämä on totta, koska klusterianalyysissä olevien tietopisteiden lukumäärä liittyy suoraan mahdollisten klusterijärjestelmien määrään. Esimerkiksi tapoja jakaa kaksikymmentä objektia neljään samankokoiseen klusteriin on yli 488 miljoonaa. Tämä tekee mahdottomaksi suorat laskennalliset menetelmät, mukaan lukien menetelmäluokka, johon tekijäanalyysi kuuluu.
Ratkaisu
Vaikka sekä tekijäanalyysin että klusterianalyysin ongelmien ratkaisut ovat jossain määrin subjektiivisia, tekijäanalyysi antaa tutkijalle mahdollisuuden löytää "paras" ratkaisu siinä mielessä, että tutkija voi optimoida tietyn osan ratkaisusta (ortogonaalisuus, helppous tulkinta ja niin edelleen). Tämä ei ole niin klusterianalyysissä, koska kaikki algoritmit, jotka saattavat tuottaa parhaan klusterianalyysiratkaisun, ovat laskennallisesti tehottomia. Siksi klusterianalyysiä käyttävät tutkijat eivät voi taata optimaalista ratkaisua.
Sovellukset
Faktorianalyysi ja klusterianalyysi eroavat toisistaan siinä, miten niitä sovelletaan todelliseen dataan. Koska tekijäanalyysillä on kyky vähentää raskas muuttujajoukko paljon pienemmäksi tekijäjoukkoksi, se soveltuu monimutkaisten mallien yksinkertaistamiseen. Faktorianalyysillä on myös varmentava käyttö, jossa tutkija voi kehittää joukon hypoteeseja siitä, kuinka datan muuttujat liittyvät. Tutkija voi sitten suorittaa tekijäanalyysin tietojoukosta näiden hypoteesien vahvistamiseksi tai kieltämiseksi. Ryhmäanalyysi puolestaan soveltuu luokittelemaan esineitä tiettyjen kriteerien perusteella. Esimerkiksi tutkija voi mitata vasta löydettyjen kasvien ryhmän tiettyjä piirteitä ja sijoittaa nämä kasvit lajiluokkiin klusterianalyysin avulla.