Sisältö
Yritystoiminta, hallitus ja akateeminen toiminta vaativat melkein aina tietojen keräämistä ja analysointia. Yksi tapa edustaa numeerista tietoa on graafien, histogrammien ja kaavioiden avulla. Näiden visualisointitekniikoiden avulla ihmiset voivat saada paremman kuvan ongelmista ja suunnitella ratkaisuja. Aukot, klusterit ja poikkeamat ovat tietojoukkojen ominaispiirteitä, jotka vaikuttavat matemaattiseen analyysiin ja ovat helposti nähtävissä visuaalisissa esityksissä.
Reiät datassa
Aukot viittaavat tietokokonaisuuden puuttuviin alueisiin. Esimerkiksi, jos tieteellinen koe kerää lämpötilatietoja alueella 50 - 100 astetta Fahrenheit-astetta, mutta ei mitään välillä 70 - 80 astetta, se merkitsisi aukkoa tietojoukossa. Tämän tietojoukon viivapiirroksella olisi "x" -merkit lämpötiloille välillä 50 - 70 ja jälleen välillä 80 - 100, mutta mitään ei olisi välillä 70 - 80. Tutkijat voivat kaivaa syvemmälle ja tutkia miksi tietyt tietopisteet eivät näy kerätystä näytteestä.
Eristetyt ryhmät
Klusterit ovat erillisiä tietopisteiden ryhmiä. Rivikaaviot, jotka ovat yksi tapa edustaa tietojoukkoja, ovat rivejä, joissa "x" -merkit on sijoitettu tiettyjen numeroiden yläpuolelle, jotta ne kuvaavat niiden esiintymistiheyttä tietojoukossa. Ryhmä on kuvattu kokoelmana näistä "x" -merkeistä pienellä aikavälillä tai tietojoukossa. Esimerkiksi, jos 10 opiskelijan luokan tenttipisteet ovat 74, 75, 80, 72, 74, 75, 76, 86, 88 ja 73, eniten "x" -merkkejä viivapiirroksessa olisi 72- välillä 76 pistettä. Tämä edustaa tieto klusteria. Huomaa, että taajuus 74 ja 75 on kaksi, mutta kaikissa muissa pistemäärissä se on yksi.
Äärimmäisissä
Poikkeamaarvot ovat ääriarvoja - tietopisteitä, jotka sijaitsevat huomattavasti tietojoukon muiden arvojen ulkopuolella. Poikkeuksen on oltava merkittävästi pienempi tai suurempi kuin suurin osa tietojoukon numeroista. "Äärimmäisen" määritelmä riippuu olosuhteista ja tutkimukseen osallistuneiden analyytikkojen yksimielisyydestä. Poikkeamat voivat olla huonoja tietopisteitä, joita kutsutaan myös kohinaksi, tai ne voivat sisältää arvokasta tietoa tutkittavasta ilmiöstä ja itse tiedonkeruumenetelmistä. Esimerkiksi, jos luokkapisteet ovat enimmäkseen 70–80, mutta muutama pistemäärä on alhaisilla 50-luvulla, ne saattavat edustaa poikkeavuuksia.
Kokoa kaikki yhdessä
Aineistojen aukot, poikkeamat ja klusterit voivat vaikuttaa matemaattisen analyysin tuloksiin. Puutteet ja klusterit voivat edustaa virheitä tiedonkeruumenetelmässä. Esimerkiksi, jos puhelinkysely kysyy vain tiettyjä suuntanumeroita, kuten matalan tulotason asuntoalueita tai huippuluokan esikaupunkialueita, eikä laaja poikkileikkaus väestöstä, tiedoissa on aukkoja ja klustereita . Poikkeavat voivat vääristää tietojoukon keskiarvoa tai keskiarvoa. Esimerkiksi neljästä luvusta - 50, 55, 65 ja 90 koostuvan tietojoukon keskiarvo tai keskiarvo on 65. Ilman ulkopuolista 90 keskiarvo on kuitenkin noin 57.