| |
Kuvien tulkinta
BayMiner-menetelmän ydin on löytää "samanlaisuutta" ja sen
jälkeen tunnistaa - kaikki muuttujat yhtäaikaa huomioiden - mitkä muuttujat
ovat tärkeitä, jotta tiedetään, mihin kannattaa
suunnata kehitystoimenpiteet.
"Samanlaisuuden mittaa" lasketaan
monimutkaisella algoritmillä.
Pisteet sijoitetaan lähelle toisiaan käyttäen BayesIT:n omaa, patentoitua
menetelmää. Siinä oleellisena osana on uusi ainutlaatuinen
"samanlaisuuden mitta", jonka ansiosta
menetelmä toimii akselittomana
3D-esityksenä. Tämä "samanlaisuuden mitta" siis määrää, miten
etäällä pisteet ovat toisistaan.
Tavalliset 3D-visualisoinnit ovat akseliperustaisia, eli
kuvaan otetaan 3 muuttujaa, joiden arvot
sijoitetaan X-, Y- ja Z- akseleille.
BayMiner-kuva on akseliton, koska se ottaa kaikki
muuttujat huomioon yhtä aikaa.
Yleisiä sääntöjä
-
Jos ensimmäisessä kuvassa (Malli:yleinen) on selkeitä eri
värisiä joukkoja,
analysoitava data sisältää paljon informaatiota ja
erottautuvat pistejoukot edustavat
klustereita eli eri ”tyyppejä” .
-
Jos pisteet ovat kovin hajallaan ja selkeästi
erottautuvia pistejoukkoja ei löydy,
datassa ei ole paljon informaatiota. Kaivamalla (suurenna
ja käännä kuvaa) voi löytää pieniä joukkoja jotka kuvaavat
”tyypillisiä” tapauksia.
-
Jos kuva muodostaa paksun viivan, jossa päät ovat selkeästi eri värisiä,
tapaukset ovat keskenään melko samanlaisia,
mutta joku tai muutama muuttuja vaihtelee
suuresti. Vaihtoehtoisesti moni muuttuja sisältää samaa tietoa.
-
Jos kuvassa on ”alkuräjähdyksen” piirteitä
(eri värisiä janoja, jotka tuntuvat
tulevan keskustasta ulospäin), datassa
on joukkoja, joiden keskenään samanlaisia tapauksia erottaa
vain muutama muuttuja, joiden arvot ovat lähellä toisiaan.
Vaihtoehtoisesti kuvan laskenta on jäänyt kesken.
-
Jos kuva on lähes pallo ja värit sekaisin ilman
selviä kuvioita, data on lähes satunnaista.
-
Kuvan pituus/leveys-suhde kertoo siitä, miten paljon datassa on jossain
määrin korreloivaa dataa. Mitä useammat
muuttujia ovat riippuvaisia samasta
ilmiöstä, sitä kapeampi ja pitempi kuva on.
-
Jos datassa on sekä laskettuja arvoja että niitä
tekijöitä, joista ne on laskettu, syntyy helposti
selviä erillisiä klustereita.
Yleissääntönä voi sanoa, että mitä "mielenkiintoisempi kuvio",
sitä enemmän informaatiota mallissa on. Usein tulos ei kuitenkaan tunnu
käyttökelpoiselta, koska data on puutteellista, ei
sisällä aidosti käyttökelpoista tietämystä tai
dataa ei ole riittävästi. Kannattaa jatkaa
kokeiluja, yleensä sekä malli että oma
tuntemus paranee ja tulosta alkaa näkymään
muutaman kokeilun jälkeen.
Jos ensimmäinen kuva vaikuttaa sekavalta, kannattaa tarkistaa että
taulukon ensimmäinen muuttuja ei ole joku järjestysnumero tai vastaavaa
muuttuja jossa ei varsinaisesti ole informaatiota. BayMiner käyttää
taulukon ensimmäistä muuttujaa aloitusväritykseen!
Alustavan perehtymisen jälkeen kannattaa kokeilla omalla datalla, se
selkeyttää huomattavasti BayMiner-menetelmän käyttöä ja sen tarjoamia
mahdollisuuksia ratkoa vaikeitakin ongelmia.
Siinä yhteydessä kannattaa tutkia
kuvien tulkintaa syvällisemmin
Esimerkkitulkintoja
Visualisointeja ei ole tehty todellisesta datasta, ellei toisin mainita.
Helppoja tapauksi
| Kuva |
Selitys |
Lisätietoja |
 |
Melko selkeä klusterointi. Yksi ryhmä on
poikkeuksellisen selvä (punainen kärki).
|
|
 |
Poikkeuksellisen selvä klusterointi. |
Kuvassa on joukko sairaustapauksia, joiden oireet
eroavat toisistaan hyvin selvästi.
Keskellä olevat kolme sairautta (siniset, punaiset ja tummanvihreät)
ovat selvästi enemmän samanlaisia kuin etäämpänä olevat sairaudet.
|
 |
Lähes kaikki tapaukset kuuluvat samaan ryhmään, ja näitä
samanlaisia on niin paljon, että ne muodostavat läpinäkymättömän
keskipisteen.
|
|
 |
Esimerkki käytännössä usein esiintyvästä
klusteroinnista. Eri väriset joukot
muodostavat melko
selkeitä ryhmiä, mutta ne ovat lomittain päällekkäin. Tiiviimmät
kohdat kussakin värikentässä kuvaavat tyypillistä tapausta.
|
|
 |
Datasta, jossa on joku useaan muuttujaan erittäin
voimakkaasti korreloiva "päämuuttuja", syntyy usein
"viiva", jossa ääritapaukset kerääntyvät päihin.
|
Autodata, jossa auton koko korreloi moottorin, tankin ym.
kokoon sekä jonkun verran nopeuteen, kiihtyvyyteen ym.
|
 |
Yksi ryhmä on ominaisuuksiltaan selvästi erilainen kuin muut. |
Tässä tapauksessa
on luottokelpoisuusdataa ja kärjessä oikealla alhaalla ovat henkilöt
(siniset), joilla ei ole mitään
omaisuutta, kun taas muilla on omaisuutta,
joka on erilaista, joten kuva
levenee sen takia.
|
 |
Pistejanojen syntyminen merkitsee yleensä sitä, että data sisältää
suuria määriä muuttujia ja arvoja, jotka ovat hyvin lähellä
toisiaan.
|
Kuvan laskenta voi olla myös kesken tai veisi liian
paljon aikaa, joten laskenta on keskeytetty.
|
 |
Kun esimerkkimäärä on pieni, tässä vain joitakin
kymmeniä, klusterointi on yleensä epäselvä.
|
Tässä on keinotekoisesti tuotettu poikkeus,
muutama selvä klusteri syntyy muutamasta esimerkistä.
|
 |
Tyypillinen tilanne, kun datassa ei ole paljon
informaatiota.
|
|
 |
Tämän kuvan tuottamassa datassa saattaa olla
päällekkäistä informaatiota, kun ryhmät
ovat näinkin selkeästi klusteroituneita. Toisaalta ne on helppo lassota
ja jatkaa analyysiä.
|
Jos datassa on sekä laskettuja arvoja että niitä
tekijöitä, joista ne on laskettu, syntyy helposti
selviä erillisiä klustereita.
|
Keskivaikeita tapauksia
| Kuva |
Selitys |
Lisätietoja |
 |
Kahden rinnakkaisen pistejanan syntyminen merkitsee yleensä sitä, että
datassa on yhden keskeisen ilmiön, kuten hinta, koko tai muu, joka siis
johtaa pitkulaiseen kuvaan, lisäksi toinen voimakas keskeinen ilmiö
tai tekijä, joka erottaa haarat toisistaan. |
Tässä on kyse autoista, oikealla ylhäällä selvästi
näkyvä haarautuma johtuu siitä, että halvoissa autoissa dieselit muodostavat oman
ryhmänsä. Jossain määrin ilmiö jatkuu siirryttäessä vasemmalle,
mutta muuttuu sitten hajanaiseksi. |
 |
Selvä klusterointi, vaikka data on erittäin monimutkaista ja
järjestelmä on tuottanut pitkän klusterijonon: laidoilla on selkeitä klustereita,
joihin pääsee kiinni. |
Keskellä olevat hajapisteet saattavat myös edustaa mittaus- ja
sisäänsyöttövirheitä. |
 |
Kuvassa näkee selvästi
suunnan, mutta myös sen, että "klusterisarja" kääntyy avaruudessa
mikä on oire siitä,
että pituutta aiheuttavassa ilmiössä on jotain, joka muuttaa olemustaan
ja kääntää muodon niin, että päät taas lähestyvät toisiaan, eli
ovat "enemmän samanlaisia". |
Kuvassa muuttujalle "mukavuusindeksi/CO2"-muuttujalle
autodatasta laskettu malli . Selityksenä voisi olla, että mukavuus on eri asia pienissä ja
suurissa autoissa. |
Ongelmatapauksia
| Kuva |
Selitys |
Lisätietoja |
 |
Esimerkki vaikeasti tulkittavasta datasta. Kuitenkin
punaiset ja siniset klusterit eroavat niin selvästi, että kun niiden
profiilia tutkii, huomaa melko varmasti selkeitä erikoispiirteitä. |
Vasemmalla oleva sininen pieni pystysuuntainen "häntä" on sen
verran erikoinen, että sen ymmärtäminen edellyttää alan tuntemusta. |
 |
Toinen esimerkki vaikeasti tulkittavasta datasta. Pistejonot
kuvaavat yleensä sitä, että jonon muodostavilla tapauksilla on pääpiirteittäin
samanlaiset ominaisuudet kuin jonojen päädyissä olevilla tapauksilla, mutta yhden
tai muutaman muuttujan kohdalla tapahtuu tasaista siirtymää yhdestä yleisestä
arvosta toiseen yleiseen arvoon. |
Ylempi laajempi kenttä muodostuu "enemmän
samanlaisista" samanlaisista tapauksista, tässä
henkilöautoista, kun taas kaksi muuta aluetta kuvaavat pakettiautoja ja
busseja. |
 |
Yhdelle muuttujalle laskettu ns. suunnattu malli tuottaa usein erikoisempia
kuvia kuin kaikkia muuttujia kuvaava suuntaamaton malli. |
Tämän tulkinta edellyttää jo datan kuvaaman alan ammattitaitoa. |
Muita tapauksia
| Kuva |
Selitys |
Lisätietoja |
|
|
|
 |
Kuvassa voisi olla suuremman yrityksen 3
tytäryhtiöitä (eri värit) ja niiden myyntiluvut (yksittäiset pisteet).Tytäryhtiöt sijoittuvat eri
puolille ilman varsinaista klusterointia. Ne ovat ts. kokonaisvaltaisesti erilaisia,
mikä voisi olla esim.
seurausta yritysostosta.
|
Erilaisuus ilmenee siitä, että yleiskuvan
onnistuu kääntämään sellaiseen asentoon, että pisteet muodostavat kuvassa omat
"vyöhykkeet". Kun
värittää pisteet eri muuttujilla (valikko vasemmalla), huomaa nopeasti, missä asioissa
tyäryhtiöt ovat/eivät ole vielä konsolidoituneet. |
|
|