Kuvien tulkinta

BayMiner-menetelmän ydin on löytää "samanlaisuutta" ja sen jälkeen tunnistaa - kaikki muuttujat yhtäaikaa huomioiden - mitkä muuttujat ovat tärkeitä, jotta tiedetään, mihin kannattaa suunnata kehitystoimenpiteet. "Samanlaisuuden mittaa" lasketaan monimutkaisella algoritmillä.

Pisteet sijoitetaan lähelle toisiaan käyttäen BayesIT:n omaa, patentoitua menetelmää. Siinä oleellisena osana on uusi ainutlaatuinen "samanlaisuuden mitta", jonka ansiosta menetelmä toimii akselittomana 3D-esityksenä. Tämä "samanlaisuuden mitta" siis määrää, miten etäällä pisteet ovat toisistaan.

Tavalliset 3D-visualisoinnit ovat akseliperustaisia, eli kuvaan otetaan 3 muuttujaa, joiden arvot sijoitetaan X-, Y- ja Z- akseleille. BayMiner-kuva on akseliton, koska se ottaa kaikki muuttujat huomioon yhtä aikaa.

Yleisiä sääntöjä

  • Jos ensimmäisessä kuvassa (Malli:yleinen) on selkeitä eri värisiä joukkoja, analysoitava data sisältää paljon informaatiota ja erottautuvat pistejoukot edustavat klustereita eli eri ”tyyppejä” .
  • Jos pisteet ovat kovin hajallaan ja selkeästi erottautuvia pistejoukkoja ei löydy, datassa ei ole paljon informaatiota. Kaivamalla (suurenna ja käännä kuvaa) voi löytää pieniä joukkoja jotka kuvaavat ”tyypillisiä” tapauksia.
  • Jos kuva muodostaa paksun viivan, jossa päät ovat selkeästi eri värisiä, tapaukset ovat keskenään melko samanlaisia, mutta joku tai muutama muuttuja vaihtelee suuresti. Vaihtoehtoisesti moni muuttuja sisältää samaa tietoa.
  • Jos kuvassa on ”alkuräjähdyksen” piirteitä (eri värisiä janoja, jotka tuntuvat tulevan keskustasta ulospäin), datassa on joukkoja, joiden keskenään samanlaisia tapauksia erottaa vain muutama muuttuja, joiden arvot ovat lähellä toisiaan. Vaihtoehtoisesti kuvan laskenta on jäänyt kesken.
  • Jos kuva on lähes pallo ja värit sekaisin ilman selviä kuvioita, data on lähes satunnaista.
  • Kuvan pituus/leveys-suhde kertoo siitä, miten paljon datassa on jossain määrin korreloivaa dataa. Mitä useammat muuttujia ovat riippuvaisia samasta ilmiöstä, sitä kapeampi ja pitempi kuva on.
  • Jos datassa on sekä laskettuja arvoja että niitä tekijöitä, joista ne on laskettu, syntyy helposti selviä erillisiä klustereita.

Yleissääntönä voi sanoa, että mitä "mielenkiintoisempi kuvio", sitä enemmän informaatiota mallissa on. Usein tulos ei kuitenkaan tunnu käyttökelpoiselta, koska data on puutteellista, ei sisällä aidosti käyttökelpoista tietämystä tai dataa ei ole riittävästi. Kannattaa jatkaa kokeiluja, yleensä sekä malli että oma tuntemus paranee ja tulosta alkaa näkymään muutaman kokeilun jälkeen.

Jos ensimmäinen kuva vaikuttaa sekavalta, kannattaa tarkistaa että taulukon ensimmäinen muuttuja ei ole joku järjestysnumero tai vastaavaa muuttuja jossa ei varsinaisesti ole informaatiota. BayMiner käyttää taulukon ensimmäistä muuttujaa aloitusväritykseen!

Alustavan perehtymisen jälkeen kannattaa kokeilla omalla datalla, se selkeyttää huomattavasti BayMiner-menetelmän käyttöä ja sen tarjoamia mahdollisuuksia ratkoa vaikeitakin ongelmia. Siinä yhteydessä kannattaa tutkia kuvien tulkintaa syvällisemmin

Esimerkkitulkintoja

Visualisointeja ei ole tehty todellisesta datasta, ellei toisin mainita.

Helppoja tapauksi

Kuva Selitys Lisätietoja
Melko selkeä klusterointi. Yksi ryhmä on poikkeuksellisen selvä (punainen kärki).  
Poikkeuksellisen selvä klusterointi. Kuvassa on joukko sairaustapauksia, joiden oireet eroavat toisistaan hyvin selvästi. Keskellä olevat kolme sairautta (siniset, punaiset ja tummanvihreät) ovat selvästi enemmän samanlaisia kuin etäämpänä olevat sairaudet.
Lähes kaikki tapaukset kuuluvat samaan ryhmään, ja näitä samanlaisia on niin paljon, että ne muodostavat läpinäkymättömän keskipisteen.  
Esimerkki käytännössä usein esiintyvästä klusteroinnista. Eri väriset joukot muodostavat melko selkeitä ryhmiä, mutta ne ovat lomittain päällekkäin. Tiiviimmät kohdat kussakin värikentässä kuvaavat tyypillistä tapausta.  
Datasta, jossa on joku useaan muuttujaan erittäin voimakkaasti korreloiva "päämuuttuja", syntyy usein "viiva", jossa ääritapaukset kerääntyvät päihin. Autodata, jossa auton koko korreloi moottorin, tankin ym. kokoon sekä jonkun verran nopeuteen, kiihtyvyyteen ym.
Yksi ryhmä on ominaisuuksiltaan selvästi erilainen kuin muut. Tässä tapauksessa on luottokelpoisuusdataa ja kärjessä oikealla alhaalla ovat henkilöt (siniset), joilla ei ole mitään omaisuutta, kun taas muilla on omaisuutta, joka on erilaista, joten kuva levenee sen takia.
Pistejanojen syntyminen merkitsee yleensä sitä, että data sisältää suuria määriä muuttujia ja arvoja, jotka ovat hyvin lähellä  toisiaan. Kuvan laskenta voi olla myös kesken tai veisi liian paljon aikaa, joten laskenta on keskeytetty.
Kun esimerkkimäärä on pieni, tässä vain joitakin kymmeniä, klusterointi on yleensä epäselvä. Tässä on keinotekoisesti tuotettu poikkeus, muutama selvä klusteri syntyy muutamasta esimerkistä.
Tyypillinen tilanne, kun datassa ei ole paljon informaatiota.  
Tämän kuvan tuottamassa datassa saattaa olla päällekkäistä informaatiota, kun ryhmät ovat näinkin selkeästi klusteroituneita. Toisaalta ne on helppo lassota ja jatkaa analyysiä. Jos datassa on sekä laskettuja arvoja että niitä tekijöitä, joista ne on laskettu, syntyy helposti selviä erillisiä klustereita.

Keskivaikeita tapauksia

Kuva Selitys Lisätietoja
Kahden rinnakkaisen pistejanan syntyminen merkitsee yleensä sitä, että datassa on yhden keskeisen ilmiön, kuten hinta, koko tai muu, joka siis johtaa pitkulaiseen kuvaan, lisäksi toinen voimakas keskeinen ilmiö tai tekijä, joka erottaa haarat toisistaan. Tässä on kyse autoista, oikealla ylhäällä selvästi näkyvä haarautuma johtuu siitä, että halvoissa autoissa dieselit muodostavat oman ryhmänsä. Jossain määrin ilmiö jatkuu siirryttäessä vasemmalle, mutta muuttuu sitten hajanaiseksi.
Selvä klusterointi, vaikka data on erittäin monimutkaista ja järjestelmä on tuottanut pitkän klusterijonon: laidoilla on selkeitä klustereita, joihin pääsee kiinni. Keskellä olevat hajapisteet saattavat myös  edustaa mittaus- ja sisäänsyöttövirheitä. 
Kuvassa näkee selvästi suunnan, mutta myös sen, että "klusterisarja" kääntyy avaruudessa mikä on oire siitä, että pituutta aiheuttavassa ilmiössä on jotain, joka muuttaa olemustaan ja kääntää muodon niin, että päät taas lähestyvät toisiaan, eli ovat "enemmän samanlaisia".

 

Kuvassa muuttujalle "mukavuusindeksi/CO2"-muuttujalle autodatasta laskettu malli . Selityksenä voisi olla, että mukavuus on eri asia pienissä ja suurissa autoissa.

Ongelmatapauksia

Kuva Selitys Lisätietoja
Esimerkki vaikeasti tulkittavasta datasta. Kuitenkin punaiset ja siniset klusterit eroavat niin selvästi, että kun niiden profiilia tutkii, huomaa melko varmasti selkeitä erikoispiirteitä.  Vasemmalla oleva sininen pieni pystysuuntainen "häntä" on sen verran erikoinen, että sen ymmärtäminen edellyttää alan tuntemusta.
Toinen esimerkki vaikeasti tulkittavasta datasta. Pistejonot kuvaavat yleensä sitä, että jonon muodostavilla tapauksilla on pääpiirteittäin samanlaiset ominaisuudet kuin jonojen päädyissä olevilla tapauksilla, mutta yhden tai muutaman muuttujan kohdalla tapahtuu tasaista siirtymää yhdestä yleisestä arvosta toiseen yleiseen arvoon. Ylempi laajempi kenttä muodostuu "enemmän samanlaisista"  samanlaisista tapauksista, tässä henkilöautoista, kun taas kaksi muuta aluetta kuvaavat pakettiautoja ja busseja.
Yhdelle muuttujalle laskettu ns. suunnattu malli tuottaa usein erikoisempia kuvia kuin kaikkia muuttujia kuvaava suuntaamaton malli. Tämän tulkinta edellyttää jo datan kuvaaman alan ammattitaitoa.

Muita tapauksia

Kuva Selitys Lisätietoja
Kuvassa voisi olla suuremman yrityksen 3 tytäryhtiöitä (eri värit) ja niiden myyntiluvut (yksittäiset pisteet).Tytäryhtiöt sijoittuvat eri puolille ilman varsinaista klusterointia. Ne ovat ts. kokonaisvaltaisesti erilaisia, mikä voisi olla esim. seurausta yritysostosta.

 

Erilaisuus ilmenee siitä, että yleiskuvan onnistuu kääntämään sellaiseen asentoon, että pisteet muodostavat kuvassa omat "vyöhykkeet". Kun värittää pisteet eri muuttujilla (valikko vasemmalla), huomaa nopeasti, missä asioissa tyäryhtiöt ovat/eivät ole vielä konsolidoituneet.


 
Copyright © Bayes Information Technology Oy 2001. All rights reserved. See Legal Notice.
Kommentteja tai palautetta?