Datan keräykseen, koodaukseen ja esikäsittelyyn liittyviä kysymyksiä
Takaisin usein kysyttyihin kysymyksiin
Paljonko dataa on sopivasti?
Datan oikeaa määrää on vaikea sanoa. Määrää tärkeämpää on se, miten hyvin
data kattaa ongelma-alueen. Esim. asiakastyytyväisyysdata, jossa on vain
tyytyväisiä asiakkaita, ei ole kattava data, jos tutkitaan ketkä ovat
hyviä tai huonoja asiakkaita. Dataa on silloin sopivasti, kun data
kattaa kaikki ongelma-alueeseen liittyvät muuttujat (so. (lähes) kaikista muuttujien
mahdollisista arvoista on ilmentymä datassa).

Vaatiiko BayMiner tietojen hierarkioiden määrittelyä?
BayMiner olettaa, että datan muuttujat ovat toisistaan
riippumattomia. Tämän takia hierarkkista dataa ei saa käyttää
analyysiin.
Lähes kaikki ohjelmistot käyttävät hierarkioita
(esim. alue - asiakasryhmä - asiakas)
mahdollistaakseen mm. kohtuullisen helppokäyttöisen visualisoinnin. Se
kuitenkin usein rajoittaa oleellisesti malliin talletettujen
tietojen käsittelyä.
Vastoin perinteellisten menetelmien, joissa tietojen tarkentaminen on
mahdollista vain hierarkioita käyttämällä, BayMiner pystyy
yhdellä vaiheella saamaan esille kaikki vaikutukset, esim. tietyn
asiakkaan ostamien tuotetietojen.
Hierarkioiden haittana on
lisäksi että ne vaativat huolellisen ennakkosuunnittelun, jotta
loppukäyttäjät ymmärtävät tietojen riippuvuuden. Tämä
yleensä ei edes onnistu koska käsitteet eivät ole
yksiselitteisiä.

Miltä datan tulee näyttää?
Prosessoitavaksi tuleva data pitää olla sarkainerotetussa tekstimuodossa.
Tässä muodossa olevaa dataa voi katsoa Notepad ym. vastaavien
työkalujen kanssa.

Milloin datassa on riittävästi informaatiota?
Tämä on todella vaikea kysymys. Jos malli pystyy ennustamaan suhteellisesti
paremmin kuin alkupeäisestä datasta laskettu todennäköisyys, siinä on
riittävästi informaatiota. Esimerkiksi
Jos esimerkkijoukossa
yhdellä muuttujalla voi olla kaksi arvoa ja kaikkien käytettävissä
olevien esimerkkien jakauma on 60/40 (esim. mies/nainen) ja malli
ennustaa oikein suhteessa 80/20,
voidaan sanoa että malli on hyvä ja datassa riittävästi informaatiota,
koska
se on suhteellisesti kaksi kertaa parempi kuin satunnainen
ennustaminen esim. arpaa käyttäen.

Onko malliin mahdollista tallettaa vapaamuotoista merkkitietoa?
Useimmat data mining -tuotteet pystyvät
käsittelemään vain numeerista tietoa. Raportoitaviin tietoihin
saattaa kuitenkin liittyä runsaasti oleellisesti tärkeää muuta
tietoa, esim. kyselykaavakkeessa olevaan vapaaseen kenttään
kirjoitettuja kommentteja. Tällaiset tiedot voidaan säilyttää ja
ottaa mukaan malliin, mutta niitä ei huomioida laskennassa
huomioda, jos erilaisten kommenttien määrä
ylittää noin 55 kpl. Ne kuitenkin löytyvät mallista analyysin
aikana. Tällaisia voi olla myös esim. asiakkaaseen liittyvät osoitetiedot.
Huomaa, että vapaamuotoiset merkkitiedot, jotka
muodostavat muuttujan arvon, kuten esim. > 22 vuotta, käsitellään aivan
samalla tavalla kuin luvut (esim. 22). Näitä voi olla myös sekaisin saman
muuttujan arvoina eikä se yleensä heikennä mallin laatua.

Pitääkö muuttujien olla datataulukossa tietyssä järjestyksessä?
Järjestyksellä ei ole mitään merkitystä, kun Bayes-verkkoa lasketaan.
Kannattaa kuitenkin sijoittaa ensimmäiseksi muuttujaksi
sellainen, joka on mielenkiintoinen ja sisältää
informaatiota (ei esim. nimi, sarjanumero tai vastaava),
koska ensimmäisenä
avautuva yleismalli väritetään ensimmäisen muuttujan mukaan.

Takaisin usein kysyttyihin kysymyksiin
|