Datan keräykseen, koodaukseen ja esikäsittelyyn liittyviä kysymyksiä

Takaisin usein kysyttyihin kysymyksiin

Paljonko dataa on sopivasti?

Datan oikeaa määrää on vaikea sanoa. Määrää tärkeämpää on se, miten hyvin data kattaa ongelma-alueen. Esim. asiakastyytyväisyysdata, jossa on vain tyytyväisiä asiakkaita, ei ole kattava data, jos tutkitaan ketkä ovat hyviä tai huonoja asiakkaita. Dataa on silloin sopivasti, kun data kattaa kaikki ongelma-alueeseen liittyvät muuttujat (so. (lähes) kaikista muuttujien mahdollisista arvoista on ilmentymä datassa).

Takaisin ylös

Vaatiiko BayMiner tietojen hierarkioiden määrittelyä?

BayMiner olettaa, että datan muuttujat ovat toisistaan riippumattomia. Tämän takia hierarkkista dataa ei saa käyttää analyysiin.

Lähes kaikki ohjelmistot käyttävät hierarkioita (esim. alue - asiakasryhmä - asiakas) mahdollistaakseen mm. kohtuullisen helppokäyttöisen visualisoinnin. Se kuitenkin usein rajoittaa oleellisesti malliin talletettujen tietojen käsittelyä. Vastoin perinteellisten menetelmien, joissa tietojen tarkentaminen on mahdollista vain hierarkioita käyttämällä, BayMiner pystyy yhdellä vaiheella saamaan esille kaikki vaikutukset, esim. tietyn asiakkaan ostamien tuotetietojen.

Hierarkioiden haittana on lisäksi että ne vaativat huolellisen ennakkosuunnittelun, jotta loppukäyttäjät ymmärtävät tietojen riippuvuuden. Tämä yleensä ei edes onnistu koska käsitteet eivät ole yksiselitteisiä.

Takaisin ylös

Miltä datan tulee näyttää?

Prosessoitavaksi tuleva data pitää olla sarkainerotetussa tekstimuodossa. Tässä muodossa olevaa dataa voi katsoa Notepad ym. vastaavien työkalujen kanssa.

Takaisin ylös

Milloin datassa on riittävästi informaatiota?

Tämä on todella vaikea kysymys. Jos malli pystyy ennustamaan suhteellisesti paremmin kuin alkupeäisestä datasta laskettu todennäköisyys, siinä on riittävästi informaatiota. Esimerkiksi Jos esimerkkijoukossa yhdellä muuttujalla voi olla kaksi arvoa ja kaikkien käytettävissä olevien esimerkkien jakauma on 60/40 (esim. mies/nainen) ja malli ennustaa oikein suhteessa 80/20, voidaan sanoa että malli on hyvä ja datassa riittävästi informaatiota, koska se on suhteellisesti kaksi kertaa parempi kuin satunnainen ennustaminen esim. arpaa käyttäen.

Takaisin ylös

Onko malliin mahdollista tallettaa vapaamuotoista merkkitietoa?

Useimmat data mining -tuotteet pystyvät käsittelemään vain numeerista tietoa. Raportoitaviin tietoihin saattaa kuitenkin liittyä runsaasti oleellisesti tärkeää muuta tietoa, esim. kyselykaavakkeessa olevaan vapaaseen kenttään kirjoitettuja kommentteja. Tällaiset tiedot voidaan säilyttää ja ottaa mukaan malliin, mutta niitä ei huomioida laskennassa huomioda, jos erilaisten kommenttien määrä ylittää noin 55 kpl. Ne kuitenkin löytyvät mallista analyysin aikana. Tällaisia voi olla myös esim. asiakkaaseen liittyvät osoitetiedot.

Huomaa, että vapaamuotoiset merkkitiedot, jotka muodostavat muuttujan arvon, kuten esim. > 22 vuotta, käsitellään aivan samalla tavalla kuin luvut (esim. 22). Näitä voi olla myös sekaisin saman muuttujan arvoina eikä se yleensä heikennä mallin laatua.

Takaisin ylös

Pitääkö muuttujien olla datataulukossa tietyssä järjestyksessä?

Järjestyksellä ei ole mitään merkitystä, kun Bayes-verkkoa lasketaan. Kannattaa kuitenkin sijoittaa ensimmäiseksi muuttujaksi sellainen, joka on mielenkiintoinen ja sisältää informaatiota (ei esim. nimi, sarjanumero tai vastaava), koska ensimmäisenä avautuva yleismalli väritetään ensimmäisen muuttujan mukaan.

Takaisin ylös

Takaisin usein kysyttyihin kysymyksiin

 
Copyright © Bayes Information Technology Oy 2001. All rights reserved. See Legal Notice.
Please, do give us feedback.