Analyysin valmistelu
Aineistosta näytetään muutama rivi, jotta käyttäjä saa käsityksen
siitä, miten BayMiner on tulkinnut aineiston.
Muuttujien tyyppien vaihtaminen
Muuttujien tyyppejä voidaan vaihdella, jos se on mahdollista.
Numeeriset muuttujat voidaan asettaa nominaalisesti tulkittaviksi. Tästä on hyötyä,
jos nominaalinen muuttuja on koodattu numeroilla.
Nominalisointi pitää tehdä kun haluaa säilyttaa jatkuvan muuttujan arvot,
esim. aika viikoissa, ikä vuosissa jne.
Ilman tätä järjestelmä luokittelee arvot sopivaan määrään luokkia,
eikä käsittele lukuja sellaisenaan.
Voit vaihtaa kaikki yhdellä kertaa napista
Vaihda nominalisointi kaikkiin. Tämä on
kätevää esim. jos analysoi perinteellistä
asiakastyytyväisyysdataa, joka on kerätty niin että vastausvaihtoehdot
ovat arvosanoja esim. 1...5.
Muuttujien sivuuttaminen
Sivuutettu muuttuja tarkoittaa, että sitä ei oteta mukaan mallien
laskemisessa. BayMiner merkitsee automaattisesti sivuutetuiksi sellaiset
muuttujat, joiden mukaanottaminen alentaa mallien laatua.
Sivuutus pitää tehdä, kun muuttujan arvoissa itsessään ei ole mitään informaatiota
kuten esim. asiakasnumerossa tai projektin tunnisteessa
Sivuutus kannattaa tehdä kun "samantyyppisiä" muuttujia on suhteellisesti paljon
kuten esim tavaratoimituksen prosessin eri vaiheita (valmistus, pakkaus, lähetys, laskutus)
eikä prosessi ole kiinnostuksen kohteena.
Voit myös sivuuttaa jonkun muuttujan jos tuntuu siltä että ei ole
hyvä että se on mukana mallissa. Voit myös vaihtaa sivuutus päälle
kaikkiin yhdellä kerralla joka on kätevä jos datassa on paljon
sivuutettavia muuttujia, esim jos on paljon testausdataa ja vain
muutama muuttuja kiinnostaa.
BayMiner myös sivuuttaa muuttujan itse, jos sen käsittely ei ole
mahdollista, jolloin vieressä olevaan laatikkoon tulee risti
automaattisesti.
Otantajoukon koon asettaminen
Otannaksi sanotaan visualisointiin otettavien aineiston rivien määrää.
Yleensä suuri otanta antaa tarkemman visualisoinnin, mutta liian suuri
otanta tekee visualisoinnista sekavan. Pisteitä tulee kuvaan liikaa.
Visualisointi suuresta otannasta vie myös paljon aikaa, joten ei kannata
käyttää enempää kuin 1000 riviä. Nopeaan tarkasteluun 100-200 riviä on
tarpeeksi. Koko aineistoa käytetään kuitenkin aina mallien laskemisessa.
Esimerkkejä
Kuvassa on esimerkki numeerisesta muuttujasta (Ikä), joka voidaan
asettaa nominaaliseksi. >(Sivuuta)
vihje tarkoittaa, että jos
muuttujan arvot nominalisoidaan, se sivuutetaan mallien laskemisessa. Sitä
voidaan kuitenkin käyttää visualisoinnissa väritysmuuttujana.
Painamalla Käsittele data
keskellä sivun alaosassa käynnistää analyysivaiheen.
|