Analyysin valmistelu

Aineistosta näytetään muutama rivi, jotta käyttäjä saa käsityksen siitä, miten BayMiner on tulkinnut aineiston.

Muuttujien tyyppien vaihtaminen

Muuttujien tyyppejä voidaan vaihdella, jos se on mahdollista. Numeeriset muuttujat voidaan asettaa nominaalisesti tulkittaviksi. Tästä on hyötyä, jos nominaalinen muuttuja on koodattu numeroilla.

Nominalisointi pitää tehdä kun haluaa säilyttaa jatkuvan muuttujan arvot, esim. aika viikoissa, ikä vuosissa jne. Ilman tätä järjestelmä luokittelee arvot sopivaan määrään luokkia, eikä käsittele lukuja sellaisenaan. Voit vaihtaa kaikki yhdellä kertaa napista Vaihda nominalisointi kaikkiin. Tämä on kätevää esim. jos analysoi perinteellistä asiakastyytyväisyysdataa, joka on kerätty niin että vastausvaihtoehdot ovat arvosanoja esim. 1...5.

Muuttujien sivuuttaminen

Sivuutettu muuttuja tarkoittaa, että sitä ei oteta mukaan mallien laskemisessa. BayMiner merkitsee automaattisesti sivuutetuiksi sellaiset muuttujat, joiden mukaanottaminen alentaa mallien laatua.

Sivuutus pitää tehdä, kun muuttujan arvoissa itsessään ei ole mitään informaatiota kuten esim. asiakasnumerossa tai projektin tunnisteessa Sivuutus kannattaa tehdä kun "samantyyppisiä" muuttujia on suhteellisesti paljon kuten esim tavaratoimituksen prosessin eri vaiheita (valmistus, pakkaus, lähetys, laskutus) eikä prosessi ole kiinnostuksen kohteena. Voit myös sivuuttaa jonkun muuttujan jos tuntuu siltä että ei ole hyvä että se on mukana mallissa. Voit myös vaihtaa sivuutus päälle kaikkiin yhdellä kerralla joka on kätevä jos datassa on paljon sivuutettavia muuttujia, esim jos on paljon testausdataa ja vain muutama muuttuja kiinnostaa.

BayMiner myös sivuuttaa muuttujan itse, jos sen käsittely ei ole mahdollista, jolloin vieressä olevaan laatikkoon tulee risti automaattisesti.

Otantajoukon koon asettaminen

Otannaksi sanotaan visualisointiin otettavien aineiston rivien määrää. Yleensä suuri otanta antaa tarkemman visualisoinnin, mutta liian suuri otanta tekee visualisoinnista sekavan. Pisteitä tulee kuvaan liikaa. Visualisointi suuresta otannasta vie myös paljon aikaa, joten ei kannata käyttää enempää kuin 1000 riviä. Nopeaan tarkasteluun 100-200 riviä on tarpeeksi. Koko aineistoa käytetään kuitenkin aina mallien laskemisessa.

Esimerkkejä

Kuvassa on esimerkki numeerisesta muuttujasta (Ikä), joka voidaan asettaa nominaaliseksi. >(Sivuuta) vihje tarkoittaa, että jos muuttujan arvot nominalisoidaan, se sivuutetaan mallien laskemisessa. Sitä voidaan kuitenkin käyttää visualisoinnissa väritysmuuttujana.

Painamalla Käsittele data keskellä sivun alaosassa käynnistää analyysivaiheen.

 
Copyright © Bayes Information Technology Oy 2001. All rights reserved. See Legal Notice.
Kommentteja tai palautetta?