| |
Datatiedoston luominen
Datan yleinen muoto
BayMinerin käyttämä tiedostomuoto on tabulaattorieroteltu tekstitiedosto (tab delimited text-file).
Sivun alaosassa on lyhyt ohje miten mm. Excel-taulukon saa tallennettua tässä muodossa.
Tiedostossa jokainen arvo on omassa sarakkeessaan, sarakkeet on eroteltu tabulaattorimerkein. Tiedoston ensimmäisellä
rivillä on muuttujien nimet (esim. ikä, hinta jne.) Jokainen tapaus (tuote, projekti, asiakas tms.) on
omalla rivillään, tapauksen muuttujien arvot vastaavissa sarakkeissaan. Muuttujan arvo ei saa olla millään tapauksella sama kuin muuttujan nimi.
Attribuuttien kuvauskieli
Analysoitavan tekstitiedoston ensimmäisellä rivillä luetellaan attribuuttien nimet. Attribuutin nimen perään voi halutessaan liittää
metatietoa tehostamaan BayMiner-analysointia. Metatieto erotetaan attribuutin nimestä putki-merkillä
(|). Myös eri metatietokentät erotetaan toisistaan putki-merkillä.
Ensimmäinen metatieto on attribuutin tyyppi. N tarkoittaa nominaaliasteikon
muuttujaa ja C jatkuvaa/sekatyyppimuuttujaa. Jos tyypin perässä on I,
niin kenttää ei käytetä mallin rakentamiseen. Kenttä on valinnainen.
Jos attribuutille on määritelty ensimmäinen metatieto, attribuutille voidaan seuraavaksi määritellä kenttä,
joka määrää diskretisoinnin jakopisteet ja nominaaliarvojen
järjestyksen. Jatkuvien arvojen jakopisteissä on piste (.) desimaalierottimena ja ne on
erotetu toisistaan pilkulla. Jos attribuutilla on (myös) nominaalisia
arvoja ne voi luetella seuraavassa kentässä. Arvot luetellaan pilkulla
erotettuina.
Formaalisti:
lyhyt_nimi[|N[I][|C[I][|,...,[|,...,]]]]]
Esim.:
tunniste|I
varaosanumero|NI
itsediskretisoidut segmentit|C|1,3.4,4.4
Huom! Diskretisointivälit tulee esittää suuruusjärjestyksessä.
Välit erotetaan toisistaan "," pilkku-merkein.
ikä|CI|18.0,65.0|vauva,vaari
Muuttujien koodauksen yleisiä ohjeita
Mallin kehittäjän on hyvä kirjata ja tallentaa aineiston omat
tulkintasääntönsä heti alusta alkaen. Käytä mieluiten kohdennettuna
kommentteja ko. kohdassa, älä erillisiä dokumentteja, koska omat
tulkinnat muuttuvat sitä mukaa kun osaaminen ja ymmärrys lisääntyvät.
-
Älä diskretisoi. Tällä tarkoitamme, että pidä keräysvaiheessa
tieto "raakana", älä luokittele sitä valmiiksi. Esimerkiksi kun kysyt
ikää, kerää tieto vuosissa, esim. 37, älä luokittele valmiisiin
ryhmiin 30 - 40- ja 40 - 50-vuotiaat. Vihje: Kannattaa kerätä ikä syntymäaikana, jotta
tieto pysyy oikeana, vaikka vuodet vaihtuvatkin.
-
Älä sekoita keskenään tyhjää, nollaa ja 'ei tiedossa' tietoja.
Niillä voi olla eri merkitys. Tyhjä tarkoittaa tavallisesti, että kyseinen kohta
on jätetty täyttämättä (unohdettu). Joskus tyhjäksi jätetään myös kohta jonka
arvo ei ole tiedossa. Näin ei kannata menetellä, koska usein se, että jokin ei ole
tiedossa saattaa olla arvokasta tietoa, lisäksi nyt tulee sekaannusta unohdus-tapauksen
kanssa. Siksi tällaiset kohdat kannattaa merkitä 'ei tiedossa'-arvoilla. Toisinaan
näitä merkitään myös nollilla, mutta tällöin joudutaan tinkimään konsistenssista, koska
jatkuvilla muuttujilla BayMiner ei tulkitse nollaa puuttuvaksi arvoksi. Vihje: BayMinerissa tyhjällä ja kysymysmerkillä
(?) on sama merkitys. Kysymysmerkkiä käytettäessä tiedetään kys. kohta läpikäydyksi.
-
BayMiner ei osaa käsitellä aikaa erikseen, mutta ajan mukaan ottaminen auttaa
löytämään järjestyksen datassa.
Aika voidaan koodata usealla tavalla. Ensimmäinen tapa on muuttaa aika yhdeksi luvuksi
esim. sekunneiksi. Toinen tapa on käyttää kullekin aikayksikölle (tunnit, minuutit,
sekunnit) omia muuttujiaan. Kolmas tapa on koodata aika rakenteella
vvvv.kk.pp.tt.mm.ss eli esim. 20020413234504.
-
Jos dataan tulee paljon numerokoodeja (esim. projektinro., sarjanro., sopimusnro.),
kannattaa koodiin lisätä mukaan kirjain, jotta niitä ei vahingossa
käsitellä lukuina.
-
Tekstikentissä pitää huolehtia siitä, että sama arvo on myös aina merkitty samalla
tavalla. Esimerkiksi "Matti Meikäläinen" ja "Meikäläinen Matti" ovat eri arvoja, koska
ne on kirjoitettu eri tavoin.
-
Vaikka muuttujien järjestyksellä ei ole merkitystä, niin
käytännössä on helpompi työskennellä datan kanssa, jos sarakkeissa alussa
vasemmalla on (oletetut) merkittävimmät muuttujat ja lopussa
oikealla (oletettavasti) vähemmän mielenkiintoiset muuttujat.
-
Kullekin tapaukselle (riville) on hyvä merkitä tunniste, jolla se voidaan erottaa
joukosta.
Tarkista vielä, että BayMinerin asettamat
vaatimukset aineistolle
täyttyvät.
Excel-taulukon siivoaminen
Excel-taulukoilla työskennellessä usein tietoa syötetään muistiin talteen varsinaisen taulukon solujen ulkopuolelle.
Ongelmien välttämiseksi kannattaa tehdä seuraavat operaatiot:
-
Poista aineiston seassa olevat tyhjät rivit ja sarakkeet. Poista
myös sarakkeet, joissa on pelkkä muuttujan nimi mutta ei yhtään
arvoa tapauksissa.
-
Tyhjennä muut alueet taulukosta. Tyhjänkin näköisissä soluissa voi
olla välilyöntejä tms. tavaraa, joka sotkee
tab-delimited -tallennuksen.
Tämän voi tehdä seuraavalla tavalla:
-
Klikkaa hiirellä ensimmäisen vapaan
sarakkeen otsikkoa (esim. sarake 'Q').
Tällöin koko sarake tulee valituksi. Tämän jälkeen
paina Ctrl + Shift + 'oik', ('oik' on kursori oikealle). Sitten
vielä Ctrl + - (miinus), jolloin kaikki ylimääräiset sarakkeet
tyhjenevät.
-
Sitten vielä sama ylimääräisille riveille. Klikkaa hiirellä
ensimmäisen vapaan rivin otsikkoa (esim. rivi 722), rivi tulee
valituksi. Tämän jälkeen Ctrl + Shift + 'alas' ('alas' tarkoittaa
kursoria alas) ja Ctrl + -.
Excel-taulukon tallennus
Esimerkki miten Microsoft Excelistä
tallennetaan taulukko
BayMinerin ymmärtämään tabulaattorieroteltuun tekstitiedostomuotoon.
Valikosta File/Save As (suom. Tallenna nimellä), tiedostotyypiksi
"Text (tab-delimited)". Tämä tiedosto on BayMinerille
sopivassa muodossa. Sama myös
avi ruutukaappauksena.
(AVI, 530KB, ei ääntä).
|
|