Palvelun tuottajayhtiön kotisivut


 

Datatiedoston luominen

Datan yleinen muoto

BayMinerin käyttämä tiedostomuoto on tabulaattorieroteltu tekstitiedosto (tab delimited text-file). Sivun alaosassa on lyhyt ohje miten mm. Excel-taulukon saa tallennettua tässä muodossa.
Tiedostossa jokainen arvo on omassa sarakkeessaan, sarakkeet on eroteltu tabulaattorimerkein. Tiedoston ensimmäisellä rivillä on muuttujien nimet (esim. ikä, hinta jne.) Jokainen tapaus (tuote, projekti, asiakas tms.) on omalla rivillään, tapauksen muuttujien arvot vastaavissa sarakkeissaan. Muuttujan arvo ei saa olla millään tapauksella sama kuin muuttujan nimi.

Attribuuttien kuvauskieli

Analysoitavan tekstitiedoston ensimmäisellä rivillä luetellaan attribuuttien nimet. Attribuutin nimen perään voi halutessaan liittää metatietoa tehostamaan BayMiner-analysointia. Metatieto erotetaan attribuutin nimestä putki-merkillä (|). Myös eri metatietokentät erotetaan toisistaan putki-merkillä.

Ensimmäinen metatieto on attribuutin tyyppi. N tarkoittaa nominaaliasteikon muuttujaa ja C jatkuvaa/sekatyyppimuuttujaa. Jos tyypin perässä on I, niin kenttää ei käytetä mallin rakentamiseen. Kenttä on valinnainen.

Jos attribuutille on määritelty ensimmäinen metatieto, attribuutille voidaan seuraavaksi määritellä kenttä, joka määrää diskretisoinnin jakopisteet ja nominaaliarvojen järjestyksen. Jatkuvien arvojen jakopisteissä on piste (.) desimaalierottimena ja ne on erotetu toisistaan pilkulla. Jos attribuutilla on (myös) nominaalisia arvoja ne voi luetella seuraavassa kentässä. Arvot luetellaan pilkulla erotettuina.

Formaalisti:

        lyhyt_nimi[|N[I][|C[I][|,...,[|,...,]]]]]

Esim.:
        tunniste|I
        
        varaosanumero|NI
        
        itsediskretisoidut segmentit|C|1,3.4,4.4
         Huom! Diskretisointivälit tulee esittää suuruusjärjestyksessä. 
         Välit erotetaan toisistaan "," pilkku-merkein.
         
        ikä|CI|18.0,65.0|vauva,vaari
        
        

Muuttujien koodauksen yleisiä ohjeita

Mallin kehittäjän on hyvä kirjata ja tallentaa aineiston omat tulkintasääntönsä heti alusta alkaen. Käytä mieluiten kohdennettuna kommentteja ko. kohdassa, älä erillisiä dokumentteja, koska omat tulkinnat muuttuvat sitä mukaa kun osaaminen ja ymmärrys lisääntyvät.

  • Älä diskretisoi. Tällä tarkoitamme, että pidä keräysvaiheessa tieto "raakana", älä luokittele sitä valmiiksi. Esimerkiksi kun kysyt ikää, kerää tieto vuosissa, esim. 37, älä luokittele valmiisiin ryhmiin 30 - 40- ja 40 - 50-vuotiaat. Vihje: Kannattaa kerätä ikä syntymäaikana, jotta tieto pysyy oikeana, vaikka vuodet vaihtuvatkin.
  • Älä sekoita keskenään tyhjää, nollaa ja 'ei tiedossa' tietoja. Niillä voi olla eri merkitys. Tyhjä tarkoittaa tavallisesti, että kyseinen kohta on jätetty täyttämättä (unohdettu). Joskus tyhjäksi jätetään myös kohta jonka arvo ei ole tiedossa. Näin ei kannata menetellä, koska usein se, että jokin ei ole tiedossa saattaa olla arvokasta tietoa, lisäksi nyt tulee sekaannusta unohdus-tapauksen kanssa. Siksi tällaiset kohdat kannattaa merkitä 'ei tiedossa'-arvoilla. Toisinaan näitä merkitään myös nollilla, mutta tällöin joudutaan tinkimään konsistenssista, koska jatkuvilla muuttujilla BayMiner ei tulkitse nollaa puuttuvaksi arvoksi. Vihje: BayMinerissa tyhjällä ja kysymysmerkillä (?) on sama merkitys. Kysymysmerkkiä käytettäessä tiedetään kys. kohta läpikäydyksi.
  • BayMiner ei osaa käsitellä aikaa erikseen, mutta ajan mukaan ottaminen auttaa löytämään järjestyksen datassa. Aika voidaan koodata usealla tavalla. Ensimmäinen tapa on muuttaa aika yhdeksi luvuksi esim. sekunneiksi. Toinen tapa on käyttää kullekin aikayksikölle (tunnit, minuutit, sekunnit) omia muuttujiaan. Kolmas tapa on koodata aika rakenteella vvvv.kk.pp.tt.mm.ss eli esim. 20020413234504.
  • Jos dataan tulee paljon numerokoodeja (esim. projektinro., sarjanro., sopimusnro.), kannattaa koodiin lisätä mukaan kirjain, jotta niitä ei vahingossa käsitellä lukuina.
  • Tekstikentissä pitää huolehtia siitä, että sama arvo on myös aina merkitty samalla tavalla. Esimerkiksi "Matti Meikäläinen" ja "Meikäläinen Matti" ovat eri arvoja, koska ne on kirjoitettu eri tavoin.
  • Vaikka muuttujien järjestyksellä ei ole merkitystä, niin käytännössä on helpompi työskennellä datan kanssa, jos sarakkeissa alussa vasemmalla on (oletetut) merkittävimmät muuttujat ja lopussa oikealla (oletettavasti) vähemmän mielenkiintoiset muuttujat.
  • Kullekin tapaukselle (riville) on hyvä merkitä tunniste, jolla se voidaan erottaa joukosta.

Tarkista vielä, että BayMinerin asettamat vaatimukset aineistolle täyttyvät.

Excel-taulukon siivoaminen

Excel-taulukoilla työskennellessä usein tietoa syötetään muistiin talteen varsinaisen taulukon solujen ulkopuolelle. Ongelmien välttämiseksi kannattaa tehdä seuraavat operaatiot:

  • Poista aineiston seassa olevat tyhjät rivit ja sarakkeet. Poista myös sarakkeet, joissa on pelkkä muuttujan nimi mutta ei yhtään arvoa tapauksissa.
  • Tyhjennä muut alueet taulukosta. Tyhjänkin näköisissä soluissa voi olla välilyöntejä tms. tavaraa, joka sotkee tab-delimited -tallennuksen. Tämän voi tehdä seuraavalla tavalla:
    • Klikkaa hiirellä ensimmäisen vapaan sarakkeen otsikkoa (esim. sarake 'Q'). Tällöin koko sarake tulee valituksi. Tämän jälkeen paina Ctrl + Shift + 'oik', ('oik' on kursori oikealle). Sitten vielä Ctrl + - (miinus), jolloin kaikki ylimääräiset sarakkeet tyhjenevät.
    • Sitten vielä sama ylimääräisille riveille. Klikkaa hiirellä ensimmäisen vapaan rivin otsikkoa (esim. rivi 722), rivi tulee valituksi. Tämän jälkeen Ctrl + Shift + 'alas' ('alas' tarkoittaa kursoria alas) ja Ctrl + -.

Excel-taulukon tallennus

Esimerkki miten Microsoft Excelistä tallennetaan taulukko BayMinerin ymmärtämään tabulaattorieroteltuun tekstitiedostomuotoon.

Valikosta File/Save As (suom. Tallenna nimellä), tiedostotyypiksi "Text (tab-delimited)". Tämä tiedosto on BayMinerille sopivassa muodossa. Sama myös avi ruutukaappauksena. (AVI, 530KB, ei ääntä).



 
Copyright © Bayes Information Technology Oy 2001. All rights reserved. See Legal Notice.
Kommentteja tai palautetta?