Kategoriat
Yleinen

Harjoittelu: DataLAB

Kokonaisuudessaan harjoitteluni koostui useasta osasta. Minulla oli hieman aikaisempaa työkokemusta, jota kykenin hyödyntämään osana perusharjoittelua. Lopun perusharjoittelun ja syventävän harjoittelun suorituspaikkana toimi DataLAB, jossa työskentelin muutaman isomman projektin ja tehtävän parissa. Harjoittelun suoritin toukokuun 2021 ja joulukuun 2021 välillä.

Hävikki-projekti

Hävikki-projektiin haettiin data-analytiikan opiskelijaa keväällä 2021. Projekti oli kuvauksen perusteella kiinnostava ja mikä tärkeintä, siinä pääsi vaikuttamaan oikeisiin ja olemassa oleviin ongelmiin. Projektin tarkoitus oli selvittää vähittäistavarakaupoista kerättävän datan avulla, voiko ruoan hävikkiä ennustaa.

Pitkälti projektin työkaluna toimi R-studio. Projektin ensimmäisessä vaiheessa hävikkiä ennustettiin regressiomallien avulla. Projektin toisessa vaiheessa saatiin lisää dataa käyttöön ja lähestymistapaa vaihdettiin. Hävikin esiintyvyyttä alettiin tarkastelemaan keskiarvon ja keskihajonnan avulla, joita laskettiin sitä mukaa kun päiviä kertyi. Tällä tavoin ennusteen tarkkuus parani, mitä enemmän dataa saatiin kerättyä.

Hävikki-projekti sai myös jatkoa syksyllä 2021 data-analytiikan opintoihin sisältyvän projektin yhteydessä. Projektin tarkoituksena oli löytää sopiva määritelmä ongelmallisille tuotteille, joilla on suurempi riski aiheuttaa hävikkiä.

Kesätehtävät

Kesän ajaksi sain kolme isompaa tehtävää suoritettavaksi. Ensimmäisenä tehtävänä oli luoda frekvenssejä kuvaava puudiagrammi hyödyntäen R-Studiota. Esimerkiksi kyselytutkimuksen analysoinnissa voi olla hyödyllistä käyttää puudiagrammia, sillä se kuvaa selkeästi muuttujien jakautumista sekä näyttää lisäksi niiden arvot ja frekvenssit. Kirjoitin aiheesta myös erillisen blogin: Frekvenssejä kuvaava puudiagrammi.

Toinen kesätehtäväni oli muokata BRFSS-data kyselytutkimusainestoa vuodelta 2019, jossa on tutkittu Yhdysvaltain kansalaisten terveyttä ja elintapoja. Tarkoituksena oli saada aikaan selkeämpi ja suomennettu kokonaisuus, joka sisältää jatkuvia ja epäjatkuvia muuttujia hyödyntäen R-Studiota. Tarkemmin muokkauksesta kerron blogissa: BRFSS-datan muokkaus.

Kolmas kesätehtäväni oli R-Studion avulla tarkastella logistista regressiota. Tehtävänä oli esitellä logistisen regression teoriaa, mallin tekeminen, ennustaminen ja selvittää mallin toimivuus. Tehtävässä hyödynsin aiemmin muokkaamaani BRFSS-dataa.

Muuta

DataLAB pitää sisällään myös muita työtehtäviä. Niihin kuuluu kuukausittaiset palaverit, joissa käydään läpi sen hetken työtilanteita ja jatkotoimenpiteitä. Kouvolan kampukselle avatun FUEL-tila myötä myös DataLAB sai fyysiset toimitilat syksyllä 2021. Olin itse mukana tekemässä muuttoa ja järjestelyitä uusissa tiloissa. DataLAB piti FUEL-tilan avajaisissa myös omaa pistettä, jossa esiteltiin aikaan saatuja töitä. Omalta osaltani esittelin keväällä 2021 tehtyä Hävikki-projektia.

Lopuksi

Harjoittelusta opin paljon. Tehtävät olivat välillä haastavia, mutta koen sen olleen myös suuri etu. Hienoa oli myös päästä vaikuttamaan oikeisiin ongelmiin sekä nähdä oma työnsä jälki, ja että siitä oli myös hyötyä. DataLAB tarjoaa monipuolisia työtehtäviä opiskelijoille, joten siellä harjoittelun suorittamista kannattaa ehdottomasti pitää mahdollisuutena.

Kategoriat
Yleinen

FREKVENSSEJÄ KUVAAVA PUUDIAGRAMMI

Puudiagrammi on kätevä työkalu, jota voidaan hyödyntää esimerkiksi kyselytutkimuksen analysoinnissa. Puudiagrammi kuvaa selkeästi muuttujien jakautumista sekä näyttää lisäksi niiden arvot ja frekvenssit.

Kuva 1. Esimerkki puudiagrammista

Puudiagrammin tekoon löytyy ohjeistus: Introduction to vtree(Barrowman 2021). Barrowmanin opas toimi pohjana puudiagrammin luomisessa R-Studiolla.

Data

Puudiagrammi toimii parhaiten tarkasteltaessa epäjatkuvia muuttujia. Kyseistä diagrammia luodessa käytettiin Armeniassa sijaitsevien anniskeluravintoloiden ja niihin kohdistuneen kyselytutkimuksen tuloksia (Hambardzumyan. 2017). Yllä olevassa puudiagrammissa on esiteltynä vastaajien sukupuoli, ikä ja syy käydä ravintolassa.

Puudiagrammien tarkastelussa tulee muuttujien arvojoukkojen olla riittävän suppeita. Tarkasteltaessa jatkuvia muuttujia arvojoukot saattavat hyvin usein olla liian laajoja. Tästä syystä muuttujat kannattaa muuntaa epäjatkuviksi muuttujiksi. Tässä tapauksessa esimerkiksi ikä oli jatkuva muuttuja, joka muunnettiin ikäluokaksi.

Diagrammin luominen käytännössä

Puudiagrammin luominen R-Studiossa on yksinkertaista ja funktion avulla vielä yksinkertaisempaa ja nopeampaa. Funktion luominen mahdollistaa sen, että käytännössä käskytykseen tarvitsee syöttää vain halutut sarakkeet, eli muuttujat, joita puudiagrammin avulla halutaan tarkastella.

Kuva 2. Puudiagrammin luominen.

Käytännön kannalta ongelmallista oli, että puudiagrammia ei saatu näkymään muuten, kuin kääntämällä RMD-tiedosto HTML-tiedostoksi. Tarvittaessa puudiagrammi saadaan kopioitua esimerkiksi Word-tiedostoon. Puudiagrammi on myös kuvana iso, joten muuttujien lisääntyessä kannattaa puudiagrammi piirtää pitkittäin. Poikittain piirrettäessä arvojen ja frekvenssien tarkastelu voi olla vaikeaa sillä kuva on pieni.

Tulevaisuudessa hyödyllistä olisi myös luoda työkalu, jolla R-kieltä osaamatonkin henkilö kykenee luomaan puudiagrammin esimerkiksi Excel-taulukon pohjalta.

Lähteet

Barrowman, N. 2021. Introduction to vtree. Opas. Päivitetty 3.10.2021. Saatavissa: https://cran.r-project.org/web/packages/vtree/vignettes/vtree.html [viitattu 12.12.2021].

Hambardzumyan, E. 2017. Armenian Pub Survey. Data. Päivitetty 17.3.2017. Saatavissa: https://www.kaggle.com/erikhambardzumyan/pubs [viitattu 12.12.2021].

Kategoriat
Yleinen

BRFSS-DATAN MUOKKAUS

BRFSS-data on kyselytutkimusainestoa vuodelta 2019, jossa on tutkittu Yhdysvaltain kansalaisten terveyttä ja elintapoja. Data on taulukkomuodossa XPT-tiedostona ja sitä oli noin 400 000 riviä ja yli 300 saraketta. Data on saatavissa täältä (CDC. 2020).

Tehtävänä oli muokata datasta lyhyempi ja selkeämpi kokonaisuus, jota voi käyttää esimerkiksi opetuksessa ilman, että datan muokkaamiseen tarvitsee käyttää paljoa aikaa. Datan käyttö edellyttää jonkin tapaista muokkausta, sillä alkuperäisen datan arvojen tulkitseminen vaatii erillisen tulkintaa varten tehdyn tiedoston (CDC. 2020). Esimerkiksi kyselytutkimuksessa osa vastaajista oli antanut painonsa nauloina ja osa taas kilogrammoina. Lisäksi joukosta löytyi vastaajia, jotka eivät halunneet kertoa painoa tai kohta on jätetty tyhjäksi.

Kuva 1. Painon alkuperäiset arvot tulkinnan avuksi tehdyssä tiedostossa (CDC. 2020).

Datan muokkaus alkoi sillä, että valittiin tiedot, joihin selkeytetty data haluttiin rajata. Yhteensä uuteen dataan kerääntyi saraketietoja noin 30 kappaletta ja rivitietoja rajausten jälkeen oli noin 300 000. Uuteen ja rajattuun dataan valitut tiedot olivat haastateltavan joukon perustietoja (pituus, paino, sukupuoli yms.), alkoholin käyttöön liittyvät vastaukset sekä tupakointiin liittyvät vastaukset.

Itse konkreettinen datan muokkaus oli suurimmilta osin vain arvojen määrittämistä uudelleen. Datan oli tarkoitus koostua sopivassa suhteessa sekä jatkuvista ja epäjatkuvista muuttujista. Lisäksi data käännettiin suomen kielelle. Työkaluna datan käsittelyssä toimi R-studio.

Kuva 2. Arvojen muokkausta.

Lopuksi uusi data tallennettiin omaksi R-tiedostoksi, josta sen voi muuntaa tarvittaessa esimerkiksi Excel-tiedostoksi ja testattiin datan toimivuutta laskemalla jatkuvien muuttujien keskiarvot. Lisäksi muokatulle versiolle tehtiin myös Word-tiedosto, johon kirjattiin kaikki muuttujien nimet ja niiden arvojoukot. Muokatusta datasta tehtiin myös lyhennetty versio, jossa muuttujien nimet on lyhennetty.

Kuva 3. Jatkuvien muuttujien keskiarvot.

Lähteet

LLCP 2019 Codebook Report Overall version data weighted with _LLCPWT Behavioral Risk Factor Surveillance System. 2020. CDC. WWW-lähde. 31.7.2020. Saatavissa: https://www.cdc.gov/brfss/annual_data/2019/pdf/codebook19_llcp-v2-508.HTML [viitattu 12.12.2021].

LLCP2019XPT. 2020. CDC. XPT-tiedosto. Saatavissa: https://www.cdc.gov/brfss/annual_data/annual_2019.html [viitattu 20.12.2021].