Kategoria: Yleinen

Seaborn-opas aloittelijoille

Kirjoittaja Kirjoittanut mirkamustonen
Julkaisupäivämäärä 29.8.2025

DataLabiin suoritettavana syventävänä harjoitteluna tehtäväkseni valikoitui Seaborn-oppaan luominen. Tarkoituksena oli luoda selkeä ohjeistus, jonka avulla Python-ohjelmointikielellä tehtäviä visualisointeja pystyisi tekemään myös sellaiset, joilla ei ole aiempaa ohjelmointiosaamista. Oppaassa käytettiin tekoälytyökalu Copilotin apua Python-koodien kirjoittamiseen.

Toteutus

Ensin piti valita missä ympäristössä työ haluttiin toteuttaa. Kokeiltiin Google Colabia sekä Jupyter Notebookia, valittiin Jupyter. Vaikka Colab oli monien netistä löytyvien oppaiden suositus, Notebook koettiin helppokäyttöisemmäksi, erityisesti aloittelijan näkökulmasta. Työssä pyrittiin pitämään mielessä miten data-analytiikan muilla kursseilla, kuten Power BI, käsiteltiin datan visualisointia ja haluttiin kokeilla miten samantyyppinen toteutettaisiin Seaborn-kirjaston avulla. Seabornin virallinen opas oli merkittävä apuväline työn toteutukseen, mutta vaatii lukijalta jonkin verran pohjatietoa aiheesta. Oppaassa käytettiin ERP-simulaatiopelistä saatua kaupallista dataa.

Visualisoinnit

Visualisointien koodit pyydettiin tekoälyltä Python-koodina. Usein koodissa oli jotain muokattavaa, jotta se saatiin halutunlaiseksi ja tekoälyn kanssa jouduttiinkin keskustelemaan pitkään halutun lopputuloksen saamiseksi.

Visualisoinnit jaettiin seuraaviin osioihin:

Tilastolliset visualisoinnit
Relaatiokaaviot
Kategoriset kaaviot
Jakaumien visualisointi
Moniulotteiset visualisoinnit
Lineaariset regressiomallit

Opas aloitettiin melko yksinkertaisilla Python-koodilla tehtävillä kuvaajilla, joista edettiin koko ajan vaativampiin visualisointeihin. Viimeisin osio lineaarisista regressiomalleista vaatiikin jo hieman taustatietoa tilastotieteestä. Esimerkeissä pyrittiin käyttämään sellaisia muuttujia, jotka ovat kaupallista dataa analysoitaessa tärkeitä. Oppaassa käytetyn datasetin Sales-välilehti sisälsi merkityksellisimmän osan tiedosta tähän liittyen.

Kun kyseessä on suuri datamäärä kuvaajien muodostuminen saattaa kestää kauan. Tällaisissa tilanteissa voidaan harkita otoksen ottamista datasta, jolloin oppaan esimerkin mukaan koodi: data=df_sales.sample(300) valitsee datasta 300 satunnaista havaintoa. Oppaassa on myös suodatettu dataa esimerkiksi suurimpien ja pienimpien arvojen mukaan, jolloin voidaan verrata esimerkiksi hyvin ja huonosti menestyvien eroja.

Seaborn-visualisointeja pääse helposti kokeilemaan, koska se sisältää valmiita datasettejä. Esimerkiksi Titanic-dataa sisältävä datasetti saadaan työkirjaan koodilla titanic = sns.load_dataset(”titanic”). Näin pääsee heti kokeilemaan miltä Seaborn-visualisoinnit näyttävät eikä tarvitse pohtia, mistä löytyisi sopiva ja puhdas data harjoitteluun. Tässä esimerkki ikäjakaumasta sukupuolen mukaan.

Linkki oppaaseen Opas Seaborn-kirjaston hyödyntämiseen bisnesdatan visualisoimisessa — Kirja

Visualisointien tyyli

Seabornin avulla saadaan ammattimaisen näköisiä visualisointeja lähes automaattisesti, se luotiinkin juuri ajatuksena, että käyttäjä voisi keskittyä kuvaajan analysointiin ei sen piirtämiseen. Kuvaajia voi kuitenkin halutessaan muokata monin tavoin. Tämän esimerkin oikeanpuoleinen kuvaaja on ilman tyylimuotoiluja tehty pylväsdiagrammi ja vasemmalla olevaan on muokattu otsikoita ja väritystä.

Tekoälyn avulla kirjoitetut koodit kannattaa aina tarkistaa ennen niiden ajamista erityisesti jos on tarkka millaisen visuaalisen muodon haluaa kuvaajalle. Microsoftin Copilot lisää usein pyydettyyn koodiin omia muokkauksia, välillä vaikka koodi pyydettäisiin ilman niitä.

Lopuksi

DataLabille suoritettuna harjoittelu vaatii opiskelijalta erityisesti ajankäytön hallintaa sekä motivaatiota saavuttaa itselleen asetetut tavoitteet. Aiheen olisi hyvä olla opiskelijalle aidosti mielenkiintoinen, sillä itsenäinen työskentely edellyttää todellista kiinnostusta ja halua oppia enemmän. Pythonin ja Seabornin lisäksi opin myös paljon erilaisia tapoja hyödyntää Jupyter-ympäristöä, jonka uskon tulevan hyödyksi vielä myöhemmin.

Yleinen

Xamk on mukana AIRA-hankkeessa – Power BI -raportin avulla riskit näkyviksi

Kirjoittaja Kirjoittanut fpiva007
Julkaisupäivämäärä 18.8.2025

Xamkin DataLAB:ssa on käynnissä mielenkiintoinen projekti osana AIRA-hanketta, ja sen tuloksena on syntynyt visuaalinen Power BI -raportti hätäkeskusdatasta. Mutta mistä tässä kaikessa on oikein kyse?

AIRA-hanke

Pelastustoimen ja alueellisen varautumisen tehtävänä on parantaa valmiutta uhkiin ja ennakoida riskejä jo ennen kuin ne konkretisoituvat. Tämä työ on tällä hetkellä pitkälti manuaalista ja hajanaista sekä vaatii jatkuvaa yhteistyötä eri toimijoiden välillä, sillä käytössä ei ole yhteistä tietopankkia tai analyysityökalua.

AIRA hyödyntää tekoälyä ja data-analytiikkaa tehostaakseen riskianalyysien tekoa ja tiedolla johtamista. Tavoitteena on vähentää manuaalista työtaakkaa ja parantaa yhteistyötä sidosryhmien välillä. Lisäksi tarkastelussa on, kuinka riskejä voisi tunnistaa aiempaa tehokkaammin, ja suunnitella alueellista kokonaisturvallisuutta parantavia toimenpiteitä.

Hanke hyödyttää konkreettisesti eri toimijoita, kuten pelastustoimia ja poliisia, jotka tarvitsevat työssään tarkkaa ja ajantasaista tietoa päätöksenteon tueksi ja yleisen turvallisuuden ylläpitämiseksi.

Täältä voit lukea aiheesta lisää: https://www.xamk.fi/hanke/aira/

DataLAB-projekti

Tiesitkö, että Suomessa eniten hälytyksiä tulee kesäkuussa ja perjantaisin? Xamkin DataLAB:ssa käynnissä olevassa projektissa on hyödynnetty hätäkeskusdataa, joka kattaa tiedot siitä, mitä on tapahtunut ja missä, ajanjaksolla tammikuu 2015 – helmikuu 2025. Rivimuotoista dataa on kuitenkin hankalaa hahmottaa nopealla vilkaisulla. Siksi sen pohjalta rakennettiin kolmisivuinen Power BI -raportti, joka havainnollistaa hälytysten määrää, ajankohtia ja alueellista jakautumista visuaalisesti ja helposti tulkittavassa muodossa.

Projektin datan valmistelu

Hätäkeskusdata sisältää sarakkeet paikkakunnasta, kellonajasta ja päivämäärästä, tehtävän kuvauksen, yksityiskohdat, linkin uutiseen ja hätäkeskuskoodin. Projektia varten myös hätäkeskuksen nimen sisältävä sarake oli tarpeen, ja se luotiin hyödyntämällä SQL-kyselyä Microsoft Visual Studiossa. Azuren tietokannassa oleva data yhdistettiin Power BI:hin, jossa raportin teko alkoi. Raportin visuaalinen ilme on rakennettu Xamkin brändivärien ympärille hyödyntämällä HEX-värikoodeja, ja DAX-kaavojen luomisessa apuna ovat olleet ChatGPT ja Claude.ai.

Raportti sivu kerrallaan

*Kuva 1. Raportin ensimmäinen sivu, jossa muun muassa karttavisuaali.*

Ensimmäisellä sivulla voi tarkastella hälytyksiä paikkakuntakohtaisesti. Sivulla on kartta, slicer, taulukko ja kortteja. Kartassa näkyy valitun paikkakunnan sijainti, ja paikkakunnan voi valita viereisestä slicer-visuaalista. Kaikki sivun visuaalit reagoivat sliceriin, joten tietoja voi tarkastella paikkakuntakohtaisesti. Korteissa näkyy hälytysten yhteismäärä sekä yleisin tehtävänimike ja sen määrä. Yleisin tehtävä koko Suomessa on ollut palohälytys, joita on ollut vuosien varrella yhteensä 175 630 kappaletta. Kaikenlaisia hälytyksiä on ollut yhteensä 766 923, joka tarkoittaa keskiarvollisesti yli 200 hälytystä joka päivä noin kymmenen vuoden tarkastelujakson aikana.

*Kuva 2. Raportin toinen sivu, jossa hälytyksiä voi tarkastella ajallisesti.*

Toisella sivulla pureudutaan hälytyksiin ajallisesti. Hälytysten määrää voi tarkastella vuosittain, kuukausittain, tunneittain, viikonpäivittäin ja viikottain, joille jokaiselle löytyy oma visuaali tai slicer sivulta. Esimerkiksi valittaessa slicerista vuodeksi 2018, voidaan huomata tehtävien määrän olleen korkeimmillaan kesäkuussa (9426 tehtävää) ja eniten tehtäviä on tullut kello 16 aikaan. Tehtäviä on tullut eniten perjantaisin, ja selkeästi eniten hälytyksiä koko vuonna on tullut viikolla 25. Tämä on ollut juhannusviikko, jossa tehtävät ovat myös pitkälti keskittyneet perjantaihin eli juhannusaattoon.

*Kuva 3. Raportin kolmas sivu näyttää Top 10 -listat ja vilkkaimmat ajankohdat.*

Sivulta kolme löytää raportin Top 10 -listat. Määrällisesti eniten hälytyksiä on ollut Helsingissä, yhteensä 77 632 tehtävää. Helsinki vie myös top 1 sijan kaikista hätäkeskuksista hälytysmäärien perusteella, sijalla kaksi on Pirkanmaan hätäkeskus ja kolmannella Itä- ja Keski-Uudenmaan hätäkeskus. Eniten hälytystehtävissä törmää palohälytyksiin, tieliikenneonnettomuuksiin ja pieniin rakennuspaloihin. Vilkkain tunti vuosien varrella on ollut kello 15, eniten hälytyksiä on tullut perjantaisin, kesäkuut ovat olleet tapahtuma-alttiimpia kuukausia, ja hälytysmäärien perusteella eniten on tapahtunut vuonna 2018.

Lopuksi

Kuten huomata saattaa, hälytykset pitävät ammattilaiset kiireisinä päivittäin, mutta data paljastaa erityisen tapahtuma-alttiit kuukaudet, viikonpäivät, viikot, tunnit ja alueet. Lisäksi hälytykset voidaan lajitella tyypin yleisyyden mukaan. Raportin avulla voidaan helposti nähdä, millaisia hälytyksiä voidaan odottaa tulevan eniten ja milloin. Tämä auttaa keskittämään voimavarat sinne, missä niitä milloinkin eniten tarvitaan.

Linkki raporttiin: https://app.powerbi.com/groups/3d571500-7ded-46fd-99a2-a6399208b83b/reports/899f056b-ee1a-41d8-89ae-df2e3b76e09a/edfb6b0ddd1840ca89b8?experience=power-bi

Huomaa, että raportti näkyy vain Xamkilaisille.

Avainsanat Azure, data, Power BI

Yleinen

Tiederahoittajalista

Kirjoittaja Kirjoittanut mikkoh
Julkaisupäivämäärä 28.7.2023

Sain Lens.org -sivuston kautta haetun listan tiederahoittajien nimistä sellaisista tutkimustartikkeleista, joissa on mukana suomalaisia korkeakouluja. Listassa on 2000 tiederahoittajaa, ja tehtäväni oli luoda taulukko, josta näkee; ovatko ne suomalaisia, vai ei. Tarkoituksena on verrata googlen avulla kirjoittamaani listaa ChatGPT-3.5-turbo-0613-tekoälyn ”kädenjälkeen”.

ChatGPT 3.5 -tekoäly on suunniteltu tulkitsemaan tekstiä, ja ”keskustelemaan” käyttäjänsä kanssa. Se ei pysty etsimään lisätietoja internetistä, vaan luottaa sille opetettuun tietoon.

Listasin rahoittajien suomalaisuuden binäärimuodossa True/False tekstein. Ihan jokaista rahjoittajaa en onnistunut paikantamaan, joten merkitsin ne VIRHE-tekstillä. Suomalaisia rahoittajia löytyi 1285, ulkomaalaisia 704, ja virheitä 11.

Kehoitteet

Tekoälyprojektiin käytettiin kolmea erilaista kehoitetta

This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not?
This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not? Answer with a yes or no answer. Yes for finnish and no for not finnish
Tämä teksti on tiederahoittajan nimi. Päättele onko tämä tiederahoittaja suomalainen? Vastaa ainoastaan kyllä, tai ei.

Kehoitteet ovat sanallisia käskyjä, koska käyttämäni tekoäly on suunniteltu keskustelemaan käyttäjien kanssa. Se ei osaa hakea tietoa internetistä, vaan toistelee sille opetettuja asioita.

Kehoite 1

This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not?

En ajatellut tätä kehoitetta tarpeeksi pitkälle. Tekoäly vastasi kysymyksiin kokonaisin lausein, perusteluiden kera. Vastauksista ei voi siis luoda hyvää karttaa, mutta niiden silmäily paljastaa, ettei tekoäly tuntunut olevan kovin varma monista vastauksistaan.

Kehoite 2

This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not? Answer with a yes or no answer. Yes, for finnish and no for not finnish

Tekoäly vastasi vihdoin binäärivastauksin. Olisi tosin ollut järkevämpää nimetä ne samoin termein, kuin omassakin dokumentissa. (on/ei ole suomalainen) Korjasin tämän pois blogin PowerBi -piirakasta. Tekoäly tuppaa kompuroimaan suomalaisten ruotsinkielisten instituutioiden kohdalla, esim; Liv och Hälsa. Myös säätiöt kuten; Stiftelsen Alma och K. A. Snellman Säätiö aiheuttavat ongelmia, vaikka niissä onkin suomea.

Vaikka tekoäly luokittelikin suurimman osan datasta binäärimuodossa, päätyi se silti sooloilemaan muutaman kerran. Datasta löytyy kaksi erillistä saraketta, joissa tekoäly pahoittelee kyvyttömyyttään käyttäen kokonaisia lauseita. Tekoäly lisäsi myös yhden True -vastauksen perään pisteen, ja teki saman kolmesti No -vastausten kohdalla.
This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not? Answer with a yes or no answer. Yes, for finnish and no for not finnish

Tekoäly vastasi vihdoin binäärivastauksin. Olisi tosin ollut järkevämpää nimetä ne samoin termein, kuin omassakin dokumentissa. (on/ei ole suomalainen) Korjasin tämän pois blogin PowerBi -piirakasta. Tekoäly tuppaa kompuroimaan suomalaisten ruotsinkielisten instituutioiden kohdalla, esim; Liv och Hälsa. Myös säätiöt kuten; Stiftelsen Alma och K. A. Snellman Säätiö aiheuttavat ongelmia, vaikka niissä onkin suomea.

Vaikka tekoäly luokittelikin suurimman osan datasta binäärimuodossa, päätyi se silti sooloilemaan muutaman kerran. Datasta löytyy kaksi erillistä saraketta, joissa tekoäly pahoittelee kyvyttömyyttään käyttäen kokonaisia lauseita. Tekoäly lisäsi myös yhden True -vastauksen perään pisteen, ja teki saman kolmesti No -vastausten kohdalla.

Kehoite 3

Tämä teksti on tiederahoittajan nimi. Päättele onko tämä tiederahoittaja suomalainen? Vastaa ainoastaan kyllä, tai ei.

Kolmas kehoite annettiin suomeksi. Tämä ei kuitenkaan auttanut vastauksissa. Esimerkiksi Turku ja Oulu tunnistettiin ulkomaalaisina paikkoina. Kehoite 3 oli huomattavasti kielteisempi, kuin englanninkielinen kehoite 2. Se ei myöskään totellut annettua binäärikäskyä, vaan vastasi tylysti vastauksella; ”Ei” 102 kertaa. ”On suomalainen” -vastaus kirjoitettiin myös väärin 14 kertaa. Vastausten seasta löytyi myös 21 tapausta, joissa tekoäly oli hylännyt ohjeistuksen, ja alkanut kirjoittamaan omaa tekstiään, käyttäen kokonaisia lauseita.

Pohdintaa

Sain huomattavasti paremmat vastaukset käsin googlailemalla, vaikka se vei aikaa. Kehotteissa ei selkeästi kannata käyttää suomea, eikä tekoäly ole kovin luotettava ”sooloiluongelmansa” takia. Eipä sitä tosin tällaiseen ole suunniteltukkaan. Kunnollisilla kyselyille pitäisi kirjoittaa oma ohjelma, jossa asia on otettu huomioon. Tekoäly pitäisi myös kouluttaa ymmärtämään, että Suomi on kaksikielinen maa…

Lähde

Koulutus.fi. 2023. Sano hei ChatGPT:lle – Mikä on ChatGPT ja mitä siitä pitäisi tietää?. Päivitetty 5.5.2023. Saatavissa: https://www.koulutus.fi/artikkelit/mika-on-chatgpt-ja-mita-siita-pitaisi-tietaa-23286 [viitattu 4.7.2023]

Yleinen

Ilta-Sanomien artikkelien luokittelu ChatGPT 3.5 -tekoälyn avulla

Kirjoittaja Kirjoittanut mikkoh
Julkaisupäivämäärä 26.6.2023

Minulle annettiin dataa, joka sisälsi kaikki Ilta-Sanomien verkkosivujen artikkelit vuodelta 2020. Data koostui sarakkeista: julkaisupäivä, url-osoite, otsikko, uutisteksti, ID, sanamäärä ja osasto. Tarkoituksena oli antaa data luokiteltavaksi yhdysvaltalaisen OpenAI -tutkimuskeskuksen ChatGPT 3.5 -tekoälylle. Tekoälyn oli tarkoitus ottaa näyte datasta, ja luokitella kaikki siinä olevat artikkelit sille annettuihin osastoihin.

ChatGPT 3.5 -tekoäly on nimensä mukaisesti suunniteltu tulkitsemaan tekstiä, ja ”keskustelemaaan”. Todellisuudessa se vaan toistaa sille opetettuja asioita. Se ei pysty hakemaan lisätietoja hakukoneiden avulla, vaan luottaa täysin oppimaansa tietoon.

Tekoälylle (lyh. AI) ainoastaan annettiin lista uutisartikkeleiden osastoista. Se ei nähnyt artikkeleiden alkuperäisiä osastoja. Käskyt annettiin Pandas -nimisellä Python -kirjastolla, käyttäen OpenAI:n API-avainta.

Itse data oli annettu csv-tiedostona, joka muunnettiin Pandasilla taulukoksi.

ChatGPT osoittautui kinkkiseksi työkaveriksi, joten jouduin ”ajamaan” projektin 90 kpl kokoisilla näytteillä. Valmiiseen työhön kertyi 300 tulosta, joten onnistuneita ajoja kertyi neljä.

Kehote annettiin tekstimuodossa. AI:n täytyi tietenkin tietää, mihin tekstit lajiteltaisiin, joten sille tuli antaa valmis lista osastoista, joihin data luokitellaan. Ilta-Sanomien Mobiili -niminen osasto on jätetty pois datasta, sen aiheuttamien ongelmien takia.

AI:ta viitattiin, kuin persoonana, kirjoittamalla sille ystävällisiä viestejä kokonaisin lausein, ja kuvailevin kriteerein. Skripti periaatteessa huijasi olevansa ihminen, joka kysyi AI:lta inhimillisiä kysymyksiä tietyin aikavälein.

Vastauksille varattiin 200 tokenia, skripti odotti 33 sekuntia kyselyiden välissä. Kolme ensimmäistä ajoa sisälsi 90 uutistekstiä. Näiden ajamiseen kului aikaa: 54min 31sek, 51min 3sek ja 50min 56sek. Viimeinen ajo sisälsi 30 uutistekstiä, ja siihen kului 18min 40sek.

Skriptin odotusluvun säätämisellä oli usein katalia seurauksia, joten jouduin tyytymään odotteluun. Lopuksi data yhdistettiin csv -tiedostoon, josta kasasin sen suureksi taulukoksi, josta erottuu kaikki saatu data.

300:n uutistekstin joukosta AI onnistui luokittelemaan 125 artikkelia. (n. 42%) Datasta löytyi myös 19 artikkelia, joihin AI oli keksinyt oman vastauksen, vaikkei sille oltu koskaan annettu käskyä keksiä omia osastojaan. Datassa oli myös kolme vastausta, joilla tarkoitettiin sitä, mitä ajettiin takaa, mutta kirjoitusasu ei vastannut annettua promptia. Täysin epäonnistuneita luokitteluja oli 153. (51%)

Voit tutkia värikoodattua dataa osoitteessa: https://ksamk-my.sharepoint.com/:x:/g/personal/bmiha003_edu_xamk_fi/EUP5IUiq1XZChBAvQnRgz_0BHXuvesvZtR7ijQN9z-xNYA?e=qmjgMP
Excel -välilehdiltä löydät datan lajiteltuna.

Lähde

Yleinen

Ajankohtaisten kysymysten luokittelua: suuret kielimallit ja Suomi

Kirjoittaja Kirjoittanut vaeinoe
Julkaisupäivämäärä 31.3.2023

Tekoälyn ympärillä pyörivä hype on lisääntynyt alkuvuodesta merkittävästi. Tämä johtuu pitkälti suurista kielimalleista, joiden keskusteluun optimoitu versio julkaistiin joulukuussa 2022 chatGPT -nimellä.

Kielimallit on opetettu valtavalla määrällä tekstidataa, ja eri kielisen datan määrä vaihtelee paljon. Esimerkiksi englanti, espanja ja kiina ovat määrällisesti aivan eri sarjassa kuin suomi, virosta nyt puhumattakaan. Suomen Turussa koulutetaan parhaillaan kotimaisia GPT3-malleja ja niitä odotellessa on hyvä testata miten hyvin ulkomailla koulutetu mallit osaavat kieltämme.

Xamkin data-analytiikkakoulutuksen ajankohtaisten kysymysten kurssilla kerättiin tekstiaineisto. Jokainen opiskelija linkkasi kurssin keskustelualueelle ajankohtaisen dataan liittyvän uutisartikkelin, minkä jälkeen artikkelien kokotekstejä haettiin verkkosivuilta niiden url-osoitteiden ja lyhyen koodinpätkän avulla. Opiskelijat saivat tehtäväksi analysoida aineistoa luokittelemalla uutistekstien teemoja. Lopputuloksena syntyi 35 artikkelin aineisto. Jokainen sai kylkeensä opiskelijoiden antamat teemat ja ne yhdistettiin samaan sarakkeeseen.

Aineiston ensimmäisen artikkelin tietoja. Opiskelijoiden luokittelemat teemat on yhdistetty samaan sarakkeeseen

Miten tekoäly suoriutuisi luokittelutehtävästä? Tai mitä muita luokittelutehtäviä sille voisi antaa? Kokeilua varten otettiin käyttöön chatGPT-kielimallin ohjelmointirajapinta. Aineiston uutistekstit lähetettiin ”tekoälylle” ja niiden kanssa kokeiltiin erilaisia ”prompteja” eli kehotteita, jotka ovat tässä tapauksessa ohjeita siitä mitä teksteille pitäisi tehdä.

chatGPT:n rajapinta haluaa sisäänsä järjestelmäkehotteen ja käyttäjäkehotteen. Ensimmäinen määrittelee kontekstia jonka perusteella mallia ohjataan tuottamaan tietynlaista tekstiä. Uutisaineistomme kanssa käytettiin seuraavaa järjestelmäkehotetta:

”olet reipas ja tarkkaavainen tutkimusapulainen joka auttaa tekstidatan luokittelussa”

Sitten kokeiltiin erilaisia käyttäjäkehotteita joilla konetta pyydettiin luokittelemaan tekstiä tai kertomaan siitä asioita.

Ensimmäisellä kehotteella pyydettiin erottelemaan tekstistä ihmisten ja organisaatioiden nimet. Toisella pyydettiin laatimaan uutisen pohjalta pahin mahdollinen skenaario ja kolmannessa pyydettiin teemoittelua tarkasti määritellyin ehdoin.

Mutta ovatko tulokset mistään kotoisin? Ensimmäisen kehotteen kohdalla tulokset on kohtuullisen helppo tarkistaa. Lisäksi on olemassa suomen kielellä opetettuja malleja jotka on koulutettu juuri tällaisia tehtäviä varten. Ja tämän pienen aineiston kanssa vaikuttaa, että chatGPT suoriutuu tehtävästä todella hyvin. Toisen ja kolmannen kehotteen laatua on vaikeampi arvioida.

Voit tarkastella tuloksia itse lataamalla csv-tiedoston täältä: https://drive.google.com/file/d/1rgzOo1h9IwBeKBGf8kNw2UU4IeFdlPCF/view?usp=share_link

Avainsanat chatGPT, Suomi

Yleinen

Sankey-kaavion luominen Kouvolan ostolaskuista

Kirjoittaja Kirjoittanut vaeinoe
Julkaisupäivämäärä 5.2.2023

Sankey-kaavio on virtakaavio, joka edustaa tietojen, resurssien tai energian virtausta yhdestä elementistä toiseen. Kaaviot koostuvat suorakaiteita, jotka edustavat kategorista dataa sekä nuolista, jotka edustavat virtauksia kategorioiden välillä. Nuolen leveys vastaa virtauksen määrää.

Kaavio Kouvolan kaupungin vuoden 2021 ostolaskuaineistosta

Yksi suosittu käyttökohde Sankey-kaavioille on oman talouden hallinta. Seuraamalla omia tuloja ja menoja ja merkitsemällä tiedot ylös exceliin luo hyvän aineiston visualisoitavaksi. Verkkopankissa tiedot ovat hyvin saatavissa ja menojen ja tulojen kategorisointi voi olla myös hyvin opettavainen kokemus.

Seuraavaksi luomme yksinkertaisen Sankey-kaavion käyttämällä ei minun, vaan kotikaupunkini Kouvolan ostolasku-aineistoa vuodelta 2021 joka on saatavilla osoitteessa https://www.kouvola.fi/kouvolankaupunki/kouvola-tietoa/avoin-data/ Kaavion luomiseen käytetään SankeyMATIC -työkalua joka puolestaan käyttää tehokasta JavaScriptin D3.js visualisointikirjastoa.

Data on Excel-tiedostossa joten lienee luontevaa käyttää datan muokkaukseen Exceliä. Ennen visualisointia data on muokattava oikeaan muotoon, joka tässä tapauksessa on seuraava:

Mistä [paljonko] Minne

Vasemmalle puolelle tulee kategoria ja oikealla toinen kategoria johon virtaus kohdistuu. Hakasuluissa esitetään virtauksen määrä, jonka täytyy olla numeerinen muuttuja.

Aluksi poimin ostolaskuexcelistä vain halutut sarakkeet. Tässä tapauksessa vasemmalle puolelle tulee pelkästään ”Kunnan nimi”, oikealle muuttuja nimeltä ”Tiliryhmä 1” sekä numeeriseksi muuttujaksi ”Laskun loppusumma” jolloin taulukon alku näyttää seuraavalta:

Seuraavaksi aineisto pivotoidaan. Tarkoitus on yksinkertaisesti ryhmitellä aineisto Tiliryhmä 1:n mukaan ja laskea jokaiselle ryhmän jäsenelle laskujen summa. Tätä varten luodaan pivot-taulukko painamalla (englanninkielisessä excelissä) Insert -> pivot table -> From Table/range.

Alueeksi valitaan sarakkeet joissa Tiliryhmä 1 ja Laskun loppusumma majailevat, eli tässä tapauksessa sarakkeet B ja C. Pivot-näkymässä Tiliryhmä raahataan hiiren avulla laatikkoon ”rows” ja laskujen eurot raahataan laatikkoon values, josta Excel oletuksena laskee summan.

Pivotoimalla valitut sarakkeet saadaan aikaan nk. GROUP BY toiminto

Seuraavaksi siirrän pivot-taulukon omalle välilehdelle, jossa suoritetaan viimeinen toimenpide ennen visualisointia. Se on datan muuttaminen sankeymaticin haluamaan mistä [paljonko] minne -muotoon.

Lisään pivot taulukon vasemmalle puolelle uuden sarakkeen A joka saa joka rivillä arvon ”kouvolan kaupunki” Edustamaan kaaviomme vasenta laitaa. Sarake B sisältää tiliryhmäluokittelut ja sarake C laskujen summat. Kätevimmin datan saa visualisoitavaan muotoon käyttämällä seuraavaa funktiota uuteen sarakkeeseen:

=CONCATENATE(A2, " [", C2, "] ", B2)

Tässä A-sarakkeen toisella rivillä oleva arvo (koska ensimmäisellä on sarakkeen nimi) tulee vasemmalle, sen väliin C-sarakkeen arvo hakasuluissa ja vasemmalle B-sarakkeen arvo. Concatenate tarkoittaa suurin pirtein toisiinsa kytkemistä tai yhteen liittämistä. Lopputuloksena on seuraavanlainen taulukko:

D-sarakkeessa on funktiolla muodostettu data muodossa **mistä [paljonko] minne**

D-sarakkeen sisällön voi kopioida sellaisenaan sankeyMATICin inputs-laatikkoon. Työkalu tarjoaa paljon vaihtoehtoja kaavion muokkaamiseen monipuolisella käyttöliittymällä. Esimerkiksi tässä tapauksessa virtaus lähtee yhdestä osoitteesta, mutta sen voi myös jakaa kategorioihin. Lisäksi kaavion ulkonäköä voi muokata todella monipuolisesti haluamansa näköiseksi. Lopputuloksena tiliryhmän visualisoinnista syntyi seuraava kuva, jonka voi kätevästi ladata png-muodossa:

Yleinen

Power Apps tuntiseurantasovellus

Kirjoittaja Kirjoittanut nikolehtola
Julkaisupäivämäärä 24.11.2022

Annetun tehtävänantoni perusteella minun oli luoda tuntiseurantaan suunnattu ohjelma. Ohjelman tarkoituksena olisi tarjota Xamkin oppilaille helppo ja vaivaton keino suoritetun tuntimäärän kirjaamista ja seuraamista varten, lähinnä työharjoittelun yhteydessä, ja sitä tulisi pystyä käyttämään älylaitteella kuten puhelimella tai tabletilla.

Varsinaisesta sovelluskehittämisestä itselläni ei ollut minkään sortin kokemusta, vaikka eri ohjelmointikielten alkeita oli tultukin opiskeltua, kuten muun muassa Python, JavaScript ja PHP. Sovellus oli tarkoitus luoda Power Appsia käyttäen. Nimi ei sanonut omalla kohdallani mitään, mutta helpotuksekseni asiat pian avauvuivat.

Power Apps on Microsoftin Power -tuoteperheeseen (kuva 1) kuuluva sovellusten kehittämistä varten luotu työkalu. Power -tuoteperheen sovellukset ovat suunniteltu toimimaan nimenomaan keskenään, mutta moni niistä toimii myös muiden Microsoftin -palveluiden kesken.

Power Apps -kehittämisympäristö on toteutettu pilvipalveluna ja löytyy osoitteesta https://make.powerapps.com. (kuva 2) Sillä luodut sovellukset toimivat älylaitteilla, kuten puhelimilla ja tableteilla, mutta myös selaimessa. Sovelluskehitys on yhdistelmä palikkaohjelmointia ja kyselykieltä muistuttavien käskyjen kirjoittamista.

Kuva 2. Power Apps käyttöympäristö ja ohjelman aloitussivu.

Tuot projektiisi ennalta luotuja elementtejä jonka jälkeen asetat niille haluamasi arvot ja kerrot kuinka ohjelma reagoi käyttäjän ollessa vuorovaikutuksissa käyttöliittymän kanssa. Nämä tuodut elementit voivat olla näppäimiä, listoja, ajastimia, tai pelkkiä kuvioita tai ihan vain puhdasta tekstiä.

Power Apps -ohjelmat tukevat sisäänkirjautumista Microsoft -tilin kautta, jolloin sovelluskehittäjän itse ei tarvitse huolehtia salasanojen ja käyttäjätunnuksien salaamiseen liittyvistä tietoturvaongelmista. Samalla ohjelma mahdollistaa käyttäjätietoja käsittelevien funktioiden käytön kuten User().FullName ja User().Email, jotka ovat suuri apu luodessa ohjelmaa, jonka on tarkoitus pystyä erittelemään eri käyttäjät toisistaan.

Ja kuten edellä mainitsin Power Apps on suunniteltu toimimaan vuorovaikutuksissa eri Microsoft -palveluiden kanssa. Käytin projektissani Microsoft Sharepoint -palvelun alla toimivaa Lists -sovellusta, joka mahdollistaa taulukkodatan säilömisen ja jakamisen. Loin kaksi listaa/taulukkoa johon toiseen listasin tällä hetkellä olevat työtehtävät (kuva 3) ja toiseen käyttäjien tunnit. Lisäksi siirsin taulut DataLabs Sharepoint -ryhmän alle, jotta kaikilla DataLabs ryhmän jäsenillä olisi lähtökohtaisesti oikeudet taulujen käsittelemiseen sovelluksen käytön yhteydessä. Ohjelma toimi halutulla tavalla jos käyttäjältä puuttuvat taulujen muokkaamista varten edellytettävät oikeudet.

Käyttäjä pystyy hakemaan työtehtäviä sovelluksen saatavilla olevat työtehtävät -painikkeen kautta, joka tulostaa edeltävän kuvan 3 työtehtävät -listan (kuva 4). Työtehtävän nimeä koskettamalla käyttäjä saa esille kyseistä tehtävää koskevat tarkemmat tiedot ja voi halutessaan valita tehtävän itselleen painiketta painamalla.

Työtehtävän valitsemisen jälkeen kyseinen tehtävä löytyy tehtävien lisäämisessä käytetyn valikon alta (kuva 5) ja käyttäjä voi kasvattaa sen tehtävän tunteja kirjatessaan suorituksiaan. Valikon kautta käyttäjä pystyy myös muokkaamaan tai poistamaan aikaisemmin kirjattuja tehtäviä. Kenttinä ovat päiväys, työ, tunnit ja valinnainen tekstikenttä johon voi halutessaan kirjoittaa jotain.

Tehtävän kirjaamisen jälkeen tehtävä tulostuu käyttäjän työtehtävät -sivulle (kuva 6), jossa käyttäjä voi tarkastella kirjaamisiaan. Kirjattuja päiviä voi suodattaa halutun päivän mukaan ja niitä voi halutessaan muokata tai poistaa. Tehtävien yhteenlaskettu tuntimäärä tulostuu sovelluksen aloitussivulle. (kuva 2)

Sovelluksen käyttöliittymä on vielä tässä vaiheessa ei-niin-täydellinen ja siitä puuttuu muutama ominaisuus. Pohjimmiltaan sen runko kuitenkin toimii. Tarkoituksena olisi myös luoda interaktiivinen Power BI -visualisointi, jota kautta sovelluksen käyttäjät, opettajat, tai joko kummatkin pystyisivät seuraamaan tuntikirjanpitoon liittyvä tunteja ja tavoitteita.

Power Apps esittää itsensä helppokäyttöisenä ja nopeana tapana luoda sovelluksia Microsoft -ympäristössä sijaitsevan datan ympärille. Omalta osaltani ohjelma ei kuitenkaan ollut aina niin yksiselitteinen mitä se lupasi. Joskus ohjelma ei vain toiminut halutulla tavalla ja sen yksinkertaisuuden takia ongelman löytäminen osoittautui odotettua turhauttavammaksi, mutta vikaa oli aivan varmasti myös käyttäjässä. Ja vaikka välillä ohjelman palikkamainen rakenne voikin tuoda omat rajoitteensa, niin se on silti erinomainen työkalu kaikille heille, jotka eivät ole ohjelmoinnin mestareita.

Avainsanat power apps, sovellus, sovelluskehitys

Yleinen

R-studio ja Eurostat

Kirjoittaja Kirjoittanut nikolehtola
Julkaisupäivämäärä 18.11.2022

R-studio on hallitseva ilmainen avoimeen lähdekoodiin perustuva ohjelmointiympäristö, joka tarjoaa graafisen käyttöliittymän R-kielen kirjoittamiselle antaen huomattavan määrän työkaluja kielen hallintaan. R-ohjelmointikieli on alusta alken luotu datasettien käsittelemistä varten, mutta sen tarjoamista ominaisuuksista eivät nauti pelkästään data-analytiikot ja -tieteilijät, vaan sen käytön ovat omaksuneet myös muunlaiset käyttäjät. (Giorgi F, Ceraolo C & Mercatelli D. 2022.)

Ohjelmointikieli tukee sovitettujen kirjastojen luomista, jotka pitävät sisällään ennalta luotuja komentoja laajentaen ja tehostaen R-kielen käyttöominaisuuksia. Yhtenä näistä kirjastoita on Eurostatin tarjoama eurostat-kirjasto. Eurostat (https://ec.europa.eu/eurostat/web/main/home) on Euroopan komission alainen yksikkö, joka tuottaa tilastotietoa Euroopan unionin käyttöön. Palvelun tarkoituksena on tarjota mahdollisuus suurien tilastojen jalostamiseen EU alueella ja palveluiden parantamiseen. (European Commission. 2022.) Tilastoihin pääsy ja niiden käyttäminen on täysin maksutonta.

Eurostat-kirjasto pitää sisällään funktioita, jotka mahdollistavat R-kielen tarraamisen Eurostatin ylläpitämän tietokannan (https://ec.europa.eu/eurostat/web/main/data/database) ohjelmointirajapintaan. Näin ollen käyttäjä voi tarkastella, käsitellä ja tallentaa sivustolta löytyvää dataa suoraan R-kielen välityksellä.

Eurostatin käyttöönotto

Eurostat kirjaston käyttämäinen edellyttää eurostat paketin asennusta ja se tapahtuu samalla lailla kuin minkä tahansa muunkin paketin asennus. Voit asentaa sen joko R-studion yläreunasta löytyvästä Tools -> Install packages valikosta tai käyttäen install.packages() funktiota malliin install.packages(”eurostat”) (kuva 1). Paketin asentamisen jälkeen saat kirjaston käyttöösi lisäämällä eurostat kirjaston projektiisi library(eurostat) funktiolla.

Kuva 1. Eurostat pakettien ja kirjaston asennus.

Tämän jälkeen Eurostatin eurostat-kirjasto on käytettävissäsi ja pystyt hyödyntämään sen tarjoamia uusia funktioita. Yhtenä alustavimmista funktioista on get_eurostat_toc(), joka tulostaa kaikki Eurostatista nykyhetkellä löytyvät datasetit. Alhalla (kuva 2) on esimerkki kyseisen kyselyn muuttujaan asettamisesta.

Muuttujan asettamisen jälkeen voit avata sen ja tarkastella funktion tuoman kyselyn tulosta (kuva 3). R-studio muuntaa datan oletuskohtaisesti taulukkomuotoon, jossa se on myös ihmissilmälle helposti luettavassa muodossa. Taulukosta löytyvä code-sarake on olennainen tieto asian etenemisen kannalta, sillä se toimii taulukon tunnuksena.

Datasetin hakeminen

Haetaan cens_hnmga tunnusta käyttävä taulu komennolla df <- get_eurostat(”cens_hnmga”, type = ”label”, time_format = ”num”). Taulu on avattavissa myös selaimella osoitteessa https://ec.europa.eu/eurostat/web/products-datasets/-/cens_hnmga. Taulu sisältää 30 Euroopan valtion väkiluvun vuosina 1981, 1991 ja 2001, sekä sukupuolijakauman. Taulun hakemisen jälkeen se on käytettävissä kuin mikä tahansa muukin R-studiossa sijaitseva taulu, mahdollistaen sen sisältämän datan suodattamisen ja muokkaamisen. (kuva 4)

Muokkaamisen lisäksi taulun dataa voidaan myös tulostella perinteiseen tapaan esimerkiksi ggplot-kirjaston voimin. (kuva 5)

Loppumietteet

Tarpeen sitä vaatiessa Eurostat soveltuu hyvin erinäisten dataharjoitusten ja projektien datalähteeksi, mutta kaikki Eurostatin tietokannasta löytyvä data ei kuitenkaan käänny yhtä helposti käsiteltävään muotoon. Kokenut R-kielen osaaja jalostaa datasetin kuin datasetin, mutta kokeneemmattomalle käyttäjälle sopivan datasetin löytäminen tuhansien joukosta voi osoittautua omaksi ongelmakseen.

Palikoiden osuessa kohdalleen Eurostat kuitenkin hoitaa roolinsa sujuvasti ja näen sen varteen otettavana vaihtoehtona data-analytiikkaa opiskeleville vailla aineistoa, tai vaikkapa opettajille uuden opetusmateriaalin luonnin yhteydessä.

Lähteet

Giorgi F, Ceraolo C & Mercatelli D. 2022. The R Language: An Engine for Bioinformatics and Data Science. Päivitetty 4.2021. Saatavissa: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9148156/ [viitattu 18.11.2022].

European Commission. 2022. About Eurostat. Saatavissa: https://ec.europa.eu/eurostat/web/main/about-us/ [viitattu 18.11.2022].

Avainsanat data, eurostat, r-studio

Yleinen

Datalab harjoittelu

Kirjoittaja Kirjoittanut Olli-pekka Sipponen
Julkaisupäivämäärä 4.9.2022

Harjoittelussani oli tarkoitus tehdä tehtäviä Excelissä ja tutustua syvemmin sen ominaisuuksiin. Tarkastelin erityisesti analysointityökalua, mikä on Excelin lisäosa. Se antaa mahdollisuuden analysoida isoakin määrä dataa helposti. Analysointityökalun tutkiminen on ollut erittäin kiinnostava ja opettava kokemus.

Data

Näihin töihin data on kerätty Yahoo financista. Keräsin dataa kullan, raakaöljyn, platinan ja hopean hinnan muutoksista. Data oli vuoden 2012 alusta vuoden 2022 huhtikuun loppuun. Tarkemmin sanoen data koostui päivittäisistä päätöshinnoista. Yahoo financista ei ollut suoraa lataus mahdollisuutta näistä tiedoista, joten tietojen keräyksessä piti käyttää luovuutta. Lopulta sain siirrettyä tiedot Exceliin komentoja Ctrl-C ja Ctrl-V käyttäen. Aluksi siirrettyä dataa piti muokata, sillä luvut olivat muodossa 1,000.00, mitä Excel ei ymmärtänyt. Muokkaus perusmuotoon 1000,00 tehtiin käyttäen Excelissä komennolla Ctrl-F avautuvaa Korvaa-työkalua. Korvaa-työkalulla muutin myös päivämäärät muodosta kk.pp.vv muotoon pp.kk.vv.

Kuva 1 Viiva diagrammi raaka-aineiden hinta indeksistä

Valitsin arvokkaita raaka aineita, koska niistä voi nähdä mitä maailman taloudessa tapahtuu. Kullan, hopean ja platinan hinnat Yahoo finanssissa annettiin dollareina unssilta. Öljyn hinta sen sijaan annettiin dollareina tynnyriltä.

Kullalta oli ensimmäinen raaka-aine, jonka päätin valita. Kulta on perinteisesti ollut sijoittajien turvasatama markkinoiden epävakaina aikoina (Talousanomat, 2019). Kulta on siis historiallisesti luotettava ja tasainen arvon osoittaja taloudessa. Yllä olevasta käyrästä voit nähdä kullan hinnan on muutokset prosentteina viimeisen 10 vuoden aikana. Kullan hinta on noussut 70 prosenttia eli noin 800 dollaria viimeisen 10 vuoden aikana.

Hopea valittiin sen halvan hinnan ja sen käytöstä taloudessa. Hopean hintaa heiluttaa paitsi koronatilanne myös toiveet teollisuuden tuotannon elpymisestä ja lisäkysynnästä ja toisaalta huoli tuotannon riittävyydestä (Taloussanomat, 2020). Hopean hinta on korkeimmillaan noussut 170 prosenttia. Hopean alhaisen hinnan takia tämä muutos on ollut vain kymmenien dollarien verran.

Platina taas on arvoltaan kullan ja hopean välissä. Ei liian kallis jalometalli mutta ei myöskään liian halpa. Kuvan 1 mukaan platinan hinta on laskenut huomattavasti viimeisen 10 vuoden aikana. Platinan hinta on pudonnut 40 prosenttia eli noin 700 dollaria.

Raakaöljyn valitsi Ukrainan sodasta seuranneesta hinnan noususta. Jolloin korrelaatio olisi helpompi huomata hinnan muutoksista. Öljyn hinta on noussut 29 prosenttia eli noin 20 dollaria viimeisen 10 vuoden aikana. Öljyn hinta vuonna 2020 putosi 88 prosenttia. Seuraavan kahden vuoden aikana öljyn hinta nousi huimat 117 prosenttia.

Datan käsittelyyn käytettiin Excelin apuohjelmaa analysointityökalut. Analysointityökalut voi aktivoida asetuksista. Kyseisellä työkalulla voit tehdä monenlaisia data-analyysejä suurellekin määrälle dataa helposti. Sen helppokäyttöisyys ja käyttäjäystävällisyys käy ilmi nopeasti.

Korrelaatio

Yksi analysointityökaluista on nimeltään Korrelaatio. Kyseinen työkalu hyödyntää Pearsonin korrelaatiokerrointa, joka mittaa lineaarisen yhteyden voimakkuutta kahden muuttujan välillä. Työkalulla pystyt helposti laskemaan (pareittaiset) korrelaatiokertoimet usean muuttujan tilanteessa (Kuvat 3 ja 4). Huomaa, että jos käytät ainoastaan KORRELAATIO-komentoa Excelissä, saat vain yhden korrelaatiokertoimen. Korrelaatio-työkalun tutkiminen ja sen käyttöön perehtyminen oli kiinnostava projekti ja oli hyvin opettavaista.

Korrelaatio on voimakkaampi mitä lähempänä korrelaatiokerroin on 1 tai -1. Se on sitä heikompi mitä lähempänä se on nollaa. Matriisista (Kuva 3) näet, että kullalla ja raakaöljyllä on heikko suora korrelaatio. Platinalla ja kullalla on sen sijaan heikko suora korrelaatio. Hopealla ja platinalla on voimakas suora korrelaatio. Platinalla ja raakaöljyllä sekä Hopealla ja kullalla on taas vahva korrelaatio. Raakaöljyllä on vahva korrelaatio hopean kanssa.

Korrelaatio matriisia tutkiessani huomasin, miten datasetin laajuus vaikutti suuresti matriisiin. Datan keräys suppeasti tai pieneltä aikaväliltä voi vaikuttaa korrelaatiomatriisiin tuloksiin. Kuvan 4 data on kerätty vuoden alusta alkaen toukokuun alkuun. Kuvien 3 ja 4 matriisit ovat selvästi hyvin erilaiset.

Kuva 4 Esimerkki suppean datan käytöstä korrelaatio matriisissa

Tunnusluvut

Toinen työkalu mihin tutustuin, oli Tunnusluvut-työkalu. Se on hyvin käytännöllinen työkalu, jonka avulla voit saada datasta laskea datasta perustunnusluvut, kuten keskiarvon, moodin ja mediaanin. Huomaa, että moodi voi näkyä myös muodossa #puuttuu! (kuva 5), jos datasetissä ei ole yhtäkään samanlaista arvoa. Kuvassa 5 voit nähdä, mitä kaikkea Tunnusluvut-työkalulla saadaan selville. Tämä työkalu vaikuttaa tehokkaalta työvälineeltä, joten aion tulla käyttämään sitä tulevaisuudessa. Mielestäni sillä on paljon potentiaalisia hyötyjä.

Kullan tämänhetkinen hinta on keskiarvon yläpuolella yllättävän paljon. Kullan hinta on nyt 1909,30 (dollaria unssilta) verrattuna koko datan keskiarvoon 1522,71. Kullan hinta on vaihdellut paljon vuosien varrella, tämän voi nähdä kohdasta Alue, joka tarkoittaa tunnuslukua vaihteluväli (joka kertoo suurimman pienimmän arvon erotuksen). Mielestäni kiinnostavin havainto koskien tunnuslukuja oli raakaöljyn halvin hinta, mikä oli vain -37,63 dollaria tynnyriltä. Tämä oli mielestäni hyvin kiinnostava havainto.

Pohdinta

Mielestäni aikani analysointityökalu apuohjelman parissa on ollut todella palkitsevaa ja kiinnostava. Opin jopa tämän blogikirjoituksen aikana uusia asioita Excelistä. Odotan innolla, mitä tehtäviä tulee vielä harjoitteluni aikana. Haluaisin tutkia myös muita apuohjelmia ja saada niistä tietoja.

Lähteet

STT–AFP. 2019. Kullan hinta singahti ylimmilleen kuuteen vuoteen. Talousanomat 21.6.2019. Verkkolehti. Saatavissa: https://www.is.fi/taloussanomat/art-2000006150257.html

Startel–Bloomberg. 2020. Kullan hinta harppasi ennätyslukemiin, hopea kalleinta seitsemään vuoteen. Talousanomat 22.7.2020. Verkkolehti. Saatavissa: https://www.is.fi/taloussanomat/art-2000006578695.html

Yleinen

Harjoittelu: DataLAB

Kirjoittaja Kirjoittanut Panu Tyrväinen
Julkaisupäivämäärä 21.12.2021

Kokonaisuudessaan harjoitteluni koostui useasta osasta. Minulla oli hieman aikaisempaa työkokemusta, jota kykenin hyödyntämään osana perusharjoittelua. Lopun perusharjoittelun ja syventävän harjoittelun suorituspaikkana toimi DataLAB, jossa työskentelin muutaman isomman projektin ja tehtävän parissa. Harjoittelun suoritin toukokuun 2021 ja joulukuun 2021 välillä.

Hävikki-projekti

Hävikki-projektiin haettiin data-analytiikan opiskelijaa keväällä 2021. Projekti oli kuvauksen perusteella kiinnostava ja mikä tärkeintä, siinä pääsi vaikuttamaan oikeisiin ja olemassa oleviin ongelmiin. Projektin tarkoitus oli selvittää vähittäistavarakaupoista kerättävän datan avulla, voiko ruoan hävikkiä ennustaa.

Pitkälti projektin työkaluna toimi R-studio. Projektin ensimmäisessä vaiheessa hävikkiä ennustettiin regressiomallien avulla. Projektin toisessa vaiheessa saatiin lisää dataa käyttöön ja lähestymistapaa vaihdettiin. Hävikin esiintyvyyttä alettiin tarkastelemaan keskiarvon ja keskihajonnan avulla, joita laskettiin sitä mukaa kun päiviä kertyi. Tällä tavoin ennusteen tarkkuus parani, mitä enemmän dataa saatiin kerättyä.

Hävikki-projekti sai myös jatkoa syksyllä 2021 data-analytiikan opintoihin sisältyvän projektin yhteydessä. Projektin tarkoituksena oli löytää sopiva määritelmä ongelmallisille tuotteille, joilla on suurempi riski aiheuttaa hävikkiä.

Kesätehtävät

Kesän ajaksi sain kolme isompaa tehtävää suoritettavaksi. Ensimmäisenä tehtävänä oli luoda frekvenssejä kuvaava puudiagrammi hyödyntäen R-Studiota. Esimerkiksi kyselytutkimuksen analysoinnissa voi olla hyödyllistä käyttää puudiagrammia, sillä se kuvaa selkeästi muuttujien jakautumista sekä näyttää lisäksi niiden arvot ja frekvenssit. Kirjoitin aiheesta myös erillisen blogin: Frekvenssejä kuvaava puudiagrammi.

Toinen kesätehtäväni oli muokata BRFSS-data kyselytutkimusainestoa vuodelta 2019, jossa on tutkittu Yhdysvaltain kansalaisten terveyttä ja elintapoja. Tarkoituksena oli saada aikaan selkeämpi ja suomennettu kokonaisuus, joka sisältää jatkuvia ja epäjatkuvia muuttujia hyödyntäen R-Studiota. Tarkemmin muokkauksesta kerron blogissa: BRFSS-datan muokkaus.

Kolmas kesätehtäväni oli R-Studion avulla tarkastella logistista regressiota. Tehtävänä oli esitellä logistisen regression teoriaa, mallin tekeminen, ennustaminen ja selvittää mallin toimivuus. Tehtävässä hyödynsin aiemmin muokkaamaani BRFSS-dataa.

Muuta

DataLAB pitää sisällään myös muita työtehtäviä. Niihin kuuluu kuukausittaiset palaverit, joissa käydään läpi sen hetken työtilanteita ja jatkotoimenpiteitä. Kouvolan kampukselle avatun FUEL-tila myötä myös DataLAB sai fyysiset toimitilat syksyllä 2021. Olin itse mukana tekemässä muuttoa ja järjestelyitä uusissa tiloissa. DataLAB piti FUEL-tilan avajaisissa myös omaa pistettä, jossa esiteltiin aikaan saatuja töitä. Omalta osaltani esittelin keväällä 2021 tehtyä Hävikki-projektia.

Lopuksi

Harjoittelusta opin paljon. Tehtävät olivat välillä haastavia, mutta koen sen olleen myös suuri etu. Hienoa oli myös päästä vaikuttamaan oikeisiin ongelmiin sekä nähdä oma työnsä jälki, ja että siitä oli myös hyötyä. DataLAB tarjoaa monipuolisia työtehtäviä opiskelijoille, joten siellä harjoittelun suorittamista kannattaa ehdottomasti pitää mahdollisuutena.