Data-analytiikan ja visualisoinnin koulutuksen viidennellä lukukaudella toteutetaan ja raportoidaan tilaajalle laaja data-analytiikan tutkimus- ja kehitysprojekti. Työparini Emman kanssa saimme Xamkin DataLABilta tehtäväksemme kerätä tietoa datatyöpaikkojen tilanteesta ja kehityksestä Suomessa sekä analysoida ja visualisoida kerätty data Microsoftin Power BI-työkalulla. Tavoitteena oli myös rakentaa datatyöpaikoista mittaristo DataLABin käyttöön. Projektin tuotoksena syntyneen datatyöpaikkojen osaamistarvekartoituksen avulla data-analytiikan koulutusta voidaan kehittää entistä paremmin vastaamaan tämän hetken työelämän tarpeita ja vaatimuksia.
Datan kerääminen
Projektissa käytettävä data rajattiin kerättäväksi yhdeltä internetin työnhakusivustolta ja tavoitteena oli kerätä tietoja sadasta datatyöpaikasta Suomessa. Työnhakusivustoksi valittiin Duunitori.fi, josta hakusanalla ”data-analysis and management” kerättiin työpaikkailmoituksista manuaalisesti Excel-tiedostoon tarvittavat tiedot. Muuttujiksi määriteltiin tehtävänimike, yritys, sijainti, työn tyyppi, työsuhde, koulutus, etätyömahdollisuus, ohjelmisto ja tekniikat, kielitaito sekä sosiaaliset taidot. Projektidata kerättiin lokakuussa 2020, jolloin projektin lopputulokseen vaikutti sillä hetkellä saatavilla oleva data datatyöpaikoista.
Muuttujien luokitteleminen
Projektidatan keräämisen jälkeen oli vuorossa datan siivous ja muuttujien luokitteleminen. Tässä vaiheessa mietittiin, kuinka kerättyä dataa on järkevintä lähteä hyödyntämään. Esimerkiksi datavarastona toimivaan Excel-tiedostoon kirjattu ”yritys”-muuttuja otettiin jatkokäyttöön luokiteltuna muuttujana ”Luokiteltu toimiala”. Id-numerot ja muuttujaluokitukset kerättiin omille välilehdilleen datavaraston sisällä. Mittariston rakentamisen kannalta päätettiin välilehdestä ”Luokiteltu työpaikka” tehdä päätaulu. Tälle välilehdelle kerättiin mittaristoa varten tarvittavien muuttujien id-numerot kutakin datariviä koskien. Näin haluttiin varmistaa tietojen linkityksen onnistuminen jatkotyöskentelyä varten. Viiteavaimena välilehdelle Datatyöpaikat toimi muuttuja Id_työpaikka. Tällä id:lla pystyttiin linkittämään Datatyöpaikat-välilehdelle syötetty työpaikka välilehdelle ”Luokiteltu työpaikka”. Jokainen rivi edusti erillistä työpaikkaa ja muuttujien arvot kerättiin omiin sarakkeisiinsa. Muuttujat saivat arvoja työpaikkailmoituksessa esiintyvän tekstisisällön mukaan.
Tietomallien rakentaminen
Kun haluttu data oli saatu kerättyä Excel-tiedostoon, oli vuorossa datan tuonti Microsoft Power BI -työkaluun. Työt Power BI -työkalun sisällä lähtivät liikkeelle tietomallien rakentamisesta, eli taulujen välisten suhteiden luomisesta. Tässä projektissa päätauluna tietomalleissa toimi taulu ’Luokiteltu työpaikka’. Muista tauluista on linkitetty asianmukaiset suhteet tähän päätauluun.
Tiedon visualisointi/mittariston rakentaminen ja tiedon analysointi
Power BI:ssä työ jakautui mittariston rakentamiseen sekä mittariston ulkopuolisten visualisointien tuottamiseen. Visualisointi haluttiin pitää mahdollisimman selkeänä ja yksinkertaisena, minkä pohjalta tehtiin valinnat fontti- ja värivalintojen suhteen. Myös mittaristo päätettiin rakentaa mahdollisimman selkeäksi ja helppokäyttöiseksi. Mittaristo on toteutettu omalle välilehdelleen raporttinäkymässä ja siihen valittiin työpaikkojen suodatuksen kannalta oleellisimmat tiedot: kaupunki, työn tyyppi, työsuhde, etätyömahdollisuus, tehtäväala, työpaikka, karttanäkymä sekä työpaikkojen määrä mittarimuodossa.
Mittariston ulkopuolisissa visualisoinneissa käytettiin enimmäkseen palkkikuvioita. Joidenkin muuttujien kohdalla visualisoinnissa käytettiin sanapilveä, joka tuotiin lisävisualisoinniksi Microsoft App Sourcesta. Mittariston rakentamisen ja tiedon visualisoinnin jälkeen dataa lähdettiin analysoimaan Power BI:stä saatujen kuvaajien pohjalta.
Projektin lopputulokset ja johtopäätökset
Projektin lopputuloksina esiteltiin saadut tulokset datatyöpaikkojen sijainnista, etätyömahdollisuudesta, työtyypistä, työsuhteesta, tehtävänimikkeistä, työpaikoista toimialoittain ja tehtäväaloittain, koulutusvaatimuksista, teknisen osaamisen vaatimuksista, henkilökohtaisista, ammatillisista ja sosiaalisista taidoista sekä kielitaidosta.
Yhteenvetona todettiin, että datatyöpaikkoja oli hyvin tarjolla. Eniten työpaikkoja oli avoinna pääkaupunkiseudulla, mutta etätyömahdollisuuksien yleistyessä työ ei välttämättä ole paikasta riippuvaista. Koulutusvaatimuksena esiintyy yleisesti korkeakoulututkinto ja teknisinä vaatimuksina hakijoilta toivotaan ohjelmointi-, tietokanta- ja BI-työkaluosaamista. Englannin ja suomen kielten (tässä järjestyksessä) osaaminen on vaatimus valtaosassa työpaikkoja. Hakijoilta edellytetään mm. yhteistyö- ja vuorovaikutustaitoja, oppimishalukkuutta sekä itseohjautuvuutta.
Teorian ja saatujen tulosten perusteella voidaan olettaa, että datatyöpaikkojen määrä tulee kasvamaan alasta riippumatta. Datatyöpaikkoja tukevaa koulutustarjontaa tulisi lisätä niin yliopistoissa kuin ammattikorkeakouluissa. Opiskelijoille tulisi tarjota laajemmin koulutusta tilastotieteen, ohjelmoinnin ja liiketoimintaopintojen yhdistelmänä.
Kehitysehdotuksena tilaajalle ehdotimme, että Xamk tarjoaisi data-analytiikan opiskelijoille enemmän matematiikan ja tilastotieteen opetusta sekä ohjelmointia. Koulutuksessa voisi olla selkeät suuntautumisvaihtoehdot kuten ohjelmointi, tilastotiede tai visualisointi. Myös DataLAB voi olla konkreettisesti mukana syventämässä data-analytiikan opintoja tarjoamalla monipuolisesti erilaista opintosisältöä.