Kategoriat
Yleinen

Xamk on mukana AIRA-hankkeessa – Power BI -raportin avulla riskit näkyviksi

Xamkin DataLAB:ssa on käynnissä mielenkiintoinen projekti osana AIRA-hanketta, ja sen tuloksena on syntynyt visuaalinen Power BI -raportti hätäkeskusdatasta. Mutta mistä tässä kaikessa on oikein kyse?

AIRA-hanke

Pelastustoimen ja alueellisen varautumisen tehtävänä on parantaa valmiutta uhkiin ja ennakoida riskejä jo ennen kuin ne konkretisoituvat. Tämä työ on tällä hetkellä pitkälti manuaalista ja hajanaista sekä vaatii jatkuvaa yhteistyötä eri toimijoiden välillä, sillä käytössä ei ole yhteistä tietopankkia tai analyysityökalua.

AIRA hyödyntää tekoälyä ja data-analytiikkaa tehostaakseen riskianalyysien tekoa ja tiedolla johtamista. Tavoitteena on vähentää manuaalista työtaakkaa ja parantaa yhteistyötä sidosryhmien välillä. Lisäksi tarkastelussa on, kuinka riskejä voisi tunnistaa aiempaa tehokkaammin, ja suunnitella alueellista kokonaisturvallisuutta parantavia toimenpiteitä.

Hanke hyödyttää konkreettisesti eri toimijoita, kuten pelastustoimia ja poliisia, jotka tarvitsevat työssään tarkkaa ja ajantasaista tietoa päätöksenteon tueksi ja yleisen turvallisuuden ylläpitämiseksi.

Täältä voit lukea aiheesta lisää: https://www.xamk.fi/hanke/aira/

DataLAB-projekti

Tiesitkö, että Suomessa eniten hälytyksiä tulee kesäkuussa ja perjantaisin? Xamkin DataLAB:ssa käynnissä olevassa projektissa on hyödynnetty hätäkeskusdataa, joka kattaa tiedot siitä, mitä on tapahtunut ja missä, ajanjaksolla tammikuu 2015 – helmikuu 2025. Rivimuotoista dataa on kuitenkin hankalaa hahmottaa nopealla vilkaisulla. Siksi sen pohjalta rakennettiin kolmisivuinen Power BI -raportti, joka havainnollistaa hälytysten määrää, ajankohtia ja alueellista jakautumista visuaalisesti ja helposti tulkittavassa muodossa. 

Projektin datan valmistelu

Hätäkeskusdata sisältää sarakkeet paikkakunnasta, kellonajasta ja päivämäärästä, tehtävän kuvauksen, yksityiskohdat, linkin uutiseen ja hätäkeskuskoodin. Projektia varten myös hätäkeskuksen nimen sisältävä sarake oli tarpeen, ja se luotiin hyödyntämällä SQL-kyselyä Microsoft Visual Studiossa. Azuren tietokannassa oleva data yhdistettiin Power BI:hin, jossa raportin teko alkoi. Raportin visuaalinen ilme on rakennettu Xamkin brändivärien ympärille hyödyntämällä HEX-värikoodeja, ja DAX-kaavojen luomisessa apuna ovat olleet ChatGPT ja Claude.ai.

Raportti sivu kerrallaan

Kuva 1. Raportin ensimmäinen sivu, jossa muun muassa karttavisuaali.

Ensimmäisellä sivulla voi tarkastella hälytyksiä paikkakuntakohtaisesti. Sivulla on kartta, slicer, taulukko ja kortteja. Kartassa näkyy valitun paikkakunnan sijainti, ja paikkakunnan voi valita viereisestä slicer-visuaalista. Kaikki sivun visuaalit reagoivat sliceriin, joten tietoja voi tarkastella paikkakuntakohtaisesti. Korteissa näkyy hälytysten yhteismäärä sekä yleisin tehtävänimike ja sen määrä. Yleisin tehtävä koko Suomessa on ollut palohälytys, joita on ollut vuosien varrella yhteensä 175 630 kappaletta. Kaikenlaisia hälytyksiä on ollut yhteensä 766 923, joka tarkoittaa keskiarvollisesti yli 200 hälytystä joka päivä noin kymmenen vuoden tarkastelujakson aikana.

Kuva 2. Raportin toinen sivu, jossa hälytyksiä voi tarkastella ajallisesti.

Toisella sivulla pureudutaan hälytyksiin ajallisesti. Hälytysten määrää voi tarkastella vuosittain, kuukausittain, tunneittain, viikonpäivittäin ja viikottain, joille jokaiselle löytyy oma visuaali tai slicer sivulta. Esimerkiksi valittaessa slicerista vuodeksi 2018, voidaan huomata tehtävien määrän olleen korkeimmillaan kesäkuussa (9426 tehtävää) ja eniten tehtäviä on tullut kello 16 aikaan. Tehtäviä on tullut eniten perjantaisin, ja selkeästi eniten hälytyksiä koko vuonna on tullut viikolla 25. Tämä on ollut juhannusviikko, jossa tehtävät ovat myös pitkälti keskittyneet perjantaihin eli juhannusaattoon.

Kuva 3. Raportin kolmas sivu näyttää Top 10 -listat ja vilkkaimmat ajankohdat.

Sivulta kolme löytää raportin Top 10 -listat. Määrällisesti eniten hälytyksiä on ollut Helsingissä, yhteensä 77 632 tehtävää. Helsinki vie myös top 1 sijan kaikista hätäkeskuksista hälytysmäärien perusteella, sijalla kaksi on Pirkanmaan hätäkeskus ja kolmannella Itä- ja Keski-Uudenmaan hätäkeskus. Eniten hälytystehtävissä törmää palohälytyksiin, tieliikenneonnettomuuksiin ja pieniin rakennuspaloihin. Vilkkain tunti vuosien varrella on ollut kello 15, eniten hälytyksiä on tullut perjantaisin, kesäkuut ovat olleet tapahtuma-alttiimpia kuukausia, ja hälytysmäärien perusteella eniten on tapahtunut vuonna 2018.

Lopuksi

Kuten huomata saattaa, hälytykset pitävät ammattilaiset kiireisinä päivittäin, mutta data paljastaa erityisen tapahtuma-alttiit kuukaudet, viikonpäivät, viikot, tunnit ja alueet. Lisäksi hälytykset voidaan lajitella tyypin yleisyyden mukaan. Raportin avulla voidaan helposti nähdä, millaisia hälytyksiä voidaan odottaa tulevan eniten ja milloin. Tämä auttaa keskittämään voimavarat sinne, missä niitä milloinkin eniten tarvitaan.

Linkki raporttiin: https://app.powerbi.com/groups/3d571500-7ded-46fd-99a2-a6399208b83b/reports/899f056b-ee1a-41d8-89ae-df2e3b76e09a/edfb6b0ddd1840ca89b8?experience=power-bi

Huomaa, että raportti näkyy vain Xamkilaisille.

Kategoriat
Yleinen

R-studio ja Eurostat

R-studio on hallitseva ilmainen avoimeen lähdekoodiin perustuva ohjelmointiympäristö, joka tarjoaa graafisen käyttöliittymän R-kielen kirjoittamiselle antaen huomattavan määrän työkaluja kielen hallintaan. R-ohjelmointikieli on alusta alken luotu datasettien käsittelemistä varten, mutta sen tarjoamista ominaisuuksista eivät nauti pelkästään data-analytiikot ja -tieteilijät, vaan sen käytön ovat omaksuneet myös muunlaiset käyttäjät. (Giorgi F, Ceraolo C & Mercatelli D. 2022.)

Ohjelmointikieli tukee sovitettujen kirjastojen luomista, jotka pitävät sisällään ennalta luotuja komentoja laajentaen ja tehostaen R-kielen käyttöominaisuuksia. Yhtenä näistä kirjastoita on Eurostatin tarjoama eurostat-kirjasto. Eurostat (https://ec.europa.eu/eurostat/web/main/home) on Euroopan komission alainen yksikkö, joka tuottaa tilastotietoa Euroopan unionin käyttöön. Palvelun tarkoituksena on tarjota mahdollisuus suurien tilastojen jalostamiseen EU alueella ja palveluiden parantamiseen. (European Commission. 2022.) Tilastoihin pääsy ja niiden käyttäminen on täysin maksutonta.

Eurostat-kirjasto pitää sisällään funktioita, jotka mahdollistavat R-kielen tarraamisen Eurostatin ylläpitämän tietokannan (https://ec.europa.eu/eurostat/web/main/data/database) ohjelmointirajapintaan. Näin ollen käyttäjä voi tarkastella, käsitellä ja tallentaa sivustolta löytyvää dataa suoraan R-kielen välityksellä.

Eurostatin käyttöönotto

Eurostat kirjaston käyttämäinen edellyttää eurostat paketin asennusta ja se tapahtuu samalla lailla kuin minkä tahansa muunkin paketin asennus. Voit asentaa sen joko R-studion yläreunasta löytyvästä Tools -> Install packages valikosta tai käyttäen install.packages() funktiota malliin install.packages(”eurostat”) (kuva 1). Paketin asentamisen jälkeen saat kirjaston käyttöösi lisäämällä eurostat kirjaston projektiisi library(eurostat) funktiolla.

Kuva 1. Eurostat pakettien ja kirjaston asennus.

Tämän jälkeen Eurostatin eurostat-kirjasto on käytettävissäsi ja pystyt hyödyntämään sen tarjoamia uusia funktioita. Yhtenä alustavimmista funktioista on get_eurostat_toc(), joka tulostaa kaikki Eurostatista nykyhetkellä löytyvät datasetit. Alhalla (kuva 2) on esimerkki kyseisen kyselyn muuttujaan asettamisesta.

Kuva 2. Eurostat datasettien hakeminen.

Muuttujan asettamisen jälkeen voit avata sen ja tarkastella funktion tuoman kyselyn tulosta (kuva 3). R-studio muuntaa datan oletuskohtaisesti taulukkomuotoon, jossa se on myös ihmissilmälle helposti luettavassa muodossa. Taulukosta löytyvä code-sarake on olennainen tieto asian etenemisen kannalta, sillä se toimii taulukon tunnuksena.

Kuva 3. Haetut datasetit.

Datasetin hakeminen

Haetaan cens_hnmga tunnusta käyttävä taulu komennolla df <- get_eurostat(”cens_hnmga”, type = ”label”, time_format = ”num”). Taulu on avattavissa myös selaimella osoitteessa https://ec.europa.eu/eurostat/web/products-datasets/-/cens_hnmga. Taulu sisältää 30 Euroopan valtion väkiluvun vuosina 1981, 1991 ja 2001, sekä sukupuolijakauman. Taulun hakemisen jälkeen se on käytettävissä kuin mikä tahansa muukin R-studiossa sijaitseva taulu, mahdollistaen sen sisältämän datan suodattamisen ja muokkaamisen. (kuva 4)

Kuva 4. Taulun muokkaus.

Muokkaamisen lisäksi taulun dataa voidaan myös tulostella perinteiseen tapaan esimerkiksi ggplot-kirjaston voimin. (kuva 5)

Kuva 5. Esimerkkitulostus.

Loppumietteet

Tarpeen sitä vaatiessa Eurostat soveltuu hyvin erinäisten dataharjoitusten ja projektien datalähteeksi, mutta kaikki Eurostatin tietokannasta löytyvä data ei kuitenkaan käänny yhtä helposti käsiteltävään muotoon. Kokenut R-kielen osaaja jalostaa datasetin kuin datasetin, mutta kokeneemmattomalle käyttäjälle sopivan datasetin löytäminen tuhansien joukosta voi osoittautua omaksi ongelmakseen.

Palikoiden osuessa kohdalleen Eurostat kuitenkin hoitaa roolinsa sujuvasti ja näen sen varteen otettavana vaihtoehtona data-analytiikkaa opiskeleville vailla aineistoa, tai vaikkapa opettajille uuden opetusmateriaalin luonnin yhteydessä.

Lähteet

Giorgi F, Ceraolo C & Mercatelli D. 2022. The R Language: An Engine for Bioinformatics and Data Science. Päivitetty 4.2021. Saatavissa: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9148156/ [viitattu 18.11.2022].

European Commission. 2022. About Eurostat. Saatavissa: https://ec.europa.eu/eurostat/web/main/about-us/ [viitattu 18.11.2022].

Kategoriat
Yleinen

Azure avuksi opetukseen

Nykymaailma muuttuu valtavalla vauhdilla ja uusia opetusmenetelmiä tarvitaan jatkuvasti. Ennen riitti, että työntekijä osasi syöttää Exceliin numeroita ja painaa enteriä, mutta nykyään sillä ei pitkälle pääse. Teknologia kehittyy ja sen myötä tulee uusia ohjelmia, joita työntekijän on osattava käyttää ja hyödyntää. Meidän tapauksessamme tämä ohjelma oli Microsoft Azure. Azure on julkinen pilvipalvelu, jota voidaan käyttää virtuaalipalvelinten alustana. Lisäksi Azure voi toimia kehitysalustana. Azurella pystytään hallitsemaan mobiililaitteita, suojaamaan dokumentteja, analysoimaan suuria datamassoja ja luomaan esimerkiksi koneoppimista.

Mistä kaikki alkoi?

Kaikki alkoi data-analytiikan koulutuksen viidennellä lukukaudella toteutettavasta data-analytiikan tutkimus- ja kehitysprojektista. Saimme Xamkin DataLABilta tehtäväksi SQL-serverin luomisen ja käyttöoton Microsoft Azuressa. Projekti oli myös osa DataLABissa suoritettavaa syventävää harjoittelua. Tavoitteena oli saada aikaiseksi Azure-serveri, jota voidaan käyttää apuna opetuksessa sekä tehdä lyhyitä oppaita serverin luomisesta ja käytöstä.

Projektin eteneminen

Projekti alkoi hitaasti ja rauhallisesti, sillä jouduimme ensin odottelemaan, että saamme oikeudet Xamkin Azuren Resource groupiin. Loimme sinne aluksi oman SQL-serverin, johon myöhemmin avattiin SQL database. Databasen synnyttyä selvitimme, miten sinne saa ladattua dataa, ja kuinka database käytännössä toimii. Seuraavaksi haasteeksi osoittautui datan saaminen. Meillä ei ollut mitään ladattavaksi sopivaa dataa, joten pyysimme apua toiselta projektiryhmältä. Toiselta ryhmältä saimme ns. testidataa, jolla pystyimme varmistamaan serverin toimivuuden. Onnistuneen datan siirtämisen jälkeen serveri oli valmis seuraavaan projektiin.

Kaikki vaiheet dokumentoitiin ja niistä koottiin lyhyitä oppaita opiskelijoita varten. Oppaita löytyy esim. Azure-serverin luomisesta, siirtämisestä, tiedon tuomisesta ja datan avaamisesta.

Vaadittavat ohjelmat

Serverin oikeanlainen toimiminen vaatii sen, että käyttäjältä löytyy tiettyjä ohjelmia. Meidän tilanteessamme ei vaadita monia ohjelmia, mutta niiden käyttö on pakollista. Parhaaksi ohjelmaksi datan lataamiseen ja muokkaamiseen serverille osoittautui Microsoftin SQL Server Management Studio, eli SSMS. Kyseisen ohjelman avulla pystyy vaivattomasti tarkastelemaan databasen sisältöä ja muokkaamaan sitä. Lisäksi ohjelma mahdollistaa sisällön lataamisen omaan databaseen.

Jotta datan avaaminen ja tarkastelu onnistuu, on parasta käyttää joko Microsoft Excel tai PowerBI -ohjelmia. Näiden ohjelmien avulla käyttäjä pystyy avaamaan koneellensa serverillä olevat datat ja muokkaamaan niitä. Ohjelmien avulla datan analysointi on myös mielestämme helpointa ja monipuolisinta.

Mitä jatkossa?

Tällä hetkellä meillä on toimiva pilvipalvelu, eli SQL-database. Pilvipalvelua voidaan hyödyntää opetuksessa ja erilaisissa projekteissa. Jatkossa tavoitteenamme on ladata srverille jatkuvasti päivittyvää, eli ns. livedataa. Dataa kerätään Raspberry Pi:n avulla. Kerätty data analysoidaan ja visualisoidaan PowerBI ohjelmalla. Olemmekin jo onnistuneesti testanneet sitä Raspberry Pi -simulaattorin avulla.