Avainsana-arkisto: Avoin Data

Excelien liittäminen tableaussa – Sijaintien lisääminen trafin alusdataan

Tässä blogitekstissä kerrotaan miten saat trafin listaamien alusten kotisatamat kartalle Tableaussa. Data tuodaan exceleinä, koska tämän blogitekstin tavoite on myös kertoa miten saat muutettua csv-tiedoston excel-tiedostoksi ilman perustavanlaatuisia virheitä datassa.

Kalastusalusten kotisatamia Tableaussa (Trafi avoin data)

Lähtödata on saatavissa trafin sivuilla (täällä) csv-muodossa. Samassa paikassa on muuttujaluettelo excel-muodossa, josta ilmenee esim. Afganistanin laivaston maakoodi ja aluksen pituuden mittayksikkö.

ÄLÄ avaa csv-tiedostoa suoraan exceliin. Excel haluaa muuttaa laivojen pituudet päivämääriksi syystä, jonka tietää vain Bill Gates ja hänen lähimmät apurinsa. Tätä ominaisuutta ei edes saa pois päältä. Paina sen sijaan Tiedot-välilehdeltä kohtaa ”tekstistä”. Nyt voit valita csv-tiedoston, joka on siis käytännössä tekstitiedosto. Pääset ohjattuun tekstin tuomiseen, jossa ensiksi valitaan csv-tiedoston käyttämä erotin, Trafin alusdatan kohdalla puolipiste. Tämän jälkeen ohjattu tekstin tuonti antaa mahdollisuuden valita tuotaville sarakkeille tietojen muoto. Excel muuttaa desimaaliarvot hanakasti päivämääriksi, joten muutetaan näitä arvoja saavat sarakkeet ”teksti” -tyyppiseksi. Tällöin excel jättää alkuperäiset arvot rauhaan.

Tuotavan csv-tiedoston sarakkeille voi valita tietojen muodon. Valitse ”teksti” desimaaliarvoja saaville sarakkeille

Tämän jälkeen exceliin lisätään tiedot, jotka liitetään Tableaussa. Esimerkiksi alusten tyypit on ilmoitettu datassa numerokoodeilla. Koodien selitteet löytyvät muuttujaluettelosta, josta ne on helppo kopioida samaan exceliin alusdatan kanssa omaksi välilehdekseen.

Data-välilehdellä, jossa on csv-tiedoston sisältämä alusdata, alusten tyypit ovat numerokoodeja. Tavoitteena on liittää selitteet koodeihin Tableaussa.

Lisäksi alusdata ilmoittaa alusten kotisatamat paikkakuntina tekstimuodossa. Tähän tietoon yhdistämme sijaintitietoa. Lista suomen kuntien (entisten ja nykyisten) sijainneista löytyy wikipediasta täältä, mistä ne on helppo kopioida samaan exceliin omaksi sijainnit-taulukokseen.

Tässä vaiheessa kannattaa muokata sijaintitietoja poistamalla aste-merkki ja viimeinen iso kirjain. Tableau hyväksyy leveys- ja pituusastetiedoiksi vain numeromuotoista dataa. Kun tämä on tehty, avataan excel Tableaussa.

Tableaussa vasen sivupalkki näyttää excelin sisältämät taulukot. Oikealla ylhäällä on alue, johon liitettävät taulukot voi raahata. Ensin yhdistetään alustyyppien selitteet datassa oleviin numerokoodeihin. Data ja alustyyppitaulukot raahataan vierekkäin ja liitetään ne toisiinsa. Tässä tapauksessa datassa oleva muuttuja ”alustyyppi” yhdistetään alustyypit-taulukossa olevaan muuttujaan ”koodi”. Jos liitos ei onnistu, kannattaa varmistaa että molemmat ovat varmasti datatyypiltään kokonaislukuja.

Datatyypit saa helposti tarkistettua (ja vaihdettua) saman näkymän esikatselutaulukossa. Risuaita # ilmaisee numeerista muuttujaa ja kirjainyhdistelmä abc tekstimuotoista muuttujaa.

Sijaintien lisääminen toimii samalla tavalla. Alusdatassa on muuttuja ”aluksen_satamapaikka”, joka yhdistetään sijaintitaulukossa olevaan paikka-muuttujaan.

Sijaintien liittämisen jälkeen kannattaa tarkistaa jääkö dataan kotisatamia joiden sijainti saa tyhjiä arvoja. Käy ilmi, että trafin listauksessa aluksilla on 19kpl enimmäkseen ruotsinkielisiä paikannimiä, joita ei löydy wikipedian listalta. Ilman sijaintia jää yhteensä 53 alusta seuraavissa satamissa. Useimmille näistä kuitenkin löytyy sijainti suomenkielisenä. Tableaussa on mahdollista yhdistää esim ”Lovisa” arvoon ”Loviisa”, jolle löytyy sijainti.