{"id":204,"date":"2022-11-18T19:21:41","date_gmt":"2022-11-18T17:21:41","guid":{"rendered":"https:\/\/blogit.xamk.fi\/datalab\/?p=204"},"modified":"2022-11-18T19:21:41","modified_gmt":"2022-11-18T17:21:41","slug":"r-studio-ja-eurostat","status":"publish","type":"post","link":"https:\/\/blogit.xamk.fi\/datalab\/2022\/11\/18\/r-studio-ja-eurostat\/","title":{"rendered":"R-studio ja Eurostat"},"content":{"rendered":"\n<p>R-studio on hallitseva ilmainen avoimeen l\u00e4hdekoodiin perustuva ohjelmointiymp\u00e4rist\u00f6, joka tarjoaa graafisen k\u00e4ytt\u00f6liittym\u00e4n R-kielen kirjoittamiselle antaen huomattavan m\u00e4\u00e4r\u00e4n ty\u00f6kaluja kielen hallintaan. R-ohjelmointikieli on alusta alken luotu datasettien k\u00e4sittelemist\u00e4 varten, mutta sen tarjoamista ominaisuuksista eiv\u00e4t nauti pelk\u00e4st\u00e4\u00e4n data-analytiikot ja -tieteilij\u00e4t, vaan sen k\u00e4yt\u00f6n ovat omaksuneet my\u00f6s muunlaiset k\u00e4ytt\u00e4j\u00e4t. (Giorgi F, Ceraolo C &amp; Mercatelli D. 2022.)<\/p>\n\n\n\n<p>Ohjelmointikieli tukee sovitettujen kirjastojen luomista, jotka pit\u00e4v\u00e4t sis\u00e4ll\u00e4\u00e4n ennalta luotuja komentoja laajentaen ja tehostaen R-kielen k\u00e4ytt\u00f6ominaisuuksia. Yhten\u00e4 n\u00e4ist\u00e4 kirjastoita on Eurostatin tarjoama eurostat-kirjasto. Eurostat (<a rel=\"noreferrer noopener\" href=\"https:\/\/ec.europa.eu\/eurostat\/web\/main\/home\" target=\"_blank\">https:\/\/ec.europa.eu\/eurostat\/web\/main\/home<\/a>) on Euroopan komission alainen yksikk\u00f6, joka tuottaa tilastotietoa Euroopan unionin k\u00e4ytt\u00f6\u00f6n. Palvelun tarkoituksena on tarjota mahdollisuus suurien tilastojen jalostamiseen EU alueella ja palveluiden parantamiseen. (European Commission. 2022.) Tilastoihin p\u00e4\u00e4sy ja niiden k\u00e4ytt\u00e4minen on t\u00e4ysin maksutonta.<\/p>\n\n\n\n<p>Eurostat-kirjasto pit\u00e4\u00e4 sis\u00e4ll\u00e4\u00e4n funktioita, jotka mahdollistavat R-kielen tarraamisen Eurostatin yll\u00e4pit\u00e4m\u00e4n tietokannan (<a rel=\"noreferrer noopener\" href=\"https:\/\/ec.europa.eu\/eurostat\/web\/main\/data\/database\" target=\"_blank\">https:\/\/ec.europa.eu\/eurostat\/web\/main\/data\/database<\/a>) ohjelmointirajapintaan. N\u00e4in ollen k\u00e4ytt\u00e4j\u00e4 voi tarkastella, k\u00e4sitell\u00e4 ja tallentaa sivustolta l\u00f6ytyv\u00e4\u00e4 dataa suoraan R-kielen v\u00e4lityksell\u00e4.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Eurostatin k\u00e4ytt\u00f6\u00f6notto<\/h2>\n\n\n\n<p>Eurostat kirjaston k\u00e4ytt\u00e4m\u00e4inen edellytt\u00e4\u00e4 eurostat paketin asennusta ja se tapahtuu samalla lailla kuin mink\u00e4 tahansa muunkin paketin asennus. Voit asentaa sen joko R-studion yl\u00e4reunasta l\u00f6ytyv\u00e4st\u00e4 <strong>Tools -&gt; Install packages <\/strong>valikosta tai k\u00e4ytt\u00e4en <strong>install.packages()<\/strong> funktiota malliin <strong>install.packages(&#8221;eurostat&#8221;)<\/strong> (kuva 1). Paketin asentamisen j\u00e4lkeen saat kirjaston k\u00e4ytt\u00f6\u00f6si lis\u00e4\u00e4m\u00e4ll\u00e4 eurostat kirjaston projektiisi <strong>library(eurostat)<\/strong> funktiolla.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"136\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat1-3.png\" alt=\"\" class=\"wp-image-208\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat1-3.png 700w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat1-3-300x58.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><figcaption class=\"wp-element-caption\">Kuva 1. Eurostat pakettien ja kirjaston asennus.<\/figcaption><\/figure>\n\n\n\n<p>T\u00e4m\u00e4n j\u00e4lkeen Eurostatin eurostat-kirjasto on k\u00e4ytett\u00e4viss\u00e4si ja pystyt hy\u00f6dynt\u00e4m\u00e4\u00e4n sen tarjoamia uusia funktioita. Yhten\u00e4 alustavimmista funktioista on <strong>get_eurostat_toc()<\/strong>, joka tulostaa kaikki Eurostatista nykyhetkell\u00e4 l\u00f6ytyv\u00e4t datasetit. Alhalla (kuva 2) on esimerkki kyseisen kyselyn muuttujaan asettamisesta.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"600\" height=\"76\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat2.png\" alt=\"\" class=\"wp-image-209\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat2.png 600w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat2-300x38.png 300w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><figcaption class=\"wp-element-caption\">Kuva 2. Eurostat datasettien hakeminen.<\/figcaption><\/figure>\n\n\n\n<p>Muuttujan asettamisen j\u00e4lkeen voit avata sen ja tarkastella funktion tuoman kyselyn tulosta (kuva 3). R-studio muuntaa datan oletuskohtaisesti taulukkomuotoon, jossa se on my\u00f6s ihmissilm\u00e4lle helposti luettavassa muodossa. Taulukosta l\u00f6ytyv\u00e4 <strong>code<\/strong>-sarake on olennainen tieto asian etenemisen kannalta, sill\u00e4 se toimii taulukon tunnuksena.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"884\" height=\"806\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat3.png\" alt=\"\" class=\"wp-image-210\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat3.png 884w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat3-300x274.png 300w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat3-768x700.png 768w\" sizes=\"auto, (max-width: 884px) 100vw, 884px\" \/><figcaption class=\"wp-element-caption\">Kuva 3. Haetut datasetit.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Datasetin hakeminen<\/h2>\n\n\n\n<p>Haetaan <strong>cens_hnmga<\/strong> tunnusta k\u00e4ytt\u00e4v\u00e4 taulu komennolla <strong>df &lt;- get_eurostat(&#8221;cens_hnmga&#8221;, type = &#8221;label&#8221;, time_format = &#8221;num&#8221;)<\/strong>. Taulu on avattavissa my\u00f6s selaimella osoitteessa <a rel=\"noreferrer noopener\" href=\"https:\/\/ec.europa.eu\/eurostat\/web\/products-datasets\/-\/cens_hnmga\" target=\"_blank\">https:\/\/ec.europa.eu\/eurostat\/web\/products-datasets\/-\/cens_hnmga<\/a>. Taulu sis\u00e4lt\u00e4\u00e4 30 Euroopan valtion v\u00e4kiluvun vuosina 1981, 1991 ja 2001, sek\u00e4 sukupuolijakauman. Taulun hakemisen j\u00e4lkeen se on k\u00e4ytett\u00e4viss\u00e4 kuin mik\u00e4 tahansa muukin R-studiossa sijaitseva taulu, mahdollistaen sen sis\u00e4lt\u00e4m\u00e4n datan suodattamisen ja muokkaamisen. (kuva 4)<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"600\" height=\"182\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat4-1.png\" alt=\"\" class=\"wp-image-212\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat4-1.png 600w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostat4-1-300x91.png 300w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><figcaption class=\"wp-element-caption\">Kuva 4. Taulun muokkaus.<\/figcaption><\/figure>\n\n\n\n<p>Muokkaamisen lis\u00e4ksi taulun dataa voidaan my\u00f6s tulostella perinteiseen tapaan esimerkiksi <strong>ggplot<\/strong>-kirjaston voimin. (kuva 5)<\/p>\n\n\n\n<figure class=\"wp-block-image size-full is-style-default\"><img loading=\"lazy\" decoding=\"async\" width=\"750\" height=\"686\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostats5-1.png\" alt=\"\" class=\"wp-image-214\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostats5-1.png 750w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2022\/11\/eurostats5-1-300x274.png 300w\" sizes=\"auto, (max-width: 750px) 100vw, 750px\" \/><figcaption class=\"wp-element-caption\">Kuva 5. Esimerkkitulostus.<\/figcaption><\/figure>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h2 class=\"wp-block-heading\">Loppumietteet<\/h2>\n\n\n\n<p>Tarpeen sit\u00e4 vaatiessa Eurostat soveltuu hyvin erin\u00e4isten dataharjoitusten ja projektien datal\u00e4hteeksi, mutta kaikki Eurostatin tietokannasta l\u00f6ytyv\u00e4 data ei kuitenkaan k\u00e4\u00e4nny yht\u00e4 helposti k\u00e4sitelt\u00e4v\u00e4\u00e4n muotoon. Kokenut R-kielen osaaja jalostaa datasetin kuin datasetin, mutta kokeneemmattomalle k\u00e4ytt\u00e4j\u00e4lle sopivan datasetin l\u00f6yt\u00e4minen tuhansien joukosta voi osoittautua omaksi ongelmakseen.<\/p>\n\n\n\n<p>Palikoiden osuessa kohdalleen Eurostat kuitenkin hoitaa roolinsa sujuvasti ja n\u00e4en sen varteen otettavana vaihtoehtona data-analytiikkaa opiskeleville vailla aineistoa, tai vaikkapa opettajille uuden opetusmateriaalin luonnin yhteydess\u00e4.<\/p>\n\n\n\n<div style=\"height:20px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p><strong>L\u00e4hteet<\/strong><\/p>\n\n\n\n<p>Giorgi F, Ceraolo C &amp; Mercatelli D. 2022. The R Language: An Engine for Bioinformatics and Data Science. P\u00e4ivitetty 4.2021. Saatavissa: <a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC9148156\/\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC9148156\/<\/a> [viitattu 18.11.2022].<\/p>\n\n\n\n<p>European Commission. 2022. About Eurostat. Saatavissa: <a href=\"https:\/\/ec.europa.eu\/eurostat\/web\/main\/about-us\/\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/ec.europa.eu\/eurostat\/web\/main\/about-us\/<\/a> [viitattu 18.11.2022].<\/p>\n","protected":false},"excerpt":{"rendered":"<p>R-studio on hallitseva ilmainen avoimeen l\u00e4hdekoodiin perustuva ohjelmointiymp\u00e4rist\u00f6, joka tarjoaa graafisen k\u00e4ytt\u00f6liittym\u00e4n R-kielen kirjoittamiselle antaen huomattavan m\u00e4\u00e4r\u00e4n ty\u00f6kaluja kielen hallintaan. R-ohjelmointikieli on alusta alken luotu datasettien k\u00e4sittelemist\u00e4 varten, mutta sen tarjoamista ominaisuuksista eiv\u00e4t nauti pelk\u00e4st\u00e4\u00e4n data-analytiikot ja -tieteilij\u00e4t, vaan sen k\u00e4yt\u00f6n ovat omaksuneet my\u00f6s muunlaiset k\u00e4ytt\u00e4j\u00e4t. (Giorgi F, Ceraolo C &amp; Mercatelli D. 2022.) Ohjelmointikieli [&hellip;]<\/p>\n","protected":false},"author":319,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1],"tags":[8,13,12],"class_list":["post-204","post","type-post","status-publish","format-standard","hentry","category-yleinen","tag-data","tag-eurostat","tag-r-studio"],"jetpack_featured_media_url":"","_links":{"self":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/204","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/users\/319"}],"replies":[{"embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/comments?post=204"}],"version-history":[{"count":4,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/204\/revisions"}],"predecessor-version":[{"id":218,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/204\/revisions\/218"}],"wp:attachment":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/media?parent=204"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/categories?post=204"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/tags?post=204"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}