{"id":168,"date":"2021-12-20T18:03:45","date_gmt":"2021-12-20T16:03:45","guid":{"rendered":"https:\/\/blogit.xamk.fi\/datalab\/?p=168"},"modified":"2021-12-20T18:03:45","modified_gmt":"2021-12-20T16:03:45","slug":"brfss-datan-muokkaus","status":"publish","type":"post","link":"https:\/\/blogit.xamk.fi\/datalab\/2021\/12\/20\/brfss-datan-muokkaus\/","title":{"rendered":"BRFSS-DATAN MUOKKAUS"},"content":{"rendered":"\n<p>BRFSS-data on kyselytutkimusainestoa vuodelta 2019, jossa on tutkittu Yhdysvaltain kansalaisten terveytt\u00e4 ja elintapoja. Data on taulukkomuodossa XPT-tiedostona ja sit\u00e4 oli noin 400\u00a0000 rivi\u00e4 ja yli 300 saraketta. Data on saatavissa <a href=\"https:\/\/www.cdc.gov\/brfss\/annual_data\/annual_2019.html\" target=\"_blank\" rel=\"noreferrer noopener\">t\u00e4\u00e4lt\u00e4<\/a> (CDC. 2020).<\/p>\n\n\n\n<p>Teht\u00e4v\u00e4n\u00e4 oli muokata datasta lyhyempi ja selke\u00e4mpi kokonaisuus, jota voi k\u00e4ytt\u00e4\u00e4 esimerkiksi opetuksessa ilman, ett\u00e4 datan muokkaamiseen tarvitsee k\u00e4ytt\u00e4\u00e4 paljoa aikaa. Datan k\u00e4ytt\u00f6 edellytt\u00e4\u00e4 jonkin tapaista muokkausta, sill\u00e4 alkuper\u00e4isen datan arvojen tulkitseminen vaatii erillisen tulkintaa varten tehdyn <a href=\"https:\/\/www.cdc.gov\/brfss\/annual_data\/2019\/pdf\/codebook19_llcp-v2-508.HTML\" target=\"_blank\" rel=\"noreferrer noopener\">tiedoston <\/a>(CDC. 2020). Esimerkiksi kyselytutkimuksessa osa vastaajista oli antanut painonsa nauloina ja osa taas kilogrammoina. Lis\u00e4ksi joukosta l\u00f6ytyi vastaajia, jotka eiv\u00e4t halunneet kertoa painoa tai kohta on j\u00e4tetty tyhj\u00e4ksi.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-1.png\" alt=\"\" class=\"wp-image-170\" width=\"610\" height=\"374\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-1.png 1004w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-1-300x184.png 300w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-1-768x471.png 768w\" sizes=\"auto, (max-width: 610px) 100vw, 610px\" \/><figcaption>Kuva 1. Painon alkuper\u00e4iset arvot tulkinnan avuksi tehdyss\u00e4 tiedostossa (CDC. 2020).<\/figcaption><\/figure>\n\n\n\n<p>Datan muokkaus alkoi sill\u00e4, ett\u00e4 valittiin tiedot, joihin selkeytetty data haluttiin rajata. Yhteens\u00e4 uuteen dataan ker\u00e4\u00e4ntyi saraketietoja noin 30 kappaletta ja rivitietoja rajausten j\u00e4lkeen oli noin 300\u00a0000. Uuteen ja rajattuun dataan valitut tiedot olivat haastateltavan joukon perustietoja (pituus, paino, sukupuoli yms.), alkoholin k\u00e4ytt\u00f6\u00f6n liittyv\u00e4t vastaukset sek\u00e4 tupakointiin liittyv\u00e4t vastaukset.<\/p>\n\n\n\n<p>Itse konkreettinen datan muokkaus oli suurimmilta osin vain arvojen m\u00e4\u00e4ritt\u00e4mist\u00e4 uudelleen. Datan oli tarkoitus koostua sopivassa suhteessa sek\u00e4 jatkuvista ja ep\u00e4jatkuvista muuttujista. Lis\u00e4ksi data k\u00e4\u00e4nnettiin suomen kielelle. Ty\u00f6kaluna datan k\u00e4sittelyss\u00e4 toimi R-studio.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"945\" height=\"733\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-2.png\" alt=\"\" class=\"wp-image-171\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-2.png 945w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-2-300x233.png 300w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-2-768x596.png 768w\" sizes=\"auto, (max-width: 945px) 100vw, 945px\" \/><figcaption>Kuva 2. Arvojen muokkausta.<\/figcaption><\/figure>\n\n\n\n<p>Lopuksi uusi data tallennettiin omaksi R-tiedostoksi, josta sen voi muuntaa tarvittaessa esimerkiksi Excel-tiedostoksi ja testattiin datan toimivuutta laskemalla jatkuvien muuttujien keskiarvot. Lis\u00e4ksi muokatulle versiolle tehtiin my\u00f6s Word-tiedosto, johon kirjattiin kaikki muuttujien nimet ja niiden arvojoukot. Muokatusta datasta tehtiin my\u00f6s lyhennetty versio, jossa muuttujien nimet on lyhennetty.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"949\" height=\"675\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-3.png\" alt=\"\" class=\"wp-image-172\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-3.png 949w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-3-300x213.png 300w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2021\/12\/image-3-768x546.png 768w\" sizes=\"auto, (max-width: 949px) 100vw, 949px\" \/><figcaption>Kuva 3. Jatkuvien muuttujien keskiarvot.<\/figcaption><\/figure>\n\n\n\n<p><strong>L\u00e4hteet<\/strong><\/p>\n\n\n\n<p>LLCP 2019 Codebook Report Overall version data weighted with _LLCPWT Behavioral Risk Factor Surveillance System. 2020. CDC. WWW-l\u00e4hde. 31.7.2020. Saatavissa: <a href=\"https:\/\/www.cdc.gov\/brfss\/annual_data\/2019\/pdf\/codebook19_llcp-v2-508.HTML\">https:\/\/www.cdc.gov\/brfss\/annual_data\/2019\/pdf\/codebook19_llcp-v2-508.HTML<\/a> [viitattu 12.12.2021].<\/p>\n\n\n\n<p>LLCP2019XPT. 2020. CDC. XPT-tiedosto. Saatavissa: <a href=\"https:\/\/www.cdc.gov\/brfss\/annual_data\/annual_2019.html%20%0d\">https:\/\/www.cdc.gov\/brfss\/annual_data\/annual_2019.html<\/a> [viitattu 20.12.2021].<\/p>\n","protected":false},"excerpt":{"rendered":"<p>BRFSS-data on kyselytutkimusainestoa vuodelta 2019, jossa on tutkittu Yhdysvaltain kansalaisten terveytt\u00e4 ja elintapoja. Data on taulukkomuodossa XPT-tiedostona ja sit\u00e4 oli noin 400\u00a0000 rivi\u00e4 ja yli 300 saraketta. Data on saatavissa t\u00e4\u00e4lt\u00e4 (CDC. 2020). Teht\u00e4v\u00e4n\u00e4 oli muokata datasta lyhyempi ja selke\u00e4mpi kokonaisuus, jota voi k\u00e4ytt\u00e4\u00e4 esimerkiksi opetuksessa ilman, ett\u00e4 datan muokkaamiseen tarvitsee k\u00e4ytt\u00e4\u00e4 paljoa aikaa. Datan [&hellip;]<\/p>\n","protected":false},"author":301,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-168","post","type-post","status-publish","format-standard","hentry","category-yleinen"],"jetpack_featured_media_url":"","_links":{"self":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/168","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/users\/301"}],"replies":[{"embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/comments?post=168"}],"version-history":[{"count":2,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/168\/revisions"}],"predecessor-version":[{"id":174,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/168\/revisions\/174"}],"wp:attachment":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/media?parent=168"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/categories?post=168"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/tags?post=168"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}