{"id":250,"date":"2023-03-31T01:43:12","date_gmt":"2023-03-30T22:43:12","guid":{"rendered":"https:\/\/blogit.xamk.fi\/datalab\/?p=250"},"modified":"2023-03-31T09:33:36","modified_gmt":"2023-03-31T06:33:36","slug":"ajankohtaisten-kysymysten-luokittelua-suuret-kielimallit-ja-suomi","status":"publish","type":"post","link":"https:\/\/blogit.xamk.fi\/datalab\/2023\/03\/31\/ajankohtaisten-kysymysten-luokittelua-suuret-kielimallit-ja-suomi\/","title":{"rendered":"Ajankohtaisten kysymysten luokittelua: suuret kielimallit ja Suomi"},"content":{"rendered":"\n<p>Teko\u00e4lyn ymp\u00e4rill\u00e4 py\u00f6riv\u00e4 hype on lis\u00e4\u00e4ntynyt alkuvuodesta merkitt\u00e4v\u00e4sti. T\u00e4m\u00e4 johtuu pitk\u00e4lti suurista kielimalleista, joiden keskusteluun optimoitu versio julkaistiin joulukuussa 2022 chatGPT -nimell\u00e4.<\/p>\n\n\n\n<p>Kielimallit on opetettu valtavalla m\u00e4\u00e4r\u00e4ll\u00e4 tekstidataa, ja eri kielisen datan m\u00e4\u00e4r\u00e4 vaihtelee paljon. Esimerkiksi englanti, espanja ja kiina ovat m\u00e4\u00e4r\u00e4llisesti aivan eri sarjassa kuin suomi, virosta nyt puhumattakaan. Suomen Turussa koulutetaan parhaillaan kotimaisia GPT3-malleja ja niit\u00e4 odotellessa on hyv\u00e4 testata miten hyvin ulkomailla koulutetu mallit osaavat kielt\u00e4mme. <\/p>\n\n\n\n<p>Xamkin data-analytiikkakoulutuksen ajankohtaisten kysymysten kurssilla ker\u00e4ttiin tekstiaineisto. Jokainen opiskelija linkkasi kurssin keskustelualueelle ajankohtaisen dataan liittyv\u00e4n uutisartikkelin, mink\u00e4 j\u00e4lkeen artikkelien kokotekstej\u00e4 haettiin verkkosivuilta niiden url-osoitteiden ja lyhyen koodinp\u00e4tk\u00e4n avulla. Opiskelijat saivat teht\u00e4v\u00e4ksi analysoida aineistoa luokittelemalla uutistekstien teemoja. Lopputuloksena syntyi 35 artikkelin aineisto. Jokainen sai kylkeens\u00e4 opiskelijoiden antamat teemat ja ne yhdistettiin samaan sarakkeeseen.<\/p>\n\n\n\n<figure class=\"wp-block-gallery has-nested-images columns-default is-cropped wp-block-gallery-1 is-layout-flex wp-block-gallery-is-layout-flex\">\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"679\" data-id=\"252\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.24.52-1024x679.png\" alt=\"\" class=\"wp-image-252\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.24.52-1024x679.png 1024w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.24.52-300x199.png 300w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.24.52-768x510.png 768w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.24.52-1200x796.png 1200w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.24.52.png 1242w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Aineiston ensimm\u00e4isen artikkelin tietoja. Opiskelijoiden luokittelemat teemat on yhdistetty samaan sarakkeeseen<\/figcaption><\/figure>\n<\/figure>\n\n\n\n<p>Miten teko\u00e4ly suoriutuisi luokitteluteht\u00e4v\u00e4st\u00e4? Tai mit\u00e4 muita luokitteluteht\u00e4vi\u00e4 sille voisi antaa? Kokeilua varten otettiin k\u00e4ytt\u00f6\u00f6n chatGPT-kielimallin ohjelmointirajapinta. Aineiston uutistekstit l\u00e4hetettiin &#8221;teko\u00e4lylle&#8221; ja niiden kanssa kokeiltiin erilaisia &#8221;prompteja&#8221; eli kehotteita, jotka ovat t\u00e4ss\u00e4 tapauksessa ohjeita siit\u00e4 mit\u00e4 teksteille pit\u00e4isi tehd\u00e4.<\/p>\n\n\n\n<p>chatGPT:n rajapinta haluaa sis\u00e4\u00e4ns\u00e4 j\u00e4rjestelm\u00e4kehotteen ja k\u00e4ytt\u00e4j\u00e4kehotteen. Ensimm\u00e4inen m\u00e4\u00e4rittelee kontekstia jonka perusteella mallia ohjataan tuottamaan tietynlaista teksti\u00e4. Uutisaineistomme kanssa k\u00e4ytettiin seuraavaa j\u00e4rjestelm\u00e4kehotetta:<\/p>\n\n\n\n<p class=\"has-text-align-center\"><em>&#8221;olet reipas ja tarkkaavainen tutkimusapulainen joka auttaa tekstidatan luokittelussa&#8221;<\/em><\/p>\n\n\n\n<p>Sitten kokeiltiin erilaisia k\u00e4ytt\u00e4j\u00e4kehotteita joilla konetta pyydettiin luokittelemaan teksti\u00e4 tai kertomaan siit\u00e4 asioita. <\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"221\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.43.35-1024x221.png\" alt=\"\" class=\"wp-image-253\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.43.35-1024x221.png 1024w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.43.35-300x65.png 300w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.43.35-768x166.png 768w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.43.35-1536x332.png 1536w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.43.35-1200x259.png 1200w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/03\/Nayttokuva-2023-3-31-kello-0.43.35.png 1896w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">K\u00e4ytetyt &#8221;promptit&#8221; eli kehotteet<\/figcaption><\/figure>\n\n\n\n<p>Ensimm\u00e4isell\u00e4 kehotteella pyydettiin erottelemaan tekstist\u00e4 ihmisten ja organisaatioiden nimet. Toisella pyydettiin laatimaan uutisen pohjalta pahin mahdollinen skenaario ja kolmannessa pyydettiin teemoittelua tarkasti m\u00e4\u00e4ritellyin ehdoin.<\/p>\n\n\n\n<p>Mutta ovatko tulokset mist\u00e4\u00e4n kotoisin? Ensimm\u00e4isen kehotteen kohdalla tulokset on kohtuullisen helppo tarkistaa. Lis\u00e4ksi on olemassa suomen kielell\u00e4 opetettuja malleja jotka on koulutettu juuri t\u00e4llaisia teht\u00e4vi\u00e4 varten. Ja t\u00e4m\u00e4n pienen aineiston kanssa vaikuttaa, ett\u00e4 chatGPT suoriutuu teht\u00e4v\u00e4st\u00e4 todella hyvin. Toisen ja kolmannen kehotteen laatua on vaikeampi arvioida.  <\/p>\n\n\n\n<p>Voit tarkastella tuloksia itse lataamalla csv-tiedoston t\u00e4\u00e4lt\u00e4: <a href=\"https:\/\/drive.google.com\/file\/d\/1rgzOo1h9IwBeKBGf8kNw2UU4IeFdlPCF\/view?usp=share_link\">https:\/\/drive.google.com\/file\/d\/1rgzOo1h9IwBeKBGf8kNw2UU4IeFdlPCF\/view?usp=share_link<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Teko\u00e4lyn ymp\u00e4rill\u00e4 py\u00f6riv\u00e4 hype on lis\u00e4\u00e4ntynyt alkuvuodesta merkitt\u00e4v\u00e4sti. T\u00e4m\u00e4 johtuu pitk\u00e4lti suurista kielimalleista, joiden keskusteluun optimoitu versio julkaistiin joulukuussa 2022 chatGPT -nimell\u00e4. Kielimallit on opetettu valtavalla m\u00e4\u00e4r\u00e4ll\u00e4 tekstidataa, ja eri kielisen datan m\u00e4\u00e4r\u00e4 vaihtelee paljon. Esimerkiksi englanti, espanja ja kiina ovat m\u00e4\u00e4r\u00e4llisesti aivan eri sarjassa kuin suomi, virosta nyt puhumattakaan. Suomen Turussa koulutetaan parhaillaan kotimaisia [&hellip;]<\/p>\n","protected":false},"author":312,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1],"tags":[22,23],"class_list":["post-250","post","type-post","status-publish","format-standard","hentry","category-yleinen","tag-chatgpt","tag-suomi"],"jetpack_featured_media_url":"","_links":{"self":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/250","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/users\/312"}],"replies":[{"embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/comments?post=250"}],"version-history":[{"count":3,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/250\/revisions"}],"predecessor-version":[{"id":259,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/250\/revisions\/259"}],"wp:attachment":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/media?parent=250"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/categories?post=250"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/tags?post=250"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}