{"id":262,"date":"2023-06-26T14:46:16","date_gmt":"2023-06-26T11:46:16","guid":{"rendered":"https:\/\/blogit.xamk.fi\/datalab\/?p=262"},"modified":"2023-07-07T08:14:33","modified_gmt":"2023-07-07T05:14:33","slug":"ilta-sanomien-artikkeleiden-luokittelu-chatgpt-3-5-tekoalyn-avulla","status":"publish","type":"post","link":"https:\/\/blogit.xamk.fi\/datalab\/2023\/06\/26\/ilta-sanomien-artikkeleiden-luokittelu-chatgpt-3-5-tekoalyn-avulla\/","title":{"rendered":"Ilta-Sanomien artikkelien luokittelu ChatGPT 3.5 -teko\u00e4lyn avulla"},"content":{"rendered":"\n<p>Minulle annettiin dataa, joka sis\u00e4lsi kaikki Ilta-Sanomien verkkosivujen artikkelit vuodelta 2020. Data koostui sarakkeista: julkaisup\u00e4iv\u00e4, url-osoite, otsikko, uutisteksti, ID, sanam\u00e4\u00e4r\u00e4 ja osasto. Tarkoituksena oli antaa data luokiteltavaksi yhdysvaltalaisen OpenAI -tutkimuskeskuksen ChatGPT 3.5 -teko\u00e4lylle. Teko\u00e4lyn oli tarkoitus ottaa n\u00e4yte datasta, ja luokitella kaikki siin\u00e4 olevat artikkelit sille annettuihin osastoihin.<\/p>\n\n\n\n<p>ChatGPT 3.5 -teko\u00e4ly on nimens\u00e4 mukaisesti suunniteltu tulkitsemaan teksti\u00e4, ja &#8221;keskustelemaaan&#8221;. Todellisuudessa se vaan toistaa sille opetettuja asioita. Se ei pysty hakemaan lis\u00e4tietoja hakukoneiden avulla, vaan luottaa t\u00e4ysin oppimaansa tietoon.<br><br>Teko\u00e4lylle (lyh. AI) ainoastaan annettiin lista uutisartikkeleiden osastoista. Se ei n\u00e4hnyt artikkeleiden alkuper\u00e4isi\u00e4 osastoja. K\u00e4skyt annettiin Pandas -nimisell\u00e4 Python -kirjastolla, k\u00e4ytt\u00e4en OpenAI:n API-avainta.<\/p>\n\n\n\n<p>Itse data oli annettu csv-tiedostona, joka muunnettiin Pandasilla taulukoksi.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"642\" height=\"129\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva.png\" alt=\"\" class=\"wp-image-263\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva.png 642w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-300x60.png 300w\" sizes=\"auto, (max-width: 642px) 100vw, 642px\" \/><\/figure>\n\n\n\n<p>ChatGPT osoittautui kinkkiseksi ty\u00f6kaveriksi, joten jouduin \u201dajamaan\u201d projektin 90 kpl kokoisilla n\u00e4ytteill\u00e4. Valmiiseen ty\u00f6h\u00f6n kertyi 300 tulosta, joten onnistuneita ajoja kertyi nelj\u00e4.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-1.png\" alt=\"\" class=\"wp-image-264\" width=\"610\" height=\"19\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-1.png 642w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-1-300x9.png 300w\" sizes=\"auto, (max-width: 610px) 100vw, 610px\" \/><\/figure>\n\n\n\n<p>Kehote annettiin tekstimuodossa. AI:n t\u00e4ytyi tietenkin tiet\u00e4\u00e4, mihin tekstit lajiteltaisiin, joten sille tuli antaa valmis lista osastoista, joihin data luokitellaan. Ilta-Sanomien Mobiili -niminen osasto on j\u00e4tetty pois datasta, sen aiheuttamien ongelmien takia.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"642\" height=\"386\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-2.png\" alt=\"\" class=\"wp-image-265\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-2.png 642w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-2-300x180.png 300w\" sizes=\"auto, (max-width: 642px) 100vw, 642px\" \/><\/figure>\n\n\n\n<p>AI:ta viitattiin, kuin persoonana, kirjoittamalla sille yst\u00e4v\u00e4llisi\u00e4 viestej\u00e4 kokonaisin lausein, ja kuvailevin kriteerein. Skripti periaatteessa huijasi olevansa ihminen, joka kysyi AI:lta inhimillisi\u00e4 kysymyksi\u00e4 tietyin aikav\u00e4lein.<br><br>Vastauksille varattiin 200 tokenia, skripti odotti 33 sekuntia kyselyiden v\u00e4liss\u00e4. Kolme ensimm\u00e4ist\u00e4 ajoa sis\u00e4lsi 90 uutisteksti\u00e4. N\u00e4iden ajamiseen kului aikaa: 54min 31sek, 51min 3sek ja 50min 56sek. Viimeinen ajo sis\u00e4lsi 30 uutisteksti\u00e4, ja siihen kului 18min 40sek.<\/p>\n\n\n\n<p>Skriptin odotusluvun s\u00e4\u00e4t\u00e4misell\u00e4 oli usein katalia seurauksia, joten jouduin tyytym\u00e4\u00e4n odotteluun. &nbsp;Lopuksi data yhdistettiin csv -tiedostoon, josta kasasin sen suureksi taulukoksi, josta erottuu kaikki saatu data.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"642\" height=\"226\" src=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-3.png\" alt=\"\" class=\"wp-image-266\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-3.png 642w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/kuva-3-300x106.png 300w\" sizes=\"auto, (max-width: 642px) 100vw, 642px\" \/><\/figure>\n\n\n\n<p><br>300:n uutistekstin joukosta AI onnistui luokittelemaan 125 artikkelia. (n. 42%) Datasta l\u00f6ytyi my\u00f6s 19 artikkelia, joihin AI oli keksinyt oman vastauksen, vaikkei sille oltu koskaan annettu k\u00e4sky\u00e4 keksi\u00e4 omia osastojaan. Datassa oli my\u00f6s kolme vastausta, joilla tarkoitettiin sit\u00e4, mit\u00e4 ajettiin takaa, mutta kirjoitusasu ei vastannut annettua promptia. T\u00e4ysin ep\u00e4onnistuneita luokitteluja oli 153. (51%)<\/p>\n\n\n\n<figure class=\"wp-block-gallery has-nested-images columns-default is-cropped wp-block-gallery-1 is-layout-flex wp-block-gallery-is-layout-flex\">\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"707\" height=\"128\" data-id=\"270\" src=\"http:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/varikoodaus.png\" alt=\"\" class=\"wp-image-270\" srcset=\"https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/varikoodaus.png 707w, https:\/\/blogit.xamk.fi\/datalab\/wp-content\/uploads\/sites\/56\/2023\/06\/varikoodaus-300x54.png 300w\" sizes=\"auto, (max-width: 707px) 100vw, 707px\" \/><\/figure>\n<\/figure>\n\n\n\n<p>Voit tutkia v\u00e4rikoodattua dataa osoitteessa: <a href=\"https:\/\/ksamk-my.sharepoint.com\/:x:\/g\/personal\/bmiha003_edu_xamk_fi\/EUP5IUiq1XZChBAvQnRgz_0BHXuvesvZtR7ijQN9z-xNYA?e=qmjgMP\">https:\/\/ksamk-my.sharepoint.com\/:x:\/g\/personal\/bmiha003_edu_xamk_fi\/EUP5IUiq1XZChBAvQnRgz_0BHXuvesvZtR7ijQN9z-xNYA?e=qmjgMP<\/a><br>Excel -v\u00e4lilehdilt\u00e4 l\u00f6yd\u00e4t datan lajiteltuna.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">L\u00e4hde<\/h2>\n\n\n\n<p>Koulutus.fi. 2023. Sano hei ChatGPT:lle \u2013 Mik\u00e4 on ChatGPT ja mit\u00e4 siit\u00e4 pit\u00e4isi tiet\u00e4\u00e4?. P\u00e4ivitetty 5.5.2023. Saatavissa: <a href=\"https:\/\/www.koulutus.fi\/artikkelit\/mika-on-chatgpt-ja-mita-siita-pitaisi-tietaa-23286\">https:\/\/www.koulutus.fi\/artikkelit\/mika-on-chatgpt-ja-mita-siita-pitaisi-tietaa-23286<\/a> [viitattu 4.7.2023]<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Minulle annettiin dataa, joka sis\u00e4lsi kaikki Ilta-Sanomien verkkosivujen artikkelit vuodelta 2020. Data koostui sarakkeista: julkaisup\u00e4iv\u00e4, url-osoite, otsikko, uutisteksti, ID, sanam\u00e4\u00e4r\u00e4 ja osasto. Tarkoituksena oli antaa data luokiteltavaksi yhdysvaltalaisen OpenAI -tutkimuskeskuksen ChatGPT 3.5 -teko\u00e4lylle. Teko\u00e4lyn oli tarkoitus ottaa n\u00e4yte datasta, ja luokitella kaikki siin\u00e4 olevat artikkelit sille annettuihin osastoihin. ChatGPT 3.5 -teko\u00e4ly on nimens\u00e4 mukaisesti suunniteltu [&hellip;]<\/p>\n","protected":false},"author":347,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-262","post","type-post","status-publish","format-standard","hentry","category-yleinen"],"jetpack_featured_media_url":"","_links":{"self":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/262","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/users\/347"}],"replies":[{"embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/comments?post=262"}],"version-history":[{"count":4,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/262\/revisions"}],"predecessor-version":[{"id":274,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/posts\/262\/revisions\/274"}],"wp:attachment":[{"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/media?parent=262"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/categories?post=262"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogit.xamk.fi\/datalab\/wp-json\/wp\/v2\/tags?post=262"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}