Kategoriat
Yleinen

Ilta-Sanomien artikkelien luokittelu ChatGPT 3.5 -tekoälyn avulla

Minulle annettiin dataa, joka sisälsi kaikki Ilta-Sanomien verkkosivujen artikkelit vuodelta 2020. Data koostui sarakkeista: julkaisupäivä, url-osoite, otsikko, uutisteksti, ID, sanamäärä ja osasto. Tarkoituksena oli antaa data luokiteltavaksi yhdysvaltalaisen OpenAI -tutkimuskeskuksen ChatGPT 3.5 -tekoälylle. Tekoälyn oli tarkoitus ottaa näyte datasta, ja luokitella kaikki siinä olevat artikkelit sille annettuihin osastoihin.

ChatGPT 3.5 -tekoäly on nimensä mukaisesti suunniteltu tulkitsemaan tekstiä, ja ”keskustelemaaan”. Todellisuudessa se vaan toistaa sille opetettuja asioita. Se ei pysty hakemaan lisätietoja hakukoneiden avulla, vaan luottaa täysin oppimaansa tietoon.

Tekoälylle (lyh. AI) ainoastaan annettiin lista uutisartikkeleiden osastoista. Se ei nähnyt artikkeleiden alkuperäisiä osastoja. Käskyt annettiin Pandas -nimisellä Python -kirjastolla, käyttäen OpenAI:n API-avainta.

Itse data oli annettu csv-tiedostona, joka muunnettiin Pandasilla taulukoksi.

ChatGPT osoittautui kinkkiseksi työkaveriksi, joten jouduin ”ajamaan” projektin 90 kpl kokoisilla näytteillä. Valmiiseen työhön kertyi 300 tulosta, joten onnistuneita ajoja kertyi neljä.

Kehote annettiin tekstimuodossa. AI:n täytyi tietenkin tietää, mihin tekstit lajiteltaisiin, joten sille tuli antaa valmis lista osastoista, joihin data luokitellaan. Ilta-Sanomien Mobiili -niminen osasto on jätetty pois datasta, sen aiheuttamien ongelmien takia.

AI:ta viitattiin, kuin persoonana, kirjoittamalla sille ystävällisiä viestejä kokonaisin lausein, ja kuvailevin kriteerein. Skripti periaatteessa huijasi olevansa ihminen, joka kysyi AI:lta inhimillisiä kysymyksiä tietyin aikavälein.

Vastauksille varattiin 200 tokenia, skripti odotti 33 sekuntia kyselyiden välissä. Kolme ensimmäistä ajoa sisälsi 90 uutistekstiä. Näiden ajamiseen kului aikaa: 54min 31sek, 51min 3sek ja 50min 56sek. Viimeinen ajo sisälsi 30 uutistekstiä, ja siihen kului 18min 40sek.

Skriptin odotusluvun säätämisellä oli usein katalia seurauksia, joten jouduin tyytymään odotteluun.  Lopuksi data yhdistettiin csv -tiedostoon, josta kasasin sen suureksi taulukoksi, josta erottuu kaikki saatu data.


300:n uutistekstin joukosta AI onnistui luokittelemaan 125 artikkelia. (n. 42%) Datasta löytyi myös 19 artikkelia, joihin AI oli keksinyt oman vastauksen, vaikkei sille oltu koskaan annettu käskyä keksiä omia osastojaan. Datassa oli myös kolme vastausta, joilla tarkoitettiin sitä, mitä ajettiin takaa, mutta kirjoitusasu ei vastannut annettua promptia. Täysin epäonnistuneita luokitteluja oli 153. (51%)

Voit tutkia värikoodattua dataa osoitteessa: https://ksamk-my.sharepoint.com/:x:/g/personal/bmiha003_edu_xamk_fi/EUP5IUiq1XZChBAvQnRgz_0BHXuvesvZtR7ijQN9z-xNYA?e=qmjgMP
Excel -välilehdiltä löydät datan lajiteltuna.

Lähde

Koulutus.fi. 2023. Sano hei ChatGPT:lle – Mikä on ChatGPT ja mitä siitä pitäisi tietää?. Päivitetty 5.5.2023. Saatavissa: https://www.koulutus.fi/artikkelit/mika-on-chatgpt-ja-mita-siita-pitaisi-tietaa-23286 [viitattu 4.7.2023]