Kategoriat
Yleinen

Ajankohtaisten kysymysten luokittelua: suuret kielimallit ja Suomi

Tekoälyn ympärillä pyörivä hype on lisääntynyt alkuvuodesta merkittävästi. Tämä johtuu pitkälti suurista kielimalleista, joiden keskusteluun optimoitu versio julkaistiin joulukuussa 2022 chatGPT -nimellä.

Kielimallit on opetettu valtavalla määrällä tekstidataa, ja eri kielisen datan määrä vaihtelee paljon. Esimerkiksi englanti, espanja ja kiina ovat määrällisesti aivan eri sarjassa kuin suomi, virosta nyt puhumattakaan. Suomen Turussa koulutetaan parhaillaan kotimaisia GPT3-malleja ja niitä odotellessa on hyvä testata miten hyvin ulkomailla koulutetu mallit osaavat kieltämme.

Xamkin data-analytiikkakoulutuksen ajankohtaisten kysymysten kurssilla kerättiin tekstiaineisto. Jokainen opiskelija linkkasi kurssin keskustelualueelle ajankohtaisen dataan liittyvän uutisartikkelin, minkä jälkeen artikkelien kokotekstejä haettiin verkkosivuilta niiden url-osoitteiden ja lyhyen koodinpätkän avulla. Opiskelijat saivat tehtäväksi analysoida aineistoa luokittelemalla uutistekstien teemoja. Lopputuloksena syntyi 35 artikkelin aineisto. Jokainen sai kylkeensä opiskelijoiden antamat teemat ja ne yhdistettiin samaan sarakkeeseen.

Miten tekoäly suoriutuisi luokittelutehtävästä? Tai mitä muita luokittelutehtäviä sille voisi antaa? Kokeilua varten otettiin käyttöön chatGPT-kielimallin ohjelmointirajapinta. Aineiston uutistekstit lähetettiin ”tekoälylle” ja niiden kanssa kokeiltiin erilaisia ”prompteja” eli kehotteita, jotka ovat tässä tapauksessa ohjeita siitä mitä teksteille pitäisi tehdä.

chatGPT:n rajapinta haluaa sisäänsä järjestelmäkehotteen ja käyttäjäkehotteen. Ensimmäinen määrittelee kontekstia jonka perusteella mallia ohjataan tuottamaan tietynlaista tekstiä. Uutisaineistomme kanssa käytettiin seuraavaa järjestelmäkehotetta:

”olet reipas ja tarkkaavainen tutkimusapulainen joka auttaa tekstidatan luokittelussa”

Sitten kokeiltiin erilaisia käyttäjäkehotteita joilla konetta pyydettiin luokittelemaan tekstiä tai kertomaan siitä asioita.

Käytetyt ”promptit” eli kehotteet

Ensimmäisellä kehotteella pyydettiin erottelemaan tekstistä ihmisten ja organisaatioiden nimet. Toisella pyydettiin laatimaan uutisen pohjalta pahin mahdollinen skenaario ja kolmannessa pyydettiin teemoittelua tarkasti määritellyin ehdoin.

Mutta ovatko tulokset mistään kotoisin? Ensimmäisen kehotteen kohdalla tulokset on kohtuullisen helppo tarkistaa. Lisäksi on olemassa suomen kielellä opetettuja malleja jotka on koulutettu juuri tällaisia tehtäviä varten. Ja tämän pienen aineiston kanssa vaikuttaa, että chatGPT suoriutuu tehtävästä todella hyvin. Toisen ja kolmannen kehotteen laatua on vaikeampi arvioida.

Voit tarkastella tuloksia itse lataamalla csv-tiedoston täältä: https://drive.google.com/file/d/1rgzOo1h9IwBeKBGf8kNw2UU4IeFdlPCF/view?usp=share_link