Kategoriat
Yleinen

Tiederahoittajalista

Sain Lens.org -sivuston kautta haetun listan tiederahoittajien nimistä sellaisista tutkimustartikkeleista, joissa on mukana suomalaisia korkeakouluja. Listassa on 2000 tiederahoittajaa, ja tehtäväni oli luoda taulukko, josta näkee; ovatko ne suomalaisia, vai ei. Tarkoituksena on verrata googlen avulla kirjoittamaani listaa ChatGPT-3.5-turbo-0613-tekoälyn ”kädenjälkeen”.

ChatGPT 3.5 -tekoäly on suunniteltu tulkitsemaan tekstiä, ja ”keskustelemaan” käyttäjänsä kanssa. Se ei pysty etsimään lisätietoja internetistä, vaan luottaa sille opetettuun tietoon.

Listasin rahoittajien suomalaisuuden binäärimuodossa True/False tekstein. Ihan jokaista rahjoittajaa en onnistunut paikantamaan, joten merkitsin ne VIRHE-tekstillä. Suomalaisia rahoittajia löytyi 1285, ulkomaalaisia 704, ja virheitä 11.

Kehoitteet

Tekoälyprojektiin käytettiin kolmea erilaista kehoitetta

  • This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not?
  • This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not? Answer with a yes or no answer. Yes for finnish and no for not finnish
  • Tämä teksti on tiederahoittajan nimi. Päättele onko tämä tiederahoittaja suomalainen? Vastaa ainoastaan kyllä, tai ei.

    Kehoitteet ovat sanallisia käskyjä, koska käyttämäni tekoäly on suunniteltu keskustelemaan käyttäjien kanssa. Se ei osaa hakea tietoa internetistä, vaan toistelee sille opetettuja asioita.

Kehoite 1

This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not?

En ajatellut tätä kehoitetta tarpeeksi pitkälle. Tekoäly vastasi kysymyksiin kokonaisin lausein, perusteluiden kera. Vastauksista ei voi siis luoda hyvää karttaa, mutta niiden silmäily paljastaa, ettei tekoäly tuntunut olevan kovin varma monista vastauksistaan.

Kehoite 2

This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not? Answer with a yes or no answer. Yes, for finnish and no for not finnish

Tekoäly vastasi vihdoin binäärivastauksin. Olisi tosin ollut järkevämpää nimetä ne samoin termein, kuin omassakin dokumentissa. (on/ei ole suomalainen) Korjasin tämän pois blogin PowerBi -piirakasta. Tekoäly tuppaa kompuroimaan suomalaisten ruotsinkielisten instituutioiden kohdalla, esim; Liv och Hälsa. Myös säätiöt kuten; Stiftelsen Alma och K. A. Snellman Säätiö aiheuttavat ongelmia, vaikka niissä onkin suomea.

Vaikka tekoäly luokittelikin suurimman osan datasta binäärimuodossa, päätyi se silti sooloilemaan muutaman kerran. Datasta löytyy kaksi erillistä saraketta, joissa tekoäly pahoittelee kyvyttömyyttään käyttäen kokonaisia lauseita. Tekoäly lisäsi myös yhden True -vastauksen perään pisteen, ja teki saman kolmesti No -vastausten kohdalla.
This text is an organization that has funded a scientific publication. Can you determine if the organization is Finnish or not? Answer with a yes or no answer. Yes, for finnish and no for not finnish

Tekoäly vastasi vihdoin binäärivastauksin. Olisi tosin ollut järkevämpää nimetä ne samoin termein, kuin omassakin dokumentissa. (on/ei ole suomalainen) Korjasin tämän pois blogin PowerBi -piirakasta. Tekoäly tuppaa kompuroimaan suomalaisten ruotsinkielisten instituutioiden kohdalla, esim; Liv och Hälsa. Myös säätiöt kuten; Stiftelsen Alma och K. A. Snellman Säätiö aiheuttavat ongelmia, vaikka niissä onkin suomea.

Vaikka tekoäly luokittelikin suurimman osan datasta binäärimuodossa, päätyi se silti sooloilemaan muutaman kerran. Datasta löytyy kaksi erillistä saraketta, joissa tekoäly pahoittelee kyvyttömyyttään käyttäen kokonaisia lauseita. Tekoäly lisäsi myös yhden True -vastauksen perään pisteen, ja teki saman kolmesti No -vastausten kohdalla.


Kehoite 3

Tämä teksti on tiederahoittajan nimi. Päättele onko tämä tiederahoittaja suomalainen? Vastaa ainoastaan kyllä, tai ei.

Kolmas kehoite annettiin suomeksi. Tämä ei kuitenkaan auttanut vastauksissa. Esimerkiksi Turku ja Oulu tunnistettiin ulkomaalaisina paikkoina. Kehoite 3 oli huomattavasti kielteisempi, kuin englanninkielinen kehoite 2. Se ei myöskään totellut annettua binäärikäskyä, vaan vastasi tylysti vastauksella; ”Ei” 102 kertaa. ”On suomalainen” -vastaus kirjoitettiin myös väärin 14 kertaa. Vastausten seasta löytyi myös 21 tapausta, joissa tekoäly oli hylännyt ohjeistuksen, ja alkanut kirjoittamaan omaa tekstiään, käyttäen kokonaisia lauseita.

Pohdintaa

Sain huomattavasti paremmat vastaukset käsin googlailemalla, vaikka se vei aikaa. Kehotteissa ei selkeästi kannata käyttää suomea, eikä tekoäly ole kovin luotettava ”sooloiluongelmansa” takia. Eipä sitä tosin tällaiseen ole suunniteltukkaan. Kunnollisilla kyselyille pitäisi kirjoittaa oma ohjelma, jossa asia on otettu huomioon. Tekoäly pitäisi myös kouluttaa ymmärtämään, että Suomi on kaksikielinen maa…

Lähde

Koulutus.fi. 2023. Sano hei ChatGPT:lle – Mikä on ChatGPT ja mitä siitä pitäisi tietää?. Päivitetty 5.5.2023. Saatavissa: https://www.koulutus.fi/artikkelit/mika-on-chatgpt-ja-mita-siita-pitaisi-tietaa-23286 [viitattu 4.7.2023]

Kategoriat
Yleinen

Ilta-Sanomien artikkelien luokittelu ChatGPT 3.5 -tekoälyn avulla

Minulle annettiin dataa, joka sisälsi kaikki Ilta-Sanomien verkkosivujen artikkelit vuodelta 2020. Data koostui sarakkeista: julkaisupäivä, url-osoite, otsikko, uutisteksti, ID, sanamäärä ja osasto. Tarkoituksena oli antaa data luokiteltavaksi yhdysvaltalaisen OpenAI -tutkimuskeskuksen ChatGPT 3.5 -tekoälylle. Tekoälyn oli tarkoitus ottaa näyte datasta, ja luokitella kaikki siinä olevat artikkelit sille annettuihin osastoihin.

ChatGPT 3.5 -tekoäly on nimensä mukaisesti suunniteltu tulkitsemaan tekstiä, ja ”keskustelemaaan”. Todellisuudessa se vaan toistaa sille opetettuja asioita. Se ei pysty hakemaan lisätietoja hakukoneiden avulla, vaan luottaa täysin oppimaansa tietoon.

Tekoälylle (lyh. AI) ainoastaan annettiin lista uutisartikkeleiden osastoista. Se ei nähnyt artikkeleiden alkuperäisiä osastoja. Käskyt annettiin Pandas -nimisellä Python -kirjastolla, käyttäen OpenAI:n API-avainta.

Itse data oli annettu csv-tiedostona, joka muunnettiin Pandasilla taulukoksi.

ChatGPT osoittautui kinkkiseksi työkaveriksi, joten jouduin ”ajamaan” projektin 90 kpl kokoisilla näytteillä. Valmiiseen työhön kertyi 300 tulosta, joten onnistuneita ajoja kertyi neljä.

Kehote annettiin tekstimuodossa. AI:n täytyi tietenkin tietää, mihin tekstit lajiteltaisiin, joten sille tuli antaa valmis lista osastoista, joihin data luokitellaan. Ilta-Sanomien Mobiili -niminen osasto on jätetty pois datasta, sen aiheuttamien ongelmien takia.

AI:ta viitattiin, kuin persoonana, kirjoittamalla sille ystävällisiä viestejä kokonaisin lausein, ja kuvailevin kriteerein. Skripti periaatteessa huijasi olevansa ihminen, joka kysyi AI:lta inhimillisiä kysymyksiä tietyin aikavälein.

Vastauksille varattiin 200 tokenia, skripti odotti 33 sekuntia kyselyiden välissä. Kolme ensimmäistä ajoa sisälsi 90 uutistekstiä. Näiden ajamiseen kului aikaa: 54min 31sek, 51min 3sek ja 50min 56sek. Viimeinen ajo sisälsi 30 uutistekstiä, ja siihen kului 18min 40sek.

Skriptin odotusluvun säätämisellä oli usein katalia seurauksia, joten jouduin tyytymään odotteluun.  Lopuksi data yhdistettiin csv -tiedostoon, josta kasasin sen suureksi taulukoksi, josta erottuu kaikki saatu data.


300:n uutistekstin joukosta AI onnistui luokittelemaan 125 artikkelia. (n. 42%) Datasta löytyi myös 19 artikkelia, joihin AI oli keksinyt oman vastauksen, vaikkei sille oltu koskaan annettu käskyä keksiä omia osastojaan. Datassa oli myös kolme vastausta, joilla tarkoitettiin sitä, mitä ajettiin takaa, mutta kirjoitusasu ei vastannut annettua promptia. Täysin epäonnistuneita luokitteluja oli 153. (51%)

Voit tutkia värikoodattua dataa osoitteessa: https://ksamk-my.sharepoint.com/:x:/g/personal/bmiha003_edu_xamk_fi/EUP5IUiq1XZChBAvQnRgz_0BHXuvesvZtR7ijQN9z-xNYA?e=qmjgMP
Excel -välilehdiltä löydät datan lajiteltuna.

Lähde

Koulutus.fi. 2023. Sano hei ChatGPT:lle – Mikä on ChatGPT ja mitä siitä pitäisi tietää?. Päivitetty 5.5.2023. Saatavissa: https://www.koulutus.fi/artikkelit/mika-on-chatgpt-ja-mita-siita-pitaisi-tietaa-23286 [viitattu 4.7.2023]