Näkökulmat

Tekoälystäkö tutkijan korvaajaksi?

Tekoälyn avulla on mahdollista ravistella perinteisiä tutkimusmetodeja, mutta edessä on vielä suuria haasteita.

Tekoäly. Tutkijoille termi ei ole uusi, mutta viime vuoden aikana sitä on viljelty laajemmin myös mediassa. Iso osa tästä juontuu OpenAI:n julkistamasta suuresta kielimallista, ChatGPT:stä, josta kasvoi nopeasti maailmanlaajuinen ilmiö. Sen käyttöön liittyy sekä mahdollisuuksia että uhkakuvia. Sen avulla asiantuntijat voivat esimerkiksi automatisoida tietynlaisia työtehtäviä. Samaan aikaan sen pelätään esimerkiksi vähentävän työpaikkoja ja uhkaavan perinteistä opiskelua.

Mutta miten suuri kielimalli soveltuu tutkimuksen apuvälineeksi?

Kysymys nousi esiin, kun lähdin tekemään tutkimusta Singaporeen. Tämä Kaakkois-Aasian helmi on todennäköisesti tunnettu Suomessa tiukoista säännöistään ja purukumikiellostaan, tosin jälkimmäinen ei ole niin tiukka kuin mielikuvat antavat olettaa. Niiden lisäksi kaupunkivaltiosta löytyy nuorehko yliopisto Singapore Management University (SMU), jossa tehdään maailmanluokan ohjelmistokehityksen tutkimusta.

Väitöskirjatutkimuksessani tutkin teknistä velkaa eri näkökulmista. Tarkoitan teknisellä velalla huonoja koodauskäytäntöjä, kuten tiettyjen koodaustehtävien toteuttamista ennemmin nopeasti kuin täysin ohjeiden mukaan. Tällaisia vippaskonsteja käytetään saavuttamaan lyhytaikaista etua, esimerkiksi nopeuttamaan projektin julkaisua, mutta niihin liittyy myös riski. Mikäli tietoisesti tehtyjä purukumiviritelmiä ei korjata pois, niillä on tapana kadota ja aiheuttaa ongelmia projektin myöhemmissä vaiheissa.

Tutkimuksessani analysoidaan tällaisia koodiin liittyviä ongelmakohtia ja niiden yhteyteen mahdollisesti kirjoitettuja kommentteja: mitä ne kertovat, toistuvatko tietyt asiat näissä kommenteissa, minkälaisiin ongelmiin ne liittyvät ja voidaanko näiden ongelmapaikkojen esiintymistä ennustaa?

Singaporessa tutkimukseni liittyy teknisen velan tutkimukseen drooneissa ja teen yhteistyötä paikallisten drooneihin erikoistuneiden tutkijoiden kanssa. Vaikka teknistä velkaa on tutkittu paljon, droonit eivät ole saaneet vielä riittävästi huomiota. Tämä on yllättävää, sillä niiden käyttö on viime vuosina moninkertaistunut ja niitä käytetään monenlaisissa tärkeissä tehtävissä maatalouden tukemisesta lääketieteellisen avun toimittamiseen. Siksi mahdollisten ongelmien havaitseminen ajoissa on kriittistä.

Kielimalli voi nopeuttaa ja helpottaa työtä, mutta se ei korvaa kaikkea ihmisen tekemää työtä

Palataan takaisin alussa mainitsemiini suuriin kielimalleihin ja siihen, miten ne liittyvät tutkimukseeni. Testaamme sitä, kuinka hyvin suuri kielimalli korvaa ihmisen kvalitatiivisessa tutkimuksessa. Käytämme kielimallia lajittelemaan teknistä velkaa erilaisiin kategorioihin ja luokittelemaan kommentteja drooneihin liittyviin tai yleisiin.

Perinteisesti luokittelu tehdään itsenäisesti ja sen suorittaa vähintään kaksi henkilöä. Tuloksia vertailemalla ja niistä keskustelemalla taataan se, että luokittelu on tehty huolellisesti. Alustavat tulokset kertovat, että ChatGPT-kielimallilla on mahdollista korvata oikeita henkilöitä luokittelussa. Tämä on tärkeä havainto, koska käsityönä tehtävä luokittelu on erittäin aikaa vievää. Mikäli yksi tai useampi henkilö on mahdollista korvata suurella kielimallilla, sillä saavutetaan huomattavia säästöjä.

Omaa työtaakkaa ei kannata kuitenkaan kiirehtiä automatisoimaan tekoälyn avulla, sillä siihen liittyy vielä muutamia sudenkuoppia.

  • Ensinnäkin, ChatGPT ei ole kaikkivoipainen ja erehtymätön, vaan sekin tekee virheitä – asiantuntijaan verrattuna vieläpä huomattavan paljon.
  • Toisekseen, sen antamat vastaukset on syytä analysoida huolellisesti. Ajoittain selitykset kyllä näyttävät kirjoitetulta kieleltä, mutta syväluotaavampi tarkastelu osoittaa, ettei niissä ole logiikkaa tai mieltä.
  • Kolmanneksi, ChatGPT ei seuraa annettuja ohjeita sanatarkasti. Jos se laitettaisiin tekemään koetta, jossa sen täytyy seurata ohjeita pilkuntarkasti, en usko sen kykenevän siihen. Tarkoista ohjeista huolimatta ChatGPT palautti osan vastauksista väärässä muodossa. Tämä voi aiheuttaa huomattavia ongelmia ohjelmistokehityksessä, mikäli vastauksia on tarkoitus hyödyntää vaikkapa syötteinä toiselle ohjelmalle.
  • Ja viimeiseksi, ChatGPT ei osaa analysoida puutteellista aineistoa. Me ihmiset pystymme näkemään, mitä puutteellisesti kirjoitetussa tekstissä on ajettu takaa, mutta ChatGPT:lle se on täyttä hepreaa.

Miten ChatGPT:tä sitten kannattaa hyödyntää? Tutkimuksessani havaitsimme, että ohjeistuksen sanavalintoihin ja toistoon pitää kiinnittää huomiota, sillä sanamalli on hyvin herkkä. ChatGPT:n vastauksia ei kannata ottaa heti totena, vaan sen kanssa täytyy käydä useampi kierros keskusteluja. Tämä parantaa huomattavasti tuloksia. Miten tämä käytännössä tapahtuu? Tarkemmat ohjeet löytyvät tulevaisuudessa julkaistavasta konferenssipaperistamme.

Rantala_profiilikuva-1-768x1024.jpg

Leevi Rantala on väitöskirjatutkija Oulun yliopiston M3S-tutkimusryhmässä, joka on yksi Euroopan suurimmista ohjelmistoalan tutkimusyksiköistä. Tutkimusalallaan häntä kiinnostavat tekniset velan ohella esimerkiksi luonnollisen kielen käsittelyn työkalut sekä tunneanalyysi. Leevin työhön voi tutustua tarkemmin Oulun yliopiston julkaisuarkistossa.

kaute_tutkijablogi_logo_color.png

Tutkijablogeissa KAUTE:n apurahansaajat kertovat omin sanoin tutkimuksestaan.