Syvätutkimus nostaa tekoälyn aivan uudelle tasolle

Noin vuosi sitten kirjoitin siitä, miten uusien tekoälyratkaisujen kehitys näytti hidastuneen. Moni akateeminen asiantuntija arvioikin tuolloin, että Piilaaksossa optimismia synnyttänyt skaalahypoteesi olisi tullut tiensä päähän. Näin näyttääkin tapahtuneen: pelkästään kielimallien kokoa ja harjoitusaineistoa kasvattamalla ei päästä enää juurikaan parempiin tuloksiin, kuten vaikkapa hiljattain julkaistu GPT4.5 -kielimalli osoittaa.

Kehitys ei kuitenkaan ole sittenkään hidastunut, päin vastoin.

Siinä, missä ydinmallien kohdalla skaalahyödyt eivät toki toistaiseksi tunnu kasvavan, on viime aikoina löytynyt aivan uudenlaisia tapoja hyödyntää nykyteknologiaa niin, että tulokset ovat ajoittain jälleen ällistyttäviä. Viime kuukausina onkin palattu takaisin pari vuotta sitten startanneesen ennennäkemättömään muutossykliin, jossa uusia läpimurtoja tapahtuu kuukausittain.

Vuodenvaihteen tienoilla julkaistut päättelykielimalllit – esimerkiksi OpenAI:n o1 ja o3, Googlen Gemini Thinking ja pörssejä ravistellut kiinalainen Deepseek – hyödyntävät jo aiemmin syötemuotoilussa avainasemaan nousseita päättelypuu- ja päättelyketjutekniikoita. Näissä malleissa päättely on rakennettu sisään pohjimmiltaan ihan normaaliin kielimalliin. Tuloksena on huomattavasti aiempaa luotettavampi tekoälybotti – jos kohta päättelymallitkin tekevät aika ajoin erikoisia virheitä arkipäättelyn puutteellisuudesta jekkusyötteisiin lankeamiseen.

Vielä järisyttävämpi murros liittyy kuitenkin alkuvuodesta läpilyöneisiin syvätutkimusmalleihin, kuten Gemini Deep Research ja Open AI:n kielimallien Deep Research -moodi. Kielimallin luotettavuus on aina haastavaa, jopa päättelymallien kohdalla, koska pohjimmiltaan kyse on aina sanajoukkojen tilastollisesta yleisyydestä. Jos kielimalli veikkaa yhdenkin sanan väärin, voi koko lopputuotos mennä plörinäksi.

Tutkimusmallit suitsevat tätä ongelmaa hyödyntämällä laajasti luotettavista lähteistä kokoon kaavittua tutkimusaineistoa itse syötteen laatimisessa. Sen sijaan, että ne arvaisivat vain sana kerrallaan tai edes hyödyntäisivät muutamaa verkkohakua, tutkimusmallien tekstintuottamisen taustalla vaikuttaa myös laaja aiempi tieteellinen aineisto, jonka avulla vimpain pystyy laatimaan aiheesta kuin aiheesta noin 20-sivuisen tutkimusraportin. Työ, johon aiemmin vaadittiin akateemisesti pitkälle kouluttautuneen tutkijan paneutumista kuukausikaupalla, on nyt mahdollista suorittaa noin puolessa tunnissa.

Tämäkään teknologia ei kuitenkaan korvaa ihmistä.

Ensinnäkin, edes tutkimusmalleilla ei kannata synnyttää julkaistavaksi tarkoitettavaa tekstiä, vaan niiden hyöty on ennen kaikkea saada nopeasti ylätason ymmärrys tutkittavasta asiasta. Erityisen arvokasta tämä on, koska mallien tuottama tutkimusraportti sisältää nyt suorat viitteet käytettyihin aineistoihin. Tutkimustekoäly ei siis keksi lähdeviitteitä kuten aiemmat, vaan viittaa systemaattisesti olemassa oleviin artikkeleihin.

Toiseksi, tutkimusmallin tuottaman raportin arviointi vaatii edelleen syvällistä substanssiosaamista. Koska tekoäly tekee yhä virheitä ajoittain, on kriittistä, että raportin arvioi joku syvällisesti sen käsittelemää aihetta ymmärtävä ihminen. Silti, ainakin omissa kokeiluissani tutkimustekoälyn virheiden määrä ei ole juurikaan ylittänyt sitä, mitä voisi keskimäärin olettaa vaikkapa kandidaatintyötä laativalta opiskelijalta. Virhemarginaalia voi pienentää entisestään laatimalla samalla syötteellä raportin sekä Geminillä että ChatGPT:llä. Näin toimin itse käytännösä joka tutkimuskysymyksen osalta tällä hetkellä.

Teknologian kehityksen ei tarvitse perustua vain yhtä rataa kulkevaan jatkuvaan kasvuun vaikkapa Mooren lain tapaan. Teknologia voi kehittyä myös laadullisesti, eli keksimällä uusia tapoja käyttää jo olemassa olevia ratkaisuja. Tästä on nähdäkseni kyse nyt etenkin uusien päättely- ja tutkimusmallien kohdalla.

Laadullisen kehittämisen ansiosta tekoälyratkaisujen kiihtyvälle kehitykselle ei siis sittenkään näytä olevan ainakaan vielä näkyvillä olevaa ylärajaa.