Syvätutkimus nostaa tekoälyn aivan uudelle tasolle

Noin vuosi sitten kirjoitin siitä, miten uusien tekoälyratkaisujen kehitys näytti hidastuneen. Moni akateeminen asiantuntija arvioikin tuolloin, että Piilaaksossa optimismia synnyttänyt skaalahypoteesi olisi tullut tiensä päähän. Näin näyttääkin tapahtuneen: pelkästään kielimallien kokoa ja harjoitusaineistoa kasvattamalla ei päästä enää juurikaan parempiin tuloksiin, kuten vaikkapa hiljattain julkaistu GPT4.5 -kielimalli osoittaa.

Kehitys ei kuitenkaan ole sittenkään hidastunut, päin vastoin.

Siinä, missä ydinmallien kohdalla skaalahyödyt eivät toki toistaiseksi tunnu kasvavan, on viime aikoina löytynyt aivan uudenlaisia tapoja hyödyntää nykyteknologiaa niin, että tulokset ovat ajoittain jälleen ällistyttäviä. Viime kuukausina onkin palattu takaisin pari vuotta sitten startanneesen ennennäkemättömään muutossykliin, jossa uusia läpimurtoja tapahtuu kuukausittain.

Vuodenvaihteen tienoilla julkaistut päättelykielimalllit – esimerkiksi OpenAI:n o1 ja o3, Googlen Gemini Thinking ja pörssejä ravistellut kiinalainen Deepseek – hyödyntävät jo aiemmin syötemuotoilussa avainasemaan nousseita päättelypuu- ja päättelyketjutekniikoita. Näissä malleissa päättely on rakennettu sisään pohjimmiltaan ihan normaaliin kielimalliin. Tuloksena on huomattavasti aiempaa luotettavampi tekoälybotti – jos kohta päättelymallitkin tekevät aika ajoin erikoisia virheitä arkipäättelyn puutteellisuudesta jekkusyötteisiin lankeamiseen.

Vielä järisyttävämpi murros liittyy kuitenkin alkuvuodesta läpilyöneisiin syvätutkimusmalleihin, kuten Gemini Deep Research ja Open AI:n kielimallien Deep Research -moodi. Kielimallin luotettavuus on aina haastavaa, jopa päättelymallien kohdalla, koska pohjimmiltaan kyse on aina sanajoukkojen tilastollisesta yleisyydestä. Jos kielimalli veikkaa yhdenkin sanan väärin, voi koko lopputuotos mennä plörinäksi.

Tutkimusmallit suitsevat tätä ongelmaa hyödyntämällä laajasti luotettavista lähteistä kokoon kaavittua tutkimusaineistoa itse syötteen laatimisessa. Sen sijaan, että ne arvaisivat vain sana kerrallaan tai edes hyödyntäisivät muutamaa verkkohakua, tutkimusmallien tekstintuottamisen taustalla vaikuttaa myös laaja aiempi tieteellinen aineisto, jonka avulla vimpain pystyy laatimaan aiheesta kuin aiheesta noin 20-sivuisen tutkimusraportin. Työ, johon aiemmin vaadittiin akateemisesti pitkälle kouluttautuneen tutkijan paneutumista kuukausikaupalla, on nyt mahdollista suorittaa noin puolessa tunnissa.

Tämäkään teknologia ei kuitenkaan korvaa ihmistä.

Ensinnäkin, edes tutkimusmalleilla ei kannata synnyttää julkaistavaksi tarkoitettavaa tekstiä, vaan niiden hyöty on ennen kaikkea saada nopeasti ylätason ymmärrys tutkittavasta asiasta. Erityisen arvokasta tämä on, koska mallien tuottama tutkimusraportti sisältää nyt suorat viitteet käytettyihin aineistoihin. Tutkimustekoäly ei siis keksi lähdeviitteitä kuten aiemmat, vaan viittaa systemaattisesti olemassa oleviin artikkeleihin.

Toiseksi, tutkimusmallin tuottaman raportin arviointi vaatii edelleen syvällistä substanssiosaamista. Koska tekoäly tekee yhä virheitä ajoittain, on kriittistä, että raportin arvioi joku syvällisesti sen käsittelemää aihetta ymmärtävä ihminen. Silti, ainakin omissa kokeiluissani tutkimustekoälyn virheiden määrä ei ole juurikaan ylittänyt sitä, mitä voisi keskimäärin olettaa vaikkapa kandidaatintyötä laativalta opiskelijalta. Virhemarginaalia voi pienentää entisestään laatimalla samalla syötteellä raportin sekä Geminillä että ChatGPT:llä. Näin toimin itse käytännösä joka tutkimuskysymyksen osalta tällä hetkellä.

Teknologian kehityksen ei tarvitse perustua vain yhtä rataa kulkevaan jatkuvaan kasvuun vaikkapa Mooren lain tapaan. Teknologia voi kehittyä myös laadullisesti, eli keksimällä uusia tapoja käyttää jo olemassa olevia ratkaisuja. Tästä on nähdäkseni kyse nyt etenkin uusien päättely- ja tutkimusmallien kohdalla.

Laadullisen kehittämisen ansiosta tekoälyratkaisujen kiihtyvälle kehitykselle ei siis sittenkään näytä olevan ainakaan vielä näkyvillä olevaa ylärajaa.

Tekoälyn kehityksen hidastuminen antaa tilaa ymmärtää käynnissä olevaa murrosta

Viime kuukausina generatiivisen tekoälyn kehittyminen on hidastunut selvästi. Koko viime vuoden kestänyt lähes viikottainen muutosvauhti näyttäisi nyt ainakin hetkeksi helpottaneen.

Siinä, missä vielä viime marraskuuhun asti uusia läpimurtoja tuli kuukausittain tai jopa viikoittain, lähtien kevään OpenAI:n GPT4-kielimallista, Midjourneyn fotorealistisesta 5. versiosta ja päättyen loppuvuoden Rabbitin ja Humanen tekoälyvimpaimiin ja GPT:n integroituun versioon, ovat tämän vuoden uudistukset koskeneet lähinnä sitä, kuinka kilpailukykyisiä Anthropicin, Inflectionin ja Googlen kielimallit ovat GPT4:n kanssa. Suurin alkuvuoden aikana tapahtunut generatiivisen tekoälyn läpimurto on Sunon itsessään erittäin vaikuttava musiikintekoalusta. Musiikki on kuitenkin ainakin toistaiseksi marginaalinen generatiivisen tekoälyn sovellusala verrattuna teksti- ja kuvaratkaisuihin.

Tämä hidastuminen on saanut monet tekoälykriitikot iloitsemaan. Onpa jopa puhuttu siitäkin, että viime vuonna toivottu kuuden kuukauden tauko tekoälyteknologian kehityksessä on sittenkin toteutunut, tosin tässä tapauksessa vain siksi, että teknologian kehittyminen on usein äkkiväärää ja yllättävää. Monet ovat myös rientäneet julistamaan koko generatiivisen tekoälyn kuplaksi. Missä ovat ne kymmenien prosenttien tuottavuushyödyt, joita viime vuoden tutkimuspaperit ovat lupailleet? Missä on tietotyön murros?

Tosi asiassa se, että joka viikko ei ole luvassa uutta lelua on tekoälyn käyttöönoton kannalta hyvä juttu.

Generatiivinen tekoäly, ja erityisesti suuriin kielimalleihin perustuvat ratkaisut, ei ole mikään taikaluoti, joka muuttaa kaiken yhdessä yössä. Siitä huolimatta kyseessä on läpimurtoteknologia, jonka jo nyt saatavilla olevat ratkaisut mahdollistavat sellaisia käyttötarkoituksia, jotka vielä pari vuotta sitten olisivat olleet tieteisfiktiota. Olisi oikeastaan ihan toivottavaa, että hypetys tekoälyn ympärillä helpottaisi hieman – jotta pääsisimme ihan normaalissa arjessa tutustumaan ja integroimaan näitä ratkaisuja osaksi työtämme.

Olennaisinta uusien työkalujen ja menetelmien käyttöönotossa on tunnistaa, mihin ne soveltuvat. Kuten Wharton-professori Ethan Mollick on kirjoittanut, tekoälyn käyttösovellukset sijoittuvat sahalaitaisen rajan molemmin puolin: joissain käyttötarkoituksissa tekoäly voi jopa heikentää työn tuloksia. Kielimallit eivät toimi hakukoneina, mutta ne ovat loistavia sparrailussa. Ne eivät ole luotettavia kvantitatiivisessa analyysissa, mutta kvalitatiivisessa analyysissa niistä voi olla paljon hyötyä. Kielimallien merkittävä vahvuus on erilaisten tekstien tiivistäminen ja muuntaminen. Kielimallin avulla voi tiivistää tieteellisen artikkelin pääkohdat ja pyytää opettamaan sen sisällön kuin 8-vuotiaalle. Sen avulla voi myös muuttaa esimerkiksi tieteellisen tekstin lähdeluettelon formaatin erilaiseksi – pelkästään tämä yksi ominaisuus säästää tutkijoiden työaikaa tuntikaupalla kuukaudessa.

Tavallaan tekoälyä koskeva hypetys on turhaa. Näissä vimpaimissa riittää ihmeteltävää jo sellaisina kuin ne nyt ovat.