Turu Ülikool koos välispartneritega loob soome, eesti ja teistes väikekeeltes mõtleva ja nende kultuure tundva tehisintellekti, mis tagab väikekeelte kestmise ka ChatGPT järgsel ajastul. Eesti Keele Instituudi keeletehnoloog Eleri Aedmaa selgitab, mida peavad eestlased omalt poolt tegema, et see hädavajalik algatus õnnestuks.
Soomlaste loodav ChatGPT analoog oskab mõelda ka eesti keeles (2)
Eesti Keele Instituudi keeletehnoloogi selgitusel veavad äsja välja kuulutatud konsortsiumi eest Turu Ülikool ning keeletehnoloogiaettevõte SiloGen. Loodav maailma suurim avatud keelemudel hõlmab kõiki Euroopa keeli, sealhulgas eesti keelt, ning rakendab maailma suuruselt kolmandat ja Euroopa suurimat superarvutit LUMI.
Eleri Aedmaa sõnul on eesti keele jaoks võtmetähtsusega, kui palju erilaadi ja algupäraseid digitaalseid eestikeelseid tekste suudame nii sellele kui tulevastele keelemudelitele õppimiseks ette anda.
«Praegu populaarseks saanud suurte keelemudelite ühine nõrkus see, et neid on treenitud peaaegu täielikult inglise keele põhjal. See tähendab, et kui näiteks GPT-4 ka otsekui saab eesti keelest aru, on tegu ikkagi ainult tõlkimisega – piltlikult öeldes masin mõtleb inglise keeles ja tõlgib jutu viimasel hetkel eesti keelde. See on aga eesti keelele pikemas plaanis väga ohtlik,» selgitas Aedmaa.
«Nimelt peitub selliste uute tööriistade väärtus selles, et need niiöelda mõistavad lisaks kitsalt sõnadele ja lausetele ka laiemat kultuurikonteksti. Kui keelemudel on treenitud ainult ingliskeelse materjali baasil, siis see aga paratamatult eesti kultuuri ei tunne,» selgitas asjatundja.
«Olukord on võrreldav sellega, kui leiutati trükipress – mis oleks eesti keelest saanud, kui raamatuid oleks trükkima hakatud ainult suurkeeltes, aga eesti keeles mitte?» sõnas Aedmaa.
Eesti Keele Instituudi keeletehnoloogi sõnul vaevab sama mure enamikku maailma keeli.
«Soomlaste algatusel luuaksegi nüüd uus keelemudel ehk GPT-laadne digitaalne masin, mida on algusest peale treenitud enam-vähem võrdselt paljude erinevate keelte põhjal. Eesmärgiks on Euroopa keelte suveräänsus ja keeletehnoloogia demokraatlikkus. Uus keelemudel on erinevalt enamikust senistest ka avatud koodiga – selle loogika on läbipaistev ja seda saavad kõik soovijad uute keeletehnoloogiarakenduste jaoks kasutada,» ütles Aedmaa.
«Ingliskeelne ChatGPT jahmatas maailma sellega, kui inimese sarnaselt oskas tavakeelest aru saada ja ise samamoodi vastata. Selle taga ei olnud aga mingi imetehnoloogia, vaid ennekõike see, et programmile anti ette enneolematult palju tekste, mille seest mustreid leida ja õppida niimoodi inimeste suhtlust imiteerima,» selgitas Aedmaa.
«Seega äsja alanud uuel keeletehnoloogia ajastul tekstide mass loeb. Eesti keelega selle kriitilise massi saavutamiseks peaksime digiteerima ja avalikuks tegema kõik tekstid, mis vähegi võimalik. Kogu Rahvusraamatukogu, kõik arhiivid, võimalikult palju uusi ja vanu uudiseid ning veebisuhtlust. Mida rohkem eesti keelt on veebis vabalt leitav, seda kindlam on eesti keele tulevik,» soovitas Eesti Keele Instituudi ekspert.