Eesti Keele Instituudi (EKI) vanemarvutileksikograafi Kristina Koppeli sõnul on selliseid ülisuuri keeleandmeid vaja näiteks selleks, et koostada elulähedasi ja võimalikult kasulikke sõnaraamatuid.
«Sõnaraamatu otstarve on anda ülevaade sellest, kuidas sõnu parasjagu elavas keeles kasutatakse – olla abivahend, mis aitab tundmatutest sõnadest aru saada ning end arusaadavamalt väljendada. See aga tähendab, et sõnaraamatu koostajad peavad elaval keelel pidevalt kätt pulsil hoidma, et sõnastikus esitatud info oleks ajakohane,» rääkis Koppel.
Leksikograaf selgitas, et kui enne digiajastut oli korpuste kogumine keeruline ning nõudis väga palju inimtööd, aega ja raha, siis tänu tekstide kolimisele veebi saab keeleandmeid digirobotite abil aina suuremas mahus automaatselt kokku koguda.
«Sealjuures on esindatud kõik keeležanrid alates filosoofiast ja luulest, seadustest ja tehnikadokumentidest kuni mahlaka meedia ning vabas vormis veebisuhtluseni. On väga tähtis, et korpus sisaldaks esinduslikult palju ka hästi toimetatud tekste ja see on alati eraldi eesmärk, kuigi selle saavutamine on keeruline, sest näiteks läbirääkimised autoriõiguste üle nõuavad märkimisväärset pingutust,» ütles Koppel.
Eesti Keele Instituut on eesti keele hetkeseisu sedalaadi väljavõtteid ehk ühendkorpuste sarja loonud 2013. aastast alates. Kui esimese ühendkorpuse maht oli 700 tuhat dokumenti ja 563 miljonit sõna, siis vastne korpus hõlmab juba 15 miljonit dokumenti ja 3,8 miljardit sõna.
«Eriti rahul oleme sellega, et oleme suutnud eestikeelse ilukirjanduse mahtu korpuses järjepidevalt ning võib ka öelda et hüppeliselt kasvatada. Eelmises, 2021. aasta ühendkorpuses kasvas ilukirjanduse maht varasemaga võrreldes neli korda ja nüüd veel viis korda,» tõi Koppel välja.