UUS REKORD Eesti keel kaardistati ligi 4 miljardi sõna mahus (1)

24. jaanuar 2024, 11:32

Eesti Keele Instituut koondas keelekorpuseks kokku ligi nelja miljardi sõna mahus eestikeelseid tekste, mis lubab saada enneolematult ulatusliku ülevaate eesti keele arenguseisust. Uus korpus on 30 protsenti suurem kui eelmine ning enim, viis korda, on selles kasvanud ilukirjanduse maht.

Eesti Keele Instituudi (EKI) vanemarvutileksikograafi Kristina Koppeli sõnul on selliseid ülisuuri keeleandmeid vaja näiteks selleks, et koostada elulähedasi ja võimalikult kasulikke sõnaraamatuid.

«Sõnaraamatu otstarve on anda ülevaade sellest, kuidas sõnu parasjagu elavas keeles kasutatakse – olla abivahend, mis aitab tundmatutest sõnadest aru saada ning end arusaadavamalt väljendada. See aga tähendab, et sõnaraamatu koostajad peavad elaval keelel pidevalt kätt pulsil hoidma, et sõnastikus esitatud info oleks ajakohane,» rääkis Koppel.

Leksikograaf selgitas, et kui enne digiajastut oli korpuste kogumine keeruline ning nõudis väga palju inimtööd, aega ja raha, siis tänu tekstide kolimisele veebi saab keeleandmeid digirobotite abil aina suuremas mahus automaatselt kokku koguda.

«Sealjuures on esindatud kõik keeležanrid alates filosoofiast ja luulest, seadustest ja tehnikadokumentidest kuni mahlaka meedia ning vabas vormis veebisuhtluseni. On väga tähtis, et korpus sisaldaks esinduslikult palju ka hästi toimetatud tekste ja see on alati eraldi eesmärk, kuigi selle saavutamine on keeruline, sest näiteks läbirääkimised autoriõiguste üle nõuavad märkimisväärset pingutust,» ütles Koppel.

Eesti Keele Instituut on eesti keele hetkeseisu sedalaadi väljavõtteid ehk ühendkorpuste sarja loonud 2013. aastast alates. Kui esimese ühendkorpuse maht oli 700 tuhat dokumenti ja 563 miljonit sõna, siis vastne korpus hõlmab juba 15 miljonit dokumenti ja 3,8 miljardit sõna.

«Eriti rahul oleme sellega, et oleme suutnud eestikeelse ilukirjanduse mahtu korpuses järjepidevalt ning võib ka öelda et hüppeliselt kasvatada. Eelmises, 2021. aasta ühendkorpuses kasvas ilukirjanduse maht varasemaga võrreldes neli korda ja nüüd veel viis korda,» tõi Koppel välja.

EKI on seni kogunud uue ühendkorpuse iga kahe aasta tagant ja lähemas tulevikus on plaanis vähendada vahet ühele aastale, et keeleinfo oleks võimalikult ajakohane.

«Korpust ei kasutata ainult sõnaraamatute koostamiseks ja keele uurimiseks, vaid tänapäeval on seda vaja sisuliselt kõigiks eesti keele arendustegevusteks. Mida põhjalikum ja mitmekesisem on keelekorpus, seda ajakohasemat infot saab anda Sõnaveebis ja EKI teatmikus ning seda elulisemaid materjale saab koostada eesti keele õppeks,» selgitas Koppel.

Järgmine, 2025. aasta seisu kajastav ühendkorpus on Kristina Koppeli sõnul planeeritud hõlmama veel vähemalt poole miljardi sõna võrra suuremas mahus tekste.

«Tehnoloogia areneb pidevalt ning me kasutame vastavaid digimasinaid alati niiöelda täispööretel, et kaardistada elavat eesti keelt võimalikult täielikult. Mida mahukam ja mitmekesisem on korpus, seda andmepõhisem saab olla keeleanalüüs ja -soovitused ning seda rohkem on lõpuks igaühel Sõnaveebis esitatavast infost kasu,» ütles Eesti Keele Instituudi ekspert.

UUS REKORD ⟩ Eesti keel kaardistati ligi 4 miljardi sõna mahus (1)

Märksõnad

UUS REKORD Eesti keel kaardistati ligi 4 miljardi sõna mahus (1)