Johannes Semperi ja Johannes Vares-Barbaruse kirjadest saab masinanalüüsitav tekstikorpus

Copy
Johannes Semper.
Johannes Semper. Foto: EKM EKLA, A-84: 475

Juulis ilmus Eesti Kirjandusmuuseumi teaduskirjastuses mahukas kaheköiteline väljaanne «Euroopa, esteedid ja elulähedus. Semperi ja Barbaruse kirjavahetus 1911–1940». Seesama 675 kirjast ehk umbes 1,8 miljonist tähemärgist koosnev kirjavahetus on pilootprojektina kirjandusteadlaste ja arvutilingivistide koostöös ka masinloetava ja märgendatud tektsikorpusena huvilistele KORPi keskkonnas digitaalselt kättesaadav.

Eesti Kirjandusmuuseumi Eesti Kultuuriloolise Arhiivi vanemteaduri, Semperi ja Barbaruse kirjavahetuse peatoimetaja Marin Laagi sõnul on erakirjavahetusel põhinev tekstikorpus esimene omataoline ettevõtmine ning võimaldab tulevikus välja töötada uuenduslikke meetodeid ja uurimissuundi kultuurilooliste andmete analüüsiks.

Eesti Keeleressursside Keskuse juhataja Kadri Videri sõnul on tegemist nii kirjanduslooliselt kui tekstilingvistiliselt huvipakkuva digitaalandmestikuga. «Kirjandusteadlastele avab kaasaegsete digitaalsete meetodite kasutuselevõtt huvitavaid uurimisperspektiive ja vanade uurimistulemuste ülekontrollimise võimalusi arvutuslike meetoditega. Korpuslingvistidele on aga väljakutseks ajaloolise ja isikupärase keelekasutusega, erinevatest keeltest kubiseva ja rohkete koha-, aja- ja isikuviidetega tekstimaterjali ettevalmistamine rikkalikult märgendatud korpuseks,» selgitas Vider.

«Euroopa, esteedid ja elulähedus». Koostanud Paul Rummo.
«Euroopa, esteedid ja elulähedus». Koostanud Paul Rummo. Foto: EKM Teaduskirjastus

Marin Laagi sõnul tuli KORPiga ühitamiseks kirjavahetuse käsikirjalised originaalid teisendada käsitsi masinloetavaks andmestikuks. «Sellele lisasime kirjade meta-andmed, teostasime automatiseeritud vormianalüüsi ja ühestamise Vabamorfi töövahenditega Giellatekno sõnaliikide ja grammatiliste kategooriate süsteemis,» ütles Laak.

Kadri Videri sõnul on KORP korpuspäringusüsteem, mis võimaldab leida konkordantse ehk tekstisiseseid kokkusobivusi või seoseid ning teha eri parameetritel põhinevat statistilist analüüsi eri viisil märgendatud korpustest. «Selleks kasutatakse teksti meta-andmeid (näiteks autor, kuupäev ja aasta, tekstitüüp) ning keelelist märgendust (näiteks lausestamine ja sõnastamine, punktuatsioon, morfoloogia, süntaks ja semantika),» selgitas Vider.

Semperi ja Vares-Barbaruse kirjavahetus koosneb 310 980 sõnest ja 249 970 lemmast. «Sõne on tekstisõna ja lemma on sõnatüvi, nende eristamine korpuses võimaldab hinnata nii korpuse tekstilist mahtu kui ka sõnavara mitmekesisust selles,» selgitas Vider.

Tehniliselt on KORP veebiteenus, mis kasutab avatud lähtekoodiga korpuste töötlemise vahendit MS Open Corpus Workbench ja see on loodud Göteborgi Ülikoolis Rootsi Keelepangas (Språkbanken). Videri sõnul arendatakse KORPi lisaks Rootsile veel mitmes riigis: Soomes Kielipankki, Norras Giellatekno taristu saami keelte jaoks, Taanis KORP, Islandil Risamálheildin.

«Eesti KORPi arendab Eesti Keeleressursside Keskus ja selles kättesaadavad korpused koosnevad praegu rohkem kui 850 miljonist tekstiühikust. Lisaks keeleteaduslikel eesmärkidel lisatud korpustele, mis on Eesti KORPis praegu valdavas enamuses, oleme alustanud ka kirjandusteadlaste uurimishuvidele vastavate projektidega.»

Johannes Semper, Johannes Vares-Barbarus ja August Jakobson arvatavalt aastal 1939.
Johannes Semper, Johannes Vares-Barbarus ja August Jakobson arvatavalt aastal 1939. Foto: EKM EKLA, B-30: 151.

Videri sõnul sobib KORPi keskkond hästi nii-öelda tundike materjalidega tööks, kuna KORPi päringuvastuses tsiteeritud tekstilõigud on lause või lõigu pikkused ja nii ei rikuta autoriõigust ning ei ületata lubatud tsitaadi mahtu. «Lisaks sellele on KORP avatud lähtekoodiga, paindlik ja lihtsalt õpitav süsteem, mis võimaldab graafilist ülevaadet alamkorpuste päringutulemustest, hõlpsat liikumist konkordantslausete ja laiema konteksti vahel ning ka statistika tulemuste ja näitelausete vahel, võimalusi grupeerida statistikat kõigi korpuses märgendatud kategooriate alusel, suhtelise esinemissageduse automaatarvutusi (miljoni korpusesõne kohta). Näitelauseid ja statistikat saab eksportida.»

Laagi sõnul võimaldavad päringutulemustes väljatoodud meta-andmed väga täpselt määrata näitelause asukohta kirjavahetuses, vajadusel on võimalik tekitada link mujal hoitavatele terviktekstidele, et pöörduda tagasi algallikate juurde. Päringusüsteemi KORP kasutamine võimaldas näiteks reljeefselt välja tuua mõlema kirjaniku tegevuse rahvusvahelises kirjanike võrgustikus PEN International.

Tekstikorpus valmis haridus- ja teadusministeeriumi uurimisprojekti «Kirjanduse formaalsed ja informaalsed võrgustikud» (IUT22-2) raames. Kirjandusmuuseumi poolt aitas tööd läbi viia keeletehnoloog Kaarel Veskis, keeleressursside keskuse poolt konsulteerisid Kadri Vider, Neeme Kahusk ja Olga Gerassimenko.

  • Tutvu Semperi ja Barbaruse kirjavahetuse tekstikorpusega KORPi keskkonnas.
  • Loe ka Marin Laagi, Kadri Videri, Neeme Kahuski, Kaarel Veskise ja Olga Gerassimenko artiklit «Digidokumendist tekstikorpuseks: Semperi ja Barbaruse kirjavahetuse töötlemine masinanalüüsitavaks päringusüsteemis KORP» Soome-ugri keeleteaduse ajakirjast (2/2019).
  • Semperi ja Barbaruse kirjavahetuse tekstikorpuse püsiviide.
  • Rohkem väljaande «Euroopa, esteedid ja elulähedus. Semperi ja Barbaruse kirjavahetus 1911–1940» (EKM Teaduskirjastus, 2020) kohta loe muuseumi uudistest.
Tagasi üles