Naujų lietuvių kalbos anotuotų tekstynų rengimas: sandaros aspektai

Authors

  • Jolanta Kovalevskaitė Vytautas Magnus University
  • Erika Rimkutė Vytautas Magnus University
  • Jurgita Vaičenonienė Vytautas Magnus University

DOI:

https://doi.org/10.5755/j01.sal.1.46.40544

Keywords:

lietuvių kalba,, automatinė morfologinė ir sintaksinė analizė, Universal Dependencies standartas, anotuoti tekstynai, tekstyno vienetas

Abstract

Iki šiol parengti lietuvių kalbos gramatiškai anotuotų tekstynų ištekliai (morfologiškai anotuotas tekstynas MATAS, sintaksiškai anotuotas tekstynas ALKSNIS) yra nepakankamo dydžio atsižvelgiant į augančius lietuvių kalbos kompiuterizavimo poreikius. Todėl ES NextGenerationEU projekte „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai)“ yra rengiami du nauji tekstynai pagal tarptautinį Universal Dependencies (UD) standartą. Nauji tekstynai reprezentuos rašytinės lietuvių kalbos atmainą, todėl numatyta, kad juose, kaip ir „Dabartinės lietuvių kalbos tekstyne“ ar kituose anotuotuose tekstynuose, bus keturios dalys su tekstais iš grožinės, negrožinės (mokslinės), administracinės literatūros ir straipsniai iš internetinės periodikos.

Pristačius anotuotus tekstynus MATĄ ir ALKSNĮ, tarptautinio projekto UD kitų kalbų tekstynus, šiame straipsnyje aptariami naujų rengiamų anotuotų tekstynų sandaros aspektai: pirma, aprašoma planuojama tekstynų sandara ir proporcijos, antra, diskutuojamas pirminiam tekstyno automatinės analizės etapui svarbus klausimas – tekstyno skaidymas tekstyno vienetais (TV) (angl. tokenization) ir TV (angl. token) samprata. Nors tiek lietuvių, tiek kai kurių kitų kalbų tekstynų dydis gali būti nurodomas žodžiais, vis dėlto dažniausiai tekstynų dydis matuojamas TV, nes tekstynams aktualūs vienetai yra ne tik žodžiai, bet ir kiti elementai (skyrybos ženklai, skaitmenys, trumpiniai, simboliai). Kadangi TV samprata gali skirtis priklausomai nuo kalbos, tyrėjų sprendimo, svarbu, kad konkrečios kalbos automatinės analizės įrankyne būtų aprašyta, kokios TV skaidymo strategijos buvo laikomasi. Šiame straipsnyje paaiškiname, ką laikome TV, kaip traktuojami nevienareikšmiai skaidymo TV atvejai.

Downloads

Published

2025-07-23

Issue

Section

Articles