Naujų lietuvių kalbos anotuotų tekstynų rengimas: sandaros aspektai
DOI:
https://doi.org/10.5755/j01.sal.1.46.40544Keywords:
lietuvių kalba,, automatinė morfologinė ir sintaksinė analizė, Universal Dependencies standartas, anotuoti tekstynai, tekstyno vienetasAbstract
Iki šiol parengti lietuvių kalbos gramatiškai anotuotų tekstynų ištekliai (morfologiškai anotuotas tekstynas MATAS, sintaksiškai anotuotas tekstynas ALKSNIS) yra nepakankamo dydžio atsižvelgiant į augančius lietuvių kalbos kompiuterizavimo poreikius. Todėl ES NextGenerationEU projekte „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai)“ yra rengiami du nauji tekstynai pagal tarptautinį Universal Dependencies (UD) standartą. Nauji tekstynai reprezentuos rašytinės lietuvių kalbos atmainą, todėl numatyta, kad juose, kaip ir „Dabartinės lietuvių kalbos tekstyne“ ar kituose anotuotuose tekstynuose, bus keturios dalys su tekstais iš grožinės, negrožinės (mokslinės), administracinės literatūros ir straipsniai iš internetinės periodikos.
Pristačius anotuotus tekstynus MATĄ ir ALKSNĮ, tarptautinio projekto UD kitų kalbų tekstynus, šiame straipsnyje aptariami naujų rengiamų anotuotų tekstynų sandaros aspektai: pirma, aprašoma planuojama tekstynų sandara ir proporcijos, antra, diskutuojamas pirminiam tekstyno automatinės analizės etapui svarbus klausimas – tekstyno skaidymas tekstyno vienetais (TV) (angl. tokenization) ir TV (angl. token) samprata. Nors tiek lietuvių, tiek kai kurių kitų kalbų tekstynų dydis gali būti nurodomas žodžiais, vis dėlto dažniausiai tekstynų dydis matuojamas TV, nes tekstynams aktualūs vienetai yra ne tik žodžiai, bet ir kiti elementai (skyrybos ženklai, skaitmenys, trumpiniai, simboliai). Kadangi TV samprata gali skirtis priklausomai nuo kalbos, tyrėjų sprendimo, svarbu, kad konkrečios kalbos automatinės analizės įrankyne būtų aprašyta, kokios TV skaidymo strategijos buvo laikomasi. Šiame straipsnyje paaiškiname, ką laikome TV, kaip traktuojami nevienareikšmiai skaidymo TV atvejai.
Downloads
Published
Issue
Section
License
The copyright for the articles in this journal is retained by the author(s) with the first publication right granted to the journal. The journal is licensed under the Creative Commons Attribution License 4.0 (CC BY 4.0).