Lietuvių kalbos leksemų morfologinis anotavimas: ypatumai ir sunkumai

Authors

  • Erika Rimkutė Vytauto Didţiojo universitetas
  • Vidas Valskys Vilniaus pedagoginis universitetas
  • Jolanta Vaskelienė Šiaulių universitetas

DOI:

https://doi.org/10.5755/j01.sal.1.15.43348

Abstract

Straipsnyje rašoma apie lietuvių kalbos morfologinio anotatoriaus veikimo principus, automatinės morfologinės analizės specifiką. Didžiausias dėmesys skiriamas vienam iš 2007–2008 m. Valstybinio mokslo ir studijų fondo remto projekto „Internetiniai ištekliai: anotuotas lietuvių kalbos tekstynas ir anotavimo priemonės (ALKA2)“ įgyvendintų darbų – lietuvių kalbos morfologinio anotatoriaus leksinės duomenų bazės pildymui. Išsamiai aprašoma į morfologinio anotatoriaus leksikos duomenų bazę įtrauktinų žodžių atranka, morfologinio anotavimo etapai, sunkumai, su kuriais susidurta atliekant šį darbą. Morfologinio anotatoriaus leksikos bazė padidinta 24 000 žodžių (daugiausia tikrinių ir bendrinių daiktavardžių), todėl tikimasi, kad gana žymiai pagerės morfologinio anotatoriaus kokybė ir bus išvengta daugybės neatpažintų žodžių. Šiame straipsnyje norėta parodyti anotavimo procesą; atskleisti, kad kyla sunkumų ne tik vertinant, ar nauji žodžiai teiktini, ar neteiktini, reikalingi lietuvių kalbai ar galima apsieiti be jų; sudėtinga ne tik nustatyti naujų žodžių reikšmes, bet taip pat ir analizuoti morfologiškai: nustatyti linksniavimo paradigmą, giminę, kaitymą skaičiais, darybinius vedinius ir pan.

Downloads

Published

2009-11-15

Issue

Section

COMPUTATIONAL LINGUISTICS