Morfologinis dabartinės lietuvikalbos tekstyno anotavimas

Authors

  • Erika Rimkutė
  • Vidas Daudaravičius

DOI:

https://doi.org/10.5755/j01.sal.1.11.43297

Abstract

Didėjant informacinių technologijų plėtrai, spartėjant kalbos kompiuterizavimo darbams, iškilo būtinybė kurti didelius anotuotus tekstynus tam, kad būtų galima pasinaudoti jų duomenimis pereinant į aukštesnius kalbos kompiuterizavimo lygmenis (pvz., automatinę sintaksinę ir semantinę analizę, mašininį vertimą). Straipsnyje pristatomi didelio lietuvių kalbos tekstyno automatinio morfologinio vienareikšminimo tyrimai ir anotavimo rezultatai. Remiantis statistiniais metodais, pavyko sukurti lietuvių kalbos morfologinio anotavimo priemonę, kurios vienareikšminimo tikslumas siekia 94%, ir taip išspręsti didelį lietuvių kalbos morfologinį daugiareikšmiškumą. Pateikiami statistiniai duomenys apie kalbos dalių pasiskirstymą anotuotame tekstyne, dažniausias žodžių formas ir dažniausias lemas (antraštines formas), taip pat išvardytos dažniausios kaitomos kalbos dalys, išrinktos iš morfologiškai anotuoto Dabartinės lietuvių kalbos tekstyno.

Downloads

Published

2007-11-15

Issue

Section

COMPUTATIONAL LINGUISTICS