Morfologinis dabartinės lietuvikalbos tekstyno anotavimas
DOI:
https://doi.org/10.5755/j01.sal.1.11.43297Abstract
Didėjant informacinių technologijų plėtrai, spartėjant kalbos kompiuterizavimo darbams, iškilo būtinybė kurti didelius anotuotus tekstynus tam, kad būtų galima pasinaudoti jų duomenimis pereinant į aukštesnius kalbos kompiuterizavimo lygmenis (pvz., automatinę sintaksinę ir semantinę analizę, mašininį vertimą). Straipsnyje pristatomi didelio lietuvių kalbos tekstyno automatinio morfologinio vienareikšminimo tyrimai ir anotavimo rezultatai. Remiantis statistiniais metodais, pavyko sukurti lietuvių kalbos morfologinio anotavimo priemonę, kurios vienareikšminimo tikslumas siekia 94%, ir taip išspręsti didelį lietuvių kalbos morfologinį daugiareikšmiškumą. Pateikiami statistiniai duomenys apie kalbos dalių pasiskirstymą anotuotame tekstyne, dažniausias žodžių formas ir dažniausias lemas (antraštines formas), taip pat išvardytos dažniausios kaitomos kalbos dalys, išrinktos iš morfologiškai anotuoto Dabartinės lietuvių kalbos tekstyno.Downloads
Published
2007-11-15
Issue
Section
COMPUTATIONAL LINGUISTICS
License
Copyright (c) 2007 Studies about Languages

This work is licensed under a Creative Commons Attribution 4.0 International License.
The copyright for the articles in this journal is retained by the author(s) with the first publication right granted to the journal. The journal is licensed under the Creative Commons Attribution License 4.0 (CC BY 4.0).

