Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais
DOI:
https://doi.org/10.5755/j01.sal.1.14.43332Abstract
Norint sintezuoti balsą iš teksto, tekstą reikia sukirčiuoti. Problema ta, kad egzistuojantys lietuvių kalbos automatinio kirčiavimo algoritmai kai kuriems žodžiams (homografams) pateikia daugiau negu vieną kirčiavimo variantą. Šiame darbe homografams vienareikšminti pritaikytas iki šiol lietuvių kalbai nenaudotas metodas, pagrįstas leksemų ir morfologinių pažymų vartosenos dažniais, gautais iš vieno milijono žodžių tekstyno. Tekstynas iš pradžių buvo sukirčiuotas automatiškai, po to pakoreguotas rankiniu būdu. Homografai vienareikšminami atmetant rečiau vartojamas gramatines formas ir leksemas. Papildomų sunkumų sukelia tas faktas, kad vienas žodis gali atitikti daugiau negu dvi gramatines formas. Šios problemos sprendimui pasiūlyta skaičiuoti gramatinių formų porų dažnius. Darbe parodyta, kad morfologinių pažymų dažniai yra svarbesni už leksemų dažnius. Pasiūlyti metodai leido homografus vienareikšminti 85,01% tikslumu. Nors šie metodai ne- sinaudoja jokia informacija apie žodžio kontekstą, pasiekti rezultatai panašūs į kontekstą naudojančio algoritmo ID3 rezultatus.Downloads
Published
2009-05-15
Issue
Section
COMPUTATIONAL LINGUISTICS
License
Copyright (c) 2009 Studies about Languages

This work is licensed under a Creative Commons Attribution 4.0 International License.
The copyright for the articles in this journal is retained by the author(s) with the first publication right granted to the journal. The journal is licensed under the Creative Commons Attribution License 4.0 (CC BY 4.0).

