Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais

Authors

  • Tomas Anbinderis Vilniaus universitetas
  • Pijus Kasparaitis Vilniaus universitetas

DOI:

https://doi.org/10.5755/j01.sal.1.14.43332

Abstract

Norint sintezuoti balsą iš teksto, tekstą reikia sukirčiuoti. Problema ta, kad egzistuojantys lietuvių kalbos automatinio kirčiavimo algoritmai kai kuriems žodžiams (homografams) pateikia daugiau negu vieną kirčiavimo variantą. Šiame darbe homografams vienareikšminti pritaikytas iki šiol lietuvių kalbai nenaudotas metodas, pagrįstas leksemų ir morfologinių pažymų vartosenos dažniais, gautais iš vieno milijono žodžių tekstyno. Tekstynas iš pradžių buvo sukirčiuotas automatiškai, po to pakoreguotas rankiniu būdu. Homografai vienareikšminami atmetant rečiau vartojamas gramatines formas ir leksemas. Papildomų sunkumų sukelia tas faktas, kad vienas žodis gali atitikti daugiau negu dvi gramatines formas. Šios problemos sprendimui pasiūlyta skaičiuoti gramatinių formų porų dažnius. Darbe parodyta, kad morfologinių pažymų dažniai yra svarbesni už leksemų dažnius. Pasiūlyti metodai leido homografus vienareikšminti 85,01% tikslumu. Nors šie metodai ne- sinaudoja jokia informacija apie žodžio kontekstą, pasiekti rezultatai panašūs į kontekstą naudojančio algoritmo ID3 rezultatus.

Downloads

Published

2009-05-15

Issue

Section

COMPUTATIONAL LINGUISTICS