Klitikų paieškos lietuviškame tekste algoritmai

Authors

  • Tomas Anbinderis Vilniaus universitetas Matematikos ir informatikos fakultetas Kompiuterijos katedra
  • Pijus Kasparaitis Vilniaus universitetas Matematikos ir informatikos fakultetas Kompiuterijos katedra

Abstract

Darbe nagrinėjamas lietuvių kalbos teksto automatinio kirčiavimo uždavinys. Kirčiuotas tekstas gali būti naudojamas kalbos mokymui, balso sintezėje iš teksto ir pan. Šnekamojoje kalboje kai kurie žodžiai (vadinamieji klitikai) netenka kirčio, t. y. prišlyja prie gretimo žodžio. Kalbotyros darbuose galima rasti tik bendras pastabas apie žodžių akcentinio šlijimo tendencijas, o klitikų paieškos lietuviškame tekste algoritmai, reikalingi kalbinėms technologijoms, – dar visai nenagrinėta tema. Darbe apžvelgiami šlijimą lemiantys faktoriai ir siūlomi metodai, kaip tekste rasti žodžius, kurie gali būti bekirčiai. Metodai remiasi šiais principais: 1) samplaikinių formų atpažinimu, 2) statistiniu žodžio kirčiavimo/ nekirčiavimo dažniu, 3) kai kuriomis gramatikos taisyklėmis bei 4) gretimų žodžių kirčių pasiskirstymu (ritmika). Antrasis metodas yra itin paprastas ir duoda neblogų rezultatų, tačiau darbe parodyta, kad kai kurioms žodžių klasėms geresni rezultatai gaunami taikant trečiąjį ir ketvirtąjį metodus. Kiekvienam metodui apibrėžtos žodžių klasės, kurioms jis geriausiai tinka. Paaiškinta, kaip visus metodus sujungti į vieną algoritmą. Kuriant algoritmą buvo stengiamasi minimizuoti pirmosios ir antrosios rūšies klaidų sumą. Pritaikius šį algoritmą testavimo duomenims, klaidų ir visų žodžių santykis buvo 4,1%, o klaidų ir nekirčiuotų žodžių santykis – 18,8%.

Downloads

Published

2007-06-15

Issue

Section

COMPUTATIONAL LINGUISTICS