Klitikų paieškos lietuviškame tekste algoritmai

Tomas Anbinderis; Pijus Kasparaitis

doi:10.5755/j01.sal.1.10.43286

Authors

Tomas Anbinderis Vilniaus universitetas Matematikos ir informatikos fakultetas Kompiuterijos katedra
Pijus Kasparaitis Vilniaus universitetas Matematikos ir informatikos fakultetas Kompiuterijos katedra

DOI:

https://doi.org/10.5755/j01.sal.1.10.43286

Abstract

Darbe nagrinėjamas lietuvių kalbos teksto automatinio kirčiavimo uždavinys. Kirčiuotas tekstas gali būti naudojamas kalbos mokymui, balso sintezėje iš teksto ir pan. Šnekamojoje kalboje kai kurie žodžiai (vadinamieji klitikai) netenka kirčio, t. y. prišlyja prie gretimo žodžio. Kalbotyros darbuose galima rasti tik bendras pastabas apie žodžių akcentinio šlijimo tendencijas, o klitikų paieškos lietuviškame tekste algoritmai, reikalingi kalbinėms technologijoms, – dar visai nenagrinėta tema. Darbe apžvelgiami šlijimą lemiantys faktoriai ir siūlomi metodai, kaip tekste rasti žodžius, kurie gali būti bekirčiai. Metodai remiasi šiais principais: 1) samplaikinių formų atpažinimu, 2) statistiniu žodžio kirčiavimo/ nekirčiavimo dažniu, 3) kai kuriomis gramatikos taisyklėmis bei 4) gretimų žodžių kirčių pasiskirstymu (ritmika). Antrasis metodas yra itin paprastas ir duoda neblogų rezultatų, tačiau darbe parodyta, kad kai kurioms žodžių klasėms geresni rezultatai gaunami taikant trečiąjį ir ketvirtąjį metodus. Kiekvienam metodui apibrėžtos žodžių klasės, kurioms jis geriausiai tinka. Paaiškinta, kaip visus metodus sujungti į vieną algoritmą. Kuriant algoritmą buvo stengiamasi minimizuoti pirmosios ir antrosios rūšies klaidų sumą. Pritaikius šį algoritmą testavimo duomenims, klaidų ir visų žodžių santykis buvo 4,1%, o klaidų ir nekirčiuotų žodžių santykis – 18,8%.

Klitikų paieškos lietuviškame tekste algoritmai

Authors

DOI:

Abstract

Downloads

Published

Issue

Section

License

Information

logo2

crossref2