Klitikų paieškos lietuviškame tekste algoritmai
Abstract
Darbe nagrinėjamas lietuvių kalbos teksto automatinio kirčiavimo uždavinys. Kirčiuotas tekstas gali būti naudojamas kalbos mokymui, balso sintezėje iš teksto ir pan. Šnekamojoje kalboje kai kurie žodžiai (vadinamieji klitikai) netenka kirčio, t. y. prišlyja prie gretimo žodžio. Kalbotyros darbuose galima rasti tik bendras pastabas apie žodžių akcentinio šlijimo tendencijas, o klitikų paieškos lietuviškame tekste algoritmai, reikalingi kalbinėms technologijoms, – dar visai nenagrinėta tema. Darbe apžvelgiami šlijimą lemiantys faktoriai ir siūlomi metodai, kaip tekste rasti žodžius, kurie gali būti bekirčiai. Metodai remiasi šiais principais: 1) samplaikinių formų atpažinimu, 2) statistiniu žodžio kirčiavimo/ nekirčiavimo dažniu, 3) kai kuriomis gramatikos taisyklėmis bei 4) gretimų žodžių kirčių pasiskirstymu (ritmika). Antrasis metodas yra itin paprastas ir duoda neblogų rezultatų, tačiau darbe parodyta, kad kai kurioms žodžių klasėms geresni rezultatai gaunami taikant trečiąjį ir ketvirtąjį metodus. Kiekvienam metodui apibrėžtos žodžių klasės, kurioms jis geriausiai tinka. Paaiškinta, kaip visus metodus sujungti į vieną algoritmą. Kuriant algoritmą buvo stengiamasi minimizuoti pirmosios ir antrosios rūšies klaidų sumą. Pritaikius šį algoritmą testavimo duomenims, klaidų ir visų žodžių santykis buvo 4,1%, o klaidų ir nekirčiuotų žodžių santykis – 18,8%.Downloads
Published
2007-06-15
Issue
Section
COMPUTATIONAL LINGUISTICS
License

This work is licensed under a Creative Commons Attribution 4.0 International License.
The copyright for the articles in this journal is retained by the author(s) with the first publication right granted to the journal. The journal is licensed under the Creative Commons Attribution License 4.0 (CC BY 4.0).

