Automatizuotas lietuvių kalbos morfologinio daugiareikšmiškumo ribojimas
DOI:
https://doi.org/10.5755/j01.sal.1.9.43272Abstract
Straipsnyje pristatomi galimi morfologinio daugiareikšmiškumo (toliau žymima MD) ribojimo būdai. Tai svarbu padaryti, kad būtų galima pradėti automatinę sintaksinę analizę, kurti ir lietuvių kalbai pritaikyti mašininio vertimo sistemas. Daugumai kalbų yra sukurti morfologiniai analizatoriai, kurie ne tik pateikia lemas ir morfologines pažymas, bet kartu ir pasirenka reikiamą formą iš kelių galimų. Lietuvių kalbos morfologinis analizatorius Lemuoklis gali pateikti tik lemas ir morfologines pažymas, kurios dažnai yra daugiareikšmės. Taigi reikia ieškoti būdų MD-ui mažinti. Vieni iš būdų MD-ui riboti yra automatiniai – tai dažniausiai statistiniai, loginiai metodai, kiti MD-o ribojimo būdai yra automatizuoti. Gauti gana geri automatinio MD-o ribojimo rezultatai – pavyko išspręsti apie 90% daugiareikšmių atvejų. Kitas vienareikšminimo būdas – automatizuotas MD-o ribojimas. Tai paprastai lingvistų sukurtų taisyklių pritaikymas kompiuterinėse programose, ribojančiose MD-ą. Automatizuotą MD-o ribojimą sudaro morfologiškai daugiareikšmių kaitomų ir nekaitomų kalbos dalių vienareikšminimas. Riboti nekaitomų kalbos dalių MD-ą yra labai sudėtinga, nes problemiška skirti nekaitomas kalbos dalis. Norint sumažinti morfologiškai daugiareikšmių kalbos dalių skaičių, reikia taikyti įvairialypę analizę: reikalingos įvairių lygių ir įvairaus pobūdžio taisyklės. Labiausiai riboti nekaitomų kalbos dalių MD-ą padeda sakinio skyryba; statistiniai duomenys, gauti iš Dabartinės lietuvių kalbos tekstyno; sintaksinė sakinio analizė; semantika, išsamesnė viso teksto ar kelių gretimų sakinių analizė; pakeitimas kitais aiškiau vartojamais žodžiais; gretimų žodžių morfologinės pažymos; kaip vienas vienetas pažymėtos morfologinės samplaikos. Kaitomų kalbos dalių MD-o ribojimas daugiausia pagrįstas sintaksine analize. Remiantis priklausomybių gramatikos principais buvo parašytos sintaksinės taisyklės ir pritaikytos kuriamame sintaksiniame analizatoriuje. Sintaksinės taisyklės skirstytos į dvi dalis: sakinio dalis ir sakinio dalių junginius apimančias taisykles. Prie taisyklių nurodyti būtini parametrai: priklausomybė, žodžių tvarka ir įsiterpimas. Remtasi morfologiniais ir kai kuriais semantiniais požymiais. Sintaksinės taisyklės naudojamos ne tik MD-ui riboti, bet bus pritaikytos automatinės sintaksinės analizės programoje.Downloads
Published
2006-12-15
Issue
Section
COMPUTATIONAL LINGUISTICS
License
Copyright (c) 2006 Studies about Languages

This work is licensed under a Creative Commons Attribution 4.0 International License.
The copyright for the articles in this journal is retained by the author(s) with the first publication right granted to the journal. The journal is licensed under the Creative Commons Attribution License 4.0 (CC BY 4.0).

