Automatizuotas arbitraliųjų kolokacijų atpažinimas: būdvardžių ir daiktavardžių kolokacijos

Authors

  • Jolanta Kovalevskaitė Vytauto Didžiojo universitetas, Lietuva
  • Erika Rimkutė Vytauto Didžiojo universitetas, Lietuva
  • Jurgita Vaičenonienė Vytauto Didžiojo universitetas, Lietuva

DOI:

https://doi.org/10.5755/j01.sal.1.39.29193

Keywords:

arbitraliosios kolokacijos, DELFI.lt tekstynas, kompiuterinė lingvistika, vektorių metodas, ribotas leksinis junglumas, būdvardžiai, daiktavardžiai

Abstract

Straipsnyje analizuojamas vienas kolokacijų tipas – arbitraliosios kolokacijos. Jos laikomos nemotyvuotomis (tuo skiriasi nuo kito kolokacijų tipo – trivialiųjų, arba motyvuotųjų, kolokacijų, pvz.: graži diena, naujas tyrimas), joms būdingas ribotas leksinis junglumas: pagal panašią reikšmę teoriškai galima rinktis daugiau negu vieną žodį, bet linkstama vartoti būtent kurį nors vieną, pvz., platus akiratis, bet ne didelis akiratis, stipri sveikata, bet ne galinga sveikata.

Analizuotos iš „Lietuvių kalbos pastoviųjų žodžių junginių duomenų bazės“ atrinktos visos kolokacijos, sudarytos iš būdvardžių ir daiktavardžių (apie 5000 junginių). Nustatyta, kad iš jų apie 650 yra arbitraliosios kolokacijos. Atrenkant šias kolokacijas, taikytas sinonimų pakeičiamumo testas: jeigu kolokacijos būdvardiškasis dėmuo (būdvardis ir būdvardiškai vartojamas dalyvis) nėra pakeičiamas kitu artimos reikšmės sinonimu, tokia kolokacija laikoma arbitraliąja. Šis arbitraliųjų kolokacijų atrankos procesas buvo automatizuotas: automatiškai atrenkant artimus būdvardžių sinonimus junginiuose su daiktavardžiais, pritaikytas žodžių vektorių modelis. Automatiškai būdvardžiai ir dalyviai sugrupuoti į maždaug 800 vektorių eilučių. Straipsnyje aprašyta, kaip vyko duomenų analizė, vertinimas ir tikslinimas, kokios kolokacijos ir kiek jų pripažintos arbitraliosiomis naudojant šį metodą.

Downloads

Published

2021-11-27

Issue

Section

LINGUISTICS

Funding data