Сучасні підходи створення векторної репрезентації слова

Europe/Kiev
https://us02web.zoom.us/j/81901090493?pwd=bkVlOVBJWEJMcFdNMDNOc2liUkNRUT09 (ONLINE)

https://us02web.zoom.us/j/81901090493?pwd=bkVlOVBJWEJMcFdNMDNOc2liUkNRUT09

ONLINE

Ігор Cтепанов, Максим Ніколаєнко
Description

Обчислювальна лінгвістика - розділ математичного та комп'ютерного моделювання, що займається використанням математичних моделей для опису природних мов. На сьогодні найбільш розповсюджені підходи моделювання мови так і окремих її компонентів засновані на нейронних мережах. Більшість з них спирається на гіпотезу дистрибутивної семантики, згідно з якою значення слова визначається словами з якими досліджуване слово зустрічається. Подібні моделі дозволяють створити тематичний ембединг(векторну репрезентацію слова), розташовуючи в векторному просторі поряд ті слова які належать до спільної тематики. В нашому дослідженні ми виділили інший тип ембедингу, що базується на моделюванні синтаксичного оточення слова, тобто структури речень та взаємозв'язку даного слова з іншими. Наша модель заснована на використання Graph Convolutional Network та інформації про структуру речення на основі universal dependencies tree. Результати продемонстрували, що даний тип ембедингу створює більш функціональну репрезентацію, розташовуючи поряд слова з однакової категорії в ієрархії значень слів. Крім того, оскільки дана модель чудово утилізує інформацію про роль слова в реченні, даний тип ембедингу підходить для створення репрезентації речень. В даній доповіді ми зробимо акцент на поєднання різних типів ембедингу та аналіз кожного з них на відповідність до тих чи інших задач.

The agenda of this meeting is empty