Датасет: ассоциации к словам и выражениям русского языка
|
|
Вторник, 31 Октября 2017 г. 21:33
+ в цитатник
В последнее время для оценки семантического сходства широкое распространение получили методы дистрибутивной семантики. Эти подходы хорошо показали себя в ряде практических задач, но они имеют ряд жёстких ограничений. Так, например, языковые контексты оказываются сильно схожими для эмоционально полярных слов. Следовательно, антонимы с точки зрения word2vec часто оказываются близкими словами. Также word2vec принципиально симметричен, ведь за основу берётся совстречаемость слов в тексте, а популярная мера сходства между векторами — косинусное расстояние — также не зависит от порядка операндов.
Мы хотим поделиться с сообществом собранной нами базой ассоциаций к словам и выражениям русского языка. Этот набор данных лишён недостатков методов дистрибутивной семантики. Ассоциации хорошо сохраняют эмоциональную полярность и они по своей природе асимметричны. Подробнее расскажем в статье.
Читать дальше ->
https://habrahabr.ru/post/341406/
Метки:
author kdenisk
открытые данные
nlp
word2vec
ассоциации
дистрибутивная семантика
русский язык
датасеты
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-