Алгоритмы подсказки слов в телефонной клавиатуре vs. Защита персональных данных
|
|
Вторник, 13 Февраля 2018 г. 11:01
+ в цитатник
Языковые модели
В виртуальных клавиатурах мобильных телефонов повсеместно используются алгоритмы подсказки слов по первым введённым буквам и автоматического исправления опечаток в них. Функция нужная, так как печатать на телефоне неудобно. Однако она часто раздражает пользователей своей «глупостью».
В основе алгоритма подсказок лежит языковая модель, предсказывающая вероятность следующего слова в тексте относительно предыдущих слов. Обычно модель строится по статистике
n-грамм — последовательностей из
n слов, которые часто соседствуют друг с другом. При таком подходе хорошо угадываются только короткие распространённые словосочетания.
Нейронные сети с задачей предсказания слов справляются лучше. Например, нейросетевой алгоритм в состоянии понять, что после слов «
Linus is the best» должно идти слово «
programmer», а после «
Shakespair is the best» — «
writer». У
n-граммной модели для этой задачи, скорее всего, не хватит статистики: даже если в обучающих текстах встречалась информация о Торвальдсе и Шекспире, скорее всего она не была сформулирована ровно этими же словами в том же порядке.
О рекуррентных нейронных сетях для языковых моделей пишут много. Например, с помощью
простого туториала по TensorFlow можно посмотреть, при каких условиях какие слова будут предсказываться.
Важный момент: предсказания модели сильно зависят от обучающей выборки. На скриншотах ниже показаны примеры подсказок для обычной, профессиональной и неформальной лексик.
Читать дальше ->
https://habrahabr.ru/post/347822/
Метки:
author osanwe
разработка мобильных приложений
машинное обучение
алгоритмы
data mining
обработка естественного языка
глубокое обучение
нейронные сети
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-