Трудности перевода: как найти плагиат с английского языка в русских научных статьях
|
|
Вторник, 24 Апреля 2018 г. 11:07
+ в цитатник
В нашей первой статье в корпоративном блоге компании
Антиплагиат на Хабре я решил рассказать о том, как работает алгоритм поиска переводных заимствований. Несколько лет назад возникла идея сделать инструмент для обнаружения в русскоязычных текстах переведенного и заимствованного текста из оригинала на английском языке. При этом важно, чтобы этот инструмент мог работать с базой источников в миллиарды текстов и выдерживать обычную пиковую нагрузку Антиплагиата (200-300 текстов в минуту).
"
В течение 12 лет своей работы сервис Антиплагиат обнаруживал заимствования в рамках одного языка. То есть, если пользователь загружал на проверку текст на русском, то мы искали в русскоязычных источниках, если на английском, то в англоязычных и т. д. В этой статье я расскажу об алгоритме, разработанном нами для обнаружения переводного плагиата, и о том, какие случаи переводного плагиата удалось найти, опробовав это решение на базе русскоязычных научных статей.
Читать дальше -> https://habrahabr.ru/post/354142/
Метки:
author yury_chekhovich
семантика
поисковые технологии
машинное обучение
математика
data mining
шинглы
алгоритмы поиска
хэш-функция
антиплагиат
машинный перевод
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-