Так устроен поиск заимствований в Антиплагиате
|
|
Среда, 14 Ноября 2018 г. 09:44
+ в цитатник
Мы уже рассказывали вам об интересных
статистиках текстов, делали
обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами
поиска переводных заимствований и
парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:
- как быстро найти абзац текста среди сотен миллионов статей;
- во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
- как формируется отчет, который почти никто не смотрит, а стоило бы;
- как проиндексировать не все, но достаточно.
Антиплагиат в естественной среде, полетели https://habr.com/post/429634/?utm_source=habrahabr&utm_medium=rss&utm_campaign=429634
Метки:
Блог компании «Антиплагиат»
Алгоритмы
Математика
Поисковые технологии
Семантика
алгоритмы поиска
антиплагиат
обработка текстов
шинглы
анализ данных
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-