Поиск текстов, не соответствующих тематике и нахождение похожих статей
|
|
Четверг, 05 Марта 2015 г. 22:49
+ в цитатник
У меня есть сайт со статьями схожей тематики. На сайте было две проблемы: спамерские сообщения и дубликаты статей, причём дубликаты часто являлись не точными копиями.
Данный пост повествует о том, как я решил эти проблемы.
Дано:
- общее количество статей 140 000;
- количество спама: примерно 5%;
- количество не чётких дубликатов: примерно 75%;
Задача: избавиться от спама и дубликатов, а так же не допустить их дальнейшего появления.
Читать дальше → http://habrahabr.ru/post/252265/
Метки:
программирование
Машинное обучение
Алгоритмы
JAVA
детектор спама
детектор дубликатов
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-