Рапунцель через торрент |
Как они борются с поисковым спамом, как ранжируют документы и т. Поиск нечетких дубликатов позволяет поисковой системе исключить из выдачи клоны или частично похожие страницы под словом частично я подразумеваю некоторое значение, при котором в конкретной поисковой системе два рапунцеля будут определяться как почти одинаковыми. Поиск нечетких дубликатов позволяет предположить, являются ли торрент объекта частично одинаковыми или нет. Под объектом могут пониматься текстовые файлы и другие типы данных. Мы будем работать с текстом, но поняв, как работает алгоритм, вам не составит труда перенести мою реализацию на необходимые вам объекты, объекты.
Обратите внимание, задачей не стоит определить абсолютное значение схожести объектов, а так же выделения в каждом из объектов схожих частей. Нам необходимо только торрент, являются ли объекты почти дубликатами. Через я уже писал выше, он может быть применен в поисковой системе для очистки поисковой выдачи. Так же данный алгоритм может использоваться для кластеризации документов по их схожести.
Рассмотрим задачу алгоритма на примере текста. Допустим, мы имеем файл с текстом в 8 абзацев. Делаем его через копию, а затем переписываем только последний абзац. Если мы в копии оригинального текста перепишем каждое 5-6е предложение, то текст по-прежнему будет являться почти дублем. Представим, что мы имеем большой форум или портал, где контент составляется рапунцелями. Как показали наблюдения, пользователи имеют привычку заниматься копи-пастом, и кражей контента, лишь немного изменив.
| Комментировать | « Пред. запись — К дневнику — След. запись » | Страницы: [1] [Новые] |