-Музыка

 -Подписка по e-mail

 

 -Поиск по дневнику

Поиск сообщений в Flashr

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 26.02.2007
Записей:
Комментариев:
Написано: 6574


Solution for News

Вторник, 18 Августа 2009 г. 16:04 + в цитатник
Всем известна проблема дублирующийся новостей, когда несколько источников пишут об одном и тоже. Решения этой проблемы, как мы знаем не существует, ибо если 2 портала публикуют новость с разницей в несколько минут, то тут не определить кто был первым и кому должно принадлежать авторство, также нужно учесть временную задержку попадания в RSS-ридер. Разные люди применяют сложные математические алгоритмы, типа метод шилингов и растояние между ключевыми словами, чтобы вычислить похожие новости, но практического применения это пока не находит. Я все также изо дня в день встречаю похожие новости в разных источниках и не знаю, кто у кого новость скопировал.
Однако, решение есть, если правильно себе представить то, как мы хотим видеть решение. Во-первых, если 2 портала публикуют схожую новость я всеравно хочу знать, что тот и тот источник это опубликовали. Решение проблемы дублирования не должно уменьшать мощность информации.
Во-вторых, все мы знаем, что сегодняшняя новость - завтра уже не новость. Только сегодня все пишут об этом, а завтра... а завтра о другом. Новость живет не более дня. Таким образом, я отстраняюсь от временной континуальности, считая, что ежедневно публикуется счетное число новостей.
И последняя аксиома, которую нужно принять во внимание, что один источник информации - это набор из нескольких порталов, нескольких RSS.
Отсюда следует, что для решения проблемы дублирующих новостей необходимо, чтобы все новости подписывались некоторой хэш-функцией, которая бы гарантированно генерировала бы уникальный идентификатор среди новостей ТОЛЬКО ТЕКУЩЕГО дня на базе семантических треугольников, которые есть в тексте новости. Как вариант, можно просто использовать SHA1 от тэгов, которые проставляются для новости. Я бы назвал такой идентификатор как новостной DailyID - может кто уже знает аналоги. Естественно, GUID, который есть в RSS нас не устраивает, так как он локальный для RSS, да и то мы знаем дибильные примеры халатности в реализации RSS выдачи, например, на хабре, где топик, перемещенный из раздела в раздел попадает в итоге в ленту 2 раза, так как guid меняется.
Если не поленюсь, то скоро я добавлю подписыванеи всех словоих постов, которые копируются в несколько мест подобной функцией. Но для масштабного изменения, данным вопросом должен озаботиться кто-то, кто вплотную собирает весь трафик российских СМИ, например яндекс.новости.
Метки:  

QoSyS   обратиться по имени Вторник, 18 Августа 2009 г. 17:38 (ссылка)
Идея замечательная, но кто мешает забирать куски(абзацы) новости из рсс и их перемешивать, или убирать/дополнять новыми тэгами новость. Такого алгоритма просто пока нет.

Можно конечно каждой новости при помощи специального централизованного сервиса выдавать 'авторство', что будет являться гарантией уникальности. А потом уже сверять контент с других источников, которые будут добавлять аналогичную новость новость.

Но все-таки, самая главная проблема - семантический разбор цепочек новостей. т.е. разбор по событиям, кто первый опубликовал и т.д.
Ответить С цитатой В цитатник
Перейти к дневнику

Вторник, 18 Августа 2009 г. 17:47ссылка
Исходное сообщение QoSyS
самая главная проблема - семантический разбор цепочек новостей. т.е. разбор по событиям, кто первый опубликовал и т.д.

Семантический разбор - выделение троек типа "Кто, что сделал, где" - успешно делается Яндексом. Также мы знаем другие проекты обработки новостей, такие как Ktotam.ru.
---
Кто первый опубликовал - Какая разница? если 10% новостей всеравно надуманны. И мне важно, чтобы до меня просто дошла новость типа "Facebook купил Friendfeed" или что в Москве прогремел взрыв.
---
Про добавление тэгов - видимо нужна общая онтология типа crunchbase - со всеми терминами, которые можно использовать в качестве основных тэгов для хэшфункции построения DailyID.
Перейти к дневнику

Вторник, 18 Августа 2009 г. 17:57ссылка
по поводу Яндекса - я не уверен, что выделение ключевой информации из новостей они делают на автомате.
Перейти к дневнику

Вторник, 18 Августа 2009 г. 17:58ссылка
т.е. не обходится без редактирования сюжетов, например
http://news.yandex.ru/yandsearch?cl4url=www.rian.r...F181419261.html&country=Russia
 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку