Всем известна проблема дублирующийся новостей, когда несколько источников пишут об одном и тоже. Решения этой проблемы, как мы знаем не существует, ибо если 2 портала публикуют новость с разницей в несколько минут, то тут не определить кто был первым и кому должно принадлежать авторство, также нужно учесть временную задержку попадания в RSS-ридер. Разные люди применяют сложные математические алгоритмы, типа метод шилингов и растояние между ключевыми словами, чтобы вычислить похожие новости, но практического применения это пока не находит. Я все также изо дня в день встречаю похожие новости в разных источниках и не знаю, кто у кого новость скопировал.
Однако, решение есть, если правильно себе представить то, как мы хотим видеть решение. Во-первых, если 2 портала публикуют схожую новость я всеравно хочу знать, что тот и тот источник это опубликовали. Решение проблемы дублирования не должно уменьшать мощность информации.
Во-вторых, все мы знаем, что сегодняшняя новость - завтра уже не новость. Только сегодня все пишут об этом, а завтра... а завтра о другом. Новость живет не более дня. Таким образом, я отстраняюсь от временной континуальности, считая, что ежедневно публикуется счетное число новостей.
И последняя аксиома, которую нужно принять во внимание, что один источник информации - это набор из нескольких порталов, нескольких RSS.
Отсюда следует, что для решения проблемы дублирующих новостей необходимо, чтобы все новости подписывались некоторой хэш-функцией, которая бы гарантированно генерировала бы уникальный идентификатор среди новостей ТОЛЬКО ТЕКУЩЕГО дня на базе семантических треугольников, которые есть в тексте новости. Как вариант, можно просто использовать SHA1 от тэгов, которые проставляются для новости. Я бы назвал такой идентификатор как новостной DailyID - может кто уже знает аналоги. Естественно, GUID, который есть в RSS нас не устраивает, так как он локальный для RSS, да и то мы знаем дибильные примеры халатности в реализации RSS выдачи, например, на хабре, где топик, перемещенный из раздела в раздел попадает в итоге в ленту 2 раза, так как guid меняется.
Если не поленюсь, то скоро я добавлю подписыванеи всех словоих постов, которые копируются в несколько мест подобной функцией. Но для масштабного изменения, данным вопросом должен озаботиться кто-то, кто вплотную собирает весь трафик российских СМИ, например яндекс.новости.