Solution for News

Вторник, 18 Августа 2009 г. 16:04 + в цитатник

Всем известна проблема дублирующийся новостей, когда несколько источников пишут об одном и тоже. Решения этой проблемы, как мы знаем не существует, ибо если 2 портала публикуют новость с разницей в несколько минут, то тут не определить кто был первым и кому должно принадлежать авторство, также нужно учесть временную задержку попадания в RSS-ридер. Разные люди применяют сложные математические алгоритмы, типа метод шилингов и растояние между ключевыми словами, чтобы вычислить похожие новости, но практического применения это пока не находит. Я все также изо дня в день встречаю похожие новости в разных источниках и не знаю, кто у кого новость скопировал.
Однако, решение есть, если правильно себе представить то, как мы хотим видеть решение. Во-первых, если 2 портала публикуют схожую новость я всеравно хочу знать, что тот и тот источник это опубликовали. Решение проблемы дублирования не должно уменьшать мощность информации.
Во-вторых, все мы знаем, что сегодняшняя новость - завтра уже не новость. Только сегодня все пишут об этом, а завтра... а завтра о другом. Новость живет не более дня. Таким образом, я отстраняюсь от временной континуальности, считая, что ежедневно публикуется счетное число новостей.
И последняя аксиома, которую нужно принять во внимание, что один источник информации - это набор из нескольких порталов, нескольких RSS.
Отсюда следует, что для решения проблемы дублирующих новостей необходимо, чтобы все новости подписывались некоторой хэш-функцией, которая бы гарантированно генерировала бы уникальный идентификатор среди новостей ТОЛЬКО ТЕКУЩЕГО дня на базе семантических треугольников, которые есть в тексте новости. Как вариант, можно просто использовать SHA1 от тэгов, которые проставляются для новости. Я бы назвал такой идентификатор как новостной DailyID - может кто уже знает аналоги. Естественно, GUID, который есть в RSS нас не устраивает, так как он локальный для RSS, да и то мы знаем дибильные примеры халатности в реализации RSS выдачи, например, на хабре, где топик, перемещенный из раздела в раздел попадает в итоге в ленту 2 раза, так как guid меняется.
Если не поленюсь, то скоро я добавлю подписыванеи всех словоих постов, которые копируются в несколько мест подобной функцией. Но для масштабного изменения, данным вопросом должен озаботиться кто-то, кто вплотную собирает весь трафик российских СМИ, например яндекс.новости.

Метки: idea news

<a href="https://www.liveinternet.ru/users/flashr/post108603307/">Solution for News</a><br/>Р’СЃРµРј РёР·РІРµСЃС‚РЅР° РїСЂРѕР±Р»РµРјР° РґСѓР±Р»РёСЂСѓСЋС‰РёР№СЃСЏ РЅРѕРІРѕСЃС‚РµР№, РєРѕРіРґР° РЅРµСЃРєРѕР»СЊРєРѕ РёСЃС‚РѕС‡РЅРёРєРѕРІ РїРёС€СѓС‚ РѕР± РѕРґРЅРѕРј Рё С‚РѕР¶Рµ. Р РµС€РµРЅРёСЏ СЌС‚РѕР№ РїСЂРѕР±Р»РµРјС‹, РєР°Рє РјС‹ Р·РЅР°РµРј РЅРµ СЃСѓС‰РµСЃС‚РІСѓРµС‚, РёР±Рѕ РµСЃР»Рё 2 РїРѕСЂС‚Р°Р»Р° РїСѓР±Р»РёРєСѓСЋС‚ РЅРѕРІРѕСЃС‚СЊ СЃ СЂР°Р·РЅРёС†РµР№ РІ РЅРµСЃРєРѕР»СЊРєРѕ РјРёРЅСѓС‚, С‚Рѕ С‚СѓС‚ РЅРµ РѕРїСЂРµРґРµР»РёС‚СЊ РєС‚Рѕ Р±С‹Р» РїРµСЂРІС‹Рј Рё РєРѕРјСѓ РґРѕР»Р¶РЅРѕ РїСЂРёРЅР°РґР»РµР¶Р°С‚СЊ Р°РІС‚РѕСЂСЃС‚РІРѕ, С‚Р°РєР¶Рµ РЅСѓР¶РЅРѕ СѓС‡РµСЃС‚СЊ РІСЂРµРјРµРЅРЅСѓСЋ Р·Р°РґРµСЂР¶РєСѓ РїРѕРїР°РґР°РЅРёСЏ РІ RSS-СЂРёРґРµСЂ. Р Р°Р·РЅС‹Рµ Р»СЋРґРё РїСЂРёРјРµРЅСЏСЋС‚ СЃР»РѕР¶РЅС‹Рµ РјР°С‚РµРјР°С‚РёС‡РµСЃРєРёРµ Р°Р»РіРѕСЂРёС‚РјС‹, С‚РёРїР° РјРµС‚РѕРґ С€РёР»РёРЅРіРѕРІ Рё СЂР°СЃС‚РѕСЏРЅРёРµ РјРµР¶РґСѓ РєР»СЋС‡РµРІС‹РјРё СЃР»РѕРІР°РјРё, С‡С‚РѕР±С‹ РІС‹С‡РёСЃР»РёС‚СЊ РїРѕС…РѕР¶РёРµ РЅРѕРІРѕСЃС‚Рё, РЅРѕ РїСЂР°РєС‚РёС‡РµСЃРєРѕРіРѕ РїСЂРёРјРµРЅРµРЅРёСЏ СЌС‚Рѕ РїРѕРєР° РЅРµ РЅР°С…РѕРґРёС‚. РЇ РІСЃРµ С‚Р°РєР¶Рµ РёР·Рѕ РґРЅСЏ РІ РґРµРЅСЊ РІСЃС‚СЂРµС‡Р°СЋ РїРѕС…РѕР¶РёРµ РЅРѕРІРѕСЃС‚Рё РІ СЂ... <a href="https://www.liveinternet.ru/users/flashr/post108603307/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

QoSyS обратиться по имени Вторник, 18 Августа 2009 г. 17:38 (ссылка)

Идея замечательная, но кто мешает забирать куски(абзацы) новости из рсс и их перемешивать, или убирать/дополнять новыми тэгами новость. Такого алгоритма просто пока нет.

Можно конечно каждой новости при помощи специального централизованного сервиса выдавать 'авторство', что будет являться гарантией уникальности. А потом уже сверять контент с других источников, которые будут добавлять аналогичную новость новость.

Но все-таки, самая главная проблема - семантический разбор цепочек новостей. т.е. разбор по событиям, кто первый опубликовал и т.д.

Ответить С цитатой В цитатник

Вторник, 18 Августа 2009 г. 17:47ссылка

Flashr

Исходное сообщение QoSyS
самая главная проблема - семантический разбор цепочек новостей. т.е. разбор по событиям, кто первый опубликовал и т.д.

Семантический разбор - выделение троек типа "Кто, что сделал, где" - успешно делается Яндексом. Также мы знаем другие проекты обработки новостей, такие как Ktotam.ru.
---
Кто первый опубликовал - Какая разница? если 10% новостей всеравно надуманны. И мне важно, чтобы до меня просто дошла новость типа "Facebook купил Friendfeed" или что в Москве прогремел взрыв.
---
Про добавление тэгов - видимо нужна общая онтология типа crunchbase - со всеми терминами, которые можно использовать в качестве основных тэгов для хэшфункции построения DailyID.

Ответить С цитатой В цитатник Обратиться по имени