Исходное сообщение QoSyS
самая главная проблема - семантический разбор цепочек новостей. т.е. разбор по событиям, кто первый опубликовал и т.д.
Семантический разбор - выделение троек типа "Кто, что сделал, где" - успешно делается Яндексом. Также мы знаем другие проекты обработки новостей, такие как Ktotam.ru.
---
Кто первый опубликовал - Какая разница? если 10% новостей всеравно надуманны. И мне важно, чтобы до меня просто дошла новость типа "Facebook купил Friendfeed" или что в Москве прогремел взрыв.
---
Про добавление тэгов - видимо нужна общая онтология типа crunchbase - со всеми терминами, которые можно использовать в качестве основных тэгов для хэшфункции построения DailyID.