vadimsblog.com/internet/%d0...0%b0-2007/
Яндекс опубликовал 26 исследований по изучению и формализации интернета, участников конкурса “Интернет-математика 2007″.
Из них есть несколько достаточно интересных в сфере парсинга и анализа интернет контента.
Абрамова Н. Н., Абрамов В. Е. «Автоматическое составление обзорных рефератов новостных сюжетов» (502 КБ, PDF). Слайды (919 КБ, PPT). Cтраница проекта
Киселев М. «Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации» (241 КБ, PDF). Слайды (326 КБ, PPT)
Косинов Д. И. «Использование статистической информации при выявлении схожих документов» (224 КБ, PDF)
Никконен А. Ю. «Устранение избыточности и дублирования сюжетов новостных сообщений» (956 КБ, PDF)
Снарский А. А., Ландэ Д. В., Брайчевский С. М., Дармохвал А. Т. «Распределение документов по степени релевантности на основе мультифрактальных свойств» (1 МБ, PDF). Слайды (351 КБ, PDF)
Сычев А. В., Баженов М. М. «Автоматическое пополнение веб-каталога на основе идентификации веб-сообществ с последующей фильтрацией документов по контенту» (668 КБ, PDF). Приложение (176 КБ, PDF). Слайды (1,23 МБ, PPT). Cтраница проекта