Ответ на этот вопрос дал А.Волнухин 3го апреля, выступив перед группой зазванных журналистов, чтобы они пересказали это всем интересующимся и экспертам(накрутчикам).
Подробный отчет о событии можно найти
в блоге Людмилы. Я же выделю самое интересное и дам свои комментарии.
Цифры Яндекс.Блогов и основные сервисы
- Миллион запиcей и комментариев из блогов и форумов каждый день
- 7 млн. источников индексируется
- индексируется 14 млн. профилей пользователей. Примерно половина пользователей создает блог и не делает там ни одной записи, а, например, использует для комментирования или забрасывает. Отсюда разница.
- всего около миллиарда документов
- блоги - одна пятая Рунета (по количеству элементов для индексации)
- Новые записи индексируются в течении 10 минут на более чем 120 блогхостингах
Все похоже на правду. Обработать миллион в день - это далеко не предел.
Поиск - это самый нужный для людей сервис по блогам. Однако, многим интернет-маркетологам гораздо интереснее Топ Блогосферы.
Поиск по блогам - единственное, что нормально работает, а у ТОПа просто нет других аналогов, вот и пользуются. Вот и все объяснение.
Антон Волнухин, ответственный за поиск по блогам, рассказал, что "коммерческой ценности" пребывание в популярных записях не несёт - самый большой возможный трафик оттуда исчисляется единицами тысяч посетителей блога.
Мухаха. Да, чистая ссылка в Яндекс ТОПе получает порядка 2000 кликов, но ведь многие потом копируют этот текст. Так что суммарно эффективность доходит до десятков тысяч. Хотя известны примеры с тем же Воронежским конем, когда количество просмотров перевалило за 200тыс.
Какова же "формула ранжирования" записей в Топе Блогосферы?
- Записи сортируются по количеству ссылок на пост за последние три дня.
- В топ может попасть только блог, существующий более полугода
- ссылки за последние 8 часов имеют удвоенный вес - это нужно, чтобы топ чаще "освежался"
- Записи теряют вес каждый час нахождения в топе - с той же целью
- В топ может попасть одновременно не более 1 записи из 1 блога.
- Рейтинг пересчитывается каждые 20 минут
- Чем меньше раз тот или иной блог ссылался на блог, содержащий топовую запись, тем весомее ссылка.
Теперь стоимость полугодовалых виртуалов вырастет... Про то, что 1 блогер и один пост в одно время - я тоже когда-то верил, пока stanislav_mikov это не нарушил. Также последний критерий особенно интересен, так как теперь все начнут это использовать =)
Планируется добавлять больше источников данных для рейтингования - учитывать комментарии и посещаемость.
Нуну, вот этого точно НЕ надо делать.
В ближайшее время пользователи смогут посмотреть разные неотфильтрованные срезы по каждому из источников - и накрутки станут видны каждому.
А разве сейчас кому-то что-то неочевидно? А хомячки не станут пользоваться этими срезами.
Антон Волнухин с прискорбием признал тот факт, что управлять индексированием и участием в поиске своего блога его владелец может только при помощи писем в саппорт.
Я же с прискорбием признаю, что даже написание в суппорт в 70% случаях вам не поможет.
Главные проблемы поиска по блогам - это спам, фильтрация дублей, индексирование удаленных и скрытых записей.
Пока в Интернете не будет полноценного 5го(вся инфа о том кто пишет) и 9го(вся инфа о смысле того, что пишут) инвариантов семантического web'a, это так и будет проблемой.
Устройcтво Яндекс Блогов приведено на картинке ниже, вот уж не думал, что в нем найдется применения для SQLite