-Метки

apple facebook google hi-tech seo В мире авиа авто аэропорт аэрофлот бизнес блоггер в россии видео вирусный маркетинг гугл деньги дети дом 2 домодедово дым египет женщина животные жизнь закон звезды здоровье зенит интересно интересное интересные факты интернет инфо ирина бережная кино киркоров клип кличко красота криминал культура ленинградская область лужков любовь медведев москва мужчина музыка нападения наука недвижимость новости новости рекламы новый год норильск образование общество олимпиада отдых отношения письмо погода пожар пожары политика праздники продвижение продвижение сайта продвижение сайтов происшествия путин работа раскрутка раскрутка сайта реклама рецепты ржд россия санкт-петербург свадьба секс семья смог создание сайта создание сайтов сочи спорт сша тим-сео туризм уитни хьюстон украина фото футбол цитаты чп школа экономика яндекс

 -Цитатник

Евро-2012: Сколько потеряло здравоохранение и что можно было бы сделать на эти деньги - (0)

Продолжаем подсчеты, что можно было бы сделать в Украине на те 126 млрд. гривен, которые были п...

Цитата - (2)

ЦИТАТА. "..Мы страдаем оттого, что нам кажется, будто даём больше, чем получаем. Мы страдаем отто...

Единая и Справедливая России! На 1-и 2-ой рассчитайсь! - (0)

Единая и Справедливая России! На 1-и 2-ой рассчитайсь! Помните рекламу: "А как называется шампунь...

Сказочный мир Josephine Wall (часть вторая) - (0)

Сказочный мир Josephine Wall (часть вторая) Записи по теме: Сказочный мир Josephine Wall

Хакеры взломали официальные аккаунты КНДР в Twitter и YouTube - (0)

Хакеры взломали официальные аккаунты КНДР в Twitter и YouTube Партийная верхушка страны обвиняетс...

 -Поиск по дневнику

Поиск сообщений в SPbYa

 -Подписка по e-mail

 

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 02.07.2009
Записей:
Комментариев:
Написано: 3328

Рунет под колпаком

Дневник

Четверг, 02 Июля 2009 г. 16:15 + в цитатник
Краулер-шпион, про который я писал тут и тут на данный момент обошёл некую часть рунета. Для индексации ему были разрешены сайты в зонах .ru (рунет), .su (совконет), .ua (хохлонет), .by (бульбанет), .name (погонялонет). По различным предварительным прикидкам, я ожидал что проиндексируется от 800 тысяч до полутора миллионов сайтов. Реальность оказалась интереснее - бот за 5 дней обошёл 300 тысяч сайтов и сказал “всё”. Обход шёл по ссылкам, обнаруженным на сайтах, с каждого сайта скачивалась “морда” и одна случайная внутренняя страница (если они есть), потом из этого извлекались внешние ссылки, ссылки с nofollow не учитывались, неправильные ссылки, например с опечатками, тоже не учитывались. Никаких ошибок в реализации я не обнаружил, то есть можно утверждать, что реальный размер перелинкованного сквозняками и живого рунета на данный момент - порядка 300 тысяч сайтов.
Кроме указанных зон, я добавил несколько сот сайтов, типа блогов на блоггере, вручную, чтобы в базу попали адсенс аккаунты вебмастеров-блоггеров, особенно различных финстриптизёров. С сайтов собирался ип адрес, адсенс ид и урчин ид, теперь я могу по запросу получить все обнаруженные сайты одного вебмастера. Если я упустил что-то ещё, какой-то популярный идентификатор по которому можно привязать сайт к вебмастеру, прошу указать его в комментариях, добавлю.

оптимизация сайта

Спаленные темы: главное ради чего был затеян весь эксперимент - посмотреть кто из вебмастеров чем занимается в рунете, с которым я сам активно не работаю. Не знаю, новость ли это или нет, но главным “дорвейщиком” рунета оказался Рамблер с его псевдо-каталогами на доменах podberi-*.ru. На втором месте по количеству сайтов - сеть 3х циферных доменов с телефонными кодами, типа 843.ru. На удивление много оказалось блогохостингов, не думал что в рунете с повальным увлечением жыжой и лирушечкой, кому-то можно впарить другие блог-хостинги. Оказалось, ещё как можно.

сайт под ключ

Порталы: в ходе сбора данных возникла проблема с идентификацией порталов. Порталом у меня считается многосабдоменный сайт, все сабдомены которого содержат строго один и тот же набор адсенс ид/урчин ид (либо не содержат вообще), то есть фактически принадлежат одному/двум/десяти вебмастерам. Таких многосабдоменных сайтов вообще то большинство, но чтобы не проворонить сайты типа блоггера, где на каждом сабдомене может висеть отдельный адсенс, порталы у меня определяются вручную. Для рунета такой подход работает, порталов не так много (могу огласить весь список), но если разрешить боту индексировать .ком, тут то ему и настанет хана. У меня один дорвейный скриптик генерит по 100 тыщ сабдоменов на домен, у плохо настроенного сервера с таким скриптом выкипает вся память только от чтения ботами файла robots.txt. :) То есть нужен какой-то надёжный способ, как это автоматизировать, но случайно не “склеить” то что не нужно, причём надо правильно учитывать украинские сайты *.com.ua и т.п..

Распределение сайтов по ответу сервера: двухсотых (200 и 206) - 280 тысяч, с неизвестным ответом, включая неответивших - 20 тыщ, 302х - 15 тыщ, 301х - 5 тыщ, 400х - 7 тыщ, 500х - тыща, единичные сайты давали всякие экзотические ответы типа 412, 205, 307 и т.п. зоопарк. Непонятно, почему 302х больше чем 301х, я сам 302й редирект в принципе никогда не использую, на склейщиков не похоже - слишком много. Может это какая-то фича яндекса, что ему зачем-то нужно 302 давать?

Наличие адсенс ид на сайте: под адсенс ид понимается переменная google_ad_client, которая используется для показа блоков адсенса и которая всегда одна и таже у одного вебмастера. Адсенс был найден на 20000 сайтах из 330000 возможных, то есть примерно на 6% всех сайтов. Урчин найдер на 26000 или на 8% сайтов. Уникальных адсенсов найдено 5500, то есть примерно столько рунетовских вебмастеров работают с Гуглом. Уникальных урчинов найдено 8800.

ИП адреса: всего в базе 54000 уникальных адресов, включая несколько сотен доменов, которые не удалось отресолвить. 3х цифровых адресов вида хх.хх.хх с откинутым последним номером - 27000, что вообще то странно - обычно хостеры раздают адреса подряд, а тут получается что хостеров чуть ли не больше чем вебмастеров. Теоретически, эти данные можно дальше обработать и получить список хостеров рунета, отсотрированный по количеству хостимых сайтов.

Монетизация: долго думал, как можно монетизировать эту базу. Сначала была простая мысль - давать доступ за абонентскую плату, но это не очень удачная идея. База специфическая и не сильно много кому целенаправленно нужна, к тому же купив 1 аккаунт можно потом беспрепятственно “барыжить” им, выдавая информацию третьим лицам. Другая мысль была - сделать ограниченное количество аккаунтов и продавать доступ к ним по аукционной системе, думаю во всём рунете наберётся 25 человек, кому интересно будет глянуть, какие ещё сайты припрятал конкурент, вот для них можно было бы сделать 20 аккаунтов и отдать их тем кто больше предложит. Более удачная мысль - сделать тулбар, типа алексы, который бы показывал, какие ещё сайты сидят на том же ип или с тем же адсенсом и урчином. Думаю несколько сот вебмастеров его себе поставят. Если кто-нибудь готов взяться за реализацию клиентской части - можно попробовать обсудить детали.


Информация с блога
http://alexf.name

Метки:  

 Страницы: [1]