-Поиск по дневнику

Поиск сообщений в rss_weblancer

 -Подписка по e-mail

 

 -Постоянные читатели

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 27.12.2007
Записей: 5369
Комментариев: 3
Написано: 3


Парсер позиций Google/Yandex

Четверг, 08 Мая 2014 г. 18:46 + в цитатник
Категория: Веб-программирование/Скрипты
Бюджет: ?

Здравствуйте.

Нужно сделать набор классов (библиотеку) дял сбора позиций в Google/Yandex.
Также нужно чтобы была возможность парсинга кеша страниц Google/Yandex. На вход подаем страницу - на выход дата.


Сбор позиций должен происходить через набор прокси серверов в многопоточном режиме (или хобя бы его подобии ).
Алгоритм приблизительно такой:
1. Берем прокси сервер и парсим через него позиции ( или несколько прокси серверов, в зависимости от количества потоков ).
2. Если на выходе получаем 1-3 каптчи, пропускаем его, берем новый прокси.
3. Если незакапченных прокси серверов нету - выдаем сообщение что незакапченный прокси нету и требуем подтверджение пользователя.
4. Если подтверджение есть - парсим через прокси используя антигейтс до тех пока не будет подряд 10 каптч (значение задается пользователем в файле настроек).

В заявках, пожалуйста указывайте опыт.
Важно качество кода, его модульность, возможность дописывать не переделывая при это пол скрипта.

http://www.weblancer.net/projects/599027.html


 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку