Парсер позиций Google/Yandex
|
|
Четверг, 08 Мая 2014 г. 18:46
+ в цитатник
Категория:
Веб-программирование/СкриптыБюджет:
?Здравствуйте.
Нужно сделать набор классов (библиотеку) дял сбора позиций в Google/Yandex.
Также нужно чтобы была возможность парсинга кеша страниц Google/Yandex. На вход подаем страницу - на выход дата.
Сбор позиций должен происходить через набор прокси серверов в многопоточном режиме (или хобя бы его подобии ).
Алгоритм приблизительно такой:
1. Берем прокси сервер и парсим через него позиции ( или несколько прокси серверов, в зависимости от количества потоков ).
2. Если на выходе получаем 1-3 каптчи, пропускаем его, берем новый прокси.
3. Если незакапченных прокси серверов нету - выдаем сообщение что незакапченный прокси нету и требуем подтверджение пользователя.
4. Если подтверджение есть - парсим через прокси используя антигейтс до тех пока не будет подряд 10 каптч (значение задается пользователем в файле настроек).
В заявках, пожалуйста указывайте опыт.
Важно качество кода, его модульность, возможность дописывать не переделывая при это пол скрипта.
http://www.weblancer.net/projects/599027.html
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-