Четверг, 01 Сентября 2005 г. 21:00
+ в цитатник
zheleznodorzhnik все записи автора
Пытаюсь парсить выдачу гугла, но он выдает разные страницы для браузера и скрипта. Разница небольшая: в выдаче для браузера присутствует такой код для каждого сайта в списке:
Дизайн | Web-дизайн | Рекламный Дизайн | Полиграфия | Фирменный ...
Дизайн, Web-дизайн, Рекламный Дизайн, Полиграфия, Фирменный стиль, логотипы,
А для скрипта все тоже самое только нет:
onmousedown="return clk(this.href,'res','2','')"
А мне эта строчка нужна для определения позиции сайта, в данном случае, сайт на второй позиции.
Для парсинга использую функцию пхп:
$t=file_get_contents('http://www.google.ru/search?hl=ru&q='.urlencode($keyword).'&lr=lang_ru');
Проблема очевидно в том, что гугл распознает, что запрос идет от скрипта, а не от пользователя. Скорее всего нужно использовать сокеты... Может кто сталкивался с подобной проблемой?
Только вот CURL сразу отпадает, потому что на сервере, где будет работать скрипт его нет, и в ближайшее время не будет :(
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-