-Поиск по дневнику

Поиск сообщений в rss_weblancer

 -Подписка по e-mail

 

 -Постоянные читатели

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 27.12.2007
Записей: 5369
Комментариев: 3
Написано: 3


написать универсальный индексатор сайтов

Суббота, 05 Июля 2014 г. 18:36 + в цитатник
Категория: Веб-программирование/Скрипты
Бюджет: ?

Требуется написать универсальный индексатор сайтов на языке python

На входе:
Список url из текстового файла.
На выходе:
siteName – адрес сайта
pageName – адрес страницы
title – тайтл страницы
pageCount – уровень вложенности страницы (глубина страницы)
CSV файл:
siteName;pageName;title;pageCount
http://site.com;/; Главная страница; 1 (уровень вложенности)
http://site.com;/page1.html; Страница 1; 2(уровень вложенности)

Примечание:
Должен работать с различными видами путей:
Относительный: Link
Абсолютный: http://site.com/page.html”>linka>;

- Убирать дубликаты страниц.
- Приводить доменное имя к виду без www
- Игнорировал ссылки типы «якорь» например:
link
Tel1
- Фильтровать ссылки на картинки, pdf файлы, видео и т.д.
- Добавлять только те страницы, которые отдает ответ 200.

http://www.weblancer.net/projects/612398.html


 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку