scraping - Самое интересное в блогах

rss_habr

server-queryselector aka парсим html в nodejs

Четверг, 01 Декабря 2022 г. 22:49 (ссылка)

Итак, мы хотим получить информацию с веб сайта — это можно сделать в 3 шага

1) Получить html сайта (пропустим этот шаг)

2) Распарсить html строку и создать dom. — builderdom.js

3) Найти нужные dom_node из dom по кссселекторам.

3.1) Распарсить строку кссселекторов и создать дерево для поиска. — cssselectorparser.js
3.2) Отфильтровать дом_ноды по дереву кссселекторов и найти нужные. — treeworker.js

https://habr.com/ru/post/703010/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703010

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Бот или не бот — вот в чем вопрос

Пятница, 02 Сентября 2022 г. 11:46 (ссылка)

Идентификация пользователей интернета по "веб-отпечатку" (fingerprint) формирует новую реальность. Интернет теряет анонимность прямо сейчас. Это происходит не по причине насилия регулятора, а естественным путем вследствие появления доступной технологии защиты от ботов. Почему защита от ботов деанонимизировала людей, как это уже ударило по коммерции и как совсем скоро изменит общество в целом - популярно под катом.

https://habr.com/ru/post/686038/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686038

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Начинающий программист vs Избирком СПб

Четверг, 16 Июня 2022 г. 19:09 (ссылка)

Это история о том, как я писал код на Python 3, который собирает и систематизирует данные по избирательным комиссиям в моём родном городе Санкт-Петербурге. Ну, и про то, что я там накопал в извлечённых данных.

Я новичок в программировании, первый раз столкнулся с такой задачей и понятия не имел, как это делается, но стоило только начать...

https://habr.com/ru/post/671832/?utm_source=habrahabr&utm_medium=rss&utm_campaign=671832

Метки: python HTML Data Engineering python3 beginner data scraping избирком избирательная система

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Инвестирование в отраслевые фонды в Экселе

Среда, 03 Февраля 2021 г. 12:14 (ссылка)

Написать эту статейку меня побудила замечательная серия многоуважаемого @abak "Теория инвестиций для начинающих“. В качестве конфетки внизу даю ссылку на табличку, получающую текущие цены на европейские фонды, их прибыльность и другие параметры из интернета. Кроме того мне хотелось бы немного расширить изначальную статью с точки зрения начинающего инвестора, инвестирующего из дома и лишенного вкусностей внутренней кухни Дойче банка.

Предостережение: Автор ни разу не спец в скрэпинге интернет-сайтов и инвестициях. Всё что здесь описывается делалось для души и на коленке. Автор никому ничего не обещает, а лишь делится собственным опытом и мыслями по поводу инвестиций, в частности в отраслевые фонды. Ещё одна цель – дать пищу для размышлений, а не предоставить рецепт от всех болезней. Всё, что здесь описано, добывалось автором путём проб и ошибок, а, как известно: "Срубленные головы стремительно умнеют“. Потому, главный посыл статейки: Не бояться экспериментировать.

https://habr.com/ru/post/540670/?utm_source=habrahabr&utm_medium=rss&utm_campaign=540670

Метки: Открытые данные Финансы в IT excel scraping investment инвестиции финансы

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Скрапинг Avito без headless-браузера

Понедельник, 18 Января 2021 г. 19:40 (ссылка)

Недавно на хабре вышла статья Скрапинг современных веб-сайтов без headless-браузеров, и в комментариях было высказано мнение, что без headless-браузера не выйдет получить номер телефона из объявления на "авито" или "юле". Хочу это опровергнуть, ниже скрипт на python размером менее 100 строк кода, который успешно парсит "авито" успешно парсит "авито"!

https://habr.com/ru/post/537834/?utm_source=habrahabr&utm_medium=rss&utm_campaign=537834

Метки: Python api python3 web scraping requests

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Сбор данных и отправка в Apache Kafka

Воскресенье, 15 Ноября 2020 г. 19:18 (ссылка)

Введение

Для анализа потоковых данных необходимы источники этих данных. Так же важна сама информация, которая предоставляется источниками. А источники с текстовой информацией, к примеру, еще и редки.

Из интересных источников можно выделить следующие: twitter, vk. Но эти источники подходят не под все задачи.

Есть источники с нужными данными, но эти источники не потоковые. Здесь можно привести следующее ссылки: public-apis.

При решении задач, связанных с потоковыми данными, можно воспользоваться старым способом.

Скачать данные и отправить в поток.

Для примера можно воспользоваться следующим источником: imdb.

Следует отметить, что imdb предоставляет данные самостоятельно. См. IMDb Datasets. Но можно принять, что данные собранные напрямую содержат более актуальную информацию.

Язык: Java 1.8.

Библиотеки: kafka 2.6.0, jsoup 1.13.1.

Читать дальше →

https://habr.com/ru/post/528134/?utm_source=habrahabr&utm_medium=rss&utm_campaign=528134

Метки: Тестирование IT-систем java Apache java 8 kafka apache kafka junit jsoup scraping streaming

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Из песочницы] Парсим любой сайт за считанные секунды. Как достать нужную информацию с сайта используя Selenium, XPath и Proxy Sever

Пятница, 21 Августа 2020 г. 15:13 (ссылка)

Дарова, Хабр! Около года назад я решил заработать на ставках на спорт используя свои знания математики и программирования и тогда я наткнулся на небольшую проблему — как же достать нужную мне информацию с сайта? Как парсить веб-страницы? В этой статье я расскажу простыми словами каким тонкостям я научился.

Читать дальше →

https://habr.com/ru/post/516104/?utm_source=habrahabr&utm_medium=rss&utm_campaign=516104

Метки: google chrome c# Тестирование веб-сервисов scraping xpath selenium proxy sever chrome devtools

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Визуализация списка женщин-лауреатов Нобелевской премии в виде кристаллов в 3d с использованием Vue, WebGL, three.js

Суббота, 13 Июня 2020 г. 22:11 (ссылка)

Год 1 | вдохновение

В этом месяце я очень долго пыталась определиться с датасетом и идеей для его обработки. Хотя я начала думать о нем еще в мае, по факту законить удалось только через 8 месяцев (черт, я плоха), а описать проект мне удалось еще спустя месяц (оу, я чертовски плоха).

Идея проекта пришла ко мне после просмотра фильма Безумно богатые азиаты. Мне очень понравилась актриса Мишель Йео, но идея оформилась только после того, как я прочитала больше о ней и узнала, насколько она была выдающейся и крутой. Это заставило меня задуматься выдающихся женщинах, о которых я понятия не имею. И вот — возникла идея как-то это визуализировать.
Читать дальше →

https://habr.com/ru/post/506574/?utm_source=habrahabr&utm_medium=rss&utm_campaign=506574

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Из песочницы] Web Scraping. Часть 1

Понедельник, 17 Февраля 2020 г. 15:46 (ссылка)

Введение

Всем привет. Недавно у меня возникла идея о том, чтобы поделиться с интересующимся кругом лиц о том как пишутся скраперы. Так как большинству аудитории знаком Python все дальнейшие примеры будут написаны на нём.

Данная часть рассчитана для того, чтобы познакомить тех, кто ещё не пробовал себя в данной сфере. Если вы уже продвинутый читатель, то можете смело листать дальше, но для сохранения закономерности я бы посоветовал уделить немного внимания данной статье.

print('Part 1. Get started')

Инструменты

Язык программирования и соответствующие библиотеки

Конечно, без него никуда. В нашем случае будет использован Python. Данный язык является довольно сильным инструментом для написания скраперов, если уметь правильно пользоваться им и его библиотеками: requests, bs4, json, lxml, re.

Инструменты разработчика

Каждый современный браузер имеет данную утилиту. Лично мне удобно пользоваться Google Chrome или Firefox. Если вы пользуетесь другим браузерами, рекомендую попробовать один из вышеперечисленных. Здесь нам понадобятся практически все инструменты: elements, console, network, application, debuger.

Современная IDE

Здесь выбор остаётся за вами, единственное, что хотелось бы посоветовать — наличие компилятора, debuger'a и статического анализатора в вашей среде разработке. Я отдаю своё предпочтение PyCharm от JetBrains.

Читать дальше →

https://habr.com/ru/post/488720/?utm_source=habrahabr&utm_medium=rss&utm_campaign=488720

Метки: python scraping

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Web scraping на R, часть 2. Ускорение процесса с помощью параллельных вычислений и использование пакета Rcrawler

Понедельник, 26 Августа 2019 г. 09:46 (ссылка)

В прошлой статье я с помощью скрэпинга-парсинга собрал с сайтов IMDB и Кинопоиск оценки фильмов и сравнил их. Репозиторий на Github.

Код неплохо справился со своей задачей, однако скрэпинг часто используют для "соскабливания" не пары-тройки страниц, а пары-тройки тысяч и для такого "большого" скрэпинга код из прошлой статьи не подходит. Точнее будет сказать не оптимален. В принципе, Вам практически ничего не мешает его использовать для задач обхода тысяч страниц. Практически, потому что столько времени у Вас просто нет

Читать дальше ->

https://habr.com/ru/post/464399/?utm_source=habrahabr&utm_medium=rss&utm_campaign=464399

Метки: data mining Параллельное программирование scraping parsing parallel programming

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Web scraping с помощью R. Сравнение оценок фильмов на сайтах Кинопоиск и IMDB

Четверг, 08 Августа 2019 г. 12:41 (ссылка)

Всемирная паутина — это океан данных. Здесь можно посмотреть практически любую интересующую Вас информацию. Однако, "вытащить" эту информацию из интернета уже сложнее. Есть несколько способов получить данные и web-scraping один из них.

Читать дальше ->

https://habr.com/ru/post/462917/?utm_source=habrahabr&utm_medium=rss&utm_campaign=462917

Метки: data mining Визуализация данных scraping parsing dataviz скраппинг извлечение данных

Комментарии (0)Комментировать В цитатник или сообщество

Archana

Без заголовка. Обсуждение на

Понедельник, 22 Января 2018 г. 21:54 (ссылка)

Это цитата сообщения КРАСОТА_ЗДОРОВЬЯ Оригинальное сообщение

ПОЧЕМУ И КАК НУЖНО ДЕРЖАТЬ СПИНУ ПРЯМО.

«Хотя для формирования хорошей осанки требуются годы, существуют и быстрые способы ее корректировки», — обрадовал нас врач-ортопед медицинского центра. Чтобы применить эти методы, тебе нет нужды отправляться в тренажерный зал: они прекрасно работают и в офисе.

Прямым ходом

Для начала уясни, что причина согнутой спины находится в твоей голове. «Главный залог стройной осанки — в правильном положении головы и шеи», — уверяет Андрей. Постоянно опуская взгляд и, как боец молодой, поникая головой, ты провоцируешь сутулость. Заведи привычку во время ходьбы рассматривать кроны деревьев или окна вторых этажей. Это приучит тебя держать подбородок выше обычного (хотя, возможно, и приведет к низвержению в открытый канализационный люк).

Сохранить осанку

Чтобы понять, к какому идеалу тебе нужно стремиться, встань у стены и прислонись к ней затылком, лопатками, ягодицами и икрами ног. Постой в этом глупом положении несколько минут, чтобы мышцы хорошенько запомнили его. Когда твои коллеги, на глазах которых ты это проделал, отсмеются, ты, не меняя положения тела, отделись от стены, представив, что она прилипла к твоей спине. Походи немного с фантомной стеной за плечами. В дальнейшем всякий раз, когда ты будешь освежать в уме полученные ощущения, твое тело станет рефлекторно принимать правильную осанку.

Читать далее...

Комментарии (0)Комментировать В цитатник или сообщество

Следующие 30 »

<scraping - Самое интересное в блогах

Страницы: [1] 2 3 .... 10