Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 141 сообщений
Cообщения с меткой

etl - Самое интересное в блогах

Следующие 30  »
rss_habr

Пишем ETL-процесс на Python, часть 2

Воскресенье, 22 Января 2023 г. 09:02 (ссылка)

Сегодня мы сделаем web-интерфейс для управления запуском ETL-процесса. В прошлой статье мы написали консольный скрипт, который разово разово запускает выгрузку. Но как это передать заказчику ?!

Читать

https://habr.com/ru/post/711590/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711590

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Пишем ETL-процесс на Python

Среда, 11 Января 2023 г. 15:57 (ссылка)

ETL-процесс без итерации по спискам и прочей “вложенности” на основе паттерна проектирования “Цепочка обязанностей”.

Читать

https://habr.com/ru/post/710106/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710106

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

ETL и коннекторы к источникам данных: российские реалии

Среда, 11 Января 2023 г. 09:09 (ссылка)

За время работы над аналитическими отчетами по рынку отечественных BI-систем, о которых я уже рассказывал, мы поняли, что есть потребность в обзоре еще одного компонента – а вернее, даже двух связанных с BI. Речь про ETL и коннекторы. Им и посвящено наше новое исследование ETL-круг Громова.

Зачем?

Сейчас есть насущная необходимость в агрегированной информации о российских решениях. Да, в какой-то степени этот вопрос может закрыть всем известный реестр отечественного софта. Но, во-первых, там есть далеко не все решения. А во-вторых, информация о ПО там далеко не полная. Ведь кроме технических параметров нужно разобраться со многими другими, причем желательно в сравнении – реестр этого не позволяет сделать.

Вторая причина запуска исследования в том, что не все BI-платформы имеют собственные встроенные ETL, а значит, выбор ETL тесно связан с выбором BI-платформы. И раз уж последние мы регулярно изучаем, то и первым необходимо уделить определенное внимание.

Ну и третье: рынок российских ETL и коннекторов хоть, на наш взгляд, пока недостаточно развит, но он уже сформировался. Есть ряд сильных и сравнительно известных продуктов, но есть и быстро развивающиеся и весьма перспективные, потенциально способные изменить расклад на рынке. И сейчас, когда многим приходится искать замены для ранее используемых решений, информация о наличии российских предложений весьма актуальна.

Читать далее

https://habr.com/ru/post/709996/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709996

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] ETL и ELT: ключевые различия, о которых должен знать каждый

Вторник, 22 Ноября 2022 г. 12:02 (ссылка)

image


ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.



В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать дальше →

https://habr.com/ru/post/695546/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695546

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Мониторинг в Apache NiFi. Часть вторая

Вторник, 01 Ноября 2022 г. 18:38 (ссылка)

Задачи отчетности (Reporting Tasks)

В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).

Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.

Читать далее

https://habr.com/ru/post/695926/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695926

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW

Понедельник, 24 Октября 2022 г. 11:28 (ссылка)

image


Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.



Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW).



В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища.
Читать дальше →

https://habr.com/ru/post/693360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=693360

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Мониторинг в Apache NiFi. Часть первая

Понедельник, 10 Октября 2022 г. 09:55 (ссылка)

Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.

Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.

Читать далее

https://habr.com/ru/post/692154/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692154

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Dagster | Туториал

Вторник, 27 Сентября 2022 г. 12:05 (ссылка)

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

Читать далее

https://habr.com/ru/post/690342/?utm_source=habrahabr&utm_medium=rss&utm_campaign=690342

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Технологии NiFi & Kafka: применение (часть 2)

Среда, 24 Августа 2022 г. 06:17 (ссылка)

Добрый день, меня зовут Рустам Ахметов, я архитектор ГК Юзтех и интеграционной шины данных UseBus. В предыдущей статье я рассказывал о Kafka и её аналогах, а сегодня хочу рассмотреть NiFi.

Вы узнаете:

Читать далее

https://habr.com/ru/post/684312/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684312

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Все, что вам нужно знать об Airflow DAGs, ч.1 — Основы и расписания

Воскресенье, 15 Августа 2022 г. 01:06 (ссылка)

Полное руководство по созданию DAG в Apache Airflow DAG, позволяющих создать конвейер данных из разных источников, запускаемый в определенные периоды времени с заданной логикой. Первая часть. Источник: DAGs: The Definitive Guide от astronomer.io

Добро пожаловать в полное руководство по Apache Airflow DAG, представленное командой Astronomer. Эта электронная книга охватывает все, что вам нужно знать для работы с DAG, от строительных блоков, из которых они состоят, до рекомендаций по их написанию, динамической генерации, тестированию, отладке и многому другому. Это руководство, написанное практикующими для практикующих.

Читать далее

https://habr.com/ru/post/682384/?utm_source=habrahabr&utm_medium=rss&utm_campaign=682384

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Создание Data Lake и Warehouse на GCP

Воскресенье, 19 Июня 2022 г. 19:56 (ссылка)

Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse.

Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse.

В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL.

Читать далее

https://habr.com/ru/post/672280/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672280

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Автогенерация ETL-кода

Четверг, 09 Июня 2022 г. 23:28 (ссылка)

С развитием информационных технологий у их пользователей все сильнее и сильнее появляется желание автоматизации рутинных операций, в том числе и автоматической генерации кода. Где это уже возможно?

Я расскажу об автоматической генерации ETL-кода, которая реализована в Сбере на примере одной из использующихся платформ. Поток трансформаций данных в нашем решении называется графом. Этот граф является ориентированным ациклическим графом (DAG, directed acyclic graph). Автоматическую генерацию графов оказалось возможно реализовать благодаря наличию специального инструмента spec-to-graph, который как раз для этого и предназначен. Он позволяет формировать трансформации графа согласно написанному коду, служащему шаблоном. В этом шаблоне указывается, какие трансформации с какими параметрами следует использовать и в каком порядке нужно их соединить. Мы используем подход по генерации графов из базовых субграфов (стандартизированных маленьких графов). Т.е. мы разбиваем ETL-процесс на элементарные операции, каждую из которых реализует некоторый базовый субграф. А из субграфов формируется итоговый граф, осуществляющий загрузку данных. Данные мы грузим из Hive в Hive, дополнительно используя промежуточные индексные структуры в HBase.

Читать далее

https://habr.com/ru/post/668828/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668828

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

BI с Redshift от ETL до бордов

Четверг, 02 Июня 2022 г. 12:15 (ссылка)

Привет, хабр, я Node.js разработчик, и я хочу поделиться с вами опытом по реализации business intelligence (BI) процесса.

В какой-то момент наш бизнес вырос до размера, пусть и небольшого, когда считать различные цифры и проводить аналитику в excel таблицах уже сложно и медленно, да и количество людей работающих с данными значительно выросло. Тогда зашла речь об автоматизации этого процесса и визуализации различного рода аналитики. Так мы подошли к мысли, что пора реализовывать BI внутри компании.

Читать далее

https://habr.com/ru/post/669240/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669240

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Создаем простой ETL на Python

Понедельник, 02 Мая 2022 г. 19:37 (ссылка)

В работе аналитика данных часто приходится использовать наборы данных, загружаемые из открытых источников. Рассмотрим простой пример использования конвейера для таких задач.
ETL, сокращение от extract-transform-load, представляет собой серию процессов, которые включают в себя сбор данных, их обработку и хранение в безопасном и доступном месте. Конвейеры ETL (ETL pipeline) позволяют упростить эти процессы с максимальной эффективностью и минимальными издержками.
Рассмотрим пошаговую реализацию конвейера ETL с использованием модулей Python.

Читать далее

https://habr.com/ru/post/664020/?utm_source=habrahabr&utm_medium=rss&utm_campaign=664020

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Сравнение процессов ETL и ELT

Понедельник, 25 Апреля 2022 г. 11:43 (ссылка)

ETL означает извлечение, преобразование и загрузку. Это относится к процессу сбора данных из нескольких источников и подготовки данных для интеграции и загрузки на целевую платформу, такую как хранилище данных или аналитическая среда.

ELT аналогичен, но загружает данные в необработанном формате, оставляя преобразования для людей, чтобы они могли применить их для «самостоятельной аналитики». Оба метода являются типичными примерами развертывания конвейера данных.

Что такое ETL?

ETL (Extract, Transform, Load) — это аббревиатура автоматизированной методологии разработки конвейера данных, с помощью которой данные собираются и подготавливаются для последующего использования в аналитической среде, такой как хранилище данных.

Извлечение данных (Extract)

Извлечение данных — это первый этап процесса ETL, когда данные извлекаются из различных исходных систем. Данные могут быть полностью необработанными, например данные датчиков с устройств, или ,это неструктурированные данные из отсканированных медицинских документов или электронных писем компании. Это могут быть потоковые данные, поступающие из сети социальных сетей или транзакции покупки/продажи на фондовом рынке практически в режиме реального времени, или они могут поступать из существующих корпоративных баз данных и хранилищ данных.

Трансформация (Transform)

На этапе преобразования к данным применяются правила и процессы для их подготовки к загрузке в целевую систему. Обычно это делается в промежуточной рабочей среде, называемой «площадкой подготовки» («staging area» ). Здесь данные очищаются для обеспечения надежности и согласования для обеспечения совместимости с целевой системой. Могут быть применены многие другие преобразования, в том числе:

Читать далее

https://habr.com/ru/post/662746/?utm_source=habrahabr&utm_medium=rss&utm_campaign=662746

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Machine Learning много не бывает: отчёт с ML-митапа

Четверг, 21 Апреля 2022 г. 12:06 (ссылка)

Выкладываем запись с прошедшего Ozon Tech ML Meetup: были рады поделиться опытом с коллегами из Яндекс Маркета, AliExpress Россия, Циан и увидеть гостей оффлайн, как в старые-добрые времена.

Под катом найдете запись докладов:

Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop,

Го обсудим: продакшен ML на Golang,

Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса,

Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру.

После докладов на круглом столе обсудили процессы и роли в ML-командах крупных IT-компаний.

Запись под катом

https://habr.com/ru/post/661601/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661601

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect

Понедельник, 18 Апреля 2022 г. 15:44 (ссылка)

Привет от Technology Enthusiast! Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет.

Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного:

Требования и ожидаемые результаты

Функциональные возможности

Сценарии использования и бизнес-ценность

Планы развития, продвинутое моделирование и BI

Читать далее

https://habr.com/ru/post/661555/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661555

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Добро пожаловать в семью

Четверг, 14 Апреля 2022 г. 15:58 (ссылка)

Привет, Хабр! Меня зовут Игнат Нахай и это мой первый пост. Я работаю в команде по внедрению платформы ZIIoT для промышленности. Конкретнее – отвечаю за архитектурные решения при внедрении платформы в информационный слой заказчика.

ZIIoT объединяет все источники промышленных данных на предприятии и через набор MES-сервисов позволяет управлять качеством, отслеживать генеалогию продукции, анализировать производительность, проводить оперативное и детальное планирование, контролировать состояние и распределение ресурсов и много чего еще. В связи с этим в платформе рождается большой объем информации, которая востребована в других информационных системах предприятия. Здесь я расскажу, как мы решали задачу построения информационных потоков и как нам в этом помог Apache NIFI.

Читать далее

https://habr.com/ru/post/660987/?utm_source=habrahabr&utm_medium=rss&utm_campaign=660987

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<etl - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda