dwh - Самое интересное в блогах

rss_habr

ETL и коннекторы к источникам данных: российские реалии

Среда, 11 Января 2023 г. 09:09 (ссылка)

За время работы над аналитическими отчетами по рынку отечественных BI-систем, о которых я уже рассказывал, мы поняли, что есть потребность в обзоре еще одного компонента – а вернее, даже двух связанных с BI. Речь про ETL и коннекторы. Им и посвящено наше новое исследование ETL-круг Громова.

Зачем?

Сейчас есть насущная необходимость в агрегированной информации о российских решениях. Да, в какой-то степени этот вопрос может закрыть всем известный реестр отечественного софта. Но, во-первых, там есть далеко не все решения. А во-вторых, информация о ПО там далеко не полная. Ведь кроме технических параметров нужно разобраться со многими другими, причем желательно в сравнении – реестр этого не позволяет сделать.

Вторая причина запуска исследования в том, что не все BI-платформы имеют собственные встроенные ETL, а значит, выбор ETL тесно связан с выбором BI-платформы. И раз уж последние мы регулярно изучаем, то и первым необходимо уделить определенное внимание.

Ну и третье: рынок российских ETL и коннекторов хоть, на наш взгляд, пока недостаточно развит, но он уже сформировался. Есть ряд сильных и сравнительно известных продуктов, но есть и быстро развивающиеся и весьма перспективные, потенциально способные изменить расклад на рынке. И сейчас, когда многим приходится искать замены для ранее используемых решений, информация о наличии российских предложений весьма актуальна.

https://habr.com/ru/post/709996/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709996

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Введение в архитектуру Greenplum

Среда, 28 Декабря 2022 г. 09:13 (ссылка)

В этой статье поговорим о Greenplum — СУБД, основанной на PostgreSQL. Разберём её общую архитектуру, способы хранения данных, а также перечислим проблемы, с которыми можно столкнуться в ходе эксплуатации.

https://habr.com/ru/post/708124/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708124

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

В DWH только Python

Пятница, 23 Декабря 2022 г. 12:03 (ссылка)

Вопреки названию, мы используем далеко не только Python. Но большой проект на любом языке требует к себе вдумчивый подход, особенно в плане учета особенностей языка и технологий.

Пройдя все стадии от отрицания до принятия в программировании на Python, могу сказать, что он нам подошел. Но будет неправдой сказать, что нас обошли стороной трудности и проблемы, связанные с особенностями разработки.

Про жизненные неурядицы и то, как мы их решали и продолжаем решать — об этом и немного об устройстве DWH в inDrive я и расскажу. А еще на примере кейсов разберу, что в проекте может пойти не так.

https://habr.com/ru/post/706842/?utm_source=habrahabr&utm_medium=rss&utm_campaign=706842

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Взаимодействие DWH Oracle и MS SQL

Среда, 14 Декабря 2022 г. 19:14 (ссылка)

В ряде статей планирую рассказать о подготовке данных, основных этапах разработки и дальнейшего использования данных в Microsoft Analysis Services (SSAS), о процессе построения аналитического хранилища данных на Microsoft SQL Server (MS SQL), о взаимодействии с базами данным Oracle и другими источниками нашего банка Совкомбанк, а также рассказать о возможностях MS SQL которые мы используем.

Основной задачей для создания аналитического хранилища является автоматизация сбора информации с источников, ее трансформации и представления готовых данных бизнес – аналитикам, помощи в анализе данных в управленческом учете, что помогает и упрощает исследования деятельности организации, нахождения проблем в бизнесе и последующих решений выявленных проблем.

Чаще всего аналитики сталкиваются с проблемами оперативного изменения агрегированных данных и выявлении факторов влияющими на эти данные. Довольно часто аналитики получают и анализирую данных в плоском сгруппированном виде, не всегда есть возможность без подключения технических специалистов разложить составляющие на самый низкий уровень гранулярности, определить неточности в данных. И физически человек не способен воспринимать многомиллионные строки данных, например в excel. Для этого на помощь приходит SSAS. В него можно загрузить большой объем данных и при необходимости развернуть до основных составляющих данных.

Дополнительно поставлю вопросы как цели: как мы упрощаем жизнь для бизнес – аналитиков, как вовремя и качественно сдаем отчетность в ЦБ, как с легкостью обрабатываем терабайты данных для предоставления их пользователям?

https://habr.com/ru/post/705538/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705538

Метки: oracle Microsoft SQL Server Хранилища данных Data Engineering sql mssql dwh olap-кубы olap powerbi polybase ssis ssas

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Моделирование доходов от подписки

Четверг, 08 Декабря 2022 г. 12:19 (ссылка)

Если вы являетесь аналитиком данных в SaaS-компании или предприятии электронной коммерции с компонентом подписки, вас обязательно попросят проанализировать такие метрики, как отток, апгрейды и даунгрейды.

https://habr.com/ru/post/704240/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704240

Метки: Блог компании OTUS Анализ и проектирование систем dwh data warehouse оптимизация производительности моделирование данных

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census

Вторник, 22 Ноября 2022 г. 17:50 (ссылка)

Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.

В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:

• Место reverse ETL в схеме потоков данных

• Потребность в решении задач операционной аналитики

• Различные способы организации reverse ETL

• Кейс: Census для синхронизации данных в Pipedrive CRM

https://habr.com/ru/post/700910/?utm_source=habrahabr&utm_medium=rss&utm_campaign=700910

Метки: Блог компании OTUS Big Data Data Engineering reverse etl census hightouch операционная аналитика DWH хранилище данных

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как в Тинькофф создавали Data Catalog

Четверг, 03 Ноября 2022 г. 12:29 (ссылка)

В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.

Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.

https://habr.com/ru/post/697220/?utm_source=habrahabr&utm_medium=rss&utm_campaign=697220

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Тактовый механизм управления DWH: как разгрести бесконечную очередь и не умереть

Пятница, 28 Октября 2022 г. 11:22 (ссылка)

Отдать управление загрузками в DWH на откуп ETL-инструменту или реализовать самим, что лучше? Если реализовать самим, то какой тип механизма выбрать? Как при этом снизить трудозатраты на разработку и сопровождение? Вопросы вечные и спорные, не хуже нетленной дискуссии «взлетит или не взлетит».

Под катом описание одного из вариантов – круглосуточно работающей автоматизированной системы управления DWH, не требующей постоянных ручных пинков (ну почти). Я расскажу о том, как в нашем хранилище решили выкрутить автоматизацию на максимум, к чему пришли и стоила ли игра свеч.

https://habr.com/ru/post/695416/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695416

Метки: Блог компании Ростелеком Анализ и проектирование систем хранилища данных DWH управляющий механизм управление данными в ростелеком асу

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] По существу: чем графовая база данных отличается от реляционной?

Понедельник, 24 Октября 2022 г. 17:55 (ссылка)

Конечно, вы и сами можете легко нагуглить ответы на этот вопрос, однако, как я обнаружил, большинство ответов, которые вы найдете, раскрывают эту тему чересчур поверхностно.

В сегодняшнем вечно занятом мире новые данные, теперь представляющие из себя фундаментальные активы большинства предприятий, создаются без остановки. Системы доступны 24/7, генерируя данные каждую секунду каждого дня. И даже больше, эти сложные композиции систем генерации и обработки данных непрерывно взаимодействуют друг с другом для предоставления услуг конечному пользователю. В последнее время я все чаще натыкаюсь на один вопрос, который заключается в следующем: как обстоят дела с графовыми базами данных и чем они выделяются на фоне реляционных? И в итоге я решил как следует разобраться в этой теме. Найти множество ответов на этот вопрос не представляет особого труда, достаточно просто немного погуглить. Однако, как я обнаружил, большинство ответов перечисляют преимущества очень поверхностно.

Именно поэтому я решил поделиться с вами в этой статье кратким разбором того, в чем по моему мнению заключается их истинная ценность — независимо от маркетинговых презентаций крупных компаний и технологических инфлюенсеров.

https://habr.com/ru/post/695180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695180

Метки: Блог компании OTUS data engineering Администрирование баз данных графовая база данных реляционная база данных data engineer dwh гео-данные

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)

Среда, 21 Сентября 2022 г. 12:11 (ссылка)

Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК.

Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в корпоративное хранилище на базе Hadoop, про сервис доставки сообщений в ИС и про разработанные сервисы, доступные на нашем Self-Serves портале.

https://habr.com/ru/post/686778/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686778

Метки: Блог компании Группа НЛМК Системное администрирование IT-инфраструктура Big Data kafka hadoop nifi dwh ops hive impala hbase

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

Пятница, 16 Сентября 2022 г. 10:48 (ссылка)

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:

• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;

• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.

https://habr.com/ru/post/688126/?utm_source=habrahabr&utm_medium=rss&utm_campaign=688126

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

Среда, 07 Сентября 2022 г. 10:48 (ссылка)

НЛМК- большая компания, производственные активы которой располагаются в разных регионах России и за рубежом. Перед нами стояла задача спроектировать и внедрить новую интеграционную платформу, которая могла бы быть использована для организации информационного обмена, учитывала специфику производственных предприятий и особенности решений, внедренных на протяжении последних десятков лет.

Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.

https://habr.com/ru/post/682978/?utm_source=habrahabr&utm_medium=rss&utm_campaign=682978

Метки: Блог компании Группа НЛМК Высокая производительность Системное администрирование Big Data kafka nifi hadoop dwh ops apache kafka hive impala

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как и почему мы внедрили Greenplum в КХД

Воскресенье, 24 Июля 2022 г. 15:48 (ссылка)

Привет, Хабр! Меня зовут Максим Солопин, в Росбанке я работаю архитектором корпоративного хранилища данных. В этом посте я расскажу о том, как мы переезжали из data lake, куда ежедневно сваливались все сырые данные, в удобную систему на основе Greenplum. А по дороге немного затрону развитие моделей корпоративных хранилищ данных.

https://habr.com/ru/post/678646/?utm_source=habrahabr&utm_medium=rss&utm_campaign=678646

Метки: Блог компании Росбанк IT-инфраструктура Администрирование баз данных Big Data Хранение данных greenplum хранилища данных data lake data warehouse dwh

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

Пятница, 03 Июня 2022 г. 16:32 (ссылка)

Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей.

https://habr.com/ru/post/669510/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669510

Метки: Big Data Data Engineering dwh surrogate key хэш

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Построение DWH на основе Greenplum

Понедельник, 30 Мая 2022 г. 11:52 (ссылка)

DBA в Southbridge Иван Чувашов подготовил статью о построении DWH на основе Greenplum. Слово Ивану.

Привет, Хабр! Я администратор баз данных с 15-летним опытом. Сегодня хочу рассказать про Data Warehouse на основе Greenplum — как они устроены, как их поднимать и с какими проблемами и нюансами я лично сталкивался в своей практике.

Читать про Greenplum

https://habr.com/ru/post/668490/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668490

Комментарии (0)Комментировать В цитатник или сообщество

Следующие 30 »

<dwh - Самое интересное в блогах

Страницы: [1] 2 3 .... 10