|
|
rss_habr
ETL и коннекторы к источникам данных: российские реалииСреда, 11 Января 2023 г. 09:09 (ссылка)
За время работы над аналитическими отчетами по рынку отечественных BI-систем, о которых я уже рассказывал, мы поняли, что есть потребность в обзоре еще одного компонента – а вернее, даже двух связанных с BI. Речь про ETL и коннекторы. Им и посвящено наше новое исследование ETL-круг Громова. Зачем? Сейчас есть насущная необходимость в агрегированной информации о российских решениях. Да, в какой-то степени этот вопрос может закрыть всем известный реестр отечественного софта. Но, во-первых, там есть далеко не все решения. А во-вторых, информация о ПО там далеко не полная. Ведь кроме технических параметров нужно разобраться со многими другими, причем желательно в сравнении – реестр этого не позволяет сделать. Вторая причина запуска исследования в том, что не все BI-платформы имеют собственные встроенные ETL, а значит, выбор ETL тесно связан с выбором BI-платформы. И раз уж последние мы регулярно изучаем, то и первым необходимо уделить определенное внимание. Ну и третье: рынок российских ETL и коннекторов хоть, на наш взгляд, пока недостаточно развит, но он уже сформировался. Есть ряд сильных и сравнительно известных продуктов, но есть и быстро развивающиеся и весьма перспективные, потенциально способные изменить расклад на рынке. И сейчас, когда многим приходится искать замены для ранее используемых решений, информация о наличии российских предложений весьма актуальна. Читать далееhttps://habr.com/ru/post/709996/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709996
rss_habr
[Перевод] Введение в архитектуру GreenplumСреда, 28 Декабря 2022 г. 09:13 (ссылка)
В этой статье поговорим о Greenplum — СУБД, основанной на PostgreSQL. Разберём её общую архитектуру, способы хранения данных, а также перечислим проблемы, с которыми можно столкнуться в ходе эксплуатации. Читать далееhttps://habr.com/ru/post/708124/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708124
rss_habr
В DWH только PythonПятница, 23 Декабря 2022 г. 12:03 (ссылка)
Вопреки названию, мы используем далеко не только Python. Но большой проект на любом языке требует к себе вдумчивый подход, особенно в плане учета особенностей языка и технологий. Пройдя все стадии от отрицания до принятия в программировании на Python, могу сказать, что он нам подошел. Но будет неправдой сказать, что нас обошли стороной трудности и проблемы, связанные с особенностями разработки. Про жизненные неурядицы и то, как мы их решали и продолжаем решать — об этом и немного об устройстве DWH в inDrive я и расскажу. А еще на примере кейсов разберу, что в проекте может пойти не так. Читать далееhttps://habr.com/ru/post/706842/?utm_source=habrahabr&utm_medium=rss&utm_campaign=706842
rss_habr
Взаимодействие DWH Oracle и MS SQLСреда, 14 Декабря 2022 г. 19:14 (ссылка)
В ряде статей планирую рассказать о подготовке данных, основных этапах разработки и дальнейшего использования данных в Microsoft Analysis Services (SSAS), о процессе построения аналитического хранилища данных на Microsoft SQL Server (MS SQL), о взаимодействии с базами данным Oracle и другими источниками нашего банка Совкомбанк, а также рассказать о возможностях MS SQL которые мы используем. Основной задачей для создания аналитического хранилища является автоматизация сбора информации с источников, ее трансформации и представления готовых данных бизнес – аналитикам, помощи в анализе данных в управленческом учете, что помогает и упрощает исследования деятельности организации, нахождения проблем в бизнесе и последующих решений выявленных проблем. Чаще всего аналитики сталкиваются с проблемами оперативного изменения агрегированных данных и выявлении факторов влияющими на эти данные. Довольно часто аналитики получают и анализирую данных в плоском сгруппированном виде, не всегда есть возможность без подключения технических специалистов разложить составляющие на самый низкий уровень гранулярности, определить неточности в данных. И физически человек не способен воспринимать многомиллионные строки данных, например в excel. Для этого на помощь приходит SSAS. В него можно загрузить большой объем данных и при необходимости развернуть до основных составляющих данных. Дополнительно поставлю вопросы как цели: как мы упрощаем жизнь для бизнес – аналитиков, как вовремя и качественно сдаем отчетность в ЦБ, как с легкостью обрабатываем терабайты данных для предоставления их пользователям? Читать далееhttps://habr.com/ru/post/705538/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705538
rss_habr
[Перевод] Моделирование доходов от подпискиЧетверг, 08 Декабря 2022 г. 12:19 (ссылка)
Если вы являетесь аналитиком данных в SaaS-компании или предприятии электронной коммерции с компонентом подписки, вас обязательно попросят проанализировать такие метрики, как отток, апгрейды и даунгрейды. Читать далееhttps://habr.com/ru/post/704240/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704240
rss_habr
Операционализация аналитики c инструментами класса reverse ETL – опыт использования CensusВторник, 22 Ноября 2022 г. 17:50 (ссылка)
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать. В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL: • Место reverse ETL в схеме потоков данных • Потребность в решении задач операционной аналитики • Различные способы организации reverse ETL • Кейс: Census для синхронизации данных в Pipedrive CRM Читать далееhttps://habr.com/ru/post/700910/?utm_source=habrahabr&utm_medium=rss&utm_campaign=700910
rss_habr
Как в Тинькофф создавали Data CatalogЧетверг, 03 Ноября 2022 г. 12:29 (ссылка)
В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять. Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта. Читать далееhttps://habr.com/ru/post/697220/?utm_source=habrahabr&utm_medium=rss&utm_campaign=697220
rss_habr
Тактовый механизм управления DWH: как разгрести бесконечную очередь и не умеретьПятница, 28 Октября 2022 г. 11:22 (ссылка)
Отдать управление загрузками в DWH на откуп ETL-инструменту или реализовать самим, что лучше? Если реализовать самим, то какой тип механизма выбрать? Как при этом снизить трудозатраты на разработку и сопровождение? Вопросы вечные и спорные, не хуже нетленной дискуссии «взлетит или не взлетит». Под катом описание одного из вариантов – круглосуточно работающей автоматизированной системы управления DWH, не требующей постоянных ручных пинков (ну почти). Я расскажу о том, как в нашем хранилище решили выкрутить автоматизацию на максимум, к чему пришли и стоила ли игра свеч. Читать далееhttps://habr.com/ru/post/695416/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695416
rss_habr
[Перевод] По существу: чем графовая база данных отличается от реляционной?Понедельник, 24 Октября 2022 г. 17:55 (ссылка)
Конечно, вы и сами можете легко нагуглить ответы на этот вопрос, однако, как я обнаружил, большинство ответов, которые вы найдете, раскрывают эту тему чересчур поверхностно. В сегодняшнем вечно занятом мире новые данные, теперь представляющие из себя фундаментальные активы большинства предприятий, создаются без остановки. Системы доступны 24/7, генерируя данные каждую секунду каждого дня. И даже больше, эти сложные композиции систем генерации и обработки данных непрерывно взаимодействуют друг с другом для предоставления услуг конечному пользователю. В последнее время я все чаще натыкаюсь на один вопрос, который заключается в следующем: как обстоят дела с графовыми базами данных и чем они выделяются на фоне реляционных? И в итоге я решил как следует разобраться в этой теме. Найти множество ответов на этот вопрос не представляет особого труда, достаточно просто немного погуглить. Однако, как я обнаружил, большинство ответов перечисляют преимущества очень поверхностно. Именно поэтому я решил поделиться с вами в этой статье кратким разбором того, в чем по моему мнению заключается их истинная ценность — независимо от маркетинговых презентаций крупных компаний и технологических инфлюенсеров. Читать далееhttps://habr.com/ru/post/695180/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695180
rss_habr
Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)Среда, 21 Сентября 2022 г. 12:11 (ссылка)
Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК. Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в корпоративное хранилище на базе Hadoop, про сервис доставки сообщений в ИС и про разработанные сервисы, доступные на нашем Self-Serves портале. Читать далееhttps://habr.com/ru/post/686778/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686778
rss_habr
Особенности построения хранилища данных на базе ClickHouse в Yandex CloudПятница, 16 Сентября 2022 г. 10:48 (ссылка)
В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы: • как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue; • как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути. Читать далееhttps://habr.com/ru/post/688126/?utm_source=habrahabr&utm_medium=rss&utm_campaign=688126
rss_habr
Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)Среда, 07 Сентября 2022 г. 10:48 (ссылка)
Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем. Читать далееhttps://habr.com/ru/post/682978/?utm_source=habrahabr&utm_medium=rss&utm_campaign=682978
rss_habr
Как и почему мы внедрили Greenplum в КХДВоскресенье, 24 Июля 2022 г. 15:48 (ссылка)
Привет, Хабр! Меня зовут Максим Солопин, в Росбанке я работаю архитектором корпоративного хранилища данных. В этом посте я расскажу о том, как мы переезжали из data lake, куда ежедневно сваливались все сырые данные, в удобную систему на основе Greenplum. А по дороге немного затрону развитие моделей корпоративных хранилищ данных. Читать далееhttps://habr.com/ru/post/678646/?utm_source=habrahabr&utm_medium=rss&utm_campaign=678646
rss_habr
Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWHПятница, 03 Июня 2022 г. 16:32 (ссылка)
Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей. Читать далееhttps://habr.com/ru/post/669510/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669510
rss_habr
Построение DWH на основе GreenplumПонедельник, 30 Мая 2022 г. 11:52 (ссылка)
DBA в Southbridge Иван Чувашов подготовил статью о построении DWH на основе Greenplum. Слово Ивану. Привет, Хабр! Я администратор баз данных с 15-летним опытом. Сегодня хочу рассказать про Data Warehouse на основе Greenplum — как они устроены, как их поднимать и с какими проблемами и нюансами я лично сталкивался в своей практике. Читать про Greenplumhttps://habr.com/ru/post/668490/?utm_source=habrahabr&utm_medium=rss&utm_campaign=668490
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |