[Перевод] Создаем конвейер потоковой обработки данных. Часть 1

Четверг, 30 Мая 2019 г. 17:41 + в цитатник

Всем привет. Друзья, делимся с вами переводом статьи, подготовленным специально для студентов курса «Data Engineer». Поехали!

Apache Beam и DataFlow для конвейеров реального времени

Сегодняшний пост основан на задаче, которой я недавно занимался на работе. Я был действительно рад, воплотить её и описать проделанную работу в формате блогпоста, поскольку это дало мне возможность позаниматься дата-инжинирингом, а также сделать что-то, что было бы весьма полезным для моей команды. Не так давно я обнаружил, что в наших системах хранится достаточно большой пользовательского лога, связанных с одним из наших продуктов для работы с данными. Оказалось, что никто не использовал эти данные, поэтому я сразу заинтересовался тем, что мы могли бы узнать, если бы начали регулярно анализировать их. Однако на пути было несколько проблем. Первая проблема заключалась в том, что данные хранились во многих различных текстовых файлах, которые не были доступны для мгновенного анализа. Вторая проблема заключалась в том, что они были сохранены в закрытой системе, поэтому я не мог использовать ни один из моих любимых инструментов для анализа данных. Читать дальше ->

https://habr.com/ru/post/454186/?utm_source=habrahabr&utm_medium=rss&utm_campaign=454186

<a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post455709565/">[РџРµСЂРµРІРѕРґ] РЎРѕР·РґР°РµРј РєРѕРЅРІРµР№РµСЂ РїРѕС‚РѕРєРѕРІРѕР№ РѕР±СЂР°Р±РѕС‚РєРё РґР°РЅРЅС‹С…. Р§Р°СЃС‚СЊ 1</a><br/>Р’СЃРµРј РїСЂРёРІРµС‚. Р”СЂСѓР·СЊСЏ, РґРµР»РёРјСЃСЏ СЃ РІР°РјРё РїРµСЂРµРІРѕРґРѕРј СЃС‚Р°С‚СЊРё, РїРѕРґРіРѕС‚РѕРІР»РµРЅРЅС‹Рј СЃРїРµС†РёР°Р»СЊРЅРѕ РґР»СЏ СЃС‚СѓРґРµРЅС‚РѕРІ РєСѓСЂСЃР° В«Data EngineerВ». РџРѕРµС…Р°Р»Рё!

Apache Beam Рё DataFlow РґР»СЏ РєРѕРЅРІРµР№РµСЂРѕРІ СЂРµР°Р»СЊРЅРѕРіРѕ РІСЂРµРјРµРЅРё
РЎРµРіРѕРґРЅСЏС€РЅРёР№ РїРѕСЃС‚ РѕСЃРЅРѕРІР°РЅ РЅР° Р·Р°РґР°С‡Рµ, РєРѕС‚РѕСЂРѕР№ СЏ РЅРµРґР°РІРЅРѕ Р·Р°РЅРёРјР°Р»СЃСЏ РЅР° СЂР°Р±РѕС‚Рµ. РЇ Р±С‹Р» РґРµР№СЃС‚РІРёС‚РµР»СЊРЅРѕ СЂР°Рґ, РІРѕРїР»РѕС‚РёС‚СЊ РµС‘ Рё РѕРїРёСЃР°С‚СЊ РїСЂРѕРґРµР»Р°РЅРЅСѓСЋ СЂР°Р±РѕС‚Сѓ РІ С„РѕСЂРјР°С‚Рµ Р±Р»РѕРіРїРѕСЃС‚Р°, РїРѕСЃРєРѕР»СЊРєСѓ СЌС‚Рѕ РґР°Р»Рѕ РјРЅРµ РІРѕР·РјРѕР¶РЅРѕСЃС‚СЊ РїРѕР·Р°РЅРёРјР°С‚СЊСЃСЏ РґР°С‚Р°-РёРЅР¶РёРЅРёСЂРёРЅРіРѕРј, Р° С‚Р°РєР¶Рµ СЃРґРµР»Р°С‚СЊ С‡С‚Рѕ-С‚Рѕ, С‡С‚Рѕ Р±С‹Р»Рѕ Р±С‹ РІРµСЃСЊРјР° РїРѕР»РµР·РЅС‹Рј РґР»СЏ РјРѕРµР№ РєРѕРјР°РЅРґС‹. РќРµ С‚Р°Рє РґР°РІРЅРѕ СЏ РѕР±РЅР°СЂСѓР¶РёР», С‡С‚Рѕ РІ РЅР°С€РёС… СЃРёСЃС‚РµРјР°С… С…СЂР°РЅРёС‚СЃСЏ РґРѕСЃС‚Р°С‚РѕС‡РЅРѕ Р±РѕР»СЊС€РѕР№ РїРѕР»СЊР·РѕРІР°С‚РµР»СЊСЃРєРѕРіРѕ Р»РѕРіР°, СЃРІСЏР·Р°РЅРЅС‹С… СЃ РѕРґРЅ... <a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post455709565/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Статистика

[Перевод] Создаем конвейер потоковой обработки данных. Часть 1

Apache Beam и DataFlow для конвейеров реального времени