[Перевод] Создаем конвейер потоковой обработки данных. Часть 1
|
|
Четверг, 30 Мая 2019 г. 17:41
+ в цитатник
Всем привет. Друзья, делимся с вами переводом статьи, подготовленным специально для студентов курса
«Data Engineer». Поехали!
Apache Beam и DataFlow для конвейеров реального времени
Сегодняшний пост основан на задаче, которой я недавно занимался на работе. Я был действительно рад, воплотить её и описать проделанную работу в формате блогпоста, поскольку это дало мне возможность позаниматься дата-инжинирингом, а также сделать что-то, что было бы весьма полезным для моей команды. Не так давно я обнаружил, что в наших системах хранится достаточно большой пользовательского лога, связанных с одним из наших продуктов для работы с данными. Оказалось, что никто не использовал эти данные, поэтому я сразу заинтересовался тем, что мы могли бы узнать, если бы начали регулярно анализировать их. Однако на пути было несколько проблем. Первая проблема заключалась в том, что данные хранились во многих различных текстовых файлах, которые не были доступны для мгновенного анализа. Вторая проблема заключалась в том, что они были сохранены в закрытой системе, поэтому я не мог использовать ни один из моих любимых инструментов для анализа данных.
Читать дальше -> https://habr.com/ru/post/454186/?utm_source=habrahabr&utm_medium=rss&utm_campaign=454186
Метки:
Блог компании OTUS. Онлайн-образование
Big Data
Хранение данных
Towards Data Science
Python
Data Science
Google Cloud Platform
Programming
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-