[Перевод] Введение в Data Engineering. ETL, схема «звезды» и Airflow
|
|
Понедельник, 14 Мая 2018 г. 12:18
+ в цитатник
Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.
При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.
Читать дальше -> https://habr.com/post/358530/?utm_source=habrahabr&utm_medium=rss&utm_campaign=358530
Метки:
Администрирование баз данных
SQL
Data Mining
Big Data
Блог компании New Professions Lab
ETL
базы данных
data engineering
Airflow
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-