Заметки дата-инженера: интеграция Kafka и PySpark

Понедельник, 05 Сентября 2022 г. 13:07 + в цитатник

Данная статья будет полезна тем, чья деятельность связана с Data Engineering, и тем, кто только знакомится с этой славной профессией. Вы узнаете про особенности настройки и интеграции Kafka со Structured Streaming, а также увидите различные способы чтения данных, работы с водяными метками и скользящим окном.

Привет, меня зовут Андрей, я работаю дата-инженером и по совместительству тимлидом разработки на проекте из банковского сектора. За плечами у меня и моих коллег большое количество успешных проектов, касающихся проектирования DWH и разработки ETL-процессов. Нам всем стали уже «родными» такие системы и инструменты как: Oracle, PostgreSQL, GreenPlum, Hive, Impala, YARN, Spark и Airflow (и прочие бигдата-покемоны), которые применялись в режиме пакетной обработки данных. А вот с потоковыми процессами на тот момент плотно работать ещё не приходилось. Нашей команде предстояло разработать «под ключ» систему типа «Real Time Marketing» – в онлайн формате анализировать действия пользователей в мобильном и интернет банке, сверяться и джойниться с множеством различных источников данных, чтобы в итоге эффективно генерировать актуальные и выгодные предложения для каждого из пользователей.

https://habr.com/ru/post/686242/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686242

<a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post494773360/">Р—Р°РјРµС‚РєРё РґР°С‚Р°-РёРЅР¶РµРЅРµСЂР°: РёРЅС‚РµРіСЂР°С†РёСЏ Kafka Рё PySpark</a><br/>Р”Р°РЅРЅР°СЏ СЃС‚Р°С‚СЊСЏ Р±СѓРґРµС‚ РїРѕР»РµР·РЅР° С‚РµРј, С‡СЊСЏ РґРµСЏС‚РµР»СЊРЅРѕСЃС‚СЊ СЃРІСЏР·Р°РЅР° СЃ Data Engineering, Рё С‚РµРј, РєС‚Рѕ С‚РѕР»СЊРєРѕ Р·РЅР°РєРѕРјРёС‚СЃСЏ СЃ СЌС‚РѕР№ СЃР»Р°РІРЅРѕР№ РїСЂРѕС„РµСЃСЃРёРµР№. Р’С‹ СѓР·РЅР°РµС‚Рµ РїСЂРѕ РѕСЃРѕР±РµРЅРЅРѕСЃС‚Рё РЅР°СЃС‚СЂРѕР№РєРё Рё РёРЅС‚РµРіСЂР°С†РёРё Kafka СЃРѕ Structured Streaming, Р° С‚Р°РєР¶Рµ СѓРІРёРґРёС‚Рµ СЂР°Р·Р»РёС‡РЅС‹Рµ СЃРїРѕСЃРѕР±С‹ С‡С‚РµРЅРёСЏ РґР°РЅРЅС‹С…, СЂР°Р±РѕС‚С‹ СЃ РІРѕРґСЏРЅС‹РјРё РјРµС‚РєР°РјРё Рё СЃРєРѕР»СЊР·СЏС‰РёРј РѕРєРЅРѕРј.РџСЂРёРІРµС‚, РјРµРЅСЏ Р·РѕРІСѓС‚ РђРЅРґСЂРµР№, СЏ СЂР°Р±РѕС‚Р°СЋ РґР°С‚Р°-РёРЅР¶РµРЅРµСЂРѕРј Рё РїРѕ СЃРѕРІРјРµСЃС‚РёС‚РµР»СЊСЃС‚РІСѓ С‚РёРјР»РёРґРѕРј СЂР°Р·СЂР°Р±РѕС‚РєРё РЅР° РїСЂРѕРµРєС‚Рµ РёР· Р±Р°РЅРєРѕРІСЃРєРѕРіРѕ СЃРµРєС‚РѕСЂР°. Р—Р° РїР»РµС‡Р°РјРё Сѓ РјРµРЅСЏ Рё РјРѕРёС… РєРѕР»Р»РµРі Р±РѕР»СЊС€РѕРµ РєРѕР»РёС‡РµСЃС‚РІРѕ СѓСЃРїРµС€РЅС‹С… РїСЂРѕРµРєС‚РѕРІ, РєР°СЃР°СЋС‰РёС…СЃСЏ РїСЂРѕРµРєС‚РёСЂРѕРІР°РЅРёСЏ DWH Рё СЂР°Р·СЂР°Р±РѕС‚РєРё ETL-РїСЂРѕС†РµСЃСЃРѕРІ. РќР°Рј РІСЃРµРј СЃС‚Р°Р»Рё СѓР¶Рµ В«СЂРѕРґРЅС‹РјРёВ» С‚Р°РєРёРµ... <a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post494773360/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Статистика

Заметки дата-инженера: интеграция Kafka и PySpark