spark - Самое интересное в блогах

AveAdmin

🌵🤠 Арендаторы в Filament Laravel - жуткие ю-звери! 🐒🌴

Воскресенье, 05 Ноября 2023 г. 14:58 (ссылка)

Пытаясь разобраться с тем, как лучше спроектировать то, что я в итоге собираюсь явить Свету 🕯 (и Тьме 🕳 заодно), перевёл инструкцию по многопользовательскому режиму, реализованному в Filament Laravel

Настройка мультипользовательского режима в Filament. Документация с примерами на русском языке

Но... 🙀 В процессе перевода выяснилось, что: 👻

1. Это не про организацию многопользовательсктго режима... вернее, не совсем про это. Скорее, это про то, как создавать сервисы с доступом по подписке к определённым разделам сайта. 🤑 Заманчиво, но мне нужно не это... И всё там отталкивается от понятия Арендатор.

2. Что для работы с этим режимом есть готовое решение, но... оно платное (99$ на 1 проект и 199$ на неограниченное количество проектов), Laravel Spark называется, если кому нужно. Штука с виду полезная и навороченная. Она для того, чтобы деньги собирать и считать (если кратко, биллинг). 🤣 Тоже заманчиво, но, я ещё подумаю, покупать ли лицензию... ибо... реально штука полезная! 😺👍 с красивым дизайном! 😻😆

Так что, с этой шнягой, - пока откладываем... и занимаемся дальше тем, что изучаем Laravel

Продолжение преследует! ✌😸🏴‍☠

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Четверг, 12 Января 2023 г. 22:27 (ссылка)

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

https://habr.com/ru/post/710338/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710338

Метки: Python Big Data Hadoop Data Engineering fugue spark pyspark bigdata pandas

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Pyspark. Анализ больших данных, когда Pandas не достаточно

Четверг, 29 Декабря 2022 г. 15:27 (ссылка)

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

https://habr.com/ru/post/708468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708468

Метки: Python Big Data hadoop pandas pyspark bigdata spark нехватка памяти apache spark

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table

Среда, 07 Декабря 2022 г. 13:03 (ссылка)

В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet. В текущей статье продолжим рассматривать количество партиций у Spark DataFrame и DataSet, созданных на основе таблицы в Relational Database.

https://habr.com/ru/post/704010/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704010

Метки: Блог компании OTUS Data Engineering spark dataframe dataset relational Kubernetes

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] 2003–2023: Краткая история Big Data

Воскресенье, 04 Декабря 2022 г. 13:00 (ссылка)

Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind?

Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.

Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет¹ эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.

Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…

Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.

Читать дальше →

https://habr.com/ru/post/702932/?utm_source=habrahabr&utm_medium=rss&utm_campaign=702932

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Совместный доступ к Spark-датасетам из разных приложений — Redis нам в помощь

Пятница, 02 Декабря 2022 г. 14:25 (ссылка)

Apache Spark, универсальная платформа для крупномасштабной обработки данных, в сочетании с Redis способна обеспечить ускоренные расчеты в реальном времени для таких задач, как анализ временных рядов, прогнозы и рекомендации на основе машинного обучения и т. д.

Spark также способен извлекать датасеты в кэш-память кластера. Это невероятно полезно, когда приложению необходимо многократно запрашивать одни и те же данные. Если вы используете датасет, создание которого достаточно затратно, и который потом используется в вашем приложении не один раз, то этот датасет обязательно нужно кэшировать. Но если вы захотите получить доступ к этому датасету сразу из нескольких приложений, то вам придется поломать голову, как это сделать. Здесь на помощь приходит коннектор Spark-Redis.

https://habr.com/ru/post/703136/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703136

Метки: Блог компании OTUS Хранение данных spark spark- датасеты redis коннекторы обработка данных

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Автоматический подбор параметров для Spark-приложений на примере spark.executor.memory

Четверг, 24 Ноября 2022 г. 11:41 (ссылка)

Привет! Я – Валерия Дымбицкая, технический руководитель команды дата-инженеров в OneFactor. Это вторая часть статьи о том, как автоматически подбирать параметры для Spark-приложений на примере spark.executor.memory.

В первой части мы разбирали, как читать логи событий Spark и как достать из них три показателя того, насколько можно уменьшить память экзекьюторам (а также зачем это делать). Здесь я расскажу о том, как превратить это всё в работающую систему на продуктиве, используя довольно простые средства.

https://habr.com/ru/post/701136/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701136

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Автоматический подбор параметров для Spark-приложений

Четверг, 27 Октября 2022 г. 11:12 (ссылка)

Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов.

Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода.

В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили.

Зачем нам вообще понадобился автоматический тюнинг?

Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось.

Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из

https://habr.com/ru/post/695562/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695562

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

Пятница, 14 Октября 2022 г. 12:08 (ссылка)

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, насколько пользователям выгодно покупать на Ozon, и выстраивать ценообразование на основе этой информации.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

https://habr.com/ru/post/692860/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692860

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Подводные камни Spark: что делать с перезаписью и дополнением в таблицах

Среда, 12 Октября 2022 г. 11:05 (ссылка)

Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.
Читать дальше →

https://habr.com/ru/post/692552/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692552

Метки: Блог компании VK Администрирование баз данных Big Data Хранение данных Хранилища данных vk cloud базы данных Spark Hive Hadoop Delta Lake

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet

Пятница, 02 Сентября 2022 г. 18:17 (ссылка)

Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции.

https://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142

Метки: Блог компании OTUS API spark data api Дата инженер партиции

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Что должен знать дата-инженер. Роадмап для джуниора

Вторник, 30 Августа 2022 г. 11:02 (ссылка)

Привет, username! Меня зовут Иван Васенков и я джуниор дата-инженер в дирекции данных и аналитики Lamoda. Но к этой профессии я пришел не сразу: окончив университет, я начал работать аналитиком данных, затем стал BI-разработчиком, а уже после этого — дата-инженером.

На моем пути были простые и сложные участки: где-то помогал опыт предыдущей работы, а где-то приходилось доучиваться практически на ходу. Именно поэтому я хочу поделиться советами из своего опыта, которые помогут начинающим специалистам быть максимально готовыми к вступлению в мир дата-инжиниринга.

https://habr.com/ru/post/684658/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684658

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как организовать потоковую обработку данных. Часть 1

Четверг, 25 Августа 2022 г. 14:00 (ссылка)

Привет, Хабр! Меня зовут Евгений Ненахов, я работаю в центре Big Data МТС Digital. В этой статье я расскажу о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. Если вам интересна обработка данных – добро пожаловать под кат!

https://habr.com/ru/post/684476/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684476

Метки: Блог компании МТС Data Mining big data Data Engineering streaming spark scala

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Параллельные вычисления в Apache Spark

Вторник, 23 Августа 2022 г. 12:42 (ссылка)

Всем привет!

Иногда кажется, что для решения проблемы недостаточно простого выполнения расчётов в Spark и хочется более эффективно использовать доступные ресурсы. Меня зовут Илья Панов, я инженер данных в одном из продуктов X5 Tech, и хочу поделиться некоторыми подходами параллельных вычислений в Apache Spark.

https://habr.com/ru/post/684024/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684024

Метки: Блог компании X5 Tech Big Data Data Engineering spark hadoop bigdata python

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Пять советов по исправлению перекошенных соединений в Apache Spark

Среда, 03 Августа 2022 г. 11:00 (ссылка)

Соединения (Joins) являются одними из наиболее фундаментальных преобразований в типичной процедуре обработки данных. Оператор Join позволяет коррелировать, обогащать и фильтровать два входных набора (пакета / блока) данных (Datasets).

Обычно два входных набора данных классифицируются как левый и правый на основе их расположения по отношению к пункту/оператору Join.

По сути, соединение работает на основе условного оператора, который включает логическое выражение, основанное на сравнении между левым ключом, полученным из записи левого блока данных, и правым ключом, полученным из записи правого комплекса данных. Левый и правый ключи обычно называются соединительными ключами (Join Keys). Логическое выражение оценивается для каждой пары записей из двух входных наборов данных. На основе логического вывода, полученного в результате оценки выражения, условный оператор включает условие выбора — для отбора либо одной из записей (из пары), либо комбинированной записи (из записей, образующих пару).
Читать дальше →

https://habr.com/ru/post/678826/?utm_source=habrahabr&utm_medium=rss&utm_campaign=678826

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как реализовать магию Sqoop для загрузки данных через Spark

Пятница, 29 Июля 2022 г. 16:19 (ссылка)

Очень часто приходится слышать, что Sqoop — это серебряная пуля для загрузки данных большого объёма с реляционных БД в Hadoop, особенно с Oracle, и Spark-ом невозможно достигнуть такой производительности. При этом приводят аргументы, что sqoop — это инструмент, заточенный под загрузку, а Spark предназначен для обработки данных.

Меня зовут Максим Петров, я руководитель департамента "Чаптер инженеров данных и разработчиков", и я решил написать инструкцию о том, как правильно и быстро загружать данные Spark, основываясь на принципах загрузки Sqoop.

Первичное сравнение технологий

В нашем примере будем рассматривать загрузку данных из таблиц OracleDB.

Рассмотрим случай, когда нам необходимо полностью перегрузить таблицу/партицию на кластер Hadoop c созданием метаданных hive.

https://habr.com/ru/post/679876/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679876

Метки: Блог компании билайн бизнес sql Big Data хранение данных hadoop sqoop spark apache большие данные

Комментарии (0)Комментировать В цитатник или сообщество

Следующие 30 »

<spark - Самое интересное в блогах

Страницы: [1] 2 3 .... 10