Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 575 сообщений
Cообщения с меткой

spark - Самое интересное в блогах

Следующие 30  »
AveAdmin

🌵🤠 Арендаторы в Filament Laravel - жуткие ю-звери! 🐒🌴

Воскресенье, 05 Ноября 2023 г. 14:58 (ссылка)

Настройка мультипользовательского режима в Filament. Документация с примерами на русском языке/1895452_izobrajenie_20231105_145648879 (700x253, 137Kb)



Пытаясь разобраться с тем, как лучше спроектировать то, что я в итоге собираюсь явить Свету 🕯 (и Тьме 🕳 заодно), перевёл инструкцию по многопользовательскому режиму, реализованному в Filament Laravel



Настройка мультипользовательского режима в Filament. Документация с примерами на русском языке



Но... 🙀 В процессе перевода выяснилось, что: 👻



1. Это не про организацию многопользовательсктго режима... вернее, не совсем про это. Скорее, это про то, как создавать сервисы с доступом по подписке к определённым разделам сайта. 🤑 Заманчиво, но мне нужно не это... И всё там отталкивается от понятия Арендатор.



2. Что для работы с этим режимом есть готовое решение, но... оно платное (99$ на 1 проект и 199$ на неограниченное количество проектов), Laravel Spark называется, если кому нужно. Штука с виду полезная и навороченная. Она для того, чтобы деньги собирать и считать (если кратко, биллинг). 🤣 Тоже заманчиво, но, я ещё подумаю, покупать ли лицензию... ибо... реально штука полезная! 😺👍 с красивым дизайном! 😻😆



Так что, с этой шнягой, - пока откладываем... и занимаемся дальше тем, что изучаем Laravel



Продолжение преследует! ✌😸🏴‍☠

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Четверг, 12 Января 2023 г. 22:27 (ссылка)

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

Читать далее

https://habr.com/ru/post/710338/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710338

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Pyspark. Анализ больших данных, когда Pandas не достаточно

Четверг, 29 Декабря 2022 г. 15:27 (ссылка)

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Читать далее

https://habr.com/ru/post/708468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708468

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table

Среда, 07 Декабря 2022 г. 13:03 (ссылка)

В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet. В текущей статье продолжим рассматривать количество партиций у Spark DataFrame и DataSet, созданных на основе таблицы в Relational Database.

Читать далее

https://habr.com/ru/post/704010/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704010

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] 2003–2023: Краткая история Big Data

Воскресенье, 04 Декабря 2022 г. 13:00 (ссылка)

Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind?



Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.



Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет1 эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.



Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…



Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.

Читать дальше →

https://habr.com/ru/post/702932/?utm_source=habrahabr&utm_medium=rss&utm_campaign=702932

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Совместный доступ к Spark-датасетам из разных приложений — Redis нам в помощь

Пятница, 02 Декабря 2022 г. 14:25 (ссылка)

Apache Spark, универсальная платформа для крупномасштабной обработки данных, в сочетании с Redis способна обеспечить ускоренные расчеты в реальном времени для таких задач, как анализ временных рядов, прогнозы и рекомендации на основе машинного обучения и т. д.

Spark также способен извлекать датасеты в кэш-память кластера. Это невероятно полезно, когда приложению необходимо многократно запрашивать одни и те же данные. Если вы используете датасет, создание которого достаточно затратно, и который потом используется в вашем приложении не один раз, то этот датасет обязательно нужно кэшировать. Но если вы захотите получить доступ к этому датасету сразу из нескольких приложений, то вам придется поломать голову, как это сделать. Здесь на помощь приходит коннектор Spark-Redis.

Читать далее

https://habr.com/ru/post/703136/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703136

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Автоматический подбор параметров для Spark-приложений на примере spark.executor.memory

Четверг, 24 Ноября 2022 г. 11:41 (ссылка)

Привет! Я – Валерия Дымбицкая, технический руководитель команды дата-инженеров в OneFactor. Это вторая часть статьи о том, как автоматически подбирать параметры для Spark-приложений на примере spark.executor.memory.

В первой части мы разбирали, как читать логи событий Spark и как достать из них три показателя того, насколько можно уменьшить память экзекьюторам (а также зачем это делать). Здесь я расскажу о том, как превратить это всё в работающую систему на продуктиве, используя довольно простые средства.

Читать далее

https://habr.com/ru/post/701136/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701136

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Автоматический подбор параметров для Spark-приложений

Четверг, 27 Октября 2022 г. 11:12 (ссылка)

Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов.

Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода.

В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили.

Зачем нам вообще понадобился автоматический тюнинг?

Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось.

Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из

Читать далее

https://habr.com/ru/post/695562/?utm_source=habrahabr&utm_medium=rss&utm_campaign=695562

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

Пятница, 14 Октября 2022 г. 12:08 (ссылка)

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, насколько пользователям выгодно покупать на Ozon, и выстраивать ценообразование на основе этой информации.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее

https://habr.com/ru/post/692860/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692860

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Подводные камни Spark: что делать с перезаписью и дополнением в таблицах

Среда, 12 Октября 2022 г. 11:05 (ссылка)





Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.
Читать дальше →

https://habr.com/ru/post/692552/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692552

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet

Пятница, 02 Сентября 2022 г. 18:17 (ссылка)

Любое Spark Data API: DataFrame, RDD, DataSet состоит из партиций. Партиция — это часть данных, аллоцированных в оперативной памяти воркеров (жестком диске при кэшировании) для параллельных преобразований. Например, можно одновременно прибавить какое-то число к каждому элементу из партиции. Распределение элементов по партициям и их количество может происходить по принципу round-robin либо по хэшу от какой-то колонки в результате различных операций и зависит от типа операции.

Читать далее

https://habr.com/ru/post/686142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=686142

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Что должен знать дата-инженер. Роадмап для джуниора

Вторник, 30 Августа 2022 г. 11:02 (ссылка)

Привет, username! Меня зовут Иван Васенков и я джуниор дата-инженер в дирекции данных и аналитики Lamoda. Но к этой профессии я пришел не сразу: окончив университет, я начал работать аналитиком данных, затем стал BI-разработчиком, а уже после этого — дата-инженером.

На моем пути были простые и сложные участки: где-то помогал опыт предыдущей работы, а где-то приходилось доучиваться практически на ходу. Именно поэтому я хочу поделиться советами из своего опыта, которые помогут начинающим специалистам быть максимально готовыми к вступлению в мир дата-инжиниринга.

Читать далее

https://habr.com/ru/post/684658/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684658

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как организовать потоковую обработку данных. Часть 1

Четверг, 25 Августа 2022 г. 14:00 (ссылка)

Привет, Хабр! Меня зовут Евгений Ненахов, я работаю в центре Big Data МТС Digital. В этой статье я расскажу о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. Если вам интересна обработка данных – добро пожаловать под кат!

Читать далее

https://habr.com/ru/post/684476/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684476

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Параллельные вычисления в Apache Spark

Вторник, 23 Августа 2022 г. 12:42 (ссылка)

Всем привет!

Иногда кажется, что для решения проблемы недостаточно простого выполнения расчётов в Spark и хочется более эффективно использовать доступные ресурсы. Меня зовут Илья Панов, я инженер данных в одном из продуктов X5 Tech, и хочу поделиться некоторыми подходами параллельных вычислений в Apache Spark.

Читать далее

https://habr.com/ru/post/684024/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684024

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

[Перевод] Пять советов по исправлению перекошенных соединений в Apache Spark

Среда, 03 Августа 2022 г. 11:00 (ссылка)



Соединения (Joins) являются одними из наиболее фундаментальных преобразований в типичной процедуре обработки данных. Оператор Join позволяет коррелировать, обогащать и фильтровать два входных набора (пакета / блока) данных (Datasets).

Обычно два входных набора данных классифицируются как левый и правый на основе их расположения по отношению к пункту/оператору Join.
По сути, соединение работает на основе условного оператора, который включает логическое выражение, основанное на сравнении между левым ключом, полученным из записи левого блока данных, и правым ключом, полученным из записи правого комплекса данных. Левый и правый ключи обычно называются соединительными ключами (Join Keys). Логическое выражение оценивается для каждой пары записей из двух входных наборов данных. На основе логического вывода, полученного в результате оценки выражения, условный оператор включает условие выбора — для отбора либо одной из записей (из пары), либо комбинированной записи (из записей, образующих пару).
Читать дальше →

https://habr.com/ru/post/678826/?utm_source=habrahabr&utm_medium=rss&utm_campaign=678826

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Как реализовать магию Sqoop для загрузки данных через Spark

Пятница, 29 Июля 2022 г. 16:19 (ссылка)

Очень часто приходится слышать, что Sqoop — это серебряная пуля для загрузки данных большого объёма с реляционных БД в Hadoop, особенно с Oracle, и Spark-ом невозможно достигнуть такой производительности. При этом приводят аргументы, что sqoop — это инструмент, заточенный под загрузку, а Spark предназначен для обработки данных.

Меня зовут Максим Петров, я руководитель департамента "Чаптер инженеров данных и разработчиков", и я решил написать инструкцию о том, как правильно и быстро загружать данные Spark, основываясь на принципах загрузки Sqoop.

Первичное сравнение технологий

В нашем примере будем рассматривать загрузку данных из таблиц OracleDB.

Рассмотрим случай, когда нам необходимо полностью перегрузить таблицу/партицию на кластер Hadoop c созданием метаданных hive.

Читать далее

https://habr.com/ru/post/679876/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679876

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<spark - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda