Записи Друзья Комментарии

rss habrahabr main rss habrahabr main

Аватар rss_habrahabr_main

-Поиск по дневнику

-Подписка по e-mail

-Постоянные читатели

~~Folko85~~

-Статистика

Создан: 12.12.2008
Записей:
Комментариев:
Написано: 3

Отчеты:
Посетители
Поисковые фразы

Лучший формат данных, для хранения pandas.DataFrame

Понедельник, 16 Января 2023 г. 12:01 + в цитатник

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье, хочу поделится с вами, информацией в области хранения данных.

На сегодняшний день существует огромное количество форматов для хранения данных, и, используя библиотеку Pandas при обработке большого объёма данных, возникает вопрос – а какой формат, с которыми Pandas работает «из коробки», даст наибольшую производительность, при дальнейшем использовании, обработанного DataFrame?

Ремарка: поиск информации по этой теме, привёл меня к репозиторию, за авторством Devforfu (ссылка), но так как информация в нём датируется 2019 годом, а за этот период вышло множество обновлений, я решил написать «свежий» бенчмарк, основываясь на принципах автора – ссылка на обновленный бенчмарк. Отмечу, что из-за слишком большой разницы в полученных результатах, я склоняюсь к тому, что мог совершить ошибку, поэтому далее в статье будет указана информация по оригиналу.

В качестве тестируемых форматов использовались следующие варианты: CSV (как самый популярный текстовый формат), Pickle, Feather, Parquet, Msgpack, HDF. Для сравнения будем использовать следующие метрики: размер сериализованного файла, время загрузки DataFrame из файла, время сохранения DataFrame в файл, потребление оперативной памяти при сохранении и загрузке DataFrame.

Тестовые данные – сгенерированный DataFrame с 1 миллионом строк, 15 столбцами цифр и 15 столбцами строковых значений. Генерация численных данных проводилась с помощью numpy. random.normal, в качестве строчных данных использовались UUID. С появлением в Pandas, категориального типа данных (Categorical data), который использует гораздо меньше памяти и более производительней в обработке (обширный материал для другой статьи), интересно также сравнить насколько изменится производительность форматов, поэтому ещё одним этапом сравнения в тестовых данных стал перевод формата «object» к формату «category».

https://habr.com/ru/post/710798/?utm_source=habrahabr&utm_medium=rss&utm_campaign=710798

<a href="https://www.liveinternet.ru/users/rss_habrahabr_main/post497592709/">Р›СѓС‡С€РёР№ С„РѕСЂРјР°С‚ РґР°РЅРЅС‹С…, РґР»СЏ С…СЂР°РЅРµРЅРёСЏ pandas.DataFrame</a><br/>РџСЂРёРІРµС‚, РҐР°Р±СЂ!РњРµРЅСЏ Р·РѕРІСѓС‚ Р’Р°РґРёРј РњРѕСЃРєР°Р»РµРЅРєРѕ Рё СЏ СЂР°Р·СЂР°Р±РѕС‚С‡РёРє РёРЅРЅРѕРІР°С†РёРѕРЅРЅС‹С… С‚РµС…РЅРѕР»РѕРіРёР№ РЎС‚СЂР°С…РѕРІРѕРіРѕ Р”РѕРјР° Р’РЎРљ. Р’ СЌС‚РѕР№ СЃС‚Р°С‚СЊРµ, С…РѕС‡Сѓ РїРѕРґРµР»РёС‚СЃСЏ СЃ РІР°РјРё, РёРЅС„РѕСЂРјР°С†РёРµР№ РІ РѕР±Р»Р°СЃС‚Рё С…СЂР°РЅРµРЅРёСЏ РґР°РЅРЅС‹С….РќР° СЃРµРіРѕРґРЅСЏС€РЅРёР№ РґРµРЅСЊ СЃСѓС‰РµСЃС‚РІСѓРµС‚ РѕРіСЂРѕРјРЅРѕРµ РєРѕР»РёС‡РµСЃС‚РІРѕ С„РѕСЂРјР°С‚РѕРІ РґР»СЏ С…СЂР°РЅРµРЅРёСЏ РґР°РЅРЅС‹С…, Рё, РёСЃРїРѕР»СЊР·СѓСЏ Р±РёР±Р»РёРѕС‚РµРєСѓ Pandas РїСЂРё РѕР±СЂР°Р±РѕС‚РєРµ Р±РѕР»СЊС€РѕРіРѕ РѕР±СЉС‘РјР° РґР°РЅРЅС‹С…, РІРѕР·РЅРёРєР°РµС‚ РІРѕРїСЂРѕСЃ вЂ“ Р° РєР°РєРѕР№ С„РѕСЂРјР°С‚, СЃ РєРѕС‚РѕСЂС‹РјРё Pandas СЂР°Р±РѕС‚Р°РµС‚ В«РёР· РєРѕСЂРѕР±РєРёВ», РґР°СЃС‚ РЅР°РёР±РѕР»СЊС€СѓСЋ РїСЂРѕРёР·РІРѕРґРёС‚РµР»СЊРЅРѕСЃС‚СЊ, РїСЂРё РґР°Р»СЊРЅРµР№С€РµРј РёСЃРїРѕР»СЊР·РѕРІР°РЅРёРё, РѕР±СЂР°Р±РѕС‚Р°РЅРЅРѕРіРѕ DataFrame?Р РµРјР°СЂРєР°: РїРѕРёСЃРє РёРЅС„РѕСЂРјР°С†РёРё РїРѕ СЌС‚РѕР№ С‚РµРјРµ, РїСЂРёРІС‘Р» РјРµРЅСЏ Рє СЂРµРїРѕР·РёС‚РѕСЂРёСЋ, Р·Р° Р°РІС‚РѕСЂСЃС‚РІРѕРј Devforfu (СЃСЃС‹Р»РєР°), РЅРѕ С‚Р°... <a href="https://www.liveinternet.ru/users/rss_habrahabr_main/post497592709/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Постоянные читатели

-Статистика

Лучший формат данных, для хранения pandas.DataFrame