[Перевод] Ускорение разведочного анализа данных с использованием библиотеки pandas-profiling
|
|
Понедельник, 13 Мая 2019 г. 12:30
+ в цитатник
Первым делом, приступая к работе с новым набором данных, нужно понять его. Для того чтобы это сделать, нужно, например, выяснить диапазоны значений, принимаемых переменными, их типы, а также узнать о количестве пропущенных значений.
Библиотека pandas предоставляет нам множество полезных инструментов для выполнения разведочного анализа данных (Exploratory Data Analysis, EDA). Но, прежде чем воспользоваться ими, обычно нужно начать с функций более общего плана, таких как df.describe(). Правда, надо отметить, что возможности, предоставляемые подобными функциями, ограничены, а начальные этапы работы с любыми наборами данных при выполнении EDA очень часто сильно похожи друг на друга.
Автор материала, который мы сегодня публикуем, говорит, что он — не любитель выполнения повторяющихся действий. В результате он, в поисках средств, позволяющих быстро и эффективно выполнять разведочный анализ данных, нашёл библиотеку
pandas-profiling. Результаты её работы выражаются не в виде неких отдельных показателей, а в форме довольно подробного HTML-отчёта, содержащего большую часть тех сведений об анализируемых данных, которые может понадобиться знать перед тем, как приступать к более плотной работе с ними.
Читать дальше -> https://habr.com/ru/post/451478/?utm_source=habrahabr&utm_medium=rss&utm_campaign=451478
Метки:
Программирование
Анализ и проектирование систем
Хранение данных
Блог компании RUVDS.com
Pandas
Python
pandas-profiling
анализ данных
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-