Microsoft ML Spark: расширение Spark, делающее SparkML человечнее, и LightGBM как бонус

Понедельник, 24 Июня 2019 г. 17:03 + в цитатник

Многие, кто работал с Spark ML, знают, что некоторые вещи там сделаны "не совсем удачно"
или не сделаны вообще. Позиция разработчиков Spark в том, что SparkML — это базовая платформа, а все расширения должны быть отдельными пакетами. Но это не всегда удобно, ведь Data Scientist и аналитики хотят работать с привычными инструментами (Jupter, Zeppelin), где есть большая часть того, что нужно. Они не хотят собирать при помощи maven-assembly JAR-файлы на 500 мегабайт или руками скачивать зависимости и добавлять в параметры запуска Spark. А более тонкая работа с системами сборки JVM-проектов может потребовать от привыкшых к Jupyter/Zeppelin аналитиков и DataScientist-ов много дополнительных усилий. Просить же DevOps-ов и администраторов кластера ставить кучу пакетов на вычислительные ноды — явно плохая идея. Тот, кто писал расширения для SparkML самостоятельно, знает, сколько там скрытых трудностей с важными классами и методами (которые почему-то private[ml]), ограничениями на типы сохраняемых параметров и т.д.

И кажется, что теперь, с библиотекой MMLSpark, жизнь станет немного проще, а порог вхождения в масштабируемое машинное обучение со SparkML и Scala чуть ниже.

Читать дальше ->

https://habr.com/ru/post/456668/?utm_source=habrahabr&utm_medium=rss&utm_campaign=456668

<a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post456849740/">Microsoft ML Spark: СЂР°СЃС€РёСЂРµРЅРёРµ Spark, РґРµР»Р°СЋС‰РµРµ SparkML С‡РµР»РѕРІРµС‡РЅРµРµ, Рё LightGBM РєР°Рє Р±РѕРЅСѓСЃ</a><br/>РњРЅРѕРіРёРµ, РєС‚Рѕ СЂР°Р±РѕС‚Р°Р» СЃ Spark ML, Р·РЅР°СЋС‚, С‡С‚Рѕ РЅРµРєРѕС‚РѕСЂС‹Рµ РІРµС‰Рё С‚Р°Рј СЃРґРµР»Р°РЅС‹ "РЅРµ СЃРѕРІСЃРµРј СѓРґР°С‡РЅРѕ"
РёР»Рё РЅРµ СЃРґРµР»Р°РЅС‹ РІРѕРѕР±С‰Рµ. РџРѕР·РёС†РёСЏ СЂР°Р·СЂР°Р±РѕС‚С‡РёРєРѕРІ Spark РІ С‚РѕРј, С‡С‚Рѕ SparkML вЂ” СЌС‚Рѕ Р±Р°Р·РѕРІР°СЏ РїР»Р°С‚С„РѕСЂРјР°, Р° РІСЃРµ СЂР°СЃС€РёСЂРµРЅРёСЏ РґРѕР»Р¶РЅС‹ Р±С‹С‚СЊ РѕС‚РґРµР»СЊРЅС‹РјРё РїР°РєРµС‚Р°РјРё. РќРѕ СЌС‚Рѕ РЅРµ РІСЃРµРіРґР° СѓРґРѕР±РЅРѕ, РІРµРґСЊ Data Scientist Рё Р°РЅР°Р»РёС‚РёРєРё С…РѕС‚СЏС‚ СЂР°Р±РѕС‚Р°С‚СЊ СЃ РїСЂРёРІС‹С‡РЅС‹РјРё РёРЅСЃС‚СЂСѓРјРµРЅС‚Р°РјРё (Jupter, Zeppelin), РіРґРµ РµСЃС‚СЊ Р±РѕР»СЊС€Р°СЏ С‡Р°СЃС‚СЊ С‚РѕРіРѕ, С‡С‚Рѕ РЅСѓР¶РЅРѕ. РћРЅРё РЅРµ С…РѕС‚СЏС‚ СЃРѕР±РёСЂР°С‚СЊ РїСЂРё РїРѕРјРѕС‰Рё maven-assembly JAR-С„Р°Р№Р»С‹ РЅР° 500 РјРµРіР°Р±Р°Р№С‚ РёР»Рё СЂСѓРєР°РјРё СЃРєР°С‡РёРІР°С‚СЊ Р·Р°РІРёСЃРёРјРѕСЃС‚Рё Рё РґРѕР±Р°РІР»СЏС‚СЊ РІ РїР°СЂР°РјРµС‚СЂС‹ Р·Р°РїСѓСЃРєР° Spark. Рђ Р±РѕР»РµРµ С‚РѕРЅРєР°СЏ СЂР°Р±РѕС‚Р° СЃ СЃРёСЃС‚РµРјР°РјРё СЃР±РѕСЂРєРё JVM-РїСЂРѕРµРєС‚РѕРІ РјРѕР¶РµС‚ ... <a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post456849740/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Статистика

Microsoft ML Spark: расширение Spark, делающее SparkML человечнее, и LightGBM как бонус