[Перевод] Масштабируем Kubernetes до 2500 нод
|
|
Четверг, 08 Февраля 2018 г. 17:12
+ в цитатник
Всем добра!
Ну что ж. Первый поток курса
DevOps выпущен, второй обучается вовсю и вот на подходе третий. Курс усовершенствуется, проект тоже, остаётся неизменным пока что одно: интересные статьи, которые мы пока что только переводим для вас, но на носу уже и срывы покровов с тех вещей, что у нас просили :)
Поехали!
Мы используем Kubernetes для исследования в области deep learning уже более двух лет. В то время, как наши самые масштабные нагрузки управляют облачными ВМ напрямую, Kubernetes обеспечивает быстрый итерационный цикл и масштабируемость, что делает его идеальным для наших экспериментов. Сейчас мы управляем несколькими Kubernetes кластерами (как облачными, так и на физическом оборудовании), самый крупный из них состоит из более 2500 нод — это кластер в Azure на комбинации виртуальных машин D15v2 и NC24.
Многие системные компоненты отказывали в процессе масштабирования, включая etcd, Kube мастеров, загрузки образов Docker, сети, KubeDNS и даже ARP кэши наших машин. Поэтому мы решили, что будет полезным поделиться, с какими проблемами мы столкнулись и как с ними справились.
Читать дальше ->
https://habrahabr.ru/post/348640/
Метки:
author MaxRokatansky
системное администрирование
серверное администрирование
it-
стандарты
devops
блог компании отус
kubernetes
system administration
node
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-