Четверг, 19 Апреля 2018 г. 15:58
+ в цитатник
Детектив в 1 части.
Эта история произошла в октябре.
Есть Ceph версии 0.94 (Hammer). 6 стораджей, 8 мониторов, по 6-8 osd на каждом сторадже, SSD диски объемом от 1 ТБ до 4 ТБ. Реплика — 2, минимум 1.
Как-то раз случилось такое: вечером прошел некий шторм по всему кластеру и самопроизвольно перезапустилось множество osd. В логах osd были видны стандартные для ceph ошибки вида
no reply from osd.X
. Немного slow requests и самопроизвольные рестарты, что для ceph не критическое событие и довольно частое. В общем, такое бывает. Но, к сожалению, не все перезапустившиеся osd смогли подняться. А именно пала героем osd.45 на storage6.
Читать дальше ->
https://habrahabr.ru/post/353854/
Метки:
author nikitashalnov
системное администрирование
отладка
*nix
блог компании semrush
ceph
true story
debug
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-