Minecraft for Everypony Дружбомагия в каждом кубике!

Blameless Postmortem: перебои с доступом к серверу

@

Что случилось?

С 11:30 по 18:30 (MSK) сервер был недоступен для игры из-за сбоя диска в RAID-массиве.

Разбор инцидента

MC4EP использует массив RAID1 с трёмя дисками: это значит, что в сервере есть три SSD, каждый из которых содержит точную копию всех данных. Таким образом, при сбое одного диска остаётся две копии, и сервер может (должен) работать, как обычно.

Однако, из-за некорректной настройки система не была настроена для горячей замены, и при сбое SSD сервер отключился так, если бы осталась всего одна копия данных. В этом случае предосторожность оказалась излишней.

После замены диска и перестройки массива сервер вновь был запущен. Потерь данных нет.

Выводы

Мы настроили RAID-массив так, чтобы в случае сбоя одного диска сервер не выключался, а продолжал работать – текущая конфигурация это позволяет.