Уважаемые игроки, беда не приходит одна, как вы уже наверняка успели заметить, наш проект штормило весь понедельник, а ночью вторника пришлось проводить внеплановые технические работы. А все началось с рядового отключения электричества в серверной о котором, к сожалению, заранее никто не предупредил. Несмотря на внушительное количество ИБП и батарей к ним, они держат оборудование около 20-30 минут. Резервный дизельный генератор очередной раз не захотел запускаться сам (вредный он у нас), из-за чего все серваки практически в одночасье легли. На процедуру выяснения причин, высылку специального человека на место, запуск генератора ушло несколько часов и уже стало казаться что все стало хорошо, НО...
К ночи Tirion был отправлен в штатную перезагрузку в виду регулярных (почти) технических работ по обновлению. Спустя 5 минут после перезагрузки мне позвонил Автобот (да, он у нас умный и умеет алертить важные события) - мир не поднялся. Серверная машина, на которой он расположен, отвечала на пинг, но любые попытки подключиться к удаленному управлению окончились неудачей. Около часа ночи пришлось ехать и смотреть что с ним не так. Выяснилось, что системный диск ведет себя очень странно и в BIOS отображается как Sandforce контроллер без объема.
Пару перезагрузок ситуацию исправлять никак не хотели, а с учетом 2 часов ночи замену было не купить. Полное выключение питания помогло завести диск и запустить игровые миры.
Но к моменту возвращения домой консоль сервера уже перестала отвечать, забавно что при этом миры продолжали штатно работать (при том что системный диск умер и Linux не отвечает на команды и не мог создать новые процессы). На следующий день был приобретен диск на замену. На этот раз решили взять Самсунг, потому как за 2 года мы сменили уже 3 умерших Интела в разных серверах.
Теперь предстояло скопировать данные с одного диска на другой, переустанавливать систему с нуля, настраивать фаервол, устанавливать пакеты не было абсолютно никакого желания. Самый простой способ в данной ситуации - загрузиться с любого livecd и на уровне блоков утилитой dd (а в нашем случае ddrescue) произвести копирование всей файловой системы и таблицы разделов. Занятно, что повторно запустить операционку на глючащем диске уже не удалось. Процесс копирования выглядел примерно так.
На полное копирование ушло порядка 40 минут, диск около 10 раз уходил в себя и утилита переподключалась к нему. Ошибок чтения в процессе обнаружено не было, Dmesg же практически каждое обращение орал о возникающих ошибках вроде READ FPDMA QUEUED или READ DMA EXT. Поверхностный поиск показал, что как минимум первая ошибка - проблемы с разъемом sata или кабелем, но замена и того и другого результатов не дали. В домашнем ПК глючный диск выглядит так.
Базовая диагностика проблем не выявила вообще, в Win10 железка так же работает корректно. В общем странная хрень.
Так или иначе, все проблемы на ночных тех. работах были решены, надеемся на то, что новый диск проживет дольше предыдущего и что мы разберемся наконец-то с запуском генератора. Не смотря на то, что все произошедшее от нас не зависело, мы приносим свои извинения и в качестве компенсации держите промокодик с небольшим подарком:
WE-ARE-DEEPLY-SORRY
Для ввода промокода воспользуйтесь соответствующей опцией в меню Isengard (доступно после ввода команды ".i" - без кавычек). Срок жизни кода - неделя, до 25 марта включительно.