Авария WyvernForce | 16.01.2011 |
Уважаемые клиенты. В первую очередь приносим свои извинения за стол длительную недоступность Ваших сайтов, а также головного сайта компании VDScenteR L.L.C. Что же случилось? Произошло следующее: Примерно в 7 утра по Московскому времени (Время по системе мониторинга: 13/01/2011 в 06:56:14 ) от системы мониторинга мы получили информацию о недоступности сервера хостинг-проекта «ВивернФорс». После проведения анализа ситуации был выявлен отказ 2-х из 4 дисков в RAID 1+0 массиве сервера (/dev/sdd и /dev/sdb) . Ситуация осложнялась тем, что в данный момент, что в настоящий момент на сервере уже шла синхронизация диска /dev/sdc, замененного сутками ранее без остановки сервера (Hot-Swap). Мы связались с ДатаЦентром (ДЦ) для решения данного вопроса. ДЦ констатировал факт «смерти» дисков и предложил их заменить. Ввиду того, что дисков вышло 2 ,а также 1 из оставшихся 2-х небыл синхронизирован ситуация складывалась плачевная: При замене дисков вся информация на сервере была бы утрачена. Так как резервные копии были на 10 января, мы не рискнули согласиться на замену дисков сразу. Потому что был очень велик риск, что данные бэкапы нестабильны (диски могли «сбоить» и тем самым архивы бэкапов могли получиться «битыми»). Сначала был затребован полны аппаратный тест сервера по причине слишком массового выхода из строя жестких дисков. Особенно если учесть, что сервер абсолютно новый. Данный тест длится порядка 10 часов. Пока длился тест мы искали возможные пути решения проблемы бэкапов. По завршении теста ДЦ констатировал, что проблем с остальным «железом» на сервере нет. Только диски ( Как в последствие выяснилось – диски все оказались из одной партии). В конце концов нашим администраторам удалось «собрать» из 4-х разрозненных RAID 1+0 массив RAID 0 и смонтировать его. Таким образом сервер не мог осуществлять свои функции (так как был загружен в rescue режиме), но информацию с него было можно прочитать. Что и было сделано. Львинную долю недоступности заняло спасение данных с пострадавшего сервера на остальные наши серверы (старт: 14/01/2011 04:10). Ввиду большого объема (порядка 1Тб информации) и сотен тысяч (если не миллионов) мелких файлов, а также нестабильность дисков, данная процедура затянулась практически на 2-е суток. Однако можем констатировать: 98-99%информации удалось сохранить. Если бы мы этого не сделали, то запустить сервер могли примерно через сутки. Но было принято решение именно спасти всю информацию, какую только возможно. Восстанавливать аккаунты было принято из ближайших стабильных бэкапов: за 27-29 декабря 2010 года. После окончания копирования (15/01/2011 16:30) мы сообщили ДЦ, что забрали всю информацию и они могут заменить диски. Что и было сделано в (15/01/2011 18:08). После этого наши администраторы провели установку cPanel и первичную настройку сервера. Было начато восстановление аккаунтов из бэкапов. На 16/01/2011 05:00 восстановлено 79 аккаунтов. Восстановление продолжается. Хронология событий (время Московское): 13/01/2011 в 06:56:14: Поступление сигнала о недоступности 13/01/2011 примерно в 10:00: Передача сервера в ДЦ на тесты компонентов 13/01/2011 примерно в 21:00: Возвращение сервера. Попытки получить доступ к информации 14/01/2011 04:10 – Начало копирование пользовательской информации на резервные серверы компании. В том числе на резервные бэкап серверы в Германии, России , США. 15/01/2011 16:30 – Скопирована вся возможная информация. Сервер передан на замену вышедших из строя дисков. 15/01/2011 18:08 – Получение данные от нового сервера с переустановленной ОС и дисками. Старт установки панели, настройки сервера и восстановления пользователей. Ответы на вопросы: В: Почему восстановленные аккаунты за 27-29 декабря 2010? Ведь говорили, что бэкапы от 10го января 2011 О: Мы не рискнули разворачивать бэкапы за 10 число ввиду их потенциальной нестабильности В: Чем бы грозило восстановление из копий за 10 января? О: в случае, если какой-то архив оказался бы «битым», его восстановление было бы невозможно. Также как было бы невозможно взять актуальную информацию аккаунта. Диски были бы уже заменены и дефектные уничтожены. Пришлось бы восстанавливать аккаунт за 27-29 декабря, но уже без возможности возвращения актуального состояния. Ввиду того, что эти 2 недели были праздничные и многие были дома, а значит скорее всего проводили изменения на своих сайтах – такой расклад дел мог лишить людей абсолютно всего исправленного/залитого и тд на свои сайты за это время. Мы решили не рисковать и всё таки скопировали информацию. В: Ну так мой аккаунт за 27-29 декабря. Как мне сделать его актуальным ? О: Для этого Вам необходимо обратиться в службу поддержки хостинг-проекта «ВивернФорс» или Хостинг компании VDScenteR L.L.C. используя тикет систему (если Вы пользуетесь тикетницей VDScenteR, создайте свой запрос в отдел «WyvernForce»). Где укажите свой логин на сервере и какие папки заменять (всю public_html, папки сайтов или подпапки). Также укажите БД, какие нужно попробовать восстановить в актуальном состоянии. В: Попробовать восстановить БД? Вы же сказали, что информация спасена О: Да. 98-99% всей информации спасены. Но так как диски имели очень плохое состояние и постоянно отказывались читать информацию, все таки часть данных потерялась. Хоть и незначительная. Если применить эту потерю к файлам – то исчезновение 1-2 картинок или 1 видеоролика (а то и не исчезновение, а просто «сбой» при показе) это не столь актуально, как в ситуации, если это затронуло файлы баз. Поэтому возможно разное развитие ситуаций. Но все же мы настроены оптимистично: скорее всего все базы целы. В: Будет ли компенсация? О: Да, наша компания решила компенсировать простой в уже привычном тройном объеме. Обратившимся в течение 10 дней клиентам будет начислено по 12 суток к действующим заказам по действующим тарифным планам. В: Куда обращаться то? В VDScenteR или «ВивернФорс»? О: Вы можете обратиться в куда Вам удобнее. . Используйте тикет систему (если Вы пользуетесь тикетницей VDScenteR, создайте свой запрос в отдел «WyvernForce»). Не забудьте указать свой логин В: В какие сроки будут выполнены начисления? О: Начисление производится в течение 24 часов с момента обращения В: В какие сроки будет выполнено обновление аккаунта до доаварийного состояния? О: Всё зависит от Вашего аккаунта. Количества и размера файлов. Обновить 1 файл в 200Мб и обновить 10 000 файлов в 200Мб займет абсолютно разное время. Но с момента старта работ оно может занимать от нескольких минут до нескольких часов. В: Всё? Всё закончилось? Я могу вернуться к работе над сайтом? О: Да, можете. Но закончилось ещё не совсем всё. В течение следующих 48 часов сервер будет окончательно донастроен. Установлены все модули (в том числе поддержка ffmpeg, ionCube и контроль за нагрузкой аккаунтов), что потребует нескольких перезагрузок сервера. Также может быть заметно небольшое «подтормаживание» сайтов ввиду того, что сейчас на сервере идет активное восстановление бэкапов и он довольно ощутимо нагружен. В частности диски. В: У меня вместо сайтов «Default Web page»! О: Обратитесь в поддержку. Используйте тикет систему (если Вы пользуетесь тикетницей VDScenteR, создайте свой запрос в отдел «WyvernForce»). Не забудьте указать свой логин В: Я не нашел тут ответа на свой вопрос О: Обратитесь в поддержку. Используйте тикет систему (если Вы пользуетесь тикетницей VDScenteR, создайте свой запрос в отдел «WyvernForce»). Не забудьте указать свой логин Мы искренне сожалеем о случившемся, но это техника. Всё имеет свойство ломаться. Иногда и таким роковым образом. Надеемся, что выбранный нами путь сохранения информации для Вас также окажется более здравым, нежели просто форматирование сервера и восстановление аккаунтов из резервных копий. С уважением команда VDScenteR L.L.C. и Хостинг-проект «ВивернФорс» |