Отказ жёсткого диска
Отказ жёсткого диска происходит, когда жёсткий диск выходит из строя, и нет доступа к сохранённой на нём информации.
Отказ жёсткого диска может произойти в ходе штатной работы или по внешним причинам, таким как воздействие огня, воды, сильных магнитных полей, резкого удара (из-за падения) или загрязнения окружающей среды, что может привести к сбою головки.
Сохранённая информация на жёстком диске также может стать недоступной в результате повреждения данных, нарушения или уничтожения главной загрузочной записи жёсткого диска либо из-за вредоносного ПО, намеренно уничтожающего содержимое диска.
Классификация типовых сбоев
В общем случае неисправности жёстких дисков можно разделить на две категории[1]:
- Проблемы программного обеспечения — нарушения в работе программного обеспечения, нарушение структуры файлов, сбои в операционных и файловых системах, повреждения микропрограммы.
- Проблемы аппаратного обеспечения — проблемы с аппаратной частью, находящейся непосредственно в жёстком диске. К аппаратным неисправностям обычно относят нечитаемые сектора, повреждения блоков магнитных головок (БМГ), повреждения магнитных пластин, неисправности платы электроники, неисправность шпиндельного двигателя.
Проблемы аппаратного обеспечения
Сбой головки жёсткого диска — одна из самых распространённых неисправностей жёсткого диска[2]. В этом случае под угрозой оказываются все данные на повреждённом жёстком диске[3]. Сбой происходит, когда головка чтения/записи жёсткого диска соприкасается с вращающимся магнитным диском (пластиной), повреждая его поверхность и безвозвратно нарушая магнитный носитель.
Повреждение блока магнитных головок (БМГ), как правило, возникает при воздействии на жёсткий диск ударных нагрузок, превышающих предусмотренные производителем значения. Контакт БМГ с поверхностью магнитных пластин в процессе работы жёсткого диска приводит к деформации слайдера или к отрыву головок от него. Также повреждения могут быть получены в результате возникновения ударной нагрузки вдоль оси перемещения БМГ у выключенного жёсткого диска. Это связано с отсутствием у современных жёстких дисков механизма жёсткой фиксации БМГ в зоне парковки. В некоторых случаях БМГ прилипает к поверхности, но остаётся при этом неповреждённым и после осмотра его состояния под микроскопом может быть использован для считывания данных.
Повреждение магнитных пластин, так же как и в случае со сбоем магнитных головок, происходит в результате их контакта с БМГ в процессе работы жёсткого диска. В результате деформируется слайдер, головка изменяет положение и происходит повреждение пластины, на поверхности образуются глубокие царапины. Это приводит к образованию внутри гермоблока жёсткого диска пыли, состоящей из защитного покрытия и магнитного слоя, которая попадая между головками и поверхностями других пластин, вызывает образование повреждений на остальных поверхностях за счёт абразивного действия.
Нечитаемые сектора — наиболее часто встречаемая неисправность, которая проявляется в виде ошибок чтения или записи при обращении к файлам или их копировании. Наличие нечитаемых секторов может не влиять на работу установленной на жёстком диске операционной системы, но при этом могут возникнуть сложности с созданием копии или исследованием накопителя при подключении к стендовой ЭВМ с использованием устройств блокирования записи. При обращении к нечитаемому сектору накопитель делает паузу, пытаясь прочитать содержимое сектора. В микропрограммах контроллеров жёсткого диска установлено определённое количество попыток чтения сектора, после исчерпания которых происходит процедура замены сектора из резерва (переназначение) и добавление его в пользовательский дефект-лист (G-list). Если нечитаемых секторов несколько, то время на их замену увеличивается, при этом диск и компьютер, к которому подключён жёсткий диск, перестаёт отвечать на запросы со стороны пользователя.
Неисправность платы электроники возникает, как правило, при проблемах с питанием и последующим выгоранием защитных диодов. Несмотря на предусмотренную производителем защиту цепей питания, нередки случаи выгорания микросхемы управления двигателем, процессора или иных деталей платы.
Гораздо реже встречаются механические повреждения разъёмов подключения питания и передачи данных. Для жёстких дисков, у которых элементы на плате управления расположены на наружной поверхности, характерны повреждения в виде отсутствующих элементов.
Неисправности шпиндельного двигателя по причине заклинивания вала или обрыва обмоток приводят к невозможности раскручивания двигателя[1].
Проблемы программного обеспечения
К программным неисправностям относятся повреждения микропрограммы. Вследствие того, что микропрограмма управления жёсткого диска имеет модульную конструкцию, в процессе работы повреждаются модули, наиболее часто используемые накопителем, например модули SMART, таблицы дефектов, модули транслятора. Помимо этого зачастую повреждаются модули, необходимые для запуска жёсткого диска и его функционирования. Данного рода неисправность может быть вызвана ошибками, допущенными при создании микропрограммы производителем, изменением контрольных сумм, дефектов содержимого модулей[1].
Причины
Основные причины неисправностей жёстких дисков[4]:
- Человеческий фактор — считается самой распространённой причиной отказа жёсткого диска: неправильное обращение с жёстким диском, случайное удаление файлов, падение диска и др.
- Аппаратный сбой часто приводит к физическим повреждениям (например, сбой головки), что может привести к необратимой потере данных.
- Повреждение встроенного ПО периодически возникает по вине производителей: повреждение прошивки может сделать диск нечитаемым и привести к потере данных.
- Перегрев также приводит к серьёзным повреждениям компонентов жёсткого диска. При повышении температуры пластины диска расширяются, а при её снижении — сжимаются. Это может привести к деформации магнитной поверхности и появлению микротрещин — серьёзного дефекта, который ставит под угрозу целостность данных. Отсутствие адекватной вентиляции приводит к перегреву и выходу из строя контроллера и электронных компонентов диска.
- Попадание жидкости на компьютерное устройство почти всегда приводит к серьёзным проблемам. Только в специально разработанных устройствах предусмотрена адекватная защита от этого. Большинство потребительских товаров на современном рынке просто не предназначены для защиты от воды или других жидкостей. Вода вызывает нежелательные скачки электрического тока, которые могут серьёзно повредить устройство.
- Перепады напряжения по разным причинам (от ударов молнии до помех в линиях электропередачи) могут привести к потере данных, если головки чтения/записи перестают работать должным образом. В худших случаях может не хватить мощности, чтобы вернуть головки в парковочную зону до остановки вращения пластин.
Производители дисков обычно указывают такой параметр, как среднестатистическое время между сбоями — среднее время наработки на отказ (MTBF) или годовой уровень отказов (AFR) — это статистические показатели для всех устройств, характеризующие надёжность устройства. Значение параметра MTBF обычно колеблется от 20 000 до 500 000 часов, но может составлять и 1 миллион часов. Эти значения являются расчётными (ожидаемыми) с известной вероятностью, а для получения статистически достоверных данных о надёжности устройства необходимо протестировать группу одинаковых накопителей и подсчитать количество отказов за время, как минимум в два раза превышающее ожидаемое значение MTBF. При круглосуточной работе компьютера в течение года его наработка составит 8760 часов. Таким образом, для подтверждения заявленных 500 000 часов безотказной работы понадобится примерно 57 лет. Из вышесказанного можно сделать вывод: показатель MTBF далеко не всегда соответствует реальной надёжности устройства. Как показывает практический опыт, если накопитель на жёстких дисках безотказно работает на протяжении первого гарантийного месяца, то он будет также безотказно работать до полной своей моральной старости. Однако известны случаи, когда безотказно работавший в течение полугода накопитель вдруг начинал сбоить, а его параметры — резко деградировать[5].
Самой известной причиной отказа жёсткого диска является сбой головки, когда внутренняя головка чтения/записи устройства, обычно находящаяся всего в нескольких нанометрах над поверхностью, касается пластины или царапает магнитную поверхность для хранения данных. Авария головки обычно приводит к серьёзной потере данных, а попытки восстановления информации могут усугубить повреждения, если их выполняет не специалист с соответствующим оборудованием. Пластины диска покрыты чрезвычайно тонким слоем антистатической смазки, благодаря чему головка при столкновении должна соскользнуть с поверхности пластины. Однако головка находится всего в нескольких нанометрах от поверхности пластины, что делает столкновение известным и признанным риском.
Ещё одной причиной отказа является неисправный воздушный фильтр. Воздушные фильтры современных жёстких дисков уравнивают атмосферное давление и влажность между корпусом диска и внешней средой. Если фильтр не улавливает частицу пыли, она может осесть на пластине, что приведёт к аварии головки, если головка пройдёт по этому месту. После аварии головки частицы с повреждённой пластины и головки могут вызвать появление одного или нескольких повреждённых секторов. Эти повреждения, вместе с повреждениями пластины, быстро делают диск непригодным для использования
Диск также включает в себя электронику контроллера, которая иногда выходит из строя. В таких случаях возможно восстановить все данные, заменив плату контроллера.
Признаки неисправности
Отказ жёсткого диска может быть катастрофическим (полный отказ, восстановление после которого невозможно) или постепенным.
В первом случае диск обычно перестаёт определяться в настройках CMOS или не проходит проверку POST в BIOS, из-за чего операционная система его не видит.
Постепенный отказ жёсткого диска сложнее диагностировать, поскольку его симптомы — например, повреждённые данные и замедление работы ПК (вызванное постепенно выходящими из строя участками диска, требующими повторных попыток чтения для успешного доступа) — могут быть вызваны и другими проблемами компьютера, такими как вредоносное ПО. Увеличение числа повреждённых секторов может свидетельствовать о выходе диска из строя, но поскольку жёсткий диск автоматически добавляет их в свою таблицу дефектов[6], они могут не проявляться в утилитах типа ScanDisk, если только утилита не успеет обнаружить их до того, как сработает система управления дефектами диска, либо пока не исчерпаются резервные сектора, хранимые системой управления дефектами (к этому моменту диск уже близок к полному отказу). Циклические повторяющиеся звуки при поиске, такие как быстрые или замедленные щелчки (так называемый «щелчок смерти»), могут свидетельствовать о проблемах с жёстким диском[7].
Во время нормальной работы головки в жёстких дисках летают (парят) над данными, записанными на пластинах.
Современные жёсткие диски предотвращают посадку головок в зону с данными при отключении питания или других сбоях, либо физически перемещая (паркуя) головки в специальную зону парковки на пластинах, которая не используется для хранения данных, либо физически фиксируя головки в подвешенном (разгруженном) положении, приподнятом над пластинами.
В ранних моделях головки не парковались автоматически при отключении питания, и головки соприкасались с пластиной с записанными данными. Также в некоторых моделях предполагалось, что пользователь должен запускать программу для ручной парковки головок.
Зона парковки — это область пластины, обычно расположенная рядом с её внутренним диаметром (ID), где данные не хранятся. Эта область называется зоной контакта при запуске и остановке (Contact Start/Stop, CSS), или зоной посадки. Диски спроектированы таким образом, что для парковки головок при неожиданном отключении питания используется либо пружина, либо (в более современных моделях) вращательная инерция пластин. В этом случае двигатель шпинделя временно работает как генератор, подавая питание на устройство позиционирования (актуатор).
Напряжение пружины, удерживающей головки, постоянно прижимает их к пластине. Пока диск вращается, головки поддерживаются воздушной подушкой и не имеют физического контакта с поверхностью, поэтому износ отсутствует. В жёстких дисках с технологией CSS (Contact Start/Stop) скользящие элементы, несущие датчики головок (часто просто называемые головками), разработаны так, чтобы выдерживать множество посадок и взлётов с поверхности носителя, хотя со временем износ этих микроскопических компонентов всё же накапливается. Большинство производителей проектируют скользящие элементы так, чтобы они выдерживали около 50 000 циклов контакта, после чего вероятность повреждения при запуске превышает 50 %. Однако скорость износа не является линейной: у более нового диска с меньшим количеством циклов старт-стоп шансов пережить следующий запуск больше, чем у старого диска с большим пробегом (поскольку головка буквально тянется по поверхности диска, пока не установится воздушная подушка). Например, серия настольных жёстких дисков Seagate Barracuda 7200.10 рассчитана на 50 000 циклов старт-стоп; другими словами, в ходе тестирования не было зафиксировано отказов, связанных с интерфейсом головка-пластина, до достижения как минимум 50 000 циклов старт-стоп[8].
Шумы старого жёсткого диска при попытке чтения данных с повреждённых секторов
В 1995 году компания IBM разработала технологию создания зоны посадки на диске с помощью прецизионного лазерного процесса (Laser Zone Texture — LZT), который формирует на зоне посадки массив гладких нанометровых «бугорков», значительно улучшая характеристики сцепления (англ. stiction) и износостойкость.
Эта технология также используется в жёстких дисках Seagate с низкой ёмкостью для настольных ПК, включая серии 7200.12 и 7200.14 с объёмом до 500 ГБ, а также в одной модели16-го поколения (BarraCuda Compute 1TB ST1000DM010)[9]. Однако она была полностью выведена из всех 2,5-дюймовых дисков, а также из жёстких дисков с большой ёмкостью для настольных ПК, NAS и корпоративных систем, в пользу использования рамп для загрузки/выгрузки головок.
Компании Western Digital и Toshiba также полностью отказались от CSS во всех своих жёстких дисках, включая самые дешёвые модели. Среди первых пользователей технологии были IBM и Hitachi. В целом, технология CSS может быть подвержена повышенному прилипанию головок к поверхности пластины (англ. stiction), например, в условиях повышенной влажности. Чрезмерное прилипание может привести к физическим повреждениям пластины, скользящего элемента или двигателя шпинделя.
Технология загрузки/выгрузки основана на подъёме головок с поверхности пластин в безопасное место, что полностью исключает риски износа и прилипания. Первый жёсткий диск RAMAC и большинство ранних дисков использовали сложные механизмы для загрузки и выгрузки головок. Почти все современные жёсткие диски применяют рамповую загрузку, впервые представленную компанией Memorex в 1967 году[10], при которой головки загружаются и выгружаются на пластиковые «рампы» возле внешнего края диска. Накопители для ноутбуков приняли эту технологию из-за необходимости повышения ударопрочности, а затем она была внедрена и в большинстве накопителей для настольных компьютеров.
Для повышения ударопрочности IBM также разработала технологию под названием Active Protection System для своей линейки ноутбуков ThinkPad. При обнаружении резкого внезапного движения встроенным акселерометром в ThinkPad головки жёсткого диска автоматически выгружаются, чтобы снизить риск возможной потери данных или повреждений поверхности диска. Позже Apple использовала эту технологию в своих моделях PowerBook, iBook, MacBook Pro и MacBook под названием Sudden Motion Sensor. Аналогичные технологии для ноутбуков выпустили Sony[11], HP с системой HP 3D DriveGuard и Toshiba[12].
Показатели отказов
Большинство крупных производителей жёстких дисков и материнских плат поддерживают технологию S.M.A.R.T., которая измеряет основные характеристики диска, такие как рабочая температура, время раскрутки, уровень ошибок данных и другие. Определённые тенденции и резкие изменения этих параметров считаются связанными с повышенной вероятностью отказа диска и потерей данных. Однако одних лишь параметров S.M.A.R.T. недостаточно для надёжного прогнозирования отказа конкретного диска[13]. Хотя несколько параметров S.M.A.R.T. влияют на вероятность поломки, значительная часть вышедших из строя дисков не демонстрирует предсказуемых изменений в этих параметрах[13]. Непредсказуемый сбой может произойти в любой момент при нормальном использовании, что может привести к потере всех данных. Восстановление части или даже всех данных с повреждённого диска иногда возможно, но не всегда, и обычно требует значительных затрат.
- Исследование, опубликованное Google в 2007 году, показало очень слабую корреляцию между уровнем отказов и как высокой температурой, так и уровнем активности диска. В частности, в исследовании Google отмечается: «Одним из наших ключевых выводов стало отсутствие устойчивой закономерности более высокого уровня отказов у дисков с более высокой температурой или у дисков с более высокой степенью использования»[14]. Жёсткие диски со средней температурой ниже 27 °C, зарегистрированной S.M.A.R.T., имели более высокий уровень отказов, чем диски с самой высокой зарегистрированной средней температурой в 50 °C; уровень отказов при этом был как минимум вдвое выше, чем в оптимальном диапазоне S.M.A.R.T.-температур от 36 °C до 47 °C[13]. Корреляция между производителями, моделями и уровнем отказов оказалась относительно сильной. Статистика по этому вопросу обычно строго засекречена большинством компаний; Google не связывала имена производителей с уровнями отказов[13], хотя известно, что в некоторых своих серверах Google использует жёсткие диски Hitachi Deskstar. Данное исследование, основанное на большой выборке дисков, показало, что фактические ежегодные показатели отказов (AFR) для отдельных дисков варьировались от 1,7 % для дисков первого года эксплуатации до более чем 8,6 % для дисков с трёхлетним использованием[15].
- Аналогичное исследование 2007 года, проведённое в Университете Карнеги — Меллона (CMU) на корпоративных дисках, показало, что измеренное среднее время наработки на отказ (MTBF) было в 3—4 раза ниже заявленного производителем, при этом средний показатель AFR оценивался в 3 % в период от 1 до 5 лет, основанным на журналах замены большого количества дисков, а также что отказы жёстких дисков были сильно коррелированы во времени[16].
- Исследование 2007 года, посвящённое скрытым ошибкам секторов (в отличие от вышеупомянутых исследований полных отказов дисков), показало, что у 3,45 % из 1,5 миллиона дисков обнаружены скрытые ошибки секторов за 32 месяца (3,15 % nearline-дисков и 1,46 % дисков корпоративного класса возникла по крайней мере одна скрытая ошибка сектора в течение двенадцати месяцев с даты поставки), при этом годовой уровень ошибок секторов увеличивался между первым и вторым годами. Накопители корпоративного класса демонстрировали меньше ошибок секторов, чем потребительские. Фоновое сканирование (англ. background scrubbing) оказалось эффективным для исправления этих ошибок[17].
Диски SCSI, SAS и FC дороже потребительских SATA-дисков и обычно используются в серверах и дисковых массивах, тогда как SATA-диски продавались для домашних компьютеров, настольных ПК и рынка near-line хранения, и считались менее надёжными. Однако эта граница становится менее чёткой.
Среднее время наработки на отказ (MTBF) дисков SATA обычно указывается как около 1 миллиона часов. Некоторые диски, например Western Digital Raptor, имеют рейтинг MTBF в 1,4 миллиона часов[18], в то время как диски SAS/FC оцениваются в более чем 1,6 миллиона часов. Современные гелиевые диски полностью герметичны и не имеют вентиляционного отверстия, что исключает риск попадания загрязнений, в результате чего типичный показатель MTBF составляет 2,5 миллиона часов. Однако независимые исследования показывают, что MTBF не является надёжной оценкой срока службы диска[19]. MTBF определяется в лабораторных условиях в испытательных камерах и является важным показателем качества жёсткого диска, но предназначен только для измерения относительно постоянной интенсивности отказов в течение срока службы диска (середина так называемой «кривой ванны») до финальной фазы износа[16][20][21]. Более интерпретируемым, но эквивалентным показателем MTBF является ежегодный уровень отказов (AFR). AFR — это процент ожидаемых отказов дисков в год. И MTBF, и AFR, как правило, отражают надёжность только в начальной части срока службы жёсткого диска, тем самым занижая реальную вероятность отказа используемого диска. Серверные и промышленные диски обычно имеют более высокий MTBF и более низкий AFR.
Компания Backblaze, занимающаяся облачным хранением данных, ежегодно публикует отчёт о надёжности жёстких дисков. Однако компания отмечает, что в основном использует обычные потребительские диски, которые эксплуатируются в условиях корпоративного уровня, а не в условиях, характерных для их типичного применения и предназначения. Потребительские диски также не тестируются на совместимость с корпоративными RAID-контроллерами, используемыми в дата-центрах, и могут не реагировать в ожидаемые контроллером сроки; такие диски могут ошибочно определяться как вышедшие из строя. Результаты подобных тестов могут быть релевантны или нерелевантны для разных пользователей, поскольку они точно отражают работу потребительских дисков в корпоративной среде или при экстремальных нагрузках, но могут не отражать их производительность в нормальных или типичных условиях эксплуатации[22].
Меры предотвращения
Для предотвращения потери данных из-за отказа диска обычно применяются следующие решения:
- Резервное копирование данных, позволяющее восстановить информацию после сбоя.
- Очистка данных (англ. data scrubbing) для обнаружения и исправления скрытых повреждений.
- Избыточность данных, обеспечивающая устойчивость систем к отказам отдельных дисков.
- Активная защита жёстких дисков, защищающая диски ноутбуков от внешних механических воздействий.
- Технология S.M.A.R.T. (самомониторинг, анализ и отчётность), встроенная в жёсткие диски, обеспечивающая раннее предупреждение о предсказуемых режимах отказа.
- Базовая изоляция, применяемая под серверными стойками в дата-центрах.
Восстановление данных
Данные с вышедшего из строя диска иногда можно частично или полностью восстановить, если магнитное покрытие пластин не было полностью разрушено. Специализированные компании занимаются восстановлением данных, что связано с существенными затратами. Возможно восстановление данных путём вскрытия дисков в чистой комнате и использования соответствующего оборудования для замены или восстановления повреждённых компонентов[27]. Если вышла из строя электроника, иногда можно заменить плату электроники, однако часто диски одной и той же модели, произведённые в разное время, имеют разные несовместимые платы. Кроме того, платы электроники современных дисков обычно содержат специфичные для конкретного диска данные адаптации, необходимые для доступа к системным областям, поэтому соответствующие компоненты необходимо либо перепрограммировать (если это возможно), либо выпаять и перенести на другую плату электроники[28][29].
Иногда работу диска удаётся восстановить на достаточно долгое время для извлечения данных, возможно с использованием методов восстановления, таких как вырезание файлов (англ. file carving). Рискованные методы могут быть оправданы, если диск полностью неисправен. Если диск запускается один раз, он может проработать некоторое время, но больше не включиться, поэтому максимально возможное количество данных следует извлечь сразу после запуска диска[1][3].
Примечания
Ссылки
- Backblaze: Hard Drive Annual Failure Rates, 2019, Q2-2020 (англ.)
- Failure Trends in a Large Disk Drive Population — Google, Inc. February 2007 (англ.)
- A Clean-Slate Look at Disk Scrubbing (англ.)
- Noises made by defective and failing hard disk drives (англ.)