Лекция
Это продолжение увлекательной статьи про состояние жёстких дисков.
...
style="width:100%">
О состоянии диска атрибут не говорит, но позволяет контролировать один из важнейших параметров. Мое мнение: при работе старайтесь не допускать повышения температуры винчестера выше 50 градусов, хоть производителем обычно и декларируется максимальный предел температуры в 55-60 градусов.
Атрибут: 195 (С3) Hardware ECC Recovered
Тип | накапливающий |
Описание | содержит количество ошибок, которые были скорректированы аппаратными средствами ECC диска |
Особенности, присущие этому атрибуту на разных дисках, полностью соответствуют таковым атрибутов 01 и 07.
Атрибут: 196 (С4) Reallocated Event Count
Тип | накапливающий |
Описание | содержит количество операций переназначения секторов |
Косвенно говорит о здоровье диска. Чем больше значение — тем хуже. Однако нельзя однозначно судить о здоровье диска по этому параметру, не рассматривая другие атрибуты.
Этот атрибут непосредственно связан с атрибутом 05. При росте 196 чаще всего растет и 05. Если при росте атрибута 196 атрибут 05 не растет, значит, при попытке ремапа кандидат в бэд-блоки оказался софт-бэдом (подробности см. ниже), и диск исправил его, так что сектор был признан здоровым, и в переназначении не было необходимости.
Если атрибут 196 меньше атрибута 05, значит, во время некоторых операций переназначения выполнялся перенос нескольких поврежденных секторов за один прием.
Если атрибут 196 больше атрибута 05, значит, при некоторых операциях переназначения были обнаружены исправленные впоследствии софт-бэды.
Атрибут: 197 (С5) Current Pending Sector Count
Тип | текущий |
Описание | содержит количество секторов-кандидатов на переназначение в резервную область |
Current Pending Sector Count - Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped).
Натыкаясь в процессе работы на «нехороший» сектор (например, контрольная сумма сектора не соответствует данным в нем), диск помечает его как кандидат на переназначение, заносит его в специальный внутренний список и увеличивает параметр 197. Из этого следует, что на диске могут быть поврежденные секторы, о которых он еще не знает — ведь на пластинах вполне могут быть области, которые винчестер какое-то время не использует.
При попытке записи в сектор диск сначала проверяет, не находится ли этот сектор в списке кандидатов. Если сектор там не найден, запись проходит обычным порядком. Если же найден, проводится тестирование этого сектора записью-чтением. Если все тестовые операции проходят нормально, то диск считает, что сектор исправен. (Т. е. был т. н. «софт-бэд» — ошибочный сектор возник не по вине диска, а по иным причинам: например, в момент записи информации отключилось электричество, и диск прервал запись, запарковав БМГ. В итоге данные в секторе окажутся недописанными, а контрольная сумма сектора, зависящая от данных в нем, вообще останется старой. Налицо будет расхождение между нею и данными в секторе.) В таком случае диск проводит изначально запрошенную запись и удаляет сектор из списка кандидатов. При этом атрибут 197 уменьшается, также возможно увеличение атрибута 196.
Если же тестирование заканчивается неудачей, диск выполняет операцию переназначения, уменьшая атрибут 197, увеличивая 196 и 05, а также делает пометки в G-list.
Итак, ненулевое значение параметра говорит о неполадках (правда, не может сказать о том, в само́м ли диске проблема).
При ненулевом значении нужно обязательно запустить в программах Victoria или MHDD последовательное чтение всей поверхности с опцией remap. Тогда при сканировании диск обязательно наткнется на плохой сектор и попытается произвести запись в него (в случае Victoria 3.5 и опции Advanced remap — диск будет пытаться записать сектор до 10 раз). Таким образом программа спровоцирует «лечение» сектора, и в итоге сектор будет либо исправлен, либо переназначен.
Идет последовательное чтение с ремапом в Victoria 4.46b
В случае неудачи чтения как с remap, так и с Advanced remap, стоит попробовать запустить последовательную запись в тех же Victoria или MHDD. Учитывайте, что операция записи стирает данные, поэтому перед ее применением обязательно делайте бэкап!
Запуск последовательной записи в Victoria 4.46b
Иногда от невыполнения ремапа могут помочь следующие манипуляции: снимите плату электроники диска и почистите контакты гермоблока винчестера, соединяющие его с платой — они могут быть окислены. Будь аккуратны при выполнении этой процедуры — из-за нее можно лишиться гарантии!
Невозможность ремапа может быть обусловлена еще одной причиной — диск исчерпал резервную область, и ему просто некуда переназначать секторы.
Если же значение атрибута 197 никакими манипуляциями не снижается до 0, следует думать о замене диска.
Атрибут: 198 (С6) Offline Uncorrectable Sector Count (Uncorrectable Sector Count)
Тип | текущий |
Описание | означает то же самое, что и атрибут 197, но отличие в том, что данный атрибут содержит количество секторов-кандидатов, обнаруженных при одном из видов самотестирования диска — оффлайн-тестировании, которое диск запускает в простое в соответствии с параметрами, заданными прошивкой |
Параметр этот изменяется только под воздействием оффлайн-тестирования, никакие сканирования программами на него не влияют. При операциях во время самотестирования поведение атрибута такое же, как и атрибута 197.
Ненулевое значение говорит о неполадках на диске (точно так же, как и 197, не конкретизируя, кто виноват).
Атрибут: 199 (С7) UltraDMA CRC Error Count
Тип | накапливающий |
Описание | содержит количество ошибок, возникших при передаче по интерфейсному кабелю в режиме UltraDMA (или его эмуляции винчестерами SATA) от материнской платы или дискретного контроллера контроллеру диска |
В подавляющем большинстве случаев причинами ошибок становятся некачественный шлейф передачи данных, разгон шин PCI/PCI-E компьютера либо плохой контакт в SATA-разъеме на диске или на материнской плате/контроллере.
Ошибки при передаче по интерфейсу и, как следствие, растущее значение атрибута могут приводить к переключению операционной системой режима работы канала, на котором находится накопитель, в режим PIO, что влечет резкое падение скорости чтения/записи при работе с ним и загрузку процессора до 100% (видно в Диспетчере задач Windows).
В случае винчестеров Hitachi серий Deskstar 7К3000 и 5К3000 растущий атрибут может говорить о несовместимости диска и SATA-контроллера. Чтобы исправить ситуацию, нужно принудительно переключить такой диск в режим SATA 3 Гбит/с.
Мое мнение: при наличии ошибок — переподключите кабель с обоих концов; если их количество растет и оно больше 10 — выбрасывайте шлейф и ставьте вместо него новый или снимайте разгон.
Можно считать, что о здоровье диска атрибут не говорит.
Атрибут: 200 (С8) Write Error Rate (MultiZone Error Rate)
Тип | текущий |
Описание | содержит частоту возникновения ошибок при записи |
Ненулевое значение говорит о проблемах с диском — в частности, у дисков WD большие цифры могут означать «умирающие» головки.
Атрибут: 201 (С9) Soft Read Error Rate
Тип | текущий |
Описание | содержит частоту возникновения ошибок чтения, произошедших по вине программного обеспечения |
Влияние на здоровье неизвестно.
Атрибут: 202 (СА) Data Address Mark Error
Тип | неизвестно |
Описание | содержание атрибута — загадка, но проанализировав различные диски, могу констатировать, что ненулевое значение — это плохо |
Атрибут: 203 (CB) Run Out Cancel
Тип | текущий |
Описание | содержит количество ошибок ECC |
Влияние на здоровье неизвестно.
Атрибут: 220 (DC) Disk Shift
Тип | текущий |
Описание | содержит измеренный в неизвестных единицах сдвиг пластин диска относительно оси шпинделя |
Влияние на здоровье неизвестно.
Атрибут: 240 (F0) Head Flying Hours
Тип | накапливающий |
Описание | содержит время, затраченное на позиционирование БМГ. Счетчик может содержать несколько значений в одном поле |
Влияние на здоровье неизвестно.
Атрибут: 254 (FE) Free Fall Event Count
Тип | накапливающий |
Описание | содержит зафиксированное электроникой количество ускорений свободного падения диска, которым он подвергался, т. е., проще говоря, показывает, сколько раз диск падал |
Влияние на здоровье неизвестно.
Подытожим описание атрибутов. Ненулевые значения:
При анализе атрибутов учитывайте, что в некоторых параметрах S.M.A.R.T. могут храниться несколько значений этого параметра: например, для предпоследнего запуска диска и для последнего. Такие параметры длиной в несколько байт логически состоят из нескольких значений длиной в меньшее количество байт — например, параметр, хранящий два значения для двух последних запусков, под каждый из которых отводится 2 байта, будет иметь длину 4 байта. Программы, интерпретирующие S.M.A.R.T., часто не знают об этом, и показывают этот параметр как одно число, а не два, что иногда приводит к путанице и волнению владельца диска. Например, «Raw Read Error Rate», хранящий предпоследнее значение «1» и последнее значение «0», будет выглядеть как 65536.
Надо отметить, что не все программы умеют правильно отображать такие атрибуты. Многие как раз и переводят атрибут с несколькими значениями в десятичную систему счисления как одно огромное число. Правильно же отображать такое содержимое — либо с разбиением по значениям (тогда атрибут будет состоять из нескольких отдельных чисел), либо в шестнадцатеричной системе счисления (тогда атрибут будет выглядеть как одно число, но его составляющие будут легко различимы с первого взгляда), либо и то, и другое одновременно. Примерами правильных программ служат HDDScan, CrystalDiskInfo, Hard Disk Sentinel.
Продемонстрируем отличия на практике. Вот так выглядит мгновенное значение атрибута 01 на одном из моих Hitachi HDS721010CLA332 в неучитывающей особенности этого атрибута Victoria 4.46b:
Атрибут 01 в Victoria 4.46b
А так выглядит он же в «правильной» HDDScan 3.3:
Атрибут 01 в HDDScan 3.3
Плюсы HDDScan в данном контексте очевидны, не правда ли?
Если анализировать S.M.A.R.T. на разных дисках, то можно заметить, что одни и те же атрибуты могут вести себя по-разному. Например, некоторые параметры S.M.A.R.T. винчестеров Hitachi после определенного периода неактивности диска обнуляются; параметр 01 имеет особенности на дисках Hitachi, Seagate, Samsung и Fujitsu, 03 — на Fujitsu. Также известно, что после перепрошивки диска некоторые параметры могут установиться в 0 (например, 199). Однако подобное принудительное обнуление атрибута ни в коем случае не будет говорить о том, что проблемы с диском решены (если таковые были). Ведь растущий критичный атрибут — это следствие неполадок, а не причина.
При анализе множества массивов данных S.M.A.R.T. становится очевидным, что набор атрибутов у дисков разных производителей и даже у разных моделей одного производителя может отличаться. Связано это с так называемыми специфичными для конкретного вендора (vendor specific) атрибутами (т. е. атрибутами, используемыми для мониторинга своих дисков определенным производителем) и не должно являться поводом для волнения. Если ПО мониторинга умеет читать такие атрибуты (например, Victoria 4.46b), то на дисках, для которых они не предназначены, они могут иметь «страшные» (огромные) значения, и на них просто не нужно обращать внимания. Вот так, например, Victoria 4.46b отображает RAW-значения атрибутов, не предназначенных для мониторинга у Hitachi HDS721010CLA332:
«Страшные» значения в Victoria 4.46b
Нередко встречается проблема, когда программы не могут считать S.M.A.R.T. диска. В случае исправного винчестера это может быть вызвано несколькими факторами. Например, очень часто не отображается S.M.A.R.T. при подключении диска в режиме AHCI. В таких случаях стоит попробовать разные программы, в частности HDD Scan, которая обладает умением работать в таком режиме, хоть у нее и не всегда это получается, либо же стоит временно переключить диск в режим совместимости с IDE, если есть такая возможность. Далее, на многих материнских платах контроллеры, к которым подключаются винчестеры, бывают не встроенными в чипсет или южный мост, а реализованы отдельными микросхемами. В таком случае DOS-версия Victoria, например, не увидит подключенный к контроллеру жесткий диск, и ей нужно будет принудительно указывать его, нажав клавишу [Р] и введя номер канала с диском. Часто не читаются S.M.A.R.T. у USB-дисков, что объясняется тем, что USB-контроллер просто не пропускает команды для чтения S.M.A.R.T. Практически никогда не читается S.M.A.R.T. у дисков, функционирующих в составе RAID-массива. Здесь тоже есть смысл попробовать разные программы, но в случае аппаратных RAID-контроллеров это бесполезно.
Если после покупки и установки нового винчестера какие-либо программы (HDD Life, Hard Drive Inspector и иже с ними) показывают, что: диску осталось жить 2 часа; его производительность — 27%; здоровье — 19,155% (выберите по вкусу) — то паниковать не стоит. Поймите следующее. Во-первых, нужно смотреть на показатели S.M.A.R.T., а не на непонятно откуда взявшиеся числа здоровья и производительности (впрочем, принцип их подсчета понятен: берется наихудший показатель). Во-вторых, любая программа при оценке параметров S.M.A.R.T. смотрит на отклонение значений разных атрибутов от предыдущих показаний. При первых запусках нового диска параметры непостоянны, необходимо некоторое время на их стабилизацию. Программа, оценивающая S.M.A.R.T., видит, что атрибуты изменяются, производит расчеты, у нее получается, что при их изменении такими темпами накопитель скоро выйдет из строя, и она начинает сигнализировать: «Спасайте данные!» Пройдет некоторое время (до пары месяцев), атрибуты стабилизируются (если с диском действительно все в порядке), утилита наберет данных для статистики, и сроки кончины диска по мере стабилизации S.M.A.R.T. будут переноситься все дальше и дальше в будущее. Оценка программами дисков Seagate и Samsung — вообще отдельный разговор. Из-за особенностей атрибутов 1, 7, 195 программы даже для абсолютно здорового диска обычно выдают заключение, что он завернулся в простыню и ползет на кладбище.
Обратите внимание, что возможна следующая ситуация: все атрибуты S.M.A.R.T. — в норме, однако на самом деле диск — с проблемами, хоть этого пока ни по чему не заметно. Объясняется это тем, что технология S.M.A.R.T. работает только «по факту», т. е. атрибуты меняются только тогда, когда диск в процессе работы встречает проблемные места. А пока он на них не наткнулся, то и не знает о них и, следовательно, в S.M.A.R.T. ему фиксировать нечего.
Таким образом, SMART — это полезная технология, но пользоваться ею нужно с умом. Кроме того, даже если S.M.A.R.T. вашего диска идеален, и вы постоянно устраиваете диску проверки — не полагайтесь на то, что ваш диск будет «жить» еще долгие годы. Винчестерам свойственно ломаться так быстро, что S.M.A.R.T. просто не успевает отобразить его изменившееся состояние, а бывает и так, что с диском — явные нелады, но в S.M.A.R.T. — все в порядке. Можно сказать, что хороший S.M.A.R.T. не гарантирует, что с накопителем все хорошо, но плохой S.M.A.R.T. гарантированно свидетельствует о проблемах. При этом даже с плохим S.M.A.R.T. утилиты могут показывать, что состояние диска — «здоров», из-за того, что критичными атрибутами не достигнуты пороговые значения. Поэтому очень важно анализировать S.M.A.R.T. самому, не полагаясь на «словесную» оценку программ.
Хоть технология S.M.A.R.T. и работает, винчестеры и понятие «надежность» настолько несовместимы, что принято считать их просто расходным материалом. Ну, как картриджи в принтере. Поэтому во избежание потери ценных данных делайте их периодическое резервное копирование на другой носитель (например, другой винчестер). Оптимально делать две резервные копии на двух разных носителях, не считая винчестера с оригинальными данными. Да, это ведет к дополнительным затратам, но поверьте: затраты на восстановление информации со сломавшегося HDD обойдутся вам в разы — если не на порядок-другой — дороже. А ведь данные далеко не всегда могут восстановить даже профессионалы. Т. е. единственная возможность обеспечить надежное хранение ваших данных — это делать их бэкап.
Напоследок перечислим некоторые программы, которые хорошо подходят для анализа S.M.A.R.T. и тестирования винчестеров: HDDScan (работает в Windows, бесплатная), CrystalDiskInfo (Windows, бесплатная), Hard Disk Sentinel (платная для Windows, бесплатная для DOS), HD Tune (Windows, платная, есть бесплатная старая версия).
для линукс(Linux) ситем : smartctl -a /dev/sda
И наконец, мощнейшие программы для тестирования: Victoria (Windows, DOS, бесплатная), MHDD (DOS, бесплатная).
В предыдущем посте о времени наработки на отказ (статья "Можно ли точно спрогнозировать выход жесткого диска из строя"), мы отметили, что наиболее популярный метод прогнозирования времени жизни жесткого диска не совсем точен. Да, шумы и трения головки HDD - достаточно надежные и очевидные показатели того, что жесткий диск на грани поломки. Но это не очень актуально, скажем, если ваши жесткие диски расположены вне пределов слышимости, в удаленном центре обработки данных, на сервере.
Вообще говоря, использование метрики "среднее время наработки на отказ (MTBF)" для жестких дисков вводит в заблуждение при оценке долговечности устройств хранения данных. Время безотказной работы рассчитывается в среднем для большого количества дисков. В результате возникают неадекватно высокие, оптимистичные показатели – скажем, 1,5 миллиона часов стабильной работы - почти 200 лет. Для жестких дисков корпоративного класса это фантастические метрики. Методология хорошо звучит (судя по описанию), но, увы, результат имеет мало общего со средней продолжительностью жизни жесткого диска в "полевых условиях".
Большинство производителей, тем не менее, также предлагают более сложные методы для прогнозирования краха HDD. В частности, многие устройства хранения информации, HDD накопители содержат в прошивке набор инструментов для самонаблюдения, анализа и отчетности (S.M.A.R.T), которые передают метрики производительности жесткого диска операционной системе. Эти данные могут быть просмотрены и проанализированы с помощью программного обеспечения, предоставленного ИТ-администраторам для более тщательного мониторинга и оценки здоровья жесткого диска.
Метрики отслеживаются Smart - называемые атрибутами - разнятся от производителя к производителю, но типичные параметры жесткого диска включают в себя такие основные метрики:
Проверка SMART данных ваших устройств хранения данных – как правило, довольно простая процедура, доступная всем пользователям.
Можно приобрести "умное" программное обеспечение, специально разработанное для нужд жесткого диска. С помощью этого ПО вы сможете извлечь SMART показания. Однако наличие фирменного ПО для вашего жесткого диска не является обязательным условием.
Если вы используете ОС Windows, вы можете получить быстрый доступ к SMART вашего жесткого диска и атрибутам их показаний с помощью командной строки.
Проверьте ваш жесткий диск на ошибки
Конечно, если вы планируете отслеживать и анализировать данные SMART более активно, то есть более удобные графические инструменты, доступные на нескольких платформах. Одним из удачных примеров является диагностическая утилита Victoria, и если вы серьезно задумались об использовании SMART инструментов и следите за здоровьем ваших жестких дисков, то это верное решение.
Кроме того, множество других утилит для просмотра S.M.A.R.T. Так, на скриншоте вы видите программу AIDA4. Данная программа является наиболее универсальным решением для анализа системы в целом и просмотра метрик жесткого диска в частности.
Просмотр данных S.M.A.R.T через сервисную утилиту AIDA4 (бывший Everest) на жестком диске
Нам еще предстоит обсудить, являются ли SMART инструменты, на самом деле, надежным индикатором работоспособности и износа жесткого диска. Ответ – и да, и нет. В то время как некоторые SMART атрибуты полезным в предсказании ошибок на HDD, также принято считать, что система SMART не без ограничений и погрешностей учета показаний HDD.
В частности, СМАРТ не может предсказать на все 100 % рядовой сбой HDD, потому как не все причины сбоя жесткого диска предсказуемы и очевидны. В же время, те ошибки, которые возникают при регулярном механическом износе устройства, как правило, отмечаются как ненормальные показания SMART, а внезапные электронные сбои и отказ комплектующих – нет. Чтобы очертить это в перспективу, в 2007 году компания Google исследовала 100000 жестких дисков потребительского класса и обнаружила: 64 процентов отказов в течение девяти месяцев не попадает под учет SMART.
Другой фактор, который делает SMART атрибуты сами менее надежными: они изменяются от производителя к производителю, даже с точки зрения способов измерения общих атрибутов . Таким образом, жесткие диски Seagate и Western Digital устройства с эквивалентными показаниями здоровья могут дать совершенно разные показания и, в частности, процент ошибок.
В ноябре прошлого года, разработчик облачного сервиса для резервного копирования, Backblaze, опубликовал увлекательное исследование касательно различных SMART атрибутов. На основании показаний почти 40000 жестких дисков, хранящих 100 петабайт данных клиентов, они пришли к выводу, что из 70 доступных атрибутов только пять были верными индикаторами сбоя жесткого диска.
В действительности, SMART атрибуты HDD могут предсказать некоторые типы отказов для жестких дисков, однако они не могут обеспечить на 100 процентов точный метод диагностики жесткого диска. Как мы уже отмечали раньше, к сожалению, не все сбои жестких дисков предсказуемы и поддаются мониторингу.
Таким образом, владельцы любых жестких дисков никогда не должны полностью полагаться ТОЛЬКО на SMART - или любую другую упрощенную систему диагностики. Все равно это не поможет полностью предотвратить потерю данных. Природа электромеханических устройств означает, что всегда лучше сочетать различные методы защиты: SMART, резервное копирование и восстановление данных.
Все неисправности накопителей HDD можно разделить на 2 группы:
Под физически неисправными накопителями понимаются HDD, имеющие повреждения поверхности или блока магнитных головок, разрушения "служебной информации", приводящие к неустойчивому чтению и множественным ошибкам, нарушение системы соответствия логического дискового пространства (LBA) с физической геометрией HDD (транслятора).
Под логическими разрушениями понимаются разрушения логической структуры, не позволяющие получить доступ к пользовательской информации средствами операционной системы. Разрушения могут быть вызваны сбоями или неисправностями в работе накопителя или самой операционной системы, некорректными действиями пользователя, воздействием вирусных программ.
Заводское (расчетное) распределение вероятности отказа строится при следующих условиях - температура постоянна, напряжение питания постоянно.
участок отказов скрытого заводского брака (влияние БП минимально) |
участок стабильной работы |
участок накопления износа и его компенсации |
участок вероятного отказа из-за износа. На данном этапе проявляются дополнительные факторы - старение БП, увеличения нагрузки на БП из-за модернизации компьютера, ухудшение охлаждения из-за пыли - влияние БП на жесткий диск значительно увеличивается |
Устранив вредные для "здоровья" HDD факторы можно приблизить его условия эксплуатации к идеалу и тем самым удлинить срок службы жесткого диска до расчетных (заводских) значений - реально в 2-3 раза.
Анализ причин отказов HDD
|
продолжение следует...
Часть 1 Состояние жёстких дисков и технология SMART и прогнозирование сбоев. G-sensor в HDD. Виды неисправностей HDD
Часть 2 Изучаем Smart для прогнозирования сбоев жесткого диска - Состояние жёстких
Часть 3 Термины - Состояние жёстких дисков и технология SMART и прогнозирование
Часть 4 Окончательный расчет - Состояние жёстких дисков и технология SMART и
Комментарии
Оставить комментарий
Диагностика, обслуживание и ремонт электронной и радиоаппаратуры
Термины: Диагностика, обслуживание и ремонт электронной и радиоаппаратуры