Лекция
Привет, Вы узнаете о том , что такое состояние жёстких дисков, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое состояние жёстких дисков, технология smart, прогнозирование сбоев, g-sensor в hdd, виды неисправностей hdd, надежность жестких дисков, mtbf , afr , uer, ремонт жесткого диска, диагностика жесткого диска , настоятельно рекомендую прочитать все из категории Диагностика, обслуживание и ремонт электронной и радиоаппаратуры.
Современный жесткий диск — уникальный компонент компьютера. Он уникален тем, что хранит в себе служебную информацию, изучая которую, можно оценить «здоровье» диска. Эта информация содержит в себе историю изменения множества параметров, отслеживаемых винчестером в процессе функционирования. Больше ни один компонент системного блока не предоставляет владельцу статистику своей работы! Вкупе с тем, что HDD является одним из самых ненадежных компонентов компьютера, такая статистика может быть весьма полезной и помочь его владельцу избежать нервотрепки и потери денег и времени.
Информация о состоянии диска доступна благодаря комплексу технологий, называемых общим именем SMART (Self-Monitoring, Analisys and Reporting Technology, т. е. технология самомониторинга, анализа и отчета). Этот комплекс довольно обширен, но мы поговорим о тех его аспектах, которые позволяют посмотреть на атрибуты S.M.A.R.T., отображаемые в какой-либо программе по тестированию винчестера, и понять, что творится с диском.
Отмечу, что нижесказанное относится к дискам с интерфейсами SATA и РАТА. У дисков SAS, SCSI и других серверных дисков тоже есть SMART, но его представление сильно отличается от SATA/PATA. Да и мониторит серверные диски обычно не человек, а RAID-контроллер, потому про них мы говорить не будем.
Итак, если мы откроем S.M.A.R.T. в какой-либо из многочисленных программ, то увидим приблизительно следующую картину (на скриншоте приведен S.M.A.R.T. диска Hitachi Deskstar 7К1000.С HDS721010CLA332 в HDDScan 3.3):
S.M.A.R.T. в HDDScan 3.3
Для проверки параметров smart в linux ubunutu из командной строки можно использовать команду
smartctl -a /dev/sda smartctl -a /dev/sdb
и тд..
результат выполнения даной команды будет примерно следующий
В каждой строке отображается отдельный атрибут S.M.A.R.T. Атрибуты имеют более-менее стандартизованные названия и определенный номер, которые не зависят от модели и производителя диска.
Каждый атрибут S.M.A.R.T. имеет несколько полей. Каждое поле относится к определенному классу из следующих: ID, Value, Worst, Threshold и RAW. Рассмотрим каждый из классов.
Этим мы сейчас и займемся — разберем все наиболее используемые атрибуты S.M.A.R.T., посмотрим, о чем они говорят и что нужно делать, если они не в порядке.
Аттрибуты S.M.A.R.T. | |||||||||||||||||
01 | 02 | 03 | 04 | 05 | 07 | 08 | 09 | 10 | 11 | 12 | 183 | 184 | 187 | 188 | 189 | 190 | |
0x | 01 | 02 | 03 | 04 | 05 | 07 | 08 | 09 | 0A | 0B | 0C | B7 | B8 | BB | BC | BD | BE |
191 | 192 | 193 | 194 | 195 | 196 | 197 | 198 | 199 | 200 | 201 | 202 | 203 | 220 | 240 | 254 | ||
0x | BF | С0 | С1 | С2 | С3 | С4 | С5 | С6 | С7 | С8 | С9 | СА | CB | DC | F0 | FE |
Перед тем как описывать атрибуты и допустимые значения их поля RAW, уточню, что атрибуты могут иметь поле RAW разного типа: текущее и накапливающее. Текущее поле содержит значение атрибута в настоящий момент, для него свойственно периодическое изменение (для одних атрибутов — изредка, для других — много раз за секунду; другое дело, что в программах чтения S.M.A.R.T. такое быстрое изменение не отображается). Накапливающее поле — содержит статистику, обычно в нем содержится количество возникновений конкретного события со времени первого запуска диска.
Текущий тип характерен для атрибутов, для которых нет смысла суммировать их предыдущие показания. Например, показатель температуры диска является текущим: его цель — в демонстрации температуры в настоящий момент, а не суммы всех предыдущих температур. Накапливающий тип свойственен атрибутам, для которых весь их смысл заключается в предоставлении информации за весь период «жизни» винчестера. Например, атрибут, характеризующий время работы диска, является накапливающим, т. е. содержит количество единиц времени, отработанных накопителем за всю его историю.
Приступим к рассмотрению атрибутов и их RAW-полей.
Тип | текущий, может быть накапливающим для WD и старых Hitachi |
Описание | содержит частоту возникновения ошибок при чтении с пластин |
Для всех дисков Seagate, Samsung (начиная с семейства SpinPoint F1 (включительно)) и Fujitsu 2,5″ характерны огромные числа в этих полях.
Для остальных дисков Samsung и всех дисков WD в этом поле характерен 0.
Для дисков Hitachi в этом поле характерен 0 либо периодическое изменение поля в пределах от 0 до нескольких единиц.
Такие отличия обусловлены тем, что все жесткие диски Seagate, некоторые Samsung и Fujitsu считают значения этих параметров не так, как WD, Hitachi и другие Samsung. При работе любого винчестера всегда возникают ошибки такого рода, и он преодолевает их самостоятельно, это нормально, просто на дисках, которые в этом поле содержат 0 или небольшое число, производитель не счел нужным указывать истинное количество этих ошибок.
Таким образом, ненулевой параметр на дисках WD и Samsung до SpinPoint F1 (не включительно) и большое значение параметра на дисках Hitachi могут указывать на аппаратные проблемы с диском. Необходимо учитывать, что утилиты могут отображать несколько значений, содержащихся в поле RAW этого атрибута, как одно, и оно будет выглядеть весьма большим, хоть это и будет неверно (подробности см. ниже).
На дисках Seagate, Samsung (SpinPoint F1 и новее) и Fujitsu на этот атрибут можно не обращать внимания.
Атрибут: 02 Throughput Performance
Тип | текущий |
Описание | содержит значение средней производительности диска и измеряется в каких-то «попугаях». Обычно его ненулевое значение отмечается на винчестерах Hitachi. На них он может изменяться после изменения параметров ААМ, а может и сам по себе по неизвестному алгоритму |
Параметр не дает никакой информации пользователю и не говорит ни о какой опасности при любом своем значении.
Атрибут: 03 Spin-Up Time
Тип | текущий |
Описание | содержит время, за которое шпиндель диска в последний раз разогнался из состояния покоя до номинальной скорости. Может содержать два значения — последнее и, например, минимальное время раскрутки. Может измеряться в миллисекундах, десятках миллисекунд и т. п. — это зависит от производителя и модели диска |
Время разгона может различаться у разных дисков (причем у дисков одного производителя тоже) в зависимости от тока раскрутки, массы блинов, номинальной скорости шпинделя и т. п.
Кстати, винчестеры Fujitsu всегда имеют единицу в этом поле в случае отсутствия проблем с раскруткой шпинделя.
Практически ничего не говорит о здоровье диска, поэтому при оценке состояния винчестера на параметр можно не обращать внимания.
Атрибут: 04 Number of Spin-Up Times (Start/Stop Count)
Тип | накапливающий |
Описание | содержит количество раз включения диска. Бывает ненулевым на только что купленном диске, находившемся в запаянной упаковке, что может говорить о тестировании диска на заводе. Или еще о чем-то, мне не известном :) |
При оценке здоровья не обращайте на атрибут внимания.
Атрибут: 05 Reallocated Sector Count
Тип | накапливающий |
Описание | содержит количество секторов, переназначенных винчестером в резервную область. Практически ключевой параметр в оценке состояния |
Таким образом, хоть сектор и вышел из строя, объем диска не изменяется. Понятно, что не изменяется он до поры до времени, т. к. объем резервной области не бесконечен. Однако резервная область вполне может содержать несколько тысяч секторов, и допустить, чтобы она закончилась, будет весьма безответственно — диск нужно будет заменить задолго до этого.
Кстати, ремонтники говорят, что диски Samsung очень часто ни в какую не хотят выполнять переназначение секторов.
На счет этого атрибута мнения разнятся. Лично я считаю, что если он достиг 10, диск нужно обязательно менять — ведь это означает прогрессирующий процесс деградации состояния поверхности либо блинов, либо головок, либо чего-то еще аппаратного, и остановить этот процесс возможности уже нет. Кстати, по сведениям лиц, приближенных к Hitachi, сама Hitachi считает диск подлежащим замене, когда на нем находится уже 5 переназначенных секторов. Другой вопрос, официальная ли эта информация, и следуют ли этому мнению сервис-центры. Что-то мне подсказывает, что нет :)
Другое дело, что сотрудники сервис-центров могут отказываться признавать диск неисправным, если фирменная утилита производителя диска пишет что-то вроде «S.M.A.R.T. Status: Good» или значения Value либо Worst атрибута будут больше Threshold (собственно, по такому критерию может оценивать и сама утилита производителя). И формально они будут правы. Но кому нужен диск с постоянным ухудшением его аппаратных компонентов, даже если такое ухудшение соответствует природе винчестера, а технология производства жестких дисков старается минимизировать его последствия, выделяя, например, резервную область?
Атрибут: 07 Seek Error Rate
Тип | текущий |
Описание | содержит частоту возникновения ошибок при позиционировании блока магнитных головок (БМГ) |
Описание формирования этого атрибута почти полностью совпадает с описанием для атрибута 01 Raw Read Error Rate, за исключением того, что для винчестеров Hitachi нормальным значением поля RAW является только 0.
Таким образом, на атрибут на дисках Seagate, Samsung SpinPoint F1 и новее и Fujitsu 2,5″ не обращайте внимания, на остальных моделях Samsung, а также на всех WD и Hitachi ненулевое значение свидетельствует о проблемах, например, с подшипником и т. п.
Атрибут: 08 Seek Time Performance
Тип | текущий |
Описание | содержит среднюю производительность операций позиционирования головок, измеряется в «попугаях». Как и параметр 02 Throughput Performance, ненулевое значение обычно отмечается на дисках Hitachi и может изменяться после изменения параметров ААМ, а может и само по себе по неизвестному алгоритму |
Не дает никакой информации пользователю и не говорит ни о какой опасности при любом своем значении.
Атрибут: 09 Power On Hours Count (Power-on Time)
Тип | накапливающий |
Описание | содержит количество часов, в течение которых винчестер был включен |
Количество часов во включенном состоянии. прямо не связан со здоровьем диска но косвенно имеет связь . при очнь малом или очень большом количестве часов есть большая вероятность отказа диска.
Он иллюстрирует статистику годовых отказов жестких дисков. Резкий рост значения AFR после одного года работы связан с тем, что Google использовал бытовые диски в режиме 24x7 (это была первая половина 2000-х, nearline класса еще не существовало). Итог: почти два процента в первый год, далее - рост до восьми с лишним процентов, что является результатом повышенной нагрузки. Кстати, вот распределение AFR в зависимости от нагруженности дисков:
Как видно из графика, тяжелые режимы работы резко увеличивают AFR, особенно в первые месяцы эксплуатации, когда высокая нагрузка помогает выявить диски со скрытыми производственными дефектами, и после четырех лет, когда нагрузка добивает изношенные диски.
Обратите внимание на спецификацию современных бытовых дисков Seagate: MTBF 700000 часов, при этом указан параметр Power-On Hours (POH) 2400 часов в год, что примерно соответствует режиму работы 8x5. Т.е. производитель обещает соответствие MTBF заявленному только при соблюдении данного режима работы. Хотите круглосуточной эксплуатации десктопных Seagate? Получите AFR в 8% вместо 1,25%. В руководстве есть еще одно уточнение:
Average rate of <55TB/year. The MTBF specification for the drive assumes the I/O workload does not exceed the average annualized workload rate limit of 55TB/year.
Т.е. лимитируется еще и трафик, извольте читать/писать не больше 55ТБ в год. Не устраивает? Используйте диски nearline класса с MTBF от 1,2 млн часов и нелимитированным Power-On Hours.
Кстати, в целом статистика, предоставленная Google, соответствует классическому графику распределения отказов. Из-за характерной формы его еще называют bathtub curve:
Сравнение между Seagate, Hitachi и Western Digital.
Атрибут: 10 (0А — в шестнадцатеричной системе счисления) Spin Retry Count
Тип | накапливающий |
Описание | содержит количество повторов запуска шпинделя, если первая попытка оказалась неудачной |
О здоровье диска чаще всего не говорит.
Основные причины увеличения параметра — плохой контакт диска с БП или невозможность БП выдать нужный ток в линию питания диска.
Наверняка диск может стартовать не сразу из-за проблем с ним самим, но такое бывает очень редко, и такую возможность нужно рассматривать в последнюю очередь.
Атрибут: 11 (0B) Calibration Retry Count (Recalibration Retries)
Тип | накапливающий |
Описание | содержит количество повторных попыток сброса накопителя (установки БМГ на нулевую дорожку) при неудачной первой попытке |
Ненулевое, а особенно растущее значение параметра может означать проблемы с диском.
Атрибут: 12 (0C) Power Cycle Count
Тип | накапливающий |
Описание | содержит количество полных циклов «включение-отключение» диска |
Не связан с состоянием диска.
Атрибут: 183 (B7) SATA Downshift Error Count
Тип | накапливающий |
Описание | содержит количество неудачных попыток понижения режима SATA. Суть в том, что винчестер, работающий в режимах SATA 3 Гбит/с или 6 Гбит/с (и что там дальше будет в будущем), по какой-то причине (например, из-за ошибок) может попытаться «договориться» с дисковым контроллером о менее скоростном режиме (например, SATA 1,5 Гбит/с или 3 Гбит/с соответственно). В случае «отказа» контроллера изменять режим диск увеличивает значение атрибута |
Не говорит о здоровье накопителя.
Атрибут: 184 (B8) End-to-End Error
Тип | накапливающий |
Описание | содержит количество ошибок, возникших при передаче данных через кэш винчестера |
Ненулевое значение указывает на проблемы с диском.
Атрибут: 187 (BB) Reported Uncorrected Sector Count (UNC Error)
Тип | накапливающий |
Описание | содержит количество секторов, которые были признаны кандидатами на переназначение (см. атрибут 197) за всю историю жизни диска. Причем если сектор становится кандидатом повторно, значение атрибута тоже увеличивается |
Ненулевое значение атрибута явно указывает на ненормальное состояние диска (в сочетании с ненулевым значением атрибута 197) или на то, что оно было таковым ранее (в сочетании с нулевым значением 197).
Атрибут: 188 (BC) Command Timeout
Тип | накапливающий |
Описание | содержит количество операций, выполнение которых было отменено из-за превышения максимально допустимого времени ожидания отклика |
Такие ошибки могут возникать из-за плохого качества кабелей, контактов, используемых переходников, удлинителей и т. д., а также из-за несовместимости диска с конкретным контроллером SATA/РАТА на материнской плате (либо дискретным). Из-за ошибок такого рода возможны BSOD в Windows.
Ненулевое значение атрибута говорит о потенциальной «болезни» диска.
Тип | накапливающий |
Описание | содержит количество зафиксированных случаев записи при высоте полета головки выше рассчитанной — скорее всего, из-за внешних воздействий, например вибрации |
Для того чтобы сказать, почему происходят такие случаи, нужно уметь анализировать логи S.M.A.R.T., которые содержат специфичную для каждого производителя информацию, что на сегодняшний день не реализовано в общедоступном ПО — следовательно, на атрибут можно не обращать внимания.
Атрибут: 190 (BE) Airflow Temperature
Тип | текущий |
Описание | содержит температуру винчестера для дисков Hitachi, Samsung, WD и значение «100 − [RAW-значение атрибута 194]» для Seagate |
Не говорит о состоянии диска.
Атрибут: 191 (BF) G-Sensor Shock Count (Mechanical Shock)
Тип | накапливающий |
Описание | содержит количество критических ускорений, зафиксированных электроникой диска, которым подвергался накопитель и которые превышали допустимые. Обычно это происходит при ударах, падениях и т. п. |
Актуален для мобильных винчестеров. На дисках Samsung на него часто можно не обращать внимания, т. к. они могут иметь очень чувствительный датчик, который, образно говоря, реагирует чуть ли не на движение воздуха от крыльев пролетающей в одном помещении с диском мухи.
Вообще срабатывание датчика не является признаком удара. Может расти даже от позиционирования БМГ самим диском, особенно если его не закрепить. Основное назначение датчика — прекратить операцию записи при вибрациях, чтобы избежать ошибок.
Не говорит о здоровье диска.
1
Сегодня при выборе ноутбука в технических характеристиках вы наверняка встретите такой параметр, как акселерометр жесткого диска (так же его часто называют G-сенсор). У непросвещенных покупателей сразу же возникает логичный вопрос: что это такое и для чего нужен акселерометр в ноутбуке?
Попытаемся абстрагироваться от заумных фраз, которыми пестрит Википедия, и объясним суть работы устройства простым языком. Сформулировать определение можно следующим образом: акселерометр – это прибор, измеряющий ускорение объекта относительно гравитационного ускорения Земли. Например, если объект, в нашем случае ноутбук, начинает падение со стола на пол, акселерометр обнаруживает резкое ускорение, не типичное для нормальной работы, и включает защитные механизмы от повреждений.
Как известно, жесткие диски, хранящие данные на компьютерах, являются довольно хрупкими устройствами. При падении ноутбука или его сильном ударе повреждение жесткого диска весьма вероятно. Головка HDD-накопителя постоянно движется по секторам диска, считывая информацию. Реагируя на внезапное изменение ускорения, система управления винчестером отдает команду на парковку головки жесткого диска, предотвращая возможные повреждения и потерю данных.
Устройство жесткого магнитного диска
пример срабатывания защиты при обнаружения повышенного ускорения G-sensor жесткого диска
Атрибут: 192 (С0) Power Off Retract Count (Emergency Retry Count)
Тип | накапливающий |
Описание | для разных винчестеров может содержать одну из следующих двух характеристик: либо суммарное количество парковок БМГ диска в аварийных ситуациях (по сигналу от вибродатчика, обрыву/понижению питания и т. п.), либо суммарное количество циклов включения/выключения питания диска (характерно для современных WD и Hitachi) |
Не позволяет судить о состоянии диска.
Атрибут: 193 (С1) Load/Unload Cycle Count
Тип | накапливающий |
Описание | содержит количество полных циклов парковки/распарковки БМГ. Об этом говорит сайт https://intellect.icu . Анализ этого атрибута — один из способов определить, включена ли на диске функция автоматической парковки (столь любимая, например, компанией Western Digital): если его содержимое превосходит (обычно — многократно) содержимое атрибута 09 — счетчик отработанных часов, — то парковка включена |
Не говорит о здоровье диска.
Атрибут: 194 (С2) Temperature (HDA Temperature, HDD Temperature)
продолжение следует...
Часть 1 Состояние жёстких дисков и технология SMART и прогнозирование сбоев. G-sensor в HDD. Виды неисправностей HDD
Часть 2 Изучаем Smart для прогнозирования сбоев жесткого диска - Состояние жёстких
Часть 3 Термины - Состояние жёстких дисков и технология SMART и прогнозирование
Часть 4 Окончательный расчет - Состояние жёстких дисков и технология SMART и
Комментарии
Оставить комментарий
Диагностика, обслуживание и ремонт электронной и радиоаппаратуры
Термины: Диагностика, обслуживание и ремонт электронной и радиоаппаратуры