Лекция
Это продолжение увлекательной статьи про состояние жёстких дисков.
...
UER. Факторы влияющие на надежность" > плохой шлейф
Отказ - стойкое нарушение функционирования HDD (не работает после возобновления нормального питания) - наблюдается мгновенный отказ и плавная деградация в результате износа
Сбой - нарушение функционирования HDD в текущем режиме (возобновляет работу после рекалибровки ~1-5сек)
Мы живем в эпоху расцвета HDD: объемы достигли 4ТБ на диск (и это не предел), цены на большие (1-4ТБ, 7200 тыс. оборотов/мин) и быстрые (10/15 тыс. оборотов/мин) HDD снижаются, повсеместно используются SSD, растет производительность и наращивается функционал аппаратных RAID контроллеров, давно "повзрослели" решения на базе ZFS. Появилась проблема: массивы на несколько десятков терабайт стали доступны сравнительно небольшим организациям, но уровень знаний правил и рекомендаций по хранению данных остался невысоким. Ведет это к весьма плачевным последствиям - прямым начальным денежным потерям (результат самодеятельности в выборе оборудования) и дальнейшему ущербу от потери данных.
В данной статье мы рассмотрим несколько проблем и мифов, связанных с хранением данных. Мифов накопилось предостаточно и они продолжают жить, несмотря на огромное количество трагичных историй:
Встречается, в основном, у начинающих неопытных IT-специалистов. Причина существования данного мифа проста - непонимание того, что такое информация вообще, и какое отношение имеет RAID к защите целостности информации. Дело в том, что RAID защищает не только от полной потери диска. Окончательный выход диска из строя - это лишь конечная точка его непростого существования, и до момента потери информации на всем диске мы можем терять небольшие фрагменты по мере появления сбойных секторов. Для бытового применения потеря (или искажение) участка в 512 байт обычно не является большой проблемой. Дома большую часть дискового пространства занимают мультимедийные файлы: изображения, звук и видео, так что потеря ничтожно малого фрагмента никак не отражается на воспринимаемом качестве, например, видео-файла. Для хранения структурированной информации (например, базы данных) любое искажение является недопустимым и появление любого "бэда" (нечитаемого сбойного сектора) означает полную потерю файла или тома. Статистическую вероятность наступления такого события мы рассмотрим позже.
Вывод: пользовательские данные нельзя хранить на одиночных дисках или в массивах, не обеспечивающих избыточности.
Потерять данные с избыточного массива не просто, а очень просто. Можно начать с простого человеческого фактора, который в статистике, регулярно собираемой разными агентствами, занимает львиную долю всех случаев потерь данных. Достаточно администратору СУБД снести пару таблиц в базе или какому-нибудь пользователю удалить несколько файлов на ресурсе с неправильно настроенными правами доступа. При работе с контроллером или СХД можно ошибочно удалить нужный том. Причиной катастрофы может послужить незащищенный кэш контроллера (включен write-back, батарейки нет или она неисправна, выходит из строя блок питания или PDU - и несколько десятков или сотен мегабайт не попавших на диски данных улетают в трубу).
Резервное копирование нужно всегда. Отсутствие бэкапов - преступление.
Знаете ли вы о том, что при определенном сочетании числа, объема и качества дисков в RAID-5 вы практически гарантированно потеряете свои данные во время ребилда? Детальному рассмотрению декларируемых показателей надежности жестких дисков будет посвящена оставшаяся часть этой статьи.
"Если десктопные диски столь ненадежны, то стоит просто закупить их побольше, поставить в RAID, пусть выходят из строя по 2-3-10% в год, будем менять"
Тут появляется еще одна проблема, связанная с качеством - UER (unrecoverable error rate). Означает вероятность появления невосстановимой ошибки чтения, по различным причинам: дефект поверхности, сбой в работе головки, контроллера и т.д. Для современных десктопных дисков значение UER составляет 1 x 10-14. Это означает, что при передаче 1 x 1014 бит вы с очень большой вероятностью прочитаете с диска вовсе не то, что туда записали. Дальше начинается занимательная математика, опубликованная в одном из докладов SNIA:
Диск объемом 500ГБ содержит 1/25 x 1014 бит. Допустим, у нас есть RAID-5 из шести таких десктопных дисков с UER равным 1 x 10-14. До определенного момента все работает хорошо, на дисках появляются и ремапятся сбойные сектора, к потере данных это не приводит, т.к. у нас RAID. И тут один из дисков выходит из строя. Меняем диск, начинается ребилд, который означает чтение 5/25 x 1014 бит: c пяти дисков нужно считать страйпы и контрольные суммы, рассчитать и записать их на шестой диск.
5/25 - это 20% Т.е. с вероятностью 20% при ребилде мы получим ошибку чтения и потеряем данные. 500ГБ по нынешним меркам - не очень много, в ходу диски по 1, 2, 3 и даже 4 терабайт. Для массива 8x1ГБ получаем 56%, 8x2ГБ - уже 112% (без шансов!), для "супер-большой-СХД-на-всю-жизнь" из 24-х десктопных дисков по 3ТБ получается и вовсе фантастическая цифра в 552%. Данную вероятность можно немного уменьшить, периодически запуская фоновую проверку целостности данных на массиве. Можно уменьшить ее значительно, на порядок, используя правильные диски nearline класса с UER = 1 x 10-15, но для больших массивов цифра получается все равно неприемлемой, ведь не учитывается вероятность полного выхода из строя второго диска во время ребилда, который при больших объемах и высокой нагрузке на массив может растянуться на несколько недель.
Вывод: при больших объемах современных дисков использовать RAID-5 нельзя. Даже для дисков enterprise класса (UER меньше еще на порядок - 1 x 10-16) вероятность получить ошибку чтения при ребилде массива из восьми 450ГБ дисков составляет около 0,3%. Их емкость тоже растет. Если относительно недавно диски на 10000 и 15000 об/мин были объемами в 36-146ГБ, то сейчас это уже 900 и 1200ГБ. Что делать?
Во-первых, для enterprise дисков - не создавать больших дисковых групп в RAID-5, использовать RAID-50.
Во-вторых, переходить на RAID-6 и 60 для enterprise и nearline дисков.
Как все-таки быть с десктопными дисками? Может быть, для них подойдет RAID-6?
Нет, RAID-6 их тоже не спасет, так как появляется следующая проблема - несовместимость с аппаратными RAID контроллерами, одной из причин которой является неконтролируемое время доступа при возникновении ошибок:
Для одиночного диска при появлении ошибки чтения стоит задача прочитать данные с этого сектора путем неоднократных попыток. Диск один, взять копию данных больше негде. Для диска в RAID массиве с избыточностью сбойный сектор никакой проблемы не представляет. Не читается сектор? Диску дается фиксированное время на несколько попыток чтения этого сектора. Время вышло, сектор тут же ремапится, данные восстанавливаются с других дисков. Если диск долго не отвечает, то контроллер считает его неисправным и выкидывает из массива, и на практике связка, например, из контроллера Adaptec и десктопных WD Green работает с регулярной потерей дисков и постоянными ребилдами, вплоть до полного развала массива.
За фиксированное время доступа отвечает технология SCT ERC. Посмотреть наличие ее поддержки и значения для чтения/записи можно при помощи smartctl:
smartctl -l scterc /dev/sdb smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.8.7-1-ARCH] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org SCT capabilities: (0x303f) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SCT Error Recovery Control: Read: Disabled Write: Disabled
При наличии поддержки можно задать тайминги:
smartctl -l scterc,70,70 /dev/sdb smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.8.7-1-ARCH] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org SCT Error Recovery Control set to: Read: 70 (7.0 seconds) Write: 70 (7.0 seconds)
На самом деле, одной лишь поддержки SCT ERC недостаточно. Решающим критерием при выборе дисков должно быть наличие в списке совместимости от производителя контроллера:
И последний аргумент: десктопные диски не рассчитаны на высокий уровень вибраций. Механика не та. Причины появления вибрационных нагрузок просты: большое количество дисков в одном корпусе (у Supermicro появился вариант на 72 3,5" диска в 4U) и вентиляторы по 5-9 тыс. оборотов в минуту. Так вот, замеры Seagate показали, что при нагрузке около 21 рад/с2 десктопные диски испытывают очень большие сложности с позиционированием головок, теряют дорожку, производительность падает на 80 с лишним процентов.
Устройства хранения информации на жестких дисках традиционно устанавливались главным образом на настольных компьютерах, однако в последнее время накопители все чаще находят применение и в бытовой электронике. В настоящей статье описываются способы оценки надежности накопителей, установленных в настольных компьютерах и бытовых электронных устройствах, с использованием результатов стандартных лабораторных испытаний компании Seagate.
Под наработкой на отказ Seagate подразумевает отношение времени РОН (Power-On Hours — время в часах, в течение которого накопитель находился во включенном состоянии) в течение года к усредненной интенсивности отказов AFR (Annualized Failure Rate — годовая интенсивность отказов) за первый год. Такой метод дает достаточную точность при малом количестве отказов, поэтому мы используем его для расчета наработки на отказ «первого года». Усредненная годовая интенсивность отказов для накопителя рассчитывается на основе данных о времени безотказной работы, полученных в ходе испытаний RDT (Reliability-Demonstration Test — демонстрационные испытания надежности). По той же методике проводятся и заводские испытания FRDT (Factory Reliability-Demonstration Test — заводские демонстрационные испытания надежности), однако здесь проверяются серийные накопители из производственных серий. В рамках настоящего документа мы будем исходить из того, что любая концепция, применимая в отношении RDT, справедлива также и для FRDT.
В Группе персональных устройств хранения Seagate со штаб-квартирой в г. Лонгмонт (шт. Колорадо) испытания накопителей для настольных систем на надежность обычно проводятся в термокамерах при температуре окружающей среды +42 градуса по Цельсию, что повышает интенсивность отказов. Кроме того, накопители при этом эксплуатируются с максимально возможной продолжительностью включения (под продолжительностью включения дисковода понимается количество поисков данных, их считывания и записи в течение заданного отрезка времени). Это делается для того, чтобы выявить как можно больше причин отказа еще на стадии разработки изделия. Устранив проблемы, отмеченные на этом этапе, мы можем быть уверены, что наши пользователи с ними больше не столкнутся.
Предположим, что испытанию RDT были подвергнуты 500 накопителей, каждый из которых проработал 672 часа при температуре окружающей среды 42°С. Допустим также, что в ходе испытания было отмечено три отказа (после 12, 133 и 232 часов работы). Это означает, что из 500 проверенных накопителей успешно прошли испытание 497. Для анализа и экстраполяции полученных результатов мы применяем моделирование по Weibull, используя для этого пакет программ SuperSmith фирмы Fulton Findings1. В частности, с помощью метода максимального правдоподобия производится оценка таких параметров распределения Weibull, как бета (форм-фактор) и эта (масштабный коэффициент).
(То есть априори предполагается, что отказы распределены согласно Weibull. Для тех, кто знаком с математической статистикой, приведу формулу плотности вероятности для этого распределения:
Смысл проводимых испытаний — оценить параметры распределения. При этом считается, что при заданном значении бета параметр эта равен времени в часах, за которое выйдут из строя 90% тестируемых накопителей. (Обсуждение данной математической модели требует серьезных познаний в математической статистике и выходит за рамки данной статьи, поэтому предлагается принять ее как факт) — прим. редактора).
Если в ходе испытания отмечено пять или менее отказов, точно определить параметр бета по полученным данным невозможно. Поскольку такие результаты испытаний встречаются довольно часто, мы анализируем их с помощью метода WeiBayes2, в основу которого положена оценка параметра бета по статистическим данным. В лаборатории продукции для настольных компьютеров мы сейчас принимаем бета = 0,55. Такое значение получено на основе производственных данных, представленных ниже в таблице. Она составлена на основании испытания всех накопителей для настольных систем, прошедших проверку до марта 1999 г.
Место производства накопителей | База данных | Среднее значение бета | Стандартное отклонение бета |
---|---|---|---|
Лонгмонт | 37 RDT, 5 FRDT | 0,546 | 0,176 |
Пераи | 2 RDT, 4 FRDT | 0,617 | 0,068 |
Вузи | 1 RDT | 0,388 | нет данных |
Обобщенные данные по настольным системам | 49 испытаний | 0,552 | 0,167 |
Приведенный ниже график отображает результаты анализа Weibull и WeiBayes. Сплошная линия соответствует параметрам бета и эта по Weibull (бета = 0,443, эта = 69 331 860), рассчитанным по методу MLE (Maximum Likelihood — максимальное правдоподобие)3 всего для 3 отказов на 500 накопителей. Как уже отмечалось, такие результаты считаются не столь точными, как полученные по методу WeiBayes для небольшой интенсивности отказов.
Результаты, полученные методом WeiBayes (для бета = 0,55), представлены на графике пунктирной линией. Поскольку 672 часа работы при температуре 42°С для испытания RDT вполне достаточно, мы использовали свой внутренний параметр «доверительная вероятность прекращения испытаний»4, который для анализа WeiBayes принят равным 63,2%. Расчет по методу WeiBayes показал, что при температуре 42°С и статистическом значении бета = 0,55 приемлемое значение эта составляет 3 787 073 часа.
Легенда к графику «Примеры анализа по методам Weibull и WeiBayes»
W/mle = Доверительная вероятность прекращения испытаний
WeiBayes fit = Аппроксимация WeiBayes
Observed Weibull fit via MLE = Аппроксимация данных исследования по Weibull методом максимального правдоподобия
Eta = эта
Beta = бета
n/s = (всего/исправных накопителей)
Следующий этап анализа состоит в пересчете параметра эта, полученного в результате тестов при 42°С, в значение, соответствующее нашей стандартной рабочей температуре (25°С). Опираясь на модель Arrhenius5, для учета температурных различий можно принять коэффициент учащения отказов равным 2,2208. Таким образом, значение эта для 25°С (эта25) будет равным значению этого параметра для 42°С (эта42), умноженному на 2,2208, то есть, 8 410 332 часа.
На основании параметров бета и эта Weibull, полученных после температурной коррекции, в любой момент можно рассчитать суммарный процент отказов. Чтобы оценить процент накопителей, которые могут выйти из строя при температуре 25°С в промежутке времени от t1 до t2, достаточно произвести вычитание значений суммарного процента отказа в моменты t1 и t2, а затем воспользоваться соответствующими значениями бета и эта25.
Для оценки усредненной интенсивности отказов (параметр AFR) за первый год эксплуатации накопителя, установленного в настольном компьютере, примем, что у пользователя устройство находится во включенном состоянии 2 400 часов в год. Допустим также, что еще 24 часа оно эксплуатировалось на заводе на этапе интеграции. Поскольку все накопители, вышедшие из строя в течение этого периода, возвращаются в Seagate и к конечному пользователю не попадают, при расчете AFR и наработки на отказ за первый год они не учитываются.
С учетом приведенного выше (продолжительность включения 100%, эта25 = 8 410 332 час, бета = 0,55 и общее время работы за год 2 400 час) относительную интенсивность отказов за первый год можно рассчитать как интенсивность отказов, произошедших в период между 24 час (t1) и 2 424 час (t2). Результаты такого расчета приведены ниже в таблице, построенной на основе наработки на отказ в течение первого года и данных, полученных в ходе испытаний RDT.
Исходные данные: 2 400 час/год | |
---|---|
Форм-фактор по Weibull (бета): | 0,55 |
Масштабный коэффициент по Weibull (эта): | 8 410 332 |
Р(отказов) от 0 до 2 400 час/год: | 1,123% |
Р(отказов) от 0 до 24 час: | 0,089% |
————— | |
AFR за первый год | 1,0338% (до округления) |
Наработка за год: | 2 400 час |
AFR за первый год: | 0,010338 |
————— | |
Наработка на отказ за первый год по Weibull: | 232 140 час |
(Р(отказов) вычисляются на основании распределения Weibull — см. график. Далее понятно: Наработка на отказ за первый год = Наработка за год / AFR за первый год — прим. редактора).
Как показывают приведенные выше расчеты, если накопитель используется при температуре 25°С и находится во включенном состоянии 2 400 часов в год, можно ожидать, что при работе у пользователя средняя наработка на отказ составит 232 140 часов. Однако такие условия соблюдаются в бытовой электронике не всегда. В некоторых бытовых приборах, скажем, накопитель может работать почти непрерывно, поэтому время его работы за год намного превысит 2 400 часов. В других же устройствах, например, игровых видеоприставках, этот показатель может оказаться значительно ниже. В последующих разделах описано, как именно можно скорректировать расчетное значение наработки на отказ для различной интенсивности использования, продолжительности включения и окружающей температуры.
Учесть изменения средней наработки на отказ, вызванные различиями в интенсивности использования накопителя, можно с помощью приведенного графика.
Легенда к графику «Коррекция среднего времени наработки на отказ в зависимости от ожидаемого времени работы накопителя за год»
Название вертикальной оси — Корректирующий множитель для наработки на отказ
Название горизонтальной оси — Ожидаемое время работы накопителя за год
Например, если известна наработка на отказ для 2 400 рабочих часов в год, а реальное рабочее время за год составляет 8 760 часов, то среднее время наработки на отказ снизится примерно вдвое. И наоборот: когда накопитель работает мало, как это бывает в некоторых игровых видеоприставках, то наработка на отказ может почти удвоиться.
Теперь давайте посмотрим, как изменяется время наработки на отказ при повышении рабочей температуры. Для построения графика температурного коэффициента времени наработки на отказ можно применить ту же модель Arrhenius, которую мы использовали для определения коэффициента учащения отказов. Представленная ниже таблица показывает, как снижается наработка на отказ за первый год (если продолжительность включения составляет 100%) при температуре окружающей среды выше 25°С.
Температура, °С | Коэффициент учащения отказов | Температурный коэффициент снижения времени наработки на отказ | Скорректи- рованное время наработки на отказ |
---|---|---|---|
25 | 1,0000 | 1,00 | 232 140 |
26 | 1,0507 | 0,95 | 220 533 |
30 | 1,2763 | 0,78 | 181 069 |
34 | 1,5425 | 0,65 | 150 891 |
38 | 1,8552 | 0,54 | 125 356 |
42 | 2,2208 | 0,45 | 104 463 |
46 | 2,6465 | 0,38 | 88 123 |
50 | 3,1401 | 0,32 | 74 284 |
54 | 3,7103 | 0,27 | 62 678 |
58 | 4,3664 | 0,23 | 53 392 |
62 | 5,1186 | 0,20 | 46 428 |
66 | 5,9779 | 0,17 | 39 464 |
70 | 6,9562 | 0,14 | 32 500 |
Как видно из таблицы, по мере роста окружающей температуры температурный коэффициент снижения времени наработки на отказ и скорректированная наработка на отказ значительно сокращаются. Так, при 42°С коэффициент учащения отказов составляет 2,2208 (как и было определено в ходе настоящего анализа ранее). А коэффициент коррекции времени наработки на отказ для этой же температуры равен 0,45, то есть среднее время наработки на отказ при температуре 42°С оказывается в два с лишним раза меньше, чем при температуре 25°С.
Продолжительность включения большинства накопителей, установленных в персональных компьютерах, составляет от 20 до 30%, тогда как в бытовых электронных устройствах этот показатель может быть выше или ниже. Измерив объем данных, который пересылается внутри современных устройств бытовой электроники за сутки, специалисты Seagate установили, что продолжительность включения накопителей в них составляет всего 2,5%.
Чтобы определить, как изменяется наработка на отказ при продолжительности включения 2,5% по сравнению со 100% (такое значение характерно для испытаний RDT), нужно выяснить, какое влияние на этот процесс оказывают те компоненты накопителей, состояние которых зависит от продолжительности включения, а какое — другие его элементы. Количество зависимых компонентов в накопителе прямо пропорционально количеству пластин жестких дисков в нем. Взаимоотношение между числом жестких дисков и усредненной интенсивности отказов за первый год отображено на следующей иллюстрации. Пространство под пунктирной линией на этом графике соответствует «базовой», — то есть, не зависящей от того, как долго работает устройство, — интенсивности отказов гипотетического накопителя с нулевым количеством жестких дисков (или накопителя, который не производит чтения, записи и поиска информации). Сплошной линией отмечена ожидаемая интенсивность отказов как функция количества жестких дисков.
Легенда к графику «Зависимость общей и базовой усредненной интенсивности отказов от количества жестких дисков в накопителе»
Название вертикальной оси — Нормализованное значение AFR
Название горизонтальной оси — Количество пластин жестких дисков (не более 4)
Total AFR = Общая усредненная интенсивность отказов
Base AFR = Базовая усредненная интенсивность отказов
Как видно из графика, уменьшение продолжительности включения снижает количество только тех отказов, которые связаны со временем работы накопителя (пространство между пунктирной и сплошной линиями). Зная соотношение между количеством отказов, зависящих от продолжительности включения, и их общим числом, можно оценить влияние продолжительности включения на усредненную интенсивность отказов AFR. Так, для накопителя с четырьмя жесткими дисками общая интенсивность отказов составит 1,4%, а базовая — 0,6%. Снижение продолжительности включения уменьшит вероятность отказа на [(1,4 — 0,6)/1,4] = 57%. Таким образом, снижая время работы четырехдискового накопителя, мы можем уменьшить вероятность отказа только на 57%, остальная доля неполадок от продолжительности включения не зависит.
Изменение коэффициента наработки на отказ для накопителей с разным количеством жестких дисков представлено на следующем графике.
Легенда к графику «Зависимость коэффициента наработки на отказ от продолжительности включения накопителя и количества жестких дисков в нем»
Название вертикальной оси — Коэффициент наработки на отказ
Название горизонтальной оси — Продолжительность включения
1-disk… = Для дисковода минимальной емкости с 1 жестким диском
2-disk… = Для дисковода с 2 жесткими дисками
3-disk… = Для дисковода с 3 жесткими дисками
4-disk… = Для дисковода максимальной емкости с 4 жесткими дисками
Продолжая анализ, оценим комбинированное воздействие различных значений продолжительности включения и температурных коэффициентов сокращения наработки на отказ для нескольких накопителей. На графике внизу слева представлены коэффициенты коррекции наработки на отказ для накопителя высокой емкости с 4 жесткими дисками при разных комбинациях продолжительности включения и температуры окружающей среды. Рисунок справа отображает такие же коэффициенты для накопителя, оснащенного только одним жестким диском. Как видно из этих графиков, в зависимости от продолжительности включения и рабочей температуры накопителя, установленного в ПК, эффективная наработка на отказ за первый год может оказаться выше, равной или ниже, чем ожидаемое значение этого параметра, рассчитанное по результатам заводских испытаний. При этом на накопителе с одним жестким диском изменение продолжительности включения и окружающей температуры сказывается слабее, а коэффициенты коррекции здесь значительно меньше.
Легенда к графикам «Снижение времени наработки на отказ в зависимости от температуры и продолжительности включения (для накопителя максимальной емкости с 4 жесткими дисками/минимальной емкости с 1 жестким диском)»
Название вертикальной оси — Коэффициент снижения времени наработка на отказ
Название горизонтальной оси — Окружающая температура, °С
DF@100%... = Продолжительность включения = 100%
DF@30%... = Продолжительность включения = 30%
DF@20%... = Продолжительность включения = 20%
DF@10%... = Продолжительность включения = 10%
DF@5%... = Продолжительность включения = 5%
DF@1%... = Продолжительность включения = 1%
Согласно распределению Weibull, описывающему зависимость наработки на отказ от срока эксплуатации, при значении бета меньше единицы вероятность отказов оборудования со временем снижается. По этой причине интенсивность отказов накопителей на первом году эксплуатации должна быть выше, чем в последующие годы. Но какова будет интенсивность отказов или среднее время наработки на отказ, если усреднить эти показатели за все время эксплуатации накопителя? Ниже приведены три метода оценки надежности, позволяющие ответить на этот вопрос.
продолжение следует...
Часть 1 Состояние жёстких дисков и технология SMART и прогнозирование сбоев. G-sensor в HDD. Виды неисправностей HDD
Часть 2 Изучаем Smart для прогнозирования сбоев жесткого диска - Состояние жёстких
Часть 3 Термины - Состояние жёстких дисков и технология SMART и прогнозирование
Часть 4 Окончательный расчет - Состояние жёстких дисков и технология SMART и
Комментарии
Оставить комментарий
Диагностика, обслуживание и ремонт электронной и радиоаппаратуры
Термины: Диагностика, обслуживание и ремонт электронной и радиоаппаратуры