Компьютерные сети и технологии: Статьи / Cистемы хранения данных / Системы RAID

Системы RAID

на Tuesday 29 September 2009
от

История и развитие RAID

Вообще то аббревиатура RAID (redundant arrays of inexpensive disks) – расшифровывается как: (избыточный массив недорогих дисков) и хотя дисковые системы хранения данных, производятся уже 40 лет, массовое использование отказоустойчивых систем началось относительно недавно. Первые дисковые массивы с избыточностью данных были представлены исследователями (Петтерсон, Гибсон и Катц) из Калифорнийского университета в Беркли в 1987 году. Однако широко применяться RAID системы начали только когда диски, используемые в избыточных массивах, стали доступны и производительны. Со времени первого официального доклада о RAID 1988 года, исследования в сфере избыточных дисковых массивов постоянно и активно развивались, приводя к развитию широкого спектра решений.
Сегодня разработано достаточное количество архитектур RAID, обеспечивающих работоспособность массива при одновременном отказе любых двух дисков без потери данных. Среди этого множества можно отметить two-dimensional parity (двухпространственная четность) и EVENODD, использующие для кодирования четность, и RAID 6, в котором используется кодирование Reed-Solomon.

Архитектура основных уровней RAID

Итак первым по порядку идет RAID 0 - дисковый массив без отказоустойчивости (Striped Disk Array without Fault Tolerance).
• RAID 0 - Представляет собой дисковый массив, в котором данные разбиваются на блоки, и каждый блок записываются (или же считывается) на отдельный диск. Таким образом, можно осуществлять несколько операций ввода-вывода одновременно.
По сути, он вообще не является избыточным массивом (RAID); тем не менее, данный термин широко применяется.

Преимущества:
• Высокая производительность для приложений требующих интенсивной обработки запросов ввода/вывода и данных большого объема;
• простота реализации;
• низкая стоимость на единицу объема.
Недостатки:
• не отказоустойчивое решение;
• отказ одного диска влечет за собой потерю всех данных массива.

Хочу еще раз отметить – отказ одного диска массива и все, данные всего массива потеряны, старайтесь как можно реже использовать этот вариант.

• RAID 1 (зеркальное отображение и дуплексирование) — схема с избыточностью, в которой применяются два диска одинаковой емкости, содержащие одну и ту же информацию. Каждый диск служит резервной копией другого. Работа зеркального массива, используемого в приложении RAID 1, показана на рисунке.

Дублированная информация хранится на обоих дисках. Когда файл запрашивается из массива, контроллер поочередно считывает сектора с каждого диска. В результате время считывания данных уменьшается в два раза. Если каждый дисковод жестких дисков управляется собственным контроллером, такой процесс называют дуплексированием дисков.

Преимущества:
• простота реализации;
• простота восстановления массива в случае отказа (копирование);
• достаточно высокое быстродействие для приложений с большой интенсивностью запросов.
Недостатки:
• высокая стоимость на единицу объема - 100% избыточность;
• невысокая скорость передачи данных.

• RAID 2 (дисковый массив с использованием кода Хемминга (Hamming Code ECC).) Этот вариант используется для чередующейся записи данных на параллельные диски, как показано на рисунке. Биты или блоки данных поочередно распределяются по дискам массива. Скорость, обеспечиваемая благодаря сбору данных с дисков в параллельном формате — наибольшее преимущество системы. В больших массивах целые байты, слова или двойные слова могут записываться и считываться из массива одновременно.

В спецификации RAID 2 несколько дисков используются для реализации функций выявления и исправления ошибок. В зависимости от используемых алгоритмов выявления и исправления ошибок, для хранения избыточных данных применяются большие области массива. Конечно, в этом случае надежность передаваемых в систему данных очень высока и отпадает необходимость в выполнении длительных по времени операций корректирующего считывания при выявлении ошибки. В массивах, используемых с большими системами, для корректировки ошибок могут использоваться от трех до семи дисководов. Однако, из-за большой аппаратной избыточности системы RAID 2 в микрокомпьютерных системах обычно не применяются.
Когда массив используется таким образом, обычно задействуются сложные алгоритмы обнаружения и исправления ошибок. Контроллер содержит основанную на используемом алгоритме коррекций схему, которая обнаруживает, локализует и исправляет ошибку, не повторяя передачу каких-либо данных. Такой метод обнаружения и исправления ошибок предельно быстр и эффективен. Как видно из рисунка, передаваемый в массив блок данных разбивается на части и распределяется по дискам массива. Слово данных содержит уже включенный в него бит четности. Контроллер генерирует бит четности для блока и сохраняет его на диске обнаружения ошибок. Когда контроллер считывает данные из массива, он воссоздает символ проверки наличия ошибок и сравнивает его с записанным на диске обнаружения ошибок. Сравнивая символ проверки наличия ошибок с повторно записанным символом, контроллер может обнаружить ошибку в поле данных и определить, какой бит в этом поле неправилен. Располагая такой информацией, контроллер может исправить этот бит непосредственно после обработки.

Преимущества:
• быстрая коррекция ошибок ("на лету");
• очень высокая скорость передачи данных больших объемов;
• при увеличении количества дисков, накладные расходы уменьшаются;
• достаточно простая реализация.
Недостатки:
• высокая стоимость при малом количестве дисков;
• низкая скорость обработки запросов (не подходит для систем ориентированных на обработку транзакций).

Системы RAID уровня 2 не нашли своего практического применения.

• При организации RAID 3 (Отказоустойчивый массив с параллельной передачей данных и четностью (Parallel Transfer Disks with Parity)) диски массива работают параллельно, подобно системе RAID 2. Однако для обнаружения и исправления ошибок используется только проверка четности — для этого требуется только один дополнительный диск. В случае ошибки контроллер снова считывает данные из массива, чтобы проверить ошибочные данные. Этот метод исправления ошибок малоэффективен и требует больших затрат времени.

Преимущества:
• очень высокая скорость передачи данных;
• отказ диска мало влияет на скорость работы массива;
• малые накладные расходы при реализации избыточности.
Недостатки:
• Сложная реализация;
• низкая производительность при интенсивных запросах данных небольшого объема.

• Контроллер RAID 4 (Отказоустойчивый массив независимых дисков с разделяемым диском четности (Independent Data disks with shared Parity disk)) записывает сектора поочередно на диски массива. В результате создается иллюзия использования одного большого диска. В основном, формат RAID 4 используется для организации небольших дисковых массивов, но может применяться и для организации больших массивов. Для контроля над наличием ошибок выделяется только один диск проверки четности. Информация на нем обновляется после считывания дисков данных. В результате для выполнения каждой операции считывания данных требуется выполнение дополнительных действий по записи.

Преимущества:
• очень высокая скорость чтения данных больших объемов;
• высокая производительность при большой интенсивности запросов чтения данных;
• малые накладные расходы для реализации избыточности.
Недостатки:
• достаточно сложная реализация;
• очень низкая производительность при записи данных;
• сложное восстановление данных;
• низкая скорость чтения данных малого объема при единичных запросах;
• асимметричность быстродействия относительно чтения и записи.

• Схема RAID 5 (Отказоустойчивый массив независимых дисков с распределенной четностью (Independent Data disks with distributed parity blocks)) — это измененная спецификация RAID 4, в которой функция проверки четности может поочередно использовать различные диски. В этой системе функцию проверки наличия и исправления ошибок выполняют все диски. Если один дисковод отказывает, система может восстановить его данные на основе информации о четности, записанной на остальных дисках. Обычно система RAID 5 пользуется наибольшей популярностью, поскольку она может применяться в рамках небольших массивов, обеспечивая при этом высокую степень исправления ошибок.

Преимущества:
• высокая скорость записи данных;
• достаточно высокая скорость чтения данных;
• высокая производительность при большой интенсивности запросов чтения/записи данных;
• малые накладные расходы для реализации избыточности.
Недостатки:
• скорость чтения данных ниже, чем в RAID 4;
• низкая скорость чтения/записи данных малого объема при единичных запросах;
• достаточно сложная реализация;
• сложное восстановление данных.

• Схема RAID 6. Отказоустойчивый массив независимых дисков с двумя независимыми распределенными схемами четности (Independent Data disks with two independent distributed parity schemes)
Данные разбиваются на блочном уровне, аналогично RAID 5, но в дополнение к предыдущей архитектуре используется вторая схема для повышения отказоустойчивости. Эта архитектура является устойчивой к двойным отказам. Однако при выполнении логической записи реально происходит шесть обращений к диску, что сильно увеличивает время обработки одного запроса.
Надежность RAID-6 очень высока: потеря данных возможна только при выходе из строя еще двух накопителей прежде, чем будет заменен первый отказавший.
Производительность оценивается также как средняя. Хотя "горячие пятна" распределены по массиву, требуются дополнительные операции записи, снижающие общую производительность.

Преимущества:
• высокая отказоустойчивость;
• достаточно высокая скорость обработки запросов;
• относительно малые накладные расходы для реализации избыточности.
Недостатки:
• очень сложная реализация;
• сложное восстановление данных;
• очень низкая скорость записи данных.

Страница
1 > : История и развитие RAID
2 : Комбинации уровней RAID
3 : Сравнение характеристик RAID
4 : Некоторые аспекты реализации RAID систем