ЖУРНАЛ «СТА» №2/2016
2. Синхронизация параллельных пото- ков данных через эти компоненты – технология Lockstep. 3. Сравнение потоков данных: если по- токи данных одинаковые, то компо- ненты исправны, отклонения свиде- тельствуют о неисправности. Дублирование компонентов Для устранения единой точки отказов в системах Stratus ftServer продублиро- ваны все компоненты. Такая избыточ- ность реализована простым способом: используются два независимых, авто- номно работающих (с точки зрения электрических компонентов) сервера. Физически два сервера высотой 2U установлены в одно шасси высотой 4U с возможностью «горячей» замены (CRU – Сustomer Replaceable Unit), ко- торые в терминологии Stratus ftServer [2] также называются CPU-IO Enclousures и соединены между собой пассивной объединительной платой (Сommon Sys- tem Backplane), рис. 4. Данный конструктив исключает на- личие единой точки отказа, так как все компоненты системы продублированы и работают автономно, независимо друг от друга. Единственный недублирован- ный компонент системы – это объеди- нительная плата, которая выполнена в виде пассивной (то есть не имеющей ак- тивных элементов) печатной платы. По сути это просто электрический соеди- нитель, вероятность его выхода из строя очень мала. Более того, даже если по ка- ким-либо причинам он откажет (напри- мер, в результате физического воздей- ствия), это не приведёт к сбою системы, так как он не участвует в процессе обра- ботки информации, а только обеспечи- вает отказоустойчивость. Как и выход из строя любого дублированного компо- нента, приводящего к потере отказо- устойчивости, такая ситуация диагно- стируется системой и требует оператив- ной замены неисправного компонента для её восстановления. Технология Lockstep Систему Stratus ftServer можно рас- сматривать как два независимых авто- номных компьютера с общей шиной PCI и логикой сравнения. Для опера- ционной системы Stratus ftServer выгля- дит как единый компьютер, причём каждая половинка «видит» все устрой- ства PCI. Как ранее упоминалось, ос- новная идея этого подхода состоит в том, чтобы использовать стандартные, то есть широко распространённые ком- поненты, разработанные для каждого типа процессоров. В дополнение к стан- дартным вычислительным модулям (по- ловинкам системы) имеются только связь между ними и логика сравнения, реализованные в дополнительной мик- росхеме (ASIC – Application Specific Integrated Circuit), которая для обес- печения отказоустойчивости тоже про- дублирована. Технология Lockstep гарантирует, что все ошибки (в том числе и неповторяю- щиеся) будут обнаружены и при сбое модуля процессор–память не произой- дёт прерывания в работе системы или потери данных либо состояния. В слу- чае неисправности компонента его партнёр продолжит нормальную работу и обеспечит непрерывность функцио- нирования системы. Отказоустойчивая архитектура по- строена на основе собственной разра- ботки компании Stratus – чипсете Albireo (название по имени двойной звезды в созвездии Лебедя) на базе трансиверов Stratix IV GX. Каждый сервер (CPU-IO Enclosure) логически состоит из процессорного модуля (CPU Element) и модуля ввода- вывода (I/O Element), физически уста- новленных на системной плате. Про- цессорный модуль – это процессор и память. Модуль ввода-вывода – это устройства PCI и SCSI, а также сетевой контроллер (рис. 5). Применены различные подходы к реализации отказоустойчивости. Логи- ка работы построена так, что модули функционируют независимо и в случае отказа какого-либо из них перекрёстно могут обеспечить непрерывную работу системы. Процессорный блок Синхронизация процессоров и опе- ративной памяти между двумя материн- скими платами достигается за счёт так называемой технологии Lockstep, кото- рая гарантирует, что начиная с заданно- го момента времени резервные компо- ненты всегда находятся в одинаковом состоянии в каждый момент времени. Они будут функционировать (идти) «шаг в шаг», как солдаты в строю. Для начала работы обе части системы необходимо привести в одно начальное состояние. Это осуществляется в не- сколько этапов. Загрузка первой части системы Сначала загружается одна часть си- стемы (один сервер из пары), в то вре- мя как вторая находится в состоянии ожидания без каких-либо действий. Первым шагом после включения яв- ляется выполнение процедуры самоте- стирования POST (Power-On Self-Test). 24 СТА 2/2016 ОБ ЗОР / АППА РАТ НЫЕ С Р Е ДС Т В А www.cta.ru Рис. 4. Общая компоновка системы ftServer Рис. 5. Логическая организация системы ftServer Объединительная плата Два сервера с процессорным модулем и модулем ввода-вывода Ввод- вывод Многоканальная система ввода-вывода Lockstep Центральный процессор Оперативная память Жёсткий диск Ввод- вывод Центральный процессор Оперативная память PCI-адаптеры PCI-адаптеры Контроллер Stratus Средства повышения готовности Lockctep Контроллер Stratus Средства повышения готовности Lockctep Жёсткий диск
Made with FlippingBook
RkJQdWJsaXNoZXIy MTQ4NjUy