logo MicroMax logo MaxNews logo MaxNews

Инструментальные средства создания компьютеризированных систем высокой готовности

Компьютеризация - процесс абсолютно глобальный, всеобъемлющий и неизбежный в новый информационный век, когда реальная ценность незримого потока битов легко перекрывает вагоны с золотыми слитками и по стоимости, и по весу. Положив на двоичную музыку бесценную информацию, доверив компьютеру обработку, трансформацию и транспортировку всего этого, мы вправе требовать от силиконового друга высшей меры ответственности. Приходя к понятию «готовность» компьютерной системы мы будем понимать ее так, как ее понимают эксплуататоры: не как готовность загрузиться после включения питания, а как готовность к преодолению внештатных ситуаций в штатном режиме. Никакой игры слов нет, слабенькая и, со всех сторон, уязвимая персоналка из всего перечня подобных средств снабжена только кнопкой сброса и «горячего» рестарта RESET. Более чем скудный инструментарий готовности! Еще раз акцентируем внимание на том, что никаких тяжелых математизированных экскурсов в Теорию Надежности мы не предполагаем, оставаясь в рамках пользовательского восприятия проблемы.

Отказавший настольный ПК стоит нескольких крепких выражений, пары испорченных файлов и пяти минут времени на перезагрузку, скисший сервер остановит работу целой конторы на время от получаса до нескольких часов в зависимости от размера сети.

Сугубо мрачные последствия отказа компьютера, управляющего ответственным или опасным технологическим процессом, доказаны глобальным ядерным кошмаром Чернобыля. В перспективе постижения тайн природы, последствия утраты управляемости не снились даже Айзеку Азимову и голливудским творцам массовой паники на тему полоумного робота-камикадзе, взрывающего плохо охраняемый арсенал ядерного оружия.

Тематика производственного управления, по-нашему АСУТП, наиболее показательна с точки зрения проблемы готовности компьютерной системы и методов ее повышения. Поэтому в дальнейшем мы касаемся только широкого класса аппаратуры, обозначаемой, в общем, как промышленные компьютерные системы или, более точно, системы промышленного применения. В данном случае, слово «промышленный» не обязано намекать исключительно на заводы и цеха, но любые задачи, условия исполнения которых отличны от офисных.

В рамках принятого допущения, пользователю в той или иной мере доступны следующие параметры отражающие готовность:

  1. MTBF - Mean Time Between Failures. Ожидаемое время безотказной работы между двумя соседними по времени фатальными аппаратными сбоями. Соответствующий отечественный термин - Наработка на Отказ (НнО), и далее мы так и будем называть этот параметр. Как и любое классическое «математическое ожидание», этот параметр является расчетным и сугубо вероятностным. А именно, обратная НнО величина и есть вероятность отказа.
  2. MTTR - Mean Time To Repair. Ожидаемое время простоя системы на ремонт или обслуживание, которое в дальнейшем мы назовем Планируемым Сервисным Простоем (ПСП). Другое значение - ожидаемое время восстановления системы после фатального сбоя. Математическая природа - та же; отношение к предыдущему параметру самое прямое, так как условия ПСП возникают именно после фатального отказа в системе.

НнО, как некоторый интегральный показатель надежности, зависим прежде всего от аналогичных параметров комплектующих, элементной базы. Именно на их базе он и рассчитывается, а затем в действие вступают внешние по отношению к системе факторы: климатические и производные от них (температура, влажность, давление, запыленность, жесткие и мягкие излучения, электромагнитные поля) и механические (перегрузки ударного и вибрационного происхождения). Грубое эмпирическое влияние температуры оценивается снижением MTBF вдвое на каждые 10 градусов повышения температуры. Похожим образом, через уравнение состояния при изменениях остальных составляющих среды обитания компьютера ухудшается или, наоборот, улучшается тепловой баланс в системе. Пыль, осаждающаяся на компоненты, прежде всего затрудняет теплоотдачу, а уже потом может спровоцировать нежелательные электрические связи. Влияние механических воздействий губительно для накопителей, а в более тяжелых случаях для разъемных соединений периферийных плат, полупроводников, установленных в цоколи, и, в конце концов, для самих печатных плат. Платы, как и крылья самолета, боятся и флаттера, и дивергенции.

ПСП можно считать простоем системы на время восстановительного ремонта. Экономисты любят просчитывать его стоимость, и иногда у них получаются впечатляющие цифры.

Двуединая задача повышения готовности должна предусматривать увеличение НнО при снижении ПСП. Некоторые приемы обеспечивают и то, и другое одновременно, но, в основном, задача для каждого параметра решается раздельно. Рассмотрение методов увеличения готовности целесообразно вести от простого к сложному, что практически пропорционально эффективности таких решений. Второе допущение касается параметра далеко не технического - стоимости системы. Специальная разработка системы по ТЗ заказчика несомненно оптимальна в техническом смысле и настолько же малоприемлема во всех остальных аспектах: время, деньги и все типы рисков. Далеко не всякие, обильно финансируемые государственные проекты могут позволить себе роскошь уникальной разработки, поэтому использование массово выпускаемой электроники и неких стандартных конструктивных приемов и элементов может только приветствоваться. Ярчайшими примерами здорового технико-финансового компромисса могут служить такие, не самые обделенные средствами, организации самой твердовалютной страны как NASA или IBM, соответственно от государственного и частного сектора. И те, и другие активно используют решения, о которых будет сказано ниже:

  1. Пассивный интерфейс, как конструктивный базис системы, влияет на оба параметра сразу, повышая надежность и снижая простои. Принятая в технологии коммерческих компьютеров единая системная плата, по-нашему «генмонтаж», несет в себе только функциональное удобство, остальное - сплошные недостатки. Замена вышедшей из строя платы чревата полной разборкой, т.е. «удовольствием» длиной в два-три часа при приличной квалификации. Изменение конструкции, предусматривающее применение пассивной объединительной платы, прежде всего, обеспечивает универсальность доступа ко всем компонентам системы, единое время на операцию замены. Большинство промышленных компьютеров строится именно по этой схеме, унаследованной от крейтовых конструкций Мини ЭВМ. Можно выделить три основных подхода к реализации пассивного интерфейсного объединителя:

    • Замена системной платы на пассивный интерфейс при сохранении компоновки периферии. В результате получается нечто с общим названием Пром ПК: системы, способные использовать стандартные (коммерческие, они же массовые) периферийные платы, используемые в любых стандартных ПК. Как первая ступень конструктивной адаптации, Пром ПК обеспечивают снижение ПСП до величин 15-30 минут. Увеличение НнО, обусловленное другими факторами, а именно, принудительным охлаждением всех функциональных плат, также имеет место быть, равно как и преимущественно вертикальное их расположение.

    • Крейтовая схема. Сочетание пассивного интерфейса с фронтальных доступом к платам. Обеспечивает дальнейшее снижение ПСП до величин 5-10 минут за счет отсутствия необходимости какой-либо корпусной разборки. Передние панели функциональных плат (процессорных и периферийных) представляют часть внешнего корпуса. Такая компоновка считается единственно возможной для систем высокого ранга готовности, телекоммуникационных и промышленных.

    • Проходные мезонинные монтажи. Пассивный интерфейс реализуется в проходном разъеме, то есть каждая функциональная плата несет в себе часть пассивного интерфейса. Существующие технологии этого типа PC/104 и PC/104-PLUS демонстрируют другой акцент проектирования, максимальное увеличение НнО даже при некотором ухудшении ПСП. Однако, учитывая основное назначение подобных систем - необслуживаемые, встраиваемые и бортовые комплексы, целесообразность такого подхода не вызывает сомнения. Сравнительная сложность сервисного обслуживания компенсируется комплексом мер повышения НнО: компактность, механическая жесткость и устойчивость, энергетическая и, соответственно, температурная оптимизация.


  2. Элементная база и системотехнические решения. Снижая потребление основных элементов компьютера, конструкторы автоматически планируют снижение температурного фона работающей электроники, повышая ее общий и безотказный ресурс, а, в качестве бесплатного к этому приложения, расширяются температурные пределы функционирования. Для промышленных систем рабочие температуры от -40 до +85° С не экзотика, а, зачастую, суровая необходимость устранения слабых мест, каким, несомненно, предстает обычный вращающийся вентилятор охлаждения. Производители промышленных систем охотно используют наработки «мобильного» компьютеростроения, процессоры и наборы микросхем с пониженным напряжением электропитания: AMD Elan; Intel Pentium MMX (Tillamook); Pentium II (Dixon) и Pentium III (BGA2); Auctor Maple; ZF Linux Devices ZFx86 (бывший Mach Z). Использование специальных соединителей, снижение интерфейсных токов определяют дальнейшее улучшение НнО. Например, разъемы интерфейса РС/104 позволяют, в сравнении со своим стандартным прототипом - шиной ISA, безболезненно снизить интерфейсные токи в 4-6 раз. Разъемы интерфейса CompactPCI, в сравнении со своим прототипом PCI, повышают нагрузочную способность интерфейса на скорости 33 МГц с 4 устройств до 7 или до 5 на скорости 66 МГц. И в том, и в другом случае снижается вероятность сбоя магистрали в результате электромагнитных индукционных помех.

  3. Дальнейшие шаги повышения НнО связаны уже только с крейтовыми конструктивами. Внедрение подобных методов в стандартных ПромПК неприемлемо ввиду потери совместимости с исходными ПК. Оставаясь в рамках стандартной архитектуры х86, есть смысл упомянуть еще раз технологию CompactPCI - крейтовую разновидность специального компьютера с фронтальным доступом к функциональным платам.

    • Небольшая модификация базового интерфейсного разъема и базового Программного Обеспечения, и любой отказавший блок, кроме основного процессорного (системного мастера, установленного в специальном системном слоте), может быть изъят и заменен без выключения системы в режиме так называемой «горячей замены». ПСП сокращается до малозаметной величины одной - двух минут, если сбой не коснулся системного мастера, при отказе которого умирает вся основная шина PCI вместе со всеми периферийными устройствами.

    • Незаменимость Системного Мастера была преодолена практически «в лоб» добавлением резервного системного слота, своего рода запасного пути с паровозом под парами и электроникой переключающей «стрелки». Видоизменившийся системный разъем добавил функцию «горячей замены» на оба слота и, в случае отказа ведущего процессора, арбитражная электроника отключает его от шины, обеспечивая подключение резерва, который, как минимум, обеспечивает синхронизацию шины, сохраняя работоспособность периферии. Абсолютное значение ПСП для такого случая зависит не только от скорости переключения, но и, в существенной степени, от алгоритмической поддержки механизма передачи управления. Эта задача требует ощутимых распределенных ресурсов и, зачастую, весьма существенных объемов памяти, хранящих состояние задачи во всем требуемом многообразии. Такого рода ресурсов технология дублированного резервного слота, фактически «горячего резервирования», под названием High Availability (буквально Высокая Готовность) не имеет, но, тем не менее, статистическое значение параметра обеспечивается на уровне, достигающем 0,99999, что в пересчете на год непрерывной эксплуатации, допускает только 5 минут простоя по любой из технических проблем.

    • Последний штрих пишут программисты. Разработчики только дают инструмент. Проблема резервирования исполняемой задачи остается последним больным вопросом, как упоминалось в предыдущем абзаце. Технология HA своими возможностями негласно рекомендует не размещать критичные задачи на системной мастер-плате компьютера CompactPCI, основной мотивацией существования которой остается общая живучесть аппаратной части системы. Синхронизация интерфейса, программная поддержка механизма «горячей замены» и динамической реконфигурации и арбитраж периферии; полагая, что этого всего вполне достаточно, разработчики из нескольких компаний, входящих в ассоциацию PICMG, предложили концепцию «целевого процессора» - процессорного модуля, используемого в ранге периферийного адаптера или, что ближе к сути, аппликативного модуля. Такой класс периферии существовал давно в качестве плат математической обработки сигналов с использованием DSP (Цифровых Сигнальных Процессоров). Теперь в качестве такой периферийной вычислительной системы выступают целевые процессоры, полнофункциональные вычислительные подсистемы с достаточно полным набором автономных ресурсов, вплоть до дисковых накопителей. В отличие от системного мастера, безраздельно властвующего над системной шиной CompactPCI, целевые мастера такой возможности не имеют, поскольку их связь с этой шиной происходит через непрозрачный мост (типа DEC21554), программируемый с обоих сторон и разделяющий ресурсы и адресные поля полностью. Таким образом, «выход» целевого мастера на шину может быть санкционирован только системным мастером. Поскольку такая ситуация процессорного «междуцарствия» архитектурой ПК х86 никак не предусмотрена, во избежание специализации операционных систем, а стало быть, потери программной совместимости, нужно было применить какой-то универсальный подход. Наиболее естественным из механизмов связи стало сетевое взаимодействие, и непрозрачные мостовые микросхемы выступили в роли сетевых адаптеров, а сама магистраль CompactPCI в качестве сетевой линии. Оснастив подобную систему соответствующим программным обеспечением, разработчики привели систему к состоянию машины-сети, совокупности независимых автономных узлов, сосуществующих на общей магистрали огромной производительности. В пересчете на сетевые скорости, производительность магистрали CompactPCI 66 МГц может оцениваться величиной 1 Гигабит/сек. Приведя такую, по классическому определению, Асинхронную Многопроцессорную Систему к единому абстракту сетевой модели нет никаких препятствий к использованию, например, кластерной методики сохранения работоспособности системы.

Таким образом может выглядеть сегодня «обратная» эволюция элегантной настольной машины в «гадкого» на вид но весьма надежного и стойкого «утенка». Практика доказывает очевидные преимущества реадаптации коммерческих компьютерных систем в промышленные и специальные. Очень узкий класс задач не приемлет такого подхода в силу очень специфических требований. Однако большинство задач аэрокосмического комплекса и даже обороны вполне обеспечиваются на компромиссном уровне. В качестве очевидных выгод выступают обычно факторы внетехнологического свойства, такие как стоимость создания системы и время внедрения разработки в практику, определяющие и ее технологическую актуальность, и конкурентоспособность, и, в конце концов, все виды отдачи, даже если речь идет о совершенно некоммерческих проектах.



Евгений Деревяго
Начальник отдела критических систем MicroMax Computer Intelligence, Inc.