ЖУРНАЛ СТА 3/2009

РАЗ РА БОТ КИ / НАУ ЧНЫЕ ИССЛ Е ДОВ АНИЯ 74 www.cta.ru CTA 3/2009 сто не достигается из-за невозможности разделить задачу на параллельные про- цессы. Для определения производительности вычислителя была принята методика ав- стрийской фирмы AVL Advanced Simula- tion Technologies, которая проводит те- стирование серверов различной ком- плектации с целью определения реального быстродействия. С этой целью разработаны пакеты программ (bench- mark test), моделирующие различные тех- нологические процессы. Пакеты моде- лирующих программ представляют собой расчёты параметров состояния объектов сложной геометрии, работающих в кри- тических условиях. Таковыми, например, являются цилиндры автомобильных и авиационных двигателей, системы водя- ного и воздушного охлаждения, смеси- тели различного назначения и др. Моделирование складывается из двух процедур: ● задание геометрии объекта и построе- ние его пространственной (трёхмер- ной) сетки; ● вычисление итераций искомых пара- метров состояния объекта (скорости, давления, температуры) по функции их значений, заданных на границе в каждой пространственной точке мо- дели. Исходными данными для запуска яв- ляются тип задачи, количество итераций, количество узлов и количество процес- сов, осуществляющих параллельную об- работку. Тестирование проводилось на различных задачах, геометрия которых представлена 5 × 10 6 точками. При вычис- лении 10 итераций на 12 узлах заявлены библиотеки Lib (ia64-unknown-linux) с повышенной точностью. Операционная система Linux сопро- вождает полный мониторинг вычисле- ний. Файл Log содержит протокол вы- числений, включая время занятости вы- числительного ядра (Linear Solver), время коммуникаций MPI и затраты на ввод- вывод. Пример фрагмента протокола приве- дён на рис. 3. Протокол показывает, что задача раз- делена интерфейсом MPI на 12 процес- сов (Linear Solver). При численном мо- делировании параметров на простран- ственной сетке в точках максимальное время вычислений, затраченное в сово- купности всеми ядрами УМС при рас- параллеленных вычислениях (Linear Solver), равно 1953,90 с = 32,5 мин. Для сравнения приводится общее суммар- ное время вычислений УМС в однопро- цессорном режиме, которое равно 22 823,97 с = 381 мин. Время, затрачи- ваемое для передачи данных и органи- зации параллелизма вычислений паке- том MPI, составляет менее 6% от общих временных затрат. Результаты проведённого тестирова- ния УМС показали высокую степень распараллеливания согласно закону Ам- дала и, как следствие, целесообразность применения этой системы для задач чис- ленного моделирования и построения сложных виртуальных объектов. На представленной масштабируемой мультипроцессорной системе было про- ведено решение ряда практических за- дач, требующих больших вычислитель- ных мощностей. Рассмотрим некоторые из них. Обучение нейронных сетей прямого распространения Был реализован новый алгоритм муль- тистарта с отсечением для решения за- дачи обучения нейронной сети прямого распространения. Основная идея алго- ритма мультистарта с отсечением заклю- чается в проведении нескольких парал- лельных запусков (стартов) локально- оптимального алгоритма обучения с раз- личными начальными приближениями. При этом после выполнения заданного числа шагов локально-оптимального ал- горитма обучения выделяются «непер- спективные» старты, которые исклю- чаются из рассмотрения, и процесс об- учения продолжается на более узком наборе стартов. При одинаковом вре- мени работы алгоритма мультистарта и предложенного алгоритма мультистарта с отсечением предложенный алгоритм позволяет уменьшить ошибку аппрокси- мации до двух раз. Предложенный алго- ритм хорошо подходит для параллель- ной реализации на рассматриваемой вы- числительной системе, так как при этом требуется высокоскоростная среда об- мена между вычислительными узлами. Это обусловлено тем, что для обеспече- ния равномерной загрузки узлов вычис- лительной системы в ходе работы алго- ритма требуется перераспределение стар- тов между узлами, так как исключаемые старты заранее неизвестны и опреде- лятся в ходе работы алгоритма. Имитация отжига для решения задач построения многопроцессорных расписаний Реализован параллельный алгоритм имитации отжига для построения мно- гопроцессорных расписаний [2], осно- ванный на разбиении пространства кор- ректных расписаний на непересекаю- щиеся области и поиске решения в каждой из них отдельно. Предложенный алгоритм характеризуется низким тра- Общие характеристики Число вычислительных узлов 12 Число процессоров/ядер 24/48 Тип процессора Два низковольных двухъядерных процессора Intel® Xeon® 5138, 2,33 ГГц с двухканальной системной шиной частотой 1333 МГц, 40 Вт/процессор Теоретическая пиковая производительность 447 GFLOPS Производительность на тесте Linpack 340 GFLOPS, 76% от теоретической Тип ведущей сети обмена данных и скорость Infiniband 10 Гбит/с Задержка при передаче пакетов данных по ведущей сети 3-4 мкс Альтернативная сеть обмена данных Gigabit Ethernet Вспомогательная сеть Gigabit Ethernet Оперативная память узла 4 Гбайт FBDIMM DDR2 667 МГц, расширяемая до 64 Гбайт Дисковая память узлов 2 диска SATA по 80 Гбайт Операционная система Red Hat Enterprise Linux 4 Среда параллельного программирования Intel MPI Library 3.0 Компиляторы и библиотеки GNU (gcc/g77), Intel C++ Compiler for Linux 10.0, Intel Fortran Compiler for Linux 10.0; Intel Math Kernel Library Cluster Edition 9.1 Конструкция и система питания Конструктив вычислительного узла 1U Количество монтажных шкафов вычислительного кластера 1 Занимаемая шкафом площадь 0,6 м 2 Габариты шкафа 1000 × 600 × 2200 мм Потребляемая УМС мощность 4,5 кВт Система охлаждения Воздушная, принудительная Защита от внешних воздействий IP54 Таблица 1 Основные технические характеристики УМС © СТА-ПРЕСС