СТА №3/2017

Hardware Encoder SDK. Работа с коде- ком построена таким образом, что его входные буферы, предназначенные для загрузки кадров, располагаются в локальной оперативной памяти VIM556 (рис. 5). Любая излишняя пере- сылка данных по PCI Express, нарушаю- щая принцип работы построенного кон- вейера, сразу приводила к простаиванию его элементов и резкому увеличению времени обработки кадра всей системой. П РОИЗВОДИТЕЛЬНОСТЬ Оценим основные характеристики построенных конвейеров: конвейерную задержку, пропускную способность, уровень загрузки ЦП. Оценка конвейерной задержки В табл. 2 показаны длительности ос- новных этапов цикла обработки кадра, как вместе, так и без механизма «точ- ка–точка» (P2P). Оценки были получе- ны путём измерения длительности вы- полнения операций в управляющих по- токах на процессорном модуле CPC510. Из приведённых данных видно, что реализованный в ГРИФОН механизм межмодульного взаимодействия позво- ляет значительно сократить величину конвейерной задержки. Действительно, при прямом обмене данными отпадает необходимость использовать процес- сорный модуль в качестве промежуточ- ного звена передачи. Выигрыш от при- меняемого механизма «точка–точка» ещё более значителен, так как приве- дённые в таблице данные для режима «без PCIе P2P» не учитывают дополни- тельные временныˆ е затраты на пробуж- дение нитей на ЦП. Величина задержки между моментом получения кадра 1920 × 1080 и его ото- бражением на мониторе – менее 20 мс – подтверждает возможность по- строения на основе ГРИФОН систем видеотрансляции реального времени. Оценка пропускной способности Для оценки загруженности внутрен- ней шины PCI Express нами использо- вался программный инструмент PLX SDK, показывающий потоки данных, проходящих через коммутатор PLX8624. Результаты мониторинга полностью со- ответствуют расчётным: из табл. 3 вид- но, что исходящие от FPU500 видеопо- токи объёмом 89 Мбайт/с каждый по- ступают на соответствующие им гра- фические модули VIM556. Размер ви- деопотока согласуется с размером кад- ров (3 Мбайт) и скоростью их выдачи (30 кадров/с). После сжатия кадры направляются на ЦП, что подтверждается наличием не- больших потоков данных от графиче- ских ускорителей к ЦП (табл. 3). Для сравнения в табл. 4 приведены объёмы потоков данных при работе ВГВП без механизма «точка–точка». При отсутствии возможности прямого межмодульного обмена видеокадры сначала попадают на процессорный мо- дуль и лишь затем перенаправляются на графические ускорители. Общая загрузка шины PCI Express не превышает 10% от максимально воз- можного значения. Загрузка центрального процессора При решении задачи обработки видео с помощью построенного конвейера центральному процессору необходимо только координировать работу входя- щих в состав ГРИФОН элементов – не- посредственной обработкой данных CPC510 не занимается. В его функции входят выдача управляющих команд модулям на приём/передачу данных, управление кодеком NVIDIA, управле- ние выводом изображения на монито- ры видеокарт, а также общий контроль работоспособности системы. Оценки загрузки центрального про- цессора в различных режимах мы прово- дили с помощью приложения htop, ре- зультаты измерений показаны в табл. 5. З АКЛЮЧЕНИЕ Преимущества использования гете- рогенных конфигураций для решения ряда ресурсоёмких прикладных задач неоспоримы, а наращивание их приме- нения является сегодня одним из трен- дов развития вычислительных систем. При этом оценка характеристик про- изводительности систем с гетерогенной вычислительной средой является пока нетривиальной задачей, ввиду отсут- ствия готовых универсальных нагрузоч- ных тестов и разнообразия способов ре- шения прикладной задачи в гетероген- ной вычислительной системе. Продемонстрированный пример поз- воляет оценить наиболее критичные, с точки зрения аспектов быстродействия и производительности, характеристики гетерогенной системы при организации параллельно-конвейерной обработки данных в условиях высокой нагрузки. Так, разработанное для гетерогенной платформы ГРИФОН тестовое про- граммное обеспечение позволило оце- РАЗ РА БОТ КИ / КОН Т РОЛ Ь НО - ИЗМЕ Р И Т Е Л Ь НЫЕ СИС Т ЕМЫ 87 СТА 3/2017 www.cta.ru Таблица 2 Оценка конвейерной задержки Таблица 3 Оценка пропускной способности Таблица 4 Объёмы потоков данных при работе ВГВП без механизма «точка–точка» Отображение и сжатие кадра с механизмом P2P Передача кадра от FPU500 к VIM556 12 мс 16 мс Передача кадра видеокодеку для сжатия 4 мс Отображение и сжатие кадра без механизма P2P Передача кадра от FPU500 к CPC510 12 мс 28 мс Передача кадра от CPC510 к VIM556 12 мс Передача кадра видеокодеку для сжатия 4 мс Модуль Входящий поток данных, Мбайт/с Исходящий поток данных, Мбайт/с FPU500 – 178 VIM556 N1 89 1 VIM556 N2 89 1 CPC510 2 0,7 Модуль Входящий поток данных, Мбайт/с Исходящий поток данных, Мбайт/с FPU500 – 178 VIM556 N1 89 1 VIM556 N2 89 1 CPC510 180 178,7 Таблица 5 Загрузка центрального процессора Режим работы системы Загрузка процессорной платы CPC510, % Трансляция и сжатие видео при наличии в системе только одного видеопотока 4,5 Трансляция и сжатие видео при наличии в системе двух видеопотоков 12,5 Трансляция, поиск лиц и сжатие видео в обоих видеопотоках 25