СТА №2/2017

Преимущество модели MapReduce заключается в том, что она позволяет распределённо производить операции предварительной обработки и свёртки. Операции предварительной обработки работают независимо друг от друга и могут производиться параллельно. Ана- логично множество рабочих узлов мо- гут осуществлять свёртку – для этого необходимо только, чтобы все результа- ты предварительной обработки с одним конкретным значением ключа обраба- тывались одним рабочим узлом в один момент времени. Эффективность Map-Reduce по срав- нению с последовательными алгорит- мами может показаться неочевидной, но именно возможность обработки больших объёмов данных на множестве серверов делает её привлекательной для разработчиков. Hadoop Одной из лидирующих технологий, относящихся к классу Big Data, являет- ся открытая платформа Hadoop. Данная технология представляет собой откры- тую платформу программного обес- печения для распределённого хранения и распределённой обработки больших объёмов данных на вычислительных кластерах, построенных из стандартных аппаратных средств. Hadoop позволяет не только сокра- тить время на обработку и подготовку данных для аналитических систем, но и значительно расширяет возможности по анализу, позволяя оперировать но- вой информацией, слабо структуриро- ванными или совсем не структуриро- ванными данными. Технология также используется для оптимизации существующих процессов обработки данных, что позволяет значительно сократить затраты на хра- нение и обработку и при этом обеспе- чить эффективность работы с данными. Hadoop состоит из двух ключевых компонентов (рис. 4): ● распределённой файловой системы Hadoop (HDFS), которая отвечает за хранение данных на кластере Hadoop; ● системы MapReduce, предназначен- ной для вычислений и обработки больших объёмов данных на кластере. Распределённая файловая система Hadoop (HDFS –Hadoop Distributed File System) создана для хранения очень большого объёма информации и обес- печения высокой скорости доступа к этой информации. Файлы хранятся в избыточной форме на нескольких ма- шинах для обеспечения их устойчивости при возможных ошибках и высокой до- ступности параллельным приложениям. Hadoop обеспечивает эффективную обработку большого объёма данных пу- тём подключения нескольких компью- теров для параллельной работы. Теоре- тически суперкомпьютер с 1000 процес- соров будет стоить куда больше, чем 1000 компьютеров с одним процессором или 250 четырёхъядерных компьютеров. Hadoop соединит эти небольшие по стоимости машины в один экономиче- ски выгодный вычислительный кластер. Следует обратить внимание на то, что технология даёт возможность осуществ- лять сложную обработку любых файлов, в том числе неструктурированных, бла- годаря чему такие данные могут быть эффективно проанализированы и ис- пользованы. В частности, это свойство позволяет системам жизнеобеспечения города осуществлять on-line мониторинг информации в социальных сетях и бы- стро реагировать на сообщения об ава- риях в сетях водоснабжения, теплоснаб- жения, газоснабжения и т.п. (информа- ция об авариях в уличных сетях в Интер- нете появляется раньше, чем звонки на «горячую» линию предприятия). B IG D ATA В АСУ ТП Оснащение производства современ- ными системами автоматизации приво- дит к оцифровке всех получаемых дан- ных, и это создаёт у персонала пред- приятия иллюзию их доступности. Но оцифровано не значит доступно [8]. Данные о технологических процессах есть в АСУ ТП агрегатов, данные о про- изводстве хранятся в MES-системах, данные о заказах содержатся в ERP-си- стеме (рис. 5). Нет только средств, ко- торые могут агрегировать все данные и увязать их между собой. В случае поиска причин брака и зако- номерностей, приводящих к его по- явлению, а также при решении оптими- зационных задач необходимо собрать и сопоставить между собой отчёты совер- шенно разнородных систем. Но гори- зонт времени зачастую составляет не более нескольких дней, при этом дан- ные не прекращают поступать, посто- янно меняя общую картину. И здесь на помощь могут прийти тех- нологии класса Big Data. Они обеспечат создание единого информационного пространства для всех уровней автома- тизации. Особенно эффективны дан- ные технологии при построении авто- 14 СТА 2/2017 ОБ ЗОР / Т Е Х НОЛОГ ИИ www.cta.ru Рис. 4. Обобщённая схема технологии Hadoop Рис. 5. Пирамида интеграции технологий автоматизации от уровня техпроцесса до уровня отрасли Обзор технологии Вычислительный кластер DFS – распределённая файловая система Результаты Результаты Результаты Результаты Результаты Результаты Результаты Результаты Результаты Результаты Результаты Результаты Результаты Результаты DFS-блок 1 DFS-блок 1 DFS-блок 1 DFS-блок 3 DFS-блок 3 DFS-блок 2 DFS-блок 2 DFS-блок 2 Map Map Map Reduce Данные Данные Данные Данные Данные Данные Данные Данные Данные Данные Данные Данные Данные Данные Техпроцессы Производство Предприятие Отрасль ERP (финансы, договоры, поставки) MES (координация, анализ и оптимизация выпуска продукции, планирование ремонтных работ) SCADA (АСУ ТП, АСУЭ, АСКУЭ, диспетчеризация) Датчики, оборудование ©Apache Software Foundation