СТА №2/2017
обработки данных, который функцио- нирует на двух виртуальных машинах, и возникает необходимость увеличить производительность сервера (возросло число подключаемых пользователей, и, следовательно, повысился объём запро- сов), на непродолжительное время мы можем легко остановить одну из вирту- альных машин и изменить её характе- ристики (количество ядер или выделяе- мой памяти), запустить и после успеш- ной синхронизации выполнить такую же процедуру на дублирующем серве- ре. Причём при использовании клас- терной конфигурации этот процесс ещё больше упрощается, ввиду того что до- бавление ресурсов можно безболезнен- но производить не только на уровне виртуализации, но и на физическом уровне. Такой подход наиболее очевиден, но он наглядно показывает, что работа с виртуальной архитектурой значительно сокращает риски и затраты на реализа- цию многих ответственных и критиче- ских процессов. В виртуальной среде единого про- странства могут существовать различ- ные серверы обработки данных и рабо- чие станции. На практике пользовате- лю также очень важно иметь возмож- ность быстро менять структуру своей системы, перенастраивать её с учётом меняющихся объёмов и типов данных, выделять компоненты, участвующие в ответственных процессах, таких как, например, финансовые операции или операции обеспечения технологическо- го процесса на производстве. Для про- ведения предварительной разработки интересно наличие тестовых стендов, на которых можно отрабатывать про- граммные модули в безопасном режиме и проводить различные испытания ал- горитмов, в том числе нагрузочные ис- пытания вычислительных систем. Таким образом, для эффективной ра- боты с большими данными нужна очень гибкая платформа, которую можно лег- ко трансформировать, меняя не только конфигурацию, но и производитель- ность узлов. П РОЦЕССЫ ПРИ РАБОТЕ С ДАННЫМИ Для ответа на вопрос: «Как должна быть адаптирована ИТ-архитектура для работы с большими данными?» – преж- де всего нужно рассмотреть основные процессы, которые происходят при об- ращении с массивами информации: ● получение данных; ● первичное преобразование данных, их нормирование, определение целостно- сти и достоверности, присвоение до- полнительных маркеров (метка време- ни, достоверность, актуальность и т.д.); ● накопление или логирование данных (архивирование); ● извлечение данных из архива и их ма- тематическая и статистическая обра- ботка; ● предоставление пользователю выход- ной аналитической информации (гра- фики, отчёты, тренды, таблицы и т.п.); Рассмотрим каждый из этих этапов подробней. Получение данных. В качестве источ- ников данных могут выступать как пол- ностью автоматизированные устройства сбора данных, так и источники ручного ввода, например, данные исследования лабораторных проб, которые выпол- няются дежурным персоналом. К любо- му источнику данных необходимо при- менять определённые требования: ● данные должны снабжаться меткой времени; ● они должны иметь признак достовер- ности; ● должна быть обеспечена заданная точность данных; ● информация не должна быть ском- прометирована и должна сохранять целостность; ● помимо основного потока данных (полезная информация), источник должен передавать и служебную ин- формацию, по которой можно оце- нить и продиагностировать аппарат- ную и программную часть самого ис- точника данных (датчик, измеритель- ный преобразователь, контроллер, коммуникационные модули). Первичное преобразование данных, их нормирование – задача, которую лучше всего выполнять как можно ближе к ис- точнику данных и не нагружать этой ру- тиной центральную систему. Примером такого преобразования может служить пересчёт измеренных значений в другие единицы, например, значение расхода энергоносителя измерительный пре- образователь выдаёт в gal/sec (галлон в секунду), и это значение нужно пере- считать в м 3 /ч и уже в таком виде пере- давать в центральную систему обработ- ки данных. С подобными задачами лег- ко справляются шлюзы, преобразую- щие программные и физические прото- колы передачи данных, как правило, их производительности хватает на прове- дение элементарных математических операций. Отдельная задача – определение досто- верности данных. Примером является из- мерительная система, где есть три резер- вированных датчика, и если два из них выдают примерно одинаковое значение, а третий датчик выдаёт значение, значи- тельно отличающееся по величине или динамике изменения, то можно выявить факт нештатной работы измерительного канала и значения нужно передавать с признаком недостоверности. Накопление данных – на первый взгляд, очень простая задача. Основны- ми показателями являются скорость за- писи данных на физический носитель, объём хранилища данных и скорость до- ступа к информации. Современные си- стемы хранения можно разделить на си- стемы с использованием твердотельных накопителей (solid-state drive, SSD), на- копителей на жёстких магнитных дис- ках (hard magnetic disk drive, HDD), ну, и до сих пор актуальными считаются хра- нилища с использованием магнитной ленты, когда нужно обеспечивать дли- тельное хранение большого объёма, по- рядка десятков и сотен петабайт, конеч- но, с оговоркой о том, что доступ к этим данным не критичен по времени. При таком разнообразии технологий для со- временной системы хранения данных оптимальным решением будет гибрид- ная архитектура, в которой сочетаются все три технологии, но доля каждой из них выбирается для конкретного случая. Самая сложная и «процессороёмкая» задача – это обработка данных и получе- ние нового информационного материа- ла – расчётов, отчётов и аналитических выводов. Для данного уровня важно уметь не только быстро считать, но и очень быстро обмениваться данными с хранилищем. Тут можно предложить использовать технологии высокопроиз- водительных сетей. Если ещё нет чёткого понимания, на основе какого программного обеспече- ния и на каких ресурсах строить собст- венный центр обработки больших дан- ных, компании чаще всего предвари- тельно проводят исследование и апро- бацию новых технологий на тестовых площадках или на площадках интегра- торов систем, предоставляя им исход- ное задание. В любом случае, прежде чем останавливать свой выбор на той или иной системе, заказчик должен по- лучить достаточно объективные данные по производительности будущей систе- мы, наглядно убедиться в том, как и ка- ким образом реализованы те или иные функции. 20 СТА 2/2017 ОБ ЗОР / Т Е Х НОЛОГ ИИ www.cta.ru
Made with FlippingBook
RkJQdWJsaXNoZXIy MTQ4NjUy