Обработка больших данных: технологии big data

Технологии
01.10.2024

Big data дословно переводится как «большие данные». Сам термин появился еще в 1990-х годах. Считается, что популяризовал его американский специалист по компьютерным наукам Джон Мэши. 

Несмотря на то что термин появился давно, ему трудно дать четкое определение. Однако у «больших данных» есть особенности, которые позволяют определить, что находится перед нами – просто большое количество информации или действительно big data.

Особенности классификации big data

При классификации данных можно опираться на формулу числа букв V. Например, три V, четыре V или даже пять V.

  1. Volume — объем. Это то количество сведений, с которым нужно работать. Чтобы назвать массив большим, датасет должен быть минимум в несколько десятков терабайт. С течением времени эту планку постоянно повышают. Некоторые считают, что уже сегодня нужно не менее петабайта данных, чтобы назвать количество сведений большим.
  2. Variety — разнообразие. Здесь оценивается степень структурированности информации, а также количество источников, из которых она поступает. Данные считают большими, если сведения поступают разнообразные: записи сенсоров, звуков, логи работы софта, сводки новостей, фотографии и видео, результаты расчетов, тексты. Такой набор типов данных подразумевает, что обрабатывать придется как хорошо структурированную информацию (например, таблицы традиционных реляционных СУБД), так и полуструктурированные (JSON-файлы) или совсем неструктурированные, такие как любой медиаконтент (тексты, видео- и аудиозаписи).
  3. Velocity — скорость поступления и обработки. Обычно от больших данных ожидают, что они будут доступны постоянно и в режиме реального времени (или максимально к нему приближенном). Это требование не снимают даже с учетом числа источников и количества информации.
  4. Veracity — достоверность. В этом случае подразумевают не «правдивость» или «соответствие истине», а, скорее, аутентичность, то есть подтвержденное происхождение данных и незлонамеренность их передачи в обработку. Сведения, которые получают из многих источников, могут друг другу противоречить. Нужно оценивать и учитывать надежность ресурса, который их передает.
  5. Value — ценность. Это важность оценки пригодности данных для ответа на тот или иной вопрос. В зависимости от задач ценность одной и той же информации может изменяться.

Основными считают первые три признака: volume, variety, velocity.

Технологии и подходы big data очень быстро развиваются: то, что считалось объемными массивами вчера, сегодня уже может ими не быть. Тем не менее сами характеристики big data устойчивы. 

Сбор и хранение больших данных

Поступающую из множества источников информацию сначала нужно переработать. Для решения этой задачи используют технику параллельного вычисления, что позволяет горизонтально распределить нагрузку по сети. 

На этапе получения данных может также производиться их первичная обработка: проверка, дедупликация, восстановление, преобразование. После предварительного анализа их помещают в хранилище — data lake. После этого информацию обрабатывают непосредственно для решения бизнес-задач, а готовые ответы перекладывают в соответствующие системы оперативного доступа.

В качестве базовых инструментов хранения данных часто используют Apache Kafka, Apache Hadoop. Первый ориентирован на потоковые и событийные данные, а второй — на неструктурированную информацию больших размеров. У обоих продуктов нативная горизонтальная масштабируемость.

Иногда для хранения применяют NoSQL базы, такие как MongoDB или Apache Cassandra. 

Системы обработки и анализа данных

Для обработки используют различные системы и модели программирования. Ключевые — MapReduce и рабочие процессы (workflow).

MapReduce обрабатывает входной набор данных и в результате генерирует пары ключ/значение. Затем функция Reduce выполняет операцию сверки по ключам и суммирует или классифицирует информацию по ним. Apache Hadoop — это самое известное открытое решение, построенное на базе MapReduce. 

Workflows (рабочие процессы) представляют собой графы, которые состоят из ориентированных ребер и вершин. Их используют для моделирования сложных сценариев, таких как распределенный Data Mining и машинное обучение. Применяют их обычно уже после первичной обработки на уровне Hadoop или аналогичной системы. Для описания и выполнения workflows часто используют Apache Spark.

Методы анализа данных

Большие неструктурированные массивы информации плохо поддаются обработке традиционными методами, такими как SQL-запросы или статистические расчеты. Особый формат данных требует особых методов работы с ними. 

Нейросеть

Нейросети — это математические модели, которые опираются в своей работе на нечеткую логику. Благодаря гибкости они могут адаптироваться к входным данным и вскрывать взаимосвязи, которые аналитики не заметили ранее. Нейросети хорошо подходят для обработки неструктурированной информации (фото, видео и аудио). 

Машинное обучение

Машинное обучение — это методы взаимодействия с большими данными, которые позволяют «натренировать» алгоритмы или полезные модели правильно решать задачи. В этом случае компьютер самостоятельно «дорабатывает» программу, чтобы она лучше справлялась с поставленной целью. 

Различают обучение «без учителя» и с подкреплением. Во втором случае «учитель» (аналитик) заранее размечает датасет «правильными ответами», а компьютер тренируется на таком наборе данных, пока не достигнет приемлемых результатов работы. Хорошие итоги машинное обучение показывает для построения, например, систем рекомендации контента или товаров. 

Краудсорсинг

Это способ наращивать и/или верифицировать информацию с помощью широкой аудитории. Например, таким образом Google использует reCaptcha для обучения своих алгоритмов машинного зрения. 

Если множество пользователей, которые прошли верификацию, указывают, что на фото в такой-то зоне изображен автобус, то это используется в последующем как разметка. По ней будут оценивать качество работы программы. Аналогично большие данные пополняют пользователи, которые указывают на открытых картах расположение и описание зданий. 

Технология Data Mining

Позволяет в автоматическом режиме находить и подсвечивать взаимосвязи параметров анализируемого процесса или аномалии. Для этого используют ряд методов: классификация и кластеризация, регрессионный анализ, поиск корреляций, ассоциативных правил и вычисление деревьев решений. При этом сама машина может только обратить внимание на находки, тогда как их интерпретация и оценка с точки зрения бизнес-задачи часто ложится на аналитика. 

Хорошим кейсом для технологий Data Mining будет классификация потребителей розничных продуктов и изучение их поведения, по результатам которого можно сформировать маркетинговые предложения. 

Предиктивная аналитика

Цель предиктивной аналитики — спрогнозировать развитие текущей ситуации. Чтобы реализовать такой сценарий, чаще всего применяют машинное обучение с учителем, который своими подсказками помогает компьютеру анализировать информацию, устанавливать связи. 

После обучения работу машины проверяют на новых данных и сверяют ее прогнозы с фактическим положением вещей, а затем уже применяют в «боевых» условиях. Эта техника хорошо подходит для задач в финансовой и маркетинговой сферах. 

Статический анализ

Фокусируется на обработке накопленной информации без ее обновления. Используется для выявления отклонений от нормы, взаимосвязи анализируемых данных и процессов. Часто анализ становится одним из предварительных этапов процесса Data Mining. Хорошо работает для текущего контроля качества. 

Имитационное моделирование

Наличие большого объема информации — отличная отправная точка для проведения имитационного моделирования. В его основе лежит создание компьютерной модели на основе переменных и правил их изменения. 

На модель накладывают исторические данные, от которых строится прогноз изменения параметров. Изменившиеся переменные и масштаб их изменения и определяют прогноз развития ситуации. 

Имитационное моделирование часто применяют в процессах анализа транспортных потоков, экономических процессов или даже распространения болезней.

Метод смешения и интеграции

Используется там, где нужно объединить разрозненную информацию, связанную с каким-то системным процессом. Например, смешение и интеграция хорошо работают для решения задач, связанных с конструированием автопилота. 

У собранных данных от камер, лидаров и других сенсоров разная природа, частота дискретизации и точность. Объединенные вместе, они помогают построить полную картину происходящего на дороге, а значит, правильно интерпретировать ситуацию, помочь машине. Также хорошо себя покажет техника интеграции и смешения в финансовом анализе и детектировании фрода.

Визуализация аналитических данных

Визуализация позволяет отобразить данные в виде графиков. Чаще всего показывают не весь массив информации, которым располагает аналитик, а только итоги его обработки. 

Визуализация позволяет существенно ускорить выявление закономерностей и валидацию результатов. Используется, например, для алгоритмов и решений в сфере промышленности и производства, позволяя техническому персоналу вовремя замечать и устранять сбои.

Кто работает с большими данными

Конечные потребители результатов обработки — это руководители и специалисты разного уровня, от CEO до менеджеров по маркетингу, врачей или инженеров. Словом, все, кому надо принимать решения о стратегии компании, назначении лечения пациенту или подготовке промоакций. 

Но для подготовки полезной отчетности на базе big data нужно не просто накапливать данные и их обрабатывать. Надо еще и организовывать хранение данных, обеспечивать их безопасность, для чего нужны инженеры по инфраструктуре и офицеры информационной безопасности. Снизить барьер по затратам можно, если воспользоваться готовыми облачными решениями, такими как продукты в составе цифровой платформы Platform V.

Преимущества

Сбор данных и их обработка позволяет существенно расширить возможности управленцев по качественному принятию решений. С помощью изучения больших объемов информации удается выявить неочевидные, контринтуитивные или неожиданные тренды и воспользоваться ими. Доступность данных в реальном времени позволяет оперативно получать ответы на вопросы и ускорять принятие решений. 

Недостатки в работе

Как и у любой технологии, у методов обработки больших данных есть свои сложности. Первая — инфраструктура. Накопление, обработка, архивирование и организация оперативного доступа — это сложная инженерная задача, которая требует не только денег на оборудование и программное обеспечение, но и достаточно дорогих специалистов. 

В big data не дают гарантий успешности решения задачи. Многое зависит от инженеров, которые проектируют алгоритмы обработки и обучения машин. 

Заключение

Big data представляет собой мощный инструмент, который изменяет способы сбора, анализа и использования информации в различных сферах. От бизнеса и здравоохранения до научных исследований и управления городами — большие данные открывают новые возможности для получения глубоких инсайтов и принятия более обоснованных решений. 

Для эффективного использования технологии нужны продвинутые способы обработки и анализа, а также специалисты, которые могут правильно интерпретировать и применять полученную информацию. 

С учетом того, что объем данных и их роль в современном мире становится больше, важность big data и возможные сценарии их применения будут устойчиво расти.

Другие новости

Все новости
Все новости