Архивирование и управление данными

Технологии
05.03.2025

В вычислительные системы ежедневно загружается огромное количество разнообразных данных, и это постепенно снижает эффективность работы таких систем. В современном мире объемы информации настолько велики, что вопрос управления данными стал остро актуальным.

Один из эффективных инструментов для решения этой проблемы — архивирование данных, или перенос редко используемой информации из операционных БД организации во внешние системы долгосрочного хранения.

При этом нужно различать архивирование данных и резервное копирование. В обоих случаях информация хранится на внешних носителях, работающих отдельно от основной БД, но цели у такого хранения разные:

  • резервное копирование создает полную копию БД, с помощью которой можно восстановить данные при их утрате или критических сбоях;
  • архивирование же нацелено на «облегчение» операционной базы данных и долгосрочное хранение извлеченной информации.

Для чего может потребоваться архивирование данных

Архивирование пригодится, если в базе данных содержится информация, которой вы не планируете пользоваться, но не хотите удалять ее безвозвратно. Оно поможет:

  • надежно сохранить ретроспективные данные, которые могут быть востребованы в будущем при определенных ситуациях;
  • уменьшить нагрузку операционной базы данных — чем свободнее память, тем быстрее происходят оперативные процессы;
  • систематизировать базу данных. В зависимости от стандартов, принятых в компании, можно производить архивацию по годам, проектам и другим событиям. Кстати, по таким тегам потом будет проще искать информацию.

Архивация — это масштабируемый процесс. То есть он подходит как для небольших компаний, так и для крупных корпораций.

Количество данных в мире ежегодно возрастает не менее чем на 20%. Навыки архивирования данных помогут сохранить важную информацию и уменьшить объем памяти, занимаемой на физическом диске или в облаке.

Далее подробнее разберем критерии и способы архивации данных, а также поговорим об их эффективности в рамках стратегий.

Выбор стратегии архивации данных

Когда встает вопрос об организации архивирования, следует проработать стратегию и ответить на вопросы: на какой срок требуется хранение данных, кто будет иметь к ним доступ и где именно они будут храниться.

Важно определиться с несколькими параметрами:

  • Стандарты доступа к данным. Нужно ответить на вопрос, к каким данным в таблицах вы обращаетесь чаще всего, а к каким изредка. Информация, которая не используется часто, — главный претендент на перенос в архив.
  • Политика хранения данных. Необходимо разработать четкие правила хранения. Делать это следует, опираясь на внутренние регламенты вашей компании и законодательные нормы.
  • Затраты на хранение и инфраструктуру. Нужно оценить экономические затраты на внедрение новых методик архивирования и долгосрочного хранения. Для этого следует проанализировать текущие способы хранения.
  • Соответствие требованиям и управление. Процессы архивирования должны соответствовать политике вашей компании во всех сферах: безопасность, доступность и т. д.
  • Доступные ресурсы. Следует провести анализ технологических и инфраструктурных ресурсов. В идеале процесс архивирования должен выполняться автоматически, но для этого требуются определенные ресурсы и инструменты. Во многих случаях архивирование можно сделать периодическим и ручным.

Методики архивирования данных

Основная часть работы с информацией приходится на реляционные базы данных. Они просты, удобны и логичны.

Когда встает вопрос об архивации данных из реляционных баз, необходимо решить, какой метод использовать. Выбирать методику следует, опираясь на цели и задачи компании. Кроме того, необходимо учитывать технические затраты, ведь некоторые методы сильно бьют по производительности.

Можно выделить пять основных методов архивирования.

  1. Секционирование. Предлагает разбивать обширные информационные массивы на небольшие сборки, которыми легко управлять. Делать это можно на основе разных критериев, которые могут помочь отделить актуальные данные от тех, что следует подвергнуть архивации.
  2. Логическое удаление. Суть такого архивирования заключается в том, что элементы таблицы помечаются как удаленные или неактивные. То есть они остаются в таблице, но при этом не нагружают вычислительную систему. Недостаток метода — усложненный процесс запроса к помеченным данным. Поэтому, составляя запросы, следует быть внимательными, чтобы не создать путаницу между данными с разными пометками.
  3. Архивирование таблиц. Очень простой и понятный метод. Создается пара таблиц или больше, в зависимости от масштаба системы. В первой хранятся активные данные, которые постоянно используются. Во второй содержится только архивная информация. Такое разделение максимально эффективно, но требует мощной архитектуры хранилища данных.
  4. Историческая схема. Суть метода — создание архивной копии базы данных за необходимый временной период. Это тоже довольно простой и надежный метод. Но он значительно утяжеляет систему, так как в ней будет существовать несколько версий одной базы данных.
  5. Смешанное архивирование. Для особо крупных систем, где сложно отдать предпочтение одному определенному методу, можно использовать синтез нескольких. Если это правильно сделать, то можно будет гибко управлять данными.

HSM- И ILM-технологии

Для управления жизненным циклом информационных элементов также используют два технологических подхода — HSM и ILM.

1. HSM

Расшифровывается как Hierarchical Storage Management (технология иерархического хранения). Суть концепции заключается в многоуровневом распределении данных или файлов. Невостребованные данные при этом располагаются на менее производительных носителях — например, магнитных дисках или лентах. 

Чтобы лучше понять суть работы HSM, можно представить ее так. Система состоит из нескольких уровней: высокий работает на самом производительном носителе, а низкий — на слабом. Данные находятся на каждом уровне определенное время (например, если к файлу не обращаются какое-то количество дней). После чего перемещаются на более низкий уровень, и так до самого конца. При этом запрос пользователя запускает процедуру копирования данных обратно на первый уровень.

Такой подход позволяет выполнять четкое архивирование невостребованных данных в автоматическом режиме. Это разгружает систему и повышает производительность работы с актуальными файлами. Также эта технология выгодна с экономической точки зрения — медленные носители доступны и стоят недорого.

Один из недостатков: чтобы получить доступ к файлам на низких уровнях, потребуется время.

2. ILM

Расшифровывается как Information Lifecycle Management (управление жизненным циклом информации). Это более современный подход. Суть концепции в том, что у любой информации есть отрезок времени, когда она актуальна и востребована.

ILM — это комплексный свод правил, с помощью которых можно определить четкий порядок действий для файлов из разных категорий. Например, если в систему попадает файл с пометкой «квитанция», то для него можно определить конкретный срок хранения. Например, 5 или 10 лет. Также можно добавить критерий «важно», и тогда этот срок увеличивается. К примеру, если файл приходит с пометками «квитанция» и «важный», то он хранится 15 лет и архивируется на среднем уровне.

Решения для хранения архивов данных

Переходим от теории к практике. Файлы и данные должны храниться на физическом носителе, который располагается в офисе или взят в аренду удаленно.

Вот некоторые популярные решения:

  • WORM-ленты. Базовый и финансово выгодный способ хранения. Данные записываются один раз, без возможности перезаписать или удалить. Единственное ограничение — низкая скорость доступа к информации.
  • Локальные системы. Очевидный пример — жесткий диск, который можно разместить в кабинете или запереть в сейфе. Это просто, недорого и надежно. Более продвинутым решением станет сервер для хранения данных — устройство, к которому подключены все компьютеры компании.
  • Облачные хранилища в аренду. Недостаток только один — стоимость хранения растет в зависимости от того, какой объем памяти используется. Для работы потребуется быстрый интернет, а обо всем остальном позаботятся поставщики услуг.

Отличный пример облачного сервиса архивирования и передачи данных — Platform V Archiving от СберТеха. С его помощью можно собирать, оперативно обрабатывать и перемещать данные из одной АС в другую. Если у пользователя две АС, одна из которых предназначена для хранения архивных данных, сервис поможет переместить данные из БД одной АС в другую. Решение гарантирует поддержание целостности и актуальности данных и обладает гибкими возможностями в вопросах интеграции.

Как реализовать архивирование данных с нуля

Если вам приходится работать с огромными объемами информации, то архивирование необходимо. Но это непростой процесс, и до того, как все будет отлажено, нужно провести определенную работу.

Мы рассмотрели методы архивирования данных и возможные технические средства для его организации. Подведем небольшой итог. Вот 8 главных шагов, которые нужно сделать.

  1. Провести комплексный анализ данных, с которыми вы работаете. Выделить типы, которые будут архивироваться в первую очередь. Определить, как часто будет нужен доступ к архивированной информации.
  2. Разработать политику хранения данных. В ней следует описать все правила работы с данными. Например, момент, когда нужно запускать процесс архивирования, место хранения определенных файлов и т. д.
  3. Подобрать методику архивации, максимально подходящую для ваших задач. Что это будет — секционирование, логическое удаление, архивирование таблиц или историческая схема, — зависит от результата, который вы хотите получить. Может быть, вам подойдет смешанный вариант — синтез нескольких методик.
  4. Выбрать, где вы будете хранить данные, — в компьютере или облачном сервисе, например от Сбера.
  5. Обеспечить соблюдение всех правил хранения данных. Они могут быть отраслевыми или регламентироваться на государственном уровне. Неправильное хранение информации может привести к проблемам с законом и штрафам.
  6. Интегрировать систему в существующую инфраструктуру. Это облегчит работу, повысит доступность и позволит автоматизировать многие процессы.
  7. Выполнить имитационное тестирование системы архивации. Для этого можно использовать тестовые или реальные массивы информации. Это позволяет проверить работоспособность системы архивирования перед тем, как применять ее для реальных данных.
  8. Проверить настроенную систему архивации перед вводом в эксплуатацию. Опять же, для этого можно использовать реальные данные или создать тестовые массивы информации.
  9. Следить за процессами архивирования и улучшать их при необходимости. Для контроля нужны регулярные процедуры — например, контрольные точки, отчеты, срезы и т. п.

Плюсы и минусы архивирования данных

Архивирование, как и любой процесс, имеет свои достоинства и недостатки. Из главных положительных свойств можно выделить несколько.

  • Повышение производительности. Чем меньше информации хранится в базе, тем проще и быстрее с ней работать. Архивирование поможет убрать старые и неактуальные данные.
  • Снижение затрат на носители. Быстрые носители первого уровня с большим объемом памяти стоят дорого, поэтому лучше хранить на них только актуальные данные, а ненужные файлы переносить на более дешевые.
  • Повышение управляемости данных. Постоянная работа с данными, их анализ и архивирование поможет поддерживать базу в согласованном состоянии и четче отслеживать жизненный цикл любой информации.
  • Возможность восстановления. Архивирование — это не резервное копирование, но оно все равно поможет, если данные будут утеряны.

Главное ограничение архивирования — скорость доступа к архивным данным. Чем медленнее носитель, тем больше времени требуется для доступа. Также сам процесс разработки и внедрения инфраструктуры хранения довольно сложный. Если компания большая и объемы данных тоже, это потребует значительных финансовых и временных ресурсов.