В вычислительные системы ежедневно загружается огромное количество разнообразных данных, и это постепенно снижает эффективность работы таких систем. В современном мире объемы информации настолько велики, что вопрос управления данными стал остро актуальным.
Один из эффективных инструментов для решения этой проблемы — архивирование данных, или перенос редко используемой информации из операционных БД организации во внешние системы долгосрочного хранения.
При этом нужно различать архивирование данных и резервное копирование. В обоих случаях информация хранится на внешних носителях, работающих отдельно от основной БД, но цели у такого хранения разные:
- резервное копирование создает полную копию БД, с помощью которой можно восстановить данные при их утрате или критических сбоях;
- архивирование же нацелено на «облегчение» операционной базы данных и долгосрочное хранение извлеченной информации.
Для чего может потребоваться архивирование данных
Архивирование пригодится, если в базе данных содержится информация, которой вы не планируете пользоваться, но не хотите удалять ее безвозвратно. Оно поможет:
- надежно сохранить ретроспективные данные, которые могут быть востребованы в будущем при определенных ситуациях;
- уменьшить нагрузку операционной базы данных — чем свободнее память, тем быстрее происходят оперативные процессы;
- систематизировать базу данных. В зависимости от стандартов, принятых в компании, можно производить архивацию по годам, проектам и другим событиям. Кстати, по таким тегам потом будет проще искать информацию.
Архивация — это масштабируемый процесс. То есть он подходит как для небольших компаний, так и для крупных корпораций.
Количество данных в мире ежегодно возрастает не менее чем на 20%. Навыки архивирования данных помогут сохранить важную информацию и уменьшить объем памяти, занимаемой на физическом диске или в облаке.
Далее подробнее разберем критерии и способы архивации данных, а также поговорим об их эффективности в рамках стратегий.
Выбор стратегии архивации данных
Когда встает вопрос об организации архивирования, следует проработать стратегию и ответить на вопросы: на какой срок требуется хранение данных, кто будет иметь к ним доступ и где именно они будут храниться.
Важно определиться с несколькими параметрами:
- Стандарты доступа к данным. Нужно ответить на вопрос, к каким данным в таблицах вы обращаетесь чаще всего, а к каким изредка. Информация, которая не используется часто, — главный претендент на перенос в архив.
- Политика хранения данных. Необходимо разработать четкие правила хранения. Делать это следует, опираясь на внутренние регламенты вашей компании и законодательные нормы.
- Затраты на хранение и инфраструктуру. Нужно оценить экономические затраты на внедрение новых методик архивирования и долгосрочного хранения. Для этого следует проанализировать текущие способы хранения.
- Соответствие требованиям и управление. Процессы архивирования должны соответствовать политике вашей компании во всех сферах: безопасность, доступность и т. д.
- Доступные ресурсы. Следует провести анализ технологических и инфраструктурных ресурсов. В идеале процесс архивирования должен выполняться автоматически, но для этого требуются определенные ресурсы и инструменты. Во многих случаях архивирование можно сделать периодическим и ручным.
Методики архивирования данных
Основная часть работы с информацией приходится на реляционные базы данных. Они просты, удобны и логичны.
Когда встает вопрос об архивации данных из реляционных баз, необходимо решить, какой метод использовать. Выбирать методику следует, опираясь на цели и задачи компании. Кроме того, необходимо учитывать технические затраты, ведь некоторые методы сильно бьют по производительности.
Можно выделить пять основных методов архивирования.
- Секционирование. Предлагает разбивать обширные информационные массивы на небольшие сборки, которыми легко управлять. Делать это можно на основе разных критериев, которые могут помочь отделить актуальные данные от тех, что следует подвергнуть архивации.
- Логическое удаление. Суть такого архивирования заключается в том, что элементы таблицы помечаются как удаленные или неактивные. То есть они остаются в таблице, но при этом не нагружают вычислительную систему. Недостаток метода — усложненный процесс запроса к помеченным данным. Поэтому, составляя запросы, следует быть внимательными, чтобы не создать путаницу между данными с разными пометками.
- Архивирование таблиц. Очень простой и понятный метод. Создается пара таблиц или больше, в зависимости от масштаба системы. В первой хранятся активные данные, которые постоянно используются. Во второй содержится только архивная информация. Такое разделение максимально эффективно, но требует мощной архитектуры хранилища данных.
- Историческая схема. Суть метода — создание архивной копии базы данных за необходимый временной период. Это тоже довольно простой и надежный метод. Но он значительно утяжеляет систему, так как в ней будет существовать несколько версий одной базы данных.
- Смешанное архивирование. Для особо крупных систем, где сложно отдать предпочтение одному определенному методу, можно использовать синтез нескольких. Если это правильно сделать, то можно будет гибко управлять данными.
HSM- И ILM-технологии
Для управления жизненным циклом информационных элементов также используют два технологических подхода — HSM и ILM.
1. HSM
Расшифровывается как Hierarchical Storage Management (технология иерархического хранения). Суть концепции заключается в многоуровневом распределении данных или файлов. Невостребованные данные при этом располагаются на менее производительных носителях — например, магнитных дисках или лентах.
Чтобы лучше понять суть работы HSM, можно представить ее так. Система состоит из нескольких уровней: высокий работает на самом производительном носителе, а низкий — на слабом. Данные находятся на каждом уровне определенное время (например, если к файлу не обращаются какое-то количество дней). После чего перемещаются на более низкий уровень, и так до самого конца. При этом запрос пользователя запускает процедуру копирования данных обратно на первый уровень.
Такой подход позволяет выполнять четкое архивирование невостребованных данных в автоматическом режиме. Это разгружает систему и повышает производительность работы с актуальными файлами. Также эта технология выгодна с экономической точки зрения — медленные носители доступны и стоят недорого.
Один из недостатков: чтобы получить доступ к файлам на низких уровнях, потребуется время.
2. ILM
Расшифровывается как Information Lifecycle Management (управление жизненным циклом информации). Это более современный подход. Суть концепции в том, что у любой информации есть отрезок времени, когда она актуальна и востребована.
ILM — это комплексный свод правил, с помощью которых можно определить четкий порядок действий для файлов из разных категорий. Например, если в систему попадает файл с пометкой «квитанция», то для него можно определить конкретный срок хранения. Например, 5 или 10 лет. Также можно добавить критерий «важно», и тогда этот срок увеличивается. К примеру, если файл приходит с пометками «квитанция» и «важный», то он хранится 15 лет и архивируется на среднем уровне.
Решения для хранения архивов данных
Переходим от теории к практике. Файлы и данные должны храниться на физическом носителе, который располагается в офисе или взят в аренду удаленно.
Вот некоторые популярные решения:
- WORM-ленты. Базовый и финансово выгодный способ хранения. Данные записываются один раз, без возможности перезаписать или удалить. Единственное ограничение — низкая скорость доступа к информации.
- Локальные системы. Очевидный пример — жесткий диск, который можно разместить в кабинете или запереть в сейфе. Это просто, недорого и надежно. Более продвинутым решением станет сервер для хранения данных — устройство, к которому подключены все компьютеры компании.
- Облачные хранилища в аренду. Недостаток только один — стоимость хранения растет в зависимости от того, какой объем памяти используется. Для работы потребуется быстрый интернет, а обо всем остальном позаботятся поставщики услуг.
Отличный пример облачного сервиса архивирования и передачи данных — Platform V Archiving от СберТеха. С его помощью можно собирать, оперативно обрабатывать и перемещать данные из одной АС в другую. Если у пользователя две АС, одна из которых предназначена для хранения архивных данных, сервис поможет переместить данные из БД одной АС в другую. Решение гарантирует поддержание целостности и актуальности данных и обладает гибкими возможностями в вопросах интеграции.
Как реализовать архивирование данных с нуля
Если вам приходится работать с огромными объемами информации, то архивирование необходимо. Но это непростой процесс, и до того, как все будет отлажено, нужно провести определенную работу.
Мы рассмотрели методы архивирования данных и возможные технические средства для его организации. Подведем небольшой итог. Вот 8 главных шагов, которые нужно сделать.
- Провести комплексный анализ данных, с которыми вы работаете. Выделить типы, которые будут архивироваться в первую очередь. Определить, как часто будет нужен доступ к архивированной информации.
- Разработать политику хранения данных. В ней следует описать все правила работы с данными. Например, момент, когда нужно запускать процесс архивирования, место хранения определенных файлов и т. д.
- Подобрать методику архивации, максимально подходящую для ваших задач. Что это будет — секционирование, логическое удаление, архивирование таблиц или историческая схема, — зависит от результата, который вы хотите получить. Может быть, вам подойдет смешанный вариант — синтез нескольких методик.
- Выбрать, где вы будете хранить данные, — в компьютере или облачном сервисе, например от Сбера.
- Обеспечить соблюдение всех правил хранения данных. Они могут быть отраслевыми или регламентироваться на государственном уровне. Неправильное хранение информации может привести к проблемам с законом и штрафам.
- Интегрировать систему в существующую инфраструктуру. Это облегчит работу, повысит доступность и позволит автоматизировать многие процессы.
- Выполнить имитационное тестирование системы архивации. Для этого можно использовать тестовые или реальные массивы информации. Это позволяет проверить работоспособность системы архивирования перед тем, как применять ее для реальных данных.
- Проверить настроенную систему архивации перед вводом в эксплуатацию. Опять же, для этого можно использовать реальные данные или создать тестовые массивы информации.
- Следить за процессами архивирования и улучшать их при необходимости. Для контроля нужны регулярные процедуры — например, контрольные точки, отчеты, срезы и т. п.
Плюсы и минусы архивирования данных
Архивирование, как и любой процесс, имеет свои достоинства и недостатки. Из главных положительных свойств можно выделить несколько.
- Повышение производительности. Чем меньше информации хранится в базе, тем проще и быстрее с ней работать. Архивирование поможет убрать старые и неактуальные данные.
- Снижение затрат на носители. Быстрые носители первого уровня с большим объемом памяти стоят дорого, поэтому лучше хранить на них только актуальные данные, а ненужные файлы переносить на более дешевые.
- Повышение управляемости данных. Постоянная работа с данными, их анализ и архивирование поможет поддерживать базу в согласованном состоянии и четче отслеживать жизненный цикл любой информации.
- Возможность восстановления. Архивирование — это не резервное копирование, но оно все равно поможет, если данные будут утеряны.
Главное ограничение архивирования — скорость доступа к архивным данным. Чем медленнее носитель, тем больше времени требуется для доступа. Также сам процесс разработки и внедрения инфраструктуры хранения довольно сложный. Если компания большая и объемы данных тоже, это потребует значительных финансовых и временных ресурсов.
