Тестирование Informatica Data Archive на реальных данных

21 Мая 2013
Любая организация стремится к повышению эффективности своей деятельности. Появление новых программных продуктов позволяет более четко и рационально обслуживать свои бизнес-процессы и контролировать их эффективность. Неизменным следствием появления новых, более современных вычислительных систем является повышение хранимого объема данных, а устаревание существующих решений, не используемых в рабочих процессах. Данные устаревших систем порой представляют большую ценность и избавиться от них нельзя — законодательство требует хранить определенные виды информации в течение 5 лет. Да и аналитики наверняка хотели бы получить доступ к этой уже исторической информации.

Возможных решений по сохранению данных есть несколько. Одно из них — это перенести данные из старой системы в новую. Это очень кропотливый, долгий и сложный процесс. Есть у миграционного решения серьезный недостаток — рост размеров базы данных новой системы. Другой путь — это убрать устаревшие данные в архив.

Именно этим путем и пошла компания DIS Group, реализуя проект по выводу устаревшего хранилища данных из эксплуатации в одном из крупнейших российских банков. По сути, заказчик желал вывести из эксплуатации свое старое хранилище размером в 15 Тбайт. Но данные переносить в новое хранилище было нецелесообразным — из-за огромных структурных различий и отсутствия частой потребности использования устаревших данных. Тем не менее, заказчик желал сохранить доступ к этим данным для возможности строить отчеты и обращаться к этим данным напрямую через SQL.

Реализация данного проекта осуществлялась на базе программного обеспечения компании Informatica. Было решено использовать промышленное решение для архивирования данных — Informatica Data Archive (IDA). Особенность этого решения состоит в том, что, выполнив архивацию в файл, мы можем обеспечить доступ к архивным данным без какого-либо их предварительного восстановления из архива.

Выгода для заказчика от вывода устаревшего хранилища из эксплуатации очевидна. Освобождаются лицензии базы данных, место на диске и пропадает необходимость в сопровождении устаревшего хранилища.

В рамках пилота предполагалось произвести архивирование самых больших по объему таблиц хранилища. Это примерно около 3 TБайт данных как транзакционного типа, так и справочные данные. Для проверки возможности использования архивного файла в качестве источника для отчетов было решено протестировать его в качестве источника для системы MicroStrategy (MSTR). Предполагалось протестировать не просто возможность доступа к данным из MSTR, но и оценить время, необходимое для генерации отчетов.

Описываемый пилот занял около двух недель непрерывной работы одного специалиста (общего времени потребовалось больше, но здесь мы говорим именно о затраченном времени без учета простоев).

В результате проведенных работ компанией DIS Group был создан архивный файл. Степень сжатия на разных таблицах в зависимости от типов данных варьировалась 5 до 10 раз. Поскольку изначально данные находились в базе данных Oracle мы попробовали сравнить возможности по сжатию IDA и стандартных средств СУБД Oracle. В результате данные, сжатые с помощью IDA, занимали в два раза меньше места, чем средствами Oracle.

Время архивирования всех данных составило несколько часов. Возможно, это не самый высокий показатель, но этот параметр существенно зависит от мощности аппаратного обеспечения, на котором установлено средство Informatica Data Archive. В нашем случае это было 4 процессорных ядра и 4 Гбайт ОЗУ. И не надо забывать, что задача архивирования данных не является частой для исполнения, поэтому затраченное время часто несильно влияет на другие процессы компании.

Тест по построению отчетов с помощью MSTR показал неплохие результаты. На загруженном объеме данных архивация происходила в течение 10 минут, а ведь в архиве были таблицы в несколько десяток или сотен миллионов записей. Подключение к архивному файлу через SQL-средства также хорошо показало себя. Решение позволяет использовать даже сложные запросы, содержащие WITH, группировки и подзапросы. SQL-средства, например, SQL TOOL, позволяли получать записи из архивного файла уже через несколько секунд.

Итог — тесты прошли успешно: программный продукт показал хорошие результаты по степени сжатия и по производительности, а также продемонстрировал необычную возможность доступа к архивированным данным без необходимости их восстановления в реальную базу данных.

Резюмируя все выше сказанное, можно сказать, что Informatica предложила хороший продукт для выполнения задач по архивированию данных. Продукт работает стабильно и достаточно прост в администрировании. Полученные результаты дают возможность рассматривать этот продукт в качестве промышленного средства для вывода устаревших систем из эксплуатации и архивирования данных с сохранением доступа к ним прямо в архиве. Причем, надо обратить особое внимание на то, что мы с вами, как пользователи, совершенно не привязаны к какой-либо конкретной базе данных. IDA может быть одинаково эффективно использован при работе с абсолютно любой базой данных. Это никак не скажется на эффективности его работы.
Алексей Ананьев
DIS Droup
pr@ds-group.ru