К ВОПРОСУ О ДОЛГОСРОЧНОМ СОХРАНЕНИИ ЦИФРОВОЙ ИНФОРМАЦИИ
Шварцман М.Е.
(РГБ)
Количество оцифрованных книг и материалов, созданных изначально в цифровой форме (Web-сайты, CD, DVD), растет стремительно. При этом оцифрованные материалы хранятся в библиотеках так же, как и привычные печатные. Оцифровали, записали на диск и поставили на полки.
Однако принципы хранения цифровых материалов во многом отличаются от привычных нам принципов хранения книг.
Один из главных вопросов — “что сохранять”. Так же, как в традиционном комплектовании библиотек существует профиль комплектования, определяющий тематику и форму собираемой литературы, при комплектовании цифровых библиотек (DL) должны быть выработаны принципы отбора.
Во многих странах законом на Национальные библиотеки возложена обязанность сохранения цифрового наследия страны.
Сразу же встает вопрос, что сюда включать, и многие страны этот вопрос решают по-разному. Различают следующие типы цифровых материалов (ЦМ):
Поскольку в задачу автора не входит разработка классификации цифровых материалов, она не претендует на полноту и строгость принципов отбора.
После того, как мы решим, какие виды материалов нужно сохранять, нужно понять, что существует принципиальное отличие ЦМ от печатных материалов. Они могут постоянно меняться. Новостные агентства публикуют свои новости постоянно, они могут снимать устаревшие сведения или сведения, опубликованные по ошибке. Задавая любую разумную периодичность копирования новостного сайта, мы заранее понимаем, что можем что-то потерять, возникающее и исчезающее в этих промежутках.
Изменчивость ЦМ также должна отражаться и в их библиографическом описании. Может быть, нам нужно делать постоянно меняющееся библиографическое описание, что технически возможно, или идти по пути описания журналов, где фиксируют все прежние варианты названия, и тоже фиксировать все изменения и хранить все варианты описаний. Меняться может многое (адрес, наименование, автор, владелец и т.п.).
В процессе создания и бытования ЦМ они проходят множество этапов, на каждом из которых претерпевают изменения, как по форме, так и по содержанию. Например, при оцифровке старой книги мы сначала получаем изображение страниц в формате RAW, затем отрабатываем их и переводим в TIFF, затем делаем из них одну книгу — файл в формате PDF и набор HTML и JPG — файлов для опубликования книги на сайте. Какую из форм нам нужно хранить? Все?
Сохраняя печатный документ, мы сохраняем одновременно и форму и содержание, поскольку в этом виде они неотделимы. Для ЦМ возможно существование в различных формах. Так (приводя примеры уже из российской практики), компания “Интегрум-техно” сохраняет только текст журнальных публикаций, East-View — текст с сохранением разбиения на страницы, а для Петровских ведомостей РГБ сохраняет полностью отсканированные страницы без распознавания текста. Какой путь лучше?
Также существуют многочисленные вопросы авторского права на oн-лайновые ресурсы, и сохранение таких ресурсов затруднено отсутствием ответов на них.
Кроме теоретических вопросов (а мы еще их не все перечислили), существуют и практические (хотя тоже нуждающиеся в теоретическом исследовании) вопросы. А смогут ли будущие поколения (а мы — библиотекари мыслим вечными категориями) прочесть то, что мы сохранили? И здесь две стороны вопроса. Могут ли они прочитать технически, например, 5-ти дюймовые дискеты, которые через 100 лет не будут читаться нигде? Возможно, CD через 200 лет тоже не прочитаются. Также нужно позаботиться, чтобы сохраненные ресурсы могли быть прочитаны программно. Все, что было сделано для ZD-Speсtrum и т.п., не так просто сейчас прочитать. Базы данных, созданные под DOS, тоже не всегда корректно работают. Может, через какое-то время и формат PDF, в котором многие хранят ЦМ, тоже исчезнет?
Все выше перечисленные проблемы встали не вчера. Для их решения на международном уровне и внутри многих стран существуют программы, проекты, рабочие группы и т.п. Так, в Германии для исследования теоретических основ проблем сохранности ЦМ существует совместный проект ведущих библиотек NESTOR “Network of Expertise in Long-term Storage of Digital Ressources”, в рамках которого издаются руководства, методические рекомендации, проводятся семинары. Примером практической деятельности является проект KORAL (Cooperative development of a long-term archive for digital information), финансируемый министерством образования, в рамках которого немецкая национальная библиотека во Франкфурте и университетская библиотека в Геттингене разработали программное обеспечение совместно с IBM Германия для создания хранилища ЦМ. В этом году проект кончается и пока непонятно, кто будет его поддерживать дальше. Во многих странах также существуют аналогичные проекты, например, в Канаде — это проект Interpares и т.п.
В рамках Европейского сотрудничества существуют несколько проектов, поддерживаемых в рамках Framework Programme 6 Call 5. Проект Planets с бюджетом 14 000 000 € начался 1 июня 2006 года и направлен на обеспечение интероперабельности, согласования форматов хранения и ликвидацию пробелов в теоретическом обеспечении проблем. Проект рассчитан на 4 года.
Аналогичные задачи осуществляют проекты “Digital preservation Europe” и CASPAR.
Среди европейских стран лучшими результатами могут похвалиться Нидерланды. В королевской библиотеке создан отдел долговременной сохранности ЦМ (Digital Preservation Department). В штате отдела состоят 8 человек, работающих полный день. При этом отдел занимается только теоретическими разработками и выдачей рекомендаций отделам библиотеки, которые занимаются оцифровкой или комплектованием ЦМ.
В этих рекомендациях основное соображение следующее: проблему долговременного сохранения ЦМ нужно начинать решать на этапе их создания. По их оценкам более 65% стоимости технологического процесса жизненного цикла ЦМ от создания до сохранности составляет именно обеспечение сохранности, и, со временем, эта доля будет увеличиваться. Нельзя решать проблему сохранности отдельно, она должна быть увязана в единый технологический цикл создания — обработки — хранения — использования ЦМ.
Ряд стран уже поняли актуальность этой проблемы и предприняли определенные шаги. Так, Латвия завершила тендер на разработку ПО (выиграл Microsoft) и поставку технических средств для кооперативного хранилища данных латвийских библиотек. Чехия уже закупила два хранилища производства IBM, соединенные оптикой, и сейчас планирует объявлять конкурс на ПО. Архивированием Интернет ресурсов успешно занимаются скандинавские страны.
В РГБ в настоящее время начались работы по созданию электронного депозитария, обеспечивающего “вечную” сохранность электронных информационных ресурсов (ЭИР) РГБ и создание объективных условий обеспечения возможности воспроизведения всех ЭИР, с учетом замены (модернизации) программно-аппаратной среды.
Архитектурно депозитарий состоит из трех уровней: пользователи депозитария образуют презентационный уровень, метаданные — логический уровень, а устройства хранения — уровень данных.
Конечные пользователи депозитария имеют доступ только к презентационному уровню.
Логический уровень содержит бизнес-логику управления данными внутри депозитария. С архитектурной точки зрения бизнес-логика управления данными полностью задается метаданными, хранящимися в депозитарии.
Доступ к данным и физическая передача данных осуществляются на третьем уровне — уровне данных. Уровень данных представляет собой множество программных компонент депозитария — агентов, установленных на различных узлах хранения. Агенты — это серверы, которые служат промежуточным звеном между физическими устройствами хранения и депозитарием. Агенты взаимодействуют с физическими устройствами хранения с помощью драйверов, а взаимодействие с остальной частью депозитария осуществляется по сетевому протоколу.
Сервер метаданных представляет собой выделенный узел с установленной на нем реляционной базой данных (СУБД), в которой хранятся метаданные. Сервер метаданных может быть реплицирован с использованием утилит, входящих в дистрибутив базы данных.
Сервер депозитария взаимодействует с сервером метаданных. Сервер может быть установлен, как на тот же узел, что и сервер метаданных, так и на другой.
Сервер депозитария используется для аутентификации и авторизации пользователей, запроса информации об объектах депозитария, хранения информации аудита и управления объектами данных.
На выделенный хост устанавливаются сервер метаданных, сервер депозитария, Web-сервер и интерфейс администратора депозитария. Администратор может менять параметры не только у сервера депозитария, но и опосредованно у сервера метаданных.
Библиографы подключаются к Web-серверу с помощью браузеров. Web-сервер, в свою очередь, подключен к серверу депозитария.
На ресурсах хранения устанавливаются агенты депозитария и интерфейсы администратора ресурса. Администратор ресурса хранения с помощью своего интерфейса подключается к серверу депозитария и может добавлять, модифицировать и удалять директории, которые доступны для хранения данных депозитария. Все изменения проходят через сервер депозитария и сервер метаданных. Подключиться напрямую к агенту, установленному на этом же хосте, администратор ресурса хранения не может.
Описываемая система в настоящее время находится в стадии опытной эксплуатации в РГБ и показала себя с хорошей стороны.