ЗАДАЧА РЕАЛИЗАЦИИ ЭЛЕКТРОННОЙ БИБЛИОТЕКИ “НАУЧНОЕ НАСЛЕДИЕ РОССИИ” КАК РАСПРЕДЕЛЕННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ.
Нестеренко А.К., Сысоев Т.М., Погорелко К.П.
(МСЦ РАН)
Аннотация
В статье описывается распределенная архитектура электронной библиотеки “Научное наследие России”. Рассматриваются вопросы подготовки, размещения и хранения электронных версий книг. Описывается реализация центрального WEB-портала электронной библиотеки, как единой точки доступа к ресурсам электронной библиотеки, указывается его место в рамках распределенной системы. В конце статьи рассматривается задача интеграции ресурсов электронной библиотеки в Единое Научное Информационное Пространство РАН.
Введение
Электронная библиотека “Научное наследие России” разрабатывается в рамках одноименной программы Президиума РАН с целью обеспечения сохранности и предоставления публичного доступа к научным трудам известных российских и зарубежных ученых и исследователей, работавших на территории России. Также некоторые из подсистем электронной библиотеки (системы хранения и представления электронных изданий конечным пользователям) создаются в рамках программы Президиума РАН “Информатизация”. Общая координация и управление проектом осуществляется Межведомственным суперкомпьютерным центром (МСЦ) РАН. Задачами подготовки электронных изданий и сопровождающей информации для размещения в хранилище данных электронной библиотеки занимаются ведущие библиотеки РАН, среди которых БАН, БЕН (Центральная библиотека и ее отделения), ИНИОН.
Второй важной задачей является интеграция существующих библиотечных ресурсов в Единое Научное Информационное Пространство (ЕНИП) РАН и обеспечение возможности централизованного доступа к ресурсам существующих хранилищ электронных изданий и метаданных об ученых и их научных трудах. Данная задача решается путем определения единой инфраструктуры распределенной системы, унификации форматов данных и протоколов взаимодействия компонентов системы, разработки единых регламентов подготовки и сопровождения электронных изданий. Рассмотрим более подробно общую архитектуру электронной библиотеки.
Общая архитектура электронной библиотеки
Электронная библиотека “Научное Наследие России” представляет собой техническое решение и методологию для обеспечения эффективного процесса предоставления электронных изданий трудов ученых в сети Интернет. Система изначально ориентирована на распределенную архитектуру, в которой источники данных (хранилища электронных книг и метаданных) могут быть распределены территориально.
На следующей диаграмме приведена общая архитектура распределенной системы электронной библиотеки и схема ее интеграции в ЕНИП РАН:
Рис. 1. Архитектура Электронной Библиотеки “Научное наследие России”
Основные архитектурные составляющие системы представлены:
Серверы хранения электронных изданий предназначены для хранения оцифрованных текстов бумажных изданий и дополнительных метаданных об их структуре (оглавления, номера страниц и т.д.). Они обеспечивают хранение электронных версий книг и предоставляют авторизованный доступ к ним внешним системам и пользователям. Они также обеспечивают надежное хранение размещаемых изданий (за счет выполнения резервного копирования данных) и предоставляют средства автоматизации размещения на серверах электронных версий книг.
Для сопровождения размещаемых в библиотеке электронных изданий необходимыми метаданными (информация об авторах, библиографические данные и т.д.) были разработаны унифицированные форматы метаданных об ученых и их научных трудах. Для хранения и сопровождения этих метаданных в распределенной инфраструктуре электронной библиотеки служат сервера метаданных, которые обеспечивают хранение и сопровождение метаданных об ученых и их трудах в унифицированном формате, а также обеспечивают эффективный поиск и предоставление хранимых метаданных внешним системам и пользователям.
Центральный диспетчерский сервер поддерживается с целью исключения дублирования работ при оцифровке изданий и контроля за состоянием и сроками их обработки. Он обеспечивает ввод и редактирование данных об изданиях, находящихся в обработке, предоставляет статистические данные об изданиях, вводимых в электронную библиотеку. В его задачу также входит предоставление по запросу справок об этапах обработки конкретного издания.
Центральный Web-портал электронной библиотеки “Научное Наследие России” осуществляет консолидацию данных, полученных с серверов метаданных, в рамках централизованного репозитория, обеспечивая, таким образом, централизованный доступ к ним пользователей. Взаимодействуя с серверами хранения электронных изданий, он является единой точкой доступа к электронным версиям научных трудов.
Центральный портал поддерживает взаимодействие с центральным узлом ЕНИП РАН[4,6], обеспечивая передачу хранимых метаданных в центральный узел и участвуя в процессе распределенного поиска по ЕНИП.
В описанной распределенной архитектуре задачи подготовки метаданных к выгрузке их в репозиторий центрального Web-портала, автоматизированного контроля подготовки и размещения электронных изданий в хранилищах электронных книг (функции серверов метаданных и центрального диспетчерского сервера) решаются за счет использования специализированного программного обеспечения SCIRUS[1,2] (http://scirus.benran.ru/scirus), созданного разработчиками БЕН РАН.
Задача непосредственного размещения электронных изданий на серверах хранения, включая программное обеспечение самих серверов, а также автоматизация этапов подготовки описателей размещаемых электронных книг (описание оглавлений, дополнительные поисковые индексы) решаются сотрудниками МСЦ РАН в рамках программы Президиума РАН “Информатизация”. Вторая задача, решаемая в рамках МСЦ РАН, это разработка центрального Web-портала, обеспечивающего централизованный доступ к ресурсам библиотеки и интеграцию ее в ЕНИП РАН. Рассмотрим более подробно решение выделенных задач.
Подготовка, размещение и хранение электронных изданий
Хранилище электронных книг позволяет размещать оцифрованные копии (полные тексты) научных трудов, которые могут быть представлены:
Помимо непосредственного отсканированного текста каждая оцифрованная книга сопровождается дополнительным набором метаданных в виде XML-файла [11], задающего структуру (оглавление книги). Данный файл (описатель электронной копии) может включать ключевые слова по разделам и страницам издания для поддержки поискового образа документа. Структура описателя электронной книги:
Одним из наиболее важных процессов, автоматизируемых в рамках электронной библиотеки, является процесс подготовки электронных изданий к размещению на серверах хранения, который имеет следующий набор этапов [7]:
Задачи подготовки метаданных и контроля подготовки электронных изданий, как было сказано выше, решаются центральным диспетчерским сервером и серверами метаданных. Для автоматизации этапов процесса, на которых производится первичная обработка (очистка от дефектов сканирования) страниц электронных изданий, а также подготовки оглавлений электронных книг (этапы 4-7) используется программное обеспечение, разработанное в библиотеке Математического института РАН [3], являющейся отделом БЕН РАН. Данное программное обеспечение позволяет:
Само хранилище электронных книг представлено файловым сервером, обеспечивающим надежное хранение страниц электронных изданий в структуре каталогов, а также обеспечивающим периодическое резервное копирование данных. Одной из важных задач, решаемых сервером хранения электронных книг, является обеспечение безопасного и авторизованного доступа к нему внешних систем и пользователей с использованием протокола HTTP [12].
Поскольку на текущий момент сервер хранения электронных изданий работает в демонстрационном режим, то к нему обеспечен публичный доступ и реализованы базовые механизмы управления пользователями и их правами. В дальнейшем планируется развитие программного обеспечения сервера в сторону повышения безопасности доступа к хранимым электронным изданиям.
Центральный Web-портал электронной библиотеки
Централизованный доступ пользователей к ресурсам электронной библиотеки осуществляется посредством пользовательских интерфейсов центрального Web-портала электронной библиотеки “Научное наследие России”, демонстрационная версия которого доступна по адресу http://nasledie.enip.ras.ru.
Центральный Web-портал допускает работу в пользовательском (открытом) и административном режимах. Пользовательские интерфейсы портала обеспечивают следующий набор функций:
В административном режиме центральный Web-портал позволяет выполнять:
Одной из наиболее важных задач, решаемых центральным Web-порталом, является централизованный доступ как к электронным версиям научных трудов, так и к сопровождающим их метаданным.
Для централизованного хранения метаданных Web-портал поддерживает стандартный для систем, интегрированных в ЕНИП РАН, формат загрузки и выгрузки данных на базе стандарта RDF/XML [13]. Консолидация метаданных об ученых и их научных трудах в рамках центрального Web-портала осуществляется посредством выгрузки подготовленных к размещению данных с серверов метаданных в формате RDF/XML с последующей их загрузкой в репозиторий портала.
Доступ к электронным версиям книг осуществляется посредством взаимодействия с хранилищами электронных изданий по протоколу HTTP. При этом очень важной задачей является предоставление пользователям удобного интерфейса навигации по страницам и разделам электронной книги. В части работы с оцифрованными изданиями центральный Web-портал позволяет осуществлять:
Интеграция электронной библиотеки в ЕНИП РАН
Задача Единого Научного Информационного Пространства РАН заключается в формировании распределенной среды, включающей в себя информационные системы различных институтов РАН и позволяющей обеспечить интегрированный взгляд на хранимые в них информационные ресурсы. Возможность получения такого обобщенного взгляда во многом обусловлена решением задачи формирования единого набора метаданных, описывающих как базовые предметные области научной деятельности людей, так и допускающих расширение в сторону конкретной специализации научной деятельности [4].
Помимо представления унифицированного обменного формата данных, в рамках инициативы ЕНИП Вычислительным центром (ВЦ) РАН в рамках проектов при поддержке РФФИ 2004-2006 года было создано программное обеспечение, позволяющее разрабатывать информационные порталы научных институтов РАН и обеспечивать их взаимодействие в рамках унифицированных протоколов обмена данными ЕНИП [5,6]. На текущий момент существует 15 действующих узлов ЕНИП РАН, расположенных в ведущих российских научных организациях и институтах, и один центральный узел ЕНИП. Центральный узел ЕНИП, с одной стороны, обеспечивает сбор и централизованное хранение данных с других узлов ЕНИП для организации эффективного поиска, с другой стороны, являясь единой точкой доступа в ЕНИП, он позволяет осуществлять распределенный поиск ресурсов по актуальным данным репозиториев входящих в ЕНИП информационных систем.
Центральный Web-портал электронной библиотеки “Научное наследие России” реализован с использованием описанных выше технологий и включен в качестве узла в ЕНИП РАН. Тем самым обеспечена возможность предоставления доступа к данным электронной библиотеки широкого круга пользователей и информационных систем в рамках унифицированных обменных форматов ЕНИП, что значительно расширяет состав целевой аудитории системы.
Заключение
В рамках работ над проектом 2006 года прототип Web-портала электронной библиотеки “Научное Наследие России” введен в эксплуатацию в открытом доступе, произведены базовая загрузка данных и размещение нескольких отсканированных книг. Особое внимание было уделено решению организационных вопросов подготовки и сопровождения материалов электронной библиотеки.
К ближайшим перспективам развития подсистем хранения и предоставления централизованного доступа к ресурсам электронной библиотеки в рамках работ 2007 года можно отнести:
Литература