Новые технологии в информационном обеспечении науки

ЗАДАЧА РЕАЛИЗАЦИИ ЭЛЕКТРОННОЙ БИБЛИОТЕКИ “НАУЧНОЕ НАСЛЕДИЕ РОССИИ” КАК РАСПРЕДЕЛЕННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ.

Нестеренко А.К., Сысоев Т.М., Погорелко К.П.
(МСЦ РАН)

Аннотация

В статье описывается распределенная архитектура электронной библиотеки “Научное наследие России”. Рассматриваются вопросы подготовки, размещения и хранения электронных версий книг. Описывается реализация центрального WEB-портала электронной библиотеки, как единой точки доступа к ресурсам электронной библиотеки, указывается его место в рамках распределенной системы. В конце статьи рассматривается задача интеграции ресурсов электронной библиотеки в Единое Научное Информационное Пространство РАН.

Введение

Электронная библиотека “Научное наследие России” разрабатывается в рамках одноименной программы Президиума РАН с целью обеспечения сохранности и предоставления публичного доступа к научным трудам известных российских и зарубежных ученых и исследователей, работавших на территории России. Также некоторые из подсистем электронной библиотеки (системы хранения и представления электронных изданий конечным пользователям) создаются в рамках программы Президиума РАН “Информатизация”. Общая координация и управление проектом осуществляется Межведомственным суперкомпьютерным центром (МСЦ) РАН. Задачами подготовки электронных изданий и сопровождающей информации для размещения в хранилище данных электронной библиотеки занимаются ведущие библиотеки РАН, среди которых БАН, БЕН (Центральная библиотека и ее отделения), ИНИОН.

Второй важной задачей является интеграция существующих библиотечных ресурсов в Единое Научное Информационное Пространство (ЕНИП) РАН и обеспечение возможности централизованного доступа к ресурсам существующих хранилищ электронных изданий и метаданных об ученых и их научных трудах. Данная задача решается путем определения единой инфраструктуры распределенной системы, унификации форматов данных и протоколов взаимодействия компонентов системы, разработки единых регламентов подготовки и сопровождения электронных изданий. Рассмотрим более подробно общую архитектуру электронной библиотеки.

Общая архитектура электронной библиотеки

Электронная библиотека “Научное Наследие России” представляет собой техническое решение и методологию для обеспечения эффективного процесса предоставления электронных изданий трудов ученых в сети Интернет. Система изначально ориентирована на распределенную архитектуру, в которой источники данных (хранилища электронных книг и метаданных) могут быть распределены территориально.

На следующей диаграмме приведена общая архитектура распределенной системы электронной библиотеки и схема ее интеграции в ЕНИП РАН:

Рис. 1. Архитектура Электронной Библиотеки “Научное наследие России”

Основные архитектурные составляющие системы представлены:

Серверы хранения электронных изданий предназначены для хранения оцифрованных текстов бумажных изданий и дополнительных метаданных об их структуре (оглавления, номера страниц и т.д.). Они обеспечивают хранение электронных версий книг и предоставляют авторизованный доступ к ним внешним системам и пользователям. Они также обеспечивают надежное хранение размещаемых изданий (за счет выполнения резервного копирования данных) и предоставляют средства автоматизации размещения на серверах электронных версий книг.

Для сопровождения размещаемых в библиотеке электронных изданий необходимыми метаданными (информация об авторах, библиографические данные и т.д.) были разработаны унифицированные форматы метаданных об ученых и их научных трудах. Для хранения и сопровождения этих метаданных в распределенной инфраструктуре электронной библиотеки служат сервера метаданных, которые обеспечивают хранение и сопровождение метаданных об ученых и их трудах в унифицированном формате, а также обеспечивают эффективный поиск и предоставление хранимых метаданных внешним системам и пользователям.

Центральный диспетчерский сервер поддерживается с целью исключения дублирования работ при оцифровке изданий и контроля за состоянием и сроками их обработки. Он обеспечивает ввод и редактирование данных об изданиях, находящихся в обработке, предоставляет статистические данные об изданиях, вводимых в электронную библиотеку. В его задачу также входит предоставление по запросу справок об этапах обработки конкретного издания.

Центральный Web-портал электронной библиотеки “Научное Наследие России” осуществляет консолидацию данных, полученных с серверов метаданных, в рамках централизованного репозитория, обеспечивая, таким образом, централизованный доступ к ним пользователей. Взаимодействуя с серверами хранения электронных изданий, он является единой точкой доступа к электронным версиям научных трудов.

Центральный портал поддерживает взаимодействие с центральным узлом ЕНИП РАН[4,6], обеспечивая передачу хранимых метаданных в центральный узел и участвуя в процессе распределенного поиска по ЕНИП.

В описанной распределенной архитектуре задачи подготовки метаданных к выгрузке их в репозиторий центрального Web-портала, автоматизированного контроля подготовки и размещения электронных изданий в хранилищах электронных книг (функции серверов метаданных и центрального диспетчерского сервера) решаются за счет использования специализированного программного обеспечения SCIRUS[1,2] (http://scirus.benran.ru/scirus), созданного разработчиками БЕН РАН.

Задача непосредственного размещения электронных изданий на серверах хранения, включая программное обеспечение самих серверов, а также автоматизация этапов подготовки описателей размещаемых электронных книг (описание оглавлений, дополнительные поисковые индексы) решаются сотрудниками МСЦ РАН в рамках программы Президиума РАН “Информатизация”. Вторая задача, решаемая в рамках МСЦ РАН, это разработка центрального Web-портала, обеспечивающего централизованный доступ к ресурсам библиотеки и интеграцию ее в ЕНИП РАН. Рассмотрим более подробно решение выделенных задач.

Подготовка, размещение и хранение электронных изданий

Хранилище электронных книг позволяет размещать оцифрованные копии (полные тексты) научных трудов, которые могут быть представлены:

Помимо непосредственного отсканированного текста каждая оцифрованная книга сопровождается дополнительным набором метаданных в виде XML-файла [11], задающего структуру (оглавление книги). Данный файл (описатель электронной копии) может включать ключевые слова по разделам и страницам издания для поддержки поискового образа документа. Структура описателя электронной книги:

Одним из наиболее важных процессов, автоматизируемых в рамках электронной библиотеки, является процесс подготовки электронных изданий к размещению на серверах хранения, который имеет следующий набор этапов [7]:

Задачи подготовки метаданных и контроля подготовки электронных изданий, как было сказано выше, решаются центральным диспетчерским сервером и серверами метаданных. Для автоматизации этапов процесса, на которых производится первичная обработка (очистка от дефектов сканирования) страниц электронных изданий, а также подготовки оглавлений электронных книг (этапы 4-7) используется программное обеспечение, разработанное в библиотеке Математического института РАН [3], являющейся отделом БЕН РАН. Данное программное обеспечение позволяет:

Само хранилище электронных книг представлено файловым сервером, обеспечивающим надежное хранение страниц электронных изданий в структуре каталогов, а также обеспечивающим периодическое резервное копирование данных. Одной из важных задач, решаемых сервером хранения электронных книг, является обеспечение безопасного и авторизованного доступа к нему внешних систем и пользователей с использованием протокола HTTP [12].

Поскольку на текущий момент сервер хранения электронных изданий работает в демонстрационном режим, то к нему обеспечен публичный доступ и реализованы базовые механизмы управления пользователями и их правами. В дальнейшем планируется развитие программного обеспечения сервера в сторону повышения безопасности доступа к хранимым электронным изданиям.

Центральный Web-портал электронной библиотеки

Централизованный доступ пользователей к ресурсам электронной библиотеки осуществляется посредством пользовательских интерфейсов центрального Web-портала электронной библиотеки “Научное наследие России”, демонстрационная версия которого доступна по адресу http://nasledie.enip.ras.ru.

Центральный Web-портал допускает работу в пользовательском (открытом) и административном режимах. Пользовательские интерфейсы портала обеспечивают следующий набор функций:

В административном режиме центральный Web-портал позволяет выполнять:

Одной из наиболее важных задач, решаемых центральным Web-порталом, является централизованный доступ как к электронным версиям научных трудов, так и к сопровождающим их метаданным.

Для централизованного хранения метаданных Web-портал поддерживает стандартный для систем, интегрированных в ЕНИП РАН, формат загрузки и выгрузки данных на базе стандарта RDF/XML [13]. Консолидация метаданных об ученых и их научных трудах в рамках центрального Web-портала осуществляется посредством выгрузки подготовленных к размещению данных с серверов метаданных в формате RDF/XML с последующей их загрузкой в репозиторий портала.

Доступ к электронным версиям книг осуществляется посредством взаимодействия с хранилищами электронных изданий по протоколу HTTP. При этом очень важной задачей является предоставление пользователям удобного интерфейса навигации по страницам и разделам электронной книги. В части работы с оцифрованными изданиями центральный Web-портал позволяет осуществлять:

Интеграция электронной библиотеки в ЕНИП РАН

Задача Единого Научного Информационного Пространства РАН заключается в формировании распределенной среды, включающей в себя информационные системы различных институтов РАН и позволяющей обеспечить интегрированный взгляд на хранимые в них информационные ресурсы. Возможность получения такого обобщенного взгляда во многом обусловлена решением задачи формирования единого набора метаданных, описывающих как базовые предметные области научной деятельности людей, так и допускающих расширение в сторону конкретной специализации научной деятельности [4].

Помимо представления унифицированного обменного формата данных, в рамках инициативы ЕНИП Вычислительным центром (ВЦ) РАН в рамках проектов при поддержке РФФИ 2004-2006 года было создано программное обеспечение, позволяющее разрабатывать информационные порталы научных институтов РАН и обеспечивать их взаимодействие в рамках унифицированных протоколов обмена данными ЕНИП [5,6]. На текущий момент существует 15 действующих узлов ЕНИП РАН, расположенных в ведущих российских научных организациях и институтах, и один центральный узел ЕНИП. Центральный узел ЕНИП, с одной стороны, обеспечивает сбор и централизованное хранение данных с других узлов ЕНИП для организации эффективного поиска, с другой стороны, являясь единой точкой доступа в ЕНИП, он позволяет осуществлять распределенный поиск ресурсов по актуальным данным репозиториев входящих в ЕНИП информационных систем.

Центральный Web-портал электронной библиотеки “Научное наследие России” реализован с использованием описанных выше технологий и включен в качестве узла в ЕНИП РАН. Тем самым обеспечена возможность предоставления доступа к данным электронной библиотеки широкого круга пользователей и информационных систем в рамках унифицированных обменных форматов ЕНИП, что значительно расширяет состав целевой аудитории системы.

Заключение

В рамках работ над проектом 2006 года прототип Web-портала электронной библиотеки “Научное Наследие России” введен в эксплуатацию в открытом доступе, произведены базовая загрузка данных и размещение нескольких отсканированных книг. Особое внимание было уделено решению организационных вопросов подготовки и сопровождения материалов электронной библиотеки.

К ближайшим перспективам развития подсистем хранения и предоставления централизованного доступа к ресурсам электронной библиотеки в рамках работ 2007 года можно отнести:

Литература

  1. Сенько А.М. Информационная система SciRus: принципы построения и перспективы развития // Научный серис в сети ИНТЕРНЕТ: технологии параллельного программирования. Всероссийская науч. конф. Новороссийск, сент. 18-23, 2006. — М, 2006. — С. 58-59.
  2. Якшин М.М. WEB-интерфейс системы "Наука России" // Современные технологии в информационном обеспечении науки: Сб. науч. тр. под ред. Н.Е.Каленова. — М., 2003. — С. 47-52.
  3. Вопросы создания полнотекстовой базы данных в библиотеке Математического института им. В.А.Стеклова РАН // Современные технологии в информационном обеспечении науки: Сб. науч. тр. под ред. Н.Е.Каленова. — М., 2005. — С. 270-274.
  4. Бездушный А.А., Бездушный А.Н., Серебряков В.А., Филиппов В.И. Интеграция метаданных Единого Научного Информационного Пространства РАН // Монография. /ВЦ РАН — М., 2005. — С. 238.
  5. Bezdushny A.A., Bezdushny A.N., Nesterenko A.K., Serebriakov V.A., Sysoev T.M. Integrated System of Information Resources of the Russian Academy of Sciences // The 8th World Multi-Conference on Systemics, Cybernetics and Informatics SCI 2004, Orlando, Florida. — 2004. — P. 462-467.
  6. Бездушный А.А., Бездушный А.Н., Нестеренко А.К., Серебряков В.А., Сысоев Т.М. Возможности технологий ИСИР в поддержке Единого Научного Информационного Пространства РАН // Электронные библиотеки: перспективные методы и технологии, элек-тронные коллекции: Труды VI всероссийской научной конференции. /Институт математических проблем биологии РАН. — М., 2004. — C.254-262.
  7. Нестеренко А.К., Данилина А.А., Сысоев Т.М., Бездушный А.Н., Серебряков В.А. Автоматизация процессов интеграции распределенных информационных ресурсов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды VIII всероссийской научной конференции. /Ярославский государственный университет им. П.Г. Демидова. — Суздаль, 2006. — С. 279-290.
  8. Tagged Image File Format (TIFF) // http: //partners.adobe.com/asn/developer/PDFS/TN/TIFF6.pdf
  9. DjVu digital document format // http://djvu.org/
  10. Portable Document Format (PDF) // http://www.adobe.com/
  11. Extensible Markup Language (XML) // http://www.w3.org/XML/
  12. RFC2616 — HTTP/1.1 Specification // http://www.w3.org/Protocols/rfc2616/rfc2616.html
  13. RDF/XML Syntax Specification // http://www.w3.org/TR/