Поддержка цифровых библиотек и музейных объектов в среде ЕНИП
Филиппов В.И., Захаров А.А.
(Вычислительный Центр РАН)
В настоящее время  научно-исследовательский процесс неотделим от использования Интернета.  Значительную часть своего времени научные сотрудники проводят за компьютерами в  поиске и анализе информации, в электронной переписке с коллегами во всем мире.  В частности, все большую роль в этом процессе начинает играть использование  электронных библиотек.
  Электронная (цифровая) библиотека —  структурированная коллекция разнородных электронных документов (в отличие от  печатных изданий, микрофильмов и других носителей), снабженных средствами  навигации и поиска и доступных через компьютеры. Как правило, это  – Web-сайт, где накапливаются различные тексты  (чаще литературные, научные и технические, но также и любые другие, вплоть до  компьютерных программ) и медиа-файлы, каждый из которых самодостаточен и может  быть востребован пользователем. 
  Очевидно, что электронная  библиотека не появляется простым выставлением в Интернете внутрибиблиотечной  информационно-поисковой системы, осуществляющей поиск в каталоге и поддержку  работы с единицей хранения. Электронная библиотека способна не только  обеспечить многосторонний поиск в каталоге, но и предоставить пользователю  непосредственно найденный текст (или другой ресурс), а также дополнительные  сведения о его контексте: авторах, библиографии, издательстве и т.п. В связи с  этим специалисты в области библиотечного дела видят в электронных библиотеках  новые возможности для совершенствования автоматизированных библиотечных систем,  превращения их в публичные электронные библиотеки нового поколения с развитыми  средствами представления разнообразных цифровых информационных ресурсов и  доступа к ним, создаваемые с учетом необходимости интеграции издательских и  библиотечных технологий. При этом, однако, возникает ряд проблем, связанных с  интегрированностью информации (под интегрированностью понимается обеспечение  полноты и связанности информации, предоставляемой пользователю). Как и во  многих других прикладных областях, обеспечение интегрированности неотделимо от  разработки стандартов представления данных.
Электронные библиотеки и ЕНИП
На протяжении ряда последних лет в  РАН ведутся работы по разработке концепции и реализации Единого Научного  Информационного Пространства РАН (ЕНИП РАН) [1], призванного обеспечить  потребность научных сотрудников как в поиске качественной информации, так и в  выставлении собственной информации в сети Интернет [2]. 
  Основу ЕНИП РАН составляют, прежде  всего, стандарты на метаданные информации, циркулирующей в ЕНИП. Схемы  метаданных играют в ЕНИП двоякую роль. С одной стороны, они служат «обменными  схемами», с разными уровнями детализации, необходимыми для обмена данными между  системами, входящими в ЕНИП. С другой стороны, в рамках ЕНИП стоит задача не  только предложить обменные схемы, но и разработать конкретные типовые  информационные системы для научных институтов, библиотек, издательских отделов  и пр., которые дали бы стимул к информационному наполнению ЕНИП. Каждую  конкретную предметную область предлагается описывать отдельной схемой, а точнее  – набором схем, т.н. профилей метаданных, соответствующим образом ссылающихся  друг на друга.
  Набор элементов в  специализированном профиле метаданных ЕНИП для электронных библиотек основан на  предложениях наиболее влиятельных сообществ и организаций, выдвигающих или  поддерживающих проекты стандартов, хотя значительное влияние на выбор решений  оказал и анализ специфики работы научных сотрудников.
Метаданные электронной библиотеки
С точки зрения потребностей научных  сотрудников существенным недостатком многих схем метаданных электронных  библиотек является то, что они работают лишь с так называемыми  документо-подобными объектами, определяют метаданные, описывающие только такие  ресурсы, не выделяют другие виды важных объектов, например, персоналии,  организации, конференции и т.п. В итоге, например, встретив упоминание персоны  в одном месте, невозможно точно установить соответствие с ее упоминанием в  другом месте. Даже идентифицировав каким-то образом персону, зачастую нет  возможности получить документы, связанные только с ней. Это обусловлено тем,  что метаданные рассматриваются как нечто, связанное только с документом, как  качественные данные для “полнотекстовой” индексации значений атрибутов. Они не  выделяют типы ресурсов, используют средства идентификации ресурсов только для  документов и только для целей их извлечения.
  В связи с этим в профиле метаданных  ЕНИП для электронных библиотек активно используются ресурсы, представленные в  основном профиле и некоторых его расширениях, такие как Организации, Персоны,  Мероприятия и т.д. Тем не менее, центральным остается библиографическое  описание публикации, отвечающее за представление метаданных об официально  зарегистрированных печатных изданиях. 
  В целях обеспечения поддержки  различных уровней детализации информации о публикациях, необходимых различным  приложениям, библиографическая специализация разделена на базовую и расширенную  подсхемы, а также выделяется академическая подсхема, отражающая специфику  научных публикаций. Уже на базовом уровне требуется структурировать информацию  обо всех вышестоящих библиографических уровнях для каждой публикации. Например,  для описания ряда статей в журнале, необходимо описать сам журнал как издание сводного  уровня, далее описать интересующие выпуски этого журнала как издания  монографического уровня, и, наконец, сами статьи как издания аналитического  уровня. И статья, и выпуск, и журнал как таковой являются полноценными  структурированными ресурсами, описываемыми лишь единожды, и связываемыми с  помощью URI-ссылок. 
  Такой структурированный подход  требует некоторого усилия со стороны систем с «планарным» описанием публикаций.  Однако, структуризация информации обо всех библиографических уровнях необходима  и крайне важна для схем ЕНИП. Она позволяет избежать дублирования информации,  эффектов наличия опечаток в названиях группирующих выпусков, серий и пр.,  позволяет представить пользователю информацию в целостном и непротиворечивом  виде. 
Базовый уровень Публикации включает следующие свойства (звездочкой * отмечена множественность значений):
Название - Имя, сопоставленное ресурсу, обычно, под которым он официально известен.
Альтернативный заголовок* - Любая форма заголовка, используемая как замена или альтернатива официального заголовка ресурса.
Аннотация - Краткое описание или содержание источника.
Ключевые слова - Классификация с помощью списка слов с разделителями (например, через запятую).
Источник - Описание источника информации о данном ресурсе, например, наименование организации, ФИО и пр.
Авторские права - Авторские права («копирайт») на ресурс.
Web-адрес* - URL, в частности, HTTP-адрес контактной web-страницы, либо адрес FTP.
Язык (элемент словаря: Язык) - Язык интеллектуального содержания ресурса.
Выпущен - Дата формального выхода издания в свет.
Идентификатор* (подструктура: Идентификатор, рекомендуемые значения: ISBN) - Указание идентификатора ресурса с помощью рекомендуемых стандартных систем идентификации (см. класс "Идентификатор").
Авторы* (ссылка: Персона) - Автор(ы) данной публикации.
Издатель (ссылка: Организационная единица) - Организация, ответственная за публикацию данного издания.
Редактор* (ссылка: Персона) - Редактор издания.
Входит в состав (ссылка: Публикация) - Данный ресурс является физически или логически частью указанного ресурса.
Включает* (ссылка: Публикация) - Данный ресурс физически или логически включает указанный ресурс.
Кол-во страниц - Количество страниц в публикации.
Реферат* (подструктура: Файл данных) - Реферат(ы) по данной публикации.
Библиографическое описание - Библиографическое описание публикации по ГОСТ целиком, строкой. Может быть указано помимо отдельных элементов, указываемых полями «название», «номер тома/выпуска» и пр.
Полный код УДК - Тематическая классификация с помощью полного кода УДК (Универсального Десятичного Классификатора).
Примечания - Произвольные примечания к публикации.
ББК* (элемент классификатора: Рубрика ББК) - Ссылка на рубрику Библиотечно-Библиографической Классификации, либо вложенное описание рубрики с указанием кода и, возможно, словесной расшифровки.
Основной код УДК* (элемент классификатора: Oсновной код УДК) - Тематическая классификация с помощью ссылки на рубрику основной таблицы УДК (Универсального Десятичного Классификатора).
Использование публикаций в  научно-исследовательском процессе выдвигает необходимость быстрого ознакомления  с содержимым публикации, и аннотация здесь оказывается часто недостаточной. В  связи с этим в инстументарии ЕНИП разработаны средства полуавтоматического  выделения оглавления с обеспечением ссылок на соответствеющие разделы  документа, а также средства работы с библиографическими ссылками. 
  Приведем описание фрагмента профиля  электронных библиотек, отражающего решение этих задач. Расширенная схема  описания библиографической информации: 
Список литературы (текстом) (подструктура: Файл данных) - Список библиографических ссылок в текстовом виде, если не может быть разобран по отдельным подструктурам поля "список литературы (структурированный)".
Оглавление (подструктура: Файл данных) - Оглавление данной публикации в виде отдельного файла, либо текстового или XHTML-фрагмента.
Список литературы (структурированный)* (подструктура: Библиографическая ссылка) - Список библиографических ссылок, указанных в тексте данной публикации, в виде списка структур «Библиографическая ссылка». Поля подструктуры:
Приоритет - Число, определяющее порядок вывода элементов. Чем меньше число, тем выше в списке находится данный элемент. При этом не накладывается требования нумеровать элементы сплошной последовательностью (1,2,3..), допустимо указывать приоритеты с пропуском (10,20,30...).
Идентификатор ссылки - Идентификатор библиографической ссылки, например «DC», или «12».
Текст ссылки - Исходный текст библиографической ссылки, желательно отформатированный как библиографическое описание по ГОСТ. Как правило, указывается в случае, когда цитируемая работа не может быть указана ссылкой на публикацию как ресурс.
Цитируемая публикация (ссылка: Публикация) - Публикация, на которую ссылается данная библиографическая ссылка (цитируемая работа).
Сведения об издании - Сведения, относящиеся к изданию: в какой редакции, данные об оригинале для переводной литературы, место(а)/город(а) издания.
Составитель* (ссылка: Персона) - Составитель(и) данной публикации (сборника).
Коллективный автор публикации* (ссылка: Организационная единица) - Организация или подразделние, выступающие как коллективный автор данной публикации.
Переводчик публикации* (ссылка: Персона) - Переводчик(и) данной публикации.
Редколлегия* (ссылка: Должность) - Члены редколлегии издания, с указанием должностей и исполняющих лиц.
Входит в состав* (ссылка: Коллекция) – Колекции, членом которых является данный ресурс..
В приведенных описаниях элементов профиля электронной библиотеки можно видеть использование элементов основного профиля ЕНИП: Персона, Организационная единица, Файл данных, Должность,
Коллекция и др. Приведем состав наиболее частно используего класса – Персоны:
Домашняя страница* - URL-адрес домашней страницы.
Дата рождения - Дата рождения лица.
Адрес* - Полный почтовый адрес.
Имя (подструктура: Имя персоны) - ФИО персоны. Поля подструктуры:
Фамилия - Фамилия персоны.
Имя - Личное имя персоны.
Отчество - Отчество или дополнительные имена персоны.
Значение - Полное (не разобранное) значение описываемой подструктуры.
Пол (элемент словаря: Пол) - Пол субъекта.
Ученая степень* (подструктура: Ученая степень) - Ученая степень персоны (доктор физ.-мат. наук, кандидат технич. наук и т.д.). Поля подструктуры:
Обладатель (ссылка: Персона) - Обратная связь с лицом-обладателем ученой степени (заполняется автоматически).
Дата присуждения - Дата присуждения ученой степени/звания.
Ученая степень (элемент словаря: Ученая степень) - Наименование ученой степени как ссылка на элемент справочника (доктор физ.-мат. наук, кандидат технич. наук и т.д.).
Специальность ВАК (элемент классификатора: Cпециальность ВАК) - Рубрика классификатора специальностей ВАК.
Ученое звание* (подструктура: Ученое звание) - Академическое или ученое звание (типа профессор, академик, доцент, ...). Поля подструктуры:
Дата присуждения - Дата присуждения ученой степени/звания.
Присудившая организация - Название организации, присудившей ученое звание (если организация не может быть указана ссылкой).
Ученое звание (элемент словаря: Ученое звание) - Собственно само ученое звание как ссылка на элемент справочника (профессор, академик, доцент, с.н.с. и пр.).
Присудившая организация (ссылка: Организационная единица) - Организация, присудившая ученое звание.
Дата смерти - Дата смерти, в случае описании информации об исторической личности. По наличию данной даты историческая информация отличается от актуальной.
Место рождения - Место рождения данной личности, указывается в произвольной форме. Ввиду сложности поддержки исторической информации об административно-территориальном делении, классификатор регионов не используется для указания места рождения (поскольку на момент рождения административно-территориальное деление могло быть другим).
Место смерти - Место смерти данной исторической личности, указывается в произвольной форме, как и Место рождения.
Электронная почта* - Контактный адрес электронной почты.
Телефон* - Контактный телефон.
Факс* - Факс (код/номер).
WWW-страница* - HTTP-адрес контактной web-страницы.
FTP-адрес – URL адрес FTP.
В интерфейсе администратора системы имеется возможность отменить представление в интерфейсах пользователя каких-либо из перечисленных выше (необязательных) свойств.
Музейные предметы
Сближение задач электронных  библиотек, архивов и музеев в представлении научного наследия выдвигает  требование стандартизации метаданных физических музейных предметов и  мультимедийных (фото, видео, аудио) ресурсов. В связи с этим в ЕНИП разработан  дополнительный прикладной профиль поддержки музейной деятельности, в котором  для новой сущности Музейный предмет определены такие свойства и связи, как  Состояние (сохранность), Год сбора, Дата поступления, Принадлежность коллекции  и др. (такие свойства, как Название, Описание, Ключевые слова, Источник и т.д.  наследуются от класса, общего для музейных предметов и публикаций).  Соответствующие дополнения и изменения внесены в представления участвующих  ресурсов основного профиля, такие как Персоны, Результат деятельности,  Коллекции. 
  В отличие от публикаций, описания  музейных объектов могут значительно отличаться в различных музеях, и здесь  невозможно обеспечить всеобъемлющий набор необходимых свойств. В связи с этим  для данных объектов реализуется возможность определения дополнительных свойств  в виде связей с двумя вспомогательными объектами: Дополнительные свойства и  Значения дополнительных свойств. Соответственно, в интерфейсе администратора  системы предоставляется возможность определять дополнительные свойства  предмета, при этом в интерфейсах ввода и вывода данных создаются представления  соответствующих полей. Введенные значения дополнительных полей выдаются в  полных сведениях о предмете, но поиск по ним не производится. Таким образом,  администратор может добавить такие свойства, как Количество предметов, Автор  описания, Автор сбора, География, Размеры, Возраст, Способ поступления,  Препараты и т.п.
Медиа-представления
Для обеспечения хранения цифровых  представлений ресурсов и абстрагирования от конкретных методов хранения данных  в ЕНИП разработан дополнительный прикладной профиль Расширенной поддержки  хранения данных, в котором вводится ряд новых сущностей.
  Класс Медиа-объект предназначен для  описания медиа-объекта как единого целого, состоящего из частей – данных с  различной функциональной нагрузкой. Медиа-объект включает в себя следующие  свойства. 
Части* – собственно сами части целого медиа-объекта.
Класс Часть медиа-объекта позволяет в пределах одного целого медиа-объекта, например, публикации, иметь несколько частей с различной функциональной нагрузкой, таких как содержание, образы страниц в виде изображений, текст публикации в чисто текстовом формате, отформатированный текст публикации и тому подобное. Свойствами части медиа-объекта являются:
Тип данных – Формат представления данных, хранимых в данной части, например «Документ Microsoft Word» или «Изображение в формате JPEG».
Функциональный тип – Функциональный тип части медиа-объекта, показывающий какую функциональную нагрузку несёт часть, например «содержание», «страница книги».
Потоки данных* - Потоки двоичных данных, связанные с частью медиа-объекта в формате соответствующем типу данных.
Порядок в медиа-объекте – Порядок отображения части в списке частей медиа-объекта.
Название части – отображаемое название части медиа-объекта.
Класс Тип данных представляющий собой элемент классификатора форматов представления двоичных данных. Помимо стандартного для ЕНИП описания классификатора включается дополнительно свойство MIME-тип, связывающее данный классификатор со словарём IMT базового профиля ЕНИП.
Класс Функциональный тип представляющий собой элемент словаря функциональных типов частей медиа-объектов.
Класс Единица, представляющий единый и неделимый поток двоичных данных, позволяет абстрагироваться от конкретных методов хранения данных и позволяет собирать медиа-объекты, состоящие из частей, расположенных в разных местах и хранимых различными способами.
Класс Файл в файловой системе, представляющий собой поток двоичных данных, хранимый в файле на файловой системе локального компьютера. Единственным свойством данного класса является Путь к файлу.
 Класс Ссылка, представляющий собой  поток двоичных данных, хранимый в виде URL-ссылки на внешний источник.  Свойствами класса ссылка являются части URL, такие как:
  - схема – вид ресурса (URL scheme);
  - имя компьютера – FQDN имя  компьютера или его IP адрес;
  - номер порта – номер порта для  протокола TCP или UDP;
  - путь (path) – дополнительная  часть URL, назначение которой зависит от схемы.
Класс BLOB запись в БД, представляющий собой поток двоичных данных, хранимый в BLOB поле записи в базе данных. Содержит единственное свойство – Данные.
 Принцип использования  представленного выше класса Медиа-объект в ЕНИП несколько отличается от  общепринятого в электронных библиотеках. Для обеспечения цифровых представлений  не только публикаций, но и музейных объектов, а также мультимедийных  изображений коллекций, фотографий персон, коллективова, зданий организации и  т.п., в класс Ресурс, являющийся суперклассом для всех основных объектов  онтологии, вводится свойство:
  Медиа-представление* - Медиа-объект  (MediaObject).
Таким образом, одно или несколько мультимедийных представлений может сопровождать любой объект информационной Web-системы, наследуемый от Ресурс.
Заключение
В процессе разработки возник ряд  вопросов, которые, по-видимому, можно будет решить в процессе первых установок  и использования системы, а именно: делать ли единую ЭБ-систему с публикациями и  предметами? Или делать административно настраиваемую на публикации или предметы? Или две отдельных (но  единых инструментально) системы? При единой системе делать ли совместный поиск  и выдачу списка публикаций и предметов?
  Оглавление публикации – отдельный  объект или медиа-представление (или группа элементов)? Изображения страниц и  распознанный текст – два медиа-представления или постараться их объединить?  Пытаться ли реализовать распределенность хранения (и вывода)  медиа-представлений?
Изучается также вопрос о включении  в систему средств реализации распределённого поиска и каталогизации (по OAI-PMH).   Однако подобные автономные средства предоставляются в настоящее время  многими организациями, и в нашей стране пока еще более актуальны создание и  наполнение электронных библиотек, нежели их интеграция.
Литература