Поддержка цифровых библиотек и музейных объектов в среде ЕНИП

Филиппов В.И., Захаров А.А.
(Вычислительный Центр РАН)

В настоящее время научно-исследовательский процесс неотделим от использования Интернета. Значительную часть своего времени научные сотрудники проводят за компьютерами в поиске и анализе информации, в электронной переписке с коллегами во всем мире. В частности, все большую роль в этом процессе начинает играть использование электронных библиотек.
Электронная (цифровая) библиотека — структурированная коллекция разнородных электронных документов (в отличие от печатных изданий, микрофильмов и других носителей), снабженных средствами навигации и поиска и доступных через компьютеры. Как правило, это  – Web-сайт, где накапливаются различные тексты (чаще литературные, научные и технические, но также и любые другие, вплоть до компьютерных программ) и медиа-файлы, каждый из которых самодостаточен и может быть востребован пользователем.
Очевидно, что электронная библиотека не появляется простым выставлением в Интернете внутрибиблиотечной информационно-поисковой системы, осуществляющей поиск в каталоге и поддержку работы с единицей хранения. Электронная библиотека способна не только обеспечить многосторонний поиск в каталоге, но и предоставить пользователю непосредственно найденный текст (или другой ресурс), а также дополнительные сведения о его контексте: авторах, библиографии, издательстве и т.п. В связи с этим специалисты в области библиотечного дела видят в электронных библиотеках новые возможности для совершенствования автоматизированных библиотечных систем, превращения их в публичные электронные библиотеки нового поколения с развитыми средствами представления разнообразных цифровых информационных ресурсов и доступа к ним, создаваемые с учетом необходимости интеграции издательских и библиотечных технологий. При этом, однако, возникает ряд проблем, связанных с интегрированностью информации (под интегрированностью понимается обеспечение полноты и связанности информации, предоставляемой пользователю). Как и во многих других прикладных областях, обеспечение интегрированности неотделимо от разработки стандартов представления данных.

Электронные библиотеки и ЕНИП

На протяжении ряда последних лет в РАН ведутся работы по разработке концепции и реализации Единого Научного Информационного Пространства РАН (ЕНИП РАН) [1], призванного обеспечить потребность научных сотрудников как в поиске качественной информации, так и в выставлении собственной информации в сети Интернет [2].
Основу ЕНИП РАН составляют, прежде всего, стандарты на метаданные информации, циркулирующей в ЕНИП. Схемы метаданных играют в ЕНИП двоякую роль. С одной стороны, они служат «обменными схемами», с разными уровнями детализации, необходимыми для обмена данными между системами, входящими в ЕНИП. С другой стороны, в рамках ЕНИП стоит задача не только предложить обменные схемы, но и разработать конкретные типовые информационные системы для научных институтов, библиотек, издательских отделов и пр., которые дали бы стимул к информационному наполнению ЕНИП. Каждую конкретную предметную область предлагается описывать отдельной схемой, а точнее – набором схем, т.н. профилей метаданных, соответствующим образом ссылающихся друг на друга.
Набор элементов в специализированном профиле метаданных ЕНИП для электронных библиотек основан на предложениях наиболее влиятельных сообществ и организаций, выдвигающих или поддерживающих проекты стандартов, хотя значительное влияние на выбор решений оказал и анализ специфики работы научных сотрудников.

Метаданные электронной библиотеки

С точки зрения потребностей научных сотрудников существенным недостатком многих схем метаданных электронных библиотек является то, что они работают лишь с так называемыми документо-подобными объектами, определяют метаданные, описывающие только такие ресурсы, не выделяют другие виды важных объектов, например, персоналии, организации, конференции и т.п. В итоге, например, встретив упоминание персоны в одном месте, невозможно точно установить соответствие с ее упоминанием в другом месте. Даже идентифицировав каким-то образом персону, зачастую нет возможности получить документы, связанные только с ней. Это обусловлено тем, что метаданные рассматриваются как нечто, связанное только с документом, как качественные данные для “полнотекстовой” индексации значений атрибутов. Они не выделяют типы ресурсов, используют средства идентификации ресурсов только для документов и только для целей их извлечения.
В связи с этим в профиле метаданных ЕНИП для электронных библиотек активно используются ресурсы, представленные в основном профиле и некоторых его расширениях, такие как Организации, Персоны, Мероприятия и т.д. Тем не менее, центральным остается библиографическое описание публикации, отвечающее за представление метаданных об официально зарегистрированных печатных изданиях.
В целях обеспечения поддержки различных уровней детализации информации о публикациях, необходимых различным приложениям, библиографическая специализация разделена на базовую и расширенную подсхемы, а также выделяется академическая подсхема, отражающая специфику научных публикаций. Уже на базовом уровне требуется структурировать информацию обо всех вышестоящих библиографических уровнях для каждой публикации. Например, для описания ряда статей в журнале, необходимо описать сам журнал как издание сводного уровня, далее описать интересующие выпуски этого журнала как издания монографического уровня, и, наконец, сами статьи как издания аналитического уровня. И статья, и выпуск, и журнал как таковой являются полноценными структурированными ресурсами, описываемыми лишь единожды, и связываемыми с помощью URI-ссылок.
Такой структурированный подход требует некоторого усилия со стороны систем с «планарным» описанием публикаций. Однако, структуризация информации обо всех библиографических уровнях необходима и крайне важна для схем ЕНИП. Она позволяет избежать дублирования информации, эффектов наличия опечаток в названиях группирующих выпусков, серий и пр., позволяет представить пользователю информацию в целостном и непротиворечивом виде.

Базовый уровень Публикации включает следующие свойства (звездочкой * отмечена множественность значений):

Название - Имя, сопоставленное ресурсу, обычно, под которым он официально известен.

Альтернативный заголовок* - Любая форма заголовка, используемая как замена или альтернатива официального заголовка ресурса.

Аннотация - Краткое описание или содержание источника.

Ключевые слова - Классификация с помощью списка слов с разделителями (например, через запятую).

Источник - Описание источника информации о данном ресурсе, например, наименование организации, ФИО и пр.

Авторские права - Авторские права («копирайт») на ресурс.

Web-адрес* - URL, в частности, HTTP-адрес контактной web-страницы, либо адрес FTP.

Язык (элемент словаря: Язык) - Язык интеллектуального содержания ресурса.

Выпущен - Дата формального выхода издания в свет.

Идентификатор* (подструктура: Идентификатор, рекомендуемые значения: ISBN) - Указание идентификатора ресурса с помощью рекомендуемых стандартных систем идентификации (см. класс "Идентификатор").

Авторы* (ссылка: Персона) - Автор(ы) данной публикации.

Издатель (ссылка: Организационная единица) - Организация, ответственная за публикацию данного издания.

Редактор* (ссылка: Персона) - Редактор издания.

Входит в состав (ссылка: Публикация) - Данный ресурс является физически или логически частью указанного ресурса.

Включает* (ссылка: Публикация) - Данный ресурс физически или логически включает указанный ресурс.

Кол-во страниц - Количество страниц в публикации.

Реферат* (подструктура: Файл данных) - Реферат(ы) по данной публикации.

Библиографическое описание - Библиографическое описание публикации по ГОСТ целиком, строкой. Может быть указано помимо отдельных элементов, указываемых полями «название», «номер тома/выпуска» и пр.

Полный код УДК - Тематическая классификация с помощью полного кода УДК (Универсального Десятичного Классификатора).

Примечания - Произвольные примечания к публикации.

ББК* (элемент классификатора: Рубрика ББК) - Ссылка на рубрику Библиотечно-Библиографической Классификации, либо вложенное описание рубрики с указанием кода и, возможно, словесной расшифровки.

Основной код УДК* (элемент классификатора: Oсновной код УДК) - Тематическая классификация с помощью ссылки на рубрику основной таблицы УДК (Универсального Десятичного Классификатора).

Использование публикаций в научно-исследовательском процессе выдвигает необходимость быстрого ознакомления с содержимым публикации, и аннотация здесь оказывается часто недостаточной. В связи с этим в инстументарии ЕНИП разработаны средства полуавтоматического выделения оглавления с обеспечением ссылок на соответствеющие разделы документа, а также средства работы с библиографическими ссылками.
Приведем описание фрагмента профиля электронных библиотек, отражающего решение этих задач. Расширенная схема описания библиографической информации:

Список литературы (текстом) (подструктура: Файл данных) - Список библиографических ссылок в текстовом виде, если не может быть разобран по отдельным подструктурам поля "список литературы (структурированный)".

Оглавление (подструктура: Файл данных) - Оглавление данной публикации в виде отдельного файла, либо текстового или XHTML-фрагмента.

Список литературы (структурированный)* (подструктура: Библиографическая ссылка) - Список библиографических ссылок, указанных в тексте данной публикации, в виде списка структур «Библиографическая ссылка». Поля подструктуры:

Приоритет - Число, определяющее порядок вывода элементов. Чем меньше число, тем выше в списке находится данный элемент. При этом не накладывается требования нумеровать элементы сплошной последовательностью (1,2,3..), допустимо указывать приоритеты с пропуском (10,20,30...).

Идентификатор ссылки - Идентификатор библиографической ссылки, например «DC», или «12».

Текст ссылки - Исходный текст библиографической ссылки, желательно отформатированный как библиографическое описание по ГОСТ. Как правило, указывается в случае, когда цитируемая работа не может быть указана ссылкой на публикацию как ресурс.

Цитируемая публикация (ссылка: Публикация) - Публикация, на которую ссылается данная библиографическая ссылка (цитируемая работа).

Сведения об издании - Сведения, относящиеся к изданию: в какой редакции, данные об оригинале для переводной литературы, место(а)/город(а) издания.

Составитель* (ссылка: Персона) - Составитель(и) данной публикации (сборника).

Коллективный автор публикации* (ссылка: Организационная единица) - Организация или подразделние, выступающие как коллективный автор данной публикации.

Переводчик публикации* (ссылка: Персона) - Переводчик(и) данной публикации.

Редколлегия* (ссылка: Должность) - Члены редколлегии издания, с указанием должностей и исполняющих лиц.

Входит в состав* (ссылка: Коллекция) – Колекции, членом которых является данный ресурс..

В приведенных описаниях элементов профиля электронной библиотеки можно видеть использование элементов основного профиля ЕНИП: Персона, Организационная единица, Файл данных, Должность,

Коллекция и др. Приведем состав наиболее частно используего класса – Персоны:

Домашняя страница* - URL-адрес домашней страницы.

Дата рождения - Дата рождения лица.

Адрес* - Полный почтовый адрес.

Имя (подструктура: Имя персоны) - ФИО персоны. Поля подструктуры:

Фамилия - Фамилия персоны.

Имя - Личное имя персоны.

Отчество - Отчество или дополнительные имена персоны.

Значение - Полное (не разобранное) значение описываемой подструктуры.

Пол (элемент словаря: Пол) - Пол субъекта.

Ученая степень* (подструктура: Ученая степень) - Ученая степень персоны (доктор физ.-мат. наук, кандидат технич. наук и т.д.). Поля подструктуры:

Обладатель (ссылка: Персона) - Обратная связь с лицом-обладателем ученой степени (заполняется автоматически).

Дата присуждения - Дата присуждения ученой степени/звания.

Ученая степень (элемент словаря: Ученая степень) - Наименование ученой степени как ссылка на элемент справочника (доктор физ.-мат. наук, кандидат технич. наук и т.д.).

Специальность ВАК (элемент классификатора: Cпециальность ВАК) - Рубрика классификатора специальностей ВАК.

Ученое звание* (подструктура: Ученое звание) - Академическое или ученое звание (типа профессор, академик, доцент, ...). Поля подструктуры:

Дата присуждения - Дата присуждения ученой степени/звания.

Присудившая организация - Название организации, присудившей ученое звание (если организация не может быть указана ссылкой).

Ученое звание (элемент словаря: Ученое звание) - Собственно само ученое звание как ссылка на элемент справочника (профессор, академик, доцент, с.н.с. и пр.).

Присудившая организация (ссылка: Организационная единица) - Организация, присудившая ученое звание.

Дата смерти - Дата смерти, в случае описании информации об исторической личности. По наличию данной даты историческая информация отличается от актуальной.

Место рождения - Место рождения данной личности, указывается в произвольной форме. Ввиду сложности поддержки исторической информации об административно-территориальном делении, классификатор регионов не используется для указания места рождения (поскольку на момент рождения административно-территориальное деление могло быть другим).

Место смерти - Место смерти данной исторической личности, указывается в произвольной форме, как и Место рождения.

Электронная почта* - Контактный адрес электронной почты.

Телефон* - Контактный телефон.

Факс* - Факс (код/номер).

WWW-страница* - HTTP-адрес контактной web-страницы.

FTP-адрес – URL адрес FTP.

В интерфейсе администратора системы имеется возможность отменить представление в интерфейсах пользователя каких-либо из перечисленных выше (необязательных) свойств.

Музейные предметы

Сближение задач электронных библиотек, архивов и музеев в представлении научного наследия выдвигает требование стандартизации метаданных физических музейных предметов и мультимедийных (фото, видео, аудио) ресурсов. В связи с этим в ЕНИП разработан дополнительный прикладной профиль поддержки музейной деятельности, в котором для новой сущности Музейный предмет определены такие свойства и связи, как Состояние (сохранность), Год сбора, Дата поступления, Принадлежность коллекции и др. (такие свойства, как Название, Описание, Ключевые слова, Источник и т.д. наследуются от класса, общего для музейных предметов и публикаций). Соответствующие дополнения и изменения внесены в представления участвующих ресурсов основного профиля, такие как Персоны, Результат деятельности, Коллекции.
В отличие от публикаций, описания музейных объектов могут значительно отличаться в различных музеях, и здесь невозможно обеспечить всеобъемлющий набор необходимых свойств. В связи с этим для данных объектов реализуется возможность определения дополнительных свойств в виде связей с двумя вспомогательными объектами: Дополнительные свойства и Значения дополнительных свойств. Соответственно, в интерфейсе администратора системы предоставляется возможность определять дополнительные свойства предмета, при этом в интерфейсах ввода и вывода данных создаются представления соответствующих полей. Введенные значения дополнительных полей выдаются в полных сведениях о предмете, но поиск по ним не производится. Таким образом, администратор может добавить такие свойства, как Количество предметов, Автор описания, Автор сбора, География, Размеры, Возраст, Способ поступления, Препараты и т.п.

Медиа-представления

Для обеспечения хранения цифровых представлений ресурсов и абстрагирования от конкретных методов хранения данных в ЕНИП разработан дополнительный прикладной профиль Расширенной поддержки хранения данных, в котором вводится ряд новых сущностей.
Класс Медиа-объект предназначен для описания медиа-объекта как единого целого, состоящего из частей – данных с различной функциональной нагрузкой. Медиа-объект включает в себя следующие свойства.

Части* – собственно сами части целого медиа-объекта.

Класс Часть медиа-объекта позволяет в пределах одного целого медиа-объекта, например, публикации, иметь несколько частей с различной функциональной нагрузкой, таких как содержание, образы страниц в виде изображений, текст публикации в чисто текстовом формате, отформатированный текст публикации и тому подобное. Свойствами части медиа-объекта являются:

Тип данных – Формат представления данных, хранимых в данной части, например «Документ Microsoft Word» или «Изображение в формате JPEG».

Функциональный тип – Функциональный тип части медиа-объекта, показывающий какую функциональную нагрузку несёт часть, например «содержание», «страница книги».

Потоки данных* - Потоки двоичных данных, связанные с частью медиа-объекта в формате соответствующем типу данных.

Порядок в медиа-объекте – Порядок отображения части в списке частей медиа-объекта.

Название части – отображаемое название части медиа-объекта.

Класс Тип данных представляющий собой элемент классификатора форматов представления двоичных данных. Помимо стандартного для ЕНИП описания классификатора включается дополнительно свойство MIME-тип, связывающее данный классификатор со словарём IMT базового профиля ЕНИП.

Класс Функциональный тип представляющий собой элемент словаря функциональных типов частей медиа-объектов.

Класс Единица, представляющий единый и неделимый поток двоичных данных, позволяет абстрагироваться от конкретных методов хранения данных и позволяет собирать медиа-объекты, состоящие из частей, расположенных в разных местах и хранимых различными способами.

Класс Файл в файловой системе, представляющий собой поток двоичных данных, хранимый в файле на файловой системе локального компьютера. Единственным свойством данного класса является Путь к файлу.

Класс Ссылка, представляющий собой поток двоичных данных, хранимый в виде URL-ссылки на внешний источник. Свойствами класса ссылка являются части URL, такие как:
- схема – вид ресурса (URL scheme);
- имя компьютера – FQDN имя компьютера или его IP адрес;
- номер порта – номер порта для протокола TCP или UDP;
- путь (path) – дополнительная часть URL, назначение которой зависит от схемы.

Класс BLOB запись в БД, представляющий собой поток двоичных данных, хранимый в BLOB поле записи в базе данных. Содержит единственное свойство – Данные.

Принцип использования представленного выше класса Медиа-объект в ЕНИП несколько отличается от общепринятого в электронных библиотеках. Для обеспечения цифровых представлений не только публикаций, но и музейных объектов, а также мультимедийных изображений коллекций, фотографий персон, коллективова, зданий организации и т.п., в класс Ресурс, являющийся суперклассом для всех основных объектов онтологии, вводится свойство:
Медиа-представление* - Медиа-объект (MediaObject).

Таким образом, одно или несколько мультимедийных представлений может сопровождать любой объект информационной Web-системы, наследуемый от Ресурс.

Заключение

В процессе разработки возник ряд вопросов, которые, по-видимому, можно будет решить в процессе первых установок и использования системы, а именно: делать ли единую ЭБ-систему с публикациями и предметами? Или делать административно настраиваемую на публикации или предметы? Или две отдельных (но единых инструментально) системы? При единой системе делать ли совместный поиск и выдачу списка публикаций и предметов?
Оглавление публикации – отдельный объект или медиа-представление (или группа элементов)? Изображения страниц и распознанный текст – два медиа-представления или постараться их объединить? Пытаться ли реализовать распределенность хранения (и вывода) медиа-представлений?
Изучается также вопрос о включении в систему средств реализации распределённого поиска и каталогизации (по OAI-PMH).  Однако подобные автономные средства предоставляются в настоящее время многими организациями, и в нашей стране пока еще более актуальны создание и наполнение электронных библиотек, нежели их интеграция.

Литература

  1. Бездушный А.Н, Бездушный А.А., Серебряков В.А., Филиппов В.И. «Интеграция метаданных Единого Научного Информационного Пространства РАН». М.:ВЦ РАН. 2006.
  2. Бездушный А.Н, Бездушный А.А., Нестеренко А.К., Серебряков В.А.,Сысоев Т.М., Теймуразов К.Б., Филиппов В.И. «Информационная Web-система «Научный институт на платформе ЕНИП». М.:ВЦ РАН. 2007.