Поддержка цифровых библиотек и музейных объектов в среде ЕНИП
Филиппов В.И., Захаров А.А.
(Вычислительный Центр РАН)
В настоящее время научно-исследовательский процесс неотделим от использования Интернета. Значительную часть своего времени научные сотрудники проводят за компьютерами в поиске и анализе информации, в электронной переписке с коллегами во всем мире. В частности, все большую роль в этом процессе начинает играть использование электронных библиотек.
Электронная (цифровая) библиотека — структурированная коллекция разнородных электронных документов (в отличие от печатных изданий, микрофильмов и других носителей), снабженных средствами навигации и поиска и доступных через компьютеры. Как правило, это – Web-сайт, где накапливаются различные тексты (чаще литературные, научные и технические, но также и любые другие, вплоть до компьютерных программ) и медиа-файлы, каждый из которых самодостаточен и может быть востребован пользователем.
Очевидно, что электронная библиотека не появляется простым выставлением в Интернете внутрибиблиотечной информационно-поисковой системы, осуществляющей поиск в каталоге и поддержку работы с единицей хранения. Электронная библиотека способна не только обеспечить многосторонний поиск в каталоге, но и предоставить пользователю непосредственно найденный текст (или другой ресурс), а также дополнительные сведения о его контексте: авторах, библиографии, издательстве и т.п. В связи с этим специалисты в области библиотечного дела видят в электронных библиотеках новые возможности для совершенствования автоматизированных библиотечных систем, превращения их в публичные электронные библиотеки нового поколения с развитыми средствами представления разнообразных цифровых информационных ресурсов и доступа к ним, создаваемые с учетом необходимости интеграции издательских и библиотечных технологий. При этом, однако, возникает ряд проблем, связанных с интегрированностью информации (под интегрированностью понимается обеспечение полноты и связанности информации, предоставляемой пользователю). Как и во многих других прикладных областях, обеспечение интегрированности неотделимо от разработки стандартов представления данных.
Электронные библиотеки и ЕНИП
На протяжении ряда последних лет в РАН ведутся работы по разработке концепции и реализации Единого Научного Информационного Пространства РАН (ЕНИП РАН) [1], призванного обеспечить потребность научных сотрудников как в поиске качественной информации, так и в выставлении собственной информации в сети Интернет [2].
Основу ЕНИП РАН составляют, прежде всего, стандарты на метаданные информации, циркулирующей в ЕНИП. Схемы метаданных играют в ЕНИП двоякую роль. С одной стороны, они служат «обменными схемами», с разными уровнями детализации, необходимыми для обмена данными между системами, входящими в ЕНИП. С другой стороны, в рамках ЕНИП стоит задача не только предложить обменные схемы, но и разработать конкретные типовые информационные системы для научных институтов, библиотек, издательских отделов и пр., которые дали бы стимул к информационному наполнению ЕНИП. Каждую конкретную предметную область предлагается описывать отдельной схемой, а точнее – набором схем, т.н. профилей метаданных, соответствующим образом ссылающихся друг на друга.
Набор элементов в специализированном профиле метаданных ЕНИП для электронных библиотек основан на предложениях наиболее влиятельных сообществ и организаций, выдвигающих или поддерживающих проекты стандартов, хотя значительное влияние на выбор решений оказал и анализ специфики работы научных сотрудников.
Метаданные электронной библиотеки
С точки зрения потребностей научных сотрудников существенным недостатком многих схем метаданных электронных библиотек является то, что они работают лишь с так называемыми документо-подобными объектами, определяют метаданные, описывающие только такие ресурсы, не выделяют другие виды важных объектов, например, персоналии, организации, конференции и т.п. В итоге, например, встретив упоминание персоны в одном месте, невозможно точно установить соответствие с ее упоминанием в другом месте. Даже идентифицировав каким-то образом персону, зачастую нет возможности получить документы, связанные только с ней. Это обусловлено тем, что метаданные рассматриваются как нечто, связанное только с документом, как качественные данные для “полнотекстовой” индексации значений атрибутов. Они не выделяют типы ресурсов, используют средства идентификации ресурсов только для документов и только для целей их извлечения.
В связи с этим в профиле метаданных ЕНИП для электронных библиотек активно используются ресурсы, представленные в основном профиле и некоторых его расширениях, такие как Организации, Персоны, Мероприятия и т.д. Тем не менее, центральным остается библиографическое описание публикации, отвечающее за представление метаданных об официально зарегистрированных печатных изданиях.
В целях обеспечения поддержки различных уровней детализации информации о публикациях, необходимых различным приложениям, библиографическая специализация разделена на базовую и расширенную подсхемы, а также выделяется академическая подсхема, отражающая специфику научных публикаций. Уже на базовом уровне требуется структурировать информацию обо всех вышестоящих библиографических уровнях для каждой публикации. Например, для описания ряда статей в журнале, необходимо описать сам журнал как издание сводного уровня, далее описать интересующие выпуски этого журнала как издания монографического уровня, и, наконец, сами статьи как издания аналитического уровня. И статья, и выпуск, и журнал как таковой являются полноценными структурированными ресурсами, описываемыми лишь единожды, и связываемыми с помощью URI-ссылок.
Такой структурированный подход требует некоторого усилия со стороны систем с «планарным» описанием публикаций. Однако, структуризация информации обо всех библиографических уровнях необходима и крайне важна для схем ЕНИП. Она позволяет избежать дублирования информации, эффектов наличия опечаток в названиях группирующих выпусков, серий и пр., позволяет представить пользователю информацию в целостном и непротиворечивом виде.
Базовый уровень Публикации включает следующие свойства (звездочкой * отмечена множественность значений):
Название - Имя, сопоставленное ресурсу, обычно, под которым он официально известен.
Альтернативный заголовок* - Любая форма заголовка, используемая как замена или альтернатива официального заголовка ресурса.
Аннотация - Краткое описание или содержание источника.
Ключевые слова - Классификация с помощью списка слов с разделителями (например, через запятую).
Источник - Описание источника информации о данном ресурсе, например, наименование организации, ФИО и пр.
Авторские права - Авторские права («копирайт») на ресурс.
Web-адрес* - URL, в частности, HTTP-адрес контактной web-страницы, либо адрес FTP.
Язык (элемент словаря: Язык) - Язык интеллектуального содержания ресурса.
Выпущен - Дата формального выхода издания в свет.
Идентификатор* (подструктура: Идентификатор, рекомендуемые значения: ISBN) - Указание идентификатора ресурса с помощью рекомендуемых стандартных систем идентификации (см. класс "Идентификатор").
Авторы* (ссылка: Персона) - Автор(ы) данной публикации.
Издатель (ссылка: Организационная единица) - Организация, ответственная за публикацию данного издания.
Редактор* (ссылка: Персона) - Редактор издания.
Входит в состав (ссылка: Публикация) - Данный ресурс является физически или логически частью указанного ресурса.
Включает* (ссылка: Публикация) - Данный ресурс физически или логически включает указанный ресурс.
Кол-во страниц - Количество страниц в публикации.
Реферат* (подструктура: Файл данных) - Реферат(ы) по данной публикации.
Библиографическое описание - Библиографическое описание публикации по ГОСТ целиком, строкой. Может быть указано помимо отдельных элементов, указываемых полями «название», «номер тома/выпуска» и пр.
Полный код УДК - Тематическая классификация с помощью полного кода УДК (Универсального Десятичного Классификатора).
Примечания - Произвольные примечания к публикации.
ББК* (элемент классификатора: Рубрика ББК) - Ссылка на рубрику Библиотечно-Библиографической Классификации, либо вложенное описание рубрики с указанием кода и, возможно, словесной расшифровки.
Основной код УДК* (элемент классификатора: Oсновной код УДК) - Тематическая классификация с помощью ссылки на рубрику основной таблицы УДК (Универсального Десятичного Классификатора).
Использование публикаций в научно-исследовательском процессе выдвигает необходимость быстрого ознакомления с содержимым публикации, и аннотация здесь оказывается часто недостаточной. В связи с этим в инстументарии ЕНИП разработаны средства полуавтоматического выделения оглавления с обеспечением ссылок на соответствеющие разделы документа, а также средства работы с библиографическими ссылками.
Приведем описание фрагмента профиля электронных библиотек, отражающего решение этих задач. Расширенная схема описания библиографической информации:
Список литературы (текстом) (подструктура: Файл данных) - Список библиографических ссылок в текстовом виде, если не может быть разобран по отдельным подструктурам поля "список литературы (структурированный)".
Оглавление (подструктура: Файл данных) - Оглавление данной публикации в виде отдельного файла, либо текстового или XHTML-фрагмента.
Список литературы (структурированный)* (подструктура: Библиографическая ссылка) - Список библиографических ссылок, указанных в тексте данной публикации, в виде списка структур «Библиографическая ссылка». Поля подструктуры:
Приоритет - Число, определяющее порядок вывода элементов. Чем меньше число, тем выше в списке находится данный элемент. При этом не накладывается требования нумеровать элементы сплошной последовательностью (1,2,3..), допустимо указывать приоритеты с пропуском (10,20,30...).
Идентификатор ссылки - Идентификатор библиографической ссылки, например «DC», или «12».
Текст ссылки - Исходный текст библиографической ссылки, желательно отформатированный как библиографическое описание по ГОСТ. Как правило, указывается в случае, когда цитируемая работа не может быть указана ссылкой на публикацию как ресурс.
Цитируемая публикация (ссылка: Публикация) - Публикация, на которую ссылается данная библиографическая ссылка (цитируемая работа).
Сведения об издании - Сведения, относящиеся к изданию: в какой редакции, данные об оригинале для переводной литературы, место(а)/город(а) издания.
Составитель* (ссылка: Персона) - Составитель(и) данной публикации (сборника).
Коллективный автор публикации* (ссылка: Организационная единица) - Организация или подразделние, выступающие как коллективный автор данной публикации.
Переводчик публикации* (ссылка: Персона) - Переводчик(и) данной публикации.
Редколлегия* (ссылка: Должность) - Члены редколлегии издания, с указанием должностей и исполняющих лиц.
Входит в состав* (ссылка: Коллекция) – Колекции, членом которых является данный ресурс..
В приведенных описаниях элементов профиля электронной библиотеки можно видеть использование элементов основного профиля ЕНИП: Персона, Организационная единица, Файл данных, Должность,
Коллекция и др. Приведем состав наиболее частно используего класса – Персоны:
Домашняя страница* - URL-адрес домашней страницы.
Дата рождения - Дата рождения лица.
Адрес* - Полный почтовый адрес.
Имя (подструктура: Имя персоны) - ФИО персоны. Поля подструктуры:
Фамилия - Фамилия персоны.
Имя - Личное имя персоны.
Отчество - Отчество или дополнительные имена персоны.
Значение - Полное (не разобранное) значение описываемой подструктуры.
Пол (элемент словаря: Пол) - Пол субъекта.
Ученая степень* (подструктура: Ученая степень) - Ученая степень персоны (доктор физ.-мат. наук, кандидат технич. наук и т.д.). Поля подструктуры:
Обладатель (ссылка: Персона) - Обратная связь с лицом-обладателем ученой степени (заполняется автоматически).
Дата присуждения - Дата присуждения ученой степени/звания.
Ученая степень (элемент словаря: Ученая степень) - Наименование ученой степени как ссылка на элемент справочника (доктор физ.-мат. наук, кандидат технич. наук и т.д.).
Специальность ВАК (элемент классификатора: Cпециальность ВАК) - Рубрика классификатора специальностей ВАК.
Ученое звание* (подструктура: Ученое звание) - Академическое или ученое звание (типа профессор, академик, доцент, ...). Поля подструктуры:
Дата присуждения - Дата присуждения ученой степени/звания.
Присудившая организация - Название организации, присудившей ученое звание (если организация не может быть указана ссылкой).
Ученое звание (элемент словаря: Ученое звание) - Собственно само ученое звание как ссылка на элемент справочника (профессор, академик, доцент, с.н.с. и пр.).
Присудившая организация (ссылка: Организационная единица) - Организация, присудившая ученое звание.
Дата смерти - Дата смерти, в случае описании информации об исторической личности. По наличию данной даты историческая информация отличается от актуальной.
Место рождения - Место рождения данной личности, указывается в произвольной форме. Ввиду сложности поддержки исторической информации об административно-территориальном делении, классификатор регионов не используется для указания места рождения (поскольку на момент рождения административно-территориальное деление могло быть другим).
Место смерти - Место смерти данной исторической личности, указывается в произвольной форме, как и Место рождения.
Электронная почта* - Контактный адрес электронной почты.
Телефон* - Контактный телефон.
Факс* - Факс (код/номер).
WWW-страница* - HTTP-адрес контактной web-страницы.
FTP-адрес – URL адрес FTP.
В интерфейсе администратора системы имеется возможность отменить представление в интерфейсах пользователя каких-либо из перечисленных выше (необязательных) свойств.
Музейные предметы
Сближение задач электронных библиотек, архивов и музеев в представлении научного наследия выдвигает требование стандартизации метаданных физических музейных предметов и мультимедийных (фото, видео, аудио) ресурсов. В связи с этим в ЕНИП разработан дополнительный прикладной профиль поддержки музейной деятельности, в котором для новой сущности Музейный предмет определены такие свойства и связи, как Состояние (сохранность), Год сбора, Дата поступления, Принадлежность коллекции и др. (такие свойства, как Название, Описание, Ключевые слова, Источник и т.д. наследуются от класса, общего для музейных предметов и публикаций). Соответствующие дополнения и изменения внесены в представления участвующих ресурсов основного профиля, такие как Персоны, Результат деятельности, Коллекции.
В отличие от публикаций, описания музейных объектов могут значительно отличаться в различных музеях, и здесь невозможно обеспечить всеобъемлющий набор необходимых свойств. В связи с этим для данных объектов реализуется возможность определения дополнительных свойств в виде связей с двумя вспомогательными объектами: Дополнительные свойства и Значения дополнительных свойств. Соответственно, в интерфейсе администратора системы предоставляется возможность определять дополнительные свойства предмета, при этом в интерфейсах ввода и вывода данных создаются представления соответствующих полей. Введенные значения дополнительных полей выдаются в полных сведениях о предмете, но поиск по ним не производится. Таким образом, администратор может добавить такие свойства, как Количество предметов, Автор описания, Автор сбора, География, Размеры, Возраст, Способ поступления, Препараты и т.п.
Медиа-представления
Для обеспечения хранения цифровых представлений ресурсов и абстрагирования от конкретных методов хранения данных в ЕНИП разработан дополнительный прикладной профиль Расширенной поддержки хранения данных, в котором вводится ряд новых сущностей.
Класс Медиа-объект предназначен для описания медиа-объекта как единого целого, состоящего из частей – данных с различной функциональной нагрузкой. Медиа-объект включает в себя следующие свойства.
Части* – собственно сами части целого медиа-объекта.
Класс Часть медиа-объекта позволяет в пределах одного целого медиа-объекта, например, публикации, иметь несколько частей с различной функциональной нагрузкой, таких как содержание, образы страниц в виде изображений, текст публикации в чисто текстовом формате, отформатированный текст публикации и тому подобное. Свойствами части медиа-объекта являются:
Тип данных – Формат представления данных, хранимых в данной части, например «Документ Microsoft Word» или «Изображение в формате JPEG».
Функциональный тип – Функциональный тип части медиа-объекта, показывающий какую функциональную нагрузку несёт часть, например «содержание», «страница книги».
Потоки данных* - Потоки двоичных данных, связанные с частью медиа-объекта в формате соответствующем типу данных.
Порядок в медиа-объекте – Порядок отображения части в списке частей медиа-объекта.
Название части – отображаемое название части медиа-объекта.
Класс Тип данных представляющий собой элемент классификатора форматов представления двоичных данных. Помимо стандартного для ЕНИП описания классификатора включается дополнительно свойство MIME-тип, связывающее данный классификатор со словарём IMT базового профиля ЕНИП.
Класс Функциональный тип представляющий собой элемент словаря функциональных типов частей медиа-объектов.
Класс Единица, представляющий единый и неделимый поток двоичных данных, позволяет абстрагироваться от конкретных методов хранения данных и позволяет собирать медиа-объекты, состоящие из частей, расположенных в разных местах и хранимых различными способами.
Класс Файл в файловой системе, представляющий собой поток двоичных данных, хранимый в файле на файловой системе локального компьютера. Единственным свойством данного класса является Путь к файлу.
Класс Ссылка, представляющий собой поток двоичных данных, хранимый в виде URL-ссылки на внешний источник. Свойствами класса ссылка являются части URL, такие как:
- схема – вид ресурса (URL scheme);
- имя компьютера – FQDN имя компьютера или его IP адрес;
- номер порта – номер порта для протокола TCP или UDP;
- путь (path) – дополнительная часть URL, назначение которой зависит от схемы.
Класс BLOB запись в БД, представляющий собой поток двоичных данных, хранимый в BLOB поле записи в базе данных. Содержит единственное свойство – Данные.
Принцип использования представленного выше класса Медиа-объект в ЕНИП несколько отличается от общепринятого в электронных библиотеках. Для обеспечения цифровых представлений не только публикаций, но и музейных объектов, а также мультимедийных изображений коллекций, фотографий персон, коллективова, зданий организации и т.п., в класс Ресурс, являющийся суперклассом для всех основных объектов онтологии, вводится свойство:
Медиа-представление* - Медиа-объект (MediaObject).
Таким образом, одно или несколько мультимедийных представлений может сопровождать любой объект информационной Web-системы, наследуемый от Ресурс.
Заключение
В процессе разработки возник ряд вопросов, которые, по-видимому, можно будет решить в процессе первых установок и использования системы, а именно: делать ли единую ЭБ-систему с публикациями и предметами? Или делать административно настраиваемую на публикации или предметы? Или две отдельных (но единых инструментально) системы? При единой системе делать ли совместный поиск и выдачу списка публикаций и предметов?
Оглавление публикации – отдельный объект или медиа-представление (или группа элементов)? Изображения страниц и распознанный текст – два медиа-представления или постараться их объединить? Пытаться ли реализовать распределенность хранения (и вывода) медиа-представлений?
Изучается также вопрос о включении в систему средств реализации распределённого поиска и каталогизации (по OAI-PMH). Однако подобные автономные средства предоставляются в настоящее время многими организациями, и в нашей стране пока еще более актуальны создание и наполнение электронных библиотек, нежели их интеграция.
Литература