Новые технологии в информационном обеспечении науки

УПРАВЛЕНИЕ ЭЛЕКТРОННЫМИ ВЕРСИЯМИ ТЕЗАУРУСОВ

Онищук А.А.
(МГУ)

В настоящее время наиболее общим средством описания структуры информации является классификация информационных объектов с помощью таксономий. В частности, таксономия всегда лежит в основе любой онтологии. Однако часто в информационной системе необходимо использовать таксономии, реализованные как хранимые данные, а не как часть онтологии. Например, при тематической классификации ресурсов в научных информационных системах, когда размеры таксономий достигают десятков тысяч понятий, а сам состав понятий может меняться со временем.

Наиболее общей формой таксономии является тезаурус. Для описания какой-либо предметной области всегда используется определенный набор терминов, каждый из которых обозначает или описывает какое-либо понятие или концепцию из данной предметной области. Тезаурус — совокупность терминов, описывающих данную предметную область, с указанием семантических отношений (связей) между ними. Заметим, что кроме классификации других ресурсов, тезаурус может быть создан и использоваться как самостоятельная база знаний, показывая место тех или иных понятий в предметной области (см., например, [2]). В данной работе рассматривается организация терминов определенной предметной области в тезаурусы этих предметных областей для более удобного и полного восприятия пользователями их структуры, а также для последующего индексирования терминами тезаурусов информационных ресурсов.

В работе анализируются существующие стандарты на представление тезаурусов [4, 5]. Эти стандарты представляют тезаурус в виде набора объектов нескольких типов, между которыми может быть несколько типов связей. На основе проведенного анализа, делается выбор стандарта для реализации системы управления тезаурусами.

Для удовлетворения потребностей пользователей при работе с источниками информации, собранной в форме тезаурусов, необходимо создание автономной системы поддержки, поиска, просмотра и редактирования электронных версий тезаурусов, представленных в удобной для этого форме. Создаваемая система должна включать в себя различные компоненты администрирования, поиска, навигации и просмотра создаваемых тезаурусов. Благодаря однотипной структуре тезаурусов, классификаторов и плоских словарей, проектируемое программное средство должно уметь работать с любой из перечисленных структур терминов.

Исходя из сложившейся ситуации в области хранения и использования информационных ресурсов наиболее перспективным на сегодняшний день, с точки зрения построения распределенных приложений в сети, является подход Semantic Web [3] и используемые им технологии. Целью работы явилось создание современной, удовлетворяющей требованиям стандартов построения тезаурусов и технологий Semantic Web cистемы.

Для реализации системы была разработана соответствующая стандартам и требованиям Semantic Web модель данных, включающая в себя классы для реализации плоских словарей, классификаторов и тезаурусов. Классификаторы и плоские словари, очевидно, являются всего лишь частным случаем тезаурусов в том виде, в котором они представлены в стандартах ГОСТ 7.25-2001, ISO 2788-1986, Z39.19-1993.

Реализация рассматриваемой в работе системы разработана в рамках платформы ИСИР [1]. Для приобретения богатой функциональности полноценного веб-приложения ИСИР, мы расширили его объектную схему данных классами своей модели.

Итак, были выделены следующие классы для построения системы:

Так как одной из целей нашей работы была возможность создания тезауруса (пусть и с заранее определенной функциональностью) через пользовательский интерфейс, мы должны предусмотреть это в нашей модели. Все классы словарей, классификаторов и тезаурусов являются наследниками вышеописанных классов. Для создания какой-либо таксономии в нашей системе необходимо наличие соответствующего класса схемы данных. Для их создания через пользовательский интерфейс были реализованы классы “шаблоны”: UniversalThesaurusConcept, UniversalThesaurusTerm, UniversalClassifierConcept, UniversalVocabularyTerm.

Итак, наша реализация тезауруса в информационной системе ИСИР обладает следующими функциональными возможностями и особенностями:

  1. Позволяет осуществлять просмотр (навигацию) по тезаурусу, а также атрибутивный поиск терминов по тезаурусу. То есть обеспечивается эффективное выполнение необходимых для этого запросов, а именно:
  1. Позволяет осуществлять администрирование тезауруса, а именно, предоставляет следующие функции администрирования:

Является расширяемой. То есть допускает детализацию, при необходимости, некоторых связей, а также добавление новых типов связей через интерфейс редактирования плоского словаря этих связей.

Интерфейс просмотра тезаурусов реализован в виде навигации по остовому дереву дескрипторов конкретного тезауруса. Это один из наиболее удобных пользователю способов отображения полииерархической структуры. Вместе с тем, такой способ автоматически позволяет осуществлять полную навигацию по дереву классификатора и по совокупности терминов плоского словаря.

Литература

  1. А.Н. Бездушный, А.Б. Жижченко, М.В. Кулагин, В.А. Серебряков Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек // Программирование 26. — № 4. — 2000. — С. 177-185.
  2. А.А. Муромский, Н.П. Тучкова О тезаурусе для предметной области "Обыкновенные дифференциальные уравнения". — ВЦ РАН. — 2004. — ISBN 5-201-09851-0.
  3. Semantic Web project [HTML] (http://www.w3.org/2001/sw/).
  4. ISO2788: Guidelines for establishment and development of monolingual thesauri, 2nd ed., Geneva: ISO1986. [HTML] (http://www.collectionscanada.ca/iso/tc46sc9/standard/2788e.htm).
  5. Описание и использование тезаурусов в информационных системах, подходы и реализация, М.Х. Нгуен, А.С. Аджиев [HTML] (http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2004/part1/NA).