Новые технологии в информационном обеспечении науки

УПРАВЛЕНИЕ ЭЛЕКТРОННЫМИ ВЕРСИЯМИ ТЕЗАУРУСОВ

В настоящее время наиболее общим средством описания структуры информации является классификация информационных объектов с помощью таксономий. В частности, таксономия всегда лежит в основе любой онтологии. Однако часто в информационной системе необходимо использовать таксономии, реализованные как хранимые данные, а не как часть онтологии. Например, при тематической классификации ресурсов в научных информационных системах, когда размеры таксономий достигают десятков тысяч понятий, а сам состав понятий может меняться со временем.

Наиболее общей формой таксономии является тезаурус. Для описания какой-либо предметной области всегда используется определенный набор терминов, каждый из которых обозначает или описывает какое-либо понятие или концепцию из данной предметной области. Тезаурус — совокупность терминов, описывающих данную предметную область, с указанием семантических отношений (связей) между ними. Заметим, что кроме классификации других ресурсов, тезаурус может быть создан и использоваться как самостоятельная база знаний, показывая место тех или иных понятий в предметной области (см., например, [2]). В данной работе рассматривается организация терминов определенной предметной области в тезаурусы этих предметных областей для более удобного и полного восприятия пользователями их структуры, а также для последующего индексирования терминами тезаурусов информационных ресурсов.

В работе анализируются существующие стандарты на представление тезаурусов [4, 5]. Эти стандарты представляют тезаурус в виде набора объектов нескольких типов, между которыми может быть несколько типов связей. На основе проведенного анализа, делается выбор стандарта для реализации системы управления тезаурусами.

Для удовлетворения потребностей пользователей при работе с источниками информации, собранной в форме тезаурусов, необходимо создание автономной системы поддержки, поиска, просмотра и редактирования электронных версий тезаурусов, представленных в удобной для этого форме. Создаваемая система должна включать в себя различные компоненты администрирования, поиска, навигации и просмотра создаваемых тезаурусов. Благодаря однотипной структуре тезаурусов, классификаторов и плоских словарей, проектируемое программное средство должно уметь работать с любой из перечисленных структур терминов.

Исходя из сложившейся ситуации в области хранения и использования информационных ресурсов наиболее перспективным на сегодняшний день, с точки зрения построения распределенных приложений в сети, является подход Semantic Web [3] и используемые им технологии. Целью работы явилось создание современной, удовлетворяющей требованиям стандартов построения тезаурусов и технологий Semantic Web cистемы.

Для реализации системы была разработана соответствующая стандартам и требованиям Semantic Web модель данных, включающая в себя классы для реализации плоских словарей, классификаторов и тезаурусов. Классификаторы и плоские словари, очевидно, являются всего лишь частным случаем тезаурусов в том виде, в котором они представлены в стандартах ГОСТ 7.25-2001, ISO 2788-1986, Z39.19-1993.

Реализация рассматриваемой в работе системы разработана в рамках платформы ИСИР [1]. Для приобретения богатой функциональности полноценного веб-приложения ИСИР, мы расширили его объектную схему данных классами своей модели.

Итак, были выделены следующие классы для построения системы:

Так как одной из целей нашей работы была возможность создания тезауруса (пусть и с заранее определенной функциональностью) через пользовательский интерфейс, мы должны предусмотреть это в нашей модели. Все классы словарей, классификаторов и тезаурусов являются наследниками вышеописанных классов. Для создания какой-либо таксономии в нашей системе необходимо наличие соответствующего класса схемы данных. Для их создания через пользовательский интерфейс были реализованы классы “шаблоны”: UniversalThesaurusConcept, UniversalThesaurusTerm, UniversalClassifierConcept, UniversalVocabularyTerm.

Итак, наша реализация тезауруса в информационной системе ИСИР обладает следующими функциональными возможностями и особенностями:

Является расширяемой. То есть допускает детализацию, при необходимости, некоторых связей, а также добавление новых типов связей через интерфейс редактирования плоского словаря этих связей.

Интерфейс просмотра тезаурусов реализован в виде навигации по остовому дереву дескрипторов конкретного тезауруса. Это один из наиболее удобных пользователю способов отображения полииерархической структуры. Вместе с тем, такой способ автоматически позволяет осуществлять полную навигацию по дереву классификатора и по совокупности терминов плоского словаря.