Новые технологии в информационном обеспечении науки

Единое научное информационное пространство

Единое научное информационное пространство представляет собой проект, направленный на объединение научной информации, опубликованной институтами и подразделениями РАН. Цель проекта — предоставить пользователям возможность доступа к объединённому, цельному представлению данных, расположенных в различных информационных системах организаций РАН, как правило, доступных в сети Интернет. Следует подчеркнуть, что объединение предполагается виртуальное, то есть не предполагает создания некоторого единого хранилища для данных — при весьма больших объемах информации такой подход был бы неэффективен как в плане требуемых вычислительных ресурсов, так и с точки зрения поддержки информации в актуальном состоянии. Вместо этого, в рамках инициативы ЕНИП предлагается набор стандартов для описания информационных ресурсов и набор протоколов, с помощью которых осуществляется взаимодействие между участниками ЕНИП. Это позволяет создать “надстройку” над уже сложившейся инфраструктурой, которая позволит, прежде всего, выполнять поиск научной информации унифицированным образом.

В настоящее время практически каждая организация РАН представлена в сети Интернет собственным веб-сайтом, на которых, в большинстве случаев, опубликована контактная информация, данные о сотрудниках и результатах их научной деятельности, структура и состав подразделений. Принятый в Интернет способ представления данной информации с помощью языка разметки HTML не позволяет поисковым машинам “понимать”, о чём идёт речь, для них доступен только текст. В результате качество поиска и его возможности оставляют желать лучшего. Например, мы не можем ограничить поиск только публикациями, или получить список персон, получивших учёную степень по какой-либо специальности в указанный период времени. Данная проблема характерна для всей сети Интернет в целом, и для её решения была создана инициатива “Semantic Web” [1], которая, в частности, предлагает стандарты для описания информационных ресурсов, пригодные для автоматической компьютерной обработки. Вместе с обычной текстовой информацией, предназначенной для посетителей веб-сайтов, его редакторы могут опубликовать описание в специальном формате, в результате чего поисковые системы получат информацию о структуре и связях представленных на сайте ресурсов.

На ЕНИП можно смотреть как на реализацию этого подхода в масштабах РАН. Поскольку Semantic Web описывает лишь технологии, остаётся свобода выбора в том, как их применять. Поэтому для ЕНИП предлагается набор стандартов описания научных информационных ресурсов и ряд протоколов, с помощью которых происходит взаимодействие между серверами.

Для описания ресурсов применяется модель данных RDF, предложенная в Semantic Web. Ресурсы описываются в соответствии с разработанными схемами данных, которые определяют такие понятия, как классы ресурсов, их свойства и связи. Там, где возможно, предлагаемые схемы данных используют популярные международные форматы, в частности, Dublin Core [2], Prism [3], vCard [4]. Не требуется, чтобы информационный ресурс был описан полностью, но, в то же время, описание должно быть достаточно удобным для пользователей системы, то есть в нём должны присутствовать свойства, по которым пользователь сможет эту информацию найти. Например, пользователь может выполнить поиск интересующей его персоны по фамилии и научной степени, перейти на сайт ресурса, на котором эта персона представлена, и получить о ней достаточно подробную информацию, в том числе, не представленную в исходном описании.

Протоколы взаимодействия являются достаточно простыми в использовании и следуют архитектуре веб-сервисов, наиболее хорошо зарекомендовавшей себя для работы в Интернет. Они основаны на идеях, предложенных в таких стандартах, как CIP и SDLIP, и представляют собой упрощение и адаптацию этих протоколов к стандартам WSA.

Структура ЕНИП/P>

На рисунке 1 представлены типы узлов ЕНИП и способы их взаимодействия на текущий момент. Можно выделить следующих участников:

В настоящее время большинство узлов ЕНИП построено на информационной системе “Научный институт РАН” [6] — типовом решении, позволяющем публиковать научную информацию какой-либо организации, в последнюю версию которого встроена поддержка протоколов взаимодействия ЕНИП. В частности, на этом решении работают серверы Пермского научного центра, Института механики сплошных сред, Санкт-Петербургского научного центра. В то же время подключены и информационные системы, построенные на других технологиях, например, данные Библиотеки по естественным наукам РАН и Научно-образовательная социальная сеть “Соционет”.

По мере развития системы будут добавляться новые серверы верхнего уровня, которые обеспечивают маршрутизацию запросов, например, по географическому принципу. Также в ближайшее время планируется подключение службы хостинга, которая позволит публиковать данные организациям, не имеющим своей информационной системы.