Информационное обеспечение науки. Новые технологии

Федеративные коллекции научных данных в грид-среде

Жучков А.В. (Телекоммуникационный центр “Наука и общество”)
Твердохлебов Н.В (Институт химической физики им. Н.Н Семенова РАН)

Введение

Тотальная компьютеризация революционизировала процесс получения данных во многих науках. В некоторых дисциплинах (биотехнологии, химия полимеров и др.) этот процесс поставлен на промышленную основу. Скорость поступления новых данных стала критической не только для их детального анализа, но даже и просто для полноценного их обзора в разумное время. Результаты научных исследований не ждут годами публикаций в “толстых журналах”, а появляются в Web-пространстве практически сразу по завершении работы. Сложившаяся ситуация требует создания новых информационных технологий, сочетающих в себе возможности высокопроизводительной обработки данных и организации распределенно хранящихся информационных массивов.

“Глобализация” наиболее ярко проявляется в сфере информационных технологий. Сегодняшний уровень коммуникаций позволяет географически удаленным исследователям совместно работать над общими научными, техническими, гуманитарными и иными проектами в рамках “виртуальных организаций” (ВО) [1]. В связи с этим новые информационные технологии должны предоставить возможность оперирования распределенными вычислительными и информационными ресурсами ВО с обеспечением адекватного уровня информационной безопасности и учета взаимного использования информационно-вычислительных и коммуникационных ресурсов.

Принято считать, что наиболее перспективны исследования, проводящиеся на стыке разных наук. Однако, в условиях сильнейшей специализации и накопления огромных объемов предметно-ориентированной информации становится все труднее обеспечить взаимопонимание исследователей из разных предметных областей. Они не только буквально говорят на разных языках, но и стандарты хранения и представления информации в их предметных областях столь разнятся, что зачастую просто несовместимы. В связи с этим одной из ключевых задач сегодняшнего дня информационных технологий является разработка стандартов и таких функциональностей интегрирующей операциональной среды, которые позволят исследователям – участникам ВО совместно использовать разнородные распределенных коллекции данных.

Наиболее распространенными видами коллекций научной информации сегодня являются базы данных (БД) и электронные библиотеки (ЭБ). В рамках этих коллекций накапливаются как данные экспериментов и результаты их обработки, так и различные текстовые, графические и иные документы - научные отчеты, описания экспериментов, а также персональные библиографические подборки, являющиеся неотъемлимой частью результатов научных исследований.

В настоящее время интенсивно обсуждается вопрос, какая форма представления и организации данных является наиболее адекватной современным требованиям исследователей. Существует традиционный подход, основанный на использовании в новом, цифровом окружении традиционных библиотечных технологий. Основной чертой этих технологий является использование в качестве единицы хранения документа как неделимого объекта (атома). Такой вариант хранения позволяет достаточно быстро перевести в ЭБ информацию, хранящуюся сейчас на бумажных носителях. Однако, использование таких крупных атомов, даже при создании развернутых метаданных, не позволяет эффективно использовать хранимую информацию в научных коллекциях данных ВО.

На наш взгляд, наиболее перспективным является подход, в котором ЭБ (Digital Library) представляются как распределенные хранилища разнородных данных, “упакованных” в самые различные информационные объекты – тексты, таблицы, изображения, двоичные данные, аудио- и видеозаписи и пр. [2]. Такая концепция хранения вместе с использованием семантических связей предоставляет возможность гибко выстраивать над общим полем распределенных разнородных данных персонализированные тематические коллекции, которые будучи федеративно-администрируемыми, составляют целостное информационное пространство.

Для реализации описанного подхода наилучшим образом подходит технология грид, в рамках которой к настоящему времени имеется достаточно развитое базовое программное обеспечение промежуточного уровня (middleware), разработанное альянсом крупнейших американских университетов и распространяемое в открытом коде - Globus Toolkit [3]. Это программное обеспечение является стандартом де-факто и используется в крупнейших международных проектах, таких как European DataGrid, GridAlliance и других. Globus Toolkit является также основой операциональной среды, разрабатываемой для интеграции электронных информационных ресурсов в проекте “Библиогрид”, реализуемом совместно Телекоммуникационным центром “Наука и общество” (ЮМОС), РГБ, ГИВЦ Роскультуры и рядом университетских библиотек [4].

“Библиогрид” - технологическая интеграционная среда для разнородных, распределенных, федеративно-администрируемых электронных библиотек

Участие авторов в проектах, посвященных созданию грид-сетей (EU DataGrid, RGrid), и одновременно в крупномасштабных проектах по информационному обеспечению научных исследований [5] позволило сформулировать наше видение основных задач, которые должны быть решены при создании интеграционной грид-среды для разнородных, распределенных, федеративно-администрируемых элетронных библиотек. Перечень таких задач включает:

  • обеспечение интероперабельности в среде разнородных распределенных информационно-вычислительных ресурсов;

  • обеспечение технологического единства с информационными пространствами наиболее крупных проектов, в том числе международных, с целью возможности взаимодействия с ресурсами этих проектов;

  • обеспечение информационной безопасности при работе в публичных сетях;

  • реализация семантической интеграции и семантически обусловленного поиска информации в гетерогенных информационных ресурсах (базах данных, Web-сайтах и др.);

  • разработка и реализация расширяемого множества грид-сервисов для ЭБ.

Важными задачами проекта “Библиогрид” являются демонстрация возможностей интеграции в грид-пространстве разнородных информационных объектов (ИО) науки и культуры, стимулирование формирования стандартов метаданных для ИО в этих областях, вовлечение учреждений науки и культуры в процесс создания тематических ВО и формирования требований пользовательского сообщества к функциональности интегрирующей грид-среды.

Целью проекта “Библиогрид” является разработка и реализация информационно-вычислительных ресурсов, сервисов и технологий, позволяющих пользователям, входящим в формально оформленные виртуальные организации, манипулировать с информационными объектами (ИО) посредством набора грид-сервисов (служб). При этом мы понимаем ВО, как динамическое объединение пользователей, ресурсов и служб, в котором однозначно определены политики безопасности и доступа ко всем видам ресурсов. Доступ к любым ресурсам только через участие в соответствующей ВО является принципиальным требованием в грид-сегментах и обусловлен технологией функционирования системы безопасности. Пользователь, становясь участником какой-либо ВО, получает соответствующий сертификат доверия от сертификационного центра, которому, в свою очередь, доверяют все владельцы ресурсов данной ВО. Сертификационный центр не только выдает, но и отзывает сертификаты, построенные на базе асимметричной криптографии, поддерживает репозитории для действующих сертификатов, а также формирует списки отозванных сертификатов. При этом пользователь может одновременно быть участником разных ВО, а множества ресурсов различных ВО могут перекрываться. Все вопросы аутентификации, авторизации и учета использования ресурсов берут на себя службы грид-среды.

Ключевыми элементами концепции построения “Библиогрид” являются информационные объекты (ИО) и сервисы. Любой ИО в “Библиогрид” служит для агрегирования данных, метаданных и сюжетов (наборов сервисов). В качестве ИО могут выступать, например, записи в базе данных электронных библиотек диссертаций, базе данных читателей библиотек, базе данных классификаторов (УДК, ББК и пр.), базе данных статей научных журналов и т.д. Каждому ИО должно сопоставляться метаописание в формате, являющимся расширением формата METS, и каждое метаописание представляется в виде XML-файлов. Разрабатываемая структура обобщенного ИО должна обеспечить гибкость и расширяемость.

Для согласованного использования в рамках ВО наработанного множества ИО, в том числе и метаописаний, используется механизм репозитория, который обеспечивает их хранение и использование на основе разделения (обобществления) и согласованного использования информационно-вычислительных ресурсов ВО, включая объединение в коллекции, авторские подборки, резервное копирование и другие функции. Важно подчеркнуть, что при этом сам репозитарий реализуется на основе распределённых и федеративно-администрируемых ресурсов. Технология грид и middleware Globus Toolkit предусматривают достаточно высокую степень виртуализации ресурсов и это позволяет использовать для создания и расширения репозитория практически любые доступные ресурсы грид-сегмента.

Взаимодействие пользователей ВО с репозиторием осуществляется посредством набора сервисов (служб), обеспечивающих управление репозиторием в целом и доступ к ИО и коллекциям. Под сервисом понимается компонент грид-среды – один из элементов программного обеспечения промежуточного уровня, обеспечивающий заданную функциональность. Сервисы доступны пользователям ВО по сети в соответствии с их сертификатами и реализуют один или несколько интерфейсов, каждый из которых определяет набор операций, активизируемых путем обмена определенной последовательностью сообщений. Сервис стандартным образом описывается на некотором расширении языка WSDL [6], разрабатываемом консорциумом W3C. Экземпляры сервисов (instance) могут создаваться и ликвидироваться динамически.

Сервисы характеризуются функциональностями, которые они реализуют. Целесообразно разделять их на системные и прикладные. Системные сервисы могут включаться в состав разнообразных сложных сервисов высокого уровня. Набор системных сервисов изменяется от версии к версии, однако базовыми являются следующие:

С помощью сервисов осуществляется взаимодействие не только с репозиторием метаописаний, но и между всеми ресурсами (и сервисами) грид-сети. Это требует разработки согласованных протоколов взаимодействия и форматов информационного обмена, что и происходит в настоящее время в грид-сообществе. Ситуация двигается в сторону создания набора унифицированных интерфейсов и протоколов взаимодействия системных элементов и ресурсов грид-среды, совокупность которых образует ключевой интегрирующий слой грид-сегмента, который можно назвать “общей шиной грид” [8].

Проект “Библиогрид” предусматривает разработку и реализацию на базе системных сервисов необходимого для пользователей набора высокоуровневых сервисов - доступа к репозиторию метаописаний, формирования и представления ИО, вычислительных процедур обработки данных, администрирования и других.

Программно-аппаратная основа проекта “Библиогрид”

Разработка и исследование системных и прикладных сервисов потребовала создания исследовательского прототипа грид-сегмента. Этот прототип построен на основе распределённых гетерогенных ресурсов Южной Московской Опорной Сети (ЮМОС) [9], а входящие в “Библиогрид” ВО предоставляют также свои вычислительные ресурсы, емкости хранения и некоторые иные ресурсы, представляющие интерес в рамках проекта (базы данных общего пользования, доступ к компьютеризированным приборам и т.п.). В рамках данного проекта ЮМОС, помимо телекоммуникационной поддержки, выступает в качестве провайдера базового middleware, то есть отвечает за администрирование системных грид-служб, а также предоставляет свой сертификационный центр (СА) и поддерживает LDAP-сервер для хранения всей служебной информации участвующих в проекте ВО. Повышенное внимание к системе безопасности связано, прежде всего, с тем, что грид-сегменты не являются традиционными клиент-серверными системами. В них участники ВО могут получить полный доступ к имеющимся ресурсам сегмента, и только использование инфраструктуры отрытых ключей PKI (Public Key Infrastructure), представляющей собой интегрированный набор криптографических служб и инструментов, встроенных в middleware, повышает безопасность работы в грид-среде до приемлемого уровня. Это особенно необходимо, так как одной из ВО, использующих инфраструктуру “Библиогрид”, является коллаборация медико-биологических проектов по разработке вакцин и диагностических систем, а эта область традиционно очень чувствительна к вопросам конфиденциальности информации.

Инфраструктура безопасности проекта предназначена для создания и развертывания приложений, применяющих шифрование с открытым ключом (класс криптографических методов, использующих двуключевые шифры), а также для управления ими. С помощью технологии PKI пользователь генерирует пару ключей (private key и public key), сохраняет их на ключевом носителе, формирует запрос на сертификат в электронном виде и отправляет его в СА. При работе используются сертификаты стандарта X.509. В качестве ПО промежуточного уровня применено ПО Globus Toolkit версии 3.2. В процессе разработки проекта версии Globus несколько раз модифицировались до версии 4.0, однако принципиальных сложностей с заменой не наблюдалось. В качестве основного решения, определяющего политику безопасности, было использовано базовое грид-решение, основанное на использовании Community Authorization Service (CAS).

Репозиторий метаданных формата METS был реализован с использованием свободно распространяемого программного обеспечения Fedora [10]. Данное ПО уже достаточно хорошо себя зарекомендовало в качестве репозитория в ряде библиотек. Удачным примером может служить национальная библиотека Эстонии. Однако требованиям проекта “Библиогрид” ПО Fedora удовлетворяет не в полной мере. Так, в частности, оно не представляет распределённого хранилища, тем более - виртуально организованного. Все указатели на контент (на ИО) задаются в явном виде. В связи с этим в последующих реализациях нашего грид-сегмента планируется создать этот компонент среды, а также сервис доступа к распределённому хранилищу XML-метаданных на основе сервисов, встроенных в грид-платформу.

В состав распределённого репозитория вошли структурированные БД МНТП “Вакцины нового поколения и медицинские диагностические системы будущего”, коллекции диссертаций РГБ и ряд других информационных массивов. Основные затраты ресурсов при этом были связаны с наполнением репозитория метаданных. Значительную сложность представляло составление метаописаний по-разному структурированных и весьма объемных источников данных. По сути, для каждой коллекции приходилось создавать ad hoc небольшое ПО, автоматизирующее этот процесс.

В качестве интерфейсной части использовалось ПО “Gazelle”, ранее разработанное в рамках проектов по информационному обеспечению медико-биологических исследований. Это ПО позволяет применять, помимо рубрикаторов, классификаторов и словарного поиска, механизмы онтологий для семантической интеграции источников информации [11]. “Gazelle” является достаточно интеллектуальным приложением - оно поддерживает средства создания онтологий, их редактирования, многоязыковой поддержки и другие возможности работы с онтологиями, а также возможности привязки различных структурных компонентов данных, представленных в распределённых коллекциях, к концептам онтологических структур. Однако и сами онтологии, являясь отражением взгляда конкретного учёного или группы экспертов на часть понятийного пространства, должны являться элементом контента распределённой ЭБ. На последующих этапах проекта “Библиогрид” предполагается разработать технологию и сервисы хранения авторских онтологий участников ВО в репозитории ИО.

Как уже отмечалось выше, основной целью проекта является создание в грид-среде специализированных сервисов для работы с ЭБ. Для этого в middleware Globus существуют три варианта:

Все эти варианты использовались в процессе создания и исследования прототипа. Однако, в конечном итоге, если не рассматривать в качестве конечной задачи расширение грид как среды программирования, необходимую пользователям функциональность для создания ЭБ реализовывали именно специализированные высокоуровневые сервисы с использованием архитектуры OGSA на базе существующего в middleware инструментария (контейнеры, сервисы безопасности мониторинга и т. п.). В качестве языка запросов на данном этапе применялся язык SQL. При дальнейших исследованиях планируется применять уже используемые в грид-приложениях реализации языков Xquery и ОQL. Некоторые, представляющие для нас большой интерес, высокоуровневые интеграционные сервисы, например, The Grid Distributed Query Service (GDQS), поддерживающий OQL в качестве сквозного языка запросов, разрабатываются в рамках ряда европейских проектов.

Электронные научные коллекции МНТП “Вакцины нового поколения и медицинские диагностические системы будущего” в среде “Библиогрид”.

Межведомственная научно-техническая программа (МНТП) “Вакцины нового поколения и диагностические системы будущего”, объединяющая более 90 организаций, с 1999 года реализует совокупность проектов по разработке новых иммунологических препаратов. Для информационного обеспечения этих проектов в рамках программы на базе ЮМОС были созданы корпоративная сеть и специализированная информационная система, объединяющая различные информационные ресурсы, в том числе создаваемые в ходе медико-биологических исследований, включая различные базы данных и электронные библиотеки. Одной из самых трудоемких задач при этом стало формирование метаописаний слабоформализованных информационных ресурсов проектов МНТП, без которых процедуры поиска в большом объеме слабоструктурированной информации оказались малоэффективны. Вследствие большого объема информационных ресурсов (авторских коллекций данных) для выполнения этой задачи за разумное время пришлось создавать набор узкоспециализированных программных средств для автоматизированного анализа текстов научных отчетов и содержимого разнообразных авторских баз данных. Такая ситуация, как мы полагаем, повсеместна, и это явилось причиной появления концепции использования в грид-среде для поддержки научных исследований специализированного информационного объекта – типового шаблона научного отчета [2]. Научный отчет является основной формой представления результатов исследований, и его обобщенная структура аналогична структуре научной статьи или доклада. В состав этого, базового для научных исследований, информационного объекта необходимо включить такие элементы (сами являющиеся ИО), как фиксированные и динамические текстовые блоки, рисунки, графики, таблицы и т.п. Достаточная номенклатура таких ИО является еще предметом исследований и, очевидно, средства грид-среды должны обеспечить ее расширяемость. Использование такого подхода позволяет решить одну из самых трудных задач - автоматизировать генерацию метаописаний столь нестандартных ИО, как научные отчеты и публикации. Формализация структуры ИО и свойств его элементов позволяют создать, в худшем случае, настраиваемое ПО, которое позволит автоматизированно анализировать документ, составлять его метаописание на языке XML (что обеспечит возможность гибкого и расширяемого описания структур) и размещать его в репозитории метаданных на одном из доступных ресурсов распределенной грид-сети. Более того, как мы полагаем, такое построение ИО позволит применить в дальнейшем технологию мультиагентных систем для анализа метаописаний в репозиториях и автоматизированного построения тематических онтологий, описывающих модели соответствующей предметной области. Как показал опыт, построение и использование таких онтологий обеспечивает исследователям эффективную ориентацию в больших массивах разнородной информации, семантическую интеграцию разнородных ИО и семантически обусловленный поиск в грид-пространстве, а сами онтологии предметной области, как ИО, оказываются не только эффективным инструментом, но и существенным научным результатом [12].

Указанные возможности имеют также большое значение при работе со значительными по объему массивами научных данных, получаемых в результате массированного использования компьютеризированного научного оборудования. Примером может служить используемый при протеомных исследованиях в рамках МНТП масспектрометр Finnigan LTQ FT, который формирует результаты структурного анализа ферментов со скоростью до нескольких мегабайт в секунду. Аналогичная ситуация имеет место при компьютерном моделировании в задачах большой размерности (химии высокомолекулярных соединений, физико-химии быстротекущих процессов, геофизике, экономике и т.д.) на высокопроизводительных вычислительных ресурсах – суперкомпьютерах, кластерах и вычислительных фермах. Включение такого рода ресурсов (компьютеризированных приборов и соответствующих информационных ресурсов) в грид-среду позволит решить сразу несколько задач:

  • безопасный удаленный доступ к высокопроизводительным приборам и свободным вычислительным фермам через механизм грид-сертификатов;

  • размещение огромных объемов научных данных на распределенных ресурсах грид-сегмента без потери целостности коллекции;

  • возможность эффективной ориентации в пространстве распределенных данных и семантический поиск информации по разнородным распределенным коллекциям данных;

  • возможность самоорганизации элементов информационного пространства за счет обеспеченного сертификатами ВО взаимодействия мультиагентных грид-сервисов, анализирующих репозитории метаописаний и выстраивающих по заданным критериям тематические онтологии.

Приведённые примеры показывают эффективность использования ЭБ участниками научных ВО, которые получают возможность работать с разнородными распределёнными данными непосредственно в среде, ориентированной на высокопроизводительные вычисления, увязывая информацию из ЭБ (авторских коллекций данных) с различными исследованиями, в том числе исследованиями in silico.

Заключение

Предлагаемый подход, основанный на применении современных грид-технологий, позволяет уже сегодня осуществлять практические шаги по построению ЭБ как объединения федеративных распределенных коллекций. Среда грид, в особенности использованная OGSA архитектура, является удобной платформой развития подобных ЭБ, прежде всего для создания ЭБ больших распределённых корпоративных проектов, в том числе, и научных, со сложившийся или очевидной структурой ВО. Она представляет прекрасный полигон для выбора и создания информационных сервисов, включая работающие в БД и коллекциях, не имеющих публичного доступа.

Реализация конкретных проектов требует большой работы по формированию метоописаний данных. Однако, по всей видимости, это неизбежный процесс. ВО должна обладать возможностями и пониманием необходимости проведения такой работы. Развитая система репозиториев метаописаний ИО переводит взаимодействие с ЭБ на совершенно новый уровень и позволяет осуществлять семантическую интеграцию коллекций, выстраивая связи между ИО любого уровня.

Работы в рамках данного проекта можно рассматривать и как создание и развитие среды программирования для создания ЭБ. Действительно, все службы и компоненты middleware доступны из JAVA-среды, а следовательно, все вновь созданные сервисы или функциональные дополнения базовых сервисов представляют собой новые дополнительные объекты в библиотеках Runtime-среды. Конечно, необходимость использования только JAVA для такого программирования можно воспринимать как достаточно жёсткое ограничение, однако оно связано с реализацией концепции OGSA-DAI и обеспечивает полноценную мультиплатформенность разработанных грид-сервисов.

Важно заметить, что целью данного этапа проекта не являлось продемонстрировать эффективность подхода, тем более её оценивать количественно в сравнении со скажем привычным клиент-серверным подходом к построению ЭБ. Цель заключается в том, чтобы показать принципиальную возможность создания ЭБ в грид-среде. Некоторые преимущества такого подхода очевидны:

Участники проекта “Библиогрид” рассчитывают на то, что используемый в проекте подход будет востребован при построении корпоративных информационных систем или крупных информационных проектов. Исследовательская компонента концепции предполагает активное сотрудничество с любыми заинтересованными субъектами и дает возможность на равных условиях участвовать в текущих и будущих международных проектах.

Литература

1. Bleecker S.E. The Virtual Organization // Futurist, 00163317, Mar/Apr94, Vol. 28, Issue 2, pp. 9-14.

2. Castelli D. DILIGENT: A Digital Library Infrastructure for Supporting Joint Research // In Proc. of IEEE Conf.: Local to Global Data Interoperability – Challenges and Technologies. June 20-24, 2005. Italy. pp. 56-59.

3. Ferreira L., Berstis V., Armstrong J. et al. Introduction to Grid Computing with Globus. IBM, 2002.

4. Жучков А.В. Проект "БиблиоГрид" и его технологические особенности // Труды Международной конференции "Электронный век культуры" / Сочи. 6-10 сентября 2004 г. - М.: РГБ, 2004.

5 Жучков А.В., Голицын С.В., Твердохлебов Н.В., Яновский А. К. Создание и развитие информационных ресурсов корпоративной сети МНТП "Вакцины нового поколения и медицинские диагностические системы будущего" // Аллергия, астма и клиническая иммунология. – 2003. - №9.- С. 216-218.

6. http://www.w3.org/TR/wsdl .

7. http://www.ogsadai.org/ .

8. Kerr A. How Do We Manage the Data of the Future? // In Proc. of IEEE Conf.: Local to Global Data Interoperability–Challenges and Technologies. June 20-24, 2005. Italy. pp.1-2.

9. Жучков А.В. ЮМОС - новые возможности старой сети // Материалы конф. “Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса”. - М.: ГПНТБ России, 2004. - ISBN 5-85638-091-6.

10. The Flexible Extensible Digital Object and Repository Architecture (Fedora). http://www.fedora.info/ .

11. Жучков А.В. и др. Интеграция и поиск информации в гетерогенных динамических информационных массивах с помощью онтологий. // Труды 6-й Всеросс. науч. конф. “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” - RCDL 2004. Пущино, 29 сентября - 1 октября 2004 г., сc.82-85.

12. Joutchkov A., et al. Grid-Based Onto-Technologies Provide an Effective Instrument for Biomedical Research // From Grid to HealthGrid. Studies in Health Technology and Informatics. Edited by Solomonides T. London: IOS Press, 2005, pp. 37-46.