НОВЫЕ ТЕХНОЛОГИИ В ИНФОРМАЦИОННОМ ОБЕСПЕЧЕНИИ НАУКИ

НОВЫЕ ТЕХНОЛОГИИ В ИНФОРМАЦИОННОМ ОБЕСПЕЧЕНИИ НАУКИ

Z39.50 и каталог журналов БЕН РАН

Сегодня в Интернет все больше организаций, в том числе и библиотек всего мира, объединяют свои информационные ресурсы в корпоративные информационные системы на основе протокола Z39.50, который позволяет реализовать одновременный поиск информации в неоднородной компьютерной среде с динамическим подключением различных баз данных, независимо от их структуры и метода доступа. Z39.50 является международным стандартом сетевого протокола прикладного уровня, который первоначально разработан Американским Национальным Институтом Стандартов (ANSI) для поиска в библиографических базах данных и постепенно расширяет свои возможности.

Корпоративные информационные системы на основе протокола Z39.50 впервые появились около десяти лет назад в США и через пять лет - в Западной Европе. Сегодня практически все крупные библиотеки США и Европы обеспечивают корпоративный доступ к своим каталогам и постоянно координируют свою работу по модернизации протокола Z39.50 (http://lcweb.loc.gov/z3950). В последние годы корпоративные системы стали создаваться и в России, например, RusLaNet в Санкт-Петербурге (www.ruslan.ru/z3950) и GeoLibr в Новосибирске (www.uiggm.nsc.ru/z3950). Не так давно к этому процессу подключились и библиотеки Москвы, в том числе и БЕН РАН, разумеется.

Создание корпоративной информационной системы на основе протокола Z39.50 включает в себя установку собственного сервера Z39.50 и подключение к нему собственных (а также внешних) баз данных. Для доступа к этим базам с Web-страниц дополнительно устанавливается шлюз WWW-Z39.50.

Стандарт протокола Z39.50 жёстко регламентирует правила, форматы и семантику запросов и процедур, управляющих обменом сообщениями в технологии клиент-сервер, и гораздо сложнее в реализации по сравнению с протоколом HTTP. Однако сегодня в Сети имеется несколько базовых пакетов программ для построения систем на основе протокола Z39.50, которые реализуют львиную долю его функций, таких как:

открытие и закрытие сеанса связи клиента с сервером,

передача всех необходимых параметров,

кодирование и декодирование передаваемых данных,

их конвертирование в различные форматы.

Из них наиболее популярны два свободно доступных пакета:

пакет Isite компании CNIDR (Center for Networked Information Discovery and Retrieval, www.cnidr.org)
и пакет Zebra/YAZ компании IndexData (www.indexdata.dk).

Оба пакета содержат прототипы Z-сервера, Z-клиента, шлюза WWW-Z39.50 для поиска с Web-страниц, а также некоторые средства для работы с базами данных. Они доступны как в виде уже готовых программ для различных платформ, так и в виде исходных текстов, что позволяет их модифицировать.

Большинство существующих сегодня корпоративных информационных систем реализовано на основе одного из этих двух пакетов. Например, в системе RusLaNet использован пакет Isite(CNIDR), а сервер ZooPARK разработан в Новосибирске на основе пакета Zebra/YAZ.

В корпоративной системе для каждой базы данных необходим свой механизм поиска, выбора и представления информации, реализация которого зависит от структуры базы данных и возможностей конкретного сервера.

Каждая база данных в такой системе должна предоставлять свою информацию в Сеть согласно правилам протокола Z39.50, в которых чётко определены структуры и форматы пересылаемых данных, а каждый элемент представляется в стандартных терминах абстрактной базы данных. Абстрактная база понимается как коллекция записей, содержащих наборы элементов данных, и описывается до однозначного толкования с помощью:

схемы базы данных, определяющей структуру записи и полный набор возможных элементов записи с указанием их типов,

наборов элементов, которые могут быть выданы из записи базы (полный, краткий и т.д.),

форматов представления, в которых эти элементы могут быть выданы,

наборов атрибутов, т.е. элементов поиска.

Поисковые запросы всегда формулируются только в терминах абстрактных наборов атрибутов и формируются из элементов этих наборов по правилам данного стандарта. Такой подход позволяет однозначно отобразить логику запроса независимо от конкретных элементов баз данных.

Основные наборы атрибутов поиска, поддерживаемые протоколом Z39.50:

Bib-1- Bibliographic

GILS - Government Information Locator Service

STAS - Scientific and Technical

DL - Digital Library Collections

CIMI - Museum Collection Information

GEO - Digital Geospatial Metadata

Для выдачи информации стандартом Z39.50 предусмотрен выбор определенных наборов элементов записей, а также форматов их представления, конвертирование в которые реализуется сервером автоматически через схему абстрактной записи.

Все форматы представления стандартизированы и включают в себя:

SUTRS - Simple Unstructured Text Record Syntax

GRS1 - Generic Record Syntax

OPAC - Online Public Access Catalogue

Summary - Bibliographic Summary syntax

MARC formats - USMARC, UNIMARC, UKMARC, CANMARC, RUSMARC

Explain - Server Information syntax

Extended - Extended Services record syntax (HTML, XML, PDF, TIFF, GIF, etc)

Таким образом, для включения в распределённую поисковую систему реальной базы данных необходимо определить соответствие между её элементами и элементами абстрактной базы данных по стандарту Z39.50 и разработать модули взаимодействия с сервером.

Корпоративная информационная система БЕН РАН создана в рамках проекта LibWeb и использует сервер ZooPARK. Сервер ZooPARK передаётся только в виде готовых программ для определённых платформ, поэтому его установка является чисто технической задачей в отличие от задачи реализации доступа к собственным базам данных. Сервер ZooPARK взаимодействует с этими базами данных двумя способами:

через динамически подключаемый программный модуль,

через встроенный сервер Zebra, который является основой сервера ZooPARK.

В составе данного сервера Zebra может работать с данными трёх типов:

файлы записей в каноническом формате GRS (General Record Syntax) с синтаксисом SGML, например:


<Distributor>

<Name> USGS/WRD </Name>

<Organization> USGS/WRD </Organization>

<City> ALBUQUERQUE </City>

<Country> USA </Country>

<Telephone> (505) 766-5560 </Telephone>

</Distributor>

файлы записей в формате ISO 2709 MARC,

произвольные текстовые файлы записей, подключаемые через входные фильтры.

Каталоги книг и журналов БЕН РАН формируются и представляются в Сети раздельно, т.к. их базы данных сильно отличаются по своему составу, структуре, и технологии поиска. Базы данных журналов, в отличие от баз данных книг, гораздо меньше стандартизированы, сильно структурированы, имеют меньше поисковых элементов и содержат большое количество дополнительной информации о выпусках журналов. Такую дополнительную информацию удобнее всего представлять в Сети в виде статических либо динамических HTML-страниц.

По технологии создания и обновления в Сети каталога журналов БЕН РАН информация из базы данных журналов конвертируется в текстовые файлы. Такие файлы удобно обрабатывать входным фильтром сервера Zebra, поэтому этот метод и был выбран при разработке способа включения каталога журналов БЕН РАН в корпоративную информационную систему.

Реализация этого метода включает в себя:

настройку файлов-таблиц сервера Zebra,

разработку программы конвертирования данных из родного формата в текстовые файлы для входного фильтра сервера Zebra,

разработку самого входного фильтра.

Входные фильтры сервера Zebra представляют собой ASCII-файлы с наборами правил, использующих элементы RegX (Regular Expressions). Эти правила определяют соответствие между элементами реальной и абстрактной баз данных. Кроме того, они позволяют "на лету" включать в сами записи ссылки на связанные с ними HTML-страницы.

Сервер Zebra подключает фильтры при индексации, поиске и выдаче информации из текстовых файлов. Кроме этого, он индексирует служебную базу данных IR-Explain-1, которая, согласно последней версии стандарта Z39.50, может хранить информацию о сервере, базах данных, атрибутах, форматах и т.д. и позволяет клиентам дополнительно настраиваться на конфигурацию Z-сервера.

В корпоративной системе БЕН РАН эта служебная база предоставляет информацию о версии сервера ZooPARK и базах данных БЕН РАН.

Разработанные программы - входной фильтр для сервера Zebra и конвертер информации, вместе с корректировкой настроечных файлов сервера, обеспечили включение в корпоративную поисковую систему каталога журналов БЕН РАН с автоматической поддержкой всех функций и форматов стандарта Z39.50, реализуемых встроенным в ZooPARK сервером Zebra.

Особо необходимо отметить, что данный метод позволил объединить в корпоративной поисковой системе преимущества двух сетевых протоколов Z39.50 и HTTP - быстрый поиск и удобное представление информации.