Z39.50 и каталог журналов БЕН РАН
Сегодня в Интернет все больше организаций, в том числе и библиотек всего мира, объединяют свои информационные ресурсы в корпоративные информационные системы на основе протокола Z39.50, который позволяет реализовать одновременный поиск информации в неоднородной компьютерной среде с динамическим подключением различных баз данных, независимо от их структуры и метода доступа. Z39.50 является международным стандартом сетевого протокола прикладного уровня, который первоначально разработан Американским Национальным Институтом Стандартов (ANSI) для поиска в библиографических базах данных и постепенно расширяет свои возможности.
Корпоративные информационные системы на основе протокола Z39.50 впервые появились около десяти лет назад в США и через пять лет - в Западной Европе. Сегодня практически все крупные библиотеки США и Европы обеспечивают корпоративный доступ к своим каталогам и постоянно координируют свою работу по модернизации протокола Z39.50 (http://lcweb.loc.gov/z3950). В последние годы корпоративные системы стали создаваться и в России, например, RusLaNet в Санкт-Петербурге (www.ruslan.ru/z3950) и GeoLibr в Новосибирске (www.uiggm.nsc.ru/z3950). Не так давно к этому процессу подключились и библиотеки Москвы, в том числе и БЕН РАН, разумеется.
Создание корпоративной информационной системы на основе протокола Z39.50 включает в себя установку собственного сервера Z39.50 и подключение к нему собственных (а также внешних) баз данных. Для доступа к этим базам с Web-страниц дополнительно устанавливается шлюз WWW-Z39.50.
Стандарт протокола Z39.50 жёстко регламентирует правила, форматы и семантику запросов и процедур, управляющих обменом сообщениями в технологии клиент-сервер, и гораздо сложнее в реализации по сравнению с протоколом HTTP. Однако сегодня в Сети имеется несколько базовых пакетов программ для построения систем на основе протокола Z39.50, которые реализуют львиную долю его функций, таких как:
Из них наиболее популярны два свободно доступных пакета:
Оба пакета содержат прототипы Z-сервера, Z-клиента, шлюза WWW-Z39.50 для поиска с Web-страниц, а также некоторые средства для работы с базами данных. Они доступны как в виде уже готовых программ для различных платформ, так и в виде исходных текстов, что позволяет их модифицировать.
Большинство существующих сегодня корпоративных информационных систем реализовано на основе одного из этих двух пакетов. Например, в системе RusLaNet использован пакет Isite(CNIDR), а сервер ZooPARK разработан в Новосибирске на основе пакета Zebra/YAZ.
В корпоративной системе для каждой базы данных необходим свой механизм поиска, выбора и представления информации, реализация которого зависит от структуры базы данных и возможностей конкретного сервера.
Каждая база данных в такой системе должна предоставлять свою информацию в Сеть согласно правилам протокола Z39.50, в которых чётко определены структуры и форматы пересылаемых данных, а каждый элемент представляется в стандартных терминах абстрактной базы данных. Абстрактная база понимается как коллекция записей, содержащих наборы элементов данных, и описывается до однозначного толкования с помощью:
Поисковые запросы всегда формулируются только в терминах абстрактных наборов атрибутов и формируются из элементов этих наборов по правилам данного стандарта. Такой подход позволяет однозначно отобразить логику запроса независимо от конкретных элементов баз данных.
Основные наборы атрибутов поиска, поддерживаемые протоколом Z39.50:
Bib-1- Bibliographic
GILS - Government Information Locator Service
STAS - Scientific and Technical
DL - Digital Library Collections
CIMI - Museum Collection Information
GEO - Digital Geospatial Metadata
Для выдачи информации стандартом Z39.50 предусмотрен выбор определенных наборов элементов записей, а также форматов их представления, конвертирование в которые реализуется сервером автоматически через схему абстрактной записи.
Все форматы представления стандартизированы и включают в себя:
SUTRS - Simple Unstructured Text Record Syntax
GRS1 - Generic Record Syntax
OPAC - Online Public Access Catalogue
Summary - Bibliographic Summary syntax
MARC formats - USMARC, UNIMARC, UKMARC, CANMARC, RUSMARC
Explain - Server Information syntax
Extended - Extended Services record syntax (HTML, XML, PDF, TIFF, GIF, etc)
Таким образом, для включения в распределённую поисковую систему реальной базы данных необходимо определить соответствие между её элементами и элементами абстрактной базы данных по стандарту Z39.50 и разработать модули взаимодействия с сервером.
Корпоративная информационная система БЕН РАН создана в рамках проекта LibWeb и использует сервер ZooPARK. Сервер ZooPARK передаётся только в виде готовых программ для определённых платформ, поэтому его установка является чисто технической задачей в отличие от задачи реализации доступа к собственным базам данных. Сервер ZooPARK взаимодействует с этими базами данных двумя способами:
В составе данного сервера Zebra может работать с данными трёх типов:
<Distributor>
<Name> USGS/WRD </Name>
<Organization> USGS/WRD </Organization>
<City> ALBUQUERQUE </City>
<Country> USA </Country>
<Telephone> (505) 766-5560 </Telephone>
</Distributor>
Каталоги книг и журналов БЕН РАН формируются и представляются в Сети раздельно, т.к. их базы данных сильно отличаются по своему составу, структуре, и технологии поиска. Базы данных журналов, в отличие от баз данных книг, гораздо меньше стандартизированы, сильно структурированы, имеют меньше поисковых элементов и содержат большое количество дополнительной информации о выпусках журналов. Такую дополнительную информацию удобнее всего представлять в Сети в виде статических либо динамических HTML-страниц.
По технологии создания и обновления в Сети каталога журналов БЕН РАН информация из базы данных журналов конвертируется в текстовые файлы. Такие файлы удобно обрабатывать входным фильтром сервера Zebra, поэтому этот метод и был выбран при разработке способа включения каталога журналов БЕН РАН в корпоративную информационную систему.
Реализация этого метода включает в себя:
Входные фильтры сервера Zebra представляют собой ASCII-файлы с наборами правил, использующих элементы RegX (Regular Expressions). Эти правила определяют соответствие между элементами реальной и абстрактной баз данных. Кроме того, они позволяют "на лету" включать в сами записи ссылки на связанные с ними HTML-страницы.
Сервер Zebra подключает фильтры при индексации, поиске и выдаче информации из текстовых файлов. Кроме этого, он индексирует служебную базу данных IR-Explain-1, которая, согласно последней версии стандарта Z39.50, может хранить информацию о сервере, базах данных, атрибутах, форматах и т.д. и позволяет клиентам дополнительно настраиваться на конфигурацию Z-сервера.
В корпоративной системе БЕН РАН эта служебная база предоставляет информацию о версии сервера ZooPARK и базах данных БЕН РАН.
Разработанные программы - входной фильтр для сервера Zebra и конвертер информации, вместе с корректировкой настроечных файлов сервера, обеспечили включение в корпоративную поисковую систему каталога журналов БЕН РАН с автоматической поддержкой всех функций и форматов стандарта Z39.50, реализуемых встроенным в ZooPARK сервером Zebra.
Особо необходимо отметить, что данный метод позволил объединить в корпоративной поисковой системе преимущества двух сетевых протоколов Z39.50 и HTTP - быстрый поиск и удобное представление информации.