СОВРЕМЕННЫЕ ТЕХНОЛОГИИ В ИНФОРМАЦИОННОМ ОБЕСПЕЧЕНИИ НАУКИ

КОНВЕРТИРОВАНИЕ БИБЛИОГРАФИЧЕСКИХ
ОПИСАНИЙ В ФОРМАТ RUSMARC

О.Д. Каллистратова
(БЕН РАН)

В современных корпоративных библиотечных системах, так же как и в сводных электронных каталогах, MARC-форматы остаются необходимым средством унифицированного обмена библиографической информацией. При этом в Российских библиотечных системах в качестве основного формата обмена общепринята и обязательна русская версия формата UNIMARC - RUSMARC (www.rba.ru:8101/rusmarc).

Однако MARC-форматы недостаточно удобны как для создания новых записей, так и для просмотра найденных данных в различных поисковых системах из-за сложности, громоздкости и недостаточной наглядности представления информации. На наш взгляд, в автоматизированных библиотечных системах гораздо удобнее использовать более простые и наглядные форматы представления информации, например, аналоги библиографического описания или карточки, а при обмене данными автоматически конвертировать информацию в MARC-форматы по требованию клиентов других систем.

Именно по такому принципу построены каталоги автоматизированной системы БЕН РАН (АС НАУКА), в которых для ввода и представления информации используются удобные форматы, аналогичные библиографическим описаниям, а в другие системы информация передается с помощью программ конвертирования из внутренних форматов каталогов БЕН. Например, для участия БЕН РАН в проекте создания и поддержки системы российских сводных каталогов (РСК), возглавляемой ГПНТБ России, были разработаны программы пакетного конвертирования информации в согласованный с ГПНТБ вариант формата RUSMARC. С помощью этих программ информация о литературе, поступающей в фонды БЕН РАН, в течение последних лет регулярно передается в ГПНТБ и загружается без проблем в систему РСК.

Построение современных корпоративных библиотечных систем с одновременным поиском в различных базах данных потребовало разработки новой технологии для корпоративного доступа к электронным каталогам БЕН РАН. Основные результаты разработки этой технологии с использованием протокола Z39.50 были описаны в [1,2]. Дополнительным результатом этой разработки явилось создание специальной функции автоматического конвертирования информации из библиографического описания в формат RUSMARC, и её последующее включение в динамическую библиотеку Z-сервера БЕН для представления в корпоративной среде информации из каталога книг и продолжающихся изданий БЕН РАН.

В этом каталоге для ввода и хранения информации используется формат, аналогичный формату библиографического описания (БО) или карточки. При этом текст БО вводится подряд без разбиения на поля, требующего специальной квалификации библиографа, но с соблюдением всех знаков и абзацных отступов, обычно присутствующих на карточке (или предусмотренных ГОСТом, если информация вводится с издания). Для дополнительной информации, например, шифров хранения БЕН и дат составления записей, а также рубрик ГРНТИ и переводов заглавий зарубежных изданий, требуемых в системе РСК, предусмотрен ряд полей, в которые информация вводится в форме, аналогичной вводу БО. Таким образом, в каталоге в удобном виде содержится вся информация, необходимая для формирования записей в MARC-формате.

Основу новой функции автоматического конвертирования БО в формат RUSMARC составила программа пакетного конвертирования массива записей БО, ранее разработанная сотрудником БЕН РАН Васильчиковым В.В. [3]. Эта программа позволяет разбирать БО, представленные в соответствии с ГОСТ 7.1-84, по областям и элементам и формировать из них файлы записей в формате RUSMARC. Алгоритм использует характерные и формальные признаки различных областей и элементов описаний и основан на следующих требованиях:

порядок следования и разделители областей БО должны соответствовать ГОСТу,

должны присутствовать все элементы, обязательные с точки зрения ГОСТа, язык заглавия и текста издания - любой, текст БО - русский.

Программа-прототип достаточно надежно конвертирует библиографические описания, соответствующие описанным выше требованиям, но весьма критична к неявным ошибкам в характерных признаках элементов и разделителях областей БО. Поэтому при разработке новой функции потребовалась существенная доработка алгоритма, чтобы довести надежность конвертирования записи в запись до 100%, как это необходимо в современных корпоративных поисковых системах.

В первую очередь в алгоритм были введены методы возможной корректировки типичных и малозаметных ошибок в разделителях областей БО. Также был максимально усилен формально-логический контроль при разборе БО по областям и элементам для повышения качества конвертирования. Структура функции была значительно модифицирована как для расширения возможностей её применения, так и для удобства отладки.

При анализе БО алгоритм использует различные словарные наборы характерных элементов и признаков БО. Как показала практика, корректность идентификации различных областей БО сильно зависит от содержания этих наборов. В частности это касается наличия в БО типичных сокращений слов, регламентируемых ГОСТ 7.12-77 и ГОСТ 7.11-78. При отладке алгоритма наборы характерных слов и сокращений были частично перестроены, а также дополнены новыми элементами, как на русском, так и на некоторых других языках.

Необходимо отметить, что при неполной информации БО правильное формирование некоторых полей по формальным признакам остается довольно сложным. Так, определение языка заглавия и текста издания (поле 101 RUSMARC) только по косвенным признакам (например, написанию места издания) оказывается не всегда правильным. Для изданий многоязычных стран, а также для документов, изданных на языках, отличных от основного языка места и страны издания, необходимо явно указывать язык издания в БО.

Разработанная функция автоматического конвертирования библиографического описания в формат RUSMARC была многократно проверена на 61920 записях из реального каталога книг БЕН РАН и показала достаточно качественные и надежные результаты. Она может использоваться как в пакетных программах, так и в динамических приложениях. Кроме того, структура функции легко позволяет совершенствовать алгоритм конвертирования и практически сразу обновлять его применение в различных технологиях.

В результате разработки были реализованы два варианта использования данной функции конвертирования БО в RUSMARC. Во-первых, был создан новый пакетный конвертер, который в настоящее время используется при передаче данных в сводный каталог ЛИБНЕТ.

Во-вторых, была достигнута главная цель разработки - внедрение данной функции в механизм поиска по протоколу Z39.50 в каталоге книг и продолжающихся изданий БЕН РАН с конвертированием найденной информации "на лету" в форматы RUSMARC и UNIMARC.

Результаты автоматического конвертирования БО в формат RUSMARC можно посмотреть в корпоративных поисковых системах и проверить при поиске в каталоге книг и продолжающихся изданий БЕН РАН через следующие шлюзы WWW-Z39.50:

Литература.

  1. Каллистратова О.Д. Z39.50 и каталог журналов БЕН РАН // Новые технологии в информационном обеспечении науки / Сборник научных трудов. - Москва 2001. - С.110-114

  2. Варакин В.П., Власова С.А. Использование протокола Z39.50 в БЕН РАН // Новые технологии в информационном обеспечении науки / /Сборник научных трудов. - Москва, 2001. - С.115-117

  3. Васильчиков В.В. Преобразование библиографического описания в формат UNIMARC // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества / Материалы 2-ой междунар. конф. "Крым-95"; Евпатория; 10-18 июня 1995 г. - М., ГПНТБ России, 1995. - Т. 2. - с. 141-144