Информационное обеспечение науки. Новые технологии

Автоматизированная система аналитической росписи документов (АСАРД).

Аветисов М.А., Крамчанинов Е.В., Стеллецкий В.И.
(Центральная научная сельскохозяйственная библиотека)

Создание библиографических записей для электронного каталога является весьма трудоемким делом. Поэтому для сокращения затрат на пополнение каталогов электронными записями документов, создаются всевозможные объединения и консорциумы корпоративной каталогизации. Однако это касается в основном записей, описывающих отдельное издание – книгу, сборник, отдельный номер журнала, т.е. библиографическая запись, описывающая документ на монографическом уровне.

Библиотек, занимающихся росписью каталогизируемых документов на аналитическом уровне (статьи из научных журналов и сборников) в достаточно большом объеме, совсем немного.

Еще в конце 80-х годов ЦНСХБ совместно с ВНИИТЭИсх (теперь уже не существующим) приступила к аналитической росписи основных сельскохозяйственных журналов. Первый этап данной работы был завершен в 1992 году, созданием автоматизированной системы, которая включала в себя электронный каталог (ЭК) описаний статей. При этом ЭК статей на порядок больше по объему ЭК книг. Таким образом, объем данных, вводимых только о статье из журналов или сборников, существенно больше, чем объем библиографического описания отдельных изданий.

Для сокращения ручного труда каталогизаторов и систематизаторов на этапе создания библиографических записей документов, было принято решение о разработке автоматизированной системы по аналитической росписи получаемых журналов и сборников в бумажном виде (твердая копия) и создание предпосылок для автоматизированной обработки различных электронных ресурсов (режим on-line), подписываемых библиотекой (электронная форма).

Предпосылки создания автоматизированной системы аналитической росписи документов:

  1. В качестве основного материала для ввода данных о статье рассматриваются оглавления журналов или сборников. Полнотекстовые электронные ресурсы, особенно иностранные журналы, стали занимать значительное место в информационном обеспечении пользователей библиотеки. И они всегда имеют достаточно формализованное оглавление.

  2. Оглавление в научно-технических журналах и сборниках обычно легко выделяется среди остального текста (что нельзя сказать про огромное количество журналов массовой культуры).

  3. Заголовки статей, особенно в сборниках, несут, в большинстве случаев, информацию о содержании статьи. Кроме того, научные журналы и сборники зачастую помещают статьи в рубрики или разделы, которые также отражаются в оглавлении.

  4. Структура строк оглавления, описывающих каждую статью для каждого журнала стабильна, как минимум, в течение года. Практически существует всего несколько видов структур: “Авторы, Название, Страницы” или “Название, Авторы, Страницы” и т.п.

  5. ЦНСХБ имеет развитый тезаурус по сельскому хозяйству и продовольствию, что позволяет сопоставлять термины тезауруса со словами и словосочетания из названия и обеспечивать обогащение описания статьи.

  6. Существующее оборудование сканирования (книжные сканеры, имеющиеся в ЦНСХБ) позволяет осуществлять сканирование с высокой скоростью. Сканированию подвергаются новые, поступающие в библиотеку журналы и сборники. При достаточно высоком полиграфическом качестве сканируемого материала результаты сканирования и распознавания образов довольно высокие, что сказывается на сокращении сроков на редактирование получаемого материала.

  7. Возможность автоматического или полуавтоматического мониторинга подписанных зарубежных баз данных (например, Agricola или отдельных баз данных EBSCO) и создания копий соответствующих оглавлений на Web-сервере библиотеки.

  8. Мы полагаем, что пользователь ресурсов библиотеки ищет информацию, в основном, либо по автору и/или названию статьи источника, либо по тематике. В последнем случае пользователя мало интересует (с некоторой точностью, несущественной в данном случае), в каких полях встречаются важные для него термины или рубрики.

    Все эти предпосылки побудили нас к созданию автоматизированной системы аналитической росписи документов.

    Данная система состоит из нескольких технологических блоков и отдельных подсистем:

    1. подсистема формирования оглавлений журналов и сборников;

    2. подсистема автоматического формирования записи для ЭК;

    3. подсистема дополнительной ручной обработки описания;

    4. подсистема учета выполнения исполнителями всех операций над данными в АСАРД

Подсистема формирования оглавлений журналов и сборников состоит из двух блоков, Первый из них – блок сканирования и распознавания печатных изданий. В подавляющем большинстве случаев распознанный и проверенный текст не требует дополнительной ручной доработки. В отдельных случаях используется специальный язык разметки. Текст сохраняется в HTML-формате, а образ документа, который также доступен пользователю, просматривающему оглавление, в PDF-формате.

Второй – блок обработки оглавлений on-line (т.е. внешних баз данных). В частности, для БД Agricola обеспечивается мониторинг оглавлений и загрузка оглавлений вновь появившихся номеров на сайт ЦНСХБ.

Подсистема автоматического формирования записи для ЭК обеспечивает создание записи электронного каталога статей на основе подготовленных автоматически или с добавлением данных ручного ввода документов.

Название статьи разбирается на слова. Не рассматриваются стоп-слова и цифро-буквенные слова. Все слова нормализуются. В настоящее время используется алгоритм усечения окончаний. Возможно также применение любого другого алгоритма нормализации.

Слова сравниваются с так же нормализованными терминами тезауруса. Результат совпадения заносится в поле “автогенерированные термины”. Поле “Рубрики ОРНТИ” заполняется рубриками из общего описания журнала и/или рубриками, связанными с терминами тезауруса.

Предполагается создание специального словаря на основе текстов постоянных или часто встречающихся рубрик или разделов оглавлений. Этот словарь может быть обогащен кодами рубрик ОРНТИ. В этом случае коды будут включены в соответствующие элементы данных.

Предполагается расширение тезауруса переводами терминов на английский язык (или на другие языки). В этом случае при обработке иностранных названий статей возможно включение русских дескрипторов в соответствующее поле в дополнение к англоязычным. Это обеспечит возможность поиска таких терминов по-русски.

Следует заметить, что как только появляется оглавление журнала или сборника в электронной форме, то вслед за этим появляется и запись электронного каталога. Ручное обогащение записи или изменение ее – асинхронный процесс, с неопределенным временем окончания. Пользователь электронного каталога будет видеть улучшающуюся во времени запись по мере того, как специалист будет приписывать (или, при необходимости, исправлять) соответствующую запись в АСАРДе, правда, с недельным опозданием (периодичность обновления данных в информационно-поисковой системе).

Подготовленные записи загружаются в информационно-поисковую систему АРТЕФАКТ (разработка информационного агентства “Интегрум-техно” - http://www.integrum.ru/).

Подсистема дополнительной ручной обработки описания позволяет специалисту разметить оглавление и передать отдельные статьи на обработку в режиме автоматизированного процесса (без участия специалистов технологической обработки документов) или конкретному исполнителю. Оглавление автоматически разбирается по полям - автор, название, страницы и т.д.

При ручной обработке документов все исполнители имеют различные права доступа к обрабатываемому материалу (администратор технологических направлений, координатор работ, каталогизатор, систематизатор, и т.п.). Разграничением по уровню доступа достигается возможность работы только со своей группой полей как заполненных автоматически, так и заполняемых вручную, с возможностью редактирования полей, заполняемых “автоматом”. Кроме того, можно проставить признак готовности документа, просмотреть историю работы с ним. Поскольку ЦНСХБ выпускает еще и реферативный журнал, то можно приписать реферат, направить документ в тот или иной выпуск реферативного журнала (Ветеринария, Пищевая промышленность и т.п.) и номер.

При вводе данных обеспечивается интерактивный контроль орфографии. Возможна также проверка правильности подготовки всей записи, используя лингвистические технологии системы ОРФО (http://www.informatic.ru), а также обогащение словаря терминов для последующего анализа и обогащения тезауруса или специальных словарей.

Подсистема учета выполнения исполнителями всех операций над данными в системе АСАРД обеспечивает учет всех операций с записью, которые осуществляет исполнитель. Он входит в систему со своим идентификатором. В отдельных случаях, например, при поручении работы конкретному исполнителю, идентификатор этого исполнителя вводится в систему дополнительно. По всем операциям запоминается дата, время, объем изменений, идентификатор исполнителя, а в ряде случаев и другая необходимая служебная информация. Это позволяет наладить полный компьютерный учет работы коллектива исполнителей.

Дополнительно следует заметить, что ЦНСХБ имеет электронный архив документов, в котором хранятся образы оглавлений (если они есть), а также все полные тексты статей, полученных как в результате работы службы ЭДД (заказ из ЭК ЦНСХБ), так и тексты всех статей, “скаченных” сотрудниками ЦНСХБ из внешних баз данных. Все полные тексты “привязаны” к соответствующим записям ЭК и оглавлениям журнала. Внутри библиотеки или с удаленных терминалов (в других организациях, технология VPN-соединений) они доступны для чтения, а для пользователей сети Интернет – для заказа.

Система полностью базируется на СУБД MS SQL. Для каталогизации сборников как отдельных изданий, так и журналов в целом, используется система Марк-SQL (“Информсистема” - http://www.informsystema.ru/), так как их библиографическое описание сложно и требует специализированного программного обеспечения.

Каждый документ, поступающий в ЦНСХБ, снабжается электронным номером (ЭН), напечатанным на наклеивающейся этикетке и отображаемым в виде штрих-кода. ЭН является полем связи для объединения различных видов описания документа и его частей.

Таким образом, система предусматривает различные режимы формирования описания статьей для ЭК, представляемых на Web-сайте ЦНСХБ для читателей библиотеки, включая и читателей, работающих на удаленных терминалах библиотеки (Интранет) и внешних пользователей (Интернет). Возможен режим работы “как прежде”, со стопроцентным клавиатурным вводом описания статей. Однако, с точки зрения разработчиков, основным режимом работы должен быть режим автоматического формирования библиографического описания и элементов систематизации на основе оглавлений журналов и сборников, с применением “ручного” ввода только для тех записей, которые направляются в реферативные журналы или являются особо значимыми.

Система позволяет развернуть работы по научному анализу полученных результатов (накопленные словари и методы обработки текста), что даст возможность усовершенствовать механизмы автоматического построения описаний.