НОВЫЕ ТЕХНОЛОГИИ В ИНФОРМАЦИОННОМ ОБЕСПЕЧЕНИИ НАУКИ

Новое направление в информационном обеспечении сельхознауки

М.А. Аветисов, Е.В. Крамчанинов
(Центральная научная сельскохозяйственная библиотека - ЦНСХБ)
В.И. Стеллецкий
(Всероссийский научно-исследовательский институт информации и технико-экономических исследований агропромышленного комплекса - ВНИИТЭИагропром)

Центральная научная сельскохозяйственная библиотека является крупнейшей библиотекой в области сельскохозяйственной науки в России. Во времена ГСНТИ библиотека вместе с ВНИИТЭИагропром возглавляла сеть информационных органов научно-технической информации по сельскохозяйственной науке. Сеть благополучно прекратила свое существование. Тем временем появилась новая сеть - сеть Интернет. К сожалению, освоение этого нового явления научными учреждениями аграрного сектора, библиотеками и органами НТИ очень и очень далеко от желаемого. Но достаточно очевидно, что развитие Интернет приведет в скором времени в нашей области знаний к активному использованию ресурсов Интернет.

Поскольку сеть органов НТИ в сельском хозяйстве имеет весьма низкую активность, то в целях поддержки науки ЦНСХБ позволила себе взять некоторую часть работ, выполняемых ранее органами НТИ.

Первый шаг в направлении создания для пользователей нового информационного библиотечного поля был сделан в 1999 году выпуском реферативного журнала "Ветеринария". С тех пор библиотека подготовила еще ряд журналов. В настоящее время выходят журналы "Ветеринария", "Экологическая безопасность в АПК", "Пищевая и перерабатывающая промышленность", "Экономика сельского хозяйства", "Инженерно-техническое обеспечение АПК". Планируется в конце года выпуск кумулятивного журнала "Ветеринария" за 2001 год на английском языке. Автоматизированная система подготовки РЖ обеспечивает появление рефератов в базе данных ЦНСХБ (Электронный каталог статей) раньше, чем выходит печатное издание. Одновременно с печатным изданием готовится и электронное издание на машиночитаемых носителях.

Исходя из важности пропаганды достижений отечественной сельскохозяйственной науки, ЦНСХБ взяла на себя роль депозитария отчетов по научным работам НИО Россельхозакадемии. Полные тексты отчетов (абсолютное большинство из которых, к сожалению, поступает в печатном виде) предоставляются пользователю Интернет и читателям библиотеки. Поиск осуществляется по полным текстам.

Библиотека начала выпуск электронного журнала по сельскохозяйственной тематике в помощь сельхозпроизводителю "Фермер", который также доступен пользователям Интернета.

Развитие информационных технологий и приобретенный опыт работы ЦНСХБ позволил сделать второй шаг - начать создание сельскохозяйственной электронной библиотеки знаний (СЭБиЗ). Библиотека создается при поддержке РФФИ. В значительной степени создание библиотеки сопряжено с возникновением и развитием информационно-консультационной службой по сельскому хозяйству, поддержанной министерством сельского хозяйства.

"Репертуар" электронной библиотеки включает на первом этапе кроме электронных каталогов и реферативной информации, как упоминалось выше, следующие разделы:

  • энциклопедическую информацию в области сельскохозяйственной науки;

  • разнородные справочники по отдельным вопросам науки и практики сельского хозяйства;

  • всевозможные тематические указатели, включая указатели на соответствующие ресурсы Интернет;

  • биобиблиографические справочники по крупным ученым с указаниями проблематики и направления их работ;

  • сведения об научных учреждениях, учебных заведениях, опытных станциях, производственных организациях и т.п.;

  • полные тексты наиболее важных материалов по актуальным вопросам сельскохозяйственной науки;

  • полные тексты фундаментальных трудов из редкого фонда;

  • информационные материалы, обеспечивающие уточнение поиска, такие как рубрикатор и тезаурус по сельскому хозяйству.

Каждый такой раздел, в дальнейшем именуемый информационными ресурсами (ИР) СЭБиЗ имеет, вообще говоря, свою структуру данных. Документы содержат текстовый материал, иллюстративные материалы (графику, фотографии), а в ряде случаев и фрагменты аудио и видеоматериалов. Документы могут содержат также и ссылки на соответствующие страницы в сети Интернет.

Данные, загружаемые в библиотеку знаний слабодинамичны. Будучи единожды введенными они практически не изменяются. Эта особенность данных позволила нам рассмотреть следующую схему предоставления данных пользователям.

Исходные данные вводятся, корректируются и обогащаются, например, при аналитико-синтетической обработке информации, в одну среду, например ISIS или SQL, а для предоставления их в доступ пользователям они перегружаются в другую среду, связную структуру HTML-страниц - базу данных информационно-поисковой системы.

Естественно, при таком подходе необходимо отдавать себе отчет, что к ИПС должны предъявляться достаточно жесткие требования, а именно:

  • система должна обладать очень высокой скоростью загрузки;

  • система должна иметь средства динамической дозагрузки данных без остановки работы;

  • система должна обеспечивать поиск одновременно в одном или нескольких информационных ресурсах с разной организаций данных очень больших объемов.

В полной мере удовлетворяет этим требованиям ИПС "Артефакт", первая версия которой использована в ЦНСХБ для предоставления доступа к электронным каталогам. Система разработана специалистами информационного агентства "Интегрум-Техно". Как основа при создании СЭБиЗ используется следующая версия системы, которая позволяет работать с данными в HTML-формате.

ИПС "Артефакт" учитывает морфологию русского языка (а также английского, в версии ЦНСХБ, и ряда других европейских языков в полной версии), соотношение слов в предложении, обеспечивает возможность поиска в поименованных данных, обработку дат.

Синтаксический анализатор запроса (разработка ЦНСХБ) позволяет обеспечить для различных категорий пользователей различные режимы работы с системой от формирования запроса в свободной лексике (строгое или нестрогое словосочетание) до поиска с расширением запроса по тезаурусу, подключение перевода, использование лексики и кодов различных классификаторов и т.п.

Возможности, представляемые языком HTML, позволяют подключать модули для вызова динамически меняющихся данных из основных баз данных, в которые вводятся ИР.

Значительная часть материалов образуется в результате сканирования и распознавания печатной продукции. Поскольку поиск в СЭБиЗ обеспечивается по всему текстовому пространству электронной библиотеки, то существенным для отображения найденного документа является разумное его структурирование на фрагменты, выделение среди текста необходимых элементов типа фамилий авторов, аннотаций, оглавлений и т.п. Словари и справочники, загружаемые в электронную библиотеку, если они создаются на основе печатной продукции, требуют решения дополнительных проблем. Это разбиение на отдельные статьи, выделение заголовков статей, автоматическое распознавание ссылок на другие статьи. При вводе дореволюционных словарей возникают еще проблемы связанные с изменением грамматики и правописания русского языка. В настоящее время разметка текста ведется отдельно для каждого вида сканируемого материала, с целью максимального упрощения обработки при распознавании и разметке текстового материала. Преобразование каждого типа размеченного материала обеспечивается специализированными программными модулями. В дальнейшем предполагается перейти на разметку средствами языка XML.

Создание электронной библиотеки знаний в основном ориентировано на русскоязычного пользователя. Однако ЦНСХБ ведет значительную работу по интеграции справочных информационных ресурсов со странами Центральной и восточной Европы. Мы участвуем в проекте, проводимом Региональным отделением FAO SEUR(Food and Agricultural Organization Subregional Office for Central and Eastern Europe) по обмену информацией в области сельского хозяйства среди стран региона.

Для реализации данного проекта было организован рабочий семинар среди специалистов информационных технологий, которые работают преимущественно в библиотеках или сельскохозяйственных информационных центрах, который проходил в городе Нитра, Словакия. При поддержке международных организаций IAALD, NitraNet и FAO SEUR, был начат проект "AgroWeb CEE".

Проект предлагает помощь всем желающим в получении информации по всем вопросам сельского хозяйства. Это сведения о министерствах, библиотеках, информационных центрах, информация, касающаяся сельскохозяйственного образования и научно-исследовательских организаций в сфере агропромышленного сектора.

На последних рабочих совещаниях (Годолло, Венгрия, 1998 г.; Рим, Италия, 2000 г.) был выработан единый пользовательский интерфейс, единая структура представления данных.

В заключение следует отметить, что изложенные положения частично уже реализованы на сайте ЦНСХБ: www.cnshb.ru - раздел поиска в информационных ресурсах, www.cnshb.ru/akdil - энциклопедии, словари, организации и т.п., www.cnshb.ru/ aw/russian/ - AgroWeb Russian Federation.