Формирование информационного
наполнения электронной
библиотеки
знаний
М.А. Аветисов,
Е.В. Крамчанинов
Информация, являющаяся объектом поиска в электронной библиотеке знаний оказывается весьма разнородной. Это и традиционные для библиотек электронные каталоги, содержащие библиографические описания данных, а в ряде случаев и достаточно объемные рефераты, это и полные тексты слабоструктурированных документов, это словари, справочники, данные об организациях, персоналиях и т.п. Документы могут содержать иллюстративные материалы - графику, фотографии, а в ряде случаев и фрагменты аудио и видеоматериалов. Документы могут содержать ссылки на соответствующие страницы в сети Интернет.
К сожалению, нет единообразного механизма формирования информационных ресурсов электронных библиотек. В настоящее время для традиционных библиотек наиболее продвинутой следует считать процедуру формирования электронных каталогов. Здесь отработаны форматы, имеется необходимое программное обеспечения для ввода, поддержки поиска и отображения соответствующих записей. Что касается других материалов, представляемых в электронных библиотеках, то здесь приходится решать целую серию задач, для обеспечения достаточно производительного и безошибочного ввода и преобразования данных к тем форматам, которые позволяют обеспечивать эффективный поиск и отображения информации.
Кроме вопроса оцифровки материала и распознавания в нем текста возникают вопросы разбиения текста на части, именования этих частей, организации ссылок между частями, формирование оглавления или указателя частей документа, разметка документа - выделение отдельных информационных единиц (полей), преобразование выделенных полей к форме пригодной для поиска и отображения.
Рассмотрим некоторые решения задачи формирования материалов для сельскохозяйственной электронной библиотеки знаний (СЭБиЗ). Структура библиотеки и данных, а также возможности, которые предоставляются пользователю, определяются выбором ИПС "Артефакт" в качестве основного инструмента поиска информации.
Электронная библиотека представляет собой совокупность информационных ресурсов с различной организацией данных. Ввод библиографических описаний, рефератов и дополнительных данных аналитико-синтетической обработки документов оставлены вне рамок настоящего доклада.
Рассмотрим процедуру ввода полнотекстовых материалов, в частности, получаемых в результате сканирования печатной продукции. Поскольку поиск в СЭБИЗ обеспечивается по всему текстовому пространству электронной библиотеки, то существенным для отображения найденного документа является разумное его структурирование на фрагменты, выделение среди текста необходимых элементов типа фамилий авторов, аннотаций, оглавлений и т.п. Отдельной задачей представляется и организация поиска и отображения документов старых книг (книг с дореформенной 1918 г орфографией). Следует учитывать, что поисковые системы даже использующие (тем более использующие) морфологический разбор текста, как правило, не работают со старыми языковыми формами, что, в частности, относится и к ИПС "Артефакт". Предлагаемые методы позволяют обеспечить поиск с учетом современных правил написания слов и алфавита, а также отображения, при необходимости, соответствующих страниц первоисточников в исходном виде.
Словари и справочники, загружаемые в электронную библиотеку, если они создаются на основе печатной продукции, требуют решения дополнительных проблем. Это разбиение на отдельные статьи, выделение заголовков статей, автоматическое распознавание ссылок на другие статьи. При вводе дореволюционных словарей возникают еще проблемы связанные с изменением грамматики и правописания русского языка. При предоставлении словаря в электронном виде представляется желательным как возможность поиска по заголовкам статей словаря, так и по полному их тексту. Естественно, должны показываться приложенные к статье иллюстрации и осуществляться ссылки на другие статьи этого же словаря.
Для обеспечения такого, в том числе полнотекстового, поиска необходимо загрузить в поисковую систему (базу данных) образ словаря, разделенный на отдельные статьи. При этом заголовок статьи должен быть выделен в отдельное поле для обеспечения поиска только по заголовкам. Другим решением может быть создание отдельной базы заголовков со ссылками на полные тексты статей словаря.
Современные системы распознавания такие, как, например FineReader, позволяют передавать результат распознавания в WinWord, где этот результат вместе с иллюстрациями напоминает обрабатываемые страницы первоисточника. В WinWord'е возможно выполнять необходимую корректировку текста и преобразование его в формат HTML. При этом сохраняется необходимая разметка документа (разделение на
абзацы, жирность, курсив, таблицы, рисунки, как ссылки отдельные образы, конечно).В то же время формат HTML является одним из входных форматов ИПС "Артефакт", позволяющей проводить поиск в полнотекстовой базе данных из Интернет (с использованием морфологического разбора запроса и объекта поиска). Однако, чтобы в результате поиска каждая статья словаря показывалась отдельно, при загрузке в базу "Артефакт" каждая статья должна быть оформлена в виде отдельного файла, а для возможности поиска только по заголовкам, заголовок статьи должен быть представлен как поле базы, и, следовательно, снабжен префиксом с идентификатором этого поля.
При вводе дореволюционных словарей каждая статья подвергается двойной обработке:
Значительное количество справочного материала в библиотеках размещается на каталожных карточках. В частности, в ЦНСХБ это и картотеки латинских наименований вредителей сельского хозяйства, и картотеки наименований растений, гербицидов и инсектицидов и т.п.
Формирование картотеки происходит в несколько этапов: сейчас - это просто HTML файлы, разделенные по буквам. Представляющие простые таблицы соответствий оного термина - другому. В дальнейшем эти таблицы подразумевается превратить в базы данных с поисковым механизмом. При вводе в поисковую строку соответствующего значения, мы получаем эквивалентное этому слову перевод или необходимые данные. В дальнейшем при создании баз данных картотек, подразумевается подключение к сведениям картотек, информации, взятой из других источников, но которая относится к данной теме.
При формировании информационных ресурсов типа справочников персоналий и организаций приходится решать вопросы форматов представления этих данных, а также организации взаимосвязи между этими ресурсами. В настоящее время эти сведения находятся в виде HTML-файлов, над которыми включен аппарат полнотекстового поиска "Артефакт". Для более полного
соответствия этих данных возможным поисковым предписаниям, предполагается выделение из этих полных текстов отдельных полей (таких как название, директор и т.п.), а также всю информацию относящуюся к данным темам, проиндексировать. После приписывания ключевых слов, появится возможность полнее отобразить необходимые рубрики при поиске.Аналитико-синтетическая обработка документов в библиотеке призвана обогатить документы соответствующими языковыми средствами. Для достижения правильных результатов при поиске пользователь должен быть обеспечен справочными материалами, используемыми при классификации документов. В СЭБиЗ представлены рубрикатор ГРНТИ по сельскому хозяйству и тезаурус по сельскому хозяйству.
Предполагается использование тезауруса и рубрикатора ГРНТИ при поиске по материалам электронной библиотеки. При этом необходимым условием является дополнительная систематизационная обработка всех (желательно) материалов, во время которой каждому элементу библиотеки, например, странице HTML, припишутся соответствующие рубрики и термины отраслевого (сельскохозяйственного) тезауруса. Эти приписанные элементы образуют дополнительные поисковые поля. При работе с рубрикатором возможно также ограничивать поиск тематической рубрикой, т.е. найдутся только те документы, рубрика которых соответствует выбранной.