КОМПЛЕКС ПРОГРАММ ДЛЯ СОЗДАНИЯ ПОЛНОТЕКСТОВОЙ ЭЛЕКТРОННОЙ БИБЛИОТЕКИ
Погорелко К.П.
(Библиотека Математического института
им.
В.А. Стеклова РАН — отдел БЕН РАН)
В библиотеке Математического института им. В.А. Стеклова (отдел БЕН РАН) с 2004 года создается полнотекстовая электронная библиотека (ЭБ). Для обеспечения функционирования этой библиотеки созданы и, на основе опыта эксплуатации, постоянно обновляются программные средства. В настоящее время программные средства обеспечивают обработку изображений для исправления дефектов сканирования, ввод метаописания книги, создание электронного оглавления, поддержку системы постраничного представления публикации в Интернет и системы генерации pdf-файлов для выбранных пользователем частей документов.
Полные тексты хранятся в ЭБ в постраничном виде в формате tiff. Формат представления черно-белый, разрешение 600 точек на дюйм, сжатие по алгоритму CCITT G4. В случае, когда для отображения страницы недостаточно черно-белого представления, допускается использование серого формата без сжатия. Все изображения для каждого документа находятся в отдельной директории. Структура директорий для организации хранения документов на сервере поддерживается автоматически. Метаописания документов хранятся на Microsoft SQL сервере.
Для обработки отсканированных изображений разработана и используется программа редактирования tiff-файлов TifEdit. Данная программа позволяет устанавливать размер результирующих страниц и полей, проводить “обрезку” или увеличение размеров входного изображения до результирующего размера, автоматически расчищать поля. Программа также позволяет использовать опции улучшения качества изображения за счет встроенных алгоритмов удаления “серого” шума (лишние пиксели черного цвета) и “белого” шума (пиксели белого цвета в изображении букв). В программе также имеются средства для просмотра изображения в увеличенном виде (zoom) и ручной коррекции изображения (“ластик”). Обработка изображений возможна, как с заменой отредактированным изображением исходного, так и с копированием отредактированных изображений в другую директорию. Переход к следующему изображению осуществляется нажатием одной кнопки. Программа реализована на языке C# в среде .net 2.0.
Составление метаописания документа осуществляется программой BookOgl. Данная программа позволяет копировать набор изображений на сервер по протоколу http, с сопровождением структуры хранения документов на сервере. Также программа позволяет составлять метаописание документа, устанавливать ссылки на вновь создаваемый документ из сводного каталога математической литературы, вводить электронное оглавление документа, служащее для навигации по документу. Для составления оглавления и метаописания документа можно использовать символы юникода, что позволяет составлять оглавление в соответствии с языком оригинала. Оглавление имеет древовидную структуру, что позволяет вводить отношения иерархии (например: раздел — глава — часть — параграф). Для составления оглавления в качестве основы можно использовать отсканированное и распознанное оглавление исходного печатного документа. При составлении оглавления возможен просмотр изображений страниц документа и привязка к ним. Промежуточные результаты работы можно сохранить в xml-файле. Возможна также загрузка уже введенного оглавления из базы данных для его редактирования и коррекции. Программа реализована на языке C# в среде .net 2.0.
Для представления полных текстов в Интернет используется программный комплекс на базе Microsoft IIS 6.0. Презентационная часть обеспечивает возможность постраничного просмотра документа, навигации по иерархическому оглавлению документа, возможность изменения размеров просматриваемых изображений. По желанию читателя выбранная часть документа может быть представлена ему в виде pdf файла. В реализацию презентационной части встроен механизм, обеспечивающий возможность задания и контроля прав доступа к документам.
Алгоритмы преобразования изображений, используемые стандартными Интернет браузерами при изменении размеров демонстрируемого изображения, приводят к эффекту, при котором изображения, отражающие отсканированный текст, теряют качество “читаемости” этого текста. Кроме того, формат tiff не является стандартным форматом для большинства браузеров. Поэтому в системе реализован механизм преобразования изображений из формата tiff в формат png с приведением к требуемому разрешению на основе оригинального алгоритма. Веб сайт, отвечающий за презентацию, реализован на языке C# в среде asp.net версии 2.0. Части, отвечающие за преобразование изображений и генерацию pdf файлов, требуют больших вычислительных ресурсов и являются критичными с точки зрения производительности. Эти части реализованы на языке C++ и используют технологию ISAPI.
Разработка первоначального варианта комплекса проводилась при поддержке гранта РФФИ. В настоящее время на базе этого комплекса реализуется презентационная часть проекта “Научное наследие РАН”.