Вопросы создания полнотекстовой базы данных
в библиотеке
Математического института им. В.А.Стеклова РАН.
Погорелко К.П.
В 2003 г. в библиотеке Математического института им. В.А.Стеклова (МИАН) начались работы по созданию полнотекстовой базы, отражающей фонды библиотеки и открытой для доступа через интернет. Первым заказчиком, который выразил желание разместить выпуски своего журнала, стала редакционная коллегия Трудов МИАН. За счет редакции был закуплен и установлен документный сканер Fujitsu fi-410c. В дальнейшем за счет гранта РФФИ был закуплен и установлен книжный сканер Minolta PS7000. В это же время Отделением Математических Наук РАН велись переговоры о совместной работе с проектом RUS-DML (Германия – ГПНТБ), предусматривающим перевод в цифровой формат и предоставление в открытый доступ математических публикаций на русском языке. Библиотека МИАН как отдел БЕН РАН заключила соглашение о партнерстве с этим проектом. По этому соглашению предусматривалась работа по общим стандартам (сканирование и метаописание) и обмен результатами работы. Таким образом, стандарты, с которыми начала работать библиотека МИАН, не являлись результатом выбора, а были определены стандартами основного исполнителя работ по проекту RUS-DML – Центра оцифровки в Геттингене (SUB).
Подход, принятый в SUB, предусматривает представление полнотекстовых документов в виде изображений страниц без попыток распознавания текста. Следует отметить, что распознавание математических текстов весьма затруднено, т.к. в тексте могут встречаться специальные символы и формулы, которые не всегда могут быть выделены и представлены как отдельные изображения. Неправильное распознавание специальных символов и формул приводит к значительным искажениям или полной потере смысла текста.
В отношении сканирования изображений стандарт предусматривает использование формата TIFF по одной странице на изображение и по одному изображению в файле с определенным набором тэгов. Основной формат изображения - черно-белый с компрессией по стандарту CCITT T.6. Для случаев, когда двухуровневое сканирование не может применяться (например – фотографии), допускается использование серого формата без сжатия. Разрешающая способность в обоих случаях составляет 600 точек на дюйм.
В отношении метаописаний статей стандарт, используемый в SUB, предусматривает только поля, имеющие интерес для зарубежного читателя – транслитерация и перевод русскоязычного названия, в то время как для отечественного читателя эти поля не имеют значения, а ему необходимо русскоязычное название. Другой проблемой является то, что стандарт метаописания SUB является его внутренним технологическим и с трудом поддается изменениям. Для нужд RUS-DML SUB и ГПНТБ был разработан новый стандарт, но он до сих пор находится в состоянии уточнения. Для того, чтобы это не тормозило работу, была достигнута договоренность об общей схеме описания данных – соответствие страниц с номерами кадров изображения и идентификационный тэг статьи – идентификатор в европейской реферативной базе по математике Zentralblatt.
Сканирование печатных изданий проводилось на двух типах сканеров. У тех изданий, которые имеются в библиотеке в значительном количестве экземпляров, проводилась обрезка корешка. Получившиеся листы пропускались через документный сканер, который производит одновременное сканирование обеих сторон листа. Результатом работы программного обеспечения документного сканера является файл в формате pdf, содержащий последовательный набор изображений, размер которых соответствует оригиналу. Для дальнейшей работы производится экспорт изображений в набор файлов в формате TIFF с необходимыми параметрами компрессии. Документный сканер имеет широкий диапазон регулировок яркости, контрастности и величины отсечки, что позволяет, как правило, хорошо настроиться на конкретный экземпляр и получать изображения хорошей четкости. Характерными искажениями для изображений, полученных на документном сканере, являются перекосы строк, вызванные неизбежными перекосами листов при протяжке и косым расположеним строк на оригинале.
Сканирование изданий с малой экземплярностью проводилось на книжном сканере. Результатом работы программного обеспечения книжного сканера является последовательность файлов, содержащих изображения страниц в формате TIFF. Изображение может иметь только предустановленные стандартные размеры, например, А3, А4 и т.п. Программное обеспечение может удалять изображение рук оператора, но не способно удалять затемнения от краев книги. Кроме того, на некоторых экземплярах книг процесс сканирования нестабилен и, тем самым, невозможно обеспечить одинаковое расположение листов в пределах сканированной области. Диапазон регулировок яркости и контрастности у книжного сканера хуже, чем у документного. Кроме того, старые выпуски печатались на бумаге плохого качества, что приводит как к нечетким изображениям букв, так и к появлению “шума” - дополнительных точек.
На рынке существует ряд программных средств, позволяющих улучшать полученные изображения, устранять “шум” и выравнивать строки. В качестве примера можно упомянуть программные средства компании “Pixel Translations”. Но, с одной стороны, они недешевы и, с другой стороны, не обеспечивают эффективного решения такой задачи, как обрезка рисунка в размер оригинала и расчистка полей для случая, когда страница не имеет фиксированного расположения на отсканированном изображении. Для того, чтобы обеспечить получение изображений высокого качества и эффективную работу оператора по очистке изображения, была разработана специальная программа по редактированию изображений в формате TIFF. Данная программа позволяет задавать размер результирующего изображения, ширину полей и проводить обрезку в визуальном режиме. Для тех случаев, когда страница оказывается размещенной слишком близко к краю, имеется возможность сдвига изображения. Имеются средства для устранения искажений перекоса как по вертикали, так и по горизонтали. Имеются средства для автоматического улучшения качества изображения. Первое осуществляет заливку букв, когда растр в буквах оказывается разорванным в силу малой контрастности. Второе позволяет убирать “шум”, устраняя группы пикселей размера меньше заданного. Для расчистки изображения вручную имеется “ластик” и возможность увеличения изображения (“zoom”). В случае ошибок оператора предусмотрена возможность “отката” - перезагрузка текущего изображения. Переход к следующему изображению осуществляется нажатием одной кнопки “next”.
В результате работы программы по расчистке изображений получается набор файлов с изображениями страниц. При этом порядок следования страниц соответствует упорядоченности имен файлов. Конкретный формат имен зависит от того, с какого сканера получено изображение. Имя может иметь и произвольный формат, если это изображение было вставлено позднее вручную, в случае, когда при сканировании был допущен пропуск. Для того, чтобы полученные изображения соответствовали требованиям, предъявляемым SUB, эти файлы должны иметь фиксированный формат имен и специальные тэги TIFF, определяющие номер этого файла и его принадлежность. Для этого существует специальная программа, которая в автоматическом режиме переписывает файлы в другую директорию, осуществляя их переименование и формирование соответствующих тэгов. В результате полученный набор изображений готов к процедуре метаописания.
На этапе метаописания вводится информация, описывающая данный выпуск. Как правило, это - ссылка на соответствующий элемент базы межбиблиотечного каталога периодики или книжного каталога. Далее проводится роспись статей. Для каждой статьи вводится ее идентификация в виде ссылки на соответствующий элемент базы отечественных статей по математике. В случае, если этого выпуска в базе нет, возможно отдельное задание описывающих статью полей. Для связи с проектом RUS-DML осуществляется поиск статьи в базе Zentralblatt. Соответствующий идентификатор запоминается. Если статьи в Zentralblatt не найдено, то отсылается соответствующее уведомление о пропуске и изображение первой страницы статьи. В завершение вводится диапазон номеров изображений, содержащих данную статью. В таком виде информация готова для обмена с базой RUS-DML.
Для поиска статей предполагается использовать механизм поиска, реализованный для базы статей по отечественным публикациям в области математики. Для книг, в случае наличия полного текста, соответствующая ссылка появляется при поиске по книжному каталогу.
Презентация полнотекстовых материалов предусматривается в двух режимах по выбору пользователя. Он может скачать готовый pdf-файл со статьей или осуществлять постраничный просмотр с возможностью движения вперед или назад. Для книг, где результирующий pdf-файл может иметь значительные размеры, предусматривается возможность генерации pdf-файла с указанным диапазоном страниц “на лету”.
Отдельной проблемой являются авторские права. Так, например, в случае “Трудов МИАН” авторские права принадлежат как редколлегии, так и Академии наук и коллективу авторов. Поэтому, для предоставления издания в открытый доступ помимо разрешения от редколлегии надо получать разрешения от Отделения Математических наук как представителя Академии и от каждого автора в отдельности. Для этого, очевидно, придется создавать отдельную подсистему.
Данная работа выполняется при поддержке гранта РФФИ.