Интеграционные решения Xerox для научных библиотек: полнотекстовые электронные библиотеки и технологии формирования библиотечных электронных информационных ресурсов
Ефимова О.А.
(ООО «Ксерокс (СНГ)», Москва)
Решение ключевых задач современных библиотек, таких как повышение качества информационного обслуживания читателей и обеспечение сохранности библиотечных фондов, в настоящее время может быть осуществлено за счет создания и эффективного использования высокотехнологичной информационной системы – полнотекстовой электронной библиотеки (далее – ПЭБ).
В данном докладе рассмотрен комплексный подход к созданию отраслевого решения для универсальных научных библиотек и библиотек высших учебных заведений, используемый компанией Xerox. В целом, подход компании Xerox к созданию информационных систем, в число которых входит и ПЭБ, основан на собственном многолетнем методологическом и проектном опыте по реализации инновационных проектов в крупных научных и образовательных учреждениях, органах государственной власти и управления, а также коммерческих компаниях различных стран мира.
Современная электронная библиотека – это программно-аппаратный комплекс, поддерживающий промышленный процесс формирования, надежного хранения и эффективного использования библиотечных электронных информационных ресурсов, включающих не только библиотечные электронные каталоги, но и тексты библиотечных изданий, представленные в электронном виде. Логическая архитектура решения приведена на рисунке 1.
Технологическим ядром ПЭБ является Xerox DocuShare – программное обеспечение класса Electronic Content Management (далее – ECM), специально предназначенное для построения корпоративных хранилищ электронных документов промышленных масштабов.
Платформа Xerox DocuShare – это многопользовательская web-ориентированная система, обладающая широким спектром возможностей по управлению документами и данными. Платформа включает в себя технологии по управлению электронными документами (Electronic Document Management Systems), а также технологии управления web-контентом.
Электронное хранилище на базе Xerox DocuShare служит основой создания единой информационной среды ПЭБ, обеспечивает хранение электронных изданий и доступ к ним. Все информационное пространство электронного хранилища, доступное пользователю, представляется в виде совокупности систематизированных информационных объектов. В качестве таковых во многих случаях могут выступать электронные документы (в т.ч. электронные издания), календари мероприятий, тематические дискуссии.
Рис. 1. Логическая архитектура полнотекстовой электронной библиотеки
Информационные объекты могут представлять собой текстовые произведения, изображения, фонограммы и т. д. Организация информационного пространства как совокупности объектов и однозначная идентификация последних необходимы для обеспечения эффективной навигации и выполнения некоторых видов информационного поиска.
Атрибутивная информация такого электронного хранилища размещается в промышленной системе управления базами данных (далее – СУБД), а файлы, содержащие документы – в защищенной области файловой системы. Само же программное обеспечение содержит набор базовых функций по управлению электронным контентом, а именно:
Программное обеспечение электронного хранилища интегрируется с библиотечным электронным каталогом, используемым в конкретной научной библиотеке (MARC SQL, ИРБИС и др.), формируя, таким образом, полнофункциональный инструментарий работы с библиотечными электронными информационными ресурсами.
Важной задачей создания ПЭБ является решение вопроса о ее наполнении. Источниками формирования электронных информационных ресурсов библиотеки могут стать издания, изначально подготовленные в электронном виде или же переведенные в электронный вид с традиционных бумажных носителей. Для организации промышленного процесса формирования электронных библиотечных информационных ресурсов в составе интеграционного решения Xerox может быть использована технология перевода в электронный вид библиотечных фондов. В рамках данного технологического процесса поддерживаются следующие функции:
В основе данной технологии лежит высокотехнологичное сканирующее оборудование: промышленные сканеры, обеспечивающие потоковое сканирование документов и обладающие высокими показателями по скорости и качеству сканирования, и планетарные сканеры, позволяющие производить автоматизированное бесконтактное сканирование нерасшиваемых или ветхих документов.
Для обеспечения перевода изданий в электронный вид используются специализированные модули программного обеспечения сканирования, распознавания, атрибутирования документов и импорта сформированного электронного ресурса в электронное хранилище.
Сканирование нерасшиваемых изданий осуществляется с помощью сканирующего оборудования линейки Kirtas BookScan. Наибольшую производительность при решении данной задачи обеспечивает автоматический книжный сканер APT BookScan 2400RA. Это быстродействующее оборудование обладает двумя считывающими камерами и позволяет сканировать сшитые оригиналы со скоростью до 2400 страниц в час.
Перелистывание страниц при сканировании осуществляется с использованием технологии автоматического перелистывания страниц SureTurn™, позволяющей перелистывать страницы в автоматическом режиме, не повреждая оригинал, даже ветхий. Данная технология дает высокую гарантию перелистывания только одной страницы за операцию, уверенно работает со страницами плотностью от 49 г/м2 до 120 г/м2, при этом не требуется перенастройка сканера для бумаги разной плотности.
Встроенная система поддержки книги SmartCradle™ позволяет получать четкие снимки разворота книги, раскрывая ее всего на 110° (наименьший вред для редких и ветхих книг), благодаря использованию V-образного ложа. Прижимание и распрямление страниц автоматически осуществляется специальными фиксаторами. При этом сохраняется постоянный угол при переворачивании страниц и обеспечивается расположение верхних страниц в фокальной плоскости камеры.
В состав решения по сканированию нерасшиваемых изданий входит программное обеспечение BookScan Editor, которое работает в пакетном режиме, и может использоваться как совместно сканером Kirtas, так и автономно при работе с другими сканирующими системами. С его помощью осуществляется обработка отсканированных изображений, в т.ч. устранение перекоса страниц, подавление фона, автоматическая обрезка и коррекция искажений.
Распознавание отсканированного электронного образа происходит в автоматическом режиме с использованием программного продукта ABBYY Recognition Server. Данное программное обеспечение является высокопроизводительным решением для автоматизации промышленных процессов оптического распознавания изображений. Результатом его работы являются документы в текстовых форматах: Microsoft Word, HTML, двухслойный PDF и других. Благодаря серверной архитектуре, это приложение особенно эффективно для задач, связанных с обработкой массивов документов средних и больших объёмов.
Атрибутирование электронных изданий производится с помощью специализированного программного обеспечения. Оно позволяет вводить настраиваемый набор атрибутов издания для дальнейшего автоматического установления связи между данным электронным изданием и соответствующими данными о нем в библиотечном электронном каталоге. При вводе данных в процессе атрибутирования могут использоваться справочники, специфические для конкретной библиотеки.
Атрибутированные издания загружаются в электронное хранилище. Для обеспечения данной процедуры требуется использование специализированного программного модуля импорта.
При работе с ПЭБ у читателя нередко возникает потребность получения текста электронного издания на бумажном носителе. Такое тиражирование материалов по заказу может производиться на платной основе при условии урегулирования всех требований авторского права. Решение данной задачи подразумевает включение в состав ПЭБ подсистемы, обеспечивающей печать необходимых материалов по заявкам читателей – электронной типографии. В рамках данной подсистемы реализованы следующие функции:
Оформление заказов и управление их выполнением в рамках ПЭБ поддерживаются прикладным программным обеспечением печати по требованию – Xerox FreeFlow Web Services. Данный программный продукт из семейства Xerox FreeFlow предоставляет читателям ПЭБ возможность заказывать печатную продукцию и контролировать состояние заказов через web-интерфейс, а поставщику печатных услуг – гибкие средства для автоматизации процессов приема, обработки и выполнения заказов на печать.
Оформление заказа может осуществляться как самостоятельно читателем при работе с ПЭБ, так и сотрудником библиотеки от лица читателя. Если данные услуги предоставляются на платной основе, при оформлении заказа читатель получает информацию о цене издания, рассчитанной на основе показателей себестоимости исполнения печатных работ.
В рамках интеграционного решения Xerox выполнение заказов читателей осуществляется на цифровом печатном оборудовании. В зависимости от заданных читателем условий печать может быть выполнена на черно-белом или полноцветном оборудовании, а получаемые в результате печати материалы оформлены различными способами (сшивание скрепками, клеевое бесшвейное скрепление, фальцовка и т.п.). Варианты печати и послепечатной обработки выбираются при оформлении заказа. При этом для упрощения процедуры заказа предварительно могут быть настроены шаблоны, отражающие возможные способы оформления заказываемых материалов.
Полученные в результате материалы могут быть выданы читателю непосредственно в библиотеке или отправлены почтой по указанному при оформлении заявки адресу.
Таким образом, интеграционное решение Xerox для научных библиотек представляет собой совокупность аппаратного и программного обеспечения, поддерживающую следующие информационные технологии:
Данные технологии прошли экспертную оценку Ассоциации Региональных библиотечных консорциумов (АРБИКОН) и получили положительные рекомендации для использования в рамках интеграции с существующими библиотечными системами и web-порталами как составляющие современных библиотек.
Одним из краеугольных принципов создания и внедрения информационных систем такого масштаба является согласование целей проекта с общими целями, задачами и приоритетами основной деятельности научной библиотеки. Создание ПЭБ и наполнение ее электронными информационными ресурсами предоставляет ряд преимуществ по сравнению с информационными ресурсами на традиционных носителях:
Такой подход обеспечивает комплексное решение задачи создания современной высокотехнологичной информационной системы, позволяющей в максимально полном объеме удовлетворять разнообразные информационные запросы читателей и обеспечить качественно новый уровень функционирования научной библиотеки.