НОВЫЕ ТЕХНОЛОГИИ В ИНФОРМАЦИОННОМ ОБЕСПЕЧЕНИИ НАУКИ

К созданию электронных коллекций
старопечатных книг в Библиотеке
Российской академии наук: на примере
работы над двумя проектами

А.Ц. Масевич, Е.А. Савельева, А.К. Багажков
(Библиотека академии наук)

Перед учреждениями - хранителями значительных коллекций старопечатных книг стоят две взаимоисключающие задачи. С одной стороны, необходимо давать информацию об этих фондах, вводить её в научный оборот, делать сами документы доступными возможно большему числу читателей. С другой стороны, каждое предоставление оригинала старопечатной книги читателю отрицательно отражается на её физическом состоянии.

Общепринятым решением проблемы является создание массива цифровых копий старопечатных книг, иначе говоря, электронных коллекций. В настоящем докладе излагаются принятые в БАН России подходы к созданию таких коллекций, предусматривающие комплексное решение задачи. Эти подходы предусматривают разработку основных принципов систем, методики работы, основных функций программных средств, структуры массива цифровых копий, доступа к нему, поиска документов, создания и индексирования метаданных (научных описаний старопечатных изданий). Все эти вопросы рассматриваются на примере реализации БАН двух проектов.

Определение электронной коллекции БАН. Под электронной коллекцией мы понимаем информационно-поисковую систему, содержащую массив электронных текстов, в частности электронных копий документов, и метаданных об этих документах (массивов описаний или каталог электронной коллекции), а также комплекс программных и аппаратных средств обеспечивающих создание и модификацию данных, доступ пользователей к данным, выгрузку и обмен данными. Кроме того, система должна иметь средства генерации информационных продуктов различного типа: гипертекстовые системы (форматы HTML и PDF), оригинал-макеты печатных изданий.

Основные принципы разработки

Многоаспектность и междисциплинарный подход. Электронная каталогизация редких изданий - сложная междисциплинарная и многоаспектная проблема. Её решение предусматривает участие книговедов, каталогизаторов, историков, искусствоведов, системных аналитиков, программистов, специалистов по консервации и реставрации документов.

Совместимость. Создаваемые системы должны быть взаимосвязаны с другими системами БАН. Они встраиваться в автоматизированную систему БАН. Все основные проектные решения должны соответствовать национальным и международным стандартам. Система при этом должна иметь средства загрузки, выгрузки и двустороннего конвертирования метаданных в принятом в стране формате библиографической записи. (Российская версия формата UNIMARC-RUSMARC).

Однократный ввод и многоцелевое использование данных. Электронная копия издания, а также метаданные, её сопровождающие (электронная библиографическая запись) создаются однократно с возможностью дальнейших модификаций, а в дальнейшем предполагается её многоцелевое использование:

  • Создание информационных продуктов различного типа: баз данных, гипертекстовых систем, печатных изданий (библиографических указателей, печатных репродукций документов);

  • Массивы метаданных (электронный каталог коллекции) могут быть использованы для ретроспективной конверсии карточных каталогов. При этом метаданные об объектах могут быть представлены пользователю с той степенью детализации, которая требуется для удовлетворения конкретной информационной потребности, в виде организованного массива сканированных изображений (электронных копий документов), отдельных подмассивов, копии или описания отдельных документов или их фрагментов.

  • Предполагается использование систем в качестве справочного аппарата для научно-исследовательской работы.

  • В будущем системы могут быть использованы для мониторинга физического состояния документов и учета и планированию работ по реставрации и консервации документов. Для этого остается возможность ввода соответствующей информации (данных о физическом состоянии).

Возможность модификации данных. Электронные коллекции представляют собой открытые системы. Это означает, что при использовании коллекций данные могут подвергаться модификации. Например, в момент создания системы могут быть созданы полные копии документов или копии их фрагментов, представляющих особый научный или художественный интерес. В тех случаях, когда создаются копии отдельных страниц книги (как правило, в случае ориентации разработки на определенный информационный продукт, электронное или традиционное издание) впоследствии при необходимости могут быть отсканированы и другие страницы.

В свою очередь метаданные могут содержать лишь краткую опознавательную информацию о книге или детальное научное описание.

В ходе использования системы краткая запись может быть при необходимости и при наличие возможности дополнена и превращена в научное описание со значительной степенью детализации, а сам документ полностью отсканирован.

Автономное использование элементов системы. Электронные копии документов и метаданные, а также их фрагменты могут быть использованы независимо друг от друга.

Краткие описания проектов.

Мультимедийная система "Издания Санкт-Петербургской Академии наук и академической типографии в 18 веке".

Предполагаемые результаты проекта:

Базы данных библиографических и авторитетных записей.

Массивы графических изображений, включая полные копии документов.

Информационный продукт: Гипертекстовая система (HTML), доступная в режимах ON-LINE и OFF-LINE.

Проект выполняется при поддержке РГНФ (грант 00-05-12019в проект иссл.)

Система содержит библиографические записи на издания Академии наук с 1726 по 1825 года, а также издания, напечатанные в этот же период типографией Академии наук, хранящиеся в фондах отдела изданий Академии наук и НИИ отдела редкой книги БАН. Примерное количество книг в фондах Академического собрания и в Бронированном фонде БАН около 2000 единиц.

Предполагается создание детальных библиографических описаний изданий. Кроме того, в ходе реализации проекта принято решение осуществить роспись содержания периодических изданий. При этом каждая библиографическая запись индексируется предметной рубрикой. Создаются авторитетные записи на авторов и персоналии.

В соответствии с планом работы над системой по созданию электронных копий документов должно предшествовать создание массива метаданных. На настоящий момент составлено 660 описаний на книги и 1220 аналитических описаний, а также 600 авторитетных записей на авторов и лица, упомянутые в документе и на учреждения и предметные рубрики. Созданные в ходе реализации проекта авторитетные записи предполагается использовать в других подсистемах БАН. С другой стороны в этой работе учитывается опыт различных подразделений БАН. Например, в научно-исследовательском отделе библиографии и библиотековедения выпускается в печатном виде "Указатель к газете "Санктпетербургские ведомости". За почти 10 летний срок существования указателя в нем описано почти 16 тысяч имен. Каждой статье указателя имен (т.е. каждой персоне) присваивается индекс специально созданной классификации. (Военные, священнослужители и.д.). В авторитетных записях, созданных в рамках нашего проекта, используются накопленные нашими коллегами данные и их классификация.

Из вышеизложенного можно заключить, что данная система не вполне отвечает нашему определению электронной коллекции. В ней на настоящий момент преобладает текстовая информация. Однако, на следующем этапе (с сентября текущего года) в систему планируется ввести значительное количество графической информации - полностью сканированных книг, а также образцов книжной орнаментики. Кроме этого предполагается использовать графические данные в качестве иллюстративного материала (например, портреты персон).

Рис. 1. Представление краткой биографической справки, созданной на основе авторитетной записи.

На предварительном этапе разработки осуществлено полное сканирование одного документа (рис.2), а также некоторых материалов по книжной орнаментики, разработана методика сканирования, созданы программные средства, которые описываются ниже.

Рис. 2. Просмотр полной копии книги в режиме preview
Электронная коллекция "Издания типографии Свято-Успенской Почаевской лавры (17 - нач. 20 веков) в собраниях научно-исследовательского отдела редкой книги и славянского фонда БАН".

Проект выполняется при поддержке института "Открытое общество", грант RFG024

Ожидаемые результаты проекта: Электронные копии документов. База данных книжной орнаментики изданий Почаевской лавры. База данных научных описаний документов.

Информационные продукты: Гипертекстовая система, доступная в режимах ON-LINE и OFF-LINE (см рис. 3), печатное издание.

Рис. 3. Страница гипертекстового варианта электронной коллекции "Издания типографии Свято-Успенской Почаевской лавры (17 - нач. 20 веков) в собраниях научно-исследовательского отдела редкой книги и славянского фонда БАН".

Собрание изданий типографии Почаевской лавры в собрании научно-исследовательского отдела редкой книги БАН сравнительно невелико - около 120 названий и 150 единиц хранения, но оно, тем не менее, хорошо представляет издательскую деятельность Почаевской лавры, одного из важных центров украинского книгопечатания XVIII - XX веков.,

Кроме этого в систему введены записи на так называемые псевдопочаевские старообрядческие издания, то есть издания, где Почаевская лавра ложно указана в выходных данных в качестве места издания.

Всего в систему введено 205 детальных научных описаний каждого экземпляра коллекции в формате UNIMARC-БАН. На сегодняшний день создано 6 полных копий документов (общим объемом 900 страниц) планируется создание еще 9 полных копий. Во всех остальных документах (кроме псевдопочаевских книг) осуществлено сканирование тех страниц, на которых присутствуют элементы книжной орнаментики (иллюстрации, виньетки, наборные орнаменты, инициалы). Кроме того, во всех изданиях отсканированы образцы шрифтов Всего в настоящее время отсканировано более 980 изображений, причем каждое из них сохранено в нескольких файлах с различными форматами.

Кроме того описаны и частично отсканированы отдельные знаки бытования книг - владельческие знаки, экслибрисы, старые шифры хранения и т.д.

Помимо сканированных изображений планируется использование цифровых фотографий. На фотографиях представляется общий вид документа и некоторые его особенности: переплет, обрезы и т.д.

В гипертекстовой и печатной версиях систем предполагается создать серию традиционных указателей (указатели имен, заглавий, учреждений), а также указатель книжной орнаментики (указатели виньеток, инициалов, иллюстраций, наборных орнаментов). (рис 4)

Рис. 4. Фрагмент одного из указателей орнаментики (указатель наборных украшений, черновой вариант).

Помимо полных электронных копий документов и их фрагментов разрабатываемая система будет содержать научные публикации по истории книгоиздательской деятельности Почаевского монастыря, особенностям Почаевских изданий, истории собраний редкой книги БАН и др. Публикации будут представлены в форме гипертекстов со ссылками на текстовые и графические данные. В порядке эксперимента подготовлено издание книги "Акафист св. великомученицы Варвары" в транслитерации в современный русский алфавит с научными комментариями.

Краткое описание технологии сканирования, аппаратных и программных средств:

Научные описания документов создаются в среде CDS/ISIS в формате UNIMARC - БАН. В формат введен блок полей локального использования для описания каждого типа элементов книжной орнаментики. Специалист по старопечатной книге вносит в эти поля номер листа, на котором находится изображение, краткое описание и комментарий по нему. После этого каждому изображению автоматически по определенному алгоритму присваивается имя (набор цифр и однобуквенный код категории элемента орнаментики), которое автоматически вносится в поле. После этого система генерирует для каждой книги направление на сканирование - список подлежащих сканированию элементов с указанием страниц и некоторых идентификационных признаков изображения. При этом автоматически создаются в файле, а затем распечатываются закладки на соответствующие страницы. Книги с закладками и направлением поступают на сканирование, где полученным графическим файлам присваивается имя, указанное в направлении и на закладке. С этим же именем (но с другим расширением) система генерирует и файл HTML, который используется в гипертекстовой системе.

При создании полных копии книг используется автоматизированная система обработки массивов сканированных изображений, разработанная в отделе информатики и автоматизации БАН.

Сканер - HP ScanJet CX-2, разрешение 300 dpi, цветность 24 бита. Применение планшетного сканера безусловно имеет значительные отрицательные стороны. Однако приобретение дорогостоящеий техники - книжного сканера - в данный момент не представляется возможным.

Программы для обработки изображений - Adobe PhotoShop 5.5, DjVuShop 2

Форматы сжатия DjVu, jpg

Формат сканирования - tif, при этом объем одной страницы составляет в среднем 20 Мб, сжатое изображение в формате jpg занимает объем около 1 мб; сжатое изображение в формате DjVu в фоторежиме занимает 600 кб, в текстовом режиме - 40 Кб, при этом удается добится более высокого качества изображения, чем в формате jpg

Просмотр полных копий книг осуществляется посредством DjVu броузера, встроенного в internet explorer. При просмотре реализовано увеличения и уменьшение изображения, посмотр всех страниц в режиме предварительно просмотра (preview) (рис. 2) с выбором нужной страницы, листанием, увеличением фрагментов и другими сервисными возможностями.

Изображения фрагментов книг, элементов книжной орнаментики представляются в формате jpg

Заключение. Таким образом, оба проекта представляют собой комплексные, многоаспектные научные разработки. Особенностью нашей разработки является ориентация на детальное научное описание объекта, а не на краткое опознавательное описание. По этой причине наш проект требует значительных трудозатрат. Однако, как было показано, выше детальность разработки может быть определена при постановке задачи, а также изменена в ходе реализации.

В ходе реализации проектов разрабатываются и корректируются методические подходы, технические решения, технологические схемы, а также осуществляются содержательные. Результатом обоих проектов, помимо информационных продуктов, станет технологическая схема создания электронных коллекций старопечатных изданий с набором созданных программных средств.