ЭЛЕКТРОННАЯ БИБЛИОТЕКА “НАУЧНОЕ НАСЛЕДИЕ РОССИИ”: ТЕХНОЛОГИЯ НАПОЛНЕНИЯ
Калёнов Н.Е., Савин Г.И., Сотников А.Н.
Работы по созданию электронной библиотеки “Научное наследие России” (далее ЭБ) ведутся в рамках одноименной целевой программы Президиума РАН.
Основной целью создания ЭБ является предоставление всем желающим через Интернет информации о выдающихся российских ученых, внесших вклад в развитие фундаментальных естественных и гуманитарных наук, с возможностью ознакомления с полными текстами опубликованных ими наиболее значительных работ. Другой целью создания ЭБ является обеспечение сохранности оригиналов изданий, являющихся исторической ценностью — возможность работы с цифровыми копиями существенно снижает потребности в работе с печатными материалами, а каждая “книговыдача” на руки раритетных изданий сокращает срок их “жизни”. Третьей целью создания ЭБ является включение сведений об ученых и основных результатах их научной деятельности в Единое научное информационное пространство (ЕНИП) РАН. В этой части работа поддерживается РФФИ (проект 05-07-90116).
На начальном этапе реализации программы по созданию ЭБ необходимо было решить ряд принципиальных проблем, таких как выбор участников проекта, определение содержимого ЭБ, разработка технологии подготовки информации, разработка технологии загрузки и поддержки ЭБ, отработка технологии администрирования процессов наполнения и поддержки ЭБ. Остановимся подробнее на решении этих проблем.
Участники проекта
Общее руководство работой осуществляет Межведомственный суперкомпьютерный центр (МСЦ) РАН. Поскольку основные источники информации (полные тексты изданий) хранятся в фондах библиотек, в качестве исполнителей на начальном этапе разработки были выбраны центральные библиотеки РАН — БАН, БЕН (Центральная библиотека и ее отделения в Пущинском научном центре, Математическом и Физическом институтах РАН), ИНИОН. Основным разработчиком программных средств, обеспечивающих интеграцию ЭБ в ЕНИП, является ВЦ РАН.
В основу наполнения ЭБ был положен принцип скоординированной децентрализованной подготовки информации в сочетании с централизованной поддержкой хранилища данных.
МСЦ РАН осуществляет техническое обеспечение работ по оцифровке изданий — им предоставлены всем участникам бесконтактные сканеры и компьютеры для обработки изображений.
БЕН РАН (Центральная библиотека) обеспечивает технологическую поддержку процессов координации оцифровки изданий.
Наполнение ЭБ
Как уже указывалось, основной задачей ЭБ является предоставление информации об ученых и их публикациях, поэтому каждый раздел ЭБ, относящийся к конкретному ученому, включает три составляющих: сведение об ученом, список его основных публикаций, полные тексты наиболее значимых из них.
Сведения об ученом включают следующие элементы данных:
Сведения о публикациях представлены в виде перечня основных элементов библиографических описаний. Для каждой публикации они включают следующие элементы данных:
Издания, подлежащие оцифровке, кроме элементов библиографического описания, имеют ряд элементов данных, необходимых для диспетчеризации процессов оцифровки. К этим элементам относятся:
При формировании ЭБ, содержащих цифровые копии опубликованных изданий, наряду с чисто техническими проблемами, возникают проблемы, связанные с защитой авторских прав. В связи с этим, чтобы не заниматься достаточно сложной работой, связанной с получением разрешений на оцифровку изданий, было решено на начальном этапе формирования ЭБ ограничиться включением в библиотеку ученых, скончавшихся более 70-ти лет назад и полных текстов их книг, изданных до 1920-го года.
Круг ученых, на работах которых осуществлялась отладка технологии создания и поддержки ЭБ, выбирался с учетом охвата различных научных направлений специалистами — систематизаторами литературы БЕН РАН. В него было включено 75 ученых, работавших в области естественных и точных наук. Среди них — математики (Л. Эйлер, Н.И. Лобачевский, М.В. Остроградский, П.М. Чебышев и др.), физики и механики (М.В. Ломоносов, Н.А. Умов, П.Н. Лебедев, Н.Е. Жуковский и др.), химики (А.А. Воскресенский, А.М. Бутлеров, Д.И. Менделеев, Н.Н. Зинин и др.), биологи (К.М. Бэр, В.В. Марковников, К.М. Тимирязев, И.И. Мечников и др.), ученые в области наук о Земле (С.У. Ремезов, Ф.П. Литке, А.И. Воейков, Е.С. Федоров и др.), ученые в области технических наук (И.П. Кулибин, П.Л. Шиллинг, Н.П. Петров, И.А. Вышнеградский и др.). Источником сведений об ученых в большинстве случаев являлась информация, найденная на различных общедоступных сайтах в Интернет. Информация проверялась по энциклопедическим источникам, обрабатывалась, дополнялась копиями портретов и загружалась в технологическую систему (см. ниже).
Технология подготовки информации
Для осуществления координации действий участников создания ЭБ БЕН РАН поддерживает на своем сервере интерактивную систему, содержащую вышеперечисленные элементы данных, относящихся к ученым и их публикациям.
Система реализована на базе программного обеспечения SCIRUS [1, 2], разработанного специалистами БЕН РАН в рамках развития проекта “Наука России” [3], поддерживаемого РФФИ. Система обеспечивает развитые поисковые возможности (запрос может включать значения любых элементов данных системы, соединенных операторами булевой логики; в результате обработки запроса может быть выдан список персон или публикаций, отсортированный в заданном порядке по значению любого поля). Кроме того, она обладает гибким аппаратом настройки на различные элементы данных, различные права манипуляции с данными для разных пользователей, различные форматы экспорта данных.
В настоящее время система поддерживает ряд баз данных — БД публикаций сотрудников РАН, справочник по библиотекам ЦБС БЕН РАН, БД диссертаций, формируемая в интерактивном режиме несколькими организациями страны в рамках проекта РФФИ, руководимого О.А. Лавреновой (РГБ). Система доступна по адресу http://scirus.benran.ru/scirus. Войдя в систему под именем guest без пароля, любой пользователь может осуществлять поиск в представленных базах данных.
Реализация, настроенная на диспетчеризацию наполнения ЭБ, устроена так, что каждый участник может, войдя в систему по своему паролю, осуществлять поиск информации, просматривать все записи, вводить новые данные и редактировать старые, но только введенные под его именем. При поиске может быть задано ограничение — выбирать записи, введенные данным пользователем (в меню предлагается список имен, зарегистрированных в системе). Пользователь, наделенный правами администратора, может редактировать информацию, введенную любым участником системы.
Руководствуясь согласованным списком ученых, каждая организация — участник создания ЭБ, определяет издания из своих фондов, которые она считает целесообразным включить в ЭБ. После этого, зарегистрированный представитель этой организации входит в систему диспетчеризации и проверяет, не зарегистрирована ли уже в ней данная публикация. Если в системе публикация отсутствует, он ее вводит, выбирая из предлагаемого списка значений поля “Текущий статус” “Предложено к оцифровке”. Если публикация уже введена в систему, она пропускается и обрабатывается следующая.
Администратор ЭБ (сотрудник МСЦ РАН) периодически входит в систему диспетчеризации, отбирает все документы со статусом “Предложено к оцифровке” и принимает решение по каждой из них о целесообразности ввода в ЭБ. Если документ подлежит оцифровке, в поле “Рабочий номер” вводится номер данного документа, под которым он будет введен в ЭБ, и значение поля “Текущий статус” меняется на “Зарегистрировано”. Если по какой-либо причине документ оцифровывать нецелесообразно, значение поля “Текущий статус” меняется на “Оцифровке не подлежит”.
Представитель организации, предложивший издания для включения в ЭБ, входит в систему диспетчеризации и выбирает свои записи, имеющие текущий статус “Зарегистрировано”. После подбора изданий и отправки на оцифровку их текущий статус меняется — в это поле вводится значение “В работе”. После завершения процесса оцифровки статус записей меняется на “Оцифровано”, после передачи в МСЦ — на “Сдано”.
Таким образом, в каждый момент времени административная группа ЭБ может получить сведения, сколько и каких изданий находится в работе, сколько и кем оцифровано и т.п.
Загрузка данных о научном наследии в ЕНИП РАН осуществляется в специальном формате, базирующемся на XML и RDFS. Выходные данные в этом формате автоматически формируются в рамках системы диспетчеризации с помощью опции “Экспорт в формате ВЦ РАН” для отмеченных записей и отправляются по электронной почте в ВЦ РАН.
Оцифровка изданий для ЭБ осуществляется с разрешением 600 dpi в формате tif. После собственно сканирования операторы осуществляют дополнительное форматирование и очистку изображения. Каждое отсканированное и обработанное издание проходит дополнительную стадию редактирования — проверку наличия и качества всех страниц.
При обсуждении формы представления и хранения оцифрованных изданий было решено отказаться от распознавания отсканированного текста и держать отдельные страницы в виде файлов изображений. Это обусловлено значительной трудоемкостью процесса преобразования отсканированной информации в текстовую, особенно с учетом специфики создаваемой ЭБ — многоязычности, наличия в тексте различных формул и пометок на полях, которые в ряде случаев сами по себе представляют историческую ценность.
Для обеспечения навигационного сервиса, достаточного для решения задач, стоящих перед ЭБ на данном этапе, было решено обрабатывать оглавления изданий и предоставлять пользователю возможность автоматического перехода на страницы выбранного раздела. Это потребовало не только работы с оглавлениями (распознавание текста, а в ряде случаев — ручной ввод), но и специальной обработки всего массива отсканированных страниц, целью которой является установление взаимно однозначного соответствия между номерами страниц издания и порядковыми номерами их цифровых копий (во многих случаях порядковые номера файлов отсканированных страниц не совпадают с нумерацией, принятой в книге).
Загрузка и поддержка ЭБ
Данные, формируемые участниками проекта, в настоящее время направляются в два адреса — в МСЦ для помещения в хранилище ЭБ, и в ВЦ РАН для загрузки в демонстрационную систему. Информация об ученых и списки их публикаций, подготовленные участниками проекта и введенные в технологическую систему, выгружаются из нее по запросу в формате МСЦ (таблица EXCEL) и в формате ЕНИП (XML/RDF). При этом возможны два варианта технологии — (а) выгрузку осуществляют представители МСЦ и ВЦ и сохраняют экспортные файлы на своих компьютерах или (б) экспортные файлы формируют создатели и отправляют адресатам по электронной почте. В настоящее время в системе реализован вариант (б), который оказался предпочтительнее с точки зрения контроля за отправкой материалов (исполнители сами заботятся о передаче информации и изменяют статус отправленных записей).
Отсканированные страницы (tif-файлы, содержащие в имени рабочий номер документа и порядковый номер страницы, а также размеченные файлы оглавлений изданий) загружаются на ftp-сервера исполнителей и забираются оттуда по паролю представителями МСЦ и ВЦ.
В настоящее время сотрудниками ВЦ РАН разработана пилотная демонстрационная версия ЭБ, доступная по адресу http: //nasledie.enip.ras.ru. Система позволяет искать ученых и их публикации по ряду элементов данных, просматривать найденную информацию, в том числе читать полные тексты книг, включенных в ЭБ, с возможностью перехода от оглавления книги на нужный раздел, а затем на выбранную страницу раздела. Интерфейс системы позволяет увеличивать/уменьшать изображение, поворачивать его в случае текста, представленного в альбомном формате.
Администрирование ЭБ
Основные принципы, заложенные в технологию администрирования ЭБ, были изложены выше по ходу рассмотрения различных технологических аспектов наполнения и поддержки Библиотеки. Серьезный вопрос, требующий решения, связан с принципами отбора информации и определения очередности ее ввода в ЭБ. На начальном этапе создания ЭБ, когда основной задачей являлась отработка технологических решений, выбор круга персоналий и работ был осуществлен, в значительной мере, волюнтаристски. В дальнейшем должна быть отработана методика и критерии для отбора данных, подлежащих загрузке в ЭБ. Это могут быть либо экспертные оценки, полученные от специально выделенных экспертов по каждому научному направлению, либо результаты массового анкетирования ученых, либо данные, основанные на обработке общепризнанных энциклопедий. Вопросом является также степень полноты отражения работ ученых в ЭБ. Здесь также возможны альтернативные варианты — вводить все изданные работы данного ученого, вводить только монографии, вводить наиболее значимые (по мнению экспертов) работы и т.п.
Для решения этих и подобных вопросов, вероятно, должен быть создан Совет системы, включающий как специалистов в области создания ЭБ, так и ученых в различных научных областях.
Заключение
В течение года, прошедшего с начала работ по Целевой программе, отработана технология распределенного создания ЭБ “Научное наследие РАН”, решены технические вопросы оцифровки изданий и представления информации пользователям, отработана методика загрузки и поддержки ЭБ, введены в ЭБ данные о 75-ти российских ученых, отсканировано несколько сотен книг. Таким образом, созданы предпосылки для широкого развертывания работ по развитию ЭБ. Очевидно, что эти работы могут быть продолжены только при наличии постоянного финансирования, причем финансирования не РАЗРАБОТКИ, а ПОДДЕРЖКИ ЭБ, что, к сожалению, в нашей стране и, в частности, в РАН практикуется достаточно редко. Перерыв в финансировании этих работ приведет к их прекращению, и даже при последующем возобновлении финансирования мы будем отброшены на несколько шагов назад по сравнению с современным состоянием.
Литература