Электронная коллекция отдела рукописей
и редких книг Казанского
госуниверситета
С.К. Куранов, А.В. Скоробогатов,
В.Д. Соловьев, Е.Л. Столов
(Казанский государственный
университет)
Введение.
При создании электронных коллекций основное внимание уделяется современной литературе, в первую очередь, научной. Перевод в электронный формат старинных книг и рукописей практически еще не начинался. Проект создания электронной коллекции на базе отдела рукописей и редких книг библиотеки Казанского госуниверситета является одним из первых в этом направлении. В данной статье обсуждаются две основные проблемы, с которыми столкнулись разработчики проекта. Первая - это отбор литературы, определение последовательности перевода в электронный формат, вторая - создание системы распознавания символов, позволяющей перейти от графических файлов, получающихся при сканировании (или фотографировании на цифровую камеру), к текстовым файлам. В статье приводятся общие сведения о фондах отдела рукописей и редких книг и описывается созданная система идентификации шрифтов старинных книг.Этапы создания электронной коллекции. Авторы проекта руководствовались следующими основными критериями при определении последовательности перевода книг в электронную форму. 1. Наличие в библиотеке КГУ богатых книжных фондов, представляющих интерес для научного сообщества. 2. Легкость создания системы распознавания символов. 3. Возможность использования результатов проекта в научных исследованиях, проводимых в КГУ в настоящее время.
Исходя из этих критериев, решено начать создание электронной коллекции с книг 18-го века. Это связано с: 1) широким представительством книг 18-го века в библиотеке КГУ, наличием ряда очень редких и ценных изданий, 2) книги этого периода напечатаны гражданским шрифтом, относительно легким для распознавания, 3) исследованиями, проводимыми на кафедре истории русского языка КГУ, грамматики русского языка 18-го века, а также исследованиями, проводимыми на кафедрах истории русской литературы и отечественной истории до XX века.
В дальнейшем предполагается перейти к произведениям более ранних эпох.
Характеристика библиотечных фондов. По количеству изданий 18-го века Научная библиотека КГУ - одно из крупнейших книгохранилищ России, что связано с особенностями ее создания и комплектования ее фондов. Начало книжной коллекции положили собрания Г.А. Потемкина и секретаря Российской Академии художеств В.И.Полянского. В последующие годы библиотека Казанского университета пополнялась не только закупками, но и дарами профессоров университета и частных коллекционеров. Особенно значительное поступление книг 18-го века было осуществлено после Октябрьской революции, когда библиотеке КГУ были переданы частные дворянские библиотеки и библиотеки расформированных государственных и учебных заведений, в том числе Казанской духовной академии. К настоящему времени коллекция книг 18-го века составляет несколько тысяч томов. В ней представлены книги по многим отраслям знаний: математике, астрономии, географии, военному и морскому делу, истории, юриспруденции, экономике, сельскому хозяйству, медицине, философии и филологии, художественная литература.
Среди философских произведений большое место занимают переводы работ французских просветителей Вольтера, Руссо и др., а также различных статей из Энциклопедии Дидро и Д'Аламбера. Это естественно, поскольку при увлечении Екатерины II французским просвещением эти книги печатались огромными тиражами. Однако присутствуют и книги более редкие, например, труды Х. Вольфа, С. Пуффендорфа. Встречаются и книги русских мыслителей С. Десницкого, Д. Казинского и др. Широко представлена в собрании юридическая литература.
Художественная литература представлена довольно большим числом сочинений русских и западноевропейских писателей 18-го века. В числе русских писателей и поэтов издания М.В. Ломоносова, г.Р. Державина, А.П. Сумарокова, В.И. Тредиаковского, И.А. Крылова и др.
В настоящее время в Отделе рукописей и редких книг ведется работа по научной электронной каталогизации русских книг гражданской печати 18-го века. В ходе этих работ выяснилось, что к настоящему времени необходимо уже не только каталогизировать книги 18-го века, но и создать на их основе полнотекстовую электронную библиотеку.
Проблема распознавания символов. В настоящее время типографии, печатающие книги, имеют, как правило, стандартный набор шрифтов для тиражирования. Поэтому задача распознавания графического изображения современного книжного текста достаточно хорошо решается при помощи известных программных продуктов, например "Fine Reader". Но если в качестве объекта распознавания взять печатный текст русских книг прошлых веков, то возникают следующие проблемы:
Первая проблема решается при помощи настройки имеющихся программ распознавания. Но если оставить без внимания вторую проблему, то настройки придется производить заново, если шрифт следующего документа отличается по каким-либо параметрам. К тому же, если объединить все возможные шрифты в одной конфигурации программы распознавания, то качество распознавания станет хуже.
В связи с этим для повышения качества автоматического распознавания предлагается выполнить следующее:
Разделить множество шрифтов на классы по признаку схожести начертания путем создания соответствующего алгоритма классификации.
Для каждого выделенного класса шрифтов создать набор параметров настройки для программы распознавания.
Причем набор параметров настройки создается достаточно просто с использованием средств обучения программы распознавания текста. Напротив, создание универсального алгоритма классификации - нетривиальная задача.
Классификация, как правило, состоит из двух основных частей: выделения необходимых признаков объекта (шрифта или отдельной буквы) и работы решающего правила, разделяющего объекты на классы, исходя из полученных признаков.
Выбор параметров измерения для шрифта. Рассматривая проблему с исторической точки зрения, можно выяснить, что первоначально книги печатались лишь в нескольких типографиях. Причем каждая типография имела ограниченное количество технических средств для печати. Поэтому целесообразно выдвинуть гипотезу, что шрифты можно классифицировать исходя из технических параметров печатающих устройств.
Как известно, буквы для печати отливались в специальных формах и поэтому в качестве первого признака можно взять размер формы для отдельной буквы (с некоторой точностью он равен усредненному размеру одинаковых букв). К тому же отдельные буквы при наборе печатного листа помещались в специальные крепления. Размеры этих креплений, в частности межстрочное расстояние, также можно взять в качестве измеряемого признака.
Для проведения измерений разработана специальная программа для Windows с удобным графическим интерфейсом. Программа подсчитывает межстрочное расстояние и размер отдельных букв в отсканированном графическом изображении печатного текста. В качестве эталона измерений берется отсканированный
вместе с исследуемым документом круг известного размера.Но в связи с тем, что старинный печатный текст в отсканированном изображении имеет много погрешностей, результаты измерений программы практически невозможно использовать без усреднений. Для подсчета усредненного межстрочного расстояния было увеличено количество строк, участвующих в измерении. Пользователю предоставляется возможность выбрать их количество. Что касается букв, то здесь задача немного сложнее. Самый простой вариант - это предложить пользователю отметить нужные буквы самостоятельно, а затем произвести обобщенные измерения. Но в этом случае работа с программой потребовала бы слишком много времени. Чтобы сократить время работы, был реализован механизм поиска аналогичных букв по заданной букве. При этом возможность корректировки результатов поиска со стороны пользователя сохраняется. Таким образом, размер исходной формы для буквы измеряется с достаточной точностью.
Решающее правило классификации. Для классификации шрифтов по межстрочному расстоянию достаточно взять отсканированный вариант одной книги (эталона) и измерить межстрочные расстояния на достаточно большом количестве страниц. После этого необходимо определить среднее значение и максимально возможное отклонение межстрочного расстояния для данной книги, то есть для определенного класса шрифта. В дальнейшем, исследуемый шрифт, имеющий межстрочное расстояние, отличающееся от эталонного в заданных пределах, считается принадлежащим данному классу.
Далее эксперименты проводятся и на других книгах. В случае различия измеряемых параметров более допустимых значений, шрифт данной книги считается принадлежащим другому классу и измерения производятся снова.
Если шрифт книги попадает сразу в два класса, то предпочтение отдается тому классу, расстояние до эталона которого меньше. То есть классификация производится по кратчайшему расстоянию.
Кроме межстрочного расстояния для классификации можно использовать размеры нескольких букв. Причем, если использовать большое количество букв, то качество разделения на классы повышается. Вместе с тем повышается сложность алгоритма классификации и время выполнения задачи.
Эксперименты показывают, что для первых печатных изданий вполне достаточно классификации по межстрочному расстоянию и размерам одной буквы. Классификация по размерам нескольких букв бывает необходима для более поздних изданий, так как при производстве более поздней печатной продукции использовалось большое количество технических средств.
С развитием технических средств печати книг стало возможным при издании широко варьировать параметры размеров текста. В связи с этим использование прямых измерений в качестве параметров классификации становится нецелесообразным. В этом случае можно применять относительные величины измерений.
Например, можно рассчитать отношения размеров нескольких букв. В этом случае размер одной буквы берется в качестве эталона (её размер считается равным единице), а размеры остальных букв рассчитываются как отношение к эталонному. Таким образом, получаем вектор, характеризующий шрифт.
Размер вектора равен количеству рассматриваемых букв и подбирается таким образом, чтобы при достаточном качестве распознавания алгоритм классификации был достаточно простым и, соответственно, работал быстрее. Зависимость такова, что при рассмотрении большего количества букв качество распознавания повышается, но вместе с тем сложность и продолжительность работы алгоритма классификации возрастет.При помощи настройки подобных алгоритмов можно добиться того, что шрифт будет классифицирован программой в автоматическом режиме.