Методика обработки отсканированных изображений в проекте электронной библиотеки «Научное наследие России».

Малинин А.И., Кириллов С.А.
(Межведомственный суперкомпьютерный центр РАН)

Одна из главных задач при создании современной открытой электронной библиотеки – это правильная организация производственного процесса, который позволит наполнить библиотеку качественными, отвечающими современным требованиям электронными изданиями.
Прежде чем книга будет опубликована на Интернет-портале, она проходит длинную цепочку основных и вспомогательных операций на специализированных рабочих местах, которые включают в себя: подбор книг, ввод метаданных, сканирование, обработку отсканированных изображений, верстку электронной книги и др.
Одним из промежуточных, но важных этапов в указанной технологической цепочке является корректировка отсканированных изображений.
В проекте электронной библиотеки «Научное наследие России» применяются планетарные бесконтактные сканеры Minolta PS7000 и Copybook i2S. Они безопасны для ветхих и ценных изданий, а их производительность достаточна для того, чтобы оцифровать большие массивы библиотечных фондов. Однако при таком способе сканирования неизбежно возникают геометрические и другие искажения, которые требуют исправлений. Это необходимо для правильности распознавания, для корректной верстки, для улучшения внешнего вида изображения, повышения удобства восприятия текста и др.
Основная причина появления геометрических искажений связана с тем, что оптические элементы сканеров очень чувствительны к положению сканируемых объектов. В идеале страница книги должна располагаться строго параллельно поверхности рабочего стола планетарного сканера, на практике (даже при использовании прижимного стекла и сложной системы книжных колыбелей сканеров) такого результата добиться очень сложно.
В нашей работе встречаются следующие основные виды геометрических искажений: искажения в форме трапеции, параллелограмма, клина и в форме волны.
Искажение в форме трапеции или параллелограмма зависит от того, на каком участке, в центре страницы или по ее краям, возникает изгиб.
В местах сгибов книги при слишком плотно сшитом переплете возникает искажение строк в форме клина.
Искажение строк в форме волны связано с различными формами деформации самой бумаги (например, из-за хранения книг в условиях повышенной влажности и других причин).
Процент страниц с геометрическими искажениями различной степени достаточно высок. В зависимости от состояния книги он варьируется от 5 до 100% страниц. Поэтому закономерно возникает необходимость автоматизировать исправление наиболее характерных искажений.
Работы по созданию программных продуктов по автоматизации обработки и реставрации отсканированных образов ведутся с конца ХХ века. После проведенного анализа программных продуктов разных разработчиков для проекта «Научное Наследие России» был выбран программный комплекс BookRestorer французской фирмы i2S.
BookRestorer представляет собой программный пакет, в который интегрированы: менеджер страниц книги, графический редактор и набор подключаемых модулей, специализирующийся на обработке сканов. Каждый из подключаемых модулей специализируется на определенной операции, это:

Дополнительно в программный пакет входит набор утилит, которые отвечают за организацию различных вариантов автоматической обработки.
Работа с BookRestorer возможна в 3-х режимах: интерактивном, автоматическом и потоковом.
В интерактивном режиме оператор работает с каждой книгой как с отдельным проектом. Он задает параметры команд для восстановления и улучшения отсканированных образов и тут же визуально контролирует выполнение заданных операций. Этот режим более всего подходит для работы с книгами, отсканированными в цвете, или для книг со сложным форматированием. Он позволяет экспериментировать и выбрать наиболее оптимальные параметры макрокоманд.
В этом режиме широко используются следующие модули:

Кроме этого, работа в интерактивном режиме позволяет создать и сохранить наборы скриптов для обработки разных типов книг. В нашем случае скрипт представляет собой строго упорядоченную последовательность макрокоманд, которые, в свою очередь, содержат в себе заданные параметры по обработке книги. Поскольку набор основных дефектов для бинаризированных сканов достаточно однотипен – неровные строчки, трапеции, пыль и т.д., нами были разработаны типовые наборы скриптов. Сохраненные типовые наборы скриптов могут быть затем использованы для работы в автоматическом и потоковом режимах работы.
Автоматический режим осуществляется с помощью заранее составленных скриптов в режиме заданного расписания. В этом режиме оператор формирует массив книг с одинаковыми искажениями (однотипных дефектов), указывает директорию, в которой располагаются файлы, время запуска, название скрипта и запускает программу. Затем весь процесс происходит автоматически в фоновом режиме без участия оператора.
После выполнения операции качество обработки можно проверить с помощью встроенного модуля контроля качества. Следует отметить, что этот режим в нашей работе используется эпизодически.
Значительно чаще в нашем проекте используется потоковый режим.
Потоковый режим аналогичен автоматическому, за исключением того, что все процессы происходят в режиме реального времени по мере поступления файлов. Организован он следующим образом. На сервере запускается утилита Book Restorer's™ Watcher, которая автоматически ведет постоянный мониторинг директории, в которую по сети поступают файлы. Получив файл, сервер пакетной обработки страниц обрабатывает его с помощью скрипта, содержащего в себе макрокоманды, которые последовательно выпрямляют строки, абзацы и страницу в целом; удаляют графическую пыль и не слишком крупные пятна; поворачивают страницу, обрезают поля. После этого обработанный файл перемещается в директорию с исправленными книгами.
Такой способ позволяет максимально эффективно задействовать доступные вычислительные ресурсы, в том числе и в ночное время, и требует лишь периодического присутствия оператора. Сервер обслуживается одним техником. Скорость обработки до 900 страниц в час для сервера с процессором Intel PentiumIV 3GHz и масштабируется с увеличением мощности процессора.
На этом этап машинной обработки отсканированных образов завершается, и начинается их проверка оператором в ручном режиме. Это связано с тем, что на сегодняшний день существующие программные алгоритмы обработки отсканированных образов не позволяют полностью автоматизировать этот участок работы.
При подготовке этого этапа был разработан набор простых, максимально стандартизированных операций, которые дают возможность быстро и при этом качественно обработать книгу.
Обработанные в BookRestorer страницы передаются оператору для проверки и коррекции. Он получает две папки, в одной из которых содержатся страницы книги, обработанные в BookRestorer, в другой – необработанные страницы, полученные непосредственно со сканера.
Как правило, более 80% страниц, прошедших обработку в BookRestorer, не требуют дополнительной обработки.
Работа в XnView достаточно простая и комфортная. Оператор в программе XnView открывает книгу с TIFF-файлами и, развернув изображение страницы во весь экран, последовательно перелистывает страницы, проверяя правильность нумерации, наличие всех страниц, качество сканирования и степень читаемости текста (не менее 98% информации, представленной на странице, должно быть читаемо), качество автоматической обработки отсканированных страниц (корректная обрезка страниц, геометрическая коррекция текста, изгибов текста и иных искажений).
Наиболее часто встречающийся дефект – непропорциональные поля страницы. Размер пустых полей вокруг текста должен быть одинаковым. Если одно из полей больше другого, выполняется обрезка страницы.
Нередко возникает необходимость повернуть изображение на странице.
Следующая операция, часто применяемая при обработке черно-белых (бинаризированных) изображений – удаление нежелательных или посторонних объектов на странице: пальцев оператора, теней, графического шума, возникшего в результате бинаризации изображения и др.
Основное назначение работы в XnView – проверить и исправить результаты автоматической обработки. Если результаты работы BookRestorer оказались неудовлетворительными (например, при автоматической обработке произошло искажение формул, графиков, таблиц), тогда оператор обращается к директории, в которой содержатся необработанные страницы, полученные непосредственно со сканера, файл заменяется и с помощью контекстного меню XnView направляется на редактирование в программу Adobe PhotoShop.
Все вышеперечисленные операции выполняются достаточно просто - путем выделения необходимого фрагмента текста и одного-двух нажатий клавишей мыши. Временные характеристики этого этапа следующие: проверка качества страницы 1-2 секунды, обрезка страницы 3-4 секунды, поворот до 5-7 секунд. Программа должна быть предварительно настроена: установлены параметры автоматического сохранения файлов раздельно для цветных, в градациях серого и черно-белых изображений, пиктограммы наиболее часто встречающихся операций должны быть вынесены в зону панели инструментов, цвет фона подложки должен быть установлен как белый, определены «горячие» клавиши и др.
При необходимости программа XnView используется для пакетного переименования или преобразования формата файлов.
По правилам нашей системы все файлы книги должны иметь одинаковое разрешение (400 или 600 dpi), иметь определенный формат и параметры сжатия: для цветных изображений и изображений в градациях серого – в формате TIFF с применением LZW-компрессии, черно-белые в формате TIFF с применением компрессии CCITT G4. Программа XnView позволяет просмотреть и изменить атрибуты и параметры каждого файла.
Страницы книг, имеющие нестандартное форматирование, насыщенные формулами, диаграммами, схемами и рисунками, не всегда подходят для автоматической обработки. В таких случаях окончательная обработка файлов изображений производится с помощью программы Adobe PhotoShop (версии CS2, CS3). Часто наши партнеры указывают, что программа Adobe PhotoShop очень сложна даже для подготовленного пользователя, и им достаточно сложно организовать рабочую группу по обработке файлов в этой программе. Действительно, Adobe PhotoShop насыщен инструментами, которые позволяют выполнять сотни операций, а изучению дополнительных плагинов, которые расширяют возможности редактора, можно посвятить годы. Однако практика показывает, что в 99% случаев используется довольно узкий набор инструментов, которые можно освоить в течение нескольких дней.
Начиная работу с Adobe Photoshop, оператор соответствующим образом настраивает программу и преобразует исходные файлы, исходя из разработанных для проекта электронной библиотеки рекомендаций.
Поскольку набор операций с файлами, состоящими только из черных и белых пикселей, ограничен, необходимо преобразовать изображение страницы из битового формата в формат градаций серого.
Для файлов, отсканированных на Minolta PS7000, нужно установить для отображения пиксельной пропорции значение – «квадратная».
Также производится проверка геометрии страницы с помощью направляющих линий.
Теперь перейдем к операциям с файлами, которые выполняются в программе Adobe PhotoShop применительно к наиболее сложным изданиям.
Прежде всего, это операции по выравниванию страницы: поворот изображения, исправление искажений в форме трапеции и клина.
Значительную по объему часть работы составляет удаление нежелательных объектов. В зависимости от их расположения на странице и их характера возможно применение разных инструментов. Для черно-белого изображения достаточно выделить нужную область на странице инструментом «Прямоугольное выделение» и нажать клавишу Delete. Кроме этого, можно использовать инструмент панели управления «Ластик» (Eraser Tool).
Если на странице множество мелких точек, вызванных бинаризацией, можно использовать фильтр «Пыль и царапины» (Dust&Scratches).
Для удаления больших нежелательных объектов на страницах, сохраняемых в цвете или в градациях серого, целесообразно использовать инструменты «Штамп» (Clone Stamp Tool) или инструмент «Восстанавливающая кисть» (Healing Brush Tool). Инструмент «Штамп» позволят заменить поврежденные участки изображения другими пикселями, взятыми с соседнего участка этого же изображения. Для удаления клякс, небольших царапин и др. больше подходит инструмент «Восстанавливающая кисть» (Healing Brush Tool).
Приведенные выше операции позволяют откорректировать изображения, улучшить вид страницы и повысить читаемость текста. Однако следует отметить, что отсканированные страницы часто имеют и другие дефекты – чернильные или восковые кляксы, надписи или рисунки читателей, разрушенные участки страниц, когда мы можем только догадываться, какой текст был в книге. Необходимо учитывать, что целевая аудитория научной библиотеки – научные сотрудники, студенты и преподаватели, которые будут использовать наши книги в своих научных работах, цитировать их и пр. Читатель должен быть уверен, что видит оригинал книги, и любая ошибка при реставрации текста может повредить репутации библиотеки. Поэтому поврежденные элементы текста или остаются без изменений, или следует предупредить читателя, что текст книги прошел восстановление.
Итак, схематически работа по подготовке страниц к публикации состоит из трех технологических этапов: автоматическая обработка сканов, проверка автоматической обработки и ручная коррекция.
На первом этапе происходит автоматическая обработка сканов в программе BookRestorer.
Задача этого этапа – исправить типичные дефекты книги до приемлемого уровня.
На втором этапе, в программе XnView выполняется проверка графических образов страниц, прошедших автоматическую обработку.
Этот этап включает в себя:

На третьем этапе производится ручная обработка страниц в программе Adobe PhotoShop. Этот этап предусмотрен для наиболее сложных изданий, содержащих многочисленные формулы, таблицы, иллюстрации и т.п. Он включает в себя:

Такая методика работы, сочетающая в себе этапы автоматической и ручной обработки, позволила повысить норму выработки на одного оператора до 1200 страниц в смену. При работе исключительно в программе Adobe PhotoShop, т.е. при ручной обработке, норма составляет около 300 страниц в смену для одного оператора.
 Следует заметить, что данная методика рассчитана на публикацию книг в формате программы NDiss. Для верстки или публикации книг в других форматах (например, в формате Adobe PDF) у нас разработаны другие алгоритмы работы, которые при всех их особенностях в основных моментах базируются на предложенной выше схеме.