Информационное обеспечение науки. Новые технологии

Разработка технологии использования электронных источников

Батюшко А.А., Беляева Л.С., Омерда В.В., Пономаренко Т.П., Самоходкина Е.Г.
(Всероссийский институт научной и технической информации РАН)

Введение

До настоящего времени практически вся производственная технология ВИНИТИ ориентирована на обработку бумажного входного потока. Многочисленные проекты лишь усовершенствовали отдельные операции, но не меняли эту принятую ориентацию. Однако последние 10-15 лет характеризовались плавным переводом научно-технической литературы на электронные носители (CD ROM, дискеты, Интернет-издания), которые по ряду причин реально не вовлекались во входной поток (материалы распечатывались на бумажных носителях и только после этого поступали в обработку по традиционной схеме). Такие решения были рациональны до самого последнего времени, так как не были созданы условия для вовлечения электронных изданий во входной поток на производственной основе. Появлявшиеся во входном потоке публикации на электронных носителях имели самые разнообразные форматы записи, не была обеспечена регулярность поступления, форматы одного и того издания могли произвольным образом по желанию издающей организации видоизменяться. Формировать производственные технологии в таких условиях было экономически невыгодно.

В последние годы ситуация кардинальным образом изменилась. Появилось большое число конкурирующих агрегаторов научной и технической литературы, обеспечивающих унифицированный доступ к большим объемам информации. Транспортная среда доступа к удаленным источникам информации (Интернет) стала обладать достаточной пропускной способностью. Именно поэтому работы по вовлечению электронных изданий стали приобретать реальную производственную ценность.

При разработке подобных технологий следует иметь ввиду, что нельзя создать однородную единую систему, позволяющую работать со всеми типами информации, получаемых из любых источников. Во-первых, на технологию влияет вид информации (сериальная литература, книги, патенты и т.д.); во-вторых, источники русскоязычной литературы, являющейся основой входного потока ВИНИТИ, не имеют той стройной системы агрегации, которая характерна для зарубежных изданий. Кроме того, каждый конкретный источник имеет свои особенности доступа, которые требуют постоянной настройки и адаптации.

В статье излагаются результаты построения и опытной эксплуатации одной из ветвей технологии обработки электронных изданий, а именно, электронных изданий журнальной литературы.

Исследование возможностей формирования входного потока научно-технической информации ВИНИТИ на основе сетевых электронных ресурсов

Организация доступа к крупным полнотекстовым и реферативным Интернет- ресурсам, позволяющим наиболее рационально, с наименьшими затратами на адаптацию к системе ВИНИТИ, решать задачу обработки больших объемов информации, предусматривает осуществление последовательных действий, в частности:

    • изучение предложений и установление взаимоотношений с владельцами электронных ресурсов; организация в случае необходимости тестовых доступов к предлагаемым электронным ресурсам;
    • оформление и подписание лицензионных соглашений, определяющих права доступа, условия оплаты доступа, ответственных со стороны ВИНИТИ за администрирование и организацию доступа к приобретаемым сетевым ресурсам, а также необходимые данные о сетевых ресурсах ВИНИТИ (IP-адреса, полное имя домена, адресные данные);
    • подключение к сетевым ресурсам, проверка наличия доступа на компьютерах ВИНИТИ, исправление неполадок в случае сбоев в подключении.

Как правило, открытие доступа к электронным ресурсам не вызывает больших проблем. Если подписано лицензионное соглашение, осуществлена оплата и владелец или посредник получили все необходимые и правильные сведения от ВИНИТИ, доступ осуществляется в назначенные сроки.

ВИНИТИ в настоящее время имеет возможность использовать агрегированные реферативные и полнотекстовые ресурсы для корректировки входного потока и отбора в ИП ВИНИТИ наиболее качественного мирового потока журналов по всему тематическому спектру ИП ВИНИТИ. К таким ресурсам относятся:

    • полнотекстовые ресурсы, на которые ВИНИТИ имеет подписку через консорциумы и программы поддержки библиотек (НЭИКОН, РАН, РФФИ);
    • реферативные ресурсы – БД и электронные библиотеки, предоставляющие платный или бесплатный доступ к реферативной части и полным текстам подписанных ресурсов;
    • разрозненные полнотекстовые ресурсы, доступные на различных условиях ВИНИТИ через крупных агрегаторов.

К наиболее информативным, технологически и программно адаптируемым Интернет-ресурсам на данном этапе отнесены: полнотекстовые ресурсы – журналы Elsevier (платформы ScienceDirect), журналы издательств, поддерживаемых РФФИ (Kluwer, Springer, APS, AIP, IOP, RSC, Blackwell и др.); журналы издательства CUP; журналы, доступные в полнотекстовых БД Ebsco (EIFL). На сегодняшний день освоены электронные ресурсы НЭБ РФФИ и Science Direct.

Использование полнотекстовых журналов Научной электронной библиотеки (НЭБ) РФФИ. Из 1200 журналов, представленных на Интернет-платформе НЭБ РФФИ и выделенных в качестве потенциально необходимых для ВИНИТИ, в результате анализа по разработанным ВИНИТИ критериям (“импакт-фактор”, метод “многофакторной экспертизы” и экспертных оценок тематических редакций) были отобраны для приоритетной обработки 670 наименований зарубежных журналов, из которых в рабочем режиме в электронном виде было обработано 430 наименований.

В ходе работы по использованию электронных ресурсов совершенствовался механизм откачки резюме статей из журналов НЭБ с учетом многопрофильности информационных продуктов ВИНИТИ, то есть единовременно обрабатывались не полные комплекты журналов, а поквартальные выпуски приоритетных наименований по всему спектру тематических направлений. Это позволяет редакциям ритмично наполнять текущие выпуски соответствующих РЖ.

Использование журналов издательств, представленных на Интернет-платформе ScienceDirect издательства Elsevier. Интернет-платформа ScienceDirect издательства Elsevier, включает более 2000 названий журналов, распределенных по 19-ти тематических коллекциям, и предоставляет в открытом (бесплатном) доступе информацию до уровня рефератов статей всех журналов. Для технологической обработки во входной поток включены 70 наименования из 101 наименования коллекции Materials Science, которые доступны ВИНИТИ до уровня полного текста.

Технология учета, регистрации и библиографической обработки публикаций из электронных источников

В связи с сокращением поступления в ВИНИТИ изданий на традиционных бумажных носителях и увеличением количества разнообразных электронных ресурсов был разработан программно-технологический комплекс по включению в РЖ и БД электронных документов.

Технология обработки условно состоит из двух частей.

Первая часть зависит от структуры и формата исходного файла. Она включает в себя программные средства конверсии, аппарат настройки на алфавит и пр. Результатом является файл стандартного формата и кодировки: формат ISO-2709, поля данных представлены в соответствии с НТП ВИНИТИ 10-2004, кодировка в соответствии с алфавитом ВИНИТИ (НТП 15-99). При конверсии учитываются: шрифтовое выделение; юникодная кодировка; специальные названия тегов; верхний и нижний регистр.

Вторая часть – универсальная, включает в себя операции регистрации, загрузки, печати, корректуры документов. Зависимость от поставщика данных уже исключена, информация о нем сохранена в канале поступления и коде организации.

Технология отбора, учета, регистрации и библиографической обработки публикаций из электронных источников реализует обработку данных, начиная с откачки из электронной библиотеки и заканчивая поступлением их в информационные продукты ВИНИТИ:

Откачка данных из Интернет, формирование их в виде файлов

Отдел Комплектования входного потока НТЛ готовит план по откачке статей из выпусков сериальных изданий из расчета 10 тыс. статей в месяц. Планируемые объемы делятся между операторами, которые производят откачку документов из электронных библиотек. Результат представляет собой файлы со статьями в HTML-формате, которые автоматически помещаются в стандартный сетевой каталог Ѓ , предназначенный для дальнейшей обработки. Имена файлов уникальны, генерируются автоматически, содержат идентификатор оператора.

Разбор информации из файлов. Загрузка в Массив транзитных данных

Оператор участка электронной регистрации по мере поступления файлов в сетевой каталог Ѓ , обрабатывает откаченные файлы, анализирует протоколы, исправляет ошибки-отказы.

Первый этап обработки – конверсия файлов из HTML-формата в ISO-формат. Результат представляет собой файлы со статьями в ISO-формате, которые автоматически помещаются в сетевой каталог , предназначенный для дальнейшей обработки. Ошибки, возникшие в результате конверсии, должны быть тщательно проанализированы, новые кодировки символов включены в словари.

Второй этап обработки – загрузка данных из ISO-файлов, находящихся в сетевом каталоге , в транзитную таблицу.

Транзитная таблица содержит описания документов – статей из журналов – в унифицированной форме. Записи в транзитной таблице существуют не постоянно, а до тех пор, пока они не загружены в Массив документов. После этого они удаляются из транзитной таблицы, либо хранятся там ограниченное время для предотвращения повторной загрузки.

Для формализации процесса загрузки документов разработаны таблицы-словари, описывающие допустимые форматы: таблица-список форматов файлов, таблица, содержащая для каждого формата список допустимых меток, и таблица статусов – индикаторов состояния документов.

К обязательным элементам во входном файле данных относятся:

    • название журнала;
    • год издания СИ;
    • сведения о нумерации (номер и/или том и т.п.);
    • заглавие документа (статьи);
    • страницы (для статьи).

Регистрация электронных изданий

После загрузки статей в единую транзитную таблицу оператор участка электронной регистрации осуществляет регистрацию выпусков электронного сериального издания, заключающуюся в автоматической идентификации журнала и сведений о нумерации его выпусков. В результате каждому выпуску издания присваивается уникальный идентификатор. Ошибки-отказы в идентификации и регистрации передаются для исправления в группу Администратора БД.

Загрузка в технологическую базу данных

По расписанию каждую ночь зарегистрированные выпуски и статьи из них автоматически загружаются в Каталог поступлений ВИНИТИ и Массив документов.

Первый этап – загрузка зарегистрированных выпусков в Каталог поступлений ВИНИТИ (монографический уровень).

Второй этап – загрузка статей в Массив документов (аналитический уровень). Массив документов образует систему хранения документов (статей), предназначенных для отражения в информационных продуктах ВИНИТИ и находящихся в процессе обработки на различных технологических участках. При загрузке каждый документ получает свой уникальный идентификатор, происходит контроль на соответствие данных алфавиту ВИНИТИ и на дубли. Загрузки могут проводиться не только автоматически, но и, в случае сбоев или ошибок, вручную. Контроль последовательности загрузки: сначала должна быть загрузка в Каталог, затем в Массив документов – контролируется как на уровне СУБД, так и клиентских программ.

После выполнения этих операций на сайте ВИНИТИ в Каталоге поступлений можно просмотреть загруженные выпуски журналов и оглавления к ним.

Печать формуляров загруженных статей

Для дальнейшей обработки электронной статьи на нее готовится бумажный документ (формуляр), на котором печатаются уникальные идентификаторы и библиографические описания выпуска журнала и статьи, разбитые по полям. Если статья имела авторские ключевые слова и аннотацию, они так же выводятся на формуляр. На формуляре предусмотрено место для реферата, составляемого референтом, поля для индексирования, рубрицирования и сведений об оплате.

Оператор распечатывает формуляры к загруженным статьям, объединенным по выпускам изданий, и описи-оглавления статей в выпуске. Формуляры статей из выпуска и описи помещаются в конверты, к которым прикрепляются библиографические карточки. Т.е. формируется аналог выпуска, имеющий опись, подборку статей-формуляров, библиографическую карточку и технологический маршрут. Конверты передаются в Отдел Научной систематизации для библиографической и тематической разметки.

Для печати формуляров используется принтер с двусторонней печатью.

Тематическая разметка формуляров статей

Тематическая разметка заключается в определении по рубрикатору ВИНИТИ тематики статьи и направлении ее в редакцию, отвечающей за подготовку соответствующего РЖ и БД ВИНИТИ. Разметчик получает конверты с формулярами и проводит тематическую разметку статей, сгруппированных по выпускам изданий: определяет и проставляет штамп редакции. Около 50% обрабатываемых изданий размечаются автоматически.

Помимо этого происходит библиографическая обработка описаний статей (заглавий, сведений к заглавию, авторов и пр.) и контроль на спецзнаки, формулы и греческие буквы.

Конверты с результатами разметки передаются на следующий технологический участок для корректуры.

Завершение работы с формулярами

Оператор-корректор получает конверты-выпуски с формулярами, на которых проставлены коды тематической разметки и внесены необходимые исправления. Оператор вносит эту информацию в БД, после чего происходит завершение всех технологических операций: закрывается маршрут, происходит передача на хранение, аккумулируются данные о разметке.

Диспетчер разбирает обработанные конверты, раскладывая формуляры по редакциям в соответствии со штампом тематической разметки. Рассортированные материалы развозятся по тематическим редакциям.

Работа с формулярами в редакциях

Формуляры статей обрабатываются в редакциях по стандартной технологии подготовки выпусков РЖ ВИНИТИ.

Если информации на формуляре (библиографическое описание, авторская аннотация, ключевые слова) специалисту отдела научной информации недостаточно для обработки документа, он заказывают распечатки электронных копий (pdf-формат, возможно сохранение на электронном носителе) полного текста статей или получает их самостоятельно по адресу электронной библиотеки (электронный адрес указан на формуляре).

Экспорт данных

В ряд подразделений регулярно поступают ISO-файлы, содержащие описания документов на аналитическом уровне, зарегистрированные в Массиве документов и прошедшие корректорский участок. Цель этой технологической операции - сокращение объема ручного набора данных при производстве выпусков РЖ и БД ВИНИТИ и исключение ошибок в описаниях документов и указателях в части элементов данных аналитического уровня.

Диспетчеризация технологического процесса

Диспетчер электронного потока – центральная фигура технологического процесса.

Диспетчер работает как с выпусками журналов в целом, так и с отдельными статьями в выпусках. В его функции входит распределение и прием работы операторов и разметчиков, контроль над технологическим процессом, связь с другими подразделениями, экспорт данных, завершение технологического процесса, разбор ошибок и нестандартных ситуаций, получение сводок и др.

Программный комплекс

Система реализована в архитектуре “клиент-сервер”. В качестве СУБД используется MS SQL-2000. Клиентские программы разработаны при помощи систем программирования Delphi и Visual C++.

Для реализации автоматизированной технологии обработки документов из электронных источников разработаны специализированные программы:

  • откачка статей из электронных библиотек;
  • конвертор HTML-файлов в формат ISO;
  • регистрация выпусков сериальных изданий по электронным документам;
  • загрузка, печать формуляров, корректура и разметка документов (статей из выпуска журнала);
  • экспорт SQL-таблиц в ISO-файл;
  • диспетчеризация технологического процесса, получение сводок и отчетов.

Результаты эксплуатации

Экспериментальная обработка электронных изданий была начата еще в 2003 г., пробовались различные форматы данных, начиналась разработка технологии и программного обеспечения. Однако только в 2004 г. работа была переведена в опытно-производственный режим, с регулярным наращиванием входного потока. Со второй половины 2004 г. откачивалось из НЭБ РФФИ и поступало в редакции для подготовки БД и РЖ ВИНИТИ по 10 тыс. документов ежемесячно. С 2005 г. начата обработка материалов из Science Direct.

Отдел Комплектования входного потока НТЛ регулярно обновлял и расширял перечень изданий, подлежащих обработке, в соответствии и запросами редакций и их реакцией на поступающий входной поток статей. Именно эти источники и формировали требуемый ежемесячный объем в 10 тыс. статей.

Характеристики входного потока обрабатываемых изданий. Реальный входной поток электронных изданий, прошедших обработку в 2004 г. – 2005 г., составил 512 наименований журналов, получение которых в печатном виде стало невозможно.

Из 512 отобранных для обработки изданий 166 являются ядерными для ВИНИТИ, 260 – полноразметочными.

Заслуживающим внимания является то обстоятельство, что во второй половине 2004 г. практически не увеличилось поступление статей в редакции. При том, что 10 тыс. статей ежемесячно поступают в редакции в виде формуляров (электронная регистрация), очевидно замещение бумажного потока электронным.

Временные характеристики получения и обработки НТЛ. Издания из электронных библиотек находятся под непрерывным контролем Отдела Комплектования входного потока НТЛ, и все новые выпуски сразу после выставления их на сайтах электронных библиотек откачиваются для обработки в ВИНИТИ. Причем зачастую это происходит даже с опережением: в ноябре доступны декабрьские номера и т.д.

Сокращение времени обработки происходит за счет исключения из технологического процесса двух операций: библиографического контроля и ксерокопирования статей. По временным нормам на технологические этапы весь процесс от откачки до поступления материалов в редакции не должен превышать 7 рабочих дней.

Затраты на производственную эксплуатацию. Процесс обработки электронных изданий по сравнению с традиционной бумажной технологий включает новые технологические операции: откачка и загрузка статей из электронных библиотек, печать формуляров загруженных статей (этот этап потребляет основную часть материальных ресурсов), внесение результатов разметки и корректорской правки.

Однако наряду с новыми затратами снижение себестоимости происходит за счет автоматизации операций регистрации журналов и разметки (около 50%), исключения процессов библиографического контроля и ксерокопирования статей, замены ручного набора описаний статей их электронными версиями.

Разработанная и внедренная в опытно-промышленную эксплуатацию технология направлена на обеспечение автоматизированной массовой обработки электронных изданий непосредственно с исходных файлов, а также предоставление возможности дальнейшей обработки документов из таких изданий с включением в конечные информационные продукты – без ручного ввода элементов данных, - за счет полного использования информации, содержащейся в исходных файлах.

Параллельно продолжаются исследования возможностей расширения комплектования входного потока на основе электронных источников. Главное внимание уделяется крупным издательствам и электронным библиотекам, которые могут предложить большие коллекции аннотированных публикаций из периодических и продолжающихся изданий по профилю ВИНИТИ.

Литература

1. Шапкин А.В. Автоматизированная система комплектования и регистрации входного потока ВИНИТИ. Ч. 1 // НТИ. Сер. 1. – 2005. - № 4. – С. 16-31.

2. Егоров В.С., Малинина К.О., Шапкин А.В. Электронные издания на входе ВИНИТИ: средства регистрации и включения документов в информационные продукты // НТИ-2002. Информационное общество. Интеллектуальная обработка информации. Информационные технологии. Материалы 6-й международной конференции (Москва, 16-18 октября 2002 г.). – М.: ВИНИТИ, 2002. – С. 382-385.