Информационное обеспечение науки Новые технологии

Информационное обеспечение науки. Новые технологии

Как скачать и сохранить онлайновый журнал

Шварцман М. Е.
(Российская государственная библиотека)

Автор полагает, что никого не нужно убеждать в том, что периодические издания вообще и журналы в частности содержат наиболее актуальную информацию, оперативно сообщают читателям о новых научных исследованиях и полученных результатах, событиях научной и культурной жизни. Именно поэтому научные библиотеки считают приоритетным комплектование своих фондов журналами.

В настоящее время появился новый вид журналов – онлайновые журналы. Они в свою очередь тоже весьма разнообразны и могут быть как онлайновой версией известного печатного издания с регистрацией, как СМИ, и наличием ISSN, так и результатом труда неизвестной группы энтузиастов. В любом случае эти журналы являются пластом российской культуры, и заслуживают внимания со стороны библиотек.

Для библиотек и индивидуальных пользователей журнальной периодики особенно важно знать о появлении новых онлайновых журналов, размещенных в сети Интернет и не потерять информацию, опубликованную ранее.

За рубежом такая информация , как правило, размещается на специализированных сайтах: тематических порталах и службах информирования о периодике, таких как Ulrich's International Periodicals Directory (http://www.rsl.ru/dc/r_fr_dc.asp?http://www.ulrichsweb.com), Publist (http://www.rsl.ru/dc/r_fr_dc.asp?http://www.publist.com), Periodicals (http://www.rsl.ru/dc/r_fr_dc.asp?http://periodicals.net) Directory of Open Access Journals http://www.doaj.org и других. Обратившись к специализированным сайтам, пользователь сразу получает важнейшую информацию: имеется ли интересующий его журнал в Интернете, в каком объеме там представлены его материалы, за какой период и на каких условиях (бесплатно или за плату). К сожалению, в Рунете подобных служб, предоставляющих весь комплекс информации по российским журналам, пока нет. Поэтому коллектив сотрудников Российской государственной библиотеки решил взяться за разработку портала российских научных журналов, размещенных в Интернете. Так возник проект "Создание архива российских научно-технических полнотекстовых журналов, опубликованных в Интернет", получивший поддержку РФФИ, грант 04-07-90056-в.

Главным компонентом портала стал каталог научных онлайновых журналов. Чтобы найти эти журналы сотрудниками РГБ была проведена огромная работа по выявлению в Рунете таких журналов. Поиск происходил при помощи Яндекса по ключевым словам, которые формировались из словесных наименований рубрик ББК по соответствующим областям знаний. Далее был сложный и мучительный процесс отбора нужной информации из найденного нами многообразия. Были разработаны довольно формальные критерии отбора. Ресурс считается журналом если:

ресурс имеет определенную тематическую направленность;
материалы объединяются в номера (выпуски); выпуски могут выходить нерегулярно, однако не реже раза в год;
если ресурс имеет фиксированную периодичность, она должна составлять не менее недели, причем каждый выпуск должен содержать материалы, значительные по объему и содержанию.

После применения формальных критериев происходил содержательный отбор. Поскольку трудно оценить ценность научных публикаций не будучи специалистом в данной отрасли, мы старались отсеивать только те журналы, которые были посвящены не научным направлениям. “Что считать наукой” вопрос очень сложный и для себя мы приняли критерии В.Г. Веселаго: Если по этой теме можно в России защитить диссертацию, значит это - наука.

В результате у нас получилась общедоступная база данных структурированных описаний в стандарте Dublin Core Metadata Element Set (DC MES) российских научных журналов, доступных через Интернет. В нашей базе постоянно находится около 700 описаний. Они отражают важнейшие характеристики журналов: название, ISSN, тематику журнала, издающую организацию, наличие в открытом доступе аннотаций (рефератов) и/или полных текстов статей, включение статей из журнала в различные базы данных и другие.

Однако, как показал опыт, журналы исчезают, появляются новые и их “период полураспада” исчисляется несколькими годами. Поэтому следующей задачей стало сохранить все журналы из нашей базы для потомков.

Обратившись к зарубежному опыту, мы увидели, что готового решения для подобного архива нет. Существует богатый опыт архивирования всего Интернета или его региональной части, также в некоторых странах архивируют отдельные сайты, отобранные вручную [1,2]. Наиболее похожим проектом является “Архив шведских журналов” http://www.kb.se/Nbp/el-perE.htm. В открытом доступе опубликован каталог шведских онлайновых журналов, а в закрытом архиве (закрытость определяется законами об авторском праве) хранятся копии журналов. Несмотря на довольно тесные контакты со шведскими коллегами, мы не смогли воспользоваться их опытом, поскольку они имеют строго определенную периодичность скачивания для каждого журнала и скачивают его обновления, в сотрудничестве с редакцией журнала. В программе деятельности Международного консорциума по сохранности Интернет ресурсов (International Internet Preservation Consortium) [3] предполагалось создание “интеллектуального” робота, позволяющего самостоятельно определять необходимую частоту скачивания сайтов, однако у них на сайте нет обновлений с 20 июля 2004 года.

Среди российских проектов можно отметить http://www.elibrary.ru/, создатели которого тоже намереваются поддерживать полнотекстовый архив российских журналов. Эту задачу они предполагают решить путем тесного сотрудничества с редакциями журналов и использования специального программного обеспечения для подготовки XML размеченного текста журнала. Такой текст впоследствии можно будет как загружать в электронную библиотеку, так и выпускать в печатном виде. В отличие от предыдущих проектов, мы же хотели в условиях минимизации ручного труда, архивировать многочисленные онлайновые журналы, автоматически отслеживая происходящие изменения и отбрасывая лишнюю информацию с сайтов, на которых они размещены. В том числе, нам бы хотелось охватить также ряд журналов, не имеющих постоянной редколлегии, выпускаемых группами энтузиастов, с которыми трудно налаживать договорные отношения, но которые тоже являются частью нашей российской науки и культуры. В связи с этим мы начали разрабатывать программное обеспечение, которое должно удовлетворять следующим требованиям:

Закачка ресурсов с элементами даты в адресе. Такие ресурсы могут запрашиваться как за текущую дату, так и за нужное число дней назад/вперед (получение прошлых номеров журналов).
Закачка серийных ресурсов (с нарастающим номером). Загрузка только в случае обновления файлов на сайте (с изменившимся размером и/или датой создания).
Докачка ресурсов, возможность выкачивать из сети целые директории.
Планировщик: старт заданий по расписанию с настройкой времени старта и остановки.
Закачка сайтов или их частей. Глубину "вложенности" ссылок можно регулировать. При этом перекрестные ссылки между страницами по возможности преобразуются, для сохранения "ссылочной целостности".
Публикация загруженных файлов на FTP-сервер.
Поддержка неограниченного числа списков закачек, легкий перенос закачек между списками.
Многопоточная загрузка.
Механизмы пост-обработки закачанных файлов - поиск строк с заменой или вырезанием (удаление баннеров, смена дизайна, выделение только нужной информации) -

Структура онлайновых журналов

Поскольку одна из главных задач проекта – разработка максимально автоматизированной технологии архивирования, мы исследовали возможность создания системы автоматического скачивания новых выпусков по мере их поступления на основе прогнозирования имен файлов для новых выпусков. Большинство журналов (примерно 50% из просмотренных) организуют архив журнала одним из следующих способов:

1. На одной странице (архив журнала) размещаются ссылки на все опубликованные номера журналов. По имени каждого файла (или пути к нему) можно определить год выпуска, № тома или выпуска и т.п.

2. Все ссылки на номера журнала находятся на одной странице, при этом все файлы с оглавлениями журнала находятся в одной папке, а полные тексты статей находятся в другой папке.

3. Для каждого года или для каждого выпуска журнала создается новая папка. Полные тексты статей (если таковые имеются) обычно размещаются в этой же папке, но бывают случаи, когда они хранятся отдельно от оглавления журнала (в других папках).

4. В некоторых журналах новые номера добавляются в виде картинок (как правило, обложек журнал), с которых делается ссылка на нужный файл.

Рассмотренные выше способы организации архивов удобны для архивирования т.к. легко определить название файла или папки, которые должны появиться при выпуске следующего номера журнала. Но даже при такой структуре архива возникают непредвиденные ситуации: журнал может выходить с разной периодичностью, иногда выходят сдвоенные номера журналов, помимо архива номеров, журнал может содержать и другие материалы, встречаются журналы, публикующие специальные выпуски.

Программное обеспечение для архива

Основными проблемами, которые нам предстояло решить, были: как скачивать журналы и как их потом хранить. После изучения рекомендаций OSI по выбору программного обеспечения для создания институтских репозитариев, были определены основные требования к нашей системе (поддержка OAI-MH и DC), и выбрана система GREENSTONE (http://www.greenstone.org/). Эта система распространяется с открытыми кодами, и, благодаря этому, нам удалось доработать отдельные модули для решения наших задач

В процессе эксплуатации ПО Greenstone оказалось, что возможности пакета не позволяют создавать полностью функциональные архивы сайтов. Причинами этого являются нерациональное использование программы скачки сайтов wget и некорректная поддержка кодировок русского языка. Мы выделили процесс скачивания сайтов в отдельный программный модуль. Этот модуль был написан на языке PHP и использовал более совершенную версию программы wget 1.9.1. Основной задачей модуля было скачивание сайта и подготовка его для дальнейшей обработки пакетом Greenstone. В процессе скачивания HTML-документы дополняются информацией (метаданными) как о самом процессе скачивания (например, дата скачивания документа), так и о самом документе (кодировка документа, язык документа). Эти метаданные извлекаются из заголовков протокола HTTP, выдаваемых сервером. При скачивании автоматически удаляются рекламные баннеры и другая информация, не имеющая отношения к журналу.

Изложенные в предыдущей части варианты структуры журналов были учтены при создании скачивающего модуля и структуры базы метаданных. Для полного и неизбыточного скачивания приходится задавать разрешение на скачивание внешних ссылок заданной глубины.

Помещение метаданных о языке и кодировке HTML-документа в сам документ позволило решить проблему с поддержкой кодировок русского языка пакетом Greenstone.

В целом, работа с пакетом Greenstone производит, благоприятное впечатление, среди достоинств пакета можно указать его цену (он бесплатный), поддержку платформ Windows и Linux, наличие подробной документации на русском языке, наличие оперативной и бесплатной технической поддержки со стороны разработчиков в специальных списках рассылки, протоколов Z39.50 и OAI.

Юридические проблемы

Приступая к созданию архива, мы ставили перед собой задачу выполнения всех требований законодательства по авторскому праву, но как показал опыт, это оказалось довольно сложно. Причем основная сложность в довольно сильной правовой неграмотности большинства российских авторов и издателей и, более того, в нежелании что то менять в сложившейся ситуации. Нами был разработан типовой договор на разрешение скачивания журнала и размещение его в открытом доступе в архиве в Российской государственной библиотеке. Этот договор и письмо с нашими предложениями мы разослали в 100 журналов. Большинство ответивших искренне недоумевало, зачем нужен договор, если их журнал, находящийся в открытом доступе, можно скачать и так. Выразившие же согласие подписать такой договор, как оказалось, не имели права этого делать, поскольку ни в одном из журналов не заключалось авторских договоров. Лишь в немногих журналах на сайте была надпись про то, что разрешается перепечатка. Многие журналы, как оказалось, издаются неформальным объединением, не имеющим юридического лица, и непонятно, с кем нужно заключать договор в таком случае. Все эти проблемы пока находятся в стадии решения, и, надеюсь, в ближайшее время мы их решим.

Литература

1. Research and Advanced Technology for Digital Libraries: 8th European Conference, ECDL 2004, Bath, UK, September 12-17, 2004. Proceeding./Editors: Rachel Heery, Liz Lyon ISBN: 3-540-23013-0

2. 4th International Web Archiving Workshop (IWAW04), http://www.iwaw.net/

3. International Internet Preservation Consortium, http://www.netpreserve.org/