СОВРЕМЕННЫЕ ТЕХНОЛОГИИ В ИНФОРМАЦИОННОМ ОБЕСПЕЧЕНИИ НАУКИ

МЕТОДИКА ВЫЯВЛЕНИЯ И
АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ
ИНТЕРНЕТ-РЕСУРСОВ ДЛЯ
НАВИГАЦИОННОЙ СИСТЕМЫ

Т.В. Наук
(НТЦ "Информрегистр")

Научно-техническое развитие общества, достижение текущих и долгосрочных социально-экономических целей немыслимо без такого стратегически важного ресурса, как информация. По экспертным оценкам научно-техническая информация составляет 15% мировых информационных ресурсов. Бурное развитие в последние годы информационных технологий и телекоммуникационных сетей вносит изменения в приоритеты информационных ресурсов, в том числе и научно-технической сферы деятельности. На первое место выходят электронные источники информации и не менее значимые ресурсы сети Интернет.

Наряду с классическими базами данных, в основном библиографическими и реферативными, доминировавшими в информационном обслуживании науки до середины 1990-х гг., научные учреждения и службы научно-технической информации стали создавать самые разнообразные коллекции научных документов и данных, рассчитанных как на общее, так и локальное использование. Это полнотекстовые коллекции научно-технических документов, электронные карты, электронные энциклопедии и справочники, научные форумы и дискуссии, компьютерные модели различных научных объектов, массивы данных, полученных в результате экспериментов и наблюдений и др. С точки зрения организации доступа, эти коллекции представлены общедоступными веб-сайтами, базами и хранилищами данных, размещенными в Интернете, массивами, доступными через локальные сети, а также электронными изданиями, распространяемыми на тиражируемых носителях - CD или DVD. Существенно повысилось также разнообразие структур данных ресурсов научной информации. Кроме обычных текстов и цифровых данных, активно создается и распространяется информация в виде графики, ГИС, анимации, ЗD-представлений, аудио, различных интерактивных систем и др. К тому же многие из этих видов структур данных могут быть представлены достаточно широким набором языков разметки, форматов, кодировок, и других формальных способов. Расширяется использование Интернет-технологий информационными центрами и библиотеками для обслуживания потребителей информации. Наблюдается тенденция к постепенной конвергенции и трансформации функций информационных центров и библиотек с целью оказания эффективной помощи любым пользователям по поиску необходимых им сведений в мировом информационном пространстве.

Рассмотренные выше позитивные изменения в структуре и составе научно-технической информации открывают новые перспективные пути повышения эффективности использования накапливаемых информационных ресурсов для удовлетворения информационных потребностей граждан, информационного обеспечения социальной и экономической сферы и процессов государственного управления.

Однако именно в области использования Интернет-ресурсов остаются нерешенными многие принципиальные проблемы. Одной из таких проблем является создание условий для эффективного использования Интернет-ресурсов, что, прежде всего, подразумевает эффективную организацию ресурсов и предоставление эффективной процедуры их поиска.

Эффективная организация ресурсов связана в основном с информационно-технологическими проблемами и требует не столько государственного регулирования, сколько организации совместных действий государственного и частного секторов Интернета в области стандартизации и унификации. Основными практическими задачами этого направления являются:

    • идентификация информационных ресурсов;

    • создание и распространение единой системы метаданных и лингвистического обеспечения, организация на этой основе эффективной системы навигации и поиска;

    • координация деятельности по каталогизации ресурсов Интернета;

    • создание системы архивирования социально значимых ресурсов Интернета;

Для обеспечения эффективной навигации и поиска информационных ресурсов научно-технической сферы (далее НСИР) необходимо создание и распространение единой системы метаданных и лингвистического обеспечения. Система метаданных - это обобщенное понятие для группы лингвистических средств, предназначенных для описания информационных объектов различного типа и в различных целях.

Одним из наиболее популярных универсальных систем метаданных является Дублинское ядро метаданных, разработанное в конце 1990-х гг. по инициативе Консорциума Всемирной паутины, W3C. Популярность данного лингвистического средства обусловлена тем, что модель описания, основанная на Дублинском Ядре, не исключает возможности использования различных лингвистических средств, применение которых позволяет решать все вышеперечисленные задачи. Кроме того, для применения Дублинского ядра не требуется специальной подготовки в отличие от традиционных библиотечных форматов (UNIMARC, MARC21 и т.д.).

Существующие лингвистические средства (ГРНТИ, УДК, дискрипторные ИПЯ, локальные классификации, каталоги поисковых систем в Интернет), которые применяются для описания информационных ресурсов научно- технической сферы деятельности, не способны решать все задачи одновременно. В связи с этим возникает необходимость создания такой модели описания, которая бы позволяла удовлетворить все требования, вытекающие из целей создания автоматизированной системы и которая бы объединила все достоинства вышеперечисленных средств.

Внедрение российской системы метаданных, основанной на Дублинском ядре, влечет за собой также необходимость разработки сопутствующих лингвистических средств (классификаторов, словарей и лингвистических процессоров), разработки нормативно-правового и методического обеспечения (методические рекомендации по выявлению ресурсов, формированию описания, заполнению элементов метаданных и др.). Внедрение такой системы метаданных и распространение единого лингвистического обеспечения среди производителей ресурсов на основе "самоописания" - дело долгое, сложное и даже при хорошей организации никогда не достигнет 100% охвата русскоязычных ресурсов Интернета. В то же время государственные организации, прежде всего в библиотеках, органах НТИ и других информационных центрах, обладают значительными ресурсами опытных библиографов, референтов и каталогизаторов, в том числе и информационных аналитиков, объединенные усилия которых могли бы обеспечить стандартное описание и индексирование большой части новых ресурсов, особенно в сфере науки, культуры и образования.

В этом направлении уже сделаны первые шаги, а именно: осуществляется проект по созданию навигационной системы по НСИР, в рамках которой каталогизируются Интернет-ресурсы научно-технической сферы деятельности, разрабатывается лингвистическое обеспечение и методические руководства. Основная цель данной работы является разработка методики выявления и описания Интернет-ресурсов научно-технической сферы деятельности в рамках комплекта нормативно-правового и методического обеспечения навигационной системы.

Методика выявления и описания НСИР включает три этапа:

1 Этап. Выявление объектов описания

Предложено два метода выявления НСИР как объектов описания в навигационной системе:

    • выявление объектов описания в каталогах универсальных информационно-поисковых систем (например, каталог Yandex).

    • поиск объектов описания с помощью универсальных информационно-поисковых системах. Существует два способа:

    1. В запросе информационно-поисковой системы задаются ключевые слова, взятые из алфавитно-предметного указателя ГРНТИ
    2. В запросе информационно-поисковой системы задаются наименования организаций, взятые из БД Госкомстата, которая содержит пометку для организаций научно-технической сферы деятельности и может быть доступна.

2 Этап. Структуризация выявленных объектов

Создание рабочей таблицы для удобства представления:

Сетевой адрес

Название организации

Описание деятельности

Контактная информация

Примечание

Http-адрес размещения ресурса

Наименование владельца/создателя Интернет-ресурса

 

Адрес организации, телефон, e-mail ответственных лиц

Какая информация о ИР отсутствует?

Выявленные объекты являются претендентами для занесения в навигационную систему в качестве НСИР и заносятся в рабочую таблицу в алфавитном порядке по наименованию организации. Это необходимо для исключения дублирования Интернет-ресурсов. Данный этап предполагает беглый анализ НСИР и выявление основных сведений для заполнения полей рабочей таблицы. Поле "Примечание" остается незаполненным до более глубокого анализа.

3 Этап. Анализ Интернет-ресурса и заполнение элементов метаописания НСИР

Прежде, чем выполнять описание выбранного НСИР в навигационной системе, рекомендуется сформировать его метаописание в виде файла MS Word в табличном формате. Каждая строка таблицы соответствует отдельному элементу метаданных. Такой промежуточный вариант описания НСИР позволяет провести более точный анализ НСИР и исключить возможные ошибки его метаописания в навигационной системе. При отсутствии информации, необходимой для заполнения какого-либо элемента метаописания НСИР, сведения об этом вносятся в поле "Примечание" рабочей таблице. Так же поле "Примечание" может использоваться для различных замечаний по качеству ИР, возникающих в ходе анализа, и для рабочих отметок. Уточнение метаописания НСИР осуществляется путем непосредственного контакта с владельцем/создателем ресурса (телефон, e-mail).

Для подтверждения данных, полученных в результате описания ресурса, возможно проведение анкетирования владельца/создателя ресурса (телефон, e-mail).

Анализ объектов описания предполагает навигацию по ресурсу, выявление собственно данных о самом объекте описания и сведений о его составе. В составе выбранного НСИР могут быть представлены другие ИР, которые в навигационной системе описываются отдельно. Основным источником данных об НСИР выступает его главная страница и размещенные на ней рубрики. Глубокий анализ рубрик позволяет выявлять необходимые данные, как для объекта описания, так и для ресурсов, представленных в его составе.

Предложенная методика позволяет, в среднем, выявлять, анализировать и заносить в базу данных навигационной системы два НСИР в день.