Критерии выбора библиографических баз данных для задач поиска научно-технической информации
Ефременкова В.М., Старцева О.Б.
(ВИНИТИ)
1. ВВЕДЕНИЕ
Современные политематические или специализированные библиографические базы данных (БД) – один из тех объектов в сфере информатизации, от которых требуется высокое качество. Наличие возможности его оценки необходимо для быстрого и полного сбора информации, мониторинга состояния, развития и выполнения исследований.
Правильный подход к выбору БД приводит к сокращению временных и финансовых затрат на поиск данных в выбранном специалистом направлении.
Понятие качества электронных библиотек, электронных каталогов и библиографических баз данных (БД) многоаспектно. Оно включает три основных критерия:
В настоящее время имеются лишь стандарты, характеризующие качество программного обеспечения БД. Это:
Проблема стандартизации характеристик качества по их применению становится все более актуальной в связи с быстрым изменением информационных технологий обработки документов: появлением электронных документов, введением новых полей для отражения таких характеристик, как индекс цитирования научных работ, импакт-фактор журнала, URL журнала и др. Не менее важной характеристикой качества информационных массивов является наличие критериев содержательной стороны, определяющее рейтинг БД на мировом уровне.
2. ОСНОВНЫЕ ХАРАКТЕРИСТИКИ КАЧЕСТВА БИБЛИОГРАФИЧЕСКИХ БД
Основными характеристиками и библиографических, и полнотекстовых БД, определяющими их качество на основе пользовательских рейтингов на мировом уровне, являются следующие очевидные показатели:
2.1 Предметная область (области знания) и глубина ретрофондов
Развитие реферативных служб началось с выхода первого научного журнала «Le journal des scavans» 5 января 1665 г. в Париже (Франция). Это было первое реферативное издание, опубликовавшее краткие географические обзоры по региональной геологии. Но этот журнал так и остался научным журналом с гуманитарным профилем, к которому всегда относилась и география.
Потребность в информационно-справочной литературе наиболее остро стала ощущаться в XIX веке. В области химии и химической технологии уже в 1817 – 1889 гг. существовало 7 справочных изданий и каталогов.
Истоком создания американской реферативной службы Chemical Abstracts Service (CAS) явился один из ведущих журналов по химии «Journal of American Chemical Society», в котором с 1893 г. публиковались обзоры изданных в США книг, а уже в 1885 г. был введен раздел «Обзор американских исследований по химии». С 1907 г. раздел стал самостоятельным реферативным изданием – Chemical Abstracts, ретрофонд которого к 2008 г. составляет около 27 млн записей.
Для удовлетворения потребностей специалистов геологических специальностей Американским геологическим институтом в 1785 г. был создан РЖ Geological Reference (GeoRef).
В СССР в 1952 г. по заказу двух организаций - Академии Наук СССР и Государственного Комитета Совета министров по науке и технике был образован Институт научной информации, впоследствии Институт научной и технической информации ВИНИТИ. Поэтому в РЖ ВИНИТИ были представлены и фундаментальная наука, и технические дисциплины. В 1953 г. были выпущены первые номера РЖ по астрономии, математике, механике, химии, а с 1955 г. начали выходить в свет РЖ и по всем научно-техническим направлениям и информатике.
В XX в., с появлением вычислительной техники, было создано несколько информационных центров, генерирующих БД различной тематической направленности и имеющих разные цели и задачи по информационному обслуживанию ученых и специалистов: 1969 г. – политематическая БД INSPEC (физика, автоматика и вычислительная техника, электроника и электротехника, информатика); 1970 г. – политематическая БД COMPENDEX (технические дисциплины); 1974 г. – политематическая БД Science Citation Index; 1981 г. – политематическая БД ВИНИТИ РАН; 1984 г. – политематическая БД PASCAL (Франция); 1985 г.– политематическая БД JICST.
В последние годы большое внимание уделяется увеличению глубины ретроспективы БД, идет интенсивная оцифровка реферативных изданий. Например, массив реферативного журнала GeoRef оцифрован c 1785 г., INSPЕC – c 1898 г., COMPENDEX – c 1884 г. Увеличение полноты отражения публикаций в БД идет не только путем добавления ретромассивов, но и включения не дублирующихся документов по интересующим информационную службу тематикам из других специализированных БД. Например, CAS провел успешные переговоры с FIZ CHEMIE (Германия) о включении документального потока, не представленного до сих пор в CAS.
Ни одно известное в мире крупное реферативное издание и/или БД не является полным аналогом РЖ/БД, формируемых другими информационными центрами. Это происходит, с одной стороны, из-за различий в выборе освещаемой тематики, определяемой различными классификационными схемами, с другой стороны, из–за различий в принципах формирования БД и/или РЖ. Каждый информационный центр разрабатывает свои подходы к отбору отражаемых первоисточников, языкам и странам создателям (издателям) документов. Так как каждая информационная служба определяет основные характеристики документальных информационных потоков, то очевидно, что все вышеперечисленные БД ведущих стран мира имеют свои приоритеты в отражении, прежде всего, национальной литературы, в выборе тематики, видов первоисточников и полноты представления их в своем информационном массиве.
В качестве примера рассмотрим БД ВИНИТИ и Chemical Abstracts (Рис. 1 и 2).
Тематически весь универсум знания, отраженного в БД ВИНИТИ, можно сгруппировать в ряд научных сфер:
На рис 1. представлено распределение суммарных потоков документов, в соответствии с тематическим содержанием банка данных ВИНИТИ
Рис. 1. Распределение суммарных потоков документов, в соответствии с тематическим содержанием банка данных ВИНИТИ
На рис 2. показано распределение суммарных потоков публикаций по отраслям знания в БД Chemical Abstracts, представленное аналитиками службы CAS, из которого видно, что Chemical Abstracts является мультидисциплинарной БД.
< /p>
Рис. 2. Распределение потока публикаций по отраслям знания в БД Chemical Abstracts (2007 CAS Catalog.www.cas.org)
По тематическому содержанию БД ВИНИТИ и Chemical Abstracts, как показали работы по сопоставлению классификаторов этих БД, достаточно близки [4–8]. Главное отличие: в БД Chemical Abstracts не отражаются проблемы «чистой математики» и слабее представлены такие дисциплины как общая биология (в основном представлены разделы биохимии), машиностроение (кроме химического), отдельные вопросы транспорта, издательского дела, информатики и вычислительной техники, но не вычислительной математики. Но при этом, в Chemical Abstracts больше полнота отражения первоисточников, особенно это относится к патентным документам.
Ретрофонды БД Chemical Abstracts значительно больше, чем БД ВИНИТИ из-за временной разницы возникновения информационных центров и оцифровки ретромассивов с 1907 г.
2.2. Источники формирования (получение первичной информации и ее виды)
Пользователям, осуществляющим поиск в БД, очень важны сведения об источниках отражаемой литературы, ее видах. Следует принимать во внимание, что наибольшее количество публикаций во всех политематических и специализированных БД представлено статьями из сериальных изданий (журналов). При этом во всех БД, близких по тематике, отражается один и тот же блок наиболее важных журналов (т.н. ядерные журналы – key journals), имеющих по данным службы SCI большие значения импакт-фактора, т.е. имеет место значительное дублирование отражаемых документов. Полнота отражения трудов конференций невелика в силу специфики их подготовки к печати перед конференцией в специальных сборниках трудов, после проведения конференции в выбранном по соответствующем тематике конференции журнале. В этом случае оперативность значительно ниже. Наиболее «полно» труды конференций представлены в БД INSPEC и COMPENDEX. Патентные документы отражаются лишь в БД ВИНИТИ и Chemical Abstracts, что связано с широтой и спецификой тематической направленности обоих БД (Табл. 1). Электронные документы, не имеющие печатного аналога (on-line файлы, мультимедиа, оптические диски), представлены только в БД Chemical Abstracts.
Еще одна особенность представления документов в БД – библиография с ключевыми словами, но без рефератов. Доля таких документов во всех политематических БД ведущих стран мира колеблется от 0,5% до 3%. Исключением является БД CAPlus, в которой, помимо ежегодного массива реферативной БД Chemical Abstracts, содержится в последние годы до 40% документов, представленных только библиографией. Одним из видов такого типа документов являются выпуски сообщений ежегодных собраний Американского химического общества.
Таблица 1.
Распределение документального информационного потока по основным типам документов в ведущих политематических БД мира в 2007 г.(%)
Базы данных |
Виды документов |
||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
|
Статьи из журналов |
Препринты |
Труды конференций, сборники |
Книги |
Патенты |
Диссертации |
Стандарты |
Отчеты |
Обзоры |
Карты, атласы |
Электронные ресурсы (on-line файлы, мультимедиа, оптические диски) |
ВИНИТИ |
72,6 |
|
12,1 |
2,0 |
11,2 |
1,6 |
0,01 |
|
|
0,01 |
|
PASCAL |
99,2 |
|
12,0 |
0,5 |
|
0,3 |
|
0,03 |
0,3 |
0,005 |
|
COMPENDEX |
65,5 |
|
34,2 |
|
|
|
|
|
1,9 |
|
|
CAS |
56,5 |
2,5 |
3,8 |
0,3 |
38,4 |
1,4 |
2,5 |
0,001 |
7,8 |
|
2,4 |
JICST |
87,5 |
0,1 |
12,5 |
|
|
|
0,01 |
|
|
|
|
INSPEC |
70,9 |
|
32,5 |
0,04 |
|
|
0,01 |
0,001 |
0,1 |
|
|
SCI |
89,7 |
|
8,3 |
|
|
|
|
|
2,2 |
|
|
2.3. Полнота отражения первоисточников, актуальность и достоверность данных
Оценка полноты отражения «мирового потока» документов по области знания, конкретной дисциплине или узко-тематическому направлению ранее проводилась экспертами путем количественного сравнения выдачи документов по запросам в БД с количеством документов в печатном аналоге (РЖ), адекватных потребностям пользователя. Введение новых компьютерных технологий позволяет программно оценить полноту выдачи после поиска в нескольких БД сети STN International, используя команду «Duplicate» для удаления из выдачи дублирующихся в разных БД документов (команда работает в массиве не более 5 тыс. записей). Таким образом, можно оценить полный поток публикаций по выбранной пользователем тематике. В настоящее время в области материаловедения, нанотехнологий и биотехнологий лидирующей по полноте отражения документов является БД CAPlus.
Параметр актуальности определяется востребованностью тематики в рассматриваемый период времени, прежде всего, это – приоритетные направления развития науки, техники и технологий. Наиболее важными параметрами при этом являются оперативность, полнота и достоверность (определяемая научным характером первоисточников, включающее и рецензирование публикаций в них).
2.4. Оперативность данных
Оперативность отражения информации определяется периодичностью ее поступления в информационный центр и периодичностью обновления БД. В информационной практике встречается ежедневное обновление массива (БД – Chemical Abstracts), еженедельное (БД COMPENDEX, PASCAL, INSPEC, JICST) и ежемесячное (БД ВИНИТИ, METADEX).
Кроме того, наиболее оперативно отражаются публикации, освещающие приоритетные направления и наукоемкие технологии в соответствии с формируемыми списками первоисточников.
В ряде областей знания, таких как математика, науки о Земле, информатика и т.д. актуальность информации сохраняется, независимо от сроков ее появления в БД.
Наиболее оперативно информация поступает в те БД, генераторами которых являются крупнейшие научные издательства, например Elsevier (БД SCOPUS). В этом случае информация попадает в БД сразу после рецензировании публикации, но до выхода журнала в свет (раньше на 1–2 месяца).
2.5. Структурированность БД
Структурированность БД определяется наличием классификатора, тезауруса и набором поисковых полей. Каждая БД имеет свой линейный или иерархический (с различной глубиной уровней) классификатор.
Линейная классификация – в политематической БД SCI и специализированных БД GEOREF, METADEX.
2-х уровневый классификатор, имеющий 80 кодов первого уровня, используется в мультидисциплинарной БД Chemical Abstracts; при этом он обеспечивает максимальную точность поиска; в этой БД создан тезаурус по классификатору, отражающий временны?е характеристики изменения и связь с терминами контролируемой лексики. Не менее удобен и 2-х уровневый классификатор БД технической направленности – COMPENDEX.
5–6 уровневые классификаторы имеют политематические БД PASCAL, INSPEC, JICST.
4–9-ти уровневый классификатор используется в БД ВИНИТИ.
Все зарубежные БД ведущих стран мира имеют тезаурусы.
Помимо основных поисковых полей: вид документа, элементы библиографического описания, язык и страна в БД INSPEC, COMPENDEX и Chemical Abstracts существуют указатели роли документа (теория, эксперимент, применение, экономические или правовые аспекты, менеджмент и т.д.).
Возможность представления многоаспектного содержания публикаций при однократном их отражении осуществляется либо введением дополнительного поля, в которое помещается информация о смежных направлениях (в БД Chemical Abstracts); либо в одном поле «код классификатора» проставляется несколько кодов в соответствии с отражаемыми в документе тематическими направлениями.
2.6. Доступность и полнота описания характеристик БД
Для пользователей очень важно содержание сайта информационной службы. В настоящее время наиболее информативным является сайт CAS, состоящий из двух частей и отвечающий на следующие вопросы: (1) что и как можно найти в пяти БД CAS и (2) какую информацию по интересующей потребителя теме можно еще получить из 200 БД, входящих в сеть STN Int. На сайте можно увидеть статистические характеристики отражаемого документального информационного потока с 1907 г. по настоящее время, динамику и ретрофонды суммарного массива и потоков основных видов документов, их распределение по основным странам и языкам. Приведен список профильных журналов. Освещаются различные режимы поиска, позволяющие получать наиболее полную и точную выдачу документов по запросам пользователей.
2.7. Визуализация результатов поиска информации
Проводимые наукометрические исследования с использованием программных средств информационных служб Science Citation Index и CAS дают возможность предварительной оценки состояния работ в рассматриваемой области, получения списков журналов, в которых публикуются преимущественно результаты интересующих специалистов исследований, списков организаций, в которых проводятся подобные исследования.
Наиболее интересную и подробную информацию можно получить с помощью разработанного в CAS нового модуля AnaVist, позволяющего получать в процессе поиска карты выбранного научного направления, проводить анализ патентной литературы (для тематик, связанных с прикладными работами), списки организаций и т.д.
Заключение
Предложенный в работе перечень критериев качества библиографических БД, отражающих их содержательный аспект, позволит пользователям различного уровня (от студентов до ученых и специалистов-практиков) выбирать те информационные ресурсы, которые наиболее полно отражают их потребности. Анализ результатов поиска может в дальнейшем выявить новые направления практического применения и «подсказать» пути создания конкурентоспособной инновационной продукции. Рассмотренные в данной статье содержательные критерии качества БД могут быть применимы и при работе с библиотечными массивами.
Литература