Анализ тенденций развития научных исследований на основе сопоставления информации в политематических и специализированных базах данных ведущих стран мира
Ефременкова В.М.
(Всероссийский институт научной и технической
информации РАН)
Наука есть система соотношений.
А. Пуанкаре
Современные информационные технологии предоставляют уникальные возможности получения данных о веществах, процессах и явлениях, происходящих в них и с ними. Фактографические сведения, полученные при поиске в базах данных, не только по основному направлению работы, но и по смежным дисциплинам могут оказаться тем недостающим звеном, которое в дальнейшем определит ход исследований или разработок и даст возможность успешно решить поставленную задачу. Именно поэтому информатика становится одним из важных и необходимых инструментов для ученых и разработчиков наряду с традиционными физико-химическими методами /1-4/.
Стратегия поиска информации в информационных сетях
Широкие возможности для информационной поддержки научных исследований предоставляют банк данных ВИНИТИ (Россия), БД SCOPUS (Нидерланды) и одна из крупнейших в мире онлайновая сеть Scientific & Technical Information Network (STN) International, где сосредоточено 220 БД (генерируемых 95 службами) по точным и естественным наукам, информатике, ряду вопросов бизнеса, маркетинга и экономики. В настоящее время ученым России доступны 8 политематических информационных служб и/или БД научно-технического профиля: ВИНИТИ (Россия), Chemical Abstracts Service (США), Science Citation Index (США), COMPENDEX (США), INSPEC (Великобритания), PASCAL (Франция), JICST-EPlus (Япония) – часть БД JICST, отражающая только публикуемую в Японии научно-техническую литературу и SCOPUS (Нидерланды). Полнотекстовая информация содержится в 16 БД сети STN (это БД с окончанием FULL), а также избирательно полные тексты публикаций могут быть получены в БД SCOPUS и на платформе ScienceDirect издательства ELSEVIER. В девяти БД STN можно найти фактографическую информацию по свойствам материалов, а в 26 БД – по патентным документам.
Для выбора БД, обеспечивающих наибольшую полноту и точность поиска по всей интересующей исследователя тематике или отдельным вопросам, удобно использовать предварительно сформированные тематические группы БД – кластеры БД в сети STN International, которые тематически можно разделить на несколько групп: 8 кластеров химического профиля, имеющих около 100 БД (включая фармакологию, нефть и нефтяные продукты, а также фактографические данные); и/или 6 кластеров биологического профиля, наибольшее количество БД содержит кластер BIOSCIENCE – 57 БД; и/или 6 кластеров в области инженерных наук, наибольшее количество БД содержит кластер ENGINEERING – 57 БД и др.
Распределение потоков публикаций в тематических кластерах, отражающих информацию по науке, технике и технологии, может дать информацию:
Суммарные распределения потоков публикаций в политематических, каждая из которых имеет преимущественную тематическую направленность в одной или нескольких областях знания, и специализированных БД позволяют получать информацию:
На гистограммах суммарных массивов публикаций в политематических и специализированных БД по одному из приоритетных направлений 21 столетия – фуллеренам (новой формы углерода), открытых в 1985 г. коллективом ученых: H.W. Kroto (Великобритания, Сассекский университет), J.R. Heath, S.C. O`Brien, R.F. Curl, R.E. Smalley (США, университет Райса) – Нобелевская премия 1996 г., хорошо прослеживаются отмеченные выше основные направления исследований по политематическим БД (СА – БД США с преимущественным отражением химической тематики, INSPEC – БД Великобритании с преимущественной направленностью в области физики; COMPENDEX – БД США, отражающая проблемы техники и технологии; PASCAL – БД Франции, тематические приоритеты в которой – физика, химия и биология и SciSearch (SCI) – БД США по точным и естественным наукам), и области применения по специализированным БД.
Анализ результатов поиска в выбранных БД позволит научному сотруднику составить такой кластер БД, который сможет обеспечить наиболее полную информацию, используя режим мультифайлового кросс-поиска одновременно во всех необходимых БД. Таким образом, наибольшая полнота выдачи документов по запросу может быть обеспечена только в том случае, когда поиск ведется одновременно в нескольких БД.
Рис. 1 Распределение суммарного потока публикаций по фуллеренам в политематических БД ведущих стран мира
Рис. 2. Распределение суммарного потока публикаций по фуллеренам в специализированных БД ведущих зарубежных стран мира по применению в биологии, медицине и технических дисциплинах
Структурирование поисковых предписаний и примеры анализа словаря поисковых терминов
Бурное развитие информационных технологий в конце прошлого века способствовало созданию новых международных информационных сетей, одной из которых является находящаяся в совместном управлении Германии, США и Японии STN International, развитию и совершенствованию уже имеющихся (Dialogв , DataStarФ и др.). Доступ к БД сетей научно-технической информации осуществляется через всемирную паутину Internet.
Новые возможности поиска информации по свободным или контролируемым терминам, кодам классификаторов БД и др. с целью сопровождения исследований диктуют необходимость проведения аналитической работы, используя основные возможности наукометрии. Информационная поддержка любой научной работы должна строиться на предварительной наукометрической информации о состоянии исследований или разработок по рассматриваемому тематическому направлению. Последняя включает работу с тезаурусами или списками контролируемой лексики по интересующему вопросу, изучение Классификаторов БД для определения возможных узко-тематических направлений изучаемой проблемы, и, наконец, выбор баз данных, отражающих различные аспекты исследования или разработок с учетом накопленных ретрофондов. На рис. 3 и 4 предлагаются структурные схемы для ведения поиска информации в определенном тематическом направлении по науке и технике, и отдельно по материаловедению, имеющему свою специфику, связанную с химическими формулами веществ (рис.4). Рассмотрим несколько примеров, иллюстрирующих предложенные структурные схемы.
Пример 1. “Нейронные сети” представляет точно определенное тематическое направление в области искусственного интеллекта. Но, кроме того, этот термин является одним из наиболее важных в науках о живом. В связи с этим, необходимо при составлении поискового предписания использовать тезаурус (или словарь контролируемой лексики), относящийся к области “искусственного интеллекта” и выбрать БД, в которых эта тематика представлена, используя для этого классификаторы БД. Наиболее адекватными информационным потребностям по этой проблеме оказались:
БД INSPEC, в классификатор которой c 1977 г. введен код С1230 – “Искусственный интеллект”, а в 1992 г. добавлен код С1230D – “Нейронные сети”.
Фрагмент БД ВИНИТИ “Техническая кибернетика”, одна из рубрик которой - 28.23 “Искусственный интеллект” имела подрубрику 28.23.37 – “Нейронные сети”. Таким образом, определились коды классификаторов и основные термины из Subjet Guide (БД INSPEC) и Предметного указателя РЖ “Техническая кибернетика”.
Поисковые предписания с использованием операторов контекстной близости:
БД INSPEC – neural ADJnets or neural ADJ chip,
после анализа результатов поиска добавляется еще ряд терминов: neurocomputer or neurocontroller or neuristor – виды нейроустройств;
Hopfield or Kohonen or Bolzman – ученые – создатели моделей нейронных сетей.
БД ВИНИТИ – нейронные ADJ сети or нейросети or нейронные ADJ
чипы
or нейрокомпьютер or нейроконтроллер or нейровычисления
or
нейронечеткие ADJ сети or модель (Hopfield or Kohonen
or Bolzman)
БД
Chemical Abstracts (СА) - neural ADJ nets or neural ADJ chip
or
neurocomputer.
В этой БД поисковые термины могут быть выбраны только по Index Guide, поскольку они отсутствуют в Subject Coverage and Arrangement of Abstracts by Section in Chemical Abstracts. Полученная в этой БД информация оказывается достаточно большой по объему и указывает на области применения нейронных сетей и нейроустройств.
Пример 2. “Комбинаторная химия” – широко распространенный метод твердофазного синтеза органических веществ. Сам метод был предложен R.B. Merrifield в 1963 г. (Нобелевская премия 1984 г.). Информация по этому направлению содержится в базах данных химического профиля, одной и наиболее представительных является БД САPlus. Анализируя иерархический тезаурус, используемый в этой БД, можно выявить как истоки направления: “Merrifield synthesis” ® “combinatotial chemistry”, так и пути его дальнейшего развития: combinatotial chemistry”, “combinatotial library” ® “High throughput screening”.
Поисковое предписание в этом случае имеет следующий вид:
combinatotial ADJ chemistry or combinatotial ADJ library
or peptide ADJ library
or High throughput screening or Merrifield synthesis.
Пример 3. “Фуллерены”. Необычная история открытия этой новой формы углерода нашла свое отражение и в употребляемой учеными терминологии: первое название представляло сочетание имени и фамилии архитектора, предложившего устойчивую структуру - buckminsterfulleren; одновременно кристаллографы, смоделировавшие эту структуру, дали ей название – buckyball; после открытия нанотрубок японским ученым S. Iijima (1991 г.) появился термин – buckytube (нанотрубка, один конец которой оканчивается фуллереном). В 1990 г. было введено еще два термина - fullerite и fulleride для характеристики микроразмерных фуллеренов с органическими структурами и фуллеренов с металлами. В 1998 г. появилась еще одна разновидность этой формы углерода: фуллерены внутри нанотрубки, получившая название “peapod” - “стручок”. Первые два термина до сих пор ежегодно присутствуют во всех БД (около 1%). При снятии частотных характеристик для рассматриваемой тематики необходимо использовать корни слов с правым и левым усечением, т.к. для уточнения многочисленных структурных форм фуллеренов авторы публикаций часто перед корнем употребляют приставки, отражающие определенные характеристики фуллеренов, например, metallofullerene (фуллерены с металлами), endofullerene (внутри фуллерена находится атом металла) или dihydrofullerene (C60H2 – фуллерен с присоединенной молекулой водорода) и т.д. Поэтому, наиболее полный массив в зарубежных БД может быть получен сочетанием следующих терминов:
*fullerene* or *fullerit* or *fullerid* or buckyball* or buckytube* or peapod* .
Поскольку в БД JICST-EPlus не предусмотрено левое усечение термина “fullerene”, в поисковое предписание при поиске в этой БД необходимо добавить для обеспечения большей полноты выдачи, по крайней мере, еще три термина:
buckminsterfulleren* or metallofulleren? or endofulleren?.
Пример 4. “Карбид кремния”. Анализ терминов проводился в политематических БД CAPlus, SciSearch, COMPENDEX, INSPEC, PASCAL и JICST-EPlus. Наиболее полный массив во всех БД может быть получен сочетанием названия соединения и его химической формулы, но при поиске в политематических БД, кроме БД INSPEC и COMPENDEX, термин “SiC” совпадает c рядом биологических терминов, например термином “sic gene”, или с оказиональным сокращением sic, что приводит к уменьшению точности поиска (шуму в выдаче документов) около 1.0 – 1.5%. Небольшое уточнение запроса (менее 10 документов) дает введение немецкоязычного термина “silicium ADJ carbid?”. Более полные и точные результаты выдачи могут быть получены, используя возможности БД REGISTRY (CAS), в которой каждому из полученных химиками веществ и их соединений присваиваются регистрационные номера, являющиеся их однозначной характеристикой. Поисковое предписание по “карбиду кремния” может состоять из вышеперечисленных терминов:
silicon ADJ carbid? or SiC or silicium ADJ carbid?
или набора регистрационных номеров соединений SinCm (n=1-3 и m=1-4):
Для более узкого запроса, например, поиска термодинамической информации, связанной с процессами синтеза SiC необходимо проводить анализ данных:
Таким образом, работа с тезаурусами БД может привести исследователя и разработчика к новым идеям, как было отмечено в случае “комбинаторной химии”, или увидеть пути развития новой ветви, как в тематическом направлении “фуллерены”, а в сочетании структурной информации и кода классификатора библиографической БД найти точную и полную информацию о работах по свойствам конкретных веществ, аналогичную поиску по термодинамическим свойствам карбида кремния.
Анализ динамики потоков публикаций
По динамике накопления ретрофондов в БД ведущих стран мира в различных областях знания или тематических направлениях можно проводить моноторинг:
Тенденции развития исследований по скорости прироста ретрофонда проиллюстрированы на примерах области знания – математики. На рис. 5 представлена динамика роста ретрофондов публикаций в области математики в БД ВИНИТИ (Россия), БД MATH (Германия).
Рис. 5 Рост ретрофонда математической литературы в специализированных БД MATH и ВИНИТИ
Из графиков видно, что массивы документов в области математики в случае тематически близких классификаторов по величине практически одинаковы, но отличаются по приоритетам отражения национальной литературы. В БД ВИНИТИ около 30% русскоязычной литературы, в то время как в БД MATH – около 2.0%, англоязычной - около 59% в БД ВИНИТИ и 91% - в БД MATH, немецкой – около 0.4% и 1.1% соответственно. Языковое распределение указывает на то, что мировой поток математической литературы не полно отражается в каждой из основных математических БД и поиск необходимо проводить в обоих БД.
Проследим национальные приоритеты отражения литературы по изменениям динамики потоков публикаций ученых на примере одного из направлений развития нанотехнологии - “фуллерены” в БД СА и SCI шести ведущих стран мира США, Японии, России, Китая, Германии и Великобритании. Распределения суммарных потоков публикаций, полученных в БД СА и SCI подобны. Имеющиеся количественные различия данных связаны с различным объемом отражаемых первоисточников ведущих стран. В САPlus более ярко выражен характер изменения потоков публикаций японских авторов (в САPlus отражается в 2 раза больше японских журналов, чем в SCI). Динамические кривые позволяют отметить начало работ по той или иной проблеме, скорость роста активности публикаций в каждой стране и соотношение скоростей развития работ в разных странах. Более ранние работы по фуллеренам были выполнены учеными США и Великобритании - 1985 г. Япония (1986 г.), Россия (1989 г.), Китай (1990 г.) и Германия (1991 г.) включились в изучение рассматриваемой проблемы позднее. Резкий рост потока публикаций наблюдается в трех странах – США, Японии и Китае; в России, также как в Великобритании и Германии, этот процесс шел более плавно. В последние годы отмечается изменение интереса к исследованиям в группе лидеров – ведущей страной становится Япония, далее США и третьей страной оказывается Россия. Библиометрический анализ вклада ученых разных стран в развитие мировой науки по данным Института научной информации США в последнее десятилетие 1993-2002 гг.
выявил группу лидеров в области естественных и социальных наук /5/. Первые 10 стран в порядке убывания количества публикаций - это США, Япония, Великобритания, Германия, Франция, Канада, Италия, Китай, Россия, Испания. Однако в одном из приоритетных направлений материаловедения “фуллерены”, как показано выше, эта картина в последние пять лет несколько отличается от мировых показателей. Первое место занимает Япония, далее США, Россия; в десятке лидеров оказываются помимо Германии, Китая, Великобритании, Франции и Италии еще Швейцария и Индия. Таким образом, развитие исследований в отдельных научных направлениях может отличаться от мировых тенденций развития науки в разных странах.При информационном сопровождении научных исследований важную роль играет информация по объему публикаций в мире по рассматриваемой проблеме, позволяющая оценить долю определенного приоритетного направления в мировом потоке по отношению к основной для этого направления дисциплине. Эти сведения могут быть необходимы для обоснования инвестиций в развитие исследований. В настоящее время имеется возможность получения таких данных в сети STN International при проведении межфайлового поиска в кластере БД, составленном из политематических и специализированных БД в соответствии профилем исследования с последующим исключением дублирующихся документов с помощью команды “DUPLICATE REMOVED”. Полученные результаты являются приближенными (точность не более 10%) из-за ограниченных возможностей этой команды. Например, количество работ по приоритетному направлению “фуллерены” с 1985 г. по 2005 г. насчитывает около 46 тыс., что составляет около 0.3% публикаций от суммарного массива БД CAPlus.
Вклад отдельных направлений исследований в общую картину позволяет составить детальное представление о состоянии работ по всей рассматриваемой области знания или по одному из направлений в ней. Сведения о развитии отдельных ветвей математики или нанотехнологии можно получить по имеющимся данным о наполнении кодов классификаторов политематических и специализированных БД. Например, в области фундаментальной математики одним из приоритетных направлений являются “динамические системы” (БД ВИНИТИ и MATH), прикладной математики – “нейронные сети” (БД ВИНИТИ и INSPEC); в области материаловедения и нанотехнологий – “карбид кремния”, “нанотрубки” и “фуллерены” (по всем политематические БД). Точки роста научных исследований, характеризующихся экспоненциальным ростом публикаций в течение 3-5 лет, могут быть выявлены на основе анализа ключевых слов в отдельных рубриках. В настоящее время по рассматриваемым направлениям удалось выделить следующие точки роста:
За прошедшее десятилетие в ряде этих точек роста появились свои точки роста. Например, в тематическом направлении “фуллерены” – это проблемы их синтеза; новая разновидность – “peapod” – фуллерены внутри нанотрубки; солнечные элементы, вакцины, биомембраны и фармацевтические препараты на основе материалов, в состав которых входят фуллерены. Развитие тематики “нейронные сети” идет в направлении разработки оптических нейронных сетей, нечетких нейронных сетей, клеточных нейронных сетей, самоорганизующихся моделей.
Заключение
Наукометрический анализ потоков публикаций позволяет проводить мониторинг состояния и перспектив развития как отдельных областей знания, так и узко-тематических направлений в них. Работа с Классификаторами и тезаурусами БД может привести исследователя и разработчика к новым идеям, а, используя данные структурных БД, найти точную и полную информацию о работах по свойствам конкретных веществ, т.е. на современном уровне осуществлять информационное сопровождение научных исследований.
Литература.
Работа выполнена при финансовой поддержке РФФИ (Проект № 03-06-80434)