Информационное обеспечение науки: новые технологии

Сопоставительный тезаурус классификационных систем по физике полупроводников

Белоозеров В. Н.
(ВИНИТИ РАН; ВЦ РАН)
Шабурова Н. Н.
(Институт физики полупроводников СО РАН)

1. Проблема сопоставления классификаций

В современных условиях, когда информационные сети обеспечивают техническую возможность доступа к всё большему кругу документальных фондов, получает новый импульс проблема информационной совместимости, которая бы позволяла объединять имеющиеся ресурсы и проводить тематический поиск одновременно в разных источниках. Это требует сопоставимости средств тематического описания документов. Однако в силу исторических причин даже родственные и взаимодействующие фонды часто пользуются разными и несопоставимыми системами тематической классификации. Если в Централизованной библиотечной системе Сибирского отделения РАН (ЦБС СО РАН), в частности, в Новосибирском научном центре, фонды систематизированы по классам Библиотечно-библиографической классификации (ББК) [1], то в московских библиотеках – БЕН РАН, ГПНТБ России – по Универсальной десятичной классификации (УДК) [2]. ВИНИТИ РАН систематизирует реферативную информацию по собственной классификационной системе – Рубрикатору ВИНИТИ [3], который только на верхних уровнях имеет соответствия с рубрикациями других информационных фондов. На первых трёх уровнях структура Рубрикатора ВИНИТИ совпадает с обязательным для автоматизированных информационных систем Государственным рубрикатором научно-технической информации (ГРНТИ) [4], ограничиваясь разделами естественных наук и техники. Максимальная глубина развития отдельных рубрик Рубрикатора ВИНИТИ достигает девяти уровней.
Таким образом, с одной стороны, запрос, сформулированный, например, в ЦБС СО РАН в терминах классификационных группировок ББК, при поиске дополнительной информации должен быть перекодирован в коды других классификаций – УДК, ГРНТИ и/или Рубрикатора ВИНИТИ. Такая операция может оказаться проблематичной.
С другой стороны, при изначальном направлении результатов научных исследований в формальную систему коммуникаций требуется лингвистическая кодировка документов в целях индексирования их предметного содержания в соответствии с классификационными информационно-поисковыми системами. В настоящее время для объединения интеллектуальных усилий ученых актуализировалось издание англоязычных версий отечественных журналов. При выходе на международный уровень появляется необходимость также определять место тематики в классификационных системах, принятых в зарубежных журналах и базах данных. Требования различных издающих организаций, как известно, не одинаковы. Процедура корректного оформления материалов для печати осложняется и тем, что нет единообразия в российских «Правилах для авторов». Так, некоторые издательства в качестве ИПЯ указывают для части издаваемой продукции УДК (Издательство СО РАН, «Наука», др.), для другой обязательна только Классификационная схема по физике и астрономии (Physics and Astronomy Classification Scheme – PACS) [5], а для какой-то — и та, и другая классификационные системы вместе и т. д.
Эти два фактора обусловили возникновение специфических информационных потребностей ученых и специалистов РАН. Удовлетворение этих потребностей и составляет цель работы, описание которой представлено в нашем докладе.

2. Сопоставительные таблицы

Книжные фонды Научной библиотеки Института физики полупроводников (ИФП) СО РАН организованы по систематическому принципу расстановки. СПА создан, как указано выше, на основе ББК, включающей специальный раздел: В379 Физика полупроводников и диэлектриков. Полупроводниковые и диэлектрические свойства твердых тел. Существенно то, что в ББК выделен отдельный класс для описания свойств и явлений, связанных с изучаемым типом вещества, обеспечивающий полномерную систематизацию рассматриваемой тематики. В других классификациях такого отдела может не существовать. Пример тому – УДК и PACS.
Сопоставление таблиц УДК и ББК показывает, что эти классификации несопоставимы [6], их классы выделены по разным признакам и основаны на разных подходах к характеристике объектов: ББК – по физическим свойствам вещества, УДК – по явлениям природы. В УДК вовсе не выделены разделы полупроводников и их видов как материалов с особыми физическими свойствами, а соответствующая тематика рассыпана по разделам наблюдаемых явлений и их применений в технике. Но вместе с тем, очевидно, что ББК и УДК являются взаимодополнительными, и во многих случаях выгодно было бы применять обе классификации совместно. Отношения несопоставимости, но взаимодополняемости по отношению и к ББК, и к УДК присущи также Государственному рубрикатору научно-технической информации (ГРНТИ) и Рубрикатору ВИНИТИ.
Наиболее подробно физика полупроводников разработана в Рубрикаторе ВИНИТИ, где этой тематике посвящено более 200 рубрик. Разработанность тематики исключает необходимость использовать сочетания рубрик для обозначения вопросов, возникающих на стыках различных направлений исследования; они обычно уже отражены соответствующей подрубрикой данного раздела. Но выразить содержание этих специфических тем классами УДК удается только приблизительно, так как вопросы строения вещества в УДК оказались недостаточно разработанными. Соотношение между Рубрикатором ВИНИТИ и ББК более благоприятно. Во многих случаях можно указать на почти полное соответствие рубрик. Хотя в целом мы опять видим, что в своей существенной части классификационные подразделения выделены по разным основаниям и несопоставимы. Так, в ББК имеется несколько классов изучения структуры полупроводников, а в Рубрикаторе ВИНИТИ вопросы структуры рассматриваются в разных рубриках в связи с другими аспектами. С другой стороны, в ББК нет классов для общего рассмотрения кинетических эффектов, коллективных процессов, неоднородных систем и других вопросов, выделенных в Рубрикаторе на переднем плане.
Классификация PACS, так же как и УДК, не имеет специального раздела для физики полупроводников. Но в ней полупроводниковая тематика обозначена конкретными подрубриками тех разделов физики, для которых свойства полупроводников представляют существенный интерес. Нами построена сопоставительная таблица, в которой полупроводниковые рубрики PACS отражены на ББК, ГРНТИ, Рубрикатор ВИНИТИ и УДК. Она может быть предоставлена заинтересованным лицам в электронном виде.

3. Построение тезауруса

Данные сопоставительной таблицы свидетельствуют о том, что соотношения между рубриками различных классификаций представляют собой достаточно сложную структуру, которая не укладывается в плоскую таблицу точных соответствий. Кроме отношений эквивалентности при сопоставлении рубрик необходимо отмечать отношения родовидового подчинения, а также ассоциативные отношения частичного пересечения. Такие отношения наиболее полно отражаются структурой информационно-поискового тезауруса. Если эту структуру дополнить терминами понятий, входящих в содержание каждой классификационной рубрики, то мы получим модель онтологии предметной области физики полупроводников, представленную в различных проекциях соответственно включённым в тезаурус классификаторам.
В мировой практике идея использования информационно-поискового тезауруса в качестве языка-посредника для взаимодействующих информационных ресурсов в последнее время неоднократно обсуждалась и была реализована в нескольких практически действующих системах [7]. Примером может служить «Метатезаурус Объединённой медицинской лингвистической системы (UMLS)» [8, 9], используемый в Национальной медицинской библиотеке США. Он является синтезом более 100 различных тезаурусов, классификаций, кодификаторов по медицине и содержит сеть связей между их единицами. Аналогичная идеология объединения лингвистических средств разрабатывалась в нашей стране в рамках Государственной автоматизированной системы научно-технической информации (ГАСНТИ), она была нормативно закреплена документами Государственного комитета по науке и технике СССР и описана в ряде публикаций [9, 10, 11]. Применение в одном технологическом инструменте средств тезаурусного и классификационного описания документов оценивается в настоящее время как перспективный путь совершенствования теории и практики информационного поиска [13].
Предлагаемый Тезаурус тематических рубрик по физике полупроводников (ТТР ФПП) построен на основе лексики пяти рассмотренных выше классификационных систем: PACS, ББК, ГРНТИ, Рубрикатора ВИНИТИ и УДК. Он является развитием проекта тезауруса, представленного в докладе авторов на конференции ГПНТБ СО РАН [14].

Основную часть словника тезауруса составили наименования рубрик использованных классификационных систем из разделов, которые относятся к тематике физики полупроводников. Для ББК и Рубрикатора ВИНИТИ такими разделами являются классы ББК В379 и ВИНИТИ 291.17.31. Поскольку другие классификации не имеют таких специализированных разделов, использовались классы, которые необходимы для отражения различных аспектов физики полупроводников. Для УДК такими разделами являются 537 Электричество. Магнетизм. Электромагнетизм и 538 Физика конденсированного состояния. В ГРНТИ – раздел 29.19 Физика твёрдых тел. Из классификации PACS к составлению тезауруса привлекались наименования классов, специально отведенных под полупроводниковую тематику на нижнем уровне иерархии, а также вышестоящих для них рубрик. Кроме того, в словник были включены некоторые понятия из других разделов, в частности из разделов техники полупроводников, но вопросы технического использования и производства полупроводниковых устройств выходят за рамки ТТР ФПП.
Бoльшая часть наименований классов включена в словник в той форме, которая зафиксирована в классификационных таблицах. В необходимых случаях наименования редактировались. Из сложных наименований выделялись отдельные ключевые слова, представлявшие понятия, входящие в содержание рубрики. Эти ключевые слова включены в словник наряду или вместо исходного описания класса.
В тех случаях, когда наименование рубрики подразумевает значение вышестоящих классов, в исходное наименование добавлялись соответствующие ключевые слова. Например, класс ББК В379.242.0 Отражение в полупроводниках относится к оптическим свойствам полупроводников, поэтому в тезаурус эта тема включена с формулировкой «отражение света в полупроводниках». Такие добавляемые слова часто являются «факультативными» компонентами термина, т. е. в документах, посвященных полупроводниковой тематике, они могут опускаться как очевидные. В ссылках ТТР ФПП эти компоненты также могут отсутствовать, но в заголовках дескрипторных статей формулировки дескрипторов приведены в полной форме, а «факультативные» части выделены косыми скобками. В качестве такого «факультативного» компонента часто присутствуют формы слова «полупроводник» и содержащие его словосочетания.
Каждый дескриптор, полученный из наименования классификационной рубрики, сопровождается кодом этой рубрики в классификаторе, если понятие, обозначаемое дескриптором, не выходит за пределы содержания рубрики. Всего таких дескрипторов около 870. Если из разных классификационных систем выделены идентичные дескрипторы, они сводятся в одну тезаурусную статью с перечнем всех соответствующих кодов. Если термины из разных классификаций различаются по форме, но совпадают по значению, один из них выбирается в качестве дескриптора и ему приписываются коды обеих классификаций. Другой термин вводится в тезаурус в виде аскрипторной статьи со ссылкой на синонимичный дескриптор. В тезаурусе зафиксировано примерно 50 дескрипторов с кодами разных классификаций; т. е. в разных классификациях совпадает всего лишь 6% классов.
Основные дескрипторы, значение которых не раскрывается формой термина, снабжены определениями. Дескрипторов с определениями насчитывается около 190, что составляет примерно 20% словника.
Кроме терминов, взятых непосредственно из классификационных систем, в тезаурус включены некоторые обобщающие дескрипторы, позволяющие связать конкретные понятия в сеть смысловых отношений.
В настоящее время тезаурус насчитывает около 990 словарных статей, 60 из них представляют собой синонимы дескрипторов. В ряде случаев синонимы формировались в процессе составления тезауруса путем инверсии на первое место словосочетания наиболее информативной словоформы.
Кроме отношения синонимии между дескрипторами тезауруса, зафиксированы в словарных статьях родовидовые и ассоциативные отношения. При установлении родовидовых отношений используются следующие критерии: (1) отношение род-вид указывается между наименованиями класса и его подклассов из одного классификатора; (2) ключевые слова, выделенные из контекста наименования класса, обычно обозначают понятия, родовые для данного класса; (3) в тех случаях, когда класс включает в себя два и более понятий, обозначенных в наименовании, ключевые слова, выражающие эти понятия, выделяются в качестве видовых дескрипторов; (4) родовидовые отношения между дескрипторами, взятыми из разных классификаций или из других источников.
У дескриптора допускается существование двух и более родовых дескрипторов, понятия которых находятся в отношении частичного пересечения. Общее число родовидовых связей в тезаурусе – около 1190, так что на один дескриптор в среднем приходится более одной связи с нижестоящим и более одной связи с вышестоящим дескриптором. Изолированные дескрипторы (не имеющие родовидовых связей) в тезаурусе отсутствуют. В случаях незначительного расхождения тематических полей дескрипторы связываются отношением ассоциации. Всего зафиксировано 130 ассоциативных связей.
В Приложении приведены образцы статей тезауруса.

4. Применение тезауруса

Применение ТТР-ФПП для решения практических задач происходит следующим образом.

1) При индексировании документов (запросов) индексатор определяет тему документа, которая обычно выражается его наименованием, и отыскивает в тезаурусе наиболее близкие лексические единицы, заменяя аскрипторы на синонимичные им дескрипторы. Если найденные дескрипторы достаточно точно и полно отражают действительное содержание документа, то они образуют дескрипторный поисковый образ документа, а указанные при них коды классификационных рубрик принимаются в качестве индекса тематики документа по той или иной классификационной системе. Если при дескрипторах отсутствует код класса необходимой для индексирования классификации, то используются коды, указанные при родовых и/или ассоциативных дескрипторах, т. е. при дескрипторах, связанных с исходным ссылками «выше» (В:) и «ассоциация» (А:). В ряде случаев следует использовать видовые дескрипторы (указанные ссылками Н:), если из содержания документа ясно, что заглавие сформулировано слишком широко.
Программа автоматического индексирования должна выбирать из тезауруса заданное небольшое количество дескрипторов, получающих наивысший вес соответствия тексту документа, и формировать из них дескрипторный поисковый образ документа, а в качестве классификационных индексов назначать коды, указанные при выбранных дескрипторах или при вышестоящих и ассоциативных дескрипторах.
2) При поиске информации в базе данных с доступом по одной из классификационных систем, включенных в тезаурус, отыскиваются дескрипторы, наиболее полно соответствующие тексту (смыслу) запроса, путем интеллектуального анализа или автоматического индексирования. В качестве поискового предписания в базу данных предъявляются коды соответствующей классификации, указанные при найденных дескрипторах, а затем коды при ассоциативных дескрипторах и по всем цепям видовых (нижестоящих) дескрипторов.
3) При поиске в информационных ресурсах с доступом по ключевым словам в тезаурусе отыскиваются дескрипторы аналогично предыдущему пункту, и на вход поисковой программы подаются найденные дескрипторы, затем нижестоящие по всей цепи видовых ссылок и затем ассоциативные к ним.
4) При обращении к информационным ресурсам с пословным индексированием текста документов (например, к поисковым машинам Интернета) интеллектуальность поиска может быть увеличена за счет расширения запроса дескрипторами, непосредственно связанными в тезаурусе с термином запроса.
5) В тех случаях, когда документальный фонд принимает в свой состав информацию из другого фонда, заиндексированную по классификации, используемой в фонде-источнике, фонд-приемник может определить по тезаурусу индекс своей классификации на основе, как прямого сопоставления, так и на основе повторного индексирования по процедурам, описанным в пунктах 1) и 2).
6) Интеграция разнородных информационных ресурсов в составе сети с единым средством тематического и предметного доступа осуществляется с помощью ТТР ФПП путем формирования поисковых образов документов и запросов одновременно на всех информационно-поисковых языках общающихся баз данных – на языках классификационных систем, языке ключевых слов и языке интеллектуального поиска по полному тексту.

Заключение

В результате сопоставления классификационных систем, применяемых в отечественной практике для систематизации информационных ресурсов по физике полупроводников, построена таблица соответствий рубрик Классификационной схемы по физике и астрономии (PACS), рубрикам ББК, УДК, ГРНТИ, Рубрикатора ВИНИТИ. Более адекватно соответствие различных классификаций выражено структурой информационно-поискового тезауруса, построенного на лексике описаний классов, отражающих в классификациях тематику одной области знания. Этот тезаурус может быть языком-посредником и связующим звеном в сети взаимодействующих информационных ресурсов, которые обмениваются данными на основе тематического описания документов и информационных запросов.

Приложение. Образцы статей Тезауруса тематических рубрик по физике полупроводников – версия 2 (ТТР-ФПП-2)

А а (32 статьи)

автоэлектронная эмиссия = выход электронов из металла или полупроводника под действием сильного электрического поля

автоэлектронная эмиссия в полупроводниках

агрегатное состояние – действие на проводимость

адатом = атом на поверхности кристалла

П п (128 статей)

парамагнетизм полупроводников

парамагнетизм – теория = свойство тел, помещенных во внешнее магнитное поле, приобретать магнитный момент в направлении, совпадающем с направлением этого поля

парамагнетики = вещества, намагничивающиеся во внешнем магнитном поле по направлению поля

парамагнитный резонанс /в полупроводниках/

Э э (156 статей)

экзоэлектронная эмиссия /полупроводников/ = испускание электронов поверхностью вещества в результате воздействия на него механических сил, приводящих к деформации и растрескиванию

экситонное поглощение и отражение света /в полупроводниках/

экситонные уровни в полупроводниках

экситоны /в полупроводниках/ = Квазичастицы, представляющие собой электронное возбуждение в диэлектрике или полупроводнике, мигрирующее по кристаллу и не связанное с переносом электрического заряда и массы. В полупроводниках экситон представляет собой водородоподобное связанное состояние электрона проводимости и дырки (экситон Ванье—Мотта).

экситоны Ванье = слабо связанное состояние электрона и дырки, возникающее в условиях, когда межчастичное расстояние в экситоне много больше постоянной кристаллической решётки

экситоны Ванье-Мотта

экситоны /перенос в полупроводниках/

экспериментальные методы и инструменты для физики элементарных частиц и ядерной физики