Поиск информации с использованием структурно-химической базы данных Registry
В.М. Хуторецкий,
Н.В. Круковская
(Институт органической химии РАН)
Стремительный рост потока научно-технической информации в 20 веке обусловил появление многочисленных реферативных журналов. С середины 20 века на основе реферативных журналов стали возникать электронные базы данных (БД), представляющие собой реферативный журнал в машиночитаемой форме. Повсеместное распространение персональных компьютеров в наше
время способствует тому, что число пользователей электронными БД растет. В свою очередь электронные БД можно подразделить на БД внутренние, записанные на переносных носителях (дискетах, оптических компакт-дисках и т.д.), и на БД, находящие в режиме online (теледоступа). В рамках STN (Scientific and Technical Information Network) представлено около 70 БД по химии в режиме online. Московский информационный центр РАН-STN (МИЦ) работает с 1991 года в Институте Органической химии им. Н.Д. Зелинского и имеет значительный опыт поиска информации в электронных БД.Отличительной особенностью химической информации является её быстрый рост и одновременно медленное старение. Трудно себе представить биолога, черпающего информацию из журналов конца 19 века, но для химиков обращение к первоисточникам 100 летней давности имеет вполне практический смысл. Пользователя, при выборе источника информации, интересует во-первых, насколько широко в нем представлена информация из максимально возможного массива первоисточников, и, во-вторых, насколько полно в нем представлена ретро информация, то есть с которого года начинается охват первоисточников по теме. Однако пользователя-химика интересует еще и насколько полно представлена в рассматриваемом источнике информация о веществах - ведь
те или иные вещества упоминаются примерно в 30% всей научной литературы. Одним из крупнейших поставщиков в области химической информации является служба Chemical Abstracts Service (CAS). На сегодняшний день у реферативного журнала Chemical Abstracts практически нет конкурентов как по временному охвату (с 1907 года по настоящее время), так и по количеству реферируемых источников (около 8000 журналов, два международных патентных ведомства, около 30 национальных патентных ведомств). CAS предоставляет возможность получать информацию во всех формах: печатный реферативный журнал, CD-ROM и БД в режиме online (с несколькими вариантами интерфейса). Поскольку содержание всех этих форм одинаковое (а содержание - основное в выборе источника информации), корректно сравнить их во-первых, с точки зрения предоставляемых пользователю удобств и, во-вторых, по цене.Сам процесс получения информации, необходимой для научного сотрудника, использующего реферативные журналы или соответствующие БД, можно условно разделить на три этапа:
|
ПЕЧАТНЫЙ РЕФЕРАТИВНЫЙ ЖУРНАЛ CHEMICAL ABSTRACTS (1907 - TODAY) |
БД НА CD-ROM (1977 - TODAY) |
БД ONLINE 1) CAOld (1907-1957) 2) CAOld/Registry (1957-1967) 3) CA/Registry (1967 -TODAY) 4) CAPlus/Registry (1967 -TODAY) |
1 |
Работа с различными указателями, чтобы выбрать рефераты по интересующей тематике |
Поиск по словам (фрагментам слов) или регистрационным номерам CAS |
Поиск по словам (фрагментам слов) или/и структурный поиск |
2 |
Просмотр выбранных рефератов, что позволяет более точно подобрать нужную литературу |
Оценка релевантности найденной информации по заголовкам, ключевым авторским словам, индексным терминам и рефератам | |
3 |
Использование электронных БД позволяет провести первый и второй этапы за существенно более короткое время. Пополнение БД ONLINE (CAPlus и Registry) происходит ежедневно - и сразу же информация доступна пользователю. Печатный реферативный журнал и БД на CD-ROM пополняются новой информацией каждую неделю или месяц, соответственно, но эта информация еще должна быть издана и доставлена. На третьем этапе в БД ONLINE возможно получение первоисточника. Следует подчеркнуть основное качественное преимущество машинного поиска в режиме ONLINE - поиск по фрагменту, неважно слова, формулы или химического названия. Однако очень важно, что только в режиме ONLINE можно проводить поиск фрагмента структурной формулы в структурно-химической БД Registry.
БД Registry производства CAS ведется с 1957 года, в настоящее время содержит данные о 31 млн. (июнь 2001) соединений. В это число включены индивидуальные органические и неорганические вещества, их соли и смеси, сплавы, полимеры, биопоследовательности. Для каждого из указанных веществ приведены их регистрационные номера по CAS (CAS RN), химические названия (как по номенклатуре CAS, так и тривиальные или торговые), структурные формулы, молекулярные формулы, список баз данных, в которых есть упоминание этих веществ. Информация, представленная в БД Registry, объединяет содержание целого ряда указателей, которые выпускаются к печатному реферативному журналу CA, причем как доступных (Chemical Substance Index, Formula Index), так и не очень. Не всякая библиотека, получающая печатное издание CA, имеет в своем распоряжении Registry Handbook, Ring Systems
Handbook, Ring Systems Index. Эти издания не входят в комплект годовой подписки на реферативный журнал CA, но могут быть заказаны за отдельную плату. Содержание всех этих печатных источников, которые можно рассматривать как дополнения к указателям, представлено в БД Registry.Представление конкретных веществ в БД СА осуществляется при помощи регистрационного номера CAS - CAS RN. БД CA широко использует в качестве индексных терминов CAS RN. Помимо CA регистрационные номера присутствуют в индексных терминах как в других библиографических, так и в фактографических БД, причем не только в STN, но и правительственных документах США и многих международных документах. Основной целью поиска в БД Registry является найти CAS RN для одного или нескольких веществ с тем, чтобы получить информацию о способах получения, физико-химических свойствах, применении, фирмах производителях и т.д. этих веществ из других, отвечающих тематике запроса, БД STN. Иногда количество веществ может достигать десятков тысяч. Из этого множества формируется список, который задается в качестве поискового термина в соответствующих тематике запроса БД STN, использующих регистрационные номера. Таким образом, БД Registry является одной из важнейших БД STN, позволяющая сфокусировать суть запроса на конкретных веществах в большом количестве БД STN.
Информация, найденная в БД Registry нужна не только как отправная точка для построения запросов в других БД, но и для того, чтобы проверить соответствие торгового или тривиального названия структурной формуле, CAS RN - структурной формуле, то есть уточнить информацию о конкретных веществах. Таким образом, БД Registry может заменять ряд справочников.
Структурный поиск, возможный во многих мелких БД, играет неоценимую роль в системе БД CAS, поскольку здесь он проводится в самом большом из имеющихся массивов. Это обстоятельство является решающим при выборе Registry в качестве основного источника информации по веществам. Около 60% поисков, выполненных в МИЦ, приходится на этот, достаточно дорогой вид поиска информации. Структурный поиск нельзя провести не только в печатных изданиях, но и в аналогичных выпусках CD-ROM.
Сравнение по ценам: годовая подписка на реферативный печатный журнал Chemical Abstracts с доставкой - $24 000, электронная БД CA на CD-ROM - $25 200. Возможность работать с удаленными БД в режиме online позволяет платить только за ту информацию, которая интересна пользователю, освобождая от необходимости оплачивать всю БД на электронном носителе или подписку на реферативный журнал.
МИЦ, благодаря поддержке РФФИ и льготам CAS, проводит поиски в БД производства CAS c 90% скидкой для академических пользователей. Для держателей грантов РФФИ по химии и биологии в БД CAS на 2001 г. предусмотрена еще и квота бесплатных поисков.