Информационное обеспечение науки. Новые технологии

Методика оценки научной информативности сайтов

Якимов В.И.
(Московская государственная академия тонкой химической технологии им. М.В. Ломоносова)
Ефременкова В.М.( Всероссийский институт научной и технической информации РАН)
Севастьянов В.Г. (Институт общей и неорганической химии РАН)

Введение

Основным толчком в создании всемирной паутины послужила новая “сетевая инициатива”, выдвинутая Альбертом Гором в 1991 г., декларация о национальной информационной и глобальной информационной инфраструктуре. В том же году был введен термин WorldWide Web. 1992 год - в NCSA (National Center for Supercomputing Application) был создан первый браузер Mosaic X. Публикация знаменитого меморандума Б.Клинтона – А.Гора “Технологии для экономического роста США: новые направления, которые предстоит создать” (1993), как и знаменитый доклад Мартина Бангеманна “Рекомендации ЕС и глобальное информационное сообщество” (1994), фактически подтолкнули мир к принятию Интернета. Впервые в 1994 г., на первой Всемирной конференции по развитию телекоммуникаций, состоявшейся в г. Буэнос-Айресе, вице-президент США Альберт Гор определил основную задачу глобального информационного общества: “... создать глобальное сообщество, в котором население соседних стран рассматривает друг друга не как потенциальных врагов, а как потенциальных партнеров, как членов одной семьи в огромной, все в большей степени взаимосвязанной человеческой семье”. В 2004 году мир праздновал 10-тилетие Интернета.

С 1994 г. число пользователей возросло в сотни тысяч раз. До 2002 года оно ежегодно в среднем увеличивалось на 2%. Но уже в 2003 году по результатам исследования компании Ipsos-Reid, число пользователей Интернета в мире выросло на  7%, и по данным компании VeriSign Inc., администратора доменов COM и NET, составило 580  млн.

Наиболее активно пользуются Интернетом в Канаде: 71% взрослого населения страны выходит в сеть не реже раза в месяц. В пятерку мировых лидеров по этому показателю также вошли Южная Корея (70%), США (68%), Япония (65%) и Германия (60%). В России, согласно отчету Ipsos-Reid, Интернетом пользуется 10% городского населения. Необходимо учесть, что число активных пользователей в России, по данным Фонда "Общественного мнения" (ФОМ) составляет 34,9% от общего числа пользователей.

Одновременно с ростом числа пользователей росло и число Интернет ресурсов. Ниже приведен график роста числа доменов (домен – сетевое имя или его часть), начиная с декабря 2002 года. [Доклад “Статистика развития российского сегмента Интернета” Материал предоставлен RU-Center, при подготовке статьи использованы данные ICANN, Минсвязи РФ, РосНИИРОС, RU-CENTER, ФОМ, Nielsen/NetRating.]

Для ученых, наряду с традиционными источниками информации, представляют интерес сайты научной тематики. Так, по данным рейтинга Rambler's Top100, 10,80% всех сайтов составляют сайты научной тематики, к которым мы отнесли сайты, посвященные образованию, технологии, фармацевтике, электронике и медицине. Для сравнения, сайты посвященные Интернет-торговле, составляют всего 8,53%. В связи со столь внушительным объемом научной информации в глобальной сети встал вопрос об оценке ее достоверности.

Цель работы – определение критериев и создание методики оценки информативности сайтов по узко-тематическим направлениям науки.

Рис 1. Динамика роста числа доменов

Способы поиска информации в сети

Существуют три основных способа поиска информации в сети Интернет:

  1. Поиск сайтов и страниц через поисковые машины. Самая крупная и известная поисковая машина, или “Поисковик”, - Google – адрес в сети http://www.google.com/. Она включает в себя базу данных по 8 058 044 651 странице (информация на 6 февраля 2005 года, 14:42 по московскому времени). Google вносит в свою базу данных сайты на разных языках, расположенные на различных географических доменах. В этом поисковике, существует множество языковых кластеров, например, английский http://www.google.com/, немецкий http://www.google.de/, итальянский http://www.google.it/, японский http://www.google.jp/, русский http://www.google.ru/ (http://www.google.com.ru/) и др., поиск по каждому из которых ведется на языке той страны, чей национальный домен он занимает. Как и на других “поисковиках”, в Google есть возможность вести “расширенный поиск”. Следует отметить, что в поисковых машинах поиск осуществляется по описаниям страниц сайта, составленным “роботом-пауком” в автоматическом режиме.

  2. Поиск через каталоги, имеющие разветвленную “древовидную” структуру. Например, для получения информации о сайтах в разделе “неорганическая химия” в русскоязычной части каталога Dmoz, подключенного к Google Directory (http://directory.google.com/), необходимо либо пройти путь: “World > Russian > Наука > Химия > Неорганическая химия”, либо, воспользоваться поиском внутри каталога, тогда машина выдаст все сайты, в чьих “автоматических” описаниях встречается информация, соответствующая запросу.

  3. Поиск библиографической информации по узко-тематическим направлениям, отраженным в БД, с одновременной выдачей страниц сайтов, относящихся к рассматриваемой тематике. Поиск сайтов осуществляется специализированной поисковой машиной. В настоящее время такой поиск может быть проведен в БД SCOPUS компании Elsevier, где наряду с традиционным поиском библиографической информации осуществляется поиск сайтов с помощью специализированной поисковой машины, находящейся на платформе SCIRUS. Например, по приоритетному направлению “фуллерены” с 1991 г. по апрель 2005 г. отражено 18658 публикаций из традиционных источников информации: журналов, трудов конференций, книг; 2539 – патентов и 36320 страниц сайтов.

 

Описание каталогов

  • Наиболее известным каталогом в Интернете считается DMOZ, доступ к нему можно получить, как по адресу http://www.dmoz.org/, так и через поисковую машину Google, т.к. база данных “открытого каталога” DMOZ подключена к Google Directory. Отличием является способ поиска. DMOZ осуществляет поиск исключительно по названию и описанию сайта в каталоге, а Google Directory ищет сайты, подключая базу поисковой машины, т.е. учитывает в поиске полное содержание всех страниц сайта. Как и поисковая машина Google, так и Google Directory имеет многоязычный пользовательский интерфейс. Регистрация сайтов в Open Directory Project (ODP) http://www.dmoz.org/ производится по стандартной схеме регистрации в каталогах. Владелец сайта предлагает модераторам OPD описание и категорию расположения ссылки на сайт. Однако, конечное решение принимает модератор.

  • В каталоге Yahoo также существует форма для подачи заявки на регистрацию сайтов. Разница заключается в том, что в отличие от Google, Yahoo Direct не подключает базу поисковика, и сайт попадает в выдачу только в том случае, если его название или “каталожное описание” содержат слова запроса. Часто выдачи каталога Yahoo и DMOZ содержат одни и те же сайты. Но при этом, ссылка на сайт может находиться в различных разделах каталогов. При поиске сайтов близкой тематики необходимо просматривать разные разделы каталогов.

  • Отдельно стоит каталог http://www.altavista.com/ компании Yahoo. Сайты в него вносятся только модераторами, при этом владельцы сайта не имеют возможности предлагать свои сайты к рассмотрению. В каталог внесены только самые крупные сайты по различным областям знания, содержащие полезную для наибольшего, по мнению модераторов, числа людей. В связи с этим поиск сайтов по узкоспециализированным направлениям через этот каталог не принесет никаких результатов.

  • Каталог коммерческих сайтов – www.overture.com принадлежит поисковой системе Yahoo. Размещение ссылок в этом каталоге – платное. Сайты, размещенные в коммерческом каталоге попадают при поиске в выдачу Yahoo – раздел “SPONSOR RESULTS”. Каталог Altavista выдает первые две ссылки из www.overture.com, а далее из своей БД. В случае же неудачного поиска по запросу в каталоге Altavista происходит переключение на сайт Overture.

Поиск сайтов научной тематики

Поиск по сайтам открывает перед учеными возможность получать оперативные сведения об интересах научных групп и отдельных ученых, иметь контактную информацию, и в ряде случаев - бесплатный доступ к полному тексту статей. В последнее время становится популярно размещать статьи в электронных изданиях и на сайтах, поэтому при поиске по научно-техническим дисциплинам уже нельзя ограничиваться библиографической или полнотекстовой литературой без ущерба для “полноты” поиска.

При поиске научной информации следует начинать с поиска по каталогам со структурированной информацией. Например, с такого каталога, как DMOZ

В качестве примера сайтов узкой специализации рассмотрим сайты по приоритетному направлению “фуллерены”

Как и в обычном поиске по БД, в Интернет-поиске немаловажную роль играет поисковый запрос. При составлении Интернет запроса, нужно принять во внимание одно из важнейших свойств информации некоммутативность (неперестановочность): суммарное количество полученной информации зависит от последовательности поступления (получения) информационных сообщений (A+B B+A, где А и В – разные информационные сообщения). В ряде случаев это свойство можно не учитывать, используя возможности “расширенного поиска” в поисковых машинах и каталогах, так же, как и в БД. Так, например, выдача по запросу “fullerene nanotubes” будет отличаться от выдачи по запросу “nanotubes fullerene”.

При поиске по данному запросу сайты распределяются следующим образом (если не учитывать ссылочное ранжирование, частоту повторения и “вес” запроса на сайте):

  1. Сайты, содержащие запрос целиком.

  2. Сайты, содержащие все слова запроса, в том же порядке, в котором они находятся в запросе, например – fullerene *** nanotubes. Где *** - произвольная фраза, чем она меньше, тем выше позиция в выдаче.

  3. Сайты, содержащие все слова запроса в произвольном порядке.

  4. Сайты, содержащие не все слова, в выдаче сайт находится тем выше, чем больше слов он содержит

Для того, чтобы оценить тип и научную важность сайтов узкой научной направленности, проанализируем первые 20 ссылок из выдачи поисковой машины Google по запросу “fullerene”.

  1. http://sbchem.sunysb.edu/msl/fullerene.html

  2. www.fullerene.com/

  3. www.godunov.com/Bucky/Patents.html

  4. www.chemistry.wustl.edu/ ~edudev/Fullerene/fullerene.html

  5. www.chemistry.wustl.edu/~edudev/Fullerene/ [ Дополнительные результаты с www.chemistry.wustl.edu ]

  6. www.sussex.ac.uk/Users/kroto/

  7. www.sussex.ac.uk/Users/kroto/FullereneCentre/ [ Дополнительные результаты с www.sussex.ac.uk ]

  8. www.mindspring.com/~kimall/Fuller/

  9. www.dekker.com/servlet/product/productid/FST

  10. http://www.ifw-dresden.de/iff/14/ forschg/fulleren/wassindfullerene/

  11. www.fullereneinternational.com/

  12. www.univie.ac.at/spectroscopy/

  13. www.susx.ac.uk/Users/kroto/fullgallery.html

  14. dc2.uni-bielefeld.de/dc2/fullerene/

  15. en.wikipedia.org/wiki/Fullerene

  16. www.mcfullerene.com/

  17. www.geocities.com/upwardthrust/carbon/fullerene.html

  18. www.nanoword.net/library/def/Fullerene.htm

  19. www.worldofmolecules.com/materials/fullerene.htm

  20. www.fullerene-jp.org/

Среди этих двадцати ссылок можно выделить ссылки на следующие типы сайтов:

  1. Сайты научных групп, содержащие информацию о работе ученого или научной группы.

  2. Сайты семинаров и конференций.

  3. Сайты институтов, с общей информацией о проводимых в институте работах и кратким описанием той или иной научной тематики.

  4. Энциклопедические сайты.

  5. Коммерческие сайты - Интернет-магазины и сайты фирм торгующих необходимыми оборудованием или материалами.

  6. Интернет издания – сайты Online–журналов или газет.

  7. Кроме того, мы выделили сайты, не имеющие отношения к исследуемой научной области, но, тем не менее, попавшие в выдачу и являющиеся “шумом” для этого научного направления.

Распределение сайтов из выдачи Google по запросу “fullerene” представлено на следующей диаграмме (Рис.2)

Рис. 2 Распределение по типам сайтов из выдачи Google, запрос “fullerene”

Более узко направленную информацию, как было сказано выше, можно получить в каталогах. Рассмотрим выдачу каталога DMOZ по запросу “fullerene”. В выдаче присутствует шестнадцать ссылок.

  1. http://www.geocities.com/kuku05/

  2. http://www.mcfullerene.com/

  3. http://smalley.rice.edu/

  4. http://wwwrsphysse.anu.edu.au/nanotube/awnf2001/index.htm

  5. http://buckminster.physics.sunysb.edu/

  6. http://www.uvm.edu/~dcloughe/

  7. http://sciencenews.org/20000325/fob1.asp

  8. http://www.sesres.com/

  9. http://www.ciam.unibo.it/electrochem/

  10. http://www.chem.ucdavis.edu/groups/balch/

  11. http://gaus90.chem.yale.edu/henmr.html

  12. http://www.diederich.chem.ethz.ch/

  13. http://www.cchem.berkeley.edu/%7Ekpvgrp/research.html

  14. http://www.mtr-ltd.com/

  15. http://www.mtr-ltd.com/

  16. http://www.nottingham.ac.uk/~ppzstm

На Рис.3 представлена диаграмма распределения по типам сайтов из выдачи открытого каталога DMOZ.

Рис.3 Распределение сайтов из выдачи DMOZ по запросу “fullerene”

Как видно из диаграмм (Рис.2, 3), большая часть сайтов - это сайты отдельных ученых и научных групп. Некоторые из этих сайтов находятся на серверах университетов, в которых работают ученые, что может являться критерием достоверности информации.

Сравним соотношение типов сайтов в двух выдачах (Рис. 4)

Рис.4 Процентное соотношение типов сайтов в выдачах каталога DMOZ и поисковой машины Google

По этому распределению видно, что в отличие от выдачи поисковой машины, в выдачу каталога очень маловероятно попадание “шума” по рассматриваемой тематике. Кроме того, в ней отсутствуют сайты энциклопедий и словарей, т.к. в их каталожном описании отсутствует слово–запрос “fullerene”. Однако в выдаче представлен раздел “Интернет издания”, в этот раздел мы включили сайт, содержащий множество ссылок на сайты, посвященные фуллеренам.

Определение значимости сайтов.

Рассмотрим критерии оценки, выбранные для самой значительной части выдач – “сайтов научных групп”:

  1. Полные тексты статей. Сайты многих крупных научных групп содержат полные тексты изданных ими статей, что позволяет серьезно облегчить поиск информации.

  2. Список статей. На сайтах часто можно встретить информацию о статьях, изданных научной группой.

  3. Количество авторов. Количество авторов сайта (сотрудников научной группы) может стать показателем важности проводимых исследований и полноты информации, поскольку на сайте представлены работы каждого ученого.

  4. Научная степень. Научная степень и звание руководителя научной группы или владельца сайта также может быть показателем достоверности информации, размещенной на сайте.

  5. Обновляемость. Этот фактор никак не влияет на достоверность информации, представленной, например, в статьях расположенных на сайте, однако по обновляемости можно судить о работе научной группы и о ее интересе к представленной на сайте области исследований.

  6. Ссылка из политематических БД, которые включают в себя ссылки на некоторые сайты, что является одним из важнейших критериев оценки их информативности и достоверности.

  7. Обратная связь. Наличие координат для связи с разработчиками и владельцами сайта также может являться критерием оценки его “уровня”.

Ниже представлена “оценочная таблица” для сайтов ученых и научных групп из выдач Каталога DMOZ (1) и поисковой машины Google (2):

1. DMOZ

Полный текст статей

Список статей

Кол-во авторов

Научная степень

Обновляемость

Ссылка из SCI

Обратная связь

http://www.geocities.com/kuku05/

0

1

1

PhD

1

-

1

http://smalley.rice.edu/

1

1

7

NPW

1

-

1

http://buckminster.physics.sunysb.edu/

1

1

5

Dr

0

-

1

http://www.uvm.edu/~dcloughe/

1

1

1

PhD

1

-

1

http://www.ciam.unibo.it/electrochem/

0

1

6

Dr

1

-

1

http://www.chem.ucdavis.edu/groups/balch/

0

1

1

Dr

0

-

1

http://gaus90.chem.yale.edu/henmr.html

0

0

3

Prof

0

-

1

http://www.diederich.chem.ethz.ch/

0

1

1

Prof

1

-

1

http://www.cchem.berkeley.edu/%7Ekpvgrp/research.html

0

1

11

Prof

1

-

1

2. Google

http://sbchem.sunysb.edu/msl/fullerene.html

0

1

0

0

0

-

0

www.godunov.com/Bucky/Patents.html

0

1

1

Prof

0

-

1

www.sussex.ac.uk/Users/kroto/FullereneCentre

0

1

4

NPW

0

-

1

www.mindspring.com/~kimall/Fuller/

0

0

1

PhD

1

1

http://www.ifw-dresden.de/iff/14/forschg/fulleren/wassindfullerene/

1

1

17

Dr.

0

-

1

www.univie.ac.at/spectroscopy/

0

1

8

Dr.

1

-

1

http://dc2.uni-bielefeld.de/dc2/fullerene/

0

1

1

Prof

1

-

0

Из таблицы видно, что сайты, занесенные в каталог модераторами, и представленные выдачей DOMOZ, содержат более полную и достоверную информацию.