Методика оценки научной информативности сайтов
Якимов В.И.
(Московская государственная академия тонкой
химической технологии им. М.В. Ломоносова)
Ефременкова В.М.( Всероссийский
институт научной и технической информации РАН)
Севастьянов В.Г. (Институт
общей и неорганической химии РАН)
Введение
Основным толчком в создании всемирной паутины послужила новая “сетевая инициатива”, выдвинутая Альбертом Гором в 1991 г., декларация о национальной информационной и глобальной информационной инфраструктуре. В том же году был введен термин WorldWide Web. 1992 год - в NCSA (National Center for Supercomputing Application) был создан первый браузер Mosaic X. Публикация знаменитого меморандума Б.Клинтона – А.Гора “Технологии для экономического роста США: новые направления, которые предстоит создать” (1993), как и знаменитый доклад Мартина Бангеманна “Рекомендации ЕС и глобальное информационное сообщество” (1994), фактически подтолкнули мир к принятию Интернета. Впервые в 1994 г., на первой Всемирной конференции по развитию телекоммуникаций, состоявшейся в г. Буэнос-Айресе, вице-президент США Альберт Гор определил основную задачу глобального информационного общества: “... создать глобальное сообщество, в котором население соседних стран рассматривает друг друга не как потенциальных врагов, а как потенциальных партнеров, как членов одной семьи в огромной, все в большей степени взаимосвязанной человеческой семье”. В 2004 году мир праздновал 10-тилетие Интернета.
С 1994 г. число пользователей возросло в сотни тысяч раз. До 2002 года оно ежегодно в среднем увеличивалось на 2%. Но уже в 2003 году по результатам исследования компании Ipsos-Reid, число пользователей Интернета в мире выросло на 7%, и по данным компании VeriSign Inc., администратора доменов COM и NET, составило 580 млн.
Наиболее активно пользуются Интернетом в Канаде: 71% взрослого населения страны выходит в сеть не реже раза в месяц. В пятерку мировых лидеров по этому показателю также вошли Южная Корея (70%), США (68%), Япония (65%) и Германия (60%). В России, согласно отчету Ipsos-Reid, Интернетом пользуется 10% городского населения. Необходимо учесть, что число активных пользователей в России, по данным Фонда "Общественного мнения" (ФОМ) составляет 34,9% от общего числа пользователей.
Одновременно с ростом числа пользователей росло и число Интернет ресурсов. Ниже приведен график роста числа доменов (домен – сетевое имя или его часть), начиная с декабря 2002 года. [Доклад “Статистика развития российского сегмента Интернета” Материал предоставлен RU-Center, при подготовке статьи использованы данные ICANN, Минсвязи РФ, РосНИИРОС, RU-CENTER, ФОМ, Nielsen/NetRating.]
Для ученых, наряду с традиционными источниками информации, представляют интерес сайты научной тематики. Так, по данным рейтинга Rambler's Top100, 10,80% всех сайтов составляют сайты научной тематики, к которым мы отнесли сайты, посвященные образованию, технологии, фармацевтике, электронике и медицине. Для сравнения, сайты посвященные Интернет-торговле, составляют всего 8,53%. В связи со столь внушительным объемом научной информации в глобальной сети встал вопрос об оценке ее достоверности.
Цель работы – определение критериев и создание методики оценки информативности сайтов по узко-тематическим направлениям науки.
Рис 1. Динамика роста числа доменов
Способы поиска информации в сети
Существуют три основных способа поиска информации в сети Интернет:
Описание каталогов
Поиск сайтов научной тематики
Поиск по сайтам открывает перед учеными возможность получать оперативные сведения об интересах научных групп и отдельных ученых, иметь контактную информацию, и в ряде случаев - бесплатный доступ к полному тексту статей. В последнее время становится популярно размещать статьи в электронных изданиях и на сайтах, поэтому при поиске по научно-техническим дисциплинам уже нельзя ограничиваться библиографической или полнотекстовой литературой без ущерба для “полноты” поиска.
При поиске научной информации следует начинать с поиска по каталогам со структурированной информацией. Например, с такого каталога, как DMOZ
В качестве примера сайтов узкой специализации рассмотрим сайты по приоритетному направлению “фуллерены”
Как и в обычном поиске по БД, в Интернет-поиске немаловажную роль играет поисковый запрос. При составлении Интернет запроса, нужно принять во внимание одно из важнейших свойств информации некоммутативность (неперестановочность): суммарное количество полученной информации зависит от последовательности поступления (получения) информационных сообщений (A+B№ B+A, где А и В – разные информационные сообщения). В ряде случаев это свойство можно не учитывать, используя возможности “расширенного поиска” в поисковых машинах и каталогах, так же, как и в БД. Так, например, выдача по запросу “fullerene nanotubes” будет отличаться от выдачи по запросу “nanotubes fullerene”.
При поиске по данному запросу сайты распределяются следующим образом (если не учитывать ссылочное ранжирование, частоту повторения и “вес” запроса на сайте):
Для того, чтобы оценить тип и научную важность сайтов узкой научной направленности, проанализируем первые 20 ссылок из выдачи поисковой машины Google по запросу “fullerene”.
Среди этих двадцати ссылок можно выделить ссылки на следующие типы сайтов:
Распределение сайтов из выдачи Google по запросу “fullerene” представлено на следующей диаграмме (Рис.2)
Рис. 2 Распределение по типам сайтов из выдачи Google, запрос “fullerene”
Более узко направленную информацию, как было сказано выше, можно получить в каталогах. Рассмотрим выдачу каталога DMOZ по запросу “fullerene”. В выдаче присутствует шестнадцать ссылок.
На Рис.3 представлена диаграмма распределения по типам сайтов из выдачи открытого каталога DMOZ.
Рис.3 Распределение сайтов из выдачи DMOZ по запросу “fullerene”
Как видно из диаграмм (Рис.2, 3), большая часть сайтов - это сайты отдельных ученых и научных групп. Некоторые из этих сайтов находятся на серверах университетов, в которых работают ученые, что может являться критерием достоверности информации.
Сравним соотношение типов сайтов в двух выдачах (Рис. 4)
Рис.4 Процентное соотношение типов сайтов в выдачах каталога DMOZ и поисковой машины Google
По этому распределению видно, что в отличие от выдачи поисковой машины, в выдачу каталога очень маловероятно попадание “шума” по рассматриваемой тематике. Кроме того, в ней отсутствуют сайты энциклопедий и словарей, т.к. в их каталожном описании отсутствует слово–запрос “fullerene”. Однако в выдаче представлен раздел “Интернет издания”, в этот раздел мы включили сайт, содержащий множество ссылок на сайты, посвященные фуллеренам.
Определение значимости сайтов.
Рассмотрим критерии оценки, выбранные для самой значительной части выдач – “сайтов научных групп”:
Ниже представлена “оценочная таблица” для сайтов ученых и научных групп из выдач Каталога DMOZ (1) и поисковой машины Google (2):
1. DMOZ |
Полный текст статей |
Список статей |
Кол-во авторов |
Научная степень |
Обновляемость |
Ссылка из SCI |
Обратная связь |
0 |
1 |
1 |
PhD |
1 |
- |
1 | |
1 |
1 |
7 |
NPW |
1 |
- |
1 | |
1 |
1 |
5 |
Dr |
0 |
- |
1 | |
1 |
1 |
1 |
PhD |
1 |
- |
1 | |
0 |
1 |
6 |
Dr |
1 |
- |
1 | |
0 |
1 |
1 |
Dr |
0 |
- |
1 | |
0 |
0 |
3 |
Prof |
0 |
- |
1 | |
0 |
1 |
1 |
Prof |
1 |
- |
1 | |
0 |
1 |
11 |
Prof |
1 |
- |
1 | |
2. Google |
|||||||
0 |
1 |
0 |
0 |
0 |
- |
0 | |
0 |
1 |
1 |
Prof |
0 |
- |
1 | |
0 |
1 |
4 |
NPW |
0 |
- |
1 | |
0 |
0 |
1 |
PhD |
1 |
1 | ||
http://www.ifw-dresden.de/iff/14/forschg/fulleren/wassindfullerene/ |
1 |
1 |
17 |
Dr. |
0 |
- |
1 |
0 |
1 |
8 |
Dr. |
1 |
- |
1 | |
0 |
1 |
1 |
Prof |
1 |
- |
0 |
Из таблицы видно, что сайты, занесенные в каталог модераторами, и представленные выдачей DOMOZ, содержат более полную и достоверную информацию.