Вопросы каталогизации
сетевых
информационных ресурсов
Первые хорошие онлайновые каталоги (классификаторы) Интернет-ресурсов появились в середине 90-х годов, когда, собственно, и возникла необходимость ориентироваться в уже значительном объеме накопленной информации. Как известно, начало разработки Yahoo! (Yet Another Hierarchical Officious Oracle) относится к 1994 г., когда стенфордские аспиранты Д. Фило и Д. Янг поняли, что их не устраивает ни один из имевшихся к тому времени каталогов (сейчас, летом 2001
-го, оба они замыкают форбсовский список миллиардеров - http://www.forbes.com/2001/06/21/billionairesindex.html). По тем же причинам в 1995 г. в ЦЭМИ РАН мы начали работу над каталогом русскоязычных ресурсов, который позже получил известность под названиями "Ау!" и @Rus [1,2]. В хронологический обзор Е. Горного [3] из каталогов попал он один - очевидно, потому, что более ранние проекты (достаточно полные подборки адресов в Ижевске, Геленджике, Москве и нескольких американских университетах) не получили дальнейшего развития. С тех пор появились сотни каталогов - и универсальных, и специализированных, и многие из них имеют отчетливые следы влияния "Ау!".Как известно [2,4,8], для поиска информации в больших массивах данных используются два основных метода. Один из них - поиск на основе каталога ресурсов. Он является более эффективным, если пользователь хорошо представляет себе предметную область интересующих его материалов - тогда, выбрав определённый раздел, он получит ресурсы только по необходимой тематике. При заполнении такого каталога вручную специалисты описывают ресурсы и распределяют их по рубрикам, что требует больших трудозатрат и не всегда обеспечивает необходимую полноту и актуальность данных. Метод контекстно-атрибутного поиска позволяет отыскать необходимый документ по словам или атрибутам, характеризующим интересующую тему. При этом результат поиска сильно зависит как от правильности выбора ключевых слов, так и от качества работы поисковой машины. Результат поиска, как правило, содержит много ссылок на ресурсы, не относящиеся к нужной тематике.
Можно встретить немало текстов, где делаются попытки раз и навсегда решить вопрос, что лучше - каталоги или поисковые машины (search engines). При этом отмечается, что поисковые машины индексируют миллионы документов, а скорость актуализации их баз данных намного превосходит возможности живых редакторов. Но такая масса данных вряд ли полезна пользователю, особенно если нужные сведения находятся на какой-нибудь 35-й странице. С другой стороны, именно скрупулезная (пусть и более медленная) ручная проверка ссылок, выполняемая специалистами, уменьшает количество "информационного мусора" в каталогах и позволяет точнее отвечать на запросы пользователя. Но и там не всегда легко найти нужную информацию - ведь любая, даже самая совершенная система классификации в значительной степени произвольна, и логика создания базы данных далеко не всегда совпадает с логикой поиска. Еще одна проблема любой классификации состоит в том, что чем она подробнее (то есть чем лучше она отражает многообразие классифицируемого материала), тем труднее в ней разобраться потребителю. С увеличением числа рубрик в каталоге возрастает и число пограничных ситуаций, когда ресурс с полным основанием можно отнести к двум-трём (а то и больше) рубрикам. Если же рубрик слишком мало, списки из сотен аннотаций по одной теме становятся труднообозримыми. Именно структура рубрикатора во многом определяет качество каталога.
Следует также иметь в виду, что для каталогов сетевых ресурсов вряд ли подойдет стандартная библиотечная классификация с детально проработанными названиями разделов. Ряд из них, например, "Объемное деформирование. Прокатка, прессование, выдавливание, волочение и другие виды обработки давлением" (УДК 621.77) или "Детали машин. Механизмы. Передачи (механические). Подъёмно-транспортное оборудование. Крепежные средства. Смазка" (УДК 621.8) рискуют остаться пустыми. В то же время ни в одном УДК или ББК вы не найдете понятия "сервис-провайдер", "интернет-магазин" или "веб-дизайн", но именно этим заголовкам соответствуют тысячи записей. Немногим может помочь и международная классификация видов деятельности (International Standard Industrial Classification of all Economic Activities - ISIC, (http:// www.ilo.org /public/ english/bureau/stat /class/isic.htm)
, где позиции одного и того же иерархического уровня несопоставимы по информационному наполнению - например, 16 (производство табачных изделий), 55 (отели и рестораны), 64 (связь и телекоммуникации), 80 (образование), 85 (здравоохранение и социальные услуги).Еще одно замечание по поводу средств поиска и пользовательских предпочтений. Лет 15-20 назад, на заре массовой компьютеризации, обсуждались различные способы организации диалога с компьютером. Традиционный вариант, основанный на использовании клавиатуры ("think and type"), постепенно вытеснялся более дружественным для массового пользователя интерфейсом с применением мыши ("see and point"). Применительно к навигации в Интернете запрос поискового контекста соответствует работе с клавиатурой, а мышь удобна для перемещения по иерархии и ссылкам каталога - в соответствии со вкусами и привычками пользователей.
Для решения указанных выше проблем часто применяют комбинированную технику поиска. Наблюдается своеобразная конвергенция каталогов и поисковых систем, когда они приобретают лучшие черты друг друга [5]. Ограничение области поиска определенной тематической категорией экономит время поиска и в то же время повышает релевантность его результатов. Тщательный ручной мониторинг встроенного каталога в сочетании с
быстрым автоматическим обходом сайтов, выполняемым поисковыми роботами, обеспечивает высокую степень соответствия запроса и результата.Подобные примеры можно без труда найти и в отечественном сегменте Интернета и за рубежом. С 1997 года поиск в каталоге "Ау!" можно было выполнять с помощью встроенной поисковой системы "Апорт!", а сейчас этот каталог интегрирован в поисковую систему. Популярность поисковой системы Rambler во многом определяется системой рейтингов Rambler Top100, фактически представляющей собой каталог ресурсов. Упоминавшийся каталог Yahoo! тоже обзавелся системой поиска, при этом последовательно приобретались лицензии таких известных поисковых систем как AltaVista, позже HotBot и Google - лучших на текущий период. В свою очередь, Hotbot и
AltaVista года два назад включили в состав услуг поиск по Yahoo-подобным каталогам (directories).Ярким примером такого рода может служить и новый каталог компании Яndex - разработчика одноименной поисковой системы, лидирующей на отечественном рынке. Этот проект также направлен на повышение релевантности при поиске Интернет-ресурсов. Работа над каталогом началась в конце 1999 года. Наш коллектив совместно со специалистами Яndex разработал концепцию каталога и принципы классификации, выполнил первоначальное наполнение базы данных и обучение редакторов. В основу был положен ряд совершенно новых решений. Одно из основных - применение своеобразной многомерной рубрикации. В каталоге Яndex поиск можно вести не только по теме, но и по другим признакам - географическому региону, источнику и адресату информации, сектору экономики. Во многих ситуациях важно отличать официальные данные от публикаций прессы, частных суждений. Точно так же различны материалы, предназначенные коллегам и единомышленникам, либо инвесторам и спонсорам, либо произвольной аудитории (как товары в продовольственном магазине). Новый каталог позволяет уточнять поиск в соответствии с этими и многими другими критериями. Такой принцип построения каталога (он называется фасетным) применен в Интернете впервые.
Тематическое дерево каталога сделано максимально простым. На верхнем уровне в нем всего 12 тематических рубрик, а число уровней в глубину не превышает четырех. На любом уровне можно сузить список сайтов по любому из признаков. Например, в каталоге Яndex легко найти все благотворительные (некоммерческие) организации, работающие с детьми в Нижнем Новгороде (используются признаки: тема + регион + сектор экономики), юридические услуги для организаций (используются признаки: тема + адресат) или чаты, посвященные современной музыке (используются признаки: тема + источник информации). Сайты в каталоге отсортированы по индексу цитирования - числу упоминаний данного сайта в Интернете.
Новый каталог естественно интегрирован с поиском Яndex. Каталог и поиск рассматриваются как равноправные и дополнительные вещи. Если вспомнить аналогию с мышью и клавиатурой применительно к поиску и каталогу, то здесь пользователю предоставлены обе возможности навигации и удобный переход от одной к другой.
Еще одна особенность каталога: для лучшей организации обработки запроса пользователю уже на титульной странице предлагается выбрать вид деятельности из наиболее популярных вариантов - "купить", "почитать", "поиграть", "пообщаться", "скачать". Ссылки ведут соответственно к электронным магазинам, библиотекам, чатам и т.д. К началу лета 2001 г. в каталог Яndex помещено более 40000 российских интернет-ресурсов, что соответствует примерно 300 тысячам единиц описания в обычном каталоге.
Известны и другие примеры, когда поисковая система может выполнять кластеризацию результатов поиска. Так, Northern Light в ответ на конкретный запрос о неанглоязычных пользователях сети предложила свыше 8 тысяч ссылок, динамически объединенных в 12 категорий, среди которых были, в частности, "психология обучения", "латиноамериканский рынок" и "управление музеями". В данном случае наиболее подходящий по смыслу раздел "очерки о Сети" содержал 12 ссылок. Разумеется, подобные решения, дающие возможность ограничить поиск нужными категориями, предоставляют пользователям дополнительные удобства.
Между тем продолжают появляться новые решения и в жанре "традиционных" каталогов. В первой фразе этого текста говорится о "хорошем" каталоге. Это понятие довольно субъективно, у многих есть собственное представление о том, что это такое. Как считают авторы нового, динамично развивающегося каталога "Вирталог" (http://www.virtalog.ru), хороший каталог должен быть
Такой каталог, по замыслу авторов, представляет собой сервис приложений, обеспечивающий персонализацию настроек и контента. Естественно, подобный проект требует значительных затрат и предъявляет высокие требования к профессионализму разработчиков.
В заключение - несколько слов о печатных изданиях каталогов отечественных Интернет-ресурсов. Ряд из них подготовлен тем же коллективом лаборатории сетевых информационных ресурсов ЦЭМИ, который разработал базу данных каталога "Ау!"/@Rus. Среди них - первый в стране справочник [6], а также два выпуска Russian Internet Directory [7], которые содержат соответственно 7 500 и 12 500 ссылок и до сих пор остаются наиболее полными печатными каталогами Рунета. Материалы из нашей базы вошли в "Желтые страницы Интернет" - фундаментальную серию издательства "Питер" (см. [8] и последующие выпуски). Последний проект лаборатории - серия "Навигатор российского Интернета" [9], выходящая в качестве приложения к журналуа "Информационные ресурсы России". Каждая книга "Навигатора" объемом 6-8 печатных листов содержит порядка тысячи аннотированных ссылок и по содержанию приблизительно соответствует одной из глав универсальных "Желтых страниц". В 1999-2001 годах опубликованы выпуски "Информация об информации", "Образование", "Медицина и здоровье", "Наука и техника", "Средства массовой информации", "Некоммерческие организации" и другие (о некоторых из них см. [10]). К сожалению, из-за небольшого тиража эти книги почти неизвестны потенциальным читателям (подпиской занимается ответственный секретарь журнала "Информационные ресурсы России" В.К. Шарова,
shr@rosinf.ru, телефон в Москве 456 7065).Литература
" // Тезисы докладов Всероссийской научно-методической конференции "Телематика'98" (http://risbank.spb.ru/risbank2/tm98/152.htm).