Разработка и реализация лингвистического обеспечения
корпоративной
информационно-поисковой системы
Корпоративный университет "Северсталь" входит в состав “Северсталь-групп”, где он предназначен быть агентом формирования единой культуры ведения бизнеса посредством системы управления знаниями. Университет является инструментом поддержки управленческих решений высшего менеджмента, а также исследовательским, информационным, образовательным, методическим и консультационным центром для всей
группы компаний. Центральной частью Корпоративного университета и основным инструментом реализации его миссии является система управления знаниями. Управление знаниями осуществляется в процессах передачи эффективных управленческих технологий, поддержки управленческих решений и обеспечения консалтинговых и образовательных проектов. Кроме того, система управления знаниями должна обеспечить формирование и
распространение общей управленческой культуры группы "Северсталь".
Необходимость создания системы управления знаниями для группы "Северсталь" определяется, во-первых, географической удаленностью предприятий группы и сложностью построения эффективных коммуникаций, особенно в плане обмена передовым опытом, и, во-вторых, неравномерностью развития разных предприятий в различных областях деятельности. Одно предприятие может продвинуться дальше других в области маркетинга,
но отставать в области управления человеческими ресурсами, тогда как другое предприятие может иметь ряд успешных технологий управления персоналом, но испытывать трудности организации маркетинговой службы. Если эти предприятия вместо того, чтобы тратить ресурсы на решение своих проблем самостоятельно, будут обмениваться опытом, это принесет пользу им обоим и группе "Северсталь" в целом. Результатом признания важности создания системы управления знаниями корпорации является подписание Генеральным директором ЗАО “Северсталь-групп” А.А.Мордашовым стандарта “Управление знаниями”, который сейчас находится в стадии внедрения.
Основой системы управления знаниями служит корпоративная информационно-поисковая система (ИПС) для хранения и распространения информации. Структура создаваемой информационно-поисковой системы может быть представлена как совокупность трёх системных слоев:
К подсистеме лингвистического обеспечения относятся следующие компоненты системы: рубрикаторы и программы информационного поиска, включая их нормативные файлы, а также методики индексирования (внесения данных в регистрационные записи) и поиска.
В настоящее время пилотная версия информационно-поисковой системы запущена в не-скольких подразделениях ОАО "Северсталь". В структурных подразделениях компании производится первичная обработка документов, индексирование документов и запросов, поиск информации.
Конечные пользователи заполняют регистрационные записи о документах в базах данных.
В ходе опытной эксплуатации пилотной системы Корпоративный университет предоставляет методическую и серверную поддержку. В качестве технологической платформы используется среда Lotus DominoDoc. Техническую поддержку предоставляет Центр информационных технологий Корпоративного университета. В Центре управления знаниями Корпоративного университета осуществляются следующие функции: управление и совершенствование ИПС; информационное обслуживание абонентов; научная обработка документов; методическое обеспечение процессов.
Первая из этих функций частично возложена на группу лингвистического обеспечения Центра управления знаниями, которая должна обеспечить ведение и поддержку баз данных ИПЯ ИПС; контроль использования ИПЯ (контроль и учет практического использования рубрик рубрикаторов); принятие и оформление классификационных решений; усовершенствование локального рубрикатора; ведение ИПЯ ключевых слов (лексикографический контроль использования, исключение устаревших слов); разработку методик использования ИПЯ.
ИПС выполняет следующие функции:
Разработка вопросов лингвистического обеспечения (ЛО) информационно-поисковых систем (ИПС) является важнейшим шагом на пути решения проблемы обработки информации и обеспечения доступа к ней. Набор используемых лингвистических средств определяется функциональным назначением системы, типо- видовой структурой документально-информационного потока, обрабатываемого системой и т. д. Достижение основной цели ЛО ИПС — обеспечения максимальной полноты и точности информационного поиска — обычно связано с использованием различных лингвистических средств, дополняющих друг друга.
Основываясь на опыте разработки лингвистического обеспечения систем научно-технической информации [1, 2], следует сделать вывод, что необходимая семантическая сила ЛО нашей корпоративной информационно-поисковой системы может быть достигнута путем использования четырёхчленного комплекса информационно-поисковых языков (ИПЯ). В этот комплекс входят как разрабатываемые нами ИПЯ, так и средства, уже имеющиеся в системе. В первом случае - это язык ключевых слов, набор общесистемных и локальных рубрикаторов, язык метаданных. Во втором случае - это средства полнотекстового поиска, обеспечиваемые средой Lotus DominoDoc. Такой состав ЛО соответствует требованиям минимальной избыточности, заключающимся в применении только таких лингвистических средств, которые необходимы для решения задач, предъявляемых данной системе пользователями.
Мы столкнулись с необходимостью обеспечить поиск как по широкотематическим запросам, так и по запросам, сформулированным с точностью до детальных понятий. Эффективным для поиска по широкотематическим запросам являются классификационные ИПЯ, для поиска по детальным запросам — вербальные ИПЯ. Следовательно, в составе лингвистического обеспечения требуется наличие хотя бы одного вербального и одного классификационного ИПЯ.
Наша логика построения информационно-поисковой системы в данном случае была следующей:
Вербальные ИПЯ
Наиболее эффективным среди вербальных ИПЯ является язык ключевых слов, свободно выбираемых из лексикона специалистов-пользователей и вводимых в базы данных в нормализованной лексикографической форме. Причины использования языка ключевых слов таковы:
Однако необходимо учитывать, что неконтролируемое и неуправляемое применение ключевых слов приводит к значительным потерям в характеристиках полноты и точности поиска. С целью устранения недостатков должны строго соблюдаться методические рекомендации и инструкции. В настоящее время разрабатываются методические документы, которые будут определять режим ведения и совершенствования ИПЯ ключевых слов. В частности, изучается вопрос о разработке семантического словаря ключевых слов (информационно-поискового тезауруса), в котором лексические единицы будут характеризоваться смысловыми связями друг с другом, что позволит проводить содержательный поиск информации, не ограничиваясь выдачей материалов по формальному совпадению слов запроса и документа.
Классификационные ИПЯ
Вопрос наличия в составе лингвистического обеспечения общесистемного рубрикатора научно-технической информации решен стандартами ГОСТ 7.49-84 [3] и ГОСТ 7.77-98 [4]. Минимум дополнительных классификационных ИПЯ, обеспечивающий достаточно большое покрытие потребностей информационного взаимодействия — это ИПЯ локального рубрикатора, который находится в процессе разработки с целью более тонкого отражения внутренних информационных потоков группы "Северсталь". Локальный рубрикатор входного потока документов в 2004 году был зарегистрирован в Межгосударственной системе научно-технической информации (ГСНТИ).
ИПЯ метаданных.
В Центре управления знаниями НОУ Корпоративный университет "Северсталь" разработан и находится в процессе технической реализации ИПЯ метаданных. Данный язык реализуется в виде формата регистрационных карточек на следующие виды документов: аналитический отчет (записка); бизнес-план; отчет о командировке; отчет о выполненном проекте; нормативный документ (закон, положение, правила, инструкция, государственный стандарт, стандарт предприятия, технические условия); презентация; статья (опубликованная в журнале, газете); учебный дистанционный курс; прочие документы (документы, которые могут быть размещены в корпоративном электронном каталоге по усмотрению исполнителя и регистратора документов в зависимости от ценности их содержания).
Регистрационная карточка - это набор полей (атрибутов) документа (элементов метаданных). Регистрационная карточка предназначена для размещения сведений о документе в корпоративном электронном каталоге. Регистрационная карточка разработана на основе минимального набора метаданных, который известен как "Дублинское ядро" и теперь оформлен как международный стандарт ISO 15836:2003 [5]. Во внимание был принят также опыт разработки отечественного стандарта ГОСТ 7.70-2003 [6], который предлагает гораздо более обширный набор реквизитов описания информационных ресурсов.
Для каждого вида документов корпоративной ИПС определены состав и содержание элементов метаданных (полей). Критерием отбора полей для формирования записей в структуре карточки явилась практика составления библиографических описаний, а также соответствие потребностям и задачам нашей информационно-поисковой системы.
Поскольку ИПС создается как инструмент, поддерживающий процессы управления знаниями, необходимыми являются поля определения тематики документа: поле ключевых слов, поле локального рубрикатора, поле рубрикатора ГРНТИ.
Правила использования ИПЯ метаданных и ИПЯ ключевых слов определяются нормативным документом "Правила заполнения полей регистрационной карточки документа", который задает состав и содержание реквизитов документа, размещаемых в корпоративном электронном каталоге, а также общие требования к заполнению полей регистрационной карточки.
Реквизиты документов можно условно разделить на три группы: обязательные, обязательные для отдельных видов документов и факультативные.
К первой группе относятся 13 реквизитов, являющихся обязательными для всех видов документов:
Вторую группу реквизитов составляют поля, обязательные для отдельных видов документов. Данные реквизиты позволяют предоставить пользователю максимально необходимую информацию о публикуемом документе. К ним относятся:
Третью группу составляют факультативные реквизиты, позволяющие предоставить поль-зователю дополнительную информацию о документе. К ним относятся:
Общие требования к заполнению полей предусматривают необходимость всестороннего ознакомления с документом, чёткого описания его в реферате, а также уточняют правила орфографического представления текста.
В качестве приложения к "Правилам заполнения полей регистрационной карточки документа" разработаны дополнительные нормативные документы: "Правила заполнения поля Ключевые слова", "Требования к содержанию и структуре реферата". Первый из них включает:
Требования к реферату — краткому точному изложению содержания документа — определены документом "Требования к содержанию и структуре реферата", разработанным в соответствие с отечественными и международными стандартами [9,10]. В нем объясняются функции реферата, определяются его структура и особенности текста, в частности, правила написания имен собственных, сокращений, единиц физических величин, географических названий, таблиц, формул, чертежей. Рекомендуется средний объем текста реферата — 850 печатных знаков.
Принятый языковой состав лингвистического обеспечения корпоративной ИПС представляется наиболее эффективным как в функциональном отношении, так и с точки зрения его экономичности. Предварительные результаты опытной эксплуатации системы свидетельствуют, что он позволяет обеспечить: индексирование документов и запросов; эффективный поиск в документальных базах данных по содержательным запросам; внутрисистемную лингвистическую совместимость.
ЛИТЕРАТУРА
1. Положение о лингвистическом обеспечении Государственной автоматизированной системы научно-технической информации.— М.: ГКНТ, 1986.
2. Антопольский А. Б. Лингвистическое обеспечение электронных библиотек.— М.: Информрегистр, 2003 .— С. 56-66.
3. ГОСТ 7.49-84 СИБИД. Рубрикатор ГАСНТИ. Структура, правила использования и ведения.— М.: Изд-во стандартов, 1984.
4. ГОСТ 7.77-98 СИБИД. Межгосударственный рубрикатор научно-технической информации. Структура, правила использования и ведения.— Минск: Изд-во стандартов, 1998.
5. ISO 15836:2003 Information and documentation — The Dublin Core metadata element set.— Geneve, 2003.
6. ГОСТ 7.70-2003 СИБИД. Описание баз данных и машиночитаемых информационных массивов. Состав и обозначение характеристик.— М.: Изд-во стандартов, 2003.
7. ГОСТ ИСО 8601-2001 СИБИД. Представление дат и времени дня. Общие требования.— Минск: Изд-во стандартов, 2001.
8. ГОСТ 7.66-92 СИБИД. Индексирование документов. Общие требования к координатному
индексированию.— М.: Изд-во стандартов, 1992.
9. ГОСТ 7.9-95 (ИСО 214-76) СИБИД. Реферат и аннотация. Общие требования.— М.: Изд-во стандартов, 1996.
10. ISO 214:1976 Documentation — Abstracts for publications and documentation.— Geneve, 1976.