Информационное обеспечение науки. Новые технологии

Автоматизированная система обработки статистической информации ЦБС БЕН РАН

Варакин В.П.,  Каленов Н.Е.
(Библиотека по естественным наукам РАН)

Одним из важнейших направлений работы БЕН РАН является комплектование фондов библиотек, входящих в ее централизованную библиотечную систему (ЦБС). В условиях ограниченного финансирования, когда невозможно приобрести все выходящие в мире издания по тематике исследований обслуживаемых институтов, проведение этой работы на приемлемом уровне требует решения оптимизационных задач на основе использования информации о степени важности для каждого конкретного коллектива тех или иных групп изданий. Одним из видов такой информации являются данные о спросе пользователей на издания по различным каналам обслуживания. Это обусловило необходимость создания программного комплекса обработки статистической информации, позволяющего создать базис для принятия адекватных организационно – управленческих решений.

Сбор и накопление информации о спросе на издания из фондов БЕН по различным каналам обслуживания были заложены в основу АС Библиотеки с целью реализации функции “обратной связи”, обеспечивающей получение данных, необходимых для ее устойчивой работы как системы управления. В Библиотеке, начиная с 1980-го года, функционировали различные версии программного обеспечения обработки данных читательского спроса, развивавшиеся одновременно с технической базой. Сначала на ЕС ЭВМ была создана подсистема, обеспечивающая решение задач ввода (с развитой системой формального контроля) и обработки данных по копированию материалов с выставок новых поступлений (ВНП) литературы, еженедельно организуемых БЕН. Копирование с ВНП выполнялось бесплатно, но с ограничением на количество страниц согласно размерам квот, выделяемых на год каждому институту, входящему в систему БЕН. При обработке информации о заказах сотрудников институтов на ВНП контролировался объем ксерокопирования, выполненного для каждого института, на основе чего проводился сравнительный анализ популярности журналов, результаты которого использовались в технологии комплектования. По мере развития программного и технического обеспечения АС БЕН количество задач, связанных с обработкой данных о спросе на издания, увеличивалось – в дополнение к обработке данных о заказах на ВНП анализировалась выдача литературы по межбиблиотечному абонементу, выдача журналов и продолжающихся изданий в читальном зале Библиотеки. При переходе на новую программно–техническую базу (с ЕС ЭВМ - на персональные компьютеры) решение задач анализа данных о спросе на издания было перенесено в среду MS DOS. Однако задачи, реализованные в MS DOS (в силу программно–аппаратных ограничений этой ОС), оставались по-прежнему автономными и решались независимо друг от друга. С появлением возможности использования средств MS Windows в конце 1990-х годов БЕН РАН был разработан комплекс JADE [1], который объединял данные о спросе на зарубежные журналы по различным каналам обслуживания и решал задачи оптимального заказа на зарубежные журналы.

Созданная при поддержке РФФИ (грант 03-07-90056) новая версия S-3.04 системы обработки статистики БЕН РАН (далее Система) позволяет интегрировать данные о спросе на любые виды изданий? доступные по всем каналам обслуживания, связывает их с электронными каталогами и базой данных читателей [2].

В соответствии с функционирующей в настоящее время автоматизированной технологией в БЕН РАН формируются четыре потока данных, отражающих спрос пользователей на издания из фондов:

  • Заказы на ксерокопирование материалов с ВНП и из читального зала, которые являются основой для автоматизации финансовых расчетов с заказчиками. С бланков-заказов в компьютер вводятся шифр журнала (книги), год издания, номер читательского билета заказчика, дата, количество заказанных страниц.
  • Заказы, поступающие через Интернет от читателей, планирующих придти в Библиотеку и работать в читальном зале. Заказы формируются автоматически при распечатке требования, которое печатается читателем непосредственно в Библиотеке, и содержат шифр хранения издания, его библиографическое описание, фамилию читателя, номер его читательского билета и дату.
  • Заказы по МБА, поступившие через Интернет, направляемые для выполнения в отдел фондов. Заказы формируются автоматически и содержат шифр хранения издания, его библиографическое описание, вид выполнения (оригинал, ксерокопия, электронная копия), количество страниц (если заказана копия), код абонента-заказчика, дату.
  • Запросы на издания от читателей, пришедших в Библиотеку, поступающие в отдел фондов на традиционных читательских требованиях. Сотрудником отдела фондов в компьютер вводятся шифр хранения издания, номер читательского билета заказчика, дата, код отказа, если издание отсутствует в фондах. Аналогично регистрируются отказы на издания, заказанные по вышеописанным каналам обслуживания.

Система обеспечивает автоматический ввод всех четырех потоков заказов в единую базу данных. Она открыта для расширения функциональных возможностей с целью дальнейшей реализации приложений, использующих методы многомерного и кластерного анализа, статистического прогнозирования, и обеспечивает информационную совместимость с EXCEL и существующими пакетами обработки статистики (SPSS v12, StatSoft Statistica v6.0 и др.).

Функции основной СУБД в Системе выполняет MS SQL Server 7.0/2000, в связи с чем ниже используется терминология, принятая для этой СУБД, кроме терминов “строка” и “столбец”, которые заменяются более употребительными - “запись” и “поле” соответственно.

Система поддерживает две БД – буферную и основную. Буферная БД используется для ввода текущей информации, а основная предоставляется пользователям для осуществления целевых выборок данных. Основная БД содержит некоторую избыточность данных, что обеспечивает более быструю реакцию системы. Хотя такой подход и приводит к увеличению объема БД, для современных компьютеров, обладающих практически неограниченными ресурсами внешней памяти, это не является критичным при количестве данных, поддерживаемых Системой.

В состав буферной БД входят следующие таблицы.

  1. Таблица заказов на ксерокопирование материалов. Поля записи: “Дата”, “Код источника” (ВНП, ЧЗ), “Номер ВНП”, “Код института”, “Сокращенное название (Сигла) института”, “Номер читательского билета”, “Шифр хранения”, “Год публикации”, “Количество скопированных страниц”.

  2. Таблица Интернет–заказов. Поля записи: “Дата”, “Шифр хранения”, “Год публикации”, “Название журнала”, “Том”, “Номер”, “Библиографическое описание книги или выпуска продолжающегося издания (БО)”, “Номер читательского билета”, “Фамилия читателя”.

  3. Таблица заказов по фондам. Поля записи: “Дата”, “Шифр хранения”, “Год публикации”, “Номер читательского билета”, “Код выполнения/отказа”.

  4. Таблица заказов по МБА. Поля записи: “Дата”, “Шифр хранения”, “Год публикации”, “Название журнала”, “Том”, “Номер”, “БО”, “Код абонента”, “Вид выполнения (оригинал, ксерокопия, электронная копия)”, “Код выполнения/отказа”, “Количество страниц копий”,

  5. Таблица книг и продолжающихся изданий (формируется на основе выборка из текущего каталога). Поля записи: “Шифр хранения”, “БО”.

  6. Таблица журналов (формируется на основе выборка из текущего каталога). Поля записи: “Шифр хранения”, “Название журнала”, “Код тематики”, “Код страны издания”.

  7. Таблица читателей (входит в состав разработанной в 2004 году автоматизированной системы регистрации читателей [2]). Поля записи, используемые в системе статистики: “Полный номер читательского билета”, “Фамилия”, “Имя”, “Отчество”, “Должность”, “Ученая степень”.

    Основная база данных содержит следующие таблицы:

  8. Таблица статистики по спросу книг и продолжающихся изданий (является объединением таблиц 1-4, 5 и 7 буферной БД) Поля записи: “Дата”, “Номер выставки”, “Код института”, “СИГЛА”, “Полный номер читательского билета”, “Шифр хранения”, “Год публикации”, “Количество страниц копий”, “Код квалификации читателя”, “Код специальности читателя”, “БО”, “Канал поступления заказа”, “Вид заказа”, “Код выполнения/отказа”

  9. Таблица статистики по спросу журналов (является объединением таблиц 1-4, 6 и 7, пополняющихся и буферной БД). Поля записи: “Дата”, “Номер выставки”, “Код института”, “СИГЛА”, “Полный номер читательского билета”, “Шифр хранения”, “Год публикации”, “Количество страниц копий”, “Код квалификации читателя”, “Код специальности читателя”, “Название журнала”, “Код тематики”, “Код страны издания”, “Канал поступления заказа”, “Вид заказа”, “Код выполнения/отказа”

  10. Таблица комплексной статистики (является объединением всех таблиц, пополняющихся из буферной БД).

  11. Служебные таблицы (содержат информацию, используемую системой при выполнении ее функций, в частности словари, списки учетных записей пользователей и администраторов, а также журнал доступа).

    Для ввода информации в БД Системы используются конвертеры, разработанные в среде Microsoft Visual FoxPro 9.0, а также средства MS SQL Server, Transact-SQL и DTS.

    При вводе осуществляется контроль общей полноты набора данных, а также их соответствия типам и принятым в системе форматам. Реализован контроль повторного ввода и проверка соответствия загружаемых данных содержимому словарей, входящих в состав системы.

    Для работы с перечисленными выше базами данных и входящими в их состав таблицами разработаны 10 исполнительных блоков, реализующих многоаспектную выборку данных и требуемые вычисления, в том числе универсальный блок и блок АДМИНИСТРАТОРА. В состав функций, выполняемых администратором, входит формирование ежемесячного отчета по результатам ксерокопирования.

    Все блоки поддерживают (с некоторыми различиями) типовой интерфейс пользователя, который представлен на рис.1.

    Рис.1 Типовой интерфейс пользователя

    В текущей версии Системы реализован режим выборки по запросам, формируемым пользователем, включающим до пяти поисковых полей одновременно. Имена полей таблицы выбираются из раскрывающихся списков в левой верхней области формы (все поля таблицы – поисковые). Логические связки – “И” (по умолчанию), “ИЛИ”, “И НЕ”.

    Поддерживается следующий набор операторов отношений: Содержится (по умолчанию), Равно, Не равно, Не содержится, Меньше или Равно, Больше, Больше или Равно. Вместо логической связки “И НЕ” можно использовать оператор отношения “Не равно” (для чисел) или “Не содержится” (для символьных значений).

    По умолчанию используется усечение справа (“Да”). В случае, если поиск осуществляется на полное совпадение, выбирается опция (“Нет”). Для усечения слева используется символ “%” непосредственно перед значением поискового фрагмента.

    При выборке предусмотрены возможности управления составом вывода (раскрывающиеся списки и флажки в области “Выбор выводимых полей и функций”, в том числе выводом значений виртуальных полей “Количество обращений” и “Число”, являющихся результатами выполнения функций “Счетчик” и “Сумма”, имена аргументов которых выбираются из соответствующих раскрывающихся списков).

    В приведенном примере (см. Рис.1) сформулирован простой запрос на выборку шифров хранения и названий журналов, а также значений количества обращений читателей к ним (флажком отмечена функция “Счетчик”, выбран аргумент “Шифр хранения” и определена сортировка по значению поля “Количество обращений”). Имя поля “Количество обращений” в раскрывающемся списке сортировки сокращено как “Кол. обр.”.

    Рис.2 Результат выполнения запроса на выборку данных

    В результате выполнения запроса на экран выводится список, упорядоченный по возрастанию количества обращений к журналам (Рис.2,).

    Список выводится постранично в виде таблиц, количество строк в которых можно изменить, воспользовавшись раскрывающимся списком “Выбор числа строк на странице” (1, 5, 10, 20, 50, 70, 100, 200, 300, 500, 1000, 10000, 50000, 100000). В примере системой выведена последняя страница итоговой таблицы, поэтому количество ее строк не равно 20-ти. Для перехода на требуемую страницу в поле “№СТРАНИЦЫ” вводится ее номер и нажимается кнопка “GO TO”.

    Итоговые результаты могут быть сохранены в файлы MS WORD и MS EXCEL с помощью штатных средств MS Internet Explorer.

    Система позволяет формулировать запросы, более “мощные” по сравнению с запросом, рассмотренным выше. В них, наряду с функциями и сортировкой, включаются поисковые значения полей (верхняя левая область формы интерфейса), соответствующая логика и операции отношения. Так, например, можно сформулировать запрос: “Сколько и каких заказано и выдано журналов за период времени 1996 -2005 г.г.” и получить таблицу, фрагмент которой выведен в EXCEL и представлен на рис.3.

    Возможно также осуществлять выборки с учетом значения кода тематики (для журналов) и получать ранжированные ряды источников по количеству ксерокопированных страниц или количеству обращений (см. Рис.4).

    Рис.3 Результат выборки числа заказанных и выданных единиц за период 1996 – 2005 г.г. (последняя страница результирующей таблицы сохранена в Excel)

    Рис.4 Результат выборки по коду тематики 30 (последняя страница результирующей таблицы сохранена в WORD)

    Благодаря тому, что к БД подключены элементы библиографических описаний, Система обеспечивает выполнение “прямых” и “обратных” запросов на выборку данных: “По элементам результирующих статистических таблиц найти библиографию” и “По элементам библиографических описаний найти соответствующие записи статистики и осуществить заданную обработку информации”.

    Для расширения поисковых возможностей в Системе реализованы дополнительные средства формулировки запросов. Для этого имеется раскрывающийся список консоли пользователя “Выбор варианта объединения в запросе” (см. Рис.1, верхняя правая область формы). Задав в левой части консоли имена полей (их может быть до 5-ти, и ниже они обозначены X1, X2, X3, X4, X5), пользователь выбирает одну из строк консоли и подставляет значения выбранных полей и требуемых логических связок. Консоль содержит 7 вариантов скобочных выражений:

  12. (X1 OP X2 OP X3 OP X4 OP X5).

  13. (X1 OP X2) OP (X3 OP X4 OP X5).

  14. (X1 OP X2 OP X3) OP (X4 OP X5).

  15. (X1 OP X2 OP X3 OP X4) OP X5.

  16. (X1 OP X2) OP (X3 OP X4) OP X5.

  17. ((X1 OP X2) OP X3) OP (X4 OP X5).

  18. ((X1 OP X2) OP (X3 OP X4 OP X5).

Здесь OP – логическая связка, которая может быть задана как “И”, “ИЛИ”, “И НЕ”.

Программное обеспечение данной версии Системы, как и ранее созданное для модельной версии системы обработки статистической информации БЕН РАН [3], базируется на использовании технологии ASP. В его состав входят функционально связанные активные самонастраивающиеся страницы, которые содержат коды программ и HTML-спецификации, а также расширенная библиотека классов в формате Microsoft FrontPage 2000/2003. Для формирования таких страниц используются средства Microsoft Visual Studio 6.0/.NET 2003.

В качестве базовых языков программирования выбраны JavaScript и VBScript.

Для обеспечения защиты информации, наряду с использованием стандартных средств безопасности Windows 2000/2003, IIS 5.0/6.0 и MS SQL Server 7.0/2000, в системе реализован дополнительный блок контроля доступа. В набор функций, выполняемых блоком АДМИНИСТРАТОРА, включены формирование учетных записей пользователей и администраторов системы, их удаление, присвоение и изменение паролей. Реализовано разграничение прав администраторов на выполнение функций, входящих в этот набор. Разработан блок, поддерживающий ведение журнала доступа. Все страницы системы защищены от НСД.

Созданная система функционирует в среде Интранет/Интернет под управлением Windows 2000/2003 Server, она установлена на сервере БЕН РАН и находится в стадии опытной эксплуатации. В настоящее время начата разработка следующей версии Системы, ориентированной на технологии .NET.

ЛИТЕРАТУРА:

  1. Каленов Н.Е., Козлова Е.И., Гиацинтов О.М.

    Математическая модель оптимизации подписки на журналы в научной библиотеке // НТИ, Сер. 1, 1999. – С. 9-12.

  2. Варакин В.П., Каленов Н.Е., Власова С.А. ИНТЕРНЕТ в системе обслуживания читателей БЕН РАН // Научный сервис в сети ИНТЕРНЕТ. Всероссийская научная конференция, г. Новороссийск, сент. 20-25, 2004. - М., МГУ, 2004. - С. 70-71

  3. Варакин В.П. Модельная версия программного обеспечения системы обработки статистической информации БЕН РАН для Windows 2000 // Современные технологии в информационном обеспечении науки: Сборник научных трудов – М., 2003. – С. 258-263