20
СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ ПОЛНОТЕКСТОВЫХ РЕСУРСОВ Е. В. Стрелкова XV Конференция РБА Томск, 16-21 мая 2010 г.

СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

  • Upload
    rian

  • View
    89

  • Download
    3

Embed Size (px)

DESCRIPTION

СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ ПОЛНОТЕКСТОВЫХ РЕСУРСОВ. Е. В. Стрелкова XV Конференция РБА Томск, 16-21 мая 2010 г. Поиск, доступ, использование. Каталог – поиск Каталог – поиск и управление доступом Полнотекстовые поиск и ресурсы управление доступом. - PowerPoint PPT Presentation

Citation preview

Page 1: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ

ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Е. В. Стрелкова

XV Конференция РБАТомск, 16-21 мая 2010 г.

Page 2: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Поиск, доступ, использование

• Каталог – поиск• Каталог – поиск и

управлениедоступом

• Полнотекстовые поиск и ресурсы управление

доступом

Page 3: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Нормализация/эффективность

Нормализация данных

• Атомарность значений• Нормализация при

составных ключах• «Расщепление»

связей…

ЭФФЕКТИВНОСТЬ?

Метаданные

Данные

Источники

Информация

ДОСТУП?

Page 4: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Термин

Нормализация данных – одна из характеристик качества ИС

Нормализация – эффективность доступа

Типы нормальных форм:

• 1НФ – неразложимость значений или «атомарность» элементов;• 2НФ – нормализация при составных ключах

(1НФ + зависимость каждого значения целиком и полностью от ключа);• 3НФ – «расщепление» структуры информационного объекта

(2НФ + взаимная независимость значений);• НФ Бойса-Кодда (НФБК); 4НФ; 5НФ.

В целях повышения эффективности доступаИС могут обрабатывать данные без нормализации

Лента новостейЭлектронная коллекция

Page 5: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Критерии эффективностиПротиворечивость источников в фондах библиотеки

и объективная избыточность

Собственные электронные ресурсы

библиотеки(оптимизация состава и

структуры данных в электронной среде)

Интеллектуальная обработка

(обеспечение заданного уровня нормализации)

КРИТЕРИЙ 1

Предоставление данных и документов в электронной среде

(повышение точности и полноты поиска)КРИТЕРИЙ 2

Page 6: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Authorities Авторитетные источники – архивные документы

библиотечного хранения

Приведение к принятой норме – вариативность форм

Нормализация – система АФкодированная информациясправочники

КРИТЕРИЙ 1

Page 7: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Терминологический контроль

• Требование FRBR – нормализация базовой библиографической записи на уровне национального авторитетного/нормативного файла хотя бы в одной точке доступа (IADN – поле 015 в АЗ – FRAR)

• Возможность универсального использования лингвистического обеспечения электронных ресурсов в ходе решения профессиональных задач

Page 8: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Нормализация электронных ресурсов

ФБ СПбГПУ:• библиографические БД (АЗ)• полнотекстовые БД (метаданные)

БЗ – полный текстБЗ – поля АЗ – сетевое библиотечное изданиеБЗ – метаданные для электронной коллекции –

полный текстАЗ – метаданные для электронной коллекции –

полный текст

Page 10: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Проектная деятельность

• VIAF• Система национальных АФ• Межрегиональные проекты• Корпоративное

взаимоиспользование ресурсов

• Генерация электронных

ресурсов локального

доступа

ФБ СПбГПУ

Предметныерубрики

14500

Справочник«Персоналии»

2500

Авторы(РИНЦ, НТВ)

3700

Page 11: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Сетевые ресурсы в составе фонда

Библиотечные фонды

Гибридность ресурсов

Сетевые ресурсы (собственные? приобретенные?)

Библиографические БД, Издания, Электронные библиотеки

Электронные ресурсы без сепаратных носителей – сетевые

Задача: эффективное управлениераспределенными сетевыми ресурсами

локального и удаленного доступа

Page 12: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Сетевой доступ

Сетевые ресурсы библиотеки, отнесенные к ее интеллектуальной собственности,

• имеют высокую себестоимость,• требуют постоянного мониторинга востребованности,• нуждаются в критериях оценки результатов для обоснования

расходов.

Ресурсам библиотеки (созданным в соответствии со статусом и назначением ее деятельности)могут быть противопоставлены

- параллельно создаваемые ресурсы других библиотек; - аналогичные ресурсы в смежной отрасли;

- ресурсы, созданные энтузиастами сетевого распространения информации.

Page 13: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Необходимость гармонизации

• Профессор Шмаргунов К.Н.Директор ТИИ 1939-1944 гг.

• 1925-1930 гг. - Сибирский технологический институт им. Ф.Э. Дзержинского (СТИ)

• 1930-1934 гг. - Сибирский механико-машиностроительный институт (СММИ)

• 1934-1944 гг. - Томский индустриальный институт им. С.М. Кирова (ТИИ)

• 1944-1991 гг. - Томский политехнический институт им. С.М. Кирова (ТПИ)

• с 1991 г. - Томский политехнический университет (ТПУ)

Шмаргунов Константин Николаевич (1902-1953)

Электротехник. В 1946-1951 гг. - директор Политехнического института.

Родился в мае 1902 г. в селе Малевка Богородицкого уезда Тульской губернии. Окончил Сибирский механико-машиностроительный институт (г. Томск) в 1930 г. со званием «инженер-механик по электротехнической специальности», ассистент. С 1934 г. - в Томском индустриальном институте: доцент (1938), профессор по кафедре «Горная электротехника» (1940); декан, начальник НИСа, директор (с 1939 г.). В 1944-1946 гг. - первый заместитель председателя президиума Западно-Сибирского филиала АН СССР в г. Новосибирске. В 1946-1951 гг. - директор Ленинградского политехнического института имени М.И.Калинина (25.06.1946-07.05.1951). Профессор кафедры "Общая электротехника”. С 1951 г. - в Академии наук СССР. Скончался 17 апреля 1953 г. в Ленинграде.

Институт горного дела СО РАНВ 1939 г. стал директором Томского индустриального института. Возглавив крупнейшее в Сибири высшее учебное заведение, добился заметного развития ТПИ и особенно много сделал для подготовки инженерных и научных кадров. Во главе ведущих ученых Института активно участвовал в организации Западно-Сибирского филиала АН СССР.

Page 14: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Гармонизация электронных ресурсов

– Форматы представления ЭР– Правила каталогизации и методики

индексирования– Авторитетные файлы

Формирование нормализованных метаданныхдля полнотекстового поиска

• FRANAR – совместное использование авторитетных данных на международном уровне и вне пределов библиотечной среды

Page 15: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Актуальность информации

Локальный уровень создания авторитетных данных:

– исследовательская работа;

– краеведческая работа;

– защита данных(текст, графика, мультимедиа).

Текстовые объекты1.Текст (гладкий, размеченный, html)2.Многочастный объект (смешанный, альтернативный, параллельный, многоцелевой)

Нетекстовые объекты1.Изображение (gif, jpeg, tiff)2. Аудио (wav)3.Видео (mpeg, quick, raw)4.Приложения (pdf, ppt, doc)

Page 16: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Нормализация элементов сетевого издания

АЗ – 200АЗ – 300 (1)АЗ – 300 (2)+ Элементы графики

Гиперссылки:• Биография• Источники• Сочинения• Иконография

Page 17: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

От сайта к порталу?

Характерные признаки портала:наличие разноплановых информационных массивов (полнотекстовые коллекции, каталог ссылок на другие сетевые ресурсы, встроенные системы поиска по порталу, сервисы форумов, опросов, интернет-конференций).

РНБА.Г.Беглик

Интеграция внешних интерфейсов с оформлением страниц сайта (динамические страницы) – признак портального решения в управлении правами.

СПбГПУМ.Л.Бурчик

Page 18: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Нормализация полнотекстовых баз данных

• Идентичность содержания и разнообразие поисковых сервисов

• Сводный каталог как справочный корпоративный ресурс межведомственного и межотраслевого уровня

• Объектно-ориентированные структурыорганизации хранения и извлечения данных с различной семиотикой

КРИТЕРИЙ 2

Page 19: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Нормализация полнотекстовых баз данных

3. Semantic Web

1.RUSMARC – DCТаблица соответствия – конвертирование с учетом АЗ

2. Лингваоператор – DCВключениенормализованных данных в текст

Page 20: СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ  ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

Взаимодействие

Человек – МашинаМашина – МашинаНадстройка над www-средойАвтоматизированный поиск информации

Таксономия – словарь – ТезаурусСвязывание словаря терминов с контентом

МаркировкаНормализация библиографических баз