36
Многоуровневые цифровые архивы: стратегия построения и опыт создания Л.И. Рубанов Н.С. Мерзляков В.Н. Карнаухов Институт проблем передачи информации РАН, Москва При поддержке Российского фонда фундаментальных исследований (проект № 00-07-90032)

Многоуровневые цифровые архивы: стратегия построения и опыт создания

  • Upload
    keahi

  • View
    56

  • Download
    2

Embed Size (px)

DESCRIPTION

Многоуровневые цифровые архивы: стратегия построения и опыт создания. Л.И. Рубанов Н.С. Мерзляков В.Н. Карнаухов Институт проблем передачи информации РАН, Москва. При поддержке Российского фонда фундаментальных исследований (проект № 00-07-90032). Предпосылки работы. - PowerPoint PPT Presentation

Citation preview

Page 1: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Многоуровневые цифровые архивы: стратегия построения и опыт создания

Л.И. Рубанов

Н.С. Мерзляков

В.Н. Карнаухов

Институт проблем передачи информации РАН, Москва

При поддержке Российского фонда фундаментальных исследований (проект № 00-07-90032)

Page 2: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Предпосылки работы

Более чем 30-летний опыт ИППИ РАН в области цифровой обработки изображений:

Обработка результатов радиолокационной и фотографической съемки космических объектов и небесных тел (Луна, Венера, Марс ...)

Обработка аэрофотоснимков и результатов дистанционного зондирования земной поверхности (в оптическом диапазоне, инфракрасном диапазоне и многозональных)

Обработка изображений в задачах цветовой сегментации и медицинской диагностики

Цифровая голография: синтез, анализ и моделирование когерентных волновых полей

Page 3: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Цифровая обработка изображений в космических исследованиях и дистанционном зондировании

Page 4: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Цифровая обработка изображений в задачах цветовой сегментации и медицинской диагностики

Page 5: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Цифровая голография: синтез, анализ и моделирование когерентных волновых полей

Page 6: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Предпосылки работы

Разработка проектов новых технологий для сохранения культурного наследия:

Восстановление и архивирование рукописных текстов Рукописная картотека древнерусского словаря XI-XIX в.в. (свыше 2 млн. карточек более чем за 100 лет, внесен в перечень культурных ценностей ЮНЕСКО)

Разработка цифровой коллекции редких фотографий Цифровой архив фотодокументов ЛАФОКИ РАН (более 40 тыс. черно-белых и цветных негативов и фотографий по истории российской науки за более чем 120 лет)

Цифровая реставрация и каталогизация водяных знаков Методы и инструментальные средства цифровой реставрации водяных знаков, встречающихся на бумаге древних рукописей, и создание базы изображений этих водяных знаков и их описаний (совместно с Австрийской академией наук)

Page 7: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Задачи реставрации и сохранения культурного наследия

Page 8: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Тематическая обработка и идентификация средневековых водяных знаков

Водяной знак

Тема и разновидности

013-01-01-01

013-03-01-01 013-03-05-01

"колокол"

013-03-07-01

Page 9: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Инструментальная система для обработки водяных знаков

Тематическая обработка и идентификация средневековых водяных знаков

Page 10: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Архив Российской академии наук (АРАН)

Образован в 1720 г. и является старейшим научным архивом России.Хранит документы Академии наук за всю ее более чем 275-летнюю историю, а также материалы по истории российской и зарубежной науки.

Научный потенциал АРАН содержится в более чем 2000 архивных фондах, включающих около 1 млн. единиц хранения: - фонды учреждений Академии наук и научных обществ, - личные фонды выдающихся ученых (М.В.Ломоносова, Л.Эйлера, В.И.Вернадского, К.Э.Циолковского, С.В.Ковалевской, Н.И.Вавилова, И.И.Мечникова и др.), - различные тематические коллекции (медалей и знаков, старинных рисунков и т.п.).

Сегодня основная форма работы пользователей с архивными материалами - предоставление их через читальный зал АРАН. При такой процедуре трудно обеспечить широкий доступ пользователей к архивным материалам и при этом гарантировать их физическую сохранность, равно как и целостность интеллектуальной собственности.

Page 11: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Основные задачи проекта

Реставрация и надежное сохранение фотодокументов и других изобразительных материалов Цифровые методы обработки и сжатия изображений

Методы индексации и поиска архивной информации Применение типовых структур и баз данных для создания тексто-графических цифровых архивов

Многоуровневая система доступа к архивным данным Общедоступность vs. Интеллектуальная собственность Технология параллельного наполнения цифрового архива Автоматизация формирования и ведения вторичных архивов Репликация на CD/DVD-ROM и представление в Интернет

Page 12: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Цифровая реставрация архивных изображений

Исходное изображение Результат обработки

Page 13: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Исходное изображение Результат обработки

Цифровая реставрация архивных изображений

Page 14: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Цифровая реставрация архивных изображений

Исходное изображение Результат обработки

Page 15: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Цифровая реставрация архивных изображений

Исходное изображение Результат обработки

Page 16: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Элементы стратегии построения и наполнения цифрового архива

Приоритетность

Иерархичность

Переносимость

Эффективность

Доступность

Page 17: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Стратегия: приоритетность

Соображения: Частота обращения к материалу (интерес пользователей) Степень сохранности оригинала Категория архивной единицы и степень ее уникальности Коммерческая перспективность (реклама?) Доступные ресурсы, технологии и технические средства

Выбранные приоритеты для материалов АРАН: Личные фонды выдающихся ученых, президентов Академии и

возглавлявшихся ими учреждений, а также наиболее интересные тематические коллекции (медалей и знаков, рисунков, гравюр...)

Рукописные документы (включая рисунки, чертежи, карты и т.п.) Авторизованная машинопись (документы с авторской правкой) Фотодокументы – фотографии, негативы, слайды… … кинопленки, видео- и аудиозаписи

Выбор очередности перевода в цифровую форму архивных фондов, коллекций, единиц хранения (и самих архивов)

Page 18: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Стратегия: иерархичность

Построение таких информационных и организационных структур, в которых было бы возможным управлять степенью полноты и детальности предоставляемой информации

Соображения: Обеспечение постепенного наполнения цифрового архива с учетом

установленных приоритетов Многоуровневая сеть регионального распределения и репликации Развертывание в неоднородной информационной инфраструктуре

Выбранная структура (в деталях позже): Первичный цифровой архив Региональные реплики первичного архива Вторичные цифровые архивы различных видов (в т.ч. CD/DVD и Web)

Page 19: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Стратегия: переносимость

Сохранение результатов начатой деятельности в условиях смены поколений вычислительной техники, программного обеспечения и носителей информации

Соображения: Соблюдение международных стандартов хранения информации Применение типового системного программного обеспечения, языков

описания и манипулирования данными Отказ от привлекательных, но заведомо не переносимых решений

Некоторые принятые решения: Переносимые стандартные форматы неподвижных изображений

(TIFF, JPG, PNG) Ориентация на языки SQL, HTML, Java Основа информационного каркаса - реляционные базы данных (для

всей не изображенческой информации) Отдельный банк изображений, логически связанный с записями базы

данных

Page 20: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Динамическая связь базы данных с банком изображений

Page 21: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Стратегия: эффективность

Соображения: Инженерные и организационные решения (с учетом перспективы) Выбор разрешения и глубины цвета при сканировании Определение метода и степени сжатия графической информации Сочетание ручных и автоматизированных методов оцифровки и

обработки исходной информации Выбор объемов цифровой реставрации изображений и вычитки

текстовых документов после автоматического ввода

Выбранные методы: Дифференцированный подход к обработке и цифровой

реставрации изображений Отложенная обработка в основании пирамиды множественных

разрешений изображения

Нахождение оптимального баланса достигаемого качества и требуемых затрат ресурсов

Page 22: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Стратегия: доступность

Два аспекта: Возможность параллельного многоуровневого доступа к архивным

базам данных в различных информационных средах в России и за рубежом, в том числе в регионах, слабо охваченных доступом в Интернет

Простота и глубина поиска необходимой информации в цифровом архиве

Решения: Распределенная трехуровневая структура цифрового архива Сохранение всех существующих архивных атрибутов и дескрипторов Разработка новых признаков и дескрипторов для тематического

поиска и отбора документов Добавление новых ассоциативных связей между фондами и

единицами хранения по мере их перевода в цифровую форму

Page 23: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Трехуровневая структура цифрового архива

Page 24: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Опыт реализации изложенной стратегии

На материалах АРАН на сегодняшний день разработаны и наполнены следующие цифровые архивы:

Первичный архив - База данных всех членов Академии наук с 1724 г. Вторичные архивы для нее на CD-ROM и в Интернет Коллекция медалей и знаков АРАН Фотодокументы персональных фондов президентов Академии:

• А.П. Александрова• М.В. Келдыша• С.И. Вавилова (находится в стадии наполнения)

Коллекция портретов (фотографий, рисунков, гравюр) российских и зарубежных ученых, собранная Мусиным-Пушкиным (содержится внутри персонального фонда акад. Н.А. Морозова)

Page 25: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

База данных всех членов Академии наук с 1724 г. (4955 чел.), включающая их краткие биографии, научную специализацию, академические должности, научные награды (все на русском и английском языках), а также свыше 7000 портретов. Пример формы:

Page 26: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

На базе этого первичного цифрового архива были созданы два вторичных архива:

- CD-ROM "Российская Академия Наук: 1724-1999" (вышло два издания)

- Ресурс в Интернет: http://hp.iitp.ru

Page 27: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Коллекция медалей и знаков (АРАН, разряд XIII). В этой разработке была реализована возможность многомасштабной визуализации физических объектов, в том числе с большим увеличением. Примеры форм:

Page 28: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Коллекция медалей и знаков (АРАН, разряд XIII). В этой разработке была реализована возможность многомасштабной визуализации физических объектов, в том числе с большим увеличением. Примеры форм:

Page 29: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Коллекция медалей и знаков (АРАН, разряд XIII). В этой разработке была реализована возможность многомасштабной визуализации физических объектов, в том числе с большим увеличением. Примеры форм:

Page 30: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Коллекция медалей и знаков (АРАН, разряд XIII). В этой разработке была реализована возможность многомасштабной визуализации физических объектов, в том числе с большим увеличением. Примеры форм:

Page 31: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Персональные фонды президентов Академии:- А.П. Александров (АРАН, ф. 1916) - свыше 600 фотодокументов.- М.В. Келдыш (АРАН, ф. 1729) - свыше 500 фотодокументов

Пример формы:

Page 32: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Коллекция портретов (фотографий, рисунков, гравюр) российских и зарубежных ученых, собранная Мусиным-Пушкиным (содержится внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700 документов. Пример формы:

Page 33: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Коллекция портретов (фотографий, рисунков, гравюр) российских и зарубежных ученых, собранная Мусиным-Пушкиным (содержится внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700 документов. Пример формы:

Page 34: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Коллекция портретов (фотографий, рисунков, гравюр) российских и зарубежных ученых, собранная Мусиным-Пушкиным (содержится внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700 документов. Пример формы:

Page 35: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Коллекция портретов (фотографий, рисунков, гравюр) российских и зарубежных ученых, собранная Мусиным-Пушкиным (содержится внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700 документов. Пример формы:

Page 36: Многоуровневые цифровые архивы: стратегия построения  и опыт создания

Хотя научные исследования и разработки по созданию тексто-графического архива РАН еще продолжаются, реализованные к настоящему времени разделы цифрового архива уже используются и встречают положительную оценку пользователей, что подтверждает правильность и продуктивность выбранной стратегии, позволяет рекомендовать ее для применения в других отраслях архивного дела. Мы надеемся, что данная технология может быть полезна при переводе в широкодоступную цифровую форму и других архивов - неотъемлемой составляющей мирового культурного наследия.Литература1. И.М. Бокштейн, Н.А. Кузнецов, Н.С. Мерзляков, Л.И. Рубанов. Возможности и средства цифровой реставрации архивных рукописных текстов // Информационные технологии и вычислительные системы, № 1, 1997. М.:ИВВС РАН, 1997. С.1-15. 2. I.M. Bockstein, V.N. Karnaukhov, N.A. Kuznetsov, N.S. Merzlyakov, and L.I. Rubanov, "Digital restoration, enhancement, and archiving of photo-documents," Digital Image Processing and Computer Graphics (DIP-97), Proc. of SPIE, Wenger E., Dimitrov L.I. (editors), 3346, pp. 350-356, Vienna, 1998. 3. V. Karnaukhov, E. Wenger, N. Merzlyakov, A. Haidinger, F. Lackner, "Thematic processing and retrieving of watermarks," Image Processing and Computer Optics (DIP-94), Proc. of SPIE, Kuznetsov N.A., Soifer V.A. (editors), 2363, pp. 32-39, Samara, 1996. 4. L.I. Rubanov, N.S. Merzlyakov, V.N. Karnaukhov, and N.M. Osipova, "Strategy of creation of digital archives accessible through the Internet", Internet Imaging III, Proc. of SPIE, G.B. Beretta, R. Schettini (editors), 4672, pp. 181-189, San Jose, 2002.