52
技技技 (技) 技技 技技技 技技技 技技技技 书统 [email protected] 面面 21 面面面面面面 面面面 面面面面面面

技术篇 ( 二 )

Embed Size (px)

DESCRIPTION

面向 21 世纪课程教材 数字图书馆原理及应用. 技术篇 ( 二 ). 赵亮 上海图书馆系统网络中心 [email protected]. 内容. 第六章:数字图书馆信息存储与检索技术( p153-188 ) 第七章:数字图书馆的互操作( p188-226 ). 重点. 掌握: 数据压缩技术原理、方法,文本压缩、多媒体压缩; p162-167 跨语言检索的实现方法; p179-185 数字图书馆异构对象数据库互操作技术; p195-197 Z39.50 协议及 Z39.83 协议其原理、模式、应用; p210 熟悉: 多媒体信息检索; p170-178 - PowerPoint PPT Presentation

Citation preview

Page 1: 技术篇  ( 二 )

技术篇 ( 二 )

赵亮上海图书馆系统网络中心[email protected]

面向 21 世纪课程教材

数字图书馆原理及应用

Page 2: 技术篇  ( 二 )

内容 第六章:数字图书馆信息存储与检索技术( p

153-188 ) 第七章:数字图书馆的互操作( p188-226 )

Page 3: 技术篇  ( 二 )

重点 掌握:

数据压缩技术原理、方法,文本压缩、多媒体压缩; p162-167

跨语言检索的实现方法; p179-185数字图书馆异构对象数据库互操作技术; p195-1

97Z39.50 协议及 Z39.83 协议其原理、模式、应用;

p210 熟悉:

多媒体信息检索; p170-178互操作产生的原因; p190-191

Page 4: 技术篇  ( 二 )

重点 了解:

存储设备、存储技术和架构、数据备份技术、数据压缩; p153,p162

基于内容的信息检索技术;跨语言检索; p170, p178

数字图书馆的互操作及其协议和标准; p189

Page 5: 技术篇  ( 二 )

第六章第六章

数字图书馆信息存储数字图书馆信息存储与检索技术与检索技术

Page 6: 技术篇  ( 二 )

数字图书馆的存储设备 (p.153-155) 磁盘阵列 ( RAID ) 磁带库 光盘塔 光盘库 光盘网络镜像服务器

Page 7: 技术篇  ( 二 )

存储技术和架构 (p.155-158)

直接连接存储 ( DAS ) 网络连接存储 ( NAS ) 存储区域网 ( SAN )

Page 8: 技术篇  ( 二 )

三种存储架构的比较分析类型

项目DAS NAS SAN

1. 软件安装 一般 简单 复杂

2. 文件共享 差 好 很好

3. 存储操作系统 非独立 独立  

4. 存储数据方式 分散 集中  

5. 系统管理 复杂 简单,不易扩展 简单,更易扩展

6. 扩充性 差 好 很好

7. 传输效率,占用带宽

多 多 少

8. 备份与数据恢复 备份恢复麻烦 备份恢复方便 备份恢复集中管理,好

9. 总拥有成本 高 较低 低

10. 应用环境 适应地理上分布的环境

适 应 分 布式 异构环境

适应海量存储

Page 9: 技术篇  ( 二 )

数据备份技术 本地备份

DAS 网络备份

NAS 基于 SAN 的 LAN-FREE 的备份

SAN

Page 10: 技术篇  ( 二 )

物理空间──降低存储费用

时间空间──迅速传输媒体信源

频率空间──并行开通更多业务

数据压缩的定义与内容 p.162

Page 11: 技术篇  ( 二 )

数据压缩技术实现的衡量标准p.163

压缩比要大恢复后的失真小速度要快,压缩算法简单硬件开销小

Page 12: 技术篇  ( 二 )

数据压缩技术原理、方法 p.163-164 无损压缩是指使用压缩后的数据进行重构 (或者叫做还原,解压缩 ),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。 有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。 混合压缩是指接近于无损压缩效果的有损压缩。

Page 13: 技术篇  ( 二 )

文本压缩技术 p.164-167 霍夫曼( Huffman )编码 算术编码 字典压缩模型

LZW 编码游程编码

Page 14: 技术篇  ( 二 )

霍夫曼编码实例 , step I Assume that relative frequencies are:

A: 40 B: 20 C: 10 D: 10 R: 20

(I chose simpler numbers than the real frequencies) Smallest number are 10 and 10 (C and D), so connect

those

Page 15: 技术篇  ( 二 )

霍夫曼编码实例 , step II C and D have already been used, and

the new node above them (call it C+D) has value 20

The smallest values are B, C+D, and R, all of which have value 20Connect any two of these

Page 16: 技术篇  ( 二 )

霍夫曼编码实例 , step III

The smallest values is R, while A and B+C+D all have value 40

Connect R to either of the others

Page 17: 技术篇  ( 二 )

霍夫曼编码实例 , step IV

Connect the final two nodes

Page 18: 技术篇  ( 二 )

霍夫曼编码实例 , step V Assign 0 to left branches, 1 to right branches Each encoding is a path from the root

A = 0B = 100C = 1010D = 1011R = 11

Each path terminates at a leaf

Do you see why encoded strings are decodable?

Page 19: 技术篇  ( 二 )

霍夫曼编码, Unique prefix property A = 0

B = 100C = 1010D = 1011R = 11

No bit string is a prefix of any other bit string For example, if we added E=01, then A (0)

would be a prefix of E Similarly, if we added F=10, then it would be

a prefix of three other encodings (B=100, C=1010, and D=1011)

The unique prefix property holds because, in a binary tree, a leaf is not on a path to any other node

Page 20: 技术篇  ( 二 )

算术编码 p.165 基本思想:算术编码不是将单个信源符号映射

成一个码字,而是把真个信源表示为实数线上的 0 到 1 之间的一个区间,其长度等于该序列的概率,再在该区间内选择一个代表性的小数,转化为二进制作为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间。

采用算术编码每个符号的平均编码长度可以为小数。

Page 21: 技术篇  ( 二 )

算术编码举例(一)符号 00 01 10 11

概率 0.1 0.4 0.2 0.3

初始区间 [0, 0.1) [0.1, 0.5) [0.5, 0.7) [0.7, 1)

Page 22: 技术篇  ( 二 )

词典编码 词典编码主要利用数据本身包含许多重复的字

符串的特性。例如:吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮。 我们如果用一些简单的代号代替这些字符串,就可以实现压缩,实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。

实用的词典编码算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余。

Page 23: 技术篇  ( 二 )

词典编码举例 词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。

Page 24: 技术篇  ( 二 )

LZW编码 得名于 Lempel – Ziv - Welch 。 是一种动态生成字典并编码的字典压缩

模型。具有压缩效率高、实现简单的优点,是目前最常用的无损压缩方法之一。

Page 25: 技术篇  ( 二 )

LZW编码算法流程初始化字典

前缀 S = 空串

C = 从输入流中读一个字符

把新串 S+C加到字典中

S = C

输出 输出 S S 的编码的编码

输出结束标记

是结尾标志吗?是

S = S+CS+C 在字典中吗?是

输出 输出 S S 的编码的编码

Page 26: 技术篇  ( 二 )

LZW编码实例要编码字串 : abcdabababcd

前缀 S 下一字符C

输出码 S+C新词典条目NEW CODE

a b a ab 256

b c b bc 257

c d c cd 258

d a d da 259

ab a 256 aba 260

aba b 260 abab 261

bc d 257 bcd 262

d EOF d --- ---

Page 27: 技术篇  ( 二 )

游程编码( RLE) 游程编码( Run-Length Encoding ):它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。

例如: RTTTTTTTTABBCDG被转换为: R#8TABBCDG ,其中“#”作为转义字符,表明其后所跟的字符表示长度。

行程编码多用于黑白二值图像的压缩中。例如00000000111111111111000001111111被转化为一系列黑串和白串长度的编码: 81257 。因为串长度并非等概率分布,所以一般要配合以统计编码( Huffman 编码)。

Page 28: 技术篇  ( 二 )

多媒体压缩技术 p.167-170静止图像压缩标准 JPEG

无损及有损在 20-40倍压缩比时,人眼看不出区别

活动图像压缩标准 MPEGMPEG-1

352X240 , VCD

MPEG-2 720X480 , DVD

MPEG-4

Page 29: 技术篇  ( 二 )

基于内容的信息检索技术 p.170-178 图像信息检索

颜色形状纹理

形状

平均颜色色彩组合

纹理

图像检索

Page 30: 技术篇  ( 二 )

基于内容的信息检索技术 p.170-178 动态视频信息检索

视频分割视频聚类关键帧抽取运动特性抽取视频检索

Page 31: 技术篇  ( 二 )

基于内容的信息检索技术 p.170-178音频信息检索

音频的类型波形声音 语音音乐

语音检索音乐检索

结构化音乐的检索 基于样本的音乐检索

Page 32: 技术篇  ( 二 )

跨语言信息检索技术 p.178-188 跨语言信息检索的定义

跨语言信息检索是指用户以一种语言提问,检索出另一种语言或多种语言描述的相关信息。

计算机信息检索技术机器翻译技术

Page 33: 技术篇  ( 二 )

跨语言信息检索技术 p.178-188 跨语言信息检索的实现方法

提问式翻译法 基于词典的方法 基于语料库的方法混合方法

文献翻译法提问式 - 文献翻译法中间翻译法不翻译法提问词构造法专有名词音译法

Page 34: 技术篇  ( 二 )

跨语言信息检索的技术重点翻译所需语言资源的研究翻译歧义性的消解

词典方法语料库方法

交互性系统

Page 35: 技术篇  ( 二 )

第七章第七章

数字图书馆的互操作数字图书馆的互操作

Page 36: 技术篇  ( 二 )

数字图书馆中数字资源的互操作 US IEEE 的定义

互操作性是指两个或多个系统相互使用已被交换的信息的能力 .

互操作还包括信息资源的存储、组织、检索、表示、系统间的通信、系统管理、用户管理及知识产权等问题

P.189-190

Page 37: 技术篇  ( 二 )

数字图书馆互操作问题产生的原因 数字信息资源的组织和结构问题 信息资源数字化中文件的命名问题 元数据问题 信息资源数字加工格式问题 体系结构方面的问题系统构架问题

p.190-191

Page 38: 技术篇  ( 二 )

实现互操作的协议和标准 Z39.50 OAI 基于 XML 的元数据互操作 Dienst 协议 Emerge 协议

P.191-195

Page 39: 技术篇  ( 二 )

数字图书馆异构对象数据库互操作的几种技术

CORBA-公共对象请求代理体系结构 中间件技术 DOM/DCOM

p.195-197

Page 40: 技术篇  ( 二 )

Data Provider

Data Provider

Data Provider

Data Provider数据提供者数据提供者 Data

ProviderData

Provider

Data Provider

Data Provider服务提供者服务提供者

资源仓库

资源仓库

资源仓库

OAI命令

请求

记录

回复

用户

OAIOAI 示意圖示意圖OAIOAI 示意圖示意圖

Page 41: 技术篇  ( 二 )

Z39.50 信息检索协议信息检索协议

ANSI/NISO Z39.50ISO 23950

客户机 / 服务器架构 , 基于连接进程的( Z 连接)Z39.50 维护管理机构 – 美国国会图书馆

http://lcweb.loc.gov/z3950/agency/Z39.50 的服务和机制

11 种机制与相应服务、服务类型、启动方

Page 42: 技术篇  ( 二 )

Z39.50 是客户机、服务器模式但称之为源端( Origin )与目的端

(Target)

Client/origin

Server/target

Page 43: 技术篇  ( 二 )

客户机 / 服务器架构

Page 44: 技术篇  ( 二 )

客户机 / 服务器架构

Page 45: 技术篇  ( 二 )

Z39.50 协议过程11 种机制 p.213-216

初始化机制搜索机制提取机制删除结果集机制浏览机制排序机制访问控制机制记帐 /资源控制机制解释机制扩展服务机制终止机制

Page 46: 技术篇  ( 二 )

基本 Z39.50 操作示例(最重要的三种服务)

Origin Target

Initialization OperationInit request

Init response

Search OperationSearch request

Search response

Present OperationPresent request

Present response

Page 47: 技术篇  ( 二 )

Z39.50 协议应用模式 p.220-223单层客户机服务器模式多层客户机服务器模式广播式查询模式

Page 48: 技术篇  ( 二 )

Z39.83 协议 p.223Z39.83 是由美国国家信息标准组织( NISO )制定的有关馆际互借的一种新协议,于2002年正式推出。简称 NCIP.(NISO Circulation Interchange Protocol)两个部分组成

第一部分定义了一系列的消息和相关的语法、句法规则第二部分详细第一部分的应用细则。用于支持

直接联机借阅、流通 / 馆际互借事务、自助服务流通这三大应用领域。其次也可以用于诸如电子文献资源管理等新出现的领域。

Page 49: 技术篇  ( 二 )

Z39.50 Item Order p.224

Z39.50 Item Order 是基于 Z39.50 扩展服务机制来进行文献借阅的一种扩展协议。

Page 50: 技术篇  ( 二 )

Z39.83 协议与 Z39.50 Item Order 的比较 p.225Z39.83 协议支持以下四种馆际互借模式

传统的馆际互借ISO-ILL 馆际互借NCIP Link直接运送

Z39.83 协议与 Z39.50 Item Order 相比有如下特点:

有着非常灵活的选项通过设置典型需求自助服务项目,提高了图书馆员工的工作效率,降低了运行费用

通过多个运送者,可以将用户所需要的书籍直接送到家中

查询界面可以向用户提供各种查询

Page 51: 技术篇  ( 二 )

Q&AQ&A

Page 52: 技术篇  ( 二 )

本演示文稿地址:http://www.libnet.sh.cn/sztsg/temp/index.htmhttp://www.libnet.sh.cn/sztsg/temp/index.htm