42

第五章 中文信息处理

  • Upload
    gabe

  • View
    50

  • Download
    2

Embed Size (px)

DESCRIPTION

第五章 中文信息处理. 汉字信息的表示. 5.2 中文信息在计算机内的表示. 在计算机内表示中文信息的最早在 IBM 、富士通、日立等计算机生产厂家的计算机中开始,但采用的编码形式互不兼容。 为了能使汉字能够在计算机中通行,国际标准组织( ISO )、国际电子电气工程师协会( IEEE )以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。 ISO/IEC 2022 定义了七位代码和八位代码的空间及其代码空间扩充的技术。 绝大多数计算机系统所采用的字符集,都是以 ISO/IEC 2022 为基础的。 - PowerPoint PPT Presentation

Citation preview

Page 1: 第五章 中文信息处理
Page 2: 第五章 中文信息处理

第五章 中文信息处理

汉字信息的表示汉字信息的表示

Page 3: 第五章 中文信息处理

5.2 中文信息在计算机内的表示• 在计算机内表示中文信息的最早在 IBM 、富士通、日立等计算机生产

厂家的计算机中开始,但采用的编码形式互不兼容。• 为了能使汉字能够在计算机中通行,国际标准组织( ISO )、国际电

子电气工程师协会( IEEE )以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。– ISO/IEC 2022 定义了七位代码和八位代码的空间及其代码空间扩充的技

术。

• 绝大多数计算机系统所采用的字符集,都是以 ISO/IEC 2022 为基础的。

• 一般汉字在计算机内部的表示都是通过扩充编码长度实现的。

Page 4: 第五章 中文信息处理

汉字的几种通行名称• Hanzi,Hantsu, 汉字• Ideographic character, 表意字符,中文字符• Kanji- 日文中的叫法• Hanja- 朝鲜文中的叫法• CJK- 中日韩通用字符集• Unihan

Page 5: 第五章 中文信息处理

ISO/IEC 2022 单八位代码空间图

Page 6: 第五章 中文信息处理

ISO/IEC 2022 单八位代码空间图

• 00-31 (十六进制为 00H-1FH )为第一个控制字符集C0H 的编码区域

• 32 (十六进制为 20H )为 Space• 127 (十六进制为 7FH )为 DELETE符 ;• 128-160 (十六进制为 80H-A0H )为第二个控制字符集 C1 的编码区域

• 33-126 ( GL ) 和 161-254 (GR) 则是两个图形字符的编码区域

Page 7: 第五章 中文信息处理

汉字在 ISO/IEC 2022 空间中的位置

Page 8: 第五章 中文信息处理

ISO/IEC 2022 的体系结构特点

• 代码空间狭小,凡是 C0, C1 控制字符相关的空间都回避不用;汉字编码没有利用 80 ( 十六进制 ) 以上的空间。

• 按国家 / 地区分别编码。• 需要一整套复杂的指明 / 调用的控制功能来区分代码空间

中的字汇。

Page 9: 第五章 中文信息处理

汉字代码

• 汉字内码是真实世界的汉字信息在计算机系统中的最基本表示。

• 根据汉字信息在计算机内部使用的目的和存储的方式,汉字代码有各种不同的形式和称谓。

• 最常使用的有交换码和内码等。

Page 10: 第五章 中文信息处理

汉字交换码

• 汉字交换码是用于信息交换的汉字代码。• 可以用双字节、 3 字节和 4 字节表示。• 汉字交换码一般不能直接用于信息处理。

– 例如,在 GB2312 中,“码”字的交换码为十六进制的 42h/6Bh 。无法与 ASCII 码的“ Bk” 相区别。

• 在实际使用中,交换码必须转换为机内码。• 但是在国际标准 ISO/IEC 10646和 Unicode 中,交换

码与处理码可以是一致的,因为此时的 ASCII 码也采用双字节表示。

Page 11: 第五章 中文信息处理

汉字区位码• 汉字区位码是汉字交换码的另一种表示形式。• 在 GB2312 中,汉字交换码所占的方阵大小为 94×94 ,

若纵向定义为区号(取值范围为十进制数的 0-94 ),横向定义为位号(取值范围为十进制数的 0-94 ),则两个坐标明确了一个汉字的位置。区号和位号的编号都是从 1开始,到 94 结束。

• 例如,在 GB2312-80 中,“ 码”字所在的区号为“ 34” ,位号为“ 75” ,故其区位码为“ 3475” 。

Page 12: 第五章 中文信息处理

GB2312-80 汉字编码

• 国标交换码 :

– 问题:信息通信中,汉字的区位码与通信使用的控制码( 00H~

1FH )发生冲突。

– 解决方案:为了避免汉字区位码与通信控制码的冲突, ISO2022 规定,每个汉字的区号和位号必须分别加上 32 (即二进制 0010

0000 )。

– 经过这样处理得到的代码称为汉字的“国标交换码”(简称交换码)。因此,“大”字的交换码是 : 00110100 01110011 。

汉字区位码

Page 13: 第五章 中文信息处理

汉字机内码

• 用于信息处理的汉字代码,也称汉字处理码。• 汉字的内码长度可以不同,通常汉字内码是双字节。• 对于单字节操作系统内核,汉字代码为了与 ASCII 码相区

别,往往把两字节(至少把第一个字节)的最高位( Bit 7 )置为 1 。

Page 14: 第五章 中文信息处理

GB2312-80 汉字编码

• 机内码:

– 问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准 ASCII 码就会混淆不清。

– 解决方法:把一个汉字看作两个扩展 ASCII 码,使表示 GB2312

汉字的两个字节的最高位 (b7) 都等于“ 1”。这种高位为 l的双字

节 (16位 ) 汉字编码就称为 GB2312 汉字的“机内码”,又称内码。

如:“大”字的内码是: 10110100 11110011( B4F3 )

汉字机内码

Page 15: 第五章 中文信息处理

交换码、 区位码和内码关系

• 在 GB2312-80 中,交换码、 区位码、处理码之间存在着简单的转化关系。

• 设交换码为 JH( J为高位, H为低位,为十六进数),区位码为QW( Q为区号,W 为位号,为十进制数),处理码为 CL( C 为高位, L为低位,为十六进制数),则:

• J=Q+32 --再转换为十六进制数• H=W+32 --再转换为十六进制数• C=J+80H• L=H+80H

Page 16: 第五章 中文信息处理

汉字编码字符集• 按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个

汉字与它的代码表示之间具有一一对应关系。• 在信息处理技术中汉字编码字符集用于汉字信息的表示、交换、传

输、处理、存储、输入及显示。• 在国际标准化组织 ISO 的定义中,“无歧义的规则”很重要,制定

这些规则的目的是为了确保编码的唯一性,避免重码。

Page 17: 第五章 中文信息处理

汉字编码的关系

GBK- 95

GB2312-80

GB12345- 90

GB18030- 2000

00 FF

00

FF

00 FF

00

FF

00 FF

00

FF

27484汉字

20902汉字

6763汉字2 个扩充的汉字字符集

GB2312

GBK-95

GB18030-2000

虚线外的汉字,4 字节表示

Page 18: 第五章 中文信息处理

常用汉字编码字符集

Page 19: 第五章 中文信息处理

主要汉字 ( 文字 ) 编码标准与规范

• ASCII(英文 )• GB2312• GBK• GB13000• GB18030• BIG5• Shift_JIS• ISO/IEC 10646• Unicode

Page 20: 第五章 中文信息处理

ASCII 码

• 美国信息交换标准编码 (“美标” )• 用从 0 到 127的 128 个数字来代表信息的规范编码• 包括 33 个控制码,一个空格码,和 94 个形象码• 形象码中包括了英文大小写字母,阿拉伯数字,标点符号等• 国际上大部分电脑的通用编码

Page 21: 第五章 中文信息处理

国标、区位• 国标:中华人民共和国国家标准信息交换用汉字编码

– GB 2312 – 80( 信息交换用汉字编码字符集 基本集(又称为 GB0 )– GB 13000 –93( 信息技术 通用多八位编码字符集( UCS )第一部分 )– GB 18030-2000 ( 信息技术 信息交换用汉字编码字符集 基本集的扩

充 )

• 国标 (GB2312-80) 表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个 94 行、 94列的方阵

• 每一横行叫一个“区”,每个区有九十四个“位”• 一个汉字在方阵中的坐标,称为该字的“区位码”• 例如“中”字在方阵中处于第54区第48位,它的区位码就是

5448

Page 22: 第五章 中文信息处理

区位码表• 区位码来源于信息交换用汉字编码字符集(基本集)国家标准

(GB2312-80) ,该标准收汉字 6763 个,第一级 3755 个,位于 16至 55 区, 55 区的最后 5 个字符没有定义;第二级 3008 个,位于56至 87 区

• 第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。

• 第二级汉字按部首排序,本标准采用的部首与一般字典用的部首基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。

• 查表时先查区号,再查行、列,例如:“、”是 0102 ,“蔼”是1610 。

Page 23: 第五章 中文信息处理

区位码表 (GB2312-80)

• 1-9 区: 682 个符号( 2 、 4 、 5 、 6 、 7 、 8 、 9 区有空位 164 个)– 包括:一般符号(间隔、标点、运算、制表) 202 个– 序号 60 个– 数字 22 个– 希腊字母 48 个– 俄文字母 66 个– 汉语拼音 26 个– 拉丁字母 52 个– 日文假名 169 个– 汉语注音 37 个

• 10-15 区:空• 88-94 区:空• 16-87 区: 6763 个汉字

– 16-55 区:一级汉字 3755 个– 55 区有 5 个空位,从 89-94– 56-87 区:二级汉字 3008 个– 一级汉字按照音、笔形排列– 二级汉字按照部首排列

Page 24: 第五章 中文信息处理

01区 1 2 3 4 5 6 7 8 9 02区 1 2 3 4 5 6 7 8 9

0 、 。 · ˉ ˇ ¨ 〃 々 0 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ

1 — ~ ‖ … ‘ ’ “ ” 〔 〕 1 ⅹ � � � � � � ⒈ ⒉ ⒊

2 〈 〉 《 》 「 」 『 』 〖 〗 2 ⒋ ⒌ ⒍ ⒎ ⒏ ⒐ ⒑ ⒒ ⒓ ⒔

3 【 】 ± × ÷ ∶ ∧ ∨ ∑ ∏ 3 ⒕ ⒖ ⒗ ⒘ ⒙ ⒚ ⒛ ⑴ ⑵ ⑶

4 ∪ ∩ ∈ ∷ √ ⊥ ∥ ∠ ⌒ ⊙ 4 ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾ ⑿ ⒀

5 ∫ ∮ ≡ ≌ ≈ ∽ ∝ ≠ ≮ ≯ 5 ⒁ ⒂ ⒃ ⒄ ⒅ ⒆ ⒇ ① ② ③

6 ≤ ≥ ∞ ∵ ∴ ♂ ♀ ° ′ ″ 6 ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ � � ㈠

7 ℃ $ ¤ ¢ £ ‰ § № ☆ ★ 7 ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ �

8 ○ ● ◎ ◇ ◆ □ ■ △ ▲ ※ 8 � Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ

9 → ← ↑ ↓ 〓 9 Ⅹ Ⅺ Ⅻ � �

Page 25: 第五章 中文信息处理

例09区 1 2 3 4 5 6 7 8 9

0 � � � ─ ━ │ ┃ ┄ ┅

1 ┆ ┇ ┈ ┉ ┊ ┋ ┌ ┍ ┎ ┏

2 ┐ ┑ ┒ ┓ └ ┕ ┖ ┗ ┘ ┙

3 ┚ ┛ ├ ┝ ┞ ┟ ┠ ┡ ┢ ┣

4 ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ ┬ ┭

5 ┮ ┯ ┰ ┱ ┲ ┳ ┴ ┵ ┶ ┷

6 ┸ ┹ ┺ ┻ ┼ ┽ ┾ ┿ ╀ ╁

7 ╂ ╃ ╄ ╅ ╆ ╇ ╈ ╉ ╊ ╋

8 � � � � � � � � � �

9

Page 26: 第五章 中文信息处理

例16区 1 2 3 4 5 6 7 8 9 17区 1 2 3 4 5 6 7 8 9

0 啊 阿 埃 挨 哎 唉 哀 皑 癌 0 薄 雹 保 堡 饱 宝 抱 报 暴

1 蔼 矮 艾 碍 爱 隘 鞍 氨 安 俺 1 豹 鲍 爆 杯 碑 悲 卑 北 辈 背

2 按 暗 岸 胺 案 肮 昂 盎 凹 敖 2 贝 钡 倍 狈 备 惫 焙 被 奔 苯

3 熬 翱 袄 傲 奥 懊 澳 芭 捌 扒 3 本 笨 崩 绷 甭 泵 蹦 迸 逼 鼻

4 叭 吧 笆 八 疤 巴 拔 跋 靶 把 4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙 毖

5 耙 坝 霸 罢 爸 白 柏 百 摆 佰 5 币 庇 痹 闭 敝 弊 必 辟 壁 臂

6 败 拜 稗 斑 班 搬 扳 般 颁 板 6 避 陛 鞭 边 编 贬 扁 便 变 卞

7 版 扮 拌 伴 瓣 半 办 绊 邦 帮 7 辨 辩 辫 遍 标 彪 膘 表 鳖 憋

8 梆 榜 膀 绑 棒 磅 蚌 镑 傍 谤 8 别 瘪 彬 斌 濒 滨 宾 摈 兵 冰

9 苞 胞 包 褒 剥 9 柄 丙 秉 饼 炳

Page 27: 第五章 中文信息处理

例54区 1 2 3 4 5 6 7 8 9 55区 1 2 3 4 5 6 7 8 9

0 帧 症 郑 证 芝 枝 支 吱 蜘 0 住 注 祝 驻 抓 爪 拽 专 砖

1 知 肢 脂 汁 之 织 职 直 植 殖 1 转 撰 赚 篆 桩 庄 装 妆 撞 壮

2 执 值 侄 址 指 止 趾 只 旨 纸 2 状 椎 锥 追 赘 坠 缀 谆 准 捉

3 志 挚 掷 至 致 置 帜 峙 制 智 3 拙 卓 桌 琢 茁 酌 啄 着 灼 浊

4 秩 稚 质 炙 痔 滞 治 窒 中 盅 4 兹 咨 资 姿 滋 淄 孜 紫 仔 籽

5 忠 钟 衷 终 种 肿 重 仲 众 舟 5 滓 子 自 渍 字 鬃 棕 踪 宗 综

6 周 州 洲 诌 粥 轴 肘 帚 咒 皱 6 总 纵 邹 走 奏 揍 租 足 卒 族

7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛 7 祖 诅 阻 组 钻 纂 嘴 醉 最 罪

8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱 8 尊 遵 昨 左 佐 柞 做 作 坐 座

9 助 蛀 贮 铸 筑 9

Page 28: 第五章 中文信息处理

Page 29: 第五章 中文信息处理

Page 30: 第五章 中文信息处理

国标、区位、“准国标”、机内码• 94:美标中形象码的总数 ,33--126 • 汉字区、位码各加上 32 ,就会与美标形象码的范围重合 ,称为该字

的“国标码” ,与其相对应的两个美标符号,为该字的“国标符” • 如何区分国标符与美标符:国标码的两个数字各加上 128 ,称“准

国标”或“机内码”• 机内码 = (区位码) H + 8080H +2020H

Page 31: 第五章 中文信息处理

BIG-5

• Big5 编码是台湾地区信息业常用的汉字编码字符集的一种代码空间,可直接用作处理码。

• 台湾、香港、澳门等地使用• 取码范围:

– 高位: 0x81-0xfe– 低位: 0x40-0x70,0xa1-0xfe

• Big5 编码空间在一个 94*157 的矩阵中。 Big5有 94 个区,每个区有 157 个位,因此最多可以容纳 14758 个码元。

• Big5 中收录了 13494 个字符(其中, 13053 个汉字和441 个非汉字图形字符)。

Page 32: 第五章 中文信息处理

ISO/IEC 10646

• 一个国际标准编号 ,国际标准化组织( ISO) 1993年 正式颁布

• 英文全称: Information technology - Universal Multiple - Octet Coded Character Set,简称 UCS

• 中文全称:信息技术 --通用多八位编码字符集,亦称大字符集

• 宗旨 :全球所有文种统一编码

Page 33: 第五章 中文信息处理

Unicode

• 英文 Universal Code的缩略语• 统一编码• 是对国际标准 ISO/IEC 10646编码的一种称谓• 是一个企业联盟集团的名称 ,由美国的

HP、Microsoft、 IBM、 Apple等几家知名的大型计算机企业所组成 ,成立该集团的宗旨就是要推进多文种的统一编码

• 就内容而言, Unicode和 ISO/IEC 10646是一致的,并行的

Page 34: 第五章 中文信息处理

ISO10646/Unicode

• ISO10646 的第 0 群组第 0 字面(群和面的值都为 00h )称为「基本多语种文字面」( Basic Multi-lingual Plane, BMP ),其编码字元与Unicode 相同。

• ISO10646的 BMP和Unicode 的编码字符。

Page 35: 第五章 中文信息处理

ISO/IEC 10646中 CJK 汉字组成• CJK统一编码汉字( 20902 )• CJK扩充集 A(6585)

• CJK扩充集 B(4万 --)

Page 36: 第五章 中文信息处理

ISO 10646/Unicode 的实现及其重要意义 • 在全球范围内建立起实时、无障碍的信息交换模式• 推动了汉字典籍的数字化• 为数字化图书馆的建立铺平了道路• 为弘扬汉字文化提供了舞台• Single Binary 技术的诞生:同一套基本程序用于多个语言环境

的技术• 使汉字关联活起来:正 -异关联、中 -日关联、繁 -简关联,正 -讹关联以及古今、新旧字形关联

Page 37: 第五章 中文信息处理

GBK

• 汉字内码扩展规范, Rules/Specifications defining the extensions of internal codes for Chinese ideograms

• 为了推进 Unicode 的实施,同时也是为了向下兼容 , 由电子部与国家技术监督局联合颁布

• 在保持 GB2312原貌的基础上,将其字汇扩充与 ISO 10646 中的CJK 等量,同时也包容了台湾的工业标准 Big5 码汉字,此外还为用户留了 1894 个码位的自定义区

– 2 字节汉字编码– 在内码上兼容 GB2312-80– 在字汇上兼容 GB13000/ISO10646– 是 GB2312向 GB13000 过渡的中间代码– 收录 21886 个汉字和符号

Page 38: 第五章 中文信息处理

GB18030-2000

• 信息交换用汉字编码字符集基本集的扩充• 2000-3-17 发布• 2001年 9 月作为国家标准强制实施 • 2000年 ISO 发布了 ISO 10646-1:2000( Unicode 同步定义为

Unicode 3.0 ),主要是增加了称为中日韩统一汉字 Extension A的 6,582 个字符。

• GB18030-2000 编码标准就在原来的 GB2312-1980 编码标准和 GBK 编码标准的基础上进行扩充,增加了四字节( 32 位)部分的编码。

• 整合 GBK 的汉字后到达了 27484 个汉字,总编码空间超过 150万个码位

• GB18030 标准采用单字节、双字节和四字节三种方式对字符编码 • GBK 的替代、超集

Page 39: 第五章 中文信息处理

GB18030-2000

• 完全包含 CJK(Unihan) Extension A• 与 GBK完全兼容 (code- and character- compatible)

的同时,为所有其它 Unicode 码点提供了空间• 定义了 4 字节编码机制

Page 40: 第五章 中文信息处理

GB18030-2000 码位范围分配表

字节数 码位空间 第一字节 第二字节 双字节

0x81—0xFE 0x40—0x7E, 0x80—0xFE

第一字节 第二字节 第三字节 第四字节 四字节

0x81—0xFE 0x30—0x39 0x81—0xFE 0x30—0x39

• 2 字节编码共 23940 个码位• 4 字节编码共超过 150万个码位

Page 41: 第五章 中文信息处理

UTF

• Unicode transformation format• UCS transformation format• 从 Unicode 码点到唯一字节序列的映射算法,一一映射,保证无损转换– UTF-16– UTF-8– UTF-32

Page 42: 第五章 中文信息处理

本 章 结 束