36
China Internet Network Information Center 多多多多多多多多多多多多 多多多多多多 中中中中中中中中中中 中中 China Internet Network Information Center (CNNIC) [email protected] 1

多语种域名及中文域名技术 发展状况报告

  • Upload
    zaynah

  • View
    179

  • Download
    0

Embed Size (px)

DESCRIPTION

多语种域名及中文域名技术 发展状况报告. 中国互联网络信息中心 毛伟 China Internet Network Information Center (CNNIC) [email protected]. 1. 提 纲. 多语种域名的需求 多语种域名相关组织介绍 多语种域名中的技术难点 中文域名面临的问题 多语种域名的解决方案 中文域名的解决方案 ICANN 相关工作介绍. 多语种域名的需求. 1. 网络主机名管理的三个阶段: (1) IP 地址(一维 )  主机表(二维 )  域名系统(树状分层结构 ) - PowerPoint PPT Presentation

Citation preview

Page 1: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

多语种域名及中文域名技术发展状况报告

中国互联网络信息中心 毛伟China Internet Network Information Center (CNNIC)

[email protected]

1

Page 2: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

提 纲• 多语种域名的需求• 多语种域名相关组织介绍• 多语种域名中的技术难点• 中文域名面临的问题• 多语种域名的解决方案• 中文域名的解决方案• ICANN 相关工作介绍

Page 3: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

多语种域名的需求1. 网络主机名管理的三个阶段: (1) IP 地址 ( 一维 ) 主机表 ( 二维 ) 域名系统 ( 树状分层结构 )

(2) 整个域名系统的高效性、健壮性、稳定性、可靠性证明了该项技术的巨大成功,并且它在网络中的基础性地位,确立了它在互联网中的重要性

2. 多语种域名的需求 (1) 一个十分“简单”的需求:在域名系统中支持多种语言、文字、

字符。 (2) 起因:现行的域名系统只允许 ASCII 、数字和“ -” 连字符,而互

联网已经发展成为全世界的共同财富,各国语言文字和字符不断涌现在网络中,逐渐一些重要的互联网络协议开始支持多语言文字。

一种声音由弱到强:从互联网的底层支持多语言,使互联网成为真正的、没有语言障碍的、全球共享的 Internet

3

Page 4: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

多语种域名相关组织介绍

IETF IDN 工作组 1999.11 第 46 届 IETF 会议成立 IDN BOF ,开始讨论

多语种域名问题。 CDNC (Chinese Domain Name Consortium) CNNIC 、 TWNIC 、 HKNIC 、 MONIC 于 2000 年 5 月

20 日在北京共同倡议成立了中文域名协调小组(简称CDNC )

JET (Joint engineer team) JET 多语种域名技术小组于 2000 年 7 月在日本成立,成

员单位有中国 CNNIC 、日本 JPNIC 、中国台湾TWNIC 、韩国 KRNIC 。探讨解决汉字域名的相关问题。

ICANN (The Internet Corporation for Assigned Names and Numbers)

4

Page 5: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

多语种域名中的技术难点 (1)

1. 多语种域名体系与 ASCII 域名系统的兼容性问题 (1) 在探讨多语种域名的实现过程中,无法回避的一个重要问题是:

现行的、主机数量庞大的 ASCII 域名体系是整个互联网的基础,并且它本身稳定、高效、可靠地运行着。

(2) 对现行 ASCII 域名体系的任何损害,都可能导致多语种域名体系技术的彻底失败

2. 多语种域名的编码表示问题 (1) 全世界有几百种语言和文字,同一种语言文字可能有多种不同的

编码方式 ( 如:汉字编码 GB2312 GB18030 GB13000)

(2) Unicode 成为唯一的一种可供选择的全球统一编码方式,但它是为了解决文字显示问题而设计的,与多语种域名体系设计需求不完全统一

5

Page 6: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

多语种域名中的技术难点 (2)

3. 多语种域名的技术实现问题 (1) 域名系统包括两个分离的部分: resolver( 解析器 ) ,

server(DNS 服务器 ) , 它们分别位于用户操作系统和域名服务器上,问题的关键是:如何使它们能够识别多语种域名?

(2) 由于域名系统在网络应用中的基础性地位,这决定了:让 resolver( 解析器 ) 能够识别多语种域名 意味着要求包括操作系统在内的所有网络应用程序必须升级;让 server(DNS 服务器 ) 能够识别多语种域名 意味着要求所有域名服务器都必须升级

4. 多语种域名的最终部署问题 域名系统在网络中的巨大成功,成为多语种域名问题的

重要障碍。对现行域名系统的任何一点修改,对整个互联网络来说都是巨大的、难以忽视的,甚至是致命的。

6

Page 7: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

中文域名面临的问题 (1-1)

1. 中文域名繁简汉字等效问题(1) 问题的规模

《简化字总表》(国家语委 1986 )中的繁简体汉字对有 2237 对,它覆盖了我们中文域名数据库中 83.6% 的域名。(如果包括 1:N,N:1 的约 238个高频字以及部分未收入到总表中的字,它覆盖中文域名数据库中 90%以上的域名)

(2) 注册问题 – (用户权益保护问题 ) 例如: 清华大学 ({ 清 , 淸 }{ 华 , 華 }{ 学 , 學 })

-> [ 清华大学 ] [ 清华大學 ] [ 清華大学 ] [ 清華大學 ] [ 淸华大学 ] [ 淸华大學 ] [ 淸華大学 ] [ 淸華大學 ] -> 中文用户必须注册八个中文域名,才能真正保护自己的域名。 这不仅仅是用户经济利益的问题,而且用户可能将面临无休止的域名争议和法律纠纷。

7

Page 8: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

(3) 两岸四地互联网在中文域名体系下的互通问题 如果不处理中文域名中的繁体汉字和简体汉字问题,中文域名互联网将被分割为两个无法通讯的部分:简体中文域名区域 (中国大陆 ),繁体中文域名区域 (台湾、香港、澳门及海外华人 )

(4) 中文域名授权问题 例如: “学 .华 .国 .cn”, 它将产生 2*2*2=8 种变体中文域

名。 如果不解决此问题,中文域名

的授权管理中将存在严重的同步问题 ,

势必导致那些基于域名层次结构的网络应用归于失败。 (例如:学 .华 . 国 .cn) 解析结果不确定,将导致域名服务的失败。

中文域名面临的问题 (1-2)

8

cn

国 國

学 學 学 學 学 學 学 學华 華 华 華

Page 9: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

中文域名面临的问题 (2)

2. 中文句号“。”与英文句号“ .” 在中文域名中的等效问题 “ 。”等同于“ .” 成为中文域名的分割符号

9

Page 10: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

提 纲• 多语种域名的需求• 多语种域名相关组织介绍• 多语种域名中的技术难点• 中文域名面临的问题• 多语种域名的解决方案• 中文域名的解决方案• ICANN 相关工作介绍

Page 11: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

解决方案要求

• 不损害现行 ASCII 域名体系、保障网络整体安全• 多语种域名体系必须兼容现有的 ASCII 域名系统

11

Page 12: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

多语种域名相关技术比较• 1. EDNS

• (1) 技术核心: 扩展 DNS 协议,以特定的数据包格式来区分 ASCII 域名和多语种域名

• (2) 障碍: 要求全面升级现行的域名服务器和网络应用程序

• 2. UTF-8

• (1) 技术核心: 建立新的多语种域名协议,以支持多语种域名的使用

• (2) 障碍: 要求全面升级现行的域名服务器和网络应用程序

• 3. ACE

• (1) 技术核心: 不改变现有 ASCII 域名协议,将多语种域名用 ASCII来表示,在互联网上传播

• (2) 障碍: 要求全面升级现行的网络应用程序

12

Page 13: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

多语种域名解决方案

13

多语种域名技术解决方案

在第 51th IETF minneapolis 会议上,确立了将各国语言文字转换为 ASCII 码的具体技术方案:

IDNA 为多语种域名标准协议的框架 Nameprep 字符处理功能模块 选择 AMC-Z-ACE(Punycode) 编码算法

Nameprep ( 依 NFKC规则,规范化字符 )

AMC-Z-ACE ( Puny code 将 Unicode字符转换成 ASCII 字符 )

IDNA 本地化字符的 Unicode 编码

Page 14: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

Nameprep 字符处理功能模块

Mapping 字符映射

Normalization 字符归一化

prohibited 字符禁止

Nameprep

A <=> a

0000-002C;

002E-002F;

003A-0040;

005B-0060;

007B-007F;

14

"a"+"^" ="â"

通过 CDNC 的共同努力,其中规定禁止在多语种域名中出现“。”,使“。”映射为“ .” 成为可能

Page 15: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

AMC-Z-ACE (Punycode) 编码算法

1. “铝钙”的 Unicode 码点: {U+94DD, U+9499}

2. AMC-Z-ACE (Punycode) 编码 : “i74a5e”

3. 加上多语种域名前缀后的 ACE 字符串:“ zq--i74a5e”

DNS Server 存储和用户解析请求的都是这种 ACE 编码表示的多语种域名。 (ASCII code encoding )

15

Page 16: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

draft-guonian-idn-ace-eval-cn-00.txt

1. 我们对 IETF IDN 工作组中提出的所有 ACE 编码算法进行了压缩效率的评估,发现 AMC-ACE-Z (Punycode)算法对中文汉字域名的编码效率最高 ;

2. 日本 /韩国的评估结果显示 AMC-ACE-W / AME-ACE-M 对本国文字的编码效率最高 ;

3. 经过我们的努力和协调, AMC-ACE-Z算法成为 IDN 工作组的推荐 ACE 编码技术方案。

4. [RACE], [BRACE], [LACE], [UTF6], [DUDE], [AMC-ACE-M],

5. [AltDUDE], [AMC-ACE-O], [AMC-ACE-R], [AMC-ACE-V],

6. [AMC-ACE-W], [AMC-ACE-Z], [MACE], [LDUDE].

16

Page 17: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

加载 Punycode 数据

IDNA - 技术实现框架

1717

用户输入多语种域名

将本地编码转换为 Unicode 编码

IDNA

Punycode 编码

应用程序 -支持多语种域名

DNS server Application server

如 : Email server Web server

Page 18: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

提 纲• 多语种域名的需求• 多语种域名相关组织介绍• 多语种域名中的技术难点• 中文域名面临的问题• 多语种域名的解决方案• 中文域名的解决方案• ICANN 相关工作介绍

Page 19: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

中文域名技术解决方案

应用层解决方案 (client solution) 技术实现框架 技术障碍和优势

域名服务器解决方案 (server solution) 技术实现框架 技术障碍和优势

注册解决方案 (registration solution) 技术实现框架 技术障碍和优势 示例

19

Page 20: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

应用层解决方案 - 技术实现框架

draft-deng-idn-icdn-00.txt

2020

用户输入中文域名

将汉字编码转换为 Unicode 编码

IDNA

Punycode 编码

中文域名繁简转换

应用程序 -支持中文域名

DNS server Application server

如 : Email server Web server

加载 Punycode 数据

Page 21: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

应用层解决方案 - 技术障碍和优势

1. 技术障碍 (1) 要求所有网络应用程序都进行升级以

支持中文繁简处理和未来的多语种域名协议

(2) 给操作系统开发商、中文应用软件开发商带来较重的负担

2. 技术优势 不会影响到整个互联网的基础结构;使 ASCII 域名到中文域名的过渡,不损害目前网络的稳定性、可靠性、安全性

21

Page 22: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

DNS server

域名服务器解决方案 - 技术实现框架

2222

用户输入中文域名

将汉字编码转换为 Unicode 编码

IDNA

Punycode 编码

中文域名繁简转换

应用程序 -支持中文域名

Application server

如 : Email server Web server

加载 Punycode 数据

Page 23: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

域名服务器解决方案 - 技术障碍和优势

1. 技术障碍 (1) 要求中文域名服务器进行升级以支持中文繁简处理和未来的多语种域名协议

(2) 要求所有网络应用程序都进行升级以支持未来的多语种域名协议

(3)影响到基础网络的域名解析服务

2. 技术优势 中文域名的任何技术发展和升级都可以

在服务器端实现,不影响用户操作系统

23

Page 24: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

注册解决方案

• draft-jseng-idn-admin-00.txt

三列字表:有效字、建议字、变体字 注册记录将保留:全繁、全简、原型

Page 25: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

加载 Punycode 数据

注册解决方案 - 技术实现框架

2525

用户输入中文域名

将汉字编码转换为 Unicode 编码

IDNA

Punycode 编码

中文域名繁简冗余数据应用程序 -支持中文域名

DNS server Application server

如 : Email server Web server

Page 26: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

注册解决方案 - 技术障碍和优势

1. 技术障碍 (1) 由于一个中文域名可能含有多个繁体或简

体的中文域名,这导致中文域名出现严重的授权问题,使中文域名的树状体系结构变得“肥胖”

(2) 使一些非常依赖中文域名层次结构的网络应用程序,最终归于失败

2. 技术优势 不会影响现行的域名服务

26

Page 27: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

注册解决方案 – 示例例如:用户注册中文域名: 清華大學 ({ 清 , 淸 }{ 华 , 華 }{ 学 , 學 }) 产生的 8 个繁简变体域名

[ 清华大学 ] [ 清华大學 ] [ 清華大学 ] [ 清華大學 ] [ 淸华大学 ] [ 淸华大學 ] [ 淸華大学 ] [ 淸華大學 ]

为注册用户保留所有 8 个变体域名,同时将 简体 [清华大学 ]

繁体 [淸華大學 ] 加入中文域名解析数据库, 用户注册的原型 [清華大學 ] 并提供域名解析服务

上述三个变体中文域名将被同时授权给同一个用户,如果用户要用配置自己的中文域名服务器、中文邮件服务器,他必须同时配置三个一致的服务体系。

27

Page 28: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

Valid code point Recommended code point Reserved relevant variant code point

Selectable relevant variant code point

TW HK MO CN

发 U+53D1 NULL NULL NULL 发 U+53D1

發 U+767C 発 U+767A

髮 U+9AEE 髪U+9AEA

発 U+767A 發 U+767C 發 U+767C 發 U+767C 发 U+53D1

发 U+53D1 發U+767C

發 U+767C 發 U+767C 發 U+767C 發 U+767C 发 U+53D1

发 U+53D1 発U+767A

髮 U+9AEE 髮 U+9AEE 髮 U+9AEE 髮 U+9AEE 发 U+53D1

髪 U+9AEA 发 U+53D1

髪 U+9AEA 髮 U+9AEE 髮 U+9AEE 髮 U+9AEE 发 U+53D1

发 U+53D1 髮U+9AEE

干 U+5E72 NULL NULL NULL 干 U+5E72 乾 U+4E7E

幹 U+5E79

幹 U+5E79 幹 U+5E79 幹 U+5E79 幹 U+5E79 NULL 干 U+5E72

乾 U+4E7E 乾 U+4E7E 乾 U+4E7E 乾 U+4E7E NULL 干 U+5E72

著 U+8457 著 U+8457 著 U+8457 著 U+8457 NULL 着 U+7740

着 U+7740 NULL NULL NULL NULL 著 U+8457

说 U+8BF4 說 U+8AAA

說 U+8AAA

說 U+8AAA 说 U+8BF4

説 U+8AAC說 U+8AAA

國 U+570B 國 U+570B 國 U+570B 國 U+570B 国 U+56FD

国 U+56FD

国 U+56FD 國 U+570B 國 U+570B 國 U+570B 国 U+56FD

國 U+570B

王 U+738B 王 U+738B 王 U+738B 王 U+738B 王 U+738B

Page 29: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

draft-ietf-idn-TSconv-00.txt

首次在 IETF IDN 工作组中,提出繁简体汉字转换问题,并就繁简体汉字转换问题的概念、范畴进行了具体阐述。 汉字繁简体汉字的转换,包括:

1 <=> 1 (钢 <>鋼 ),

1 <=> n (图 <=>圖図 ),

1 <=> n+1 ( 台 <=> 台臺颱 )

等多种复杂情况

29

Page 30: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

draft-ietf-idn-tsconv-02.txt中提出的技术实现方案

用户输入域名

Nameprep (依 NFKC规则,规范化字符)

AMC-Z-ACE (将 Unicode 字符转换成 ASCII 字符)

对本地化字符进行 Unicode 编码

依据《简化字总表》进行繁简汉字等效转换

发向域名服务器30

Page 31: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

draft-ietf-idn-tsconv-03.txt中提出的技术实现方案

用户输入域名

Nameprep (依 NFKC规则,规范化字符)

AMC-Z-ACE (将 Unicode 字符转换成 ASCII 字符)

对本地化字符进行 Unicode 编码

Validation 校验

依据《简化字总表》进行繁简汉字等效转换

31

Page 32: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

CDNC 和 CNNIC 在多语种域名标准方面所作的工作

• 先后向 IETF 提交 7 项国际域名标准方面的技术建议: draft-guonian-idn-ace-eval-cn-00.txt (50th IETF 会

议 ) draft-ietf-idn-TSconv-00.txt (50th IETF 会

议, CDNC合作提出 ) draft-deng-idn-icdn-00.txt draft-deng-idn-tsmodule-00.txt draft-ietf-idn-tsconv-02.txt (51th IETF 会

议, CDNC合作提出 ) draft-ietf-idn-tsconv-03.txt (52th IETF 会

议, CDNC合作提出 ) draft-jseng-idn-admin-00.txt (JET合作提出)

32

Page 33: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

提 纲• 多语种域名的需求• 多语种域名相关组织介绍• 多语种域名中的技术难点• 中文域名面临的问题• 多语种域名的解决方案• 中文域名的解决方案• ICANN 相关工作介绍

Page 34: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

ICANN IDN 工作的起源

• 2000 年 1 月 18 日, CNNIC推出中文域名试验系统。• 2000 年 8 月 22 日 Verisign公司宣布引入多语种域名试验平台,宣布用户可以 .com, .net, .org等顶级域名下面使用其他语言字符注册域名。

• 2000 年 8 月 25 日, ICANN针对 Verisign 的多语种域名试验计划发表声明。

• 2000 年 10 月 22 日, CDNC 关于 Verisign 提供中文域名服务发表声明。

• 2000 年 11 月 7 日,信息产业部发布《关于互联网中文域名管理的通告》

• 2001 年 ICANN 成立 IDN委员会

Page 35: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

CNNIC 给 ICANN 关于 IDN 的管理建议

– 发展多语种域名不仅应该保证当前域名系统的稳定和兼容性,还应当保证各种语言使用者的利益,尊重各地的政策机制,包括政治的、经济的、法律的和文化的等等;

– IDN 不仅仅是一个技术问题,更多是一个管理问题。基于引入 IDN 的基本目的是服务于非英语使用者的需要,因此 IDN 的管理不应当完全控制在商业利益手中。在制定 IDN 的管理政策过程中,应该尊重相应语言使用者的意见;

– 由相关语言使用者组成的合作组织应当在相应的IDN 管理中发挥主要作用。

Page 36: 多语种域名及中文域名技术 发展状况报告

China Internet Network Information Center

谢 谢

36

中国互联网络信息中心China Internet Network Information Center (CNNIC)

[email protected]