14
1 符符符符符符符符符符 符符符符符符 符符符符 ISO/IEC JTC1/SC2 (Coded Character Sets) 符符符 符符符符符符符

符号化文字集合規格の体系とその進化

Embed Size (px)

DESCRIPTION

符号化文字集合規格の体系とその進化. 芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets) 委員長 東京外国語大学. 内容. 符号化文字集合の種類 SC2 規格の進化 Old Bible から New Bible へ The Old Bible: ISO R 646 文字集合の拡張 文字の同定 The New Bible: ISO/IEC 10646. 符号化文字集合規格の種類. 図形文字 ISO/IEC 646 ISO/IEC 8859 ISO/IEC 10646 符号拡張 ISO/IEC 2022 - PowerPoint PPT Presentation

Citation preview

Page 1: 符号化文字集合規格の体系とその進化

1

符号化文字集合規格の体系とその進化

芝野耕司ISO/IEC JTC1/SC2 (Coded Character Sets) 委員長

東京外国語大学

Page 2: 符号化文字集合規格の体系とその進化

2

内容 符号化文字集合の種類 SC2 規格の進化 Old Bible から New

Bible へ The Old Bible: ISO R 646 文字集合の拡張 文字の同定 The New Bible: ISO/IEC 10646

Page 3: 符号化文字集合規格の体系とその進化

3

符号化文字集合規格の種類 図形文字

ISO/IEC 646 ISO/IEC 8859 ISO/IEC 10646

符号拡張 ISO/IEC 2022 ISO/IEC 10646

制御機能 ISO/IEC 6429 ISO/IEC 10646

Page 4: 符号化文字集合規格の体系とその進化

4

ISO 符号化文字集合の進化From Old Bible to New Bible

CCITT#2 ISO R 646-1967ASCII63

•情報処理交換用•小文字を除く

•82 字の共通文字•12 字の各国又は適用業務向け文字•版の適合性•BS 、 CR 、 SPを用いた文字合成•32 字の制御文字ISO 2022

ISO 6937ISO 8859

ISO/IEC 10646

•646 の版をもとした符号拡張•1 文字を取り替えるシングルシフト•表を全部取り替えるロッキングシフト

•ヨーロッパ用•字送りなしのアクセントによる合成

•合成なし•Latin 1 – 西ヨーロッパLatin 2 – 東ヨーロッパ

Old Bible

New Bible

Page 5: 符号化文字集合規格の体系とその進化

5

The Old Bible: ISO R646-1967 6 and 7 bits coded character sets for Information Processing interchange

基本ラテン文字の符号化 94 字の図形文字、 82 字

が共通 情報処理と情報交換の共

通コード 図形文字の一意な符号化 各国又は適用業務毎の版 BS 、 CR 、 SP による合

成 異なった文字をも統合

Page 6: 符号化文字集合規格の体系とその進化

6

文字集合の拡張Set of 94 Characters is too small

ほとんどのヨーロッパの言語にとっても 94 字は少なすぎる !

文字合成が必要 符号拡張が必要

Page 7: 符号化文字集合規格の体系とその進化

7

文字合成タイプライタから活版へ タイプライタモデル

646 BS, SP, CR を用いた重ね打ちによる合成

6937 字送りなしのアクセント文字による合成 アクセント、親字の順

活字モデル 10646

親字,アクセントの順 複数のアクセントをつけることが可能

Page 8: 符号化文字集合規格の体系とその進化

8

ISO 2022 符号拡張法

ISO 646 の版のための符号拡張法を規定 シングルシフトでの 1 文字の切り替

え 版を取り替えるロッキングシフト

1 バイト 2 バイトの混在環境では必須 2022 は,混在を許すが保証はしな

い 適合性で共通のエスケープシーケ

ンスの利用を規定 最小のエスケープシーケンスを推奨

複雑で実装コストが高い 完全な実装は殆どない

Page 9: 符号化文字集合規格の体系とその進化

9

ISO 8859From 8859 Brief History

ISO 646 の版の問題 They do not provide all graphic characters which may

be needed, for some characters, specifically for accented letters, it

is necessary to resort to BACKSPACE sequences,which creates problems when processing data containing such composite characters,

interchange among different versions is practically limited to the 82 common characters.

8859 の設計原理 The same for all users of a given area, provide single-byte coding of all graphic characters

thus permitting easy processing, takes into account character sets used in the industry.

8859 限界

Page 10: 符号化文字集合規格の体系とその進化

10

The New Bible: ISO/IEC 10646 ヨーロッパの 8859 世界の 10646 8859 と同じ設計原理 RLG などが開発に参画 SC2 が全分野の符号化文字集合の開発

を担当 1997 年に ISO TC46 ( Documentation )

から SC2 に符号化文字集合を移管

Page 11: 符号化文字集合規格の体系とその進化

11

10646 の適用範囲 この規格群は,は国際符号化文字集合( UCS)

を規定する。この規格群は,世界の言語 ( 用字)を書き表した形 ( 表記形)及び記号の表現・伝送・交換・処理・蓄積・入力・表示に利用できる。

ISO/IEC 10646 specifies the Universal Multiple-Octet Coded Character Set (UCS). It is applicable to the representation, transmission, interchange, processing, storage, input, and presentation of the written form of the languages of the world as well as of additional symbols.

Page 12: 符号化文字集合規格の体系とその進化

12

10646 の全体構造

Page 13: 符号化文字集合規格の体系とその進化

13

BMP の構造

Page 14: 符号化文字集合規格の体系とその進化

14

10646 の適合性 文字合成に関する水準

水準1 合成なし 水準2 合成でなければ表せない文字が

表現可能に 水準3 すべての合成が可能

集合の部分化