40

2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

Embed Size (px)

DESCRIPTION

2014.05.27 文字情報技術の最新動向 田丸健三郎 氏 日本電子出版協会

Citation preview

Page 1: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 2: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

Shift JIS

(JIS78 or JIS83) + メーカー拡張

Z80互換CPU、16 ~ 32KB

Intel Pentium 66MHz 4~8MB

マイクロソフト 標準キャラクタ セット

JIS90, 10646

マイクロソフトOSが助漢字をUCS拡張

補助漢字をUCS拡張

AMD K6-2 / MIPS R10000 / Pentium II 266MHz 32 ~ 64MB

Page 3: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 4: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 5: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 6: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 7: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 8: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 9: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

登記固有文字10,330字

戸籍統一文字55,267字

住民基本台帳ネットワーク統一文字19,432字

無い文字は外字で対応・・・

一般に・・・

JIS、Unicodeを初め標準に含まれない字

改定常用漢字表

JIS X 0208, JIS X 0213

この他、フォントに含まれず独自に追加した字

登記統一文字 65,597字

Page 10: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

戸籍統一文字

56,040字

住民基本台帳ネットワーク統一文字

21,039字

JIS 漢字

10,050字

常用漢字

2136字 7ビットJISによる符号化が可能

UTF-8、UTF-16により符号化が可能

外字を使用

Page 11: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

渡 氏 の 絵 は 作 だ

渡 邉 氏 の 絵 は 傑 作 だ

渡 氏 の 絵 は 作 だ

Page 12: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 13: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

外字

=0xE000

環境により異なる文字コード

外字

=0xE021

Page 14: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 15: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 16: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

戸籍統一文字56,040字

住民基本台帳ネットワーク統一文字21,039字

JIS 漢字10,050字

常用漢字2136字 7ビットJISによる符号

化が可能

UTF-8、UTF-16により符号化が可能

Page 17: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

登録されている「邉」のバリエーションだけでも、15以上存在する。

標準 IVS

辺 辺 辺

U+8FBA U+8FBA U+E0101 U+8FBA U+E0102

邉 邉 邉 邉 邉 邉 U+9089 U+9089 U+E010F U+9089 U+E0110 U+9089 U+E0111 U+9089 U+E0112 U+9089 U+E0113

邉 邉 邉 邉 邉 U+9089 U+E0114 U+9089 U+E0115 U+9089 U+E0116 U+9089 U+E0117 U+9089 U+E0118

邉 邉 邉 邉 邉 U+9089 U+E0119 U+9089 U+E011A U+9089 U+E011B U+9089 U+E011C U+9089 U+E011D

邊 邊 邊 邊 邊 邊 U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C

邊 邊 邊 邊 U+908A U+E010D U+908A U+E010E U+908A U+E010F U+908A U+E0110

𨕙

U+28559

𫟪

U+2B7EA

Page 18: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

様々なグリフをIdeographic Variation

Databaseとして管理、利用可能にすることで、固有のIDによりグリフの個別認識を実現

Page 19: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

9085 邅9086 邆

9087 邇9088 邈9089 邉908A 邊908B 邋908C 邌908D 邍

908E 邎908F 邏

E010F 邉E0110 邉E0111 邉E0112 邉E0113 邉E0113 邉E0114 邉E0115 邉E0116 邉E0117 邉E0118 邉

U+9089 U+E0116

U+9089

Page 20: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

渡 邉 氏 の 絵 は 傑 作 だ

E010A E0103

渡 氏 の 絵 は 作 だ

U+6E21 U+9089 U+6C0F U+306E U+7D75 U+306F U+5091 U+4F5C U+3060

U+6E21

U+9089+

U+E010A U+6C0F U+306E U+7D75 U+306F

U+5091+

U+E0103 U+4F5C U+3060

Page 21: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

IVDIVD

=0xE010A =0xE010A標準のグリフデータベース

Page 22: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 23: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 24: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 25: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 26: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 27: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

BMP

U+00000

U+010000U+00FFFF

U+10FFFF

Plane 0

Plane 1

U+020000U+010FFD

Plane 2

U+030000U+02FFFD

U+03FFFDPlane 3

U+0E0000

U+0EFFFDPlane 14

Page 28: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

符号長/1文字 不足する文字への対応

シフトJIS 可変(8、16ビット) 外字

Unicode 基本多言語面 固定(16ビット)*1 外字

Unicode サロゲートペア 可変(16、32ビット)*1 外字

Unicode IVS/IVD 可変(16、32、48、64ビット)*1 国際標準

16ビット 16ビット

16ビット16ビット16ビット 16ビット

16ビット 16ビット

16ビット 16ビット

Page 29: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

標準化完了まで符号化されない文字がある

暫定的な符号化(ユーザー定義文字としての実装が不可避)

暫定的な私的文字コードと正規コード混在期間とデータ移行の課題

相互運用性の欠如による、新たな混乱を招く危険性

Page 30: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 31: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

フェーズ1 フェーズ2 フェーズ3 フェーズ4

Page 32: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

各製品の対応状況

イワタOpenType フォント

MORISAWAPASSPORT

MORISAWAFont Select Pack

フォントワークスLETS

ジャストシステムATOK

ジャストシステム一太郎

Page 33: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 34: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

Unicode IVS (Ideographic Variation Sequence)は、これまで困難であった文字入力から、メール・記録媒体による情報の伝送、受信、そして情報の表示・印刷において、常に同じ文字(字体)であることを保証できる仕組みです。また、これにより歴史的・文化的資産の電子書籍化や、電子政府システムを促進するために不可欠な人名、地名の正確な表記を、国際基準に則り、クラウドコンピューティング時代に欠くことのできない相互運用性を担保しながら実現することが可能となります。 IVS 技術の普及が始まったばかりですが、文字情報技術促進協議会は、オペレーティングシステムからアプリケーションまでの文字情報技術を促進することで、字体を含む文字情報の保全を可能にし、相互運用性の向上を実現するための技術啓発、参加企業間での相互運用性検証、事例紹介、 そして共同マーケティングまで幅広い活動を行います。

Page 35: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み

UTF-8(Unicode)

Page 36: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 37: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 38: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 39: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み
Page 40: 2014.05.27 文字情報技術促進協議会のご紹介と日本マイクロソフトの取り組み