View
161
Download
3
Embed Size (px)
DESCRIPTION
2014.05.27 文字情報技術の最新動向 田丸健三郎 氏 日本電子出版協会
Citation preview
Shift JIS
(JIS78 or JIS83) + メーカー拡張
Z80互換CPU、16 ~ 32KB
Intel Pentium 66MHz 4~8MB
マイクロソフト 標準キャラクタ セット
JIS90, 10646
マイクロソフトOSが助漢字をUCS拡張
補助漢字をUCS拡張
AMD K6-2 / MIPS R10000 / Pentium II 266MHz 32 ~ 64MB
登記固有文字10,330字
戸籍統一文字55,267字
住民基本台帳ネットワーク統一文字19,432字
無い文字は外字で対応・・・
一般に・・・
JIS、Unicodeを初め標準に含まれない字
改定常用漢字表
JIS X 0208, JIS X 0213
この他、フォントに含まれず独自に追加した字
登記統一文字 65,597字
戸籍統一文字
56,040字
住民基本台帳ネットワーク統一文字
21,039字
JIS 漢字
10,050字
常用漢字
2136字 7ビットJISによる符号化が可能
UTF-8、UTF-16により符号化が可能
外字を使用
渡 氏 の 絵 は 作 だ
渡 邉 氏 の 絵 は 傑 作 だ
渡 氏 の 絵 は 作 だ
外字
=0xE000
環境により異なる文字コード
外字
=0xE021
戸籍統一文字56,040字
住民基本台帳ネットワーク統一文字21,039字
JIS 漢字10,050字
常用漢字2136字 7ビットJISによる符号
化が可能
UTF-8、UTF-16により符号化が可能
登録されている「邉」のバリエーションだけでも、15以上存在する。
標準 IVS
辺 辺 辺
U+8FBA U+8FBA U+E0101 U+8FBA U+E0102
邉 邉 邉 邉 邉 邉 U+9089 U+9089 U+E010F U+9089 U+E0110 U+9089 U+E0111 U+9089 U+E0112 U+9089 U+E0113
邉 邉 邉 邉 邉 U+9089 U+E0114 U+9089 U+E0115 U+9089 U+E0116 U+9089 U+E0117 U+9089 U+E0118
邉 邉 邉 邉 邉 U+9089 U+E0119 U+9089 U+E011A U+9089 U+E011B U+9089 U+E011C U+9089 U+E011D
邊 邊 邊 邊 邊 邊 U+908A U+908A U+E0108 U+908A U+E0109 U+908A U+E010A U+908A U+E010B U+908A U+E010C
邊 邊 邊 邊 U+908A U+E010D U+908A U+E010E U+908A U+E010F U+908A U+E0110
𨕙
U+28559
𫟪
U+2B7EA
様々なグリフをIdeographic Variation
Databaseとして管理、利用可能にすることで、固有のIDによりグリフの個別認識を実現
9085 邅9086 邆
9087 邇9088 邈9089 邉908A 邊908B 邋908C 邌908D 邍
908E 邎908F 邏
E010F 邉E0110 邉E0111 邉E0112 邉E0113 邉E0113 邉E0114 邉E0115 邉E0116 邉E0117 邉E0118 邉
U+9089 U+E0116
U+9089
渡 邉 氏 の 絵 は 傑 作 だ
E010A E0103
渡 氏 の 絵 は 作 だ
U+6E21 U+9089 U+6C0F U+306E U+7D75 U+306F U+5091 U+4F5C U+3060
U+6E21
U+9089+
U+E010A U+6C0F U+306E U+7D75 U+306F
U+5091+
U+E0103 U+4F5C U+3060
IVDIVD
=0xE010A =0xE010A標準のグリフデータベース
BMP
U+00000
U+010000U+00FFFF
U+10FFFF
Plane 0
Plane 1
U+020000U+010FFD
Plane 2
U+030000U+02FFFD
U+03FFFDPlane 3
U+0E0000
U+0EFFFDPlane 14
符号長/1文字 不足する文字への対応
シフトJIS 可変(8、16ビット) 外字
Unicode 基本多言語面 固定(16ビット)*1 外字
Unicode サロゲートペア 可変(16、32ビット)*1 外字
Unicode IVS/IVD 可変(16、32、48、64ビット)*1 国際標準
16ビット 16ビット
16ビット16ビット16ビット 16ビット
16ビット 16ビット
16ビット 16ビット
標準化完了まで符号化されない文字がある
暫定的な符号化(ユーザー定義文字としての実装が不可避)
暫定的な私的文字コードと正規コード混在期間とデータ移行の課題
相互運用性の欠如による、新たな混乱を招く危険性
フェーズ1 フェーズ2 フェーズ3 フェーズ4
各製品の対応状況
イワタOpenType フォント
MORISAWAPASSPORT
MORISAWAFont Select Pack
フォントワークスLETS
ジャストシステムATOK
ジャストシステム一太郎
Unicode IVS (Ideographic Variation Sequence)は、これまで困難であった文字入力から、メール・記録媒体による情報の伝送、受信、そして情報の表示・印刷において、常に同じ文字(字体)であることを保証できる仕組みです。また、これにより歴史的・文化的資産の電子書籍化や、電子政府システムを促進するために不可欠な人名、地名の正確な表記を、国際基準に則り、クラウドコンピューティング時代に欠くことのできない相互運用性を担保しながら実現することが可能となります。 IVS 技術の普及が始まったばかりですが、文字情報技術促進協議会は、オペレーティングシステムからアプリケーションまでの文字情報技術を促進することで、字体を含む文字情報の保全を可能にし、相互運用性の向上を実現するための技術啓発、参加企業間での相互運用性検証、事例紹介、 そして共同マーケティングまで幅広い活動を行います。
UTF-8(Unicode)