Upload
johnda
View
42
Download
0
Embed Size (px)
DESCRIPTION
SAMBA 日本語問題と今後. 日本 SAMBA ユーザ会 www.samba.gr.jp 2000.4.19. 日本語独特の L10N 問題とは ?. 各社仕様の拡張文字 アップル、 IBM 、 NEC 、マイクロソフト 文字の正規化問題 複数の符号化 EUC 系、 JIS 系、 SJIS 系 規格の混乱など JIS X 0208-1978 -> 1983 での文字のいれかえ JSA による第 3 水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字 Unicode とのマッピング. 各種 OS の日本語文字. - PowerPoint PPT Presentation
Citation preview
SAMBA日本語問題と今後
日本 SAMBA ユーザ会www.samba.gr.jp
2000.4.19
日本語独特の L10N問題とは ?各社仕様の拡張文字 アップル、 IBM 、 NEC 、マイクロソフト 文字の正規化問題
複数の符号化 EUC 系、 JIS 系、 SJIS 系
規格の混乱など JIS X 0208-1978 -> 1983 での文字のいれかえ JSA による第 3 水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字
Unicode とのマッピング
各種 OSの日本語文字OS 文字コード名 定義されている文字
MS-DOS SJIS JIS X0208-1983
JIS X0201 KANA/ROMAN
MS-WIndows
CodePage 932 JIS X0208-1990 に加えて IBM 拡張漢字、 NEC 漢字、 NEC 選定 IBM拡張文字、ユーザ定義文字
Apple Apple83
Apple90
SJIS にくわえてユーザ定義文字JIS X0208-1983 or -1990
Unix 系 OS 一般に EUC, SJIS サポートのものもあり。Locale の有無次第
JIS X0208-1990, JIS X 0201 KANA/ROMAN
JIS X 0212-1990
SHIFT-JISコード文字種 16進コードによる
範囲例
2 バイト文字(JIS X 0208-1990)
1Byte 81 - 9F, E0 - EF
( 未定義領域含 )
阿唖亜娃
2Byte 40 - 7E, 80 - FC
1 バイト半角仮名文字
A1 - DF アイウエオ
1 バイト ASCII/JIS ローマ字
21 - 7E ABCDE
\/!”#$ ※SJIS 文字エンコーディングであり、符号化集合ではないことに注意
IBM拡張文字文字種 16進コードによる
範囲例
2 バイトIBM 非漢字および漢字
1Byte FA - FC ⅤⅥ 、∟、≡㍻纊褜鍈銈蓜俉嵓2Byte 40 - 7E, 80 - FC
2 バイトユーザ定義文字
1Byte F0 - F9
2Byte 40 - 7E, 80 - FC
予約領域 1Byte 85 - 87, EB - EF2Byte 40 - 7E, 80 - FC
NEC拡張文字文字種 16進コードによ
る範囲
例
2 バイトユーザ定義文字
1Byte F0 - FC
2Byte 40 - 7E, 80 - FC
2 バイト NEC 拡張文字セット
1Byte 85 - 87, EB - EC ⅤⅥ 、∟、≡㍻①②
2Byte 40 ー 7E 、 80 - FC
2 バイト NEC 選定IBM 拡張文字
1Byte ED - EF
纊褜鍈銈蓜俉嵓2Byte 40 - 7E, 80 - FC
Windows符号化文字集合コードページとは ? Windows において、各国語をサポートする文字コ
ード符号化セットCP932 の特徴 SJIS を中心に IBM 拡張文字、 NEC 拡張文字セット、 NEC 選定
IBM 拡張文字を採用 外字領域 MS 定義の Unicode へのマッピング
他に Apple,IBM 等の定義も SJIS では存在する
Unicodeと samba
Unicode 変換 ftp.unicode.org のテーブル利用Unicode2.1 準拠
Unicode-CP マッピング漢字コード正規化を公式にはサポートせず
Windows NT ・2kWindows95 ・98Windows95 ・98
Samba
Unicode
SJIS
SJIS
Unicode→SJIS SJIS
→LFN
OSファイルシステム
EUC,SJIS,JIS,HEX,CAP
EUC,JIS
JIS では多様なコードが存在 ISO-2022-JP [-2] 新 JIS, 旧 JIS, NEC 漢字 ASCII or JIS ROMAN と併用
サポートする符号化集合 JIS X 0208-1990, JIS X 0201 KANA,
JIS X 0201 ROMAN/ASCII, JIS X 0212-1990
ISO 2022 に則り符号化
Discussion
SAMBA の Coding System は何がいちばんいいのか内部コードはなにがいいのかWindows の拡張をどこまで、どのようにサポートするのかJIS X 0212 補助漢字はどうするのかその他、皆さんの議題 VFAT-JP パッチとの整合性 ? Li18nux 韓国語、中国語、台湾
将来の SAMBA内部コード
Windows NT ・2k
Windows95 ・98
LANMAN, etc
Samba
UCS4
Unicode
Unicode
SJISSJIS→
UCS4
UCS4→
LFN
OSファイルシステム
EUC,SJIS,JIS,HEX,CAP
OSファイルシステム
UCS4UTF8