SAMBA 日本語問題と今後

Preview:

DESCRIPTION

SAMBA 日本語問題と今後. 日本 SAMBA ユーザ会 www.samba.gr.jp 2000.4.19. 日本語独特の L10N 問題とは ?. 各社仕様の拡張文字 アップル、 IBM 、 NEC 、マイクロソフト 文字の正規化問題 複数の符号化 EUC 系、 JIS 系、 SJIS 系 規格の混乱など JIS X 0208-1978 -> 1983 での文字のいれかえ JSA による第 3 水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字 Unicode とのマッピング. 各種 OS の日本語文字. - PowerPoint PPT Presentation

Citation preview

SAMBA日本語問題と今後

日本 SAMBA ユーザ会www.samba.gr.jp

2000.4.19

日本語独特の L10N問題とは ?各社仕様の拡張文字 アップル、 IBM 、 NEC 、マイクロソフト 文字の正規化問題

複数の符号化 EUC 系、 JIS 系、 SJIS 系

規格の混乱など JIS X 0208-1978 -> 1983 での文字のいれかえ JSA による第 3 水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字

Unicode とのマッピング

各種 OSの日本語文字OS 文字コード名 定義されている文字

MS-DOS SJIS JIS X0208-1983

JIS X0201 KANA/ROMAN

MS-WIndows

CodePage 932 JIS X0208-1990 に加えて IBM 拡張漢字、 NEC 漢字、 NEC 選定 IBM拡張文字、ユーザ定義文字

Apple Apple83

Apple90

SJIS にくわえてユーザ定義文字JIS X0208-1983 or -1990

Unix 系 OS 一般に EUC, SJIS サポートのものもあり。Locale の有無次第

JIS X0208-1990, JIS X 0201 KANA/ROMAN

JIS X 0212-1990

SHIFT-JISコード文字種 16進コードによる

範囲例

2 バイト文字(JIS X 0208-1990)

1Byte 81 - 9F, E0 - EF

( 未定義領域含 )

阿唖亜娃

2Byte 40 - 7E, 80 - FC

1 バイト半角仮名文字

A1 - DF アイウエオ

1 バイト ASCII/JIS ローマ字

21 - 7E ABCDE

\/!”#$ ※SJIS 文字エンコーディングであり、符号化集合ではないことに注意

IBM拡張文字文字種 16進コードによる

範囲例

2 バイトIBM 非漢字および漢字

1Byte FA - FC ⅤⅥ 、∟、≡㍻纊褜鍈銈蓜俉嵓2Byte 40 - 7E, 80 - FC

2 バイトユーザ定義文字

1Byte F0 - F9

2Byte 40 - 7E, 80 - FC

予約領域 1Byte 85 - 87, EB - EF2Byte 40 - 7E, 80 - FC

NEC拡張文字文字種 16進コードによ

る範囲

2 バイトユーザ定義文字

1Byte F0 - FC

2Byte 40 - 7E, 80 - FC

2 バイト NEC 拡張文字セット

1Byte 85 - 87, EB - EC ⅤⅥ 、∟、≡㍻①②

2Byte 40 ー 7E 、 80 - FC

2 バイト NEC 選定IBM 拡張文字

1Byte ED - EF

纊褜鍈銈蓜俉嵓2Byte 40 - 7E, 80 - FC

Windows符号化文字集合コードページとは ? Windows において、各国語をサポートする文字コ

ード符号化セットCP932 の特徴 SJIS を中心に IBM 拡張文字、 NEC 拡張文字セット、 NEC 選定

IBM 拡張文字を採用 外字領域 MS 定義の Unicode へのマッピング

他に Apple,IBM 等の定義も SJIS では存在する

Unicodeと samba

Unicode 変換 ftp.unicode.org のテーブル利用Unicode2.1 準拠

Unicode-CP マッピング漢字コード正規化を公式にはサポートせず

Windows NT ・2kWindows95 ・98Windows95 ・98

Samba

Unicode

SJIS

SJIS

Unicode→SJIS SJIS

→LFN

OSファイルシステム

EUC,SJIS,JIS,HEX,CAP

EUC,JIS

JIS では多様なコードが存在 ISO-2022-JP [-2] 新 JIS, 旧 JIS, NEC 漢字 ASCII or JIS ROMAN と併用

サポートする符号化集合 JIS X 0208-1990, JIS X 0201 KANA,

JIS X 0201 ROMAN/ASCII, JIS X 0212-1990

ISO 2022 に則り符号化

Discussion

SAMBA の Coding System は何がいちばんいいのか内部コードはなにがいいのかWindows の拡張をどこまで、どのようにサポートするのかJIS X 0212 補助漢字はどうするのかその他、皆さんの議題 VFAT-JP パッチとの整合性 ? Li18nux 韓国語、中国語、台湾

将来の SAMBA内部コード

Windows NT ・2k

Windows95 ・98

LANMAN, etc

Samba

UCS4

Unicode

Unicode

SJISSJIS→

UCS4

UCS4→

LFN

OSファイルシステム

EUC,SJIS,JIS,HEX,CAP

OSファイルシステム

UCS4UTF8

Recommended