11
SAMBA 日日日日日日日日 日日 SAMBA 日日日日 www.samba.gr.jp 2000.4.19

SAMBA 日本語問題と今後

  • Upload
    johnda

  • View
    42

  • Download
    0

Embed Size (px)

DESCRIPTION

SAMBA 日本語問題と今後. 日本 SAMBA ユーザ会 www.samba.gr.jp 2000.4.19. 日本語独特の L10N 問題とは ?. 各社仕様の拡張文字 アップル、 IBM 、 NEC 、マイクロソフト 文字の正規化問題 複数の符号化 EUC 系、 JIS 系、 SJIS 系 規格の混乱など JIS X 0208-1978 -> 1983 での文字のいれかえ JSA による第 3 水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字 Unicode とのマッピング. 各種 OS の日本語文字. - PowerPoint PPT Presentation

Citation preview

Page 1: SAMBA 日本語問題と今後

SAMBA日本語問題と今後

日本 SAMBA ユーザ会www.samba.gr.jp

2000.4.19

Page 2: SAMBA 日本語問題と今後

日本語独特の L10N問題とは ?各社仕様の拡張文字 アップル、 IBM 、 NEC 、マイクロソフト 文字の正規化問題

複数の符号化 EUC 系、 JIS 系、 SJIS 系

規格の混乱など JIS X 0208-1978 -> 1983 での文字のいれかえ JSA による第 3 水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字

Unicode とのマッピング

Page 3: SAMBA 日本語問題と今後

各種 OSの日本語文字OS 文字コード名 定義されている文字

MS-DOS SJIS JIS X0208-1983

JIS X0201 KANA/ROMAN

MS-WIndows

CodePage 932 JIS X0208-1990 に加えて IBM 拡張漢字、 NEC 漢字、 NEC 選定 IBM拡張文字、ユーザ定義文字

Apple Apple83

Apple90

SJIS にくわえてユーザ定義文字JIS X0208-1983 or -1990

Unix 系 OS 一般に EUC, SJIS サポートのものもあり。Locale の有無次第

JIS X0208-1990, JIS X 0201 KANA/ROMAN

JIS X 0212-1990

Page 4: SAMBA 日本語問題と今後

SHIFT-JISコード文字種 16進コードによる

範囲例

2 バイト文字(JIS X 0208-1990)

1Byte 81 - 9F, E0 - EF

( 未定義領域含 )

阿唖亜娃

2Byte 40 - 7E, 80 - FC

1 バイト半角仮名文字

A1 - DF アイウエオ

1 バイト ASCII/JIS ローマ字

21 - 7E ABCDE

\/!”#$ ※SJIS 文字エンコーディングであり、符号化集合ではないことに注意

Page 5: SAMBA 日本語問題と今後

IBM拡張文字文字種 16進コードによる

範囲例

2 バイトIBM 非漢字および漢字

1Byte FA - FC ⅤⅥ 、∟、≡㍻纊褜鍈銈蓜俉嵓2Byte 40 - 7E, 80 - FC

2 バイトユーザ定義文字

1Byte F0 - F9

2Byte 40 - 7E, 80 - FC

予約領域 1Byte 85 - 87, EB - EF2Byte 40 - 7E, 80 - FC

Page 6: SAMBA 日本語問題と今後

NEC拡張文字文字種 16進コードによ

る範囲

2 バイトユーザ定義文字

1Byte F0 - FC

2Byte 40 - 7E, 80 - FC

2 バイト NEC 拡張文字セット

1Byte 85 - 87, EB - EC ⅤⅥ 、∟、≡㍻①②

2Byte 40 ー 7E 、 80 - FC

2 バイト NEC 選定IBM 拡張文字

1Byte ED - EF

纊褜鍈銈蓜俉嵓2Byte 40 - 7E, 80 - FC

Page 7: SAMBA 日本語問題と今後

Windows符号化文字集合コードページとは ? Windows において、各国語をサポートする文字コ

ード符号化セットCP932 の特徴 SJIS を中心に IBM 拡張文字、 NEC 拡張文字セット、 NEC 選定

IBM 拡張文字を採用 外字領域 MS 定義の Unicode へのマッピング

他に Apple,IBM 等の定義も SJIS では存在する

Page 8: SAMBA 日本語問題と今後

Unicodeと samba

Unicode 変換 ftp.unicode.org のテーブル利用Unicode2.1 準拠

Unicode-CP マッピング漢字コード正規化を公式にはサポートせず

Windows NT ・2kWindows95 ・98Windows95 ・98

Samba

Unicode

SJIS

SJIS

Unicode→SJIS SJIS

→LFN

OSファイルシステム

EUC,SJIS,JIS,HEX,CAP

Page 9: SAMBA 日本語問題と今後

EUC,JIS

JIS では多様なコードが存在 ISO-2022-JP [-2] 新 JIS, 旧 JIS, NEC 漢字 ASCII or JIS ROMAN と併用

サポートする符号化集合 JIS X 0208-1990, JIS X 0201 KANA,

JIS X 0201 ROMAN/ASCII, JIS X 0212-1990

ISO 2022 に則り符号化

Page 10: SAMBA 日本語問題と今後

Discussion

SAMBA の Coding System は何がいちばんいいのか内部コードはなにがいいのかWindows の拡張をどこまで、どのようにサポートするのかJIS X 0212 補助漢字はどうするのかその他、皆さんの議題 VFAT-JP パッチとの整合性 ? Li18nux 韓国語、中国語、台湾

Page 11: SAMBA 日本語問題と今後

将来の SAMBA内部コード

Windows NT ・2k

Windows95 ・98

LANMAN, etc

Samba

UCS4

Unicode

Unicode

SJISSJIS→

UCS4

UCS4→

LFN

OSファイルシステム

EUC,SJIS,JIS,HEX,CAP

OSファイルシステム

UCS4UTF8