報告 4 ：蔵書評価における文字コード問題について

報告 4 ：蔵書評価における文字コード問題について

池内　淳

2

報告 4 の内容

1. 蔵書評価における文字列照合について

2. 文字コードと文字集合の概観

3. NDL 蔵書データについて

4. 米国議会図書館及び中国国家図書館の蔵書データについて

5. 文字列照合の際の諸問題について

3

書誌同定の照合キーとしての ISBN コードの評価複数の図書館間における大量の所蔵資料

の重複数を調査しようとする際に、極めて効率的なアプローチである。

その一方で、 ISBN コードのみを照合キーとすることによる調査バイアスの存在についても自覚的でなければならない。

Powered by Monta Method 　 <http://www.bricklife.com/weblog/000626.html>

4

ISBN を単独の照合キーとする場合の調査バイアス（確認）

重複数を過小評価する可能性について ISBN が付与されていない資料の存在 ISBN が誤入力されている資料の存在

重複数を過剰評価する可能性について同一の資料に複数の ISBN が付与される場合

（シリーズ物等）出版国・装丁等が異なるため、同内容の資

料に異なる ISBN が付与される場合

5

ではPowered by Takahashi Method 　 <http://www.rubycolor.org/ta

kahashi/>

6

どうすれば

7

いいいいでですすかか ??

8

それは

9

ISBNInternational Standard Book Number

10

だけでなく

11

他の

12

書誌事項を

13

例えば

14

著者名や

15

書名等を

16

書誌同定

17

のための

18

照合キー

19

として

20

用いること

21

複数の書誌事項を照合キーに含めることの意味： 1

ISBN 単独の場合よりも、より精緻な評価結果を得る可能性がある。

一方、 ISBN 単独の場合では、ほとんど考慮する必要のない文字コードや文字集合の問題について、注意を払わなければならない。

22

複数の書誌事項を照合キーに含めることの意味： 2 ISBN 単独の場合にもたらされる誤差と、

積極的に調査バイアスを除去しようとする場合のコストとを評価することが必要。

文字コードの問題に対する適切な処置を怠った場合、 ISBN 単独の場合よりも、より精度の低い評価結果を得る可能性がある。

23

ところで

24

文字コード文字コード

25

とは ?

26

文字コードについて

文字コード（ character code ）コンピュータが文字・記号に数字を割り当

てるための符号化方式、あるいは、その符合そのもの

文字集合（ character set ）特定の文字コード系において表現可能な　

文字・記号の集合（＝符号化文字集合）

27

代表的な文字コードの例：ASCII(1963 ～ )

7 ビット (27) 　 2 進数 : 0000000 ～ 1111111 　 16 進数 : 00 ～ 7F 　 10 進数 : 0 ～127

American Standard Code for Information Interchange

28

128 文字 ?

(96 文字 )

29

それだけでは

30

とても

31

足りません

32

では

33

どうすれば

34

いいいいでですすかか ??

35

文字集合を拡張するための代表的なアプローチ

ISO/IEC 2022 系様々な文字コード表を切り替えることで、同一のコードポイン

トに異なる複数の文字を割り当てる方式言語圏ごとに地域化（ localization: l10n ）が必要

Unicode ／ ISO/IEC 10646 系数多くの言語を網羅する単一の文字コード表を構築し、特定の

文字に対して、一意のコードポイントを割り当てる方式（→ 国際化（ internationalization: i18n ））

地域化のためのコストを節約できるが、ファイルが重くなり易い。

36

ISO/IEC 2022 （ 8 ビット）の概念図（コード表の切り替え）

中間バッファ（ G0 ～ G3 ）に読み込まれた複数の文字コード表を、インユーステーブル（ GL/GR ）に読み込み、特定のエスケープシーケンスを用いて、適宜、文字コード表を切り替える。

＜インユーステーブル＞

＜中間バッファ＞

37

Unicode ／ ISO 10646 における文字集合の概念図： 1

UCS-216 ビット

2 オクテット256 区 ×256 点

65,536 コードポイント

UCS: Universal multiple-octet coded Character Set

0点

255 点0区

255 区

巨大な文字空間を確保する

巨大な文字空間を確保する

38

65,536 文字 ?

39

それだけでは

40

とても

41

とても

42

とても

43

とても

44

足りません

45

Unicode ／ ISO 10646 における文字集合の概念図： 2

×128×128 群群

UCS-431 ビット

4 オクテット128 群 ×256 面 ×256 区 ×256 点2,147,483,648 コードポイント

UCS: Universal multiple-octet coded Character Set

×256×256 面面

46

Unicode 　ISO/IEC 10646

では

47

文字コードと

48

文字集合を

49

明確に

50

弁別しています

51

UCSの

52

符号化方式は

53

UTFプロレスの団体名ではありません。

54

です

55

ISO/IEC 10646 では

56

これを

57

UCS Transfomation Format

58

と呼び

59

Unicodeでは

60

これを

61

Unicode Translation

Format

62

と呼びます

63

ここでは

64

UTF-88-bit UCS Transformation Format

Unicode Translation Format-8

65

について

66

採り上げます

67

UTF-8 の特徴について

1 バイト～ 6 バイトの可変長符号化方式で、 UCS-4 の文字集合を全て網羅できる。 ASCII が 1 バイトで表現されるため既存のシステムや文字コードとの親和性が高い。 1 バイト対多バイト、及び、多バイト文字間での自動判別が容易。 CJK には 3 バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不利

68

NDL 蔵書データについて

文字コード → EUC-JP ISO/IEC 2022 に準拠した日本語文字コード UNIX 系 OS の多くで用いられている

文字集合 → JIS X 0208 の範囲「ひらがな」、「カタカナ」、「基本ラテン＋記

号」、「 JIS第一／第二水準漢字」拡張ラテン、ギリシャ文字、キリル文字等について

は、代替文字を定義して使用（→配付資料参照）

69

NDL における代替文字の例：フランス語の場合

70

NDL における代替文字の例：ロシア語（キリル文字）の場合

71

本調査の対象とした国立図書館の文字コードについて

米国議会図書館（ Library of Congress ） UTF-8

MARC-8

• MARC21 で定義された独自の文字コード

• ISO/IEC 2022 に準拠

中国国家図書館（ National Library of China ） UTF-8

72

文字列照合を行う際の諸問題について： 1

文字コードの異同について特定の目録データの文字コードは、既知で

あることから、純粋に、技術的問題として処理される。

文字集合の異同予め、代替文字や翻字リストを作成して、逐次、対応する必要がある。

73

文字列照合を行う際の諸問題について： 2

表記のゆれ、誤入力について ISBN 単独の場合、デリミタである「－（ハイフン）」の有無を

考慮する程度で構わない。文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を

過小評価する可能性が極めて高い。引用文献の記述のゆれを吸収するための研究蓄積は存在するもの

の、国際的な大規模図書館間の書誌データの記述のゆれを吸収するといった既往研究は存在しない。

ISBN の一致する書誌データ間において、タイトルや著者名がどの程度一致するのかについて調査を行うというアプローチは有効

74

おわり

Documents

報告 4 ：蔵書評価における文字コード問題について