Upload
avram-johnston
View
9
Download
0
Embed Size (px)
DESCRIPTION
報告 4 :蔵書評価における文字コード問題について. 池内 淳. 報告 4 の内容. 蔵書評価における文字列照合について 文字コードと文字集合の概観 NDL 蔵書データについて 米国議会図書館及び中国国家図書館の蔵書データについて 文字列照合の際の諸問題について. 書誌同定の照合キーとしての ISBN コードの評価. 複数の 図書館間 における大量の 所蔵資料 の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。 その一方で、 ISBN コード のみを 照合キー とすることによる 調査バイアス の存在についても 自覚的 でなければならない。. - PowerPoint PPT Presentation
Citation preview
2
報告 4 の内容
1. 蔵書評価における文字列照合について
2. 文字コードと文字集合の概観
3. NDL 蔵書データについて
4. 米国議会図書館及び中国国家図書館の蔵書データについて
5. 文字列照合の際の諸問題について
3
書誌同定の照合キーとしての ISBN コードの評価 複数の 図書館間 における大量の 所蔵資料
の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。
その一方で、 ISBN コード のみを 照合キー とすることによる 調査バイアス の存在についても 自覚的 でなければならない。
Powered by Monta Method <http://www.bricklife.com/weblog/000626.html>
4
ISBN を単独の照合キーとする場合の調査バイアス(確認)
重複数を過小評価する可能性について ISBN が付与されていない資料の存在 ISBN が誤入力されている資料の存在
重複数を過剰評価する可能性について 同一の資料に複数の ISBN が付与される場合
(シリーズ物等) 出版国・装丁等が異なるため、同内容の資
料に異なる ISBN が付与される場合
21
複数の書誌事項を照合キーに含めることの意味: 1
ISBN 単独の場合よりも、より 精緻 な評価結果を得る可能性がある。
一方、 ISBN 単独の場合では、ほとんど考慮する必要のない 文字コード や文字集合 の問題について、注意を払わなければならない。
22
複数の書誌事項を照合キーに含めることの意味: 2 ISBN 単独の場合にもたらされる 誤差 と、
積極的に 調査バイアス を除去しようとする場合の コスト とを評価することが必要。
文字コードの問題に対する 適切な処置 を怠った場合、 ISBN 単独の場合よりも、より精度の低い 評価結果を得る可能性がある。
26
文字コードについて
文字コード( character code ) コンピュータが 文字・記号 に 数字 を割り当
てるための符号化方式、あるいは、その符合そのもの
文字集合( character set ) 特定の文字コード系において表現可能な
文字・記号 の集合(=符号化文字集合)
27
代表的な文字コードの例:ASCII(1963 ~ )
7 ビット (27) 2 進数 : 0000000 ~ 1111111 16 進数 : 00 ~ 7F 10 進数 : 0 ~127
American Standard Code for Information Interchange
35
文字集合を拡張するための代表的なアプローチ
ISO/IEC 2022 系 様々な 文字コード表 を切り替えることで、同一のコードポイン
トに 異なる複数の文字 を割り当てる方式 言語圏ごとに 地域化( localization: l10n )が必要
Unicode / ISO/IEC 10646 系 数多くの言語を網羅する単一の 文字コード表 を構築し、特定の
文字に対して、一意のコードポイントを割り当てる方式(→ 国際化( internationalization: i18n ))
地域化のための コスト を節約できるが、ファイルが 重く なり易い。
36
ISO/IEC 2022 ( 8 ビット) の概念図(コード表の切り替え)
中間バッファ( G0 ~ G3 )に読み込まれた複数の文字コード表を、インユーステーブル( GL/GR )に読み込み、特定のエスケープシーケンスを用いて、適宜、文字コード表を切り替える。
<インユーステーブル>
<中間バッファ>
37
Unicode / ISO 10646 における文字集合の概念図: 1
UCS-216 ビット
2 オクテット256 区 ×256 点
65,536 コードポイント
UCS: Universal multiple-octet coded Character Set
0点
255 点0区
255 区
巨大な文字空間を確保する
巨大な文字空間を確保する
45
Unicode / ISO 10646 における文字集合の概念図: 2
×128×128 群群
UCS-431 ビット
4 オクテット128 群 ×256 面 ×256 区 ×256 点2,147,483,648 コードポイント
UCS: Universal multiple-octet coded Character Set
×256×256 面面
67
UTF-8 の特徴について
1 バイト~ 6 バイトの可変長符号化方式で、 UCS-4 の文字集合を全て網羅できる。 ASCII が 1 バイトで表現されるため既存のシステムや文字コードとの親和性が高い。 1 バイト対多バイト、及び、多バイト文字間での自動判別が容易。 CJK には 3 バイト以上が割り当てられるため、文字レパートリーの多い言語圏には不利
68
NDL 蔵書データについて
文字コード → EUC-JP ISO/IEC 2022 に準拠した日本語文字コード UNIX 系 OS の多くで用いられている
文字集合 → JIS X 0208 の範囲 「ひらがな」、「カタカナ」、「基本ラテン+記
号」、「 JIS第一/第二水準漢字」 拡張ラテン、ギリシャ文字、キリル文字等について
は、代替文字を定義して使用(→配付資料参照)
71
本調査の対象とした国立図書館の文字コードについて
米国議会図書館( Library of Congress ) UTF-8
MARC-8
• MARC21 で定義された独自の文字コード
• ISO/IEC 2022 に準拠
中国国家図書館( National Library of China ) UTF-8
72
文字列照合を行う際の諸問題について : 1
文字コードの異同について 特定の目録データの文字コードは、既知で
あることから、純粋に、技術的問題 として処理される。
文字集合の異同予め、代替文字 や 翻字リスト を作成して、逐次、対応する必要がある。
73
文字列照合を行う際の諸問題について : 2
表記のゆれ、誤入力について ISBN 単独の場合、デリミタである「-(ハイフン)」の有無を
考慮する程度で構わない。 文字列の完全一致を書誌同定の条件とした場合、蔵書の一致数を
過小評価する可能性が極めて高い。 引用文献の記述のゆれを吸収するための研究蓄積は存在するもの
の、国際的な大規模図書館間の書誌データの記述のゆれを吸収するといった既往研究は存在しない。
ISBN の一致する書誌データ間において、タイトルや著者名がどの程度一致するのかについて調査を行うというアプローチは有効