日本における東アジア文献のデジタル化の現状と未来
関西大学東西学術研究所長
前関西大学図書館長
外国語学部・東アジア文化研究科
内田慶市
「秘蔵は死蔵なり」
• 東と西の図書館(たとえば貴重書の扱い)の大きな違い
秘蔵と公開
知的所有権に対する意識の高低
(本の)利用者側か管理者側か
「書物の本来の使命」に対する見方
• 紙媒体の運命(特に酸性紙)
• 人類の知の保存=デジタル化
Open Libraryの方向へ
• GoogleBooks
• OpenLibrary
• Internet Archive
• Hathi Trust Digital Library
東アジア文献のデジタル化の状況
• 台湾中央研究院・・歴史語言研究所漢籍電子文献資料庫
• CADAL(China Academic Didital Associative Library)
• PRRLA(PRRLA(Pacific Rim Research Library Alliance)
• バチカン図書館のデジタル化・・北京外国語大学・ローマ大学で中国関係(170種、300 冊影印出版『明清中西文化交流史文献叢刊』)、NTT データで日本関係(マニュスクリプト、現在約3000,将来的には80000冊),筆者は現在、広くアジア学関係を計画中(ローマ大学・北京外国語大学とのコラボで)
台湾中央研究院
• 歴史語言研究所漢籍電子文献資料庫
• 約20年前から開始された国家的事業
• 925種、5億字
• 全文検索可能
漢籍電子文献資料庫
CADAL
• China Academic Didital Associative Library(大学数字图书馆国际合作计划)
• 2001年9月以降開始された国際プロジェクト
• 浙江大学・中国工程院主導,多くの大学が加入
• 第1期(2001-2006)で100万冊のデジタル化、国家予算7000万元+アメリカの協力単位200万ドル
• 第2期(2009−2012)で150万冊第3期(2014〜)中国の70の主要な大学図書館の他、米国のInternet Archive、コロンビア大学図書館等9機関、インド16機関のほか、ドイツのベルリン国立図書館等が参加している
• CADALポータルサイト
• ユビキタスに対応しており、iPad,iPhone等での使用も可能
• 正式な参加館は登録、検索、閲覧(プリンアウトは不可)、貸出全て可能だが、非参加館では、閲覧は一部のみ、貸出は不可。
• 読者のタグ付けも可。
• メタデータの編集は読者(登録者)も可能=ポイント制(貢献度が示される)
PRRLA(旧PRDLA)
• PRDLA(Pacfic Rim Digital Libraries Alliance=環太平洋デジタル図書館連合)
現在は
• PRRLA(Pacific Rim Research Libraries Alliance)
• 香港、中国,台湾、マカオ、シンガポール、韓
国、オーストラリア、ニュージーランド、アメリカ、カナダの33大学(日本は唯一、関大が参加の意思表示中)
PRRLA(旧PADLA)
バチカン図書館デジタルライブラリー
日本における主なオンライン公開型データベースの類型
• 早稲田式:所蔵物一括提供型
• 明治学院大式:1コンテンツ集中型
• シルクロードプロジェクト式:複合データベース
• 公文書館式:文書庫型
• 関大式:画像連動型全文検索
• Google式:複数データベース横断型
早稲田式:所蔵物一括提供型
• 図書館(あるいは文庫単位)が持つすべてのコンテンツを汎用的なデータ形式で提供。
早稲田大学図書館古典籍データベース国会図書館近代デジタルライブラリーオーストラリア国立図書館(LMS)フランス国立図書館Gallicaドイツ・ベルリン州立図書館ハーバード・燕京図書館バークレー等々
明治学院大式:1コンテンツ集中型
• 各所蔵機関がもつ1冊の貴重本あるいは1文庫を中心としたデータベース。
慶応大学Himiプロジェクト(大英の「」カンタベリー物語」に特化)明治学院大学『和英語林集成』WEB懐徳堂関西大学WEB泊園書院(泊園文庫)
公文書館式:文書庫型
• いわゆる文献データベースであったり、あるいは文書類のテキスト検索ができるようなデータベース
全国漢籍データベース国立公文書館
シルクロードプロジェクト式複合データベース
様々な形式のデータベースを提供している例
国立情報学研究所ディジタル・シルクロード龍谷大学古典籍デジタルアーカイブ研究センター長崎大学電子化コレクション東洋文化研究所データベース
Google式:複数データベース横断型
• 複数の所蔵先にまたがるアーカイブズを横断的に検索して、一元的に表示するシステムを提供するデータベース。
• それぞれのサイトにビューワーを備えていることが多い。
GoogleBooksOpenLibraryInternet ArchiveHathiTrsut’s Digital Library
(カリフォルニア大学、プリンストン大学、ハーバード大学図書館などの蔵書を含む)
関西大学東アジア学研究
• 東西学術研究所(S26より)
• 私立大学学術研究高度化推進事業・学術フロンティア推進事業「アジア文化研究センター(CSAC)」(H17-21)
• グローバルCOE「東アジア文化交渉学教育研究拠点」(H19-23)
• 私立大学戦略的研究基盤形成支援事業「アジア文化研究センター(CSACII)」(H23-27)・・「東アジア文化資料のアーカイヴズ構築と活用の研究拠点形成」
関西大学東アジアアーカイブスの現状
• 「近代漢語文献データベース」(H18-19科研費)に始まる
(内田慶市・氷野善寛「近代漢語文献データベース」の構築『東方』318号、2007.8)
「近代漢語文献データベース」の概要
• 近代中国語文献資料データベース
→目録型データベース
• 近代中国語文献アーカイブズ
→上記DBに登録された資料のデジタル画像
• 近代中国語コーパス
→デジタル化された資料の中でも特に重要と
思われる資料を全文検索できるようにしたデータベース
近代中国語文献資料データベース
• インターネットを通じて項目の新規作成、編集、修正などの作業を共同で行うことができ、5つの個別のデータベースからなるリレーショナル型のデータベース。①文献データベース② 著者データベース③論文データベース④原資料データベース⑤所蔵データベース)
近代中国語文献アーカイブズ
• 文献画像の閲覧
• 近代中国語文献資料データベースから閲覧できる登録されている文献画像をウェブビューワーを利用して閲覧することができる。
近代漢語語料庫(近代中国語コーパス)
• 全文検索
• 複数テキスト横断検索
• 画像/テキスト同期表示
• 異体字関連検索
• インターネット上での公開
(東アジア文化研究センター)CSACII東アジア文化資料のアーカイヴズ構築
各研究員が長澤・増田・泊園文庫といった文献データ、あるいはフエ文書(ベトナム)、東アジアの寺廟データ、船舶の往来データなど、それぞれの分野のデータを活かした横断連携型のデータベースの構築を目指している
関西大学蔵アジア学関連個人文庫
• 内藤文庫(33500)・・・内藤湖南(漢籍)• 長澤文庫(30497)・・・長澤規矩也(国漢籍)• 中村文庫(33491)・・・・中村幸彦(国文)• 増田文庫(16184)・・・・増田渉(魯迅、西学東漸)
• 吉田文庫(2479)・・・・ 吉田伊三郎(アジア外交)
• 鬼洞文庫(10309)・・・・出口神暁(国文)• 泊園文庫(16954)・・・・藤澤東畡・南岳・黄鵠・黄坡
CSAC Digital Archives
• http://www.db1.csac.kansai-u.ac.jp/csac/
個人文庫関係のデジタル化の現況
• 6000冊程度デジタル化終了、公開は3000冊
(その他)
• 漢封泥のデジタル化(20件程度)
• 内藤湖南の書簡が8000件程度:撮影終了(公開)
• 泊園関係の印鑑類が300点程度(公開済み=http://www.db1.csac.kansai-u.ac.jp/hakuen/yinpu/)
• 内藤湖南文庫所蔵の軸物や貴重書庫収蔵の軸物700点程度(公開待ち)
內藤文庫• 書籍以外,如《朱舜水先生手簡》、《羅叔言參事臨秦權條幅》(羅振玉)等親筆手簡和卷軸等也包括在裏面。另外還有個人的書信等,但是這樣的信件之類有個人消息的問題,所以暫時不公開。
漢代的封泥
ウィグル木活字
• ペリオ(Paul Pelliot)Musee Guimet(ギメ美術館)から内藤への寄贈
長澤文庫
白話小說」中國戲曲、琉球官話課本、唐話(日本江戶時代的漢語)等資料。
中村文庫
• 如孤本南宋版《尚書註疏》等中日古籍、清朝、江戶時代的刊本和抄本等。
增田文庫
• 主要是西學東漸方面的書籍和有關魯迅的資料
泊園文庫
• 江戶時代大阪有兩所私塾,一個是懷德堂,一個是泊園。泊園文庫是這個泊園的藏書。
寺廟データベース
アーカイブズ・データベースとは何か?
• 文献画像を公開するだけか?
• アーカイブズを使った研究とは?
• ユーザーインターフェースは?
データベース・アーカイブズに収録するデータ
• 一次資料原資料/素材そのものの画像、テキスト資料等
• 二次資料現在の所在地・所有者、年代、位置情報(GIS)
• 付加的情報関連情報・研究文献(CNKI,CiNiiなどとの連携)、タグ、コメント、メモ等
• デジタルアーカイブズとしての情報撮影情報(撮影条件・機材等)
その他:データベースの設計に際して考えないといけないこと
• 資料収集、登録のルールを作り。
何でも公開するのか、選んで公開するのか?
• 他機関のデータベースへの接続、情報共有の仕組み作り=ネットワーク
• 誰がデータを入力するのか?
書誌の執筆など専門性が必要とする作業は誰がするのか?
• 汎用型・多分野横断利用できるデータベースの設計
多くの分野の研究者が一つのデータベースに関わり、特色あるデータベースを作成するには、どういった工夫が必要か?
• 拡張性を考えた設計>データベースのモジュール化
データ形式はシンプルな構造に>データの最大公約数を求める
• 何で見るのか?どう見るのか? iPad,iPhone, 「ユビキタス」(どこでもデータベース)
ユーザーインターフェス等
他組織との連携=オープン・プラットフォームの構想
• 1組織だけでは立ち行かないもの• CNKI,CiNiiなどの共通フォーマット• 国内外との連携
• ハブ的基地(オープンデータリサーチセンター)
• 研究データのオープン化• 研究グループのオープン化• データ構築ノウハウのオープン化
デジタル化は紙に取って代われるかー不易と流行ー
• 文献カードからデジタルインデックス
• 語彙カードからコーパス
• 紙からタッチパネル
しかし一方で
• 紙の匂い、ページをめくるという行為、書庫で書架を一つずつ見て回るという一見「無駄な営み」の中から新しい発見が
• 「書香」という言葉・・一度は「書の海」に浸るべき
図書館の危機
• 関西大学の場合
• 平成16年・・紙:デジタル=60:40
• 平成27年・・・・・・・・・・・・・・ 27:73
• 電子ジャーナルの毎年の値上がり・・5000万
• ビッグディールの「寡占化」=出版社の意のまま=「あこぎな商売」
60.23%55.55% 54.60%
50.19%47.42% 46.40% 47.93%
42.74% 44.17% 44.24%
32.14%27.08%
3.56%
5.84% 7.37%
8.53%
8.45% 8.81%8.49%
11.35%13.08% 10.96%
16.30%
14.21%
36.21%38.61% 38.03%
41.28%44.12% 44.80% 43.58%
45.91%42.74% 44.79%
51.56%
58.71%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
逐次刊行物費
電算情報資料費
図書費