CiNii Books APIを利用した所蔵情報可視化 大谷周平 長屋俊 林豊(Li:d tech)
Li:d tech
• “技術書を一緒に読もう”と同年代の3人+1人で2011年スタート
• 遠隔地(茨城・京都・沖縄→福岡)なのでMLで情報やアイディアの共有
• ブログでアウトプット
Lid: tech Blog
• Katachi • ささくれ • めじるし。 • よしなしごと
Why?
5/1 ブログエントリ.CiNii Books APIで所蔵館数
が出力されない件など. ささくれ(林)
7/12 CiNii Books APIが改修されて所蔵館数の取
得可能に
8/2 某M課長から” CiNii Booksの全所蔵と所蔵
館数のグラフが欲しい”とのオファーが
Why
8/11 NIIからCiNii Books の全データを提供して
貰うのは時間的に厳しいことが判明
8/12 APIを使って900万件のデータ取得(長屋)
8/13〜 取得データを用いて可視化(林)
How?
• APIからシェルスクリプトを使って取得
• APIから一度に取得できるデータは20万件が上限
→1年ごとに分割して取得
→20万件を超える年は、ソート順をかえて
再度取得、重複データを削除
Data Summary
• 921万件の図書書誌と1億1321万個の所蔵
• 最も多く所蔵されている図書は
「新英和大辞典」研究社,1974.(1077館)
• 350万件のレコードは所蔵館1のみ
Visualization CiNii
京都大学人環・総人図書館 国際京大学図書・情報センター
天使大学図書館 長岡工業高専図書館
ウィルキン・グラフ
http://haseharu.org/labs/rdbs/
Future Work
• いくつかの観点でさらなる分析
Ex.出版年や和洋別の分析、機関ごとのクラスタリング……
• 機関ごとの特徴がわかるような分析やツールの開発
ぜひ、CiNiiの全データを取得できる機能を
m(__)m