Upload
kosuke-tanabe
View
486
Download
0
Embed Size (px)
Citation preview
ジャーナルリスト徹底活用法 楽しい電子ジャーナル管理のために
2015年9月5日 Code4Lib JAPAN Conference 2015
田辺 浩介 TANABE, Kosuke Twi@er / GitHub: @nabeta
ジャーナルリスト?
• 電子ジャーナルの一覧表 ジャーナルのタイトルが入っている
• その他、リストの作成者によってさまざまな 情報が入っている
• フォーマットはCSVやXLS/XLSX(Excel)など
どんなジャーナルリストがあるの?
• さまざまな企業や団体がジャーナルリストを作っています – データベース提供会社 – ジャーナル出版社 – 図書館コミュニティ
• どんなものがあるか見てみましょう
EssenOal Science Indicatorsの ジャーナルリスト
• Thomson Reuter社の論文データベース – Web of Scienceの収録誌のリスト – h@p://ipscience-‐help.thomsonreuters.com/incitesLive/ESIGroup/overviewESI/scopeCoverageESI.html
• タイトル、ISSN、研究分野を含む • Web上で誰でも入手可能。ライセンスは不明
Scopusのジャーナルリスト
• Elsevier社の論文データベースScopusの収録誌のリスト – h@p://www.elsevier.com/__data/assets/excel_doc/0015/91122/Otle_list.xlsx
• タイトル、ISSN、SNIP、研究分野を含む • Web上で誰でも入手可能。ライセンスは不明
DOAJのジャーナルリスト
• オープンアクセスジャーナルの一覧 • CSVファイルで提供 – h@ps://doaj.org/csv – タイトル、ISSN、オープンアクセスのポリシーを含
む – 項目数は多いが、埋まっていないジャーナルが
多い
• 誰でも入手可能。ライセンスはCC-‐BY-‐SA
KBART
• NISOとUKSGによって策定された、ナレッジベース向けのデータ交換フォーマット
• タイトル、ISSN、URL、オンラインで利用できる最初の号と最後の号などを含む
• TSV形式で公開 • 多くの(海外の学術系)出版社がKBARTで
ジャーナルリストを公開している – h@ps://sites.google.com/site/kbartregistry/
(番外)COUNTER
• 電子リソースの利用統計 – h@p://www.projectcounter.org – 電子ジャーナル・電子ブック・データベースなど、
資料種別ごとにいくつかの種類がある • XMLファイル、もしくはTSVファイルで提供 • タイトル、ISSN、DOI、ダウンロード数、アクセ
ス拒否回数などを含む • 通常は電子ジャーナルの契約者(図書館)
のみに提供される
(番外)Journal CitaOon Reports
• Thomsonの提供する商用の文献引用データベース – h@p://about.jcr.incites.thomsonreuters.com
• タイトル、引用回数、被引用回数、インパクトファクター、ISSNなどを含む
• JCRからPDF・Excel・CSVファイルで提供
これらのファイルでできること
• タイトルの文字列 • ISSN • 契約価格 • ダウンロード数 • オープンアクセス • 研究分野 • SNIP, インパクトファクター
• 以上を全てかけあわせた検索
用意するもの
• Ruby • SQLite3 – SQLデータベース
• ElasOcsearch – 全文検索エンジン。CiNii DissertaOonsでも使用。
動作にJavaが必要 • CSV/TSVファイルを開けるソフトウェア – LibreOffice, Microsof Excel, その他テキストエディタ
• 今まで紹介してきたジャーナルリストのファイル
!!! 最重要ポイント !!!
• XLS/XLSXファイルはすべて CSVかTSVに変換すること
まず自館で契約している ジャーナルリストをTSVにしよう
• ISSNと購読価格を 含めたTSVファイル を作成
• 1行目に半角英数 文字で見出しを 入れること
プログラムを使って ジャーナルリストを読んでみよう
• CSV・TSVファイルを読み込むライブラリ(ソフトウェアの部品)を使用
ISSNが正しいかチェックしたい
• library_stdnums(ISSNをチェックするライブラリを使用)
チェックしたデータを データベースに保存しよう
• SQLiteとruby-‐sqlite3(RubyでSQLite3を扱う ライブラリ)を使用
タイトル情報をインポートしよう
• 出版社などからKBARTファイルを取得して インポートする
• ISSNをキーにして、出版社による正確な(はずの)タイトルを取得できる
このうちオープンアクセス なのはどれ?
DOAJのリストをインポート
• CSV中のISSNをキーにしてSQLite3を検索し、ヒットしたらフラグを追加 – リストにある = オープンアクセスである
どの分野が うちの研究所では読まれている?
EssenOal Science Indicatorsの 分野情報をインポート
• Web of Scienceで使用している分野情報 – よくランキングに使われる
よく利用されているのは どのジャーナル?
COUNTERのTSVファイルをインポート
• ISSNをキーにして、タイトルと購読価格が 紐付けられる
うちで読まれている トップジャーナルは?
インパクトファクター, SNIP
• 掲載された論文の引用数をもとにした ジャーナル評価の指数 – 以下の画像はSNIP
今まで入れてきたジャーナルの 情報を検索したい
SQLによる集計の実行
• 今までの情報をSQLite3にインポートして集計 – たとえば、価格順のダウンロード数
ここまで 172 行!
• 今回のスクリプト
• enju_leafモジュールは約5600行 – app/ 以下の行数
Webブラウザを使って 検索や集計をしたい
ElasOcsearchでデータを検索 できるようにする
• ElasOcsearchのCSVプラグインを使用 – h@ps://github.com/AgileWorksOrg/elasOcsearch-‐river-‐csv
– CSV・TSVファイルを使って検索インデックスを作成
• 同様に管理用プラグインをインストールし、 検索フォームを使用できるようにする – h@ps://github.com/mobz/elasOcsearch-‐head
検索の実行例
• ダウンロード数が100回以上、 かつSNIPが0.5以上、 かつオープンアクセス – 画面はelasOcsearch-‐headによる
今後の課題(1)
• ジャーナルの名寄せの問題 – 複数のISSN(Print ISSN, Online ISSN, ISSN-‐L)
• 対策: 外部のナレッジベースを使う – GOKbはPrint版とOnline版で共通のジャーナルID(GOKb idenOfier)を付与している
– h@p://gokb.kuali.org/gokb/ – データのライセンスはCC0、WebAPIも公開
GOKb idenOfierの取得
• ElasOcsearchへの投入時にGOKbのWebAPIを 使用してGOKb idenOfierを取得する • h@p://gokb.kuali.org/gokb/coreference/index?
nspart=issn&idpart=1468-‐6996 • Paper ISSNを用いてGOKb idenOfierやOnline ISSNを問い合
わせる例
GOKb idenOfier 他のID(ISSNなど)
今後の課題(2)
• 外部サービスとの連携 – 研究者プロフィール情報(ORCIDなど) – OPACやディスカバリーサービスの検索ログ – 文献複写依頼のログ
ORCIDを用いた ジャーナル利用統計(案)
• 論文のDOIをCrossRefで検索し、その論文 著者のORCIDを取得
• ORCID APIを用いて研究者のプロフィール 情報を取得 – 所属、研究分野、論文以外の実績
(特許、ソフトウェアなど)
• ジャーナルの利用状況と発表成果の情報をかけあわせた統計の作成が可能に
今後の課題(3)
• 国内のジャーナルは? – ERDB-‐JPが提供するKBARTファイルと J-‐STAGEのCOUNTERファイルでまかなえるはず
– いっしょに試してみませんか
おわりに
• まずLibreOfficeをインストールしてみましょう – h@ps://ja.libreoffice.org – フリーウェア – TSVもExcelファイルもダブルクリックで開けます – ExcelはUTF-‐8のTSVファイルを扱うのが難しいです
• ふだん使用するExcelファイルを、できる限りTSV形式で保存してみましょう
もっとTSV!
• どんな環境でも使える、長期間の活用に 堪えうるデータフォーマットとして
• プログラムで簡単に扱える、データ分析や 業務効率化に適したデータフォーマットとして
• 「Open Data」「Open Science」で図書館に期待される役割を果たすためのひとつの要素と して
• まずジャーナルリストをTSVにしてみませんか
今回使用したスクリプト
• h@ps://github.com/nabeta/c4ljp2015
• ご意見は @nabeta まで!