Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
連絡先: 北本朝展 / 国立情報学研究所 コンテンツ科学研究系 / 総研大情報学専攻 TEL : 03-4212-2578 FAX : 03-4212-2612 Email : [email protected]
どんな研究?
GeoNLP ソフトウェア(地名抽出・解決ツール)
GeoNLP データ(地名語辞書共有サイト)
・いまどこで何が起こっている?
・ある場所のニュースを追跡。
・他のデータと組み合わせ分析。
・歴史的な地名で古文書を分析。
文章から地名を自動的に見つけ出す
GeoNLP: 自然言語文のジオタギングのためのソフトウェア環境
何ができる?
・文章中の地名を自動的に抽出。
・複数候補の中から地名を決定。
・地図上に表示して把握。
・いろいろな文章の地名を統合。
本研究は、相良毅(株式会社情報試作室)およびトライアックス株式会社の協力を得ています。科学技術振興機構(さきがけ)および地球環境情報統融合プログラム (DIAS) の支援を受けました。
2013 年夏に公開予定!
2013 年夏に公開予定!
横浜雪なんだ!川崎は雨だよ。
横浜は雪だよ。川崎はどう?
神奈川県横浜市と神奈川県川崎市の話?青森県横浜町と福岡県川崎町の話?
複数の候補があると一意に決まらない。他の手がかりを使って決める必要がある。
地名辞書オープンデータ
地名語辞書
形態素解析
例文テスト
コスト更新
自然言語テキスト
形態素解析
パターンマッチング
地名語抽出
地名語解決
メタデータ付与JSON形式で返答 / CMSのモジュールとして利用
テキスト / HTML をJSON -RPC API に入力
抽出失敗!
辞書共同構築
地名語登録
GeoNLPサーバ
1. ウェブサービスの提供2. コマンドラインツールの配布例えば、地名が同じグループか、同じ種類かなどをチェック。
地名語辞書サーバ
WebAPIサーバ
地名語リポジトリ
辞書CSV
地名の辞書を整備・利用したいユーザ 地名を含むテキストを
解析したいユーザ
登録・検索
表記で問い合わせ
地名を含むテキスト
GeoLODサーバ
IDで問い合わせ
地名にタグ付けされたテキスト
Linked Data 連携
地名語データID・表記・型・経緯度…
2
GeoNLP を取り巻くエコシステム1. 地名語辞書として必要な項目名を共通化。2. 地名語 CSV を辞書サーバにアップロードして共有。3. 辞書サーバがユニーク IDを自動付与して管理。4. 地名検索・地図化インタフェースを利用可能。5. GeoNLP ソフトウェアと辞書を同期して地名解析。6. 政府オープンデータも地名語辞書に変換して活用。7. Geo Linked Open Data として他のデータと連携。
みんなで協力して、地名辞書を充実させよう!(自然地名)岬や島の地名、(施設名)避難所の名前、(POI)レストランの名前、(地域情報)秋葉原のスポット名、など。
共有のメリット
地名の抽出と解決