1
連絡先: 北本朝展 / 国立情報学研究所 コンテンツ科学研究系 / 総研大情報学専攻 TEL : 03-4212-2578 FAX : 03-4212-2612 Email : [email protected] どんな研究? GeoNLP ソフトウェア(地名抽出・解決ツール) GeoNLP データ(地名語辞書共有サイト) ・いまどこで何が起こっている? ・ある場所のニュースを追跡。 ・他のデータと組み合わせ分析。 ・歴史的な地名で古文書を分析。 文章から地名を自動的に見つけ出す GeoNLP: 自然言語文のジオタギング のためのソフトウェア環境 何ができる? ・文章中の地名を自動的に抽出。 ・複数候補の中から地名を決定。 ・地図上に表示して把握。 ・いろいろな文章の地名を統合。 本研究は、相良毅(株式会社情報試作室)およびトライアックス株式会社の協力を得ています。 科学技術振興機構(さきがけ)および地球環境情報統融合プログラム (DIAS) の支援を受けました。 2013 年夏に公開予定! 2013 年夏に公開予定! 横浜 雪なんだ!川崎 は雨だよ。 横浜 は雪だよ。川崎 はどう? 神奈川県横浜市と神奈川県川崎市の話? 青森県横浜町と福岡県川崎町の話? 複数の候補があると一意に決まらない。 他の手がかりを使って決める必要がある。 地名辞書 オープンデータ 地名語辞書 形態素解析 例文テスト コスト更新 自然言語テキスト 形態素解析 パターンマッチング 地名語抽出 地名語解決 メタデータ付与 JSON 形式で返答 / CMS のモジュールとして利用 テキスト / HTML JSON - RPC API に入力 抽出失敗! 辞書共同構築 地名語登録 GeoNLP サーバ 1. ウェブサービスの提供 2. コマンドラインツールの配布 例えば、地名が同じグループか、同じ種類かなどをチェック。 地名語辞書 サーバ WebAPI サーバ 地名語 リポジトリ 辞書 CSV 地名の辞書を整備 ・利用したいユーザ 地名を含むテキストを 解析したいユーザ 登録・検索 表記で 問い合わせ 地名を含む テキスト GeoLOD サーバ IDで問い合わせ 地名にタグ 付けされた テキスト Linked Data 連携 地名語データ ID・表記・型・ 経緯度… 2 GeoNLP を取り巻くエコシステム 1. 地名語辞書として必要な項目名を共通化。 2. 地名語 CSV を辞書サーバにアップロードして共有。 3. 辞書サーバがユニーク ID を自動付与して管理。 4. 地名検索・地図化インタフェースを利用可能。 5. GeoNLP ソフトウェアと辞書を同期して地名解析。 6. 政府オープンデータも地名語辞書に変換して活用。 7. Geo Linked Open Data として他のデータと連携。 みんなで協力して、地名辞書を充実させよう! (自然地名)岬や島の地名、(施設名)避難所の名前、(POI) レストランの名前、(地域情報)秋葉原のスポット名、など。

文章から地名を自動的に見つけ出す GeoNLP: 自然 …agora.ex.nii.ac.jp/.../publications/openhouse/2013-G05.pdf2013年夏に公開予定!2013年夏に公開予定!横浜雪なんだ!川崎は雨だよ。横浜は雪だよ。川崎はどう?神奈川県横浜市と神奈川県川崎市の話?青森県横浜町と福岡県川崎町の話?複数の候補があると一意に決まらない。他の

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 文章から地名を自動的に見つけ出す GeoNLP: 自然 …agora.ex.nii.ac.jp/.../publications/openhouse/2013-G05.pdf2013年夏に公開予定!2013年夏に公開予定!横浜雪なんだ!川崎は雨だよ。横浜は雪だよ。川崎はどう?神奈川県横浜市と神奈川県川崎市の話?青森県横浜町と福岡県川崎町の話?複数の候補があると一意に決まらない。他の

連絡先: 北本朝展 / 国立情報学研究所 コンテンツ科学研究系 / 総研大情報学専攻 TEL : 03-4212-2578 FAX : 03-4212-2612 Email : [email protected]

どんな研究?

GeoNLP ソフトウェア(地名抽出・解決ツール)

GeoNLP データ(地名語辞書共有サイト)

・いまどこで何が起こっている?

・ある場所のニュースを追跡。

・他のデータと組み合わせ分析。

・歴史的な地名で古文書を分析。

文章から地名を自動的に見つけ出す

GeoNLP: 自然言語文のジオタギングのためのソフトウェア環境

何ができる?

・文章中の地名を自動的に抽出。

・複数候補の中から地名を決定。

・地図上に表示して把握。

・いろいろな文章の地名を統合。

本研究は、相良毅(株式会社情報試作室)およびトライアックス株式会社の協力を得ています。科学技術振興機構(さきがけ)および地球環境情報統融合プログラム (DIAS) の支援を受けました。

2013 年夏に公開予定!

2013 年夏に公開予定!

横浜雪なんだ!川崎は雨だよ。

横浜は雪だよ。川崎はどう?

神奈川県横浜市と神奈川県川崎市の話?青森県横浜町と福岡県川崎町の話?

複数の候補があると一意に決まらない。他の手がかりを使って決める必要がある。

地名辞書オープンデータ

地名語辞書

形態素解析

例文テスト

コスト更新

自然言語テキスト

形態素解析

パターンマッチング

地名語抽出

地名語解決

メタデータ付与JSON形式で返答 / CMSのモジュールとして利用

テキスト / HTML をJSON -RPC API に入力

抽出失敗!

辞書共同構築

地名語登録

GeoNLPサーバ

1. ウェブサービスの提供2. コマンドラインツールの配布例えば、地名が同じグループか、同じ種類かなどをチェック。

地名語辞書サーバ

WebAPIサーバ

地名語リポジトリ

辞書CSV

地名の辞書を整備・利用したいユーザ 地名を含むテキストを

解析したいユーザ

登録・検索

表記で問い合わせ

地名を含むテキスト

GeoLODサーバ

IDで問い合わせ

地名にタグ付けされたテキスト

Linked Data 連携

地名語データID・表記・型・経緯度…

2

GeoNLP を取り巻くエコシステム1. 地名語辞書として必要な項目名を共通化。2. 地名語 CSV を辞書サーバにアップロードして共有。3. 辞書サーバがユニーク IDを自動付与して管理。4. 地名検索・地図化インタフェースを利用可能。5. GeoNLP ソフトウェアと辞書を同期して地名解析。6. 政府オープンデータも地名語辞書に変換して活用。7. Geo Linked Open Data として他のデータと連携。

みんなで協力して、地名辞書を充実させよう!(自然地名)岬や島の地名、(施設名)避難所の名前、(POI)レストランの名前、(地域情報)秋葉原のスポット名、など。

共有のメリット

地名の抽出と解決