22
知知知知知知知知知知知知知知知知知知知知知知 NEologd Casual Talks | #neologd 2016/04/26 @ LINE corp. 東東東東 東東東東東東東 東東東東 (@conditional) 1

知識を紡ぐための言語処理と、そのための言語資源

Embed Size (px)

Citation preview

Page 1: 知識を紡ぐための言語処理と、そのための言語資源

知識を紡ぐための言語処理と、

そのための言語資源NEologd Casual Talks | #neologd

2016/04/26 @ LINE corp.

東北大学 情報科学研究科松田耕史 (@conditional)

1

Page 2: 知識を紡ぐための言語処理と、そのための言語資源

2

東北大学 自然言語処理研究室研究スタッフ

学部

修士

博士

研究生

スタッフ

乾健太郎教授

岡崎直観准教授

松林優一郎特任助教

田 然特任助教

折田奈甫特任助教

水本智哉特任助教

井之上直也助教

松田耕史研究員

2010 2011 2012 2013 2014 2015 20160

10

20

30

40

50 山口健史 菅原真由美 

高橋容市  福原裕一    乾岡崎井之上

Page 3: 知識を紡ぐための言語処理と、そのための言語資源

自然言語の解析から応用へ

3

Page 4: 知識を紡ぐための言語処理と、そのための言語資源

言語構造解析による一般・専門知識の自動獲得

ディープラーニングによる意味の分散表現の学習

論理仮説推論による「行間を読む」言語理解

世界最高速の仮説推論エンジン(判断の根拠を説明できる機械)

意味解析グラウンディング

高度に構造化された一般・専門知識ベース

質問応答

情報分析知

識推論

シーン理解

世界最大規模の知識獲得基盤

東北大 NLP の戦略

「行間を読む」 言語解析判断の根拠を説明できる

達成事項

達成事項

達成事項

達成事項画像との統合理解へ多様な同義・反義関係を計算

4

Page 5: 知識を紡ぐための言語処理と、そのための言語資源

言語理解には「知識」が不可欠

田端酒造の『羅生門』は何賞を受賞したか?

モンドセレクション金賞

ヴェネツィア国際映画祭金獅子賞

受賞

受賞監督

知識製造

5

Page 6: 知識を紡ぐための言語処理と、そのための言語資源

知識を紡ぐ言語処理

自動処理された言語データ世界を記述する知識ベース

自動処理された言語データ

自動処理された言語データ世界を記述する知識ベース

世界を記述する知識ベース 言語データから知識を獲得

知識を用いた意味解析6

Page 7: 知識を紡ぐための言語処理と、そのための言語資源

新湘南バイパスでタンクローリーが横転してて大渋滞発生。電車で帰った方が良さそう…新湘南バイパスでタンクローリーが横転してて大渋滞発生。電車で帰った方が良さそう…

① 場所参照表現のグラウンディング

言語情報のグラウンディング(知識を用いた意味付け )

地名 / 施設名辞書約 550 万エントリ

② 一般固有表現のグラウンディング

Wikipedia

グラウンディング / 意味付け処理(データベースレコードにリンク)

・コーパス開発・グラウンディング エンジン・コーパス開発・グラウンディング エンジンの研究開発

(Wikification)

新湘南バイパスでタンクローリーが横転してて大渋滞発生。電車で帰った方が良さそう…

新湘南バイパス タンクローリー

新湘南バイパスでタンクローリーが横転してて大渋滞発生。電車で帰った方が良さそう…意味付けのなされていないソーシャルストリーム

地図にマップ応用

知識に基づく推論マルチリソース統合

( ジオパーズ )

7

Page 8: 知識を紡ぐための言語処理と、そのための言語資源

エンティティ・リンキング(Wikification)

テキスト中の固有表現に、適切な実体を付与メンション エンティティ

8

Page 9: 知識を紡ぐための言語処理と、そのための言語資源

日本語 Wikification コーパス[Jargalsaikhan et al., 2016]

日本語新聞記事 340 記事に Wikipedia のエンティティ情報を付与9合計 2 万 5 千メンション:世界的に見ても大規模なコーパス

http://www.cl.ecei.tohoku.ac.jp/jawikify/

Page 10: 知識を紡ぐための言語処理と、そのための言語資源

場所参照表現タグ付きコーパス[ 松田ら , 2015], [Matsuda et al., 2015]

宮城県 白石市,武家屋敷近くのバス停で事故発生.通行時は気をつけてください.

白石沢端バス停北緯 38.00 東経140.62

地名辞書 施設名辞書

人手で対応を付与

Web 上のデータから辞書を構築

宮城県北緯 38.26 東経140.87

宮城県白石市北緯 38.00 東経140.62

武家屋敷北緯 38.00 東経140.62

宮城県 白石市,武家屋敷近くのバス停で事故発生.通行時は気をつけてください.宮城県 白石市,武家屋敷近くのバス停で事故発生.通行時は気をつけてください.SNS からサンプリング 10

Page 11: 知識を紡ぐための言語処理と、そのための言語資源

11

場所参照表現の自動解析場所参照表現データセット ( 公開済 )タグ付きコーパス

地名辞書約 10 万エントリ 施設名辞書約 500 万エントリ

Step 2. Entity Resolution表現が指すエンティティの曖昧性解消Wikipedia から自動獲得した知識に基づいた曖昧性解消

Step 1. Mention Detection場所に対する言及を抽出する確率モデルに基づく系列ラベリング

藤沢バイパス ROAD 、辻堂 LOCATION から茅ヶ崎 LOCATION まで渋滞だよ

藤沢バイパス、辻堂 から茅ヶ崎まで渋滞だよ

Page 12: 知識を紡ぐための言語処理と、そのための言語資源

ここからは、辞書の話をします

12

Page 13: 知識を紡ぐための言語処理と、そのための言語資源

拡張固有表現 +Wikipedia データ[ 関根ら , 2016], [ 鈴木ら , 2016]( ランゲージクラフト/ニューヨーク大学 関根聡先生との共同研究 )

製品 > 主義方式 > 競技世界のありとあらゆるものを 200 クラスに階層化した辞書イベント > 催し物 > 競技会 組織 > 競技組織

地名 > GPE > 市区町村 施設 > GOE > 競技施設 13

http://www.languagecraft.com/enew/

Page 14: 知識を紡ぐための言語処理と、そのための言語資源

名前 名前 _ その他

人名

組織名 組織名 _ その他国際組織名公園組織名家系名民族名 民族名 _ その他

競技組織名 競技組織名 _ その他

法人名 法人名 _ その他

政治的組織名 政治的組織名 _ その他

国籍名

プロ競技組織名競技リーグ名

企業名 / 企業グループ名

政府組織名 / 政党名 / 内閣名 / 軍隊名

地名 地名 _ その他

温泉名GPE   GPE_ その他

地域名 地域名 _ その他

地形名 地形名 _ その他

天体名 天体名 _ その他

アドレス アドレス _ その他

市区町村名 / 郡名都道府県州名 / 国名

大陸地域名国内地域名

山地名 / 島名 / 河川名湖沼名 / 海洋名 / 湾名

恒星 / 惑星 / 星座

郵便住所 / 電話番号電子メイル / URL

施設名 施設名 _ その他

施設部分名遺跡名 遺跡名 _ その他

GOE   GOE_ その他

路線名 路線名 _ その他

古墳名

公共機関名 / 学校名 / 研究機関名 / 取引所名 / 公園名 / 競技施設名 / 美術博物館名 / 動植物園名 / 遊園施設名 / 劇場名 / 神社寺名 / 停車場名 / 電車駅名 / 空港名 / 港名

電車路線名 / 道路名 / 運河名航路名 / トンネル名 / 橋名

製品名 製品名 _ その他材料名 / 衣類名 / 貨幣名 / 医薬品名 / 武器名 / 株名 / 賞名 / 勲章名 / 罪名 / 便名 等級名 / キャラクター名 / 識別番号 乗り物名 乗り物名 _ その他

食べ物名 食べ物名 _ その他

芸術作品名 芸術作品名 _ その他

出版物名 出版物名 _ その他

主義方式名 主義方式名 _ その他

規則名 規則名 _ その他

称号名 称号名 _ その他

言語名 言語名 _ その他

単位名 単位名 _ その他

車名 / 列車名 / 飛行機名宇宙船名 / 船名

料理名

絵画名 / 番組名 / 映画名 /公演名 / 音楽名 / 文学名

新聞名 / 雑誌名

文化名 / 宗教名 / 学問名 / 競技名 / 流派名 / 運動名 理論名 / 政策計画名

条約名 / 法令名

地位職業名

国語名

通貨名

イベント名催し物名 催し物名 _ その他

事件事故名 事件事故名 _ その他

自然現象名 自然災害名 _ その他

例祭名 / 競技会名会議名

戦争名

自然災害名地震名

自然物名 自然物名 _ その他

元素名化合物名鉱物名生物名 生物名 _ その他

真菌類名 / 軟体動物 _節足動物名 / 昆虫類名 / 魚類名 両生類名 / 爬虫類名 / 爬虫類名 / 鳥類名 / 哺乳類名 / 植物名 生物部位名 生物部位名 _ その他

病気名 病気名 _ その他動物病気名

神名

色名 色名 _ その他自然色名

数値表現 数値表現 _ その他

金額表現 / 株指標 / ポイント / 割合表現 / 倍数表現 / 頻度表現 / 年齢 / 学齢 / 序数 / 順位表現 / 緯度経度寸法表現 寸法表現 _ その他

個数 個数 _ その他

長さ / 面積 / 体積 / 重量 / 速度 / 密度 / 温度 / カロリー / 震度 / マグニチュード

人数 / 組織数 / 場所数 _その他 / 国数 / 施設数 / 製品数 / イベント数 / 自然物数 _ その他 / 動物数 / 植物数

時間表現時刻表現 / 日付表現 / 曜日表現 / 時代表現 / 期間 _ その他 / 時刻期間 / 日数期間 / 週数期間 / 月数期間 / 年数期間

動物部位名 / 植物部位名

14

Page 15: 知識を紡ぐための言語処理と、そのための言語資源

拡張固有表現 +Wikipedia データ[ 関根ら , 2016], [ 鈴木ら , 2016]

{ "SID": 161224,"wikipedia_ID": "259974","entry": " 東京都立新宿高等学校 ","clean_entry": " 東京都立新宿高等学校 ","page_property": "Normal","redirect_to": "",“redirect_from”: [“ 新宿高校” , “ 新宿高等学校” , “ 都立新宿高等学校” , “ 東京都立新宿高校 ", " 東京府立第六中学校 "],"link_from_N": 276,“link_anchor”: [{“count”: 1, “anchor”: “ 新宿高等学校 "}, {"count": 1, "anchor": " 東京都立新宿高校 "}],“category_info”: [“ 東京都区部の公立高等学校 | しんしゆく” , “ 新宿区の学校 | しんしゆくこう” , “学校記事” ],“first_sentence”: “ 東京都立新宿高等学校 ( とうきょうとりつ しんじゅくこうとうがっこう ) は、東京都新宿区内藤町に所在する都立高等学校。 ",“listed_in”: [“旧制中等学校・新制高校のナンバースクール一覧” , “ 東京都立新宿高等学校の人物一覧 ", " 東京都高等学校一覧 ", "旧制中等教育学校の一覧 ( 東京都 )"],"ENE": ["学校名” ],"annotation_flag": "HAND.LC_annotator_201511”}

拡張固有表現クラス

リダイレクト元リンク元カテゴリ情報

自動付与?手動付与?扱いやすい JSON 形式:他の分析にも是非!!

15

Wikipedia 日本語記事 200万記事に対して ディープラーニング で自動でラベル付与した結果を公開 (精度 : 90% くらい )

Page 16: 知識を紡ぐための言語処理と、そのための言語資源

日本語 Wikipedia Entity ベクトル

[ 鈴木ら , 2016]

16

Wikipedia 記事間のリンク構造と、リンク元の文脈を利用一般の「単語」と Wikipedia 記事を同じベクトル空間に

学習は SGNS(word2vec と同じ )

http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/Word2vec は「単語」をベクトルに変換「Wikipedia の記事」に対しても同じアイディアが適用できないだろうか?

Page 17: 知識を紡ぐための言語処理と、そのための言語資源

日本語 Wikipedia Entity ベクトルエンティティ同士の演算ができます

に類似したエンティティは?ヤマハ

に類似したエンティティは?ヤマハ発動機

17

北海道 札幌市 沖縄における       は        でいうと?

Page 18: 知識を紡ぐための言語処理と、そのための言語資源

NEologd ファミリー への期待

• 現状:継続的にメンテナンスされる言語資源は殆ど無い!– 毎月更新されてる!すごい!

• 現状:研究者/エンジニアは「手法」に関心が行きがち– 「リソース」も同程度に重要!

• 現状:「言語リソースは客観性が重要」「リソース作成過程も再現性が無くては」– 関根先生 ( 関根の拡張固有表現階層 ) 、佐藤さん

(Neologd) :「個人の主観が入ったっていいじゃない!」← 超同感

18

Page 19: 知識を紡ぐための言語処理と、そのための言語資源

まとめ : 「知識」を扱う言語処理

• エンティティ・リンキング (Wikification)–テキスト中の固有表現に、適切な実体を付与

• 拡張固有表現 + Wikipedia データ–Wikipedia の記事に対して、「それが何であ

るか」を自動付与• 日本語 Wikipedia Entity ベクトル–Wikipedia 記事一つ一つをベクトル化

19

「知識」を存分に使ったアプリを是非考えてみてください!

Page 20: 知識を紡ぐための言語処理と、そのための言語資源

投げっぱなしはなんなので…

• 「知識」を使うとこんなことができそう–ツイートを地図にマップする–賢い対話ボットを作る–ユーザーの意図や好みを認識したレコメンド–新しい料理を提案する–災害から起こる危険を予測する

20

Page 21: 知識を紡ぐための言語処理と、そのための言語資源

リソースの配布元

• 日本語 Wikification コーパス– http://www.cl.ecei.tohoku.ac.jp/jawikify/

• 場所参照表現タグ付きコーパス– http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/

• 日本語 Wikipedia Entity ベクトル– http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/

• 拡張固有表現 + Wikipedia データ– http://www.languagecraft.com/enew/– ランゲージクラフト研究所の担当者にお問い合わせ下さい

21

Page 22: 知識を紡ぐための言語処理と、そのための言語資源

Reference• [Jargalsaikhan et al., 2016] Davaajav Jargalsaikhan, 岡崎直観 , 松田耕

史 , 乾健太郎 . 日本語Wikificationコーパスの構築に向けて . pp.793-796, 言語処理学会第22回年次大会 , March 2016.

• [松田ら , 2015] 松田耕史 , 佐々木 彬 , 岡崎直観 , 乾健太郎 . 場所参照表現タグ付きコーパスの構築と評価 . 情報処理学会研究報告 自然言語処理(NL) , 2015-NL-220(12), pp.1-10, January 2015.

• [Matsuda et al., 2015] Koji Matsuda, Akira Sasaki, Naoaki Okazaki and Kentaro Inui. Annotating Geographical Entities on Microblog Text. In Proceedings of the 9th Linguistic Annotation Workshop (LAW IX 2015), pp.85–94, June 2015.

• [鈴木ら , 2016] 鈴木正敏 , 松田耕史 , 関根聡 , 岡崎直観 , 乾健太郎 . Wikipedia記事に対する拡張固有表現ラベルの多重付与 . pp.797-800, 言語処理学会第22回年次大会 , March 2016.

• [関根ら , 2016] 関根聡 , 安藤まや , 松田耕史 , 鈴木正敏 , 乾健太郎 . 「拡張固有表表現+Wikipedia」データ . pp.41-44, 言語処理学会第22回年次大会 , March 2016.

22