66
1 柴木優美 1 永田昌明 2 山本和英 1 1 長岡技術科学大学 2 NTTコミュニケーション科学基礎研究所 Wikipediaからの 大規模な汎用オントロジー構築 NLP2011 (2011/03/10)

Wikipedia からの大規模な汎用オントロジー構築

  • View
    506

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Wikipedia からの大規模な汎用オントロジー構築

1

柴木優美*1 永田昌明*2 山本和英*1

*1 長岡技術科学大学

*2 NTTコミュニケーション科学基礎研究所

Wikipediaからの

大規模な汎用オントロジー構築

NLP2011 (2011/03/10)

Page 2: Wikipedia からの大規模な汎用オントロジー構築

2

• はじめに

– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 3: Wikipedia からの大規模な汎用オントロジー構築

3

• 背景

背景と目的

– Wikipediaから汎用オントロジーを自動構築する

– 単語の知識の表現方法である「オントロジー」に、 日々増えていく単語を人手で追加していくのは手間

• 目的

単語の知識が必要 意味解析

評判分析

情報抽出 etc.

機械学習

自然言語処理

・更新が早い

・人、地名、組織など知識の分野が幅広い (汎用的)

Page 4: Wikipedia からの大規模な汎用オントロジー構築

4

カテゴリ

オントロジー :「語」と「語の関係」を表したもの

is-a関係

part of 関係 F02-B

SA002

WS009KE

インスタンス

: B is a A (BはAの一つ) が

成り立つ関係

オントロジーとは

is-a関係

電話機

携帯電話

液晶

owner関係 人間

Page 5: Wikipedia からの大規模な汎用オントロジー構築

5

• おもちゃ

• モデル

is-a

既存のオントロジーの例

• 日本語語彙大系 インスタンス:30万件 カテゴリ:3,000 件

名詞

具体物 場所

• 歌姫 • ボーカリスト

• ダンサー • モデル

具体 抽象

歌手 芸人 遊び道具・運動具

インスタンス

–人手で作成されたis-a関係からなる大規模なオントロジー

–1つに統一された階層構造をもつ カテゴリ

日本語語彙大系のようにis-a関係からなり統一された階層構造をもつ

本研究で扱うオントロジー

Page 6: Wikipedia からの大規模な汎用オントロジー構築

6

• Wikipediaのカテゴリ・記事は、部分的にはis-a関係のオントロジーのカテゴリ・インスタンスとして見れそう

自然

変光星 連星

恒星

• 爆発変光星 •アメリカ変光星観測者協会

カテゴリ 天体

天文学

• オントロジーと違い語と語のリンクの関係が未定義

• 最上位のカテゴリはジャンルを分類するためのカテゴリ

Wikipedia

天文学者

惑星科学者

技術 社会 主要カテゴリ

記事

is-a

not-is-a

not-is-a

is-a

Page 7: Wikipedia からの大規模な汎用オントロジー構築

7

本研究で構築するオントロジー

最上位カテゴリ

is-a

天文学者

惑星科学者

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント

変光星 連星

恒星

• 爆発変光星

天体

最上位カテゴリ

Wikipediaの部分的なオントロジー

1. Wikipediaのis-a関係のリンクを判定し

2. 部分的なオントロジーを構築

3. 部分的なオントロジーを新たに設定した最上位カテゴリに接続し階層を再構成 (柴木ら[2010]:人オントロジー構築の拡張版)

Page 8: Wikipedia からの大規模な汎用オントロジー構築

8

• はじめに

– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 9: Wikipedia からの大規模な汎用オントロジー構築

9

関連手法と比較した提案手法の工夫点(1/2)

大幅な再現率(網羅性)の向上

工夫点1: is-a関係の判定方法

《効果》

子カテゴリの後方文字列が

親カテゴリと一致すれば is-a関係

《ルール》

桜井らの手法

惑星

太陽系外惑星

is-a

問題点:再現率が低い

関連手法 (Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]):

文字列照合でis-a関係を判定

カテゴリ

Page 10: Wikipedia からの大規模な汎用オントロジー構築

10

関連手法と比較した提案手法の工夫点(1/2)

大幅な再現率(網羅性)の向上

工夫点1: is-a関係の判定方法

《効果》

子カテゴリの後方文字列が

親カテゴリと一致すれば is-a関係

《ルール》

桜井らの手法

惑星

太陽系外惑星

is-a

天体 ×

関連手法 (Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]):

文字列照合でis-a関係を判定

問題点:再現率が低い

カテゴリ

Page 11: Wikipedia からの大規模な汎用オントロジー構築

11

大幅な再現率の向上

工夫点1: is-a関係の判定方法

提案手法:

3種類の手法でis-a関係でないリンクを高い再現率で削除し残ったリンクをis-a関係と判定

《効果》

関連手法と比較した提案手法の工夫点(1/2)

関連手法 (Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]):

文字列照合でis-a関係を判定

=再現率が低い

Page 12: Wikipedia からの大規模な汎用オントロジー構築

12

工夫点2: 1つに統一された階層の構築方法

小林らの手法

人口惑星

惑星 太陽系の惑星

内惑星

is-a is-a

天体

日本語語彙大系のカテゴリに、Wikipediaの

is-a関係のカテゴリ-記事対を文字列照合で接続

問題点:Wikipediaのカテゴリ階層情報が失われる

関連手法と比較した提案手法の工夫点(2/2)

日本語語彙大系

is-a関係のカテゴリ-記事対

関連手法 (Suchanek et al.[2007]、小林ら[2008]、柴木ら[2009]) :

既存のオントロジーにWikipediaのカテゴリ-記事対を接続

Page 13: Wikipedia からの大規模な汎用オントロジー構築

13

工夫点2: 1つに統一された階層の構築方法

Wikipediaの階層情報をできるだけ生かしつつ

1つにまとまった階層を構築できる

提案手法

Wikipediaの部分的なオントロジーの階層を

新たに設定した最上位カテゴリに接続する

《効果》

関連手法と比較した提案手法の工夫点(2/2)

関連手法 (Suchanek et al.[2007]、小林ら[2008]、柴木ら[2009]) :

既存のオントロジーにWikipediaのカテゴリ-記事対を接続

= Wikipediaのカテゴリ階層の情報が失われる

Page 14: Wikipedia からの大規模な汎用オントロジー構築

14

• はじめに

– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 15: Wikipedia からの大規模な汎用オントロジー構築

15

意味が抽象的な単語を含む

意味的に類似していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物 組織 創作物 施設

抽象的

is-a関係でないリンクの判定(1/3)

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 16: Wikipedia からの大規模な汎用オントロジー構築

16

意味が抽象的な単語を含む

意味的に類似していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

星 火星の衛星 缶 缶コーヒー

抽象的 抽象的

創作物 組織 創作物 施設

技術 道具 抽象的

固有名詞 固有名詞

is-a関係でないリンクの判定(1/3)

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

抽象的な単語・・・意味を明確に定義しにくい単語

Page 17: Wikipedia からの大規模な汎用オントロジー構築

17

意味が抽象的な単語を含む

意味的に類似していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

抽象的 抽象的

創作物 組織 創作物 施設

技術 道具 抽象的

固有名詞 固有名詞

意味を判定する問題

1.意味属性分類問題

=

is-a関係でないリンクの判定(1/3)

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 18: Wikipedia からの大規模な汎用オントロジー構築

18

意味が抽象的な単語を含む

意味的に類似していない

社会 経済

集英社 少年ジャンプ 書物 図書館

抽象的 抽象的

創作物 組織 創作物 施設

技術 道具 抽象的 意味を判定する問題

1.意味属性分類問題

=

is-a関係でないリンクの判定(1/3)

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

9種類 の意味属性を設定

どの意味属性にも分類されない単語 = 抽象的

親子の意味属性が違う = 意味的に類似していない

手法: SVM による分類器でカテゴリと記事を分類

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント

Page 19: Wikipedia からの大規模な汎用オントロジー構築

19

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

人名 神名 地名 施設名 製品名 自然物名 組織名 イベント名 病気名 色名

地域名 地形名 乗り物名 出版物名 賞名 規則名

関根の拡張固有表現階層の第1~第2階層をもとに設定

意味属性の設定

関根の拡張固有表現階層

1. 分類器がつくれるほどのカテゴリ・記事数がある

2. 日本語語彙大系のカテゴリに対応づけられる

3. 意味的に類似していない単語対を見分けられる粒度 -しかし意味属性が多すぎると分類精度が落ちる

-賞名、規則名などは対象外

《設定方針》

-素性の単語が普通名詞なら、9種類の意味属性まで単語を抽象化できる

Page 20: Wikipedia からの大規模な汎用オントロジー構築

20

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

人名 神名 地名 施設名 製品名 自然物名 組織名 イベント名 病気名 色名

地域名 地形名 乗り物名 出版物名 賞名 規則名

人 組織 施設

地名 地形 具体物 創作物

動植物 イベント

対象外

関根の拡張固有表現階層の第1~第2階層をもとに設定

1. 分類器がつくれるほどのカテゴリ・記事数がある

2. 日本語語彙大系のカテゴリに対応づけられる

3. 意味的に類似していない単語対を見分けられる粒度 -しかし意味属性が多すぎると分類精度が落ちる

-賞名、規則名などは対象外

《設定方針》

意味属性の設定

-素性の単語が普通名詞なら、9種類の意味属性まで単語を抽象化できる

Page 21: Wikipedia からの大規模な汎用オントロジー構築

21

意味が抽象的な単語を含む

意味的に類似 していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物 組織 創作物 施設

抽象的

is-a関係でないリンクの判定(2/3)

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 22: Wikipedia からの大規模な汎用オントロジー構築

22

意味が抽象的な単語を含む

意味的に類似 していない

親名が固有名詞

○○←○○××の関係

is-a関係でないリンクの判定(2/3)

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物 組織 創作物 施設

抽象的

2.固有名詞抽出問題

MeCabを利用

is-a関係でないリンクの判定(2/3)

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 23: Wikipedia からの大規模な汎用オントロジー構築

23

意味が抽象的な単語を含む

意味的に類似 していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物 組織 創作物 施設

抽象的

3.文字列照合

is-a関係でないリンクの判定(3/3)

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 24: Wikipedia からの大規模な汎用オントロジー構築

24

意味が抽象的な単語を含む

意味的に類似 していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物 組織 創作物 施設

抽象的

2.固有名詞抽出問題

1.意味属性分類問題

3.文字列照合

カテゴリ間、カテゴリ-記事間のリンクに適用し、

どれにも当てはまらないリンクをis-a関係とする

is-a関係でないリンクの判定(3/3)

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 25: Wikipedia からの大規模な汎用オントロジー構築

25

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

技術者

楽器製作者

アマティ 楽器

道具

工業製品メーカー

ヤマハ

スタインバーグ

材料

岩石

銅の加工物

エレクトーン

ヴァイオリン

演奏家

同じ意味属性からなる部分的なオントロジーができる

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

カテゴリ

記事

3手法を用いて9種類の意味属性以外のカテゴリ・記事

とis-a関係でないリンクを削除

部分的なオントロジーの構築

ルート記事

is-a

is-a

人 組織 具体物

判定した意味属性

Page 26: Wikipedia からの大規模な汎用オントロジー構築

26

技術者

楽器製作者

アマティ

楽器

道具

工業製品メーカー

ヤマハ

スタインバーグ

岩石

銅の加工物

エレクトーン ヴァイオリン

演奏家

部分的なオントロジーを最上位カテゴリ(意味属性)に接続

人 組織 具体物

最上位カテゴリ

最上位カテゴリ

材料

-ルートカテゴリ、ルート記事を同じ意味属性の下位に接続

カテゴリ

記事

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

階層の再構成

Wikipediaの階層をオントロジーの階層に再構成できた

人 組織 具体物

判定した意味属性

Page 27: Wikipedia からの大規模な汎用オントロジー構築

27

• はじめに

– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 28: Wikipedia からの大規模な汎用オントロジー構築

28

実験結果と考察 (1/3)

カテゴリ間、カテゴリ-記事間のis-a関係判定精度

- 提案手法は再現率の向上に有効

判定手法 カテゴリ間 カテゴリ-記事間

適合率 再現率 適合率 再現率

比較手法 桜井らの手法 小林らの手法

97.6 57.7 93.0 67.9

提案手法 95.2 82.2 95.6 92.4

差分 -2.4 +24.5 +2.6 +24.5

評価データ数 :各2500件

パターンマッチでは抽出できないis-a関係を大量に抽出できた

例: 携帯電話アプリ←EZ助手席ナビ

ベーシスト←ボブ・デイズリー

Page 29: Wikipedia からの大規模な汎用オントロジー構築

29

• 提案手法において再現率を下げる原因

判定対象 カテゴリ間 カテゴリ-記事間

適合率 再現率 適合率 再現率

全てのカテゴリ・記事を対象 95.2 82.2 95.6 92.4

-分類器が作れるほどのカテゴリ・記事がない意味属性は

対象外にしているため (例:スポーツ、規則、賞)

学習データを増やし、意味属性を追加すれば

再現率を向上できる

実験結果と考察 (2/3)

9種類の意味属性を対象 94.8 97.0 95.2 96.2

-9種類の意味属性に限定すれば再現率は高い

《今後の展望》

Page 30: Wikipedia からの大規模な汎用オントロジー構築

30

構築したオントロジーの規模

- 全ての項目で比較対象より数が多い

実験結果と考察 (3/3)

抽出項目 比較対象 提案手法 比率

記事数

(インスタンス数) 日本語

語彙大系

30万 41万

(Wiki全体の85.6%) 1.4倍

カテゴリ数 0.3万 3.4万

(Wiki全体の84.5%) 11.3倍

カテゴリ間の is-a関係数

桜井ら

の手法 3.3万 5万 1.5倍

カテゴリ-記事間のis-a関係数

小林ら

の手法 64万 83万 1.3倍

末端のカテゴリの平均深さ

桜井ら

の手法 2.7 6.2 2.3倍

Page 31: Wikipedia からの大規模な汎用オントロジー構築

31

• はじめに

– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 32: Wikipedia からの大規模な汎用オントロジー構築

32

おわりに

・ Wikipedia全体の84.5%のカテゴリと85.6%の記事を

1つの階層からなるオントロジーに組みこめた

・ 3手法でis-a関係でないリンクを判定することで、

関連手法より再現率が24ポイント以上向上した

・ 学習データを増やし、意味属性を追加することで

さらなる再現率の向上を図る

まとめ

今後の課題

以下のURLで構築したオントロジーを見られます

http://nlp.nagaokaut.ac.jp/OG1/ 長岡技術科学大学自然言語処理研究室HP→柴木優美

Page 33: Wikipedia からの大規模な汎用オントロジー構築

33

ご清聴ありがとうございました

Page 34: Wikipedia からの大規模な汎用オントロジー構築

34

補足資料

Page 35: Wikipedia からの大規模な汎用オントロジー構築

35

意味属性別の分類精度(グラフ)

カテゴリ分類

記事分類

Page 36: Wikipedia からの大規模な汎用オントロジー構築

36

素性に使う単語

カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語

主な素性(=主に普通名詞)

各単語の末尾の形態素

例: 新潟県→県

日本語語彙大系を用いて抽象化した単語

例: 総理大臣→政治家(語彙大系のカテゴリ)→人(意味属性)

SVM による分類器で分類 (one-vs-rest法 を用いる)

カテゴリと記事の意味属性分類

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 37: Wikipedia からの大規模な汎用オントロジー構築

37

3手法の精度が100%だったときのis-a関係判定精度

■適合率を下げる誤り

-3 種類のis-a 関係判定手法の精度が100%でも判定できないis-a 関係

血液←血球

日本の内閣総理大臣←内閣総理大臣夫人

千葉県の道路←千葉県の道の駅

(例)

■再現率を下げる誤り

-親名が固有名詞でもis-a関係が成り立つ場合

-○○←○○××でもis-a関係が成り立つ場合

沖縄県営鉄道←沖縄県営鉄道糸満線

映画←映画作品

(例)

(例)

適合率[%] 再現率[%]

カテゴリ間 98.9 99.3

カテゴリ-記事間 99.3 98.9

9 種類の意味属性でのis-a 関係の精度

Page 38: Wikipedia からの大規模な汎用オントロジー構築

38

- 再現率をできるだけ下げずに適合率を

上げることが望ましい

is-a関係でないリンク判定の手法別精度

判定手法 カテゴリ間 カテゴリ-記事間

適合率 再現率 適合率 再現率

全てのリンクをis-a関係とする 72.1 100 74.7 100

1.意味属性分類

2.固有名詞抽出

3.文字列照合

91.9

78.2

79.2

82.5

99.4

99.4

94.5

82.7

75.5

92.7

99.1

99.9

3手法の組合せ 95.7 81.9 96.6 91.8

カテゴリ間、カテゴリ-記事間のis-a関係判定精度

評価データ数 各2500件

Page 39: Wikipedia からの大規模な汎用オントロジー構築

39

- 再現率をできるだけ下げずに適合率を

上げることが望ましい

is-a関係でないリンク判定の手法別貢献度

評価データ数 各2500件

Page 40: Wikipedia からの大規模な汎用オントロジー構築

40

親子の意味属性が違っても、is-a関係が成り立つ場合

再現率を下げる誤り

-親子の意味属性が違っても、is-a関係が成り立つ場合

チュニジアの世界遺産(具体物)←イシュケル湖(地形)

ラムサール条約登録地(地名)←マレー湾(地形)

ゲーム(その他)←ホラーゲーム(創作物)

(例)

2つの関係を見ればis-a関係を成り立つが、上位まで遡ると、

「具体物←イシュケル湖」という関係が作れてしまうので、

これらは抽出しないほうが結果として適切!!

=意味属性に分類することで、先祖←子孫のis-a関係誤りを防げる

Page 41: Wikipedia からの大規模な汎用オントロジー構築

例外処理1)

→ 親子の一致する先頭文字列を削除したときに残った文字が数字か記号を含む場合は、not-is-a関係としない

41

親名が固有名詞でも、is-a関係と判定する例外処理

親名が固有名詞でも子名がis-a関係が成り立つことがあるので、例外処理2つを適用

パリメトロ←パリメトロ2号線

ロックマン←ロックマンX

(例)

例外処理2)

→ 子名の後方が親名と一致した場合は、not-is-a関係としない

どうぶつの森←おいでよ どうぶつの森

オールナイトニッポン←ゆずのオールナイトニッポン

(例)

それでも判定できないもの

→ 沖縄県営鉄道←沖縄県営鉄道糸満線

Page 42: Wikipedia からの大規模な汎用オントロジー構築

42

適合率を下げるエラー

• 3 種類のis-a 関係判定手法の精度が100%でも判定できないis-a 関係の場合

– 血液←血球

– 日本の内閣総理大臣←内閣総理大臣夫人

– 千葉県の道路←千葉県の道の駅

• 意味属性分類を誤った場合

• 固有名詞抽出を誤った場合

Page 43: Wikipedia からの大規模な汎用オントロジー構築

43

• 9種類の意味属性以外のis-a関係は抽出できないため – スポーツ←各国のスポーツ

– 経済←日本の経済

• 親子の意味属性が違っても、is-a関係が成り立つ場合 – チュニジアの世界遺産(具体物) ←イシュケル湖(地形)

– ラムサール条約登録地(地名)←マレー湾(地形)

• 親名が固有名詞でもis-a関係が成り立つ場合 – 沖縄県営鉄道←沖縄県営鉄道糸満線

• ○○←○○××でもis-a関係が成り立つ場合 – 映画←映画作品

再現率を下げるエラー

Page 44: Wikipedia からの大規模な汎用オントロジー構築

44

補足資料

• 本手法のみで抽出できたis-a関係

• O意味属性の設定方針

• ○各手法の貢献度(理論値)

• ○普通にエラー解析

• ○部分的なオントロジーの再構成詳細

• ○素性に使った単語

Page 45: Wikipedia からの大規模な汎用オントロジー構築

45

利用例:評判分析

part of 関係

F02-B

オントロジーの利用例

is-a関係

A:ドコモショップでF-02Bを買おうかと思うんだ。

B:私使ってる~。液晶がきれいだよ。

携帯電話

液晶

ポジティブワード

液晶 きれい 液晶は評判がいい

F-02Bの液晶 きれい F-02Bは評判がいい

オントロジーを利用

Page 46: Wikipedia からの大規模な汎用オントロジー構築

46

桜井らの手法と本手法による抽出できるis-a関係の違い

• 桜井らの手法では末尾の形態素が一致したものがとれない

• 提案手法では、9種類の意味属性以外のis-a関係がとれない

Page 47: Wikipedia からの大規模な汎用オントロジー構築

47

小林らの手法と本手法で抽出できるis-a関係の違い

小林らの手法のみで抽出できたis-a関係

• 桜井らの手法では未知のカテゴリ名を含むis-a関係がとれない

• 提案手法では、9種類の意味属性以外のis-a関係がとれない

提案手法のみで抽出できたis-a関係

Page 48: Wikipedia からの大規模な汎用オントロジー構築

48

is-a関係でないリンク判定の手法別貢献度

各手法のみで抽出できたis-a関係の例

Page 49: Wikipedia からの大規模な汎用オントロジー構築

49

技術者

楽器製作者

技術

主要カテゴリ

アマティ 楽器

道具

製造業

工業製品メーカー

製造

ヤマハ

演奏家 スタインバーグ

せん断

材料

岩石

銅の加工物

銅 アマティ

Wikipediaの階層構造

エレクトーン エレクトーン

ヴァイオリン

カテゴリ

記事

3手法を用いて9種類の意味属性以外のカテゴリ・記事

とis-a関係でないリンクを削除

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

部分的なオントロジーの構築

Page 50: Wikipedia からの大規模な汎用オントロジー構築

50

人 組織 具体物

判定した意味属性

技術者

楽器製作者

技術

主要カテゴリ

アマティ 楽器

道具

製造業

工業製品メーカー

製造

ヤマハ

演奏家 スタインバーグ

せん断

材料

岩石

銅の加工物

銅 アマティ

Wikipediaの階層構造

×

×

×

×

エレクトーン エレクトーン

ヴァイオリン

×

×

×

×

× 9種類の意味属性以外

カテゴリ

記事

3手法を用いて9種類の意味属性以外のカテゴリ・記事

とis-a関係でないリンクを削除

手法3,パターンマッチ

手法1.意味属性分類

手法1, 意味属性分類

手法2.固有名詞抽出

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

部分的なオントロジーの構築

Page 51: Wikipedia からの大規模な汎用オントロジー構築

51

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

技術者

楽器製作者

アマティ 楽器

道具

工業製品メーカー

ヤマハ

スタインバーグ

材料

岩石

銅の加工物

エレクトーン

ヴァイオリン

演奏家

同じ意味属性からなる

部分的なオントロジーができる

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

人 組織 具体物

判定した意味属性

カテゴリ

記事

3手法を用いて9種類の意味属性以外のカテゴリ・記事

とis-a関係でないリンクを削除

部分的なオントロジーの構築

ルート記事

Page 52: Wikipedia からの大規模な汎用オントロジー構築

52

技術者

楽器製作者

アマティ

楽器

道具

工業製品メーカー

ヤマハ

スタインバーグ

岩石

銅の加工物

エレクトーン ヴァイオリン

演奏家

最上位カテゴリ(意味属性)に部分的なオントロジーを接続

人 組織 具体物

名詞

最上位カテゴリ

材料

-ルートカテゴリ、ルート記事を同じ意味属性の下位に接続

カテゴリ

記事

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

階層の再構成

人 組織 具体物

判定した意味属性

Page 53: Wikipedia からの大規模な汎用オントロジー構築

53

素性に使う単語

カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語

主な素性

各単語の末尾の形態素

例: 新潟県→県

日本語語彙大系を用いて抽象化した単語

例: 総理大臣→政治家、人

SVM による分類器で分類 (one-vs-rest法 を用いる)

学習データ数

カテゴリ分類: 2,000件 記事分類:11,554件

カテゴリと記事の意味属性分類

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 54: Wikipedia からの大規模な汎用オントロジー構築

54 54

対象カテゴリに分類されている全ての記事の定義文から抽出した上位語

対象カテゴリと同名記事の

定義文から抽出した上位語

音楽家は、曲を作ったり、演奏したりする人のこと。

音楽家

音楽家

•ライター

•小説家

対象カテゴリ

音楽関係者

親カテゴリ

子カテゴリ

指揮者

素性のための単語

カテゴリの周辺単語6種類 (主に一般名詞から成る)

b

c

d

e

a

Page 55: Wikipedia からの大規模な汎用オントロジー構築

55

対象カテゴリと同名記事の

定義文から抽出した上位語

子供は、年齢の若い者を指す

子供

子供

(意味属性:未決)

対象カテゴリ

人の一生

(意味属性:その他の名詞)

親カテゴリ

子カテゴリ

児童文学

(意味属性:創作物)

ブートストラップ時に設定する素性

カテゴリの周辺単語6種類 (主に一般名詞から成る)

b e

a

子カテゴリ

子役

(意味属性:人)

c “者”は意味属性が”人”にマッチし、

”子役”も意味属性”人”に分類されている

※ (意味属性:○○)は、前ステップまでに分類された意味属性を表す

・両者とも語彙大系カテゴリ

”少年・少女”に属する

Page 56: Wikipedia からの大規模な汎用オントロジー構築

56

記事分類のための素性

・・・・・・・意味属性 :具体物

・・・意味属性 :具体物

・・・・・・・意味属性 :具体物

・・・・・・・意味属性 :その他の名詞

a

b

c

d

Page 57: Wikipedia からの大規模な汎用オントロジー構築

57

超補足資料

Page 58: Wikipedia からの大規模な汎用オントロジー構築

58

超補足資料

• ○2手法の詳細

• ○各意味属性ごとのis-a関係の精度

• ○意味属性分類精度

• 固有名詞判定精度

• 記事分類の比較手法からみた優位性

• ルートノード

• 各意味属性の数

Page 59: Wikipedia からの大規模な汎用オントロジー構築

59

2. 固有名詞抽出 によるis-a関係でないリンク判定

形態素解析ツールMeCabを用いる手法

英語Wikipediaを用いる手法

-各形態素の頭文字が大文字なら固有名詞

例:The Beatles

-記事の文中で、単語の頭文字が大文字なら固有名詞

例: Fifteen prime ministers in Japan have studied at University of Tokyo.

-○県や○市、辞書に登録されている固有名詞を表示

例: 長岡市、遠藤周作

Page 60: Wikipedia からの大規模な汎用オントロジー構築

60

意味属性別のis-a関係判定精度(グラフ)

カテゴリ間のis-a関係

カテゴリ-記事間のis-a関係

Page 61: Wikipedia からの大規模な汎用オントロジー構築

61

カテゴリの固有名詞抽出精度

普通名詞にも関わらず英語表記の各形態素の頭文字が全て大

文字のアルファベッドだった場合 -Independent Administrative Institution (独立行政法人)

-Japan Defense Ship (自衛官)

日本語Wikipedia と英語Wikipedia でカテゴリの意味が異なる場合 -日本語Wikipedia のカテゴリ「過去のジャニーズ所属者(普通名詞)」は

英語Wikipedia のカテゴリ「Johnny‘s Jr (固有名詞)」にリンク

エラー解析

Page 62: Wikipedia からの大規模な汎用オントロジー構築

62

意味属性別のリーフカテゴリの平均深さ

深さ=最上位カテゴリからリーフカテゴリまでの最長ルートのリンク数

Page 63: Wikipedia からの大規模な汎用オントロジー構築

63 63

考察(1/3)カテゴリ分類の際のブートストラップ効果

96

96.5

97

97.5

98

98.5

99

99.5

100

0 1 2 3 4 5 6 7ブートストラップ数

適合

率/再

現率

/F値

[%]

0

500

1000

1500

2000

2500

未抽

出カ

テゴ

リ数

適合率 再現率 F値 未抽出カテゴリ数

最初の分類器出力の適合率が98.3%と高く、全ての出力を次ステップの学習に使用してもほとんど適合率を下げることなく再現率を上げることができた。

Page 64: Wikipedia からの大規模な汎用オントロジー構築

64

記事分類精度比較(藤井らの手法)

50

60

70

80

90

100

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total

適合

率[%

]

提案手法

藤田らの手法

50556065707580859095

100

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total

再現

率[%

]

提案手法

藤田らの手法

Page 65: Wikipedia からの大規模な汎用オントロジー構築

65

カテゴリ、記事の割合

人23.0%

組織11.6%

施設13.2%地名

10.5%

地形3.2%

具体物5.7%

創作物12.9%

動植物2.3%

イベント3.9%

その他13.7%

人28.6%

組織9.5%

施設14.4%

地名7.4%

地形2.2%

具体物8.2%

創作物12.9%

動植物3.0%

イベント4.1%

その他9.6%

記事 カテゴリ

Page 66: Wikipedia からの大規模な汎用オントロジー構築

66

ルートノードの数