59
1 電気系 山本研究室 学籍番号:07315582 柴木優美 Wikipediaかの 大規模な汎用構築

Wikipedia からの大規模な汎用オントロジー構築

  • View
    134

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Wikipedia からの大規模な汎用オントロジー構築

1

電気系 山本研究室

学籍番号:07315582 柴木優美

Wikipediaからの

大規模な汎用オントロジー構築

Page 2: Wikipedia からの大規模な汎用オントロジー構築

2

• はじめに– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 3: Wikipedia からの大規模な汎用オントロジー構築

3

• 背景

背景と目的

– Wikipediaから汎用オントロジーを自動構築する

– 単語の知識の表現方法である「オントロジー」に、日々増えていく単語を人手で追加していくのは手間

• 目的

単語の知識が必要意味解析

評判分析

情報抽出etc.

機械学習

自然言語処理

・更新が早い・人、地名、組織など知識の分野が幅広い (汎用的)

Page 4: Wikipedia からの大規模な汎用オントロジー構築

4

カテゴリカテゴリカテゴリカテゴリ

オントロジー :「単語」と「単語の関係関係関係関係」を表したもの

is-a関係

part of 関係F02-BSA002WS009KE

インスタンスインスタンスインスタンスインスタンス

: B is a A (BはAの一つ) が成り立つ関係

オントロジーとは

is-a関係

電話機

携帯電話

液晶

owner関係

人間

Page 5: Wikipedia からの大規模な汎用オントロジー構築

5

利用例:評判分析

part of 関係

F02-B

オントロジーの利用例

is-a関係

A:ドコモショップでF-02Bを買おうかと思うんだ。

B:私使ってる~。液晶がきれいだよ。

携帯電話

液晶

ポジティブワード

液晶 きれい 液晶は評判がいい

F-02Bの液晶 きれい F-02Bは評判がいい

オントロジーを利用

Page 6: Wikipedia からの大規模な汎用オントロジー構築

6

• おもちゃ• モデル

is-a

既存のオントロジーの例• 日本語語彙大系 インスタンス:30万件 カテゴリ:3,000 件

名詞

具体物 場所

• 歌姫• ボーカリスト

• ダンサー• モデル

具体 抽象

歌手 芸人 遊び道具・運動具インスタンス

–人手で作成されたis-a関係からなる大規模なオントロジー

–1つに統一された階層構造をもつカテゴリ

日本語語彙大系のようにis-a関係からなり統一された階層構造をもつ

本研究で扱うオントロジー

Page 7: Wikipedia からの大規模な汎用オントロジー構築

7

• Wikipediaのカテゴリ・記事は、部分的にはis-a関係のオントロジーのカテゴリ・インスタンスとして見れそう

自然

変光星 連星

恒星

• 爆発変光星•アメリカ変光星観測者協会

カテゴリ 天体

天文学

• オントロジーと違い語と語のリンクの関係が未定義

• 最上位のカテゴリはジャンルを分類するためのカテゴリ

Wikipedia

天文学者

惑星科学者

技術 社会主要カテゴリ

記事

is-a

not-is-a

not-is-a

is-a

Page 8: Wikipedia からの大規模な汎用オントロジー構築

8

本研究で構築するオントロジー

最上位カテゴリ

is-a天文学者

惑星科学者

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント

変光星 連星

恒星

• 爆発変光星

天体

最上位カテゴリ

Wikipediaの部分的なオントロジー

1. Wikipediaのis-a関係のリンクを判定し

2. 部分的なオントロジーを構築

3. 部分的なオントロジーを新たに設定した最上位カテゴリに接続し階層を再構成

Page 9: Wikipedia からの大規模な汎用オントロジー構築

9

• はじめに– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 10: Wikipedia からの大規模な汎用オントロジー構築

10

関連手法と比較した提案手法の工夫点(1/2)

関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]):

文字のパターンマッチでis-a関係を判定

大幅な再現率(網羅性)の向上

工夫点1: is-a関係の判定方法

《効果》

子カテゴリの後方文字列が親カテゴリと一致すれば is-a関係

《ルール》

桜井らの手法

惑星

太陽系外惑星

is-a

問題点:再現率(網羅性)が低い

Page 11: Wikipedia からの大規模な汎用オントロジー構築

11

関連手法と比較した提案手法の工夫点(1/2)

関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]):

文字のパターンマッチでis-a関係を判定

大幅な再現率(網羅性)の向上

工夫点1: is-a関係の判定方法

《効果》

子カテゴリの後方文字列が親カテゴリと一致すれば is-a関係

《ルール》

桜井らの手法

問題点:再現率(網羅性)が低い

惑星

太陽系外惑星

is-a

天体××××

Page 12: Wikipedia からの大規模な汎用オントロジー構築

12

関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]):

文字のパターンマッチでis-a関係を判定

=再現率(網羅性)が低い

大幅な再現率の向上

工夫点1: is-a関係の判定方法

提案手法:3種類の手法でis-a関係でないリンクを網羅的に削除し残ったリンクをis-a関係と判定

《効果》

関連手法と比較した提案手法の工夫点(1/2)

Page 13: Wikipedia からの大規模な汎用オントロジー構築

13

工夫点2: 1つに統一された階層の構築方法

関連手法 (Suchanek[2007]、小林[2008]) :

既存のオントロジーにWikipediaのカテゴリ-記事対を接続

小林らの手法

人口惑星惑星 太陽系の惑星

内惑星

is-ais-a

天体

日本語語彙大系のカテゴリに、Wikipediaの

is-a関係のカテゴリ-記事対をパターンマッチで接続

問題点:Wikipediaのカテゴリ階層情報が失われる

関連手法と比較した提案手法の工夫点(2/2)

日本語語彙大系

is-a関係のカテゴリ-記事対

Page 14: Wikipedia からの大規模な汎用オントロジー構築

14

工夫点2: 1つに統一された階層の構築方法

Wikipediaの階層情報をできるだけ生かしつつ1つにまとまった階層を構築できる

提案手法:Wikipediaの部分的なオントロジーの階層を新たに設定した最上位カテゴリに接続する

《効果》

関連手法と比較した提案手法の工夫点(2/2)

関連手法 (Suchanek[2007]、小林[2008]) :

既存のオントロジーにWikipediaのカテゴリ-記事対を接続

= Wikipediaのカテゴリ階層の情報が失われる

Page 15: Wikipedia からの大規模な汎用オントロジー構築

15

• はじめに– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 16: Wikipedia からの大規模な汎用オントロジー構築

16

意味が抽象的な単語を含む

意味的に類似していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物組織 創作物 施設

抽象的

is-a関係でないリンクの判定(3/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 17: Wikipedia からの大規模な汎用オントロジー構築

17

意味が抽象的な単語を含む

意味的に類似していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

抽象的 抽象的

創作物組織 創作物 施設

技術 道具抽象的

固有名詞 固有名詞

is-a関係でないリンクの判定(1/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 18: Wikipedia からの大規模な汎用オントロジー構築

18

意味が抽象的な単語を含む

意味的に類似していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

抽象的 抽象的

創作物組織 創作物 施設

技術 道具抽象的

固有名詞 固有名詞

意味を判定する問題

1.意味属性分類問題

=

is-a関係でないリンクの判定(1/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 19: Wikipedia からの大規模な汎用オントロジー構築

19

意味が抽象的な単語を含む

意味的に類似していない

社会 経済

集英社 少年ジャンプ 書物 図書館

抽象的 抽象的

創作物組織 創作物 施設

技術 道具抽象的 意味を判定する問題

1.意味属性分類問題

=

9種類 の意味属性を設定

どの意味属性にも分類されない単語 = 抽象的親子の意味属性が違う = 意味的に類似していない

手法: SVM による分類器でカテゴリと記事を分類

is-a関係でないリンクの判定(1/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント

Page 20: Wikipedia からの大規模な汎用オントロジー構築

20

意味が抽象的な単語を含む

意味的に類似 していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物組織 創作物 施設

抽象的

is-a関係でないリンクの判定(2/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 21: Wikipedia からの大規模な汎用オントロジー構築

21

意味が抽象的な単語を含む

意味的に類似 していない

親名が固有名詞

○○←○○××の関係

is-a関係でないリンクの判定(2/3)

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物組織 創作物 施設

抽象的

2.固有名詞抽出問題

・既存の辞書を利用-単語が固有名詞として辞書登録されていれば固有名詞

・英語Wikipediaの表記を利用-各形態素の頭文字が大文字なら固有名詞 (例:The Beatles)

is-a関係でないリンクの判定(2/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 22: Wikipedia からの大規模な汎用オントロジー構築

22

意味が抽象的な単語を含む

意味的に類似 していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物組織 創作物 施設

抽象的

3.パターンマッチ

is-a関係でないリンクの判定(3/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 23: Wikipedia からの大規模な汎用オントロジー構築

23

意味が抽象的な単語を含む

意味的に類似 していない

親名が固有名詞

○○←○○××の関係

社会 経済

集英社 少年ジャンプ 書物 図書館

少年ジャンプ ONE PIECE 新潟県 長岡市

火星 火星の衛星 缶 缶コーヒー

技術 道具

固有名詞 固有名詞

抽象的 抽象的

創作物組織 創作物 施設

抽象的

2.固有名詞抽出問題

1.意味属性分類問題

3.パターンマッチ

カテゴリ間、カテゴリ-記事間のリンクに適用し、どれにも当てはまらないリンクをis-a関係とする

is-a関係でないリンクの判定(3/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

Page 24: Wikipedia からの大規模な汎用オントロジー構築

24

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

技術者

楽器製作者

アマティ 楽器

道具

工業製品メーカー

ヤマハ

スタインバーグ

材料

岩石

銅の加工物

エレクトーン

ヴァイオリン

演奏家

同じ意味属性からなる部分的なオントロジーができる

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

カテゴリ

記事

3手法を用いて9種類の意味属性以外のカテゴリ・記事

とis-a関係でないリンクを削除

部分的なオントロジーの構築

ルート記事

is-a

is-a

組織

具体物

判定した意味属性

Page 25: Wikipedia からの大規模な汎用オントロジー構築

25

技術者

楽器製作者

アマティ

楽器

道具

工業製品メーカー

ヤマハ

スタインバーグ

岩石

銅の加工物

エレクトーンヴァイオリン

演奏家

最上位カテゴリ最上位カテゴリ最上位カテゴリ最上位カテゴリ(意味属性意味属性意味属性意味属性)に部分的なオントロジーを接続

人 組織 具体物

最上位カテゴリ

最上位カテゴリ

材料

-ルートカテゴリ、ルート記事を同じ意味属性の下位に接続

カテゴリ

記事

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

階層の再構成

Wikipediaの階層をオントロジーの階層に再構成できた

組織

具体物

判定した意味属性

Page 26: Wikipedia からの大規模な汎用オントロジー構築

26

• はじめに– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 27: Wikipedia からの大規模な汎用オントロジー構築

27

実験結果と考察 (1/3)カテゴリ間、カテゴリ-記事間のis-a関係判定精度

- 3手法を用いてis-a関係でないリンクを削除する手法は再現率の向上に有効

67.993.057.797.6

+24.0+3.6+24.2-1.9差分

再現率適合率再現率適合率判定手法

小林らの手法桜井らの手法

比較手法

91.981.9 96.695.7提案手法

カテゴリ-記事間カテゴリ間

評価データ数 :各2500件

パターンマッチでは抽出できないis-a関係を抽出

(精度) (網羅性) (精度) (網羅性)

例: 携帯電話アプリ←EZ助手席ナビ、 ベーシスト←ボブ・デイズリー

Page 28: Wikipedia からの大規模な汎用オントロジー構築

28

• 提案手法において再現率を下げる原因

再現率適合率再現率適合率判定対象

91.981.9 96.695.7全てのカテゴリ・記事を対象

カテゴリ-記事間カテゴリ間

-分類器が作れるほどのカテゴリ・記事がない意味属性は対象外にしているため (例:スポーツ、規則、賞)

学習データを増やし、意味属性を追加すれば再現率を向上できる

実験結果と考察 (2/3)

95.696.296.695.39種類の意味属性を対象

-9種類の意味属性に限定すれば再現率は高い

Page 29: Wikipedia からの大規模な汎用オントロジー構築

29

構築したオントロジーの規模

- 全ての項目で比較対象より数が多い

実験結果と考察 (3/3)

2.7

64万

3.3万

0.3万

30万

2.3倍6.2桜井ら

の手法末端のカテゴリの平均深さ

1.3倍83万小林ら

の手法

カテゴリ-記事間のis-a関係数

1.5倍5万桜井ら

の手法カテゴリ間のis-a関係数

11.3倍3.4万(Wiki全体の88.6%)

カテゴリ数

1.4倍42万(Wiki全体の84.5%)日本語

語彙大系

記事数

(インスタンス数)

比率提案手法比較対象抽出項目

Page 30: Wikipedia からの大規模な汎用オントロジー構築

30

• はじめに– 背景と目的、オントロジーとWikipedia

• 関連手法と比較した提案手法の工夫点

• 提案手法

• 実験結果と考察

• おわりに

– まとめ、今後の課題

目次

Page 31: Wikipedia からの大規模な汎用オントロジー構築

31

おわりに

・ Wikipedia全体の84.5%のカテゴリと88.6%の記事を

1つの階層からなるオントロジーに組みこめた

・ 3手法でis-a関係でないリンクを判定することで、

関連手法より再現率が約24ポイント向上した

・ 学習データを増やし、意味属性を追加することで

さらなる再現率の向上を図る

まとめ

今後の課題

近日、構築したオントロジーを公開予定

Page 32: Wikipedia からの大規模な汎用オントロジー構築

32

ご清聴ありがとうございました

Page 33: Wikipedia からの大規模な汎用オントロジー構築

33

補足資料

Page 34: Wikipedia からの大規模な汎用オントロジー構築

34

桜井らの手法と本手法による抽出できるis-a関係の違い

• 桜井らの手法では末尾の形態素が一致したものがとれない

• 提案手法では、9種類の意味属性以外のis-a関係がとれない

Page 35: Wikipedia からの大規模な汎用オントロジー構築

35

小林らの手法と本手法で抽出できるis-a関係の違い

小林らの手法のみで抽出できたis-a関係

• 桜井らの手法では未知のカテゴリ名を含むis-a関係がとれない

• 提案手法では、9種類の意味属性以外のis-a関係がとれない

提案手法のみで抽出できたis-a関係

Page 36: Wikipedia からの大規模な汎用オントロジー構築

36

意味属性の設定方針

1. 抽象的でない意味属性を網羅している

2. 一般的なオントロジーの粒度10前後の分類→「日本語語彙大系」なら第4階層、「関根の拡張固有表現

階層」なら第1階層

3. 分類器がつくれるほどのカテゴリ・記事数がある→学問名、規則名などは対象外

9種類 の意味属性 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント

Page 37: Wikipedia からの大規模な汎用オントロジー構築

37

- 再現率(網羅率)をできるだけ下げずに適合率(抽出精度)を上げることが望ましい

is-a関係でないリンク判定の手法別精度

再現率適合率再現率適合率判定手法

10074.710072.1全てのリンクをis-a関係とする

91.8

92.799.199.9

81.9

82.599.499.4

96.695.73手法の組合せ

94.582.775.5

91.978.279.2

1.意味属性分類

2.固有名詞抽出

3.文字列照合

カテゴリ-記事間カテゴリ間

カテゴリ間、カテゴリ-記事間のis-a関係判定精度

評価データ数 各2500件

Page 38: Wikipedia からの大規模な汎用オントロジー構築

38

- 再現率(網羅率)をできるだけ下げずに適合率(抽出精度)を上げることが望ましい

is-a関係でないリンク判定の手法別貢献度

評価データ数 各2500件

Page 39: Wikipedia からの大規模な汎用オントロジー構築

39

is-a関係でないリンク判定の手法別貢献度

各手法のみで抽出できたis-a関係の例

Page 40: Wikipedia からの大規模な汎用オントロジー構築

40

適合率を下げるエラー

1. 意味属性分類を誤った場合

2. 固有名詞抽出を誤った場合

3. 3 種類のis-a 関係判定手法の精度が100%でも判定できないis-a 関係の場合

– 血液←血球

– 日本の内閣総理大臣←内閣総理大臣夫人

– 千葉県の道路←千葉県の道の駅

0.7~1.1ポイント、適合率を低下させる=全体から見れば少数の例外

Page 41: Wikipedia からの大規模な汎用オントロジー構築

41

• 9種類の意味属性以外のis-a関係は抽出できないため– スポーツ←各国のスポーツ

– 経済←日本の経済

• 親子の意味属性が違っても、is-a関係が成り立つ場合– チュニジアの世界遺産(具体物) ←イシュケル湖(地形)– ラムサール条約登録地(地名)←マレー湾(地形)

• 親名が固有名詞でもis-a関係が成り立つ場合– 沖縄県営鉄道←沖縄県営鉄道糸満線

• ○○←○○××でもis-a関係が成り立つ場合– 映画←映画作品

再現率を下げるエラー

Page 42: Wikipedia からの大規模な汎用オントロジー構築

42

技術者

楽器製作者

技術

主要カテゴリ

アマティ 楽器

道具

製造業

工業製品メーカー

製造

ヤマハ

演奏家スタインバーグ

せん断

材料

岩石

銅の加工物

銅アマティ

Wikipediaの階層構造

エレクトーンエレクトーン

ヴァイオリン

カテゴリ

記事

3手法を用いて9種類の意味属性以外のカテゴリ・記事

とis-a関係でないリンクを削除

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

部分的なオントロジーの構築

Page 43: Wikipedia からの大規模な汎用オントロジー構築

43

組織

具体物

判定した意味属性

技術者

楽器製作者

技術

主要カテゴリ

アマティ 楽器

道具

製造業

工業製品メーカー

製造

ヤマハ

演奏家スタインバーグ

せん断

材料

岩石

銅の加工物

銅アマティ

Wikipediaの階層構造

××

×

×エレクトーンエレクトーン

ヴァイオリン

××

×

×

×9種類の意味属性以外

カテゴリ

記事

3手法を用いて9種類の意味属性以外のカテゴリ・記事

とis-a関係でないリンクを削除

手法3,パターンマッチ

手法1.意味属性分類

手法1, 意味属性分類

手法2.固有名詞抽出

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

部分的なオントロジーの構築

Page 44: Wikipedia からの大規模な汎用オントロジー構築

44

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

技術者

楽器製作者

アマティ 楽器

道具

工業製品メーカー

ヤマハ

スタインバーグ

材料

岩石

銅の加工物

エレクトーン

ヴァイオリン

演奏家

同じ意味属性からなる部分的なオントロジーができる

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

ルートカテゴリ

組織

具体物

判定した意味属性

カテゴリ

記事

3手法を用いて9種類の意味属性以外のカテゴリ・記事

とis-a関係でないリンクを削除

部分的なオントロジーの構築

ルート記事

Page 45: Wikipedia からの大規模な汎用オントロジー構築

45

技術者

楽器製作者

アマティ

楽器

道具

工業製品メーカー

ヤマハ

スタインバーグ

岩石

銅の加工物

エレクトーンヴァイオリン

演奏家

最上位カテゴリ最上位カテゴリ最上位カテゴリ最上位カテゴリ(意味属性意味属性意味属性意味属性)に部分的なオントロジーを接続

人 組織 具体物

名詞

最上位カテゴリ

材料

-ルートカテゴリ、ルート記事を同じ意味属性の下位に接続

カテゴリ

記事

is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成

階層の再構成

組織

具体物

判定した意味属性

Page 46: Wikipedia からの大規模な汎用オントロジー構築

46

素性に使う単語

カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語

主な素性各単語の末尾の形態素

例: 新潟県→県

日本語語彙大系を用いて抽象化した単語

例: 総理大臣→政治家、人

-SVM による分類器で分類-one-vs-rest法 (2値分類を多値分類に拡張する手法)を用いる

カテゴリと記事を意味属性に分類

1. 意味属性分類 によるis-a関係でないリンク判定

意味属性分類の機械学習のための学習データ数・ カテゴリ分類 :2,000件 ・ 記事分類:11,554件

Page 47: Wikipedia からの大規模な汎用オントロジー構築

4747

対象カテゴリに分類されている全ての記事の定義文から抽出した上位語

対象カテゴリと同名記事の定義文から抽出した上位語

音楽家は、曲を作ったり、演奏したりする人のこと。

音楽家音楽家音楽家音楽家

音楽家

•ライター

•小説家

対象カテゴリ

音楽関係者

親カテゴリ

子カテゴリ

指揮者

素性のための単語

カテゴリの周辺単語6種類 (主に一般名詞から成る)

b

c

d

e

a

Page 48: Wikipedia からの大規模な汎用オントロジー構築

48

対象カテゴリと同名記事の定義文から抽出した上位語

子供は、年齢の若い者を指す

子供子供子供子供

子供(意味属性:未決)

対象カテゴリ

人の一生(意味属性:その他の名詞)

親カテゴリ

子カテゴリ

児童文学(意味属性:創作物)

ブートストラップ時に設定する素性

カテゴリの周辺単語6種類 (主に一般名詞から成る)

be

a

子カテゴリ

子役(意味属性:人)

c“者”は意味属性が”人”にマッチし、”子役”も意味属性”人”に分類されている

※ (意味属性:○○)は、前ステップまでに分類された意味属性を表す

・両者とも語彙大系カテゴリ”少年・少女”に属する

Page 49: Wikipedia からの大規模な汎用オントロジー構築

49

記事分類のための素性

・・・・・・・意味属性 :具体物

・・・意味属性 :具体物

・・・・・・・意味属性 :具体物

・・・・・・・意味属性 :その他の名詞

a

b

c

d

Page 50: Wikipedia からの大規模な汎用オントロジー構築

50

超補足資料

Page 51: Wikipedia からの大規模な汎用オントロジー構築

51

2. 固有名詞抽出 によるis-a関係でないリンク判定

形態素解析ツールMeCabを用いる手法

英語Wikipediaを用いる手法

-各形態素の頭文字が大文字なら固有名詞

例:The Beatles-記事の文中で、単語の頭文字が大文字なら固有名詞

例: Fifteen prime ministers in Japan have studied at University of Tokyo.

-○県や○市、辞書に登録されている固有名詞を表示

例: 長岡市、遠藤周作

Page 52: Wikipedia からの大規模な汎用オントロジー構築

52

意味属性別のis-a関係判定精度(グラフ)

カテゴリ間のis-a関係

カテゴリ-記事間のis-a関係

Page 53: Wikipedia からの大規模な汎用オントロジー構築

53

カテゴリの固有名詞抽出精度

普通名詞にも関わらず英語表記の各形態素の頭文字が全て大文字のアルファベッドだった場合

-Independent Administrative Institution (独立行政法人)-Japan Defense Ship (自衛官)

日本語Wikipedia と英語Wikipedia でカテゴリの意味が異なる場合-日本語Wikipedia のカテゴリ「過去のジャニーズ所属者(普通名詞)」は

英語Wikipedia のカテゴリ「Johnny‘s Jr (固有名詞)」にリンク

エラー解析

Page 54: Wikipedia からの大規模な汎用オントロジー構築

54

意味属性別の分類精度(グラフ)

8082

8486

889092

9496

98100

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total

適合

率/再

現率

/F値

[%]

適合率

再現率

8082

8486

889092

9496

98100

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total

適合

率/再

現率

/F値

[%]

適合率

再現率

カテゴリ分類

記事分類

Page 55: Wikipedia からの大規模な汎用オントロジー構築

55

意味属性別のリーフカテゴリの平均深さ

深さ=最上位カテゴリからリーフカテゴリまでの最長ルートのリンク数

Page 56: Wikipedia からの大規模な汎用オントロジー構築

5656

考察(1/3)カテゴリ分類の際のブートストラップ効果

96

96.5

97

97.5

98

98.5

99

99.5

100

0 1 2 3 4 5 6 7ブートストラップ数

適合

率/再

現率

/F値

[%]

0

500

1000

1500

2000

2500

未抽

出カ

テゴ

リ数

適合率 再現率 F値 未抽出カテゴリ数

最初の分類器出力の適合率が98.3%と高く、全ての出力を次ステッ

プの学習に使用してもほとんど適合率を下げることなく再現率を上げることができた。

Page 57: Wikipedia からの大規模な汎用オントロジー構築

57

記事分類精度比較(藤田らの手法)適合率 再現率 F値

藤田ら 91.1 85.7 88.3提案手法 97.2 91.7 94.4差分 + 6.2 + 6.0 + 6.1

50

60

70

80

90

100

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total

適合

率[%

]

提案手法

藤田らの手法

50556065707580859095

100

人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total

再現

率[%

]

提案手法

藤田らの手法

※カテゴリに同じ意味属性がない記事も分母に入れているので再現率低い

Page 58: Wikipedia からの大規模な汎用オントロジー構築

58

カテゴリ、記事の割合

人23.0%

組織11.6%

施設13.2%地名

10.5%

地形3.2%

具体物5.7%

創作物12.9%

動植物2.3%

イベント3.9%

その他13.7%

人28.6%

組織9.5%

施設14.4%

地名7.4%

地形2.2%

具体物8.2%

創作物12.9%

動植物3.0%

イベント4.1%

その他9.6%

記事カテゴリ

Page 59: Wikipedia からの大規模な汎用オントロジー構築

59

ルートノードの数