View
506
Download
3
Embed Size (px)
Citation preview
1
柴木優美*1 永田昌明*2 山本和英*1
*1 長岡技術科学大学
*2 NTTコミュニケーション科学基礎研究所
Wikipediaからの
大規模な汎用オントロジー構築
NLP2011 (2011/03/10)
2
• はじめに
– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
3
• 背景
背景と目的
– Wikipediaから汎用オントロジーを自動構築する
– 単語の知識の表現方法である「オントロジー」に、 日々増えていく単語を人手で追加していくのは手間
• 目的
単語の知識が必要 意味解析
評判分析
情報抽出 etc.
機械学習
自然言語処理
・更新が早い
・人、地名、組織など知識の分野が幅広い (汎用的)
4
カテゴリ
オントロジー :「語」と「語の関係」を表したもの
is-a関係
part of 関係 F02-B
SA002
WS009KE
インスタンス
: B is a A (BはAの一つ) が
成り立つ関係
オントロジーとは
is-a関係
電話機
携帯電話
液晶
owner関係 人間
5
• おもちゃ
• モデル
is-a
既存のオントロジーの例
• 日本語語彙大系 インスタンス:30万件 カテゴリ:3,000 件
名詞
具体物 場所
• 歌姫 • ボーカリスト
• ダンサー • モデル
具体 抽象
人
歌手 芸人 遊び道具・運動具
インスタンス
–人手で作成されたis-a関係からなる大規模なオントロジー
–1つに統一された階層構造をもつ カテゴリ
日本語語彙大系のようにis-a関係からなり統一された階層構造をもつ
本研究で扱うオントロジー
6
• Wikipediaのカテゴリ・記事は、部分的にはis-a関係のオントロジーのカテゴリ・インスタンスとして見れそう
自然
変光星 連星
恒星
• 爆発変光星 •アメリカ変光星観測者協会
カテゴリ 天体
天文学
• オントロジーと違い語と語のリンクの関係が未定義
• 最上位のカテゴリはジャンルを分類するためのカテゴリ
Wikipedia
天文学者
惑星科学者
技術 社会 主要カテゴリ
記事
is-a
not-is-a
not-is-a
is-a
7
本研究で構築するオントロジー
最上位カテゴリ
is-a
天文学者
惑星科学者
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
変光星 連星
恒星
• 爆発変光星
天体
最上位カテゴリ
Wikipediaの部分的なオントロジー
1. Wikipediaのis-a関係のリンクを判定し
2. 部分的なオントロジーを構築
3. 部分的なオントロジーを新たに設定した最上位カテゴリに接続し階層を再構成 (柴木ら[2010]:人オントロジー構築の拡張版)
8
• はじめに
– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
9
関連手法と比較した提案手法の工夫点(1/2)
大幅な再現率(網羅性)の向上
工夫点1: is-a関係の判定方法
《効果》
子カテゴリの後方文字列が
親カテゴリと一致すれば is-a関係
《ルール》
桜井らの手法
惑星
太陽系外惑星
is-a
問題点:再現率が低い
関連手法 (Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]):
文字列照合でis-a関係を判定
カテゴリ
10
関連手法と比較した提案手法の工夫点(1/2)
大幅な再現率(網羅性)の向上
工夫点1: is-a関係の判定方法
《効果》
子カテゴリの後方文字列が
親カテゴリと一致すれば is-a関係
《ルール》
桜井らの手法
惑星
太陽系外惑星
is-a
天体 ×
関連手法 (Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]):
文字列照合でis-a関係を判定
問題点:再現率が低い
カテゴリ
11
大幅な再現率の向上
工夫点1: is-a関係の判定方法
提案手法:
3種類の手法でis-a関係でないリンクを高い再現率で削除し残ったリンクをis-a関係と判定
《効果》
関連手法と比較した提案手法の工夫点(1/2)
関連手法 (Ponzetto and Strube [2007]、桜井ら[2008]、小林ら[2008]):
文字列照合でis-a関係を判定
=再現率が低い
12
工夫点2: 1つに統一された階層の構築方法
小林らの手法
人口惑星
惑星 太陽系の惑星
内惑星
is-a is-a
天体
日本語語彙大系のカテゴリに、Wikipediaの
is-a関係のカテゴリ-記事対を文字列照合で接続
問題点:Wikipediaのカテゴリ階層情報が失われる
関連手法と比較した提案手法の工夫点(2/2)
日本語語彙大系
is-a関係のカテゴリ-記事対
関連手法 (Suchanek et al.[2007]、小林ら[2008]、柴木ら[2009]) :
既存のオントロジーにWikipediaのカテゴリ-記事対を接続
13
工夫点2: 1つに統一された階層の構築方法
Wikipediaの階層情報をできるだけ生かしつつ
1つにまとまった階層を構築できる
提案手法
Wikipediaの部分的なオントロジーの階層を
新たに設定した最上位カテゴリに接続する
《効果》
関連手法と比較した提案手法の工夫点(2/2)
関連手法 (Suchanek et al.[2007]、小林ら[2008]、柴木ら[2009]) :
既存のオントロジーにWikipediaのカテゴリ-記事対を接続
= Wikipediaのカテゴリ階層の情報が失われる
14
• はじめに
– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
15
意味が抽象的な単語を含む
意味的に類似していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物 組織 創作物 施設
抽象的
is-a関係でないリンクの判定(1/3)
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
16
意味が抽象的な単語を含む
意味的に類似していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
星 火星の衛星 缶 缶コーヒー
抽象的 抽象的
創作物 組織 創作物 施設
技術 道具 抽象的
固有名詞 固有名詞
is-a関係でないリンクの判定(1/3)
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
抽象的な単語・・・意味を明確に定義しにくい単語
17
意味が抽象的な単語を含む
意味的に類似していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
抽象的 抽象的
創作物 組織 創作物 施設
技術 道具 抽象的
固有名詞 固有名詞
意味を判定する問題
1.意味属性分類問題
=
is-a関係でないリンクの判定(1/3)
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
18
意味が抽象的な単語を含む
意味的に類似していない
社会 経済
集英社 少年ジャンプ 書物 図書館
抽象的 抽象的
創作物 組織 創作物 施設
技術 道具 抽象的 意味を判定する問題
1.意味属性分類問題
=
is-a関係でないリンクの判定(1/3)
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
9種類 の意味属性を設定
どの意味属性にも分類されない単語 = 抽象的
親子の意味属性が違う = 意味的に類似していない
手法: SVM による分類器でカテゴリと記事を分類
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
19
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
人名 神名 地名 施設名 製品名 自然物名 組織名 イベント名 病気名 色名
地域名 地形名 乗り物名 出版物名 賞名 規則名
関根の拡張固有表現階層の第1~第2階層をもとに設定
意味属性の設定
関根の拡張固有表現階層
1. 分類器がつくれるほどのカテゴリ・記事数がある
2. 日本語語彙大系のカテゴリに対応づけられる
3. 意味的に類似していない単語対を見分けられる粒度 -しかし意味属性が多すぎると分類精度が落ちる
-賞名、規則名などは対象外
《設定方針》
-素性の単語が普通名詞なら、9種類の意味属性まで単語を抽象化できる
20
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
人名 神名 地名 施設名 製品名 自然物名 組織名 イベント名 病気名 色名
地域名 地形名 乗り物名 出版物名 賞名 規則名
人 組織 施設
地名 地形 具体物 創作物
動植物 イベント
対象外
関根の拡張固有表現階層の第1~第2階層をもとに設定
1. 分類器がつくれるほどのカテゴリ・記事数がある
2. 日本語語彙大系のカテゴリに対応づけられる
3. 意味的に類似していない単語対を見分けられる粒度 -しかし意味属性が多すぎると分類精度が落ちる
-賞名、規則名などは対象外
《設定方針》
意味属性の設定
-素性の単語が普通名詞なら、9種類の意味属性まで単語を抽象化できる
21
意味が抽象的な単語を含む
意味的に類似 していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物 組織 創作物 施設
抽象的
is-a関係でないリンクの判定(2/3)
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
22
意味が抽象的な単語を含む
意味的に類似 していない
親名が固有名詞
○○←○○××の関係
is-a関係でないリンクの判定(2/3)
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物 組織 創作物 施設
抽象的
2.固有名詞抽出問題
MeCabを利用
is-a関係でないリンクの判定(2/3)
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
23
意味が抽象的な単語を含む
意味的に類似 していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物 組織 創作物 施設
抽象的
3.文字列照合
is-a関係でないリンクの判定(3/3)
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
24
意味が抽象的な単語を含む
意味的に類似 していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物 組織 創作物 施設
抽象的
2.固有名詞抽出問題
1.意味属性分類問題
3.文字列照合
カテゴリ間、カテゴリ-記事間のリンクに適用し、
どれにも当てはまらないリンクをis-a関係とする
is-a関係でないリンクの判定(3/3)
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
25
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
技術者
楽器製作者
アマティ 楽器
道具
工業製品メーカー
ヤマハ
スタインバーグ
材料
岩石
銅の加工物
銅
エレクトーン
ヴァイオリン
演奏家
同じ意味属性からなる部分的なオントロジーができる
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
カテゴリ
記事
3手法を用いて9種類の意味属性以外のカテゴリ・記事
とis-a関係でないリンクを削除
部分的なオントロジーの構築
ルート記事
is-a
is-a
人 組織 具体物
判定した意味属性
26
技術者
楽器製作者
アマティ
楽器
道具
工業製品メーカー
ヤマハ
スタインバーグ
岩石
銅の加工物
銅
エレクトーン ヴァイオリン
演奏家
部分的なオントロジーを最上位カテゴリ(意味属性)に接続
人 組織 具体物
最上位カテゴリ
最上位カテゴリ
材料
-ルートカテゴリ、ルート記事を同じ意味属性の下位に接続
カテゴリ
記事
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
階層の再構成
Wikipediaの階層をオントロジーの階層に再構成できた
人 組織 具体物
判定した意味属性
27
• はじめに
– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
28
実験結果と考察 (1/3)
カテゴリ間、カテゴリ-記事間のis-a関係判定精度
- 提案手法は再現率の向上に有効
判定手法 カテゴリ間 カテゴリ-記事間
適合率 再現率 適合率 再現率
比較手法 桜井らの手法 小林らの手法
97.6 57.7 93.0 67.9
提案手法 95.2 82.2 95.6 92.4
差分 -2.4 +24.5 +2.6 +24.5
評価データ数 :各2500件
パターンマッチでは抽出できないis-a関係を大量に抽出できた
例: 携帯電話アプリ←EZ助手席ナビ
ベーシスト←ボブ・デイズリー
29
• 提案手法において再現率を下げる原因
判定対象 カテゴリ間 カテゴリ-記事間
適合率 再現率 適合率 再現率
全てのカテゴリ・記事を対象 95.2 82.2 95.6 92.4
-分類器が作れるほどのカテゴリ・記事がない意味属性は
対象外にしているため (例:スポーツ、規則、賞)
学習データを増やし、意味属性を追加すれば
再現率を向上できる
実験結果と考察 (2/3)
9種類の意味属性を対象 94.8 97.0 95.2 96.2
-9種類の意味属性に限定すれば再現率は高い
《今後の展望》
30
構築したオントロジーの規模
- 全ての項目で比較対象より数が多い
実験結果と考察 (3/3)
抽出項目 比較対象 提案手法 比率
記事数
(インスタンス数) 日本語
語彙大系
30万 41万
(Wiki全体の85.6%) 1.4倍
カテゴリ数 0.3万 3.4万
(Wiki全体の84.5%) 11.3倍
カテゴリ間の is-a関係数
桜井ら
の手法 3.3万 5万 1.5倍
カテゴリ-記事間のis-a関係数
小林ら
の手法 64万 83万 1.3倍
末端のカテゴリの平均深さ
桜井ら
の手法 2.7 6.2 2.3倍
31
• はじめに
– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
32
おわりに
・ Wikipedia全体の84.5%のカテゴリと85.6%の記事を
1つの階層からなるオントロジーに組みこめた
・ 3手法でis-a関係でないリンクを判定することで、
関連手法より再現率が24ポイント以上向上した
・ 学習データを増やし、意味属性を追加することで
さらなる再現率の向上を図る
まとめ
今後の課題
以下のURLで構築したオントロジーを見られます
http://nlp.nagaokaut.ac.jp/OG1/ 長岡技術科学大学自然言語処理研究室HP→柴木優美
33
ご清聴ありがとうございました
34
補足資料
35
意味属性別の分類精度(グラフ)
カテゴリ分類
記事分類
36
素性に使う単語
カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語
主な素性(=主に普通名詞)
各単語の末尾の形態素
例: 新潟県→県
日本語語彙大系を用いて抽象化した単語
例: 総理大臣→政治家(語彙大系のカテゴリ)→人(意味属性)
SVM による分類器で分類 (one-vs-rest法 を用いる)
カテゴリと記事の意味属性分類
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
37
3手法の精度が100%だったときのis-a関係判定精度
■適合率を下げる誤り
-3 種類のis-a 関係判定手法の精度が100%でも判定できないis-a 関係
血液←血球
日本の内閣総理大臣←内閣総理大臣夫人
千葉県の道路←千葉県の道の駅
(例)
■再現率を下げる誤り
-親名が固有名詞でもis-a関係が成り立つ場合
-○○←○○××でもis-a関係が成り立つ場合
沖縄県営鉄道←沖縄県営鉄道糸満線
映画←映画作品
(例)
(例)
適合率[%] 再現率[%]
カテゴリ間 98.9 99.3
カテゴリ-記事間 99.3 98.9
9 種類の意味属性でのis-a 関係の精度
38
- 再現率をできるだけ下げずに適合率を
上げることが望ましい
is-a関係でないリンク判定の手法別精度
判定手法 カテゴリ間 カテゴリ-記事間
適合率 再現率 適合率 再現率
全てのリンクをis-a関係とする 72.1 100 74.7 100
1.意味属性分類
2.固有名詞抽出
3.文字列照合
91.9
78.2
79.2
82.5
99.4
99.4
94.5
82.7
75.5
92.7
99.1
99.9
3手法の組合せ 95.7 81.9 96.6 91.8
カテゴリ間、カテゴリ-記事間のis-a関係判定精度
評価データ数 各2500件
39
- 再現率をできるだけ下げずに適合率を
上げることが望ましい
is-a関係でないリンク判定の手法別貢献度
評価データ数 各2500件
40
親子の意味属性が違っても、is-a関係が成り立つ場合
再現率を下げる誤り
-親子の意味属性が違っても、is-a関係が成り立つ場合
チュニジアの世界遺産(具体物)←イシュケル湖(地形)
ラムサール条約登録地(地名)←マレー湾(地形)
ゲーム(その他)←ホラーゲーム(創作物)
(例)
2つの関係を見ればis-a関係を成り立つが、上位まで遡ると、
「具体物←イシュケル湖」という関係が作れてしまうので、
これらは抽出しないほうが結果として適切!!
=意味属性に分類することで、先祖←子孫のis-a関係誤りを防げる
例外処理1)
→ 親子の一致する先頭文字列を削除したときに残った文字が数字か記号を含む場合は、not-is-a関係としない
41
親名が固有名詞でも、is-a関係と判定する例外処理
親名が固有名詞でも子名がis-a関係が成り立つことがあるので、例外処理2つを適用
パリメトロ←パリメトロ2号線
ロックマン←ロックマンX
(例)
例外処理2)
→ 子名の後方が親名と一致した場合は、not-is-a関係としない
どうぶつの森←おいでよ どうぶつの森
オールナイトニッポン←ゆずのオールナイトニッポン
(例)
それでも判定できないもの
→ 沖縄県営鉄道←沖縄県営鉄道糸満線
42
適合率を下げるエラー
• 3 種類のis-a 関係判定手法の精度が100%でも判定できないis-a 関係の場合
– 血液←血球
– 日本の内閣総理大臣←内閣総理大臣夫人
– 千葉県の道路←千葉県の道の駅
• 意味属性分類を誤った場合
• 固有名詞抽出を誤った場合
43
• 9種類の意味属性以外のis-a関係は抽出できないため – スポーツ←各国のスポーツ
– 経済←日本の経済
• 親子の意味属性が違っても、is-a関係が成り立つ場合 – チュニジアの世界遺産(具体物) ←イシュケル湖(地形)
– ラムサール条約登録地(地名)←マレー湾(地形)
• 親名が固有名詞でもis-a関係が成り立つ場合 – 沖縄県営鉄道←沖縄県営鉄道糸満線
• ○○←○○××でもis-a関係が成り立つ場合 – 映画←映画作品
再現率を下げるエラー
44
補足資料
• 本手法のみで抽出できたis-a関係
• O意味属性の設定方針
• ○各手法の貢献度(理論値)
• ○普通にエラー解析
• ○部分的なオントロジーの再構成詳細
• ○素性に使った単語
45
利用例:評判分析
part of 関係
F02-B
オントロジーの利用例
is-a関係
A:ドコモショップでF-02Bを買おうかと思うんだ。
B:私使ってる~。液晶がきれいだよ。
携帯電話
液晶
ポジティブワード
液晶 きれい 液晶は評判がいい
F-02Bの液晶 きれい F-02Bは評判がいい
オントロジーを利用
46
桜井らの手法と本手法による抽出できるis-a関係の違い
• 桜井らの手法では末尾の形態素が一致したものがとれない
• 提案手法では、9種類の意味属性以外のis-a関係がとれない
47
小林らの手法と本手法で抽出できるis-a関係の違い
小林らの手法のみで抽出できたis-a関係
• 桜井らの手法では未知のカテゴリ名を含むis-a関係がとれない
• 提案手法では、9種類の意味属性以外のis-a関係がとれない
提案手法のみで抽出できたis-a関係
48
is-a関係でないリンク判定の手法別貢献度
各手法のみで抽出できたis-a関係の例
49
技術者
楽器製作者
技術
主要カテゴリ
アマティ 楽器
道具
製造業
工業製品メーカー
製造
ヤマハ
演奏家 スタインバーグ
せん断
材料
岩石
銅の加工物
銅 アマティ
Wikipediaの階層構造
エレクトーン エレクトーン
ヴァイオリン
カテゴリ
記事
3手法を用いて9種類の意味属性以外のカテゴリ・記事
とis-a関係でないリンクを削除
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
部分的なオントロジーの構築
50
人 組織 具体物
判定した意味属性
技術者
楽器製作者
技術
主要カテゴリ
アマティ 楽器
道具
製造業
工業製品メーカー
製造
ヤマハ
演奏家 スタインバーグ
せん断
材料
岩石
銅の加工物
銅 アマティ
Wikipediaの階層構造
×
×
×
×
エレクトーン エレクトーン
ヴァイオリン
×
×
×
×
× 9種類の意味属性以外
カテゴリ
記事
3手法を用いて9種類の意味属性以外のカテゴリ・記事
とis-a関係でないリンクを削除
手法3,パターンマッチ
手法1.意味属性分類
手法1, 意味属性分類
手法2.固有名詞抽出
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
部分的なオントロジーの構築
51
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
技術者
楽器製作者
アマティ 楽器
道具
工業製品メーカー
ヤマハ
スタインバーグ
材料
岩石
銅の加工物
銅
エレクトーン
ヴァイオリン
演奏家
同じ意味属性からなる
部分的なオントロジーができる
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
人 組織 具体物
判定した意味属性
カテゴリ
記事
3手法を用いて9種類の意味属性以外のカテゴリ・記事
とis-a関係でないリンクを削除
部分的なオントロジーの構築
ルート記事
52
技術者
楽器製作者
アマティ
楽器
道具
工業製品メーカー
ヤマハ
スタインバーグ
岩石
銅の加工物
銅
エレクトーン ヴァイオリン
演奏家
最上位カテゴリ(意味属性)に部分的なオントロジーを接続
人 組織 具体物
名詞
最上位カテゴリ
材料
-ルートカテゴリ、ルート記事を同じ意味属性の下位に接続
カテゴリ
記事
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
階層の再構成
人 組織 具体物
判定した意味属性
53
素性に使う単語
カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語
主な素性
各単語の末尾の形態素
例: 新潟県→県
日本語語彙大系を用いて抽象化した単語
例: 総理大臣→政治家、人
SVM による分類器で分類 (one-vs-rest法 を用いる)
学習データ数
カテゴリ分類: 2,000件 記事分類:11,554件
カテゴリと記事の意味属性分類
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
54 54
対象カテゴリに分類されている全ての記事の定義文から抽出した上位語
対象カテゴリと同名記事の
定義文から抽出した上位語
音楽家は、曲を作ったり、演奏したりする人のこと。
音楽家
音楽家
•ライター
•小説家
対象カテゴリ
音楽関係者
親カテゴリ
子カテゴリ
指揮者
素性のための単語
カテゴリの周辺単語6種類 (主に一般名詞から成る)
b
c
d
e
a
55
対象カテゴリと同名記事の
定義文から抽出した上位語
子供は、年齢の若い者を指す
子供
子供
(意味属性:未決)
対象カテゴリ
人の一生
(意味属性:その他の名詞)
親カテゴリ
子カテゴリ
児童文学
(意味属性:創作物)
ブートストラップ時に設定する素性
カテゴリの周辺単語6種類 (主に一般名詞から成る)
b e
a
子カテゴリ
子役
(意味属性:人)
c “者”は意味属性が”人”にマッチし、
”子役”も意味属性”人”に分類されている
※ (意味属性:○○)は、前ステップまでに分類された意味属性を表す
・両者とも語彙大系カテゴリ
”少年・少女”に属する
56
記事分類のための素性
・・・・・・・意味属性 :具体物
・・・意味属性 :具体物
・・・・・・・意味属性 :具体物
・・・・・・・意味属性 :その他の名詞
a
b
c
d
57
超補足資料
58
超補足資料
• ○2手法の詳細
• ○各意味属性ごとのis-a関係の精度
• ○意味属性分類精度
• 固有名詞判定精度
• 記事分類の比較手法からみた優位性
• ルートノード
• 各意味属性の数
59
2. 固有名詞抽出 によるis-a関係でないリンク判定
形態素解析ツールMeCabを用いる手法
英語Wikipediaを用いる手法
-各形態素の頭文字が大文字なら固有名詞
例:The Beatles
-記事の文中で、単語の頭文字が大文字なら固有名詞
例: Fifteen prime ministers in Japan have studied at University of Tokyo.
-○県や○市、辞書に登録されている固有名詞を表示
例: 長岡市、遠藤周作
60
意味属性別のis-a関係判定精度(グラフ)
カテゴリ間のis-a関係
カテゴリ-記事間のis-a関係
61
カテゴリの固有名詞抽出精度
普通名詞にも関わらず英語表記の各形態素の頭文字が全て大
文字のアルファベッドだった場合 -Independent Administrative Institution (独立行政法人)
-Japan Defense Ship (自衛官)
日本語Wikipedia と英語Wikipedia でカテゴリの意味が異なる場合 -日本語Wikipedia のカテゴリ「過去のジャニーズ所属者(普通名詞)」は
英語Wikipedia のカテゴリ「Johnny‘s Jr (固有名詞)」にリンク
エラー解析
62
意味属性別のリーフカテゴリの平均深さ
深さ=最上位カテゴリからリーフカテゴリまでの最長ルートのリンク数
63 63
考察(1/3)カテゴリ分類の際のブートストラップ効果
96
96.5
97
97.5
98
98.5
99
99.5
100
0 1 2 3 4 5 6 7ブートストラップ数
適合
率/再
現率
/F値
[%]
0
500
1000
1500
2000
2500
未抽
出カ
テゴ
リ数
適合率 再現率 F値 未抽出カテゴリ数
最初の分類器出力の適合率が98.3%と高く、全ての出力を次ステップの学習に使用してもほとんど適合率を下げることなく再現率を上げることができた。
64
記事分類精度比較(藤井らの手法)
50
60
70
80
90
100
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total
適合
率[%
]
提案手法
藤田らの手法
50556065707580859095
100
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total
再現
率[%
]
提案手法
藤田らの手法
65
カテゴリ、記事の割合
人23.0%
組織11.6%
施設13.2%地名
10.5%
地形3.2%
具体物5.7%
創作物12.9%
動植物2.3%
イベント3.9%
その他13.7%
人28.6%
組織9.5%
施設14.4%
地名7.4%
地形2.2%
具体物8.2%
創作物12.9%
動植物3.0%
イベント4.1%
その他9.6%
記事 カテゴリ
66
ルートノードの数