View
134
Download
2
Embed Size (px)
Citation preview
1
電気系 山本研究室
学籍番号:07315582 柴木優美
Wikipediaからの
大規模な汎用オントロジー構築
2
• はじめに– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
3
• 背景
背景と目的
– Wikipediaから汎用オントロジーを自動構築する
– 単語の知識の表現方法である「オントロジー」に、日々増えていく単語を人手で追加していくのは手間
• 目的
単語の知識が必要意味解析
評判分析
情報抽出etc.
機械学習
自然言語処理
・更新が早い・人、地名、組織など知識の分野が幅広い (汎用的)
4
カテゴリカテゴリカテゴリカテゴリ
オントロジー :「単語」と「単語の関係関係関係関係」を表したもの
is-a関係
part of 関係F02-BSA002WS009KE
インスタンスインスタンスインスタンスインスタンス
: B is a A (BはAの一つ) が成り立つ関係
オントロジーとは
is-a関係
電話機
携帯電話
液晶
owner関係
人間
5
利用例:評判分析
part of 関係
F02-B
オントロジーの利用例
is-a関係
A:ドコモショップでF-02Bを買おうかと思うんだ。
B:私使ってる~。液晶がきれいだよ。
携帯電話
液晶
ポジティブワード
液晶 きれい 液晶は評判がいい
F-02Bの液晶 きれい F-02Bは評判がいい
オントロジーを利用
6
• おもちゃ• モデル
is-a
既存のオントロジーの例• 日本語語彙大系 インスタンス:30万件 カテゴリ:3,000 件
名詞
具体物 場所
• 歌姫• ボーカリスト
• ダンサー• モデル
具体 抽象
人
歌手 芸人 遊び道具・運動具インスタンス
–人手で作成されたis-a関係からなる大規模なオントロジー
–1つに統一された階層構造をもつカテゴリ
日本語語彙大系のようにis-a関係からなり統一された階層構造をもつ
本研究で扱うオントロジー
7
• Wikipediaのカテゴリ・記事は、部分的にはis-a関係のオントロジーのカテゴリ・インスタンスとして見れそう
自然
変光星 連星
恒星
• 爆発変光星•アメリカ変光星観測者協会
カテゴリ 天体
天文学
• オントロジーと違い語と語のリンクの関係が未定義
• 最上位のカテゴリはジャンルを分類するためのカテゴリ
Wikipedia
天文学者
惑星科学者
技術 社会主要カテゴリ
記事
is-a
not-is-a
not-is-a
is-a
8
本研究で構築するオントロジー
最上位カテゴリ
is-a天文学者
惑星科学者
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
変光星 連星
恒星
• 爆発変光星
天体
最上位カテゴリ
Wikipediaの部分的なオントロジー
1. Wikipediaのis-a関係のリンクを判定し
2. 部分的なオントロジーを構築
3. 部分的なオントロジーを新たに設定した最上位カテゴリに接続し階層を再構成
9
• はじめに– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
10
関連手法と比較した提案手法の工夫点(1/2)
関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]):
文字のパターンマッチでis-a関係を判定
大幅な再現率(網羅性)の向上
工夫点1: is-a関係の判定方法
《効果》
子カテゴリの後方文字列が親カテゴリと一致すれば is-a関係
《ルール》
桜井らの手法
惑星
太陽系外惑星
is-a
問題点:再現率(網羅性)が低い
11
関連手法と比較した提案手法の工夫点(1/2)
関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]):
文字のパターンマッチでis-a関係を判定
大幅な再現率(網羅性)の向上
工夫点1: is-a関係の判定方法
《効果》
子カテゴリの後方文字列が親カテゴリと一致すれば is-a関係
《ルール》
桜井らの手法
問題点:再現率(網羅性)が低い
惑星
太陽系外惑星
is-a
天体××××
12
関連手法 (Ponzetto[2007]、桜井[2008]、小林[2008]):
文字のパターンマッチでis-a関係を判定
=再現率(網羅性)が低い
大幅な再現率の向上
工夫点1: is-a関係の判定方法
提案手法:3種類の手法でis-a関係でないリンクを網羅的に削除し残ったリンクをis-a関係と判定
《効果》
関連手法と比較した提案手法の工夫点(1/2)
13
工夫点2: 1つに統一された階層の構築方法
関連手法 (Suchanek[2007]、小林[2008]) :
既存のオントロジーにWikipediaのカテゴリ-記事対を接続
小林らの手法
人口惑星惑星 太陽系の惑星
内惑星
is-ais-a
天体
日本語語彙大系のカテゴリに、Wikipediaの
is-a関係のカテゴリ-記事対をパターンマッチで接続
問題点:Wikipediaのカテゴリ階層情報が失われる
関連手法と比較した提案手法の工夫点(2/2)
日本語語彙大系
is-a関係のカテゴリ-記事対
14
工夫点2: 1つに統一された階層の構築方法
Wikipediaの階層情報をできるだけ生かしつつ1つにまとまった階層を構築できる
提案手法:Wikipediaの部分的なオントロジーの階層を新たに設定した最上位カテゴリに接続する
《効果》
関連手法と比較した提案手法の工夫点(2/2)
関連手法 (Suchanek[2007]、小林[2008]) :
既存のオントロジーにWikipediaのカテゴリ-記事対を接続
= Wikipediaのカテゴリ階層の情報が失われる
15
• はじめに– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
16
意味が抽象的な単語を含む
意味的に類似していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物組織 創作物 施設
抽象的
is-a関係でないリンクの判定(3/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
17
意味が抽象的な単語を含む
意味的に類似していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
抽象的 抽象的
創作物組織 創作物 施設
技術 道具抽象的
固有名詞 固有名詞
is-a関係でないリンクの判定(1/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
18
意味が抽象的な単語を含む
意味的に類似していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
抽象的 抽象的
創作物組織 創作物 施設
技術 道具抽象的
固有名詞 固有名詞
意味を判定する問題
1.意味属性分類問題
=
is-a関係でないリンクの判定(1/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
19
意味が抽象的な単語を含む
意味的に類似していない
社会 経済
集英社 少年ジャンプ 書物 図書館
抽象的 抽象的
創作物組織 創作物 施設
技術 道具抽象的 意味を判定する問題
1.意味属性分類問題
=
9種類 の意味属性を設定
どの意味属性にも分類されない単語 = 抽象的親子の意味属性が違う = 意味的に類似していない
手法: SVM による分類器でカテゴリと記事を分類
is-a関係でないリンクの判定(1/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
20
意味が抽象的な単語を含む
意味的に類似 していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物組織 創作物 施設
抽象的
is-a関係でないリンクの判定(2/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
21
意味が抽象的な単語を含む
意味的に類似 していない
親名が固有名詞
○○←○○××の関係
is-a関係でないリンクの判定(2/3)
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物組織 創作物 施設
抽象的
2.固有名詞抽出問題
・既存の辞書を利用-単語が固有名詞として辞書登録されていれば固有名詞
・英語Wikipediaの表記を利用-各形態素の頭文字が大文字なら固有名詞 (例:The Beatles)
is-a関係でないリンクの判定(2/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
22
意味が抽象的な単語を含む
意味的に類似 していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物組織 創作物 施設
抽象的
3.パターンマッチ
is-a関係でないリンクの判定(3/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
23
意味が抽象的な単語を含む
意味的に類似 していない
親名が固有名詞
○○←○○××の関係
社会 経済
集英社 少年ジャンプ 書物 図書館
少年ジャンプ ONE PIECE 新潟県 長岡市
火星 火星の衛星 缶 缶コーヒー
技術 道具
固有名詞 固有名詞
抽象的 抽象的
創作物組織 創作物 施設
抽象的
2.固有名詞抽出問題
1.意味属性分類問題
3.パターンマッチ
カテゴリ間、カテゴリ-記事間のリンクに適用し、どれにも当てはまらないリンクをis-a関係とする
is-a関係でないリンクの判定(3/3)is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
24
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
技術者
楽器製作者
アマティ 楽器
道具
工業製品メーカー
ヤマハ
スタインバーグ
材料
岩石
銅の加工物
銅
エレクトーン
ヴァイオリン
演奏家
同じ意味属性からなる部分的なオントロジーができる
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
カテゴリ
記事
3手法を用いて9種類の意味属性以外のカテゴリ・記事
とis-a関係でないリンクを削除
部分的なオントロジーの構築
ルート記事
is-a
is-a
人
組織
具体物
判定した意味属性
25
技術者
楽器製作者
アマティ
楽器
道具
工業製品メーカー
ヤマハ
スタインバーグ
岩石
銅の加工物
銅
エレクトーンヴァイオリン
演奏家
最上位カテゴリ最上位カテゴリ最上位カテゴリ最上位カテゴリ(意味属性意味属性意味属性意味属性)に部分的なオントロジーを接続
人 組織 具体物
最上位カテゴリ
最上位カテゴリ
材料
-ルートカテゴリ、ルート記事を同じ意味属性の下位に接続
カテゴリ
記事
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
階層の再構成
Wikipediaの階層をオントロジーの階層に再構成できた
人
組織
具体物
判定した意味属性
26
• はじめに– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
27
実験結果と考察 (1/3)カテゴリ間、カテゴリ-記事間のis-a関係判定精度
- 3手法を用いてis-a関係でないリンクを削除する手法は再現率の向上に有効
67.993.057.797.6
+24.0+3.6+24.2-1.9差分
再現率適合率再現率適合率判定手法
小林らの手法桜井らの手法
比較手法
91.981.9 96.695.7提案手法
カテゴリ-記事間カテゴリ間
評価データ数 :各2500件
パターンマッチでは抽出できないis-a関係を抽出
(精度) (網羅性) (精度) (網羅性)
例: 携帯電話アプリ←EZ助手席ナビ、 ベーシスト←ボブ・デイズリー
28
• 提案手法において再現率を下げる原因
再現率適合率再現率適合率判定対象
91.981.9 96.695.7全てのカテゴリ・記事を対象
カテゴリ-記事間カテゴリ間
-分類器が作れるほどのカテゴリ・記事がない意味属性は対象外にしているため (例:スポーツ、規則、賞)
学習データを増やし、意味属性を追加すれば再現率を向上できる
実験結果と考察 (2/3)
95.696.296.695.39種類の意味属性を対象
-9種類の意味属性に限定すれば再現率は高い
29
構築したオントロジーの規模
- 全ての項目で比較対象より数が多い
実験結果と考察 (3/3)
2.7
64万
3.3万
0.3万
30万
2.3倍6.2桜井ら
の手法末端のカテゴリの平均深さ
1.3倍83万小林ら
の手法
カテゴリ-記事間のis-a関係数
1.5倍5万桜井ら
の手法カテゴリ間のis-a関係数
11.3倍3.4万(Wiki全体の88.6%)
カテゴリ数
1.4倍42万(Wiki全体の84.5%)日本語
語彙大系
記事数
(インスタンス数)
比率提案手法比較対象抽出項目
30
• はじめに– 背景と目的、オントロジーとWikipedia
• 関連手法と比較した提案手法の工夫点
• 提案手法
• 実験結果と考察
• おわりに
– まとめ、今後の課題
目次
31
おわりに
・ Wikipedia全体の84.5%のカテゴリと88.6%の記事を
1つの階層からなるオントロジーに組みこめた
・ 3手法でis-a関係でないリンクを判定することで、
関連手法より再現率が約24ポイント向上した
・ 学習データを増やし、意味属性を追加することで
さらなる再現率の向上を図る
まとめ
今後の課題
近日、構築したオントロジーを公開予定
32
ご清聴ありがとうございました
33
補足資料
34
桜井らの手法と本手法による抽出できるis-a関係の違い
• 桜井らの手法では末尾の形態素が一致したものがとれない
• 提案手法では、9種類の意味属性以外のis-a関係がとれない
35
小林らの手法と本手法で抽出できるis-a関係の違い
小林らの手法のみで抽出できたis-a関係
• 桜井らの手法では未知のカテゴリ名を含むis-a関係がとれない
• 提案手法では、9種類の意味属性以外のis-a関係がとれない
提案手法のみで抽出できたis-a関係
36
意味属性の設定方針
1. 抽象的でない意味属性を網羅している
2. 一般的なオントロジーの粒度10前後の分類→「日本語語彙大系」なら第4階層、「関根の拡張固有表現
階層」なら第1階層
3. 分類器がつくれるほどのカテゴリ・記事数がある→学問名、規則名などは対象外
9種類 の意味属性 人 組織 施設 地名 地形 具体物 創作物 動植物 イベント
37
- 再現率(網羅率)をできるだけ下げずに適合率(抽出精度)を上げることが望ましい
is-a関係でないリンク判定の手法別精度
再現率適合率再現率適合率判定手法
10074.710072.1全てのリンクをis-a関係とする
91.8
92.799.199.9
81.9
82.599.499.4
96.695.73手法の組合せ
94.582.775.5
91.978.279.2
1.意味属性分類
2.固有名詞抽出
3.文字列照合
カテゴリ-記事間カテゴリ間
カテゴリ間、カテゴリ-記事間のis-a関係判定精度
評価データ数 各2500件
38
- 再現率(網羅率)をできるだけ下げずに適合率(抽出精度)を上げることが望ましい
is-a関係でないリンク判定の手法別貢献度
評価データ数 各2500件
39
is-a関係でないリンク判定の手法別貢献度
各手法のみで抽出できたis-a関係の例
40
適合率を下げるエラー
1. 意味属性分類を誤った場合
2. 固有名詞抽出を誤った場合
3. 3 種類のis-a 関係判定手法の精度が100%でも判定できないis-a 関係の場合
– 血液←血球
– 日本の内閣総理大臣←内閣総理大臣夫人
– 千葉県の道路←千葉県の道の駅
0.7~1.1ポイント、適合率を低下させる=全体から見れば少数の例外
41
• 9種類の意味属性以外のis-a関係は抽出できないため– スポーツ←各国のスポーツ
– 経済←日本の経済
• 親子の意味属性が違っても、is-a関係が成り立つ場合– チュニジアの世界遺産(具体物) ←イシュケル湖(地形)– ラムサール条約登録地(地名)←マレー湾(地形)
• 親名が固有名詞でもis-a関係が成り立つ場合– 沖縄県営鉄道←沖縄県営鉄道糸満線
• ○○←○○××でもis-a関係が成り立つ場合– 映画←映画作品
再現率を下げるエラー
42
技術者
楽器製作者
技術
主要カテゴリ
アマティ 楽器
道具
製造業
工業製品メーカー
製造
ヤマハ
演奏家スタインバーグ
せん断
材料
岩石
銅の加工物
銅アマティ
Wikipediaの階層構造
エレクトーンエレクトーン
ヴァイオリン
カテゴリ
記事
3手法を用いて9種類の意味属性以外のカテゴリ・記事
とis-a関係でないリンクを削除
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
部分的なオントロジーの構築
43
人
組織
具体物
判定した意味属性
技術者
楽器製作者
技術
主要カテゴリ
アマティ 楽器
道具
製造業
工業製品メーカー
製造
ヤマハ
演奏家スタインバーグ
せん断
材料
岩石
銅の加工物
銅アマティ
Wikipediaの階層構造
××
×
×エレクトーンエレクトーン
ヴァイオリン
××
×
×
×9種類の意味属性以外
カテゴリ
記事
3手法を用いて9種類の意味属性以外のカテゴリ・記事
とis-a関係でないリンクを削除
手法3,パターンマッチ
手法1.意味属性分類
手法1, 意味属性分類
手法2.固有名詞抽出
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
部分的なオントロジーの構築
44
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
技術者
楽器製作者
アマティ 楽器
道具
工業製品メーカー
ヤマハ
スタインバーグ
材料
岩石
銅の加工物
銅
エレクトーン
ヴァイオリン
演奏家
同じ意味属性からなる部分的なオントロジーができる
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
ルートカテゴリ
人
組織
具体物
判定した意味属性
カテゴリ
記事
3手法を用いて9種類の意味属性以外のカテゴリ・記事
とis-a関係でないリンクを削除
部分的なオントロジーの構築
ルート記事
45
技術者
楽器製作者
アマティ
楽器
道具
工業製品メーカー
ヤマハ
スタインバーグ
岩石
銅の加工物
銅
エレクトーンヴァイオリン
演奏家
最上位カテゴリ最上位カテゴリ最上位カテゴリ最上位カテゴリ(意味属性意味属性意味属性意味属性)に部分的なオントロジーを接続
人 組織 具体物
名詞
最上位カテゴリ
材料
-ルートカテゴリ、ルート記事を同じ意味属性の下位に接続
カテゴリ
記事
is-a関係でないリンクの判定 ⇒ 部分的なオントロジーの構築 ⇒ 階層の再構成
階層の再構成
人
組織
具体物
判定した意味属性
46
素性に使う単語
カテゴリ・記事名、周辺のカテゴリ・記事名、記事の本文中の単語
主な素性各単語の末尾の形態素
例: 新潟県→県
日本語語彙大系を用いて抽象化した単語
例: 総理大臣→政治家、人
-SVM による分類器で分類-one-vs-rest法 (2値分類を多値分類に拡張する手法)を用いる
カテゴリと記事を意味属性に分類
1. 意味属性分類 によるis-a関係でないリンク判定
意味属性分類の機械学習のための学習データ数・ カテゴリ分類 :2,000件 ・ 記事分類:11,554件
4747
対象カテゴリに分類されている全ての記事の定義文から抽出した上位語
対象カテゴリと同名記事の定義文から抽出した上位語
音楽家は、曲を作ったり、演奏したりする人のこと。
音楽家音楽家音楽家音楽家
音楽家
•ライター
•小説家
対象カテゴリ
音楽関係者
親カテゴリ
子カテゴリ
指揮者
素性のための単語
カテゴリの周辺単語6種類 (主に一般名詞から成る)
b
c
d
e
a
48
対象カテゴリと同名記事の定義文から抽出した上位語
子供は、年齢の若い者を指す
子供子供子供子供
子供(意味属性:未決)
対象カテゴリ
人の一生(意味属性:その他の名詞)
親カテゴリ
子カテゴリ
児童文学(意味属性:創作物)
ブートストラップ時に設定する素性
カテゴリの周辺単語6種類 (主に一般名詞から成る)
be
a
子カテゴリ
子役(意味属性:人)
c“者”は意味属性が”人”にマッチし、”子役”も意味属性”人”に分類されている
※ (意味属性:○○)は、前ステップまでに分類された意味属性を表す
・両者とも語彙大系カテゴリ”少年・少女”に属する
49
記事分類のための素性
・・・・・・・意味属性 :具体物
・・・意味属性 :具体物
・・・・・・・意味属性 :具体物
・・・・・・・意味属性 :その他の名詞
a
b
c
d
50
超補足資料
51
2. 固有名詞抽出 によるis-a関係でないリンク判定
形態素解析ツールMeCabを用いる手法
英語Wikipediaを用いる手法
-各形態素の頭文字が大文字なら固有名詞
例:The Beatles-記事の文中で、単語の頭文字が大文字なら固有名詞
例: Fifteen prime ministers in Japan have studied at University of Tokyo.
-○県や○市、辞書に登録されている固有名詞を表示
例: 長岡市、遠藤周作
52
意味属性別のis-a関係判定精度(グラフ)
カテゴリ間のis-a関係
カテゴリ-記事間のis-a関係
53
カテゴリの固有名詞抽出精度
普通名詞にも関わらず英語表記の各形態素の頭文字が全て大文字のアルファベッドだった場合
-Independent Administrative Institution (独立行政法人)-Japan Defense Ship (自衛官)
日本語Wikipedia と英語Wikipedia でカテゴリの意味が異なる場合-日本語Wikipedia のカテゴリ「過去のジャニーズ所属者(普通名詞)」は
英語Wikipedia のカテゴリ「Johnny‘s Jr (固有名詞)」にリンク
エラー解析
54
意味属性別の分類精度(グラフ)
8082
8486
889092
9496
98100
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total
適合
率/再
現率
/F値
[%]
適合率
再現率
8082
8486
889092
9496
98100
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total
適合
率/再
現率
/F値
[%]
適合率
再現率
カテゴリ分類
記事分類
55
意味属性別のリーフカテゴリの平均深さ
深さ=最上位カテゴリからリーフカテゴリまでの最長ルートのリンク数
5656
考察(1/3)カテゴリ分類の際のブートストラップ効果
96
96.5
97
97.5
98
98.5
99
99.5
100
0 1 2 3 4 5 6 7ブートストラップ数
適合
率/再
現率
/F値
[%]
0
500
1000
1500
2000
2500
未抽
出カ
テゴ
リ数
適合率 再現率 F値 未抽出カテゴリ数
最初の分類器出力の適合率が98.3%と高く、全ての出力を次ステッ
プの学習に使用してもほとんど適合率を下げることなく再現率を上げることができた。
57
記事分類精度比較(藤田らの手法)適合率 再現率 F値
藤田ら 91.1 85.7 88.3提案手法 97.2 91.7 94.4差分 + 6.2 + 6.0 + 6.1
50
60
70
80
90
100
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total
適合
率[%
]
提案手法
藤田らの手法
50556065707580859095
100
人 組織 施設 地名 地形 具体物 創作物 動植物 イベント total
再現
率[%
]
提案手法
藤田らの手法
※カテゴリに同じ意味属性がない記事も分母に入れているので再現率低い
58
カテゴリ、記事の割合
人23.0%
組織11.6%
施設13.2%地名
10.5%
地形3.2%
具体物5.7%
創作物12.9%
動植物2.3%
イベント3.9%
その他13.7%
人28.6%
組織9.5%
施設14.4%
地名7.4%
地形2.2%
具体物8.2%
創作物12.9%
動植物3.0%
イベント4.1%
その他9.6%
記事カテゴリ
59
ルートノードの数