Upload
ntt-communications
View
104
Download
8
Embed Size (px)
Citation preview
決定ルール解析のための頑健性指標
大阪大学大学院 基礎工学研究科
大木基至 乾口雅弘
2013.03.09 第23回ソフトサイエンス・ワークショップ
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 1/20
00. 目次
01. 背景と目的
02. 準備
03. 頑健性指標
04. 非必須性指標
05. 数値実験
06. まとめ
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 2/20
01. 背景
• ラフ集合に基づく決定ルール(if-thenルール)解析の実問題への応用が盛んに行われている
決定ルール:スポーツタイプ(c1)なら好き(1) 色彩系(a1)かつセダンタイプ(c2)なら好き(1)
決定表(自動車の選好データ)
条件部 結論部
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 3/20
01. 目的
• 一部の属性値情報が利用できなくなっても,推定精度を維持できるルールが望ましい
⇒ 決定ルールの頑健性を定量的に測る指標の提案
抽出した n 個の決定ルール:r1,r2,r3,… ,rn
選好の推定に適用
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 4/20
02. 準備
決定表の表記
対象の集合U 全基本条件の集合A 決定属性値の集合D
決定ルールの表記
ES:基本条件集合,H:結論部
:基本条件
R:決定ルールの集合
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 5/20
03. 頑健性指標:概念
決定ルールの頑健性とは
• ルール条件部の一部が利用できなくなったときに,どの程度ルールの良さを保てるか
∧ ∧ E1 E2 E3 ∧ ∧
E4
E5 H
抽出された二つのルール
∧ ∧ E1’ E2’ E3’ ∧ ∧ E4’ E5’ H
E4
E4’ と が利用できなくなる
確信度:0.85
確信度:0.95
∧ ∧ E1 E2 E3 ∧ ∧ E5 H
∧ ∧ E1’ E2’ E3’ ∧ ∧ E4’4 E5’ H
E4 確信度:0.75
⇒ 確信度を維持
確信度:0.30
⇒ 確信度が減少
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 6/20
03. 頑健性指標:影響度
基本条件集合ESの一部PSが欠損した場合の影響度Eff
• : 結論部H における基本条件集合ESの評価関数
性質2. f は ならば、
⇒ 単調性の性質。条件を減らせば、それだけ評価が悪くなる
• 評価関数 f は以下の性質を満たすものとして定める
性質1. f は
⇒ 決定ルールは正の値を取る
: の部分集合
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 7/20
性質2. ⇒ 単調性の性質。欠如する集合が大きいほど、影響度は大きい
性質1. ⇒ 影響度は最小値0, 最大値1を取る
• f の性質より、影響度 Eff は以下の性質を満たす
なら、
,
• 部分集合 PS が欠損することで、決定ルール ES → H の評価値の減少量を表す
03. 頑健性指標:影響度
基本条件集合ESの一部PSが欠損した場合の影響度Eff
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 8/20
1. 期待値基準:影響度の平均を取る見方
2. メディアン基準:影響度の中央値を取る見方
03. 頑健性指標:6種類の基準
3. マキシミン基準:悲観的な見方
各基準に基づく頑健性指標
• 不確実性の下での決定基準に基づき定義する
• 一つの基本条件が欠損する場合
P(e):基本条件 e が利用できなくなる確率
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 9/20
03. 頑健性指標:6種類の基準
4. マキシマックス基準:楽観的な見方
6. フルビッツ基準:3と4の凸結合,中間的な見方
5. Q分位基準:Q分位点を取る見方
ただし,α =[0,1]
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 10/20
04. 非必須性指標:概念
∧ ∧ E1 E2 E3 ∧ ∧
E4
E5 H
抽出された二つのルール
E4
E4’ と が利用できなくなり,
確信度:0.85
確信度:0.95
∧ ∧ E1 E2 E3 ∧ ∧ E5 H
∧ ∧ E6’ E5’ H
E6 確信度:0.80
⇒ 確信度を維持
確信度:0.40
⇒ 確信度が減少
決定ルールの非必須性とは
• ルール条件部の一部が利用できなくなったときに,他の条件で代用し,どの程度ルールの良さを保てるか
E6 E6’ と を使用する
∧ ∧ E1’ E2’ E3’ ∧ ∧ E4’ E5’ H
∧ ∧ E1’ E2’ E3’
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 11/20
04. 非必須性指標:影響度
基本条件集合ESの一部PS1をPS2で代用した場合の代替不能度
⇒ PS2 は PS1 に属さない要素を持つ集合
• PS2 は を満たす集合
性質3. 単調性の性質。代用される条件が多いほど、代替不能度は大きい
性質1, 2. 代替不能度は最小値0,最大値1をとる
• 評価関数 f の性質より、代替不能度 Eff は以下の性質を満たす
ならば、
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 12/20
04. 非必須性指標:3つの異なる場合
A. 利用できなくなる基本条件がわかっている場合 (例)E3 が利用できなくなり,他の基本条件で代替する
∧ ∧ E1 E2 ? ∧ ∧ E5 H E4
∧ ∧ E1 E2 E3 ∧ ∧ E5 H E4
この場合,代替する基本条件は最も代替不能度を小さくする基本条件が望ましいので,次式で定まる
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 13/20
B. 代替する基本条件が定められている場合 (例)条件部のいずれか一つが欠損し,基本条件E6で代替する
∧ ∧ E1 E2 E3 ∧ ∧ E5 H E4
E6
この場合,複数の基準が考えられるため,頑健性指標と同様に六つの基準で定められる
1. 期待値基準
*残り五つの基準でも定められる
04. 非必須性指標:3つの異なる場合
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 14/20
C. いずれの基本条件も定まっていない場合 (例)条件部のいずれか一つが欠損し、他の基本条件で代用する
各基本条件が欠損する可能性があり,代用する基本条件は最も代替不能度を小さくする基本条件で定めるため,複数の基準が考えられる
∧ ∧ E1 E2 E3 ∧ ∧ E5 H E4
?
1. 期待値基準
04. 非必須性指標:3つの異なる場合
*残り五つの基準でも定められる
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 15/20
05. 数値実験1:概要
一つの条件属性が欠損した決定表でのルールの正答率評価
実験目的:頑健性指標が適切な結果を示すかどうか
訓練用
データ ルール
の抽出
r1:R-Mean値=0.70
r2:R-Mean値=0.30
r3:R-Mean値=0.90
rn:R-Mean値=0.50
降順に並べる
r3:R-Mean値=0.90
r1:R-Mean値=0.70
rn:R-Mean値=0.50
r2:R-Mean値=0.30
正答率:80%
正答率:60%
上位α %
のルール群
下位α %
のルール群
欠損 上位α %,
下位α %,
ランダムα %
のルール群を
取り出す
(α =10~90)
検証用
データ
ランダムα %のルール群
正答率:40% 検証用
データ
検証用
データ
欠損
欠損
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 16/20
05. 数値実験1:概要
使用した8種類のUCI Machine Learning データ
評価関数 f と 一つの基本条件 e が利用できなくなる確率P(e)
:条件部を満たす対象のうち、結論部を
満たす対象の割合(Accuracy)
|C|:条件属性数
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 17/20
05. 数値実験1:結果
R-Mean値の上位と下位の比較結果(1条件欠損した決定表)
7個のデータで上位の決定ルール群を用いた方が正答率が高かった
⇒ 頑健性指標が適切な結果を示すことが確認できた
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 18/20
05. 数値実験2:概要
完全な決定表でのルールの正答率評価
実験目的:頑健性が高いルールが正答率が高いかどうか
訓練用
データ ルール
の抽出
r1:R-Mean値=0.70
r2:R-Mean値=0.30
r3:R-Mean値=0.90
rn:R-Mean値=0.50
降順に並べる
r3:R-Mean値=0.90
r1:R-Mean値=0.70
rn:R-Mean値=0.50
r2:R-Mean値=0.30
正答率:90%
正答率:80%
上位α %
のルール群
下位α %
のルール群
上位α %,
下位α %,
ランダムα %
のルール群を
取り出す
(α =10~90)
検証用
データ
ランダムα %のルール群
正答率:60% 検証用
データ
検証用
データ
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 19/20
05. 数値実験2:結果
R-Mean値の上位と下位の比較結果(完全な決定表)
7個のデータで上位の決定ルール群を用いた方が正答率が高かった
⇒ 頑健性指標が正答率の向上に有用であることが確認できた
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 20/20
06. まとめ
本研究の成果
• 一つの基本条件による影響度を定義し,それに基づく頑健性指標を提案した
• 頑健性指標を拡張し,非必須性指標を提案した
• 数値実験により,R-Mean値が高い決定ルール群が正答率の向上に有用であることを確認した
今後の課題
• 複数の基本条件が欠損したときの頑健性指標の提案
• 頑健性の高いルールの抽出アルゴリズムの開発
• 決定ルール群に対する頑健性指標の提案
ご清聴ありがとうございました
大阪大学大学院 基礎工学研究科
大木基至 乾口雅弘
2013.03.09 第23回ソフトサイエンス・ワークショップ
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 22/20
05. ルール抽出法:MLEM2
決定表内のすべての対象が少なくとも一つの決定ルールにより説明される範囲で、一つの極小な決定ルール群を抽出する
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 23/20
05. 数値実験:使用したデータ
使用した8種類のUCI Machine Learning データ
各データの決定ルールの条件部の平均の長さ
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 24/20
05. 数値実験:R-Mean値のヒストグラム
car:0.5以上が約90% ecoli:正規分布に近い
glass:0.7以上が約90% iris:0.9以上が約40%
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 25/20
nursery:0.8以上が約60% soybean:0.8以上が約90%
wine:0.9以上が約98% zoo:0.9以上が約70%
05. 数値実験:R-Mean値のヒストグラム
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 26/20
05. 数値実験:結果
MLEM2に基づく正答率評価:R-Mean値の上位α %のルール
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 27/20
05. 数値実験:結果
MLEM2に基づく正答率評価:R-Mean値の下位α %のルール
減少する傾きが小さくなる傾向に
⇒ R1-Lap値が高いルールほど、
正答率の維持に貢献している
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 28/20
05. 数値実験:結果
MLEM2に基づく正答率評価:R-Mean値の上位α %のルール
Inuiguchi Lab.
2013.03.09 第23回ソフトサイエンス・ワークショップ 大木基至・乾口雅弘 29/20
05. 数値実験:結果
MLEM2に基づく正答率評価:R-Mean値の下位α %のルール