View
0
Download
0
Category
Preview:
Citation preview
デフォルト確率推定モデル作成におけるWOE変換の役割とその利用
氏名 : 大勢待 利明(おおせまち としあき)
所属名 : 株式会社 数理技研部署属名 : 金融工学センター
The use of WOE
in a model to estimate PD
Name : Toshiaki Ohsemachi
Department, Corporate
Financial Engineering Center, SURIGIKEN CO.,LTD.
2
本日の発表の流れ
もくじ
1 WOE変換の意義と重要性
2 発想の原点
3 WOEとは
4 WOEの利用手順
5 モデル作成・検証でのWOEの利用方法
6 モデル・モニタリングでのWOEの利用方法
7 まとめ
3
1 WOE変換の意義と重要性
クレジットデータ
デフォルトor
正常
どのロジックで解くか? 結果に大きな違いはない・・・
①スコアリングに使用するモデル自体は飽和状態②ロジック選択に依存したスコアリング・モデル の精度向上の時代は終焉を迎えつつある
)exp(
011)()( nn
xaxatStS
++…=
)( 111
1bxaxa nne
y++…+−+
=
生存時間生存時間生存時間生存時間モデルモデルモデルモデル生存時間生存時間生存時間生存時間モデルモデルモデルモデル
ロジステックロジステックロジステックロジステック回帰回帰回帰回帰モデルモデルモデルモデルロジステックロジステックロジステックロジステック回帰回帰回帰回帰モデルモデルモデルモデルデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリー ニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワーク
遺伝的遺伝的遺伝的遺伝的プログラミングプログラミングプログラミングプログラミング遺伝的遺伝的遺伝的遺伝的プログラミングプログラミングプログラミングプログラミング サポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシン
hXWXF iT −= *)(
生存時間モデルの結果
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 2 4 6 8 10 12 14 16 18 20 22 24
生存
確率
企業A
企業B
企業C
変数加工変数加工変数加工変数加工変数加工変数加工変数加工変数加工((((((((前処理前処理前処理前処理前処理前処理前処理前処理))))))))
モデル作成に有効な変数を準備できるかどうかが勝負
WOE変換
4
変数の値とデフォルト率の関係を線型にできれば・・・
年齢層のデフォルト率の分布(生データ)
0
0.2
0.4
0.6
0.8
1
1.2
missing 20-22 23-26 27-29 30-35 35-44 44+年齢層
2 発想の原点
1変数で考えた場合
年齢層
モデル作成用データ
評価用データ
当てはめ
20代と50代は、違うデフォルト率を算出
baxy +=
20代と50代は同じデフォルト率だが、線形モデルでは違う水準
WOE変換
生データの場合より精度up
5
P_Normal P_Default Default年齢層 カテゴリ値1 count Normals attribute Defaults attribute rate WOE値 カテゴリ値2missing missing 50 42 2.3% 8 4.1% 16.0% 0.579 0.57920-22 20 200 152 8.4% 48 24.9% 24.0% 1.084 1.08423-26 23 300 246 13.6% 54 28.0% 18.0% 0.720 0.72027-29 27 450 405 22.4% 5 2.6% 1.1% -2.158 -2.15830-34 30 500 475 26.3% 25 13.0% 5.0% -0.708 -0.70835-44 35 350 339 18.8% 11 5.7% 3.1% -1.191 -1.19144+ 44 150 147 8.1% 3 1.6% 2.0% -1.655 -1.655合計 2000 1807 193 9.7%
3 WOEとは
ターゲットとする変数が、デフォルトか正常かの2値の場合
1950年、ジョン・グッド(統計学者)が提唱、地質学の分野で応用。その後、医療の分野でも利用。近年、信用リスクの分野でも外資系の金融機関で利用され始めている。
totalattributeattribute Normal OfNumber / Normal OfNumber P_Normal =
totalattributeattribute Default OfNumber / Default OfNumber P_Default =
( )attributeattributeattribute P_Normal / P_DefaultlogEvidence Of Weights =
出典: Bart Baesens(2005)
WOE(Weights Of Evidence)
由来
6
4 WOEの利用手順
• 4.1 連続変数をカテゴリ変数に変換
• 4.2 カテゴリ変数を連続変数に変換
• 4.3 安定性のある変数の作成
• 4.4 有効な変数の選択
連続変数をカテゴリ変数へ
カテゴリ変数をWOE変換
CAP曲線差変数安定
IVで変数選択
7
4.1 連続変数をカテゴリ変数に変換
連続変数連続変数連続変数連続変数連続変数連続変数連続変数連続変数 分散分析(=ANOVA(=Analysis of Varinace))で連続変数をカテゴリ化
20才 70才欠損値
カテゴリ1-1 カテゴリ1-2 カテゴリ2-1 カテゴリ2-2
20才 26才27才 70才29才22才欠損値
2回目
・・・
n回目 最小区切りは?
カテゴリ2-2-1
70才29才
カテゴリ2-2-2
35才
3回目 ・・・欠損値
カテゴリ1 カテゴリ2
26才
1回目
カテゴリ化 デフォルト率の差が最大になる年齢で、2つのグループに分離
8
4.2 カテゴリ変数をWOE変換
P_Normal P_Default Default年齢層 カテゴリ値1 count Normals attribute Defaults attribute rate WOE値 カテゴリ値2missing missing 50 42 2.3% 8 4.1% 16.0% 0.579 0.57920-22 20 200 152 8.4% 48 24.9% 24.0% 1.084 1.08423-26 23 300 246 13.6% 54 28.0% 18.0% 0.720 0.72027-29 27 450 405 22.4% 5 2.6% 1.1% -2.158 -2.15830-34 30 500 475 26.3% 25 13.0% 5.0% -0.708 -0.70835-44 35 350 339 18.8% 11 5.7% 3.1% -1.191 -1.19144+ 44 150 147 8.1% 3 1.6% 2.0% -1.655 -1.655合計 2000 1807 193 9.7%
年齢層のデフォルト率の分布(生データ)
0.0%
5.0%
10.0%
15.0%
20.0%
25.0%
30.0%
missing 20-22 23-26 27-29 30-35 35-44 44+年齢層
カテゴリ値1
Default
rate
欠損値
カテゴリ値1は、名目値にすぎないので、カテゴリ値2それ自体をWOE値に置き換える。
年齢層をWOE変換・カテゴリ値をWOE値に置換
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
-3 -2 -1 0 1 2
カテゴリ値2
WOE値
線型線型線型線型モデルモデルモデルモデルにににに線型線型線型線型モデルモデルモデルモデルにににに完全完全完全完全にににに当当当当てててて嵌嵌嵌嵌るるるる完全完全完全完全にににに当当当当てててて嵌嵌嵌嵌るるるる
形式形式形式形式にににに変換変換変換変換形式形式形式形式にににに変換変換変換変換
出典: Bart Baesens(2005)
9
4.3 安定性のある変数の作成 (区切りの調整)
年 齢
変 数 変 換
用 デ ー タ
検 証 用
デ ー タ
変換手続作成
カテゴリ変数にWOE変換
年齢層をWOE変換・カテゴリ値をWOE値に置換
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
-3 -2 -1 0 1 2
4.2 カテゴリ変数をWOE変換
変数変換用データと検証用データ
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100
一変数レベルでCAP曲線比較
一致
連続変数をカテゴリ変数へ
4.1分散分析で連続変数をカテゴリ化
変換手続検証
変数変換用データ
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100
検証用データ
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100
CAP曲線 CAP曲線
安定安定安定安定したしたしたした変数変数変数変数安定安定安定安定したしたしたした変数変数変数変数としてとしてとしてとして採用採用採用採用としてとしてとしてとして採用採用採用採用
最小区切りを調整
変数変換用データと検証用データ
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100
乖離
CAP曲線による変数の安定性の確認
10
4.4 有効な変数の選択方法
( )attributeWOE*)P_Normal - (P_DefaultIV attributeattribute∑=
InformationValue (=IV)による変数の有効性の確認
変数変数変数変数のののの影響力影響力影響力影響力< 0.02:unpredictive
0.02 – 0.1 : weak
0.1 - 0.3 : medium
0.3 + : strong
P_Normal P_Default Default年齢層 カテゴリ値1 count Normals attribute Defaults attribute rate WOE値 カテゴリ値2missing missing 50 42 2.3% 8 4.1% 16.0% 0.579 0.57920-22 20 200 152 8.4% 48 24.9% 24.0% 1.084 1.08423-26 23 300 246 13.6% 54 28.0% 18.0% 0.720 0.72027-29 27 450 405 22.4% 5 2.6% 1.1% -2.158 -2.15830-34 30 500 475 26.3% 25 13.0% 5.0% -0.708 -0.70835-44 35 350 339 18.8% 11 5.7% 3.1% -1.191 -1.19144+ 44 150 147 8.1% 3 1.6% 2.0% -1.655 -1.655合計 2000 1807 193 9.7%
InformationValue = 0.066
出典: Bart Baesens(2005)
11
変数加工(前処理)の完成
5 モデル作成・検証でのWOEの利用方法元データ
変 数 変 換
用 デ ー タ
検 証 用
デ ー タ
モ デ ル 作 成 用
デ ー タ ス コ ア デ ー タ
生データの場合より精度up+安定性あり
連続変数をカテゴリ変数へ
カテゴリ変数をWOE変換
分散分析で連続変数をカテゴリ化 年齢層をWOE変換・カテゴリ値をWOE値に置換
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
-3 -2 -1 0 1 2カテゴリ変数をWOEWOEWOEWOE変換変換変換変換
変数加工変数加工変数加工変数加工
連続変数をカテゴリ変数へ
カテゴリ変数をWOE変換
モデル作成
連続変数をカテゴリ変数へ
カテゴリ変数をWOE変換
変数変換用データと検証用データ
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100
安定安定安定安定したしたしたした変数変数変数変数安定安定安定安定したしたしたした変数変数変数変数をををを採用採用採用採用をををを採用採用採用採用
CAP曲線
変数選択変数選択変数選択変数選択
( )attributeWOE*)P_Normal - (P_DefaultIV attributeattribute∑=
CAP線差安定確認
IVで変数選択
CAP曲線の モデル作成用
最大差 InformationValue 安定性 影響力 変数として
年齢層 0.05 0.066 ○ ×変数A 0.02 0.6 ○ ○ 採用変数B 0.12 0.4 × ○変数C 0.4 0.4 ○ ○ 採用変数D 0.2 0.1 ○ △
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
評価
ex変数選択のための一覧表
12
6 モデル・モニタリングでのWOEの利用方法
2008年n月
クレジットデータデフォルトor正常
2008年n+6月
クレジットデータデフォルトor正常
分散分析で連続変数をカテゴリ化
カテゴリ変数をWOEWOEWOEWOE変換変換変換変換
分散分析で連続変数をカテゴリ化
カテゴリ変数をWOEWOEWOEWOE変換変換変換変換
変数加工変数加工変数加工変数加工手続手続手続手続
モデル作成
変動があれば変数を変えてモデル再構築
モデル
CAP曲線
( )attributeWOE*)P_Normal - (P_DefaultIV attributeattribute∑=
モデル
CAP曲線
( )attributeWOE*)P_Normal - (P_DefaultIV attributeattribute∑=
変数選択変数選択変数選択変数選択
一変数レベルでCAP曲線とIV比較 一変数レベルでの変数の安定性
変数の有効性をチェック
比較
13
7 まとめ
WOE変換
①生データを線型に変換
③モデル・モニタリングに利用可能
②生データの場合より精度up+安定性のあるモデルの作成が可能連続変数のカテゴリ化、変数の有効性、変数の安定性のチェックも必要
年齢層をWOE変換・カテゴリ値をWOE値に置換
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
-3 -2 -1 0 1 2
Recommended