13
デフォルト確率推定モデル作成における WOE変換の役割とその利用 氏名 : 大勢待 利明(おおせまち としあき) 所属名 : 株式会社 数理技研 部署属名 : 金融工学センター The use of WOE in a model to estimate PD Name : Toshiaki Ohsemachi Department, Corporate Financial Engineering Center, SURIGIKEN CO.,LTD.

デフォルト確率推定モデル作成におけるWOE変換の役割とそ …2008/11/17  · Title デフォルト確率推定モデル作成におけるWOE変換の役割とその利用方法

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • デフォルト確率推定モデル作成におけるWOE変換の役割とその利用

    氏名 : 大勢待 利明(おおせまち としあき)

    所属名 : 株式会社 数理技研部署属名 : 金融工学センター

    The use of WOE

    in a model to estimate PD

    Name : Toshiaki Ohsemachi

    Department, Corporate

    Financial Engineering Center, SURIGIKEN CO.,LTD.

  • 2

    本日の発表の流れ

    もくじ

    1 WOE変換の意義と重要性

    2 発想の原点

    3 WOEとは

    4 WOEの利用手順

    5 モデル作成・検証でのWOEの利用方法

    6 モデル・モニタリングでのWOEの利用方法

    7 まとめ

  • 3

    1 WOE変換の意義と重要性

    クレジットデータ

    デフォルトor

    正常

    どのロジックで解くか? 結果に大きな違いはない・・・

    ①スコアリングに使用するモデル自体は飽和状態②ロジック選択に依存したスコアリング・モデル  の精度向上の時代は終焉を迎えつつある

    )exp(

    011)()( nn

    xaxatStS

    ++…=

    )( 111

    1bxaxa nne

    y++…+−+

    =

    生存時間生存時間生存時間生存時間モデルモデルモデルモデル生存時間生存時間生存時間生存時間モデルモデルモデルモデル

    ロジステックロジステックロジステックロジステック回帰回帰回帰回帰モデルモデルモデルモデルロジステックロジステックロジステックロジステック回帰回帰回帰回帰モデルモデルモデルモデルデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリーデシジョンツリー ニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワークニューラルネットワーク

    遺伝的遺伝的遺伝的遺伝的プログラミングプログラミングプログラミングプログラミング遺伝的遺伝的遺伝的遺伝的プログラミングプログラミングプログラミングプログラミング サポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシンサポートベクターマシン

    hXWXF iT −= *)(

    生存時間モデルの結果

    0%

    10%

    20%

    30%

    40%

    50%

    60%

    70%

    80%

    90%

    100%

    0 2 4 6 8 10 12 14 16 18 20 22 24

    生存

    確率

    企業A

    企業B

    企業C

    変数加工変数加工変数加工変数加工変数加工変数加工変数加工変数加工((((((((前処理前処理前処理前処理前処理前処理前処理前処理))))))))

    モデル作成に有効な変数を準備できるかどうかが勝負

    WOE変換

  • 4

    変数の値とデフォルト率の関係を線型にできれば・・・

    年齢層のデフォルト率の分布(生データ)

    0

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    missing 20-22 23-26 27-29 30-35 35-44 44+年齢層

    2 発想の原点

    1変数で考えた場合

    年齢層

    モデル作成用データ

    評価用データ

    当てはめ

    20代と50代は、違うデフォルト率を算出

    baxy +=

    20代と50代は同じデフォルト率だが、線形モデルでは違う水準

    WOE変換

    生データの場合より精度up

  • 5

    P_Normal P_Default Default年齢層 カテゴリ値1 count Normals attribute Defaults attribute rate WOE値 カテゴリ値2missing missing 50 42 2.3% 8 4.1% 16.0% 0.579 0.57920-22 20 200 152 8.4% 48 24.9% 24.0% 1.084 1.08423-26 23 300 246 13.6% 54 28.0% 18.0% 0.720 0.72027-29 27 450 405 22.4% 5 2.6% 1.1% -2.158 -2.15830-34 30 500 475 26.3% 25 13.0% 5.0% -0.708 -0.70835-44 35 350 339 18.8% 11 5.7% 3.1% -1.191 -1.19144+ 44 150 147 8.1% 3 1.6% 2.0% -1.655 -1.655合計 2000 1807 193 9.7%

    3 WOEとは

    ターゲットとする変数が、デフォルトか正常かの2値の場合

    1950年、ジョン・グッド(統計学者)が提唱、地質学の分野で応用。その後、医療の分野でも利用。近年、信用リスクの分野でも外資系の金融機関で利用され始めている。

    totalattributeattribute Normal OfNumber / Normal OfNumber P_Normal =

    totalattributeattribute Default OfNumber / Default OfNumber P_Default =

    ( )attributeattributeattribute P_Normal / P_DefaultlogEvidence Of Weights =

    出典: Bart Baesens(2005)

    WOE(Weights Of Evidence)

    由来

  • 6

    4 WOEの利用手順

    • 4.1 連続変数をカテゴリ変数に変換

    • 4.2 カテゴリ変数を連続変数に変換

    • 4.3 安定性のある変数の作成

    • 4.4 有効な変数の選択

    連続変数をカテゴリ変数へ

    カテゴリ変数をWOE変換

    CAP曲線差変数安定

    IVで変数選択

  • 7

    4.1 連続変数をカテゴリ変数に変換

    連続変数連続変数連続変数連続変数連続変数連続変数連続変数連続変数 分散分析(=ANOVA(=Analysis of Varinace))で連続変数をカテゴリ化

    20才 70才欠損値

    カテゴリ1-1 カテゴリ1-2 カテゴリ2-1 カテゴリ2-2

    20才 26才27才 70才29才22才欠損値

    2回目

    ・・・

    n回目 最小区切りは?

    カテゴリ2-2-1

    70才29才

    カテゴリ2-2-2

    35才

    3回目 ・・・欠損値

    カテゴリ1 カテゴリ2

    26才

    1回目

    カテゴリ化 デフォルト率の差が最大になる年齢で、2つのグループに分離

  • 8

    4.2 カテゴリ変数をWOE変換

    P_Normal P_Default Default年齢層 カテゴリ値1 count Normals attribute Defaults attribute rate WOE値 カテゴリ値2missing missing 50 42 2.3% 8 4.1% 16.0% 0.579 0.57920-22 20 200 152 8.4% 48 24.9% 24.0% 1.084 1.08423-26 23 300 246 13.6% 54 28.0% 18.0% 0.720 0.72027-29 27 450 405 22.4% 5 2.6% 1.1% -2.158 -2.15830-34 30 500 475 26.3% 25 13.0% 5.0% -0.708 -0.70835-44 35 350 339 18.8% 11 5.7% 3.1% -1.191 -1.19144+ 44 150 147 8.1% 3 1.6% 2.0% -1.655 -1.655合計 2000 1807 193 9.7%

    年齢層のデフォルト率の分布(生データ)

    0.0%

    5.0%

    10.0%

    15.0%

    20.0%

    25.0%

    30.0%

    missing 20-22 23-26 27-29 30-35 35-44 44+年齢層

    カテゴリ値1

    Default

    rate

    欠損値

    カテゴリ値1は、名目値にすぎないので、カテゴリ値2それ自体をWOE値に置き換える。

    年齢層をWOE変換・カテゴリ値をWOE値に置換

    -2.5

    -2

    -1.5

    -1

    -0.5

    0

    0.5

    1

    1.5

    -3 -2 -1 0 1 2

    カテゴリ値2

    WOE値

    線型線型線型線型モデルモデルモデルモデルにににに線型線型線型線型モデルモデルモデルモデルにににに完全完全完全完全にににに当当当当てててて嵌嵌嵌嵌るるるる完全完全完全完全にににに当当当当てててて嵌嵌嵌嵌るるるる

    形式形式形式形式にににに変換変換変換変換形式形式形式形式にににに変換変換変換変換

    出典: Bart Baesens(2005)

  • 9

    4.3 安定性のある変数の作成   (区切りの調整)

    年 齢

    変 数 変 換

    用 デ ー タ

    検 証 用

    デ ー タ

    変換手続作成

    カテゴリ変数にWOE変換

    年齢層をWOE変換・カテゴリ値をWOE値に置換

    -2.5

    -2

    -1.5

    -1

    -0.5

    0

    0.5

    1

    1.5

    -3 -2 -1 0 1 2

    4.2 カテゴリ変数をWOE変換

    変数変換用データと検証用データ

    0

    0.2

    0.4

    0.6

    0.8

    1

    0 20 40 60 80 100

    一変数レベルでCAP曲線比較

    一致

    連続変数をカテゴリ変数へ

    4.1分散分析で連続変数をカテゴリ化

    変換手続検証

    変数変換用データ

    0

    0.2

    0.4

    0.6

    0.8

    1

    0 20 40 60 80 100

    検証用データ

    0

    0.2

    0.4

    0.6

    0.8

    1

    0 20 40 60 80 100

    CAP曲線 CAP曲線

    安定安定安定安定したしたしたした変数変数変数変数安定安定安定安定したしたしたした変数変数変数変数としてとしてとしてとして採用採用採用採用としてとしてとしてとして採用採用採用採用

    最小区切りを調整

    変数変換用データと検証用データ

    0

    0.2

    0.4

    0.6

    0.8

    1

    0 20 40 60 80 100

    乖離

    CAP曲線による変数の安定性の確認

  • 10

    4.4 有効な変数の選択方法

    ( )attributeWOE*)P_Normal - (P_DefaultIV attributeattribute∑=

    InformationValue (=IV)による変数の有効性の確認

    変数変数変数変数のののの影響力影響力影響力影響力< 0.02:unpredictive

    0.02 – 0.1 : weak

    0.1 - 0.3 : medium

    0.3 + : strong

    P_Normal P_Default Default年齢層 カテゴリ値1 count Normals attribute Defaults attribute rate WOE値 カテゴリ値2missing missing 50 42 2.3% 8 4.1% 16.0% 0.579 0.57920-22 20 200 152 8.4% 48 24.9% 24.0% 1.084 1.08423-26 23 300 246 13.6% 54 28.0% 18.0% 0.720 0.72027-29 27 450 405 22.4% 5 2.6% 1.1% -2.158 -2.15830-34 30 500 475 26.3% 25 13.0% 5.0% -0.708 -0.70835-44 35 350 339 18.8% 11 5.7% 3.1% -1.191 -1.19144+ 44 150 147 8.1% 3 1.6% 2.0% -1.655 -1.655合計 2000 1807 193 9.7%

    InformationValue = 0.066

    出典: Bart Baesens(2005)

  • 11

    変数加工(前処理)の完成

    5 モデル作成・検証でのWOEの利用方法元データ

    変 数 変 換

    用 デ ー タ

    検 証 用

    デ ー タ

    モ デ ル 作 成 用

    デ ー タ ス コ ア デ ー タ

    生データの場合より精度up+安定性あり

    連続変数をカテゴリ変数へ

    カテゴリ変数をWOE変換

    分散分析で連続変数をカテゴリ化 年齢層をWOE変換・カテゴリ値をWOE値に置換

    -2.5

    -2

    -1.5

    -1

    -0.5

    0

    0.5

    1

    1.5

    -3 -2 -1 0 1 2カテゴリ変数をWOEWOEWOEWOE変換変換変換変換

    変数加工変数加工変数加工変数加工

    連続変数をカテゴリ変数へ

    カテゴリ変数をWOE変換

    モデル作成

    連続変数をカテゴリ変数へ

    カテゴリ変数をWOE変換

    変数変換用データと検証用データ

    0

    0.2

    0.4

    0.6

    0.8

    1

    0 20 40 60 80 100

    安定安定安定安定したしたしたした変数変数変数変数安定安定安定安定したしたしたした変数変数変数変数をををを採用採用採用採用をををを採用採用採用採用

    CAP曲線

    変数選択変数選択変数選択変数選択

    ( )attributeWOE*)P_Normal - (P_DefaultIV attributeattribute∑=

    CAP線差安定確認

    IVで変数選択

    CAP曲線の モデル作成用

    最大差 InformationValue 安定性 影響力 変数として

    年齢層 0.05 0.066 ○ ×変数A 0.02 0.6 ○ ○ 採用変数B 0.12 0.4 × ○変数C 0.4 0.4 ○ ○ 採用変数D 0.2 0.1 ○ △

    ・・・ ・・・ ・・・ ・・・ ・・・ ・・・

    評価

    ex変数選択のための一覧表

  • 12

    6 モデル・モニタリングでのWOEの利用方法

    2008年n月

    クレジットデータデフォルトor正常

    2008年n+6月

    クレジットデータデフォルトor正常

    分散分析で連続変数をカテゴリ化

    カテゴリ変数をWOEWOEWOEWOE変換変換変換変換

    分散分析で連続変数をカテゴリ化

    カテゴリ変数をWOEWOEWOEWOE変換変換変換変換

    変数加工変数加工変数加工変数加工手続手続手続手続

    モデル作成

    変動があれば変数を変えてモデル再構築

    モデル

    CAP曲線

    ( )attributeWOE*)P_Normal - (P_DefaultIV attributeattribute∑=

    モデル

    CAP曲線

    ( )attributeWOE*)P_Normal - (P_DefaultIV attributeattribute∑=

    変数選択変数選択変数選択変数選択

    一変数レベルでCAP曲線とIV比較 一変数レベルでの変数の安定性

    変数の有効性をチェック

    比較

  • 13

    7 まとめ

    WOE変換

    ①生データを線型に変換

    ③モデル・モニタリングに利用可能

    ②生データの場合より精度up+安定性のあるモデルの作成が可能連続変数のカテゴリ化、変数の有効性、変数の安定性のチェックも必要

    年齢層をWOE変換・カテゴリ値をWOE値に置換

    -2.5

    -2

    -1.5

    -1

    -0.5

    0

    0.5

    1

    1.5

    -3 -2 -1 0 1 2