25
第 回目 4 データマイニング特講 1 予測:判別分析とロジスティック回帰 (Discriminant analysis and logistic regression) データマイニング特論 4

予測:判別分析とロジスティック回帰stat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-04.pdf · 正規分布する . 第4回目 データマイニング特講 10 ... 第4回目

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • 第 回目4 データマイニング特講 1

    予測:判別分析とロジスティック回帰(Discriminant analysis and logistic regression)

    データマイニング特論

    第4回

  • 第 回目4 データマイニング特講 2

    判別(カテゴリー予測)の為の分析

    目的 複数の変数によって興味のあるカテゴリ変数の値を予測する

    ある変数の、各カテゴリの判別における重要度を知る

    データの特徴 ロジスティック回帰:基準変数(2値)←説明変数(量的/ダミー) 判別分析:基準変数(カテゴリ)←説明変数(量的/ダミー) ニューラルネット、決定木:基準変数(カテゴリ)←説明変数(量的、質的)

    利点 予測と同時に各変数の相対的な影響力が分かる

    Analysis for category prediction

  • 第 回目4 データマイニング特講 3

    多変量データ(multivariate data)

    pnnn

    p

    p

    xxx

    xxxxxx

    21

    22212

    12111

    pxxx ,,, 21 p 変数p 変数、 n ケース(観測値)

    y目的変数TargetResponse variable nyyy 21

    説明変数Explanatory variable

  • 第 回目4 データマイニング特講 4

    演習課題データ(有料ニュースチャンネル契約者・非契約者の属性分析)

    教育年数 性別 年齢テレビ

    視聴時間所属

    団体数子供の

    数収入

    チャンネル契約

    20 0 35 1 0 1 4 1

    12 1 25 5 0 0 1 0

    14 1 64 2 1 2 5 1

    9 0 72 2 2 0 3 1

    15 0 33 2 0 0 6 1

    14 0 23 4 0 1 3 0

    14 0 60 1 0 1 5 0

    14 1 52 2 1 2 4 1

    14 1 37 5 2 1 3 0

    16 1 58 3 1 3 3 0

    0: 0人1-7: 人8: 8人以上

    0:しない1:受入(subscribe)

    1: $1万未満2: $ 1-2万3: $ 2-3万4: $ 3-4万5: $ 4-5万6: $ 5万ドル以上

    0: 男性(M)1: 女性(F)

    Attribute analysis of paid news channel subscribers and non-subscribers

    ニュースチャンネル

    教育年数 キョウイクネンスウ性別 セイベツ年齢 ネンレイテレビ視聴時間 シチョウジカン所属団体数 ショゾクダンタイスウ子供の数 コドモカズ収入 シュウニュウチャンネル契約 ケイヤク

    2003510141

    1212550010

    1416421251

    907222031

    1503320061

    1402340130

    1406010150

    1415221241

    1413752130

    1615831330

    1304910141

    1402214010

    1513731330

    1206030421

    1302120020

    1106441851

    1803133040

    1803950241

    1603500040

    1303350010

    1415042330

    1603910261

    1216141360

    1605950051

    1813312020

    1202300130

    1102040020

    1013682210

    1213511310

    1212430030

    1003314250

    120712281

    1414063111

    15035100441

    1602533041

    1614214431

    1612932030

    1913230140

    1415020330

    1213433060

    121745411

    11120102111

    1304052360

    1613520210

    1504334211

    1204220041

    1015321211

    1903832040

    1314120011

    1504112130

    1102215030

    1203230230

    1203614060

    1414411131

    1413230020

    1201830020

    1303832440

    913420421

    1814722211

    1604710141

    1512250010

    1412110031

    2003722040

    1602836030

    2004722061

    1214910040

    1502243021

    1812923060

    1512607250

    1212261120

    1204910530

    1202440010

    502321020

    1302321010

    111284040

    1613918241

    1202715030

    1704010231

    912712220

    1614024310

    1302110010

    1403231241

    1603043160

    1903210251

    1212440011

    1014032030

    1404331361

    1603522060

    1214724421

    1516131730

    1613410051

    1713520221

    140733131

    1313913311

    1413321031

    1213181310

    1203050131

    1312622030

    1612331030

    1413020230

    1613567330

    1913606231

    121331110

    1705020341

    1413412210

    1205341451

    1404321060

    1215710441

    1303970221

    1613641061

    1605222251

    1404028030

    1602420031

    1404041250

    1316412451

    1612811060

    1306924351

    1603622241

    1214841221

    1205240351

    1214310130

    1015411441

    1313923261

    121282210

    1403413231

    1603122041

    1214933321

    1002530031

    1303730240

    1212821030

    1212221030

    1216341041

    2003211151

    1302941031

    1403320231

    121306040

    1213740221

    1703130051

    2015014151

    121332220

    1502512030

    1614410231

    1213620360

    1215300420

    1216220321

    1203832341

    1214230130

    1204223231

    1004743231

    1206532340

    121370300

    1413312130

    804420251

    1904810261

    1605214460

    1213510130

    1203431260

    1612732060

    1214920311

    1313342021

    1112940010

    1106224240

    1304122351

    1502617021

    1503410031

    1603702241

    1002050031

    1113312220

    1312892110

    1215744311

    1203130061

    1614820051

    1914712260

    1205104261

    1604242241

    1204831150

    1604714341

    1705130760

    906334251

    101401120

    1203140220

    1603512051

    1403812330

    1204022261

    1213211230

    1203322161

    1604723261

    1405021141

    1314320230

    1602423020

    1504124261

    1216121011

    1214531211

    81814251

    1614220511

    1005831141

    1215822321

    1304913040

    1215530331

    1313732010

    1214422421

    1813211020

    1814700261

    1203213051

    1403812160

    151231000

    1216721661

    100295160

    1313730220

    1202622230

    904462220

    1604215061

    1603713051

    1204932030

    1115831220

    1414322230

    1204414261

    1204193231

    1403064150

    1212031110

    1414883210

    1206025450

    1612941421

    1202810010

    1604113031

    181623321

    1104762821

    1215041111

    1012630310

    1603931240

    1414700230

    1213813240

    1204150151

    1316422221

    171281301

    2014126161

    1403340261

    1202922450

    1404163131

    120754001

    1212730120

    1204231120

    716123420

    903352131

    1005501140

    1212122020

    151212001

    816221321

    1002910220

    1214243211

    1014460020

    1012450110

    1204932331

    1213882320

    120714331

    1312222010

    1714915061

    1205233021

    1503533021

    804660230

    1813230060

    161352120

    1504023060

    1613915240

    1602525031

    1512721030

    1612631020

    1413613060

    614032210

    2013122060

    1412821020

    1406213151

    1215920420

    80725101

    1913501151

    1613821050

    1603930051

    1107516531

    1614525160

    1605131061

    1302901031

    131345011

    1415941431

    141598221

    1603722060

    1613412141

    181410030

    1203122040

    1416020461

    1713813220

    1215223630

    1103934210

    1413431210

    805240661

    1216930231

    1016421221

    1812612050

    1403631250

    1114420621

    1302121110

    141891120

    1314312440

    1612540030

    1613813151

    1211920011

    1402333011

    1314012230

    160233300

    812830210

    1405430251

    1613510240

    1614822030

    1115730430

    1213520121

    121465120

    1404126261

    1213512420

    121856001

    121778141

    1805012250

    1213232210

    1212540111

    1615201650

    1413533510

    1602522121

    140251101

    1512114010

    1403820340

    1613332050

    81844031

    1204423241

    1203031031

    1002141020

    806240741

    1313140311

    1314022221

    1504310140

    1216550211

    1402500041

    10123104110

    1113612240

    1412660121

    1402612020

    160620241

    1212410110

    120503031

    80592141

    1302340020

    1315232310

    1813610241

    1413320110

    1212040110

    1214123461

    1402722260

    1612933131

    1805440011

    1212921211

    1202250020

    1204245051

    1102932220

    1213302261

    812082010

    1216312531

    1202140011

    1512220010

    1313912411

    1402630231

    121453120

    1312443231

    1214121311

    1403630160

    1212314130

    1614941161

    101602320

    1604700350

    1613313021

    713911210

    1204342321

    1615021430

    1804334161

    1704912131

    2004900131

    1202823021

    1203380340

    1212610020

    1006330331

    1403640121

    1404342231

    1904311341

    101604001

    80482120

    1203220010

    1202530130

    111613121

    616160520

    1213314350

    81513170

    1615021021

    1114320210

    1604732140

    1512220010

    1204730351

    1914433031

    1212634031

    13120441

    1213220210

    1214131221

    1215732121

    1316420440

    1502126030

    1402221010

    1612216010

    140233320

    1612322010

    1613410030

    170284300

    1004733131

    1212840110

    1512431010

    515230621

    1313321310

    1203530231

    1214130320

    1613214230

    1203450220

    1013341220

    1213162220

    1114750220

    1315741221

    1403230251

    1617211221

    141311311

    1214843211

    1413211210

    1912830230

    1203332250

    717022810

    1203555040

  • 第 回目4 データマイニング特講 5

    線形判別関数

    pipiii xxxz βββ +++= 2211係数は観測されている2群のデータを最もよく判別するように決める

    相関比を最大

    Z

  • 第 回目4 データマイニング特講 6

    線形判別

    Z

  • 第 回目4 データマイニング特講 7

    境界の設定

    2群の平均値の中間点

    誤判別の個数を最小にする点

    事前確率の導入(各群の大きさを考慮)

  • 第 回目4 データマイニング特講 8

    誤判別率の解釈

    あくまで現データにおける誤判別の割合

    実際の判別における誤判別率ではない

    もっと悪いであろう

    実際の誤判別率を評価するためには、

    別の標本を用意する

  • 第 回目4 データマイニング特講 9

    線形判別における前提

    2群の共分散行列が同じである

    散らばりの大きさや相関が2群でおなじ

    正規分布する

  • 第 回目4 データマイニング特講 10

    共分散行列が異質の場合

    線形判別関数は適切でない

    2次判別関数を利用

    共分散を考慮した中心(平均)からの距離が近い群に判別する

    マハラノビス距離

  • 第 回目4 データマイニング特講 11

    線形判別の意味

    線形判別 2次判別

  • 第 回目4 データマイニング特講 12

    正準判別分析

    重判別分析

    正準分析

    群の違いを明確にする正準変量を作る

    相関比最大

  • 第 回目4 データマイニング特講 13

    正準変量

    群の数マイナス1個の正準変量を求めることができる

    pipj

    ij

    ij

    ij xxxz )(22

    )(11

    )()( βββ +++= 係数は相関比が最大になるように決める2番目以降の正準変量は、それまでの正準変量と無相関で相関比が最大

  • 第 回目4 データマイニング特講 14

    ロジスティック回帰分析Logistic regression目的は判別分析とほぼ同じ

    正応答確率などを積極的に推定したい場合などに便利(確率の算出において、説明変数の分布の仮定が不必要)

    正応答確率に対する(線形)モデル

  • 第 回目4 データマイニング特講 15

    ロジスティック回帰分析

    )exp(1)exp(

    )1(110

    110

    pp

    pp

    xxxx

    Ypβββ

    βββ++++

    +++==

    pp xxYpYp βββ +++=

    =−=

    110)1(1)1(log

    回帰係数の推定には、最尤推定法が用いられる

  • 第 回目4 データマイニング特講 16

    ロジスティック回帰分析

    モデルの適合度の比較

    尤度比検定

    回帰係数の検定やチェック

    Wald 検定 ( t 検定と同じようなもの)漸近的な性質を利用

    オッズ比により説明変数の目的変数への寄与の程度について解釈が可能(exp(β))

  • 第 回目4 データマイニング特講 17

    解析

    目的変数 NEWSCHAN を ターゲット(target) に設定

  • 第 回目4 データマイニング特講 18

    探索的解析

  • 第 回目4 データマイニング特講 19

    ロジスティック回帰分析

  • 第 回目4 データマイニング特講 20

    ロジスティック回帰分析(結果)

  • 第 回目4 データマイニング特講 21

    出力の解釈

    回帰係数

    ordered の変数を設定すると、ダミー変数変換される。

  • 第 回目4 データマイニング特講 22

    誤分類率

  • 第 回目4 データマイニング特講 23

    結果の解釈 (変数選択)

  • 第 回目4 データマイニング特講 24

    例題2:信用度判定 (acredit)ローンに関する信用度

    信用度(1:良い、0: 悪い) 年代(1:若年(35)) アメックスカード( 0:ない、1:もっている) 支払い区分(1:週ごと・2:月毎) 社会的地位(1:管理職、2:専門職、3:事務職、4:熟練労働者、5:非熟練労働者)

    信用度を説明変数で説明する

  • 第 回目4 データマイニング特講 25

    参考文献

    山口・高橋・竹内(2004) 『よくわかる多変量解析の基本と仕組み』秀和システム

    丹後 他 『ロジスティック回帰分析―SASを利用した統計解析の実際 』1996 朝倉書店水田 他 『S-PLUSによるデータマイニング入門, 』2005 森北出版SASインスティチュートジャパン共訳『データマイニング手法 2訂版』 2005 海文堂

    予測:判別分析とロジスティック回帰�(Discriminant analysis and logistic regression)判別(カテゴリー予測)の為の分析多変量データ(multivariate data)演習課題データ�(有料ニュースチャンネル契約者・非契約者の属性分析)線形判別関数線形判別境界の設定誤判別率の解釈線形判別における前提共分散行列が異質の場合線形判別の意味正準判別分析正準変量ロジスティック回帰分析�Logistic regressionロジスティック回帰分析ロジスティック回帰分析解析探索的解析ロジスティック回帰分析ロジスティック回帰分析(結果)出力の解釈誤分類率結果の解釈 (変数選択)例題2:信用度判定 (acredit)参考文献