Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
第 回目4 データマイニング特講 1
予測:判別分析とロジスティック回帰(Discriminant analysis and logistic regression)
データマイニング特論
第4回
第 回目4 データマイニング特講 2
判別(カテゴリー予測)の為の分析
目的 複数の変数によって興味のあるカテゴリ変数の値を予測する
ある変数の、各カテゴリの判別における重要度を知る
データの特徴 ロジスティック回帰:基準変数(2値)←説明変数(量的/ダミー) 判別分析:基準変数(カテゴリ)←説明変数(量的/ダミー) ニューラルネット、決定木:基準変数(カテゴリ)←説明変数(量的、質的)
利点 予測と同時に各変数の相対的な影響力が分かる
Analysis for category prediction
第 回目4 データマイニング特講 3
多変量データ(multivariate data)
pnnn
p
p
xxx
xxxxxx
21
22212
12111
pxxx ,,, 21 p 変数p 変数、 n ケース(観測値)
y目的変数TargetResponse variable nyyy 21
説明変数Explanatory variable
第 回目4 データマイニング特講 4
演習課題データ(有料ニュースチャンネル契約者・非契約者の属性分析)
教育年数 性別 年齢テレビ
視聴時間所属
団体数子供の
数収入
チャンネル契約
20 0 35 1 0 1 4 1
12 1 25 5 0 0 1 0
14 1 64 2 1 2 5 1
9 0 72 2 2 0 3 1
15 0 33 2 0 0 6 1
14 0 23 4 0 1 3 0
14 0 60 1 0 1 5 0
14 1 52 2 1 2 4 1
14 1 37 5 2 1 3 0
16 1 58 3 1 3 3 0
0: 0人1-7: 人8: 8人以上
0:しない1:受入(subscribe)
1: $1万未満2: $ 1-2万3: $ 2-3万4: $ 3-4万5: $ 4-5万6: $ 5万ドル以上
0: 男性(M)1: 女性(F)
Attribute analysis of paid news channel subscribers and non-subscribers
ニュースチャンネル
教育年数 キョウイクネンスウ性別 セイベツ年齢 ネンレイテレビ視聴時間 シチョウジカン所属団体数 ショゾクダンタイスウ子供の数 コドモカズ収入 シュウニュウチャンネル契約 ケイヤク
2003510141
1212550010
1416421251
907222031
1503320061
1402340130
1406010150
1415221241
1413752130
1615831330
1304910141
1402214010
1513731330
1206030421
1302120020
1106441851
1803133040
1803950241
1603500040
1303350010
1415042330
1603910261
1216141360
1605950051
1813312020
1202300130
1102040020
1013682210
1213511310
1212430030
1003314250
120712281
1414063111
15035100441
1602533041
1614214431
1612932030
1913230140
1415020330
1213433060
121745411
11120102111
1304052360
1613520210
1504334211
1204220041
1015321211
1903832040
1314120011
1504112130
1102215030
1203230230
1203614060
1414411131
1413230020
1201830020
1303832440
913420421
1814722211
1604710141
1512250010
1412110031
2003722040
1602836030
2004722061
1214910040
1502243021
1812923060
1512607250
1212261120
1204910530
1202440010
502321020
1302321010
111284040
1613918241
1202715030
1704010231
912712220
1614024310
1302110010
1403231241
1603043160
1903210251
1212440011
1014032030
1404331361
1603522060
1214724421
1516131730
1613410051
1713520221
140733131
1313913311
1413321031
1213181310
1203050131
1312622030
1612331030
1413020230
1613567330
1913606231
121331110
1705020341
1413412210
1205341451
1404321060
1215710441
1303970221
1613641061
1605222251
1404028030
1602420031
1404041250
1316412451
1612811060
1306924351
1603622241
1214841221
1205240351
1214310130
1015411441
1313923261
121282210
1403413231
1603122041
1214933321
1002530031
1303730240
1212821030
1212221030
1216341041
2003211151
1302941031
1403320231
121306040
1213740221
1703130051
2015014151
121332220
1502512030
1614410231
1213620360
1215300420
1216220321
1203832341
1214230130
1204223231
1004743231
1206532340
121370300
1413312130
804420251
1904810261
1605214460
1213510130
1203431260
1612732060
1214920311
1313342021
1112940010
1106224240
1304122351
1502617021
1503410031
1603702241
1002050031
1113312220
1312892110
1215744311
1203130061
1614820051
1914712260
1205104261
1604242241
1204831150
1604714341
1705130760
906334251
101401120
1203140220
1603512051
1403812330
1204022261
1213211230
1203322161
1604723261
1405021141
1314320230
1602423020
1504124261
1216121011
1214531211
81814251
1614220511
1005831141
1215822321
1304913040
1215530331
1313732010
1214422421
1813211020
1814700261
1203213051
1403812160
151231000
1216721661
100295160
1313730220
1202622230
904462220
1604215061
1603713051
1204932030
1115831220
1414322230
1204414261
1204193231
1403064150
1212031110
1414883210
1206025450
1612941421
1202810010
1604113031
181623321
1104762821
1215041111
1012630310
1603931240
1414700230
1213813240
1204150151
1316422221
171281301
2014126161
1403340261
1202922450
1404163131
120754001
1212730120
1204231120
716123420
903352131
1005501140
1212122020
151212001
816221321
1002910220
1214243211
1014460020
1012450110
1204932331
1213882320
120714331
1312222010
1714915061
1205233021
1503533021
804660230
1813230060
161352120
1504023060
1613915240
1602525031
1512721030
1612631020
1413613060
614032210
2013122060
1412821020
1406213151
1215920420
80725101
1913501151
1613821050
1603930051
1107516531
1614525160
1605131061
1302901031
131345011
1415941431
141598221
1603722060
1613412141
181410030
1203122040
1416020461
1713813220
1215223630
1103934210
1413431210
805240661
1216930231
1016421221
1812612050
1403631250
1114420621
1302121110
141891120
1314312440
1612540030
1613813151
1211920011
1402333011
1314012230
160233300
812830210
1405430251
1613510240
1614822030
1115730430
1213520121
121465120
1404126261
1213512420
121856001
121778141
1805012250
1213232210
1212540111
1615201650
1413533510
1602522121
140251101
1512114010
1403820340
1613332050
81844031
1204423241
1203031031
1002141020
806240741
1313140311
1314022221
1504310140
1216550211
1402500041
10123104110
1113612240
1412660121
1402612020
160620241
1212410110
120503031
80592141
1302340020
1315232310
1813610241
1413320110
1212040110
1214123461
1402722260
1612933131
1805440011
1212921211
1202250020
1204245051
1102932220
1213302261
812082010
1216312531
1202140011
1512220010
1313912411
1402630231
121453120
1312443231
1214121311
1403630160
1212314130
1614941161
101602320
1604700350
1613313021
713911210
1204342321
1615021430
1804334161
1704912131
2004900131
1202823021
1203380340
1212610020
1006330331
1403640121
1404342231
1904311341
101604001
80482120
1203220010
1202530130
111613121
616160520
1213314350
81513170
1615021021
1114320210
1604732140
1512220010
1204730351
1914433031
1212634031
13120441
1213220210
1214131221
1215732121
1316420440
1502126030
1402221010
1612216010
140233320
1612322010
1613410030
170284300
1004733131
1212840110
1512431010
515230621
1313321310
1203530231
1214130320
1613214230
1203450220
1013341220
1213162220
1114750220
1315741221
1403230251
1617211221
141311311
1214843211
1413211210
1912830230
1203332250
717022810
1203555040
第 回目4 データマイニング特講 5
線形判別関数
pipiii xxxz βββ +++= 2211係数は観測されている2群のデータを最もよく判別するように決める
相関比を最大
Z
第 回目4 データマイニング特講 6
線形判別
Z
第 回目4 データマイニング特講 7
境界の設定
2群の平均値の中間点
誤判別の個数を最小にする点
事前確率の導入(各群の大きさを考慮)
第 回目4 データマイニング特講 8
誤判別率の解釈
あくまで現データにおける誤判別の割合
実際の判別における誤判別率ではない
もっと悪いであろう
実際の誤判別率を評価するためには、
別の標本を用意する
第 回目4 データマイニング特講 9
線形判別における前提
2群の共分散行列が同じである
散らばりの大きさや相関が2群でおなじ
正規分布する
第 回目4 データマイニング特講 10
共分散行列が異質の場合
線形判別関数は適切でない
2次判別関数を利用
共分散を考慮した中心(平均)からの距離が近い群に判別する
マハラノビス距離
第 回目4 データマイニング特講 11
線形判別の意味
線形判別 2次判別
第 回目4 データマイニング特講 12
正準判別分析
重判別分析
正準分析
群の違いを明確にする正準変量を作る
相関比最大
第 回目4 データマイニング特講 13
正準変量
群の数マイナス1個の正準変量を求めることができる
pipj
ij
ij
ij xxxz )(22
)(11
)()( βββ +++= 係数は相関比が最大になるように決める2番目以降の正準変量は、それまでの正準変量と無相関で相関比が最大
第 回目4 データマイニング特講 14
ロジスティック回帰分析Logistic regression目的は判別分析とほぼ同じ
正応答確率などを積極的に推定したい場合などに便利(確率の算出において、説明変数の分布の仮定が不必要)
正応答確率に対する(線形)モデル
第 回目4 データマイニング特講 15
ロジスティック回帰分析
)exp(1)exp(
)1(110
110
pp
pp
xxxx
Ypβββ
βββ++++
+++==
pp xxYpYp βββ +++=
=−=
110)1(1)1(log
回帰係数の推定には、最尤推定法が用いられる
第 回目4 データマイニング特講 16
ロジスティック回帰分析
モデルの適合度の比較
尤度比検定
回帰係数の検定やチェック
Wald 検定 ( t 検定と同じようなもの)漸近的な性質を利用
オッズ比により説明変数の目的変数への寄与の程度について解釈が可能(exp(β))
第 回目4 データマイニング特講 17
解析
目的変数 NEWSCHAN を ターゲット(target) に設定
第 回目4 データマイニング特講 18
探索的解析
第 回目4 データマイニング特講 19
ロジスティック回帰分析
第 回目4 データマイニング特講 20
ロジスティック回帰分析(結果)
第 回目4 データマイニング特講 21
出力の解釈
回帰係数
ordered の変数を設定すると、ダミー変数変換される。
第 回目4 データマイニング特講 22
誤分類率
第 回目4 データマイニング特講 23
結果の解釈 (変数選択)
第 回目4 データマイニング特講 24
例題2:信用度判定 (acredit)ローンに関する信用度
信用度(1:良い、0: 悪い) 年代(1:若年(35)) アメックスカード( 0:ない、1:もっている) 支払い区分(1:週ごと・2:月毎) 社会的地位(1:管理職、2:専門職、3:事務職、4:熟練労働者、5:非熟練労働者)
信用度を説明変数で説明する
第 回目4 データマイニング特講 25
参考文献
山口・高橋・竹内(2004) 『よくわかる多変量解析の基本と仕組み』秀和システム
丹後 他 『ロジスティック回帰分析―SASを利用した統計解析の実際 』1996 朝倉書店水田 他 『S-PLUSによるデータマイニング入門, 』2005 森北出版SASインスティチュートジャパン共訳『データマイニング手法 2訂版』 2005 海文堂
予測:判別分析とロジスティック回帰�(Discriminant analysis and logistic regression)判別(カテゴリー予測)の為の分析多変量データ(multivariate data)演習課題データ�(有料ニュースチャンネル契約者・非契約者の属性分析)線形判別関数線形判別境界の設定誤判別率の解釈線形判別における前提共分散行列が異質の場合線形判別の意味正準判別分析正準変量ロジスティック回帰分析�Logistic regressionロジスティック回帰分析ロジスティック回帰分析解析探索的解析ロジスティック回帰分析ロジスティック回帰分析(結果)出力の解釈誤分類率結果の解釈 (変数選択)例題2:信用度判定 (acredit)参考文献