Upload
kiara-nieves
View
71
Download
1
Embed Size (px)
DESCRIPTION
B ağımlı Kukla Değişkenler. Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla değişkenler söz konusudur. Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır: -Doğrusal Olasılık Modeli -Logit Modeli - PowerPoint PPT Presentation
Citation preview
Bağımlı Kukla Değişkenler
Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin
varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla
değişkenler söz konusudur.
•Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır:
-Doğrusal Olasılık Modeli
-Logit Modeli
-Probit Modeli
-Tobit Modeli
Doğrusal Olasılık Modeli
Yi = b1 + b2Xi +ui
Yi= 1 Eğer i. Birey istenen özelliğe sahipse
0 Diğer Durumlarda
Xi= Bağımsız değişken
Bu modele olasılıklı model denmesinin nedeni, Y’nin X için şartlı
beklenen değerinin, Y’nin X için şartlı olasılığına eşit
olmasıdır.
E(Yi|Xi)=Pr(Yi=1| Xi)
Doğrusal Olasılık Modeli
E(Yi |Xi)= b1 + b2Xi E(ui) = 0
Yi değişkeninin olasılık dağılımı:
Yi Olasılık
0 1-Pi
1 Pi
Toplam 1
E(Yi |Xi) = YiPi=0.(1-Pi) + 1.(Pi) = Pi
E(Yi |Xi)= b1 + b2Xi
0 E(Yi |Xi) 1
DOM Tahminindeki Sorunlar
ui hata teriminin normal dağılmayışı:
•Normallik varsayımının sağlanmaması durumunda tahmin
ediciler sapmasızlıklarını korurlar.
•Nokta tahminde normallik varsayımı gözardı edilir.
•Örnek hacmi sonsuza giderken EKK tahmincileri çoğunlukla
normal dağılıma uyarlar.
•DOM ile yapılan istatistiksel çıkarsamalar normallik varsayımı
altındaki EKK sürecine uyarlar.
u’ların Binom Dağılımlı Olması
EKKY varsayımlarından biri u değerlerinin dağılımının normal olmasıdır. Bu varsayım sayesinde katsayı tahminlerinin güven aralıkları hesaplanıp, test yapılabilmektedir.
DOM’de u’lar normal dağılmaz, binom dağılımı gösterir:
1 2i iu Y b b X 1 2i iY b b X u
Y 1 ve 0 değerini aldığında
Yi =1 için 1 21i iu b b X
Yi =0 için 1 2i iu b b X u lar normal değildir. İki değerli binom dağılımlıdır. Ancak büyük örneklerde DOM güven aralıkları ve hipotez testleri geçerlidir ve EKKY normal dağılım varsayımının sağlandığı kabul edilmektedir.
Yi ui İhtimal=P(ui)
0 -b1-b2X (1-Pi)
1 1-b1-b2X Pi
2 2i 1 2 i 1 2 iVar(u ) ( b b X) (1 P ) (1 b b X) (P )
i 1 2 1 2Var(u ) (b b X)(1 b b X)
ui hata teriminin değişen varyanslı olması:
)(.)()( 2ii YPYYYVar
DOM’de u lar eşit varyanslı değillerdir. Bunun için kesikli bir Y değişkeni varyansından hareketle
Y yerine u alınarak
)(.)()(.)()( 22ii uPuuPuuuVar
i i i i iVar(u ) E(Y | X )[1 E(Y | X )] P (1 P )
u’nun varyansı farklıdır. u’nun varyansı Y’nin X için şartlı beklenen değerine bağlıdır ve sonuçta u’nun varyansı X’in değerine bağlı olacak ve eşit olmayacaktır.
DOM’nin EKKY ile tahmininde ortaya çıkan farklı varyans problemine aşağıdaki dönüşümlü modeli tahmin ederek çözüm getirmek mümkündür:
1 2 i i
i i i i
b b X uY
v v v v
i i i i iv E(Y | X )[1 E(Y | X )] P (1 P )
ui hata teriminin değişen varyanslı olması:
•Var(ui) = Pi(1-Pi)
DOM’de Farklı Varyansı Önleme
i i iˆ ˆv Y (1 Y )
iE(Y | X ) ler bilinmediğinden bunun yerine örnek tahmini iYdeğerleri hesaplanarak ifadesinde yerine
konarak v ler kullanılır.
0 E(Yi |Xi) 1 varsayımının yerine gelmeyişi
DOM’de Y’nin şartlı olasılığını gösteren E(Y|X) nın 0 ila 1
arasında bulunması şarttır. Y; 0 ve 1 değerini almaktadır.Bu şart
anakütle için geçerlidir. Anakütlenin tahmincisi için geçerli
olmayabilir.
Tahmini şartlı olasılıklar 0 ile 1 olmayabilir:
iY
0 E(Yi |Xi) 1
0 ile 1 arasında mıdır? DOM”, EKKY ile elde edildikten sonra
iY
eşit olduğu kabul edilir.
Bunlardan bir kısmı 0 dan küçük, negatif değerli ise, bunlar için iY
0 değerini alır. 1’den büyük değerli ise bunlar için nin 1’e
Dönüştürmeden sonra EKKY tekrar uygulanır ve farklı varyansın kalktığı görülebilir.
u
v eşit varyanslıdır. Bu yöntem TEKKY’dir.
Doğrusal Olasılık Modeli
Di = b1 + b2Mi +b3 Si +ui
Di= 1 Eğer i. Kadının bir işi varsa ya da iş arıyorsa
0 Diğer Durumlarda
Mi= 1 Eğer i. Kadın evliyse
diğer durumlarda 0
Si = i.kadının yıl olarak aldığı eğitim
Ai= i. Kadının Yaşı
Di Mi Ai Si Di Mi Ai Si
1 0 31 16 1 0 35 10
1 1 34 14 1 1 40 14
1 1 41 16 0 1 43 10
0 0 67 9 0 1 37 12
1 0 25 12 1 0 27 13
0 1 58 12 1 0 28 14
1 0 45 14 1 1 48 12
1 0 55 10 0 1 66 7
0 0 43 12 0 1 44 11
1 0 55 8 0 1 21 12
1 0 25 11 1 1 40 10
1 0 41 14 1 0 41 15
0 1 62 12 0 1 23 10
1 1 51 13 0 1 31 11
0 1 39 9 1 1 44 12
Kadının İşgücüne Katılımı Modeli:
Di= 1 i.Kadının bir işi varsa ya da iş arıyorsa
0 Diğer Durumlarda
Mi= 1 i. Kadın evliyse
0 diğer durumlarda
Si = i.kadının yıl olarak aldığı eğitim
Ai= i. Kadının Yaşı
Kadının İşgücüne Katılımı Modeli
Di = b1 + b2Mi +b3 Si +ui
Dependent Variable: DI
Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
C -0.284301 0.435743 -0.652452 0.5196
MI -0.381780 0.153053 -2.494430 0.0190
SI 0.093012 0.034598 2.688402 0.0121
R-squared 0.363455 Mean dependent var 0.600000
Adjusted R-squared 0.316304 S.D. dependent var 0.498273
S.E. of regression 0.412001 Akaike info criterion 1.159060
Sum squared resid 4.583121 Schwarz criterion 1.299179
Log likelihood -14.38590 F-statistic 7.708257
Durbin-Watson stat 2.550725 Prob(F-statistic) 0.002247
Mi= 1 Kadın evliyse ;0 diğer durumlarda ; Si = i.kadının yıl olarak aldığı eğitim A= Kadının Yaşı
White Heteroskedasticity Test:F-statistic 1.759076 Probability 0.168742Obs*R-squared 6.589061 Probability 0.159265
Dependent Variable: RESID^2Included observations: 30Variable Coefficient Std. Errort- Statistic Prob. C -0.390620 0.700490 -0.557639 0.5821MI -0.410659 0.315325 -1.302336 0.2047MI*SI 0.036202 0.026225 1.380429 0.1797SI 0.132421 0.116635 1.135344 0.2670SI^2 -0.007102 0.004809 -1.476822 0.1522R-squared 0.219635 Mean dependent var 0.15277Adjusted R-squared0.094777 S.D. dependent var 0.16180S.E. of regression 0.153942 Akaike info criterion -0.75347Sum squared resid 0.592452 Schwarz criterion 0.51994Log likelihood 16.30209 F-statistic 1.75907Durbin-Watson stat 1.963424 Prob(F-statistic) 0.16874
DOM’de Farklı Varyansı Önleme
Dependent Variable:
Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
-0.184154 0.316834 -0.581231 0.5659
-0.362893 0.135229 -2.683551 0.0123
0.081678 0.022231 3.674022 0.0010
R-squared 0.872710 Mean dependent var 2.190469
Adjusted R-squared 0.863281 S.D. dependent var 2.514662
S.E. of regression 0.929809 Akaike info criterion 2.786965
Sum squared resid 23.34273 Schwarz criterion2.927085
Log likelihood -38.80448 F-statistic 92.55700
Durbin-Watson stat 2.583787 Prob(F-statistic)0.000000
i 1 2 i 3 i iD v b v b M v b S v u v D / v
1/ vM / v
S/ v
UYGULAMA:Cep telefonunun kullanılıp kullanılmamasını ifade eden bağımlı kukla değişken 50 kişiye yapılan anket sonuncunda yaş ve aylık ortalama gelir ile
açıklanmıştır.(Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse)Kişi Y X(Gelir) Z(Yaş) Kişi Y X(Gelir) Z(Yaş)1 1 250 23 26 0 185 212 1 350 21 27 1 250 213 0 150 23 28 1 500 214 1 600 22 29 1 790 235 1 200 22 30 1 500 226 0 150 20 31 1 675 227 1 390 27 32 1 490 228 0 200 18 33 1 500 21
9 0 900 25 34 1 760 2110 0 150 18 35 1 550 2611 0 255 18 36 1 400 2412 0 300 20 37 1 200 2113 1 640 25 38 0 220 2114 1 500 27 39 1 175 2315 1 300 22 40 1 840 2116 0 550 19 41 1 150 2317 1 800 18 42 1 200 2318 1 875 21 43 1 200 2319 0 600 17 44 1 485 2320 0 500 20 45 1 250 2121 0 500 19 46 1 300 2022 1 500 21 47 1 470 1923 1 550 22 48 1 800 2324 1 750 21 49 0 250 2125 1 225 23 50 0 130 23
Dependent Variable: YMethod: Least Squares Included observations: 50
Variable Coefficient Std. Error t-Statistic Prob. C -1.373086 0.585035 -2.347017 0.0232X 0.000492 0.000259 1.900372 0.0635Z 0.086130 0.026781 3.216041 0.0024
R-squared 0.2401 Mean dependent var 0.700Adjusted R-squared 0.207770 S.D. dependent var0.462910S.E. of regression 0.412024 Akaike info criterion1.122653Sum squared resid 7.978889 Schwarz criterion 1.2373Log likelihood -25.06633 F-statistic 7.425357Durbin-Watson stat 1.552777 Prob(F-statistic)0.001577
Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse; X(Gelir); Z(Yaş)
White Heteroskedasticity Test:F-statistic 2.305076 Probability 0.060504Obs*R-squared 10.37848 Probability 0.065195
Dependent Variable: RESID^2Included observations: 50Variable Coefficient Std. Error t-Statistic Prob. C 2.341377 2.147612 1.090224 0.2815X -0.004404 0.001530 -2.878146 0.0062X^2 1.63E-06 6.58E-07 2.475147 0.0172X*Z 0.000132 6.84E-05 1.927924 0.0603Z -0.116457 0.191111 -0.609369 0.5454Z^2 0.001301 0.004396 0.295915 0.7687R-squared 0.207570 Mean dependent var0.159578Adjusted R-squared 0.117521 S.D. dependent var 0.225222S.E. of regression 0.211574 Akaike info criterion -0.156314Sum squared resid 1.969602 Schwarz criterion 0.073128Log likelihood 9.907860 F-statistic 2.305076Durbin-Watson stat 2.375111 Prob(F-statistic) 0.060504
Kişi Kişi Kişi Kişi 1 0.7308 16 0.5338 31 0.8536 46 0.49702 0.6077 17 0.5705 32 0.7627 47 0.49443 0.6817 18 0.8658 33 0.6815 48 1.00124 0.8167 19 0.3861 34 0.8093 49 0.55865 0.6201 20 0.5953 35 1.1367 50 0.67186 0.4233 21 0.5092 36 0.89077 1.1442 22 0.6815 37 0.53408 0.2756 23 0.7922 38 0.54389 1.2226 24 0.8044 39 0.693910 0.2510 25 0.7185 40 0.848611 0.3026 26 0.5266 41 0.681712 0.4970 27 0.5586 42 0.706213 1.0948 28 0.6815 43 0.706214 1.1982 29 0.9963 44 0.846315 0.6693 30 0.7676 45 0.5586
Y
Y
Y
Y
Dependent Variable: Method: Least SquaresSample: 1 50Included observations: 44Excluded observations: 6
Variable Coefficient Std. Error t-Statistic Prob. -1.960127 0.591996 -3.311048 0.00190.000468 0.000170 2.754280 0.00870.114551 0.028194 4.062939 0.0002
R-squared 0.899751 Mean dependent var 1.9024Adjusted R-squared 0.894861 S.D. dependent var 2.504969S.E. of regression 0.812241 Akaike info criterion2.487706Sum squared resid 27.04915 Schwarz criterion 2.609356Log likelihood -51.72954 F-statistic 183.9907Durbin-Watson stat 1.728717 Prob(F-statistic) 0.000000
1/ v
Y / v
X / v
Z / v
DOM’e Alternatif Model Arama
•DOM ile ilgili sayılan sorunlar aşılabilir:
•DOM EKKY nin iki varsayımını yerine getirmez. Hatalar
normal dağılımlı değildir ve farklı varyans söz konusu
olabilir. En önemli problem DOM’nin
Pi=E(Y=1|X)
nin Xi ile doğrusal doğrusal olarak arttığını varsaymasıdır.
Yani X’deki marjinal veya küçük bir artış hep sabittir.
Gerçek hayatta ise bu, beklenen bir durum değildir.
0-1 aralığı dışına çıkmamak koşuluyla, öyle bir model bulunmalı ki P i
ile Xi arasındaki ilişki eğrisel olsun:Xi deki artışlar Pi yi de arttırsın.
Yukarıdaki iki özelliği taşıyan modelin şekli aşağıda verilmiştir:
0
1 P
-+
X
KDF
DOM’e Alternatif Model Arama
•Yukarıdaki eğri kümülatif dağılım fonksiyonuna benzemektedir.
•Bu fonksiyon kukla bağımlı değişkenli regresyon modellerinde kullanılabilir.
Logit ModelLogistik Dağılım Fonksiyonu
i
i
P 1 1.
1-P 1
zz
z z
ee
e e
1 2 ii (b b X )
1P =E(Y=1|X)
1 e
1
1 iZe
kümülatif lojistik dağılım fonksiyonudur.
Bahis yada olabilirlik oranı
1 2i iZ b b X
ln( ) ln1
izii e i
i
PL e Z
P
1 1 11 1
1 1 1
i i
i i i
Z Z
Z Z Z
e eP
e e e
Bu orana örneğin, ev sahibi olma lehine fark oranı denir. Lojistik modelin her iki tarafının doğal log. alındığında
Li fark oranı logaritması olup hem X, hem parametrelere göre doğrusaldır.Z değişkeni - dan + a değişirken, P 0 ile 1 arasında değişir.
Logit Model
i 1 2P =E(Y=1|X) ib b X
DOM’de
şeklindedir.
1 2 ii (b b X )
1P =E(Y=1|X)
1 e
1
1 iZe
Logit modelde olasılık
iken.
•Zi, - ile + arasında değerler alırken Pi’nin
aldığı değerler ise 0 ile 1 arasında
değişmektedir.
•Zi ile Pi arasındaki ilişki doğrusal değildir.
Logit Model
Logit Modelin Özellikleri
Pi=1
0
1ln
11
1ln
P1
Pln
i
i = +
Pi=0
1
0ln
01
0ln
P1
Pln
i
i
= -
1. Pi, 0’dan 1’e kadar değer aldığında, Logitte -ile + arasında değer alır.
2. Logit, X’e göre doğrusal iken olasılıklara göre değildir.
3. Logit modelin b2 katsayısı; bağımsız değişkendeki bir birimlik değişme karşısında logitteki değişmeyi gösterir.
4. Logit model tahmin edildikten sonra, X bağımsız değişkeninin belirli bir değeri için logitin gerçekleşme olasılığı hesaplanabilir.
2
0.00
0.25
0.50
0.75
1.00
-8 -6 -4 -2 0 2 4 6Z
ZeZFp
1
1)(
)(ZF
XZ 21
Bir olayın gerçekleşme olasılığının birden büyük olması durumundan kaçınmak için olasılığın Z’nin S şeklinde bir fonksiyonu olduğunu varsaymaktır. Z, açıklayıcı değişkenlerin fonksiyonu olarak ifade edilebilir.
Logit Model
3
0.00
0.25
0.50
0.75
1.00
-8 -6 -4 -2 0 2 4 6
Birçok fonksiyon S şeklinde fonksiyon özelliklere sahiptir ve yukarıda gösterildiği gibi bunlardan biri de lojistik fonksiyondur. Z + sonsuza gideren, e-Z sıfıra gitmekte, ve p 1’e gitmektedir. (fakat 1’i geçmemektedir.). Z – sonsuza giderken, e-Z de sonsuza gitmekte ve p de sıfıra gitmektedir (fakat sıfırın altına inmemektedir.).
XZ 21
)(ZFZe
ZFp
11
)(
Z
Logit Model
Logit Modelin EKKY İle Tahmini
1.Adım: olasılıkları hesaplanır.i i iP n N
2.Adım: fark oranı logaritmaları hesaplanır.i i iL ln(P 1 P )
3.Adım: orijinal lojistik modeli tahminlenir.i 1 2 i iL b b X u
i i i iL ln[n (N n )]
Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir.iv
i 1 2 i iL b b X u i i i iv N P (1 P )
Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir.
iv
i i 1 i 2 i i i iv L b v b v X v u
Logit Modelin EKKY İle Tahmini
* *1 i 2 i iL b v b X w Dönüşümlü veya Tartılı
EKK Lojistik Modeli
i i i iv N P (1 P )
i i iw u v
Logistik Model Uygulaması
300 aileden oluşan küçük bir kasabada ailelerin, yıllık gelirleri (Xi) ve ev sahibi olanların sayısı (ni) aşağıdaki tabloda gösterilmiştir.
XMilyon TL)
Aile Sayısı=Ni
Ev Sahibi Olan Aile Sayısı=ni
Nispi Frekanslar
Pi=ni/Ni
12 20 5 0.25
16 25 6 0.24
20 35 10 0.28
26 45 15 0.33
30 50 25 0.50
40 34 18 0.53
50 30 20 0.66
60 26 16 0.61
70 20 15 0.75
80 15 10 0.67
Ni = 300 ni = 140
Logistik Model Uygulaması
Xi
1
12
16
20
26
30
40
50
60
70
80
Ni
2
20
25
35
45
50
34
30
26
20
15
ni
3
5
6
10
15
25
18
20
16
15
10
Pi
4=3/2
0.25
0.24
0.28
0.33
0.50
0.53
0.66
0.61
0.75
0.67
1-Pi
5=1-4
0.75
0.76
0.72
0.67
0.50
0.47
0.34
0.39
0.25
0.33
Pi /1- Pi
6=4/5
0.33
0.31
0.39
0.49
1.00
1.13
1.94
1.56
3.00
2.03
Li
7=ln(6)
-1.1086
-1.1712
-0.9416
-0.7133
0.0000
0.1222
0.6626
0.4446
1.0986
0.7080
Logistik Model Uygulaması
Dependent Variable: L
Method: Least Squares
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C -1.409706 0.215776 -6.533192 0.0002
X 0.032669 0.004667 7.000011 0.0001
R-squared 0.859649 Mean dependent var -0.089870
Adjusted R-squared 0.842106 S.D. dependent var 0.835010
S.E. of regression 0.331799 Akaike info criterion 0.808280
Sum squared resid 0.880723 Schwarz criterion 0.868797
Log likelihood -2.041402 F-statistic 49.00015
Durbin-Watson stat 1 .582165 Prob(F-statistic) 0.000113
Logistik Model Uygulaması
v=N.P.(1-P)
8=2.4.5
3.75
4.56
7.05
9.95
12.50
8.47
6.73
6.18
3.75
3.31
vi
9= 8
1.9365
2.1354
2.6552
3.1543
3.5355
2.9103
2.5942
2.4859
1.9365
1.8193
L*
10=7.9
-2.1468
-2.5009
-2.5001
-2.4999
0.0000
0.3556
1.7189
1.1052
2.1274
1.2880
X*
11=1.9
23.2379
34.1666
53.1036
82.0134
106.0660
116.4130
129.7112
149.1576
135.5544
145.5472
Logistik Model Uygulaması
Li*= -1.38056 vi + 0.03363 Xi
*, s= 0.8421
s(bi): (0.2315) (0.00556) , R2= 0.80
t= (-5.9617) (6.0424) , d= 1.649, F= 36.95 Gelir bir birim arttığında, ev sahibi olma lehine fark oranının logaritması 0.033 artmaktadır. Bu fark oranına göre belli bir gelir seviyesinde ev sahibi olma olasılığı hesaplanabilir:
X=40 iken 2.9103iv 116.4130X
değerleri yukarıdaki denklemde yerine konduğunda
L*=-0.10288 bulunur.
*ˆ
ˆlog log log( 0.10288) 0.9022ˆ1
PAnti L Anti Anti
P
ˆ
0.9022ˆ1
P
P
ˆ 0.4743P olabilirlik oranı
40 birim gelirli bir ailenin ev sahibi olma olasılığı %47.43’dür.
Lojistik modelden, belli bir gelir seviyesinde gelirdeki bir birimlik artışın ev sahibi olma olasılığını ne ölçüde arttıracağı tahmin edilebilir:
2ˆ ˆ ˆ(1 )b P P
formülünden yararlanılır. X=40 iken gelir 1 birim arttığında ev sahibi olma olasılığı
[0.03363(1-0.4743)0.4743]=0.00838(%0.8)
UYGULAMA: Kasımpatı yaprak bitkilerini öldüren bir ilaçtan 1 Lt suya konan dozlar (X, Miligram), yaklaşık 50cl.’lik bit grupları(Ni) üzerine sıkılmış ve ölen bit sayısı (ni) aşağıdaki gibi tesbit edilmiştir:
Doz(Litre başına mg) XGruplardaki yaprak
biti sayısı (Ni)Ölen (ni) Li
2.6 50 6 -1.993.8 48 16 -0.695.1 46 24 0.097.7 49 42 1.79
10.2 50 44 1.99
Bu verilerle ilgili Logit tahmin modeli aşağıdaki gibidir:
Dependent Variable: LIMethod: Least SquaresIncluded observations: 5
Variable Coefficient Std. Error t-Statistic Prob. C -2.850133 0.602091 -4.733723 0.0179X 0.525044 0.092785 5.658686 0.0109
a) Katsayı tahminlerini yorumlayınız
b) X=7.7 miligram doz seviyesinde ölüm ihtimali P’yi hesaplayınız.
ii
i
PL ln( ) 2.85 0.525X
1 P
ii
i
PL ln( ) 2.85 0.525(7.7) 1.192
1 P
i
i
Pln( ) 1.1925
1 P
i
i
P2.83
1 P
iP 0.739
Probit Model
Bağımlı kukla değişkenli modellerden kümülatif lojistik
fonksiyonundan farklı olarak, normal kümülatif dağılım
fonksiyonunu kullanan PROBİT(NORMAL) model vardır.
1
20
2 22
Z Ze z( ) /
F(z)=P R O B İ T (NORMAL) MODEL
Probit modeli şu şekilde tanımlayabiliriz:
Herhangi bir i hanesinin ev sahibi olma veya olmama kararının gözlenemeyen bir fayda indeksi Ii’ye bağlı olduğunu varsayalım.
Ii* Ii ifadesi, faydanın belli bir eşik değerinden sonra söz konusu
olabileceğini gösterir. Ii* başlangıç değeri de Ii gibi gözlenemez.
Ancak, aynı ortalama ve varyanslı normal dağıldığı varsayılarak Ii
değerleri yukarıdaki regresyon denkleminden tahmin edilir.
Tahminciler bulunur.
Ii= b1 + b2 Xi
Ii, bağımsız değişkenlere bağlıdır. Örneğin Xi (gelir)değişkeni.
Her hane için Ii’nın belli bir değerinden itibaren ev sahibi olma
durumu söz konusudur.Ii değeri, Ii* değerini aştığı zaman hane, ev
sahibi olacak aksi durumda olmayacaktır.
Y=1 hane ev sahibi
Y=0 hane ev sahibi değil.
(1)
i 2I 2/t dte2
1 1
2
2 21 2
e dttb b Xi
/
=Standartlaştırılmış Normal KDF
Pi=Pr(Y=1)=Pr(Ii* Ii)=F(Ii)
(0,1)t N =standartlaştırılmış normal değişken
Pi=Bir ev sahibi olma olasılığı.
(2)
Normal dağılım varsayımıyla Ii* ın Ii den küçük veya eşit olma olasılığı
aşağıdaki standartlaştırılmış normal KDF ile hesaplanabilir:
Probit Model
0
1
Pi=F(Ii)
- +
0
1
Pi=F(Ii)
- +
Pi
Ii= b1 + b2 Xi
Pi
Ii=F-1(Pi )
Ii* <=Ii verilmişken ev sahibi olma
olasılığı Pi ordinatta bulunur
Pi verilmişken, absiste Ii bulunur.
Ii’yı bulabilmek için 2 no’lu ifadenin tersi alınmalıdır.
Ii = F-1(Ii)=F-1 (Pi)=b1+b2Xi
=Probit model
F-1: normal kümülatif dağılım fonksiyonunun tersi.
Probit Modelin Tahmin Aşamaları
1. Pi= ni/Ni hesaplanır.
2. Ii = F-1 (Pi)= normal eşdeğer sapma bulunur.
3. Ii = b1 + b2 Xi + ui EKK ile tahmin edilir.
4. İstenirse, Ii yerine, (Ii + 5)=probit değerleri alınarak, EKKY ile
(13.19) tahmin edilir.
5. modelinin hata terimi ui farklı varyanslıdır. Bu sebepten
dönüşümlü değerler alınarak TEKKY uygulanabilir:=
2u
P P
N fi i
i i
( )1 fi= F-1 (Pi) ifadesine eşit standart normal
yoğunluk fonksiyonudur.
6. Büyük örnekler için bi'lerin güven aralıkları ve hipotez testleri
uygulanarak, anakütlede durumun geçerliliği araştırılabilir.
7. Belirlilik katsayısı R2, modelin fonksiyonel biçiminin iyi seçilip
seçilmediği konusunda bize fikir vermez.
Probit Model Uygulaması
Pi
0.25
0.24
0.28
0.33
0.50
0.53
0.66
0.61
0.75
0.67
Ii=F-1(Pi)
-0.6745
-0.7063
-0.5828
-0.4399
0.0000
0.0752
0.4124
0.2793
0.6745
0.4399
Probitler=Zi=(Ii+5)
4.3255
4.2937
4.4172
4.5601
5.0000
5.0752
5.4124
5.2793
5.6745
5.4399
Xi
12
16
20
26
30
40
50
60
70
80
Probit Model Uygulaması
Ii= -0.8587 + 0.0200 Xi , r2= 0.8628 r= 0.9289
s(bi) (0.0028) s= 0.2 d= 1.59
t= (7.094)
Zi= 4.1324 + 0.0201 Xi , r2= 0.8621 r= 0.9285
s(bi) (0.0028) s= 0.2 d= 1.5637
t= (7.071)
En Yüksek Olabilirlik Yöntemi
İstatistikte, tüm anakütleler kendilerine karşılık gelen bir olasılık dağılımı ile tanımlanırlar.
Basit(sıradan) en küçük kareler yöntemi, özünde olasılık dağılımları ile ilgili herhangi bir varsayım içermez.
Bu yüzden, çıkarsama yapmada BEK tek başına bir işe yaramaz.
BEK, genel bir tahmin yaklaşımından çok regresyon doğrularını bulmada kullanılabilecek bir hesaplama yöntemi olarak görülmelidir.
BEK yönteminden daha güçlü kuramsal özellikler gösterenbir başka nokta tahmincisi EYO, yani “en yüksek olabilirlik”(maximum likelihood) yöntemidir.
En yüksek olabilirlik yönteminin ardında yatan temel ilke şubeklentidir:
“Rassal bir olayın gerçekleşmesi, o olayın, gerçekleşme olasılığının en yüksek olay olmasındandır.”
Bu yöntem, 1920’li yıllarda˙Ingiliz istatistikçi Sir Ronald A.Fisher (1890-1962) tarafından bulunmuştur.
Ki-kare testi, bayesgil yöntemler ve çeşitli ölçüt modelleri gibi birçok istatistiksel çıkarım yöntemi, temelde EYO yaklaşımına dayanmaktadır.
EYO yöntemini anlayabilmek için, elimizde dağılım
katsayıları bilinen farklı anakütleler ve rassal olarak
belirlenmiş bir örneklem olduğunu varsayalım:
Bu örneklemin farklı anakütlelerden gelme olasılığı farklı ve
bazı ana kütlelerden gelme olasılığı diğerlerine göre daha
yüksektir.
Elimizdeki örneklem, eğer bu anakütlelerden birinden
alınmışsa, “alınma olasılığı en yüksek anakütleden
alınmış olmalıdır” diye düşünülebilir.
Kısaca:
1. Anakütlenin olasılık dağılımı belirlenir veya bu yönde bir
varsayımda bulunulur.
2. Eldeki örneklem verilerinin, hangi katsayılara sahip
anakütleden gelmiş olma olasılığının en yüksek olduğu
bulunur.
YALTA (2007 – 2008 Ders Notları)
1
X
Y
Xi
1
1+ 2Xi
Y = 1+ 2X
Y = b1 + b 2X + u modelinde katsayıların en çok olabilirlik tahminleri yapılmadan önce modelde hata terimi olmadığını ifade edelim. Nokta ile gösterilen yerde Y değerine karşılık gelen X değerinin Xi değerine eşit olduğunu görülmektedir.
Regresyon Katsayılarının En Yüksek Olabilirlik Tahminleri
2
Eğer modele hata terimini eklersek hataların belli bir ortalama ve
varyansa bağlı olarak normal dağıldığını varsayabiliriz.
X
Y
Xi
1
1+ 2Xi
Y = 1+ 2X
3
Şekilde gösterilen dağılış hata teriminin önceden tahmin edilen
dağılışıdır. Gerçekte hata teriminin dağılışının belli bir değere
bağlı olarak modelde normal dağıldığını varsayabiliriz.
X
Y
Xi
1
1+ 2Xi
Y = 1+ 2X
4
X
Y
Xi
1
1+ 2Xi
Y = 1+ 2X
Ayrıca yatay eksene göre bakıldığında; şekilde gösterilen dağılış
X=Xi durumunda Y’nin tahmini dağılımını da ifade etmektedir.
6
Y değeri 1 + 2Xi e yaklaştıkça göreceli olarak daha yüksek yoğunluğa sahip olmaktadır.
X
Y
Xi
1
1+ 2Xi
Y = 1+ 2X
X
Y
Xi
1
1+ 2Xi
Y = 1+ 2X
7
Bununla birlikte 1 + 2Xi den uzaklaştıkça yoğunluk azalmaktadır.
8
Yi ‘nin ortalama değeri 1 + 2Xi ve hata terimlerinin standart
sapması da , olduğunu varsayarsak.
X
Y
Xi
1
1+ 2Xi
Y = 1+ 2X
Regresyon Katsayılarının En Yüksek Olabilirlik Tahminleri
9
Yi ’lerin olasılık yoğunluk fonksiyonları f(Yi) fonksiyonu ile ifade
edilebilir.
X
Y
Xi
1
1+ 2Xi
Y = 1+ 2X
2
21 21
21
)(
ii XY
i eYf
Regresyon Katsayılarının En Yüksek Olabilirlik Tahminleri
Tek denklemli ekonometrik modellerin tahmininde EKKY dışında
kullanılan alternatif yöntem En Yüksek Olabilirlik Yöntemidir.
Büyük örneklerde her iki yöntemde yakın sonuçlar vermektedir.
Küçük örneklerde ise EYOBY’de
nes /22 olup sapmalıdır.
2/22 nes sapmasızdır.
EKKY’de ise
İki Değişkenli Basit Regresyon Modelinin En Yüksek Olabilirlik Yöntemi İle Tahmini
EYOBY’’nin regresyon modeline uygulanışı şöyledir:
iii uXbbY 21
Y bağımlı değişkeninin
ii XbbYE 21)( ortalamalı
2)var( sYi
varyanslı normal ve Yi değerlerinin bağımsız dağıldığı
varsayılmaktadır. Yani
)s,Xbb(NY 2i21i (1)
Bu ortalama ve varyansla Yi nin Y1, Y2,…,Yn değerlerinin
bileşik olasılık yoğunluk fonksiyonu şöyledir:
),|,...,,( 22121 sXbbYYYf in
Y’ler birbirinden bağımsız olduğundan, bu bileşik olasılık yoğunluk fonksiyonu, n tane bireysel yoğunluk fonksiyonunun çarpımı olarak yazılabilecektir.
2 2 21 2 n 1 2 i 1 1 2 1 2 1 2 2
2n 1 2 n
f (Y ,Y ,...,Y | b b X ,s ) f (Y | b b X ,s ).f (Y | b b X ,s ) ...f (Y | b b X ,s )
(2)
(2) deki f(Yi), (1) deki ortalama ve varyanslı normal dağılımlı
yoğunluk fonksiyonu olup şöyle ifade edilir:
2
21 21
21
)(
ii XY
i eYf
2
212
21
1
211211
21
...2
1)(...)(
nn XYXY
n eeYfYf
(3)
(3)’ü (1) deki her Yi yerine koyarak aşağıdaki ifadeyi elde ederiz:
(4)
(4) de Yi ler bilindiğinde ve b1,b2 ve s2 ler bilinmediğinde (4)
ifadesine en yüksek olabilirlik fonksiyonu adı verilir ve
L(b1,b2,s2) şeklinde gösterilir.
Ortak yoğunluk fonksiyonları her bir yoğunluk fonksiyonunun çarpımına eşittir.
1 1 2 1 n 1 2 nY β β X Y β β X1 1
2 2 22 σ 2 σ1 2 1 n
1 1L β ,β ,σ | Y ,...,Y e ... e
σ 2π σ 2π
21 21
( )2 21 2
1, ,
( 2 )
i iY X
n nL e
En yüksek olabilirlik yöntemi bilinmeyen bi parametrelerinin,
verilen Y’nin gözlenme olasılığının ençok(maksimum) olacak
tarzda tahmini esasına dayanır. Bu sebepten b’lerin EYOBY’
ile tahmin için (5) fonksiyonunun maksimumunun
araştırılması gerekir. Bu türevdir, türev için en kısa yol (5)
in log. nın alınmasıdır.
(5)
2XY
2
12XY
2
1 n21n1211
e2
1...e
2
1lnLln
221i2 XY
2
12ln
2
nln
2
nLln
01XY
2*2
1Lln2
21i
1
0XXY
2*2
1Llni2
i21i
2
i21i XnY
22i1ii i
XXYX
4
221i
22
XY*2*
2
11
2
nLln
0
XYnLln3
221i
2
2
n
XY 221i2
Wooldridge Example 17.1
inlf kidslt6 kidsge6 age educ exper nwifeinc expersq Obs: 753 1. inlf =1 işgücüne katılıyorsa 2. kidslt6 6 < yaşında küçük çocuk sayısı 3. kidsge6 6-18 yaşları arasındaki çocuk sayısı 4. age kadının yaşı 5. educ eğitim yılı 6. exper deneyim 7. nwifeinc (ailegeliri – ücret*saat)/1000 8. expersq deneyimkare
Wooldridge Example 17.1-DİMDependent Variable: INLF
Method: Least Squares Included observations: 753
Variable Coefficient Std. Error t-Statistic Prob.
NWIFEINC -0.003405 0.001448 -2.350840 0.0190
EDUC 0.037995 0.007376 5.151194 0.0000
EXPER 0.039492 0.005673 6.961866 0.0000
EXPERSQ -0.000596 0.000185 -3.226959 0.0013
AGE -0.016091 0.002485 -6.476014 0.0000
KIDSLT6 -0.261810 0.033506 -7.813888 0.0000
KIDSGE6 0.013012 0.013196 0.986077 0.3244
C 0.585519 0.154178 3.797683 0.0002
R-squared 0.264216 Mean dependent var 0.568393
Adjusted R-squared 0.257303 S.D. dependent var 0.495630
S.E. of regression 0.427133 Akaike info criterion 1.147124
Sum squared resid 135.9197 Schwarz criterion 1.196251
Log likelihood -423.8923 F-statistic 38.21795
Durbin-Watson stat 0.493840 Prob(F-statistic) 0.000000
Wooldridge Example 17.1-LOGİTDependent Variable: INLF Method: ML - Binary Logit Included observations: 753
Variable Coefficient Std. Error z-Statistic Prob.
NWIFEINC -0.021345 0.008421 -2.534621 0.0113
EDUC 0.221170 0.043440 5.091443 0.0000
EXPER 0.205870 0.032057 6.422002 0.0000
EXPERSQ -0.003154 0.001016 -3.104093 0.0019
AGE -0.088024 0.014573 -6.040235 0.0000
KIDSLT6 -1.443354 0.203585 -7.089695 0.0000
KIDSGE6 0.060112 0.074790 0.803750 0.4215
C 0.425452 0.860369 0.494500 0.6210
Mean dependent var 0.568393 S.D. dependent var 0.495630
S.E. of regression 0.425963 Akaike info criterion 1.088354
Sum squared resid 135.1762 Schwarz criterion 1.137481
Log likelihood -401.7652 Hannan-Quinn criter. 1.107280
Restr. log likelihood -514.8732 Avg. log likelihood -0.533553
LR statistic (7 df) 226.2161 McFadden R-squared 0.219681
Probability(LR stat) 0.000000
Obs with Dep=0 325 Total obs 753
Obs with Dep=1 428
Wooldridge Example 17.1-PROBİT
Dependent Variable: INLF Method: ML - Binary Probit Included observations: 753
Variable Coefficient Std. Error z-Statistic Prob.
NWIFEINC -0.012024 0.004840 -2.484327 0.0130
EDUC 0.130905 0.025254 5.183485 0.0000
EXPER 0.123348 0.018716 6.590348 0.0000
EXPERSQ -0.001887 0.000600 -3.145205 0.0017
AGE -0.052853 0.008477 -6.234656 0.0000
KIDSLT6 -0.868329 0.118522 -7.326288 0.0000
KIDSGE6 0.036005 0.043477 0.828142 0.4076
C 0.270077 0.508593 0.531027 0.5954
Mean dependent var 0.568393 S.D. dependent var 0.495630
S.E. of regression 0.425945 Akaike info criterion 1.087124
Sum squared resid 135.1646 Schwarz criterion 1.136251
Log likelihood -401.3022 Hannan-Quinn criter. 1.106050
Restr. log likelihood -514.8732 Avg. log likelihood -0.532938
LR statistic (7 df) 227.1420 McFadden R-squared 0.220581
Probability(LR stat) 0.000000
Obs with Dep=0 325 Total obs 753
Obs with Dep=1 428
UYGULAMA: Aşağıda bir okulun eğitimi ile ilgili verileri kullanarak Probit denklemini çıkartınız.
GRADE: Yeni bir tekniğin uygulanması sonucu öğrencilerin başarısıPSI: Yeni Bir Ekonomi Öğretme YöntemiGPA: Ortalama DereceTUCE: Sınav Öncesi Konu ile ilgili Bilgi SKoru
Dependent Variable: GRADEMethod: ML - Binary ProbitIncluded observations: 32Convergence achieved after 5 iterations
Variable Coefficient Std. Error z-Statistic Prob. C -7.452320 2.542472 -2.931131 0.0034GPA 1.625810 0.693882 2.343063 0.0191PSI 1.426332 0.595038 2.397045 0.0165TUCE 0.051729 0.083890 0.616626 0.5375
Dependent Variable: GRADEMethod: ML - Binary LogitSample: 1 32
Variable Coefficient Std. Error z-Statistic Prob. C -13.02135 4.931317 -2.640541 0.0083GPA 2.826113 1.262940 2.237726 0.0252PSI 2.378688 1.064563 2.234426 0.0255TUCE 0.095158 0.141554 0.672235 0.5014
Di Mi Ai Si Di Mi Ai Si
1 0 31 16 1 0 35 10
1 1 34 14 1 1 40 14
1 1 41 16 0 1 43 10
0 0 67 9 0 1 37 12
1 0 25 12 1 0 27 13
0 1 58 12 1 0 28 14
1 0 45 14 1 1 48 12
1 0 55 10 0 1 66 7
0 0 43 12 0 1 44 11
1 0 55 8 0 1 21 12
1 0 25 11 1 1 40 10
1 0 41 14 1 0 41 15
0 1 62 12 0 1 23 10
1 1 51 13 0 1 31 11
0 1 39 9 1 1 44 12
Kadının İşgücüne Katılımı Modeli:
Di= 1 i.Kadının bir işi varsa ya da iş arıyorsa
0 Diğer Durumlarda
Mi= 1 i. Kadın evliyse
0 diğer durumlarda
Si = i.kadının yıl olarak aldığı eğitim
Ai= i. Kadının Yaşı
Logit Model TahminleriDependent Variable: DI
Method: ML - Binary Logit
Included observations: 30
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives
Variable Coefficient Std. Error z-Statistic Prob.
C -5.895933 3.324731 -1.773356 0.0762
MI -2.586110 1.180162 -2.191318 0.0284
SI 0.690368 0.315828 2.185899 0.0288
Mean dependent var 0.600000 S.D. dependent var 0.498273
S.E. of regression 0.399177 Akaike info criterion 1.085128
Sum squared resid 4.302237 Schwarz criterion 1.225248
Log likelihood -13.27693 Hannan-Quinn criter. 1.129954
Restr. log likelihood -20.19035 Avg. log likelihood -0.442564
LR statistic (2 df) 13.82685 McFadden R-squared 0.342412
Probability(LR stat) 0.000994
Obs with Dep=0 12 Total obs 30
Obs with Dep=1 18