B ağımlı Kukla Değişkenler

Preview:

DESCRIPTION

B ağımlı Kukla Değişkenler. Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla değişkenler söz konusudur. Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır: -Doğrusal Olasılık Modeli -Logit Modeli - PowerPoint PPT Presentation

Citation preview

Bağımlı Kukla Değişkenler

Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin

varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla

değişkenler söz konusudur.

•Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır:

-Doğrusal Olasılık Modeli

-Logit Modeli

-Probit Modeli

-Tobit Modeli

Doğrusal Olasılık Modeli

Yi = b1 + b2Xi +ui

Yi= 1 Eğer i. Birey istenen özelliğe sahipse

0 Diğer Durumlarda

Xi= Bağımsız değişken

Bu modele olasılıklı model denmesinin nedeni, Y’nin X için şartlı

beklenen değerinin, Y’nin X için şartlı olasılığına eşit

olmasıdır.

E(Yi|Xi)=Pr(Yi=1| Xi)

Doğrusal Olasılık Modeli

E(Yi |Xi)= b1 + b2Xi E(ui) = 0

Yi değişkeninin olasılık dağılımı:

Yi Olasılık

0 1-Pi

1 Pi

Toplam 1

E(Yi |Xi) = YiPi=0.(1-Pi) + 1.(Pi) = Pi

E(Yi |Xi)= b1 + b2Xi

0 E(Yi |Xi) 1

DOM Tahminindeki Sorunlar

ui hata teriminin normal dağılmayışı:

•Normallik varsayımının sağlanmaması durumunda tahmin

ediciler sapmasızlıklarını korurlar.

•Nokta tahminde normallik varsayımı gözardı edilir.

•Örnek hacmi sonsuza giderken EKK tahmincileri çoğunlukla

normal dağılıma uyarlar.

•DOM ile yapılan istatistiksel çıkarsamalar normallik varsayımı

altındaki EKK sürecine uyarlar.

u’ların Binom Dağılımlı Olması

EKKY varsayımlarından biri u değerlerinin dağılımının normal olmasıdır. Bu varsayım sayesinde katsayı tahminlerinin güven aralıkları hesaplanıp, test yapılabilmektedir.

DOM’de u’lar normal dağılmaz, binom dağılımı gösterir:

1 2i iu Y b b X 1 2i iY b b X u

Y 1 ve 0 değerini aldığında

Yi =1 için 1 21i iu b b X

Yi =0 için 1 2i iu b b X u lar normal değildir. İki değerli binom dağılımlıdır. Ancak büyük örneklerde DOM güven aralıkları ve hipotez testleri geçerlidir ve EKKY normal dağılım varsayımının sağlandığı kabul edilmektedir.

Yi ui İhtimal=P(ui)

0 -b1-b2X (1-Pi)

1 1-b1-b2X Pi

2 2i 1 2 i 1 2 iVar(u ) ( b b X) (1 P ) (1 b b X) (P )

i 1 2 1 2Var(u ) (b b X)(1 b b X)

ui hata teriminin değişen varyanslı olması:

)(.)()( 2ii YPYYYVar

DOM’de u lar eşit varyanslı değillerdir. Bunun için kesikli bir Y değişkeni varyansından hareketle

Y yerine u alınarak

)(.)()(.)()( 22ii uPuuPuuuVar

i i i i iVar(u ) E(Y | X )[1 E(Y | X )] P (1 P )

u’nun varyansı farklıdır. u’nun varyansı Y’nin X için şartlı beklenen değerine bağlıdır ve sonuçta u’nun varyansı X’in değerine bağlı olacak ve eşit olmayacaktır.

DOM’nin EKKY ile tahmininde ortaya çıkan farklı varyans problemine aşağıdaki dönüşümlü modeli tahmin ederek çözüm getirmek mümkündür:

1 2 i i

i i i i

b b X uY

v v v v

i i i i iv E(Y | X )[1 E(Y | X )] P (1 P )

ui hata teriminin değişen varyanslı olması:

•Var(ui) = Pi(1-Pi)

DOM’de Farklı Varyansı Önleme

i i iˆ ˆv Y (1 Y )

iE(Y | X ) ler bilinmediğinden bunun yerine örnek tahmini iYdeğerleri hesaplanarak ifadesinde yerine

konarak v ler kullanılır.

0 E(Yi |Xi) 1 varsayımının yerine gelmeyişi

DOM’de Y’nin şartlı olasılığını gösteren E(Y|X) nın 0 ila 1

arasında bulunması şarttır. Y; 0 ve 1 değerini almaktadır.Bu şart

anakütle için geçerlidir. Anakütlenin tahmincisi için geçerli

olmayabilir.

Tahmini şartlı olasılıklar 0 ile 1 olmayabilir:

iY

0 E(Yi |Xi) 1

0 ile 1 arasında mıdır? DOM”, EKKY ile elde edildikten sonra

iY

eşit olduğu kabul edilir.

Bunlardan bir kısmı 0 dan küçük, negatif değerli ise, bunlar için iY

0 değerini alır. 1’den büyük değerli ise bunlar için nin 1’e

Dönüştürmeden sonra EKKY tekrar uygulanır ve farklı varyansın kalktığı görülebilir.

u

v eşit varyanslıdır. Bu yöntem TEKKY’dir.

Doğrusal Olasılık Modeli

Di = b1 + b2Mi +b3 Si +ui

Di= 1 Eğer i. Kadının bir işi varsa ya da iş arıyorsa

0 Diğer Durumlarda

Mi= 1 Eğer i. Kadın evliyse

diğer durumlarda 0

Si = i.kadının yıl olarak aldığı eğitim

Ai= i. Kadının Yaşı

Di Mi Ai Si Di Mi Ai Si

1 0 31 16 1 0 35 10

1 1 34 14 1 1 40 14

1 1 41 16 0 1 43 10

0 0 67 9 0 1 37 12

1 0 25 12 1 0 27 13

0 1 58 12 1 0 28 14

1 0 45 14 1 1 48 12

1 0 55 10 0 1 66 7

0 0 43 12 0 1 44 11

1 0 55 8 0 1 21 12

1 0 25 11 1 1 40 10

1 0 41 14 1 0 41 15

0 1 62 12 0 1 23 10

1 1 51 13 0 1 31 11

0 1 39 9 1 1 44 12

Kadının İşgücüne Katılımı Modeli:

Di= 1 i.Kadının bir işi varsa ya da iş arıyorsa

0 Diğer Durumlarda

Mi= 1 i. Kadın evliyse

0 diğer durumlarda

Si = i.kadının yıl olarak aldığı eğitim

Ai= i. Kadının Yaşı

Kadının İşgücüne Katılımı Modeli

Di = b1 + b2Mi +b3 Si +ui

Dependent Variable: DI

Included observations: 30

Variable Coefficient Std. Error t-Statistic Prob.

C -0.284301 0.435743 -0.652452 0.5196

MI -0.381780 0.153053 -2.494430 0.0190

SI 0.093012 0.034598 2.688402 0.0121

R-squared 0.363455 Mean dependent var 0.600000

Adjusted R-squared 0.316304 S.D. dependent var 0.498273

S.E. of regression 0.412001 Akaike info criterion 1.159060

Sum squared resid 4.583121 Schwarz criterion 1.299179

Log likelihood -14.38590 F-statistic 7.708257

Durbin-Watson stat 2.550725 Prob(F-statistic) 0.002247

Mi= 1 Kadın evliyse ;0 diğer durumlarda ; Si = i.kadının yıl olarak aldığı eğitim A= Kadının Yaşı

White Heteroskedasticity Test:F-statistic 1.759076 Probability 0.168742Obs*R-squared 6.589061 Probability 0.159265

Dependent Variable: RESID^2Included observations: 30Variable Coefficient Std. Errort- Statistic Prob. C -0.390620 0.700490 -0.557639 0.5821MI -0.410659 0.315325 -1.302336 0.2047MI*SI 0.036202 0.026225 1.380429 0.1797SI 0.132421 0.116635 1.135344 0.2670SI^2 -0.007102 0.004809 -1.476822 0.1522R-squared 0.219635 Mean dependent var 0.15277Adjusted R-squared0.094777 S.D. dependent var 0.16180S.E. of regression 0.153942 Akaike info criterion -0.75347Sum squared resid 0.592452 Schwarz criterion 0.51994Log likelihood 16.30209 F-statistic 1.75907Durbin-Watson stat 1.963424 Prob(F-statistic) 0.16874

DOM’de Farklı Varyansı Önleme

Dependent Variable:

Included observations: 30

Variable Coefficient Std. Error t-Statistic Prob.

-0.184154 0.316834 -0.581231 0.5659

-0.362893 0.135229 -2.683551 0.0123

0.081678 0.022231 3.674022 0.0010

R-squared 0.872710 Mean dependent var 2.190469

Adjusted R-squared 0.863281 S.D. dependent var 2.514662

S.E. of regression 0.929809 Akaike info criterion 2.786965

Sum squared resid 23.34273 Schwarz criterion2.927085

Log likelihood -38.80448 F-statistic 92.55700

Durbin-Watson stat 2.583787 Prob(F-statistic)0.000000

i 1 2 i 3 i iD v b v b M v b S v u v D / v

1/ vM / v

S/ v

UYGULAMA:Cep telefonunun kullanılıp kullanılmamasını ifade eden bağımlı kukla değişken 50 kişiye yapılan anket sonuncunda yaş ve aylık ortalama gelir ile

açıklanmıştır.(Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse)Kişi Y X(Gelir) Z(Yaş) Kişi Y X(Gelir) Z(Yaş)1 1 250 23 26 0 185 212 1 350 21 27 1 250 213 0 150 23 28 1 500 214 1 600 22 29 1 790 235 1 200 22 30 1 500 226 0 150 20 31 1 675 227 1 390 27 32 1 490 228 0 200 18 33 1 500 21

9 0 900 25 34 1 760 2110 0 150 18 35 1 550 2611 0 255 18 36 1 400 2412 0 300 20 37 1 200 2113 1 640 25 38 0 220 2114 1 500 27 39 1 175 2315 1 300 22 40 1 840 2116 0 550 19 41 1 150 2317 1 800 18 42 1 200 2318 1 875 21 43 1 200 2319 0 600 17 44 1 485 2320 0 500 20 45 1 250 2121 0 500 19 46 1 300 2022 1 500 21 47 1 470 1923 1 550 22 48 1 800 2324 1 750 21 49 0 250 2125 1 225 23 50 0 130 23

Dependent Variable: YMethod: Least Squares Included observations: 50

Variable Coefficient Std. Error t-Statistic Prob. C -1.373086 0.585035 -2.347017 0.0232X 0.000492 0.000259 1.900372 0.0635Z 0.086130 0.026781 3.216041 0.0024

R-squared 0.2401 Mean dependent var 0.700Adjusted R-squared 0.207770 S.D. dependent var0.462910S.E. of regression 0.412024 Akaike info criterion1.122653Sum squared resid 7.978889 Schwarz criterion 1.2373Log likelihood -25.06633 F-statistic 7.425357Durbin-Watson stat 1.552777 Prob(F-statistic)0.001577

Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse; X(Gelir); Z(Yaş)

White Heteroskedasticity Test:F-statistic 2.305076 Probability 0.060504Obs*R-squared 10.37848 Probability 0.065195

Dependent Variable: RESID^2Included observations: 50Variable Coefficient Std. Error t-Statistic Prob. C 2.341377 2.147612 1.090224 0.2815X -0.004404 0.001530 -2.878146 0.0062X^2 1.63E-06 6.58E-07 2.475147 0.0172X*Z 0.000132 6.84E-05 1.927924 0.0603Z -0.116457 0.191111 -0.609369 0.5454Z^2 0.001301 0.004396 0.295915 0.7687R-squared 0.207570 Mean dependent var0.159578Adjusted R-squared 0.117521 S.D. dependent var 0.225222S.E. of regression 0.211574 Akaike info criterion -0.156314Sum squared resid 1.969602 Schwarz criterion 0.073128Log likelihood 9.907860 F-statistic 2.305076Durbin-Watson stat 2.375111 Prob(F-statistic) 0.060504

Kişi   Kişi   Kişi   Kişi  1 0.7308 16 0.5338 31 0.8536 46 0.49702 0.6077 17 0.5705 32 0.7627 47 0.49443 0.6817 18 0.8658 33 0.6815 48 1.00124 0.8167 19 0.3861 34 0.8093 49 0.55865 0.6201 20 0.5953 35 1.1367 50 0.67186 0.4233 21 0.5092 36 0.89077 1.1442 22 0.6815 37 0.53408 0.2756 23 0.7922 38 0.54389 1.2226 24 0.8044 39 0.693910 0.2510 25 0.7185 40 0.848611 0.3026 26 0.5266 41 0.681712 0.4970 27 0.5586 42 0.706213 1.0948 28 0.6815 43 0.706214 1.1982 29 0.9963 44 0.846315 0.6693 30 0.7676 45 0.5586

Y

Y

Y

Y

Dependent Variable: Method: Least SquaresSample: 1 50Included observations: 44Excluded observations: 6

Variable Coefficient Std. Error t-Statistic Prob. -1.960127 0.591996 -3.311048 0.00190.000468 0.000170 2.754280 0.00870.114551 0.028194 4.062939 0.0002

R-squared 0.899751 Mean dependent var 1.9024Adjusted R-squared 0.894861 S.D. dependent var 2.504969S.E. of regression 0.812241 Akaike info criterion2.487706Sum squared resid 27.04915 Schwarz criterion 2.609356Log likelihood -51.72954 F-statistic 183.9907Durbin-Watson stat 1.728717 Prob(F-statistic) 0.000000

1/ v

Y / v

X / v

Z / v

DOM’e Alternatif Model Arama

•DOM ile ilgili sayılan sorunlar aşılabilir:

•DOM EKKY nin iki varsayımını yerine getirmez. Hatalar

normal dağılımlı değildir ve farklı varyans söz konusu

olabilir. En önemli problem DOM’nin

Pi=E(Y=1|X)

nin Xi ile doğrusal doğrusal olarak arttığını varsaymasıdır.

Yani X’deki marjinal veya küçük bir artış hep sabittir.

Gerçek hayatta ise bu, beklenen bir durum değildir.

0-1 aralığı dışına çıkmamak koşuluyla, öyle bir model bulunmalı ki P i

ile Xi arasındaki ilişki eğrisel olsun:Xi deki artışlar Pi yi de arttırsın.

Yukarıdaki iki özelliği taşıyan modelin şekli aşağıda verilmiştir:

0

1 P

-+

X

KDF

DOM’e Alternatif Model Arama

•Yukarıdaki eğri kümülatif dağılım fonksiyonuna benzemektedir.

•Bu fonksiyon kukla bağımlı değişkenli regresyon modellerinde kullanılabilir.

Logit ModelLogistik Dağılım Fonksiyonu

i

i

P 1 1.

1-P 1

zz

z z

ee

e e

1 2 ii (b b X )

1P =E(Y=1|X)

1 e

1

1 iZe

kümülatif lojistik dağılım fonksiyonudur.

Bahis yada olabilirlik oranı

1 2i iZ b b X

ln( ) ln1

izii e i

i

PL e Z

P

1 1 11 1

1 1 1

i i

i i i

Z Z

Z Z Z

e eP

e e e

Bu orana örneğin, ev sahibi olma lehine fark oranı denir. Lojistik modelin her iki tarafının doğal log. alındığında

Li fark oranı logaritması olup hem X, hem parametrelere göre doğrusaldır.Z değişkeni - dan + a değişirken, P 0 ile 1 arasında değişir.

Logit Model

i 1 2P =E(Y=1|X) ib b X

DOM’de

şeklindedir.

1 2 ii (b b X )

1P =E(Y=1|X)

1 e

1

1 iZe

Logit modelde olasılık

iken.

•Zi, - ile + arasında değerler alırken Pi’nin

aldığı değerler ise 0 ile 1 arasında

değişmektedir.

•Zi ile Pi arasındaki ilişki doğrusal değildir.

Logit Model

Logit Modelin Özellikleri

Pi=1

0

1ln

11

1ln

P1

Pln

i

i = +

Pi=0

1

0ln

01

0ln

P1

Pln

i

i

= -

1. Pi, 0’dan 1’e kadar değer aldığında, Logitte -ile + arasında değer alır.

2. Logit, X’e göre doğrusal iken olasılıklara göre değildir.

3. Logit modelin b2 katsayısı; bağımsız değişkendeki bir birimlik değişme karşısında logitteki değişmeyi gösterir.

4. Logit model tahmin edildikten sonra, X bağımsız değişkeninin belirli bir değeri için logitin gerçekleşme olasılığı hesaplanabilir.

2

0.00

0.25

0.50

0.75

1.00

-8 -6 -4 -2 0 2 4 6Z

ZeZFp

1

1)(

)(ZF

XZ 21

Bir olayın gerçekleşme olasılığının birden büyük olması durumundan kaçınmak için olasılığın Z’nin S şeklinde bir fonksiyonu olduğunu varsaymaktır. Z, açıklayıcı değişkenlerin fonksiyonu olarak ifade edilebilir.

Logit Model

3

0.00

0.25

0.50

0.75

1.00

-8 -6 -4 -2 0 2 4 6

Birçok fonksiyon S şeklinde fonksiyon özelliklere sahiptir ve yukarıda gösterildiği gibi bunlardan biri de lojistik fonksiyondur. Z + sonsuza gideren, e-Z sıfıra gitmekte, ve p 1’e gitmektedir. (fakat 1’i geçmemektedir.). Z – sonsuza giderken, e-Z de sonsuza gitmekte ve p de sıfıra gitmektedir (fakat sıfırın altına inmemektedir.).

XZ 21

)(ZFZe

ZFp

11

)(

Z

Logit Model

Logit Modelin EKKY İle Tahmini

1.Adım: olasılıkları hesaplanır.i i iP n N

2.Adım: fark oranı logaritmaları hesaplanır.i i iL ln(P 1 P )

3.Adım: orijinal lojistik modeli tahminlenir.i 1 2 i iL b b X u

i i i iL ln[n (N n )]

Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir.iv

i 1 2 i iL b b X u i i i iv N P (1 P )

Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir.

iv

i i 1 i 2 i i i iv L b v b v X v u

Logit Modelin EKKY İle Tahmini

* *1 i 2 i iL b v b X w Dönüşümlü veya Tartılı

EKK Lojistik Modeli

i i i iv N P (1 P )

i i iw u v

Logistik Model Uygulaması

300 aileden oluşan küçük bir kasabada ailelerin, yıllık gelirleri (Xi) ve ev sahibi olanların sayısı (ni) aşağıdaki tabloda gösterilmiştir.

XMilyon TL)

Aile Sayısı=Ni

Ev Sahibi Olan Aile Sayısı=ni

Nispi Frekanslar

Pi=ni/Ni

12 20 5 0.25

16 25 6 0.24

20 35 10 0.28

26 45 15 0.33

30 50 25 0.50

40 34 18 0.53

50 30 20 0.66

60 26 16 0.61

70 20 15 0.75

80 15 10 0.67

Ni = 300 ni = 140

Logistik Model Uygulaması

Xi

1

12

16

20

26

30

40

50

60

70

80

Ni

2

20

25

35

45

50

34

30

26

20

15

ni

3

5

6

10

15

25

18

20

16

15

10

Pi

4=3/2

0.25

0.24

0.28

0.33

0.50

0.53

0.66

0.61

0.75

0.67

1-Pi

5=1-4

0.75

0.76

0.72

0.67

0.50

0.47

0.34

0.39

0.25

0.33

Pi /1- Pi

6=4/5

0.33

0.31

0.39

0.49

1.00

1.13

1.94

1.56

3.00

2.03

Li

7=ln(6)

-1.1086

-1.1712

-0.9416

-0.7133

0.0000

0.1222

0.6626

0.4446

1.0986

0.7080

Logistik Model Uygulaması

Dependent Variable: L

Method: Least Squares

Included observations: 10

Variable Coefficient Std. Error t-Statistic Prob.

C -1.409706 0.215776 -6.533192 0.0002

X 0.032669 0.004667 7.000011 0.0001

R-squared 0.859649 Mean dependent var -0.089870

Adjusted R-squared 0.842106 S.D. dependent var 0.835010

S.E. of regression 0.331799 Akaike info criterion 0.808280

Sum squared resid 0.880723 Schwarz criterion 0.868797

Log likelihood -2.041402 F-statistic 49.00015

Durbin-Watson stat 1 .582165 Prob(F-statistic) 0.000113

Logistik Model Uygulaması

v=N.P.(1-P)

8=2.4.5

3.75

4.56

7.05

9.95

12.50

8.47

6.73

6.18

3.75

3.31

vi

9= 8

1.9365

2.1354

2.6552

3.1543

3.5355

2.9103

2.5942

2.4859

1.9365

1.8193

L*

10=7.9

-2.1468

-2.5009

-2.5001

-2.4999

0.0000

0.3556

1.7189

1.1052

2.1274

1.2880

X*

11=1.9

23.2379

34.1666

53.1036

82.0134

106.0660

116.4130

129.7112

149.1576

135.5544

145.5472

Logistik Model Uygulaması

Li*= -1.38056 vi + 0.03363 Xi

*, s= 0.8421

s(bi): (0.2315) (0.00556) , R2= 0.80

t= (-5.9617) (6.0424) , d= 1.649, F= 36.95 Gelir bir birim arttığında, ev sahibi olma lehine fark oranının logaritması 0.033 artmaktadır. Bu fark oranına göre belli bir gelir seviyesinde ev sahibi olma olasılığı hesaplanabilir:

X=40 iken 2.9103iv 116.4130X

değerleri yukarıdaki denklemde yerine konduğunda

L*=-0.10288 bulunur.

ˆlog log log( 0.10288) 0.9022ˆ1

PAnti L Anti Anti

P

ˆ

0.9022ˆ1

P

P

ˆ 0.4743P olabilirlik oranı

40 birim gelirli bir ailenin ev sahibi olma olasılığı %47.43’dür.

Lojistik modelden, belli bir gelir seviyesinde gelirdeki bir birimlik artışın ev sahibi olma olasılığını ne ölçüde arttıracağı tahmin edilebilir:

2ˆ ˆ ˆ(1 )b P P

formülünden yararlanılır. X=40 iken gelir 1 birim arttığında ev sahibi olma olasılığı

[0.03363(1-0.4743)0.4743]=0.00838(%0.8)

UYGULAMA: Kasımpatı yaprak bitkilerini öldüren bir ilaçtan 1 Lt suya konan dozlar (X, Miligram), yaklaşık 50cl.’lik bit grupları(Ni) üzerine sıkılmış ve ölen bit sayısı (ni) aşağıdaki gibi tesbit edilmiştir:

Doz(Litre başına mg) XGruplardaki yaprak

biti sayısı (Ni)Ölen (ni) Li

2.6 50 6 -1.993.8 48 16 -0.695.1 46 24 0.097.7 49 42 1.79

10.2 50 44 1.99

Bu verilerle ilgili Logit tahmin modeli aşağıdaki gibidir:

Dependent Variable: LIMethod: Least SquaresIncluded observations: 5

Variable Coefficient Std. Error t-Statistic Prob. C -2.850133 0.602091 -4.733723 0.0179X 0.525044 0.092785 5.658686 0.0109

a) Katsayı tahminlerini yorumlayınız

b) X=7.7 miligram doz seviyesinde ölüm ihtimali P’yi hesaplayınız.

ii

i

PL ln( ) 2.85 0.525X

1 P

ii

i

PL ln( ) 2.85 0.525(7.7) 1.192

1 P

i

i

Pln( ) 1.1925

1 P

i

i

P2.83

1 P

iP 0.739

Probit Model

Bağımlı kukla değişkenli modellerden kümülatif lojistik

fonksiyonundan farklı olarak, normal kümülatif dağılım

fonksiyonunu kullanan PROBİT(NORMAL) model vardır.

1

20

2 22

Z Ze z( ) /

F(z)=P R O B İ T (NORMAL) MODEL

Probit modeli şu şekilde tanımlayabiliriz:

Herhangi bir i hanesinin ev sahibi olma veya olmama kararının gözlenemeyen bir fayda indeksi Ii’ye bağlı olduğunu varsayalım.

Ii* Ii ifadesi, faydanın belli bir eşik değerinden sonra söz konusu

olabileceğini gösterir. Ii* başlangıç değeri de Ii gibi gözlenemez.

Ancak, aynı ortalama ve varyanslı normal dağıldığı varsayılarak Ii

değerleri yukarıdaki regresyon denkleminden tahmin edilir.

Tahminciler bulunur.

Ii= b1 + b2 Xi

Ii, bağımsız değişkenlere bağlıdır. Örneğin Xi (gelir)değişkeni.

Her hane için Ii’nın belli bir değerinden itibaren ev sahibi olma

durumu söz konusudur.Ii değeri, Ii* değerini aştığı zaman hane, ev

sahibi olacak aksi durumda olmayacaktır.

Y=1 hane ev sahibi

Y=0 hane ev sahibi değil.

(1)

i 2I 2/t dte2

1 1

2

2 21 2

e dttb b Xi

/

=Standartlaştırılmış Normal KDF

Pi=Pr(Y=1)=Pr(Ii* Ii)=F(Ii)

(0,1)t N =standartlaştırılmış normal değişken

Pi=Bir ev sahibi olma olasılığı.

(2)

Normal dağılım varsayımıyla Ii* ın Ii den küçük veya eşit olma olasılığı

aşağıdaki standartlaştırılmış normal KDF ile hesaplanabilir:

Probit Model

0

1

Pi=F(Ii)

- +

0

1

Pi=F(Ii)

- +

Pi

Ii= b1 + b2 Xi

Pi

Ii=F-1(Pi )

Ii* <=Ii verilmişken ev sahibi olma

olasılığı Pi ordinatta bulunur

Pi verilmişken, absiste Ii bulunur.

Ii’yı bulabilmek için 2 no’lu ifadenin tersi alınmalıdır.

Ii = F-1(Ii)=F-1 (Pi)=b1+b2Xi

=Probit model

F-1: normal kümülatif dağılım fonksiyonunun tersi.

Probit Modelin Tahmin Aşamaları

1. Pi= ni/Ni hesaplanır.

2. Ii = F-1 (Pi)= normal eşdeğer sapma bulunur.

3. Ii = b1 + b2 Xi + ui EKK ile tahmin edilir.

4. İstenirse, Ii yerine, (Ii + 5)=probit değerleri alınarak, EKKY ile

(13.19) tahmin edilir.

5. modelinin hata terimi ui farklı varyanslıdır. Bu sebepten

dönüşümlü değerler alınarak TEKKY uygulanabilir:=

2u

P P

N fi i

i i

( )1 fi= F-1 (Pi) ifadesine eşit standart normal

yoğunluk fonksiyonudur.

6. Büyük örnekler için bi'lerin güven aralıkları ve hipotez testleri

uygulanarak, anakütlede durumun geçerliliği araştırılabilir.

7. Belirlilik katsayısı R2, modelin fonksiyonel biçiminin iyi seçilip

seçilmediği konusunda bize fikir vermez.

Probit Model Uygulaması

Pi

0.25

0.24

0.28

0.33

0.50

0.53

0.66

0.61

0.75

0.67

Ii=F-1(Pi)

-0.6745

-0.7063

-0.5828

-0.4399

0.0000

0.0752

0.4124

0.2793

0.6745

0.4399

Probitler=Zi=(Ii+5)

4.3255

4.2937

4.4172

4.5601

5.0000

5.0752

5.4124

5.2793

5.6745

5.4399

Xi

12

16

20

26

30

40

50

60

70

80

Probit Model Uygulaması

Ii= -0.8587 + 0.0200 Xi , r2= 0.8628 r= 0.9289

s(bi) (0.0028) s= 0.2 d= 1.59

t= (7.094)

Zi= 4.1324 + 0.0201 Xi , r2= 0.8621 r= 0.9285

s(bi) (0.0028) s= 0.2 d= 1.5637

t= (7.071)

En Yüksek Olabilirlik Yöntemi

İstatistikte, tüm anakütleler kendilerine karşılık gelen bir olasılık dağılımı ile tanımlanırlar.

Basit(sıradan) en küçük kareler yöntemi, özünde olasılık dağılımları ile ilgili herhangi bir varsayım içermez.

Bu yüzden, çıkarsama yapmada BEK tek başına bir işe yaramaz.

BEK, genel bir tahmin yaklaşımından çok regresyon doğrularını bulmada kullanılabilecek bir hesaplama yöntemi olarak görülmelidir.

BEK yönteminden daha güçlü kuramsal özellikler gösterenbir başka nokta tahmincisi EYO, yani “en yüksek olabilirlik”(maximum likelihood) yöntemidir.

En yüksek olabilirlik yönteminin ardında yatan temel ilke şubeklentidir:

“Rassal bir olayın gerçekleşmesi, o olayın, gerçekleşme olasılığının en yüksek olay olmasındandır.”

Bu yöntem, 1920’li yıllarda˙Ingiliz istatistikçi Sir Ronald A.Fisher (1890-1962) tarafından bulunmuştur.

Ki-kare testi, bayesgil yöntemler ve çeşitli ölçüt modelleri gibi birçok istatistiksel çıkarım yöntemi, temelde EYO yaklaşımına dayanmaktadır.

EYO yöntemini anlayabilmek için, elimizde dağılım

katsayıları bilinen farklı anakütleler ve rassal olarak

belirlenmiş bir örneklem olduğunu varsayalım:

Bu örneklemin farklı anakütlelerden gelme olasılığı farklı ve

bazı ana kütlelerden gelme olasılığı diğerlerine göre daha

yüksektir.

Elimizdeki örneklem, eğer bu anakütlelerden birinden

alınmışsa, “alınma olasılığı en yüksek anakütleden

alınmış olmalıdır” diye düşünülebilir.

Kısaca:

1. Anakütlenin olasılık dağılımı belirlenir veya bu yönde bir

varsayımda bulunulur.

2. Eldeki örneklem verilerinin, hangi katsayılara sahip

anakütleden gelmiş olma olasılığının en yüksek olduğu

bulunur.

YALTA (2007 – 2008 Ders Notları)

1

X

Y

Xi

1

1+ 2Xi

Y = 1+ 2X

Y = b1 + b 2X + u modelinde katsayıların en çok olabilirlik tahminleri yapılmadan önce modelde hata terimi olmadığını ifade edelim. Nokta ile gösterilen yerde Y değerine karşılık gelen X değerinin Xi değerine eşit olduğunu görülmektedir.

Regresyon Katsayılarının En Yüksek Olabilirlik Tahminleri

2

Eğer modele hata terimini eklersek hataların belli bir ortalama ve

varyansa bağlı olarak normal dağıldığını varsayabiliriz.

X

Y

Xi

1

1+ 2Xi

Y = 1+ 2X

3

Şekilde gösterilen dağılış hata teriminin önceden tahmin edilen

dağılışıdır. Gerçekte hata teriminin dağılışının belli bir değere

bağlı olarak modelde normal dağıldığını varsayabiliriz.

X

Y

Xi

1

1+ 2Xi

Y = 1+ 2X

4

X

Y

Xi

1

1+ 2Xi

Y = 1+ 2X

Ayrıca yatay eksene göre bakıldığında; şekilde gösterilen dağılış

X=Xi durumunda Y’nin tahmini dağılımını da ifade etmektedir.

6

Y değeri 1 + 2Xi e yaklaştıkça göreceli olarak daha yüksek yoğunluğa sahip olmaktadır.

X

Y

Xi

1

1+ 2Xi

Y = 1+ 2X

X

Y

Xi

1

1+ 2Xi

Y = 1+ 2X

7

Bununla birlikte 1 + 2Xi den uzaklaştıkça yoğunluk azalmaktadır.

8

Yi ‘nin ortalama değeri 1 + 2Xi ve hata terimlerinin standart

sapması da , olduğunu varsayarsak.

X

Y

Xi

1

1+ 2Xi

Y = 1+ 2X

Regresyon Katsayılarının En Yüksek Olabilirlik Tahminleri

9

Yi ’lerin olasılık yoğunluk fonksiyonları f(Yi) fonksiyonu ile ifade

edilebilir.

X

Y

Xi

1

1+ 2Xi

Y = 1+ 2X

2

21 21

21

)(

ii XY

i eYf

Regresyon Katsayılarının En Yüksek Olabilirlik Tahminleri

Tek denklemli ekonometrik modellerin tahmininde EKKY dışında

kullanılan alternatif yöntem En Yüksek Olabilirlik Yöntemidir.

Büyük örneklerde her iki yöntemde yakın sonuçlar vermektedir.

Küçük örneklerde ise EYOBY’de

nes /22 olup sapmalıdır.

2/22 nes sapmasızdır.

EKKY’de ise

İki Değişkenli Basit Regresyon Modelinin En Yüksek Olabilirlik Yöntemi İle Tahmini

EYOBY’’nin regresyon modeline uygulanışı şöyledir:

iii uXbbY 21

Y bağımlı değişkeninin

ii XbbYE 21)( ortalamalı

2)var( sYi

varyanslı normal ve Yi değerlerinin bağımsız dağıldığı

varsayılmaktadır. Yani

)s,Xbb(NY 2i21i (1)

Bu ortalama ve varyansla Yi nin Y1, Y2,…,Yn değerlerinin

bileşik olasılık yoğunluk fonksiyonu şöyledir:

),|,...,,( 22121 sXbbYYYf in

Y’ler birbirinden bağımsız olduğundan, bu bileşik olasılık yoğunluk fonksiyonu, n tane bireysel yoğunluk fonksiyonunun çarpımı olarak yazılabilecektir.

2 2 21 2 n 1 2 i 1 1 2 1 2 1 2 2

2n 1 2 n

f (Y ,Y ,...,Y | b b X ,s ) f (Y | b b X ,s ).f (Y | b b X ,s ) ...f (Y | b b X ,s )

(2)

(2) deki f(Yi), (1) deki ortalama ve varyanslı normal dağılımlı

yoğunluk fonksiyonu olup şöyle ifade edilir:

2

21 21

21

)(

ii XY

i eYf

2

212

21

1

211211

21

...2

1)(...)(

nn XYXY

n eeYfYf

(3)

(3)’ü (1) deki her Yi yerine koyarak aşağıdaki ifadeyi elde ederiz:

(4)

(4) de Yi ler bilindiğinde ve b1,b2 ve s2 ler bilinmediğinde (4)

ifadesine en yüksek olabilirlik fonksiyonu adı verilir ve

L(b1,b2,s2) şeklinde gösterilir.

Ortak yoğunluk fonksiyonları her bir yoğunluk fonksiyonunun çarpımına eşittir.

1 1 2 1 n 1 2 nY β β X Y β β X1 1

2 2 22 σ 2 σ1 2 1 n

1 1L β ,β ,σ | Y ,...,Y e ... e

σ 2π σ 2π

21 21

( )2 21 2

1, ,

( 2 )

i iY X

n nL e

En yüksek olabilirlik yöntemi bilinmeyen bi parametrelerinin,

verilen Y’nin gözlenme olasılığının ençok(maksimum) olacak

tarzda tahmini esasına dayanır. Bu sebepten b’lerin EYOBY’

ile tahmin için (5) fonksiyonunun maksimumunun

araştırılması gerekir. Bu türevdir, türev için en kısa yol (5)

in log. nın alınmasıdır.

(5)

2XY

2

12XY

2

1 n21n1211

e2

1...e

2

1lnLln

221i2 XY

2

12ln

2

nln

2

nLln

01XY

2*2

1Lln2

21i

1

0XXY

2*2

1Llni2

i21i

2

i21i XnY

22i1ii i

XXYX

4

221i

22

XY*2*

2

11

2

nLln

0

XYnLln3

221i

2

2

n

XY 221i2

Wooldridge Example 17.1

inlf kidslt6 kidsge6 age educ exper nwifeinc expersq   Obs: 753  1. inlf =1 işgücüne katılıyorsa 2. kidslt6 6 < yaşında küçük çocuk sayısı 3. kidsge6 6-18 yaşları arasındaki çocuk sayısı 4. age kadının yaşı 5. educ eğitim yılı 6. exper deneyim 7. nwifeinc (ailegeliri – ücret*saat)/1000 8. expersq deneyimkare

Wooldridge Example 17.1-DİMDependent Variable: INLF

Method: Least Squares Included observations: 753

Variable Coefficient Std. Error t-Statistic Prob.

NWIFEINC -0.003405 0.001448 -2.350840 0.0190

EDUC 0.037995 0.007376 5.151194 0.0000

EXPER 0.039492 0.005673 6.961866 0.0000

EXPERSQ -0.000596 0.000185 -3.226959 0.0013

AGE -0.016091 0.002485 -6.476014 0.0000

KIDSLT6 -0.261810 0.033506 -7.813888 0.0000

KIDSGE6 0.013012 0.013196 0.986077 0.3244

C 0.585519 0.154178 3.797683 0.0002

R-squared 0.264216 Mean dependent var 0.568393

Adjusted R-squared 0.257303 S.D. dependent var 0.495630

S.E. of regression 0.427133 Akaike info criterion 1.147124

Sum squared resid 135.9197 Schwarz criterion 1.196251

Log likelihood -423.8923 F-statistic 38.21795

Durbin-Watson stat 0.493840 Prob(F-statistic) 0.000000

Wooldridge Example 17.1-LOGİTDependent Variable: INLF Method: ML - Binary Logit Included observations: 753

Variable Coefficient Std. Error z-Statistic Prob.

NWIFEINC -0.021345 0.008421 -2.534621 0.0113

EDUC 0.221170 0.043440 5.091443 0.0000

EXPER 0.205870 0.032057 6.422002 0.0000

EXPERSQ -0.003154 0.001016 -3.104093 0.0019

AGE -0.088024 0.014573 -6.040235 0.0000

KIDSLT6 -1.443354 0.203585 -7.089695 0.0000

KIDSGE6 0.060112 0.074790 0.803750 0.4215

C 0.425452 0.860369 0.494500 0.6210

Mean dependent var 0.568393 S.D. dependent var 0.495630

S.E. of regression 0.425963 Akaike info criterion 1.088354

Sum squared resid 135.1762 Schwarz criterion 1.137481

Log likelihood -401.7652 Hannan-Quinn criter. 1.107280

Restr. log likelihood -514.8732 Avg. log likelihood -0.533553

LR statistic (7 df) 226.2161 McFadden R-squared 0.219681

Probability(LR stat) 0.000000

Obs with Dep=0 325 Total obs 753

Obs with Dep=1 428

Wooldridge Example 17.1-PROBİT

Dependent Variable: INLF Method: ML - Binary Probit Included observations: 753

Variable Coefficient Std. Error z-Statistic Prob.

NWIFEINC -0.012024 0.004840 -2.484327 0.0130

EDUC 0.130905 0.025254 5.183485 0.0000

EXPER 0.123348 0.018716 6.590348 0.0000

EXPERSQ -0.001887 0.000600 -3.145205 0.0017

AGE -0.052853 0.008477 -6.234656 0.0000

KIDSLT6 -0.868329 0.118522 -7.326288 0.0000

KIDSGE6 0.036005 0.043477 0.828142 0.4076

C 0.270077 0.508593 0.531027 0.5954

Mean dependent var 0.568393 S.D. dependent var 0.495630

S.E. of regression 0.425945 Akaike info criterion 1.087124

Sum squared resid 135.1646 Schwarz criterion 1.136251

Log likelihood -401.3022 Hannan-Quinn criter. 1.106050

Restr. log likelihood -514.8732 Avg. log likelihood -0.532938

LR statistic (7 df) 227.1420 McFadden R-squared 0.220581

Probability(LR stat) 0.000000

Obs with Dep=0 325 Total obs 753

Obs with Dep=1 428

UYGULAMA: Aşağıda bir okulun eğitimi ile ilgili verileri kullanarak Probit denklemini çıkartınız.

GRADE: Yeni bir tekniğin uygulanması sonucu öğrencilerin başarısıPSI: Yeni Bir Ekonomi Öğretme YöntemiGPA: Ortalama DereceTUCE: Sınav Öncesi Konu ile ilgili Bilgi SKoru

Dependent Variable: GRADEMethod: ML - Binary ProbitIncluded observations: 32Convergence achieved after 5 iterations

Variable Coefficient Std. Error z-Statistic Prob. C -7.452320 2.542472 -2.931131 0.0034GPA 1.625810 0.693882 2.343063 0.0191PSI 1.426332 0.595038 2.397045 0.0165TUCE 0.051729 0.083890 0.616626 0.5375

Dependent Variable: GRADEMethod: ML - Binary LogitSample: 1 32

Variable Coefficient Std. Error z-Statistic Prob. C -13.02135 4.931317 -2.640541 0.0083GPA 2.826113 1.262940 2.237726 0.0252PSI 2.378688 1.064563 2.234426 0.0255TUCE 0.095158 0.141554 0.672235 0.5014

Di Mi Ai Si Di Mi Ai Si

1 0 31 16 1 0 35 10

1 1 34 14 1 1 40 14

1 1 41 16 0 1 43 10

0 0 67 9 0 1 37 12

1 0 25 12 1 0 27 13

0 1 58 12 1 0 28 14

1 0 45 14 1 1 48 12

1 0 55 10 0 1 66 7

0 0 43 12 0 1 44 11

1 0 55 8 0 1 21 12

1 0 25 11 1 1 40 10

1 0 41 14 1 0 41 15

0 1 62 12 0 1 23 10

1 1 51 13 0 1 31 11

0 1 39 9 1 1 44 12

Kadının İşgücüne Katılımı Modeli:

Di= 1 i.Kadının bir işi varsa ya da iş arıyorsa

0 Diğer Durumlarda

Mi= 1 i. Kadın evliyse

0 diğer durumlarda

Si = i.kadının yıl olarak aldığı eğitim

Ai= i. Kadının Yaşı

Logit Model TahminleriDependent Variable: DI

Method: ML - Binary Logit

Included observations: 30

Convergence achieved after 5 iterations

Covariance matrix computed using second derivatives

Variable Coefficient Std. Error z-Statistic Prob.

C -5.895933 3.324731 -1.773356 0.0762

MI -2.586110 1.180162 -2.191318 0.0284

SI 0.690368 0.315828 2.185899 0.0288

Mean dependent var 0.600000 S.D. dependent var 0.498273

S.E. of regression 0.399177 Akaike info criterion 1.085128

Sum squared resid 4.302237 Schwarz criterion 1.225248

Log likelihood -13.27693 Hannan-Quinn criter. 1.129954

Restr. log likelihood -20.19035 Avg. log likelihood -0.442564

LR statistic (2 df) 13.82685 McFadden R-squared 0.342412

Probability(LR stat) 0.000994

Obs with Dep=0 12 Total obs 30

Obs with Dep=1 18

Recommended