Mehmet Vedat PAZARLIOĞLU
KUKLA DEĞİŞKENLER
Kukla Değişken Nedir?
Cinsiyet, eğitim seviyesi, meslek, din, ırk, bölge, tabiiyet, savaşlar, grevler, siyasi karışıklıklar (=darbeler), iktisat politikasındaki değişiklikler, depremler, yangın ve benzeri nitel değişkenlerin ekonometrik bir modelde ifade edilme şeklidir.
Kukla Değişkenlerin Modelde Kullanımı
Kukla Değişken/lerin Modelde bağımsız değişken olarak yer alması
Kukla Değişkenin Modelde Bağımlı Değişken olarak yer alması
Bağımsız Kukla Değişkenler
• Bir kukla değişkenli modeller (Varyans Analiz Modelleri)
• Kukla değişkenlerin ve Sayısal değişkenlerin Birlikte yer aldığı Modeller (Kovaryans Analizi Modeller)
• Kukla değişkenlerin karşılıklı olarak birbirini etkilemeleri
• Mevsim dalgalanmalarının ölçülmesinde kukla değişkenler
• Parçalı Doğrusal Regresyon
Bir kukla değişkenli modeller
Yi = + Di +ui
Yi = Öğretim Üyelerinin Yıllık Maaşları
Di = 1 Öğretim Üyesi Erkekse
= 0 Diğer Durumlar (yani Kadın Öğretim Üyesi)
Varyans Analiz Modelleri (ANOVA)
Kadın Öğretim Üyelerinin Ortalama Maaşları: E( Yi|Di = 0 ) =
Erkek Öğretim Üyelerinin Ortalama Maaşları : E ( Yi|Di = 1) = +
Bir kukla değişkenli modeller
Maaş Cinsiyet22 119 018 0
21.7 118.5 021 1
20.5 117 0
17.5 021.2 1
Yi = + Di
(0.32) (0.44)
t (57.74)(7.44) , R2=0.8737
Bir kukla değişkenli modellerYi = + Di
(0.32) (0.44)
t (57.74)(7.44) , R2=0.8737Kadın Öğretim Üyelerinin Ortalama Maaşları:
Erkek Öğretim Üyelerinin Ortalama Maaşları :
E( Yi|Di = 0 ) =
E ( Yi|Di = 1) = + =
Erkek ve Kadın Öğretim Üyelerinin Ortalama Maaş Farkı :
Bir kukla değişkenli modeller
Yi = + Di
(0.32) (0.44)
t (57.74)(7.44) , R2=0.8737
3.28
18.00
21.28
0 1
Kukla değişken ve Sayısal Değişkenli Model
Yi = + Di + Xi + ui
Yi = Öğretim Üyelerinin Yıllık Maaşları
Xi = Öğretim Üyesinin Yıl olarak Tecrübesi
Di = 1 Öğretim Üyesi Erkekse
= 0 Diğer Durumlar (yani Kadın Öğretim Üyesi)
Kadın Öğretim Üyelerinin Ortalama Maaşları :
E( Yi|Xi,Di = 0 ) = Xi
Erkek Öğretim Üyelerinin Ortalama Maaşları :
E ( Yi|Xi,Di = 1) = ( + Xi
Kukla değişken ve Sayısal Değişkenli Model
Maaş Cinsiyet Tecrübe22 1 1619 0 1218 0 12
21.7 1 1518.5 0 1021 1 11
20.5 1 1317 0 8
17.5 0 921.2 1 14
Yi = + Di + 0.289 Xi
s(b) (0.95) (0.44) (0.09)
(t) (15.843) (5.088) (3.211)
p (0.000) (0.002) (0.020)
R2=0.949
Kukla değişken ve Sayısal Değişkenli Model
Kadın Öğretim Üyelerinin Maaş Fonksiyonu:
Erkek Öğretim Üyelerinin Maaş Fonksiyonu:
E( Yi|Di = 0 ) = + 0.289 Xi
Erkek ve Kadın Öğretim Üyelerinin Ortalama Maaş Farkı :
Yi = + Di + 0.289 Xi
(t) (15.843) (5.088) (3.211)
p (0.000) (0.002) (0.020)
E( Yi|Di = 1 ) = + + 0.289 Xi
= + 0.289 Xi
Kukla değişken ve Sayısal Değişkenli Model
E( Yi|Di = 0 ) = + 0.289 Xi
E( Yi|Di = 1 ) = + + 0.289 Xi
= + 0.289 Xi
Birden Fazla Kukla Değişkenli ModellerYi= b1 + b2D2 + b3D3 + b4Xi + ui
Yi = Sigara TüketimiD2 = 1 Sigara Tüketen Erkek D3 = 1 Şehirde oturanların sigara tüketimi
= 0 Sigara Tüketen Kadın = 0 Kırsalda oturanların sigara tüketimiXi = Gelir
Kırdaki Kadınların Sigara Tüketimi: E( Yi|D2=0,Yi|D3=0) = b1 + b4Xi
Kırdaki Erkeklerin Sigara Tüketimi : E (Yi|D2=1,Yi|D3=0) = b1 + b2D2 + b4Xi
Kentteki Kadınların Sigara Tüketimi:E( Yi|D2=0,Yi|D3=1 ) = b1 + b3D3 + b4Xi
Kentteki Erkeklerin Sigara Tüketimi:E( Yi|D2=1,Yi|D3=1 ) = b1 + b2D2 + b3D3 + b4Xi
Birden Fazla Kukla Değişkenli Modeller
Yıllık Sigara Tüketimi
Yi (100 TL)Cinsiyet(D3)
Şehir(D3) Yıllık Gelir (Xi)(100 TL)
25 1 1 40020 0 0 26019 0 0 27024 1 1 36020 0 1 24022 1 0 31021 1 1 28018 0 0 20019 0 0 26022 1 1 320
Birden Fazla Kukla Değişkenli ModellerYi= b1 + b2D2 + b3D3 + b4Xi + ui
Yi = Sigara TüketimiD2 = 1 Sigara Tüketen Erkek D3 = 1 Şehirde oturanların sigara tüketimi
= 0 Sigara Tüketen Kadın = 0 Kırsalda oturanların sigara tüketimiXi = Gelir
Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob.
C 11.87863 1.354977 8.766663 0.0001D2 0.626208 0.640824 0.977193 0.3662D3 0.671321 0.467992 1.434473 0.2014X 0.029216 0.00544 5.370281 0.0017
R-squared 0.955074 F-statistic 42.51767Adjusted R-squared 0.932611 Prob(F-statistic) 0.000195S.E. of regression 0.586884 Akaike info criterion 2.061194Sum squared resid 2.066595 Schwarz criterion 2.182228Durbin-Watson stat 2.222562 Hannan-Quinn criter. 1.92842
1.Sabit Terimlerin Farklı Eğimlerin Eşit olması
Yi= 1 + 2Di + Xi + ui
Yi = Sigara TüketimiDi = 1 Sigara Tüketen Erkek
= 0Xi = GelirE( Yi|Xi,Di = 0 ) = Xi
E ( Yi|Xi,Di = 1) = ( + Xi
Kukla değişken ve Sayısal Değişkenli Model
Yi= 1 + 2Di + 2Xi + ui
2. Sabit Terimlerin Eşit, Eğimlerin Farklı Olması Hali
Yi= 1 + 1Di Xi+ 2Xi + ui
Yi = Sigara TüketimiDi = 1 Sigara Tüketen Erkek
= 0Xi = GelirE( Yi|Xi,Di = 0 ) = 2Xi
E ( Yi|Xi,Di = 1) = + (2X i
19
)
)
1
Yi
Xi
E( Yi|Xi,Di = 0 ) = 2Xi
E ( Yi|Xi,Di = 1) = + (2X i
2. Sabit Terimlerin Eşit, Eğimlerin Farklı Olması Hali
Yi= 1 + 1Di Xi+ 2Xi + ui
3. Sabit Terim ve Eğimin İki Sınıf İçin Farklı Olması
Yi= 1 + 2 Di+ 1Di Xi+ 2Xi + ui
Yi = Sigara TüketimiDi = 1 Sigara Tüketen Erkek
= 0Xi = Gelir
E( Yi|Xi,Di = 0 ) = 2Xi
E ( Yi|Xi,Di = 1) = (+ ) + (2X i
21
Yi
Xi) )
E( Yi|Xi,Di = 0 ) = 2Xi
E ( Yi|Xi,Di = 1) = (+ ) + (2X i
3. Sabit Terim ve Eğimin İki Sınıf İçin Farklı Olması
Yi= 1 + 2 Di+ 1Di Xi+ 2Xi + ui
22
2 ve 1’ün t istatistikleri anlamsızsa iki sınıf sigara tüketim fonksiyonları aynı
2.2 ve 1’ün t istatistikleri anlamlıysa iki sınıf sigara tüketim fonksiyonları farklı (3.durum)
2 ve 1’ün t istatistiklerinden 2 anlamsız ve 1 anlamlıysa sabit terim aynı eğim farklıdır. (2. durum)
4. 2 ve 1’ün t istatistiklerinden 2 anlamlı ve 1 anlamsızsa sabit terim farklı eğim aynıdır. (1. durum)
Yi= 1 + 2 Di+ 1Di Xi+ 2Xi + ui
Modelin t İstatistiklerinin Değerlendirilmesi
23
Yıllık Sigara
Tüketimi
Cinsiyet (Di)(Erkek = 1, Kadın = 0)
Yıllık Gelir (Xi)
25 1 40020 0 26019 0 27024 1 36020 0 24022 1 31021 1 28018 0 20019 0 26022 1 320
İki Sınıf Modellerinin Farklılığının Kukla Değişken Yöntemi İle Testi
Yi= 1 + 2 Di+ 1Di Xi+ 2Xi + ui
24
İki Sınıf Modellerinin Farklılığının Kukla Değişken Yöntemi İle Testi
Yi= 1 + 2 Di+ 1Di Xi+ 2Xi + ui
Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob.
C 14.94231 2.598383 5.750619 0.0012D2 -3.786344 3.35085 -1.129965 0.3016
D2*X 0.017555 0.012245 1.433624 0.2017X 0.017308 0.010508 1.64702 0.1507
R-squared 0.95506 F-statistic 42.50422Adjusted R-squared 0.932591 Prob(F-statistic) 0.000195S.E. of regression 0.586972 Akaike info criterion 2.061496Sum squared resid 2.067219 Schwarz criterion 2.18253Durbin-Watson stat 1.943502 Hannan-Quinn criter. 1.928722
Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob.
C 10.3109 1.123493 9.177535 0.0000X 0.036859 0.003804 9.689043 0.0000
R-squared 0.921474 F-statistic 93.87755Adjusted R-squared 0.911659 Prob(F-statistic) 0.000011S.E. of regression 0.671954 Akaike info criterion 2.219603Sum squared resid 3.612179 Schwarz criterion 2.28012Durbin-Watson stat 2.034514 Hannan-Quinn criter. 2.153216
25
2. CHOW testi ile tüketim fonksiyonlarının farklılığının araştırılması
Üç grup tüketim fonksiyonu tahmin edilir:
H0: Erkek ve kadınlar için tüketim fonk. aynıdır.
H1: Erkek ve kadınlar için tüketim fonk. farklıdır.
1. Erkek-kadın tüm tüketiciler için tüketim fonksiyonu: HKT=3.162
2. Erkekler için tüketim fonksiyonu: HKT=0.2018
3. Kadınlar için tüketim fonksiyonu: HKT=1.865
Ftest = 2.243 Ftab= 5.14 (=0.05 f1=2 f2=6 sd. lerinde)
H0 kabul
Birden Fazla Kukla Değişkenli Modeller
Yıllık Sigara Tüketimi
Yi (100 TL)Cinsiyet(D3)
Şehir(D3) Yıllık Gelir (Xi)(100 TL)
25 1 1 40020 0 0 26019 0 0 27024 1 1 36020 0 1 24022 1 0 31021 1 1 28018 0 0 20019 0 0 26022 1 1 320
Birden Fazla Kukla Değişkenli ModellerYi= b1 + b2D2 + b3D3 + b4Xi + ui
Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob.
C 11.87863 1.354977 8.766663 0.0001D2 0.626208 0.640824 0.977193 0.3662D3 0.671321 0.467992 1.434473 0.2014X 0.029216 0.00544 5.370281 0.0017
R-squared 0.955074 F-statistic 42.51767Adjusted R-squared 0.932611 Prob(F-statistic) 0.000195S.E. of regression 0.586884 Akaike info criterion 2.061194Sum squared resid 2.066595 Schwarz criterion 2.182228Durbin-Watson stat 2.222562 Hannan-Quinn criter. 1.92842
Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob.
C 11.05045 1.053802 10.48627 0.0000D3 0.827027 0.438611 1.885559 0.1013X 0.032883 0.003926 8.375249 0.0001
R-squared 0.947924 F-statistic 63.70948Adjusted R-squared 0.933045 Prob(F-statistic) 0.000032S.E. of regression 0.58499 Akaike info criterion 2.008882Sum squared resid 2.395495 Schwarz criterion 2.099658Durbin-Watson stat 2.339918 Hannan-Quinn criter. 1.909302
28
BİR MODELDE KUKLA DEĞİŞKENLERİN KARŞILIKLI OLARAK BİRBİRİNİ ETKİLEMELERİ PROBLEMİ
i 1 2 2 3 3 4 i iY b b D b D b X u
i 1 2 2 3 3 4 2 3 5 i iY b b D b D b D D b X u
2
1, Erkek D
0, Kadın
3
1, Şehirde Oturanlar D
0, Kırsal Kesimde Oturanlar
i iY : Tüketim,X : Gelir
i 2 3 i 1 5 iE Y | D 0,D 0,X b b X
i 2 3 i 1 2 3 4 5 iE Y | D 1, D 1,X b b b b b X
Erkeğin Tüketim Farkı Şehirde Oturanların Tüketim Farkı
Şehirde Oturan bir Erkeğin Tüketim Farkı
Birden Fazla Kukla Değişkenli ModellerYi= b1 + b2D2 + b3D3 + b4D2D3 + b5Xi + ui
Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob.
C 11.40181 1.343907 8.484076 0.0004D2 1.081264 0.707609 1.528053 0.187D3 1.230248 0.626184 1.964677 0.1066
D2*D3 -1.151242 0.905929 -1.270786 0.2597X 0.0307 0.005311 5.780173 0.0022
R-squared 0.966042 F-statistic 35.55997Adjusted R-squared 0.938875 Prob(F-statistic) 0.000726S.E. of regression 0.558941 Akaike info criterion 1.981308Sum squared resid 1.562077 Schwarz criterion 2.132601Durbin-Watson stat 2.778543 Hannan-Quinn criter. 1.815341
Yi= b1 + b5Xi
Yi= b1 + b2D2 + b5Xi
Yi= b1 + b3D3 + b5Xi
Yi= b1 + b2D2 + b3D3 + b4D2D3 + b5Xi
30
MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA
Üçer Aylar
Karlar (Milyon Dolar)
Satışlar (Milyon Dolar)
1965-I 10503 114862II 12092 123968
III 10834 121454IV 12201 131917
1966-I 12245 129911II 14001 140976
III 12213 137828IV 12820 145465
D2
01000100
D3
00100010
D4
00010001
2
1, İkinci Üç Aylık Dönem D
0, Diğer Dönemler
3
1, Üçüncü Üç Aylık Dönem D
0, Diğer Dönemler
4
1, Dördüncü Üç Aylık Dönem D
0, Diğer Dönemler
31
MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA
1 2 2 3 3 4 4 5 t ttKar b b D b D b D b (Satış) u
Dependent Variable: Kar
Variable Coefficient Std. Error t-Statistic Prob.
C 6688.363 1711.366 3.90820 0.0009
D2 1322.892 638.4745 2.071957 0.0521
D3 -217.8054 632.2552 -0.344490 0.7343
D4 183.8564 654.2925 0.281000 0.7817
Satış 0.038246 0.011481 3.331281 0.0035
R2=0.525494 İstatistiki olarak anlamsız
32
MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA
Dependent Variable: Kar
Sample: 1965:1 1970:4
VariableCoefficient Std. Error t-Statistic Prob.
C 6515.581 1623.083 4.014323 0.0006
D2 1331.352 493.0214 2.700395 0.0134
Satış 0.0393100.010575 3.717315 0.0013
R2 = 0.515460Mevsim dalgalanmalarının etkisinde
33
Parçalı Doğrusal Regresyon
•• •
• • • ••
••
••
••
•
•
• •
•
•• •
•
•
•
••
•
••
•
•
• •• •
•
•
•
X*
Satış
Kom
isyo
nlar
ı
Y
X
Bir sigorta şirketi satış temsilcilerinin belli bir satış hacmini geçmesi durumunda çalışanlarına komisyon ödemektedir. Şirket içerisinde gerçekleştirilen satış komisyon ücretleri belli bir satış hacmi(X*) eşik düzeyine kadar doğrusal artmakta ve bu eşik düzeyinden sonra ise daha dik bir oranla satışlarla doğrusal olarak arttığı varsayılmaktadır. Bu durumda I ve II olarak numaralandırılmış iki parçadan oluşan parçalı doğrusal regresyona ve eşik düzeyinde eğimin değiştiği komisyon fonksiyonuna sahip olmuş oluruz.
I
II
34
Parçalı Doğrusal RegresyonSa
tış K
omis
yonl
arı
Y
XSatışlar
•• •
• • • ••
••
••
••
•
•
• •
•
•• •
•
•
•
••
•
••
•
•
• •• •
•
•
•
X*
E(Yi| Di =1,Xi, X*) = 1 - 2X* +(1+ 2)Xi
Yi= Satış Komisyonları
Xi= Satış Miktarı
X*= Satışlarda Prim Eşik Değeri
D= 1 Eğer Xi > X*
= 0 Eğer Xi < X*
E(Yi| Di =0,Xi, X*) = 1 +1 Xi
Yi= 1 + 1Xi + 2 (Xi-X*)Di+ui
35
Parçalı Doğrusal Regresyon
Satış
Kom
isyo
nlar
ı
Y
XSatışlar
1
1-2X*
1
1
1+2
1
X*
36
Örnek
Total Cost($)
TC
Output(units)
Q
Di
256 1000 0
414 2000 0
634 3000 0
778 4000 0
1003 5000 0
1839 6000 1
2081 7000 1
2423 8000 1
2734 9000 1
2914 10000 1
Dependent Variable: TC
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C -145.7167 176.7341 -0.824496 0.4368
Q 0.279126 0.046008 6.066877 0.0005
(Q-5500)*DI 0.094500 0.082552 1.144727 0.2899
R2=0.973706 F-statistic= 129.6078 [0.000003]
İstatistiki olarak anlamsız
Satışlardaki artışlar prim değerini arttırmamaktadır.
Bir şirket satış temsilcilerinin belli bir satış hacmini geçmesi durumunda çalışanlarına prim ödemektedir.
H0: Satışlardaki artışlar prim değerini arttırmamaktadır. H1: Satışlardaki artışlar prim değerini arttırmaktadır.
37
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI
UYGULAMA: 1935-1954 yıllarına arasında General Motor, Westinghouse ve General Electric firmalarına ait yatırım (Y), firmanın değeri (X2 ) ve sermaye stoğu (X3) verilerine ait tablo aşağıda verilmiştir.
38
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI
Firmaların yatırımları arasında fark olup olmadığını inceleyebilmek için de kukla değişkenlerden yararlanabiliriz. Firmaların ilk üç yılına ait veriler ile oluşturulan yeni tablo aşağıdaki gibidir.
Yıllar Y X2 X3 Di Firma1935 317.6 3078.5 2.8 1 GM1936 391.8 4661.7 52.6 1 GM1937 410.6 5387.1 156.9 1 GM1935 12.93 191.5 1.8 0 WE1936 25.90 516.0 0.8 0 WE1937 35.05 729.0 7.4 0 WE1935 33.1 1170.6 97.8 0 GE1936 45.0 2015.8 104.4 0 GE1937 77.2 2803.3 118.0 0 GE
General Motor(GM), Westinghouse(WE) ve General Electric (GE)
yatırım (Y), firmanın değeri (X2 ) ve sermaye stoğu (X3)
39
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI
2
1, G.M gözlemleri için D
0, Diğerleri için
GM yatırımlarının diğer firma yatırımlarından sabit terim kadar farklı olduğunu ifade etmektedir.
i 1 2 2 3 3 4 i iY b b X b X b D u
40
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI
Dependent Variable: YMethod: Least SquaresIncluded observations: 60
Variable Coefficient Std. Errort-Statistic Prob. C -61.80754 23.79039 -2.598004 0.0120X2 0.038311 0.016752 2.286884 0.0260X3 0.347303 0.032048 10.83683 0.0000DI 278.5911 51.74338 5.384091 0.0000
R-squared 0.924866 Mean dependent var 251.067Adjusted R-squared0.920841 S.D. dependent var 311.6501S.E. of regression 87.68352 Akaike info criterion 11.84969Sum squared resid 430550.4 Schwarz criterion 11.9893Log likelihood -351.4906 F-statistic 229.7778Durbin-Watson stat 0.502776 Prob(F-statistic) 0.000000
İstatistiksel olarak anlamlı
41
ÖRNEKLER
42
DATA7-191960-1988 yılları arasında Türkiye’deki Sigara Tüketimi
Q Yetişkinlerin sigara tüketim miktarı(kg), Range 1.86 - 2.723.
Y GNP(1968) TL, Range 2560 - 5723.
P Türkiye’deki sigara fiyatları Range 1.361 - 3.968.
ED1 Kayıtlı ortaokul ve lise mezunu nüfus oranı(12-17 yaş) Range 0.112 - 0.451.
ED2 Kayıtlı üniversite mezunu oranı (20-24) Range 0.026 - 0.095.
D82 = 1 , 1982 ve sonrası
D86 = 1 , 1986 ve sonrası
43
Dependent Variable: QSample: 1960 1988Included observations: 29
VariableCoefficient Std. Error t-Statistic Prob. P -0.097291 0.079389 -1.225493 0.2340ED2 -5.547295 2.679248 -2.07046 0.0509ED1 -2.994166 2.708828 -1.105336 0.2815D86 -0.262700 0.090825 -2.89238 0.0087D82 -0.288739 0.083649 -3.451774 0.0024Y 0.0007620.000190 4.009205 0.0006C 5.1139345 0.34132 0.101585 0.9200
Katsayılar istatistiksel olarak anlamsız
44
Dependent Variable: Q
Method: Least Squares
Sample: 1960 1988
Included observations: 29
Variable Coefficient Std. Error t-Statistic Prob.
ED2 -6.455259 2.724204 -2.369595 0.0266
D86 -0.351822 0.078985 -4.454297 0.0002
D82 -0.269429 0.084743 -3.179385 0.0042
Y 0.000672 0.000170 3.945228 0.0006
C 58.18878 33.26618 1.749187 0.0936
45
DATA7-2Belirli bir şirkette çalışan 49 kişinin istihdam durumu ve ücretleri
WAGE = Aylık Ücret (Range 981 - 3833)
EDUC = 8 yıllık eğitimden sonraki sahip olunan eğitim seviyesi(Range 1 - 11)
EXPER =Şirkette çalışma süresi(Range 1 - 23)
AGE = Yaş (25 - 64)
GENDER = 1, Erkek ise; 0 kadın ise
RACE = 1, beyaz ise; 0 diğerleri
CLERICAL = 1 büro memuru ise, 0 diğerleri
MAINT = 1 bakım işlerinde çalışıyor ise; 0 diğerleri
CRAFTS =1,usta ise; 0 diğerleri
Temel sınıf Profesyonel meslek grupları.
46
Dependent Variable: WAGE
Method: Least Squares
Included observations: 49
Variable Coefficient Std. Error t-Statistic Prob.
C 1637.202 263.6726 6.209224 0.0000
EDUC 49.33178 27.99678 1.762052 0.0855
EXPER 27.29509 9.488883 2.876533 0.0064
GENDER 473.6966 152.4818 3.106578 0.0034
RACE 207.0888 130.4491 1.587506 0.1201
CLERICAL-946.7380 174.6505 -5.420758 0.0000
MAINT -1053.424 203.4297 -5.178320 0.0000
CRAFTS -708.8822 176.0507 -4.026580 0.0002
R-squared 0.737516 Mean dependent var 1820.204
Adjusted R-squared 0.692702 S.D. dependent var 648.2687
S.E. of regression 359.3643 Akaike info criterion 14.75483
Sum squared resid 5294850. Schwarz criterion 15.06370
Log likelihood -353.4934 F-statistic 16.45717
Durbin-Watson stat 2.107977 Prob(F-statistic) 0.000000
47
DATA 7-9 1985 yılında koleje giriş yapan öğrencilerin ilk yıl başarılarını göstermekte
colgpa = 1986 sonbaharındaki ortalamaları (Range 0.85 - 3.97) hsgpa = Lise GPA (Range 2.29 - 4.5) vsat = Sözel derecesi (Range 200 - 700) msat = Sayısal derecesi (Range 330 - 770) dsci = 1 Bilim dalı için, 0 diğerleri dsoc = 1 Sosyal bilim dallı için, 0 diğerleri dhum = 1 Beşeri bilimdalı için 0 diğerleri darts = 1 Sanat dalı için, 0 diğerleri dcam = 1 Öğrenci kampüste yaşıyorsa, 0 diğerleri dpub = 1 Genel lise mezunu ise, 0 diğerleri
48
Dependent Variable: COLGPAMethod: Least Squares
Sample: 1 427Included observations: 427
Variable Coefficient Std. Errort-Statistic Prob. C 0.367296 0.224302 1.637506 0.1023HSGPA 0.405914 0.063418 6.400630 0.0000VSAT 0.000726 0.000290 2.503907 0.0127MSAT 0.001086 0.000303 3.586609 0.0004DSCI -0.027323 0.057319 -0.476673 0.6338DSOC 0.056148 0.072778 0.771494 0.4409DHUM -0.004059 0.141771 -0.028632 0.9772DARTS 0.228650 0.188921 1.210294 0.2269DCAM -0.040705 0.052162 -0.780362 0.4356DPUB 0.029403 0.063040 0.466416 0.6412
Katsayılar istatistiki olarak anlamsız
49
Dependent Variable: COLGPA
Variable Coefficient Std. Error t-Statistic Prob. C 0.423249 0.219749 1.926053 0.0548HSGPA 0.398349 0.060586 6.574882 0.0000VSAT 0.000737 0.000281 2.627361 0.0089MSAT 0.001015 0.000294 3.457749 0.0006
Bağımlı Kukla Değişkenler
Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin
varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla
değişkenler söz konusudur.
•Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır:
-Doğrusal Olasılık Modeli
-Logit Modeli
-Probit Modeli
-Tobit Modeli
Doğrusal Olasılık Modeli
Yi= 1 Eğer i. Birey istenen özelliğe sahipse
0 Diğer Durumlarda
Xi= Bağımsız değişken
Bu modele olasılıklı model denmesinin nedeni, Y’nin X için şartlı
beklenen değerinin, Y’nin X için şartlı olasılığına eşit
olmasıdır. E(Yi|Xi)= Pr(Yi=1| Xi)
Yi = b1 + b2Xi +ui
Doğrusal Olasılık ModeliE(Yi |Xi)= b1 + b2Xi E(ui) = 0
Yi değişkeninin olasılık dağılımı:
Yi Olasılık
0 1-Pi
1 Pi
Toplam 1
E(Yi |Xi) = SYiPi=0.(1-Pi) + 1.(Pi) = Pi
E(Yi |Xi)= b1 + b2Xi
0 E(Yi |Xi) 1
DOM Tahminindeki Sorunlar
ui hata teriminin normal dağılmayışı:
•Normallik varsayımının sağlanmaması durumunda tahmin
ediciler sapmasızlıklarını korurlar.
•Nokta tahminde normallik varsayımı gözardı edilir.
•Örnek hacmi sonsuza giderken EKK tahmincileri çoğunlukla
normal dağılıma uyarlar.
•DOM ile yapılan istatistiksel çıkarsamalar normallik varsayımı
altındaki EKK sürecine uyarlar.
u’ların Binom Dağılımlı Olması
EKKY varsayımlarından biri u değerlerinin dağılımının normal olmasıdır. Bu varsayım sayesinde katsayı tahminlerinin güven aralıkları hesaplanıp, test yapılabilmektedir.
DOM’de u’lar normal dağılmaz, binom dağılımı gösterir:
1 2i iu Y b b X 1 2i iY b b X u
Y 1 ve 0 değerini aldığında
Yi =1 için 1 21i iu b b X
Yi =0 için 1 2i iu b b X
u lar normal değildir. İki değerli binom dağılımlıdır. Ancak büyük örneklerde DOM güven aralıkları ve hipotez testleri geçerlidir ve EKKY normal dağılım varsayımının sağlandığı kabul edilmektedir.
Yi ui İhtimal=P(ui)
0 -b1-b2X (1-Pi)
1 1-b1-b2X Pi
2 2i 1 2 i 1 2 iVar(u ) ( b b X) (1 P ) (1 b b X) (P )
i 1 2 1 2Var(u ) (b b X)(1 b b X)
ui hata teriminin değişen varyanslı olması:
)(.)()( 2ii YPYYYVar
DOM’de u lar eşit varyanslı değillerdir. Bunun için kesikli bir Y değişkeni varyansından hareketle
Y yerine u alınarak
)(.)()(.)()( 22ii uPuuPuuuVar
i i i i iVar(u ) E(Y | X )[1 E(Y | X )] P (1 P )
u’nun varyansı farklıdır. u’nun varyansı Y’nin X için şartlı beklenen değerine bağlıdır ve sonuçta u’nun varyansı X’in değerine bağlı olacak ve eşit olmayacaktır.
DOM’nin EKKY ile tahmininde ortaya çıkan farklı varyans problemine aşağıdaki dönüşümlü modeli tahmin ederek çözüm getirmek mümkündür:
1 2 i i
i i i i
b b X uYv v v v
i i i i iv E(Y | X )[1 E(Y | X )] P (1 P )
ui hata teriminin değişen varyanslı olması:•Var(ui) = Pi(1-Pi)
DOM’de Farklı Varyansı Önleme
i i iˆ ˆv Y (1 Y )
iE(Y | X ) ler bilinmediğinden bunun yerine örnek tahmini iY
değerleri hesaplanarak ifadesinde yerine
konarak v ler kullanılır.
0 E(Yi |Xi) 1 varsayımının yerine gelmeyişi
DOM’de Y’nin şartlı olasılığını gösteren E(Y|X) nın 0 ila 1 arasında bulunması şarttır.
Y; 0 ve 1 değerini almaktadır.Bu şart anakütle için geçerlidir. Anakütlenin tahmincisi
için geçerli olmayabilir.
Tahmini şartlı olasılıklar 0 ile 1 olmayabilir: iY
0 E(Yi |Xi) 1
0 ile 1 arasında mıdır? DOM”, EKKY ile elde edildikten sonra
iYeşit olduğu kabul edilir.
Bunlardan bir kısmı 0 dan küçük, negatif değerli ise, bunlar için iY0 değerini alır. 1’den büyük değerli ise bunlar için nin 1’e
Dönüştürmeden sonra EKKY tekrar uygulanır ve farklı varyansın kalktığı görülebilir.
uv eşit varyanslıdır. Bu yöntem TEKKY’dir.
Doğrusal Olasılık Modeli
Di = b1 + b2Mi +b3 Si +ui
Di= 1 Eğer i. Kadının bir işi varsa ya da iş arıyorsa
0 Diğer Durumlarda
Mi= 1Eğer i. Kadın evliyse
diğer durumlarda 0
Si = i.kadının yıl olarak aldığı eğitim
Ai= i. Kadının Yaşı
Di Mi Ai Si Di Mi Ai Si1 0 31 16 1 0 35 101 1 34 14 1 1 40 141 1 41 16 0 1 43 100 0 67 9 0 1 37 121 0 25 12 1 0 27 130 1 58 12 1 0 28 141 0 45 14 1 1 48 121 0 55 10 0 1 66 70 0 43 12 0 1 44 111 0 55 8 0 1 21 121 0 25 11 1 1 40 101 0 41 14 1 0 41 150 1 62 12 0 1 23 101 1 51 13 0 1 31 110 1 39 9 1 1 44 12
Kadının İşgücüne Katılımı Modeli:
Di= 1 i.Kadının bir işi varsa ya da iş arıyorsa
0 Diğer Durumlarda
Mi= 1 i. Kadın evliyse
0 diğer durumlarda
Si = i.kadının yıl olarak aldığı eğitim
Ai= i. Kadının Yaşı
Kadının İşgücüne Katılımı Modeli
Di = b1 + b2Mi +b3 Si +ui
Dependent Variable: DI
Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
C -0.284301 0.435743 -0.652452 0.5196
MI -0.381780 0.153053 -2.494430 0.0190
SI 0.093012 0.034598 2.688402 0.0121
R-squared 0.363455 Mean dependent var 0.600000
Adjusted R-squared 0.316304 S.D. dependent var 0.498273
S.E. of regression 0.412001 Akaike info criterion 1.159060
Sum squared resid 4.583121 Schwarz criterion 1.299179
Log likelihood -14.38590 F-statistic 7.708257
Durbin-Watson stat 2.550725 Prob(F-statistic) 0.002247
Mi= 1 Kadın evliyse ;0 diğer durumlarda ; Si = i.kadının yıl olarak aldığı eğitim A= Kadının Yaşı
White Heteroskedasticity Test:F-statistic 1.759076 Probability 0.168742Obs*R-squared 6.589061 Probability 0.159265
Dependent Variable: RESID^2Included observations: 30Variable Coefficient Std. Errort- Statistic Prob. C -0.390620 0.700490 -0.557639 0.5821MI -0.410659 0.315325 -1.302336 0.2047MI*SI 0.036202 0.026225 1.380429 0.1797SI 0.132421 0.116635 1.135344 0.2670SI^2 -0.007102 0.004809 -1.476822 0.1522R-squared 0.219635 Mean dependent var 0.15277Adjusted R-squared0.094777 S.D. dependent var 0.16180S.E. of regression 0.153942 Akaike info criterion -0.75347Sum squared resid 0.592452 Schwarz criterion 0.51994Log likelihood 16.30209 F-statistic 1.75907Durbin-Watson stat 1.963424 Prob(F-statistic) 0.16874
DOM’de Farklı Varyansı Önleme
Dependent Variable:
Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
-0.184154 0.316834 -0.581231 0.5659
-0.362893 0.135229 -2.683551 0.0123
0.081678 0.022231 3.674022 0.0010
R-squared 0.872710 Mean dependent var 2.190469
Adjusted R-squared 0.863281 S.D. dependent var 2.514662
S.E. of regression 0.929809 Akaike info criterion 2.786965
Sum squared resid 23.34273 Schwarz criterion2.927085
Log likelihood -38.80448 F-statistic 92.55700
Durbin-Watson stat 2.583787 Prob(F-statistic)0.000000
i 1 2 i 3 i iD v b v b M v b S v u v D / v
1/ vM / v
S/ v
UYGULAMA:Cep telefonunun kullanılıp kullanılmamasını ifade eden bağımlı kukla değişken 50 kişiye yapılan anket sonuncunda yaş ve aylık ortalama gelir ile açıklanmıştır.(Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse)
Kişi Y X(Gelir) Z(Yaş) Kişi Y X(Gelir) Z(Yaş)1 1 250 23 26 0 185 212 1 350 21 27 1 250 213 0 150 23 28 1 500 214 1 600 22 29 1 790 235 1 200 22 30 1 500 226 0 150 20 31 1 675 227 1 390 27 32 1 490 228 0 200 18 33 1 500 219 0 900 25 34 1 760 2110 0 150 18 35 1 550 2611 0 255 18 36 1 400 2412 0 300 20 37 1 200 2113 1 640 25 38 0 220 2114 1 500 27 39 1 175 2315 1 300 22 40 1 840 2116 0 550 19 41 1 150 2317 1 800 18 42 1 200 2318 1 875 21 43 1 200 2319 0 600 17 44 1 485 2320 0 500 20 45 1 250 2121 0 500 19 46 1 300 2022 1 500 21 47 1 470 1923 1 550 22 48 1 800 2324 1 750 21 49 0 250 2125 1 225 23 50 0 130 23
Dependent Variable: YMethod: Least Squares Included observations: 50
Variable Coefficient Std. Errort-Statistic Prob. C -1.373086 0.585035 -2.347017 0.0232X 0.000492 0.000259 1.900372 0.0635Z 0.086130 0.026781 3.216041 0.0024
R-squared 0.2401 Mean dependent var 0.700Adjusted R-squared0.207770 S.D. dependent var0.462910S.E. of regression 0.412024 Akaike info criterion1.122653Sum squared resid 7.978889 Schwarz criterion 1.2373Log likelihood -25.06633 F-statistic7.425357Durbin-Watson stat 1.552777 Prob(F-statistic)0.001577
Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse; X(Gelir); Z(Yaş)
White Heteroskedasticity Test:F-statistic 2.305076 Probability 0.060504Obs*R-squared 10.37848 Probability 0.065195
Dependent Variable: RESID^2Included observations: 50Variable Coefficient Std. Errort-Statistic Prob. C 2.341377 2.147612 1.090224 0.2815X -0.004404 0.001530 -2.878146 0.0062X^2 1.63E-06 6.58E-07 2.475147 0.0172X*Z 0.000132 6.84E-05 1.927924 0.0603Z -0.116457 0.191111 -0.609369 0.5454Z^2 0.001301 0.004396 0.295915 0.7687R-squared 0.207570 Mean dependent var0.159578Adjusted R-squared0.117521 S.D. dependent var 0.225222S.E. of regression 0.211574 Akaike info criterion -0.156314Sum squared resid 1.969602 Schwarz criterion 0.073128Log likelihood 9.907860 F-statistic 2.305076Durbin-Watson stat 2.375111 Prob(F-statistic) 0.060504
Kişi Kişi Kişi Kişi 1 0.7308 16 0.5338 31 0.8536 46 0.49702 0.6077 17 0.5705 32 0.7627 47 0.49443 0.6817 18 0.8658 33 0.6815 48 1.00124 0.8167 19 0.3861 34 0.8093 49 0.55865 0.6201 20 0.5953 35 1.1367 50 0.67186 0.4233 21 0.5092 36 0.89077 1.1442 22 0.6815 37 0.53408 0.2756 23 0.7922 38 0.54389 1.2226 24 0.8044 39 0.693910 0.2510 25 0.7185 40 0.848611 0.3026 26 0.5266 41 0.681712 0.4970 27 0.5586 42 0.706213 1.0948 28 0.6815 43 0.706214 1.1982 29 0.9963 44 0.846315 0.6693 30 0.7676 45 0.5586
Y
Y
Y
Y
Dependent Variable: Method: Least SquaresSample: 1 50Included observations: 44Excluded observations: 6
Variable Coefficient Std. Errort-Statistic Prob. -1.960127 0.591996 -3.311048 0.00190.000468 0.000170 2.754280 0.00870.114551 0.028194 4.062939 0.0002
R-squared 0.899751 Mean dependent var 1.9024Adjusted R-squared0.894861 S.D. dependent var 2.504969S.E. of regression 0.812241 Akaike info criterion2.487706Sum squared resid 27.04915 Schwarz criterion 2.609356Log likelihood -51.72954 F-statistic 183.9907Durbin-Watson stat 1.728717 Prob(F-statistic) 0.000000
1/ v
Y / v
X / v
Z / v