Dữ liệu mảng

Ghi chú bài giảng Khánh Duy 1

Giới thiệu kinh tế lượng với dữ liệu bảng (Panel Data)

I. Lý thuyết Đọc Gujarati, chương 16

Sử dụng những biến giả để kiểm sóat những đặc điểm riêng

K là tổng tài sản

V là giá trị của công ty

INV là chỉ số đo luờng hiệu quả công ty (ROE)

Ước luợng xem K và V ảnh hứởng thế nào đến I (biến đầu tư)

Mô hình

(1)Mô hình dạng gộp (Pooled Regression)

(2) Mô hình tác động cố định FEM (Fixed effects model) thừơng SD nhất

(3) Mô hình ảnh hưởng ngẫu nhiên REM hay ECM (mô hình có các thành phần ngẩu

nhiên)

Commented [s1]: Khó nhất của khóa ABF1


II. Thực hành

Mở file File Grunfeld.wf1

1. Thiết lập cấu trúc file dữ liệu bảng (Structuring the workfile)

Proc/Structure/Resize Current Page

- Chọn undated with ID series

- Nhập 2 biến xác định thứ tự các quan sát (ví dụ i: 1-10) và thứ tự thời gian (ví dụ t:1-

20)

Hình 1

Dữ liệu dạng bằng thì khai báo như trên

Nếu dữ liệu không cân bằng thì sao? gõ trực tiếp lệnh vào cửa sổ lệnh ?


Dim(10,20) ?

2. Ước lượng mô hình bình phương tối thiểu dạng gộp (Pooled Least Square Model)

- Quick\Estimate Equation

- Nhập các biến để xác định mô hình

Hình 2

Commented [s2]: Tài chính hay dùng


Hình 3

Khoảng thời gian (t=20), dữ liệu chéo (10)

PS hồi quy Yit = -43.02 + 0.231K + 0.115V + uit

Vốn và giá trị của công ty ảnh hưởng thuận đến đầu tư

2 biến giải thích đuợc 81.1% phần trăm biến thiên của biến Y

Mô hình dạng pooled không kiểm soát đuợc từng đặc điểm riêng của từng công ty


3. Ước lượng mô hình tác động cố định (FEM_Fixed Effects Model)

a. Ước lượng

- Tại Equation Estimate

-Chọn Panel Options Chọn Fixed cho các đơn vị chéo (Cross-section)

Hình 4

Mỗi 1 đơn vị chéo (từng công ty) khác nhau thì khác nhau (cross-section fixed)

Nếu mỗi năm có các hằng số khác nhau thì cũng fix period

Hình 5

Commented [s3]: Nếu không có lựa chọn này tức là chưa tinh chỉnh dữ liệu (Structuze rezise)


Các hằng số trên là các hằng số chung của tất cả các công ty không thể viết PT hồi quy

bình thường như trên

Vậy viết PT hồi quy của từng công ty ntn ??? (không nhất thiết phải viết) Và tại sao lại chọn

mô hình này mà không chọn mô hình trước?


b. Tìm các hệ số chặn cho từng đơn vị chéo (Original fixed effects): Để phân tích ảnh

hưởng của sự không đồng nhất giữa các đơn vị chéo cụ thể như khả năng quản lý, triết lý

quản lý, chính sách của từng doanh nghiệp… đến biến phụ thuộc

-Equation: Views\Fixed/Randam Effects\Cross-section Effects

Hình 6

Hình 7 Tác động cố định chênh lệch của các đơn vị chéo so với trung bình chung

Vậy, hàm hồi quy của

Công ty (1) Yit = -58.7 – 10.4 + 0.31Kit + 0.109Vit + u^it (hàm hồi quy mẫu)

Tương tự cho các công ty khác

Công ty (10) Yit = -58.7 + 52.18 + 0.31Kit + 0.109Vit + u^it

(Khi nghiên cứu không cần thiết phải chỉ ra các hệ số chặn của từng công ty, hay viết ra hệ số

hồi quy)

Hình 8. Tác động cố định thực (gốc) của các đơn vị chéo

I Effect Intercept Note

1 -10.41447 -69.143 = - 10.41 - 58.729

2 159.5914 100.862

3 -176.3897 -235.119

4 31.09403 -27.635

5 -56.5879 -115.317

6 35.65544 -23.074

7 -7.953918 -66.683

8 1.370412 -57.359

9 -28.54801 -87.277

Commented [s4]: Tìm hệ số alpha0 riêng của từng công ty riêng

để viết hệ số hồi quy của từng cty

Commented [s5]: Hệ số chặn của từng công ty sẽ khác nhau (không đưa vào nghiên cứu chính, có thể đưa vào phần phụ lục)


10 52.18274 -6.546 =52.18 - 58.729

-Xem thêm phụ lục để biết cách ước lượng FEM bằng cách khác (sử dụng các biến giả)

Vậy, cần kiểm định xem các alphai (beta1i= = alpha0+alphai) là hệ số chặn của hàm hồi quy

của từng công ty) ??? nếu không khác nhau thì chỉ cần sử dụng MH ước luợng Pooled

H0 : alpha0=alpha1= … =alpha10 (Mô hình Pooled regresson)

H1 : Không có chuyện các alphai đều bằng nhau (không nên chọn Pooled Regression, có

thể sửng dụng FEM hoặc REM) xem phần dưới

c. Kiểm định sự bằng nhau của các tác động cố định

-Equation: View Fixed/Random Effects Testing Redundant Fixed Effects-

Likelihood Ration

Hình 9

Dùng Cross-section F hoặc thống kê Chi-square, 2 kiểm định đều có ý nghĩa thống kê với Pro

=0 (<alpha)

Vậy ta chấp nhận H1 (có sự khác nhau …) không nên xài mô hình Pooled

3. Mô hình tác động ngẫu nhiên (REM_Random Effects Models)

Hay còn gọi là Mô hình các thành phần sai số (ECM_Error Components Model)

Chú ý nếu Dummy càng nhiều thì sai số mô hình càng cao

a. Ước lượng

Hình 10

Hình 11



b. Tính toán các tác động ngẫu nhiên

-Equation: View Fixed/Random Effects Effects Cross-section Effects

Hình 12

Hình 13

Vậy trong 2 mô hình FEM và REM ta chọn mô hình nào? không có quy tắc duy nhất nào

để chọn mô hình, mà dựa trên quy tắc kinh nghiệm

Hoặc dùng kiểm định Hausman để quyết định chọn mô hình (xem phần dưới)


4. Kiểm định Hausman

Giả thuyết : H0 : Cov(εi,Xs) = 0 (dùng mô hình REM)

H1 : Cov(εi,Xs) # 0 (không xài REM,nên xài FEM)

Equation: ViewFixed/Random Effects testing …Hausman test

Hình 14

Hình 15

Ho: Không có tương quan giữa các biến giải thích và thành phần ngẫu nhiên (chọn ECM, hay

REM)

H1: Có tương quan giữa các biến giải thích và thành phần ngẫu nhiên (chọn FEM)

P-value(Hausman)=0.35 (>0.05) nên chưa đủ cơ sở để bác bỏ Ho. Chọn ECM

Có thể tham khảo một số quy tắc kinh nghiệm trong Gujarati để lựa chọn REM hay FEM.

(1) T lớn, N nhỏ FEM/REM đều đuợc

(2) Nếu Cov(εi,Xs) =0 REM và ngược lại

(3) N lớn,T nhỏ

a. Nếu chọn mẫu ngẫu nhiên REM

Commented [s6]: Biến độc lập bất kỳ


b. Nếu chọn mẫu không ngẫu nhiên FEM

Phụ lục

1. FEM nếu ước lượng bằng cách dùng 10 biến Dummy cho 10 công ty

Dependent Variable: INV

Method: Panel Least Squares

Date: 05/02/12 Time: 14:36

Sample: 1 200

Periods included: 20

Cross-sections included: 10

Total panel (balanced) observations: 200

Variable Coefficient Std. Error t-Statistic Prob.

D1 -69.1435 49.6855 -1.3916 0.1657

D2 100.8624 24.9137 4.0485 0.0001

D3 -235.1187 24.4183 -9.6288 0.0000

D4 -27.6350 14.0698 -1.9641 0.0510

D5 -115.3169 14.1620 -8.1427 0.0000

D6 -23.0736 12.6612 -1.8224 0.0700

D7 -66.6829 12.8376 -5.1943 0.0000

D8 -57.3586 13.9856 -4.1013 0.0001

D9 -87.2770 12.8851 -6.7735 0.0000

D10 -6.5463 11.8199 -0.5538 0.5803

V 0.1098 0.0119 9.2596 0.0000

K 0.3106 0.0174 17.8835 0.0000

R-squared 0.944 Mean dependent var 145.91

Adjusted R-squared 0.941 S.D. dependent var 216.89

S.E. of regression 52.737 Akaike info criterion 10.83

Sum squared resid 522855.166 Schwarz criterion 11.02

Log likelihood -1070.662 Hannan-Quinn criter. 10.91

Durbin-Watson stat 0.699

2. FEM nếu dùng 9 biến giả công ty, với công ty 1 là cơ sở

Dependent Variable: INV

Method: Panel Least Squares

Date: 05/02/12 Time: 14:41

Sample: 1 200

Periods included: 20

Cross-sections included: 10

Total panel (balanced) observations: 200

Commented [s7]: Sẽ xảy ra đa cộng tuyến hoàn hảo nếu làm như

vậy


Variable Coefficient Std. Error t-Statistic Prob.

C -69.1435 49.6855 -1.3916 0.1657

D2 170.0059 31.1585 5.4562 0.0000

D3 -165.9753 31.7621 -5.2256 0.0000

D4 41.5085 43.8897 0.9457 0.3455

D5 -46.1734 50.4785 -0.9147 0.3615

D6 46.0699 46.7898 0.9846 0.3261

D7 2.4606 50.5475 0.0487 0.9612

D8 11.7849 44.0319 0.2676 0.7893

D9 -18.1335 48.4358 -0.3744 0.7085

D10 62.5972 50.3070 1.2443 0.2149

V 0.1098 0.0119 9.2596 0.0000

K 0.3106 0.0174 17.8835 0.0000

R-squared 0.9441 Mean dependent var 145.9068

Adjusted R-squared 0.9409 S.D. dependent var 216.8855

S.E. of regression 52.7366 Akaike info criterion 10.8266

Sum squared resid 522855.2000 Schwarz criterion 11.0245

Log likelihood -1070.6620 Hannan-Quinn criter. 10.9067

F-statistic 288.8925 Durbin-Watson stat 0.6992

Prob(F-statistic) 0.0000

Education

Dữ liệu mảng