Chương 4 Chẩn đoán hồi quy: Đa cộng tuyến · PDF file3 3. Bởi vì hậu quả số (1), nên các tỷ số t của một hoặc nhiều hệ số có xu hướng không

1

Chương 4

Chẩn đoán hồi quy: Đa cộng tuyến

Domadar N. Gujarati

(Econometrics by example, 2011).

Người dịch và diễn giải: Phùng Thanh Bình, MB (29/10/2017)

Một trong những giả định của mô hình hồi quy tuyến tính cổ điển (CLRM) là

không có mối quan hệ tuyến tính chính xác (exact linear relationship) giữa các

biến giải thích. Nếu có một hoặc nhiều mối quan hệ như vậy giữa các biến giải

thích thì chúng ta gọi ngắn gọn là đa cộng tuyến hoặc cộng tuyến

(multicollinearity hoặc collinearity). Để bắt đầu, chúng ta phải phân biệt giữa

cộng tuyến hoàn hảo (perfect collinearity) và cộng tuyến không hoàn hảo

(imperfect collinearity)1.

Nếu, ví dụ, X2i + 3X3i = 1, thì chúng ta có trường hợp đa cộng tuyến hoàn hảo

vì X2i = 1 – 3X3i. Vì thế, nếu chúng ta đưa cả X2i và X3i vào cùng một mô hình

hồi quy, chúng ta sẽ có hiện tượng đa cộng tuyến hoàn hảo, nghĩa là, một mối

quan hệ tuyến tính hoàn hảo giữa hai biến giải thích. Trong những trường hợp

như thế, chúng ta thậm chí không thể ước lượng được các hệ số hồi quy, nên

không thể thực hiện bất kỳ loại suy diễn thống kê nào.

1 Nếu chỉ có một mối quan hệ tuyến tính hoàn hảo giữa hai hoặc nhiều hơn hai biến giải thích, chúng ta gọi đó là cộng tuyến, nhưng nếu có hơn một mối quan hệ tuyến tính hoàn hảo, chúng ta gọi là đa cộng tuyến. Tuy nhiên, chúng ta sẽ sử dụng hai thuật ngữ cộng tuyến (collinearity) và đa cộng tuyến (multicollinearity) thay thế nhau. Ngữ cảnh của vấn đề cụ thể đang xem xét sẽ cho biết chúng ta đang xử lý loại nào.

2

Trái lại, nếu chúng ta có X2i + 3X3i + vi = 1, trong đó vi là một hạng nhiễu ngẫu

nhiên, chúng ta có trường hợp đa cộng tuyến không hoàn hảo, vì X2i = 1 – 3X3i

– vi. Vì thế, trong trường hợp này, không có mối quan hệ tuyến tính hoàn hảo

giữa hai biến; cho nên phải nói rằng, sự hiện diện của hạng nhiễu vi, làm giảm

mối quan hệ hoàn hảo giữa các biến này.

Trong thực tế, (các) mối quan hệ tuyến tính chính xác giữa các biến giải thích

là rất hiếm, nhưng trong nhiều áp dụng các biến giải thích có thể cộng tuyến

cao. Trường hợp này được gọi là cộng tuyến không hoàn hảo hoặc cộng tuyến

gần hoàn hảo (near-collinearity). Vì thế, trong chương này chúng ta tập trung

và cộng tuyến không hoàn hảo2.

4.1 Hậu quả của cộng tuyến hoàn hảo

1. Các ước lượng OLS vẫn BLUE [Diễn giải: Ước lượng tuyến tính không

chệch tốt nhất, nghĩa là, các hệ số bk là các ước lượng tuyến tính, với

E(bk) = Bk, và var(bk) bé nhất], nhưng chúng có phương sai và các hiệp

phương sai lớn, làm cho việc ước lượng chính xác trở nên khó khăn.

2. Các khoảng tin cậy trở nên rộng hơn. Vì thế mà, chúng ta có thể không

bác bỏ giả thuyết không bằng 0 [Diễn giải: H0: Bk = 0] (tức là, hệ số thực

của tổng thể bằng 0). [Diễn giải: Do phương sai của từng hệ số hồi quy

lớn, nên khoảng tin cậy: [bk - t/2.se(bk) < Bk < bk - t/2.se(bk)] trải rộng ra

hơn và vì thế khả năng chứa giá trị bằng 0 là rất lớn].

2 Để đưa ra một ví dụ đặc biệt về cộng tuyến hoàn hảo, giả sử chúng ta đưa các biến thu nhập bằng d9o6la và cent vào hàm tiêu dùng, mối quan hệ giữa chi tiêu cho tiêu dùng theo thu nhập. Vì một đôla bằng 100 cent, nên đưa biến này vào mô hình sẽ dẫn đến cộng tuyến hoàn hảo. Một ví dụ khác, được gọi là bẩy biến giả, như chúng ta đã thấy ở chương 3, xảy ra nếu chúng ta đưa cả một hệ số cắt và tất cả các phân loại của các biến giả. Ví dụ, trong một hồi quy giải thích số giờ làm việc theo các biến kinh tế, chúng ta đưa hai biến giả, một chon am và một cho nữ, và cũng giữ hệ số cắt lại trong mô hình. Điều này dẫn đến cộng tuyến hoàn hảo. Dĩ nhiên, nếu chúng ta loại bỏ hệ số cắt trong trường hợp này, chúng ta sẽ tránh được bẩy biến giả. Trong thực tế, tốt hơn là để lại hệ số cắt, nhưng chỉ bao gồm một biến giả về giới tính; nếu biến giả nhận giá trị bằng 1 cho nữ, thì nó sẽ nhận giá trị bằng 0 cho nam.

3

3. Bởi vì hậu quả số (1), nên các tỷ số t của một hoặc nhiều hệ số có xu

hướng không có ý nghĩa thống kê. [Diễn giải: t(bk) = bk/se(bk), nên khi

phương sai của bk lớn thì tỷ số t sẽ thấp].

4. Mặc dù một số hệ số hồi quy không có ý nghĩa thống kê, nhưng giá trị R2

có thể rất cao. [Diễn giải: Điều này dễ khiến chúng ta lầm tưởng mô hình

rất phù hợp với dữ liệu].

5. Các ước lượng OLS [tức các bk] và các sai số chuẩn của chúng [tức các

se(bk)] có thể nhạy cảm với những thay đổi nhỏ trong dữ liệu (xem bài tập

4.6). [Diễn giải: Thêm hoặc bớt một vài quan sát thì kết quả hồi quy có

thể thay đổi hoàn toàn khác].

6. Đưa một biến cộng tuyến vào mô hình hồi quy được chọn có thể làm thay

đổi các giá trị của hệ số của các biến khác trong mô hình.

Tóm lại, khi các biến giải thích cộng tuyến, suy diễn thống kê trở nên không

vững, đặc biệt là khi có cộng tuyến gần hoàn hảo. Điều này có có gì ngạc nhiên,

bởi vì nếu hai biến có cộng tuyến cao thì rất khó tách biệt tác động riêng của

mỗi biến lên biến phụ thuộc.

Để thấy một số hậu quả này, chúng ta xem xét một mô hình ba biến, quan hệ

giữa biến phụ thuộc Y theo hai biến giải thích X2 và X3. Nghĩa là, chúng ta xem

xét mô hình sau đây:

Sử dụng OLS, chúng ta có thể có các ước lượng OLS như sau3:

3 Xem Gujarati/Porter, pp. 193-4.

4

Trong đó, các biến được thể hiện dưới dạng độ lệch so với các giá trị trung bình,

nghĩa là: yi = Yi - Y̅, x2i = X2i - X̅2, và x3i = X3i - X̅3.

Lưu ý rằng công thức của hai hệ số độ dốc là đối xứng theo nghĩa bạn có thể

có được một hệ số khác bằng cách thay đổi tên của các biến tương ứng.

Hơn nữa, chúng ta có:

Trong đó,

Và 2 là phương sai của hạng nhiễu ui và r23 là hệ số tương quan giữa X2 và X3,

và VIF là hệ số phóng đại phương sai (variance-inflating factor): một thước đo

mức độ trong đó phương sai của ước lượng OLS bị phóng đại do cộng tuyến.

Để thấy điều này, chúng ta hãy xem Bảng 4.1.

5

[Diễn giải: Từ công thức (4.5) và (4.6), chúng ta thấy rằng, nếu X2 và X3 độc

lập, thì r223 = 0, nên VIF = 1, nghĩa là phương sai trong hồi quy bội sẽ đúng bằng

phương sai trong hồi quy đơn. Nếu X2 và X3 cộng tuyến, r223 gần bằng 1, nên

VIF sẽ rất lớn, và phương sai của từng hệ số hồi quy sẽ rất lớn. Như vậy, các

khoảng tin cậy sẽ rộng hơn và các tỷ số t trở nên nhỏ lại].

Bảng 4.1: Ảnh hưởng của tang r23 lên phương sai của ước lượng OLS b2.

Chúng ta nhận thấy rõ ràng là khi hệ số tương quan giữa X2 và X3 tăng, phương

sai của b2 tăng lên rất nhanh một cách phi tuyến. Vì thế mà, các khoảng tin cậy

sẽ rộng ra nhanh chóng và chúng ta dễ kết luận sai lầm là hệ số B2 thực không

khác 0.

Cũng có thể lưu ý rằng nghịch đảo của VIF được gọi là độ chấp nhận (TOL,

tolerance), nghĩa là:

Khi r223 = 1 (tức cộng tuyến hoàn hảo), TOL bằng 0, và khi r2

23 = 0 (tức không

có cộng tuyến), TOL = 1.

6

Công thức VIF được cho trong mô hình hồi quy hai biến giải thích có thể được

khái quát hóa cho mô hình hồi quy k biến giải thích (một hệ số cắt và (k - 1)

biến giải thích) như sau:

Trong đó, R2k là R2 từ hồi quy của biến giả thích thứ k theo tất cả các biến giải

thích còn lại trong mô hình và

là biến thiên trong biến thứ k xoay quanh giá trị trung bình của nó. Hồi quy của

biến giải thích thứ k theo các biến giải thích khác trong mô hình được gọi là hồi

quy phụ (auxiliary regression), nên nếu chúng ta có 10 biến giải thích trong mô

hình, thì chúng ta có 10 phương trình hồi quy phụ.

Trong phần mềm Stata, chúng ta tính VIF và TOL bằng cách gỏ lệnh estat vif

ngay sau khi ước lượng một hồi quy OLS, như chúng ta sẽ thấy trong ví dụ sau

đây.

4.2 Ví dụ: Số giờ làm việc của phụ nữ có gia đình trong thị trường lao động

Để làm rõ bản chất của đa cộng tuyến, chúng ta sử dụng dữ liệu từ một nghiên

cứu thực nghiệm được thực hiện bởi Mroz4 – xem dữ liệu trong tập tin Table 4.2

trên trang web của cuốn sách. Ông ấy muốn đánh giá tác động của một số biến

kinh tế - xã hội lên số giờ làm việc của phụ nữ có gia đình trong thị trường lao

động. Đây là dữ liệu chéo với 753 phụ nữ đã có gia đình thu thập vào năm 1975.

4 Xem T. A. Mroz, The sensitivity of an empirical model of married women’s hours of work to economic and statistical assumptions, Econometrica, 1987, vol. 55, pp. 765-99.

7

Nên lưu ý rằng có 325 phụ nữ có gia đình không đi làm và vì thế có số giờ làm

việc bằng 0.

Một số biến ông ta sử dụng trong nghiên cứu của mình:

Hours: Số giờ làm việc trong năm 1975 (biến phụ thuộc)

Kidslt6: Số con dưới 6 tuổi

Kidsge6: Số con giữa 6 đến 18 tuổi

Age: Tuổi của phụ nữ, tính bằng năm

Educ: Số năm đi học

Wage: Tiền lương ước tính từ thu nhập

Hushrs: Số giờ làm việc của chồng

Husage: Tuổi của chồng

Huseduc: Số năm đi học của chồng

Huswage: Tiền lương theo giờ của chồng, năm 1975

Faminc: Thu nhập của gia đình, năm 1975

Mtr: Tỷ lệ thuế biên của liên bang đánh lên thu nhập của phụ nữ

Motheduc: Số năm đi học của mẹ

Fatheduc: Số năm đi học của cha

Unem: Tỷ lệ thất nghiệp trong địa phương người phụ nữ sinh sống

Exper: Kinh nghiệm thực sự trên thị trường lao động.

Như một điểm khởi đầu, chúng ta thu được kết quả hồi quy trong Bảng 4.3.

Chúng ta kỳ vọng một mối quan hệ dương giữa số giờ làm việc và giáo dục,

kinh nghiệm, trình độ giáo dục của cha và mẹ, và một mối quan hệ âm giữa số

giờ làm việc và tuổi, tuổi của chồng, số giờ làm việc của chồng, tiền lương của

chồng, thuế suất biên, tỷ lệ thất nghiệp, và số con dưới 6 tuổi. Hầu hết các kỳ

vọng này đều được xác minh bằng các kết quả thống kê. Tuy nhiên, nhiều hệ

8

số không có ý nghĩa thống kê, có lẽ cho chúng ta thấy rằng các biến này có

cộng tuyến, vì thế làm cho các sai số chuẩn cao hơn và làm giảm các tỷ số t.

Bảng 4.3: Hồi quy số giờ làm việc của phụ nữ.

4.3 Phát hiện đa cộng tuyến

Như chúng ta sẽ thấy trong các chương về tự tương quan và phương sai thay

đổi, không có một kiểm định duy nhất để phát hiện đa cộng tuyến. Một số chẩn

đoán được thảo luận trong lý thuyết có thể được tóm tắt như sau:

9

1. R2 cao nhưng một số tỷ số t thấp. Trong ví dụ của chúng ta, giá trị R2 =

0.34 không đặc biệt cao. Nhưng điều này không nên ngạc nhiên vì trong

dữ liệu chéo với nhiều quan sát đa dạng. Tuy nhiên, khá nhiều tỷ số t

không có ý nghĩa thống kê có lẽ do cộng tuyến giữa vài biến giải thích.

2. Các hệ số tương quan cặp (pairwise correlation) cao giữa các biến giải

thích. Nhớ lại rằng hệ số tương quan mẫu giữa Y và X được xác định như

sau:

Trong đó, các biến được xác định bằng độ lệch so với giá trị trung bình

của chúng (ví dụ: yi = Yi - Y̅). Vì chúng ta có 15 biến giải thích, nên chúng

ta sẽ có 105 hệ số tương quan cặp5. Chúng ta sẽ không trình bày kết quả

ma trận hệ số tương quan ở đây. Hầu hết các hệ số tương quan không

đặc biệt quá cao, nhưng một số cao hơn 0.5. Ví dụ, hệ số tương quan

giữa tuổi của chồng và thu nhập gia đình là 0.67, giữa giáo dục của mẹ

và giáo dục của cha là 0.55, và giữa thuế suất biên và thu nhập gia đình

là -0.88.

Chúng ta tin rằng các hệ số tương quan cặp giữa các biến giải thích là

dấu hiệu của cộng tuyến. Vì thế, bạn nên loại bỏ những biến giải thích

tương quan cao. Nhưng đó không phải là cách tốt khi chỉ dựa vào các hệ

số tương quan cặp giản đơn, bởi vì chúng không giữ cố định các biến

khác trong mô hình trong khi tính các hệ số tương quan cặp.

5 Dĩ nhiên, không phải tất cả các hệ số tương quan này sẽ khác nhau bởi vì hệ số tương quan giữa Y và X cũng giống như giữa X và Y.

10

3. Các hệ số tương phân riêng (partial correlation coefficients): Để giữ

nguyên các biến khác không đổi, chúng ta phải tính các hệ số tương quan

riêng. Giả sử chúng ta có 3 biến X1, X2, và X3. Thì chúng ta sẽ có 3 hệ số

tương quan cặp, r12, r13, và r23; và 3 hệ số tương quan riêng, r12.3, r13.2, và

r23.1; ví dụ r23.1 có nghĩa là hệ số tương quan giữa X2 và X3, khi giữ nguyên

giá trị của biến X1 không đổi (xem Bài tập 4.4 về cách tính các hệ số

tương quan riêng). Hệ số tương quan riêng được tính theo công thức sau

đây:

Rất có thể rằng hệ số tương quan giữa X2 và X3 (= r23) cao, ví dụ 0.85.

Nhưng hệ số này không tính đến sự hiện diện của biến thứ 3, tức X1. Nếu

biến X1 có ảnh hưởng đến cả X2 và X3, thì tương quan cao giữa X2 và X3

thực sự do ảnh hưởng chung của X1 lên cả hai biến này. Hệ số tương

quan riêng r23.1 tính tương quan ròng (net correlation) giữa X2 và X3 sau

khi đã loại trừ ảnh hưởng của X1. Trong trường hợp đó, thì có thể rằng

tương quan cao (0.85) giữa X2 và X3 có thể giảm xuống còn, ví dụ, 0.35.

Tuy nhiên, không có gì đảm bảo rằng các hệ số tương quan cặp sẽ cung

cấp hướng dẫn đúng đắn về đa cộng tuyến. Để tiết kiệm không gian,

chúng ta sẽ không trình bày các giá trị thực của các hệ số tương quan

riêng cho ví dụ của chúng ta. Stata có thể tính các hệ số tương quan riêng

cho một nhóm các biến với các hướng dẫn đơn giản.

11

4. Các hồi quy phụ: Để biết các biến giải thích có cộng tuyến cao với các

biến giải thích khác trong mô hình, chúng ta có thể chạy hồi quy mỗi biến

giải thích theo các biến giải thích còn lại và thu được các hồi quy phụ như

đã được đề cập trước đây.

Vì chúng ta có 15 biến giải thích, nên chúng ta có 15 hồi quy phụ. Chúng

ta có thể kiểm định mức ý nghĩa chung (overall significance) của mỗi hồi

quy bằng kiểm định F được thảo luận ở chương 2. Giả thuyết không (H0)

ở đây là tất cả các hệ số của các biến giải thích trong hồi quy phụ đồng

thời bằng 0. Nếu chúng ta bác bỏ giả thuyết này đối với một hoặc nhiều

hồi quy phụ, chúng ta có thể kết luận rằng các hồi quy phụ với các giá trị

F có ý nghĩa thống kê có cộng tuyến với các biến giải thích khác trong mô

hình. Dĩ nhiên, nếu chúng ta có nhiều biến giải thích, như ví dụ hiện tại,

thì việc tính toán nhiều hồi quy phụ trong thực tế sẽ rất mệt mỏi, nếu

không nói là không thể về việc tính toán.

5. Hệ số phóng đại phương sai (VIF) và hệ số chấp nhận (TOL): Các hệ số

VIF và TOL cho ví dụ của chúng ta, thu từ phần mềm Stata, được trình

bày trong Bảng 4.4.

12

Bảng 4.4: Hệ số VIF và TOL.

Bảng này (khác trong sách chút) rõ ràng cho thấy có độ cộng tuyến cao giữa

nhiều biến; thậm chí VIF trung bình lớn hơn 2.

4.4 Các biện pháp khắc phục

Có nhiều cách khắc phục (chữa trị) đa cộng tuyến được đề xuất trong lý thuyết6.

Cách nào sẽ hợp trong một trường hợp cụ thể vẫn còn tranh cải. Vì các ước

lượng OLS vẫn BLUE miễn là cộng tuyến không hoàn hảo, thì cách khắc phục

được đề xuất phổ biến nhất là không làm gì cả nhưng đơn giản là chỉ trình bày

kết quả của mô hình phù hợp. Điều này là bởi vì thường thì cộng tuyến về cơ

bản là vấn đề thiếu dữ liệu (data deficiency), và trong nhiều trường hợp chúng

ta có thể không có lựa chọn dữ liệu mà chúng ta có sẵn cho nghiên cứu7.

6 Thảo luận chi tiết, xem Gujarati/Porter, pp. 342-6. 7 Nhà kinh tế lượng Arthur Goldberger gọi đây là vấn đề “cỡ mẫu nhỏ” (micronumerosity), nghĩa là mẫu nhỏ và không đủ biến thiên trong giá trị của các biến giải thích. Xem A course in econometrics, Harvard University Press, Cambridge, MA. 1991, p.249.

13

Nhưng thỉnh thoảng cũng hữu ích để ngẫm lại mô hình mà chúng ta đã chọn

cho việc phân tích để đảm bảo rằng tất cả các biến được đưa vào mô hình có

thể không cần thiết. Trở lại với ví dụ của chúng ta trong Bảng 3.4, các biến giáo

dục của cha và giáo dục của mẹ có thể tương quan với nhau, điều này có nghĩa

rằng giáo dục của con gái có thể tương quan với hai biến này. Bạn cũng có thể

nghi vấn rằng đưa biến số con trên 6 tuổi như một biến giải thích vào mô hình

thì có nghĩa gì hay không? Cũng như thế, tuổi của chồng và tuổi của vợ cũng

có thể tương quan. Vì thế, nếu chúng ta loại bỏ những biến này ra khỏi mô hình,

thì có thể vấn đề cộng tuyến có thể bớt nghiêm trọng hơn8.

Kết quả mô hình được ước lượng lại được trình bày ở Bảng 4.5.

Như bạn có thể thấy, hầu hết các biến bây giờ có ý nghĩa thống kê ở 10% hoặc

thấp hơn và có ý nghĩa kinh tế, ngoại trừ tỷ lệ thất nghiệp, biến này có ý nghĩa

thống kê ở mức ý nghĩa 11%. Các hệ số VIF và TOL tương ứng được trình bày

trong Bảng 4.6.

Mặc dù VIF trung bình giảm, nhưng vẫn còn cộng tuyến đáng kể giữa các biến

giải thích trong mô hình được ước lượng lại này. Chúng ta có thể ước lượng

nhiều mô hình như thế sử dụng nhiều cách kết hợp khác nhau của các biến giải

thích được cho trong Bảng 4.3 để xem mô hình nào ít bị cộng tuyến nhất. Nhưng

chiến lược này, được gọi là ‘khám phá dữ liệu’ (data mining) hoặc ‘câu dữ liệu’

(data fishing), không được đề nghị. Nếu chúng ta có một mô hình có nhiều biến

hợp lý để đưa vào mô hình, thì tốt hơn là nên giữ chúng lại mô hình. Nếu một

vài hệ số trong mô hình không có ý nghĩa thống kê, thì đúng là nó không có ý

nghĩa thống kê. Thỉnh thoảng vì có ít dữ liệu mà chúng ta thu thập thêm dữ liệu

mới hoặc thu thập một bộ dữ liệu khác, nếu điều đó khả thi.

8 Nhưng lưu ý vấn đề lỗi do lựa chọn sai mô hình (specification bias). Bạn không nên loại bỏ những biến chỉ vì chúng gây ra cộng tuyến. Nếu một biến thuộc mô hình, thì nó nên được giữ lại thậm chí nó không có ý nghĩa thống kê.

14

Bảng 4.5: Hồi quy lại số giờ làm việc của phụ nữ.

Bảng 4.6: VIF và TOL của các hệ số trong Bảng 4.5.

15

4.5 Phương pháp thành phần chính (PC)

Một phương pháp thống kê, được biết với tên gọi là phân tích thành phần chính

(PCA, principle component analysis), có thể chuyển đổi các biến tương quan

thành các biến trực giao (orthogonal) hoặc các biến không tương quan9. Vì thế

các biến trực giao thu được gọi là các thành phần chính. Quay lại với hồi quy

số giờ làm việc của chúng ta trong Bảng 4.3, chúng ta có 15 biến giải thích.

Phương pháp thành phần chính về nguyên tắc sẽ tính 15 thành phần chính,

PCs, được ký hiệu là PC1, PC2, …, PC15, theo cách sao cho chúng không có

tương quan với nhau. Các PCs này là các kết hợp tuyến tính của các biến giải

thích gốc. Trong thực tế, chúng ta không cần sử dụng tất cả 15 PCs, bởi vì một

số nhỏ hơn thường sẽ đủ để giải thích hiện tượng đang được nghiên cứu, như

chúng ta thấy dưới đây.

Ý tưởng cơ bản đằng sau PCA rất đơn giản. Nó nhóm các biến tương quan

thành một nhóm phụ sao cho các biến thuộc bất kỳ nhóm phụ nào có một nhân

tố chung (common factor). Nhân tố chung này có thể là kỹ năng, năng lực, sự

thông minh, dân tộc, hoặc bất kỳ nhân tố nào. Nhân tố chung đó, thường thì

không dễ nhận dạng, được gọi là một thành phần chính. Có một PC cho mỗi

nhân tố chung. Hy vọng, các nhân tố chung này hoặc các PCs ít hơn số biến

giải thích gốc ban đầu.

Điểm khởi đầu của phân tích PC là ma trận hệ số tương quan (correlation matrix)

của các biến gốc ban đầu. Ma trận 15 x 15 thì quá lớn để chúng ta trình bày ở

đây, nhưng bất kỳ phần mềm thống kê nào cũng sẽ tạo ra được [Diễn giải: Stata

thì dùng lệch corr và liệt kê ra cả 15 biết]. Từ ma trân hệ số tương quan, sử

dụng phần mềm Minitab 15, chúng ta thu được các PCs như trong Bảng 4.7.

9 Thuật ngữ trực giao có nghĩa là cắt hoặc nằm trên các góc phải. Các biến không tương quan được cho là trực giao bởi vì khi vẽ trên đồ thị, chúng hình thành các góc bên phải của các trục.

16

Chúng ta sẽ không thảo luận về mặt toán học làm sao để rút ra được các PCs,

vì nó vốn khá phức tạp.

Bảng 4.7: Các thành phần chính của ví dụ về số giờ làm việc.

[Diễn giải: Trong Stata, chúng ta thực hiện như sau:

pca age educ exper faminc fathereduc hage heduc hhours hwage kidsl6

kids618 wage mothereduc mtr unemployment

screeplot

predict PC1 PC2 PC3 PC4 PC5].

17

Hình 4.1: Đồ thị eigenvalues (phương sai) theo các PCs.

Giải thích các PCs

Phần thứ nhất của bảng ở trên trình bày 15 PCs. PC1, thành phần chính thứ

nhất, có phương sai (=eigenvalue) là 3.5448 và giải thích khoảng 24% tổng biến

thiên trong tất cả các biến giải thích. PC2, thành phần chính thứ hai, có phương

sai là 2.8814, giải thích 19% tổng biến thiên của tất cả 15 biến giải thích. Cả hai

PCs này chiếm khoảng 42% trong tổng biến thiên. Theo cách này, chúng ta

thấy sáu PCs đầu tiên cùng giải thích 74% trong tổng biến thiên của tất cả các

biến giải thích. Nên, mặc dù có 15 biến giải thích, nhưng chỉ 6 thành phần chính

là quan trọng về mặt định định lượng. Điều này có thể thấy rõ hơn trên Hình 4.1,

hình này được vẽ bằng Minitab 15.

Bây giờ hãy nhìn vào phần thứ hai của Bảng 4.7. Đối với mỗi PC, nó cho biết

độ tải (loadings) hoặc điểm số (scores) hoặc trọng số (weights) – nghĩa là, mỗi

biến giải thích gốc ban đầu đóng góp bao nhiêu vào PC đó. Ví dụ, trong PC1:

giáo dục, thu nhập gia đình, giáo dục của cha, giáo dục của mẹ, giáo dục của

18

chồng, tiền lương của chồng, và MTR chiếm nhiều trong PC này. Nhưng nếu

bạn lấy PC4, thì bạn sẽ thấy số giờ làm việc của chồng đóng góp chính vào PC

này.

Mặc dù rất tao nhã về mặt toán học, nhưng giải thích các PCs thì mang tính

chủ quan. Ví dụ, chúng ta có thể nghĩ PC1 đại diện cho mức giáo dục chung

của gia đình, vì các biến về giáo dục chiếm phần lớn trong PC này.

Một khi các thành tố chính được trích ra, chúng ta sẽ hồi quy biến phụ thuộc

gốc ban đầu (tức số giờ làm việc) theo các thành phần chính, đại diện cho các

biến giải thích gốc ban đầu. Để minh họa, chúng ta chỉ sử dụng 6 PCs đầu tiên,

vì chúng dường như là các thành phần quan trọng nhất. Hồi quy số giờ làm việc

theo 6 thành phần này, chúng ta thu được kết quả như được trình bày trong

Bảng 4.8 (sử dụng phần mềm Minitab 15).

Bảng 4.8: Hồi quy các thành phần chính.

19

Từ kết quả này, dường như PC2 và PC4 giải thích tốt nhất cho hành vi của số

giờ làm việc của phụ nữ. Dĩ nhiên, cái khó ở đây là chúng ta không biết giải

thích các thành phần chính này như thế nào. Tuy nhiên, phương pháp thành

phần chính là một cách hữu ích để giảm bớt số các biến giải thích tương quan

với nhau để gom lại thành một số ít thành phần không còn tương quan. Vì thế,

chúng ta không còn gặp phải vấn đề cộng tuyến. Vì không có bữa ăn nào miễn

phí, sự đơn giản hóa có thể là một chi phí bởi vì chúng ta không biết nên giải

thích các PCs như thế nào theo một cách có ý nghĩa trên thực tế. Nếu chúng ta

có thể nhận dạng được các PCs với vài biến kinh tế, thì phương pháp thành

phần chính có thể là một cách hữu ích giúp nhận dạng và giải quyết hiện tượng

đa cộng tuyến.

Tóm lại, có thể đề cập thêm rằng hồi quy dạng sóng (ridge regression) là một

phương pháp khác để xử lý các biến tương quan. Các ước lượng tạo ra từ

phương pháp này bị chệch, nhưng chúng có sai số bình phương trung bình

(MSE) nhỏ hơn các ước lượng OLS10. Một thảo luận chi tiết hơn về hồi quy dạng

sống ngoài phạm vi của cuốn sách này11.

4.6 Tóm tắt và kết luận

Trong chương này chúng ta đã xem xét vấn đề đa cộng tuyến, một vấn đề hay

gặp trong nghiên cứu thực nghiệm, đặc biệt nếu có nhiều biến giải thích tương

quan với nhau trong một mô hình. Miễn là cộng tuyến không hoàn hảo, chúng

ta có thể sử dụng được khung phân tích của mô hình hồi quy tuyến tính cổ điển,

nếu các giả định khác của mô hình CLRM vẫn thoản mãn.

Nếu cộng tuyến không hoàn hảo, nhưng cao, nhiều hậu quả có thể gặp. Các

ước lượng OLS vẫn BLUE, nhưng một hoặc nhiều hệ số hồi quy có sai số chuẩn

lớn so với giá trị của các hệ số, vì thế làm cho các tỷ số t nhỏ lại. Vì thế bạn có

10 MSE của một ước lượng bằng phương sai cộng với bình phương của khoảng chệch trong việc ước lượng nó. 11 Một thảo luận tương đối dễ hiểu, xem Samprit Chatterjee and Ali S. Hadi, Regression Analysis by Example, 4th edn, John Wiley & Sons, New York, 2006, pp. 266-75.

20

thể kết luận (một cách sai lầm) rằng các giá trị thực của các hệ số này không

khác không. Các hệ số hồi quy có thể rất nhạy cảm với những thay đổi nhỏ

trong dữ liệu, đặc biệt nếu cỡ mẫu tương đối nhỏ (xem Bài tập 4.6).

Có nhiều cách kiểm định chẩn đoán để phát hiện cộng tuyến, nhưng không có

gì đảm bảo rằng chúng đưa ra các kết quả thỏa đáng. Về cơ bản đó là một quy

trình thử - sai.

Lời khuyên thực tế tốt nhất là không làm gì cả nếu chúng ta gặp phải cộng

tuyến, vì thường thì chúng ta phải kiểm soát được dữ liệu. Tuy nhiên, điều rất

quan trọng là các biến được đưa vào mô hình phải được lựa chọn cẩn thận.

Như ví dụ của chúng ta cho thấy, việc xem xét lại mô hình bằng cách loại trừ

các biến có thể không thuộc mô hình có thể giúp làm giảm vấn đề cộng tuyến,

với điều kiện là chúng ta không bỏ sót những biến phù hợp trong một trường

hợp đã được xác định. Nói cách khác, khi làm giảm cộng tuyến chúng ta sẽ đảm

bảo không mắc các lỗi sai dạng mô hình, vấn đề này sẽ được thảo luận ở

chương 7. Vì thế, hãy suy nghĩ một cách cẩn thận về mô hình trước khi ước

lượng một mô hình hồi quy.

Có một cảnh báo. Nếu nếu có đa cộng tuyến trong mô hình và nếu mục tiêu

của bạn là dự báo, đa cộng tuyến không hẵn là xấu, nếu như mối quan hệ cộng

tuyến được quan sát trong mẫu vẫn được giữ nguyên trong giai đoạn dự báo.

Cuối cùng, có một kỹ thuật thống kê, gọi là phân tích thành phần chính, kỹ thuật

này giúp giải quyến vấn đề cộng tuyến gần hoàn hảo. Trong PCA, chúng ta xây

dựng các biến ‘’nhân tạo’’ theo một cách sao cho chúng trực giao với nhau. Các

biến này, gọi là các thành phần chính, được rút trích từ các biến gốc ban đầu.

Sau đó chúng ta hồi quy biến phụ thuộc gốc ban đầu theo các thành phần chính.

Chúng ta đã chỉ ra các PCs được tính toán và được giải thích như thế nào thông

qua ví dụ minh họa của chúng ta về các nhân tố quyết định số giờ làm việc của

phụ nữ đã có gia đình.

21

Một ưu điểm của phương pháp này là các PCs thường nhỏ hơn về mặt số lượng

các biến so với số biến giải thích ban đầu. Nhưng một nhược điểm thực tiễn về

các PCs là các PCs thường không có các ý nghĩa kinh tế rõ ràng, vì chúng là

các kết hợp (có trọng số) của các biến gốc ban đầu, mà các biến này được đo

lường bằng các đơn vị rất khác nhau. Vì thế, rất khó để chúng ta giải thích xác

đáng ý nghĩa của các PCs. Đó là lý do tại sao chúng không được sử dụng phổ

biến trong các nghiên cứu kinh tế, mặc dù chúng được sử dụng rất phổ biến

trong các nghiên cứu trong lĩnh vực giáo dục và tâm lý./.

Documents

Chương 4 Chẩn đoán hồi quy: Đa cộng tuyến · PDF file3 3. Bởi vì hậu quả số (1), nên các tỷ số t của một hoặc nhiều hệ số có xu hướng không