Upload
tranhanh
View
226
Download
9
Embed Size (px)
Citation preview
1
Chương 4
Chẩn đoán hồi quy: Đa cộng tuyến
Domadar N. Gujarati
(Econometrics by example, 2011).
Người dịch và diễn giải: Phùng Thanh Bình, MB (29/10/2017)
Một trong những giả định của mô hình hồi quy tuyến tính cổ điển (CLRM) là
không có mối quan hệ tuyến tính chính xác (exact linear relationship) giữa các
biến giải thích. Nếu có một hoặc nhiều mối quan hệ như vậy giữa các biến giải
thích thì chúng ta gọi ngắn gọn là đa cộng tuyến hoặc cộng tuyến
(multicollinearity hoặc collinearity). Để bắt đầu, chúng ta phải phân biệt giữa
cộng tuyến hoàn hảo (perfect collinearity) và cộng tuyến không hoàn hảo
(imperfect collinearity)1.
Nếu, ví dụ, X2i + 3X3i = 1, thì chúng ta có trường hợp đa cộng tuyến hoàn hảo
vì X2i = 1 – 3X3i. Vì thế, nếu chúng ta đưa cả X2i và X3i vào cùng một mô hình
hồi quy, chúng ta sẽ có hiện tượng đa cộng tuyến hoàn hảo, nghĩa là, một mối
quan hệ tuyến tính hoàn hảo giữa hai biến giải thích. Trong những trường hợp
như thế, chúng ta thậm chí không thể ước lượng được các hệ số hồi quy, nên
không thể thực hiện bất kỳ loại suy diễn thống kê nào.
1 Nếu chỉ có một mối quan hệ tuyến tính hoàn hảo giữa hai hoặc nhiều hơn hai biến giải thích, chúng ta gọi đó là cộng tuyến, nhưng nếu có hơn một mối quan hệ tuyến tính hoàn hảo, chúng ta gọi là đa cộng tuyến. Tuy nhiên, chúng ta sẽ sử dụng hai thuật ngữ cộng tuyến (collinearity) và đa cộng tuyến (multicollinearity) thay thế nhau. Ngữ cảnh của vấn đề cụ thể đang xem xét sẽ cho biết chúng ta đang xử lý loại nào.
2
Trái lại, nếu chúng ta có X2i + 3X3i + vi = 1, trong đó vi là một hạng nhiễu ngẫu
nhiên, chúng ta có trường hợp đa cộng tuyến không hoàn hảo, vì X2i = 1 – 3X3i
– vi. Vì thế, trong trường hợp này, không có mối quan hệ tuyến tính hoàn hảo
giữa hai biến; cho nên phải nói rằng, sự hiện diện của hạng nhiễu vi, làm giảm
mối quan hệ hoàn hảo giữa các biến này.
Trong thực tế, (các) mối quan hệ tuyến tính chính xác giữa các biến giải thích
là rất hiếm, nhưng trong nhiều áp dụng các biến giải thích có thể cộng tuyến
cao. Trường hợp này được gọi là cộng tuyến không hoàn hảo hoặc cộng tuyến
gần hoàn hảo (near-collinearity). Vì thế, trong chương này chúng ta tập trung
và cộng tuyến không hoàn hảo2.
4.1 Hậu quả của cộng tuyến hoàn hảo
1. Các ước lượng OLS vẫn BLUE [Diễn giải: Ước lượng tuyến tính không
chệch tốt nhất, nghĩa là, các hệ số bk là các ước lượng tuyến tính, với
E(bk) = Bk, và var(bk) bé nhất], nhưng chúng có phương sai và các hiệp
phương sai lớn, làm cho việc ước lượng chính xác trở nên khó khăn.
2. Các khoảng tin cậy trở nên rộng hơn. Vì thế mà, chúng ta có thể không
bác bỏ giả thuyết không bằng 0 [Diễn giải: H0: Bk = 0] (tức là, hệ số thực
của tổng thể bằng 0). [Diễn giải: Do phương sai của từng hệ số hồi quy
lớn, nên khoảng tin cậy: [bk - t/2.se(bk) < Bk < bk - t/2.se(bk)] trải rộng ra
hơn và vì thế khả năng chứa giá trị bằng 0 là rất lớn].
2 Để đưa ra một ví dụ đặc biệt về cộng tuyến hoàn hảo, giả sử chúng ta đưa các biến thu nhập bằng d9o6la và cent vào hàm tiêu dùng, mối quan hệ giữa chi tiêu cho tiêu dùng theo thu nhập. Vì một đôla bằng 100 cent, nên đưa biến này vào mô hình sẽ dẫn đến cộng tuyến hoàn hảo. Một ví dụ khác, được gọi là bẩy biến giả, như chúng ta đã thấy ở chương 3, xảy ra nếu chúng ta đưa cả một hệ số cắt và tất cả các phân loại của các biến giả. Ví dụ, trong một hồi quy giải thích số giờ làm việc theo các biến kinh tế, chúng ta đưa hai biến giả, một chon am và một cho nữ, và cũng giữ hệ số cắt lại trong mô hình. Điều này dẫn đến cộng tuyến hoàn hảo. Dĩ nhiên, nếu chúng ta loại bỏ hệ số cắt trong trường hợp này, chúng ta sẽ tránh được bẩy biến giả. Trong thực tế, tốt hơn là để lại hệ số cắt, nhưng chỉ bao gồm một biến giả về giới tính; nếu biến giả nhận giá trị bằng 1 cho nữ, thì nó sẽ nhận giá trị bằng 0 cho nam.
3
3. Bởi vì hậu quả số (1), nên các tỷ số t của một hoặc nhiều hệ số có xu
hướng không có ý nghĩa thống kê. [Diễn giải: t(bk) = bk/se(bk), nên khi
phương sai của bk lớn thì tỷ số t sẽ thấp].
4. Mặc dù một số hệ số hồi quy không có ý nghĩa thống kê, nhưng giá trị R2
có thể rất cao. [Diễn giải: Điều này dễ khiến chúng ta lầm tưởng mô hình
rất phù hợp với dữ liệu].
5. Các ước lượng OLS [tức các bk] và các sai số chuẩn của chúng [tức các
se(bk)] có thể nhạy cảm với những thay đổi nhỏ trong dữ liệu (xem bài tập
4.6). [Diễn giải: Thêm hoặc bớt một vài quan sát thì kết quả hồi quy có
thể thay đổi hoàn toàn khác].
6. Đưa một biến cộng tuyến vào mô hình hồi quy được chọn có thể làm thay
đổi các giá trị của hệ số của các biến khác trong mô hình.
Tóm lại, khi các biến giải thích cộng tuyến, suy diễn thống kê trở nên không
vững, đặc biệt là khi có cộng tuyến gần hoàn hảo. Điều này có có gì ngạc nhiên,
bởi vì nếu hai biến có cộng tuyến cao thì rất khó tách biệt tác động riêng của
mỗi biến lên biến phụ thuộc.
Để thấy một số hậu quả này, chúng ta xem xét một mô hình ba biến, quan hệ
giữa biến phụ thuộc Y theo hai biến giải thích X2 và X3. Nghĩa là, chúng ta xem
xét mô hình sau đây:
Sử dụng OLS, chúng ta có thể có các ước lượng OLS như sau3:
3 Xem Gujarati/Porter, pp. 193-4.
4
Trong đó, các biến được thể hiện dưới dạng độ lệch so với các giá trị trung bình,
nghĩa là: yi = Yi - Y̅, x2i = X2i - X̅2, và x3i = X3i - X̅3.
Lưu ý rằng công thức của hai hệ số độ dốc là đối xứng theo nghĩa bạn có thể
có được một hệ số khác bằng cách thay đổi tên của các biến tương ứng.
Hơn nữa, chúng ta có:
Trong đó,
Và 2 là phương sai của hạng nhiễu ui và r23 là hệ số tương quan giữa X2 và X3,
và VIF là hệ số phóng đại phương sai (variance-inflating factor): một thước đo
mức độ trong đó phương sai của ước lượng OLS bị phóng đại do cộng tuyến.
Để thấy điều này, chúng ta hãy xem Bảng 4.1.
5
[Diễn giải: Từ công thức (4.5) và (4.6), chúng ta thấy rằng, nếu X2 và X3 độc
lập, thì r223 = 0, nên VIF = 1, nghĩa là phương sai trong hồi quy bội sẽ đúng bằng
phương sai trong hồi quy đơn. Nếu X2 và X3 cộng tuyến, r223 gần bằng 1, nên
VIF sẽ rất lớn, và phương sai của từng hệ số hồi quy sẽ rất lớn. Như vậy, các
khoảng tin cậy sẽ rộng hơn và các tỷ số t trở nên nhỏ lại].
Bảng 4.1: Ảnh hưởng của tang r23 lên phương sai của ước lượng OLS b2.
Chúng ta nhận thấy rõ ràng là khi hệ số tương quan giữa X2 và X3 tăng, phương
sai của b2 tăng lên rất nhanh một cách phi tuyến. Vì thế mà, các khoảng tin cậy
sẽ rộng ra nhanh chóng và chúng ta dễ kết luận sai lầm là hệ số B2 thực không
khác 0.
Cũng có thể lưu ý rằng nghịch đảo của VIF được gọi là độ chấp nhận (TOL,
tolerance), nghĩa là:
Khi r223 = 1 (tức cộng tuyến hoàn hảo), TOL bằng 0, và khi r2
23 = 0 (tức không
có cộng tuyến), TOL = 1.
6
Công thức VIF được cho trong mô hình hồi quy hai biến giải thích có thể được
khái quát hóa cho mô hình hồi quy k biến giải thích (một hệ số cắt và (k - 1)
biến giải thích) như sau:
Trong đó, R2k là R2 từ hồi quy của biến giả thích thứ k theo tất cả các biến giải
thích còn lại trong mô hình và
là biến thiên trong biến thứ k xoay quanh giá trị trung bình của nó. Hồi quy của
biến giải thích thứ k theo các biến giải thích khác trong mô hình được gọi là hồi
quy phụ (auxiliary regression), nên nếu chúng ta có 10 biến giải thích trong mô
hình, thì chúng ta có 10 phương trình hồi quy phụ.
Trong phần mềm Stata, chúng ta tính VIF và TOL bằng cách gỏ lệnh estat vif
ngay sau khi ước lượng một hồi quy OLS, như chúng ta sẽ thấy trong ví dụ sau
đây.
4.2 Ví dụ: Số giờ làm việc của phụ nữ có gia đình trong thị trường lao động
Để làm rõ bản chất của đa cộng tuyến, chúng ta sử dụng dữ liệu từ một nghiên
cứu thực nghiệm được thực hiện bởi Mroz4 – xem dữ liệu trong tập tin Table 4.2
trên trang web của cuốn sách. Ông ấy muốn đánh giá tác động của một số biến
kinh tế - xã hội lên số giờ làm việc của phụ nữ có gia đình trong thị trường lao
động. Đây là dữ liệu chéo với 753 phụ nữ đã có gia đình thu thập vào năm 1975.
4 Xem T. A. Mroz, The sensitivity of an empirical model of married women’s hours of work to economic and statistical assumptions, Econometrica, 1987, vol. 55, pp. 765-99.
7
Nên lưu ý rằng có 325 phụ nữ có gia đình không đi làm và vì thế có số giờ làm
việc bằng 0.
Một số biến ông ta sử dụng trong nghiên cứu của mình:
Hours: Số giờ làm việc trong năm 1975 (biến phụ thuộc)
Kidslt6: Số con dưới 6 tuổi
Kidsge6: Số con giữa 6 đến 18 tuổi
Age: Tuổi của phụ nữ, tính bằng năm
Educ: Số năm đi học
Wage: Tiền lương ước tính từ thu nhập
Hushrs: Số giờ làm việc của chồng
Husage: Tuổi của chồng
Huseduc: Số năm đi học của chồng
Huswage: Tiền lương theo giờ của chồng, năm 1975
Faminc: Thu nhập của gia đình, năm 1975
Mtr: Tỷ lệ thuế biên của liên bang đánh lên thu nhập của phụ nữ
Motheduc: Số năm đi học của mẹ
Fatheduc: Số năm đi học của cha
Unem: Tỷ lệ thất nghiệp trong địa phương người phụ nữ sinh sống
Exper: Kinh nghiệm thực sự trên thị trường lao động.
Như một điểm khởi đầu, chúng ta thu được kết quả hồi quy trong Bảng 4.3.
Chúng ta kỳ vọng một mối quan hệ dương giữa số giờ làm việc và giáo dục,
kinh nghiệm, trình độ giáo dục của cha và mẹ, và một mối quan hệ âm giữa số
giờ làm việc và tuổi, tuổi của chồng, số giờ làm việc của chồng, tiền lương của
chồng, thuế suất biên, tỷ lệ thất nghiệp, và số con dưới 6 tuổi. Hầu hết các kỳ
vọng này đều được xác minh bằng các kết quả thống kê. Tuy nhiên, nhiều hệ
8
số không có ý nghĩa thống kê, có lẽ cho chúng ta thấy rằng các biến này có
cộng tuyến, vì thế làm cho các sai số chuẩn cao hơn và làm giảm các tỷ số t.
Bảng 4.3: Hồi quy số giờ làm việc của phụ nữ.
4.3 Phát hiện đa cộng tuyến
Như chúng ta sẽ thấy trong các chương về tự tương quan và phương sai thay
đổi, không có một kiểm định duy nhất để phát hiện đa cộng tuyến. Một số chẩn
đoán được thảo luận trong lý thuyết có thể được tóm tắt như sau:
9
1. R2 cao nhưng một số tỷ số t thấp. Trong ví dụ của chúng ta, giá trị R2 =
0.34 không đặc biệt cao. Nhưng điều này không nên ngạc nhiên vì trong
dữ liệu chéo với nhiều quan sát đa dạng. Tuy nhiên, khá nhiều tỷ số t
không có ý nghĩa thống kê có lẽ do cộng tuyến giữa vài biến giải thích.
2. Các hệ số tương quan cặp (pairwise correlation) cao giữa các biến giải
thích. Nhớ lại rằng hệ số tương quan mẫu giữa Y và X được xác định như
sau:
Trong đó, các biến được xác định bằng độ lệch so với giá trị trung bình
của chúng (ví dụ: yi = Yi - Y̅). Vì chúng ta có 15 biến giải thích, nên chúng
ta sẽ có 105 hệ số tương quan cặp5. Chúng ta sẽ không trình bày kết quả
ma trận hệ số tương quan ở đây. Hầu hết các hệ số tương quan không
đặc biệt quá cao, nhưng một số cao hơn 0.5. Ví dụ, hệ số tương quan
giữa tuổi của chồng và thu nhập gia đình là 0.67, giữa giáo dục của mẹ
và giáo dục của cha là 0.55, và giữa thuế suất biên và thu nhập gia đình
là -0.88.
Chúng ta tin rằng các hệ số tương quan cặp giữa các biến giải thích là
dấu hiệu của cộng tuyến. Vì thế, bạn nên loại bỏ những biến giải thích
tương quan cao. Nhưng đó không phải là cách tốt khi chỉ dựa vào các hệ
số tương quan cặp giản đơn, bởi vì chúng không giữ cố định các biến
khác trong mô hình trong khi tính các hệ số tương quan cặp.
5 Dĩ nhiên, không phải tất cả các hệ số tương quan này sẽ khác nhau bởi vì hệ số tương quan giữa Y và X cũng giống như giữa X và Y.
10
3. Các hệ số tương phân riêng (partial correlation coefficients): Để giữ
nguyên các biến khác không đổi, chúng ta phải tính các hệ số tương quan
riêng. Giả sử chúng ta có 3 biến X1, X2, và X3. Thì chúng ta sẽ có 3 hệ số
tương quan cặp, r12, r13, và r23; và 3 hệ số tương quan riêng, r12.3, r13.2, và
r23.1; ví dụ r23.1 có nghĩa là hệ số tương quan giữa X2 và X3, khi giữ nguyên
giá trị của biến X1 không đổi (xem Bài tập 4.4 về cách tính các hệ số
tương quan riêng). Hệ số tương quan riêng được tính theo công thức sau
đây:
Rất có thể rằng hệ số tương quan giữa X2 và X3 (= r23) cao, ví dụ 0.85.
Nhưng hệ số này không tính đến sự hiện diện của biến thứ 3, tức X1. Nếu
biến X1 có ảnh hưởng đến cả X2 và X3, thì tương quan cao giữa X2 và X3
thực sự do ảnh hưởng chung của X1 lên cả hai biến này. Hệ số tương
quan riêng r23.1 tính tương quan ròng (net correlation) giữa X2 và X3 sau
khi đã loại trừ ảnh hưởng của X1. Trong trường hợp đó, thì có thể rằng
tương quan cao (0.85) giữa X2 và X3 có thể giảm xuống còn, ví dụ, 0.35.
Tuy nhiên, không có gì đảm bảo rằng các hệ số tương quan cặp sẽ cung
cấp hướng dẫn đúng đắn về đa cộng tuyến. Để tiết kiệm không gian,
chúng ta sẽ không trình bày các giá trị thực của các hệ số tương quan
riêng cho ví dụ của chúng ta. Stata có thể tính các hệ số tương quan riêng
cho một nhóm các biến với các hướng dẫn đơn giản.
11
4. Các hồi quy phụ: Để biết các biến giải thích có cộng tuyến cao với các
biến giải thích khác trong mô hình, chúng ta có thể chạy hồi quy mỗi biến
giải thích theo các biến giải thích còn lại và thu được các hồi quy phụ như
đã được đề cập trước đây.
Vì chúng ta có 15 biến giải thích, nên chúng ta có 15 hồi quy phụ. Chúng
ta có thể kiểm định mức ý nghĩa chung (overall significance) của mỗi hồi
quy bằng kiểm định F được thảo luận ở chương 2. Giả thuyết không (H0)
ở đây là tất cả các hệ số của các biến giải thích trong hồi quy phụ đồng
thời bằng 0. Nếu chúng ta bác bỏ giả thuyết này đối với một hoặc nhiều
hồi quy phụ, chúng ta có thể kết luận rằng các hồi quy phụ với các giá trị
F có ý nghĩa thống kê có cộng tuyến với các biến giải thích khác trong mô
hình. Dĩ nhiên, nếu chúng ta có nhiều biến giải thích, như ví dụ hiện tại,
thì việc tính toán nhiều hồi quy phụ trong thực tế sẽ rất mệt mỏi, nếu
không nói là không thể về việc tính toán.
5. Hệ số phóng đại phương sai (VIF) và hệ số chấp nhận (TOL): Các hệ số
VIF và TOL cho ví dụ của chúng ta, thu từ phần mềm Stata, được trình
bày trong Bảng 4.4.
12
Bảng 4.4: Hệ số VIF và TOL.
Bảng này (khác trong sách chút) rõ ràng cho thấy có độ cộng tuyến cao giữa
nhiều biến; thậm chí VIF trung bình lớn hơn 2.
4.4 Các biện pháp khắc phục
Có nhiều cách khắc phục (chữa trị) đa cộng tuyến được đề xuất trong lý thuyết6.
Cách nào sẽ hợp trong một trường hợp cụ thể vẫn còn tranh cải. Vì các ước
lượng OLS vẫn BLUE miễn là cộng tuyến không hoàn hảo, thì cách khắc phục
được đề xuất phổ biến nhất là không làm gì cả nhưng đơn giản là chỉ trình bày
kết quả của mô hình phù hợp. Điều này là bởi vì thường thì cộng tuyến về cơ
bản là vấn đề thiếu dữ liệu (data deficiency), và trong nhiều trường hợp chúng
ta có thể không có lựa chọn dữ liệu mà chúng ta có sẵn cho nghiên cứu7.
6 Thảo luận chi tiết, xem Gujarati/Porter, pp. 342-6. 7 Nhà kinh tế lượng Arthur Goldberger gọi đây là vấn đề “cỡ mẫu nhỏ” (micronumerosity), nghĩa là mẫu nhỏ và không đủ biến thiên trong giá trị của các biến giải thích. Xem A course in econometrics, Harvard University Press, Cambridge, MA. 1991, p.249.
13
Nhưng thỉnh thoảng cũng hữu ích để ngẫm lại mô hình mà chúng ta đã chọn
cho việc phân tích để đảm bảo rằng tất cả các biến được đưa vào mô hình có
thể không cần thiết. Trở lại với ví dụ của chúng ta trong Bảng 3.4, các biến giáo
dục của cha và giáo dục của mẹ có thể tương quan với nhau, điều này có nghĩa
rằng giáo dục của con gái có thể tương quan với hai biến này. Bạn cũng có thể
nghi vấn rằng đưa biến số con trên 6 tuổi như một biến giải thích vào mô hình
thì có nghĩa gì hay không? Cũng như thế, tuổi của chồng và tuổi của vợ cũng
có thể tương quan. Vì thế, nếu chúng ta loại bỏ những biến này ra khỏi mô hình,
thì có thể vấn đề cộng tuyến có thể bớt nghiêm trọng hơn8.
Kết quả mô hình được ước lượng lại được trình bày ở Bảng 4.5.
Như bạn có thể thấy, hầu hết các biến bây giờ có ý nghĩa thống kê ở 10% hoặc
thấp hơn và có ý nghĩa kinh tế, ngoại trừ tỷ lệ thất nghiệp, biến này có ý nghĩa
thống kê ở mức ý nghĩa 11%. Các hệ số VIF và TOL tương ứng được trình bày
trong Bảng 4.6.
Mặc dù VIF trung bình giảm, nhưng vẫn còn cộng tuyến đáng kể giữa các biến
giải thích trong mô hình được ước lượng lại này. Chúng ta có thể ước lượng
nhiều mô hình như thế sử dụng nhiều cách kết hợp khác nhau của các biến giải
thích được cho trong Bảng 4.3 để xem mô hình nào ít bị cộng tuyến nhất. Nhưng
chiến lược này, được gọi là ‘khám phá dữ liệu’ (data mining) hoặc ‘câu dữ liệu’
(data fishing), không được đề nghị. Nếu chúng ta có một mô hình có nhiều biến
hợp lý để đưa vào mô hình, thì tốt hơn là nên giữ chúng lại mô hình. Nếu một
vài hệ số trong mô hình không có ý nghĩa thống kê, thì đúng là nó không có ý
nghĩa thống kê. Thỉnh thoảng vì có ít dữ liệu mà chúng ta thu thập thêm dữ liệu
mới hoặc thu thập một bộ dữ liệu khác, nếu điều đó khả thi.
8 Nhưng lưu ý vấn đề lỗi do lựa chọn sai mô hình (specification bias). Bạn không nên loại bỏ những biến chỉ vì chúng gây ra cộng tuyến. Nếu một biến thuộc mô hình, thì nó nên được giữ lại thậm chí nó không có ý nghĩa thống kê.
14
Bảng 4.5: Hồi quy lại số giờ làm việc của phụ nữ.
Bảng 4.6: VIF và TOL của các hệ số trong Bảng 4.5.
15
4.5 Phương pháp thành phần chính (PC)
Một phương pháp thống kê, được biết với tên gọi là phân tích thành phần chính
(PCA, principle component analysis), có thể chuyển đổi các biến tương quan
thành các biến trực giao (orthogonal) hoặc các biến không tương quan9. Vì thế
các biến trực giao thu được gọi là các thành phần chính. Quay lại với hồi quy
số giờ làm việc của chúng ta trong Bảng 4.3, chúng ta có 15 biến giải thích.
Phương pháp thành phần chính về nguyên tắc sẽ tính 15 thành phần chính,
PCs, được ký hiệu là PC1, PC2, …, PC15, theo cách sao cho chúng không có
tương quan với nhau. Các PCs này là các kết hợp tuyến tính của các biến giải
thích gốc. Trong thực tế, chúng ta không cần sử dụng tất cả 15 PCs, bởi vì một
số nhỏ hơn thường sẽ đủ để giải thích hiện tượng đang được nghiên cứu, như
chúng ta thấy dưới đây.
Ý tưởng cơ bản đằng sau PCA rất đơn giản. Nó nhóm các biến tương quan
thành một nhóm phụ sao cho các biến thuộc bất kỳ nhóm phụ nào có một nhân
tố chung (common factor). Nhân tố chung này có thể là kỹ năng, năng lực, sự
thông minh, dân tộc, hoặc bất kỳ nhân tố nào. Nhân tố chung đó, thường thì
không dễ nhận dạng, được gọi là một thành phần chính. Có một PC cho mỗi
nhân tố chung. Hy vọng, các nhân tố chung này hoặc các PCs ít hơn số biến
giải thích gốc ban đầu.
Điểm khởi đầu của phân tích PC là ma trận hệ số tương quan (correlation matrix)
của các biến gốc ban đầu. Ma trận 15 x 15 thì quá lớn để chúng ta trình bày ở
đây, nhưng bất kỳ phần mềm thống kê nào cũng sẽ tạo ra được [Diễn giải: Stata
thì dùng lệch corr và liệt kê ra cả 15 biết]. Từ ma trân hệ số tương quan, sử
dụng phần mềm Minitab 15, chúng ta thu được các PCs như trong Bảng 4.7.
9 Thuật ngữ trực giao có nghĩa là cắt hoặc nằm trên các góc phải. Các biến không tương quan được cho là trực giao bởi vì khi vẽ trên đồ thị, chúng hình thành các góc bên phải của các trục.
16
Chúng ta sẽ không thảo luận về mặt toán học làm sao để rút ra được các PCs,
vì nó vốn khá phức tạp.
Bảng 4.7: Các thành phần chính của ví dụ về số giờ làm việc.
[Diễn giải: Trong Stata, chúng ta thực hiện như sau:
pca age educ exper faminc fathereduc hage heduc hhours hwage kidsl6
kids618 wage mothereduc mtr unemployment
screeplot
predict PC1 PC2 PC3 PC4 PC5].
17
Hình 4.1: Đồ thị eigenvalues (phương sai) theo các PCs.
Giải thích các PCs
Phần thứ nhất của bảng ở trên trình bày 15 PCs. PC1, thành phần chính thứ
nhất, có phương sai (=eigenvalue) là 3.5448 và giải thích khoảng 24% tổng biến
thiên trong tất cả các biến giải thích. PC2, thành phần chính thứ hai, có phương
sai là 2.8814, giải thích 19% tổng biến thiên của tất cả 15 biến giải thích. Cả hai
PCs này chiếm khoảng 42% trong tổng biến thiên. Theo cách này, chúng ta
thấy sáu PCs đầu tiên cùng giải thích 74% trong tổng biến thiên của tất cả các
biến giải thích. Nên, mặc dù có 15 biến giải thích, nhưng chỉ 6 thành phần chính
là quan trọng về mặt định định lượng. Điều này có thể thấy rõ hơn trên Hình 4.1,
hình này được vẽ bằng Minitab 15.
Bây giờ hãy nhìn vào phần thứ hai của Bảng 4.7. Đối với mỗi PC, nó cho biết
độ tải (loadings) hoặc điểm số (scores) hoặc trọng số (weights) – nghĩa là, mỗi
biến giải thích gốc ban đầu đóng góp bao nhiêu vào PC đó. Ví dụ, trong PC1:
giáo dục, thu nhập gia đình, giáo dục của cha, giáo dục của mẹ, giáo dục của
18
chồng, tiền lương của chồng, và MTR chiếm nhiều trong PC này. Nhưng nếu
bạn lấy PC4, thì bạn sẽ thấy số giờ làm việc của chồng đóng góp chính vào PC
này.
Mặc dù rất tao nhã về mặt toán học, nhưng giải thích các PCs thì mang tính
chủ quan. Ví dụ, chúng ta có thể nghĩ PC1 đại diện cho mức giáo dục chung
của gia đình, vì các biến về giáo dục chiếm phần lớn trong PC này.
Một khi các thành tố chính được trích ra, chúng ta sẽ hồi quy biến phụ thuộc
gốc ban đầu (tức số giờ làm việc) theo các thành phần chính, đại diện cho các
biến giải thích gốc ban đầu. Để minh họa, chúng ta chỉ sử dụng 6 PCs đầu tiên,
vì chúng dường như là các thành phần quan trọng nhất. Hồi quy số giờ làm việc
theo 6 thành phần này, chúng ta thu được kết quả như được trình bày trong
Bảng 4.8 (sử dụng phần mềm Minitab 15).
Bảng 4.8: Hồi quy các thành phần chính.
19
Từ kết quả này, dường như PC2 và PC4 giải thích tốt nhất cho hành vi của số
giờ làm việc của phụ nữ. Dĩ nhiên, cái khó ở đây là chúng ta không biết giải
thích các thành phần chính này như thế nào. Tuy nhiên, phương pháp thành
phần chính là một cách hữu ích để giảm bớt số các biến giải thích tương quan
với nhau để gom lại thành một số ít thành phần không còn tương quan. Vì thế,
chúng ta không còn gặp phải vấn đề cộng tuyến. Vì không có bữa ăn nào miễn
phí, sự đơn giản hóa có thể là một chi phí bởi vì chúng ta không biết nên giải
thích các PCs như thế nào theo một cách có ý nghĩa trên thực tế. Nếu chúng ta
có thể nhận dạng được các PCs với vài biến kinh tế, thì phương pháp thành
phần chính có thể là một cách hữu ích giúp nhận dạng và giải quyết hiện tượng
đa cộng tuyến.
Tóm lại, có thể đề cập thêm rằng hồi quy dạng sóng (ridge regression) là một
phương pháp khác để xử lý các biến tương quan. Các ước lượng tạo ra từ
phương pháp này bị chệch, nhưng chúng có sai số bình phương trung bình
(MSE) nhỏ hơn các ước lượng OLS10. Một thảo luận chi tiết hơn về hồi quy dạng
sống ngoài phạm vi của cuốn sách này11.
4.6 Tóm tắt và kết luận
Trong chương này chúng ta đã xem xét vấn đề đa cộng tuyến, một vấn đề hay
gặp trong nghiên cứu thực nghiệm, đặc biệt nếu có nhiều biến giải thích tương
quan với nhau trong một mô hình. Miễn là cộng tuyến không hoàn hảo, chúng
ta có thể sử dụng được khung phân tích của mô hình hồi quy tuyến tính cổ điển,
nếu các giả định khác của mô hình CLRM vẫn thoản mãn.
Nếu cộng tuyến không hoàn hảo, nhưng cao, nhiều hậu quả có thể gặp. Các
ước lượng OLS vẫn BLUE, nhưng một hoặc nhiều hệ số hồi quy có sai số chuẩn
lớn so với giá trị của các hệ số, vì thế làm cho các tỷ số t nhỏ lại. Vì thế bạn có
10 MSE của một ước lượng bằng phương sai cộng với bình phương của khoảng chệch trong việc ước lượng nó. 11 Một thảo luận tương đối dễ hiểu, xem Samprit Chatterjee and Ali S. Hadi, Regression Analysis by Example, 4th edn, John Wiley & Sons, New York, 2006, pp. 266-75.
20
thể kết luận (một cách sai lầm) rằng các giá trị thực của các hệ số này không
khác không. Các hệ số hồi quy có thể rất nhạy cảm với những thay đổi nhỏ
trong dữ liệu, đặc biệt nếu cỡ mẫu tương đối nhỏ (xem Bài tập 4.6).
Có nhiều cách kiểm định chẩn đoán để phát hiện cộng tuyến, nhưng không có
gì đảm bảo rằng chúng đưa ra các kết quả thỏa đáng. Về cơ bản đó là một quy
trình thử - sai.
Lời khuyên thực tế tốt nhất là không làm gì cả nếu chúng ta gặp phải cộng
tuyến, vì thường thì chúng ta phải kiểm soát được dữ liệu. Tuy nhiên, điều rất
quan trọng là các biến được đưa vào mô hình phải được lựa chọn cẩn thận.
Như ví dụ của chúng ta cho thấy, việc xem xét lại mô hình bằng cách loại trừ
các biến có thể không thuộc mô hình có thể giúp làm giảm vấn đề cộng tuyến,
với điều kiện là chúng ta không bỏ sót những biến phù hợp trong một trường
hợp đã được xác định. Nói cách khác, khi làm giảm cộng tuyến chúng ta sẽ đảm
bảo không mắc các lỗi sai dạng mô hình, vấn đề này sẽ được thảo luận ở
chương 7. Vì thế, hãy suy nghĩ một cách cẩn thận về mô hình trước khi ước
lượng một mô hình hồi quy.
Có một cảnh báo. Nếu nếu có đa cộng tuyến trong mô hình và nếu mục tiêu
của bạn là dự báo, đa cộng tuyến không hẵn là xấu, nếu như mối quan hệ cộng
tuyến được quan sát trong mẫu vẫn được giữ nguyên trong giai đoạn dự báo.
Cuối cùng, có một kỹ thuật thống kê, gọi là phân tích thành phần chính, kỹ thuật
này giúp giải quyến vấn đề cộng tuyến gần hoàn hảo. Trong PCA, chúng ta xây
dựng các biến ‘’nhân tạo’’ theo một cách sao cho chúng trực giao với nhau. Các
biến này, gọi là các thành phần chính, được rút trích từ các biến gốc ban đầu.
Sau đó chúng ta hồi quy biến phụ thuộc gốc ban đầu theo các thành phần chính.
Chúng ta đã chỉ ra các PCs được tính toán và được giải thích như thế nào thông
qua ví dụ minh họa của chúng ta về các nhân tố quyết định số giờ làm việc của
phụ nữ đã có gia đình.
21
Một ưu điểm của phương pháp này là các PCs thường nhỏ hơn về mặt số lượng
các biến so với số biến giải thích ban đầu. Nhưng một nhược điểm thực tiễn về
các PCs là các PCs thường không có các ý nghĩa kinh tế rõ ràng, vì chúng là
các kết hợp (có trọng số) của các biến gốc ban đầu, mà các biến này được đo
lường bằng các đơn vị rất khác nhau. Vì thế, rất khó để chúng ta giải thích xác
đáng ý nghĩa của các PCs. Đó là lý do tại sao chúng không được sử dụng phổ
biến trong các nghiên cứu kinh tế, mặc dù chúng được sử dụng rất phổ biến
trong các nghiên cứu trong lĩnh vực giáo dục và tâm lý./.