24
Bài 3: Mô hình hi quy tuyến tính đơn STA301_Bài 3_v1.0013101214 23 BÀI 3. MÔ HÌNH HI QUY TUYN TÍNH ĐƠN Mc tiêu Sau khi kết thúc bài, hc viên shiu được nhng vn đề sau đây: Ý tưởng ca phương pháp bình phương ti thiu (OLS) và cách sdng OLS để ước lượng các hshi quy. Ý nghĩa ca các hshi quy ước l ượng. Các gi thi ế t c ơ b n c a ph ươ ng pháp OLS. Hsxác định r 2 đo độ phù hp ca hàm hi quy. Khong tin cy và kim định githuyết cho các hshi quy. Phân tích phương sai – kim định vsphù hp ca mô hình. Dbáo. Ni dung Hướng dn hc Phương pháp OLS. Các githiết cơ bn ca phương pháp bình phương ti thiu. Hsxác định r 2 đo độ phù hp ca hàm hi quy mu. Ước lượng khong cho hshi quy. Kim định githuyết vcác hshi quy. Phân tích phương sai trong mô hình hi quy. Dbáo. Đề nghhc viên ôn li phn ước lượng và kim định githiết trong môn lý thiết xác sut và thng kê toán. Theo dõi kbài ging. Xem các ví dcho mi phn bài ging. Làm các ví d và tr l i câu h i tr c nghi m.

BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

STA301_Bài 3_v1.0013101214 23

BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây:

Ý tưởng của phương pháp bình phương tối thiểu (OLS) và cách sử dụng OLS để ước lượng các hệ số hồi quy.

Ý nghĩa của các hệ số hồi quy ước lượng.

Các giả thiết cơ bản của phương pháp OLS.

Hệ số xác định r2 đo độ phù hợp của hàm hồi quy.

Khoảng tin cậy và kiểm định giả thuyết cho các hệ số hồi quy.

Phân tích phương sai – kiểm định về sự phù hợp của mô hình.

Dự báo.

Nội dung Hướng dẫn học

• Phương pháp OLS.

• Các giả thiết cơ bản của phương pháp bình phương tối thiểu.

• Hệ số xác định r2 đo độ phù hợp của hàm hồi quy mẫu.

• Ước lượng khoảng cho hệ số hồi quy.

• Kiểm định giả thuyết về các hệ số hồi quy.

• Phân tích phương sai trong mô hình hồi quy.

• Dự báo.

Đề nghị học viên ôn lại phần ước lượng và kiểm định giả thiết trong môn lý thiết xác suất và thống kê toán.

Theo dõi kỹ bài giảng.

Xem các ví dụ cho mỗi phần bài giảng.

Làm các ví dụ và trả lời câu hỏi trắc nghiệm.

Page 2: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

24 STA301_Bài 3_v1.0013101214

TÌNH HUỐNG DẪN NHẬP

Tình huống

Công ty dầu ăn Tường An đang xem xét việc giảm giá bán sản phẩm (loại bình 5 lít) để tăng lượng hàng bán ra, đồng thời quảng bá sản phẩm của mình đến khách hàng. Người quản lí của công ty muốn tính toán xem nếu sản phẩm này được giảm giá đi 1000 đồng/lít thì lượng hàng trung bình bán ra sẽ thay đổi thế nào. Đồng thời, nếu như giảm giá 1000 đồng cho 1 lít mà lượng hàng bán thêm được là nhiều hơn 50000 sản phẩm thì công ty sẽ tiến hành 1 chiến dịch khuyến mại trong 1 tháng với giá giảm đi là 10000/lít.

Để tiến hành nghiên cứu này, phòng marketing của công ty đã dựa vào các số liệu bán hàng của công ty trong vòng 15 tháng qua (n =15 quan sát) để thu thập số liệu về giá bán (P) và lượng bán (Q) cho loại dầu ăn này. Nghiên cứu viên sau khi tiến hành các thống kê mô tả đã quyết định dùng hàm cầu dạng tuyến tính để xem xét ảnh hưởng của giá đến

lượng bán: i 1 2 i iQ P u .

Dùng số liệu của mẫu, ước lượng được hàm hồi quy mẫu có dạng

i iQ 6227 30.43P .

Câu hỏi

Theo kết quả của mô hình, khi giá giảm 1 đơn vị, lượng hàng bán ra thay đổi thế nào?

Liệu khi giá giảm đi 1000 đồng 1 lít thì lượng hàng bán thêm lớn hơn được 50000 sản phẩm như các nhà nghiên cứu muốn kiểm tra không?

Giá bán quyết định bao nhiêu % trong sự thay đổi của lượng bán?

Nếu giá bán là 150000 đồng 1 bình thì lượng bán dự báo là bao nhiêu?

Page 3: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

25

Nội dung bài này giới thiệu một mô hình hồi quy đơn giản nhất và đưa ra các phương pháp ước lượng, kiểm định giả thiết và dự báo. Đó là mô hình hồi quy tuyến tính đơn hay còn được gọi là mô hình hồi quy 2 biến, mô hình đề cập đến một biến độc lập X và một biến phụ thuộc Y.

Trong bài này chúng ta sẽ ước lượng hàm hồi quy tổng thể PRF dựa trên thông tin mẫu. Mặc dù có rất nhiều phương pháp ước lượng hàm hồi quy tổng thể nhưng chúng ta sẽ sử dụng phương pháp thường dùng là phương pháp bình phương tối thiểu (OLS) (Ordinary Least Square).

3.1. Ước lượng tham số hồi quy bằng phương pháp bình phương tối thiểu

BÀI TOÁN

Cho biến độc lập X và biến phụ thuộc Y, giả sử ta có hàm hồi quy tổng thể (PRF) có dạng tuyến tính:

i i i 1 2 i iY E(Y | X ) u X u (3.1)

Với một mẫu quan sát 1 1 2 2 n n(X ,Y ),(X ,Y ),..., (X ,Y )

Ta có: hàm hồi quy mẫu (SRF)

i 1 2 iˆ ˆY X (3.2)

và: i 1 2 i i i iˆ ˆ ˆˆ ˆY X u Y u (3.3)

1 2ˆ ˆ, là các ước lượng của i i

i i

x X x

y Y y

, iu là ước lượng

của iu , iu được coi là phần dư.

Từ (3.3) ta có: i i iˆu Y Y .

Vấn đề đặt ra là sử dụng các dữ liệu của X và Y để tìm ước lượng tốt nhất cho 1 2,

thỏa mãn tổng bình phương các phần dư đạt giá trị nhỏ nhất.

Tức là ta cần phải xác định 1 2ˆ ˆ, sao cho:

n n2 2

1 2 i i 1 2 ii 1 i 1

ˆ ˆ ˆ ˆˆf ( , ) u (Y X )

đạt min.

Trong các bài giảng về giải tích nhiều biến ta đã được trang bị phương pháp tìm giá trị cực tiểu, cực đại của

hàm f (X,Y) . Vậy để hàm 1 2ˆ ˆf ( , ) đạt giá trị nhỏ nhất

thì 1 2ˆ ˆ, phải là nghiệm của hệ phương trình

n1 2

i 1 2 ii 11

n1 2

i i 1 2 ii 12

ˆ ˆf ( , ) ˆ ˆ2(Y X ) 0ˆ

ˆ ˆf ( , ) ˆ ˆ2X (Y X ) 0ˆ

(3.4)

Suy ra:

n n

1 2 i ii 1 i 1

n n n2

1 i 2 i i ii 1 i 1 i 1

ˆ ˆn X Y

ˆ ˆX X X Y

(3.5)

Page 4: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

26 STA301_Bài 3_v1.0013101214

Ta có:

n n n

i i i ii 1 i 1 i 1

1 1 1X X ; Y Y ; XY X Y

n n n

n n

2 2 2 2i i

i 1 i 1

1 1X X ; Y Y .

n n

Phương trình (3.5) dẫn đến:

1 2

21 2

ˆ ˆ X Y

ˆ ˆX X XY

(3.6)

Giải hệ phương trình (3.6) ta thu được nghiệm

2 2 2

1 2

XY (X)(Y)ˆX (X)

ˆ ˆY X

(3.7)

Ta đặt n n

2 2 2 2 2YY i i

i 1 i 1

S (Y Y) Y n(Y) nY n(Y)

n n2 2 2 2 2

XX i ii 1 i 1

S (X X) X n(X) nX n(X)

n n

XY i i i ii 1 i 1

S (X X)(Y Y) X Y n(X)(Y) nXY n(X)(Y)

Khi đó (3.7) có thể viết lại là

XY2

XX

1 2

SˆS

ˆ ˆY X

Phương pháp tìm các ước lượng 1 2ˆ ˆ, như trên được gọi là phương pháp bình phương

tối thiểu.

3.1.1. Tính chất của tham số hồi quy mẫu ước lượng bằng phương pháp bình phương tối thiểu. Phương pháp bình phương tối thiểu đem lại các ước lượng với các tính chất như sau:

Ứng với một mẫu 1 1 2 2 n n((X ,Y ), (X ,Y ),...(X ,Y )) cho trước, hệ số 1 2ˆ ˆ, được xác

định duy nhất.

Đường thẳng của phương trình hồi quy mẫu (SRF) i 1 2 iˆ ˆY X đi qua điểm có

toạ độ giá trị trung bình (X,Y).

Giá trị trung bình của các ước lượng của iY bằng giá trị trung bình của các quan sát

iY tức là: iY Y hay

n n

i ii 1 i 1

1 1Y Y .

n n

Page 5: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

27

Giá trị trung bình các phần dư iu bằng 0

n

ii 1

u 0.

Các phần dư iu và iY không tương quan, tức là:

n

i ii 1

ˆu Y 0.

Các phần dư iu và iX không tương quan, tức là:

n

i ii 1

u X 0.

Bây giờ ta sẽ chứng minh một số tính chất trên:

o Hiển nhiên vì hệ phương trình (3.6) có nghiệm duy nhất.

o Hiển nhiên vì giá trị của 1 2ˆ ˆ, là một hàm của mẫu.

o Thay điểm (X,Y) vào phương trình hồi quy mẫu, ta có:

1 2ˆ ˆY X

1 2ˆ ˆY X .

o Ta có: n n

i 1 2 ii 1 i 1

1 1 ˆ ˆˆ ˆY Y Xn n

1 2ˆ ˆ X

Y.

o Ta có: i i iˆu Y Y . Suy ra ngay

n n n n

i i i i ii 1 i 1 i 1 i 1

ˆ ˆ ˆu (Y Y ) Y Y nY nY 0.

o Rõ ràng từ:

n n n n2

i i i i i i i ii 1 i 1 i 1 i 1

ˆ ˆ ˆ ˆ ˆu Y (Y Y )Y Y Y Y

n n2

i 1 2 i 1 2 ii 1 i 1

ˆ ˆ ˆ ˆY ( X ) ( X )

2 2 21 2 1 1 2 2

ˆ ˆ ˆ ˆ ˆ ˆn Y n XY n( 2 X X )

n2 2 2 2

i i 1 1 2 2 1 2 1 1 2 2i 1

1 ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆˆu Y ( X) ( X X ) ( 2 X X ) 0.n

Vậy n

i ii 1

ˆu Y 0.

(3.8)

Page 6: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

28 STA301_Bài 3_v1.0013101214

o Dễ dàng thấy n n

i i i 1 2 ii 1 i 1

ˆ ˆˆˆ ˆu Y u ( X )

n n

1 i 2 i ii 1 i 1

ˆ ˆˆ ˆu u X

.

Từ tính chất 4 và 5 ta có

n n

i i ii 1 i 1

ˆˆ ˆu u Y 0

.

Vậy ta có: n

i ii 1

u X 0.

VÍ DỤ 3.1

Thu thập số liệu về điểm học tập của học sinh và mức thu nhập hàng năm của bố mẹ ta có bảng số liệu sau:

Thu nhập (x) (triệu/năm) 45 60 30 90 75 45 105 60

Điểm trung bình (y) 8.75 7.5 6.25 8.75 7.5 5.0 9.5 6.5

Hãy tìm hàm hồi quy mẫu và tính các đặc trưng của nó

3.1.2. Các giả thiết cơ bản của phương pháp bình phương tối thiểu

Khi phân tích hồi quy, mục đích của chúng ta là tìm phương trình hồi quy mẫu thông

qua việc ước lượng các hệ số 1 2, . Dựa vào dữ liệu mẫu ta thu được các ước lượng

tương ứng là 1 2ˆ ˆ, . Nhưng 1 2

ˆ ˆ, là các ước lượng điểm của 1 2, . Vì thế ta chưa biết

được chất lượng của các ước lượng này thế nào. Ta cần đưa ra một số các giả thiết của phương trình bình phương tối thiểu để thu được các

ước lượng tốt nhất cho 1 2, . Từ đó ta cũng sẽ thu

được giá trị iY là ước lượng tốt nhất cho iE(Y | X ) .

Chất lượng của các ước lượng sẽ phụ thuộc vào các yếu tố sau:

Dạng hàm của mô hình được chọn.

Phụ thuộc vào các iX và iu .

Phụ thuộc vào cỡ của mẫu.

Vấn đề về dạng hàm của mô hình được lựa chọn chúng ta sẽ xem xét ở bài 7. Ta sẽ

đưa ra các giả thiết cho iX và iu để các ước lượng thu được không chệch và có

phương sai nhỏ nhất.

Giả thiết 1: Biến giải thích X có giá trị quan sát iX khác với ít nhất 1 giá trị còn

lại, tức là phương sai mẫu hiệu chỉnh không suy biến:

n'2 2X i

i 1

1S (X X) 0.

n 1

Page 7: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

29

Giả thiết 2: Giá trị trung bình của sai số có thể mang dấu âm hoặc dương đối với mỗi giá trị quan sát nhưng về mặt trung bình thì bằng 0.

Giả thiết 3: Các giá trị của X được cho trước và không ngẫu nhiên, tức là mỗi iX

được cho trước và không phải là biến ngẫu nhiên. Điều đó có nghĩa là iX và iu

là không tương quan với nhau.

i i i i i i

i i i i

CoV(X ,u ) E(X u ) E(X ) E(u )

X E(u ) X E(u ) 0.

Giả thiết này có một ý nghĩa rất quan trọng là nếu X và u có được tương quan thì

khi X thay đổi, u cũng sẽ thay đổi. Vì thế giá trị kỳ vọng của Y sẽ khác 1 2X.

Giả thiết 4: Phương sai sai số thuần nhất (không đổi)

2i jVar(u ) Var(u ) i j .

Giả thiết 5: Không có tương quan giữa các iu , tức là:

i jCoV(u ,u ) 0 i j .

Với các giả thiết đã nêu, khi đó ta có tính chất của các ước lượng theo phương pháp bình phương tối thiểu như sau:

Định lý Gauss-Markov

Giả sử ta có mô hình hồi quy tuyến tính, khi đó với các giả thiết 1-5 ta có ước lượng bình phương tối thiểu là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch.

Định lý Gauss-Markov cho một khẳng định là các

ước lượng 1 2ˆ ˆ, của 1 2, có được bằng phương pháp bình phương tối thiểu là các

ước lượng không chệch và có phương sai tối thiểu trong các ước lượng không chệch

của 1 2, .

3.1.3. Sai số của phương pháp bình phương tối thiểu

Trong phần 3.1 ta có các ước lượng 1 2ˆ ˆ, của 1 2, theo phương pháp bình phương tối

thiểu là

2 2 2

1 2

XY (X)(Y)ˆX (X)

ˆ ˆY X .

Đặt: i i

i i

x X X

y Y Y

Page 8: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

30 STA301_Bài 3_v1.0013101214

Khi đó ta có:

1 2ˆ ˆY X

n n2

2 i i ii 1 i 1

ˆ x y x .

Với các giả thiết 1-5 của phương pháp bình phương nhỏ nhất, ta có phương sai và độ lệch chuẩn của các ước lượng là

2

2 n2i

i 1

ˆVar( )x

; 2 n

2i

i 1

ˆse( ) ;

x

n2i

2i 11 n

2i

i 1

XˆVar( )

n x

;

n2i

i 11 n

2i

i 1

Xˆse( ) ,

n x

với iVar(u ) , se: sai số tiêu chuẩn (standard error).

Do 2 chưa biết nên dựa vào dữ liệu mẫu đã cho ta

thu được ước lượng của 2 là 2 được xác định bằng công thức sau:

n n2 2i i

2 i 1 i 1

ˆ ˆu uˆ ˆ

n 2 n 2

là sai số tiêu chuẩn của ước lượng (standard error of the estimate).

3.2. Hệ số xác định 2r đo độ phù hợp của hàm hồi quy mẫu:

Cho hai biến X và Y, để xác định mối quan hệ của X và Y có dạng tuyến tính hay không ta đưa ra một đại lượng để đo mức độ phụ thuộc tuyến tính giữa X và Y.

Ta có: i i iˆ ˆY Y u

i i i i iˆ ˆ ˆˆ ˆY Y Y Y u Y Y u

i i iˆ ˆy y u (3.9)

Bình phương hai vế của (3.9) ta có:

n n n n2 2 2i i i i i

i 1 i 1 i 1 i 1

ˆ ˆ ˆ ˆy y u 2 y u

n n2 2i i

i 1 i 1

ˆ ˆy u

n n2 2 22 i i

i 1 i 1

ˆ ˆx u

(3.10)

Page 9: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

31

Đặt: n n

2 2i i

i 1 i 1

TSS y (Y Y)

(3.11)

TSS (Total sum of squares) gọi là tổng bình phương các sai lệch giữa iY với giá trị

trung bình Y .

n n n2 2 2 2

i i i 2 ii 1 i 1 i 1

ˆˆ ˆ ˆESS (Y Y ) y x

(3.12)

ESS (Explained sum of squares) là tổng bình phương các

sai lệch giữa giá trị iY và trung bình của nó.

n2i

i 1

ˆRSS u .

(3.13) (3.12)

RSS (Residual sum of squares) là tổng tất cả các bình

phương sai lệch giữa giá trị quan sát iY và giá trị iY nhận

được từ hàm hồi quy hay gọi là tổng các phần dư.

Từ (3.10), (3.11), ( 3.12), (3.13) ta có:

TSS ESS RSS (3.14)

Chia hai vế cho TSS ta có:

ESS RSS1

TSS TSS

n n2 2

i ii 1 i 1n n

2 2i i

i 1 i 1

ˆ ˆ(Y Y) u

(Y Y) (Y Y)

(3.15)

Đặt:

n2

i2 i 1

n2

ii 1

ˆ(Y Y)ESS

r .TSS (Y Y)

Từ (3.14) và (3.15) ta có: 2 RSSr 1

TSS (3.16)

Ta có:

n n n2 2 2 2 2

2i 2 i 2 i2 i 1 i 1 i 1 X

2n n n 22 2 2 Yi i i

i 1 i 1 i 1

ˆ ˆy x (X X)SˆrSy y (Y Y)

(3.17)

trong đó: n

2 2X i

i 1

1S (X X)

n 1

;

n2 2Y i

i 1

1S (Y Y)

n 1

Page 10: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

32 STA301_Bài 3_v1.0013101214

là phương sai mẫu của X và Y. Ngoài ra vì

n

i ii 1

2 n2i

i 1

x yˆ

x

nên (3.17) có thể được viết

lại như sau:

2n

i ii 12

n n2 2i i

i 1 i 1

x y

rx y

(3.18)

Từ (3.18) ta có:

n n n n

i i i i i ii 1 i 1 i 1 i 1

n n n n2 2 2 2i i i i

i 1 i 1 i 1 i 1

1x y X Y ( X )( Y )

nr

x y (X X) (Y Y)

n n n

i i i ii 1 i 1 i 1

n n n n2 2 2 2i i i i

i 1 i 1 i 1 i 1

n X Y ( X )( Y )

n X ( X ) n Y ( Y )

Ta thấy rằng r chính là hệ số tương quan mẫu của X và Y.

Các tính chất của hệ số tương quan:

r có thể âm hoặc dương.

1 r 1.

r có tính chất đối xứng r(X,Y) r(Y,X).

Nếu X aX c và Y bY d, a, b > 0, c, d là

hằng số ta có r(X ,Y ) r(Y,X) .

Nếu X,Y độc lập thì r = 0.

r đo độ phụ thuộc tuyến tính giữa X và Y.

3.3. Phân bố xác suất của các tham số hồi quy mẫu

Trong phần trước ta đã thu được các ước lượng

điểm của 1 và 2 theo phương pháp bình phương

nhỏ nhất (OLS) dựa trên các giả thiết cơ bản về sai

số ngẫu nhiên iu là:

iE(u ) 0.

2iVar(u ) .

i jCov(u ,u ) 0 , i j .

Page 11: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

33

Khi đó các ước lượng điểm thu được tương ứng là 1 2ˆ ˆ, có tính chất không chệch và

có phương sai nhỏ nhất. Tuy nhiên, các ước lượng điểm không cho ta biết được độ sai lệch của chúng so với giá trị thực, vì vậy ước lượng khoảng cho ta nhiều thông tin hơn

so với ước lượng điểm. Để có thể tìm được ước lượng khoảng cho các tham số 1 2,

chúng ta cần xác định được phân phối xác suất của 1 và 2 . Các phân phối xác suất

này phụ thuộc vào phân phối xác suất của iu . Vậy ta đưa thêm giả thiết về phân phối

xác suất của iu như sau:

Giả thiết: iu có phân phối chuẩn 2N(0; ) ,

Với giả thiết thêm vào đó, 1 2ˆ ˆ, còn có các tính chất sau:

1 2ˆ ˆ, là các ước lượng vững, tức là khi cỡ mẫu đủ lớn thì chúng hội tụ đến giá trị

1 2, .

1 có phân phối chuẩn với

1 1ˆE( ) ,

n2i

2 2i 11 1 n

2i

i 1

XˆVar( )

n x

(3.19)

tức là 21 1 1

ˆ N( ; ) . Từ đó biến ngẫu nhiên

1 1

1

ˆZ

có phân phối chuẩn tắc N(0;1).

2 có phân phối chuẩn với:

2 2ˆE( ) ,

22

2 2 n2i

i 1

ˆVar( )x

(3.20)

tức là 22 2 2

ˆ N( ; ) . Do đó biến ngẫu nhiên 2 2

2

ˆZ

có phân phối chuẩn tắc

N(0;1).

Thống kê 2

22

ˆ(n 2)

có phân phối khi-bình phương với n 2 bậc tự do.

Các ước lượng 1 2ˆ ˆ, có phương sai nhỏ nhất trong số các ước lượng không chệch

của 1 2, .

Ta có i 1 2 i iY X u . Từ giả thiết của iu ta thu được các thống kê Z và 2 có

quy luật phân phối chuẩn tắc và khi bình phương với (n 2) bậc tự do. Vậy ta có

thể tìm được khoảng ước lượng cho các tham số 1 2, và 2 .

Page 12: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

34 STA301_Bài 3_v1.0013101214

3.4. Ước lượng khoảng cho hệ số hồi quy

Trong mục 3.3 với giả thiết về phân phối chuẩn 2N(0; ) của iu ta có:

21 1 1

ˆ N( ; )

22 2 2

ˆ N( ; )

với các phương sai 2 21 2, được xác định trong

(3.19) và (3.20). Tuy nhiên vì phương sai 2 chưa biết, nên các phương sai 2 21 2, cũng

chưa biết, vì vậy ta dùng ước lượng không chệch của 2 là:

n2i

2 i 1

uRSS

ˆ .n 2 n 2

Khi đó các thống kê:

1 11

1

ˆT

ˆSe( )

và 2 2

2

2

ˆT

ˆSe( )

với: 1 1ˆ ˆSe( ) Var( ) ; 2 2

ˆ ˆse( ) Var( ) .

Các thống kê này có phân phối student với (n – 2) bậc tự do. Đồng thời, thống kê

22

2

ˆ(n 2)

có phân phối khi bình phương với (n – 2) bậc tự do.

3.4.1. Khoảng ước lượng cho 1β

Với độ tin cậy 1 cho trước, ta có:

(n 2) (n 2)1

2 2P t T t 1

,

với 2

(n 2)t là phân vị mức 2

của phân phối Student

1T , tức là:

2 2

(n 2) (n 2)1 1

1

ˆP{ t t } 1

ˆse( )

.

Từ đó dẫn đến

2 2

(n 2) (n 2)1 1 1 1 1

ˆ ˆ ˆ ˆP{ t se( ) t se( )} 1 .

Vậy với mẫu cụ thể ta có khoảng ước lượng cho 1 là:

2 2

(n 2) (n 2)1 1 1 1 1

ˆ ˆ ˆ ˆ( t se( ); t se( )) .

Page 13: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

35

3.4.2. Khoảng ước lượng cho 2β

Tương tự như trên ta có, với độ tin cậy 1 cho trước thì:

(n 2) (n 2)2 22

2 22

ˆP t T t 1

ˆSe( )

.

Từ đó,

(n 2) (n 2)2 2 2 2 2

2 2

ˆ ˆ ˆ ˆP t Se( ) t Se( ) 1 .

Vậy với mỗi mẫu cụ thể ta có khoảng ước lượng cho 2 là:

(n 2) (n 2)2 2 2 2 2

2 2

ˆ ˆ ˆ ˆt Se( ); t Se( )

3.4.3. Khoảng ước lượng cho 2σ

Ta thấy thống kê

22

2

ˆ(n 2)

có phân phối khi-bình phương với (n-2) bậc tự do.

Do đó: 2

2 2 21 / 2;n 2 / 2;n 22

ˆ(n 2)P{ } 1

với 21 / 2;n 2 và 2

/ 2;n 2 là các giá trị phân vị mức 1 / 2 và / 2 của phân phối 2 (n 2) .

Từ đó ta có:

2 22

2 2/ 2;n 2 1 / 2;n 2

ˆ ˆ(n 2) (n 2)P 1

.

Vậy với mẫu cụ thể và độ tin cậy 1 , ta có khoảng ước lượng cho 2 là: 2 2

22 2

/ 2;n 2 1 / 2;n 2

ˆ ˆ(n 2) (n 2)( ; )

.

3.5. Kiểm định giả thuyết về các hệ số hồi quy

Kiểm định giả thuyết thống kê là một trong những nhiệm vụ quan trọng của nhà kinh tế lượng. Chẳng hạn, trong mô hình hồi quy (3.1) ta thấy nếu 2 0 thì Y sẽ độc lập

với X, tức là X không ảnh hưởng tới sự thay đổi của Y . Tuy nhiên, ta lại chưa biết 2

có bằng 0 hay không vì vậy ta cần kiểm định giả thuyết này.

Trong các mục trước, chúng ta đã đưa ra các ước lượng điểm và ước lượng khoảng

cho hệ số hồi quy 1 2, . Các ước lượng khoảng này sẽ giúp ta giải quyết bài toán

kiểm định giả thuyết về 1 2, .

Page 14: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

36 STA301_Bài 3_v1.0013101214

Ta đã biết bài toán kiểm định giả thuyết gồm các bước cơ bản sau:

Bước 1: Thiết lập giả thuyết 0H và đối thuyết 1H .

Bước 2: Xây dựng tiêu chuẩn thống kê để kiểm định, xác định quy luật phân phối xác suất của tiêu chuẩn thống kê khi giả thuyết 0H được cho là đúng.

Bước 3: Xây dựng miền bác bỏ giả thiết W ứng với mức ý nghĩa cho trước.

Bước 4: So sánh giá trị mẫu (quan sát được) của tiêu chuẩn thống kê ở bước thứ 2 với miền bác bỏ giả thuyết W ở bước 3 để đưa ra kết luận bác bỏ hay chấp nhận giả thuyết 0H .

3.5.1. Kiểm định giả thuyết cho 1β

Ta đưa giả thuyết 0H : *1 1 và đối thuyết 1H : *

1 1 hoặc 1H : *1 1 hoặc 1H :

*1 1 .

Chú ý rằng nếu giả thiết H0 là đúng thì: thống kê

1 11

1

ˆT

ˆSe( )

có phân phối Student với n – 2 bậc

tự do. Ta sẽ dựa vào thống kê này để tiến hành kiểm định giả thuyết cho 1 . Ta có các bài toán kiểm định

giả thuyết sau:

Bài toán 1: Kiểm định hai phía

*0 1 1

*1 1 1

H :

H :

Miền bác bỏ: (n-2) (n-2)/ 2 / 2W ( ; t ) (t ; ) với (n-2)

pt là phân vị mức p (p = /2) của

phân phối Student 1T .

Bài toán 2: Kiểm định một phía (phải)

*0 1 1

*1 1 1

H :

H :

Miền bác bỏ: (n-2)W= t ; , với (n-2)t là phân vị

mức của phân phối Student 1T .

Bài toán 3: Kiểm định một phía (trái)

*0 1 1

*1 1 1

H :

H :

Miền bác bỏ: (n-2)W ( ; t ) .

3.5.2. Kiểm định giả thuyết cho 2β

Ta có giả thuyết *0 2 2H : với đối thuyết *

1 2 2H : hoặc *1 2 2H : hoặc

*1 2 2H : .

Page 15: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

37

Trong mục 3.4 ta cũng thấy nếu giả thuyết 0H đúng

thì thống kê

2 22

2

ˆT

ˆSe( )

có phân phối Student với n – 2 bậc tự do. Do đó, ta có thể tiến hành các bài toán kiểm định giả thuyết sau

cho 2 :

Bài toán 1: Kiểm định hai phía

*0 2 2

*1 2 2

H :

H :

Miền bác bỏ: (n-2) (n-2)/ 2 / 2W ( ; t ) (t ; )

(n-2)pt là phân vị mức p của phân phối Student 2T .

Bài toán 2: Kiểm định một phía (phải)

*

0 2 2

*1 2 2

H :

H :

Miền bác bỏ: (n-2)W (t ; ) , với (n-2)t là phân vị mức của phân phối Student 2T .

Bài toán 3: Kiểm định một phía (trái)

*

0 2 2

*1 2 2

H :

H :

Miền bác bỏ: (n-2)W ( ; t ).

3.5.3. Kiểm định giả thuyết cho phương sai 2σ

Giả thuyết 2 20 0H : , với một trong các đối thuyết

2 21 0H : , 2 2

1 0H : , 2 21 0H : .

Ta có nếu 0H đúng thì thống kê

22

2

ˆ(n 2)

có phân phối khi bình phương với n – 2 bậc tự do. Áp dụng kết quả đó, ta có thể giải

quyết các bài toán kiểm định đối với 2 như sau:

Bài toán 1: Kiểm định hai phía

2 20 0

2 21 0

H :

H :

Page 16: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

38 STA301_Bài 3_v1.0013101214

Miền bác bỏ: 2 21- / 2;n 2 / 2;n 2W (0; ) ( ; )

trong đó 2p;n 2 là phân vị mức p của phân phối 2 .

Bài toán 2: Kiểm định một phía (phải)

2 2

0 0

2 21 0

H :

H :

Miền bác bỏ 2;n 2W= ;+ .

Bài toán 3: Kiểm định một phía (trái) 2 2

0 0

2 21 0

H :

H :

Miền bác bỏ: 21- ;n 2W= 0; .

3.5.4. Phương pháp xác suất ý nghĩa (p-value)

Với một mẫu cụ thể ta có giá trị quan sát của thống kê iT (i 1,2) là: *

i iiqs

i

ˆt

ˆSe( )

Ta có: p-value i iqsP T t i 1, 2

Xác suất này gọi là xác suất ý nghĩa, đây chính là xác suất mắc sai lầm loại 1 (tức là xác suất để bác bỏ

0H khi 0H đúng).

Ta thấy rằng nếu xác suất ý nghĩa càng cao thì hậu quả việc bác bỏ 0H khi 0H đúng càng nghiêm trọng, nếu

xác suất ý nghĩa càng nhỏ thì hậu quả của việc bác bỏ sai 0H càng ít nghiêm trọng. Vậy khi đã cho trước mức

ý nghĩa (đây là xác suất giới hạn để được bác bỏ 0H ), nếu xác suất ý nghĩa không

vượt quá thì ta có thể bác bỏ 0H mà không sợ phạm sai lầm nghiêm trọng, còn nếu

xác suất ý nghĩa lớn hơn thì chưa có cơ sở để bác bỏ 0H .

Bây giờ ta có thể sử dụng xác suất ý nghĩa để tiến hành các bài toán kiểm định đối với các tham số 1 2, .

Kiểm định hai phía

*

0 i i

*1 i i

H :

H :

i = 1, 2

CHÚ Ý

Phương pháp kiểm định trên được gọi là phương pháp kiểm định theo miền tiêu chuẩn mà ta đã biết trong giáo trình xác suất thống kê. Ngoài phương pháp trên ta còn có phương pháp kiểm định giả thuyết theo p-value xác suất ý nghĩa, phương pháp này cũng đã được giới thiệu trong giáo trình xác suất-thống kê.

Page 17: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

39

Bước 1: Tính *

i iiqs

i

ˆt

ˆSe( )

;

Bước 2: Tính p-value

p-value = i iqsP T t hoặc i iqsT t

i iqs2P T t .

Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa đã xác định từ trước, nếu

p-value thì bác bỏ 0H , còn nếu p-value thì chấp nhận giả thuyết 0H .

Kiểm định một phía (phải)

*0 i i

*1 i i

H :

H :

i =1, 2

Bước 1: Từ mẫu số liệu có được, thành lập thống kê

*i i

iqs

i

ˆt

ˆSe( )

;

Bước 2: Từ thống kê đó, tính xác suất ý nghĩa p-value = i iqsP T t .

Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa đã xác định từ trước, nếu

p-value thì bác bỏ giả thuyết 0H , còn nếu p-value thì chấp nhận giả

thuyết 0H .

Kiểm định một phía (trái)

*0 i i

*1 i i

H :

H :

i = 1, 2

Bước 1: Tính*

i iiqs *

i

ˆt

Se( )

;

Bước 2: Tính p-value = iqs1 P T t .

Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa đã xác định từ trước, nếu

p-value thì bác bỏ giả thuyết 0H , còn nếu p-value thì chấp nhận giả

thuyết 0H .

VÍ DỤ 3.2

Từ ví dụ 3.1 hãy:

a) Tìm khoảng ước lượng cho các hệ số hồi quy với độ tin cậy 95%.

b) Với mức ý nghĩa 5% có thể kết luận thu nhập của bố, mẹ có ảnh hưởng tới kết quả học tập của con cái hay không?

c) Tính ESS, TSS.

Page 18: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

40 STA301_Bài 3_v1.0013101214

Giải: Theo báo cáo của Eviews cho ví dụ 3.1 ta có:

a) Ta có các giá trị ước lượng của 1 2, là 1 2ˆ ˆ4.785256, 0.042094 và sai số

chuẩn là: 1 2ˆ ˆSe( ) 1.195385, Se( ) 0.017601. Vì cỡ mẫu n = 8, với mức tin

cậy 0.05 , tra bảng phân phối student ta có: (7)0.025t 2.364624 . Vậy ta có các

khoảng ước lượng cho 1 2, là:

1

1

4.785265 2.364624x1.195385; 4.786265 2.36462x1.195385

1.958629; 7.611901 .

Tương tự ta có: 2 2.78634; 2.86693 .

b) Ta cần kiểm định bài toán sau:

0 2

1 2

H : 0

H : 0

Cách 1: Ta có giá trị tiêu chuẩn thống kê của bài toán trên là:

22

2

ˆ 0.042094 t 0.0539

ˆ 0.017601Se( )

.

Với mức ý nghĩa 5%, tra bảng phân phối student ta có: (7)0.025t 2.364624 .

Vậy miền bác bỏ của bài toán là: W = ; 2.364624 2.364624; .

Ta thấy giá trị tiêu chuẩn thống kê 2t W , do đó chưa bác bỏ được H0. Như vậy

có thể kết luận thu nhập của bố mẹ không ảnh hưởng đến kết quả học tập của con cái một cách có ý nghĩa.

Cách 2: Ta thấy giá trị p- value = 0.0539 > 0.05 vì vậy chưa thể bác bỏ được H0.

Page 19: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

41

c) Từ kết quả trong bảng ta có r2 = 0.488035, RSS = 8.155499, do đó theo công thức

2 RSSr 1

TSS

ta có : TSS = RSS/(1– r2) = 8.155499/ (1– 0.488035) = 15.9288.

Đồng thời ta lại có công thức: TSS = ESS + RSS,

do đó ta có: ESS = TSS – RSS = 15.9288 – 8.155499 = 7.774301.

3.6. Phân tích phương sai trong phương trình hồi quy

Trong phần này chúng ta xét bài toán kiểm định giả

thuyết về hệ số hồi quy 2 theo một phương pháp

khác, đó là phương pháp phân tích phương sai.

Ta xét bài toán kiểm định 0 2

1 2

H : 0

H : 0

(*)

Giả thuyết 0H nói lên rằng biến X không ảnh

hưởng tới Y, khi đó ta bác bỏ giả thuyết 0H cũng có nghĩa là ta bác bỏ giả thuyết cho

rằng biến X không có ảnh hưởng tới biến Y.

Trong các phần trước ta thấy nếu như giả thuyết 0H là đúng, tức là: 2 0 , thì thống kê

2

2 2

ˆ(n 2) RSS

có phân phối khi - bình phương với n – 2 bậc tự do, còn thống kê 2

ESS

cũng có có phân phối khi-bình phương với 1 bậc tự do. Mặt khác hai thống kê đó độc

lập với nhau, vậy thống kê

2 2

22

ESS TSSr r n 21FRSS TSS 1 r 1(1 r )n 2 n 2

có phân phối Fisher với số bậc tự do là: 1;n 2 . Từ đó, với mức ý nghĩa cho

trước, miền bác bỏ cho bài toán kiểm định đang xét là W= f 1;n 2 ; .

Ý nghĩa: Cách tiếp cận theo hướng phân tích phương sai như trên cho phép ta đưa ra

các phán đoán về độ phù hợp của mô hình hồi quy đang xét. Cụ thể, nếu thống kê F có

giá trị rất lớn (ứng với xác suất ý nghĩa rất nhỏ) thì ta có thể kết luận mô hình được lập

phù hợp với số liệu quan sát. Còn nếu thống kê F có giá trị nhỏ đến mức xác suất ý

nghĩa tương ứng của nó lớn hơn mức ý nghĩa đã định (bằng 5% chẳng hạn) thì rõ ràng

mô hình là không phù hợp với số liệu, lúc đó cần tìm mô hình khác.

Ta có bảng phân tích phương sai ngắn gọn như sau:

Page 20: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

42 STA301_Bài 3_v1.0013101214

Nguồn biến thiên Tổng bình phương Bậc tự do Phương sai

X

n

2 2i

i 1

ˆESS x 1 ESS1

Phần dư

n

2i

i 1

RSS u n 2

RSS

n 2

Tổng TSS n 1

3.7. Ứng dụng của phân tích hồi quy, bài toán dự báo

Một trong các ứng dụng của phân tích hồi quy là dự báo

cho biết giá trị của X là 0X , ta cần dự báo giá trị của Y là

0Y , khi đó thay giá trị 0X vào phương trình hồi quy mẫu

ta nhận được giá trị ước lượng của Y là 0Y thỏa mãn

phương trình: 0 1 2 0ˆ ˆY X .

Giá trị thực 0Y thỏa mãn phương trình 0 1 2 0 0Y X u , với 0u là sai số.

Ta có : 0 0 1 1 2 2 0 0ˆ ˆY Y ( ) ( )X u .

Đồng thời

1 1 2 2ˆ ˆE( ) ;E( ) và 0E(u ) 0.

Do đó: 0 0 0 0ˆ ˆE(Y Y ) 0 E(Y ) Y .

Vậy ước lượng 0Y là một ước lượng không chệch của 0Y .

Ngoài ra, phương sai của 0 0Y Y được tính theo

0 0 1 1 2 2 0 0ˆ ˆˆVar(Y Y ) Var[( ) ( )X u ]

21 1 0 2 2 0 1 1 2 2 0

ˆ ˆ ˆ ˆVar( ) (X ) Var( ) 2X Cov( ; ) Var(u )

222 2 2 20

0xx xx xx

x1 X X2x

n S S S

22 20

xx

(X X)11 X

n S

trong đó: n n n

2 2 2 2xx i i i

i 1 i 1 i 1

S X (X X) X n(X)

.

Do phương sai 2 chưa biết, ta thay 2 bằng ước lượng không chệch 2 .

Khi đó ta có thống kê 0 0

0 0

Y Yt

ˆSe(Y Y )

có phân phối Student với n – 2 bậc tự do.

Vậy với mức ý nghĩa cho trước ta có khoảng ước lượng 0Y là:

Page 21: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

43

ỨNG DỤNG n 2 n 2

0 0 0 0 0 0 02 2

ˆ ˆ ˆ ˆY t Se(Y Y ) Y Y t Se(Y Y ) (3.21)

Công thức (3.21) cho ta khoảng ước lượng về giá trị 0Y của Y khi cho biết trước giá

trị 0X của X.

Bài toán trên có thể phát biểu dưới một dạng tương đương khác như sau (Bài toán dự

báo giá trị trung bình): Cho trước giá trị 0X của X, cần ước lượng giá trị trung bình

của Y khi 0X X , tức là ước lượng giá trị 0E(Y | X X ) .

Ta có:

0 1 2 0E(Y | X ) X ,

0 1 2 0ˆ ˆY X .

Từ đó, kết hợp với (3.19) và (3.20), ta thấy

0 0 1 1 2 2 0ˆ ˆY E(Y | X ) ( ) ( )X

2

2 00 0

xx

(X X)1ˆVar(Y E(Y | X ))n S

.

Do 2 chưa biết, ta dùng ước lượng 2 , dẫn đến:

222 0

0 0xx

(X X)1ˆ ˆVar(Y E(Y | X ))n S

.

Ký hiệu: 0

2ˆ 0 0Y

ˆS Var(Y E(Y | X )) ,

khi ấy thống kê

0

0 0

Y

Y E(Y | X )t

S

.

có phân phối Student với n – 2 bậc tự do.

Áp dụng kết quả trên, ta có thể ước lượng giá trị trung bình có điều kiện 0E(Y | X ) bằng biểu thức sau:

ỨNG DỤNG

0 0

n 2 n 2ˆ ˆ0 0 0Y Y

2 2

ˆ ˆY t S E(Y | X ) Y t S (3.22)

Page 22: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

44 STA301_Bài 3_v1.0013101214

TÓM LƯỢC CUỐI BÀI

Phương pháp OLS

Giả sử có 1 mẫu về 2 biến X và Y.

Ta cần ước lượng các tham số trong mô hình PRF: i i i 1 2 i iY E Y | X u X u

tức là đi tìm các hệ số trong mô hình: i i i i i i iˆ ˆ ˆˆ ˆY X u Y u .

Ý tưởng của phương pháp OLS là tìm 1 đường SRF sao cho các giá trị ước lượng iY càng

gần với các giá trị quan sát Yi càng tốt. Vì vậy, ta đi tìm min cho hàm sau:

n n

2 21 2 i i 1 2 i

i 1 i 1

ˆ ˆ ˆ ˆf , u (Y X ) .

Như vậy phương pháp OLS sẽ tối thiểu hóa tổng bình phương các phần dư:

n2i

i 1

ˆRSS u min.

Ta có công thức cho các hệ số ước lượng là: 1 2ˆ ˆY X ;

n

i ii 1

2 n2i

i 1

x yˆ

x

với i i i ix X X, y Y Y.

Các hệ số ước lượng trong mô hình

Hệ số 1 2ˆ ˆ, được xác định duy nhất ứng với một mẫu i iX , Y

1 2ˆ ˆ, là các ước lượng điểm của 1 2, .

Các giả thiết cơ bản của phương pháp OLS và các khuyết tật tương ứng của mô hình

Dưới đây là các giả thiết cần lưu ý:

Giả thiết 1: Mô hình hồi quy phải có dạng tuyến tính.

Giả thiết 2: Các giá trị của X được giả thiết là phi ngẫu nhiên và không tương quan với các sai số ngẫu nhiên, tức là :

i i i i i i

i i i i

CoV X ,u E X u E X E u

X E u X E u 0.

Giả thiết 3: Trung bình của các nhiễu ngẫu nhiên bằng 0: E( iu /Xi) = 0.

Giả thiết 4: Phương sai của các nhiễu ngẫu nhiên là không đổi: 2i jVar u Var u .

Chú ý: Giả thiết 4 không thoả mãn, ta nói có hiện tương phương sai của sai số thay đổi.

Giả thiết 5: Không có tương quan giữa các nhiễu ngẫu nhiên: i jCoV u ,u 0 .

Chú ý: Giả thiết 5 không thoả mãn, ta nói có hiện tương tự tương quan.

Giả thiết 6: Số quan sát n phải lớn hơn tổng số tham số trong mô hình.

Page 23: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

45

Định lí Gaus-Markov: Với các giả thiết đã cho của phương pháp bình phương tối thiểu thoả mãn, ước lượng bình phương tối thiểu là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch.

r2 đo độ phù hợp của hàm hồi quy, giá trị của r2 cho biết bao nhiêu phần trăm sự biến thiên của biến Y được giải thích bởi biến X hoặc bởi hàm hồi quy mẫu.

Ý nghĩa khoảng tin cậy:

KTC cho β1: n 2 n 21 1 a 1 1 a 1

2 2

ˆ ˆ ˆ ˆt Se ; t Se

KTC cho β1 cho biết trung bình của Y thay đổi thế nào khi X = 0.

KTC cho β2:

a a2 2

n 2 n 22 2 2 2 2

ˆ ˆ ˆ ˆt Se ; t Se

KTC cho β2 cho biết trung bình của Y thay đổi thế nào khi biến X thay đổi 1 đơn vị.

Kiểm định giả thiết: Trong mô hình E(Y/Xi) = β1 + β2Xi: Ta muốn kiểm tra H0: βj = βj* (j = 1,2).

Kiểm định Gt cho β1 = β1* cho biết trung bình của Y có bằng β1* khi X = 0 hay không.

Kiểm định Gt cho β2 = β2* cho biết tốc độ thay đổi của trung bình của Y khi biến X thay đổi 1 đơn vị có bằng β2* hay không.

Phân tích phương sai – kiểm định về sự phù hợp của mô hình.

Để kiểm định sự phù hợp của mô hình hồi quy tuyến tính so với số liệu, ta có thể tính các tổng bình phương sai số ESS, RSS và TSS, từ đó xác định thống kê F có phân phối Fisher rồi tiến hành kiểm định giả thuyết đối với thống kê đó.

Dự báo.

Từ số liệu mẫu, ta ước lượng được mô hình hồi quy thực nghiệm, từ đó có thể dự báo được giá trị của biến phụ thuộc mỗi khi có một giá trị mới của biến độc lập.

Page 24: BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN · 2014. 5. 20. · Bài 3: Mô hình hồi quy tuyến tính đơn 28 STA301_Bài 3_v1.0013101214 o Dễ dàng thấy nn ii i 1 2

Bài 3: Mô hình hồi quy tuyến tính đơn

46 STA301_Bài 3_v1.0013101214

CÂU HỎI THƯỜNG GẶP

1. Ngoài phương pháp OLS thì có phương pháp nào khác để ước lượng mô hình hồi quy mẫu không?

2. Trong phương pháp OLS, trong mọi trường hợp, ta đều phải giải hệ phương trình để tìm các ước lượng đúng không?

3. Nếu một mô hình hồi quy bội với nhiều biến thì việc dùng phương pháp OLS có thuận tiện không?

4. Khi ước lượng các hệ số bằng OLS, làm thế nào để đánh giá được chất lượng của chúng?

5. Tại sao phải xem xét các giả thiết của phương pháp OLS?

6. Để đánh giá độ phù hợp của mô hình hồi quy với các số liệu của mẫu, ta dùng tiêu chí nào?

7. Có nhất thiết phải xây dựng được mô hình hồi quy mẫu với r2 phải lớn?

8. Trong kiểm định giả thiết, việc dùng phương pháp xác suất ý nghĩa (p-value) có thể thay cho phương pháp kiểm định thông thường hay không?

CÂU HỎI TRẮC NGHIỆM

1. Công thức nào sau đây thể hiện phương pháp bình phương tối thiểu (OLS)?

A. n n

i i ii 1 i 1

ˆu Y Y min

B. n n

i i ii 1 i 1

ˆu Y Y min

C. 2n n

2i i i

i 1 i 1

ˆu Y Y min

D. 2n n

2i i i

i 1 i 1

ˆu Y Y max

2. Cho mô hình hồi quy: Y = 20 + 0.75X. Tính giá trị phần dư tại điểm X = 100, Y = 90

A. 5 B – 5

C. 0 D. 15.

3. Bậc tự do trong kiểm định t với mô hình 2 biến và có 20 quan sát là:

A. 20 B. 22

C. 18 D. 2

4. R2 cho biết:

A. Tương quan giữa X và Y. B. Sự biến thiên của Y.

C. Hiệp phương sai giữa X và Y. D. Phần biến thiên của Y được giả thích bởi X

5. Cho mô hình với TSS = 0.9243, RSS = 0.2137. Tìm r2

A. 0.7688 B. 0.2312

C. 0.3007 D. 0