37
Khái niệm Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc) vào một hay nhiều biến khác (biến độc lập), nhằm mục đích ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến độc lập. Phân tích tương quan là đo mức độ quan hệ tuyến tính giữa hai biến; không có sự phân biệt giữa BÀI 7: HỒI QUY HAI BIẾN

BÀI 7: HỒI QUY HAI BIẾN

  • Upload
    maja

  • View
    79

  • Download
    0

Embed Size (px)

DESCRIPTION

BÀI 7: HỒI QUY HAI BIẾN. Khái niệm Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc) vào một hay nhiều biến khác (biến độc lập), nhằm mục đích ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến độc lập. - PowerPoint PPT Presentation

Citation preview

Khái niệmPhân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc) vào một hay nhiều biến khác (biến độc lập), nhằm mục đích ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến độc lập.Phân tích tương quan là đo mức độ quan hệ tuyến tính giữa hai biến; không có sự phân biệt giữa các biến; các biến có tính chất đối xứng.

BÀI 7: HỒI QUY HAI BIẾN

1. Mô hình hồi quyMô hình hồi quy tổng thể (PRF)

Yi = 1 + 2Xi + Ui

1 : là hệ số chặn – tung độ gốc 2 : hệ số góc - hệ số đo độ dốc đường hồi quy• Ui:sai số ngẫu nhiên của tổng thể ứng với quan sát thứ i

Với một mẫu n quan sát (Yi, Xi). Cần ước lượng (PRF).

Mô hình hồi quy mẫu (SRF)Mô hình hồi quy mẫu:

Trong đó

: ước lượng cho 1.

: Ước lượng cho 2.

: Ước lượng cho E(Y/Xi) = Yi

Mô hình hồi quy mẫu ngẫu nhiên

ii XY 21ˆˆˆ

1

2

iY

iii eXY 21ˆˆ

Theo phương pháp OLS, để

iY càng gần với Yi thì 21ˆ,ˆ ββ cần thỏa mãn :

n

1i

2i21i

n

1i

2i min)XˆˆY(e ββ

Suy ra 21ˆ,ˆ ββ cần thỏa mãn :

n

1iii21i

2

n

1i

2i

n

1ii21i

1

n

1i

2i

0)X)(XˆˆY(2ˆ

e

0)1)(XˆˆY(2ˆ

e

βββ

βββ

XˆYˆ

)X(nX

YXnYXˆ

21n

1i

22i

n

1iii

2 βββ

giải hệ, ta có :

Ví dụ 1: Giả sử cần nghiên cứu chi tiêu tiêu dùng của hộ gia đình phụ thuộc thế nào vào thu nhập của họ, người ta tiến hành điều tra, thu được một mẫu gồm 10 hộ gia đình với số liệu như sau :

Y 70 65 90 95 110 115 120 140 155 150

X 80 100 120 140 160 180 200 220 240 260

Trong đó : Y – chi tiêu hộ gia đình (USD/tuần)

X – thu nhập hộ gia đình (USD/tuần)

Giả sử Y và X có quan hệ tuyến tính. Hãy ước lượng mô hình hồi qui của Y theo X.

40

60

80

100

120

140

160

50 100 150 200 250 X

Y

Y = E(Y/Xi)

Yi

uiE(Y/Xi)=1+2Xi

Yi=1+2Xi+ui

Yi = 1+2Xi + ui

Thu nhập khả dụng, X

Tiêu dùng,

Y

1

2

2. Các giả thiết cổ điển của mô hình hồi qui tuyến tính

• Giả thiết 1 : Biến độc lập Xi là phi ngẫu nhiên, các giá trị của chúng phải được xác định trước.

• Giả thiết 2 : Kỳ vọng có điều kiện của sai số ngẫu nhiên bằng 0 :

E (Ui / Xi) = 0 i

• Giả thiết 3 : (Phương sai thuần nhất ) Các sai số ngẫu nhiên có phương sai bằng nhau :

Var (Ui / Xi) = 2 i• Giả thiết 4 : Không có hiện tượng tương

quan giữa các sai số ngẫu nhiên : Cov (Ui , Uj ) = 0 i j

• Giả thiết 5 : Không có hiện tượng tương quan giữa biến độc lập Xi và sai số ngẫu nhiên Ui : Cov (Xi , Ui ) = 0 i

• Định lý Gauss – Markov : Với các giả thiết từ 1 đến 5 của mô hình hồi qui tuyến tính cổ điển, các ước lượng OLS là các ước lượng tuyến tính, không chệch và có phương sai bé nhất trong lớp các ước lượng tuyến tính, không chệch.

3. Phương sai và sai số chuẩn của các ước lượng

Trong đó :

Phương sai Sai số chuẩn

1 1 1

2 2 2

22 2 2ˆ ˆ ˆe2 2

2 2 2ˆ ˆ ˆe2 2

Xs s s s

n X n(X)

1s s s s

X n(X)

^

2 2i i i2

e

e (Y Y ) RSSs

n 2 n 2 n 2

4. Hệ số xác định và hệ số tương quan

a. Heä soá xaùc ñònh Moâ hình hoài qui tuyeán tính ñöôïc

xaây döïng nhaèm ñeå giaûi thích söï bieán thieân cuûa bieán phuï thuoäc Y vaøo bieán ñoäc laäp X nhöng lieäu moâ hình naøy ñaõ theå hieän moät caùch toát nhaát moái lieân heä giöõa X vaø Y chöa?

Bao nhieâu phaàn traêm bieán thieân cuûa Y coù theå giaûi thích bôûi söï phuï thuoäc tuyeán tính cuûa Y vaøo X?

Heä soá xaùc ñònh R2 seõ giuùp traû lôøi ñieàu naøy

Hệ số xác định

TSSRSS

1TSSESS

R2 dn

n2

ii 1

n2

ii 1

n2

i ii 1

TSS (Y Y)

ˆESS (Y Y)

ˆRSS (Y Y )

Trong đó : TSS = ESS + RSS

( , )i ix y

ˆi iy y

iy

y

x

y a bx

y

ˆiy y

iy y

SRF

Miền xác định của R2 :

0 R2 1

R2 1 : hàm hồi qui càng phù hợp.

R2 0 : hàm hồi qui càng ít phù hợp

Ví dụ : …

b. Hệ số tương quan (Pearson): Là số đo mức độ chặt chẽ của quan hệ tuyến tính giữa X và Y.

i i

2 2i i

2 22 2

(X X)(Y Y)r

(X X) (Y Y)

XY nXY

X nX Y nY

2Rr

2βVà dấu của r trùng với dấu của hệ số của X trong hàm hồi qui ( ).

Chứng minh được :

r > 0,8 : töông quan maïnh r = 0,4 - 0,8 : töông quan trung bình r < 0,4 : töông quan yeáu r caøng lôùn thì töông quan giöõa X

vaø Y caøng chaët 0 < r 1 goïi laø töông quan tuyeán tính thuaän (X, Y)

-1 r < 0 goïi laø töông quan tuyeán tính nghòch (X, Y)

r = 0 : giöõa X vaø Y khoâng coù lieân heä tuyeán tính

Tính chất của hệ số tương quan :

1. Miền giá trị của r : -1 r 1

| r| 1 : quan hệ tuyến tính giữa X và Y càng chặt chẽ.

2. r có tính đối xứng : rXY = rYX

3. Nếu X, Y độc lập thì r = 0. Điều ngược lại không đúng.

Heä soá töông quan haïng Spearman• Ñöôïc tính döïa treân haïng cuûa döõ lieäu

chöù khoâng döïa vaøo giaù trò thöïc cuûa quan saùt

• Tröôùc tieân, ta xeáp haïng RX , RY caùc giaù trò quan saùt xi , yi theo thöù töï taêng daàn töø 1 trôû ñi, (neáu coù caùc giaù trò quan saùt baèng nhau, thì ñöôïc xeáp ñoàng haïng vaø haïng seõ laø haïng trung bình).

• Heä soá töông quan haïng Spearman rs chính laø heä soá töông quan r giöõa caùc haïng cuûa xi vaø yi, töùc laø vaãn duøng coâng thöùc tính r ñeå tính rs, trong ñoù, thay xi, yi baèng caùc haïng cuûa chuùng.

löu yù : neáu khoâng xaûy ra tröôøng hôïp caùc giaù trò xi hay yi baèng nhau, töùc laø khoâng xaûy ra tröôøng hôïp ñoàng haïng, rs coù theå ñöôïc tính baèng coâng thöùc ñôn giaûn hôn:n

2i

i 1s 2

6 dr 1

n n 1( )

n laø soá löôïng caùc caëp (xi, yi)

i ii x yd R R : cheânh leäch giöõa töøng caëp thöù haïng cuûa xi vaø yi

5. Phân phối xác suất của các ước lượng

Giả thiết 6 : Ui có phân phối N (0, 2),

Với giả thiết 6, các ước lượng có thêm các tính chất sau :

1. Khi số quan sát đủ lớn thì các ước lượng xấp xỉ với giá trị thực của phân phối :

2n

21n

1ˆ,ˆ ββββ

)1,0(N~ˆ

Z),(N~ˆ

)1,0(N~ˆ

Z),(N~ˆ.2

2

2

1

1

ˆ

222ˆ22

ˆ

112ˆ11

ββ

ββ

σββ

σββ

σββ

σββ

)2n(~ˆ)2n(

.3 22

2

χσ

σ

4. Yi ~ N (1+ 2Xi, 2)

6. Khoảng tin cậy của các hệ số hồi qui

Ta có khoảng tin cậy của 2 :1 1

(n 2) (n 2)ˆ ˆ1 / 2 1 1 / 2

ˆ ˆs t s t

/ 2 / 22 2

(n 2) (n 2)ˆ ˆ2 2 2

ˆ ˆs t s t

j

j j

ˆ

ˆt ~ t(n 2) j 1,2

s

• Sử dụng phân phối của thống kê t :

Ta có khoảng tin cậy của 1 :

7. Kiểm định giả thiết về các hệ số hồi qui

2. Dùng kiểm định t :Thống kê sử dụng :

2

2

ˆ

ˆ at ~ t(n 2)

s

• Giả sử H0 : 2 = a ( a = const)

H1 : 2 a

- Nếu a [, ] bác bỏ H0

Có 2 cách kiểm định :1. Dùng khoảng tin cậy :

Khoảng tin cậy của 2 là [, ]

- Nếu a [, ] chấp nhận H0

Có hai cách đọc kết quả kiểm định t :Cách 1 : dùng giá trị tới hạn.

- Tính

2

2

ˆ

ˆ at

s

- Tra bảng t tìm t/2(n-2)

- Nếu | t| > t/2(n-2) bác bỏ H0.

- Nếu | t| t/2(n-2) chấp nhận H0.

-4 -3 -2 -1 0 1 2 3 4

t

f(t)

-t t

Cách 2 : Dùng p-value (mức ý nghĩa chính xác)

p = P(| T| > ta)

với ta =2

2

ˆ

ˆ at

s

- Nếu p bác bỏ H0.

- Nếu p > chấp nhận H0.

8. Kiểm định sự phù hợp của hàm hồi qui. Phân tích hồi qui và phân tích

phương sai

)2n,1(F~

)2n/(e

1/x)ˆ(F 2

i

2i

222

ββ

• Giả thiết H0 : 2 = 0 ( hàm hồi qui không phù hợp)

H1 : 2 0 (hàm hồi qui phù hợp)Sử dụng phân phối của thống kê F :

Nên có thể dùng qui tắc kiểm định sau :- Tính

)2n/()R1(1/R

F 2

2

- Nếu F > F(1, n-2) bác bỏ H0

hàm hồi qui phù hợp.

Khi 2 = 0 , F có thể viết :

2

2

ESS/1 R /1F (*)

RSS/(n 2) (1 R ) /(n 2)

Miền bác bỏ

Miền chấp nhận

F =0,05

F(1,n-2)

Thống kê F

Mặt khác, cũng từ (*) cho thấy :Phân tích phương sai cho phép đưa ra các phán đoán thống kê về độ thích hợp của hồi qui ( xem bảng phân tích phương sai).

* Một số chú ý khi kiểm định giả thiết :

- Khi nói “chấp nhận giả thiết H0”, không có nghĩa H0 đúng.- Lựa chọn mức ý nghĩa : có thể tùy chọn, thường người ta chọn mức 1%, 5%, nhiều nhất là 10%.

9. Dự báo a. Dự báo giá trị trung bình :

Cho X =X0 , tìm E(Y/X0).

- Dự báo điểm của E(Y/X0) là :

0210 XˆˆY ββ

2(n 2) 0

0 0 e / 2 22

(X X)1ˆE(Y / X ) Y , s tn X nX

- Dự báo khoảng của E(Y/X0) là :

b. Dự báo giá trị cá biệt :

Cho X =X0 , tìm Y0.

2(n 2) 0

0 0 e / 2 22

(X X)1ˆY Y , s t 1n X nX

Y

X

dải tin cậy của giá trị trung bình

dải tin cậy của giá trị cá biệt

X

* Đặc điểm của dự báo khoảng

10. Trình bày kết quả hồi qui R2 =

se = sê ( ) sê ( ) n =

t = t1 t2 F =

p = p(>t1) p(>t2) p(> F) =Trong đó :

= 24,4545 + 0,5091 Xi R2 = 0,9621

se = (6,4138) (0,0357) n = 10t = (3,813) (14,243) F = 202,87p = (0,005) (0,000) p = (0,000)

i21i XˆˆY ββ 1β

)ˆ(es

0ˆt

)ˆ(es

0ˆt

2

22

1

11

β

β

β

β

iY

11. Đánh giá kết quả của phân tích hồi qui

• Dấu của các hệ số hồi qui ước lượng được phù hợp với lý thuyết hay tiên nghiệm không.

• Các hệ số hồi qui ước lượng được có ý nghĩa về mặt thống kê hay không.

• Mức độ phù hợp của mô hình (R2).• Kiểm tra xem mô hình có thỏa mãn các

giả thiết của mô hình hồi qui tuyến tính cổ điển hay không.

• Ví duï : coù soá lieäu veà thôøi gian quaûng caùo treân truyeàn hình vaø luôïng saûn phaåm tieâu thuï ôû moät coâng ty saûn xuaát ñoà chôi treû em nhö sau:Thôøi gian quaûng caùo

trong tuaàn (phuùt) 28 37 44 36 47 35 26 29 33 32 31 28

Löôïng tieâu thuï trong tuaàn (1000 sp)

41 32 49 42 38 33 27 24 35 30 34 25