Anova

ANOVA

Tóm tắtTiếp theo hồi quy tuyến tí[email protected]

CẬP NHẬT! Chỉnh sửa một số độ tự do

Ngày 29 tháng 1 năm 2013

Mục lục

1 Giới thiệu 31.1 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 ANOVA và hồi quy tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 ANOVA 1 nhân tố 42.1 t-test 2 mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 ANOVA: Giả thuyết và xác định mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Ước lượng LS(ML) cho tham số và phần dư . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 SSTO,SSTR,SSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.4.1 Khai triển tổng bình phương độ lệch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4.2 Ngẫu nhiên hóa thống kê F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Phân tích ảnh hưởng nhân tố 73.1 Minh họa trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.2 Ước lượng và kiểm định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.2.1 Trung bình một nhóm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.2.2 Khác biệt trung bình 2 nhóm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.2.3 Khác biệt đối lập giữa các nhóm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.2.4 Kết hợp tuyến tính giữa các nhóm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3 Qui trình so sánh đồng thời . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3.1 Phương pháp Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3.2 Phương pháp Sheffé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3.3 Phương pháp Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4 Chẩn đoán và hiệu chỉnh 124.1 Lựa chọn mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.2 Phân tích phần dư . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.3 Các kiểm định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.3.1 Kiểm định không hằng định phương sai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.3.2 Kiểm định giá trị ngoại lai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.3.3 Kiểm định phân phối bình thường . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.4 Các phương pháp hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.4.1 Bình phương tối thiểu hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.4.2 Biến đổi Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.4.3 Kiểm định F phi tham số xếp hạng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.4.4 Ảnh hưởng khi mô hình sai lệch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

5 Sửa đổi mô hình và cách tiếp cận hồi quy 165.1 Mô hình ảnh hưởng nhân tố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5.1.1 Trung bình không hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165.1.2 Trung bình hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.2 Mô hình trung bình khối . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

6 ANOVA hai chiều - cỡ mẫu bằng nhau 196.1 ANOVA 2 nhân tố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196.2 Ý nghĩa các yếu tố trong mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6.2.1 Ảnh hưởng chính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.2.2 Ảnh hưởng cộng thêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1

6.2.3 Ảnh hưởng tương tác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.3 Xác định mô hình ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

6.3.1 Phương pháp ước lượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216.3.2 SSTO, SSTR, SSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226.3.3 Kiểm định F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236.3.4 Chiến lược phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.4 Phân tích ảnh hưởng nhân tố không có tương tác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246.4.1 So sánh đồng thời . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

6.5 Phân tích ảnh hưởng nhân tố khi có tương tác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

7 ANOVA hai chiều - cỡ mẫu không bằng nhau 277.1 Mô hình ảnh hưởng nhân tố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277.2 Kiểm định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2

Chương 1

Giới thiệu

1.1 ANOVA

ANalysis Of VAriance

• So sánh đầu ra trong nhiều hơn 2 dân số

• Biến số đầu ra định lượng

• Có thể một hoặc nhiều nhân tố là biến phân loại 2 nhóm hoặc nhiều hơn

• Kí hiệu:

Biến số số đầu ra Y = Yij , cho đo lường thứ j của i

i = 1, 2, ..., r hay có r nhóm, hay r treatment, hay r dân số

j = 1, 2, ..., ni hay ni đối tượng trong nhóm thứ ir∑i=1

ni = nT = Tổng cỡ mẫu

Lưu ý luôn cho các tài liệu khác, kí hiệu phân phối, vd ∼ t(1 − α, ...) dùng để nói vắn tắt cho so sánh vớiphân vị 1− α của phân phối tương ứng

1.2 ANOVA và hồi quy tuyến tính

• Tương tự hồi quy tuyến tính

sử dụng các biến số tiên đoán để dự đoán đầu ra Y

biến số đầu ra là định lượng

• Lựa chọn giữa ANOVA và hồi quy tuyến tính (kết quả giống nhau)

biến số tiên đoán của ANOVA chỉ là định tính

hồi quy tuyến tính có thể phân tích các biến số định tính bằng cách tạo các biến giả

biến số định lượng có thể phân nhóm để phân tích ANOVA

ANOVA đơn giản tính toán

3

Chương 2

ANOVA 1 nhân tố

2.1 t-test 2 mẫu

• Trường hợp đặc biệt của ANOVA khi nhân tố chỉ có 2 nhóm

• H0 : F = G (phân phối 2 nhóm như nhau)

• Với giả định về tham số của 2 dân số (độc lập, phân phối bình thường, phương sai bằng nhau), giả thuyết trởthành µ1 = µ2

⇒ T1 =Y − X − |µ2 − µ1|√

S2P ( 1

n1+ 1

n2)∼ t(n1 + n2 − 2) lưu ý với H0, µ2 − µ1 = 0 trong công thức

Pooled variance S2P =

∑n1

i=1(Xi − X)2 +∑n2

i=1(Yi − Y )2

n1 + n2 − 2

2.2 ANOVA: Giả thuyết và xác định mô hình

Cơ sở

• Với 3 nhóm trở lên

H0 : F1 = F2 = ... = Fr

Ha : ít nhất 1 Fi khác biệt

• Với giả thuyết:

phân phối xác suất mỗi nhóm là phân phối bình thường

phân phối xác suất mỗi nhóm có phương sai bằng nhau

Biến số đầu ra ở mỗi nhóm nhân tố là độc lập

H0 : µ1 = µ2 = ... = µr

• Phân tích với 2 bước

Xác định sự khác biệt giữa các nhóm

Nếu có, sự khác biệt là bao nhiêu và cho biết điều gì

Mô hình trung bình khối

Cell means model

• Mô hình ANOVA được lập như sau

Yij = µi + εij với eij ∼ N(0, σ2)

E[Yij ] = µi

V [Yij ] = σ2

Yij phân phối bình thường

εij độc lập với nhau, tương tự yij

4

Phân biệt mô hình ANOVA I và II

• ANOVA I hay mô hình fixed effects: các nhóm nhân tố được chọn theo chủ đích, không phải là mẫu từ 1 dânsố, không suy diễn cho dân số

• ANOVA II hay mô hình randome effects: các nhóm nhân tố được chọn mẫu từ 1 dân số, nhằm suy diễn cho dânsố

2.3 Ước lượng LS(ML) cho tham số và phần dư

Phương pháp bình phương tối thiểu least square (LS) và tối đa xác suất maximum likelihood (ML) được dùngđể ước lượng tham số µi

• LS: ước lượng µi qua tìm cực tiểu của đại lượng biểu diễn qua tổng bình phương độ lệch từ mô hình

Q =∑i

∑j

(Yij − µi)2 =∑j

(Y1j − µ1)2 +∑j

(Y2j − µ2)2 + · · ·+∑j

(Yrj − µr)2

⇔ tìm cực tiểu của tất cả các tổng ⇒ µi = Yi

• ML: ước lượng µi qua tìm cực đại của hàm log-likelihood tính được từ dữ kiện. Tương tự trong hồi quy tuyếntính. Chỉ khác vọng trị ở đây là µi thay vì β0 + β1Xi

• Phần dư εij = Yij − µi = Yij − Yi. cho biết độ lệch của Yij so với trung bình ước lượng của phân nhóm.

• ước lượng phương sai s2i =

∑j(Yij − Yi.)2

ni − 1

2.4 SSTO,SSTR,SSE

2.4.1 Khai triển tổng bình phương độ lệch

• Tương tự hồi quy, khai triển tổng biến thiên SSTO ra thành các cấu phần để phát hiện các nguồn biến thiên vàđánh giá vai trò của mỗi phần.

• Với Y.. là trung bình mẫu, và Yi. là trung bình phân nhóm thứ i, ta có

Yij − Y.. = [Yi. − Y..] + [Yij − Yi.] hayTổng biến thiên = Biến thiên của trung bình phân nhóm quanh trung bình mẫu + Biến thiên Y quanh

trung bình phân nhóm

• Tương tự hồi quy tuyến tính, bình phương hai vế và lấy tổng∑i

∑j

(Yij − Y..)2 =∑i

∑j

(Yi. − Y..)2 +∑i

∑j

(Yij − Yi.)2 + 0

⇔∑i

∑j

(Yij − Y..)2︸︷︷︸SSTO:Tổng bình phương độ lệch

=∑i

ni(Yi. − Y..)2︸︷︷︸SSTR: Tổng bình phương treatment

+∑i

∑j

(Yij − Yi.)2︸︷︷︸SSE: Tổng bình phương sai số

Với độ tự do lần lượt là nT − 1, r − 1, nT − r

• Vọng trị trung bình bình phương

nhớ lại mean squares là lấy tổng bình phương chia cho độ tự do

E(MSE) = σ2

Với trung bình mỗi nhóm hiệu chỉnh cho cỡ mẫu là µ. =∑niµi

nT

E(MSTR) = σ2 +

∑ni(µi − µ.)r − 1

• Lưu ý:

MSE là ước lượng tố không sai lệch của phương sai sai số dù trung bình các phân nhóm có bằng nhau haykhông ⇒ biến thiên trong mỗi phân nhóm không bị ảnh hưởng bởi trung bình được ước lượng của mỗi nhóm

5

Thống kê F

• Từ MSE ta thấy nếu trung bình các nhóm bằng nhau, hay H0 đúng, thì µ. = µi ⇔ E(MSE) = E(MSTR)

Ha đúng ⇔ E(MSE) < E(MSTR)

Nhớ lại vọng trị là đại lượng không biết mà chỉ ước lượng qua ước lượng tố, vd MSE và E(MSE)

• F =MSTR

MSE∼ F1−α,r−1,nT−r

2.4.2 Ngẫu nhiên hóa thống kê F

Randomization F test

• Kiểm định không giả định về phân phối của sai số ε

• Ngẫu nhiên hóa để ước lượng phân phối chính xác của số thống kê

Tính thống kê F obs từ dữ kiện có được

Coi tổng số đối tượng là một dân số giới hạn

⇒ nếu phân nhóm ngẫu nhiên lại vào các phân nhóm thì phân phối không đổi

Nếu không có ảnh hưởng của nhóm, quá trình ngẫu nhiên sẽ tương tự

phân nT đối tượng ngẫu nhiên thành r nhóm (nhớ công thức phân hoạch partition = nT !n1!...nr!

)

Lập lại quá trình với số lần đủ lớn (hay tất cả cách xảy ra của kết cuộc) B

tính thống kê F* cho từng lần ta sẽ một mẫu các giá trị, hay phân phối rời rạc của F*

Xác định p− value dựa trên phân phối F ∗

Ví dụ p = P (F ∗ ≥ F obs)

• Lưu ý

Phân phối F ∗ là phân phối rời rạc nên cần xác định rõ khi tính p-value là P (F ∗ ≥ F obs) hay P (F ∗ > F obs)

6

Chương 3

Phân tích ảnh hưởng nhân tố

Analysis of Factor Level effects

• F-test cho biết có trung bình µi nào khác biệt hay không nhưng không cho biết của nhóm nào, và khác biệt baonhiêu

3.1 Minh họa trung bình

• Biểu đồ tuyến line plot vẽ các trung bình các nhóm yi trên 1 đường thẳng

• Biểu đồ thanh thể hiện độ lớn khác biệt giữa các nhóm

• Ảnh hưởng chính Main effect plot vẽ phân tán đồ của các trung bình thể hiện xu hướng (sử dụng với biếnđịnh lượng). Gọi là ảnh hưởng chính vì trong mô hình ANOVA, ảnh hưởng chính là do các phân nhóm.

3.2 Ước lượng và kiểm định

Các yếu tố quan tâm

• Trung bình một phân nhóm µi

• Khác biệt giữa 2 nhóm

• Khác biệt đối lập giữa các nhóm

• Kết hợp tuyến tính giữa trung bình các nhóm

3.2.1 Trung bình một nhóm

• Ước lượng tố của trung bình nhóm i µi = Yi. có

trung bình E(Yi.) = µi

phương sai V (Yi.) = σ2

ni(nhớ mô hình gồm hằng số cộng sai số có phương sai σ2)

Ước lượng phương sai s2(Yi.) = MSEni

Yi. − µis(Yi.)

∼ tnT−r

7

• Khoảng tin cậy Yi. ± t1−α/2,nT−rs(Yi.)

• Kiểm định t∗ =Yi. − cs(Yi.)

3.2.2 Khác biệt trung bình 2 nhóm

• Khác biệt giữa 2 nhóm (pairwise) D = µi − µi′Ước lượng cho D: D = Yi. − Yi′.trung bình E(D) = µi − µi′

phương sai V ar(D) = σ2(Yi.) + σ2(Yi′.) = σ2

(1

ni+

1

ni′

)do Yi., Yi′. độc lập

s2(D) = MSE

(1

ni+

1

ni′

)Có phân phối bình thường do là kết hợp tuyến tính của các biến số độc lập phân phối bình thường

D −Ds(D)

∼ tnT−r

• KTC D ± t1−α/2,nT−rs(D)

• Kiểm định H0 : µi = µi′ với t∗ =D

s(D)

3.2.3 Khác biệt đối lập giữa các nhóm

contrast of levels factor

• So sánh 2 hoặc nhiều nhóm với L là kết hợp tuyến tính với

L =r∑i=1

ciµi,r∑i=1

ci = 0

• Minh họa

L = µ1 − µ2 với c lần lượt là 1,-1

L = µ1+µ2

2 − µ4+µ4

2 với c lần lượt là 1/2,1/2 và -1/2,-1/2

L = µ1+µ2

2 − µ3+µ4

2 với c lần lượt là 1/2,1/2 và -1/2,-1/2

L = µ1 − µ1+µ2+µ3+µ4

4 với c lần lượt là 3/4,-1/4, -1/4,-1/4

• Các ước lượng

L =r∑i=1

ciYi.

σ2(L) = σ2r∑i=1

c2ini

s2(L) = MSEr∑i=1

c2ini

• KTC

L± t1−α/2,nT−rs(L)

• Kiểm định H0 : L = 0

t∗ =L

s(L)

8

3.2.4 Kết hợp tuyến tính giữa các nhóm

• Kết hợp tuyến tính với

L =r∑i=1

ciµi

Không có điều kiện cho ciƯớc lượng và kiểm định tương tự khác biệt đối lập

Ví dụ L = .35µ1 + .28µ2 + .12µ3 + .25µ4

3.3 Qui trình so sánh đồng thời

Multiple comparisons

Suy diễn đồng thời

Simultaneous inference Các cách ước lượng nói trên có 2 giới hạn

• Xác suất sai lầm loại I chung: như trong phân tích hồi quy, hệ số tin cậy 1− α chỉ áp dụng cho từng kiểmđịnh riêng lẻ chứ không phải cho toàn bộ các kiểm định chung trong qui trình

Mức tin cậy của từng kiểm định cần giảm

hay p-value của từng kiểm định cần hiệu chỉnh khi so sánh với giá trị α

• Thăm dò dữ kiện - data snooping: quá trình nghiên cứu những khác biệt được gợi ý từ mô tả dữ kiện. Hệsố tin cậy 1− α chỉ phù hợp nếu kiểm định không do dữ kiện gợi ý.

Ví dụ tiến hành kiểm định giữa nhóm có trung bình cao nhất và nhóm thấp nhất sẽ cho mức tin cậy caohơn bình thường.

Cần kiểm định tất cả từng cặp khác biệt với lựa chọn phù hợp

3.3.1 Phương pháp Tukey

• Áp dụng khi so sánh tất cả các cặp H0 : µi = µi′

Khi cỡ mẫu bằng nhau, họ mức ý nghĩa thống kê là α

Khi cỡ mẫu bằng nhau, họ mức ý nghĩa thống kê sẽ nhỏ hơn α

• Dựa trên Phân bố Phạm vi Studentized - studentized range distribution

Cho r đối tượng từ Y1, ..., Yr có trung bình là µ và phương sai σ2 và ước lượng phương sai là s2 dựa trên νđộ tự do

Phạm vi của dãy dữ kiện w = max(Yi)−min(Yi)

⇔ Phạm vi được studentized q(r, ν) =w

svới phân phối được theo bảng B.9 Kutner et al.

• Ước lượng KTC

Tương tự so sánh hai nhóm với D = µi − µi′ với s2(D) = MSE( 1ni

+ 1ni′

)

KTC khác biệt D ± Ts(D)

KTC cho trung bình nhóm Yi. =1

2Ts(D)

Với T =1√2q(1− α; r, nT − r)

• Kiểm định H0 : D = 0

|q∗| =√

2D

s(D)∼ q1−α;r;nT−r

• Khi cỡ mẫu các nhóm không bằng nhau cần tính phương sai cho từng nhóm, còn được gọi là phương phápKramer-Tukey

9

• Có thể vẽ trung bình và KTC để đánh giá, có sự khác biệt nếu KTC 2 trung bình không giao nhau

3.3.2 Phương pháp Sheffé

• Sử dụng khi quan tâm đến so sánh tất cả các khác biệt đối lập giữa các nhóm.

• Các ước lượng tố, phương sai tương tự trong so sánh khác biệt đối lập giữa các nhóm

ước lượng phương sai s2(L) = MSE∑ c2i

ni

Sheffé S2 = (r − 1)F1−α;r−1,nT−r

• KTC L± Ss(L)


F ∗ =L2

(r − 1)s2(L)∼ F (1− α; r − 1, nT − r)

• Có thể sử dụng cho mục đích thăm dò dữ kiện

• Lưu ý: tính KTC của L nếu không chứa 0 thì kiểm định F không có ý nghĩa

So sánh Tukey và Sheffé

• Nếu chỉ so sánh từng cặp, nên sử dụng Tukey vì cho KTC hẹp hơn

• F-test trong Sheffé nếu có ý nghĩa thống kê thì sẽ có ít nhất một so sánh đối lập có ý nghĩa thống kê. Tuy nhiêncó thể không phải là so sánh có ứng dụng được.

3.3.3 Phương pháp Bonferroni

• Sử dụng cả cho so sánh từng cặp, đối lập, liên quan tuyến tính, cỡ mẫu các nhóm có bằng nhau hay không do.

• So từng cặp và đối lập là trường hợp đặc biệt của liên quan tuyến tính

• Với số lần so sánh g, với hệ số tin cậy chung là 1− αB = t1−α/2g,nT−r

• KTC L±Bs(L)

ít nhất (1-α/2g) % khi lập lại các thử nghiệm, cả g KTC đều đúng


|t∗| = L

s(L)∼ t1−α/2g;nT−r

• Không nhất thiết mỗi kiểm định riêng lẻ của hệ số tin cậy chung 1− α phải là 1− α/g, tùy thuộc vào so sánhnào đòi hỏi cao hơn có thể dùng các hệ số khác nhau với điều kiện α1 + α2 + ...+ αg = α

10

So sánh Bonferroni với Tukey và Sheffé

• Do có thể có quá nhiều kết hợp tuyến tính giữa các nhóm có thể xảy ra, Bonferroni có thể đưa đến hiệu chỉnhquá mức dẫn đến tất cả đều không có ý nghĩa thống kê.

• Nếu muốn so sánh tất cả các cặp, Tukey cho KTC hẹp hơn, nếu không xét tất cả thì sử dụng Bonferroni.

• Nếu số trường hợp so sánh đối lập ít hơn hoặc bằng số nhóm, dùng Bonferroni thay vì Sheffé

• Ba phương pháp đều ước lượng dạng ước lượng ± nhân tử × SE, và chỉ khác nhau ở nhân tử.

Có thể tính cả 3 và chọn phương pháp có nhân tử nhỏ nhất

11

Chương 4

Chẩn đoán và hiệu chỉnh

4.1 Lựa chọn mô hình

• Cần lựa chọn mô hình trước khi có thể tiến hành các bước ước lượng và suy diễn

• Tương tự hồi quy, mô hình ANOVA phù hợp hay không phụ thuộc

phương sai sai số hằng định

sai số là độc lập

ảnh hưởng của các giá trị ngoại lai

thiếu biến số quan trọng trong mô hình

sai số không phân phối bình thường

4.2 Phân tích phần dư

Phần dư trong ANOVA

• Phần dư trong mô hình ANOVA là eij = Yij − Yij

• Các phương pháp biến đổi phần dư trong hồi quy vẫn áp dụng ở đây

– Phần dư Semistudentized e∗ij =eij√MSE

– Phần dư Studentized rij =eijs(eij)

với

s(eij) =

√MSE(ni − 1)

ni

– Phần dư bị loại Studentized tij = eij

√√√√√ nT − r − 1

SSE

(1− 1

ni

)− e2ij

• Trong công thức trên, nếu các nhóm cỡ mẫu bằng nhau, phần dư Studentized ≈ Semistudentized do 1− 1

ni≈ 1

với cỡ mẫu không quá nhỏ

• 1

niđược gọi là leverage của sai số eij , cho biết vai trò của đối tượng yij trong khi phân tích phần dư

Nếu ni lớn, yij ít quan trọng trong ước lượng µi⇒ leverage nhỏ và phần dư rij tương ứng nhỏ hơn do s(eij) lớn hơn. Và ngược lại nếu cỡ mẫu nhóm lớn

Biểu đồ phần dư

• Vẽ phần dư với giá trị khớp Yij : phát hiện không hằng định phương sai và giá trị ngoại lai.

Dùng phần dư studentized nếu cỡ mẫu các nhóm khác biệt lớn

• Các biểu đồ khác như biểu đồ điểm (dot plot), NPP, biểu đồ theo thời gian, hình hộp,...

12

• Tất cả các dạng biểu đồ cần cho thấy phần dư chuẩn hóa cho dạng

phân phối đối xứng quanh 0,

phần dư các nhóm không lệch quá nhiều.

không có sự phụ thuộc theo thứ tự, thời gian.

4.3 Các kiểm định

4.3.1 Kiểm định không hằng định phương sai

• Kiểm định Hartley: đòi hỏi cỡ mẫu bằng nhau và sai số phân phối bình thường

Với r nhóm cỡ mẫu bằng nhau, nhóm i có phương sai là σi và ước lượng phương sai mẫu là s2i với độ tự domỗi nhóm là df

Kiểm định H0 : σ21 = σ2

2 = ... = σ2r , Ha ít nhất một σ2

i khác biệt

Thống kê H∗ =max(s2i )

min(s2i )∼ H(1− α; r; df) Phân phối thống kê H, Bảng B.10 Kutner et al

Với ANOVA 1 nhân tố ni ≡ n, ta có df = n− 1 và phương sai ước lượng

s2i =

n∑j=1

(Yij − Yi.)2

n− 1=

n∑j=1

e2ij

n− 1

• Brown-Forsythe: không ảnh hưởng bởi phân phối không bình thường và không cần cỡ mẫu bằng nhau

Kiểm định giả thuyết như Hartley

Dựa trên độ lệch tuyệt đối với trung vị của nhóm dij = |Yij − Yi|

Trung bình độ lệch của mỗi nhóm di. =

∑j dij

ni

Trung bình độ lệch của nghiên cứu di.. =

∑∑dij

nT

MSE =

∑∑(dij − di.)2

nT − r

MSTR =

∑ni(di. − di..)2

r − 1

Thống kê F ∗BF =MSTR


4.3.2 Kiểm định giá trị ngoại lai

• So sánh phần dư với phân phối theo giả định mô hình

• So với giá trị t1−α/(2nT ),nT−r−1

4.3.3 Kiểm định phân phối bình thường

• So sánh tần số quan sát với vọng trị dưới phân phối bình thường

Shapiro-Wilk

Kolmogorov-Smirnov

4.4 Các phương pháp hiệu chỉnh

• Tương tự hồi quy, hiệu chỉnh nhằm các mục đích:

hiệu chỉnh để cải thiện ước lượng cho mô hình

biến đổi Y và lập lại quá trình ước lượng

sử dụng các kiểm định phi tham số để suy diễn

13

• Cụ thể

Với phương sai không hằng định: phương pháp ước lượng WLS- hiệu chỉnh bình phương tối thiểu weighted

least square

sai số không phân phối bình thường: xem xét biến đổi Y

sai lệch quá lớn: sử dụng phương pháp phi tham số

4.4.1 Bình phương tối thiểu hiệu chỉnh

weighted least square

• Hiệu chỉnh bằng cách lập mô hình với Yij được hiệu chỉnh với trọng số tỷ lệ theo phương sai σ2i

hiệu chỉnh do đối tượng thứ j trong nhóm i wij =1

s2i

• Áp dụng cách kiểm định tuyến tính tổng quát với mô hình đầy đủ và mô hình rút gọn

Mô hình đầy đủ Yij = µ1Xij1 + µ2Xij2 + ...+ µrXijr với X1 = 1 nếu thuộc nhóm 1, vv...

Mô hình rút gọn Yij = µcXij + εij , Xij ≡ 1 với µc là trung bình chung

Thống kê F ∗ =SSEw(r)− SSEw(f)

r − 1÷ SSEw(f)

nT − r

4.4.2 Biến đổi Y

• Khi mô hình cho thấy vừa không hằng định phương sai vừa không phân phối bình thường

• Một số hướng dẫn cơ bản (dựa trên khai triển dãy Taylor cho phương sai Y):

– phương sai sai số tỷ lệ với trung bình phân nhóm µi.

Y ′ =√Y

Y ′ =√Y +

√Y + 1

– độ lệch sai số tỷ lệ với trung bình phân nhóm µi.

Y ′ = logY

– độ lệch sai số tỷ lệ với bình phương trung bình phân nhóm µ2i.

Y ′ =1

Y

– Y là biến số tỷ lệ hay phương sai phụ thuộc vào trung bình (phân phối B(n,p)):Y ′ = 2arcsin

√Y

phương pháp hồi quy logistic

• Biến đổi Box-Cox tương tự hồi quy tuyến tính

hiệu chỉnh phương sai sai số không hằng định và sai số không phân phối bình thường

biến đổi mũ Y λ với mỗi λ lập mô hình và tính SSE

λ cho SSE mô hình nhỏ nhất là biến đổi phù hợp

• Sau khi biến đổi, cần lập lại chẩn đoán mô hình

4.4.3 Kiểm định F phi tham số xếp hạng

Nonparametric rank F test

• Kiểm định F không giả định phân phối bình thường của sai số, chỉ cần phân phối là liên tục

• Dựa trên phương pháp xếp hạng

Xếp hạng tăng dần từ 1 đến nTGọi Rij là hạng của YijNếu trùng hạng (ties rank), dùng hạng trung bình

14

• Tiến hành kiểm định F trên hạng

Hạng trung bình nhóm Ri. =

∑j Rij

ni

Hạng trung bình mẫu Ri.. =

∑∑Rij

nT=nT + 1

2

MSE =

∑∑(Rij − Ri.)2

nT − r

MSTR =

∑ni(Ri. − Ri..)2

r − 1

Kiểm định F ∗R =MSTR


4.4.4 Ảnh hưởng khi mô hình sai lệch

• Không phân phối bình thường

không ảnh hưởng nhiều nếu không lệch quá lớn

Độ nhọn Kurtosis ảnh hưởng nhiều hơn độ lệch của phân phối Skewness

ước lượng trung bình không sai lệch

Sai lầm loại I của F-test bị ảnh hưởng nhỏ (α có thể lớn hơn so với mức lựa chọn)

⇒ biến đổi Y, F-test phi tham số hoặc mô hình tuyến tính tổng quát GLM generalized linear model

• phương sai sai số không hằng định

không ảnh hưởng nhiều lên kết quả F-test nếu cỡ mẫu các nhóm xấp xỉ nhau

⇒ cỡ mẫu bằng nhau dùng WLS, dùng GLM

• sai số không độc lập

ảnh hưởng rất lớn lên mô hình

thường khó hiệu chỉnh nên cần tránh từ khâu thiết kế (chương 27 Kuter et al)

⇒ dùng mô hình theo thời gian time series model

• giá trị ngoại lai : dùng các ước lượng robust, loại đối tượng

15

Chương 5

Sửa đổi mô hình và cách tiếp cận hồi quy

3 cách biểu diễn mô hình ANOVA

• Mô hình ảnh hưởng nhân tố không hiệu chỉnh trung bình - factor effect model with unweighted mean

Yij = µ. + τi + εij với µ. là trung bình nhóm

• Mô hình ảnh hưởng nhân tố hiệu chỉnh trung bình

Yij = µ. + τi + εij với µ. là trung bình nhóm được hiệu chỉnh với trọng số

• Mô hình trung bình khối - cell means model

Yij = µi + εij

• Cách biểu diễn dạng tuyến tính chỉ thay đổi định nghĩa các tham số, không ảnh hưởng đến suy diễn

5.1 Mô hình ảnh hưởng nhân tố

Công thức

• Ảnh hưởng của nhân tố được phân tích thành µi ≡ µ. + (µi − µ.)︸︷︷︸τi

• mô hình được viết thành Yij = µ. + τi + εij

τi là ảnh hưởng của nhóm thứ i - ith factor level effect/ith treatment effect

εij ∼ N(0, σ2)

Tùy vào định nghĩa trung bình µ. ta sẽ có mô hình hiệu chỉnh hay không hiệu chỉnh trung bình

5.1.1 Trung bình không hiệu chỉnh

• µ. =

∑ri=1 µir

= trung bình các nhóm

hayr∑i=1

τi = 0

do∑τi =

∑(µi − µ.) =

∑µi − rµ.

• Với mô hình Yij = µ. + τi + εij , ta cần ước lượng µ. và τ1, ..., τr−1τr = −τ1 − τ2 − ...− τr−1

• mô hình được viết dưới dạng tuyến tính và ma trận

Yij = µ. + τ1Xij,1 + τ2Xij,2 + ...+ τr−1Xij,r−1 + εij

Với Xij,1 là giá trị của biến số X1 của đối tượng thứ j trong nhóm i và tương tự cho đến biến số Xr−1

Xij,1 =

1 nếu đối tượng thuộc nhóm 1−1 nếu đối tượng thuộc nhóm r

0 khác

...

16

Xij,r−1 =

1 nếu đối tượng thuộc nhóm r-1−1 nếu đối tượng thuộc nhóm r

0 khác

• Ước lượng

µ.: µ. =

∑ri=1 Yi.r

ước lượng τi: τi = Yi. − µ.

• Kiểm định H0 : τ1 = τ2 = ... = τr−1 = 0 hay ảnh hưởng của các nhóm là như nhau

kiểm định tuyến tính tổng quát với

mô hình rút gọn Yij = µ. + εij

F ∗ =MSR


5.1.2 Trung bình hiệu chỉnh

• Áp dụng khi cỡ mẫu các nhóm là khác nhau hay mỗi nhóm trong thực tế có vai trò quan trọng khác nhau

• Trung bình được hiệu chỉnh với trọng số tỷ lệ với cỡ mẫu wi =ninT

µ. =∑ri wiµi ≡

∑ri

ninT

µi

Ta thấy∑ri wi = 1

và∑ri wiτi = 0

τr = −n1

nrτ1 − n2

nrτ2 − ...− nr−1

nrτr−1

• Mô hình đầy đủ tương tự trung bình không hiệu chỉnh, khác như sau

Xij,1 =

1 nếu đối tượng thuộc nhóm 1ninr

nếu đối tượng thuộc nhóm r

0 khác

...

Xij,r−1 =

1 nếu đối tượng thuộc nhóm r-1

−nr−1nr

nếu đối tượng thuộc nhóm r

0 khác

• Ước lượng

µ.: µ. =∑ri

ninT

Yi. = Yi..

τi: τi = Yi. − µ.

• Kiểm định H0 : τ1 = τ2 = ... = τr−1 = 0 hay ảnh hưởng của các nhóm là như nhau

Kiểm định tương tự trung bình không hiệu chỉnh

5.2 Mô hình trung bình khối

Cell means model Đã gặp từ đầu, mô hình được viết như sau

• Yij = µi + εij

Dạng tuyến tính Yij = µ1Xij,1 + µ2Xij,2 + ...+ µrXij,r + εij không có điểm chặn

Xij,1 =

{1 nếu đối tượng thuộc nhóm 10 khác

...

Xij,r =

{1 nếu đối tượng thuộc nhóm r0 khác

17

• Ước lượng µi = Y.

• Kiểm định H0 : µ1 = µ2 = ... = µr (không kiểm định =0)

phương pháp kiểm định tuyến tính tổng quát với mô hình rút gọn

Yij = µc + εij với µc là trung bình chung khi H0 đúng

F =MSR


18

Chương 6

ANOVA hai chiều - cỡ mẫu bằng nhau

two-way balanced ANOVA design: nghiên cứu ảnh hưởng của 2 hay nhiều nhân tố khác nhau với cỡ mẫu mỗi nhómnhư nhau

6.1 ANOVA 2 nhân tố

Mục đích

• phân tích ảnh hưởng của từng nhân tố

• phân biệt ảnh hưởng của nhân tố (ảnh hưởng chính -main effects) với tương tác của các nhân tố

• Cần phân tích đồng thời các nhân tố để tránh sai lệch

Kí hiệu

• Minh họa với 2 nhân tố

Nhân tố A, có a nhóm, i = 1, ..., a

Nhân tố B, có b nhóm, j = 1, ..., b

6.2 Ý nghĩa các yếu tố trong mô hình

Giả định biết trung bình dân số của mỗi nhóm và trung bình mỗi nhóm có vai trò quan trọng như nhau khi tính trungbình của các nhóm.

Các trung bình

• Trung bình treatment Mỗi kết hợp giữa các nhóm của 2 nhân tố A, B được một treatment với trung bìnhµij

• Trung bình nhóm của nhân tố

Trung bình của nhóm thứ j của nhân tố B µ.j =

∑a1 µija

Trung bình của nhóm thứ i của nhân tố A µi. =

∑b1 µijb

• Trung bình chung

µ.. =

∑i

∑j µij

ab=

∑ai µi.a

=

∑bi µ.jb

19

6.2.1 Ảnh hưởng chính

main effects cho biết nhóm nhân tố lệch bao nhiêu so với trung bình chung

• Ảnh hưởng của nhân tố A αi = µi. − µ..

• Ảnh hưởng của nhân tố B βj = µ.j − µ..

•∑αi =

∑βj = 0

6.2.2 Ảnh hưởng cộng thêm

additive effects

• Khi có thể viết trung bình treatment ở dạng

µij = µ.. + α1 + β1

= µi. + µ.j − µ..= µi′j + µij′ − µi′j′ , i 6= i′, j 6= j′

• Có nghĩa là ảnh hưởng của mỗi nhân tố không phụ thuộc vào nhân tố khác

⇒ có thể phân tích độc lập và mô tả ảnh hưởng chỉ qua ảnh hưởng chính

• Biểu đồ tương tác - interaction plot

2 biểu đồ cho thấy ảnh hưởng của 1 nhân tố và ảnh hưởng của cả 2 nhân tố nhưng không tương tác

• Các thông tin nhận dạng ảnh hưởng cộng thêm khác

Khác biệt trung bình cho bất cứ 2 nhóm nào trong nhân tố B là như nhau cho mọi nhóm nhân tố A, vàngược lại vd khác biệt giữa nhóm young và middle trong nam và nữ là như nhau

Biểu đồ tương tác hiển thị đường song song

6.2.3 Ảnh hưởng tương tác

• Khi có một µij 6= µ.. + αi + βj

20

• Sự khác biệt trên là ảnh hưởng tương tác - interaction - của nhóm i của nhân tố A với nhóm j của nhân tố B

(αβ)ij = µij − (µ.. + αi + βj)

= µij − µi. − µ.j + µ..∑i(αβ)ij =

∑j(αβ)ij = 0

• Biểu đồ tương tác không có dạng song song, 1 tương tác nhiều và 1 ít

6.3 Xác định mô hình ANOVA

Định nghĩa mô hình

• Kí hiệu

Với n đối tượng, nT = abn

Gọi Yijk, k = 1, ..., n với k chỉ 1 đối tượng của một treatment ij

Mô hình trung bình khối

• Yijk = µij + εijk

ε ∼ N(0, σ2)

E(Yijk) = µij

σ2(Yijk) = σ2(εijk) = σ2

⇒ Yijk ∼ N(µij , σ2)

Mô hình ảnh hưởng nhân tố

• Từ công thức về ảnh hưởng tương tác

µij = µ.. + αi + βi + (αβ)ij

mô hình Yijk = µ.. + αi + βi + (αβ)ij + εijk

Yijk ∼ N [µ.. + αi + βi + (αβ)ij , σ2]

6.3.1 Phương pháp ước lượng

• Kí hiệu

Tổng các đối tượng cho treatment ij Yij. =n∑k=1

Yijk với trung bình Yij. =Yij.n

Tổng tất cả đối tượng của nhóm thứ i Yi.. =b∑j

n∑k

Yijk và trung bình là Yi.. =Yi..nb

Tổng tất cả đối tượng của nhóm thứ j Y.j. =a∑i

n∑k

Yijk và trung bình là Y.j. =Y.j.na

21

Tổng tất cả đối tượng Y... =a∑i

b∑j

n∑k

Yijk và trung bình chung là Y... =Y...nab

• ước lượng LS với

Q =∑i

∑j

∑k(Yijk − µij)2 với mô hình trung bình khối

=∑i

∑j

∑k(Yijk − µ.. − αi − βi − (αβ)ij)

2 với mô hình ảnh hưởng nhân tố

µij = Yij.

giá trị khớp - fitted value Yijk = Yij.

phần dư eijk = Yijk − Yij.• Các tham số

µ.. = Y...

αi = Yi.. − Y...βi = Y.j. − Y...

ˆ(αβ)ij = Yij. − Yi.. − Y.j. + Y...

6.3.2 SSTO, SSTR, SSE

Tương tự, khai triển để phát hiện các nguồn biến thiên khác nhau.

Yijk − Y...︸︷︷︸Tổng biến thiên

= Yij. − Y...︸︷︷︸Biến thiên trung bình treatment quanh trung bình chung

+ Yijk − Yij.︸︷︷︸Biến thiên quanh trung bình treatment

Với

Yij. − Y... = Yi.. − Y...︸︷︷︸Ảnh hưởng chính của nhân tố A

+ Y.j. − Y...︸︷︷︸Ảnh hưởng chính của nhân tố B

+ Yij. − Yi.. − Y.j. + Y...︸︷︷︸Ảnh hưởng tương tác A và B

Bình phương và tổng hai công thức ta có (lưu ý các tích số đều bằng 0 do là tổng độ lệch không bình phương)∑i

∑j

∑k

(Yijk − Y...)2︸︷︷︸Tổng bình phương toàn bộ (SSTO)

= n∑i

∑j

(Yij. − Y...)2︸︷︷︸Tổng bình phương treatment (SSTR)

+∑i

∑j

∑k

(Yijk − Yij.)2︸︷︷︸Tổng bình phương sai số (SSE)

và

SSTR = nb∑i

(Yi.. − Y...)2︸︷︷︸Tổng bình phương nhân tố A (SSA)

+ na∑j

(Y.j. − Y...)2︸︷︷︸Tổng bình phương nhân tố B (SSB)

+n∑i

∑j

(Yij. − Yi.. − Y.j. + Y...)2

︸︷︷︸Tổng bình phương tương tác AB (SSAB)

22

Độ tự do và trung bình bình phương

Trong khai triển tổng bình phương toàn bộ

SSTO︸︷︷︸nT−1

= SSTR︸︷︷︸ab−1

+ SSE︸︷︷︸(n−1)ab

Trong khai triển tổng bình phương treatment

SSTR = SSA︸︷︷︸a−1

+SSB︸︷︷︸b−1

+ SSAB︸︷︷︸(a−1)(b−1)

Nhắc lại trung bình bình phương - mean square là ước lượng của phương sai với tổng bình phương chia cho độ tự dotương ứng.Bảng ANOVA, chú ý vọng trị của trung bình bình phương tương ứng luôn là cơ sở cho kiểm định

6.3.3 Kiểm định F

Có thể kiểm định nhiều giả thuyết khác nhau

• Kiểm định tương tác

H0 : (αβ)ij = 0,∀i, j

F ∗ =MSAB

MSE∼ F1−α;(a−1)(b−1),(n−1)ab

• Kiểm định ảnh hưởng chính nhân tố A

H0 : α1 = α2 = ... = αa = 0

F ∗ =MSA

MSE∼ F1−α;a−1,(n−1)ab

• Kiểm định ảnh hưởng chính nhân tố B

H0 : β1 = β2 = ... = βb = 0

F ∗ =MSB

MSE∼ F1−α;b−1,(n−1)ab

• Bất đẳng thức Kimball

Với kiểm định tương tác, nhân tố A, B lần lượt tại mức α1, α2, α3

bất đẳng thức Bonferroni cho α ≤ α1 + α2 + α3

bất đẳng thức Kimball α ≤ 1− (1− α1)(1− α2)(1− α3)

6.3.4 Chiến lược phân tích

1. Kiểm tra tính tương tác

2. Nếu không tương tác, kiểm tra ảnh hưởng của A, B. Nếu ảnh hưởng là lớn, mô tả ảnh hưởng thei trung bìnhcác nhóm µi., µ.j

3. Nếu có tương tác, kiểm tra tương tác mạnh hay yếu

4. Nếu tương tác yếu, thực hiện bước 2

5. Nếu tương tác mạnh, xem xét việc biến đổi biến số có giúp thể làm giảm tương tác, nếu có thực hiện bước 2

6. Với tương tác mạnh và không thể hiệu chỉnh, phân tích ảnh hưởng 2 nhân tố chung theo µij

23

6.4 Phân tích ảnh hưởng nhân tố không có tương tác

Ước lượng trung bình phân nhóm

• Nhân tố A:

µi. = Yi..

σ2 =σ2

bn

ước lượng phương sai s2(Yi..) =MSE

bn

KTC Yi.. ± t1−α/2;(n−1)abs(Yi..)

• Với trung bình nhóm của nhân tố B µ.j thay Yi.. = Y.j.; bn = an

Ước lượng khác biệt đối lập

Tương tự trong mô hình 1 nhân tố

• Khác biệt đối lập giữa các trung bình nhân tố A

L =∑ciµi.,

∑ci = 0

L =∑ciYi..

σ2(L) =σ2

bn

∑c2i

s2(L) =MSE

bn

∑c2i

KTC L± t1−α/2;(n−1)abs(L)

• Khác biệt đối lập giữa các trung bình nhân tố B µ.j , thay ci = cj ; Yi.. = Y.j.; bn = an

Ước lượng kết hợp tuyến tính

tương tự ước lượng cho khác biệt đối lập, ngoại trừ không cần điều kiện∑ci = 0 hoặc

∑cj = 0

6.4.1 So sánh đồng thời

multiple comparison

• Nhắc lại:

– Tukey: khi quan tâm đến so sánh tất cả các cặp– Bonferroni: tốt nhất khi chỉ so sánh 1 số cặp– Sheffé: khi quan tâm so sánh tất cả các khác biệt đối lập

Tukey

• Cho trung bình nhóm nhân tố A

D = µi. − µi′.D = Yi.. − Yi′..

s2(D) =2MSE

bn

KTC D ± Ts(D)

Với T =1√2q(1− α; a, (n− 1)ab)

Kiểm định H0 : D = 0

|q∗| =√

2D

s(D)∼ q1−α;a,(n−1)ab

• Với trung bình nhóm nhân tố B µ.j , thay Yi.. − Y.j.; bn = an; q(1− α; a, (n− 1)ab) = q(1− α; b, (n− 1)ab)

• Tương tự như trong ANOVA 1 nhân tố, q là phân phối phạm vi Studentized (studentized range distribution)

24

Sheffé

• Nhắc lại như trong ước lượng đối lập L =∑ciµi.,

∑ci = 0

L =∑ciYi..

s2(L) =MSE

bn

∑c2i

S2 = (a− 1)F1−α;a−1,(n−1)ab

L± Ss(L)


F ∗ =L2

(a− 1)s2(L)∼ F (1− α; a− 1, (n− 1)ab)

• Với trung bình nhóm của nhân tố B µ.j , thay ci = cj ; Yi.. = Y.j.; a− 1 = b− 1; bn = an

Bonferroni

• Thay thế T trong Tukey và S trong Sheffé khi ước lượng với

B = t1−α/2g,(n−1)ab, g là số cặp/số khác biệt đối lập/số kết hợp tuyến tính cần so sánh

kiểm định với t∗ =D

s(D)

Ước lượng của cả 2 nhân tố

Khi cả 2 nhân tố đều có ảnh hưởng quan trọng, cần tìm hệ số tin cậy chung cho ước lượng

• Có thể ước lượng trực tiếp với Bonferroni để ước lượng hệ số tin cậy chung

• Hoặc dùng kết hợp với Tukey và Sheffé

• KTC của Sheffé có thể được điều chỉnh với

S2 = (a− b− 2)F1−α;a−b−2,(n−1)ab

kiểm định đồng thời F ∗ =L2

(a− b− 2)s2(L)∼ F (1− α; a− b− 2, (n− 1)ab)

6.5 Phân tích ảnh hưởng nhân tố khi có tương tác

Thẩm định mô hình

Tương tác và không tương tác cần có phương pháp phân tích khác nhau, do lúc này sự khác biệt giữa các nhóm cóthể là do các nhóm của nhân tố khác. Do vậy cần phân tích trên µij thay vì µi. và µ.j tuy nhiên vẫn có thể so sánhtrên các nhóm nhân tố.

So sánh đồng thời nhiều cặp hoặc cặp đối lập trung bình treatment

Lựa chọn giữa Tukey, Bonferroni và Sheffé tương tự đã nói ở các phần trên, các ước lượng và kiểm định thay đổi ởđộ tự do.

• Tukey: D = µij − µi′j′

D = Yij. − Yi′j′.

s2(D) =2MSE

n

KTC D ± Ts(D)

T =1√2q1−α;ab,(n−1)ab

kiểm định D = 0 : |q∗| =√

2D

s(D)∼ q1−α;ab,(n−1)ab

25

• Sheffé: L =∑∑

cijµij ,∑∑

cij = 0

L =∑∑

cij Yij.

s2(L) =MSE

n

∑∑c2ij

KTC L± Ss(L)

S2 = (ab− 1)F1−α;ab−1,(n−1)ab

kiểm định L = 0 : F ∗ =L2

(ab− 1)s2(L)∼ F1−α;ab−1,(n−1)ab

• Bonferroni tương tự các phần trước, thay T, S với

B = t1−α/2g;(n−1)ab

kiểm định t∗ =D

s(D)hoặc t∗ =

L

s(L)∼ t1−α/2g;(n−1)ab

26

Chương 7

ANOVA hai chiều - cỡ mẫu không bằngnhau

two-way unbalanced ANOVA design: nghiên cứu ảnh hưởng của 2 hay nhiều nhân tố khác nhau với cỡ mẫu mỗi nhómkhác nhau

• Lí do cỡ mẫu không bằng có thể do

thực tế số lượng một số nhóm nhân tố là ít

mất mẫu (bỏ cuộc, mất dấu,...)

muốn giảm chi phí cho nhóm điều trị tốn kém hơn

hoặc muốn ước lượng chính xác hơn cho 1 nhóm nhất định nên tăng cỡ mẫu nhóm

• Kí hiệu

như phân tích với cỡ mẫu bằng nhau và

tổng số đối tượng cho nhóm i, j của nhân tố A, B lần lượt là ni. =∑j nij &n.j =

∑i nij

Tổng mẫu nghiên cứu nT =∑i

∑j nij

ước lượng trung bình treatment ở nhóm i của nhân tố A và j của nhân tố B lúc này sẽ là

tổngnij∑k=1

Yijk chia cỡ mẫu của treatment

Yij. =Yij.nij

Nhắc lại, mô hình ANOVA hai chiều chỉ là một dạng đặc biệt của mô hình hồi quy khi các biến số đều là biến địnhtính.

7.1 Mô hình ảnh hưởng nhân tố

Tương tự trong chương 5, 6 Yijk = µ.. + αi + βi + (αβ)ij + εijk với các đặc tính tương tự ⇒ cần lần lượt a-1, b-1,(a-1)(b-1) tham số để ước lượng αi, βj , (αβ)ij với các điều kiện tương ứng.

• mô hình được viết dưới dạng tuyến tính Yijk = µ.. +a−1∑i=1

αiXAijk,i +

b−1∑j=1

βjXBijk,j +

a−1∑i=1

b−1∑j=1

(αβ)ijXAijk,iX

Bijk,j + εijk

Ví dụ mô hình với nhân tố A 2 nhóm, nhân tố B 3 nhóm:

Yijk = µ.. + α1Xijk1︸︷︷︸Ảnh hưởng chính nhân tố A

+ β1Xijk2 + β2Xijk3︸︷︷︸Ảnh hưởng chính nhân tố B

+ (αβ)11Xijk1Xijk2 + (αβ)12Xijk1Xijk3︸︷︷︸Tương tác AB

+εijk

• qui tắc viết ma trận (viết tương tự cho nhân tố B)

XAijk,1 =

1 nếu đối tượng thuộc nhóm 1 nhân tố A−1 nếu đối tượng thuộc nhóm a nhân tố A

0 khác

...

27

XAijk,a−1 =

1 nếu đối tượng thuộc nhóm a-1 nhân tố A−1 nếu đối tượng thuộc nhóm a nhân tố A

0 khác

7.2 Kiểm định

Áp dụng cách kiểm định tuyến tính tổng quát với mô hình đầy đủ và mô hình rút gọn

Kiểm định tương tác

• H0 : (αβ)ij = 0

hay (αβ)11 = (αβ)12 = 0

mô hình rút gọn dạng tương tác Yijk = µ.. + α1Xijk1 + β1Xijk2 + β2Xijk3 + εijk

• Kiểm định tuyến tính tổng quát

F ∗ =SSEr − SSEfdfr − dff

÷ SSEfdff

=SSEr − SSEf

(nT − pr)− (nT − pf )÷ SSEfnT − pf

∼ F1−α;pf−pr,nT−pf

Kiểm định ảnh hưởng chính

Có nhiều giả thuyết kiểm định, vd với 2 nhân tố A,B

• H0 : α1 = ... = αa−1 = 0 với Ha : một hoặc nhiều αi 6= 0

vd mô hình rút gọn ảnh hưởng của nhân tố A

Yijk = µ.. + β1Xijk2 + β2Xijk3 + (αβ)11Xijk1Xijk2 + (αβ)12Xijk1Xijk3 + εijk

kiểm định F tương tự, với mô hình rút gọn mới

Tiếp cận tương tự với kiểm định ảnh hưởng của nhân tố B

28

Documents

Anova