Upload
nguyen-phuong-thao
View
91
Download
6
Embed Size (px)
DESCRIPTION
explanation about ANOVA
Citation preview
ANOVA
Tóm tắtTiếp theo hồi quy tuyến tí[email protected]
CẬP NHẬT! Chỉnh sửa một số độ tự do
Ngày 29 tháng 1 năm 2013
Mục lục
1 Giới thiệu 31.1 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 ANOVA và hồi quy tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 ANOVA 1 nhân tố 42.1 t-test 2 mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 ANOVA: Giả thuyết và xác định mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Ước lượng LS(ML) cho tham số và phần dư . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 SSTO,SSTR,SSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4.1 Khai triển tổng bình phương độ lệch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4.2 Ngẫu nhiên hóa thống kê F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Phân tích ảnh hưởng nhân tố 73.1 Minh họa trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.2 Ước lượng và kiểm định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2.1 Trung bình một nhóm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.2.2 Khác biệt trung bình 2 nhóm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.2.3 Khác biệt đối lập giữa các nhóm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.2.4 Kết hợp tuyến tính giữa các nhóm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Qui trình so sánh đồng thời . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3.1 Phương pháp Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3.2 Phương pháp Sheffé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3.3 Phương pháp Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4 Chẩn đoán và hiệu chỉnh 124.1 Lựa chọn mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.2 Phân tích phần dư . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.3 Các kiểm định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3.1 Kiểm định không hằng định phương sai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.3.2 Kiểm định giá trị ngoại lai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.3.3 Kiểm định phân phối bình thường . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4 Các phương pháp hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.4.1 Bình phương tối thiểu hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.4.2 Biến đổi Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.4.3 Kiểm định F phi tham số xếp hạng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.4.4 Ảnh hưởng khi mô hình sai lệch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 Sửa đổi mô hình và cách tiếp cận hồi quy 165.1 Mô hình ảnh hưởng nhân tố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.1.1 Trung bình không hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165.1.2 Trung bình hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2 Mô hình trung bình khối . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6 ANOVA hai chiều - cỡ mẫu bằng nhau 196.1 ANOVA 2 nhân tố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196.2 Ý nghĩa các yếu tố trong mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.2.1 Ảnh hưởng chính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.2.2 Ảnh hưởng cộng thêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1
6.2.3 Ảnh hưởng tương tác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.3 Xác định mô hình ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.3.1 Phương pháp ước lượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216.3.2 SSTO, SSTR, SSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226.3.3 Kiểm định F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236.3.4 Chiến lược phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.4 Phân tích ảnh hưởng nhân tố không có tương tác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246.4.1 So sánh đồng thời . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.5 Phân tích ảnh hưởng nhân tố khi có tương tác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7 ANOVA hai chiều - cỡ mẫu không bằng nhau 277.1 Mô hình ảnh hưởng nhân tố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277.2 Kiểm định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2
Chương 1
Giới thiệu
1.1 ANOVA
ANalysis Of VAriance
• So sánh đầu ra trong nhiều hơn 2 dân số
• Biến số đầu ra định lượng
• Có thể một hoặc nhiều nhân tố là biến phân loại 2 nhóm hoặc nhiều hơn
• Kí hiệu:
Biến số số đầu ra Y = Yij , cho đo lường thứ j của i
i = 1, 2, ..., r hay có r nhóm, hay r treatment, hay r dân số
j = 1, 2, ..., ni hay ni đối tượng trong nhóm thứ ir∑i=1
ni = nT = Tổng cỡ mẫu
Lưu ý luôn cho các tài liệu khác, kí hiệu phân phối, vd ∼ t(1 − α, ...) dùng để nói vắn tắt cho so sánh vớiphân vị 1− α của phân phối tương ứng
1.2 ANOVA và hồi quy tuyến tính
• Tương tự hồi quy tuyến tính
sử dụng các biến số tiên đoán để dự đoán đầu ra Y
biến số đầu ra là định lượng
• Lựa chọn giữa ANOVA và hồi quy tuyến tính (kết quả giống nhau)
biến số tiên đoán của ANOVA chỉ là định tính
hồi quy tuyến tính có thể phân tích các biến số định tính bằng cách tạo các biến giả
biến số định lượng có thể phân nhóm để phân tích ANOVA
ANOVA đơn giản tính toán
3
Chương 2
ANOVA 1 nhân tố
2.1 t-test 2 mẫu
• Trường hợp đặc biệt của ANOVA khi nhân tố chỉ có 2 nhóm
• H0 : F = G (phân phối 2 nhóm như nhau)
• Với giả định về tham số của 2 dân số (độc lập, phân phối bình thường, phương sai bằng nhau), giả thuyết trởthành µ1 = µ2
⇒ T1 =Y − X − |µ2 − µ1|√
S2P ( 1
n1+ 1
n2)∼ t(n1 + n2 − 2) lưu ý với H0, µ2 − µ1 = 0 trong công thức
Pooled variance S2P =
∑n1
i=1(Xi − X)2 +∑n2
i=1(Yi − Y )2
n1 + n2 − 2
2.2 ANOVA: Giả thuyết và xác định mô hình
Cơ sở
• Với 3 nhóm trở lên
H0 : F1 = F2 = ... = Fr
Ha : ít nhất 1 Fi khác biệt
• Với giả thuyết:
phân phối xác suất mỗi nhóm là phân phối bình thường
phân phối xác suất mỗi nhóm có phương sai bằng nhau
Biến số đầu ra ở mỗi nhóm nhân tố là độc lập
H0 : µ1 = µ2 = ... = µr
• Phân tích với 2 bước
Xác định sự khác biệt giữa các nhóm
Nếu có, sự khác biệt là bao nhiêu và cho biết điều gì
Mô hình trung bình khối
Cell means model
• Mô hình ANOVA được lập như sau
Yij = µi + εij với eij ∼ N(0, σ2)
E[Yij ] = µi
V [Yij ] = σ2
Yij phân phối bình thường
εij độc lập với nhau, tương tự yij
4
Phân biệt mô hình ANOVA I và II
• ANOVA I hay mô hình fixed effects: các nhóm nhân tố được chọn theo chủ đích, không phải là mẫu từ 1 dânsố, không suy diễn cho dân số
• ANOVA II hay mô hình randome effects: các nhóm nhân tố được chọn mẫu từ 1 dân số, nhằm suy diễn cho dânsố
2.3 Ước lượng LS(ML) cho tham số và phần dư
Phương pháp bình phương tối thiểu least square (LS) và tối đa xác suất maximum likelihood (ML) được dùngđể ước lượng tham số µi
• LS: ước lượng µi qua tìm cực tiểu của đại lượng biểu diễn qua tổng bình phương độ lệch từ mô hình
Q =∑i
∑j
(Yij − µi)2 =∑j
(Y1j − µ1)2 +∑j
(Y2j − µ2)2 + · · ·+∑j
(Yrj − µr)2
⇔ tìm cực tiểu của tất cả các tổng ⇒ µi = Yi
• ML: ước lượng µi qua tìm cực đại của hàm log-likelihood tính được từ dữ kiện. Tương tự trong hồi quy tuyếntính. Chỉ khác vọng trị ở đây là µi thay vì β0 + β1Xi
• Phần dư εij = Yij − µi = Yij − Yi. cho biết độ lệch của Yij so với trung bình ước lượng của phân nhóm.
• ước lượng phương sai s2i =
∑j(Yij − Yi.)2
ni − 1
2.4 SSTO,SSTR,SSE
2.4.1 Khai triển tổng bình phương độ lệch
• Tương tự hồi quy, khai triển tổng biến thiên SSTO ra thành các cấu phần để phát hiện các nguồn biến thiên vàđánh giá vai trò của mỗi phần.
• Với Y.. là trung bình mẫu, và Yi. là trung bình phân nhóm thứ i, ta có
Yij − Y.. = [Yi. − Y..] + [Yij − Yi.] hayTổng biến thiên = Biến thiên của trung bình phân nhóm quanh trung bình mẫu + Biến thiên Y quanh
trung bình phân nhóm
• Tương tự hồi quy tuyến tính, bình phương hai vế và lấy tổng∑i
∑j
(Yij − Y..)2 =∑i
∑j
(Yi. − Y..)2 +∑i
∑j
(Yij − Yi.)2 + 0
⇔∑i
∑j
(Yij − Y..)2︸ ︷︷ ︸SSTO:Tổng bình phương độ lệch
=∑i
ni(Yi. − Y..)2︸ ︷︷ ︸SSTR: Tổng bình phương treatment
+∑i
∑j
(Yij − Yi.)2︸ ︷︷ ︸SSE: Tổng bình phương sai số
Với độ tự do lần lượt là nT − 1, r − 1, nT − r
• Vọng trị trung bình bình phương
nhớ lại mean squares là lấy tổng bình phương chia cho độ tự do
E(MSE) = σ2
Với trung bình mỗi nhóm hiệu chỉnh cho cỡ mẫu là µ. =∑niµi
nT
E(MSTR) = σ2 +
∑ni(µi − µ.)r − 1
• Lưu ý:
MSE là ước lượng tố không sai lệch của phương sai sai số dù trung bình các phân nhóm có bằng nhau haykhông ⇒ biến thiên trong mỗi phân nhóm không bị ảnh hưởng bởi trung bình được ước lượng của mỗi nhóm
5
Thống kê F
• Từ MSE ta thấy nếu trung bình các nhóm bằng nhau, hay H0 đúng, thì µ. = µi ⇔ E(MSE) = E(MSTR)
Ha đúng ⇔ E(MSE) < E(MSTR)
Nhớ lại vọng trị là đại lượng không biết mà chỉ ước lượng qua ước lượng tố, vd MSE và E(MSE)
• F =MSTR
MSE∼ F1−α,r−1,nT−r
2.4.2 Ngẫu nhiên hóa thống kê F
Randomization F test
• Kiểm định không giả định về phân phối của sai số ε
• Ngẫu nhiên hóa để ước lượng phân phối chính xác của số thống kê
Tính thống kê F obs từ dữ kiện có được
Coi tổng số đối tượng là một dân số giới hạn
⇒ nếu phân nhóm ngẫu nhiên lại vào các phân nhóm thì phân phối không đổi
Nếu không có ảnh hưởng của nhóm, quá trình ngẫu nhiên sẽ tương tự
phân nT đối tượng ngẫu nhiên thành r nhóm (nhớ công thức phân hoạch partition = nT !n1!...nr!
)
Lập lại quá trình với số lần đủ lớn (hay tất cả cách xảy ra của kết cuộc) B
tính thống kê F* cho từng lần ta sẽ một mẫu các giá trị, hay phân phối rời rạc của F*
Xác định p− value dựa trên phân phối F ∗
Ví dụ p = P (F ∗ ≥ F obs)
• Lưu ý
Phân phối F ∗ là phân phối rời rạc nên cần xác định rõ khi tính p-value là P (F ∗ ≥ F obs) hay P (F ∗ > F obs)
6
Chương 3
Phân tích ảnh hưởng nhân tố
Analysis of Factor Level effects
• F-test cho biết có trung bình µi nào khác biệt hay không nhưng không cho biết của nhóm nào, và khác biệt baonhiêu
3.1 Minh họa trung bình
• Biểu đồ tuyến line plot vẽ các trung bình các nhóm yi trên 1 đường thẳng
• Biểu đồ thanh thể hiện độ lớn khác biệt giữa các nhóm
• Ảnh hưởng chính Main effect plot vẽ phân tán đồ của các trung bình thể hiện xu hướng (sử dụng với biếnđịnh lượng). Gọi là ảnh hưởng chính vì trong mô hình ANOVA, ảnh hưởng chính là do các phân nhóm.
3.2 Ước lượng và kiểm định
Các yếu tố quan tâm
• Trung bình một phân nhóm µi
• Khác biệt giữa 2 nhóm
• Khác biệt đối lập giữa các nhóm
• Kết hợp tuyến tính giữa trung bình các nhóm
3.2.1 Trung bình một nhóm
• Ước lượng tố của trung bình nhóm i µi = Yi. có
trung bình E(Yi.) = µi
phương sai V (Yi.) = σ2
ni(nhớ mô hình gồm hằng số cộng sai số có phương sai σ2)
Ước lượng phương sai s2(Yi.) = MSEni
Yi. − µis(Yi.)
∼ tnT−r
7
• Khoảng tin cậy Yi. ± t1−α/2,nT−rs(Yi.)
• Kiểm định t∗ =Yi. − cs(Yi.)
3.2.2 Khác biệt trung bình 2 nhóm
• Khác biệt giữa 2 nhóm (pairwise) D = µi − µi′Ước lượng cho D: D = Yi. − Yi′.trung bình E(D) = µi − µi′
phương sai V ar(D) = σ2(Yi.) + σ2(Yi′.) = σ2
(1
ni+
1
ni′
)do Yi., Yi′. độc lập
s2(D) = MSE
(1
ni+
1
ni′
)Có phân phối bình thường do là kết hợp tuyến tính của các biến số độc lập phân phối bình thường
D −Ds(D)
∼ tnT−r
• KTC D ± t1−α/2,nT−rs(D)
• Kiểm định H0 : µi = µi′ với t∗ =D
s(D)
3.2.3 Khác biệt đối lập giữa các nhóm
contrast of levels factor
• So sánh 2 hoặc nhiều nhóm với L là kết hợp tuyến tính với
L =r∑i=1
ciµi,r∑i=1
ci = 0
• Minh họa
L = µ1 − µ2 với c lần lượt là 1,-1
L = µ1+µ2
2 − µ4+µ4
2 với c lần lượt là 1/2,1/2 và -1/2,-1/2
L = µ1+µ2
2 − µ3+µ4
2 với c lần lượt là 1/2,1/2 và -1/2,-1/2
L = µ1 − µ1+µ2+µ3+µ4
4 với c lần lượt là 3/4,-1/4, -1/4,-1/4
• Các ước lượng
L =r∑i=1
ciYi.
σ2(L) = σ2r∑i=1
c2ini
s2(L) = MSEr∑i=1
c2ini
• KTC
L± t1−α/2,nT−rs(L)
• Kiểm định H0 : L = 0
t∗ =L
s(L)
8
3.2.4 Kết hợp tuyến tính giữa các nhóm
• Kết hợp tuyến tính với
L =r∑i=1
ciµi
Không có điều kiện cho ciƯớc lượng và kiểm định tương tự khác biệt đối lập
Ví dụ L = .35µ1 + .28µ2 + .12µ3 + .25µ4
3.3 Qui trình so sánh đồng thời
Multiple comparisons
Suy diễn đồng thời
Simultaneous inference Các cách ước lượng nói trên có 2 giới hạn
• Xác suất sai lầm loại I chung: như trong phân tích hồi quy, hệ số tin cậy 1− α chỉ áp dụng cho từng kiểmđịnh riêng lẻ chứ không phải cho toàn bộ các kiểm định chung trong qui trình
Mức tin cậy của từng kiểm định cần giảm
hay p-value của từng kiểm định cần hiệu chỉnh khi so sánh với giá trị α
• Thăm dò dữ kiện - data snooping: quá trình nghiên cứu những khác biệt được gợi ý từ mô tả dữ kiện. Hệsố tin cậy 1− α chỉ phù hợp nếu kiểm định không do dữ kiện gợi ý.
Ví dụ tiến hành kiểm định giữa nhóm có trung bình cao nhất và nhóm thấp nhất sẽ cho mức tin cậy caohơn bình thường.
Cần kiểm định tất cả từng cặp khác biệt với lựa chọn phù hợp
3.3.1 Phương pháp Tukey
• Áp dụng khi so sánh tất cả các cặp H0 : µi = µi′
Khi cỡ mẫu bằng nhau, họ mức ý nghĩa thống kê là α
Khi cỡ mẫu bằng nhau, họ mức ý nghĩa thống kê sẽ nhỏ hơn α
• Dựa trên Phân bố Phạm vi Studentized - studentized range distribution
Cho r đối tượng từ Y1, ..., Yr có trung bình là µ và phương sai σ2 và ước lượng phương sai là s2 dựa trên νđộ tự do
Phạm vi của dãy dữ kiện w = max(Yi)−min(Yi)
⇔ Phạm vi được studentized q(r, ν) =w
svới phân phối được theo bảng B.9 Kutner et al.
• Ước lượng KTC
Tương tự so sánh hai nhóm với D = µi − µi′ với s2(D) = MSE( 1ni
+ 1ni′
)
KTC khác biệt D ± Ts(D)
KTC cho trung bình nhóm Yi. =1
2Ts(D)
Với T =1√2q(1− α; r, nT − r)
• Kiểm định H0 : D = 0
|q∗| =√
2D
s(D)∼ q1−α;r;nT−r
• Khi cỡ mẫu các nhóm không bằng nhau cần tính phương sai cho từng nhóm, còn được gọi là phương phápKramer-Tukey
9
• Có thể vẽ trung bình và KTC để đánh giá, có sự khác biệt nếu KTC 2 trung bình không giao nhau
3.3.2 Phương pháp Sheffé
• Sử dụng khi quan tâm đến so sánh tất cả các khác biệt đối lập giữa các nhóm.
• Các ước lượng tố, phương sai tương tự trong so sánh khác biệt đối lập giữa các nhóm
ước lượng phương sai s2(L) = MSE∑ c2i
ni
Sheffé S2 = (r − 1)F1−α;r−1,nT−r
• KTC L± Ss(L)
• Kiểm định H0 : L = 0
F ∗ =L2
(r − 1)s2(L)∼ F (1− α; r − 1, nT − r)
• Có thể sử dụng cho mục đích thăm dò dữ kiện
• Lưu ý: tính KTC của L nếu không chứa 0 thì kiểm định F không có ý nghĩa
So sánh Tukey và Sheffé
• Nếu chỉ so sánh từng cặp, nên sử dụng Tukey vì cho KTC hẹp hơn
• F-test trong Sheffé nếu có ý nghĩa thống kê thì sẽ có ít nhất một so sánh đối lập có ý nghĩa thống kê. Tuy nhiêncó thể không phải là so sánh có ứng dụng được.
3.3.3 Phương pháp Bonferroni
• Sử dụng cả cho so sánh từng cặp, đối lập, liên quan tuyến tính, cỡ mẫu các nhóm có bằng nhau hay không do.
• So từng cặp và đối lập là trường hợp đặc biệt của liên quan tuyến tính
• Với số lần so sánh g, với hệ số tin cậy chung là 1− αB = t1−α/2g,nT−r
• KTC L±Bs(L)
ít nhất (1-α/2g) % khi lập lại các thử nghiệm, cả g KTC đều đúng
• Kiểm định H0 : L = 0
|t∗| = L
s(L)∼ t1−α/2g;nT−r
• Không nhất thiết mỗi kiểm định riêng lẻ của hệ số tin cậy chung 1− α phải là 1− α/g, tùy thuộc vào so sánhnào đòi hỏi cao hơn có thể dùng các hệ số khác nhau với điều kiện α1 + α2 + ...+ αg = α
10
So sánh Bonferroni với Tukey và Sheffé
• Do có thể có quá nhiều kết hợp tuyến tính giữa các nhóm có thể xảy ra, Bonferroni có thể đưa đến hiệu chỉnhquá mức dẫn đến tất cả đều không có ý nghĩa thống kê.
• Nếu muốn so sánh tất cả các cặp, Tukey cho KTC hẹp hơn, nếu không xét tất cả thì sử dụng Bonferroni.
• Nếu số trường hợp so sánh đối lập ít hơn hoặc bằng số nhóm, dùng Bonferroni thay vì Sheffé
• Ba phương pháp đều ước lượng dạng ước lượng ± nhân tử × SE, và chỉ khác nhau ở nhân tử.
Có thể tính cả 3 và chọn phương pháp có nhân tử nhỏ nhất
11
Chương 4
Chẩn đoán và hiệu chỉnh
4.1 Lựa chọn mô hình
• Cần lựa chọn mô hình trước khi có thể tiến hành các bước ước lượng và suy diễn
• Tương tự hồi quy, mô hình ANOVA phù hợp hay không phụ thuộc
phương sai sai số hằng định
sai số là độc lập
ảnh hưởng của các giá trị ngoại lai
thiếu biến số quan trọng trong mô hình
sai số không phân phối bình thường
4.2 Phân tích phần dư
Phần dư trong ANOVA
• Phần dư trong mô hình ANOVA là eij = Yij − Yij
• Các phương pháp biến đổi phần dư trong hồi quy vẫn áp dụng ở đây
– Phần dư Semistudentized e∗ij =eij√MSE
– Phần dư Studentized rij =eijs(eij)
với
s(eij) =
√MSE(ni − 1)
ni
– Phần dư bị loại Studentized tij = eij
√√√√√ nT − r − 1
SSE
(1− 1
ni
)− e2ij
• Trong công thức trên, nếu các nhóm cỡ mẫu bằng nhau, phần dư Studentized ≈ Semistudentized do 1− 1
ni≈ 1
với cỡ mẫu không quá nhỏ
• 1
niđược gọi là leverage của sai số eij , cho biết vai trò của đối tượng yij trong khi phân tích phần dư
Nếu ni lớn, yij ít quan trọng trong ước lượng µi⇒ leverage nhỏ và phần dư rij tương ứng nhỏ hơn do s(eij) lớn hơn. Và ngược lại nếu cỡ mẫu nhóm lớn
Biểu đồ phần dư
• Vẽ phần dư với giá trị khớp Yij : phát hiện không hằng định phương sai và giá trị ngoại lai.
Dùng phần dư studentized nếu cỡ mẫu các nhóm khác biệt lớn
• Các biểu đồ khác như biểu đồ điểm (dot plot), NPP, biểu đồ theo thời gian, hình hộp,...
12
• Tất cả các dạng biểu đồ cần cho thấy phần dư chuẩn hóa cho dạng
phân phối đối xứng quanh 0,
phần dư các nhóm không lệch quá nhiều.
không có sự phụ thuộc theo thứ tự, thời gian.
4.3 Các kiểm định
4.3.1 Kiểm định không hằng định phương sai
• Kiểm định Hartley: đòi hỏi cỡ mẫu bằng nhau và sai số phân phối bình thường
Với r nhóm cỡ mẫu bằng nhau, nhóm i có phương sai là σi và ước lượng phương sai mẫu là s2i với độ tự domỗi nhóm là df
Kiểm định H0 : σ21 = σ2
2 = ... = σ2r , Ha ít nhất một σ2
i khác biệt
Thống kê H∗ =max(s2i )
min(s2i )∼ H(1− α; r; df) Phân phối thống kê H, Bảng B.10 Kutner et al
Với ANOVA 1 nhân tố ni ≡ n, ta có df = n− 1 và phương sai ước lượng
s2i =
n∑j=1
(Yij − Yi.)2
n− 1=
n∑j=1
e2ij
n− 1
• Brown-Forsythe: không ảnh hưởng bởi phân phối không bình thường và không cần cỡ mẫu bằng nhau
Kiểm định giả thuyết như Hartley
Dựa trên độ lệch tuyệt đối với trung vị của nhóm dij = |Yij − Yi|
Trung bình độ lệch của mỗi nhóm di. =
∑j dij
ni
Trung bình độ lệch của nghiên cứu di.. =
∑∑dij
nT
MSE =
∑∑(dij − di.)2
nT − r
MSTR =
∑ni(di. − di..)2
r − 1
Thống kê F ∗BF =MSTR
MSE∼ F1−α,r−1,nT−r
4.3.2 Kiểm định giá trị ngoại lai
• So sánh phần dư với phân phối theo giả định mô hình
• So với giá trị t1−α/(2nT ),nT−r−1
4.3.3 Kiểm định phân phối bình thường
• So sánh tần số quan sát với vọng trị dưới phân phối bình thường
Shapiro-Wilk
Kolmogorov-Smirnov
4.4 Các phương pháp hiệu chỉnh
• Tương tự hồi quy, hiệu chỉnh nhằm các mục đích:
hiệu chỉnh để cải thiện ước lượng cho mô hình
biến đổi Y và lập lại quá trình ước lượng
sử dụng các kiểm định phi tham số để suy diễn
13
• Cụ thể
Với phương sai không hằng định: phương pháp ước lượng WLS- hiệu chỉnh bình phương tối thiểu weighted
least square
sai số không phân phối bình thường: xem xét biến đổi Y
sai lệch quá lớn: sử dụng phương pháp phi tham số
4.4.1 Bình phương tối thiểu hiệu chỉnh
weighted least square
• Hiệu chỉnh bằng cách lập mô hình với Yij được hiệu chỉnh với trọng số tỷ lệ theo phương sai σ2i
hiệu chỉnh do đối tượng thứ j trong nhóm i wij =1
s2i
• Áp dụng cách kiểm định tuyến tính tổng quát với mô hình đầy đủ và mô hình rút gọn
Mô hình đầy đủ Yij = µ1Xij1 + µ2Xij2 + ...+ µrXijr với X1 = 1 nếu thuộc nhóm 1, vv...
Mô hình rút gọn Yij = µcXij + εij , Xij ≡ 1 với µc là trung bình chung
Thống kê F ∗ =SSEw(r)− SSEw(f)
r − 1÷ SSEw(f)
nT − r
4.4.2 Biến đổi Y
• Khi mô hình cho thấy vừa không hằng định phương sai vừa không phân phối bình thường
• Một số hướng dẫn cơ bản (dựa trên khai triển dãy Taylor cho phương sai Y):
– phương sai sai số tỷ lệ với trung bình phân nhóm µi.
Y ′ =√Y
Y ′ =√Y +
√Y + 1
– độ lệch sai số tỷ lệ với trung bình phân nhóm µi.
Y ′ = logY
– độ lệch sai số tỷ lệ với bình phương trung bình phân nhóm µ2i.
Y ′ =1
Y
– Y là biến số tỷ lệ hay phương sai phụ thuộc vào trung bình (phân phối B(n,p)):Y ′ = 2arcsin
√Y
phương pháp hồi quy logistic
• Biến đổi Box-Cox tương tự hồi quy tuyến tính
hiệu chỉnh phương sai sai số không hằng định và sai số không phân phối bình thường
biến đổi mũ Y λ với mỗi λ lập mô hình và tính SSE
λ cho SSE mô hình nhỏ nhất là biến đổi phù hợp
• Sau khi biến đổi, cần lập lại chẩn đoán mô hình
4.4.3 Kiểm định F phi tham số xếp hạng
Nonparametric rank F test
• Kiểm định F không giả định phân phối bình thường của sai số, chỉ cần phân phối là liên tục
• Dựa trên phương pháp xếp hạng
Xếp hạng tăng dần từ 1 đến nTGọi Rij là hạng của YijNếu trùng hạng (ties rank), dùng hạng trung bình
14
• Tiến hành kiểm định F trên hạng
Hạng trung bình nhóm Ri. =
∑j Rij
ni
Hạng trung bình mẫu Ri.. =
∑∑Rij
nT=nT + 1
2
MSE =
∑∑(Rij − Ri.)2
nT − r
MSTR =
∑ni(Ri. − Ri..)2
r − 1
Kiểm định F ∗R =MSTR
MSE∼ F1−α,r−1,nT−r
4.4.4 Ảnh hưởng khi mô hình sai lệch
• Không phân phối bình thường
không ảnh hưởng nhiều nếu không lệch quá lớn
Độ nhọn Kurtosis ảnh hưởng nhiều hơn độ lệch của phân phối Skewness
ước lượng trung bình không sai lệch
Sai lầm loại I của F-test bị ảnh hưởng nhỏ (α có thể lớn hơn so với mức lựa chọn)
⇒ biến đổi Y, F-test phi tham số hoặc mô hình tuyến tính tổng quát GLM generalized linear model
• phương sai sai số không hằng định
không ảnh hưởng nhiều lên kết quả F-test nếu cỡ mẫu các nhóm xấp xỉ nhau
⇒ cỡ mẫu bằng nhau dùng WLS, dùng GLM
• sai số không độc lập
ảnh hưởng rất lớn lên mô hình
thường khó hiệu chỉnh nên cần tránh từ khâu thiết kế (chương 27 Kuter et al)
⇒ dùng mô hình theo thời gian time series model
• giá trị ngoại lai : dùng các ước lượng robust, loại đối tượng
15
Chương 5
Sửa đổi mô hình và cách tiếp cận hồi quy
3 cách biểu diễn mô hình ANOVA
• Mô hình ảnh hưởng nhân tố không hiệu chỉnh trung bình - factor effect model with unweighted mean
Yij = µ. + τi + εij với µ. là trung bình nhóm
• Mô hình ảnh hưởng nhân tố hiệu chỉnh trung bình
Yij = µ. + τi + εij với µ. là trung bình nhóm được hiệu chỉnh với trọng số
• Mô hình trung bình khối - cell means model
Yij = µi + εij
• Cách biểu diễn dạng tuyến tính chỉ thay đổi định nghĩa các tham số, không ảnh hưởng đến suy diễn
5.1 Mô hình ảnh hưởng nhân tố
Công thức
• Ảnh hưởng của nhân tố được phân tích thành µi ≡ µ. + (µi − µ.)︸ ︷︷ ︸τi
• mô hình được viết thành Yij = µ. + τi + εij
τi là ảnh hưởng của nhóm thứ i - ith factor level effect/ith treatment effect
εij ∼ N(0, σ2)
Tùy vào định nghĩa trung bình µ. ta sẽ có mô hình hiệu chỉnh hay không hiệu chỉnh trung bình
5.1.1 Trung bình không hiệu chỉnh
• µ. =
∑ri=1 µir
= trung bình các nhóm
hayr∑i=1
τi = 0
do∑τi =
∑(µi − µ.) =
∑µi − rµ.
• Với mô hình Yij = µ. + τi + εij , ta cần ước lượng µ. và τ1, ..., τr−1τr = −τ1 − τ2 − ...− τr−1
• mô hình được viết dưới dạng tuyến tính và ma trận
Yij = µ. + τ1Xij,1 + τ2Xij,2 + ...+ τr−1Xij,r−1 + εij
Với Xij,1 là giá trị của biến số X1 của đối tượng thứ j trong nhóm i và tương tự cho đến biến số Xr−1
Xij,1 =
1 nếu đối tượng thuộc nhóm 1−1 nếu đối tượng thuộc nhóm r
0 khác
...
16
Xij,r−1 =
1 nếu đối tượng thuộc nhóm r-1−1 nếu đối tượng thuộc nhóm r
0 khác
• Ước lượng
µ.: µ. =
∑ri=1 Yi.r
ước lượng τi: τi = Yi. − µ.
• Kiểm định H0 : τ1 = τ2 = ... = τr−1 = 0 hay ảnh hưởng của các nhóm là như nhau
kiểm định tuyến tính tổng quát với
mô hình rút gọn Yij = µ. + εij
F ∗ =MSR
MSE∼ F1−α,r−1,nT−r
5.1.2 Trung bình hiệu chỉnh
• Áp dụng khi cỡ mẫu các nhóm là khác nhau hay mỗi nhóm trong thực tế có vai trò quan trọng khác nhau
• Trung bình được hiệu chỉnh với trọng số tỷ lệ với cỡ mẫu wi =ninT
µ. =∑ri wiµi ≡
∑ri
ninT
µi
Ta thấy∑ri wi = 1
và∑ri wiτi = 0
τr = −n1
nrτ1 − n2
nrτ2 − ...− nr−1
nrτr−1
• Mô hình đầy đủ tương tự trung bình không hiệu chỉnh, khác như sau
Xij,1 =
1 nếu đối tượng thuộc nhóm 1ninr
nếu đối tượng thuộc nhóm r
0 khác
...
Xij,r−1 =
1 nếu đối tượng thuộc nhóm r-1
−nr−1nr
nếu đối tượng thuộc nhóm r
0 khác
• Ước lượng
µ.: µ. =∑ri
ninT
Yi. = Yi..
τi: τi = Yi. − µ.
• Kiểm định H0 : τ1 = τ2 = ... = τr−1 = 0 hay ảnh hưởng của các nhóm là như nhau
Kiểm định tương tự trung bình không hiệu chỉnh
5.2 Mô hình trung bình khối
Cell means model Đã gặp từ đầu, mô hình được viết như sau
• Yij = µi + εij
Dạng tuyến tính Yij = µ1Xij,1 + µ2Xij,2 + ...+ µrXij,r + εij không có điểm chặn
Xij,1 =
{1 nếu đối tượng thuộc nhóm 10 khác
...
Xij,r =
{1 nếu đối tượng thuộc nhóm r0 khác
17
• Ước lượng µi = Y.
• Kiểm định H0 : µ1 = µ2 = ... = µr (không kiểm định =0)
phương pháp kiểm định tuyến tính tổng quát với mô hình rút gọn
Yij = µc + εij với µc là trung bình chung khi H0 đúng
F =MSR
MSE∼ F1−α,r−1,nT−r
18
Chương 6
ANOVA hai chiều - cỡ mẫu bằng nhau
two-way balanced ANOVA design: nghiên cứu ảnh hưởng của 2 hay nhiều nhân tố khác nhau với cỡ mẫu mỗi nhómnhư nhau
6.1 ANOVA 2 nhân tố
Mục đích
• phân tích ảnh hưởng của từng nhân tố
• phân biệt ảnh hưởng của nhân tố (ảnh hưởng chính -main effects) với tương tác của các nhân tố
• Cần phân tích đồng thời các nhân tố để tránh sai lệch
Kí hiệu
• Minh họa với 2 nhân tố
Nhân tố A, có a nhóm, i = 1, ..., a
Nhân tố B, có b nhóm, j = 1, ..., b
6.2 Ý nghĩa các yếu tố trong mô hình
Giả định biết trung bình dân số của mỗi nhóm và trung bình mỗi nhóm có vai trò quan trọng như nhau khi tính trungbình của các nhóm.
Các trung bình
• Trung bình treatment Mỗi kết hợp giữa các nhóm của 2 nhân tố A, B được một treatment với trung bìnhµij
• Trung bình nhóm của nhân tố
Trung bình của nhóm thứ j của nhân tố B µ.j =
∑a1 µija
Trung bình của nhóm thứ i của nhân tố A µi. =
∑b1 µijb
• Trung bình chung
µ.. =
∑i
∑j µij
ab=
∑ai µi.a
=
∑bi µ.jb
19
6.2.1 Ảnh hưởng chính
main effects cho biết nhóm nhân tố lệch bao nhiêu so với trung bình chung
• Ảnh hưởng của nhân tố A αi = µi. − µ..
• Ảnh hưởng của nhân tố B βj = µ.j − µ..
•∑αi =
∑βj = 0
6.2.2 Ảnh hưởng cộng thêm
additive effects
• Khi có thể viết trung bình treatment ở dạng
µij = µ.. + α1 + β1
= µi. + µ.j − µ..= µi′j + µij′ − µi′j′ , i 6= i′, j 6= j′
• Có nghĩa là ảnh hưởng của mỗi nhân tố không phụ thuộc vào nhân tố khác
⇒ có thể phân tích độc lập và mô tả ảnh hưởng chỉ qua ảnh hưởng chính
• Biểu đồ tương tác - interaction plot
2 biểu đồ cho thấy ảnh hưởng của 1 nhân tố và ảnh hưởng của cả 2 nhân tố nhưng không tương tác
• Các thông tin nhận dạng ảnh hưởng cộng thêm khác
Khác biệt trung bình cho bất cứ 2 nhóm nào trong nhân tố B là như nhau cho mọi nhóm nhân tố A, vàngược lại vd khác biệt giữa nhóm young và middle trong nam và nữ là như nhau
Biểu đồ tương tác hiển thị đường song song
6.2.3 Ảnh hưởng tương tác
• Khi có một µij 6= µ.. + αi + βj
20
• Sự khác biệt trên là ảnh hưởng tương tác - interaction - của nhóm i của nhân tố A với nhóm j của nhân tố B
(αβ)ij = µij − (µ.. + αi + βj)
= µij − µi. − µ.j + µ..∑i(αβ)ij =
∑j(αβ)ij = 0
• Biểu đồ tương tác không có dạng song song, 1 tương tác nhiều và 1 ít
6.3 Xác định mô hình ANOVA
Định nghĩa mô hình
• Kí hiệu
Với n đối tượng, nT = abn
Gọi Yijk, k = 1, ..., n với k chỉ 1 đối tượng của một treatment ij
Mô hình trung bình khối
• Yijk = µij + εijk
ε ∼ N(0, σ2)
E(Yijk) = µij
σ2(Yijk) = σ2(εijk) = σ2
⇒ Yijk ∼ N(µij , σ2)
Mô hình ảnh hưởng nhân tố
• Từ công thức về ảnh hưởng tương tác
µij = µ.. + αi + βi + (αβ)ij
mô hình Yijk = µ.. + αi + βi + (αβ)ij + εijk
Yijk ∼ N [µ.. + αi + βi + (αβ)ij , σ2]
6.3.1 Phương pháp ước lượng
• Kí hiệu
Tổng các đối tượng cho treatment ij Yij. =n∑k=1
Yijk với trung bình Yij. =Yij.n
Tổng tất cả đối tượng của nhóm thứ i Yi.. =b∑j
n∑k
Yijk và trung bình là Yi.. =Yi..nb
Tổng tất cả đối tượng của nhóm thứ j Y.j. =a∑i
n∑k
Yijk và trung bình là Y.j. =Y.j.na
21
Tổng tất cả đối tượng Y... =a∑i
b∑j
n∑k
Yijk và trung bình chung là Y... =Y...nab
• ước lượng LS với
Q =∑i
∑j
∑k(Yijk − µij)2 với mô hình trung bình khối
=∑i
∑j
∑k(Yijk − µ.. − αi − βi − (αβ)ij)
2 với mô hình ảnh hưởng nhân tố
µij = Yij.
giá trị khớp - fitted value Yijk = Yij.
phần dư eijk = Yijk − Yij.• Các tham số
µ.. = Y...
αi = Yi.. − Y...βi = Y.j. − Y...
ˆ(αβ)ij = Yij. − Yi.. − Y.j. + Y...
6.3.2 SSTO, SSTR, SSE
Tương tự, khai triển để phát hiện các nguồn biến thiên khác nhau.
Yijk − Y...︸ ︷︷ ︸Tổng biến thiên
= Yij. − Y...︸ ︷︷ ︸Biến thiên trung bình treatment quanh trung bình chung
+ Yijk − Yij.︸ ︷︷ ︸Biến thiên quanh trung bình treatment
Với
Yij. − Y... = Yi.. − Y...︸ ︷︷ ︸Ảnh hưởng chính của nhân tố A
+ Y.j. − Y...︸ ︷︷ ︸Ảnh hưởng chính của nhân tố B
+ Yij. − Yi.. − Y.j. + Y...︸ ︷︷ ︸Ảnh hưởng tương tác A và B
Bình phương và tổng hai công thức ta có (lưu ý các tích số đều bằng 0 do là tổng độ lệch không bình phương)∑i
∑j
∑k
(Yijk − Y...)2︸ ︷︷ ︸Tổng bình phương toàn bộ (SSTO)
= n∑i
∑j
(Yij. − Y...)2︸ ︷︷ ︸Tổng bình phương treatment (SSTR)
+∑i
∑j
∑k
(Yijk − Yij.)2︸ ︷︷ ︸Tổng bình phương sai số (SSE)
và
SSTR = nb∑i
(Yi.. − Y...)2︸ ︷︷ ︸Tổng bình phương nhân tố A (SSA)
+ na∑j
(Y.j. − Y...)2︸ ︷︷ ︸Tổng bình phương nhân tố B (SSB)
+n∑i
∑j
(Yij. − Yi.. − Y.j. + Y...)2
︸ ︷︷ ︸Tổng bình phương tương tác AB (SSAB)
22
Độ tự do và trung bình bình phương
Trong khai triển tổng bình phương toàn bộ
SSTO︸ ︷︷ ︸nT−1
= SSTR︸ ︷︷ ︸ab−1
+ SSE︸ ︷︷ ︸(n−1)ab
Trong khai triển tổng bình phương treatment
SSTR = SSA︸ ︷︷ ︸a−1
+SSB︸ ︷︷ ︸b−1
+ SSAB︸ ︷︷ ︸(a−1)(b−1)
Nhắc lại trung bình bình phương - mean square là ước lượng của phương sai với tổng bình phương chia cho độ tự dotương ứng.Bảng ANOVA, chú ý vọng trị của trung bình bình phương tương ứng luôn là cơ sở cho kiểm định
6.3.3 Kiểm định F
Có thể kiểm định nhiều giả thuyết khác nhau
• Kiểm định tương tác
H0 : (αβ)ij = 0,∀i, j
F ∗ =MSAB
MSE∼ F1−α;(a−1)(b−1),(n−1)ab
• Kiểm định ảnh hưởng chính nhân tố A
H0 : α1 = α2 = ... = αa = 0
F ∗ =MSA
MSE∼ F1−α;a−1,(n−1)ab
• Kiểm định ảnh hưởng chính nhân tố B
H0 : β1 = β2 = ... = βb = 0
F ∗ =MSB
MSE∼ F1−α;b−1,(n−1)ab
• Bất đẳng thức Kimball
Với kiểm định tương tác, nhân tố A, B lần lượt tại mức α1, α2, α3
bất đẳng thức Bonferroni cho α ≤ α1 + α2 + α3
bất đẳng thức Kimball α ≤ 1− (1− α1)(1− α2)(1− α3)
6.3.4 Chiến lược phân tích
1. Kiểm tra tính tương tác
2. Nếu không tương tác, kiểm tra ảnh hưởng của A, B. Nếu ảnh hưởng là lớn, mô tả ảnh hưởng thei trung bìnhcác nhóm µi., µ.j
3. Nếu có tương tác, kiểm tra tương tác mạnh hay yếu
4. Nếu tương tác yếu, thực hiện bước 2
5. Nếu tương tác mạnh, xem xét việc biến đổi biến số có giúp thể làm giảm tương tác, nếu có thực hiện bước 2
6. Với tương tác mạnh và không thể hiệu chỉnh, phân tích ảnh hưởng 2 nhân tố chung theo µij
23
6.4 Phân tích ảnh hưởng nhân tố không có tương tác
Ước lượng trung bình phân nhóm
• Nhân tố A:
µi. = Yi..
σ2 =σ2
bn
ước lượng phương sai s2(Yi..) =MSE
bn
KTC Yi.. ± t1−α/2;(n−1)abs(Yi..)
• Với trung bình nhóm của nhân tố B µ.j thay Yi.. = Y.j.; bn = an
Ước lượng khác biệt đối lập
Tương tự trong mô hình 1 nhân tố
• Khác biệt đối lập giữa các trung bình nhân tố A
L =∑ciµi.,
∑ci = 0
L =∑ciYi..
σ2(L) =σ2
bn
∑c2i
s2(L) =MSE
bn
∑c2i
KTC L± t1−α/2;(n−1)abs(L)
• Khác biệt đối lập giữa các trung bình nhân tố B µ.j , thay ci = cj ; Yi.. = Y.j.; bn = an
Ước lượng kết hợp tuyến tính
tương tự ước lượng cho khác biệt đối lập, ngoại trừ không cần điều kiện∑ci = 0 hoặc
∑cj = 0
6.4.1 So sánh đồng thời
multiple comparison
• Nhắc lại:
– Tukey: khi quan tâm đến so sánh tất cả các cặp– Bonferroni: tốt nhất khi chỉ so sánh 1 số cặp– Sheffé: khi quan tâm so sánh tất cả các khác biệt đối lập
Tukey
• Cho trung bình nhóm nhân tố A
D = µi. − µi′.D = Yi.. − Yi′..
s2(D) =2MSE
bn
KTC D ± Ts(D)
Với T =1√2q(1− α; a, (n− 1)ab)
Kiểm định H0 : D = 0
|q∗| =√
2D
s(D)∼ q1−α;a,(n−1)ab
• Với trung bình nhóm nhân tố B µ.j , thay Yi.. − Y.j.; bn = an; q(1− α; a, (n− 1)ab) = q(1− α; b, (n− 1)ab)
• Tương tự như trong ANOVA 1 nhân tố, q là phân phối phạm vi Studentized (studentized range distribution)
24
Sheffé
• Nhắc lại như trong ước lượng đối lập L =∑ciµi.,
∑ci = 0
L =∑ciYi..
s2(L) =MSE
bn
∑c2i
S2 = (a− 1)F1−α;a−1,(n−1)ab
L± Ss(L)
• Kiểm định H0 : L = 0
F ∗ =L2
(a− 1)s2(L)∼ F (1− α; a− 1, (n− 1)ab)
• Với trung bình nhóm của nhân tố B µ.j , thay ci = cj ; Yi.. = Y.j.; a− 1 = b− 1; bn = an
Bonferroni
• Thay thế T trong Tukey và S trong Sheffé khi ước lượng với
B = t1−α/2g,(n−1)ab, g là số cặp/số khác biệt đối lập/số kết hợp tuyến tính cần so sánh
kiểm định với t∗ =D
s(D)
Ước lượng của cả 2 nhân tố
Khi cả 2 nhân tố đều có ảnh hưởng quan trọng, cần tìm hệ số tin cậy chung cho ước lượng
• Có thể ước lượng trực tiếp với Bonferroni để ước lượng hệ số tin cậy chung
• Hoặc dùng kết hợp với Tukey và Sheffé
• KTC của Sheffé có thể được điều chỉnh với
S2 = (a− b− 2)F1−α;a−b−2,(n−1)ab
kiểm định đồng thời F ∗ =L2
(a− b− 2)s2(L)∼ F (1− α; a− b− 2, (n− 1)ab)
6.5 Phân tích ảnh hưởng nhân tố khi có tương tác
Thẩm định mô hình
Tương tác và không tương tác cần có phương pháp phân tích khác nhau, do lúc này sự khác biệt giữa các nhóm cóthể là do các nhóm của nhân tố khác. Do vậy cần phân tích trên µij thay vì µi. và µ.j tuy nhiên vẫn có thể so sánhtrên các nhóm nhân tố.
So sánh đồng thời nhiều cặp hoặc cặp đối lập trung bình treatment
Lựa chọn giữa Tukey, Bonferroni và Sheffé tương tự đã nói ở các phần trên, các ước lượng và kiểm định thay đổi ởđộ tự do.
• Tukey: D = µij − µi′j′
D = Yij. − Yi′j′.
s2(D) =2MSE
n
KTC D ± Ts(D)
T =1√2q1−α;ab,(n−1)ab
kiểm định D = 0 : |q∗| =√
2D
s(D)∼ q1−α;ab,(n−1)ab
25
• Sheffé: L =∑∑
cijµij ,∑∑
cij = 0
L =∑∑
cij Yij.
s2(L) =MSE
n
∑∑c2ij
KTC L± Ss(L)
S2 = (ab− 1)F1−α;ab−1,(n−1)ab
kiểm định L = 0 : F ∗ =L2
(ab− 1)s2(L)∼ F1−α;ab−1,(n−1)ab
• Bonferroni tương tự các phần trước, thay T, S với
B = t1−α/2g;(n−1)ab
kiểm định t∗ =D
s(D)hoặc t∗ =
L
s(L)∼ t1−α/2g;(n−1)ab
26
Chương 7
ANOVA hai chiều - cỡ mẫu không bằngnhau
two-way unbalanced ANOVA design: nghiên cứu ảnh hưởng của 2 hay nhiều nhân tố khác nhau với cỡ mẫu mỗi nhómkhác nhau
• Lí do cỡ mẫu không bằng có thể do
thực tế số lượng một số nhóm nhân tố là ít
mất mẫu (bỏ cuộc, mất dấu,...)
muốn giảm chi phí cho nhóm điều trị tốn kém hơn
hoặc muốn ước lượng chính xác hơn cho 1 nhóm nhất định nên tăng cỡ mẫu nhóm
• Kí hiệu
như phân tích với cỡ mẫu bằng nhau và
tổng số đối tượng cho nhóm i, j của nhân tố A, B lần lượt là ni. =∑j nij &n.j =
∑i nij
Tổng mẫu nghiên cứu nT =∑i
∑j nij
ước lượng trung bình treatment ở nhóm i của nhân tố A và j của nhân tố B lúc này sẽ là
tổngnij∑k=1
Yijk chia cỡ mẫu của treatment
Yij. =Yij.nij
Nhắc lại, mô hình ANOVA hai chiều chỉ là một dạng đặc biệt của mô hình hồi quy khi các biến số đều là biến địnhtính.
7.1 Mô hình ảnh hưởng nhân tố
Tương tự trong chương 5, 6 Yijk = µ.. + αi + βi + (αβ)ij + εijk với các đặc tính tương tự ⇒ cần lần lượt a-1, b-1,(a-1)(b-1) tham số để ước lượng αi, βj , (αβ)ij với các điều kiện tương ứng.
• mô hình được viết dưới dạng tuyến tính Yijk = µ.. +a−1∑i=1
αiXAijk,i +
b−1∑j=1
βjXBijk,j +
a−1∑i=1
b−1∑j=1
(αβ)ijXAijk,iX
Bijk,j + εijk
Ví dụ mô hình với nhân tố A 2 nhóm, nhân tố B 3 nhóm:
Yijk = µ.. + α1Xijk1︸ ︷︷ ︸Ảnh hưởng chính nhân tố A
+ β1Xijk2 + β2Xijk3︸ ︷︷ ︸Ảnh hưởng chính nhân tố B
+ (αβ)11Xijk1Xijk2 + (αβ)12Xijk1Xijk3︸ ︷︷ ︸Tương tác AB
+εijk
• qui tắc viết ma trận (viết tương tự cho nhân tố B)
XAijk,1 =
1 nếu đối tượng thuộc nhóm 1 nhân tố A−1 nếu đối tượng thuộc nhóm a nhân tố A
0 khác
...
27
XAijk,a−1 =
1 nếu đối tượng thuộc nhóm a-1 nhân tố A−1 nếu đối tượng thuộc nhóm a nhân tố A
0 khác
7.2 Kiểm định
Áp dụng cách kiểm định tuyến tính tổng quát với mô hình đầy đủ và mô hình rút gọn
Kiểm định tương tác
• H0 : (αβ)ij = 0
hay (αβ)11 = (αβ)12 = 0
mô hình rút gọn dạng tương tác Yijk = µ.. + α1Xijk1 + β1Xijk2 + β2Xijk3 + εijk
• Kiểm định tuyến tính tổng quát
F ∗ =SSEr − SSEfdfr − dff
÷ SSEfdff
=SSEr − SSEf
(nT − pr)− (nT − pf )÷ SSEfnT − pf
∼ F1−α;pf−pr,nT−pf
Kiểm định ảnh hưởng chính
Có nhiều giả thuyết kiểm định, vd với 2 nhân tố A,B
• H0 : α1 = ... = αa−1 = 0 với Ha : một hoặc nhiều αi 6= 0
vd mô hình rút gọn ảnh hưởng của nhân tố A
Yijk = µ.. + β1Xijk2 + β2Xijk3 + (αβ)11Xijk1Xijk2 + (αβ)12Xijk1Xijk3 + εijk
kiểm định F tương tự, với mô hình rút gọn mới
Tiếp cận tương tự với kiểm định ảnh hưởng của nhân tố B
28