37
Phân tích mô tả biến không liên tục Nguyễn Văn Tuấn Viện nghiên cứu Y khoa Garvan Sydney, Australia

Phân tích mô tả biến không liên tục

Embed Size (px)

DESCRIPTION

Phân tích mô tả biến không liên tục. Nguyễn Văn Tuấn Viện nghiên cứu Y khoa Garvan Sydney, Australia. Nội dung. Ước tính tỉ lệ và khoảng tin cậy 95% Phân tích khác biệt giữa hai tỉ lệ Kiểm định z Odds ratio và relative risk. Phân tích một tỉ lệ. - PowerPoint PPT Presentation

Citation preview

Page 1: Phân tích mô tả  biến không liên tục

Phân tích mô tả biến không liên tục

Nguyễn Văn Tuấn

Viện nghiên cứu Y khoa Garvan

Sydney, Australia

Page 2: Phân tích mô tả  biến không liên tục

Nội dung

• Ước tính tỉ lệ và khoảng tin cậy 95%• Phân tích khác biệt giữa hai tỉ lệ

– Kiểm định z

– Odds ratio và relative risk

Page 3: Phân tích mô tả  biến không liên tục

Phân tích một tỉ lệ

Page 4: Phân tích mô tả  biến không liên tục

Ước tính tỉ lệ từ nghiên cứu một thời điểm

• Ví dụ 1: Một nghiên cứu cắt ngang gồm 700 phụ nữ người Việt tuổi 60+, có 148 phụ nữ được chẩn đoán loãng xương.

• Phân tích: Ở đây chúng ta muốn ước tính prevalence (tỉ lệ hiện hành). Gọi tỉ lệ loãng xương trong quần thể là , và trong mẫu nghiên cứu là p.

Chúng ta không biết , nhưng biết rằng p = 148/700 = 0.211. Chúng ta muốn biết khoảng tin cậy 95% của .

• Lí thuyết: Theo luật phân phối chuẩn (normal distribution), khoảng tin cậy 95% của p là: p + 1.96xSE.

1 0.211 1 0.2110.015

700

p pSE

n

• Theo đó, khoảng tin cậy 95% của p là:

0.211 – 1.96x0.015 = 0.18 đến 0.211 + 1.96x0.015 = 0.24

Page 5: Phân tích mô tả  biến không liên tục

Trình bày kết quả prevalence

• Tỉ lệ loãng xương được ghi nhận là 21.1% với khoảng tin cậy 95% từ 18% đến 24%.

Chỉ số Số trường hợp / tổng số mẫu

Tỉ lệ và khoảng tin cậy 95%

Tỉ lệ loãng xương 148 / 700 0.21 (0.18 – 0.24)

Tỉ lệ abc XXX / XXX 0.XX (0.XX – 0.XX)

Page 6: Phân tích mô tả  biến không liên tục

Ước tính tỉ lệ mang tính thời gian• Ví dụ 2: công trình Women’s Health Initiative nghiên cứu nguy cơ

ung thư vú ở những phụ nữ sử dụng thay thế hormone (hormone replacement therapy, HRT). Có 8506 phụ nữ tham gia, họ được theo dõi trung bình 62.2 tháng. Trong thời gian này có 166 người bị

ung thư vú.

• Phân tích: Ở đây chúng ta muốn ước tính incidence (tỉ lệ phát sinh). Gọi tỉ lệ này là I (ước số của ). Vấn đề là thời gian!

Trung bình mỗi người được theo dõi 5.18 năm (tức 62.2 / 12). Như vậy tổng số năm-người (person-years) là: 5.18 x 8506 = 44089.

Tỉ lệ ung thư trên mỗi năm-người là:

I = 166 / 44089 = 0.00376

Tỉ lệ ung thư trên mỗi 1000 năm-người là:

I = 166 / 44089 x 1000 = 3.76

Page 7: Phân tích mô tả  biến không liên tục

Ước tính khoảng tin cậy 95% cho tỉ lệ phát sinh

• Sai số chuẩn (standard error) của I: tùy thuộc vào số trường hợp (x) và số năm-người (N).

1660.000292

44089

xSE

N

• Khoảng tin cậy 95% của :

I + 1.96xSE

0.00376 – 1.96x0.000292 đến 0.00376 + 1.96x0.000292

0.00318 đến 0.00433

Hay 3.18 đến 4.33 cho mỗi 1000 năm-người

Page 8: Phân tích mô tả  biến không liên tục

Trình bày kết quả incidence

• Tỉ lệ phát sinh ung thư vú trong nhóm được điều trị bằng HRT là 3.8 trên 1000 năm-người với khoảng tin cậy 95% dao động từ 3.2 % đến 4.3.

Chỉ số Số trường hợp / tổng số mẫu

Tỉ lệ và khoảng tin cậy 95% (tính trên 1000 năm-người)

Tỉ lệ phát sinh ung thư vú

166 / 44089 3.8 (3.2 – 4.3)

Page 9: Phân tích mô tả  biến không liên tục

Phân tích hai tỉ lệ

Page 10: Phân tích mô tả  biến không liên tục

So sánh 2 tỉ lệ hiện hành (prevalence) với kiểm định z

• Ví dụ 3: so sánh tỉ lệ loãng xương giữa Úc và Việt Nam ở phụ nữ trên 60 tuổi. 700 phụ nữ Việt Nam, có 148 loãng xương. Trong nhóm 1287 phụ nữ Úc, có 345 người loãng xương. Hai tỉ lệ này khác nhau?

• Phân tích: Trong trường hợp này, chúng ta muốn tìm hiểu độ khác biệt giữa hai nhóm. Gọi tỉ lệ trong quần thể (mà chúng ta không biết) của hai nhóm là: v và a. Thông số khác biệt là

= v – a

• Gọi tỉ lệ quan sát được từ mẫu của hai nhóm là pv và pa. Độ khác biệt quan sát là:

D = pv – pa

Chỉ số Việt Nam Australia

N 700 1287

Loãng xương 148 345

Tỉ lệ pv = 0.211 pa = 0.268

Khoảng tin cậy 95% 0.18 – 0.24 0.24 – 0.29

Page 11: Phân tích mô tả  biến không liên tục

So sánh 2 tỉ lệ với kiểm định zChỉ số Việt Nam Australia

N 700 1287

Loãng xương 148 345

Tỉ lệ pv = 0.211 pa = 0.268

Khoảng tin cậy 95% 0.18 – 0.24 0.24 – 0.29

• Phân tích: Ước số (estimate) của độ khác biệt do đó:

D = 0.268 – 0.211 = 0.057

• Sai số chuẩn (standard error) của D (kí hiệu SE) là:

1 1v v a av a

v a

p p p pSE SE SE

n n

0.211 1 0.211 0.258 1 0.2580.0197

700 1287SE

Page 12: Phân tích mô tả  biến không liên tục

So sánh 2 tỉ lệ với kiểm định z• Phân tích: Ước số (estimate) của độ khác biệt do đó:

D = 0.268 – 0.211 = 0.057

• Sai số chuẩn (standard error) của D (kí hiệu SE) là:

0.211 1 0.211 0.258 1 0.2580.0197

700 1287SE

• Kiểm định z

Z = D / SE = 0.057 / 0.0197 = 2.89

Vì z > 1.96, chúng ta có bằng chứng để phát biểu rằng độ khác biệt về tỉ lệ LX giữa hai nhóm có ý nghĩa thống kê (statistically significant).

Page 13: Phân tích mô tả  biến không liên tục

Ước tính khoảng tin cậy 95% của 2 tỉ lệ

• Phân tích: Ước số (estimate) của độ khác biệt do đó:

D = 0.268 – 0.211 = 0.057

• Sai số chuẩn: SE = 0.0197

• Khoảng tin cậy 95% của :

0.057 + 1.96x0.0197

0.018 đến 0.095

hay 1.8% đến 9.5%

Page 14: Phân tích mô tả  biến không liên tục

Trình bày kết quả kiểm định 2 tỉ lệ

Chỉ số Việt Nam Australia Khác biệt

Tỉ lệ loãng xương

0.211

(0.18 – 0.24)

0.268

(0.24 – 0.29)

0.057

(0.018 - 0.095)

xxx

Tỉ lệ hiện hành loãng xương ở phụ nữ Việt Nam là 21.1% (với khoảng tin cậy 95% 18% đến 24%); tỉ lệ này thấp hơn so với phụ nữ Úc cùng độ tuổi 6% (KTC95%: 2% đền 10%)

Page 15: Phân tích mô tả  biến không liên tục

Phân tích hai tỉ lệ phát sinh (incidence)

• Ví dụ 4: công trình nghiên cứu Women’s Health Initiative nghiên cứu nguy cơ ung thư vú ở những phụ nữ sử dụng thay thế hormone (hormone replacement therapy, HRT) và placebo (giả dược). Số liệui của hai nhóm có thể tóm lược như sau:

HRT Placebo

Số đối tượng 8506 8102

Thời gian theo dõi (tháng) 62.2 61.2

Số phụ nữ bị ung thư vú 166 124

• Phân tích: Trong trường hợp này, chúng ta muốn tìm hiểu độ khác biệt giữa hai tỉ lệ phát sinh. Gọi tỉ lệ của hai nhóm HRT và placebo lần lược là I1 và I2

.

Chúng ta có thể ước tính độ khác biệt qua:

D = I1 – I2

Page 16: Phân tích mô tả  biến không liên tục

Phân tích hai tỉ lệ phát sinh (incidence)

HRT Placebo

Số đối tượng 8506 8102

Thời gian theo dõi (tháng) 62.2 61.2

Số phụ nữ bị ung thư vú 166 124

Số năm-người (person-years) (8506 x 62.2/12)44089

(8102 x 61.2/2)41320

Tỉ lệ phát sinh tính trên năm-người 166/440890.00377

124 / 413200.00300

• Phân tích: Độ khác biệt giữa hai nhóm:

D = 0.00377 – 0.003 = 0.00076

• Sai số chuẩn của D:

1 2

2 22 21 2

166 1240.000397

44089 41320

x xSE

N N

Page 17: Phân tích mô tả  biến không liên tục

Phân tích hai tỉ lệ phát sinh (incidence)

HRT Placebo

Số đối tượng 8506 8102

Thời gian theo dõi (tháng) 62.2 61.2

Số phụ nữ bị ung thư vú 166 124

Số năm-người (person-years) (8506 x 62.2/12)44089

(8102 x 61.2/2)41320

Tỉ lệ phát sinh tính trên năm-người 166/440890.00377

124 / 413200.00300

• Phân tích: Độ khác biệt giữa hai nhóm:

D = 0.00377 – 0.003 = 0.00076

• Sai số chuẩn của D: SE = 0.000397

• Kiểm định Z

Z = D / SE

Z = 0.00076 / 0.000397 = 1.92

Vì Z < 1.96, chúng ta kết luận rằng độ khác biệt về tỉ lệ phát sinh giữa hai nhóm không có ý nghĩa thống kê

Page 18: Phân tích mô tả  biến không liên tục

Ước tính khoảng tin cậy 95% cho hai tỉ lệ phát sinh

HRT Placebo

Số đối tượng 8506 8102

Thời gian theo dõi (tháng) 62.2 61.2

Số phụ nữ bị ung thư vú 166 124

Số năm-người (person-years) (8506 x 62.2/12)44089

(8102 x 61.2/2)41320

Tỉ lệ phát sinh tính trên năm-người 166/440890.00377

124 / 413200.00300

• Phân tích: Độ khác biệt giữa hai nhóm:

D = 0.00377 – 0.003 = 0.00076

• Sai số chuẩn của D: SE = 0.000397

• KTC95%: 0.00076 + 1.96x0.000397 =

-0.00002 đến 0.00154

Tức khác biệt khoảng 0.01 đến 1.5 trên 1000 năm-người

Page 19: Phân tích mô tả  biến không liên tục

Phân tích hai tỉ lệGiới thiệu odds và odds ratio

Page 20: Phân tích mô tả  biến không liên tục

Nghiên cứu bệnh chứng• Ví dụ 5: Hút thuốc lá và ung thư phổi (Doll et al 1950). Một nghiên cứu bệnh

chứng (case-control study) gồm 2 nhóm đối tượng: nhóm 1 gồm 60 bệnh nhân ung thư phổi và nhóm 2 gồm 60 đối tượng không ung thư. Số liệu tóm lược như sau:

Ung thư phổi (K) Control (C)

Hút thuốc lá 41 28

Không hút thuốc lá 19 32

• Trong nhóm K, có 68% (41/60) người hút thuốc lá; trong nhóm C tỉ lệ này là 47% (28/60).

• Câu hỏi: Số liệu này có đủ bằng chứng để phát biểu rằng có mối liên hệ giữa cắt ống tinh và ung thư tiền liệt tuyến

Page 21: Phân tích mô tả  biến không liên tục

Giới thiệu odd

• Odd = một danh từ không có trong tiếng Việt và Latin!

• Odd phản ảnh khả năng của hai sự kiện. Nếu p là xác suất ung thư, thì 1 – p là xác suất không bị ung thư.

Odd = p / (1 – p)

• Nếu odd = 1, nguy cơ mắc ung thư bằng nguy cơ không mắc bệnh ung thư;

• Nếu odd < 1, nguy cơ mắc ung thư thấp hơn nguy cơ không mắc bệnh ung thư;

• Nếu odd > 1, nguy cơ mắc ung thư cao hơn nguy cơ không mắc bệnh ung thư.

Page 22: Phân tích mô tả  biến không liên tục

Ví dụ về odd• Ví dụ 5 (tiếp tục)

Ung thư phổi (K) Control (C)

Hút thuốc lá 41 28

Không hút thuốc lá 19 32

Odd hút thuốc lá 2.16(41 / 19)

0.88(28 / 32)

Page 23: Phân tích mô tả  biến không liên tục

Giới thiệu odds ratio• Odds ratio (OR) là tỉ số của hai odds

Ung thư phổi (K) Control (C)

Hút thuốc lá 41 28

Không hút thuốc lá 19 32

Odd hút thuốc lá 2.16(41 / 19)

0.88(28 / 32)

Gọi O1 là odd hút thuốc lá trong nhóm K, và O2 là odd hút thuốc trong nhóm C. OR được định nghĩa như sau:

O1

O2OR 2.16 41 32

2.470.88 28 19

OR

Odd mắc ung thư phổi trong nhóm hút thuốc lá cao gấp 2.5 lần so với nhóm không hút thuốc lá.

Vấn đề là: OR này có ý nghĩa thống kê hay không ?

Page 24: Phân tích mô tả  biến không liên tục

Tính khoảng tin cậy 95% của OR

• Rất khó tính sai số chuẩn (SE) của một tỉ lệ hay tỉ số. • Do đó, chúng ta phải sử dụng một thuật toán gián tiếp (mẹo!)

– Thay vì tính SE cho OR, chúng ta tính SE cho logarithmic OR.

Bệnh Chứng

Phơi nhiễm a b

Không phơi nhiễm c d

adOR

bc

logL OR

1 1 1 1SE L

a b c d

Khoảng tin cậy 95% của L = L + 1.96 x SE(L)

Khoảng tin cậy 95% của OR = exp[L + 1.96 x SE(L)]

Page 25: Phân tích mô tả  biến không liên tục

Tính khoảng tin cậy 95% của OR• Ví dụ 5 (tiếp tục):

Ung thư phổi (K) Control (C)

Hút thuốc lá 41 28

Không hút thuốc lá 19 32

Odd hút thuốc lá 2.16 0.88

2.16 41 322.47

0.88 28 19OR

log 2.47 0.9027L

1 1 1 10.3795

41 28 19 32SE L

Khoảng tin cậy 95% của L = 0.9027 + 1.96 x 0.3795

= 0.159 đến 1.646

Khoảng tin cậy 95% của OR = exp(0.159) đến (exp(1.646)

= 1.17 đến 5.19

Page 26: Phân tích mô tả  biến không liên tục

Trình bày kết quả odds ratio

Yếu tố nguy cơ Odds ratio 95% CI

Hút thuốc lá 2.47 1.17 – 5.19

Thiếu vận động x.Xx x.xx – x.xx

Odd mắc bệnh ung thư phổi trong nhóm hút thuốc lá cao gấp 2.5 lần so với odd trong nhóm không hút thuốc lá, và độ khác biệt này có ý nghĩa thống kê vì khoảng tin cậy 95% không hàm chứa 1 (KTC95%: 1.2 đến 5.2)

Page 27: Phân tích mô tả  biến không liên tục

Tỉ số nguy cơ Relative risk)

Page 28: Phân tích mô tả  biến không liên tục

Tỉ số nguy cơ (ví dụ 4 tt)HRT Placebo

Số đối tượng 8506 8102

Thời gian theo dõi (tháng) 62.2 61.2

Số phụ nữ bị ung thư vú 166 124

Số năm-người (person-years) 44089 41320

Tỉ lệ phát sinh tính trên năm-người 0.00377 0.00300

• Tỉ lệ phát sinh (incidence) là một “đo lường” về nguy cơ

• Nguy cơ ung thư ở nhóm HRT là 0.00377 và nhóm giả dược 0.003

• RR – relative risk – chỉ đơn giản là tỉ số của hai nguy cơ

0.003771.254

0.00300RR

Nguy cơ ung thư vú ở nhóm HRT cao hơn nhóm giả dược 25.4%.

Câu hỏi: tỉ số nguy cơ này có ý nghĩa thống kê hay không ?

Page 29: Phân tích mô tả  biến không liên tục

Ước tính khoảng tin cậy 95% cho RR

• Không thể trực tiếp ước tính sai số chuẩn (SE) cho RR

• Phải tính gián tiếp:

– Hoán chuyển RR sang L = log(RR)

– Tính sai số chuẩn cho L

– Tính KTC95% cho L

– Hoán chuyển ngược lại KTC95% cho RR

Page 30: Phân tích mô tả  biến không liên tục

Ước tính khoảng tin cậy 95% cho RRHRT Placebo

Số đối tượng 8506 8102

Thời gian theo dõi (tháng) 62.2 61.2

Số phụ nữ bị ung thư vú 166 124

Số năm-người (person-years) 44089 41320

Tỉ lệ phát sinh tính trên năm-người 0.00377 0.00300

0.003771.254

0.00300RR log log 1.254 0.2268L RR

1 2

1 1 1 10.1187

166 124SE L

x x

Khoảng tin cậy 95% của L = 0.2268 + 1.96 x 0.1187

= -0.0058 đến 0.4595

Khoảng tin cậy 95% của OR = exp(-0.0058) đến (exp(0.4595)

= 0.99 đến 1.58

Page 31: Phân tích mô tả  biến không liên tục

Trình bày kết quả relative risk

Yếu tố nguy cơ RR 95% CI

Sử dụng HRT 1.25 1.00 – 1.58

Yếu tố 2 x.Xx x.xx – x.xx

Nguy cơ mắc bệnh ung thư vú trong nhóm HRT tăng 25% so với nguy cơ trong nhóm chứng, và độ khác biệt này có thể ý nghĩa thống kê (KTC95%: 1.0 đến 1.58)

Page 32: Phân tích mô tả  biến không liên tục

So sánh odds ratio và relative risk

Page 33: Phân tích mô tả  biến không liên tục

So sánh RR và OR: ví dụ 4 (tt)

HRT Placebo

Số đối tượng 8506 8102

Số phụ nữ bị ung thư vú 166 124

Số phụ nữ không bị ung thư vú 8340 7978

OR = (166 x 7978) / (124 x 8340) = 1.28

L = log(OR) = 0.247

SE = 0.1197

KTC95% của L: 0.01267 đến 0.482

KTC95% của OR: 1.01 đến 1.62

Kết luận: có ý nghĩa thống kê

RR = (166 / 8506) / (124 / 8102) = 1.275

L = log(OR) = 0.243

SE = 0.118

KTC95% của L: 0.0124 đến 0.4736

KTC95% của OR: 1.01 đến 1.60

Kết luận: có ý nghĩa thống kê

Phân tích bằng OR Phân tích bằng RR (không tính đến thời gian)

Page 34: Phân tích mô tả  biến không liên tục

Cẩn thận: khác biệt giữa OR và RR

Page 35: Phân tích mô tả  biến không liên tục

Vài khác biệt giữa OR và RR

• OR là tỉ số giữa hai odds (không phải nguy cơ)

• Khó diễn dịch• OR có thể ước tính cho bất cứ

mô hình nghiên cứu nào

• OR là ước số của RR• Khi tỉ lệ bệnh thấp (<0.10), OR

rất gần với RR.• Khi tỉ lệ bệnh > 0.10, OR over-

estimate RR• Nếu OR = 2, không thể phát

biểu rằng “nguy cơ mắc bệnh tăng gấp 2 lần” (chỉ có thể nói “odd mắc bệnh tăng gấp 2 lần).

• RR là tỉ số giữa hai tỉ lệ hay hai nguy cơ

• Dễ diễn dịch • RR chỉ có thể ước tính cho

nghiên cứu xuôi thời gian (longitudinal study)

Page 36: Phân tích mô tả  biến không liên tục

Cẩn thận khi diễn dịch OR

Nhóm Số bác sĩ đề nghị thông tim

Số bác sĩ không đề nghị thông tim

w - Bệnh nhân da trắng 652 68

b - Bệnh nhân da đen 610 110

Phân tích bằng RR:

Tỉ lệ thông tim

nhóm da trắng: p1 = 652/720 = 0.906

nhóm da đen: p2 = 610/720 = 0.847

Tỉ số nguy cơ:

RR = 0.906 / 0.847 = 1.07

Thật ra, mức độ khác biệt chỉ 7%!

Phân tích bằng OR:

Odd thông tim

nhóm da trắng : ow = 652/68 = 9.59

nhóm da đen: ob = 610/110 = 5.545

Odds ratio:

OR = 9.59 / 5.545 = 1.72

Tác giả cho rằng tỉ lệ thông tim ở bệnh nhân da trắng cao hơn bệnh nhân da đen 72%!

Page 37: Phân tích mô tả  biến không liên tục

Tóm lược

• Ước tính tỉ lệ lưu hành hay tỉ lệ phát sinh và KTC95: dựa vào luật phân phối chuẩn.

• So sánh hai nhóm:

– Kiểm định Z

– Odds ratio và relative risk

– RR chỉ sử dụng cho các nghiên cứu xuôi thời gian; OR sử dụng cho bất cứ mô hình nghiên cứu nào

• Cẩn thận về khác biệt (ý nghĩa) giữa OR và RR!