Giáo trình nghiên cứu khoa học

MỤC LỤC

Phương pháp nghiên cứu khoa học.................................................................................................1

Mục tiêu:.....................................................................................................................................1

Nghiên cứu khoa học là gì:.........................................................................................................1

Các đặc điểm của một nghiên cứu khoa học tốt.........................................................................2

Ðại cương về thống kê và thống kê mô tả......................................................................................3

Một số định nghĩa.......................................................................................................................3

Biến số và các loại biến số..........................................................................................................3

Phương pháp mô tả tóm tắt và trình bày số liệu.........................................................................3

Các số thống kê mô tả.................................................................................................................4

Phương pháp trình bày số liệu....................................................................................................6

Ðại cương về phân tích số liệu......................................................................................................14

Suy luận thống kê......................................................................................................................15

Xác định và chọn ưu tiên nghiên cứu............................................................................................28

Mục tiêu....................................................................................................................................28

Xác định vấn đề.........................................................................................................................28

Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứu.......................................................................28

Thang điểm đánh giá các chủ đề nghiên cứu............................................................................29

Bảng điểm.................................................................................................................................30

Phương pháp phân tích và khẳng định vấn đề nghiên cứu............................................................31

Mục tiêu....................................................................................................................................31

Phân tích vấn đề........................................................................................................................31

Các bước để phân tích vấn đề...................................................................................................31

Xác định phạm vi và trọng tâm của nghiên cứu.......................................................................34

Xây dựng phần đặt vấn đề.........................................................................................................35

Các thông tin cần thiết trong phần đặt vấn đề...........................................................................35

Tổng quan y văn............................................................................................................................36

Mục tiêu....................................................................................................................................36

Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứu......................................36

Những nguồn thông tin có thể tham khảo.................................................................................36

Cách viết phần tổng quan..........................................................................................................37

Sai lệch có thể...........................................................................................................................37

Mục tiêu nghiên cứu.....................................................................................................................39

Mục tiêu học tập:.......................................................................................................................39

Mục tiêu nghiên cứu là gì:........................................................................................................39

Tại sao phải xây dựng mục tiêu nghiên cứu.............................................................................39

Yêu cầu của mục tiêu nghiên cứu.............................................................................................39

Giả thuyết nghiên cứu...............................................................................................................40

Tên đề tài nghiên cứu................................................................................................................40

Thảo luận nhóm........................................................................................................................40

i

Giới thiệu về phương pháp nghiên cứu khoa học y học...............................................................41

Mục tiêu....................................................................................................................................41

Giới thiệu..................................................................................................................................41

Biến số...........................................................................................................................................43

Mục tiêu....................................................................................................................................43

Biến số.......................................................................................................................................43

Biến số định tính và biến số định lượng...................................................................................43

Ðịnh nghĩa cụ thể......................................................................................................................44

Biến số độc lập - phụ thuộc - gây nhiễu....................................................................................44

Kiểm soát yếu tố gây nhiễu.......................................................................................................45

Biến số nền (background variables)..........................................................................................46

Các loại nghiên cứu.......................................................................................................................50

Mục tiêu....................................................................................................................................50

Mở đầu......................................................................................................................................50

Một số loại nghiên cứu..............................................................................................................50

Nghiên cứu không can thiệp.....................................................................................................50

Nghiên cứu can thiệp................................................................................................................54

Tính giá trị và tính tin cậy của kết quả nghiên cứu...................................................................55

Các số đo dịch tễ học....................................................................................................................56

I. Mở đầu:..................................................................................................................................56

II. Số đo tuyệt đối và số đo tương đối.......................................................................................56

III. Tỉ số, tỉ lệ, tỉ suất.................................................................................................................56

IV. Số đo dịch tễ.......................................................................................................................57

Số đo hậu quả và số đo tác động...................................................................................................59

I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh.................................59

II. Số đo sự kết hợp - số đo hậu quả..........................................................................................59

III. Số đo tỉ số............................................................................................................................59

IV. Số đo hiệu số.......................................................................................................................61

V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ............................................................62

VI. Số đo tác động.....................................................................................................................63

VII. Bàn luận thêm về phân số nguy cơ quy trách dân số........................................................65

Phương pháp thu thập số liệu........................................................................................................66

Sử dụng thông tin sẵn có...........................................................................................................66

Quan sát.....................................................................................................................................66

Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền...........................................................................67

Thiết kế bộ câu hỏi....................................................................................................................67

Lấy mẫu điều tra...........................................................................................................................71

Mục tiêu:...................................................................................................................................71

Ðại cương về phương pháp lấy mẫu:........................................................................................71

Các phương pháp lẫy mẫu xác suất:.........................................................................................72

Cách tính cỡ mẫu..........................................................................................................................79

Mục tiêu....................................................................................................................................79

ii

Giới thiệu..................................................................................................................................79

Hai cách tiếp cận trong tính cỡ mẫu..........................................................................................79

Các điểm cần lưu ý trong tính cỡ mẫu......................................................................................81

Tính cỡ mẫu bằng phần mềm Epi Info:....................................................................................81

Thí dụ........................................................................................................................................83

Chiến lược phân tích số liệu..........................................................................................................84

Cài đặt chương trình Stata 8.0 và số liệu mẫu..............................................................................90

Khởi động và kết thúc Stata..........................................................................................................93

Mô tả ngắn gọn về Stata................................................................................................................97

Lệnh more.....................................................................................................................................99

Thông báo lỗi và mã phản hồi.....................................................................................................100

Phím break..................................................................................................................................102

Sử dụng bàn phím trong Stata.....................................................................................................103

Khởi động Stata...........................................................................................................................105

1. Khởi động Stata...................................................................................................................105

2. Mô tả giao diện của chương trình Stata..............................................................................105

3. Cách cách để thực hiện lệnh trong chương trình Stata.......................................................106

4. Lưu lại kết quả phân tích....................................................................................................106

Mô tả số liệu với Stata 8.0 for Windows....................................................................................109

Thống kê phân tích biến số định lượng với Stata.......................................................................143

Thực hành...............................................................................................................................145

Phân tích phương sai...................................................................................................................165

Thống kê phân tích biến số định tính: nghiên cứu bệnh chứng..................................................177

Mục tiêu:.................................................................................................................................177

Thống kê phân tích biến số định tính: nghiên cứu bệnh chứng..................................................193

Mục tiêu:.................................................................................................................................193

Thống kê phân tích biến số định tính: nghiên cứu đoàn hệ........................................................202

Hồi quy logistic...........................................................................................................................212

Hồi quy logistic trong đánh giá chẩn đoán test...........................................................................229

Nhắc lại về các số đo tính giá trị chẩn đoán............................................................................229

Xét nghiệm định lượng để chẩn đoán bệnh............................................................................229

Một thí dụ ứng dụng phương pháp hồi quy logistic trong xác định giá trị của xét nghiệm....230

Phân tích sống còn Kaplan-Meier...............................................................................................239

EpiData........................................................................................................................................250

Các phím tắt............................................................................................................................263

Phụ lục.........................................................................................................................................265

Tăng trưởng trước sinh, tình trạng hôn nhân sau này và tử vong: một nghiên cứu dọc.............265

Phương pháp và kết quả..........................................................................................................265

Bàn luận..................................................................................................................................266

Cảm tạ.....................................................................................................................................266

Chú thích.................................................................................................................................266

Tài liệu tham khảo...................................................................................................................266

iii

Tăng trưởng trước sinh và nguy cơ bị đột quỵ do tắc nghẽn và xuất huyết ở đàn ông và đàn bà Thuỵ điển sinh 1915-29: nghiên cứu đoàn hệ lịch sử.................................................................268

Đối tượng, phương pháp và kết quả........................................................................................268

Bình luận.................................................................................................................................269

Cảm tạ.....................................................................................................................................270

Chú thích.................................................................................................................................270


Bú sữa mẹ và béo phì: Một nghiên cứu cắt ngang.....................................................................271

Tóm tắt....................................................................................................................................271

Mở đầu....................................................................................................................................272

Đối tượng và phương pháp.....................................................................................................272

Kết quả....................................................................................................................................273

Bàn luận..................................................................................................................................276


Bài báo....................................................................................................................................280

Chương trình tiêm chủng đẩy mạnh Anh quốc và đột tử bất ngờ ở trẻ nhũ nhi: một nghiên cứu bệnh chứng..................................................................................................................................280

Tóm tắt....................................................................................................................................280

Giới thiệu................................................................................................................................280

Phương pháp...........................................................................................................................281

Kết quả....................................................................................................................................282

Bàn luận..................................................................................................................................285

Cảm tạ.....................................................................................................................................286

Ghi chú....................................................................................................................................286


Tai tiếng của những nghiên cứu y khoa kém..............................................................................288

Hiệu lực vaccine sởi ở trẻ em TP Hồ Chí Minh..........................................................................291

Tóm tắt....................................................................................................................................291

Abstract...................................................................................................................................291

Mở đầu....................................................................................................................................291

Đối tượng và phương pháp nghiên cứu...................................................................................292

Kết quả....................................................................................................................................293

Bàn luận..................................................................................................................................297

Kiến nghị.................................................................................................................................298


Các lệnh stata cần nhớ.................................................................................................................299

1. Thao tác số liệu...................................................................................................................299

2. Thống kê mô tả...................................................................................................................299

3. Thống kê phân tích..............................................................................................................299

iv

Phương pháp nghiên cứu khoa học

Mục tiêu:- Mô tả được các đặc tính của một nghiên cứu khoa học

- Trình bày được các đặc tính của một nghiên cứu khoa học tốt

Nghiên cứu khoa học là gì:Nghiên cứu là công việc tìm kiếm một cách có hệ thống các kiến thức mới, dựa trên sự tò mò và nhu cầu được cảm nhận.1

Như vậy đặc điểm của nghiên cứu là tìm ra kiến thức mới. Có hai phương pháp chính để tìm kiếm kiến thức: hoặc là xem xét các tài liệu, kiến thức sẵn có để tìm ra các kiến thức mới (scholarship) hay dựa vào thực tế khách quan để phát hiện các kiến thức và hiểu biết mới (scientific research). Phương pháp dựa vào thực tế khách quan để tìm tòi các kiến thức mới được gọi là nghiên cứu khoa học.2

Nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết một vấn đề hay trả lời một câu hỏi (Theo Varkevisser và cộng sự, 1991).

Nói cách khác, nghiên cứu khoa học phải bao gồm các bước thu thập số liệu trên thực địa (hay từ các ca bệnh trong bệnh viện hay phòng thí nghiệm), phân tích số liệu để có thông tin và và trình bày các thông tin này trong phần kết quả và trong phần bàn luận và kiến nghị, lí giải các thông tin đó đ ề trả lời cho câu hỏi nghiên cứu hay đ ề xuất các biện pháp giải quyết vấn đề.

Số liệu: Kết quả của việc thu thập có hệ thống các đại lượng và đặc tính của các đối tượng

Thông tin: Số liệu đã được phân tích

Kiến thức: thông tin được lí giải và được sử dụng để trả lời câu hỏi hay giải quyết một vấn đề nào đó

Nhưng để quá trình thu thập, phân tích và lí giải số liệu diễn ra tốt đẹp và giải quyết được vấn đề nghiên cứu, trước đó nhà nghiên cứu phải phân tích từ vấn đề, xem những kiến thức gì đã biết và còn chưa biết về vấn đề đó. Quá trình này được gọi là đặt vấn đề, tổng quan y văn. Sau đó nhà nghiên cứu phải xác định hỏi để có được kiến thức còn chưa biết đó, cần những thông tin gì và để có những thông tin này cần thu thập những đại lượng và tính chất nào của đối tượng. Đây là nội dung của phần phương pháp nghiên cứu trong đề cương nghiên cứu hay báo cáo khoa học. Sau khi đã thu thập được số liệu (đại lượng hay tính chất của các đối tượng nghiên cứu), kết quả của phân tích số liệu (thông tin) được trình bày trong phần kết quả nghiên cứu. Ở phần bàn luận, tác giả sẽ đánh giá xem các thông tin có trả lời được câu hỏi nghiên cứu hay không và câu trả lời của câu hỏi nghiên cứu chính nhằm giúp giải quyết vấn đề nghiên cứu là kiến thức mới được tạo ra.

Như vậy, một báo cáo khoa học sẽ gồm các phần chính: 1) Đặt vấn đề và mục tiêu nghiên cứu 2) Tổng quan tài liệu 3) Phương pháp và đối tượng 4) Kết quả nghiên cứu 5) Bàn luận và 6) Kết luận.

Các đặc điểm của một nghiên cứu khoa học tốt Một nghiên cứu khoa học tốt có các đặc điếm sau:

1 Last JM. A dictionary of Epidemiology. NewYork: International epidemiology association 1997; 146

2 Varkevisser C, Pathmanathan I, Brownlee A. Designing and conductiong health system research projects. IDRC, Ottawa 1991

1

- Phải tập trung vào các vấn đề ưu tiên trong chăm sóc y tế

- Phải có tính định hướng vào hành động và đề ra các giải pháp

- Phải có tính thời sự: kết quả phải có kịp thời để đưa ra các quyết định đúng đắn.

- Thiết kế nghiên cứu đơn giản và thực hiện trong thời gian ngắn

- Nên có tính chất chi phí - hiệu quả. Tốt nhất nếu nghiên cứu được tiến hành với chi phí thấp và do các nhân viên, cán bộ y tế thực hiện cùng với công việc hàng ngày.

- Kết quả phải được trình bày theo hình thức hữu dụng cho các nhà quản lí, nhà hoạch định chính sách và cộng đồng: Cần có tóm tắt những kết quả chủ yếu của nghiên cứu và nêu bật những điểm lí thú cho đối tượng của bản báo cáo. Dựa theo kết quả có thể trình bày giải pháp để giải quyết một vấn đề và so sánh ưu khuyết điểm của việc tiến hành giải pháp và không tiến hành giải pháp.

- Nghiên cứu cần phải được đánh giá không chỉ dựa vào số các bài báo được xuất bản mà cần phải xem xét sự ảnh hưởng của nó đến chính sách y tế hay thay đổi cung cách phục vụ và cuối cùng là tác động lên sức khoẻ người dân.

Đối với nghiên cứu y tế công cộng cần phải đặt them hai đặc điểm sau:

- Sẽ tốt hơn nếu có sự tham gia của nhiều ngành, nhiều khoa

- Nghiên cứu cần có tính chất tham gia của mọi thành viên có liên quan trong tất cả các bước của quá trình tiến hành nghiên cứu

2

Ðại cương về thống kê và thống kê mô tả

Một số định nghĩaThống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và phân tích số liệu.

Số liệu: Kết quả có được do việc quan sát hay thu thập một biến số ở các đối tượng khác nhau hay ở thời gian khác nhau.

Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu là:

Nam, nam, nữ, nữ, nữ, nam, nữ, v.v

Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:10.2 13.7 10.4 14.9 11.5 12.0 11.013.3 12.9 12.1 9.4 13.2 10.8 11.710.6 10.5 13.7 11.8 14.1 10.3 13.612.1 12.9 11.4 12.7 10.6 11.4 11.99.3 13.5 14.6 11.2 11.7 10.9 10.412.0 12.9 11.1 8.8 10.2 11.6 12.513.4 12.1 10.9 11.3 14.7 10.8 13.311.9 11.4 12.5 13.0 11.6 13.1 9.711.2 15.1 10.7 12.9 13.4 12.3 11.014.6 11.1 13.5 10.9 13.1 11.8 12.2

và những con số này được gọi là số liệu.

Cần lưu ý số liệu phải liên kết với một biến số nhất định. Nếu tôi quan sát giới tính ở người này, tuổi của người khác, quần áo của một người khác nữa thì kết quả quan sát được không phải là số liệu.

Biến số và các loại biến sốBiến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác hay từ thời điểm này sang thời điểm khác.

Như vậy biến số có thể thể hiện đại lượng hay đặc tính.

- Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng (quantitative variable). Biến số định lượng có thể còn được chia thành biến số tỉ số - ratio variable(có giá trị không tuyệt đối) và biến số khoảng – interval variable (không có giá trị không tuyệt đố)

- Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến số định tính. Biến số định tính còn được chia làm 3 loại:

- Biến số nhị giá – binary variable (khi chỉ có 2 giá trị)

- Biến số danh định – nominal variable (khi có 3 hay nhiều hơn các giá trị và các bản thân các giá trị không có tính chất thứ tụ)

- Biến số thứ tự - ordinal variable (khi có 3 hay nhiều hơn các giá trị và các bản thân các giá trị có tính chất thứ tự

- Ngoài ra có khi biến cố không chỉ được quan tâm về phương diện nó có xảy ra hay chưa xảy ra mà còn được quan tâm về phương diện biến cố xảy ra vào lúc nào. Thí dụ sau khi điều trị bệnh nhân ung thư chúng ta không chỉ quan tâm bệnh nhân có tử vong hay không mà còn quan tâm bệnh nhân bệnh nhân tử vong bao nhiêu lâu sau khi điều trị và nếu bệnh nhân chưa tử vong, bệnh nhân đã sống được bao lâu.

Phương pháp mô tả tóm tắt và trình bày số liệu

3

-Tỉ lệ cho từng giá trị nếulà biến thứ tự hay danhđịnh

- Tỉ lệ cho giá trị tiêu biểunếu là biến nhị giá

-Tỉ lệ cho từng giá trị nếulà biến thứ tự hay danhđịnh

- Tỉ lệ cho giá trị tiêu biểunếu là biến nhị giá

Các số thống kê mô tảCó hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống kê mô tả tính phân tán.

Thống kê mô tả khuynh hướng tập trungThống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median) và yếu vị (mode). Những thống kê này cho biết giá trị tiêu biểu cho số liệu.

Thí dụ: có hai loại thuốc hạ áp A và B. Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có huyết áp 110 - 115 -120 - 125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 - 125 - 130 - 135 - 140. Con số tiêu biểu nhất để cho biết tác dụng của thuốc A là huyết áp trung bình sau khi sử dụng thuốc A và là 120. Con số huyết áp trung bình này thấp hơn huyết áp trung bình sau khi sử dụng thuốc B cho biết thuốc A có tác dụng mạnh hơn.

Trung bình của số liệu, được kí hiệu là (x (đọc là x gạch) là tổng các giá trị của số liệu chia cho số lần quan sát (N).

Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150. Huyết áp tâm thu trung bình sẽ là 132

Do không thể thực hiện các phép toán số học trên các biến số định tính (danh định và thứ tự) chúng ta chỉ có thể tính trung bình cho số liệu của biến số định lượng.

Nếu chúng ta sắp xếp số liệu theo thứ tự, giá trị đứng ở giữa được gọi là trung vị. Nếu có hai giá trị cùng đứng ở giữa, trung bình cộng của hai giá trị này là trung vị.

4

Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung vị của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130

Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161. Ðể tính trung vị, trước tiên chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162, 165. Do có hai giá trị 160 và 161 cùng ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm

Do bản chất của biến số danh định không thể sắp được theo thứ tự, chúng ta chỉ có thể tính trung vị của số liệu định lượng và số liệu của biến số thứ tự.

Ngoài ra yếu vị (mode) cũng được sử dụng làm con số thống kê tiêu biểu. Yếu vị là giá trị xuất hiện phổ biến nhất (có tần suất cao nhất).

Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trong trường hợp này không có yếu vị.

Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9. Yếu vị của điểm số là 5.

Trong một ấp có 361 gia đình người Kinh, 120 gia đình người Khmer và 27 gia đình người Hoa. Yếu vị của biên số dân tộc là dân tộc Kinh.

Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều yếu vị. Ðây là khuyết điểm chính của số thống kê này. Do vậy người ta thường chỉ dùng yếu vị cho biến số danh định hay trong các trường hợp đặc biệt

Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng. Khi biến số định lượng có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi đó người ta thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh. Tuy nhiên nếu số liệu bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính xác hơn.

Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ diệt vi khuẩn Helicobacter. Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc đến lúc bắt đầu cải thiện triệu chứng đau. Ở 10 bệnh nhân thời gian này (ngày ) là như sau: 1, 2, 2, 2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trên thực chất là bệnh nhân không đáp ứng với điều trị. Trung vị và trung bình của số liệu là 2 và 5 ngày. Con số trung vị phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc. Con sôs 30 trong thí dụ trên được gọi là số ngoại lai (outlier) và làm số liệu bị lệch. Nhìn chung, khi số liệu bị lệch thì con số trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con số trung vị.

Thống kê mô tả tính phân tán:Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị và phạm vi của số liệu. Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2.

Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng tập trung.

Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100, 110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương đương (bởi vì trung bình của hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc B trở nên kém an toàn.

Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số đánh giá mức độ phân tán và được tính theo công thức:

Như vậy độ lệch chuẩn phản ánh khoảng cách trung bình của số liệu so với giá trị tiêu biểu. Khái niệm độ lệch chuẩn chỉ có thể áp dụng cho biến số định lượng bởi vì chúng ta có thể thực hiện các phép toán số học trên các đại lượng nhưng không thể thực hiện trên các giá trị của biến số định tính là các đặc tính.

5

Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung bình của huyết áp là 132 và độ lệch chuẩn bằng

Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn. Phương sai (variance) có thể được kí hiệu và Var hay s2 và được tính theo công thức sau:

Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất.Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Phạm vi của biến số huyết áp là 120 đến 150.

Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100, 110, 120, 130, 140. Số liệu của thuốc B có tính phân tán cao hơn do phạm vi thay đổi từ 100-140 trong khi đó phạm vị của số liệu thuốc A chỉ từ 110-130.

Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần đều nhau, khoảng tứ phân vị là khoảng cách của trung vị phần trên và trung vị phần dưới.

Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Số liệu này được chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150. Trung vị của phần trên là 125 - trung vị của phần dưới là 135, do đó phạm tứ phân vị là 125-135.

Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần số liệu dưới, cũng giống như trung vị, khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong trường hợp của độ lệch chuẩn. Cũng như trung vị, khoảng tứ phân vị chỉ có thể áp dụng cho biến số định lượng hay thứ tự.

Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau. Hãy thử đọc và lí giải kết quả:

Variable | Obs Mean Std. Dev. Min Max

-----------+-----------------------------------------------------

hemoglobin | 70 11.98429 1.416122 8.8 15.1

Phương pháp trình bày số liệuSố liệu có thể được trình bày thành bảng hoặc các đồ thị.

Trình bày bảng:

Phân phối tần suất của biến số định tínhSố liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối tần suất. Phân phối tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số (Bảng 1). Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến số và một cột trình bày tần suất tương ứng của các giá trị đó.

6

Table 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11, Huyện Hóc môn

Giới Số trẻ Phần trăm

Nam 45 65%

Nữ 24 35%

Tổng số 69 100%

Bảng trên là bản phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ nên ta liệt kê 2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá trị này. Ðôi khi bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ ở trên. Bảng 2 là một thí dụ khác về bảng phân phối tần suất.

Table 2. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện

Phương pháp đỡ đẻ

Số sinh Phần trăm

Sinh thường 478 79,7

Sinh forceps 65 10,8

Sinh mổ 57 9,5

Tổng số 600 100,0

Phân phối tần suất của biến số định lượngNếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số. Trong trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.

Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau:

1- Tìm phạm vi (giá trị cực tiểu và giá trị cực đại) của số liệu. Trong thí dụ về hemoglobin của 70 phụ nữ phạm vi là 8,8 đến 15,1

2. Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d. Cần lưu ý độ rộng mỗi khoảng d nên là đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng n nên từ 5-12 (trung bình là 7-8). Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng với chiều rộng khoảng bằng 1 đơn vị. Khi đó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 11-11,9; 12-12,9; 13-13,9; 14-14,9; 15-15,9.

3. Ðếm các giá trị thích hợp vào khoảng đã định trước

Hemoglobin

(g/100ml)

Ðếm

8-8,9 1

9-9,9 111

10-10,9 1111 1111 1111

11-11,9 1111 1111 1111 1111

12-12,9 1111 1111 1111

13-13,9 1111 1111 111

7

14-14,9 1111

15-15,9 1

4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và tần suất tương ứng với các khoảng giá trị đó. Chúng ta cũng có thể thêm vào cột phần trăm và cột phần trăm tích lũy (nếu thích hợp)

Table 3. Hemoglobin của 70 phụ nữ

Hemoglobin Tần suất Phần trăm Phần trăm tích lũy

8-8,9 1 1.43 1.43

9-9,9 3 4.29 5.71

10-10,9 14 20.00 25.71

11-11,9 19 27.14 52.86

12-12,9 14 20.00 72.86

13-13,9 13 18.57 91.43

14-14,9 5 7.14 98.57

15-15,9 1 1.43 100.00

Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi vòng cánh tay đến 1 cm. Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày bảng phân phối tần suất của biến số (bảng 2).

Table 4. Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn.

Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy

13- <14 2 2.78 2.78

14- <15 31 43.06 45.83

15- <16 27 37.50 83.33

16- <17 9 12.50 95.83

17- <18 0 12.50 95.83

18- <19 2 2.78 98.61

19- <20 1 1.39 100.00

Biểu đồ và đồ thịSố liệu cũng có thể được trình bày dưới dạng đồ thị hoặc biểu đồ. Mặc dù không có ranh giới tuyệt đối hoàn toàn rõ rệt, nói chung đồ thị (graph) có tính chất toán học nhiều hơn, trong đó có trục hoành và trục tung còn biểu đồ (chart) là hình ảnh mang tính chất tượng trưng.

Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh (bar chart - hình 1) hoặc biểu đồ hình bánh (pie chart). Nếu biến số là biến liên tục, thì phân phối của biến số có thể trình bày dưới dạng tổ chức đồ (histogram - hình 2) hoặc đa giác tần suất.

8

Hình thức của bảng-Có tựa ngắn gọn và rõ ràng

-Ðặt tên cho các hàng và cột

-Trình bày tổng số của hàng và cột

-Ðịnh nghĩa các kí hiệu và chữ viết tắt ở dưới bảng

-Ghi nguồn số liệu ở dưới bảng

Biểu đồ hình thanhBiểu đồ hình thang là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc. Biểu đồ hình thanh gồm có trục hoành trên đó xác định những giá trị của biến số. Ứng với từng giá trị của biến số người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị đó. Cần lưu ý luôn luôn có khoảng trống giữa các thanh.

Hình 1. Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của những học sinh trong trường mầm non 23/11, Hóc môn

Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau

Hình 2. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998

Ðối với biến số thứ tự, điều cần lưu ý là các giá trị của biến số phải được sẵp xếp thứ tự theo trục hoành.

9

Ta

àn s

ua

át

e d um a tm uø c hö õ ca áp 1 ca áp 2 -3 ñ a ïi ho ï

0

10 00

20 00

Hình 3. Trình độ học vấn của các bà mẹ trong nghiên cứu

Hình 4. Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo điều trị hóa dự phòng và phương pháp sinh (Nguồn: The European Mode of Delivery Collaboration, Lancet, 27/3/1999)

Biểu đồ hình bánhBiểu đồ hình bánh cũng được dùng để mô tả sự phân bố của biến số rời rạc. Biểu đô hình bánh là một vòng tròn được chia làm nhiều cung tương ứng với các giá trị của biến số. Ðộ lớn của cung tỉ lệ với tần suất của giá trị biến số.

10

Hình 5. Biểu đồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong trường mầm non 23/11, Hóc môn

Hình 6. Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện X

Tổ chức đồ và đa giác tần suấtTổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tả phân bố của biến số liên tục. Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị làm nhiều khoảng giá trị và tính tần suất của những khoảng giá trị đó. Những khoảng giá trị này được biểu thị ở trên trục hoành. Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suất của khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên trục hoành, các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau.

11

Fre

qu

en

cy

h e m o g lo b in8 9 10 11 12 13 14 15 16

0

5

10

15

20

Hình 7. Tổ chức đồ mức hemoglobin của 70 phụ nữ.

Fre

qu

en

cy

h e m o g lo b in8 9 10 11 12 13 14 15 16

0

5

10

15

20

Hình 8. Ða giác tần suất của hemoglobin của 70 phụ nữ.

Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các cạnh trên của các hình chữ nhật. Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng nó có ưu điểm là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các phân phối của chúng.

12

h e m o g lo b in8 9 10 11 12 13 14 15 16

0

5

10

15

Hình 9. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ nữ trung bình và khá (đường xanh)

13

Ðại cương về phân tích số liệu

Phép ước lượng

Dân số và mẫuThông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm. Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là mẫu (sample) và từ đó ước đoán về những đặc tính của dân số.

Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để có được đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của mẫu chúng ta sử dụng phương pháp suy luận thống kê và lí giải để có được đặc trưng của dân số (được gọi là tham số - parameter)

Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn. Khi lấy mẫu ngẫu nhiên đơn, chúng ta có thể tính được giá trị trung bình và độ lệch chuẩn của mẫu. Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau. Tuy vậy các nhà thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giá trị trung bình này sẽ tập trung tại trung bình của dân số. Do đó nếu chúng ta tính trung bình của mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của mẫu. Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được gọi là sai số chuẩn (standard error) và sẽ giảm đi khi cỡ mẫu càng lớn:

Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá trình trung bình dân số còn sai số chuẩn là đại lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham số (trung bình dân số hay tỉ lệ của dân số).

Ước lượng khoảng tin cậy của trung bìnhNhư chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị trung bình của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính trung bình của mẫu.

Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ chính xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí đâu đó chung quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các trường hợp trung bình dân số không nằm xa quá 1,96 x SE so với trung bình mẫu: phạm vi này được gọi là khoảng tin cậy 95%. Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng

Khoảng tin cậy 95% (95% CI) : x 1,96s/n

Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị 1,96 như trong công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ), giá trị này được gọi là giá trị của phân phối t với (cỡ mẫu – 1) độ tự do.

Khoảng tin cậy 95% (95% CI) : x t(1-/2) s/n

Bài tập:

1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. Hãy ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng Tháp.

Sử dụng công thức trên ta tính được:

14

95%CI=3096.74 - 3145.26 gram.

2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy ước lượng khoảng tin cậy 95% của chiều cao trung bình.

Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ lệch chuẩn của chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đó chúng ta tính được khoảng tin cậy 95%

95%CI=164.87 - 164.87.

Ước lượng khoảng tin cậy của tỉ lệĐể ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau đó dựa vào p để ước lượng khoảng tin cậy 95% của p

đến

Bài tập

Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá.

Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438

Suy luận thống kê

Kiểm định ý nghĩaPhương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng. Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì không B sẽ kéo theo không A.

A B BA

Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh nhân không bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc ruột.

Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn đoán tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng). Việc không có một trong các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh nhân không có đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán. Các biến cố nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ của chẩn đoán.

Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định một giả thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của các con số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi bình phương, v.v.) và nếu con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho. Miền nằm ngoài miền xảy ra phổ biến của số thống kê được gọi miền bác bỏ.

15

Hình 1. Nguyên tắc kiểm định ý nghĩa theo Fisher. Đường cong phân phối hình chuông thể hiện phân phối của thống kê của z khi µ=0 (giả thuyết Ho). Vùng diện tích dưới đường cong màu trắng thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng. Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết Ho và có diện tích là xác suất sai lầm loại 1 (5%).

Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau:

- Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ chứ không thể chứng minh được giả thuyết Ho. Vì vậy nếu chúng ta muốn chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả th.uyết thống kê Ho là hút thuốc lá không phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm định để bác bỏ điều này.

- Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho: điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên = điểm trung bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới có thể tính được phân phối của thống kê. Giả thuyết Ho không thể thể hiện bằng bất đẳng thức (Ho: RR>1 là sai)

- Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con số thống kê T có nằm trong miền bác bỏ hay không người ta tính xác suất xảy ra thống kê cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng công thức: P (>T |Ho) ). Xác suất này được gọi là giá trị p. Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác bỏ giả thuyết Ho.

Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi-Info, giá trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p được kí hiệu là Sig. Ở phần mềm Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì. Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như sau:

P > |T| (nếu kiểm định t) P > |z| (nếu kiểm định z)

Prob > chi2 (kiểm định chi bình phương)Prob > F (Kiểm định F; Kiểm định ANOVA)

16

Kiểm định giả thuyếtKhuyết điểm của phương pháp kiểm định ý nghĩa khi không bác bỏ được giả thuyết H0 chúng ta không biết được xác suất H0 đúng là bao nhiêu. Một nhà thống kê học khác tên là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đó có xét đến sai lầm loại 2.

Sai lầm loại một và sai lầm loại hai

Sai lầm loại một: bác bỏ giả thuyết H0 trong khi giả thuyết H0 là đúng.

Sai lầm loại hai: Không bác bỏ giả thuyết H0 trong khi giả thuyết H0 sai.

Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết H0, người nghiên cứu có thể bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại hai mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu.

Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu.

Bảng 1. Tóm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị ngưỡng của nó

Chân lí là Ho đúng(Không có sự khác biệt)

Chân lí là Ha đúng(Không có sự khác biệt)

Bác bỏ giả thuyết H0 Sai lầm loại 1(Xác suất = )

Kết luận đúng(Xác suất = 1- =Power của nghiên cứu)

Không bác bỏ giả thuyết H0 Kết luận đúng(Xác suất = 1-)

Sai lầm loại II(Xác suất = )

Chọn lựa kiểm định phù hợp

Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các kiểm định

17

chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu.

Bảng 10. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu

Loại thiết kế nghiên cứu

Thang đo của biến số phụ thuộc

Hai nhóm điều trị

gồm các cá nhân khác

nhau

Ba (hay nhiêù)

nhóm điều trị gồm các

cá nhân khác nhau

Trước và sau một điều trị (hoặc 2

điều trị) ở trên cùng các đối tượng

Nhiều điều trị trên cùng

các đối tượng

Liên hệ giữa hai biến số

Ðịnh lượng (mẫu rút từ một dân số có phân phối bình thường và phương sai hai nhóm đồng nhất

t-test không bắt cặp

Phân tích phương sai

t-test bắt cặp

Phân tích phương sai đo lường

lập lại

Hồi quy tuyến tính và tương

quan pearson

Ðịnh tính - Danh định 2 bảng 2 x n

2 bảng 3 x n

test McNemar

Cochrance Q

Hệ số của bảng n x m

(phi, OR, RR)

Ðịnh tính -Thứ tự

(hay biến định lượng không bình thường)

Kiểm định tổng sắp

hạng Mann-

Whitney

Kruskal-Wallis

Kiểm định sắp hạng có

dấu Wilcoxon

Friedman hệ số tương quan

Spearman

Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến phụ thuộc

Biến phụ thuộc Biến độc lập

Nhị giá Danh định (hoặc thứ tự)

Định lượng, đa biến (hoặc thứ tự)

Định lượng phân phối bình thường

T-test ANOVA Hồi quy tuyến tính

Biến định lượng phân phối không bình thường – Biến thứ tự

Mann-Whitney Kruskal-Wallis TQ Spearman

Nhị giá Chi bình phương Chi bình phương Hồi quy logistic

Sống còn Wilcoxon tổng quát

Logrank

Wilcoxon tổng quát

Logrank

Hồi quy Cox

Phép kiểm t bắt cặpTiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong trong 3

18

năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị hữu hiệu. Tilapur và Mir (Am J Med 1984; 77:987) cho rằng chế độ ăn giảm carbonhydrate có thể cải thiện tình trạng hô hấp. Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính (có dấu hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600 Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động mạch) trước và sau điều trị. Kết quả nghiên cứu được trình bày trong Bảng 1. Hãy so sánh trung bình của phân áp oxy động mạch trước và sau khi điều trị.

19

Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng trước và sau chế độ điều trị với chế độ ăn giảm carbonhydrate

Đối tượng Pa02 trước Pa02 sau Hiệu số PaC02 trước PaC02 sau Hiệu số

1 70 82 12 49 45 -4

2 59 66 7 68 54 -14

3 53 65 12 65 60 -5

4 54 62 8 57 60 3

5 44 74 30 76 59 -17

6 58 77 19 62 54 -8

7 64 68 4 49 47 -2

8 43 59 16 53 50 -3

Thực hành:

Bước 1: Xây dựng giả thuyết Ho:

Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi

Bước 2: Chọn kiểm định phù hợp

Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do

Bước 3: Tính thống kê t

Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch trước và sau điều trị) để tính thống kê t

Bước 4: tính xác suất của giá trị thống kê t

Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do, 2). Cụ thể để tính p tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh công thức "=tdist(4.63, 7, 2) vào một ô. Kết quả ta được giá trị p= 0.002397687.

Bước 5: Kết luận

Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân áp oxy động mạch có cải thiện sau khi điều trị.

Phép kiểm t (không bắt cặp)Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain (Circ Res 1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người có nồng độ catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu, huyết áp tâm trương. Kết quả của nghiên cứu được trình bày trong bảng 2. Hãy so sánh nhịp tim ở hai nhóm, nhóm có tăng catecholamine và nhóm không tăng catecholamine.

Bảng 1. Trung bình và độ lệch chuẩn của Luợng catecholamine huyết thanh, nhịp tim, huyết áp tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân tăng huyết áp không tăng catecholamine

Tăng catecholamine Không tăng

Số bệnh nhân 13 9

20

catecholamine huyết thanh (ug/mL) x=0.484 s=0.133 x=0.206 s=0.060

Nhịp tim x=90.7 s=11.5 x=77.8 s=13.2

Huyết áp tâm thu x=171.3 s=13.7 x=147.4 s=9.9

Huyết áp tâm trương x=103.0 s=8.3 x=95.6 s=12.9

Thực hành:


Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình ở nhóm bệnh nhân không tăng catecholamine


Kiểm định phù hơp là kiểm định t với (n1+n2-2) = 20 độ tự do

Bước 3: Tính thống kê t

Trước tiên chúng ta phải tính độ lệch chuẩn gộp

(Để dễ nhớ công thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung bình của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai đó)

Sau đó chúng ta tính thống kê t

Bước 4: tính xác suất của giá trị thống kê t

Sử dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số thống kê chúng ta sẽ tìm được p <0,05)


Vì giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa hai nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình.

Phân tích phương saiAnionwo et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm bệnh hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3 nhóm bệnh nhân.

Bảng 7. Phân tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các bệnh nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981) British Medical Journal, 282, 283-6

(a) Số liệu

Loại bệnh hồng cầu liềm

Số bệnh nhân

(ni)

Trung bình

(xi)

s.d.

(si)

Giá trị của các cá thể

hemoglobin g%

(x)

Hb SS 16 8,712 0,844 7,2; 7,7; 8,0; 8,1; 8,3; 8,4; 8,4; 8,5; 8,6; 8,7; 9,1; 9,1; 9,1; 9,8; 10,1; 10,3

21

Hb S/b-thalassaemia

10 10,630 1,284 8,1; 9,2; 10,0; 10,4; 10,6; 10,9; 11,1; 11,9; 12,0; 12,1

Hb SC 15 13,300 0,942 10,7; 11,3; 11,5; 11,6; 11,7; 11,8; 12,0; 12,1; 12,3; 12,6; 12,6; 13,3; 13,8; 13,8; 13,9

Hãy sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3 nhóm bệnh nhân bị hồng cầu liềm.

Thực hành:


Ho: Trung bình Nồng độ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau


Kiểm định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số nhóm, số quan sát - số nhóm) = (2,38) độ tự do ; F tới hạn= 3,32

Bước 3: Lập bảng ANOVA và Tính thống kê F

Chúng ta lập thành bảng phân tích phương sai như sau:

Nguồn biến thiên SS d.f. MS=SS/d.f. MS giữa các nhóm

F= ----------------------------

MS bên trong nhóm

Giữa các nhóm 99,92 2 49,96 50.03 , P<0,001

Trong các nhóm 37,95 38 1,00

Tổng cộng 137,85 40

Các giá trị ở trên có thể tính theo công thức sau:

Giữa các nhóm

SSb= ni(xi-x)2= nixi2-(x)2/N

= 16 8,71252+10 10,63002+15 12,3002 - 430,22/41=99,92

dfb = k-1 = 2

MSb = SS/d.f.

Trong các nhóm

SSw = (ni -1)si2 =15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96

dfw= N - k = 41-3 = 38

MSw = SS/d.f.

Và giá trị thống kê F

F = MSb/MSw

Bước 4: tính xác suất của giá trị thống kê F

Dựa vào máy tính chúng ta tính được giá trị p= 2.26 x 10 -11. Chúng ta cũng có thể dựa vào bảng thống kê F để tìm được p <0,001


Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh hồng cầu liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê.

22

Phép kiểm chi bình phươngCó 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm?

Thực hành


Ho: Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine


Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do

Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương

Lập bảng 2 x 2 như sau

Kết quả Mắc bệnh cúm Không mắc Tổng

Tiêm chủng Có 20 a

(8,3%)

220 b 240 a+b

Placebo 80 c

(36,4%)

140 d 220 c+d

Tổng 100 a+c 360 b+d 460 N

Để tính thống kê chi bình phương có hai cách:

Phương pháp chính thức:

- Tính các giá trị kì vọng (E) ở các ô, giá trị kì vọng của một ô bằng tích các ô biên chia cho tổng số chung (thí dụ giá trị kì vọng của ô a Ea = (a+b) (a+c) /N, giá trị kì vọng của ô c Ec

= (a+b) (c+d) /N)

- Tính giá trị chi bình phương theo công thức

Trong thí dụ này

Công thức tính tắt cho bảng 2 2

Bước 4: tính xác suất của giá trị thống kê 2

Sử dụng máy vi tính chúng ta được giá trị p= 3,31 x 10-13 nghĩa là giá trị của p rất nhỏ. Sử dụng bảng số chúng ta biết được p < 0,001.


Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận tỉ lệ mắc cúm ở nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm placebo.

Sự tương quan của hai biến số định tínhMức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm

23

Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc OR nếu trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta có thể tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta được RR=0,23 với khoảng tin cậy 95% của RR từ 0,15 đến 0,36

So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phươngKhi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức độ liên hệ (xem lại phần các số đo dịch tễ).

Kết quả Mắc bệnh Không mắc bệnh

Tổng

Biến số phơi nhiễm

Phơi nhiễm a1 b1 N1

Không phơi nhiễm

ao b0 N0

Tổng a1+a0 b1+b0 N=N1+N0

Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm không phơi nhiễm:

RR = (a1/N1)/(a0/N0)

Khoảng tin cậy 95% của tỉ số nguy cơ:

hay (test-based CI)

Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh mắc bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số số chênh là tỉ số của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm ở nhóm không chứng.

RR = (a1/b1)/(a0/b0)

Khoảng tin cậy 95% của tỉ số số chênh:

Bài tập

Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử đã tìm được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhóm bị viêm ruột hoại tử có 50 trường hợp có tiền căn ăn thịt (gần đây) và trong nhóm chứng có 16 trường hợp có tiền căn ăn thịt. Hãy tìm ước lượng số đo liên hệ giữa ăn thịt và viêm ruột hoại tử.

Table 5. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea (OR=11,6)

Ăn thịt trong thời gian gần đây Không ăn thịt trong thời gian gần đây

Tổng số

Nhóm bệnh 50 a1 11 b1 61

Nhóm chứng 16 a0 41 b0 57

Tổng số 66 52 118

24

Nếu tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng (16/57) có ý nghĩa thống kê thì chúng ta có thể kết luận rằng có sự liên quan giữa ăn thịt và viêm ruột hoại tử. Đây là bài toán so sánh tỉ lệ của một biến số định tính ở hai nhóm và được giải quyết bằng kiểm định chi bình phương.

Tuy nhiên bằng việc kiểm định giả thuyết chúng ta chỉ xác định có mối liên hệ mà không biết độ lớn của sự liên hệ. Bởi vì đây là nghiên cứu bệnh chứng chúng ta không tính được RR mà phải sử dụng OR để đo lường sức mạnh liên hệ. Sử dụng công thức tính OR và khoảng tin cậy của OR ta được:

OR = (a1/b1)/(a0/b0) = (a1 b0)/(a0 b1) = 11.65 và

khoảng tin cậy 95% của OR = 4.87 đến 27.85

Bài tập

Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm?

Kết quả Mắc bệnh cúm Không mắc Tổng

Tiêm chủng Có 20 a1

(8,3%)

220 b1 240 N1

Placebo 80 a0

(36,4%)

140 d220 N0

Tổng 100 360 460 N

Ta tính được RR = (a1/N1)/(a0/N0) = (20/240)/(80/220) = 0.23

Khoảng tin cậy 95% của tỉ số nguy cơ:

= 0.15 đến 0.36

Quan hệ giữa hai biến số định lượng

Tương quanTương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại hệ số tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Nếu chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là hoàn toàn không có sai số ngẫu nhiên.

Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:

Lí giải ý nghĩa của hệ số tương quan Pearson

- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]

- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến.

- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt

25

đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e).

- Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)

- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số không phải là tuyến tính (hình 9.2b)

- Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh.

Hồi quyHồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số khác.

Một phương trình hồi quy có thể có dạng như sau:

cân nặng (kg) = 6,85 + 0,18 tháng tuổi

(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)

theo phương trình này người ta gọi:

cân nặng: biến số phụ thuộc

tháng tuổi: biến số độc lập

6,85: hệ số của hằng số, hay còn gọi là điểm chặn (intercept)

0,18: hệ số của biến số tháng tuổi.

Một cách tổng quát phương trình hồi quy sẽ có dạng:

Y = b0 + b1 x1 + b2 x2 + b3 x3

Với y là biến số phụ thuộc

x1, x2, x3 là các biến số độc lập

b0: điểm chặn của phương trình

b1, b2, b3 : hệ số của các biến số độc lập

Hệ số của biến số độc lập nói lên nếu biến số độc lập tăng một đơn vị thì biến số phụ thuộc y sẽ thay đổi bao nhiêu. Cụ thể hơn nếu biến số x2 thay đổi một đơn vị thì biến số y sẽ tăng giá trị là b2 (biến số y sẽ giảm nếu giá trị b2 âm).

Bài tập

1. Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng trong bảng 4.

Đối tượng Lượng muối Huyết áp

1 5 110

2 10 120

3 12 110

4 18 120

5 20 140

Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng.

Thực hành

26

Để tìm sự liên hệ giữa hai biến số định lượng chúng ta sử dụng hệ số tương quan. Dựa vào công thức ta tính được

r = 0,771829.

Như vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên quan này là mạnh và lượng muối ăn giải thích cho đến 60% (0.77 0.77) sự thay đổi của huyết áp tâm thu.

Chúng ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là:

Huyết áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối.

Giá trị 99,8 được gọi là điểm chặn của phương trình hồi quy và 1,55 là hệ số góc của biến số lượng muối tiêu thụ. Điều này có nghĩa là nếu lượng muối ăn tăng thêm 1 gram/ngày thì huyết áp tâm thu sẽ tăng trung bình 1,55 mmHg.

2. Lý giải ý nghĩa của phân tán đồ sau

Figure 8. Trọng lượng sơ sinh theo tuổi thai (tuần) của 641 trẻ sinh do thụ thai trong ống nghiệm ở Anh quốc

trong lu

ong tr

e

tuoi thai20 24 28 32 36 40 44

0

1000

2000

3000

4000

5000

27

Xác định và chọn ưu tiên nghiên cứu

Mục tiêuSau buổi thảo luận các hội thảo viên có thể:

- Xác định các tiêu chuẩn để chọn lựa các vấn đề y tế ưu tiên để nghiên cứu

- Làm việc theo nhóm nhỏ, dùng các tiêu chuẩn đã chọn để xác lập ưu tiên nghiên cứu

- Sử dụng các phương pháp đồng thuận nhóm để chọn một chủ đề thích hợp để thực hiện đề cương nghiên cứu và đề cương này sẽ được sử dụng trong suốt khoá đào tạo

Xác định vấn đềVấn đề là một thiếu sót hay khoảng cách giữa hiện tại và điều mong đợi. Thí dụ nếu tỉ lệ tiêm chủng đủ 6 loại vaccine của các bệnh Lao, Bạch hầu, Ho gà, Uốn ván, Bại liệt, Sởi ở trẻ em 12 tháng tuổi tại một địa phương là 60% trong khi chúng ta mong muốn tỉ lệ tiêm chủng đầy đủ là 90% thì tỉ lệ tiêm chủng thấp là một vấn đề.

Nếu tỉ lệ tiêm chủng vaccine viêm gan virus B ở trong dân số là 30% trong khi chúng ta không đặt ra chỉ tiêu tiêm chủng của loại vaccine này thì tỉ lệ tiêm chủng vaccine viêm gan virus B 30% không phải là vấn đề.

Vấn đề có thể xảy ra do thiếu hụt trang thiết bị, do cơ cấu tổ chức thì vấn đề được gọi là vấn đề quản lí. Thí dụ việc điều trị cho bệnh nhân sốt rét không tốt do trạm y tế không có đủ thuốc sốt rét để điều trị sốt rét cho bệnh nhân thì vấn đề này được gọi là vấn đề quản lí và cần được giải quyết bằng cách làm việc với chương trình sốt rét để cung cấp thêm thuốc. Đôi khi vấn đề xảy ra do chúng ta không có đủ kiến thức về vấn đề đó. Thí dụ, nếu chúng ta không thể điều trị tốt bệnh nhân sốt rét do chúng ta không biết được kí sinh trùng sốt rét đã kháng với loại thuốc nào và còn nhạy cảm với thuốc chống sốt rét nào. nghiên cứu Khi đó vấn đề này là vấn đề nghiên cứu và câu hỏi mà chúng ta cần phải trả lời để giải quyết vấn đề nghiên cứu được gọi là câu hỏi nghiên cứu.

Các câu hỏi nghiên cứu có thể được phân thành ba loại tuỳ theo loại kiến thức cần tìm:

1- Mô tả vấn đề y tế để nhằm xây dựng kế hoạch can thiệp: mô tả có thể bao gồm các thông tin về độ lớn và phân bố của nhu cầu sức khoẻ hoặc thông tin về nguồn lực nhằm xây dựng kế hoạch can thiệp.

2. Kiến thức để đánh giá một chương trình can thiệp hay một phác đồ điều trị về các phương diện: độ bảo phủ của nhu cầu sức khoẻ, độ bao phủ của dân số mục tiêu, chất lượng, hiệu quả, chi phí, v.v

3. Kiến thức đề xác định các vấn đề y tế hay phân tích nguyên nhân của vấn đề để tìm giải pháp.

Một vấn đề cần được nghiên cứu phụ thuộc và ba điều kiện:

1. Phải có sự bất cập, khoảng cách giữa điều đang tồn tại và điều chúng ta mong muốn

2. Lí do của vấn đề đó (khoảng cách) là chưa rõ

3. Phải có nhiều hơn một câu trả lời cho vấn đề nghiên cứu đó

Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứuCó 7 tiêu chuẩn được sử dụng để hướng dẫn chọn ưu tiên cho các vấn đề nghiên cứu:

1. Tính xác hợp: Tính xác hợp của vấn đề nghiên cứu phụ thuộc vào quy mô và mức độ trầm trọng của vấn đề. Cần lưu ý tính xác hợp của vấn đề phụ thuộc vào quan điểm của các bên.

2. Tránh trùng lắp: Cần phải kiểm tra xem nghiên cứu đã được thực hiện ở tại địa phương hay không hay tại một địa phương có điều kiện tương tự hay không

3. Tính khả thi: Cần xem xét mức độ phực tạp của đề tài và nguồn lực cần thiết để tiến hành

28

nghiên cứu: nhân sự, thời gian, trang thiết bị và tiền bạc. Nếu vấn đề là quan trọng mà nguồn lực không đủ có thể xem xét việc xin tài trợ từ các nguồn ở bên ngoài.

4. Tính được chấp nhận từ các nhà quản lí: Nói chung một nghiên cứu cần được sự quan tâm và ủng hộ của các cấp có thẩm quyền. Khi đó nghiên cứu được tiến hành một cách thuận lợi hơn và kết quả có thể được ứng dụng để đưa vào thực tiễn. Nếu một nghiên cứu được tiến hành nhằm thay đổi một chính sách thì cần phải tranh thủ sự ủng hộ và sự tham gia của các nhà hoặch định chính sách.

5. Tính ứng dụng của kết quả và các kiến nghị Các kiến nghị có thể được áp dựng hay không? Điều này không chỉ phụ thuộc vào sự quan tâm của các cấp lãnh đạo mà còn phụ thuộc vào nguồn lực hiện có tại địa phương.

6. Tính cấp thiết của đề tài: Kết quả của nghiên cứu có cần thiết để ra một quyết định khẩn cấp hay không? Nghiên cứu nào cần phải làm trước và nghiên cứu nào có thể thực hiện sau.

7. Tính chấp nhận về đạo đức: Bao gồm sự chấp nhận của cộng đồng kể cả về mặt lợi ích và văn hoá. Nghiên cứu này có sử dụng thư mời chấp nhận tham gia nghiên cứu hay không? Nếu kết quả phát hiện bệnh tật ở người dân có cung cấp điều trị cho họ hay không?

Thang điểm đánh giá các chủ đề nghiên cứu

Tính xác hợp:1. Không xác hợp: bệnh ít gặp và không trầm trọng

2. Xác hợp: bệnh phổ biến nhưng ít trầm trọng

3. Rất xác hợp: phổ biến có hậu quả xấu

Tránh trùng lắp1. Đã đủ thông tin về vấn đề nghiên cứu

2. Có thông tin về vấn đề nghiên cứu nhưng chưa bao phủ vấn đề chính

3. Không có thông tin để giải quyết vấn đề

Tính khả thi1. Nghiên cứu không khả thi với tài nguyên sẵn có

2. Nghiên cứu khả thi với nguồn lực sẵn có

3. Nghiên cứu rất khả thi với nguồn lực sẵn có

Tính chấp nhận của cấp lãnh đạo1. Chủ đề không chấp nhận được với lãnh đạo

2. Chủ đề ít nhiều khó chấp nhận

3. Chủ đề được chấp nhận hoàn toàn

Tính ứng dụng1. Khuyến cáo ít cơ hội được thực hiện

2. Khuyến cáo có ít nhiều cơ hội được thực hiện

3. Khuyến cáo có nhiều cơ hội được thực hiện

Tính cấp thiết1. Thông tin không cấp thiết cần thiết

2. Thông tin cần thiết ngay nhưng có thể trì hoãn

3. Thông tin rất cần thiết để ra quyết định

29

Tính chấp nhận về đạo đức1. Có vấn đề quan trọng về đạo đức

2. Có một ít trở ngại về đạo đức

3. Không có vấn đề đạo đưc

Bảng điểm

Vấn đề 1 Vấn đề 2 Vấn đề 3 Vấn đề 4

1. Tính xác hợp

2. Tránh trùng lắp

3. Khả thi

4. Được lãnh đạo chấp nhận

5. Tính ứng dụng

6. Tính cấp thiết

7. Y đức

Tổng số

30

Phương pháp phân tích và khẳng định vấn đề nghiên cứu

Mục tiêuSau khi hoàn tất buổi tập huấn các hội thảo viên có thể:

1. Phân tích một vấn đề và các yếu tố ảnh hưởng đến nó

2. Viết phần đặt vấn đề cho đề cương nghiên cứu mà mình sẽ phải xây dựng

Phân tích vấn đềPhân tích vấn đề là công việc xác định vấn đề cốt lõi từ vấn đề nghiên cứu và xác định các yếu tố ảnh hưởng đến vấn đề cốt lõi đó.

Thí dụ: một bác sĩ hồi sức cấp cứu nhận xét tỉ lệ tử vong ở những bệnh nhân hôn mê do đái tháo đường là rất cao do không xác định được phác đồ điều trị phù hợp cho các bệnh nhân này. Vấn đề này có thể do nhiều vấn đề nhỏ khác nhau như: tăng áp lực thẩm thấu, nhiễm toan chuyển hóa, do mất nước, do ổ nhiễm trùng tiềm ẩn, do bệnh nền, v.v. Giả sử người bác sĩ xác định nhiễm toan chuyển hóa là nguyên nhân chủ yếu của tử vong ở các bệnh nhân hôn mê đái tháo đường và ông ta liệt kê các các yếu tố ảnh hưởng đến toan chuyển hóa thì đây là việc phân tích vấn đề

Bước này có thể đơn giản hay phức tạp tùy theo mức độ hiểu biết về vấn đề nghiên cứu của nhà nghiên cứu. Việc phân tích vấn đề nhằm các mục đích:

1. Cho phép các thành viên nghiên cứu chia xẻ kiến thức về vấn đề nghiên cứu

2. Làm rõ vấn đề nghiên cứu và các yếu tố ảnh hưởng đến nó

3. Làm thuận lợi hơn việc quyết định về phạm vi và trọng tâm của nghiên cứu

Các bước để phân tích vấn đềBước 1: Làm rõ các quan điểm của các nhà quản lí, nhân viên y tế và nhà nghiên cứu có liên quan đến vấn đề. Điều này là cần thiết bởi vì đôi khi quan điểm của nhà quản lí không thể hiện một cách rõ ràng mà chỉ có thể là "Vấn đề chăm có bệnh nhân tiểu đường cần phải xem lại". Do vậy nó cần được làm rõ

Bước 2: Chuyên biệt và mô tả vấn đề cốt lõi, bao gồm bản chất của vấn đề, phân bố của vấn đề và quy mô và mức độ trầm trọng của vấn đề cốt lõi

Bước 3: Phân tích vấn đề: các yếu tố góp phần vào vấn đề và cần làm sáng tỏ mối quan hệ giữa vấn đề và yếu tố góp phần. Bước này được chia làm 4 bước nhỏ:

- Viết ra vấn đề cốt lõi ở giữa tờ giấy

- Động não để tìm ra các yếu tố có ảnh hưởng đến vấn đề

- Xác định thêm các yếu tố góp phần vào vấn đề

- Phân các yếu tố có liên quan thành các nhóm: kinh tế xã hội, dịch vụ y tế và các yếu tố bệnh tật.

Bước 1: Làm rõ quan điểm của nhà nghiên cứu, nhân viên y tế và nhà lãnh đạo

- Đôi khi quan điểm của nhà lãnh đạo được phát biểu chưa rõ ràng thí dụ như : “Cần xem xét lại việc chăm sóc bệnh nhân tiểu đường”; “Cần nghiên cứu vấn đề bỏ tuyến”, “Khảo sát vấn đề điều trị DOTS”. Khi đó chúng ta cần thảo luận và khẳng định dưới dạng vấn đề là khoảng cách giữa “hiện tại” và “điều mong muốn”

- khi vấn đề dưới dạng trình bày rõ ràng, vấn đề trở thành nhiều vấn đề nhỏ:

Tỉ lệ chữa khỏi ở bệnh nhân điều trị bằng DOTS thấp

Nhân viên y tế không đảm bảo đúng chức năng giám sát

31

Bệnh nhân không tuân thủ lịch điều trị

Bệnh nhân tiểu đường và thân nhân không có nhận thức đủ về tiểu đường và tự chăm sóc trong tiểu đường

Bệnh nhân tiểu đường có biến chứng cao

Bệnh nhân tiểu đường ít dung nạp với điều trị

Tỉ lệ tái nhập viện cao trong những bệnh nhân tiểu đường

Bước 2:

- chọn vấn đề cốt lõi từ các vấn đề nhỏ

Bệnh nhân tiểu đường có biến chứng cao

Tỉ lệ tái nhập viện cao trong những bệnh nhân tiểu đường

- Mô tả vấn đề cốt lõi theo:

Bản chất: sự khác biệt về “hiện tại” và “mong muốn”

Phân bố của vấn đề: Con người, thời gian, nơi chốn

Tầm cỡ và độ trầm trọng của vấn đề: quy mô của vấn đề, độ trầm trọng của vấn đề, hậu quả vấn đề

Bước 3:

- Xác định yếu tố góp phần tạo ra vấn đề và mối quan hệ giữa vấn đề và vấn đề góp phần

Sử dụng sơ đồ cây vấn đề, trong đó vấn đề được đặt ở giữa và các yếu tố ảnh hưởng và góp phần được đặt chung quanh và hướng mũi tên thể hiện sự tác động. Vấn đề thường được vẽ với 2 đường viền để phân biệt với các yếu tố ảnh hưởng.

\

Quá trình này bao gồm các bước sau:

Bước 3.1: Viết vấn đề cốt lõi ở giữa

Bước 3.2: tìm ra các yếu tố ảnh hưởng

Bước 3.3: Tiếp tục tìm ra các yếu tố ảnh hưởng và góp phần sao cho các yếu tố này là yếu tố có thể thay đổi. Ở dưới là một số cây vấn đề của vấn đề lao phổi và tăng huyết áp.

32

33

Bước 3.4: Sắp xếp các yếu tố thành các nhóm lớn và xây dựng sơ đồ:

Yếu tố kinh tế xã hội: Gồm tuổi, giới, học vấn, nghề nghiệp, kiến thức cộng đồng, các loại hình điều trị ở cộng đồng, thái độ với các loại hình điều trị

Yếu tố dịch vụ y tế: tính có được và tiếp cận được của dịch vụ, quản lí dịch vụ y tế, chất lượng cơ sở y tế

Yếu tố y sinh: độ trầm trọng của bệnh tật, đáp ứng với điều trị, hiện tượng kháng thuốc, độc lực vi khuẩn

Chú ý:

- Nếu bản chất nghiên cứu là mô tả, sơ đồ phân tích không tìm kiếm nguyên nhân của vấn đề

- Thí dụ nếu chúng ta muốn nghiên cứu kiến thức, thái độ, hành vi của học sinh về giun sán để xây dựng tài liệu giáo dục sức khoẻ ở trường học. Có 2 sơ đồ:

– Những yếu tố KAP gây nên bệnh giun sán

– Những yếu tố góp phần vào sự phát triển KAP ở thanh thiếu niên

Xác định phạm vi và trọng tâm của nghiên cứuSau khi phân tích vấn đề, cần phải xem xét lại trọng tâm và phạm vi của đề tài. Việc xác định phạm vi và trọng tâm của đề tài phụ thuộc vào

1. Tính hữu dụng thông tin (thông tin về các yếu tố góp phần): Thông tin nào khi được thu thập để giải quyết vấn đề sẽ giúp giải quyết vấn đề y tế và cải thiện chăm sóc y tế? Thông tin này cần thiết cho ai? Thông tin sẽ giải quyết đến các yếu tố nào của vấn đề?

2. Tính khả thi: Có thể thu thập được những thông tin nào trong thời gian dự định dành để thực hiện nghiên cứu?

3. tính lập lại: Có thông tin nào liên quan đến các yếu tố trong sơ đồ đã có rồi? vấn đề nào của thông tin cần được nghiên cứu thêm.

34

Lưu ý:

- Cần tham khảo tài liệu hoặc hỏi ý kiến chuyên gia để xác định trọng tâm và phạm vi của nghiên cứu

- Nếu chưa rõ sự liên hệ và tầm quan trọng của các yếu tố góp phần, khi xác định phạm vi nghiên cứu dễ có nguy cơ bỏ qua những yếu tố góp phần quan trọng nhất.

- Để rõ mối liên hệ và tầm quan trọng của các yếu tố góp phần, sử dụng nghiên cứu thăm dò nhằm phát hiện tối đa những yếu tố có liên quan bằng cách nghiên cứu một số ít đối tượng.

Xây dựng phần đặt vấn đềPhần đầu tiên trong một đề cương nghiên cứu là phần đặt vấn đề. Phần này hết sức quan trọng bởi vì nó đặt nền tảng cho sự xây dựng tiếp theo của đề cương nghiên cứu, giúp tìm kiếm thông tin và báo cáo từ các nghiên cứu khác để có thể tham khảo và cho phép chỉ ra một cách có hệ thống tại sao vấn đề này được nghiên cứu và chúng ta có thể gặt hái gì từ kết quả nghiên cứu. Điều này là rất quan trọng khi chúng ta trình bày nghiên cứu của chúng ta cho các thành viên của cộng đồng và các nhân viên, cán bộ và lãnh đạo ngành y tế.

Các thông tin cần thiết trong phần đặt vấn đề1. Mô tả ngắn gọn về đặc điểm kinh tế xã hội, văn hoá , tình trạng sức khoẻ và y tế của địa phương có liên quan đến vấn đề nghiên cứu.

2. Mô tả về bản chất của vấn đề (sự khác biệt giữa thực tiễn và điều mong muốn) nếu vấn đề còn chưa rõ.

3. Phân tích các yếu tố chính ảnh hưởng đến vấn đề

4. Mô tả các giải pháp đã được sử dụng trước đây hoặc kết quả các nghiên cứu trước và nêu rõ lí do tại sao cần giải pháp mới hay cần một nghiên cứu mới

5. Mô tả loại thông tin hi vọng sẽ có được từ nghiên cứu và thông tin này sẽ giúp giải quyết vấn đề này như thế nào hay giúp trả lời câu hỏi nghiên cứu như thế nào?

6. Nếu cần thiết cần nêu ra định nghĩa của những khái niệm quan trọng của nghiên cứu.

35

Tổng quan y văn

Mục tiêuSau khi nghiên cứu phần này, học viên có khả năng

1. Trình bày những lí do để tham khảo các y văn có sẵn và các thông tin khác trong khi chuẩn bị đề cương nghiên cứu

2. Trình bày các nguồn tài liệu có thể tham khảo

3. Chuẩn bị tổng quan y văn và những thông tin khác có liên quan đến đề cương nghiên cứu, những thông tin này trình bày các số liệu nền tảng và những thông tin hỗ trợ cho chủ đích nghiên cứu.

Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứuViệc tham khảo y văn sẽ giúp chúng ta tránh việc lập lại các công trình đã làm từ trước

Tham khảo y văn sẽ giúp bạn tìm hiểu các nhà nghiên cứu khác đã phát hiện và báo cáo những gì về vấn đề bạn muốn nghiên cứu. Điều này giúp bạn hoàn thiện phần đặt vấn đề

Tham khảo y văn gúp bạn quen thuộc hơn với những loại thiết kế nghiên cứu đã được sử dụng trong chủ đề nghiên cứu này

Tham khảo y văn cho bạn những lí lẽ thuyết phục tại sao đề tài nghiên cứu của bạn là cần thiết.

Những nguồn thông tin có thể tham khảoChúng ta có thể tham khảo các nguồn thông tin khác nhau. Các nguồn thông tin này có thể là các cá nhân, các nhóm người hay các tổ chức. Nguồn thông tin cũng có thể là từ những tài liệu đã xuất bản như sách vở, tạp chí, bài báo, các thư mục hoặc những tài liệu chưa xuất bản như đề cương nghiên cứu, báo cáo, hồ sơ, cơ sở dữ liệu trong máy tính. Hiện nay các website trên internet là một nguồn thông tin quan trọng để có được các ý kiến của cá nhân, của các nhóm, các tổ chức, các tài liệu đã xuất bản hoặc tài liệu chưa xuất bản.

Các nguồn thông tin có thể có ở nhiều cấp khác nhau, cấp độ địa phương, cấp độ quốc gia hay cấp độ

Cấp độ Thí dụ về nguồn thông tin

Địa phương - Số liệu của bệnh viện hay phòng khám từ các thống kê định kì

- Ý kiến, niềm tin của các nhân vật chủ chốt

- Quan sát lâm sàng, báo cáo các tai biến

- Điều tra hay báo cáo hàng năm

- Niên giám thống kê của địa phương

- Sách, bài báo khoa học, báo chí, v.v

Quốc gia - Bài báo từ các tạp chí khoa học quốc gia, sách vở tìm kiếm được trong thư viện của trường đại học, thư viện của WHO, UNICEF

- Văn bản, báo cáo, số liệu thô từ

- Bộ y tế

- Tổng cục thống kê

- Các tổ chức phi chính phủ

Quốc tế - Các tạp chí khoa học, tạp chí chuyên ngành

36

- Các ấn bản của WHO, UNICEF, UNFPA, v.v

- Các sách, tài liệu khoa học kinh điển

Cách viết phần tổng quanCó một số bước phải thực hiện để chuẩn bị cho việc tổng quan y văn và các thông tin

1. Đầu tiên phải tổ chức các thẻ thư mục theo nhóm của các chủ đề tuỳ theo nó có liên quan đến khía cạnh nào của vấn đề

2. Sau đó, quyết định trình tự trình bày các chủ đề. Nếu phát hiện rằng bạn đã không tìm được y văn cho thông tin về một khía cạnh của vấn đề của bạn mà bạn cảm thấy rằng nó quan trọng, cần phải nỗ lực để tìm kiếm y văn đó.

3. Cuối cùng, trình bày ý tưởng theo ngôn từ một cách mạch lạc trong vòng từ một đến hai trang nhưng cần phải có tài liệu tham khảo.Có hai cách trích dẫn tài liệu tham khảo:

- Bạn có thể đánh số thứ tự trên văn bản để tham chiếu đến các tài liệu tham khảo. Sau đó liệt kê các tài liệu tham khảo theo thứ tự và sử dụng các thông tin được mô tả trong thẻ thư mục và phần liệt kê các tài liệu tham khảo này phải được đưa vào sau đề cương để làm phụ lục (cách trích dẫn này thường được gọi là trích dẫn theo hệ thống Vancouver).

- Một cách khác là bạn có thể viết họ của tác giả nước ngoài (toàn bộ tên và họ nếu là tác giả trong nước), năm xuất bản và số trang được trích dẫn để tham chiếu đến tài liệu tham khảo. Trong trường hợp này liệt kê các tài liệu tham khảo theo thứ tự bảng chữ cái và phần liệt kê cũng được đưa vào sau đề cương để làm phụ lục (cách trính dẫn này được gọi là trích dẫn theo hệ thống Havard)

4. Quy tắc liệt kê tài liệu tham khảo:

Tạp chí: Altman Cho DG. Statistics in medical journals. Stat Med 1983;1:59-71.

[Họ - tên tắt].[Tên bài báo].[Tên tờ báo] [năm XB];[số]:[trg đầu]-[trg cuối]

Sách:

Andersen B. Methodological errors in medical research. An incomplete catalogue. Oxford: Blackwell, 1990.

[Họ - tên tắt].[Nhan đề sách].[Nơi xuất bản]:[nhà xuất bản],[năm XB]

Một chương sách:

Bailar JC. Communicating with a scientific audience. In: Bailar JC, Mosteller F, eds. Medical uses of statistics. Waltham, MA:NEJM Books, 1986:325-37.

[Họ - tên tắt].[Tên chương sách]. In: [Họ - tên tắt].[Nhan đề sách].[Nơi xuất bản]:[nhà xuất bản],[năm XB]:[trg đầu]-[trg cuối]

Một Website

National Board of Health and Welfare, Sweden. Hospital discharge register. http://www.sos.se/epc/par/pareng.htm (accessed 20 July 2001).

[Tên cơ quan chủ quản website]. [tên báo cáo].[địa chỉ website (ngày truy cập)]

Sai lệch có thểSai lệch trong y văn hay trong tổng quan y văn là sự biến dạng của những thông tin khiến cho kết luận từ y văn hay tổng quan y văn không phản ánh tình hình thực tiễn. Chúng ta cần phải cảnh giác với những loại sai lệch này và cần phải hết sức nghiêm túc với cácy văn hiện có. Nếu bạn có nghi ngại về một số tài liệu tham khảo hay bạn có thể phát hiện những ý kiến khác nhau

37

http://www.sos.se/epc/par/pareng.htm

chúng ta cần thảo luận một cách nghiêm túc và thẳng thắn. Thái độ nghiêm túc này sẽ giúp chúng ta tránh khỏi các sai lệch trong nghiên cứu của chính chúng ta. Những sai lệch thường thấy trong y văn bao gồm:

1. Che dấu những điểm tranh luận hay sự khác nhau trong kết quả nghiên cứu của chính mình

2. Chỉ tham khảo tài liệu của những người ủng hộ quan điểm của tác giả.

3. Rút ra những kết luận hết sức mạnh bạo từ kết quả nghiên cứu sơ bộ hay nghiên cứu mỏng manh hay khái quát hoá lan tràn từ một nghiên cứu trường hợp.

Việc mắc phải các loại sai lệch ở trên sẽ tạo nên các nghi ngờ về tính trung thực khoa học (scientific integrity) của nhà nghiên cứu. Hơn nữa việc trình bày một cách không cẩn thận các kết quả sẽ khiến cho độc giả ứng dụng kết quả nghiên cứu một cách sai lạc. Điều này không chỉ gây tốn kém thời gian, tiền bạc mà còn có thể gây hậu quả xấu cho sức khoẻ của người dân.

Việc đạo văn – trình bày kết quả hay công trình của các nhà khoa học khác mà không trích dẫn – cũng là một hành động thiếu đạo đức mà các nhà nghiên cứu cần phải tránh. Do đó nhà nghiên cứu cần phải tuân thủ theo các hướng dẫn về trích dẫn tài liệu tham khảo trong khi viết đề cương cũng như khi viết báo cáo khoa học. Ở một số quốc gia, hành động đạo văn có thể bị truy tố.

38

Mục tiêu nghiên cứu

Mục tiêu học tập:Sau khi nghiên cứu phần này, học viên có khả năng:

- Khẳng định các lí do để viết mục tiêu cho một nghiên cứu

- Xác định và mô tả sự khác biệt giữa mục tiêu tổng quát và mục tiêu đặc hiệu

- Xác định đặc tính của mục tiêu nghiên cứu

- Xây dựng mục tiêu nghiên cứu cho nghiên cứu của bạn ở một hình thức phù hợp.

Mục tiêu nghiên cứu là gì:Mục tiêu nghiên cứu nhằm tóm tắt những gì sẽ đạt được sau khi hoàn thành nghiên cứu. Thông thường người ta chia mục tiêu làm mục tiêu tổng quát và mục tiêu đặc hiệu. Mục tiêu tổng quát là những điều đạt được một cách chung nhất, còn mục tiêu đặc hiệu bao gồm các phần nhỏ hơn và có liên hệ với nhau và với mục tiêu tổng quát một cách hợp lí. Trong mục tiêu đặc hiệun ên cụ thể những điều sẽ làm trong nghiên cứu, làm ở đâu và với mục đích gì.

Thí dụ:

Nếu chúng ta có vấn đề nghiên cứu là mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện CT. Và sau khi phân tích vấn đề nghiên cứu chúng ta nhận thấy để giải quyết các vấn đề trên cần phải tìm hiểu các lí do khiến mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện CT ta sẽ thiết lập mục tiêu tổng quát như sau:

- Xác định các lí do của mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện CT

Nhằm đặt được mục tiêu tổng quát kể trên, chúng ta phải hoàn thành các công việc sau. Các công việc này được gọi là mục tiêu đặc hiệu:

- Xác định mức độ sử dụng dịch vụ phòng khám trẻ em ở huyện CT trong các năm 2000 và 2001 so với chỉ tiêu đặt ra

- Xác định có sự liên hệ giữa việc sử dụng dịch vụ phòng khám trẻ em với mùa trong năm, loại hình phòng khám

- Xác định các yếu tố dịch vụ của phòng khám ảnh hưởng đến tính hấp đẫn đối với bà mẹ

- Xác định các yếu tố văn hoá và kinh tế xã hội ảnh hưởng đến việc sử dụng dịch vụ phòng khám trẻ em.

- Kiến nghị các giải pháp để cải thiện sử dụng dịch vụ phòng khám trẻ em.

- Xây dựng kế hoạch thực hiện và các kiến nghị phối hợp với các ban ngành.

Như đã trình bày ở trên, trong các nghiên cứu ứng dụng, nên có mục tiêu xác định quy mô của vấn đề và có các mục tiêu nhằm xây dựng kế hoạch ứng dụng kết quả của nghiên cứu.

Tại sao phải xây dựng mục tiêu nghiên cứuKhi tiến hành nghiên cứu cần phải xây dựng mục tiêu nghiên cứu nhằm giúp cho chủ đề nghiên cứu được tập trung và tránh việc thu thập các thông tin không cần thiết để giải quyết vấn đề. Ngoài ra việc xây dựng mục tiêu cụ thể sẽ giúp cho việc thiết kế nghiên cứu bằng cách tổ chức mục tiêu nghiên cứu thành các phần hay các giai đoạn xác định.

Yêu cầu của mục tiêu nghiên cứuMục tiêu nghiên cứu tốt cần phải đạt được các yêu cầu sau:

- Phải bao gồm các khía cạnh khác nhau của vấn đề nghiên cứu theo một trình tự hợp lí và mạch lạc.

39

- Ðược hành văn rõ ràng, cụ thể chỉ rõ điều sẽ làm, làm ở đâu, trong thời gian nào và với mục đích gì

- Mục tiêu phải phù hợp với điều kiện thực tiễn, khả thi.

- Mục tiêu phải bắt đầu bằng các từ hành động cụ thể và có thể đánh giá mức độ đạt được như: xác định, so sánh, kiểm chứng, tính toán, mô tả

Giả thuyết nghiên cứuGiả thuyết nghiên cứu là một mệnh đề khẳng định quan hệ giữa một hay nhiều yếu tố với vấn đề nghiên cứu. Thí dụ "sử dụng dịch vụ phòng khám trẻ em thấp nhất trong thời gian thu hoạch" là một giả thuyết nghiên cứu bởi vì nó khẳng định rằng trong thời gian thu hoạch thì mức độ sử dụng dịch vụ phòng khám trẻ em sẽ thấp.

Việc kiểm định giả thuyết nghiên cứu có thể được xem là một mục tiêu nghiên cứu bởi vì nó sẽ giúp cho giải quyết vấn đề nghiên cứu. Giả thuyết nghiên cứu thường được sử dụng để kiểm tra một lí giải đã có và thường được sử dụng trong các nghiên cứu y sinh học nhưng thường không phù hợp đối với nghiên cứu hệ thống y tế.

Tên đề tài nghiên cứuCần phân biệt tên đề tài nghiên cứu với vấn đề nghiên cứu: Vấn đề nghiên cứu là sự khác biệt giữa hiện tại và điều mong đợi trong khi tên đề tài nghiên cứu lại tập trung và phương pháp giải quyết vấn đề vì vậy tên đề tài nghiên cứu thường liên quan chặt chẽ với mục tiêu nghiên cứu.

Tuy nhiên khác với mục tiêu nghiên cứu, thường bắt đầu bằng một động từ hành động, tên đề tài nghiên cứu thường là một ngữ danh từ (nên được gọi là tên). Tên đề tài nghiên cứu nên ngắn gọn, bởi vì nó chiếm chỗ trong mục lục của tờ báo hay trong MEDLINE, nhưng phải chứa nhiều thông tin. Bởi vì hiện nay do sự phổ biến của việc tìm kiếm bài báo trên Internet, tên đề tài nên chứa những từ khoá (keyword) của bài báo. Phần từ khoá của bài báo hiện nay không phải là phần bắt buộc vì vậy việc xây dựng tên đề tài nghiên cứu một cách hợp lí là cực kì quan trong.

Thảo luận nhómChọn một chủ toạ và một thư kí

- Trình bày lại phần đặt vấn đề: tập trung vào

Lượng hoá và cụ thể hoá vấn đề

Thăm dò các yếu tố ảnh hưởng đến vấn đề

Các hoạt động nghiên cứu

- Xây dựng mục tiêu tổng quát và đặc hiệu

- Kiểm tra lại các yêu cầu của mục tiêu

- Trình bày trước lớp mục tiêu nghiên cứu.

40

Giới thiệu về phương pháp nghiên cứu khoa học y học

Mục tiêuSau phần này, học viên có khả năng:

1. Xác định những câu hỏi thích hợp cần phải đặt ra khi phát triển phương pháp cho đề cương nghiên cứu

2. Mô tả được các thành phần thích hợp cần được giải quyết trong phần phương pháp của đề cương nghiên cứu.

Giới thiệuCâu hỏi Thành phần trong thiết kế nghiên cứu

Làm thế nào để thu thập số liệu Kế hoạch thu thập số liệu

Làm thế nào để có thể thu thập những số liệu này

Chọn thiết kế nghiên cứu

Công cụ nào để thu thập số liệu Chọn kĩ thuật thu thập số liệu

Thu thập số liệu ở đâu: Trên bao nhiêu đối tượng, chọn như thế nào?

Lấy mẫu

Chúng ta cần những số liệu mới nào? Chọn biến số

Chúng ta làm gì với số liệu để có thông tin

Kế hoạch phân tích

Chúng ta có làm hại ai khi tiến hành nghiên cứu?

Khía cạnh đạo đức của nghiên cứu

Làm sao biết được phương pháp thu thập số liệu?

Thử nghiệm phương pháp

41

Giả sử sau khi bạn đã xác định được:

- Chọn chủ đề nghiên cứu

- Chuẩn bị một mô tả ngắn gọn về vấn đề nghiên cứu và tầm quan trọng của nó

- Tổng quan y văn và các thông tin đã biết được về vấn đề

- Phát triển các mục tiêu nêu lên một cách rõ ràng mục đích của nghiên cứu, chờ đợi gì ở kết quả nghiên cứu và cách sử dụng các kết quả nghiên cứu

Ðể đặt được mục tiêu đã đặt ra, bạn phần phải quyết định bạn sẽ phải làm gì: thí dụ những số liệu nào cần được thu thập, làm thế nào để thu thập các số liệu đó, xử lí đó như thế nào. Các câu hỏi trong lưu đồ ở trang sau chỉ ra những đề mục chính cần phải xem xét khi phát triển thiết kế nghiên cứu.

42

Biến số

Mục tiêu1. Xác định biến số là gì và tại sao việc chọn lựa biến số là quan trọng

2. Phân biệt được biến số định tính (categorical) và biến số định lượng (numerical)

3. Phân biệt được sự khác biệt giữa biến số độc lập và biến số phụ thuộc và chúng được sử dụng trong nghiên cứu như thế nào

4. Xác định được các biến số được đo lường trong dự án nghiên cứu đang được thiết kế và cho biết:

- Biến số nào có thể đo lường trực tiếp

- Biến số nào không thể đo lường trực tiệp và phải sử dụng định nghĩa cụ thể(operation definition)

- Biến số nào không thể đo lường được vào thời điểm hiện tại.

Biến sốDo nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết vấn đề nghiên cứu hay trả lời một câu hỏi nghiên cứu (Varkevisser et al., 1991) nên nghiên cứ khoa học cần phải thu thập thông tin các đặc tính hay các đại lượng của đối tượng. Các đặc tính hay đại lượng này được gọi là biến số. Nói cách khác:

Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác hay từ thời điểm này sang thời điểm khác.

Biến số định tính và biến số định lượngNhư vậy biến số có thể thể hiện đại lượng hay đặc tính. Nếu nó thể hiện một đại lượng nó được gọi là biến số định lượng. Nếu nó nhằm thể hiện một đặc tính nó được gọi là biến số đ ịnh tính. Biến số đ ịnh tính còn đ ược chia làm 2 loại: biến số danh đ ịnh và biến số thứ tự.

Biến số danh định là biến số mà giá trị của nó không thể biểu thị bằng số mà phải biểu diễn bằng một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao.

Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm, là biến số � định tính vì chúng ta không thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại.

Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có gia đình, li dị, góa) nhóm máu (A, B, AB và O).

Trong phân tích thống kê, để tiện việc nhập số liệu hay lí giải kết quả, người ta có thể ánh xạ (mapping) các giá trị của biến danh định vào các con số. Việc này được gọi là mã hóa và cần hiểu rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng trong mã hóa không phản ánh bản chất của biến số danh định.

Giới tính là biến số danh định và có hai giá trị là nam và nữ. Chúng ta có thể mã hóa giới tính và quy ước Nam là 1 và Nữ là 2. Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể quy ước Nam là 1 và Nữ là 0. Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên dễ dàng hơn chứ không nhằm phản ánh bản chất của biến số đó (do đó hoàn toàn vô căn cứ nếu cho rằng mã hóa Nam=1 và Nữ=0 là phản ánh thái độ phong kiến "Nhất nam viết hữu - Thập nữ viết vô).

Biến số thứ tự là biến số danh định nhưng có thể sắp xếp thứ tự được.Thí dụ: tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo) là biến số thứ tự bởi vì người giàu có điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình, trung bình hơn nghèo, v.v

Những thí dụ khác là học lực của học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt, khá, xấu, tử vong).

Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình bày như sau, thì phân loại huyết áp với các giá trị huyết áp bình thường, huyết áp cao nhẹ, vừa và nặng là biến số thứ tự.

Huyết áp bình thường: HA tâm thu (139 và HA tâm trương ( 89

43

Tăng huyết áp nhẹ: HA tâm thu ( 179 hay HA tâm trương ( 104

Tăng huyết áp vừa: HA tâm thu ( 180 hay HA tâm trương (114

Tăng huyết áp nặng: HA tâm thu (180 và HA tâm trương ( 115 mmHg

Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số.Thí dụ: tuổi là biến số liên tục bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi, v.v.

Những thí dụ khác là đường huyết, hemoglobin, hematocrite, chiều cao, cân nặng, thu nhập, v.v

Khi chúng ta quan tâm đến việc lí giải nguyên nhân của sự việc chúng ta chia biến số thành biến số độc lập và biến số phụ thuộc.

Biến số dùng để mô tả hay đo lường vấn đề nghiên cứu được gọi là biến số phụ thuộc.

Biến số dùng để mô tả hay đo lường các yếu tố được cho là gây nên (hay gây ảnh hưởng đến) vấn đề nghiên cứu được gọi là biến số độc lập

Cần phân biệt sự khác biệt giữa biến số và giá trị của biến số (còn gọi là yếu tố): Giới tính là biến số nhưng Nữ không phải là biến số mà là một giá trị của biến số (hay còn gọi là yếu tố). Thời gian chờ đợi để được sử dụng dịch vụ y tế là biến số nhưng thời gian chờ đợi lâu là giá trị của biến số. Kiến thức về các cây con thuốc là biến số nhưng ít hiểu biết về các cây con thuốc là yếu tố. Ta có thể nói biến số mức độ hút thuốc lá có liên quan đến nguy cơ ung thư phổi nhưng phải nói hút thuốc lá nặng là yếu tố nguy cơ của ung thư phổi.

Biến số (đại lượng hay đặc tính được quan tâm) được chia làm 3 loại:

- Biến số có thể đo lường trực tiếp - chiều cao, cân nặng, tuổi, tình trạng hôn nhân.v.v

- Biến số không thể đo lường trực tiếp được như tình trạng dinh dưỡng, mức độ đắc khí, mức độ hài lòng của bệnh nhân, kiến thức của bà mẹ về thực hành chăm sóc trẻ.

- Biến số không đo lường được trong nghiên cứu hiện tại. Trên nguyên tắc, mọi biến số đều có thể đo lường được nhưng trong một nghiên cứu cụ thể có thể có một số biến số không đo lường được do hạn chế của điều kiện kĩ thuật hay không thống nhất về định nghĩa cụ thể (thí dụ nồng độ endorphine gia tăng sau khi châm cứu, mức độ hữu dụng của những bệnh nhân bị tàn tật, chất lượng dân số)

Ðịnh nghĩa cụ thểThông thường, nhà nghiên cứu bắt đầu với một quan điểm tương đối mơ hồ về cách đo lường các biến số nghiên cứu. Thí dụ, nếu nhà nghiên cứu muốn đo lường mức độ đau thì nhà nghiên cứu phải chuyển đổi khái niệm đau thành một mệnh đề chặt chẽ xác định cách đo lường biến số này. Phụ thuộc vào cách lí giải trừu tượng của khái niệm đau và yêu cầu cụ thể của nghiên cứu, chúng ta có thể chọn lựa một phương pháp đo lương mức độ đau đớn.

Ðịnh nghĩa cụ thể của biến số là một mệnh đề về cách người nghiên cứu của một nghiên cứu nào đó chọn cách đo lường biến số đó. Nó phải không được mơ hồ và chỉ có một cách lí giải duy nhất. Thí dụ, một nhà nghiên cứu cho rằng việc điều trị của bà ta có thể giúp cải thiện việc "kiểm soát vận động", câu hỏi chúng ta cần đặt ra ngay là "kiểm soát vận động" có ý nghĩa như thế nào. Nhà nghiên cứu có thể trả lời là bà ta quan tâm đến việc kiểm soát vận động được đo lường bởi Plunkett Motor Dexterity Task Score. Một nhà nghiên cứu khác có thể không chấp nhận định nghĩa này và cho rằng việc kiểm soát vận động nên được tự đánh giá bởi bệnh nhân. Cả hai định nghĩa này được gọi là định nghĩa cụ thể.

Một định nghĩa cụ thể tốt là định nghĩa cung cấp đủ thông tin để cho phép một nhà nghiên cứu khác có thể lập lại kĩ thuật đo lường, nếu người đó muốn. Trong mô tả nghiên cứu nhà nghiên cứu nên bao gồm trong định nghĩa cụ thể những công cụ đo lường và quy trình nghiên cứu để người đọc có thể rõ ràng về những việc đã làm.

Biến số độc lập - phụ thuộc - gây nhiễuViệc xác định biến số nào là biến số độc lập hay biến số phụ thuộc được xác định trong phần đặt

44

vấn đề và mục tiêu của nghiên cứu. Do đó trong khi thiết kế nghiên cứu cần phải xác định rõ ràng biến số nào là độc lập và biến số nào là phụ thuộc.

Thí dụ nếu nghiên cứu mối quan hệ giữa ung thư phổi và hút thuốc lá thì hút thuốc lá là biến số độc lập và ung thư phổi là biến số phụ thuộc

Nếu nhà nghiên cứu muốn tìm hiểu tại sao thanh niên hút thuốc thì hút thuốc là biến số phụ thuộc và "áp lực của bạn bè" là biến số độc lập.

Biến số gây nhiễu (confounding variable) là biến số cung cấp một giải thích khác của mối liên hệ giữa biến số độc lập và biến số phụ thuộc. Một biến số được đánh giá là biến số gây nhiễu khi có 3 đặc tính sau:

- Có liên quan đến biến số phụ thuộc (là yếu tố nguy cơ của vấn đề nghiên cứu)

- Có liên quan đến biến số độc lập (phân bố không đều giữa các giá trị của biến độc lập)

- Không nằm trong cơ chế tác động của biến độc lập lên biến phụ thuộc

Thí dụ:

Có mối liên hệ

giữa số lần khám tiền sản và sanh con nhẹ hơn 2500 gram. Tuy nhiên thu nhập của gia đình cũng có thể ảnh hưởng đến số lần khám tiền sản và việc sanh con nhẹ cân. Như vậy thu nhập của gia đình là yếu tố gây nhiễu.

Kiểm soát yếu tố gây nhiễuÐể khắc phục yếu tố gây nhiễu người ta có thể sử dụng:

- Phương pháp hạn chế: thí dụ chỉ nghiên cứu những bà mẹ trong gia đình có thu nhập trung bình, không nghiên cứu những bà mẹ trong gia đình nghèo

- Phương pháp bắt cặp trong chọn mẫu và phân tầng trong phân tích mẫu:

- Phương pháp phần tầng: gồm tiến hành phân tích số liệu riêng biệt cho nhóm bà mẹ nghèo, cho nhóm bà mẹ trung bình và nhóm bà mẹ giàu rồi tổng hợp kết quả lại. Thực chất phương pháp phân tầng gồm là sự tổng hợp của nhiều nghiên cứu hạn chế (mỗi nghiên cứu được hạn chế cho một giá trị của biến số gây nhiễu)

- Phương pháp mô hình hóa sử dụng phương pháp hồi quy đa biến để tách riêng tác động của từng biến số có liên quan trong mô hình. Khi đó hệ số của các biến số trong mô hình đánh giá tác động của biến số đó, không bị ảnh hưởng hay gây nhiễu bởi các yếu tố khác (bởi vì trong hồi quy đa biến, hệ số B1 của biến số X1 nêu lên sự thay đổi của biến phụ thuộc Y khi X1 thay đổi một đơn vị và các biến số liên quan khác như X1 , X2 , … không thay đổi).

- Phương pháp chia nhóm ngẫu nhiên: chỉ sử dụng được cho nghiên cứu thực nghiệm nhưng đây là phương pháp khử yếu tố gây nhiễu toàn diện nhất và không cần xác định hay đo lường toàn bộ các yếu tố gây nhiễu.

Số lần khám thai(Biến số độc lập)

Cân nặng con lúc sinh(Biến số phụ thuộc)

Thu nhập - Học vấn gia đình(biến số gây nhiễu)

45

Biến số nền (background variables)Trong bất cứ nghiên cứu nào, có những biến số nền tảng thí dụ như tuổi, giới, trình độ giáo dục, tình trạng kinh tế, tình trạng hôn nhân, tôn giáo, v.v. Những biến số này thường có ảnh hưởng đến vấn đề nghiên cứu (biến số phụ thuộc) và có tác động như biến số gây nhiễu. Nếu biến số nền có ảnh hưởng quan trọng đến nghiên cứu cần phải thu thập thông tin về biến số nền. Nhưng không nên thu thập quá nhiều biến số nền để tránh làm tăng kinh phí nghiên cứu một cách vô ích.

46

Bài tập:1. Giả sử chúng ta có khung ý niệm (conceptual framework) về mối liên hệ giữ kém vận động và bệnh mạch vành như sau:

Trong các yếu tố: Hút thuốc lá, Tăng LDL-cholesterol, Xem ti vi nhiều, yếu tố nào được xem là yếu tố gây nhiễu?

2. Một nghiên cứu đoàn hệ được tiến hành ở Anh quốc, những người tham gia được ghi nhận mức độ hoạt động tình dục cao ở đầu nghiên cứu (được đánh giá bằng tần suất có khoái cảm) có nguy cơ tử vong trong 10 năm thấp hơn những người được ghi nhận có mức độ hoạt động tình dục thấp.1 Giả sử điều này là đúng, anh chị có lời khuyên gì về việc hoạt động tình dục để giảm thiểu nguy cơ tử vong.

Một số nhà khoa học cho rằng kết luận của nghiên cứu có thể là không đúng. Họ giải thích rằng những người có quan hệ tình dục thường xuyên là những người có sức khoẻ tổng quát tốt hơn, do đó, có nguy cơ tử vong thấp hơn. Theo các anh chị, những nhà khoa học này cho rằng tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này được chứng minh là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong.

Các bác sĩ lâm sàng có kinh nghiệm lại đưa ra lời giải thích khác. Họ cho rằng ở những người khoẻ mạnh, quan hệ tình dục thường xuyên là có lợi cho sức khoẻ và làm giảm nguy cơ tử vong còn ở người ở tình trạng sức khoẻ tổng quát đã kém việc quan hệ tình dục thường xuyên lại khiến đối tượng dễ bị tử vong hơn. Theo các anh chị, nếu kinh nghiệm lâm sàng này là đúng thì tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong.

1. Davey Smith G, Frankel S, Yarnell J. Sex and death: are they related? Findings from the Caerphilly Cohort study. BMJ. 1997; 315: 1641-1644

2. Gần như tất cả các nghiên cứu quan sát cho thấy sự giảm nguy cơ tử vong bệnh tim ở các phụ nữ sử dụng oestrogen. Một nghiên cứu gộp (meta-analysis) của 25 nghiên cứu đã xuất bản tìm thấy nguy cơ tương đối chung là 0.70 đối với bệnh mạch tim ở các phụ nữ có sử dụng estrogen (so với nhóm không dùng oestrogen); trong 7 nghiên cứu khác đánh giá hiệu quả của việc sử dụng oestrogen và progestogen, nguy cơ ước lượng là 0.66.2

Tuy nhiên, gần đây, Hemminki and McPherson đã tổng kết 22 nghiên cứu thử nghiệm ngẫu nhiên của việc sử dụng trị liệu oestrogen và thấy rằng các biến cố tim mạch lại là nguyên nhân chủ yếu của việc bỏ cuộc hay phản ứng ngoại ý.3 Tỉ số nguy cơ tóm tắt là (1.39) trong nhóm sử dụng estrogen so với nhóm không sử dụng. Điều này cho thấy estrogen không có tác dụng có lợi, nếu không phải là có hại, lên nguy cơ bệnh tim mạch.

Anh chị tin vào kết quả nghiên cứu của loại nghiên cứu nào hơn? Anh chị cho rằng điều trị hormone thay thế ở phụ nữ mãn kinh có lợi hay có hại cho sức khỏe tim mạch? Tại sao anh chị lại tin như vậy?

Kém vận động Tăng LDL-cholesterol

Giảm HDL-cholesterol

Bệnh mạch vành

Hút thuốc lá

Xem ti vi nhiều

47

http://bmj.com/cgi/content/full/317/7156/457?maxtoshow=&HITS=10&hits=10&RESULTFORMAT=&titleabstract=menopause+AND+Heart+diseases&searchid=1016965393750_1547&stored_search=&FIRSTINDEX=0&resourcetype=1,2,3,4,10#B6


1. Barrett-Connor E. Hormone Replacement Therapy. BMJ 1998;317:457-461 .

2. Barrett-Connor E, Grady D. Hormone replacement therapy, heart disease, and other considerations. Annu Rev Public Health 1998; 19: 55-72.

3. Hemminki E, McPherson K. Impact of postmenopausal hormone therapy on cardiovascular events and cancer: pooled data from clinical trials. BMJ 1997; 315: 149-153

4. Writing Group for the PEPI Trial. Effects of estrogen or estrogen/progestin regimens on heart disease risk factors in postmenopausal women. JAMA 1995; 273: 199-208

3. Một nghiên cứu thực nghiệm trên khỉ chimpanzee cho thấy lượng estrogen giúp khỉ

chimpanzee cái được bảo vệ và có nguy cơ bị sốt rét thấp hơn so với khỉ đực. Một nhà nghiên cứu quan tâm đến đề tài này và thực hiện một nghiên cứu bệnh chứng để xác định mối liên hệ giữa giới tính và sốt rét. Nhà nghiên cứu này tìm được 150 trường hợp bệnh (trong đó có 88 nam) và 150 chứng (trong đó có 68 nam). Tỉ số số chênh thô tính được là 1,71.

Nhà nghiên cứu này cũng biết chút ít về dịch tễ và cho rằng những hoạt động nghề nghiệp ngoài nhà là yếu tố gây nhiễu và do đó, thu thập thông tin về nghề nghiệp hoạt động ngoài nhà ở các đối tượng, sử dụng phương pháp phân tầng và ghi nhận được các kết quả sau:

Nhóm nghề nghiệp ngoài nhà Nhóm nghề nghiệp trong nhà

Bệnh Chứng Tổng số Bệnh Chứng Tổng số

Nam 53 15 68 Nam 35 53 88

Nữ 10 3 13 Nữ 52 79 131

Tổng số 63 18 81 Tổng số

87 132 219

Theo các anh chị, nghề nghiệp (ngoài nhà và trong nhà) có phải là yếu tố gây nhiễu trong nghiên cứu này hay không? tại sao?

Nhà nghiên cứu đang viết bài báo cáo và dự định sẽ công bố giá trị OR hiệu chỉnh theo nghề nghiệp. Tình cờ có một chuyên viên dịch tễ của Tổ Chức Y tế Thế giới đọc được bản thảo của nghiên cứu này và cho ý kiến phản biến. Theo ông, do nghề nghiệp là hậu quả của giới tính nên chuỗi giới tính - nghề nghiệp - sốt rét có thể được xem như là cơ chế tác động của giới tính lên nguy cơ mắc bệnh sốt rét. Do đó nghề nghiệp không phải là yếu tố gây nhiễu. Ông ta khuyên nên báo cáo giá trị OR thô (không hiệu chỉnh cho nghề nghiệp). Theo anh chị, nhà nghiên cứu có nên nghe theo lời khuyên của chuyên gia dịch tễ hay không?

Bias in studies of use of oestrogen and heart disease1

Bias in who is prescribed oestrogen:

More educated

Higher social class

Osteoporosis*

No diabetes, heart disease, or

hypertension

Healthier before treated

Bias in who takes oestrogen:

Compliant women

48


49

Các loại nghiên cứu

Mục tiêu1. Mô tả được những thiết kế thường được sử dụng trong nghiên cứu khoa học y học và hạn chế của mỗi loại nghiên cứu

2. Trình bày được từng loại nghiên cứu có ảnh hưởng gì đến tính giá trị và tính tin cậy của kết quả nghiên cứu

3. Xác định được loại nghiên cứu thích hợp cho đề cương nghiên cứu của chính học viên

Mở đầuPhụ thuộc vào chúng ta đã biết gì về vấn đề nghiên cứu, có những câu hỏi khác nhau cần được đặt ra và tương ứng với các thiết kế nghiên cứu khác nhau. Việc chọn lựa thiết kế nghiên cứu phụ thuộc vào

- Vấn đề thuộc loại gì?

- Kiến thức đã biết được về vấn đề

- Nguồn lực có được dành cho nghiên cứu

Thí dụ trong những vấn đề về quản lí y tế (thí dụ như việc quá tải của bệnh viện) chỉ cần mô tả rõ ràng vấn đề và xác định các yếu cố góp phần cũng đủ cung cấp những thông tin để hành động.

Ðối với một số vấn đề quản lí y tế và nhiều loại nghiên cứu khác, có thể chúng ta cần muốn biết mối liên hệ giữa các biến số (thí dụ như ít ăn rau và ung thư đại tràng). Trong trường hợp này chúng ta cần có nghiên cứu phân tích hay nghiên cứu thực nghiệm.

Một số loại nghiên cứuCó nhiều cách phân loại nghiên cứu trong đó người ta thường chia làm 2 loại:

- Các nghiên cứu không can thiệp: trong đó nhà nghiên cứu chỉ mô tả và phân tích tình hình nhưng không can thiệp

- Các nghiên cứu có can thiệp: nhà nghiên cứu tác động lên tình hình và đo lường kết quả của việc tác động (thí dụ như tiến hành chương trình giáo dục sức khoẻ và xem nó có tác động gì lên tỉ lệ tiêm chủng).

Nghiên cứu không can thiệpNghiên cứu không can thiệp bao gồm nghiên cứu thăm dò, nghiên cứu mô tả và nghiên cứu phân tích

Nghiên cứu thăm dòNghiên cứu th ă m dò là nghiên cứu trên quy mô nhỏ trong thời gian ngắn khi chúng ta chưa rõ về vấn đề hay tình hình cần phải nghiên cứu

Thí dụ: Uỷ ban quốc gia phòng chống AIDS muốn xây dựng dịch vụ tham vấn cho bệnh nhân AIDS và người nhiễm HIV nhưng không biết những nhu cầu của bệnh nhân cần được hỗ trợ. Ðể thăm dò những nhu cầu này, một số cuộc phỏng vấn sâu đã được tiến hành với nhiều nhóm bệnh nhân và với các nhân viên y tế đã làm trong lãnh vực này.

Trong nghiên cứu thăm dò người ta thường mô tả và so sánh. Thí dụ nhà nghiên cứu có thể mô tả nhu cầu của từng nhóm bệnh nhân và so sánh nhu cầu về tham vấn của bệnh nhân nam và bệnh nhân nữ. Nghiên cứu thăm dò sẽ có giá trị tốt hơn nếu nhà nghiên cứu cố gằng tiếp cận vấn đề từ nhiều hướng khác nhau.

50

Nghiên cứu mô tảNghiên cứu mô tả bao gồm việc thu thập và trình bày có hệ thống các số liệu nhằm cung cấp một bức tranh về một tình huống cụ thể.

Nghiên cứu mô tả có thể được tiến hành trên một quy mô lớn hoặc quy mô nhỏ. Ở quy mô nhỏ nghiên cứu mô tả bao gồm việc mô tả sâu các đặc tính của một số bệnh nhân hay các trạm y tế hoặc các dự án. Loại hình nghiên cứu này được gọi là nghiên cứu trường hợp (case study) hay báo cáo ca bệnh (case report, case series). Ở quy mô lớn hơn và các cuộc điều tra cắt ngang nhằm xác định sự phân bố của các biến số nhất định ở một thời điểm. Các đặc tính này có thể là các đặc tính thực thể, kinh tế xã hội hay hành vi của cộng đồng.

Ðôi khi nhà nghiên cứu thường kết hợp sự mô tả dân số nghiên cứu với sự so sánh các nhóm trong dân số. Mặc dù nghiên cứu này cũng sử dụng phương pháp so sánh tương tự như nghiên cứu phân tích, khi chỉ so sánh các nhóm dân số khác nhau, bản chất của nghiên cứu này vẫn là nghiên cứu mô tả.

Khác với các nghiên cứu phân tích nhằm tìm mối liên hệ giữa một yếu tố phơi nhiễm và tình trạng bệnh tật, các nghiên cứu mô tả, Nghiên cứu mô tả nhằm báo động, tìm hiểu một số đặc điểm hay ước lượng quy mô của một vấn đề sức khoẻ hay tìm hiểu kiến thức, thái độ, hành vi của người dân về vấn đề đó để đề xuất các giải pháp can thiệp.

Những nghiên cứu mô tả bao gồm: nghiên cứu ca bệnh, nghiên cứu loạt ca bệnh trong nghiên cứu lâm sàng và nghiên cứu trường hợp trong nghiên cứu sức khoẻ công cộng. Các nghiên cứu kiến thức, thái độ, hành vi hay các điều tra cắt ngang cũng là các nghiên cứu mô tả quan trọng. Các nghiên cứu mô tả tương đối phổ biến trong y văn và sau đây là một số thí dụ

Một báo cáo loạt ca bệnh (case series) dựa trên việc mô tả bệnh sử và bệnh cảnh lâm sàng của 4 người đàn ông được nhập viện tại trung tâmY khoa của Ðại học California ở Los Angeles (UCLA) vì bệnh viêm phổi do Pneumocystic carinii. 6 Ðây là một vấn đề sức khoẻ cần phải báo động vì loại viêm phổi này trước đây chỉ xuất hiện ở những người bị rối loạn hệ thống miễn dịch. Những nhà nghiên cứu tiến hành một nghiên cứu để xem đây là một vấn đề sức khoẻ mới hay chỉ là các trường hợp tương tự với những ca bệnh viêm phổi Pneumocystic carinii được phát hiện từ trước? Vấn đề sức khoẻ này có những đặc điểm gì ?

Một nghiên cứu trường hợp được tiến hành dựa trên việc mô tả đặc điểm của một trạm y tế có hoạt động tương đối tốt nhằm rút ra các bài học về quản lí cho các trạm y tế 7. Ðây là một nghiên cứu có ý nghĩa thực tiễn trong tình hình có nhiều trạm y tế còn hoạt động kém.

Ở Anh quốc nhóm chăm sóc ban đầu (primary care groups) được đưa vào hoạt động từ năm 1999 và có một ngân quỹ thống nhất để chi trả cho các hoạt động y tế của bệnh nhân bao gồm cả chi phí nhập viện. Tuy nhiên người ta vẫn chưa rõ các thông tin nền (baseline) về sức khoẻ, kinh tế xã hội và tỉ lệ nhập viện của 66 nhóm chăm sóc ban đầu nay ở thành phố Luân đôn. Vì vậy một nghiên cứu cắt ngang mô tả được tiến hành và cho thấy sự khác biệt đáng kể về kinh tế xã hội, y tế và thực hành của các nhóm và các thông tin này được sử dụng cho việc lập kế hoạch và đánh giá dịch vụ y tế 8.

Như vậy các nghiên cứu mô tả có một giá trị thực tiễn hết sức to lớn và hoàn toàn không kém nghiên cứu phân tích về giá trị khoa học. Tuy nhiên một số nhà nghiên cứu vì không nắm rõ mục tiêu nghiên cứu của mình nên thay vì thực hiện một nghiên cứu mô tả tốt họ tiến hành một nghiên cứu phân tích kém. Thí dụ trong một nghiên cứu cắt ngang nhằm tìm hiểu mô hình bệnh tật của một cộng đồng (đây là một nghiên cứu rất có giá trị để thiết kế chương trình can thiệp y tế cho cộng đồng đó) nhà nghiên cứu không tập trung vào việc mô tả các vấn đề sức khoẻ mà lại (thí dụ như) cố gắng tìm mối liên hệ giữa ung thư và hút thuốc lá và như vậy làm loãng giá trị của đề tài nghiên cứu bằng một phân tích kém chất lượng và bị sai lệch.

Nghiên cứu so sánh hay nghiên cứu phân tíchDịch tễ học phân tích (hoặc tìm nguyên nhân) có nội dung tìm nguyên nhân gây ra vấn đề sức

51

khỏe trong dân chúng.

Phương pháp áp dụng là phân tích các yếu tố ảnh hưởng làm gia tăng tỷ lệ bệnh trong một dân số. Nguyên lí của phương pháp này là so sánh tỉ lệ mắc bệnh của hai nhóm dân số: một dân số có tiếp xúc với yếu tố nguy cơ và một dân số không tiếp xúc với yếu tố nguy cơ. Nếu tỉ lệ mắc bệnh này khác biệt giữa hai nhóm (nghĩa là nguy cơ tương đối khác 1) thì ta kết luận có thể có mối liên hệ giữa yếu tố tiếp xúc và bệnh tật. Mặc dầu rất nhiều lãnh vực khoa học sinh học tham gia vào khảo sát nguyên nhân bệnh tật con người nhưng vai trò của dịch tễ học là độc đáo và không thể thay thế. Hơn nữa phương pháp dịch tễ học thường đi đầu tìm ra các nguyên nhân. Các ngành khoa học khác sẽ đi theo để tìm thêm chứng cứ ủng hộ. Thí dụ John Snow đã tìm ra cơ chế lây bệnh của dịch tả trước khi các nhà vi sinh học tìm ra phẩy khuẩn tả Doll và Hill tìm� thấy vai trò của thuốc lá gây bệnh ung thư phổi trước khi các nhà khoa học tìm thấy hóa chất sinh ung trong khói thuốc lá.

Ðể có số liệu cụ thể, dịch tễ học phân tích có thể dùng các phương pháp điều tra thu thập sau đây:

Khảo sát nguyên nhân trong cohort

Coù tieápxuùc

Khoângbeänh

Coùbeänh

Khoângbeänh

Thôøi gian t1t0

Khoângtieápxuùc

Khoângbeänh

Coùbeänh

Khoângbeänh

Thôøi gian t1t0

Nghiên cứu đoàn hệ là nghiên cứu nhằm tìm ra sự liên hệ giữa một yếu tố phơi nhiễm và một tình trạng sức khoẻ (thí dụ như một bệnh tật) bằng cách quan sát và so sánh nguy cơ mắc bệnh giữa hai nhóm quần thể có tình trạng phơi nhiễm khác nhau. Một thí dụ kinh điển của nghiên cứu đoàn hệ là nghiên cứu các bác sĩ Anh quốc (The British Doctor's study) được bắt đầu tiến hành vào năm 1951 trong đó 34.440 nam bác sĩ được hỏi về tình trạng hút thuốc lá (có hay không) và được theo dõi về tử vong do ung thư phổi trong vòng 20 năm 3. Kết quả cho thấy nguy cơ tử vong hàng năm do ung thư phổi ở người không hút thuốc lá là 10/100.000 trong khi nguy cơ tử vong hàng năm do ung thư phổi ở người hút thuốc lá là 140/100.000. Như vậy hút thuốc lá làm tăng nguy cơ ung thư phổi lên 14 lần (nguy cơ tương đối là 14) và như vậy hút thuốc lá được gọi là yếu tố nguy cơ (hay nguyên nhân) của ung thư phổi.

Tiền đề của nghiên cứu đoàn hệ là phải theo dõi đầy đủ một hiện tượng sức khoẻ của quần thể trong thời gian khá dài (không có mất theo dõi - loss from follow-up). Ðây là khuyết điểm chính của nghiên cứu đoàn hệ và các thiết kế nghiên cứu khác (bệnh chứng và cắt ngang) được đề xuất để khắc phục. Nếu được theo dõi đầy đủ, nghiên cứu đoàn hệ có ưu điểm là trực quan và ít gây ra sai lệch do chọn lựa và sẽ có tính thuyết phục cao.

52

Khảo sát nguyên nhân bệnh chứng:

Giả sử chúng ta không có điều kiện theo dõi 34.440 bác sĩ trong thời gian 20 năm nhưng chúng ta có điều kiện (a) biết chắc chắn một người có phải là một nam bác sĩ hay không (b) ghi nhận được thông tin của tất cả các trường hợp ung thư phổi xảy ra trên các nam bác sĩ và (c) chọn một mẫu đại diện cho quần thể nam bác sĩ về phương diện hút thuốc lá. Khi đó bằng phép tính số học đơn giản có thể chứng minh:

Và như vậy chúng ta có thể ước lượng được nguy cơ tương đối mà không cần phải quan sát trong thời gian dài.

Nhằm tìm hiểu sự liên quan giữa sử dụng Oestrogen tổng hợp (OCE) và ung thư mội mạc tử cung, một nghiên cứu bệnh chứng được tiến hành trong đó có 183 người bị ung thư nội mạc tử cung (nhóm bệnh) và 183 người không bị ung thư nội mạc tử cung (nhóm chứng) được hỏi tiền căn sử dụng OCE4 . Kết quả cho thấy trong nhóm bệnh có 55 người có tiền căn sử dụng OCE (số chênh sử dụng OCE trong nhóm này là 55/128=0,43) và trong nhóm chứng có 19 người có tiền căn sử dụng OCE (số chênh sử dụng OCE trong nhóm chứng là 19/164=0,12). Tỉ số của hai số chênh này là 0,43/0,12= 3,6. Con số này (3,6) cũng chính là số chênh mắc ung thư mội mạc tử cung của nhóm sử dụng OCE so với nhóm không sử dụng OCE hay là mức tăng nguy cơ ung thư nội mạc tử cung nếu sử dụng OCE.

Nghiên cứu bệnh chứng tốt đòi hỏi phải thoả mãn 3 điều kiện đã nêu ở trên trong đó có điều kiện là phải có thông tin về tất cả các trường hợp bệnh vì vậy nghiên cứu này thích hợp cho các bệnh nghiêm trọng và tất cả các trường hợp bệnh đều phải nhập viện. Bệnh ung thư là một thí dụ kinh điển của loại bệnh thích hợp cho nghiên cứu bệnh chứng. Nếu nghiên cứu bệnh chứng không thoả mãn được 3 điều kiện trên sẽ bị sai lệch (biased). Hơn thế nữa, khi tiến hành nghiên cứu bệnh chứng, nhà nghiên cứu phải chuẩn bị rất chu đáo về mặt kĩ thuật vì không dễ dàng thuyết phục được cộng đồng khoa học đều đồng ý rằng nhóm chứng là thực sự đại diện cho quần thể không mắc bệnh. Tuy nhiên nghiên cứu bệnh chứng có ưu điểm là tiến hành nhanh, ít tốn kém đặc biệt trong nghiên cứu các bệnh hiếm và có thời gian tiềm tàng kéo dài.

53

Nghiên cứu cắt ngangTrở về thí dụ nghiên cứu sự liên hệ giữa hút thuốc là và ung thư phổi, chúng ta có thể không cần thời gian theo dõi trong suốt thời gian từ 1951 đến 1971 mà chỉ cần tiến hành một cuộc điều tra ở thời điểm 1971, ghi nhận thông tin về hút thuốc và ung thư phổi và có được kết luận tương tự như nghiên cứu đoàn hệ nếu chúng ta giả định được rằng (a) Tất cả các trường hợp ung thư phổi chẩn đoán trong giai đoạn 1951 đến 1971 đều còn sống cho đến năm 1971 (b) Việc mắc ung thư phổi không làm thay đổi thói quen hút thuốc lá của bác sĩ mắc bệnh (nghĩa là nếu họ hút thuốc lá rồi bị ung thư phổi thì họ vẫn tiếp tục hút thuốc lá và nếu họ không hút thuốc lá thì sau khi ung thư phổi vẫn tiếp tục không hút thuốc lá). Như vậy, nghiên cứu cắt ngang thường ít được sử dụng cho các bệnh nghiêm trọng như ung thư, bệnh nhiễm trùng, tai nạn. Những bệnh thích hợp cho nghiên cứu cắt ngang bao gồm rối loạn có tính chất định lượng và ít gây tử vong (béo phì, suy dinh dưỡng, bất dung nạp đường huyết, tăng huyết áp thể nhẹ hay trung bình).

Một nghiên cứu cắt ngang được tiến hành ở Bavaria, cộng hoà liên bang Ðức nhằm đánh giá tác động của bú sữa mẹ (trong thời kì nhũ nhi) lên nguy cơ béo phì (vào cuối tuổi nhà trẻ) bằng cách sử dụng các số liệu chiều cao, cân nặng và bộ câu hỏi về dinh dưỡng của 9357 trẻ từ 5-6 tuổi được khám sức khoẻ trước khi nhập học 5. Ở trẻ không được bú mẹ, tỉ lệ béo phì là 4,5% trong khi đó ở trẻ được bú mẹ tỉ lệ béo phì là 2,8%. Tác giả kết luận rằng bú sữa mẹ làm giảm nguy cơ béo phì ở cuối tuổi nhà trẻ. Mặc dù đây là nghiên cứu cắt ngang nhưng có tính giá trị tốt do thoả mãn được hai giả định của nghiên cứu cắt ngang (a) đứa trẻ bị béo phì không bị tăng nguy cơ tử vong và (b) việc trẻ bị béo phì không ảnh hưởng gì đến việc bú sữa mẹ ở giai đoạn nhũ nhi.

Tóm lại nghiên cứu cắt ngang có ưu điểm là đơn giản và ít tốn kém. Tuy nhiên nó chỉ có thể áp dụng được cho các bệnh tật có tính chất định lượng, phổ biến, ít gây tử vong và các yếu tố nguy cơ ít biến động.

Nghiên cứu can thiệpTrong nghiên cứu can thiệp nhà nghiên cứu tác động lên tình hình và đo lường kết quả của việc tác động. Thông thường có hai nhóm được so sánh,nhóm được can thiệp (thí dụ như được điều trị với một loại thuốc) và nhóm không được can thiệp (nhóm sử dụng giả dược).

Nghiên cứu can thiệp được chia thành nghiên cứu thực nghiệm và nghiên cứu bán thực nghiệm

Trong nghiên cứu thực nghiệm, các cá nhân được chia ngẫu nhiên thành (ít nhất) hai nhóm. Một nhóm được nhận can thiệp (nhóm thử nghiệm) và một nhóm không được nhận can thiệp (nhóm chứng). Kết cuộc của can thiệp được tính từ việc so sánh kết quả ở hai nhóm.

Nghiên cứu thực nghiệm có 3 đặc tính:

- Thao tác

- Có nhóm chứng

- Chia nhóm ngẫu nhiên: sức mạnh của nghiên cứu thực nghiệm chính là việc chia nhóm ngẫu nhiên giúp loại bỏ yếu tố gây nhiễu.

Nghiên cứu bán thực nghiệm là nghiên cứu có sự thao tác của nhà nghiên cứu nhưng thiếu một trong hai đặc tính còn lại của nghiên cứu thực nghiệm (thí dụ như không có nhóm chứng hay không được chia nhóm ngẫu nhiên.

Nghiên cứu thực nghiệm có thể được chia làm 3 loại:

1- Thử nghiệm lâm sàng: là nghiên cứu trên đối tượng bệnh nhân. Loại nghiên cứu bao gồm việc thử nghiệm một điều trị mới hay một biện pháp dự phòng các di chứng trên bệnh nhân nhằm đánh giá hiệu quả của việc điều trị hay dự phòng kể trên.

2- Thử nghiệm thực địa là việc can thiệp trên người chưa có bệnh. Loại nghiên cứu này chủ yếu đánh giá các biện pháp dự phòng.Để nghiên cứu có tính xác hợp người ta thường chỉ sử dụng thử nghiệm thực địa để đánh giá các giải pháp can thiệp dự phòng cho các bệnh

54

bệnh phổ biến hay trầm trọng. Các thử nghiệm vaccine là một loại thử nghiệm thực địa phổ biến nhất.

3- Can thiệp cộng đồng tương tự như thử nghiệm thực địa nhưng có đặc điểm là biện pháp can thiệp được áp dụng cho cả cộng đồng chứ không phải có một cá nhân đơn lẻ. Can thiệp cộng đồng áp dụng khi biện pháp can thiệp này chỉ có thể áp dụng cho quy mô cộng đồng thí dụ như việc đánh giá hiệu quả của việc cải tạo vệ sinh môi trường trong việc phòng chống sốt rét.

Nghiên cứu can thiệp chính thống có 3 đặc điểm quan trọng: có việc can thiệp chủ động và đặc hiệu cho nghiên cứu, có nhóm đối chứng và sử dụng việc phân nhóm ngẫu nhiên để đưa các đối tượng vào nhóm can thiệp và hay nhóm đối chứng đối chứng. Nghiên cứu can thiệp không có đủ 3 đặc tính trên được gọi là nghiên cứu bán can thiệp (quasi experiment). Việc sai lệch thông tin trong nghiên cứu can thiệp có thể được giảm thiểu nếu với phương pháp mù đơn (có nghĩa là làm sao cho đối tượng không biết loại điều trị của cá nhân mình) hoặc mù đôi (cả đối tượng điều trị và nhà nghiên cứu đều không biết loại điều trị được thực hiện trên từng cá nhân). Tuy nhiên tính chất mù của nghiên cứu can thiệp không phải là yêu cầu tuyệt đối.

Do nghiên cứu thực nghiệm có chia làm 2 nhóm can thiệp và nhóm chứng bằng phương pháp chia nhóm ngẫu nhiên, sẽ phân bố đều yếu tố gây nhiễu trong 2 nhóm và hạn chế vai trò của yếu tố gây nhiễu, đặc biệt khí cỡ mẫu đủ lớn. Đó là lí do tại sao những bằng chứng từ nghiên cứu thực nghiệm được đánh giá cao.

Tính giá trị và tính tin cậy của kết quả nghiên cứuTính giá trị nghĩa là kết luận của nghiên cứu là đúng

Tính tin cậy là nếu ai đó sử dụng cùng phương pháp nghiên cứu trong cùng một hoàn cảnh sẽ có kết luận tương tự.

Giaù trò vaø chính xaùc Giaù trò - khoâng tin caäy

Khoâng giaù trò - khoâng tin caäy

55

Các số đo dịch tễ học

I. Mở đầu:Bởi vì Dịch tễ học là khoa học mô tả sự phân bố của bệnh tật và các hiện tượng sức khỏe trong dân số, các loại số đo sự phân bố bệnh tật là những khái niệm trung tâm của dịch tễ học.

II. Số đo tuyệt đối và số đo tương đốiSố đo tuyệt đối là số tuyệt đối của các hiện tượng sức khỏe và bệnh tật:

Thí dụ: trong năm 1997 tại thành phồ Hồ Chí Minh có khoảng 600 người chết vì bị tai nạn giao thông đường bộ và 4 người chết do các phương tiện giao thông đường thủy. Ðây là các số đo tuyệt đối. Từ các con số này chúng ta có thể cho rằng giao thông đường bộ nguy hiểm hơn giao thông đường thủy. Nhận xét này có thể nhầm lẫn bởi vì chúng ta chưa xét đến quy mô của dân số nguy cơ.

Số đo tương đối là tỉ số của hiện tượng sức khỏe bệnh tật so với dân số có nguy cơ có hiện tượng sức khỏe đó.

Thí dụ: Người ta ước tính tại TP Hồ Chí Minh vào năm 1997 có khoảng 700.000.000 lượt vận chuyển trên đường và 1.000.000 lượt vận chuyển bằng đường sông. Nguy cơ bị tử vong trên mỗi lượt vận chuyển đường bộ vào khoảng 0,87/1.000.000 và nguy cơ bị tử vong trên mỗi lượt vận chuyển là 2/1.000.000. Từ các con số này, chúng ta thấy vận chuyển bằng đường sông nguy hiểm hơn vận chuyển bằng đường bộ

Câu hỏi: Về phương diện y tế công cộng, có phải dùng số đo tương đối thích hợp hơn số đo tuyệt đối. Tại sao?

III. Tỉ số, tỉ lệ, tỉ suấtDo dịch tễ học sử dụng các số đo tương đối, các số đo thường là một thương số gồm tử số và mẫu số. Tùy theo mối quan hệ giữa tử số và mẫu số cũng như tùy theo ý nghĩa của số đo, các thương số này có thể là tỉ số, tỉ lệ hay tỉ suất:

Tỉ số (ratio) là loại thương số đơn giản nhất do một tử số chia cho một mẫu số bất kì

a/b

Trong tỉ số, tử số không nhất thiết là một phần của mẫu số.

Thí dụ: trong dân số của một xã người ta thâý có khoảng 49 người nam trong dân số 100 người. Tỉ số giới tính = nam:nữ= 49:51.

Tỉ lệ (proportion) là một thương số trong đó tử số là một bộ phận của mẫu số.

Thí dụ: trong dân số một xã gồm 100 người có 49 người nam. Tỉ lệ nam giới trong dân số là 49%.

Tỉ suất (rate). từ "suất" trong tiếng Việt cũng như từ "rate" trong tiếng Anh thường để chỉ một hiện tượng có liên quan đến thời gian. Thí dụ: lãi suất: tiền lời hàng tháng, sinh suất: số lần sinh sống xảy ra trong một năm trong một dân số gồm 100 người. Thí dụ nếu một xã có 5.000 người và sinh suất là 2% thì mỗi năm sẽ có khoảng 100 trẻ được sinh và trong 2 năm sẽ có khoảng 200 trẻ được sinh. Tỉ suất khác với tỉ lệ ở chỗ giả sử tỉ lệ không có mối liên hệ nội tại với thời gian. Thí dụ nếu ta biết tỉ lệ nam trong dân số là 49%, ta không thể tiên đoán gì về sự thay đổi của số người nam trong tương lai.

56

IV. Số đo dịch tễ

A. Tần suất

1. Số ca mới mắc (Incidence): Là số lần mới vừa xảy ra của một bệnh, chấn thương hay tử vong trong dân số nghiên cứu trong khoảng thời gian xác định

2. Sô ca hiện đang bệnh (Prevalence): Là số người trong một dân số xác định có một bệnh nhất định ở một thời điểm (thường là thời điểm điều tra).

3. Minh họa khái niệm về bệnh tật:a. Khái niệm về số mới mắc, số hiện đang bệnh được minh họa trong hình 2-1 dựa trên phương

pháp được phát minh bởi Dorn (1957).

- Số mới mắc bệnh trong khoảng thời gian một năm là 4

- Số hiện đang bệnh tại thời điểm 1/1 là 3

- Số hiện đang bệnh tại thời điểm 1/9 là 4

4. Mối quan hệ giữa số hiện đang bệnh và số mới mắc:Số hiện đang bệnh = Số mới mắc x Thời gian mắc bệnh trung bình

57

B. Nguy cơ

1. Ðịnh nghĩaa. Nguy cơ là tỉ lệ người không bị ảnh hưởng ở đầu nghiên cứu và sau đó vướng phải một biến cố nguy cơ (chết, bệnh, chấn thương) trong thời gian nghiên cứu.

Nguy cơ rất hữu ích trong đo lường (tiên đoán) khả năng mắc bệnh của một cá nhân trong một khoảng thời gian nhất định.

b. Hạn chế của ý niệm nguy cơ:

- Trên lí thuyết, chỉ có dân số nhạy cảm mới được kể trong mẫu số của nguy cơ nhưng trong thực tế mẫu số bao gồm tất cả mọi người bị phơi nhiễm chứ không chỉ những cá nhân nhạy cảm.

- Nguy cơ không hữu ích nếu một cá nhân có thể mắc bệnh (được quan tâm) nhiều lần hay khi có tỉ lệ đối tượng cùng mắc bệnh tại một thời điểm khá cao.

c. Một số khái niệm thường gặp có bản chất là nguy cơ

- Tỉ số bệnh-vong (case fatality) là tỉ lệ người bệnh bị chết do bệnh đó. Ðây là chỉ số của độc lực.

- Tỉ lệ người bị nhiễm trùng có triệu chứng lâm sàng được gọi là tính sinh bệnh (pathogenicity) của vi sinh vật.

- Tỉ lệ người bị phơi nhiễm trở nên bị nhiễm trùng được gọi là tính truyền nhiễm của vi sinh vật (infectiousness).

C. Tỉ suất

1. Ðịnh nghĩa: Tỉ suất là số biến cố xảy ra trong một đơn vị thời gian chia cho dân số nguy cơ trung bình.

Tỉ suất còn có thể được định nghĩa là số biến cố xảy ra chia cho tổng thời gian nguy cơ.

2. Liên hệ giữa tỉ suất và nguy cơ- Nếu nguy cơ được tính trong thời gian một năm và mỗi đối tượng chỉ có thể có một biến cố

nguy cơ thì số người có biến cố nguy cơ sẽ bằng với số biến cố nguy cơ trong 1 đơn vị thời gian.

- Nếu số người bị ảnh hưởng bởi biến cố nguy cơ ít thì dân số nguy cơ trung bình sẽ bằng với dân số nguy cơ ở đầu nghiên cứu. Khi đó ta nói tỉ suất sẽ xấp xỉ với nguy cơ trong một đơn vị thời gian. Nói cách khác chúng ta có thể ước tính tỉ suất bằng nguy cơ trong một đơn vị thời gian khi:

- Mỗi đối tượng chỉ có bị ảnh hưởng bởi biến cố nguy cơ nhiều nhất một lần, mỗi người chỉ có thể có một lần mắc bệnh và

- Khoảng thời gian nghiên cứu ngắn hay đối với bệnh hiếm.

58

Số đo hậu quả và số đo tác động

I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênhSố mới mắc (incidence) là đo lường của sự xuất hiện của bệnh. Số mới mắc có thể trình bày dưới dạng số tuyệt đối hay số tương đối. Những đo số tương đối của sự xuất hiện bệnh thường gặp là nguy cơ, tỉ suất mới mắc, hay số chênh.

Nguy cơ (risk) là xác suất xuất hiện bệnh trong một khoảng thời gian nhất định. Do bản chất của nguy cơ là xác suất nên nguy cơ không có thứ nguyên và

0 < nguy cơ < 1

Số chênh (odds) la ø tỉ số giữa nguy cơ mắc bệnh và nguy cơ không mắc bệnh

risk / (1 - risk)

Số chênh là một số không âm, số chênh bằng 0 khi nguy cơ bằng 0, số chênh bằng 1 khi nguy cơ bằng 0,5 và số chênh tiến đến vô cực khi nguy cơ bằng 1. Như vậy, số chênh cũng là thước đo để đo lường sự xuất hiện của bệnh.

Tỉ suất mới mắc (incidence rate): nguy cơ mắc bệnh tức thời trong một đơn vị thời gian. Do đơn vị thời gian được chọn là tùy ý, tỉ suất mới mắc không có giới hạn về giá trị. Thứ nguyên của tỉ suất mới mắc là thời gian -1, thí dụ tỉ suất mới của bệnh mạch vành tim ở người có cholesterol 245 mg% là 0,02/năm.

Thông thường, tỉ suất mới mắc của một bệnh thường được gọi là tỉ suất của bệnh đó. Thí dụ, ta có thể nói tỉ suất bệnh mạch vành là 0,02/năm ở những người có cholesterol 245 mg% nghĩa là trong 100 người có cholesterol 245 mg% và chưa bị bệnh mạch vành tim, trung bình có hai người bị xuất hiện bệnh mạch vành sau thời gian theo dõi 1 năm.

II. Số đo sự kết hợp - số đo hậu quảBảng 2 x 2 đã được dùng từ rất lâu để chứng minh sự kết hợp thống kê giữa một yếu tố nguy cơ và sự xuất hiện của bệnh tật. Nhưng chỉ riêng sự kết hợp thống kê không nói lên được tầm quan trọng về mặt lâm sàng (hoặc y tế công cộng) của mối liên quan nhân quả giữa yếu tố nguy cơ và bệnh tật. Một sự kết hợp dù không có tầm quan trọng lớn nhưng đều có thể được chứng minh là có ý nghĩa thống kê với cỡ mẫu đủ lớn.

Khoa học dịch tễ học nhận thức được hai vấn đề (1) Trong thực tế không có một nguyên nhân đơn lẻ là nguyên nhân duy nhất cho một vấn đề y tế. Một vấn đề y tế luôn luôn được gây ra bởi rất nhiều nguyên nhân và những nguyên nhân này chồng chéo lẫn nhau, người ta gợi đó là mạng lưới nguyên nhân (web of causation) và (2) Ngành y tế không thể giải quyết được mọi nguyên nhân của một vấn đề y tế cùng một lúc mà nó chỉ có thể giải quyết được tận gốc rễ nếu dịch tễ học tìm ra được và giải quyết nguyên nhân quan trọng nhất.

Vì vậy, dịch tễ học đã đề xuất việc sử dụng tỉ số và hiệu số của nguy cơ làm thước đo của sự kết hợp giữa nguyên nhân và hậu quả.

III. Số đo tỉ sốSố đo tỉ số thông dụng nhất là tỉ số nguy cơ (Risk ratio - RR). Tỉ số nguy cơ là tỉ số của nguy cơ trong nhóm phơi nhiễm (r1) trên nguy cơ trong nhóm không phơi nhiễm (r0).

RR = r1 / r0

Tỉ số nguy cơ còn được gọi là nguy cơ tương đối (Relative risk - RR). Tỉ số nguy cơ nói lên người bị phơi nhiễm có nguy cơ bị mắc bệnh gấp bao nhiêu lần người không bị phơi nhiễm.

Thí dụ:

59

Bảng 1 trình bày một ví dụ rút ra từ nghiên cứu Framingham, trình bày số mới mắc bệnh mạch vành tim trong 6 năm theo dõi tùy theo nồng độ cholesterol huyết thanh ban đầu trên nam giới tuổi từ 40-59. Nếu ta xem nhóm có cholesterol huyết thanh <210 mg% là nhóm không phơi nhiễm, thì nguy cơ mắc bệnh mạch vành tim ở nhóm không phơi nhiễm là 0,0352 (Ðiều này có nghĩa là xác suất mắc bệnh mạch vành tim ở người có cholesterol < 210 mg% trong thời gian 6 năm vào khoảng 3,5%). Nếu ta xem nhóm có cholesterol 245 mg% là nhóm phơi nhiễm thì nguy cơ ở nhóm phơi nhiễm là 0,1203 (xác suất người có cholesterol 245 mg% bị bệnh mạch vành tim trong thời gian 6 năm là 12%). Ta có tỉ số nguy cơ (RR) là tỉ số của 2 nguy cơ trên = 0,1203 / 0,0352 = 3,4. Ðiều này có nghĩa là xác suất bị bệnh mạch vành tim ở người có cholesterol 245 mg% cao gấp 3,4 lần xác suất ở người có cholesterol < 210 mg%.

Ðứa trẻ không được chủng ngừa vaccine bại liệt có nguy cơ mắc bệnh bại liệt hơn đứa trẻ được chủng ngừa tù 5 đến 10 lần. Ta nói tỉ số nguy cơ mắc bệnh bại liệt trong nhóm không được chủng ngừa so với nhóm được chủng ngừa là từ 5 đến 10.

Như vậy, tỉ số nguy cơ ước lượng độ lớn của hậu quả của yếu tố nguy cơ, và do đó, tỉ số nguy cơ là số đo của độ mạnh của sự kết hợp giữa yếu tố nguy cơ và bệnh tật. Ta nói, tỉ số nguy cơ là số đo hậu quả hay số đo sự kết hợp. Ngoài tỉ số nguy cơ, còn có những số đo sự kết hợp khác như tỉ số tỉ suất (rate ratio), tỉ số chênh (odds ratio), và tỉ số số hiện mắc (prevalence ratio).

Tỉ số tỉ suất thường được dùng trong những nghiên cứu đoàn hệ. Ðối với bệnh tật không quá phổ biến, tỉ số nguy cơ bằng với tỉ số tỉ suất về mặt con số, do đó, trong y văn, người ta thường dùng lẫn lộn tỉ số nguy cơ và tỉ số tỉ suất. Khi bệnh tương đối phổ biến thì tỉ số nguy cơ sẽ bị sai lệch tiến tới giá trị đơn vị và người ta cho rằng tỉ số tỉ suất là ước lượng tốt hơn cho độ mạnh của sự kết hợp.

Thí dụ: Trong số liệu của nghiên cứu Framingham được trình bày trong bảng 1. Tỉ số tỉ suất mắc bệnh mạch vành tim trong nhóm cholesterol cao (cholesterol 245 mg%) so với nhóm có cholesterol thấp (cholesterol < 210 mg%) = 0,0200 / 0,0059 = 3,4, gần bằng giá trị của tỉ số nguy cơ đã được tính ở trên.

Trong nghiên cứu bệnh-chứng (và cả trong nghiên cứu đoàn hệ nếu muốn), người ta thường dùng tỉ số chênh để ước lượng nguy cơ tương đối của việc phơi nhiễm với một yếu tố nguy cơ. Người ta đã chứng minh tùy theo bệnh được nghiên cứu là bệnh hiếm hay phổ biến và tùy theo cơ cấu lấy mẫu, tỉ số chênh có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất và đều có thể nói lên độ mạnh của sự kết hợp. Với cơ cấu lấy mẫu cổ điển và RR > 1 thì OR ( RR trong trường hợp bệnh hiếm và 1 < RR < OR trong trường hợp bệnh phổ biến.

Ví dụ:

Trong một dân số giả thuyết gồm 10.000 người trong đó có 4.000 người hút thuốc lá và 6.000 không hút thuốc. Nếu chúng ta có thể theo dõi nhóm người này trong 5 năm liên tục ta có kết

Table 1. Số mới mắc bệnh mạch vành tim trong 6 năm theo dõi tùy theo nồng độ cholesterol huyết thanh ban đầu trên nam giới tuổi từ 40-59

cholesterol huyết thanh

mg/100 ml

Số người trong nhóm

Số ca bệnh Nguy cơ Tỉ suất RR Nguy cơ quy trách

< 210 454 16 0,0352 0,0059 1,0 0,0000

210 - 244 455 29 0,0637 0,0106 1,8 0,0285

245 422 51 0,1203 0,0200 3,4 0,0851

Tổng cộng 1333 96 0,0720 0,0120

60

quả sau (Bảng 2):

Table 2. Tình trạng bị nhồi máu cơ tim sau 5 năm theo dõi phân theo tình trạng hút thuốc lá

Nhóm người Bị nhồi máu cơ tim trong 5 năm theo dõi

Không bị nhồi máu cơ tim sau 5 năm theo dõi

Tổng số

Hút thuốc 400 3.600 4.000

Không hút thuốc

120 5.880 6.000

Tổng số 520 9.480 10.000

Trong những nguyên tắc của nghiên cứu thống kê cổ điển, nhà nghiên cứu chỉ lập bảng 22 rồi tính giá trị 2 , sau đó ước lượng xác suất của sai lầm loại 1 (mức ý nghĩa p) và quyết định chấp nhận hay loại bỏ giả thuyết H0.

Các bước tiến hành như sau:

Giả thuyết H0: không có sự liên quan giữa hút thuốc lá và nguy cơ nhồi máu cơ tim

Chi-square = 311.59, 1 độ tự do do đó mức ý nghĩa p < 0,05

Như vậy ta bác bỏ giả thuyết H0. Nói cách khác, có sự liên hệ giữa hút thuốc lá và nhồi máu cơ tim.

Tuy vậy theo dịch tễ học hiện đại, lời giải trên là không đầy đủ, bởi vì nó chỉ cho câu trả lời định tính là có sự kết hợp giữa hút thuốc lá và nhồi máu cơ tim mà không nêu rõ sự kết hợp đó có độ lớn là bao nhiêu. Ðể tính số đo kết hợp, ta cần những tính toán thêm như sau:

Nguy cơ nhồi máu ở những người hút thuốc (Risk1) = 400/4.000 = 0.1

Nguy cơ nhồi máu ở những người không hút (Risk0) = 120/6.000 = 0.02

Nguy cơ tương đối (hay tỉ số nguy cơ) RR= Risk1/Risk0 =0.1/0.02=5

Ðó là những số đo sự kết hợp cổ điển trong nghiên cứu đoàn hệ. Dù vậy trong nghiên cứu đoàn hệ cũng có thể dùng tỉ số số "chênh".

Số "Chênh" nhồi máu ở những người hút thuốc

(Odds1) = 0.10/(1-0.10) =400/(4.000-400) = 0.11

Số "Chênh" nhồi máu ở những người không hút

(Odds0) = 0.02/(1-0.02) =120/(6.000-120) = 0.02

Tỉ số số "Chênh" nhồi máu trong 2 nhóm tiếp xúc và không tiếp xúc

OR= Odds1/Odds0 = (400/3600):120(5880)=(400*5880)/3600/120= 5.44

Ta thấy OR RR và OR hơi lớn hơn RR (trong trường hợp RR lớn hơn 1).

Trong nghiên cứu bệnh chứng cũng có thể tính được OR. Và nếu không có sai lêch trong nghiên cứu thì OR tính được trong nghiên cứu bệnh chứng cũng bằng OR tính được trong nghiên cứu đoàn hệ. Ví dụ minh họa cho điều này sẽ được trình bày trong bài nghiên cứu bệnh chứng.

IV. Số đo hiệu sốHiệu số nguy cơ (Risk difference) là hiệu số của nguy cơ ở nhóm phơi nhiễm và ở nhóm không phơi nhiễm

RD = r1 - r0

Hiệu số nguy cơ nói lên người bị phơi nhiễm phải gánh chịu một nguy cơ thặng dư là bao nhiêu.

Thí dụ:

Nếu ta xét trở lại số liệu ở bảng 1 và tìm hiệu số nguy cơ ở nhóm phơi nhiễm (những người có cholesterol 245 mg%) và ở nhóm không phơi nhiễm (cholesterol < 210 mg%) ta có:

61

RD = 0,1203 - 0,0352 = 0,0851

Ta nói người có cholesterol cao sẽ có một nguy cơ thặng dư bị bệnh mạch vành tim là 0,0851. Nói cách khác, loại bỏ những nguyên nhân khác, chỉ riêng cholesterol tăng cao sẽ tạo ra nguy cơ là 0,0851. Nói thêm một cách khác nữa, nếu một người bị cholesterol cao và hoàn toàn không có một yếu tố nguy cơ nào khác (không hút thuốc lá, không bị tăng huyết áp v.v. ) sẽ có xác suất bị bệnh mạch vành tim là 8,5% trong thời gian được theo dõi là 6 năm.

Ta cũng có thể tính hiệu số tỉ suất ở trong nghiên cứu đoàn hệ. Tuy vậy, hiệu số số chênh không được sử dụng bởi vì nó không có ý nghĩa sinh học.

Phân số nguy cơ quy trách (Attributable risk fraction) - còn được gọi là phân số quy trách là tỉ số của hiệu số nguy cơ và nguy cơ của nhóm phơi nhiễm.

ARF= (r1-r0)/r1 = 1 - 1/RR

Phân số nguy cơ quy trách nói lên rằng việc phơi nhiễm chiếm bao nhiêu phần trong nguy cơ của người bị phơi nhiễm.

V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ1. Giả sử có một yếu tố nguy cơ là nguyên nhân của một bệnh tật nào đó (hay bệnh tật là hậu quả của yếu tố nguy cơ). Khi đó, nếu có một quần thể bị phơi nhiễm với yếu tố nguy cơ và một quần thể không bị phơi nhiễm thì nguy cơ (hoặc tỉ suất mới mắc) ở hai quần thể sẽ khác nhau. Hậu quả của việc phơi nhiễm có thể được thấy bằng sự gia tăng nguy cơ (hoặc tỉ suất mới mắc) ở một quần thể khi so sánh với quần thể khác. Hai nguy cơ (hoặc tỉ suất mới mắc) có thể được so sánh bằng cách tính tỉ số hay hiệu số của chúng. Tóm lại, tỉ số nguy cơ hay hiệu số nguy cơ có thể dùng để đánh giá độ mạnh của sự kết hợp giữa yếu tố nguy cơ và sự xuất hiện bệnh, và đánh giá hậu quả của việc tiếp xúc với yếu tố nguy cơ. Tỉ số nguy cơ và hiệu số nguy cơ là số đo sự kết hợp hay số đo hậu quả. Nhưng nó không thể dùng để đánh giá sự tác động của yếu tố nguy cơ lên dân số. Sự tác động lên dân số không những phụ thuộc vào tỉ số nguy cơ mà còn phụ thuộc vào mức độ phổ biến của bệnh và mức độ phổ biến của yếu tố nguy cơ

2. Nếu yếu tố nguy cơ là nguyên nhân của bệnh tật thì tỉ số nguy cơ và hiệu số nguy cơ sẽ cho thấy sự kết hợp. Do đó tỉ số nguy cơ lớn hơn đơn vị (RR 1) là điều kiện cần, nhưng chưa đủ để chứng minh mối quan hệ nhân quả.

3. Chọn lựa giữa tỉ số hay hiệu số phụ thuộc vào hiểu biết của chúng ta vào cơ chế làm tăng tỉ suất mới mắc của yếu tố nguy cơ: nếu chúng ta nghĩ yếu tố nguy cơ làm nhân lên tỉ suất mới mắc thì tỉ số là đo lường tốt nhất (những yếu tố nguy cơ có tác dụng gây bệnh phối hợp - Synergic), nếu chúng ta nghĩ rằng yếu tố nguy cơ làm cộng thêm tỉ suất mới mắc thì hiệu số là số đo lường tốt nhất (những yếu tố nguy cơ có tác dụng gây bệnh cộng - Additive).

Thí dụ: Xét việc truyền máu và vết lở ở cơ quan sinh dục với tư cách là yếu tố nguy cơ của nhiễm HIV. Bởi vì truyền máu là nguy cơ cộng thêm và sự hiện diện của vết lở ở cơ quan sinh dục là nguy cơ phối hợp nên người ta cho rằng nên dùng hiệu số nguy cơ để đánh giá hậu của dùng bao cao su và tỉ số nguy cơ để đánh giá hậu quả của dùng bao cao su.

4. Trên đây, ta đã trình bày thí dụ về bệnh mạch vành tim là hiện tượng sức khỏe có sự phân biệt rạch ròi giữa bệnh và không bệnh (nói cách khác, bệnh mạch vành tim được xem là biến nhị phân - rời rạc) và ta có thể dùng tỉ số nguy cơ (RR) hay hiệu số nguy cơ (RD) để đánh giá sự kết hợp. Dù vậy nếu hiện tượng sức khỏe là biến liên tục (thí dụ như tình trạng dinh dưỡng của trẻ hoặc huyết áp tâm thu) ta không nên dùng RR hay RD mà nên dùng hệ số hồi quy để đánh giá sự kết hợp.

5. Trong trường hợp có nhiều mức độ phơi nhiễm, như trong thí dụ trình bày ở bảng 1.Ta phải chọn một mức phơi nhiễm (thí dụ như cholesterol < 210 mg%) làm nền tảng và tính RR của những mức phơi nhiễm khác bằng cách tính nguy cơ ở mỗi mức và chia cho nguy cơ ở mức phơi nhiễm nền tảng. Trở lại ví dụ ở bảng 1, nguy cơ bệnh mạch vành tim ở mức phơi nhiễm nền tảng la 0,0352. Tỉ số nguy cơ ở người có cholesterol từ 210 đên 245 mg% là 0,0637 / 0,0352 = 1,8.

62

Tỉ số nguy cơ ở người có cholesterol 245 mg% là 0,1203 / 0,0352 = 3,4.

6. Nhóm được chọn làm nền tảng thường là nhóm có nguy cơ thấp nhất. Khi có nhiều mức độ phơi nhiễm, người ta có thể chọn nhóm đông nhất làm nhóm nền tảng để làm tăng tính chính xác của ước lượng.

7. Khi cả hai nhóm phơi nhiễm và không phơi nhiễm có thể được chia thành những tầng (strata) theo một biến số khác -thí dụ như tuổi - ta có thể tính tỉ số nguy cơ đặc hiệu theo tầng (stratum specific ratio) bằng cách xem xét nguy cơ ở từng tầng riêng biệt.

Thí dụ: Bảng 3 trỉnh bày tỉ suất chết do bệnh mạch vành tim ở những người hút thuốc và không hút thuốc theo nhóm tuổi. Ở nhóm tuổi 35-44, người hút thuốc có nguy cơ bị chết do bệnh mạch vành tim cao gấp 5 lần người không hút thuốc, trong khi ở nhóm tuổi từ 55-64 nguy cơ tương đối chỉ khoảng 1,5 lần.

8. Có thể tính tỉ số tỉ suất tóm tắt (summary rate ratio). Có thể tính tỉ số tỉ suất tóm tắt bằng cách lấy trung bình cộng những tỉ số tỉ suất đặc hiệu theo tầng. Nhưng người ta thường gán trọng số (weight) cho tỉ số tỉ suất đặc hiệu. Có nhiều cách gán trọng số, hai cách phổ biến là nguy cơ tương đối tóm tắt của Mantel-Hanenszel và tỉ số tử vong chuẩn hóa (Standardized mortality ratio - SMR).

9. Hiệu lực vaccin (vaccine efficacy - VE) là tỉ lệ số mới mắc được giảm bớt do việc chủng ngừa vaccin. Nếu xem nhóm không tiêm chủng vaccin là nhóm không phơi nhiễm có tỉ suất mới mắc là r0 và nhóm có tiêm chủng có tỉ suất mắc bệnh r1, thì

VE = 1 - RR = 1 - (r1 / r0)

Nếu ta có tỉ lệ chủng ngừa trong dân số PN và tỉ lệ chủng ngừa trong những trường hợp bệnh PC

ta có thể ước tính hiệu lực vaccin theo công thức sau:

VE = (PN - PC) / [PN (1-PC)]

Thí dụ: Chương trình tiêm chủng mở rộng được thực hiện ở Huyện A và người ta báo cáo rằng 90% đứa trẻ dưới 3 tuổi đã được tiêm chủng phòng sởi (PN = 0,9). Ở bệnh viện người ta thấy rằng 70% đứa trẻ bị sởi dưới 3 tuổi đã được chủng ngừa sởi (PC = 0,7). VE được ước tính sẽ là 74%.

VI. Số đo tác độngMột số yếu tố nguy cơ có nguy cơ tương đối cao chưa hẳn có tác động quan trọng lên sức khỏe của cộng đồng. Thí dụ, tình trạng vô toan ở dạ dày là một yếu tố nguy cơ của bệnh dịch tả (RR từ 10 đến 20) tuy vậy, tình trạng vô toan ở dạ dày chỉ góp phần rất nhỏ trong những case bệnh

Table 3 Tỉ suất chết do bệnh mạch vành tim ở những người hút thuốc và không hút thuốc theo nhóm tuổi

Tuổi Tỉ suất ở người hút thuốc

Tỉ suất ở người không hút thuốc

Tỉ số tỉ suất

35-44 0,61 0,11 5.5

45-54 2,40 1.12 2,1

55-64 7,20 4,9 1,5

65-74 14,69 10,83 1,4

75-84 19,18 21,20 0,9

85 + 39,52 35,93 1,1

Tính chung 4,29 3,30 1,3

63

dịch tả ở cộng đồng. Thực vậy, ở bệnh viện truyền nhiễm chúng ta rất hiếm khi (có thể nói là không bao giờ) gặp được một bệnh nhân dịch tả do tình trạng vô toan mà chúng ta thường gặp bệnh nhân bị bệnh dịch tả do không có nguồn nước sạch. Vì vậy người làm y tế công cộng không quan tâm lắm đến tình trạng vô toan dạ dày như là một yếu tố nguy cơ của bệnh dịch tả, bởi vì việc loại bỏ hoàn toàn yếu tố nguy cơ này chỉ có thể giảm một phần rất nhỏ số case bệnh dịch tả. Ta nói yếu tố nguy cơ này có tác động nhỏ lên bệnh trạng của dịch tả. Ðể lượng hóa tác động của yếu tố nguy cơ ta sử dụng nguy cơ quy trách dân số và phân số nguy cơ quy trách dân số.

Hiệu số nguy cơ dân số (Population Risk Difference - PRD) là hiệu số giữa nguy cơ (hay tỉ suất) của toàn bộ dân số r và nguy cơ (hay tỉ suất) của nhóm không phơi nhiễm (r0).

PRD = r - r0

Nếu ta kí hiệu p là tỉ lệ trong dân số bị phơi nhiễm thì

r = pr1 + (1 - p)r0

Do đó

PRD = pr1 + (1 - p)r0 - r0 = pr1 + r0 - pr0 - r0 = pr1 - pr0 = p(r1 - r0)

Nguy cơ quy trách dân số nói lên nguy cơ thặng dư gây nên do sự hiện diện của yếu tố nguy cơ trong dân số. Nguy cơ quy trách dân số là tích số của tỉ lệ dân số bị phơi nhiễm và hiệu số nguy cơ. Tình trạng vô toan dạ dày có nguy cơ quy trách dân số thấp bởi vì tỉ lệ dân số bị phơi nhiễm với yếu tố nguy cơ đó (tỉ lệ dân số bị vô toan dạ dày) thấp.

Phân số nguy cơ quy trách dân số (Population Attributable Risk Fraction - PAF): là tỉ lệ của những trường hợp bị bệnh trong toàn thể dân số nghiên cứu có thể quy kết cho sự phơi nhiễm (với giả định là sự kết hợp nhân quả). Phân số nguy cơ quy trách dân số còn được gọi là phân số căn nguyên (etiological fraction - EF), phần trăm nguy cơ quy trách dân số (percentage population attributable fraction) hay phân số quy trách (attributable fraction - AF)

PAF = PRD / r = p (r1 - r0)/ [pr1 + (1 - p)r0] = p(RR - 1)/[pRR + 1 - p]

= p(RR - 1)/[p(RR - 1) + 1]

Thí dụ:

1. Giả sử phân số nguy cơ quy trách dân số (PAF) tương ứng giữa hút thuốc lá và tử vong do ung thư phổi là 0,80. Kết quả này có nghĩa là 80% những tử vong do ung thư phổi là do hút thuốc lá. Hơn nữa, ta có thể tiên đoán nếu hút thuốc lá bị loại bỏ hoàn toàn, tỉ suất tử vong do ung thư phổi sẽ giảm đi 80%

2. Xem lại số liệu được trình bày trong bảng 2. Ta tính được những số đo tác động như sau:

Nguy cơ nhồi máu trong dân số Risk =520 / 10.000 = 0.052

Hiệu số nguy cơ dân số PRD = 0.052-0.02 = 0.032

= Risk0 p (RR-1) = 0.02 x 0.4 x (5-1) = 0.032

Phân số nguy cơ quy trách dân số PAF = 0.032/0.052 = 0.62 = 62%

3. Ðối với bệnh hiếm, ta có thể tính được PAF dựa trên kết quả của một nghiên cứu bệnh chứng (lưu ý rằng đối với bệnh hiếm OR là ước lượng khá tốt cho RR). Dựa vào kết quả được trình bày trong bảng 4, ta có thể tính được:

RR OR = 40 320 / (80 60) = 2,67

Tỉ lệ phơi nhiễm trong dân số = tỉ lệ phơi nhiễm trong nhóm chứng = 80/400 = 0,2

PAF = 0,2 (2,67 - 1)/[0,2 (2,67 -1) + 1] = 0,25

64

Table 4. Số các đối tượng chia theo tình trạng phơi nhiễm và tình trạng bệnh trong một nghiên cứu bệnh chứng (Số liệu giả lập)

Phơi nhiễm Không phơi nhiễm

Tổng số

Bệnh 40 60 100

Chứng 80 320 400

Tổng số 120 380 500

VII. Bàn luận thêm về phân số nguy cơ quy trách dân số1. Việc sử dụng phân số nguy cơ quy trách đòi hỏi một số những giả định: (1) sự kết hợp giữa yếu tố nguy cơ và bệnh tật là nhân quả (2) RR và p được đo lường chính xác (3) việc loại bỏ nguy cơ loại bỏ hoàn toàn nguy cơ do nó gây ra (điều này chưa chắn đúng bởi vì người bỏ thuốc lá sẽ không thể có nguy cơ bị ung thư phổi bằng người chưa từng hút thuốc lá) và (4) có thể loại bỏ hoàn toàn yếu tố nguy cơ.

2. Công thức tính toán này chỉ đúng khi áp dụng cho một yếu tố nguy cơ duy nhất và những yếu tố nguy cơ không tương tác với nhau. Nếu áp dụng cho nhiều yếu tố nguy cơ có thể xảy ra trường hợp tổng số những phân số nguy cơ quy trách dân số lớn hơn 100%.

65

Phương pháp thu thập số liệu

Có nhiều phương pháp chính để thu thập số liệu: hồi cứu hồ sơ tài liệu, quan sát, sử dụng bộ câu hỏi tự điền, phỏng vấn mặt đối mặt, thảo luận nhóm tập trung như sử dụng nhóm danh định (nomial group), kĩ thuật delphi, vẽ bản đồ (mapping). Cần phân biệt phương pháp thu thập số liệu và công cụ thu thập số liệu (công cụ thu thập số liệu chỉ là một phần của phương pháp). Thí dụ bộ câu hỏi chỉ là công cụ thu thập số liệu và có thể sử dụng trong nhiều phương pháp thu thập số liệu khác nhau như bộ câu hỏi tự điền, phỏng vấn cá nhân mặt đối mặt, phỏng vấn nhóm, v.v.

Nhìn chung có hai kĩ thuật nghiên cứu chính: nghiên cứu định tính và nghiên cứu định lượng. Nghiên cứu định tính nhằm mục đích tìm hiểu bản chất, nguyên nhân và hậu quả của vấn đề của vấn đề nghiên cứu (để trả lời cho các câu hỏi tại sao, như thế nào) trong khi đó nghiên cứu định lượng nhằm tìm hiểu quy mô của vấn đề (Trong một nghiên cứu có thể kết hợp cả hai loại kĩ thuật nghiên cứu định tính và định lượng) Do các phương pháp thu thập số liệu sẽ cho các thông tin khác nhau, việc chọn lựa kĩ thuật thu thập phù hợp phải dựa trên bản chất của nghiên cứu là định tính hay định lượng.

Sử dụng thông tin sẵn cóSử dụn thông tin sẵn có còn được gọi là phương pháp hồi cứu. Nó có ưu điểm là ít tốn kém về mặt thời gian và nguồn lực và cho phép đánh giá các thông tin trong quá khứ. Tuy nhiên do bản chất của số liệu hồi cứu là không sử dụng cho mục đích nghiên cứu, chất lượng số liệu thường thấp, các biến số không được thu thập không hằng định và thường không có đủ các biến số mà nhà nghiên cứu quan tâm (đặc biệt là yếu tố gây nhiễu).

Ðể cải thiện tính hằng định của số liệu có được nhờ hồi cứu, nhà nghiên cứu phải sử dụng các công cụ để hệ thống hoá các biến số cần thu thập như bản kiểm hay sổ cái.

Quan sátChọn lọc, quan sát và ghi nhận hành vi hay đặc tính của con người, vật thể hay hiện tượng. Các thí dụ của quan sát có thể bao gồm: quan sát hành vi rửa tay các cán bộ y tế trước khi làm thu thuật y khoa, đo lường huyết áp và lấy thân nhiệt của bệnh nhân, đánh giá phương tiện thanh khử trùng tại khoa phòng, theo dõi diễn tiến lâm sàng của bệnh nhân bị shock nhiễm trùng. Khi quan sát hành vi con người trong các hoạt động xã hội, quá trình quan sát có thể chia thành quan sát có tham gia và quan sát không tham gia.

Các ưu điểm của phương pháp quan sát

Cho thông tin chi tiết có liên quan tình huống: thí dụ giả sử chúng ta muốn quan sát hành vi rửa tay của điều dưỡng trước khi thay băng cho bệnh nhân, chúng ta có thể có thông tin về mức độ vô khuẩn của dụng cụ làm thủ thuật

Cho thông tin nằm ngoài bộ câu hỏi: Có những thông tin chúng ta không dự định thu thập trong bộ câu hỏi (hoặc khó có thể thu thập được chính xác nhờ bộ câu hỏi) thí dụ như thông tin về kĩ thuật sử dụng bàn chải trong khi đang rửa tay có đúng hay không có thể có được một cách chính xác và đơn giản nhờ quan sát

Cho phép kiểm tra tính tin cậy của trả lời câu hỏi: Nếu chúng ta quan sát một người điều dưỡng rửa tay trước khi làm thủ thuật, thông tin này sẽ đáng tin cậy hơn là việc phỏng vấn họ có rửa tay hay không? Rửa tay trong bao lâu? Rửa tay có đúng kĩ thuật hay không?

Khuyết điểm

Sai lệch do quan sát: đây là sai lệch do người quan sát. Phương pháp khắc phục là Cần đào tạo đúng mức những trợ lí nghiên cứu

66

HW Hawthorne: đây là sai lệch do người (hay hiện tượng) được quan sát sẽ thay đổi hành vi khi biết rằng đang được quan sát. Ðiều này có thể khắc phục bằng cách quan sát nhưng không cho biết nhưng điều này có thể có thể gặp phải một số vấn đề về đạo đức.

Ðo lường là quan sát sử dụng một thang đo xác định từ trước

Phỏng vấn mặt đối mặt và bộ câu hỏi tự điềnPhương pháp phỏng vấn có thể áp dụng cho từng đối tượng hay cho một nhóm người. Phỏng vấn từng người được dùng để có được những kết quả định lượng; phỏng vấn một nhóm người nhằm mục đích để hiểu rõ suy nghĩ của người dân và ý kiến của họ trong điều kiện cuộc sống thực tế: phương pháp này thường được dùng trong các nghiên cứu định tính.

Phỏng vấn có thể được tiến hành với các mức độ cấu trúc khác nhau. Phỏng vấn được gọi là có cấu trúc nếu nó tuân thủ theo một kế hoạch chặt chẽ và được hỏi theo những câu hỏi đã soạn sẵn. Phỏng vấn bán cấu trúc là phỏng vấn có tuân thủ nhưng không chặt chẽ theo kế hoạch định trước, câu hỏi cũng có thể được cải biên sao cho phù hợp với đối tượng. Phỏng vấn được gọi là không cấu trúc khi nó không theo một kế hoạch nào cả và việc đặt câu hỏi là tùy tiện: phỏng vấn không cấu trúc thường được coi là ít có tính khoa học.

Bảng 1. Ưu và khuyết điểm của phương pháp sử dụng bộ câu hỏi và phỏng vấn.

Khuyết điểm Ưu điểm

Kế hoạch phỏng vấn giúp nhưngười phỏng vấn hỏi các câu hỏi

- Tốn kém, cần phải sự giúp đỡ của chuyên gia.

- Sai lệch do người phỏng vấn

- Thông tin riêng tư có thể bị sai lệch

- Phù hợp với đối tượng có trình độ văn hoá thấp

- Tỉ lệ trả lời cao hơn

- Có thể khêu gợi nhiều chi tiết hơn.

- Có sự kiểm soát tốt hơn đối với câu trả lời (có thể làm sáng tỏ câu hỏi)

Bộ câu hỏi tự điền - Tỉ lệ trả lời thấp hơn

- Khó khêu gợi câu trả lời chi tiết

- Kiểm soát kém hơn câu trả lời

- Không dùng cho người có trình độ văn hoá thấp

- Rẻ tiền hơn

- Ít nhạy cảm với sai lệch do người phỏng ván

- Có thể dùng bưu điện để gửi bộ câu hỏi.

Phỏng vấn có cấu trúc, bán cấu trúc hay thu thập số liệu bằng bộ câu hỏi tự điền đều cần phải sử dụng bộ câu hỏi. Bộ câu hỏi (questionnaire) là một văn bản gồm nhiều câu hỏi dùng để thu thập số liệu. Việc soạn thảo bộ câu hỏi tốt là một trong những khâu then chốt để đảm bảo chất lượng số liệu thu thập được.

Thiết kế bộ câu hỏi

Những điểm cần xem xétCần phải xem xét bộ câu hỏi sử dụng cho mục đích gì (dùng cho bộ câu hỏi tự điền hay bộ câu hỏi để phỏng vấn mặt đối mặt, sử dụng cho kĩ thuật nghiên cứu định tính hay định lượng, sử dụng cho chủ đề nào, v.v.), sử dụng trên đối tượng nào, những đối tượng này có trình độ học vấn như thế nào và bộ câu hỏi này sử dụng cho cỡ mẫu bao nhiêu.

67

Bộ câu hỏi thường được phân loại là bộ câu hỏi có cấu trúc hay bộ câu hỏi mềm dẻo. Thông thường bộ câu hỏi có cấu trúc được sử dụng cho nghiên cứu định lượng, sử dụng máy tính để phân tích và sử dụng cho cỡ mẫu lớn, bộ câu hỏi có tính mềm dẻo được sử dụng chủ yếu cho nghiên cứu định tính nhằm hiểu sâu hơn về một vấn đề chưa biết và không phù hợp để phân tích thống kê trên máy tính.

Cấu trúc bộ câu hỏiCấu trúc bộ câu hỏi bao gồm quá trình thiết kế và tiến hành bộ câu hỏi

Việc thiết kế bộ câu hỏi bao gồm các bước sau:

1. Nội dung: Nhà nghiên cứu xác định những thông tin cần thu thập: những thông tin này bao gồm những biến số độc lập, biến số phụ thuộc và các biến số gây nhiễu. Việc này cần rất nhiều suy nghĩ và thảo luận. Cảm hứng trong việc chọn lựa những thông tin cần thiết xuất phát từ mục tiêu của nhà nghiên cứu, từ việc thảo luận với những người khác và những nguồn khác. Kết quả của giai đoạn này là một danh sách những thong tin cần được chuyển thành dạng câu hỏi.

2. Ðặt câu hỏi: Sơ phác bộ câu hỏi. Nhà nghiên cứu xuất phát từ danh sách những thông tin cần thu thập và sơ phác bộ câu hỏi. Như sẽ được thảo luận sâu hơn, việc đặt câu và thiết kế bộ câu hỏi là rất quan trọng trong việc đạt được tính giá trị của thông tin. Nếu bộ thiết kế được thiết kế kém, câu trả lời sẽ không phản ánh chính xác tình trạng thực tế của nhà nghiên cứu. Có hai dạng thức câu hỏi chính, câu hỏi mở và và câu hỏi. Trong câu hỏi mở không có những câu trả lời định trước. Trong câu hỏi đóng có nhiều câu trả lời định trước mà người được hỏi chỉ việc lựa chọn trong đó. Ưu và khuyết điểm của những câu trả lời là như sau:

Khuyết điểm Ưu điểm

Câu hỏi mở - Có tính cấu trúc thấp

- Khó mã hóa câu trả lời để có thể phân tích thống kê

- Tốn nhiều thời gian

- Khó trả lời hơn

- Có nhiều chi tiết hơn

Câu hỏi đóng - Có ít chi tiết hơn

- Có thể khiến người được hỏi khó chịu

- Có tính cấu trúc cao

- Câu trả lời dễ mã hóa hơn

- Tốn ít thời gian hơn

Tuy nhiên nếu nghiên cứu định tính, người ta thích dùng câu hỏi mở hơn bởi vì nó cho phép người trả lời có thể trình bày bằng ngôn từ của họ. Còn việc dùng bộ câu hỏi trong nghiên cứu định lượng người ta nhắm vào tiện lợi và tốc độ chứ không chú trọng đến phân tích sâu.

Ðiều quan trọng trong danh sách những câu trả lời cho câu hỏi đóng cần phải được thiết kế cẩn thận. Nếu phạm vi các câu trả lời bị giới hạn thì câu trả lời sẽ bị sai lệch.

Thang đo Likert và thang đo buộc lựa chọnMột loại câu hỏi đóng đặc biệt có giá trị là thang đo Likert. Thang đo Likert do một nhà tâm lí học người Mỹ tên là Likert phát minh. Thang đo này có ba ưu điểm chính:

- Làm dễ dàng hơn việc xây dựng câu hỏi để xác định thái độ của người dân

- Thuận tiện trong việc trả lời, phân tích câu hỏi

- Cho phép phân biệt nhiều mức độ khác nhau của thái độ.

Thang đo Likert truyền thống là một câu hỏi đóng gồm một mệnh đề và có 5 lựa chọn: có lựa chọn dương tính, lựa chọn âm tính và lựa chọn trung bình. Thí dụ:

68

Bảng 3. Dạng thức Likert và dạng thức buộc lựa chọn

Q1. Bác sĩ của trạm y tế luôn luôn giải thích việc điều trị cho tôi (khoang một lựa chọn)

Rất đồng ý 1

Ðồng ý 2

Không ý kiến 3

Không đồng ý 4

Rất không đồng ý 5

Q2. Bác sĩ của trạm y tế luôn luôn giải thích việc điều trị cho tôi (khoang một lựa chọn)

Rất đồng ý 1

Ðồng ý 2

Không đồng ý 3

Rất không đồng ý 4

Tuy nhiên nếu những người dân có vẻ e dè khi dùng câu trả lời phủ định thì chúng ta có thể sử dụng thang đo buộc lựa chọn. Trong câu hỏi buộc lựa chọn không cho phép người trả lời trả lời không ý kiến và câu trả lời này để tránh tình trạng người trả lời luôn luôn ba phải (acquiescent response mode). (Trong bảng trên câu hỏi 1 là thang đo Likert cổ điển. Câu hỏi 2 là thang đo 4 điểm buộc lựa chọn).

Bảng 4. Ưu và khuyết điểm của dạng thức Likert và buộc lựa chọn

Dạng thức trả lời Ưu điểm Khuyết điểm

Likert Luôn luôn cho phép trả lời trung tính

Trả lời ba phải

Buộc lựa chọn Người trả lời phải chọn hoặc đồng ý hoặc không đồng ý

Không cho phép trả lời ba phải

3. Sắp xếp cấu trúc bộ câu hỏi:

Bộ câu hỏi thông thường có cấu trúc như sau:

1. Phần giới thiệu: phần giới thiệu mô tả mục đích của nghiên cứu, thông tin cần thu thập và cách sử dụng bộ câu hỏi. Nó cũng trình bày cho người được hỏi là thông tin này sẽ được giữ kín hay không?

2. Thông tin về dân số học: thông thường chúng ta cần phải thu thập thông tin về dân số học của người được phỏng vấn như tuổi, giới tính, nghề nghiệp, học vấn, v.v. Chúng ta nên đưa thông tin này lên đầu bởi vì nó dễ trả lời và đóng vai trò "làm nóng" cho việc hỏi những thông tin tiếp theo.

3. Câu hỏi về sự kiện: Câu hỏi về sự kiện dễ hỏi (và trả lời) hơn câu hỏi về ý kiến nên thường được đặt ở trước.

4. Câu hỏi về ý kiến

5. Phần kết thúc và hướng dẫn gửi trả lại bộ câu hỏi (nếu sử dụng bộ câu hỏi tự điền). Phần kết thúc là phần cám ơn người được phỏng vấn về sự hợp tác của họ và cung cấp thông tin để họ có thể gửi trả bộ câu hỏi.

Trong bộ câu hỏi tự điền nên tránh những cấu trúc phức tạp như "Nếu bạn trả lời có ở câu 6 và trả lời không ở câu trả lời 9, xin trả lời câu 10 nếu không xin trả lời câu 11".

4. Xây dựng hình thức bộ câu hỏi

5. Tiến hành thử bộ câu hỏi: Cần tiến hành thử bộ câu hỏi với một nhóm nhỏ những người mà ta

69

sẽ tiến hành nghiên cứu và trên đồng nghiệp để làm sáng tỏ bộ câu hỏi và phát hiện các vấn đề.

6. Soạn lại bộ câu hỏi: Nhờ vào việc tiến hành thử các bộ câu hỏi chúng ta có thể phát hiện được vấn đề và cần phải sử chữa chúng bằng cách soạn lại bộ câu hỏi. Nếu vấn đề nay là nghiêm trọng, chúng ta cần phải lập lại việc thử bộ câu hỏi. Nếu vấn đề là nhỏ thì nhà nghiên cứu chỉ cần thay đổi và có thể tiến hành nghiên cứu trên quy mô thực sự.

7. Tiến hành bộ câu hỏi. Sau khi bộ câu hỏi hoàn chỉnh, chúng ta sẽ tiến hành bộ câu hỏi trên dân số nghiên cứu. Các trả lời sẽ được phân tích theo mục tiêu của nghiên cứu.

Cách dùng từ và việc thiết kế câu hỏiViết được một câu hỏi tốt là một nghệ thuật và tốn nhiều thời gian. Ðể có được một câu trả lời có giá trị và đáng tin cậy chúng ta phải có cách dùng từ trong câu hỏi tốt. Những sai lầm cần phải tránh là:

Câu hỏi 2 nội dung: Thí dụ "Ông có thích cách đối xử của bác sĩ và các điều dưỡng trong bệnh viện hay không". Những câu hỏi như thế này cần được tách ra để người ttả lời có thể nhận thức câu hỏi một cách rõ ràng hơn.

Câu hỏi mơ hồ: Thí dụ đối với học sinh phổ thông người già là người trên 30 tuổi, nhưng đối với người 50 tuổi người già là người trên 60 tuổi.

Tránh dùng từ quá chuyên môn: Thí dụ "Trong nhà bà có ai bị bệnh Trisomy 21 hay không?"

Tránh những câu hỏi gợi ý: "Mỗi năm ông (hoặc bà) đi khám răng mấy lần?". Câu hỏi này khiến cho người được gọi có cảm giác rằng mọi người đều khám đi khám răng và cảm thấy rất khó khăn khi trả lời "Không bao giờ tôi đi khám răng". hoặc "Bà đưa cháu đi khám ở đâu nếu cháu bị tiêu chảy?"

Hơn nữa cũng cần lưu ý, ngay cả khi câu hỏi không gợi ý cũng có thể bị sai lệch, tùy thuộc vào cách sử dụng bộ câu hỏi. Thí dụ nếu chúng ta hỏi ý kiến của người dân về trạm y tế mà chúng ta lại cử nhân viên trạm y tế đi phỏng vấn thì chắc chắn câu trả lời sẽ bị sai lệch.

70

Lấy mẫu điều tra

Mục tiêu:Sáu khi nghiên cứu bài này, hội thảo viên có khả năng:

(i) Phân biệt được phương pháp lấy mẫu xác suất và lấy mẫu không xác suất

(ii) Liệt kê 5 sơ đồ lấy mẫu xác suất thường dùng được và các ưu khuyết điểm của nó

(iii) Trình bày được các bước tiến hành của 5 sơ đồ lấy mẫu xác suất

(iv) Lập được một danh sách dân số nghiên cứu bằng cách rút chọn mẫu ngẫu nhiên đơn.

Ðại cương về phương pháp lấy mẫu:Trên nguyên tắc, chúng ta chỉ có thể có những kết luận có giá trị về một dân số nào đó nếu chúng ta khảo sát hoàn toàn dân số đó. Tuy vậy, điều này sẽ gây ra một số những hạn chế về nguồn tài nguyên và về vấn đề về đạo đức. Một điều may mắn là những phương pháp thống kê sẽ cho phép chúng ta có thể rút ra những kết luận có giá trị về dân số (với một độ tin cậy nhất định) mà chỉ cần khảo sát một phần dân số đó. Phương pháp lấy mẫu là phương pháp rút chọn một phần của dân số sao cho việc khảo sát mẫu đó cho phép cho phép chúng ta rút ra những kết luận về dân số. Những nguyên tắc thống kê đòi hỏi một mẫu có giá trị khi mẫu đó có kích thước đủ lớn (đủ cỡ mẫu) và mẫu đại diện cho dân số

Có nhiều phương pháp để đảm bảo tính đại diện của mẫu: Chúng ta có thể dùng trực giác để kết luận về tính đại diện của mẫu. Thí dụ như chúng ta có thể cho rằng huyện An Phú tỉnh An giang là đại diện cho vùng sinh thái lũ lụt của vùng đồng bằng sông Cửu Long. Tuy nhiên tính đại diện theo sự đánh giá trực giác có thể không được tất cả mọi người đồng ý. Một cách khác tốt hơn để đảm bảo tính đại diện bằng cách chọn mẫu xác suất.

Mẫu xác suất là mẫu rút từ dân số theo cách sao cho mọi phần tử trong dân số đều có một xác suất được đưa vào mẫu. Năm phương pháp chọn mẫu xác suất thường được dùng phổ biến nhất trong những cuộc điều tra ở địa phương hay có quy mô nhỏ là:

1. Lấy mẫu ngẫu nhiên đơn (Single random Sampling)

2. Lấy mẫu hệ thống (systemic sampling)

3. Lấy mẫu phân tầng (Stratified sampling)

4. Lấy mẫu cụm (Cluster sampling)

5. Lấy mẫu nhiều bậc (Multistage sampling)

Trước khi tiến hành lấy mẫu, trước tiên ta cần phải xác định đơn vị nghiên cứu. Ðơn vị nghiên cứu (study unit) là đơn vị căn bản nhất hay nhỏ nhất mà cuộc nghiên cứu quan tâm. Trong cuộc điều tra, đơn vị lấy mẫu là nơi mà người nhân viên điều tra phải đến thăm viếng để phỏng vấn, khám lâm sàng và thu thập các thông tin khác. Ðơn vị nghiên cứu có thể là một bệnh nhận, một hộ gia đình, một ngôi nhà, một làng, một xã hay có thể là một đơn vị hành chánh lớn hơn. Tập hợp tất cả những đơn vị nghiên cứu hợp lệ trong dân số được gọi là khung mẫu (sampling frame).

Thí dụ: Trong nghiên cứu về trọng lượng trung bình của trẻ sơ sinh trong năm 1997 của Quận 11, thành phố Hồ Chí Minh, đơn vị nghiên cứu là những đứa trẻ sơ sinh. Khung mẫu là tất cả các đứa trẻ sơ sinh sinh trong năm 1997 của các gia đình cư ngụ tại Q11, thành phố Hồ Chí Minh.

Trong nghiên cứu về tỉ lệ sử dụng các biện pháp sinh đẻ kế hoạch ở huyện Châu thành tỉnh Cần thơ. Ðơn vị nghiên cứu là các cặp vợ chồng. Khung mẫu là tất cả các cặp vợ chồng cư ngụ tại huyện Châu thành, tỉnh Cần thơ.

Trong nghiên cứu về số hộ có cầu tiêu hợp vệ sinh ở Tỉnh Sóc trăng. đơn vị nghiên cứu là ngôi

71

nhà. Khung mẫu là tất cả các ngôi nhà trong tỉnh Sóc Trăng.

Các phương pháp lẫy mẫu xác suất:

1. Mẫu ngẫu nhiên đơn:Mẫu có cỡ mẫu n được rút từ trong dân số có N phần tử sao cho mọi cách lấy mẫu cỡ n đều có một xác suất lựa chọn như nhau, mẫu đó được gọi là mẫu ngẫu nhiên đơn.

Phương pháp lẫy mẫu còn được chia theo 2 loại: phương pháp lấy mẫu có hoàn lại và lấy mẫu không hoàn lại. Trong phương pháp lấy mẫu hoàn lại,một phần tử sau khi được rút chọn để đưa vào mẫu vẫn có khả năng được rút chọn thêm - như vậy, một phần tử có thể làm đại diện cho dân số 1, 2, 3 hay nhiều hơn lần. Trong phương pháp lấy mẫu không hoàn lại, những phần tử được rút chọn rồi sẽ không được chọn một lần nữa. Do đó một phần tử có thể được đưa vào mẫu tối đa 1 lần.

Ðể có thể lấy mẫu nhiên đơn, trước tiên ta cần xây dựng danh sách các đơn vị nghiên cứu trong dân số (khung mẫu). Mỗi tên trên danh sách phải có một con số và con số này không được dùng cho các tên khác.

Phương pháp chọn mẫu ngẫu nhiên đơn bằng cách rút thăm:Cắt giấy thành những hình vuông đủ lớn để viết (thường dùng gấy vuông có cạnh từ 4 đến 5 cm). Ở mảnh giấy đầu ghi “1”, mảnh giấy thứ nhì ghi “2”, trên mảnh giấy thứ ba ghi “3” và tiếp tục như thế cho đến số cuối cùng trong bản danh sách điều tra. Sau khi gấp kĩ và riêng rẽ các tờ giấy để không ai có thể nhìn thấy số. Ðặt tất cả các mảnh giấy đã gấp vào hộp và lắc kĩ vài lần. Khi đã lắc xong, để một người nào đó rút những mảnh giấy đã gập tùy theo yêu cầu của cỡ mẫu.

Mở các mảnh giấy đã được rút và chọn trong bản danh sách điều tra những tên có số giống với số trên tờ giấy được rút chọn.Cần lưu ý: Mảnh giấy chỉ có một số, số trên tờ giấy phải tương ứng với số trong danh sách không thêm số nào và bớt số nào.

Chọn số ngẫu nhiên đơn dùng bảng số ngẫu nhiênCách dùng bảng số ngẫu nhiên

Ða số các bảng số ngẫu nhiên gồm nhiều khối, mỗi khối có 5 số, mỗi số có 5 chữ số. Những số này có thể đọc theo bất kì thứ tự nào, lên hoặc xuống theo cột hay qua hay qua trái của hàng. Người ta chọn các số trong bảng này và tiếp theo đó đưa vào nghiên cứu những tên trong danh sách có số trùng với số được chọn. Ðôi khi số ngẫu nhiên được bắt gặp 2 hay nhiều lần nhưng khi đó người nghiên cứu bỏ qua số này. Ðôi khi người đọc được số trong bảng số ngẫu nhiên lớn hơn số lớn nhất có trong danh sách (ngoài danh sách, "lớn quá cỡ thợ mộc") thì người nghiên cứu cũng không xét đến số này.

Thao tác sử dụng các bảng số ngẫu nhiên:

Bước 1:

Xác định các chữ số có trong số lớn nhất của bản danh sách điều tra. Thí dụ, nếu có 317 đối tượng trong khung mẫu, số lớn nhất là 317 và số này có 3 chữ số.

Bước 2:

Bảng chữ số ngẫu nhiên thường chứa 5 chữ số, như vậy nó thường lớn hơn cần thiết cho các cuộc điều tra. Những số này có thể biến đổi thành số nhỏ hơn bằng cách loại bỏ một số các chữ số. Thí dụ nếu ta cần 3 chữ số, thì một số 5 chữ số (như 44983) có thể trở thành số có 3 chữ số bằng những phương pháp sau:

(i) loại bỏ 2 chữ số cuối (trở thành 449)

(ii) loại bỏ chữ số đầu và chữ số cuối (trở thành 498)

(iii) loại bỏ 2 chữ số đầu (như 983)

72

Tất cả 3 số này đều là những số ngẫu nhiên 3 chữ số hợp lệ

Lưu ý: Chúng ta có thể tìm một bảng số ngẫu nhiên bằng cách tra cứu trong sách thống kê. Chúng ta cũng có thể tạo ra bảng số ngẫu nhiên bằng cách dùng chương trình Epi-Info. Trước tiên chúng ta vào chương trình Epitable, chọn trình đơn Sample rồi chọn trình đơn con Random number table (Bảng số ngẫu nhiên). Khi đó trên màn hình sẽ có kết quả như sau

Chúng ta nhập vào số các số ngẫu nhiên mà chúng ta muốn tạo ra (How many random numbers): thí dụ như 60 và nhập vào số các chữ số có trong số ngẫu nhiên (How many digits per number), thí dụ như 3, chúng ta sẽ có kết quả sau.

Bước 3:

Chọn một số có chữ số mong muốn. Chọn đố tượng tương ứng trên bản danh sách điều tra để đưa vào nghiên cứu trừ khi:

_ Describe Compare Study Sample Probability Setup_________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________+----------------------------------------------------------+____________________¦ +-[_]------- Random number table generator ------------+¦____________________¦ ¦ ¦¦____________________¦ ¦ How many random numbers 550 ¦¦____________________¦ ¦ How many digits per number 5 ¦¦____________________¦ ¦ ¦¦____________________¦ ¦ ¦¦____________________¦ ¦ Calculate _ Reset _ Quit _ ¦¦____________________¦ ¦ ____________ ____________ ____________ ¦¦____________________¦ ¦ ¦¦____________________¦ +------------------------------------------------------+¦____________________+----------------------------------------------------------+_______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________¦¦_____________________________________________________________________________¦¦¦¦___________________________________________________________________________¦¦¦¦¦¦_________________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:224824

_ Describe Compare Study Sample Probability Setup_________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________+----------------------------------------------------------+____________________¦ +----------- Random number table generator ------------+¦____________________¦ ¦ ¦¦____________________¦ ¦ How many random numbers 60 ¦¦________________+-[_] Files Edit Search []-+__________¦454 712 771 345 042 124 978 077 899 904 914 680 374 784 925 ¦__________¦133 359 974 535 150 661 443 010 944 509 897 462 692 565 277 -__________¦487 622 044 787 542 892 801 795 586 689 510 109 682 209 261 ___________¦456 577 455 221 199 460 010 198 588 416 215 216 098 291 423 ___________¦ ___________¦ ___________¦ ___________¦ ___________¦ ___________¦ __________+-¤---- 5:2 ------________________________________________________-+_______________________________________________________________________¦¦¦¦¦¦_________________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:223680

73

(i) số được chọn đã được chọn từ trước

(ii) Số được chọn lớn hơn số lớn nhất có trong danh sách.

Bước 4:

Khảo sát số bên cạnh trong bảng số ngẫu nhiên và tiến hành như trong bước 2 và 3, số tiếp theo có thể được chọn bất kì chỗ nào trong bảng số ngẫu nhiên. Cách đơn giản nhất là đi xuống dọc theo cột (nếu hết cột này thì lại đếm qua cột bên cạnh) cho đến khi số nghiên cứu được chọn từ danh sách điều tra bằng với số mẫu cần thiết. Ðiểm cần lưu ý là chọn hàng và cột đầu tiên phải ngẫu nhiên.

Chọn mẫu ngẫu nhiên dùng chương trình Epi-InfoTrước tiên chúng ta vào chương trình Epitable, chọn trình đơn Sample rồi chọn trình đơn con Random number list (Bảng số ngẫu nhiên). Khi đó trên màn hình sẽ có kết quả như sau (Xem hình 3).

Nếu chúng ta muốn có danh sách gồm 50 số ngẫu nhiên trong phạm vi từ 1 đến 457 ta nhập giá trị 30 vào ô How many radom numbers; 1 vào ô Minimumrange of numbers và 457 vào ô Maximum range of number. Ta sẽ có kết quả sau:

_ Describe Compare Study Sample Probability Setup_________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________+--+-[_]-------- Random number List generator ------------++____________________¦ ¦ ¦¦____________________¦ ¦ How many random numbers 100 ¦¦____________________¦ ¦ Minimum range of numbers 0 ¦¦____________________¦ ¦ Maximum range of numbers 1000 ¦¦____________________¦ ¦ ¦¦____________________¦ ¦ [ ] Drawing with replacement ¦¦____________________¦ ¦ ¦¦____________________¦ ¦ Calculate _ Reset _ Quit _ ¦¦____________________¦ ¦ ____________ ____________ ____________ ¦¦____________________¦ ¦ ¦¦____________________+--+------------------------------------------------------++_______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________¦¦_____________________________________________________________________________¦¦¦¦___________________________________________________________________________¦¦¦¦¦¦_________________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:224504

74

Như vậy chúng ta sẽ chọn các đối tượng số 6, 10, 15, 22, ...., và 449 trong khung mẫu để đưa vào mẫu.

Ưu và khuyết của phương pháp lấy mẫu ngẫu nhiên đơn:

Phương pháp lấy mẫu ngẫu nhiên đơn đòi hỏi phải có danh sách của toàn bộ dân số khảo sát. Danh sách này có thể không có hoặc có nhưng không hoàn toàn và lỗi thời. Nếu không có được danh sách hay chi phí lập danh sách rất tốn kém thì không thể sử dụng phương pháp ngẫu nhiên được. Ðây là khuyết điểm chính của phương pháp lẫy mẫu này.

Tuy vậy, khi có hay khi có thể lập danh sách của toàn bộ dân số một cách dễ dàng thì phương pháp này là phương pháp lấy mẫu đơn giản và có tính đại diện cao.

2. Phương pháp lấy mẫu hệ thống:Thay vì rút chọn ngẫu nhiên người ta có thể chọn những đối tượng có một khoảng cách nhất định, phương pháp này được gọi là phương pháp rút chọn hệ thống. Thí dụ, lấy mẫu hệ thống là chọn các đối tượng mang số 8, 17, 26, 35, 44, 53, ... vào mẫu. Phương pháp lấy mẫu hệ thống cũng có giá trị như lấymẫu ngẫu nhiên nếu không có tính tuần hoàn của các đối tượng. Tuy vậy, cần biết rằng phương pháp mẫu ngẫu nhiên đơn luôn luôn tốt hơn bởi vì nó không cần thiết giả định này. Phương pháp lấy mẫu hệ thống đặc biệt có giá trị khi chúng ta không thể có được toàn bộ danh sách lấy mẫu ở vào thời điểm lấy mẫu. Thí dụ như chúng ta có thể lấy mẫu hệ thống để chọn những bệnh nhân có số hồ sơ nhập viện cách nhau một khoảng nhất định.

3. Phương pháp lấy mẫu phân tầngLấy mẫu phân tầng được dùng khi dân số bao gồm các nhóm khác biệt hay tầng (strata), khác nhau về các đặc tính nghiên cứu và bản thân sự khác biệt này cũng cần quan tâm. Những thí dụ thường gặp là các nhóm tuổi, nhóm giới tính hay những vùng địa lí hay sinh thái khác nhau trong quốc gia. Một mẫu ngẫu nhiên đơn được rút ra từ mỗi tầng để đảm bảo rằng chúng đủ đại diện. Ước lượng chung cũng sẽ chính xác hơn dựa vào phương pháp lấy mẫu ngẫu nhiên đơn không xét đến cấu trúc của các nhóm nhỏ trong dân số. Chiến lược thường dùdng là chọn các cá nhân trong tầng với tỉ lệ như nhau, nghĩa là có cùng chung một phân số lấy mẫu (sampling fraction) cho các tầng. Dù vậy, đôi khi cũng cần phải thay đổi để cỡ mâu của mỗi tầng không

_ Describe Compare Study Sample Probability Setup_________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________+--+------------ Random number List generator ------------++____________________¦ ¦ ¦¦____________________¦ ¦ How many random numbers 50 ¦¦____________________¦ ¦ Minimum range of numbers 1 ¦¦________________+-[_] Files Edit Search []-+__________¦ 6 10 15 22 35 43 ¦__________¦ 50 80 81 83 105 105 -__________¦ 126 157 158 164 191 194 ___________¦ 215 221 224 227 234 236 ___________¦ 243 243 255 256 283 285 ___________¦ 295 319 324 326 333 343 ___________¦ 347 355 369 377 378 384 ___________¦ 393 414 421 434 435 435 ___________¦ 447 449 ___________¦ __________+-¤--- 10:2 ------________________________________________________-+_______________________________________________________________________¦¦¦¦¦¦_________________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:223360

75

quá nhỏ.

Bảng 1. Kết quả một mẫu phân tầng được tiến hành để ước lượng tỉ suất bệnh hiện mắc của một bệnh trong một quốc gia có ba vùng địa lí chính. Tỉ suất bệnh hiện mắc chung được tính bằng cách cộng số các người bệnh ước lượng được trong mỗi vùng và chia cho tổng số dân (Câu hỏi thảo luận: Các tầng có cùng một phân số lấy mẫu hay không?)

Khu vực Dân số Cỡ mẫu Số bị bệnh Tỉ suất bệnh hiện mắc

tổng số bệnh ước lượng

Ðồng bằng ven biển

1500000 200 120 0,6 900000

Vùng núi 150000 50 5 0,1 15000

Bán hoang mạc 300000 50 15 0,3 90000

Tổng số 1950000 300 140 0,52* 1005000

Thí dụ: Người ta muốn ước lượng tỉ suất hiện mắc của một bệnh trong một quốc gia với 3 vùng sinh thái chính, vùng đồng bằng ven biển, vùng núi và vùng bán hoang mạc. Bởi vì dân số phân phối đồng đều trong quốc gia, và bởi vì người ta nghĩ rằng đặc trưng sinh thái có thể ảnh hưởng đến tỉ suất hiện mắc của bệnh, người ta chọn mẫu phân tầng. Bảng 1 trình bày kết quả thu được với tỉ suất mắc toàn bộ trong mỗi vùng.

Tỉ suất mắc toàn bộ chung được tính bằng cách ước lượng số người bị bệnh trong mỗi vùng. Thí dụ trong vùng đồng bằng ven biển tỉ suất hiện mắc của mẫu là 120/200 hay 0,6. Áp dụng số này cho tổng số dân số trong vùng đồng bằng ven biển cho số ước lượng 0,5 x 150.000 = 90.000. Số người bị bệnh của vùng núi và vùng hoang mạc được tính theo cách tương tự là 15000 và 90000. Tổng số người mắc bệnh trong toàn quốc gia là 1.050.000. Kích thước dân số là 1.950.000 cho nên tỉ số mắc toàn bộ chung là 1.050.000/1.950.000 = 0,52.

Lưu ý rằng con số này không giống với tỉ suất hiện mắc của mẫu là 140/300 = 0,47. Hai con số này chỉ giống nhau khi dùng phân số lấy mẫu giống nhau cho mỗi tầng (nhưng điều này không đúng trong trường hợp này). Việc tính toán sai số chuẩn của tỉ suất mắc hiện mắc cho toàn bộ dân số dựa trên sự kết hợp các sai số chuẩn của các tỉ suất hiện mắc của mỗi vùng. Có thể sử dụng phần mềm Epi-Info hoặc xem Moser và Kalton để biết thêm chi tiết.

4. Lấy mẫu cụmNếu chi phí phụ trội không nhiều, nên điều tra tất cả các đơn vị bậc hai từ một đơn vị bậc một được chọn trong lược đồ lấy mẫu hai bậc. Ðiều đó được gọi là lấy mẫu cụm (cluster sampling) và đơn vị lấy mẫu bậc một được gọi là cụm (cluster) trong trường hợp này. Có thể đạt được lược đồ xác suất bằng nhau bằng cách lấy mẫu ngẫu nhiên đơn các cụm bất kể chúng có kích thươc bằng nhau hay không.

Lấy mẫu cụm được dùng nếu có ích lợi được phân phát cho mọi người tham gia và nếu chỉ phân phát quyền lợi cho một số thành viên của đơn vị là không thích hợp và không đạo đức. Thí dụ, trog khi lấy mẫu trường để ước lượng tỉ suất hiện mắc của bệnh khi muốn sử dụng một phương pháp điều trị có hiệu quả cho tất cả người bị bệnh, người ta sẽ khám cho tất cả các học sinh trong các trường được chọn chứ không khám một mẫu trong đó.

5. Lấy mẫu nhiều bậcLấy mẫu nhiều bậc được tiến hành trong trong nhiều bậc dùng các cấu trúc đẳng cấp (hierarchical structure) của dân số. Thí dụ, lấy mẫu 2 bậc (two stage sampling) có thể bao gồm lần thứ nhất lấy một mẫu ngẫu nhiên các trường học và sau đó lấy mẫu ngẫu nhiên các trẻ em trong các trường đã được chọn. Các trường hợp được gọi là đơn vị bậc một (first stage units hay primary sampling units) và trẻ em là đơn vị bậc hai (second stage units - secondary sampling

76

units). Ưu điểm là tài nguyên có thể tập trung tại một số địa điểm và không cần cơ cấu lấy mẫu cho toàn dân số. Cần danh sách các đơn vị bậc một nhưng chỉ cần danh sách các đơn vị bậc hai của các đơn vị bậc một được chọn. Khuyết điểm là ước lượng chung kém chính xác hơn khi dựa trên lấy mẫu ngẫu nhiên đớn có cùng một cỡ mẫu. Nói cách khác, để đạt được cùng độ chính xác như lấy mẫu ngẫu nhiên đơn cần một cỡ mẫu lớn hơn.

Lấy mẫu ở bậc hai gồm lấy các mẫu ngẫu nhiên đơn có cùng kích thước từ các các đơn vị bậc một. Phương pháp lấy mẫu bậc một phụ thuộc vào chúng có cùng số các đơn vị lấy mẫu bậc hai hay không. Nếu có, có thể lấy mẫu ngẫu nhiên đơn. Nếu chúng có cỡ mẫu khác nhau, có thể đạt được lược đồ epsem, bằng cách lấy mẫu xác suất tỉ lệ với kích thước (probability proportional to size _ PPS). Thí dụ, nếu một trường học có nhiều gấp đôi học sinh so với trường kia thì nó có cơ hội được chọn gấp đôi. Lấy mẫu PPS được tiến hành bằng cách thay thế (with replacement), có nghĩa là sau khi một đơn vị bậc một được chọn nó vần còn được rút chọn và có thể được chọn lần nữa. Khi một đơn vị bậc một được chọn hai lần, chọn mẫu đơn vị bậc hai nhiều gấp đôi. Tác dụng chung là cho mỗi đơn vị bậc hai trong dân số một cơ hội được chọn bằng nhau.

Các bước tiến hành để lấy mẫu PPS được minh hạo trong ví dụ sau:

Giả sử chúng ta có 10 bệnh viện với số hồ sơ trong mỗi bệnh viện được trình bày trong bảng sau:

Cụm Số hồ sơ Số hồ sơ tích lũy

Số ngãu nhiên tương ứng

1 4288 4288 1-4288

2 5036 9324 4289-9324

3 1178 10502 9325-10502

4 638 11140 10503-11140

5 27010 38150 11141-38150

6 1122 39272 38151-39272

7 2134 41406 39273-41406

8 1824 43230 41407-43230

9 4672 47902 43231-47902

10 2154 50056 47903-50056

Tổng số 50056 50056

Ðể chọn 4 cụm và điều tra 100 hồ sơ trong mỗi cụm (như vậy tổng cỡ mẫu là 400 hồ sơ) có thể tuân theo các sau:

- Tính số hồ sơ lũy tích

- Gán một cụm cho các số ngẫu nhiên từ số hồ sơ lũy tích của cụm trước đó +1 đến số hồ sơ lũy tích của cụm đó.

- Rút chọn ngẫu nhiên 4 số từ 1 đến 50056: thí dụ như 36699; 35700; 11883; 4285 và ứng với mỗi số chọn 100 hồ sơ từ cụm tương ứng với các số này. Trong trường hợp này chúng ta sẽ điều tra 300 hồ sơ của bệnh viện 5 và 100 hồ sơ từ cụm số 1.

Cũng cần lưu ý chúng ta có thể chọn các số ngẫu nhiên bằng phương pháp lấy mẫu hệ thống như thường được thực hiện trong chương trình tiêm chủng mở rộng (EPI program).

Có thể có lược đồ lấy mẫu có nhiều bậc hơn, thí dụ như chọn tỉnh, quận, đường phố và cuối cùng là nhà. Phương pháp lấy mẫu này được gọi là lấy mẫu nhiều bậc (multi-stage sampling).

77

Thí dụ 2

Lấy mẫu phân tầng được đề nghị trong thí dụ 1 để ước lượng tỉ suất hiện mắc toàn bộ trong một quốc gia với 3 vùng chính có thể được cải tiến thành cộng đồng thứ nhất (thành phố, làng, ấp) và các nhà trong vùng, khám tất cả các thành viên trong nhà. Lược đồ sẽ là sự kết hợp giữa lấy mẫu phần tầng (khu vực) lấy mẫu hai bậc (cộng đồng và nhà) và lấy mẫu cụm (tất cả các thành viên trong nhà).

Lấy mẫu cụm Lấy mẫu phân tầng

Lấy mẫu hệ thốngLấy mẫu ngẫu nhiên đơn

78

Cách tính cỡ mẫu

Mục tiêuSau khi nghiên cứu bài này, hội thảo viên có khả năng:

(i) Hiểu được hai cách tiếp cận trong cách tính cỡ mẫu, bao gồm khái niệm về năng lực nghiên cứu

(ii) Biết được những yếu tố nào ảnh hưởng đến việc tính toán cỡ mẫu và ảnh hưởng như thế nào

(iiI) Biết được cách tính cỡ mẫu cho những tình huống khác nhau

(iv) Biết được ảnh hưởng của cỡ mẫu lên những khía cạnh thiết kế khác.

(v) Ðánh giá được những vấn đề khác của cỡ mẫu

Giới thiệuCỡ mẫu sẽ có ảnh hưởng lớn đến độ chính xác của ước lượng thống kê. Từ định lí giới hạn trung tâm chúng ta hi vọng rằng con số trung bình được ước lượng từ một mẫu sẽ tập trung tại trung bình của dân số đó. Tuy vậy chúng ta cũng biết rằng con số ước lượng sẽ không chính xác bằng trung bình của dân số đó mà mức độ phân tán phụ thuộc vào cỡ mẫu: Nếu cỡ mẫu nhỏ độ phân tán lớn, nếu cỡ mấu lớn thì độ phân tán nhỏ và ta hi vọng số trung bình của mẫu sẽ bằng trung bình của dân số. Người ta có thể trình bày mức độ phân tán theo khoảng tin cậy 95%. Nếu độ phân tán lớn thì khoảng tin cậy 95% sẽ rộng và chúng ta khó lòng thực sự biết được trung bình của dân số sẽ nằm ở đâu trong khoảng này. Nói rộng ra, nếu cỡ mẫu nhỏ chúng ta không thể ước lượng một cách chính xác, chúng ta không thể chứng minh sự khác biệt giữa hai nhóm là không có ý nghĩa.

Vấn đề xác định cỡ mẫu trong nghiên cứu khoa học là một vấn đề quan trọng. Nếu chúng ta lấy mẫu quá nhỏ, đến giai đoạn phân tích ta có thể thấy được điều đó qua sự không chính xác của uớc lượng, sự thất bại trong chứng minh giả thuyết. Tuy vậy khi chúng ta đã đi vào giai đoạn phân tích số liệu thì lúc đó là quá chậm trễ để có thể thay đổi được cỡ mẫu. Ngược lại nếu chúng ta lấy một cỡ mẫu quá lớn thì chúng ta rõ ràng lãng phì tiền bạc và thời gian.

Hai cách tiếp cận trong tính cỡ mẫuTrên cơ bản có hai cách tiếp cận trong tính cỡ mẫu:

(a) dựa tên sự ước lượng của một tỉ lệ, một trung bình, hiệu số, nguy cơ tương đối với một mức độ chính xác nhất định. Thí dụ, để ước lượng tỉ leẹ trẻ em trong lứa từ 12-23 tháng tuổi được tiêm chủng đầy đủ (với độ chính xác) trong vòng 10%. Câu hỏi chìa khóa của cách tiếp cận này là khoảng tin cậy sẽ là bao nhiêu?

(b) Dựa trên kiểm định giả thuyết. Thí dụ,so sánh thời gian bú sữa mẹ hoàn toàn ở 2 nhóm có giáo dục sức khỏe và nhóm chứng.Câu hỏi chìa khóa trong cách tiếp cận này là xác suất kết luận sai lầm trong kiểm định giả thuyết là bao nhiêu?

Ước lượng một hậu quả với một độ chính xác nhất địnhÐộ chính xác của một ước lượng (với khoảng tin cậy 95%) = d có nghĩa là sai số tối đa của ước lượng là d (với độ tin cậy 95% hay xác suất điều trên không bị sai là 95%)

Công thức tính cỡ mẫu để ước lượng khoảng tin cậy (1-) của một tỉ lệ p với sai số d là như sau:

Một thắc mắc hay nẩy sinh trong khi nghiên cứu công thức này là trong khi chúng ta muốn

79

nghiên cứu ước lượng p nhưng trong khi tính toán để tính cỡ mẫu chúng ta phải có giá trị của tỉ lệ p! Toàn bộ logic của vấn đề là ở chỗ chúng ta có thể ước lượng p trước lúc nghiên cứu một cách không chính xác, sau nghiên cứu chúng ta có thể ước lượng p một cách chính xác hơn nhiều. Ta có thể ước lượng p sử dụng phán đoán của chúng ta, sử dụng những nghiên cứu trước đó, có thể tiến hành nghiên cứu dẫn đường. Trong trường hợp chúng ta không thể ước đoán p, ta có thể ước đoán p =0,5, một ước đoán an toàn nhất và sẽ cho một cỡ mẫu an toàn nhất (lớn nhất).

Không có quy tắc cứng nhắc độ chính xác d, điều này phụ thuộc vào mục đích của nghiên cứu và vào tài nguyên hiện có.

Lưu ý:

- Công thức được trình bày là dành cho phép lấy mẫu ngẫu nhiên đơn. Nếu nghiên cứu sử dụng phương pháp lấy mẫu cụm cần phải hiệu chỉnh tác động làm giảm độ chính xác của việc chọn cụm bằng cách tăng cỡ mẫu. Cỡ mẫu trong nghiên cứu lấy mẫu cụm thường được nhân lên với một hệ số (được gọi là hệ số thiết kế) có giá trị từ 2 đến 4. Hệ số thiết kế có thể tính được từ việc nghiên cứu thử. Nếu không có điều kiện tính hệ số thiết kế có thể chọn hệ số thiết kế là 3.

- Công thức tính cỡ mẫu trên là dành lấy mẫu từ một dân số vô hạn hay khá lớn. Nếu cỡ mẫu vào khoảng từ 10% dân số trở lên, ta có thể điều chỉnh để có cỡ mẫu nhỏ hơn.

Với N là cỡ mẫu chưa hiệu chỉnh, P là kích thước của dân số đích và Nhc là cỡ mẫu sau khi đã hiệu chỉnh.

- Chúng ta cũng nên phải trù liệu cho những số liệu bị mất, những trường hợp từ chối nghiên cứư bằng cách tăng cỡ mẫu.

Kiểm định một giả thuyết, so sánh 2 nhómGiả sử chúng ta muốn so sánh hai tỉ lệ (thí dụ tỉ lệ trẻ em được bú sữa non trong hai nhóm bà mẹ: một nhóm được giáo dục sức khỏe và một nhóm không). Chúng ta có thể kiểm định xem hai tỉ lệnày có khác nhau đáng kể hay không, nói cách khác kiểm định xem hiệu số của hai tỉ lệ này có khác một cách có ý nghĩa với zero khay không. Sau khi tiến hành phân tích chúng ta có thể bác bỏ hay không bác bỏ giả thuyết này. Về phương diện thống kê, dù khi chúng ta bác bỏ hay không bác bỏ, chúng ta đều có khả năng bị sai lầm: sai lầm mà chúng ta mắc phải khi bác bỏ giả thuyết được gọi là sai lầm loại I, sai lầm chúng ta mắc phải khi không bác bỏ được gọi là sai lầm loại II.

Khi kiểm định H0: Không có sự khác biệt (p1=p2; OR=1 ; RR=1 ; =0)

Chân lí là Ho đúng(Không có sự khác biệt)

Chân lí là Ha đúng(Không có sự khác biệt)

Bác bỏ giả thuyết H0 Sai lầm loại 1(Xác suất = )

Kết luận đúng(Xác suất = 1- =Power của nghiên cứu)

Không bác bỏ giả thuyết H0 Kết luận đúng(Xác suất = 1-)

Sai lầm loại II(Xác suất = )

Lí tưởng, chúng ta muốn giảm thiểu cả hai loại sai lầm trong nghiên cứu. Lưu ý rằng chúng ta đã định nghĩa cái gọi là năng lực (power) của nghiên cứu=1-sai lầm loại II. Năng lực là xác suất đạt được kết quả có ý nghĩa thống kê nếu thực sự có sự khác biệt giữa p1 và p2. Mục tiêu của chúng ta khi chọn cỡ mẫu là nếu có sự khác biệt về lâm sàng quan trọng giữa hai nhóm, chúng ta có cơ hội tốt để tìm thấy sự khác biệt có ý nghĩa thống kê trong 2 nhóm. Ðiều này là một ý niệm hết sức quan trọng trong thiết kế nghiên cứu và lí giải. Nếu trong giai đoạn phân tích nếu kết quả

80

là có ý nghĩa thống kê, thì hầu hết mọi người đều thỏa mãn. Mặt khác nếu kết quả không có ý nghĩa thông kê thì điều này có thể xảy ra do (a) không có sự khác biệt thực sự giữa hai nhóm và (b) có sự khác biệt nhưng mẫu của chúng ta không cho thấy sự khác biệt bởi vì năng lực của mẫu thấp (cỡ mẫu nhỏ) do đó chúng ta không có kết luận rõ ràng. Do đó, nếu chúng ta chọn mẫu để có năng lực cao và kết quả không có ý nghĩa thống kê thì chúng ta có thể chắc hơn về sự khác biệt.

Ðể chọn cỡ mẫu (trong trường hợp cỡ mẫu của 2 nhóm so sánh bằng nhau), chúng ta phải có 4 tham số

- Sai lầm loại I hay còn gọi là mức ý nghĩa mà chúng ta muốn có trong nghiên cứu (thường là 5%)

- Sai lầm loại II chúng ta muốn có trong nghiên cứu (Sai lầm loại hai khoảng 10-20% tương ứng với năng lực từ 80-90%)

- Tỉ lệ trong một nhóm cơ bản (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm chứng của một nghiên cứu bệnh chứng)

- Tỉ lệ trong một nhóm khác (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm bệnh của một nghiên cứu bệnh chứng). Đôi khi chúng ta không trình bày tỉ lệ của nhóm này một cách cụ thể mà trình bày nguy cơ tương đối hay tỉ số số chênh mà chúng ta mong muốn phát hiện trong một nghiên cứu đoàn hệ hay nghiên cứu bệnh chứng.

Công thức tính cỡ mẫu (cho mỗi nhóm) để so sánh hai tỉ lệ 1 và 2 của hai nhóm:

Các điểm cần lưu ý trong tính cỡ mẫu- Như đã nói ở trên, cách tính cỡ mẫu chỉ cho chúng ta một ước lượng thô của cõ mẫu cần thiết bởi vì nó dựa trên sự ước đoán về giá trị của thông số, quyết định chủ quan của chúng ta về hậu quả mà chúng ta muốn phát hiện và công thức được sử dụng là công thức gần đúng. Do đó con số tính ra giúp chúng ta phân biệt giữa cỡ mẫu 50 và 100 chứ không phân biệt cỡ mẫu 50 và 53.

- Chúng ta phải cân đối giữa điều chúng ta mong muốn và tính khả thi. Ðôi khi có thể dùng công thức tính cỡ mẫu để đi ngược lại năng lực của nghiên cứu. Thí dụ nếu chúng ta có một kinh phí hạn chế để thực hiện một nghiên cứu nên chỉ có một cỡ mẫu nhất định. Chúng ta có thể tính ngược lại từ cỡ mẫu để biết năng lực của nghiên cứu. Nếu hóa ra năng lực của nghiên cứu rất thấp (thí dụ như 20%) tốt nhất chung ta không nên tiến hành nghiên cứu vì chúng ta đã nắm chắc kết quả thất bại.

- Nếu một nghiên cứu có nhiều mục tiêu thì cỡ mẫu đủ cho một mục tiêu này có thể không đủ cho mục tiêu khác. Ðể tính cỡ mẫu, tốt nhất phải chú trọng vào biến số (hoặc những biến số quan trọng nhất).

- Tính cỡ mẫu không khó, cái khó là phải cung cấp những giả định của nghiên cứu: sai lầm loại một, năng lực, sự khác biệt mà chúng ta muốn phát hiện.

Tính cỡ mẫu bằng phần mềm Epi Info:Ðầu tiên ta vào phần mềm Epitable bằng 1 trong 2 cách (giả sử thư mục chứa Epi Info trong là c:\epi6)

- Vào trực tiếp:c:\>c:\epi6\epitable <enter>

- Thông qua trình đơn chính của epi6c:\>c:\epi6\epi6 <enter>

Khi đã vào trình đơn chính của Epi6 chọn program Epitable trong trình đơn Programs bằng cách

81

dùng chuột hoặc nhấn Alt-P rồi kéo con trỏ xuống EPITABLE Calculator rồi nhấn <enter>

Sau đó chọn Samle size bằng cách dùng chuột hay nhấn Alt-S rồi di chuyển con trỏ vào sample size rổi nhấn <Enter>.

Chương trình Epi Info cho phép tính cỡ mẫu trong 4 trường hợp: Ước lượng một tỉ lệ (single proportion); So sánh 2 tỉ lệ trong hai nhóm (Two proportions); Nghiên cứu đoàn hệ (cohort study) và nghiên cứu bệnh chứng (Case-control study). Chọn loại thích hợp bằng cách di chuyển trỏ rồi nhấn <Enter>. Khi đó màn hình sẽ hiện lên một cửa số có nhiều trường. Trong cửa số này chúng ta có thể di chuyển con trỏ giữa các trường bằng cách nhấn phím <Tab> hoặc phím <Shift><Tab>. Nhập các giả định cần thiết vào các trường thích hợp. Di chuyển con trỏ đến ô Calculate, nhấn <Enter> để xem kết quả tính toán.

Lưu ý: Trong cách tính cỡ mẫu ước lượng một tỉ lệ, chúng ta thấy có một tham số Design effect. Tham số dùng để điều chỉnh nếu chúng ta lấy mẫu theo cụm. Do đó nếu ta lấy mẫu ngẫu nhiên đơn thì Design effect=1. Nếu chúng ta lấy mẫu theo cụm thì tham số này sẽ lớn hơn 1 và độ lớn cụ thể thì phụ thuộc vào mức độ không đồng nhất giữa các cụm.

Nếu chúng ta lấy mẫu theo cụm thì chọn Design effect là bao nhiêu? Thông thường chúng ta có thể tham khảo các nghiên cứu trước hoặc làm nghiên cứu pilot để xác định mức độ không đồng nhất. Nếu chúng ta có kinh nghiệm chúng ta có thể dùng trực giác để phán đoán design effect. Nếu chúng ta không có kinh nghiệm, không tìm được tài liệu tham khảo và không thể tiến hành nghiên cứu pilot, chúng ta chọn Design effect = 2 để có cỡ mẫu đảm bảo an toàn (Design effect hiếm khi nào lớn hơn 2).

_ Describe Compare Study Sample Probability Setup

_____________________________ +----------------------+ _________________________

_____________________________ ¦ Sample size > ¦ _________________________

_____________________________ ¦ Power calculation > ¦ _________________________

_____________________________ ¦ Random number table ¦ _________________________

_____________________________ ¦ Random number list ¦ _________________________

_________+------------------- +----------------------+ -------------+___________

_________¦ ¦___________

_________¦ _____¦ _¦ _¦ __¦ __¦ ¦___________

_________¦ _¦ _¦ _¦ _¦ ¦___________

_________¦ _¦ _¦___¦ __¦ ____¦ ___¦ _¦ _¦ ___¦ ¦___________

_________¦ ___¦ _¦ _¦ _¦ _¦ _¦ ____¦ _¦ _¦ _¦ ¦___________

_________¦ _¦ _¦ _¦ _¦ _¦ ____¦ _¦ _¦ _¦ _____¦ ¦___________

_________¦ _¦ ____¦ _¦ _¦_¦ _¦ _¦ _¦ _¦ _¦ _¦ ¦___________

_________¦ _____¦ _¦ ___¦ _¦ ___¦_¦ _¦___¦ ___¦ ___¦ ¦___________

_________¦ ___¦ ¦___________

_________¦ ¦___________

_________+----------------------------------------------------------+___________

________________________________________________________________________________

________________________________________________________________________________

____________________________________________________________________¦¦__________

___________________________________________________________________¦¦¦¦_________

__________________________________________________________________¦¦¦¦¦¦________

_________________________________________________________________¦¦¦¦¦¦¦¦_______

F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:228552

82

Thí dụThí dụ 1: Cho một nghiên cứu bệnh chứng, sử dụng những giả định sau để tính cỡ mẫu cho từng trường hợp

Năng lực của nghiên cứu = 90%; mức ý nghĩa = 5%; 1 bệnh cho một chứng

% chứng tiếp xúc với yếu tố nguy cơ

OR 5% 20% 50% 70% 90%

1.5 2346

2 244

5 46

10 50

1. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu bệnh chứng và khi nào không.

2. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%, mức ý nghĩa =5% OR= 2 và tỉ lệ tiếp xúc với yếu tố nguy cơ là 30%. Hãy tính cỡ mẫu khi có 1 chứng: 1 bệnh; 2 chứng: 1 bệnh; 3 chứng: 1 bệnh.

Thí dụ 2: Cho một nghiên cứu đoàn hệ, sử dụng những giả định sau để tính cỡ mẫu cho từng trường hợp

Năng lực của nghiên cứu = 90%; mức ý nghĩa = 5%; nhóm có tiếp xúc= nhóm không tiếp xúc

tỉ suất mắc bệnh trong nhóm không tiếp xúc với yếu tố nguy cơ

RR 0,1% 1% 5% 15% 30%

1.5 108,904

2 3300

3 207

5 15

1. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu đoàn hệ và khi nào không.

2. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%, mức ý nghĩa =5% OR= 2 và tỉ suất mắc bệnh là 5%. Hãy tính cỡ mẫu khi có nhóm không tiếp xúc = nhóm tiếp xúc; nhóm không tiếp xúc = 2 nhóm tiếp xúc; nhóm không tiếp xúc = 3 nhóm tiếp xúc

Thí dụ 3: Phòng y tế huyện A. muốn kiểm tra báo cáo về tỉ lệ tiêm chủng của một xã là 80% bằng cách tiến hành một cuộc điều tra (với sai số tuyệt đối dưới 5%, độ tin cậy = 95%). Nếu phòng y tế quyết định chọn mẫu bằng phương pháp chọn mẫu ngẫu nhiên thì cỡ mẫu cần thiết là bao nhiêu? Nếu chọn theo cụm thì cỡ mẫu cần thiết là bao nhiêu?

83

Chiến lược phân tích số liệu

1. Giới thiệuChúng ta đã biết qua những kĩ thuật thống kê chuyên biệt cho các tình huống dịch tễ nhất đinh. Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu của rất nhiều các biến số, rất khó quyết định thao tác nào được áp dụng và áp dụng theo trình tự như thế nào. Trong phần này, chúng ta sẽ trình bày một số nguyên tắc chiến lược để phân tích số liệu từ nghiên cứu dịch tễ.

2. Biên tập số liệuKiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân tích thống kê. Bước đầu tiên là xem sự phân phối của từng biến số để phát hiện các sai lầm có thể. Đối với biến số phân loại, điều này thực hiện bằng bảng phân phối tần suất để xem rằng các bản ghi đều ở trong các nhóm đã được xác định và tần suất của mỗi nhóm là hợp lí. Đối với biến số định lượng, kiểm tra phạm vi cần được tiến hành để phát hiện những giá trị nằm ngoài phạm vi mong đợi. Tổ chức đồ cũng có thể dùng để tìm kiếm các giá trị bất thường (outliers) không phù hợp với phần số liệu còn lại.

Bước tiếp theo là tiến hành kiểm tra tính hàng định, để tìm kiếm những trường hợp mà 2 hay nhiều biến số là không hằng định. Thí dụ, nếu có 2 biến số giới tính và số lần mang thai trong bộ số liệu, chúng ta có thể sử dụng bảng chéo để chắc rằng không có người nam giới nào có số lần mang thai là một hay nhiều hơn. Phân tán đồ cũng có thể được sử dụng để kiểm tra tính hằng định của số liệu số; thí dụ chúng ta có thể vẽ phân tán đồ của trọng lượng theo tuổi, trọng lượng theo chiều cao, dung tích sống theo chiều cao. Những giá trị bất thường cũng có thể được phát hiện bằng cách này.

Những sai sót có thể được kiểm tra so với tài liệu gốc. Trong một số trường hợp cần phải điều chỉnh lại số liệu. Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value) nếu chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi sinh là 45 kg và đã tăng cân 35kg trong thời gian có thai). Trong trường hợp còn chưa rõ, khi số liệu là bất thường nhưng không bị xem là không thể xảy ra, tốt nhất là để số liệu giữ nguyên. Một cách chặt chẽ, việc phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá mức vì giá trị cực đoan này. Trên thực tiễn, giá trị bằng số thường được chia thành các nhóm trước khi phân tích và do đó một hay hai giá trị bất thường khó có thể có ảnh hưởng đáng kể đến kết quả.

Việc kiểm tra cần phải được tiến hành riêng biệt cho nhóm mắc bệnh và nhóm không mắc bệnh bởi vì phân phối của 2 nhóm này có thể hoàn toàn khác nhau.

3. Mô tả số liệuSau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát lại. Điều này được thực hiện cho 2 mục đích. Thứ nhất, để đảm bảo rằng tất cả các số liệu đều đã được sắp xếp phù hợp và thứ hai để có một cảm giác về số liệu. Cảm giác vế số liệu là sự hiểu biét về đặc tính của dân số đối với biến số phơi nhiễm và các giá trị khác cần đo lường. Khi thực hiện nghiên cứu bệnh chứng, chúng ta cần phải xem xét số liệu một cách riêng biệt.

4. Phân loại biến sốNói chung sẽ rất hữu ích nếu chúng ta phân biệt các loại biến số "kết cuộc", "phơi nhiễm", "gây nhiễu" và "thay đổi tác động". Biến số kết cuộc và biến số phơi nhiễm là các biến số trung tâm của nghiên cứu trong đó biến số kết cuộc mô tả vấn đề nghiên cứu và biến số phơi nhiễm là biến số mà chúng ta muốn xem xét và ước lượng tác động của nó lên biến số kết cuộc.

Biến số gây nhiễu là biến số làm biến dạng quan hệ giữa biến số phơi nhiễm và két cuộc. Chúng ta thu thập số liệu của các biến số gây nhiễu để loại bỏ tác động của yếu tố gây nhiễu trong khi

84

phân tích. Biến số thay đổi tác động là biến số thay đổi tác động của biến số phơi nhiễm lên nguy cơ. Chúng ta thu thập số liệu của các biến số thay đổi tác động để xem xét tác động của biến số phơi nhiễm lên nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác động.

Trên thực tiễn, mối liên hệ giữa các biến số có thể phức tạp hơn. Thí dụ một biến số có thể gây nhiễu tác động của một yếu tố phơi nhiễm cần quan tâm nhung bản thân nó có thể là biến số phơi nhiễm quan tâm. Một biến số khác có thể gây nhiễu cho một biến sô phơi nhiễm này nhưng làm thay đổi tác động cho một biến số phơi nhiễm khác.

Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò, số liệu của biến số này có thể trở thành biến số phơi nhiễm quan trọng hoặc nếu nó không trở thành biến số phơi nhiễm quan trọng, nó có thể được xem là biến số gây nhiễu hay thay đổi tác động.

5. Rút gọn số liệuTrước khi bắt đầu phân tích chính thức, có thể vần phân nhóm giá trị của các biến số. Bởi vì phương pháp "cổ điển" dựa trên việc phân tầng là cần thiết cho giai đoạn đầu của nghiên cứu, việc phân nhóm là quan trọng cho các biến số liên tục. Việc phân nhóm cũng cần thiết cho biến số phân loại hay biến số rời rạc nếu các biến số này có chứa một số lớn các nhóm (thí dụ như nghề nghiệp, số lần mang thai). Số nhóm được phân chia phụ thuộc vào từng loại biến số: đối với biến số phơi nhiễm cần phân chia thành nhiều nhóm hơn đối với biến số gây nhiễu hay biến số thay đổi tác động.

Đối với biến số phơi nhiễm, khi chúng ta muốn xem xét sự phụ thuộc của nguy cơ vào mức độ phơi nhiễm (quan hệ liều lượng – đáp ứng), chúng ta sẽ mắc sai lầm nếu chúng ta sử dụng quá ít nhóm. Nguyên tắc chung là nhóm không phơi nhiễm nên đặt riêng (thí dụ nhóm không hút thuốc) và nhóm phơi nhiễm nên chia thành nhiều nhóm (thường là 4 hay 5 nhóm là đủ để có thể xem xét mối quan hệ liều lượng đáp ứng). Đối với biến số liên tục như tăng huyết áp, có thể chia các giá trị của biến số làm 5 nhóm có tần suất bằng nhau (được gọi là quintiles – ngũ vị). Điều này giúp cho độ chính xác của ước lượng tác động lên mỗi nhóm nhưng đôi khi có thể sai lầm do nếu có một ít đối tượng có mức phơi nhiễm rất cao bị ghép chung với các đối tượng có độ phơi nhiễm vừa phải. Một cách khác là chọn các điểm cắt dựa trên nền tảng của các nghiên cứu trước đó, mục đích là xác định các nhóm mà nguy cơ tương đối ít thay đổi trong từng nhóm.

Đối với biến sô gây nhiễu, hai hay ba nhóm là đủ đối với phần lớn các yếu tố gây nhiễu. Dù vậy nếu biến số gây nhiễu mạnh (thí dụ như tuổi) thì có thể phân thành nhiều nhóm hơn. Trước khi quyết định số nhóm cần dùng trong phân tích, chúng ta có thể đánh giá sức mạnh quan hệ giữa biến số gây nhiễu và biến số kết cuộc. Nếu sự quan hệ này là yếu thì chúng ta có thể kết hợp nhiều nhóm lại với nhau.

6. Đo lường tác độngCó các lựa chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Các lựa chọn bao gồm:

Thiết kế nghiên cứu Đo lường tần suất bệnh Đo lường tác động

Đoàn hệ (người thời gian) Tỉ suất Tỉ số tỉ suất

Hiệu số tỉ suất

Đoàn hệ (không có số liệu người thời gian)

Nguy cơ

Số chênh

Tỉ số nguy cơ

Hiệu số nguy cơ

Tỉ số số chênh

Hiện mắc Tỉ lệ hiện mắc Tỉ số nguy cơ (hiện mắc)

Hiệu số nguy cơ

85

Số chênh Tỉ số số chênh

Bệnh chứng Tỉ số số chênh

Đối với nghiên cứu đoàn hệ, nếu có số liệu về người thời gian phơi nhiễm, tỉ suất mới mắc thường là số đo tần suất được chọn lựa và tỉ số tỉ suất là số đo tác động được chọn lựa.

Đối với nghiên cứu đoàn hệ dựa trên nguy cơ và cho nghiên cứu bệnh hiện mắc, tỉ số nguy cơ sẽ được xem là dễ lí giải hơn tỉ số số chênh. Tuy nhiên tỉ số số chênh thường được sử dụng do tính chất thống kê của các thao tác dựa trên tỉ số số chênh là tốt hơn. Bởi vì hồi quy logistic thường được sử dụng để ước lượng tỉ số số chênh, tỉ số số chênh cũng được sử dụng do nó cho kế quả hằng định với kết quả của phân tích hồi quy logistic.

Trong nghiên cứu bệnh chứng, tỉ số số chênh thưưòng được dung để đo lường tác động mặc dù nó có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất, phụ thuộc vào phương pháp chọn lựa nhóm chứng.

7. Phân tích đơn biếnThông thường nên bắt đầu với phân tích thô đơn biến, sử dụng các phương pháp cổ điển để xem xét sự liên quan giữa kết cuộc và các yếu tố phơi nhiễm quan tâm và bỏ qua các biến số khác. Mặc dù phân tích này sẽ bị thay thế bởi các phân tích phức tạp hơn và có xem xét đến tác động của các biến số khác, phân tích đơn biến vẫn có ích lợi vì:

i) xem xét các bảng phân tích đơn cho người nghiên cứu những thông tin hữu ích về bộ số liệu; thí dụ nó có thể cho thấy có rất ít bản ghi hay rất ít trường hợp tử vong ở một nhóm phơi nhiễm nhất định.

ii) Nó cho chúng ta khái niệm ban đầu về các biến số có thể liên quan mạnh đến kết cuộc

iii) Mức độ thay đổi của ước lượng tho so với ước lượng khi các biến số khác được đưa vào để sử dụng trong phân tầng flà một chỉ số quan trọng để đánh giá sự hiện diện của yếu tố gây nhiễu.

Khi phơi nhiễm có trên 2 mức độ, một mức độ phơi nhiễm được chọn làm mức nền. Thông thường người ta chọn mức nền là mức không có phơi nhiễm (hoặc phơi nhiễm ít nhất nếu ai đó đều bị phơi nhiễm ít nhiều). Tuy nhiên nếu nhóm này có ít người thì ước lượng sẽ có sai số chuẩn lớn và chúgn ta có thể có lợi khi chọn nhóm lớn hơn làm nền tảng. Phânt ích phơi nhiễm với 2 hoặc hơn các mức độ (cả khi phân tích thô và phân tích phân tầng) sẽ bao gồm:

i) Các bảng 2x2, so sánh các mức độ phơi nhiễm với nhóm nền

ii) Xem xét các ước lượng của tác động có theo một khuynh hướng nào hay không?

iii) Nếu phù hợp, thực hiện một kiểm định khuynh hướng (test for trend) để tìm bằng chứng về sự tăng giảm nguy cơ theo mức độ phơi nhiễm tăng dần.

8. Kiểm soát các yếu tố gây nhiễuYếu tố gây nhiễu hiện diện ít nhiều trong các nghiên cứu quan sát và cần phải thực hiện loại bỏ các yếu tố gây nhiễu trong các phân tích của biến số phơi nhiễm quan tâm. Chúng ta đã có 2 công cụ cho nhiệm vụ này: phương pháp cổ điển (Mantel-Haenszel) dựa trên phân tầng và phương pháp mô hình hoá với các phương trình hồi quy.

Chúng ta nên dùng phương pháp cổ điển trong bước đầu của phân tích vì các lí do sau:

i) Các bảng số liệu đơn giản giúp nhà nghiên cứu có liên hệ với số liệu. Ngược lại, phương trình hồi quy là một hộp đen có thể gây ra những sai số tai họa khi mô hình hoá.

ii) Phương pháp cổ điển đòi hỏi ít giả định nên có thể phát hiện được các mối liên quan phức tạp. Phương pháp mô hình hoá có thể bỏ qua một số tương tác.

Tuy nhiên phương pháp cổ điển gập khó khăn khi có một số lớn các biến số gây nhiễu và khi

86

muốn kiểm soát các yếu tố gây nhiễu này đồng thời thì do sự hiện diện của quá nhiều tầng sẽ khiến cho số liệu của mỗi tầng trở thành quá nhỏ và sẽ khiến sức mạnh thống kê bị kém và khoảng tin cậy của ước lượng sẽ rộng ra.

Mặc dù vậy, nếu phương pháp cổ điển được áp dụng một cách sáng suốt sẽ cho một ước lượng có giá trị và loại bỏ các sai lệch do yếu tố gây nhiễu gây ra. Điều này đúng cho hầu hết các loại nghiên cứu ngoại trừ nghiên cứu bệnh chứng bắt cặp cá nhân trong đó kĩ thuật phân tầng cổ điển có rất ít giá trị.

Chúng ta đã thấy rằng phương pháp hồi quy cho tác động của hai biến số phân loại có giả định giống như giả định trong phương pháp phân tầng và do đó cho kết quả hoàn toàn đồng nhất. Phương trình hồi quy ngoài ra còn có một số lợi ích sau:

i) Giả định rằng không có tương tác giữa các biến số gây nhiễu, chúng ta có thể làm giảm số tham số cần thiết

ii) Có thể xác định được tác động của từng biến số, được kiểm soát cho tác động của các biến số khác.

iii) Có thể xem xét tác động liều lượng hậu quả một cách linh hoạt hơn.

9. Cách đưa vào biến số gây nhiễui) Thông thường sẽ có hai hay ba biến số đượccho là các biến số gây nhiễu quan trọng (những biến số này đuợc gọi là biến số gây nhiễu trù định - a priori confounders) những bCác biến số này thường là tuổi và một hay hai yếu tố nguy cơ quan trọng của bệnh và được cho là có thể có liên quan đến biến số phơi nhiễm quan tâm. Theo các quy tắc chung, những biến số này phải được kiểm soát trong phân tích.

ii) Chúng ta có xem xét các biến số có thể gây nhiễu khác. Kiểm soát từng biến số một và xem có làm thay đổi con số ước lượng tác động hay không.

iii) Đôi khi chỉ có môt hoặc hai biến số gây nhiễu có làm thay đổi ước lượng tác động. Khi đó phân tích cuối cùng thưc hiện việc kiểm soát các biến số gây nhiễu trù định với các biến số gây nhiễu bổ sung có tác động. Không cần thiết phải đưa tất cả các biến số tất cả các biến số gây nhiễu bổ sung vào phân tích cuối cùng bởi vì một số biến số gây nhiễu không làm thay đổi ước lượng tác động của biến số phơi nhiễm quan tâm nếu đã được kiểm soát cho các biến số gây nhiễu khác.

Nếu có 3 hay ít hơn các biến số gây nhiễu thì chỉ cần sử dụng phương pháp cổ điển là đủ. Trong trường hợp này, lần lượt phân tầng cho từng biến số và sau đó phân tầng cho đồng thời các biến số để xem các ước lượng tác động thay đổi như thế nào. Chiến lược này đủ để loại bỏ hầu hết các ảnh hưởng gây nhiễu.

Khi số các biến số gây nhiễu là quá lớn và không thể kiểm soát bằng phương pháp phân tầng đơn thuần, phương trình hồi quy (giả định không có hay chỉ có ít tương tác giữa các biến số gây nhiễu) sẽ có giá trị.

Bước đầu tiên của phương pháp mô hình là lập lại những phân tích đơn giản và kiểm tra xem kết quả có phù hợp với phân tích phân tầng đơn giản hay không. Điều này giúp chúng ta tránh được các sai lầm tai hoạ do sử dụng phương pháp hộp đen. Sau đó có thể xây dựng các mô hình phức tạp hơn bao gồm:

- Biến số phơi nhiễm hoặc các biến số phơi nhiễm quan tâm

- Tất cả các biến số được cho là yếu tố gây nhiễu từ trước (yếu tố gây nhiễu trù định)

- Tất cả các biến số khác được cho là có thể gây nhiễu và số liệu cho thấy có tác động gây nhiễu đáng kể.

Tránh việc đưa vào các biến số không phải là yếu tố gây nhiễu cho bệnh đặc biệt là nếu biến số này có liên quan mạnh đến phơi nhiễm quan tâm bởi vì nó sẽ tạo ra sai số chuẩn lớn và khiến ước lượng kém chính xác.

87

Cần lưu ý rằng các biến số được xem là gây nhiễu phụ thuộc một phần vào quyết định trù định (a priori decision) và một phần vào mức độ của ước lượng bị thay đổi sau khi kiểm soát cho yếu tố gây nhiễu đó. Chúng ta hoàn toàn không dựa vào kết quả của kiểm định ý nghĩa. Do đó các nhà thống kê và dịch tễ hang đầu thường không khuyến cáo sử dụng phương pháp hồi quy từng bước (stepwise) trong phân tích dịch tễ.

10. Phân tích tương tácHồi quy là một công cụ rất phù hợp cho phân tích sự tương tác. Có 3 loại tương tác cần được phân biệt

i) tương tác giữa các biến số gây nhiễu

Sự khác biệt chính giữa phương pháp mô hình hoá và phương páp cổ điển là phương pháp cổ điển cho phép xem xét sự tương tác giữa các biến số gây nhiễu. Điều may mắn là trên thực thế, hầu như không bao cần xem xét sự tương tác giữa các biến số gây nhiễu.

ii) Tương tác giữa biến số gây nhiễu và biến số phơi nhiễm chúng ta quan tâm:

Trên lí thuyết thống kê, việc tính toán con số ước lượng tác động chính xác, sau khi hiệu chỉnh cho các yếu tố gây nhiễu chỉ cần thiết nếu tác động là đồng nhất ở các mức khác nhau của yếu tố gây nhiễu. Tuy nhiễn trên thực tế, có thể là tác động sẽ thay đổi ít nhiều giữa các nhóm gnhĩa là ít nhiều có sự tương tác của phơi nhiễm quan tâm và yếu tố gây nhiễu được kiểm soát trong phân tích. Khi có sự hiện diện đáng kể của tương tác, tác động đặc hiệu của từng tầng phải được báo cáo.

iii) Tương tác giữa các biến số phơi nhiễm quan tâm

Nếu có sự tương tác giữa các biến số phơi nhiễm quan tâm thì điều này là rất quan trọng cho việc lí giải khoa học của kết quả phân tích và cho việc ứng dụng các can thiệp dự phòng.

Tuy nhiên việc tích cực tìm kiếm sự tương tác với tất cả các biến số có thể là không có ích lợi. Kiểm định thống kê cho sự tương tác được chứng minh là có lực rất kém và nếu chúng ta lần lượt tìm kiếm sự tương tác có ý nghĩa thống kê của tất cả các biến số sẽ dễ dàng bỏ qua những tương tác thực sự và tình cờ đưa ra các phát hiện giả tạo. Chúng ta cũng nên nhớ rằng mục tiêu của nghiên cứu dịch tễ là tìm ra một bức trạnh đơn giản nhưng chân thật và hữu dụng của thực tế. Nếu có tương tác yếu, bản thân điều này không có ý nghĩa quan trọng lắm cho nên việc tính toán ước lượng gộp của tác động cho từng phơi nhiễm là sự xấp xỉ hợp lí cho sự thật.

Vì những lí do này, nên trì hoãn việc phân tích tương tác vào giai đoạn cuối của phân tích và chỉ nên xem xét tương tác phơi nhiễm-phơi nhiễm và phơi nhiễm-gây nhiễu, đặc biệt chú ý đến những yếu tố tương tác trù định đáng được nghiên cứu. Nên xem xét từng yếu tố tương tác một để tránh những mô hình quá phức tạp với nhiều tham số.

11. Nghiên cứu bệnh chứng bắt cặpPhân tích bệnh chứng đúng cách sẽ kiểm soát các tác động gây nhiễu do biến số bắt cặp. Tuy nhiên nếu có những biến số gây nhiễu khác không được bắt cặp sẽ có thể là biến số gây nhiễu.

Việc phân tầng có thể được sử dụng để kiểm soát những yếu tố gây nhiễu bổ sung nếu chúng ta chú ý rằng các tập hợp của ca bệnh và chứng (các tầng) phải đồng nhất về phương diện yếu tố gây nhiễu quan tâm. Điều này sẽ khiến cho các tầng này có rất ít số liệu nên sẽ tạo ra các ước lượng kém tin cậy. Có hai cách để giải quyết vấn đề này:

1. Sử dụng hồi quy logistic có điều kiện. Cách tiếp cận này rất ích lợi cho phép sử dụng toàn bộ số liệu và phân tích nhiều yếu tố gây nhiễu cùng một lúc, mặc dù điều này đòi hỏi thêm các giả định.

2. Nếu bệnh và chứng chỉ được bắt cặp dựa trên các biến số đã được đo lường trong nghiên cứu (thí dụ như tuổi và giới), cách tiếp cận khác là phá vỡ việc bắt cặp và phân tích số liệu như là nghiên cứu bắt cặp tần suất. Trong trường hợp này, tuổi và giới sẽ được kiểm soát như là một

88

tầng trong phân tích. Chúng ta có thể sử dụng phương pháp phân tầng hay hồi quy logistic không điều kiện để tiếp tục phân tích.

12. Những trở ngại trong phân tích và lí giải số liệuNếu chúng ta có một nghiên cứu thử nghiệm ngẫu nhiên lớn so sánh 2 can thiệp. Sự so sánh đã được thiết lập trong đề cương nghiên cứu và đã được thống nhất trước khi nghiên cứu được tiến hành. Nếu nghiên cứu đủ lớn thì việc ngẫu nhiên hoá sẽ đảm bảo 2 nhóm cân bằng với nhau về tất cả các biến số gây nhiễu và việc phân tích kết quả sẽ rất đơn giản.

Nghiên cứu dịch tễ thường gặp thường có liên quan đến nhiều biến số, ngay cả khi chúng ta đã xác định biến số phơi nhiễm quan tâm từ trước. Sự khác biệt trong việc quyết định phân nhóm số liệu và chiến lược mô hình hoá sẽ cho những kết luận có thể rất khác biệt.

Có nhũng quan điểm khác nhau về cách xử lí số liệu từ các nghiên cứu thăm dò. Những lí do cho sự cẩn trọng trong phân tích và lí giải số liệu bao gồm:

(i) Nhiều so sánh:

Ngay cả khi không có sự liên quan giữa biến phơi nhiễm và kết cuộc, chúng ta sẽ hi vọng sẽ có 1 trong 20 so sánh sẽ có ý nghĩa thống kê ở mức 5%. Do đó lí giải mối liên quan trong nghiên cứu mà tác động nhiều yếu tố phơi nhiễm được đo lường sẽ cần phải cẩn thận hơn trong một nghiên cứu với một giả thuyết được trù định từ trước. Tìm kiếm tất cả các liênq uan với một biến số kết cuộc được các nhà thống kê gọi là "nạo vét số liệu"

(ii) Phân tích từng nhóm nhỏ:

Cần phải đặc biệt cẩn thận khi lí giải kết quả về sự liên quan "biểu kiến" trong các nhóm số liệu, đặc biệt là khi không có bằng chứng về mối liên quan chung. Chúng ta thường dễ bị cám dỗ và cho rằng đó là một kết quả lí thú của nghiên cứu, nhất là khi nếu loại bỏ nó ra nghiên cứu này là một nghiên cứu âm tính.

(iii) So sánh được chỉ định do kết quả phân tích

Chúng ta không nên phân nhóm số liệu để có thể tạo ra một sự khác biệt thống kê rồi lí giải giá trị p này như thể giá trị p này là của một so sánh có trù định. Thí dụ nếu chúng ta có 10 nhóm tuổi và chúng ta so sánh nhóm tuổi 1 với nhóm 2, nhóm 3, …, nhóm 10 rồi so sánh nhóm tuổi 1 và 2 với nhóm 3, 4,…10 và tiếp tục. Chúng ta có 9 so sánh như vậy và sau đó chúng ta sẽ chọn cách so sánh nào có sự khác biệt nhiều nhất và có ý nghĩa thống kê nhất giữa nhóm trẻ và nhóm già. Cách này là cách so sánh chỉ định do kết quả phân tích. Lẽ ra chúng ta phải quyết định việc phân nhóm càng sớm càng tốt trước khi xem sự khác biệt trong phân nhóm tuổi ảnh hưởng đến kết luận của nghiên cứu.

Điều này không có nghĩa là tất cả các nghiên cứu dịch tễ phải có giả thuyết nghiên cứu và phương pháp phân tích được chỉ định từ trước khi tiến hành thu thập số liệu. Việc lí giải kết quả phải bị ảnh hưởng bởi việc phân tích. Nếu chúng ta tìm được một mối liên quan có ý nghĩa trong 50 mối liên quan được kiểm định thì điều này sẽ phải được khẳng định rõ rang. Chúng ta chỉ nên xem mối liên hệ này chỉ nhằm tạo ra giả thuyết để được kiểm định trong tương lai.

89

Cài đặt chương trình Stata 8.0 và số liệu mẫu

1. Cài đặt chương trình StataCó nhiều cách để cài đặt chương trình Stata. Dưới đấy sẽ trình bày cách cài đặt chương trình Stata 8.0 khi có đĩa CD của bộ môn Thống kê Y học.

- Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:)

- Vào thư mục Statistic softwares của đĩa CD

- Tìm tập tin Stata8Setup.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc khởi động cài đặt trong vòng vài giây.

Và tiếp theo, cửa sổ chào mừng (Welcome) sẽ hiện ra

Nhấp vào nút lệnh Next để sang cửa sổ tiếp theo. Cũng tiếp tục làm như vậy cho 2 cửa sổ tiếp theo (Choose Destination Location, Ready to Install) để tiến hành việc cài đặt

90

Sau khi cài đặt, cửa sổ Finished sẽ hiện ra. Lúc này có thể nhấp vào nút lệnh Close để kết thúc.

2. Cài đặt tập tin số liệu mẫuĐể có thể thực tập các bài tập có trong tài liệu này, các bạn nên cài đặt các tập tin số liệu. Việc cài đặt cũng được thực hiện bằng cách sử dụng đĩa CD của bộ môn Thống kê Y học.



- Tìm tập tin StataData.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc khởi động cài đặt trong vòng vài giây.

Tiếp theo là cửa sổ Choose Destination Location sẽ hiện ra.

Nếu muốn cài đặt số liệu vào thư mục khác hãy nhấp vào nút lệnh Browse trong khung Destination Directory để chọn thư mục cài đặt rồi nhấp vào nút lệnh Next. Nếu chấp nhận thư mục cài đặt mặc định là C:\DATA, hãy nhấp vào nút lệnh Next để tiếp tục.

Khi đó chương trình sẽ tiếp tục thực hiện việc cài đặt và tự chấm dứt.

3. Cài đặt chương trình chuyển đổi số liệuĐôi khi chúng ta có số liệu được nhập bằng chương trình Epi-Info 6.04, Epi-Info for Windows, Access hay Excel nhưng chúng ta lại muốn phân tích số liệu bằng Stata chúng ta cần phải sử dụng chương trình chuyển đổi số liệu như DBMSCopy for Win hay StatTransfer. Sau đây là hướng dẫn cài đặt chương trình StatTransfer 7.0 sử dụng đĩa CD của của bộ môn Thống kê Y học.



91

- Tìm tập tin StatTransfer7Setup.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc khởi động cài đặt trong vòng vài giây.

Tiếp theo các cửa sổ Welcome, Choose Destination Location, Ready to Install sẽ hiện ra. Ở tất cả các cửa số này bạn nên nhấp vào nút lệnh Next để tiếp tục. Sau khi nhấp vào nút lệnh Next của cửa sổ Ready to Install, chương trình sẽ cài đặt.

Sau khi cài đặt chương trình StatTransfer, cửa sổ Finished sẽ hiện ra. Lúc này có thể nhấp vào nút lệnh Close để kết thúc.

Khi cài đặt các chương trình StatTransfer và Stata theo cách trên, 2 chương trình này sẽ nằm trong MediStat trong “All Programs” của Windows.

92

Khởi động và kết thúc Stata

1. Khởi động StataĐể khởi động Stata trong Windows XP hãy thực hiện

Nhấp chuột vào Start

Nhấp chuột vào “All Programs”

Di chuyển chuột thư mục MediStat và

Nhấp chuột vào mục Stata 8

Hoặc nếu đã có biểu tượng của Stata trên desktop của máy tính có thể khởi động Stata bằng cách

nhấp đúp chuột vào biểu tượng của Stata 8 (Stata icon)

Người dùng sẽ nhìn thấy màn hình như sau khi khởi động Stata 8.0

93

Nếu màn hình Stata không khởi động được, nguyên nhân thông thường nhất là người sử dụng chưa đăng kí và mở khoá để sử dụng Stata. Trong trường hợp này người sử dụng cần liên hệ với công ty Stata để có được số hiệu (serial number) mã chương trình (code) và chìa khoá chủ quyền (Authorization key). Cũng có thể xảy ra trường hợp người sử dụng đã mở khoá rồi nhưng do vô ý đã xoá file Stata.lic. Trong trường hợp này có thể chép lại tập tin Stata.lic của người đã có khóa hợp lệ.

2. Kiểm tra tính hợp lệ của StataTrong lần khởi động Stata đầu tiên, bạn có thể muốn kiểm tra rằng bạn đã cài đặt đúng. Hãy gõ lệnh verinst và bạn sẽ thấy kết xuất tương tự như sau:. verinst

You are running Stata/SE 8.0 for Windows.

Stata is correctly installed.

You can type exit to exit Stata.

Lệnh verinst là một lệnh cần nhớ. Giả sử nếu chúng ta thay đổi cấu hình của máy tính và không biết mình đã làm tổn thương cho Stata hay không, chúng ta có thể gõ verinst để được trấn an rằng Stata vẫn còn được cài đặt đúng.

3. Thoát khỏi StataĐể thoát khỏi Stata/SE 8.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau:

- Nhấp vào ô đóng nằm ở phía trên phải của cửa sổ Stata

Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng chưa được lưu vào đĩa thì khi chúng nhấp vào ô đóng, máy tính sẽ hỏi chúng ta rằng

94

chúng ta có muốn thoát mà không lưu lại số liệu hay không. Nếu chúng ta đồng ý thì Stata sẽ thoát, nếu không thì chúng ta lại trở lại Stata để chúng ta có thể lưu lại số liệu.

- Gõ lệnh exit trong cửa sổ Stata Command.

Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng chưa được lưu vào đĩa thì khi chúng gõ exit, máy tính sẽ không đồng ý cho chúng ta thoát và sẽ thông báo “no; data in memory would be lost”. Trong trường hợp này nếu chúng muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit, clear. Nếu chúng ta muốn lưu lại số liệu hãy sử dụng lệnh save.

4. Các loại hình của StataCó một số loại hình của Stata chạy trên các hệ điều hành khác nhau: Stata cho Windows 98/95/NT, Stata cho Windows 3.1, Stata cho Power Macintosh, Stata cho 680x0 Macintosh, Stata cho Linux, Stata cho RS/6000, v.v. Tuy nhiên bất kể bạn dùng loại hình Stata nào, Stata vẫn là Stata và bạn có thể sử dụng cùng một câu lệnh và Stata sẽ cho ra cùng một kết quả, chính xác đến số lẻ tận cùng.

Ngay cả các tập tin cũng có thể chia xẻ. Thí dụ tập tin số liệu, tập tin chương trình, tập tin đồ hoạ của Stata cho Macintosh có thể dùng trên các máy tính khác mà không cần phải chuyển đổi.

5. Stata nhỏ, Intercooled Stata và Stata bản đặc biệt (Stata SE)Stata cho Windows và Stata cho Macintosh có hai kiểu: Stata nhỏ và Intercooled Stata (trên hệ điều hành Unix chỉ có Intercooled Stata). Cả hai kiểu Stata này đều có những nét chung nhưng Intercooled Stata có thể làm việc với tập tin dữ liệu lớn hơn và nhanh hơn. Tuỳ theo loại máy Intercooled Stata có thể nhanh hơn Stata nhỏ từ 50 đến 600%.

Sau đây là sự khác biệt giữa về giới hạn kích thước giữa Intercooled Stata và Stata nhỏ

Stata nhỏ Intercooled Stata

Số quan sát 1.000 Tuỳ thuộc vào bộ nhớ

Số các biến số 99 2.047

Chiều rộng số liệu 200 8.192

Kích thước ma trận tối đa 40 800

Số kí tự trong một macro 1.000 18.632

Số kí tự trong một dòng lệnh 1.100 18.648

Tại sao Intercooled Stata chạy nhanh hơn Stata nhỏ? Điều này là do sự khác biệt trong việc lập chương trình. Thí dụ để có tích số của các ma trận RZR’, Intercooled Stata sẽ sử dụng bộ nhớ để có thể ghi nhớ kết quả tạm thời là ma trân T=RZ rồi sau đó tính TR’. Stata nhỏ do không có thể sử dụng nhiều bộ nhớ nên phải tính toán trực tiếp RZR’, và do đó một số kết quả trung gian phải tính toán lại nhiều lần và điều này làm Stata nhỏ bị chậm .

Dù sao, sự khác biệt của Intercooled Stata và Stata nhỏ mang tính kĩ thuật và nội bộ, đối với người dùng, việc sử dụng Intercooled Stata và Stata nhỏ không có gì khác biệt. Nếu Stata đã được cài đặt và bạn muốn biết bạn đang dùng Stata gì thì có thể gõ lệnh about:

. about

Stata/SE 8.0 for Windows

Born 30 Jan 2003

95

Copyright (C) 1985-2003

Total physical memory: 261616 KB

Available physical memory: 37056 KB

Single-user Stata for Windows perpetual license:

Serial number: 196201410

Licensed to: Do Van Dung

Univ of Medicine & Pharm

Như vậy, chúng ta đang sử dụng Stata Phiên bản đặc biệt 8.0 cho Windows.

96

Mô tả ngắn gọn về StataStata là một bộ phần mềm thống kê để quản lí, phân tích và vẽ đồ thị của số liệu.

Stata có thể chạy trên nhiều hệ điều hành nhưng bất kể ở hệ điều hành nào, Stata c ó thể cho phép điều khiển bởi dòng lệnh (command-driven) và điều khiển bằng menu (menu-driven)khác với SPSS chỉ được phép điều khiển bằng menu (menu-driven). Sau đây là một đoạn sử dụng Stata với

. use "C:\Program Files\STATA8\auto.dta", clear

. summarize mpg weight


---------+-----------------------------------------------------

mpg | 74 21.2973 5.785503 12 41

weight | 74 3019.459 777.1936 1760 4840

Ở đây người dùng gõ vào summarize mpg weight và Stata trả lời bằng một bảng thống kê mô tả. Một số lệnh khác có thể tạo ra kết quả khác:

. correlate mpg weight

(obs=74)

| mpg weight

---------+------------------

mpg | 1.0000

weight | -0.8072 1.0000

. gen w_sq=weight^2

. regress mpg weight w_sq

Source | SS df MS Number of obs = 74

---------+------------------------------ F( 2, 71) = 72.80

Model | 1642.52197 2 821.260986 Prob > F = 0.0000

Residual | 800.937487 71 11.2808097 R-squared = 0.6722

---------+------------------------------ Adj R-squared = 0.6630

Total | 2443.45946 73 33.4720474 Root MSE = 3.3587

mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]

---------+--------------------------------------------------------------------

weight | -.0141581 .0038835 -3.646 0.001 -.0219016 -.0064145

w_sq | 1.32e-06 6.26e-07 2.116 0.038 7.67e-08 2.57e-06

_cons | 51.18308 5.767884 8.874 0.000 39.68225 62.68392

Số liệu của Stata, tương tự như của phần lớn các phần mềm thống kê khác, được mô tả dưới dạng là một bảng với các hàng là các đối tượng và các cột là các biến số:

. list mpg weight in 1/10

mpg weight

1. 22 2,930

2. 17 3,350

3. 22 2,640

4. 20 3,250

5. 15 4,080

6. 18 3,670

7. 26 2,230

97

8. 20 3,280

9. 16 3,880

10. 19 3,400

Trong đó các quan sát được đánh số và các biến số được đặt tên (như mpg, weight, v.v)

Stata có đặc điểm là chạy rất nhanh. Tốc độ nhanh một phần là do chương trình được viết hết sức khôn khéo và một phần là do Stata giữ số liệu trong bộ nhớ. Tương tự như winword: khi làm vieej số liệu được nạp vào trong bộ nhớ và được phân tích, biến đổi mà không ảnh hưởng gì đến số liệu được giữ trong đĩa cứng. Do đó chúng ta có thể thoải mái làm việc mà không sợ bị ảnh hưởng lên số liệu gốc trừ khi chúng ta ra lệnh cho Stata ghi số liệu trở lại vào đĩa.

Do số liệu được đưa vào bộ nhớ nên kích thước của số liệu bị giới hạn bởi kích thước bộ nhớ. Do đó khi chúng ta làm việc với số liệu có kích thước lớn chúng ta cần dành nhiều bộ nhớ cho Stata. Thông thường 32 megabyte bộ nhớ được dành cho Stata và ta có thể tăng lượng bộ nhớ dành cho Stata bằng cách dùng lệnh set memory. Nếu chúng ta muốn dành cho Stata 64 megabyte hãy gõ: set memory 64m

Nếu muốn chúng ta có thể biết được lượng bộ nhớ tự do bằng cách gõ vào: memory. Để Stata có thể hoạt động tối ưu, sau khi đã nạp số liệu nên còn khoảng 1 megabyte bộ nhớ tự do.

98

Lệnh more

1. Mô tảKhi chúng ta gõ một câu lệnh và Stata có một câu trả lời dài quá một cửa sổ màn hình chúng ta sẽ thấy—more-- ở cuối màn hình. Khi đó chúng ta có thể:

Gõ phím trắng để xem câu trả lời ở màn hình kết tiếp

Gõ l (chữ el-lờ) hay Enter để xem dòng tiếp

Gõ q để ngưng hiện ra câu trả lời --Break--

more—là cách của Stata để cho biết rằng nó còn tiếp tục trả lời nhưng nó cũng có ý là nói còn có những thông tin khác để đẩy các thông tin có sẵn trên màn hình đi.

Nếu chúng ta gõ set more off thì—more—sẽ không bao giờ hiện ra và câu trả lời của Stata sẽ trôi nhanh hết tốc độ. Nếu chúng ta gõ lại set more on thì—more—sẽ được phục hồi trở lại.

Trong do-file chúng ta thường sử dụng lệnh set more off bởi vì chúng ta không quan tâm đến sự tương tác với kết quả và muốn Stata thực hiện càng nhanh càng tốt nhằm kết quả được đưa vào log-file và file này sẽ được đọc sau. Trong do file nếu chúng ta muốn chương trình dừng tại một nơi nào đó, chúng ta có thể thêm lệnh more vào chương trình. Khi chương trình gập lệnh này nó sẽ dừng lại và đợi chúng ta đánh Enter, phím trắng hay q dù rằng cửa số kết xuất có đầy hay chưa.

99

Thông báo lỗi và mã phản hồi

1. LỗiKhi có một lỗi xảy ra, Stata tạo ra một thông báo lỗi và một mã trả về. Thí du:

. list myvar

no variables defined

r(111);

Chúng ta yêu cầu Stata liệt kê giá trị của biến myvar. Stata trả lời bằng thông báo “no variables defined” và dòng thông báo “r(111)”

“no variables defined” là thông báo lỗi (error message).

111 được gọi là mã trả về (return code).

Trong chế độ tương tác, tất cả các lỗi đều được tha thứ. Nghĩa là sau khi ra thông báo lỗi và mã trả về, Stata xem như lỗi chưa hề xảy ra.

Trong chế độ chương trình khi có một lỗi xảy ra, do-file sẽ ra thông báo lỗi và mã trả về đồng thời với việc ngưng thực hiện ngay lập tức.

Thí dụ, xem do-file sau đây:------------------------------------------------- đầu của myfile.do----------------

use auto

decribe

list

------------------------------------------------- cuối của myfile.do---------------

Lưu ý dòng số hai - chúng ta muốn mô tả (describe) nhưng lại gõ sai là decribe. Sau đây là những gì xảy ra khi chúng ta thực hiện do-file bằng cách gõ do myfile:

(1978 Automobile Data)

. do myfile

. use auto

(1978 Automobile Data)

. decribe

unrecognized command: decribe

r(199);

Decribe tạo ra thông báo lỗi và mã trả về 111. Điều này sẽ làm chấm dứt việc thực hiện do-file và khi đó lệnh list (dù rằng đúng) vẫn không được thực hiện.

2. Bỏ qua lỗi lầm trong lập trìnhThí dụ một câu lệnh có thể là đúng trong một tập số liệu A nhưng lại là sai ở một tập số liệu B. Và những lỗi như vậy có thể được tiên liệu từ trước: Trong trường hợp đó nếu câu lệnh không lỗi thì chúng ta cứ tiếp tục, nếu có lỗi thì chúng ta mở tập số liệu A ra.

Như vậy người lập trình có thể yêu cầu Stata không ra thông báo lỗi bằng cách dùng lệnh capture. Nhờ có thể đọc trực tiếp mã trả về và biết có lỗi xảy ra hay không và lỗi gì, lập trình viên có thể có những hành động thích hợp.

3. Mã trả về để biết thời gian tính toánNgoài thông báo lỗi và mã trả về, Stata còn có thể có thông báo trả về (return message) cho biết thời gian thực hiện một lệnh và thời điểm lệnh đó hoàn thành. Thông thường thì Stata không cung cấp thông báo trả về trừ khi chúng ta yêu cầu bằng lệnh set rmsg on.

100

Thí dụ nếu bạn gõ sum mpg, bạn sẽ thấy. sum mpg


---------+-----------------------------------------------------

mpg | 74 21.2973 5.785503 12 41

Nếu chúng ta đã gõ lệnh ở đâu đó trong chương trình

. set rmsg on

thì Stata sẽ trình bày thông báo trả về như sau:. sum mpg


---------+-----------------------------------------------------

mpg | 74 21.2973 5.785503 12 41

r; t=0.11 7:52:45

Dòng “r; t=0.11 7:52:45” là thông báo trả về cho biết thời gian Stata thực hiện lệnh này là 0,11 giây và lệnh này hoàn thành lúc 7 giờ 52 sáng.

Nếu chúng ta không muốn xuất hiện thông báo trở về nữa, chúng ta hãy gõ:. set rmsg off

101

Phím break

1. Làm Stata ngưng thực hiện việc đang làmKhi chúng ta muốn Stata ngưng thực hiện việc nó đang làm và trả về dấu chấm nhắc (dot prompt), chúng ta nhấn phím Control-Break (Thường được viết là ^Break hay Ctrl-Break). Việc này được thực hiện bằng cách nhấn và giữ phím Ctrl và đồng thời nhấn phím Pause/Break.

Nếu bạn nhấn ^Break trong khi chúng ta đang gõ một dòng lệnh, Stata sẽ bỏ qua dòng lệnh đó bởi vì bạn đã ở trong tình trạng kiểm soát.

Nếu bạn nhấn ^Break khi Stata đang làm điều gì đó thì Stata sẽ ngưng việc đang làm, trở về trạng thái cũ và đưa ra một dấu chấm nhắc. Ở trạng thái cũ có nghĩa Stata hoàn trả lại tình trạng như là bạn chưa hề ra câu lệnh. Tuy nhiên có hai trường hợp ngoại lệ:

1. Nếu bạn đang đọc số liệu từ đĩa bằng các lệnh insheet, infile, hay infix, thì khi bạn nhấn ^Break Stata sẽ ngưng công việc nhưng bạn không trở về trạng thái cũ mà các số liệu đã đọc sẽ còn lại trong bộ nhớ. Điều này là có ích nếu bạn muốn xem xét quá trình nhập số liệu có đúng hay không trước khi bạn nhập vào toàn bộ. Nếu không bạn có thể gõ lệnh drop _all

2. Nếu số liệu đang được sắp xếp cho biến số sex và bạn muốn sắp xếp lại cho biến số age . Giả sử trong khi Stata đang sắp xếp cho age thì bạn đổi ý kiến và nhấn ^Break. Khi đó số liệu sẽ không còn sắp xếp cho age và cũng không còn sắp xếp cho sex nữa: nó ở trạng thái không sắp xếp (unsorted).

2. Điểm cần lưu ý trong lập trìnhCó những trường hợp trong chương trình bạn muốn chương trình phải thực hiện toàn bộ một nhóm lệnh mà không ngừng bởi vì nếu ngừng số liệu ở ở trạng thái bất định. Trong trường hợp này Stata cung cấp cấu trúc:

no break {

. . .

}

102

Sử dụng bàn phím trong Stata

1. Bàn phímVì Stata được điều khiển theo dòng lệnh (command-driven) nên bàn phím là rất cần thiết trong việc sử dụng ngoại trừ 2 trường hợp sau:

Để có được những câu lệnh mà chúng ta đã nhập từ trước, chúng ta có thể nhấn các phím PgUp và PgDn. Ngoài ra chúng ta có thể đưa con chuột đến dòng lệnh đó trong cửa sổ hồi kiểm (review window) và nhấp để nạp câu lệnh đó vào cửa sổ dòng lệnh.

Chúng ta có thể sử dụng các phím chức năng (F-keys) có các ý nghĩa đặc biệt và chúng ta có thể thay đổi các định nghĩa này tuỳ theo sở thích của chúng ta.

2. Phím chức năngStata mặc định các phím chức năng các ý nghĩa sau:

F-keys

F1 help

F2 #review;

F3 describe;

F7 save

F8 use

Dấu chấm phẩy (;) ở sau #review và describe chỉ định rằng các phím này đã bao gồm phím Enter

help gọi hướng dẫn của Stata - nếu chúng ta muốn có hướng dẫn về một lệnh nào đó (thí dụ như lệnh summarize) chúng ta có thể gõ help summarize hoặc nhấn F1, rồi gõ summarize và nhấn Enter.

#review là câu lệnh nhằm hiển thị một số câu lệnh bạn vừa sử dụng. Bạn có thể gõ vào #review rồi Enter hoặc bạn có thể nhấn F2

describe là câu lệnh yêu cầu Stata báo cáo nội dung số liệu có trong bộ nhớ. Thông thường bạn có thể gõ describe rồi Enter hoặc nhấn F3

save nhằm lưu lại số liệu trong bộ nhớ vào trong tập tin. Cần lưu ý cú pháp của save là sau nó phải có tên tập tin. Chúng ta có thể gõ câu lệnh hoặc nhấn F7 rồi gõ tên tập tin.

use, ngược lại, nhằm đưa số liệu từ tập tin vào bộ nhớ. Sau use cũng phải có tên tập tin.

Bạn có thể thay đổi những định nghĩa mặc định này, thí dụ nếu bạn muốn F3 có nghĩa là summarize bạn có thể gõ:

. global F3 "summarize"

Cần lưu ý ở trên F3 là chữ F và số 3 chứ không phải là phím F3. Lưu ý F là chữ in hoa và có khoảng trống giữa global và F3 cũng như có khoảng trống giữa F3 và “summarize “

Sau chữ summarize nên có một dấu trắng khi cần có thể nhanh chóng gõ vào tên các biến số cần được summarize

Nếu chúng ta muốn gán phím F5 để summarize tất cả các biến số ta có thể gõ:. global F5 "summarize;"

Như vậy chúng ta có hai cách để tóm tắt tất cả các biến số : (1) nhấn F3 và sau đó nhấn Return hoặc (2) nhấn F5. Dấu chấm phẩy (;)ở cuối định nghĩa của F5 sẽ thay chúng ta nhấn phím Return.

Nếu chúng ta muốn thay đổi định nghĩa của F3 và F5 mỗi khi chúng ta khởi động Stata, chúng ta có thể gõ hai lệnh trên mỗi khi chúng ta vào Stata. Cách khôn ngoan hơn là gõ 2 lệnh này trong

103

một tập tin văn bản, đặt tên là profile.do và đặt trong thư mục “khởi động”. Stata sẽ thực hiện các lệnh trong profile.do mỗi khi nó được thực hiện.

3. Phím hiệu chỉnhNgười dùng Windows sẽ có quyền sử dụng những phím hiệu chỉnh tiêu chuẩn của Windows. Cho nên Stata cho Windows sẽ hiệu chỉnh những gì bạn gõ vào một cách tư nhiên như một cửa sổ hiệu chỉnh tiêu chuan.

Hơn nữa, bạn có thể đưa các câu lệnh từ cửa sổ Review vào cửa sổ Command. Nhấp vào một lệnh ở cửa sổ Review sẽ nạp lệnh đó và cửa sổ Command, và bạn có thể hiện chỉnh nó. Nếu bạn nhấp đúp vào một lệnh ở cửa sổ Review, nó sẽ nạp là thực hiện lệnh đó ngay.

Một cách khác để nạp các lệnh ở cửa sổ Review là dùng phím PgUp và PgDn. gõ PgUp và Stata sẽ nạp lệnh cuối cùng bạn vừa gõ lên cửa sổ Cọmmand. Gõ PgUp thêm lần nữa nó sẽ nạp thêm lệnh trước đó và tiếp tục. Gõ PgDn có tác dụng ngược lại.

Một phím hiệu chỉnh khác làm phím Esc, phím này có tác dụng xoá sạch cửa sổ Command.

Tóm lại:

Gõ Hiệu quả

PgUp Đi lùi từng lệnh và chuyển các lệnh từ cửa sổ Review sang cửa sổ Command

PgDn Đi tới từng lệnh và chuyển các lệnh từ cửa sổ Review sang cửa sổ Command

Esc Xoá cửa sổ Command

104

Khởi động Stata

1. Khởi động StataKhởi động chương trình STATA bằng cách nhấp vào nút Start :: All Programs :: Medistat ::

Stata 8 hoặc nhấp vào biểu tượng (icon) Stata 8 trên màn hình Desktop.

2. Mô tả giao diện của chương trình StataGiao diện của Stata sẽ hiện ra với 3 thanh và 4 cửa sổ:

3 thanh bao gồm:

1. Thanh tiêu đề với dòng chữ "Intercooled Stata 6.0"

2. Thanh menu với các menu File (đóng mở tập tin); Edit (hiệu chỉnh); Prefs (Tùy chọn); Data (Số liệu) Graphics (Đồ họa) Statistics (Thống kê) User (Người dùng) Window (mở ra các cửa sổ) và Help (Trợ giúp)

3. Thanh công cụ (toolbar)

Thanh công cụ gồm 12 nút công cụ (1- Open file; 2- Save; 3- Print Results; 4- Begin (Close) log; 5- Start Viewer (Bring Viewer to Front) ; 6- Bring results window to Front 7-Bring graph windows to Front; 8- Do-file Editor; 9-Data Editor; 10-Data Browser; 11-Clear - more - Condition và 12- Break)

Ý nghĩa của từng công cụ như sau:

1- Open file (mở tập tin)

2- Save (Lưu tập tin)

3- Print Results (In kết quả)

4- Begin (Close) log: (Bắt đầu (Kết thúc) ghi biên bản kết quả)

5- Start Viewer (Bring Viewer to Front) : Bắt đầu sử dụng cửa sổ Viewer

6- Bring results window to Front : (Đưa cửa sổ kết quả ra trước)

7-Bring graph windows to Front (Đưa cửa sổ đồ họa ra trước)

8- Do-file Editor: (Biên soạn tập tin chương trình - do file)

9-Data Editor: Biên tập số liệu (sửa chữa, thêm bớt số liệu)

10-Data Browser: Duyệt số liệu (xem nhưng không sửa chữa)

11-Clear - more - Condition (Xóa lệnh more để tiếp tục thực hiện chương trình)

12- Break: (Ngưng tập tin chương trình)

Bốn cửa sổ liệt kê theo ngược chiều kim đồng hồ bao gồm

105

1. Cửa sổ Command (cửa sổ lệnh)

2. Cửa sổ Result (cửa sổ Kết quả)

3. Cửa sổ Review (cửa sổ Lưu trữ)

4. Cửa sổ Variables (cửa số Biến số)

3. Cách cách để thực hiện lệnh trong chương trình StataCó hai cách để thực hiện lệnh trong chương trình Stata: Dùng bàn phím để gõ lệnh vào cửa sổ lệnh (Stata Command) hay sử dụng con trỏ chuột để chọn các trình đơn (menu) giao diện đồ họa (Graphic Interface)

Dùng bàn phím để gõ lệnh

Dùng bàn phím để gõ lệnh vào cửa sổ lệnh (Stata Command). Đây là cách sử dụng Stata của người chuyên nghiệp vì nó cho phép thực hiện tất cả các lệnh của Stata một cách nhanh chóng với đầy đủ các chức năng phụ của lệnh. Tuy nhiên phương pháp này có thể không thích hợp cho người mới sử dụng do nó đòi hỏi người dùng phải thuộc các câu lệnh và cú pháp của nó

Con trỏ chuột với giao diện đồ họa (Graphic Interface)

Có thể dùng chuột thực hiện các lệnh nhằm thao tác số liệu (menu Data), vẽ đồ thị (menu Graphics) và phân tích số liệu (menu Statistics). Phương pháp sử dụng chuột và menu là phương pháp dễ sử dụng nên sẽ được ưu tiên trình bày trong tài liệu này.

4. Lưu lại kết quả phân tíchKết quả của phân tích được thể hiện trên cửa sổ Stata Result và cửa sổ này có một thanh trượt dọc cho phép xem lại những kết quả phân tích cũ. Tuy nhiên để tránh gây nhầm lẫn cho người phân tích, cửa sổ này chỉ lưu lại những kết quả gần nhất. Do đó nếu chúng ta muốn lưu trữ lại toàn bộ kết quả phân tích chúng ta cần phải mở cửa sổ log bằng cách nhấp vào nút công cụ Stata

Log nằm vị trí thứ tư từ trái ở trên thanh công cụ . Khi đó cửa sổ Open Stata Log mở ra, chúng ta có thể nhập tên của tập tin lưu trữ (log file) vào hộp văn bản File name.

106

Giả sử chúng ta chọn tập tin này là "baitap.smcl" hãy gõ "baitap" vào hộp File Name rồi nhấp OK.

Khi đó trên cửa số kết quả (Stata results) sẽ hiện ra thông báo để cho biết rằng biên bản kết quả phân tích sẽ được lưu tại tập tin "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl"

. log using "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl"

------------------------------------------------------------------------------

log: D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl

log type: smcl

opened on: 10 Oct 2004, 12:01:34

Sau đó bạn có thể thực hiện các bước phân tích.

Khi muốn xem lại biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log một lần nữa để hiện ra cửa sổ Stata Log Options.

Sau đó chọn vào nút chọn View snapshot of log file và nhấp vào nút lệnh OK để xem biên bản.

Khi muốn chấm dứt việc ghi biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log để hiện ra cửa sổ Stata Log Options.

107

Sau đó chọn vào nút chọn Close log file và nhấp vào nút OK.

Lời khuyên: Người sử dụng Stata có kinh nghiệm sau khi mở tập tin số liệu luôn luôn mở tập tin log trước khi tiến hành các phân tích thống kê để không bỏ mất các kết quả của quá trình phân tích.

108

Mô tả số liệu với Stata 8.0 for WindowsChương này sẽ hướng dẫn bạn phương pháp mô tả số liệu với phần mềm Stata 8.0 sử dụng bộ số liệu ivf.dta có trong thư mục C:\DATA sau khi bạn cài đặt các tập tin số liệu mẫu.

Thông thường trước khi mô tả số liệu chúng ta cần thực hiện bước chuẩn bị và việc thao tác số liệu (data processing). Công tác chuẩn bị bao gồm việc mở tập tin số liệu, mở tập tin log (Open log file), khảo sát số liệu có bao nhiêu bản ghi và có những biến số nào cũng như nghiên cứu đề cương nghiên cứu (chủ yếu là mục tiêu nghiên cứu) để giúp việc phân loại biến số. Việc thao tác số liệu là việc rà soát số liệu có bị sai sót hay nhầm lẫn gì hay không, tạo biến số mới theo yêu cầu của phân tích và tiến hành việc dán nhãn số liệu để giúp cho việc hiểu rõ hơn số liệu và đọc kết quả của phân tích thống kê.

Trước tiên chúng ta hãy khởi động Stata theo cách đã hướng dẫn ở chương Khởi động Stata. Sau đó thực hiện các bài tập 1 đến 3 cho công tác chuẩn bị và các bài tập 4 đến 6 cho công tác thao tác số liệu.

1- Mở tập tin ivf_v.dta và mở tập tin log

Khởi động cửa sổ Use New Data bằng cách 1 trong 2 cách:

- Nhấn nút công cụ mở file ( vị trí đầu tiên trên thanh công cụ).

- Chọn menu File :: Open

Sau khi cửa sổ Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa thích hợp và dùng con chuột nhấp vào các thư mục để chọn thư mục có chứa số liệu (thông thường tập tin số liệu nằm ở thư mục C:\Data). Tìm tập tin số liệu ivf_v.dta, nhấp đúp vào tên tập tin này để mở tập tin (hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi sau đó nhấp vào nút lệnh Open để mở tập tin).

Để lưu trữ lại toàn bộ kết quả phân tích sẽ được thực hiện, cần nhớ nhấp vào nút công cụ Stata

109

Log nằm vị trí thứ tư từ trái ở trên thanh công cụ để bắt đầu log kết quả (begin log). Máy tính sẽ hiện ra hộp thoại Begin Logging Stata Output để chúng ta chọn tên tập tin (File name) và thư mục lưu (Save In) của tập tin log.

Thí dụ chúng ta muốn lưu tập tin log với tên là ivf_v.smcl vào thư mục c:\data; chúng ta nhập vào các thông tin như trên.

2. Khảo sát các biến số của tập tin và nghiên cứu mục tiêu nghiên cứu để phân loại biến số

Hướng dẫn: Để xem liệt kê các biến số chúng ta có thể nhấn phím chức năng F3 hay sử dụng menu (nhấp vào menu Data :: Describe data :: Describe variable in memory) để xem các biến số của số liệu

Chúng ta có thể xem danh sách các biến số liệt kê ở sau:

110

. describe

Contains data from C:\DATA\ivf_v.dta

obs: 641

vars: 7 15 Aug 2006 15:27

size: 20,512 (99.8% of memory free)

-------------------------------------------------------------------------------

storage display value

variable name type format label variable label

-------------------------------------------------------------------------------

maso float %9.0g ma so

tuoime float %9.0g tuoi me (nam)

tangha float %9.0g tang huyet ap thai ki - 1=tang

ha, 0=khong tang ha

tuoithai float %9.0g tuoi thai (tuan)

gioi float %9.0g gioi tinh tre - 1=trai, 0=gai

tlsosinh float %9.0g trong luong so sinh (gram)

nghenghiep float %9.0g nghe nghiep me - 1=tu do,

2=cong nhan, 3=vien chuc

-------------------------------------------------------------------------------

Sorted by: maso

Giả sử từ đề cương nghiên cứu chúng ta biết đây là tập tin của số liệu 641 đứa trẻ được sinh từ bà mẹ thụ thai trong ống nghiệm (in-vitro fertilisation) với mục tiêu nghiên cứu là xem tuổi thai và tăng huyết áp trong thai kì có ảnh hưởng lên trọng lượng thai hay không. Cách lí giải số liệu được minh họa

STT Tên biến Ý nghĩa của biến Phân loại biến số:

(Độc lập hay Phụ thuộc) – (Định tính hay định lượng)

1 Maso Mã số

2 Tuoime Tuổi của mẹ (năm tuổi)

3 Tangha Tăng huyết áp thai kì 1= có 0= không

4 Tuoithai Tuổi thai (tính theo tuần)

5 Gioi Giới tính của trẻ 1=trai 0=gái

6 Tlsosinh Trọng lượng sinh tính theo grams

7 Nghenghiep Nghề nghiệp của mẹ 1=tự do 2=công nhân 3=viên chức

3. Làm thế nào để xem số liệu

Hướng dẫn: Có thể xem số liệu bằng 2 cách:

- Dùng nút lệnh Data Browser (vị trí 11 tính từ bên trái của thanh công cụ)

- Dùng menu Data :: Data browser (read-only editor)

111

Sử dụng Data Browser cho phép nhìn số liệu trong lưới (như các ô của chương trình Excel) nhưng nó không cho phép in số liệu. Muốn nhìn số liệu ra của sổ kết xuất (output) để sau đó in ra hãy sử dụng menu Data:: Describe Data :: List data.

4. Hãy thực hiện thống kê mô tả tất cả các biến số trong bộ số liệu này:

Hướng dẫn: trước tiên chúng ta phải xác định biến số nào là biến số định lượng và biến số nào là biến số định tính. Sau đó thực hiện thống kê mô tả cho các biến số: đối với biến định lượng, thực hiện lệnh summarize để để có trung bình và độ lệch chuẩn, đối với biến định tính thực hiện lệnh tab1 để có bảng phân phối tần suất của các biến số.

Trong bộ số liệu này có các biến tuoime, tuoithai, tlsosinh là biến định lượng. Để mô tả biến số này chúng ta sử dụng menu Statistics :: Summaries, tables, & tests :: Summary Statistics.

Sau khi hộp thoại Summarize hiện ra, thực hiện các bước sau:

Bước 1: Đặt con trỏ vào hộp văn bản Variables

Bước 2: Di chuyển con trỏ vào cửa sổ Variables, và nhấp vào các biến cần mô tả thống kê (tuoime, tuoithai, tlsosinh) để tên các biến này xuất hiện trên hộp văn bản Variables

Bước 3: Nhấp vào nút lệnh OK

112

Kết quả được trình bày nhưu sau:. summarize tuoime tuoithai tlsosinh

Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- tuoime | 641 33.97192 3.87046 23 43 tuoithai | 641 38.68725 2.329931 24.69 42.35 tlsosinh | 641 3129.137 652.7827 630 4650

Các biến số định tính bao gồm tang_ha (tăng huyết áp), gioi (giới tính của trẻ), nghenghiep (nghề nghiệp của mẹ). Để tóm tắt các biến số định tính này (tang_ha, gioi, nghenghiep) chúng ta sử dụng menu Statistics :: Summaries, tables & test :: Tables :: Multiple one-way tables.

113

Các bước thực hiện gồm:

- Bước 1: đưa con trỏ vào hộp văn bản categorical variable(s)

- Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào các biến tang_ha, gioi, nghenghiep để đưa các tên biến này vào hộp văn bản Categorical variables(s)

- Bước 3: nhấp nút lệnh OK để hoàn tất

. tab1 tang_ha gioi nghenghiep

-> tabulation of tang_ha

tang huyet | ap thai ki | - 1=tang |ha, 0=khong | tang ha | Freq. Percent Cum.------------+----------------------------------- 0 | 552 86.12 86.12 1 | 89 13.88 100.00------------+----------------------------------- Total | 641 100.00

-> tabulation of gioi

gioi tinh | tre - | 1=trai, | 0=gai | Freq. Percent Cum.------------+----------------------------------- 0 | 315 49.14 49.14 1 | 326 50.86 100.00------------+----------------------------------- Total | 641 100.00

-> tabulation of nghenghiep

114

nghe nghiep | me - 1=tu | do, 2=cong | nhan, |3=vien chuc | Freq. Percent Cum.------------+----------------------------------- 1 | 104 16.22 16.22 2 | 238 37.13 53.35 3 | 299 46.65 100.00------------+----------------------------------- Total | 641 100.00

5. Các tóm tắt số liệu như trên là đạt yêu cầu. Tuy nhiên việc mã hoá các giá trị của biến số khiến cho việc đọc bảng bảng tần suất của biến số danh định (như gioi và nghenghiep) bị khó khăn (nhất là cho những người không trực tiếp làm thống kê hay phải đọc lại kết quả sau một khoảng thời gian dài). Do đó những người làm thống kê chuyên nghiệp luôn luôn thực hiện ghi chú (dán nhãn) cho các biến số định tính. Hãy thực hiện việc dán nhãn số liệu.

Hướng dẫn:

Việc dán nhãn cho các giá trị mã hóa là việc làm tốn công nhưng nó giúp phân biệt người làm thống kê chuyên nghiệp và người làm thống kê không chuyên nghiệp. Mặc dù tốn công nhưng lợi ích do nó đem lại vượt qua công sức bỏ ra vì vậy chúng ta cần phải thực hiện việc dán nhãn này.

Việc dán nhãn giá trị biến số được thực hiện qua 2 bước: tạo nhãn (define label value) và dán nhãn cho giá trị (Assign value label to variable).

- Tạo nhãn sex, tang_ha, nhãn nghenghiep

Để tạo nhãn sử dụng menu Data :: Labels & Notes :: Define value label. Cửa sổ Define value label sẽ được hiện ra.

Giả sử chúng ta muốn tạo nhãn sex theo quy tắc 1 =nam và 2=nữ, các bước cụ thể như sau:

-Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable

115

- Bước 2: gõ sex vào hộp văn bản Label name

- Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra

- Bước 4: Nhập 1 vào hộp văn bản value

- Bước 5: nhập nam vào hộp văn bản Text

- Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value biến mất

- Bước 7: Nhấp vào nhãn sex trong hộp văn bản Defien label names

- Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra


- Bước 10: nhập nữ vào hộp văn bản Text


Sau đó có thể nhấp vào nút lệnh Close (của hộp thoại Define value labels) để thoát ra hay nhấp vào nút lệnh Define (của hộp thoại Define value labels) để tiếp tục tạo nhãn tang_ha.

Các bước cụ thể để tạo nhãn tang_ha gồm:


- Bước 2: gõ tang_ha vào hộp văn bản Label name


116

Cần lưu ý: tên nhãn có thể khác với tên biến (thí du như trường hợp trên ta đặt tên nhãn là sex trong khi tên biến là giới) hoặc tên nhãn có thể trùng với tên biến (thí dụ ta có thể đặt tên nhãn là tang_ha cho biến tăng ha).


- Bước 5: nhập huyet ap tang vào hộp văn bản Text


- Bước 7: Nhấp vào nhãn tang_ha trong hộp văn bản Define label names


117


- Bước 10: nhập huyet ap bt vào hộp văn bản Text


Để tiếp tục tạo nhãn nghenghiep ta nhấp vào nút lệnh Define (của hộp thoại Define value labels).


- Bước 2: gõ nghenghiep vào hộp văn bản Label name



118

- Bước 5: nhập tu do vào hộp văn bản Text


- Bước 7: Nhấp vào nhãn nghenghiep trong hộp văn bản Define label names



- Bước 10: nhập cong nhan vào hộp văn bản Text


119

- Bước 12: Ở hộp Define label names vẫn tiếp tục chọn nhãn nghenghiep, nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra


- Bước 14: nhập vien chuc vào hộp văn bản Text

- Bước 15: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value biến mất. Ta có kết quả như sau:

- Bước 16: Để hoàn tất việc tạo nhãn ta nhấn vào nút lệnh Close

Dán nhãn giá trị (Assign value label) cho các biến gioi, tang_ha, và nghenghiep

Sau khi dã tạo được nhãn, chúng ta hãy dán nhãn giá trị cho biến số bằng cách dùng menu

Data :: Labels & Notes :: Assign value label to variable

120

Khi hộp thoại labels value – Attach value label hiện ra để dán nhãn cho mỗi biến số cần thực hiện 4 bước sau:

- Bước 1: Đặt con trỏ vào hộp văn bản Variable

- Bước 2: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên

121

hộp văn bản Variable.

- Bước 3: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào tên biến sex

- Bước 4: Nhấp vào nút lệnh Submit để thực hiện việc dán nhãn.

Để tiếp tục thực hiện tương tự để dán nhãn tang_ha cho biến tang_ha, hãy tiến hành các bước sau:


- Bước 6: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên hộp văn bản Variable.


- Bước 8: Nhấp vào nút lệnh Submit để thực hiện việc dán nhãn.

Để tiếp tục thực hiện tương tự để dán nhãn nghenghiep cho biến nghenghiep, hãy tiến hành các bước sau:

122


- Bước 10: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên hộp văn bản Variable.


- Bước 12: Nhấp vào nút lệnh OK để thực hiện việc dán nhãn. Cần lưu ý, trong những lần dán nhãn trước chúng ta nhấp vào nút lệnh submit để hoàn thành việc dán nhãn nhưng không đóng cửa sổ label values. Sau khi dán nhãn nghenghiep cho biến nghenghiep, chúng ta không cần dán nhãn tiếp tục nên chúng ta nhấp vào nút lệnh OK để đóng cửa sổ label values sau khi hoàn thành việc dán nhãn.

6. Lập bảng phân phối tần suất cho các biến số định tính sau khi đã dán nhãn cho các biến này.

Hướng dẫn:

Các biến số định tính đã được dán nhãn bao gồm tang_ha sex matagegp gestcat. Để tóm tắt các biến số định tính này (tang_ha sex matagegp gestcat) chúng ta sử dụng menu Statistics :: Summaries, tables & test :: Tables :: Multiple one-way tables.

123

Khi hộp thoại tab1 – One-way tables hiện ra, chúng ta tiến hành 3 bước (1) đặt con trỏ vào hộp Categorical value (2) Nhấp vào cửa sổ variable để chọn các biến số tiến hành phân tích và (3) Nhấp vào nút lệnh OK. Kết quả sẽ xuất hiện như sau:

. tab1 gioi tang_ha nghenghiep

-> tabulation of gioi

gioi tinh |

tre - |

1=trai, |

0=gai | Freq. Percent Cum.

------------+-----------------------------------

gai | 315 49.14 49.14

trai | 326 50.86 100.00

------------+-----------------------------------

Total | 641 100.00

-> tabulation of tang_ha

tang huyet ap |

thai ki - |

1=tang ha, |

0=khong tang |

ha | Freq. Percent Cum.

--------------+-----------------------------------

huyet ap bt | 552 86.12 86.12

huyet ap tang | 89 13.88 100.00

124

--------------+-----------------------------------

Total | 641 100.00

-> tabulation of nghenghiep

nghe nghiep |

me - 1=tu |

do, 2=cong |

nhan, |

3=vien chuc | Freq. Percent Cum.

------------+-----------------------------------

tu do | 104 16.22 16.22

cong nhan | 238 37.13 53.35

vien chuc | 299 46.65 100.00

------------+-----------------------------------

Total | 641 100.00

7. Vẽ tổ chức đồ (histogram) của biến trọng lượng sơ sinh (tlsosinh)

Hướng dẫn:

Để vẽ tổ chức đồ, ta phải sử dụng menu Graphics :: Histogram

Khi hộp thoại histogram hiện ra, chúng ta thực hiện các bước sau:

125

Bước 1: đặt con trỏ vào hộp văn bản Variable

Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Variable.

Bước 3 – Bước 4: nhằm để xác định tổ chức đồ sẽ bắt đầu từ giá trị 600 (Lower limit of first bin) và mỗi khoảng tiếp theo (bin) có độ rộng là 300 (Width of bins)

Bước 5: Cho biết tổ chức đồ sẽ ghi nhận tỉ lệ của các khoảng giá trị bằng cách nhấp vào nút chọn Fraction.

Nếu muốn thể hiện mật độ của phân phối, nhấp vào nút chọn Density, nếu muốn thể hiện tần suất thì nhấp vào nút chọn Frequency. Mối liên hệ giữa các hàm phân phối này như sau:

Tỉ lệ (Fraction) = Tần suất (Frequency) / Cỡ mẫu (N)

Mật độ (Density) = Tỉ lệ (Fraction) / Độ rộng của khoảng chia (Width of bins)

Kết quả tiếp theo sẽ được trình bày trong hình sau.

126

0.0

5.1

.15

.2.2

5Fr

actio

n

1000 2000 3000 4000 5000trong luong so sinh (gram)

8. Đồ thị này cho chúng ta thấy hình dạng của phân phối số liệu, tuy nhiên chúng ta cũng có thể thay đổi thưc hiện việc chia khoảng cho trục hoành, ghi chú cho trục hoành, chia khoảng cho trục tung và ghi chú cho trục tung. Giả sử chúng ta muốn thực hiện các yêu cầu chia khoảng và ghi chú như sau:

Trục hoành phải có khoảng giá trị từ 600 đến 4800 (biên độ là 4200). Chúng ta muốn chia làm mỗi khoảng có độ lớn là 300 như vậy cần thiết phải có 14 khoảng. Chúng ta cũng muốn ghi giá trị từ 600 đến 4200 và mỗi nhãn giá trị cách nhau 600 gram.

Trục hoành được ghi chú là "trong luong so sinh (gram) cua 641 tre"

Trục tung có khoảng giá trị là 0 đến 0.3, ghi nhãn cho các giá trị và các nhãn này cách nhau 0.1

Trục tung được ghi chú là "tỉ lệ" (chứ không phải là fraction).

127

Các bước để thực hiện chia khoảng và ghi chú cho trục hoàng (trục X) như sau:

Bước 1: Nhấp vào Tab X-axis

Bước 2: Để nhập ghi chú cho trục hoành, Ở hộp văn bản Title, nhập vào ghi chú là "trong luong so sinh (gram) cua 641 tre"

Bước 3: Để chia khoảng cho trục hoành, ở hộp văn bản Rule, nhập vào 600(600)4800. Nguyên tắc của quy tắc này là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo.

Các bước để thực hiện chia khoảng và ghi chú cho trục hoàng (trục Y) như sau:

Bước 4: Nhấp vào Tab Y-axis

Bước 5: Để nhập ghi chú cho trục tung, Ở hộp văn bản Title, nhập vào ghi chú là "Ti le"

Bước 6: Để chia khoảng cho trục hoành, ở hộp văn bản Rule, nhập vào 0(0.1)0.3. Nguyên tắc của quy tắc này là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo.

Bước 7: Nhấp vào nút lệnh OK ở cuối cửa sổ để hoàn tất

128

0.1

.2.3

Tæ le

ä

600 1200 1800 2400 3000 3600 4200 4800

Troïng löôïng sô sinh (gram) cuûa 641 treû

9. Chúng ta cũng có thể vẽ đồ thị xuất (p-p plot) để xem biến số tlsosinh có tuân theo phân phối bình thường

Hướng dẫn:

Sử dụng menu Graph – Distributional graph - normal quantile plot

Khi cửa sổ qnorm hiện ra, chúng ta tiến hành các bước sau:

Bước 1: đặt con trỏ vào hộp văn bản Variable

129

Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Variable.

Bước 3: Đánh dấu vào hộp kiểm: Show grid at percentiles:


Kết quả như sau:

130

Nếu phân phối bình thường thì đường cong phân phối (đường nét đậm) sẽ trùng với đường chéo của hình chữ nhật (đường thẳng mảnh). Nếu phân phối lệch âm thì ở xác suất 0,5 đường cong phân phối nằm ở bên trái đường chéo. Nếu phân phối lệch dương thì ở xác suất 0,5 đường cong phân phối sẽ nằm ở bên phải đường chéo.

Nếu độ dốc của đường cong phân phối lớn hơn một (1) có nghĩa là phân phối thực nghiệm tăng chậm hơn phân phối bình thường, nếu đường cong phân phối nhỏ hơn một (1) có nghĩa là đường cong thực nghiệm tăng nhanh hơn phân phối bình thường.

Như vậy, phân phối của trọng sơ sinh bị lệch trái và ở khoảng trọng lượng thấp, phân phối trọng lượng sơ sinh tăng chậm hơn phân phối chuẩn. Ở khoảng trọng lượng cao trọng lương sơ sinh tăng hơi nhanh hơn phân phối chuẩn.

0.0

5.1

.15

Fra

cti

on

1000 2000 3000 4000 5000trong luong so sinh (gram)

10. Hãy vẽ biểu đồ hình thanh (bar chart) của nhóm nghề nghiệp

Hướng dẫn:

Trước tiên sử dụng menu Graphics :: Easy graphs :: Bar chart

Để hiện ra cửa sổ graph bar – Chúng ta hãy để ý 2 thẻ Main và thẻ Over là 2 thẻ nằm bên trái của cửa sổ.

131

Ở thẻ Main tiến hành các bước sau:

Bước 1: Chọn mục count nonmissing trong hộp Combo Statistic

Bước 2: Đặt con trỏ vào hộp văn bản variable(s)

Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến maso để biến này xuất hiện trên hộp văn bản Variable(s)

Bước 4: Nhấp vào thẻ (tab) Over để hiện thẻ này ra

132

Bước 5: Khi đã ở thẻ Over, đưa con trỏ chuột vào hộp văn bản Variable

Bước 6: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào tên biến nghenghiep để tên biến này xuất hiện trên hộp văn bản Variable.

Bước 7: Nhấp vào nút lệnh OK để xem biểu đồ hình thanh được tạo ra.

133

11. Hãy vẽ biểu đồ hình thanh (bar chart) trung bình trọng lượng sơ sinh của các đứa trẻ con của những bà mẹ có nghề nghiệp khác nhau.

Hướng dẫn:

Trước tiên sử dụng menu Graphics :: Easy graphs :: Bar chart

Để hiện ra cửa sổ graph bar – Chúng ta hãy để ý 2 thẻ Main và thẻ Over là 2 thẻ nằm bên trái của cửa sổ.

Ở thẻ Main tiến hành các bước sau:

Bước 1: Chọn mục mean trong hộp Combo Statistic

Bước 2: Đặt con trỏ vào hộp văn bản variable(s)

134

Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến tlsosinh (trọng lượng sơ sinh) để biến này xuất hiện trên hộp văn bản Variable(s)

Bước 4: Nhấp vào thẻ (tab) Over để hiện thẻ này ra

Bước 5: Khi đã ở thẻ Over, đưa con trỏ chuột vào hộp văn bản Variable

Bước 6: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào tên biến nghenghiep để tên biến này xuất hiện trên hộp văn bản Variable.

Bước 7: Nhấp vào nút lệnh OK để xem biểu đồ hình thanh được tạo ra.

135

12. Hãy vẽ biểu đồ hình bánh (Pie chart) phân phối biến số nghề nghiệp mẹ (nghenghiep).

Hướng dẫn:

Trước tiên sử dụng menu Graphics :: Pie Chart

Để thực hiện biểu đồ hình bánh, chúng ta tiếp tục các bước sau:

Bước 1: Đánh dấu kiểm (v) vào hộp kiểm (check box) Slices are distinct values of variable

Bước 2: Đặt con trỏ vào hộp văn bản Slices are distinct values of variable ở dưới hộp kiểm

Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến nghenghiep (nghề nghiệp mẹ) để biến này xuất hiện trên hộp văn bản Slices are distinct values of variable.


136

Chúng ta sẽ có được biểu đồ hình bánh như sau:

13. Hãy tạo biến mới nhomtuoi, biến này có giá trị

0 tương ứng với tuổi của mẹ từ thấp nhất đến 29

1 tưong ứng với tuổi mẹ từ 30 đến 34

2 tưong ứng với tuổi mẹ từ 35 đến 39

3 tưong ứng với tuổi mẹ từ 40 trở lên

Điều này có nghĩa là chúng ta chia tuổi mẹ làm 4 nhóm với 3 điểm chia là 30, 35 và 40. Điều này có thể thực hiện bằng cách tạo biến mới với hàm irecode.

137

Cách thực hiện việc tạo biến mới được thực hiện với menu Create or Change variables :: Create new variable

Sau khi cửa sổ generate - Generate a new variable thực hiện việc tạo biến mới với các bước sau:

Bước 1: Nhập tên biến mới (nhomtuoi) vào hộp văn bản Generate variable

Bướic 2: Nhập công thức tạo biến mới irecode(tuoime,29,34,39)

Bước 3: Nhấp vào nút lệnh OK để hoàn tất

Sau khi tạo ra biến mới nhomtuoi, chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label value) và dán nhãn giá trị cho biến số (Assign value label to variable) như được trình bày ở bưới 5. (0 là dưới 30; 1 là 30 den 34; 2 là 35-39; 3 là 40+)

3029-30 34-35 39-40

0 1 2 3

138

14. Hãy tạo biến mới sinh non, biến này có giá trị

1 tương ứng với tuổi thai <37

0 tưong ứng với tuổi thai >=37 tuần

Yêu cầu có nghĩa là chúng ta cần tạo ra một biến nhị giá với 2 giá trị 0 và 1.. Điều này có thể thực hiện bằng cách tạo biến mới và sử dụng biểu thức boolean (biểu thức thể hiện một mệnh đề có giá trị là đúng hay sai)

Việc thực hiện cụ thể bao gồm việc tạo biến mới được thực hiện với menu Create or Change variables :: Create new variable

Sau khi cửa sổ generate - Generate a new variable thực hiện việc tạo biến mới với các bước sau:

Bước 1: Nhập tên biến mới (sinhnon) vào hộp văn bản Generate variable

Bướic 2: Nhập công thức tạo biến mới tuoithai<37

Bước 3: Nhấp vào nút lệnh OK để hoàn tất

Sau khi tạo ra biến mới sinhnon, chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label value) và dán nhãn giá trị cho biến số (Assign value label to variable) như được trình bày ở bưới 5. (1 là sinh non, 0 là không sinh non)

139

15. Lưu lại số liệu

Hướng dẫn: Để lưu số liệu chúng ta có thể sử dụng menu File :: Save (hay Ctrl-S) hoặc nhấn

vào nút save file (vị trí thứ hai của thanh công cụ). Một hộp thoại sẽ bật lên và hỏi chúng ta có muốn chép chồng vào tập tin số liệu hay không. Nếu đồng ý chúng ta hãy nhấp vào nút OK để đồng ý.

Nếu chúng ta không muốn thay đổi tập tin số liệu cũ, chúng ta nên nhấp vào nút Cancel và lưu số liệu với tên mới sử dụng menu File :: Save As. khi đó hộp thoại "Save Stata Data File" sẽ hiện ra. Gõ tên mới vào hộp File Name (thí dụ nếu chúng ta muốn đặt tên tập tin là ivf_v2.dta thì chúng ta gõ vào hộp văn bản File name: ivf_v2.dta)

nhấp nút lệnh Save để hoàn tất.

16. Hãy thoát khỏi chương trình Stata

Hướng dẫn:

Để thoát khỏi Stata/SE 8.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau:

- Nhấp vào ô đóng nằm ở phía trên phải của cửa sổ Stata

Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng chưa được lưu vào đĩa thì khi chúng nhấp vào ô đóng, máy tính sẽ hỏi chúng ta rằng chúng ta có muốn thoát mà không lưu lại số liệu hay không.

140

Nếu chúng ta đồng ý bằng cách nhấp vào nút lệnh Yes thì Stata sẽ thoát, nếu không (nhấp nút lệnh No) thì chúng ta lại trở lại Stata để chúng ta có thể lưu lại số liệu.

- Gõ lệnh exit trong cửa sổ Stata Command.

Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng chưa được lưu vào đĩa thì khi chúng gõ exit, máy tính sẽ không đồng ý cho chúng ta thoát và sẽ thông báo “no; data in memory would be lost”. Trong trường hợp này nếu chúng muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit, clear. Nếu chúng ta muốn lưu lại số liệu hãy sử dụng lệnh save.

17. Nếu chúng ta muốn xem lại các kết quả phân tích đã được thực hiện chúng ta có thể xem lại tập tin log.

Cách xem lại tập tin log gồm các bước sau:

Bước 1: Vào menu File:: Log :: View

Bước 2: Khi hiện ra hộp thoại Choose file to View, nhấp vào nút lệnh Browse, khi đó cửa sổ Choose file Name sẽ hiện ra

Bước 3: Trên cửa sổ Choose file Name, chọn thưmục chứa tập tin log trong hộp thoại Log gin

Bước 4: Chọn tập tin log cần xem lại (thí dụ tập tin pt_ivf.smcl

Bước 5: Nhấp vào nút lệnh Open để đóng cửa sổ Choose file Name và trở về hộp thoại Choose

141

file to view

Bước 6: Nhấp vào nút lệnh OK để xem tập tin log

142

Thống kê phân tích biến số định lượng với Stata

Sơ lược lí thuyết về so sánh 2 trung bìnhKiểm định t dùng để so sánh 2 trung bình của của biến số định lương có phân phối bình thường. Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình trước và sau khi can thiệp trên một nhóm và (b) kiểm định t không bắt cặp để so sánh trung bình của 2 nhóm độc lập.

Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập). Kiểm định t có giả định 2 phương sai bằng nhau và kiểm định t không có giả định phương sai bằng nhau. Hai loại kiểm định này có chung nguyên lí nhưng khác nhau trong cách tính toán độ tự do (của kiểm định t) và cách tính sai số chuẩn.

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình của 2 nhóm độc lập và đòi hỏi 2 giả định.

- Các giá trị của biến số của cả 2 dân số có phân phối bình thường

- Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau.

Nếu chúng ta kí hiệu:

x1 : giá trị trung bình ở nhóm 1


n1 : cỡ mẫu của nhóm 1


s12 : phương sai ở nhóm 1


Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức sau:

- Độ tự do của kiểm định t: df = n1 + n2 - 2

- Sai số chuẩn: với

- Giá trị thống kê t:

Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 - 2) độ tự do và tính được xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H0.

Kiểm định t không bắt cặp không có giả định 2 phương sai bằng nhau

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình của 2 nhóm độc lập và chỉ đòi hỏi 1 giả định.

- Các giá trị của biến số của cả 2 dân số có phân phối bình thường

Nếu chúng ta kí hiệu:







143

Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức sau:

- Độ tự do của kiểm định t (theo công thức của Satterthwaite):

- Sai số chuẩn:

- Giá trị thống kê t:

Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với độ tự do phù hợp (như tính toán ở trên) và tính được xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H0.

Kiểm định t bắt cặp

Giả sử để so sánh hiệu quả của thuốc A và thuốc B trong cải thiện thể tích thở ra gắng sức trong 1 giây đầu tiên (FEV1) người ta cho các bệnh nhân tham gia nghiên cứu dùng thuốc A (hay thuốc B) trong một thời gian và cuối thời gian này đo lường FEV1 của bệnh nhân (gọi là FEV1A). Sau đó cho lại đổi cho bệnh nhân dùng thuốc B (hay thuốc A) trong một khoảng thời gian và cuối thời gian này lại đo lường FEV1 của bệnh nhân (gọi là FEV1B). Thiết kế nghiên cứu này được gọi là thử nghiệm lâm sàng bắt chéo. Chúng ta lưu ý các đặc điểm sau khi phân tích thống kê cho các nghiên cứu có cùng loại thiết kế này.

- Trong nghiên cứu này có 2 biến số đo lường trên cùng dân số: FEV1A và FEV1B

- Các giá trị của biến số FEV1A và FEV1B là của cùng một bệnh nhân nên hiệu số (FEV1A - FEV1B) cũng là biến số của bệnh nhân đó. Và nếu không có sự khác biệt về hiệu quả của 2 loại thuốc, trung bình của hiệu số này bằng 0.

- Khi đó kiểm định so sánh hiệu quả của thuốc A và thuốc B cũng kiểm định so sánh giá trị trung bình của FEV1A và FEV1B kiểm định hiệu số (FEV1A - FEV1B)=0

- Phép kiểm định này được gọi là kiểm định t bắt cặp. Kiểm định t bắt cặp là trường hợp đặc biệt của kiểm định t một mẫu.

Tóm lại kiểm định t bắt cặp là kiểm định được sử dụng khi thiết kế nghiên cứu cho một đối tượng (hay 2 đối tượng rất giống nhau) được thử nghiệm 2 loại thuốc khác nhau.

Kiểm định phi tham số

Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương), có thể sử dụng phép biến đổi (thường là biến đổi log) để đưa phân phối về bình thường hoặc dùng test phi tham số. Kiểm định phi tham số có ưu điểm là không đòi hỏi giả định về phân phối của biến số định lượng nhưng có khuyết điểm là không thể ước lượng được tham số, đó là như không thể ước lượng khoảng tin cậy 95% hiệu số của trung bình giữa 2 nhóm.

Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm.Khi chúng ta cần so sánh trung bình của nhiều nhóm, chúng ta không thể dùng nhiều kiểm định t để so sánh từng cặp của nhóm vì như vậy chúng ta sẽ làm tăng nguy cơ của sai lầm loại 1. Phương pháp thích hợp để được dùng cho trường hợp này được gọi là test ANOVA. Test ANOVA (phân tích phương sai) được xem như là sự tổng quát hóa của test t (test t dùng cho 2 nhóm và test ANOVA dùng cho 2 hay nhiều hơn các nhóm). Ðiều kiện để test ANOVA hợp lệ là các giá trị có phân phối bình thường và phương sai của các nhóm xấp xỉ nhau.

144

Trong kết xuất của test ANOVA, chúng ta thấy có sự hiện diện của thống kê F (thống kê Fisher). Trong trường hợp chỉ có 2 nhóm, thống kê F chính xác bằng bình phương của thống kê t và 2 phương pháp cho ra cùng một mức ý nghĩa.

ến

Hình 1. Giải thuật lựa chọn kiểm định phù hợp cho biến số phụ thuộc là biến định lượng

Thực hành1- Mở tập tin ivf_v2.

Chúng ta hãy khởi động Stata. Mở tập tin ivf_v2.dta bằng cách sử dụng menu File :: Open hay

nhấp vào nút công cụ Open file (Use), nằm ở vị trí thứ hai của thanh công cụ. Khi đó hộp thoại Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa thích hợp và dùng con chuột nhấp vào các thư mục để chọn thư mục có chứa số liệu. Khi gập tập tin số liệu ivf_v2.dta, nhấp đúp vào tên tập tin này để mở tập tin (hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi sau đó nhấp vào nút lệnh Open để mở tập tin). Cần nhớ nhấp vào

nút công cụ Stata Log nằm vị trí thứ tư từ trái ở trên thanh công cụ nếu muốn lưu trữ lại toàn bộ kết quả phân tích sẽ được thực hiện.

2. Sau khi mở tập tin, cần có thông tin gì trước khi phân tích số liệu:

Trước khi phân tích số liệu, nhà nghiên cứu (hay chuyên viên thống kê) cần đọc lại đề cương nghiên cứu, đặc biệt là số liệu (biến số và số các bản ghi), mục tiêu và thiết kế nghiên cứu. Giả sử chúng ta có thông tin về nghiên cứu như sau:

MRC Working Party on Children Conceived by In Vitro Fertilisation. Births in Great Britain resulting from assisted conception, 1978-87. BMJ 1990;300:1229-33.

Births in Great Britain resulting from assisted conception, 1978-87. MRC Working Party on Children Conceived by In Vitro Fertilisation.

BPT: phân phối bình thường

≤ 2 nhóm

Phương sai đồng nhất

BPT: định lượng

Phân phối bình thường

BPT: thứ tự

Kiểm định phi tham số

BPT: danh định

Kiểm định χ2

Kiểm định t Kiểm định t

PS không đồng nhất

Phương sai đồng nhất

ANOVA

Đúng

Đúng

Đúng

Trên 3 nhóm

Không đồng nhất

Đồng nhất

Đồng nhất

Không đồng nhất

Đúng Đúng

145

OBJECTIVE--To describe the characteristics at birth of children conceived by in vitro fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they differ from those of children conceived naturally. DESIGN--Survey of children resulting from IVF or GIFT and comparison of their characteristics at birth with national statistics. SETTING--England, Scotland, and Wales from 1978 to 1987. SUBJECTS--1267 Pregnancies conceived by IVF or GIFT, which resulted in 1581 liveborn or stillborn children. MAIN OUTCOME MEASURES--Sex ratio, multiplicity, gestational age at birth, birth weight, stillbirth rate, perinatal and infant mortality, and prevalence of congenital malformations. RESULTS--The ratio of male to female births was 1.07:1; 23% (249/1092) of the deliveries were multiple births compared with 1% for natural conceptions; 24% (278) of 1015 deliveries were preterm compared with 6% in England and Wales; 32% (406) of 1269 babies weighed less than 2500 g compared with 7% in England and Wales. The high percentage of preterm deliveries and of low birthweight babies was largely, but not entirely, due to the high frequency of multiple births. The rate of stillbirth, perinatal mortality, and infant mortality were twice the national average, these excesses being due to the high frequency of multiple births. One or more major congenital malformations were detected during the first week of life in 35 (2.2%) of 1581 babies. This figure is comparable with population based estimates of the prevalence of congenital malformations. The types of malformations reported varied, and the number of each specific type was small. The health of the children was not evaluated beyond the perinatal period. CONCLUSIONS--Multiple pregnancies often result from assisted conception and are the main determinant of the outcome of the pregnancies and of the health of the children at the time of birth. Congenital malformations are comparatively rare, so larger numbers of children need to be studied before firm conclusions can be drawn. The pooling of data from different countries is recommended.

PMID: 2354290 [PubMed - indexed for MEDLINE]

Số liệu này bao gồm những biến số về những đứa trẻ sinh một của những bà mẹ được thụ thai trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này đã được báo cáo trong tạp chí BMJ (1990;300:1229-1233). Tập tin này bao gồm 641 đứa trẻ và gồm 8 biến số có chi tiết như sau:

STT Tên biến Giải thích tiếng Anh Giải thích tiếng Việt

1 Masoidentity number of mother and baby

Mã số

2 tuoime maternal age in years Tuổi của mẹ (năm tuổi)

3 tang_ha hypertension 1=yes, 0=noTăng huyết áp thai kì 1= có 0 = không

4 tuoithai gestational age in weeks Tuổi thai (tính theo tuần)

5 gioi sex of baby 1=male, 0=female Giới tính của trẻ 1=trai 0=gái

6 tlsosinh birth weight in gms Trọng lượng sinh tính theo grams.

7 nghenghiepOccupation of mother (1= self employed; 2=blue collar worker; 3=white collar worker)

Nghề nghiệp mẹ (1= nghề tự do; 2=công nhân; 3=viên chức)

8 nhomtuoimaternal age groups(0=<30; 1=30-34;2=35-39;3=40+)

Tuổi của mẹ phân nhóm (0=<30; 1=30-34; 2=35-39; 3=40+)

9 sinhnon gestational category (1= <37 Sinh non (1: dưới 37 tuần; 0: đủ tháng

146

tuần; 0=37+tuần) – trên 37 tuần thai)

Việc nhận biết số liệu cũng có thể thực hiện bằng cách sử dụng lệnh describe (nhấn phím F3). Điều này đặc biệt có ích nếu các biến số và giá trị của biến số đã được dán nhãn đầy đủ.

Trong nghiên cứu này, tác giả muốn xác định tác động của tăng huyết áp của mẹ và tuổi thai lên trọng lượng thai.

3. Như vậy trong các biến số kể trên, biến nào là biến độc lập, biến nào là biến số phụ thuộc, biến số này là gây nhiễu.

Hướng dẫn:

Bảng số liệu viewivf này có chứa những biến số khác nhau. Trong bảng sau hãy xác định tính chất của từng biến số bằng cách khoanh tròn vào lựa chọn thích hợp.

Biến số Thang đo biến số Quan hệ

tuoime- Nhị giá - Danh định

- Thứ tự - Định lượng

- Độc lập - Phụ thuộc

- Gây nhiễu

tang_ha- Nhị giá - Danh định



- Gây nhiễu

tuoithai- Nhị giá - Danh định



- Gây nhiễu

gioi- Nhị giá - Danh định



- Gây nhiễu

tlsosinh- Nhị giá - Danh định



- Gây nhiễu

nghenghiep- Nhị giá - Danh định



- Gây nhiễu

nhomtuoi- Nhị giá - Danh định



- Gây nhiễu

sinhnon- Nhị giá - Danh định



- Gây nhiễu

4. Trước khi phân tích số liệu cần thực hiện thao tác số liệu và các thống kê mô tả. Thực hiện lại các bước thao tác số liệu và thống kê mô tả như ở chương trước

5. Hãy so sánh trọng lượng của trẻ nam và trẻ nữ

Hướng dẫn: Theo giải thuật được trình bày ở đầu chương, để so sánh trọng lượng (biến phụ thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2 nhóm có bằng nhau hay không. Nếu phương sai 2 nhóm tương đương chúng ta có thể sử dụng t-test thông thường (t-test phương sai đồng nhất). Nếu phương sai 2 nhóm không tương đương, chúng ta phải sử dụng t-test phương sai không đồng nhất hay kiểm định phi tham số.

Kiểm định 1: So sánh 2 phương sai

Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group variance comparison test.

147

Sau khi cửa sổ sdtest – Two sample test of variance hiện ra tiến hành 5 bước sau:

Bước 1: đặt con trỏ vào hộp văn bản Variable name

Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Variable name

Bước 3: đặt con trỏ vào hộp văn bản Group name variable

Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp văn bản Group name variable.

Bước 5: Nhấp vào nút lệnh OK.

Kết quả được trình bày như sau:. sdtest tlsosinh, by(gioi)

148

Variance ratio test

------------------------------------------------------------------------------

Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

---------+--------------------------------------------------------------------

gai | 315 3044.127 35.421 628.6603 2974.434 3113.819

trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843

---------+--------------------------------------------------------------------

combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767

------------------------------------------------------------------------------

Ho: sd(gai) = sd(trai)

F(314,325) observed = F_obs = 0.891

F(314,325) lower tail = F_L = F_obs = 0.891

F(314,325) upper tail = F_U = 1/F_obs = 1.122

Ha: sd(gai) < sd(trai) Ha: sd(gai) != sd(trai) Ha: sd(gai) > sd(trai)

P < F_obs = 0.1518 P < F_L + P > F_U = 0.3032 P > F_obs = 0.8482

Với giá trị p = 0,3032 chúng ta không thể bác bỏ giả thuyết Ho: độ lệch chuẩn của nhóm trẻ trai bằng độ lệch chuẩn của nhóm trẻ gái. Vì vậy chúng ta có thể sử dụng kiểm định t phương sai đồng nhát như ở bước 2.

Kiểm định 2: So sánh 2 trung bình sử dụng t-test phương sai đồng nhất.

Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group mean comparison test

149

Cửa sổ ttest- group mean comparision tests hiển ra. Tiến hành các bước sau:




Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp văn bản Group name variable.

Bước 5: Nhấp vào nút lệnh OK.. ttest tlsosinh, by(gioi)

Two-sample t test with equal variances

------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]---------+-------------------------------------------------------------------- gai | 315 3044.127 35.421 628.6603 2974.434 3113.819 trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843---------+--------------------------------------------------------------------combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767---------+-------------------------------------------------------------------- diff | -167.1522 51.18935 -267.6718 -66.63249------------------------------------------------------------------------------Degrees of freedom: 639

Ho: mean(gai) - mean(trai) = diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 t = -3.2654 t = -3.2654 t = -3.2654 P < t = 0.0006 P > |t| = 0.0012 P > t = 0.9994

Trả lời: Trẻ trai có trọng lượng sơ sinh trung bình là 3211.28 gram, của trẻ gái là 3044.13 gram. Với giá trị t = 3,2654 và mức ý nghĩa (p-value) là 0.0012 chúng ta kết luận có sự khác biệt về trọng lượng sơ sinh giữa trẻ trai và trẻ gái (p=0.0012).

6. Hãy so sánh trọng lượng sơ sinh của con bà mẹ tăng huyết áp và bà mẹ không tăng huyết áp.

Hướng dẫn: Theo giải thuật được trình bày ở đầu chương, để so sánh trọng lượng (biến phụ thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp có bằng nhau hay không. Nếu phương sai 2 nhóm tương đương chúng ta có thể sử dụng t-test thông thường (t-test phương sai đồng nhất). Nếu phương sai 2 nhóm không tương đương, chúng ta phải sử dụng t-test phương sai không đồng nhất hay kiểm định phi tham số.

150

Kiểm định 1: So sánh 2 phương sai

Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group variance comparison test.

Sau khi cửa sổ sdtest - Group variance comparison test chúng ta đưa biến tlsosinh vào hộp văn bản Variable name và biến tang_ha vào hộp văn bản Group name variable rồi nhấp vào nút lệnh OK.

Kết quả được trình bày như sau:. sdtest tlsosinh, by( tang_ha )

Variance ratio test

------------------------------------------------------------------------------

Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

---------+--------------------------------------------------------------------

Ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786

Ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406

---------+--------------------------------------------------------------------

combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767

------------------------------------------------------------------------------

Ho: sd(huyet ap) = sd(huyet ap)

F(551,88) observed = F_obs = 0.547

F(551,88) lower tail = F_L = F_obs = 0.547

F(551,88) upper tail = F_U = 1/F_obs = 1.829

Ha: sd(1) < sd(2) Ha: sd(1) != sd(2) Ha: sd(1) > sd(2)

P < F_obs = 0.0000 P < F_L + P > F_U = 0.0003 P > F_obs = 1.0000

Kết quả cho thấy giá trị p = 0,0003 có nghĩa là phương sai của trọng lượng lúc sinh của 2 nhóm không đồng nhất. Vì vậy chúng ta không thể dùng t-test phương sai đồng nhất mà phải sử dụng t-test phương sai không đồng nhất (kiểm định 2A) hay kiểm định phi tham số (kiểm định 2B).

Kiểm định 2A: so sánh 2 trung bình t-test phương sai không đồng nhất

Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group mean comparison test (xem lại câu 4) và biến tlsosinh vào hộp văn bản Variable name; biến tang_ha vào hộp văn bản Group name variable của cửa sổ ttest- group mean comparison. Cần lưu ý đánh dấu vào hộp kiểm Unequal variances rồi nhấp vào nút OK.

151

Kết quả trình bày như sau:. ttest tlsosinh, by(tang_ha) unequal

Two-sample t test with unequal variances

------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]---------+-------------------------------------------------------------------- ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786 ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406---------+--------------------------------------------------------------------combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767---------+-------------------------------------------------------------------- diff | 449.3735 89.88999 271.1197 627.6273------------------------------------------------------------------------------Satterthwaite's degrees of freedom: 104.069

Ho: mean(ha bt) - mean(ha tang) = diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 t = 4.9991 t = 4.9991 t = 4.9991 P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000

Trả lời: Con bà mẹ bị tăng huyết áp có trọng lượng sơ sinh trung bình là 2742 gram, ở con của bà mẹ không tăng huyết áp là 3192 gram. Sự khác biệt này có ý nghĩa thống kê với p<0,0001.

Kiểm định 2B: so sánh 2 trung bình với phép kiểm phi tham số Mann-Whitney

Thực hiện kiểm định phi tham số tổng sắp hạng Mann-Whitney (Mann-Whitney rank sum test) bằng dụng menu Statistics :: Summaries, tables, & tests :: Non-parametric test of hypotheses :: Mann-Whitney two-sample ranksum test.

152

Sau đó cửa sổ ranksum - Mann-Whitney two-sample statistic hiện ra.

Tiến hành các bước sau:




Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tang_ha để đưa biến này vào hộp văn bản Group name variable.

Bước 5: Nhấp vào nút lệnh OK.

Kết quả như sau:

. ranksum tlsosinh, by( tang_ha )

Two-sample Wilcoxon rank-sum (Mann-Whitney) test

tang_ha | obs rank sum expected-------------+--------------------------------- ha bt | 552 185203 177192 ha tang | 89 20558 28569-------------+---------------------------------

153

combined | 641 205761 205761

unadjusted variance 2628348.00adjustment for ties -144.78 ----------adjusted variance 2628203.22

Ho: tlsosinh(tang_ha==ha bt) = tlsosinh(tang_ha==ha tang) z = 4.941 Prob > |z| = 0.0000

7. Hãy so sánh trọng lượng sơ sinh của trẻ sinh ra từ con của các nhóm nghề nghiệp khác nhau của người mẹ.

Hướng dẫn: Để so sánh trung bình của một biến định lượng ở nhiều nhóm, chúng ta phải sử dụng phương pháp phân tích ANOVA một chiều. Sử dụng menu Statistics :: ANOVA/MANOVA :: oneway analysis of variance

Do chúng ta muốn phân tích tác động của yếu tố nghề nghiệp mẹ (nghenghiep) lên trọng lượng sinh của trẻ (tlsosinh) khi cửa sổ oneway hiện lên, ta tiến hành các bước sau:

Bước 1: đặt con trỏ vào hộp văn bản Response variable

Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Response Variable.

Bước 3: đặt con trỏ vào hộp văn bản Factor

Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến nghenghiep để đưa biến này vào hộp văn bản Factor.

Bước 5: Đánh dấu vào hộp kiểm Produce summary table để thể hiện thống kê mô tả trọng lượng sơ sinh trung bình ở các nhóm nghề nghiệp

154

Bước 6: Đánh dấu vào hộp kiểm Scheffe để có kiểm định so sánh trọng lượng trung bình ở từng cặp đôi nghề nghiệp khác nhau


Trên cửa sổ Output, trên cùng thống kê mô tả của số liệu về trọng lượng sơ sinh theo nhóm tuổi của mẹ:

nghe nghiep | me - 1=tu | do, 2=cong | Summary of trong luong so sinh nhan, | (gram)3=vien chuc | Mean Std. Dev. Freq.------------+------------------------------------ tu do | 2981.4135 643.76283 104 cong nhan | 3118.084 646.69338 238 vien chuc | 3189.3177 654.19649 299------------+------------------------------------ Total | 3129.1373 652.78265 641

Con bà mẹ nghề nghiệp tự do có trọng lượng trung bình là 2981 gram, của bà mẹ với nghề nghiệp là 3118 gram, của bà mẹ với nghề nghiệp viên chức là là 3190 gram. Chúng ta biết kiểm định ANOVA có thể sử dụng để kiểm định sự khác biệt về trung bình của nhiều nhóm, nhưng trước tiên chúng ta hãy kiểm tra các điều kiện của phân tích ANOVA là (a) biến số phụ thuộc có phân phối bình thường - điều này đã được xác nhận từ đồ thị của trọng lượng sơ sinh và (b) phương sai của biến phụ thuộc ở các nhóm bằng nhau - điều này cũng được xác nhận qua thống kê Bartlett với p-value là 0,973.

Analysis of Variance Source SS df MS F Prob > F------------------------------------------------------------------------Between groups 3381483.56 2 1690741.78 4.00 0.0187 Within groups 269338638 638 422160.875------------------------------------------------------------------------ Total 272720122 640 426125.19

Bartlett's test for equal variances: chi2(2) = 0.0558 Prob>chi2 = 0.973

Vì vậy trong trường hợp này kiểm định ANOVA là có giá trị. Ta đọc kết quả của bảng ANOVA.

155

Chúng ta có được giá trị F = 0.0187 và mức ý nghĩa (p-value) là 0.9723 chúng ta kết luận không có sự khác biệt về trọng lượng sơ sinh ở con của những bà mẹ có nghề nghiệp khác nhau. Với kết luận này chúng ta có thể kết luận là có ít nhất có 1 cặp đôi (2 nhóm) nghề nghiệp của mẹ có sự khác biệt về trọng lượng con nhưng chúng ta không biết là sự khác biệt này ở cặp đôi nghề nghiệp nào. Để biết cặp đôi nào có sự khác biệt ta xem kết xuất của so sánh sau kiểm định (post-hoc test) của Scheffe:

Comparison of trong luong so sinh (gram) by nghe nghiep me - 1=tu do, 2=cong nhan, 3=vien chuc (Scheffe)Row Mean-|Col Mean | tu do cong nha---------+----------------------cong nha | 136.671 | 0.202 |vien chu | 207.904 71.2337 | 0.020 0.451

Kết quả của kiểm định Scheffe được trình bày theo bảng và ở mỗi ô của bảng có 2 con số: con số ở trên thể hiện sự khác biệt về trọng lượng của nghề nghiệp của hàng so với nghề nghiệp của cột và giá trị ở dưới thể hiện giá trịi p (mức ý nghĩa) của sự khác biệt này. Dựa vào giá trị p, có thể kết luận có sự khác biệt về trọng lượng sơ sinh của con 2 nhóm nghề nghiệp viên chức và tự do (giá trị p=0,020) và nhóm nghề nghiệp viên chức có trọng lượng trung bình cao hơn nhóm nghề nghiệp tự do là 207,9 gram.

Nhắc lại lí thuyết về Tương quan và ước lượngTương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại hệ số tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ ít hơn. Nếu hệ số tương quan có giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là hoàn toàn không có sai số ngẫu nhiên. Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ các biến thiên của biến số phụ thuộc có thể được giải thích bằng biến số độc lập.

Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:

Lí giải ý nghĩa của hệ số tương quan:

- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]

- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không liên hệ.

- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy.

- Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)

- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có mối liên hệ gì giữa hai biến số hoặc (2) mối liên hệ giữa hai biến số không phải là tuyến tính.

156

- Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh. Ðiều quan trọng là sự tương quan giữa hai biến số cho thấy sự liên hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.

Để kiểm định hệ số tương quan Pearson có thực sự khác 0 hay không, kiểm định t có thể được sử dụng

t rn

r

2

1 2 có phân phối student với n-2 độ tự do.

Hồi quyHồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số khác.

Một phương trình hồi quy có thể có dạng như sau:

cân nặng (kg) = 6,85 + 0,18 x tháng tuổi

(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)

theo phương trình này người ta gọi:

cân nặng: biến số phụ thuộc

tháng tuổi: biến số độc lập

6,85: hệ số của hằng số (Constant), hay còn gọi là điểm chặn (intercept)

0,18: hệ số (Coeficient) của biến số tháng tuổi hay còn gọi là độ dốc (Slope) của đường hồi quy

9. Vẽ phân tán đồ (scattergram) giữa của biến số tuổi thai (tuoithai) và trọng lượng thai (tlsosinh).

Hướng dẫn: sử dụng menu Graphics :: Overlaid twoway graph

để hiện ra cửa sổ twoway – Twoway graphs

157

Trên cửa sổ twoway – Twoway graphs, nhập tên biến số phụ thuộc vào hộp Y-axis variable và tên biến số độc lập vào hộp X-axis variable sau đó nhấp OK để xem biểu đồ phân tán. Cách làm cụ thể từng bước như sau:

Bước 1: Trên hộp combo Type chọn Scatter

Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X

Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y

Bước 4: Nhấp nút lệnh OK

Có thể cho đồ thị phân tán. Tuy nhiên chúng ta có thể thêm các tùy chọn để thực hiện các yêu cầu sau:

Bổ sung tiêu đề “trọng lượng trẻ sơ sinh (gam)" cho trục tung

Cho các giá trị trục y từ 500 đến 5000 gram và chia các khoảng 500 gram.

Bổ sung tiêu đề “tuoi thai (tuan tuoi)" cho trục hoành

Cho các giá trị của trục x từ 24 tuần tuổi đến 42 tuần tuổi và chia làm các khoảng 4 tuần

Bằng cách trong cửa sổ Trên cửa sổ twoway – Twoway graphs thực hiện các bước:

Trên thẻ Plot 1: Bước 1: Trên hộp combo Type chọn Scatter

Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X

158

Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y

Trên thẻ Y-Axis: Bước 4: Trên hộp văn bản Title gõ "Trong luong tre so sinh (gam)"

Bước 5: Trên hộp văn bản Rule gõ quy tắc "500(500)5000"

Bước 6: Trên hộp combo Angle chọn "Horizontal"

Trên thẻ X-Axis: Bước 7: Trên hộp văn bản Title gõ "Tuoi thai (tuan)"

Bước 8: Trên hộp văn bản Rule gõ quy tắc "24(2)42"

Và nhấp vào nút lệnh OK.

Trả lời: Có sự tương quan thuận tuyến tính giữa trọng lượng sơ sinh và tuổi thai. Mối tương quan này khá chặt do đám mây có tính chất đi lên (khi nó đi về phải) và có đường kính bé nhỏ hơn nhiều so với đường kính lớn.

10. Hãy xác định hệ số tương quan giữa trọng lượng sơ sinh (tlsosinh), tuổi thai (tuoithai) và tuổi của mẹ (tuoime)

Hướng dẫn: Sử dụng menu Statistics :: Summaries, tables, & tests :: Summary statistics :: Pairwise correlations.

159

Khi đó hộp thoại pwcorr – Pairwise correlations of variables sẽ hiện ra.

Tiến hành các bước sau:

Bước 1: Nhấp con trỏ chuột vào hộp văn bản Variables

Bước 2: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào các biến tlsosinh, biến tuoithai và biến tuoime để tên 3 biến này xuất hiện ở hộp văn bản Variables.

160

Bước 3: Đánh dấu vào hộp kiểm Print significance level for each entry

Bước 4: Đánh dấu vào hộp kiểm Significance level for displaying with a star.

Bước 5: Nhấp vào nút lệnh OK để xem kết quả.

. pwcorr tlsosinh tuoithai tuoime, sig star(5)

| tlsosinh tuoithai tuoime-------------+--------------------------- tlsosinh | 1.0000 | | tuoithai | 0.7376* 1.0000 | 0.0000 | tuoime | 0.0337 0.0151 1.0000 | 0.3941 0.7026

Trả lời: Chương trình cho kết quả hệ số tương quan của trọng lượng thai với trọng lượng thai là 1, giữa trọng lượng thai và tuổi thai là 0.7376 (giá trị p=0,0000), giữa trọng lượng thai và tuổi của mẹ là 0,0337 (giá trị p = 0,3941). Như vậy có sự tương quan mạnh có ý nghĩa thống kê giữa trọng lượng thai và tuổi thai trong khi đó sự tương quan giữa trọng lượng thai và tuổi mẹ rất yếu và không có ý nghĩa thống kê. Do có sự liên hệ có ý nghĩa thống kê (giá trị p <0,05) giữa trọng lượng thai và tuổi thai nên giá trị của hệ số tương quan được đánh dấu sao (*).

11. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai.

Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng cách nhấp vào menu "Statistics :: Linear regression and related :: Linear regression" để hiện ra hộp thoại regress – Linear regression

Nhập tên biến số phụ thuộc vào hộp Dependent variable và tên biến số độc lập vào hộp Independent variable rồi nhấn OK để tiếp tục.

Kết quả được trình bày như sau:. regress tlsosinh tuoithai

161

Source | SS df MS Number of obs = 641---------+------------------------------ F( 1, 639) = 762.25 Model | 148354317 1 148354317 Prob > F = 0.0000Residual | 124365805 639 194625.673 R-squared = 0.5440---------+------------------------------ Adj R-squared = 0.5433 Total | 272720122 640 426125.19 Root MSE = 441.16

tlsosinh | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+--------------------------------------------------------------------tuoithai | 206.6412 7.484572 27.609 0.000 191.9439 221.3386 _cons | -4865.245 290.0814 -16.772 0.000 -5434.873 -4295.617

Trả lời: Hệ số tương quan bình phương R-squared = 0.544 = 54.4% nói lên tuổi thai có thể giải thích cho 54.4% sự thay đổi về trọng lượng sơ sinh. Bảng ANOVA cho biết có tổng các sai lệch của bình phương trọng lượng sơ sinh 272.720.122 (272.7 triệu) mà phương trình hồi quy có thể giải thích cho 148.3 triệu của sự sai lệch này (như vậy còn 124.4 triệu tổng bình phương sai lệch chưa được giải thích gọi là Residual Sum of Square và giá trị 0.45 chính là giá trị 148.3/272.7). Mức ý nghĩa được trình bày trong bảng ANOVA cho biết mức ý nghĩa của phương trình.

Dựa vào bảng các hệ số chúng ta có thể xây dựng phương trình hồi quy như sau:

Trọng lượng sơ sinh = -4865.245 + 206.641 x tuổi thai (tính theo tuần).

Mức ý nghĩa (P-value) của biến số tuổi thai (Gestational age) là kết quả của kiểm định ý nghĩa của biến số này trong phương trình có thực sự khác không hay không.

Hệ số (coefficient) của biến số độc lập nói lên sự thay đổi của biến số phụ thuộc khi biến số độc lập thay đổi một đơn vị. Trong phương trình này (với biến số độc lập là TUOITHAI và biến số phụ thuộc là TLSOSINH) chúng ta có thể lí giải nếu đứa trẻ lớn hơn 1 tuần tuổi trọng lượng lúc sanh của nó sẽ tăng thêm 206.641 gram.

12. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai, giới tính của trẻ và huyết áp cao của mẹ.

Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng cách nhấp vào menu "Statistics :: Linear regression and related :: Linear regression" để hiện ra hộp thoại regress – Linear regression

Nhập tên biến số phụ thuộc (tlsosinh) vào hộp Dpendent variable và tên các biến số độc lập (tuoithai gioi tang_ha) vào hộp Idependent variables, rồi nhấn OK để tiếp tục. Khi đó hộp thoại

162

chẩn đoán sẽ hiện ra. Tuy nhiên nếu chúng ta không quan tâm đến việc chẩn đoán các vấn đề trong phương trình hồi quy chúng ta hãy nhấp vào nút Cancel.

. regress tlsosinh tuoithai gioi tang_ha Source | SS df MS Number of obs = 641-------------+------------------------------ F( 3, 637) = 275.43 Model | 153998584 3 51332861.4 Prob > F = 0.0000 Residual | 118721538 637 186376.04 R-squared = 0.5647-------------+------------------------------ Adj R-squared = 0.5626 Total | 272720122 640 426125.19 Root MSE = 431.71

------------------------------------------------------------------------------ tlsosinh | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- tuoithai | 201.4248 7.541441 26.71 0.000 186.6157 216.2339 gioi | 167.8167 34.17884 4.91 0.000 100.6999 234.9335 tang_ha | -142.14 50.8685 -2.79 0.005 -242.0302 -42.24979 _cons | -4729.048 294.1447 -16.08 0.000 -5306.659 -4151.438------------------------------------------------------------------------------

Trả lời: Chúng ta tìm được r2 (R-squared) là 0.5647 cho thấy phương trình hồi quy giải thích được 56.47% sự biến thiên của trọng lượng thai và điều này cho thấy mô hình có cả giới tính và tăng huyết áp giải thích tốt hơn so với mô hình chỉ có tuổi thai (r2=0.54).

Chúng ta cũng có thể viết được phương trình hồi quy theo kết quả ở trên:

Trọng lượng thai = -4729.048 + tuổi thai x 201.425 - tăng huyết áp x 142.14 + giới x 167.817

10. Bạn có gợi ý gì để trình bày phương trình hồi quy một cách dễ hiểu hơn đối với người không chuyên về thống kê.

Hướng dẫn: Bởi vì người không chuyên về thống kê hay người chưa được làm quen với phương pháp mã hoá sẽ không biết làm sao để nhân tăng huyết áp với 142.14 hay giới với 167,817. Chúng ta nhớ lại quy ước của tập tin này:

Biến tăng huyết áp (tang_ha) có giá trị =0 nếu mẹ không bị tăng huyết áp

Biến giới tính (gioi) có giá trị =0 nếu trẻ là trẻ gái

a) Do đó phương trình hồi quy đối với trẻ gái có mẹ không tăng huyết áp là:

Trọng lượng thai = -4729.048 + tuổi thai x 201.425 (a)

b) Ở trẻ trai với mẹ không tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ tăng lên 167,817 gram nên phương trình hồi quy sẽ là

Trọng lượng thai = -4561.23 + tuổi thai x 201.425 (b)

c) Ở trẻ gái với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ giảm đi 142,14 gram so với phương trình (a) nên phương trình hồi quy cho nhóm này là

Trọng lượng thai = -4871.19 + tuổi thai x 201.425

d) Ở trẻ trai với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ giảm đi 142,14 gram so với phương trình (b) nên phương trình hồi quy cho nhóm này là

Trọng lượng thai = -4703.37 + tuổi thai x 201.425

Do các mức ý nghĩa (p-value) của biến số đều nhỏ hơn 0.05 nên tất cả các biến số độc lập của mô hình đều có ý nghĩa thống kê và không nên loại bỏ khỏi mô hình.

13. Xét hai mô hình

trọng lượng thai = tuổi thai + tăng huyết áp mẹ + giới tính (cho hệ số của biến số tuổi t hai là 201.4) trong khi đó mô hình

trọng lượng thai = tuổi thai (chohệ số của biến số tuổi thai là 206.6). Hệ số trong mô hình nào là phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai.

Trả lời:

Chúng ta có thể giả định yếu tố tăng huyết áp của mẹ là yếu tố gây nhiễu. Do tăng huyết áp của

163

mẹ có thể làm giảm trọng lượng của con và trong tăng huyết áp của mẹ phổ biến hơn ở nhóm sanh thiếu tháng nên ở đứa trẻ sinh sớm 1 tuần bị mất trọng lượng là 206.6 gram nhưng điều này là cả do tác động của sanh non và cả tác động do tăng huyết áp ở một số bà mẹ. Tuy nhiên ở nhóm không bị tăng huyết áp trẻ sanh non một tuần chỉ bị mất có 201.4 gram và do đó con số 201.4 là phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai.

Trên thực tiễn do con số 201.4 rất gần với con số 206.6 nên có thể bỏ qua tác động gây nhiễu của tăng huyết áp của mẹ lên tốc độ phát triển thai.

14. Sử dụng kiểm định t chúng ta phát hiện trọng lượng trẻ con các bà mẹ bị tăng huyết áp thấp hơn con những người không tăng huyết áp là 449.37 gram. Trong khi mô hình của trọng lượng sinh theo tuổi thai, tăng huyết áp mẹ và giới tính cho hệ số của biến tăng huyết áp là 142.14 gram. Hãy lí giải những số liệu này?

Trả lời: Cả hai con số 449.37 và 142.14 đều nói lên sự khác biệt do tình trạng tăng huyết áp của mẹ nhưng con số 449.37 là con số khác biệt thô và con số 142.14 là con số khác biệt có hiệu chỉnh theo tháng tuổi và giới tính. Dựa vào nhận xét trên ta có giải thích những con số này như sau:

con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là 449.37 gram và điều này do tác động của cả tăng huyết áp, tuổi thai (và cả tác động của giới tính nhưng giả sử chúng ta biết rằng tác động gây nhiễu cao giới tính là không đáng kể).

con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là 142.14 gram và điều này do tác động của cả tăng huyết áp khi không xét đến tác động của tuổi thai. Như vậy tác động do sinh thiếu tháng là 449.37-142.14 = 307.23 g

Như vậy % tác động do cơ chế sinh thiếu tháng trong tổng số tác động của tăng huyết áp mẹ lên trọng lượng của con là:

Chúng ta có thể xem xét tác động của cơ chế sinh thiếu tháng trong khi so sánh trọng lượng sơ sinh của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp bằng cách so sánh tuổi thai trung bình giữa 2 nhóm. Nhóm có mẹ bị tăng huyết áp có tuổi thai trung bình là 37.3 tuần trong khi đó nhóm mẹ không bị tăng huyết áp có tuổi thai trung bình là 38.9 và sự khác biệt về tuổi thai là 1.6 tuần. Sự khác biệt về tuổi thai sẽ giải thích cho khoảng 200 gram/tuần x 1.6 =320 gram trọng lượng sơ sinh.

164

Documents

Giáo trình nghiên cứu khoa học