27
Nhập số liệu nghiên cứu Nguyễn Văn Tuấn Nguyễn Đình Nguyên

Nhập số liệu nghiên cứu

  • Upload
    adara

  • View
    66

  • Download
    4

Embed Size (px)

DESCRIPTION

Nhập số liệu nghiên cứu. Nguyễn Văn Tuấn Nguyễn Đình Nguyên. Các thông số trong dữ liệu. Các ký hiệu nhận dạng : số mã nghiên cứu, số thứ tự, các mã số xét nghiệm. Biến phụ thuộc chính : Yếu tố kết cục được đặc ra trong thiết kế nghiên cứu. - PowerPoint PPT Presentation

Citation preview

Page 1: Nhập số liệu nghiên cứu

Nhập số liệu nghiên cứu

Nguyễn Văn Tuấn

Nguyễn Đình Nguyên

Page 2: Nhập số liệu nghiên cứu

Các thông số trong dữ liệu

• Các ký hiệu nhận dạng: số mã nghiên cứu, số thứ tự, các mã số xét nghiệm.

• Biến phụ thuộc chính: Yếu tố kết cục được đặc ra trong thiết kế nghiên cứu.

• Các biến phụ thuộc thứ yếu: Cũng là các yếu tố kết cục cần quan tâm nhưng không phải là yếu tố chính.

• Các yếu tố dự đoán hay là yếu tố nguy cơ.

Page 3: Nhập số liệu nghiên cứu

Ký hiệu nhận dạng

• Cần phải có một mã số nhận dạng duy nhất cho mỗi bệnh nhân, nhất là khi có nhiều bảng số liệu cho cùng một nghiên cứu.

• Chỉ nên sử dụng mã bằng số.

• Mã số nhận dạng phải dưới dạng “mã” để không tiết lộ chi tiết bệnh nhân để có thể nhận dạng.

• Hồ sơ chi tiết liên hệ với cá nhân bệnh nhân (tên, địa chỉ, số điện thoại…) không để cùng trong dữ liệu dùng để phân tích; vì có thể phải trao đổi số liệu với đồng nghiệp.

Page 4: Nhập số liệu nghiên cứu

Ký hiệu nhận dạng: ví dụHồ sơ dùng để phân tích

id gioitinh noio vung1 nam rach gia2 nu ba ria3 nam soc trang

Hồ sơ dùng để theo dõi

id gioitinh ho ten diachi dienthoai

1 nam nguyen A thon 2 ap 4 xa… 8943472 nu tran B so 3 duong… 4398453 nam phan C ap 5 xa… 945709

Cần tách biệt với

Page 5: Nhập số liệu nghiên cứu

Dữ liệu phân tích

• Bất luận dữ liệu để phân tích là kết cục (outcome) hay là yếu tố nguy cơ, dự đoán đều có thể sắp xếp thành hai nhóm số liệu chính:

– Biến số liên tục (huyết áp, chiều cao, cân nặng, tuổi, cholesterol…)

– Biến số rời rạc: gồm biến số nhị phân (có, không) biến số phân nhóm theo định tính (tốt, vừa, xấu)

Page 6: Nhập số liệu nghiên cứu

Dữ liệu phân tích1. Dữ liệu phân tích phải được nghiên cứu kỹ lưỡng trước khi

bắt tay vào thu thập số liệu đầu tiên.

2. Các dữ liệu sau khi đã thu thập phải được lưu trữ trong dạng bảng vi tính hóa, tùy theo quy mô của nghiên cứu (micro-access, hoặc với số liệu nhỏ, đơn giản và hiệu quả là file xcel)

3. Mã số của dữ liệu nên thiết kế trước từ khi lập bộ câu hỏi nghiên cứu và để đi kèm với bộ câu hỏi nghiên cứu.

4. Cần nhập số liệu mới thu thập được sớm để có thể nhận dạng các yếu tố bất hợp lý phát sinh trong quá trình mã hóa và nhập dữ liệu.

5. Kiểm tra chéo số liệu đã nhập, đảm bảo chính xác trước khi bắt tay vào phân tích.

6. Cần phải có những phân tích nhanh (interim) tạm thời để xem số liệu thu thập được có tin cậy và hợp lý không.

Page 7: Nhập số liệu nghiên cứu

Nghiên cứu kỹ số liệu trước• Tham khảo y văn về chủ đề liên quan, xem cách thức

thu thập số liệu như thế nào, cách trình bày số liệu như thế nào.

• Thí dụ: Tuổi: trẻ nhỏ dưới 5 tuổi, tính bằng tháng, từ 5 tuổi trở lên tính bằng năm cho đến ngày thu thập số liệu.

• Do đó “khôn ngoan” nhất là nên hỏi ngày tháng năm sinh của đối tượng chứ không nên hỏi bao nhiêu tuổi là cách để giảm thiểu sai số qua nhiều giai đoạn.

• Và khi đó ngày ghi nhận số liệu (ngày phỏng vấn, hoặc ngày xuất hiện bệnh, hoặc ngày chết…) có khi là một dữ kiện “phụ” nhưng lại đóng một vai trò quan trọng phải để vào trong bộ câu hỏi thu thập số liệu.

Page 8: Nhập số liệu nghiên cứu

Ghi nhận và nhập số liệu• Các số liệu ghi nhận và nhập luôn luôn phải giữ ở

dạng số liệu thô, như trong bộ câu hỏi.

• Không nhập số liệu cần phải thông qua quá trình tính toán vào trong bảng dữ liệu gốc. Thí dụ: chỉ số trọng lượng cơ thể (BMI) là được ước tính là cân nặng (kg)/ chiều cao bình phương (m2), do đó chỉ nhập số liệu cân nặng (kg) và chiều cao (cm); BMI sẽ được ước tính sau, chứ không nên tính BMI rồi nhập vào bảng số liệu để đảm bảo tính nhất quán trong tính toán tránh error và bias.

Page 9: Nhập số liệu nghiên cứu

Dữ kiện cần thu thập và lưu trữ

id ngaysinh (1)

ngaychet (2)

ngaypvan (3)

phatbenh

(4)

1 03/11/82 12/03/07 12/07/06 04/01/07

2 09/02/80 12/05/07 12/06/06 05/02/07

3 23/04/90 05/06/06

4 05/03/91 18/10/06 14/07/06

Số liệu thu thập và nhập bảng lưu trữ

id phantich (5)

tuoi

(6)

chet

(7)

benh

(8)

tgtheodoi

(7)

1 30/06/07 (3) - (1) 1 1 (4) - (3)

2 30/06/07 (3) - (1) 1 1 (4) - (3)

3 30/06/07 (3) - (1) 0 0 (5) - (3)

4 30/06/07 (3) - (1) 1 0 (2) – (3)

Số liệu tính toán

Page 10: Nhập số liệu nghiên cứu

Ví dụ thực hành trên RHồ sơ dữ liệu “hoso” save ở dạng file hoso.csv, các trường ngày tháng được

định dạng trong cvs là “yyyy-mm-dd” (tức là năm-tháng-ngày)

Để đọc dữ liệu hoso này trên R thì dùng lệnh ‘read.csv’ như sau:

hoso <- read.csv("C:/DOES/NGUYEN/LECTURES/VN Epi workshop 2007/Data/Kien Giang/hoso.csv", header=T, na.strings=‘NA')

hoso

id ngaysinh ngaychet ngaypvan phatbenh1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-042 2 1980-02-09 2007-05-12 2006-06-12 2007-02-053 3 1990-04-23 2006-06-05 4 4 1991-03-05 2006-10-18 2006-07-14

#Kiem tra ngay thanglibrary(date)is.date(hoso$ngaysinh)[1] FALSE

# Định dạng lại ngảy tháng

Page 11: Nhập số liệu nghiên cứu

Ví dụ thực hành trên Rhoso$ngaysinh <- as.Date(hoso$ngaysinh)hoso$ngaychet <- as.Date(hoso$ngaychet)hoso$ngaypvan <- as.Date(hoso$ngaypvan)hoso$phatbenh <- as.Date(hoso$phatbenh)# Xac dinh ngay phan tichhoso$phantich <- Sys.Date() # Ngay hom nayhoso$tuoi1 <- hoso$ngaypvan-hoso$ngaysinhhoso id ngaysinh ngaychet ngaypvan phatbenh phantich tuoi11 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2007-07-16 8652 days2 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 2007-07-16 9620 days3 3 1990-04-23 2006-06-05 <NA> 2007-07-16 5887 days4 4 1991-03-05 2006-10-18 2006-07-14 <NA> 2007-07-16 5610 days

Vì ở đây tuổi được tính bằng ngày, nên cần phải tính lại

Page 12: Nhập số liệu nghiên cứu

Ví dụ thực hành trên R

hoso$tuoi <- round(as.numeric((hoso$ngaypvan-hoso$ngaysinh)/365),0)

hoso id ngaysinh ngaychet ngaypvan phatbenh phantich tuoi1 tuoi

1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2007-07-16 8652 days 24

2 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 2007-07-16 9620 days 26

3 3 1990-04-23 <NA> 2006-06-05 <NA> 2007-07-16 5887 days 16

4 4 1991-03-05 2006-10-18 2006-07-14 <NA> 2007-07-16 5610 days 15

# Xac dinh tinh trang chet va phat benhhoso$chet <- ifelse(is.na(hoso$ngaychet),0,1)hoso$benh <- ifelse(is.na(hoso$phatbenh),0,1)# Tinh thoi gian theo doi# Chu y:# Co benh thi tinh den ngay phat benh#Khong benh: Chet tinh den ngay chet#Khong benh: khong chet, tinh den ngay phan tich#Do do:hoso$tgtheodoi[hoso$chet==1 & hoso$benh==0] <- hoso$ngaychet-hoso$ngaypvanhoso$tgtheodoi[hoso$chet==0 & hoso$benh==0] <- hoso$phantich-hoso$ngaypvanhoso$tgtheodoi[hoso$benh==1] <- hoso$phatbenh-hoso$ngaypvan

Page 13: Nhập số liệu nghiên cứu

Ví dụ thực hành trên Rhoso id ngaysinh ngaychet ngaypvan phatbenh phantich1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2007-07-162 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 2007-07-163 3 1990-04-23 <NA> 2006-06-05 <NA> 2007-07-164 4 1991-03-05 2006-10-18 2006-07-14 <NA> 2007-07-16

tuoi1 tuoi chet benh tgtheodoi1 8652 days 24 1 1 176 days2 9620 days 26 1 1 238 days3 5887 days 16 0 0 369 days4 5610 days 15 1 0 243 days

Từ các thông số “thô” ban đâu, chúng ta có thể tính toán được các biến cần thiết dùng để phân tích mà không bị lỗi do quá trình nhập số liệu

Page 14: Nhập số liệu nghiên cứu

Tiêu đề, ‘text’ của bảng số liệu

• Ngắn, không có dấu cách, dễ nhớ, dễ gõ bằng bàn phím, không có dấu tiếng việt, hạn chế chữ IN HOA.

• Hint: nên sử dụng ba chữ cái đầu hoặc hai chữ cái đầu và cuối.

– stt: số thứ tự

– hatth: huyết áp tâm thu; hattr: huyết áp tâm trương.

– ccao: chiều cao; can/cnang: cân nặng

• Cần phải có một hồ sơ lưu trữ chú thích các mã mình đã sử dụng trong tiêu đề cũng như nội dung của bảng số liệu một cách chi tiết.

Page 15: Nhập số liệu nghiên cứu

Ví dụ

stt Họ Tên ngày sinh noisinh

1 Trần Nguyên 12/03/2000 camau

2 Nguyễn Ngọc 23/04/1999 cantho

3 Phạm Hoang 11/02/2003 vinhlong

4 Ngo Huyen 10/10/1996 chaudoc

5 Tran Tuan 3/03/2001 sadec

Đây là file lưu trữ trên csv

stt H. Tên ngày.sinh noisinh1 1 Tr?n Nguyên 12/03/2000 camau2 2 Nguy?n Ng?c 23/04/1999 cantho3 3 Ph?m Hoang 11/02/2003 vinhlong4 4 Ngo Huyen 10/10/1996 chaudoc5 5 Tran Tuan 3/03/2001 sadec

Đây là file khi đọc trên hệ thống phân tích (R)

Page 16: Nhập số liệu nghiên cứu

Nghiên cứu kỹ số liệu trước• Một ví dụ khác: Xác định chiều cao của đối tượng, nếu

mô tả trong phương pháp là sai số đến 0.1cm thì khi thu thập số liệu nên lấy chỉ số đến 1 số thập phân (155.5cm).

• Trong khi đó BMI thì được tính toán không có số thập phân, nên cần phải làm tròn số liệu.

• Cần cân nhắc mã hóa hoặc câu trả lời của đối tượng nghiên cứu phải phủ hết vùng (spectrum) của câu hỏi.

• Thí dụ: rất thích, thích, bình thường, không thích, rất ghét…nhưng còn phải cân nhắc đến tình huống ‘không có ý kiến’ hoặc ‘không muốn trả lời’, vẫn là một khả năng để phân tích.

Page 17: Nhập số liệu nghiên cứu

Mã số liệu đi kèm câu hỏi• Trong năm qua ông/bà có bị té ngã không?

– Không (0)– Có (1)

• Cảm giác của ông/bà tại vết mổ sau khi hồi tỉnh 3 tiếng?– không đau (0)– đau ít (1)– đau vừa (2)– rất đau (3)

Đối với các biến số phân nhóm, có thể đặt mã trước cùng với bộ câu hỏi.Mã số nên đặt: cho biến nhị phân: không (0), và có (1) cho biến biểu thị mức độ: 0,1,2,3…tuỳ theo tình huốngNhưng không cần thiết. Nhập số liệu thô, và có thể mã hoá lại sau

Page 18: Nhập số liệu nghiên cứu

Mã hoá số liệuhoso3 id gioitinh dausaumo1 1 nam rat dau2 2 nu dau it3 3 nu khong dau4 4 nam dau vua5 5 nam rat dau

hoso3$gioitinh.1 <- ifelse(hoso3$gioitinh =="nam",1,0)hoso3$dausaumo.1[hoso3$dausaumo=="khong dau"] <- 0hoso3$dausaumo.1[hoso3$dausaumo=="dau it"] <- 1hoso3$dausaumo.1[hoso3$dausaumo=="dau vua"] <- 2hoso3$dausaumo.1[hoso3$dausaumo=="rat dau"] <- 3hoso3 id gioitinh dausaumo gioitinh.1 dausaumo.11 1 nam rat dau 1 32 2 nu dau it 0 13 3 nu khong dau 0 04 4 nam dau vua 1 25 5 nam rat dau 1 3

Page 19: Nhập số liệu nghiên cứu

Biến (yếu tố) cùng đặc tính

Luôn luôn để các biến có cùng đặc tính vào trong cùng một cột số liệu

id gioitinh tuoinam tuoinu

1 nam 232 nu 333 nam 314 nu 42

id gioitinh tuoi1 nam 232 nu 333 nam 314 nu 42

Page 20: Nhập số liệu nghiên cứu

Ví dụ về tính toán dữ kiện: BMI

id cannang chieucao1 1 55.2 155.52 2 50.3 147.33 3 46.1 149.64 4 70.0 160.25 5 52.5 154.4

hoso2$bmi1 <- hoso2$cannang/((hoso2$chieucao/100)^2)hoso2 id cannang chieucao bmi11 1 55.2 155.5 22.828552 2 50.3 147.3 23.182623 3 46.1 149.6 20.598604 4 70.0 160.2 27.275525 5 52.5 154.4 22.02240

hoso2$bmi2 <- round(hoso2$cannang/((hoso2$chieucao/100)^2),0)hoso2 id cannang chieucao bmi1 bmi21 1 55.2 155.5 22.82855 232 2 50.3 147.3 23.18262 233 3 46.1 149.6 20.59860 214 4 70.0 160.2 27.27552 275 5 52.5 154.4 22.02240 22

Việc tính toán và làm tròn BMI có thể thực hiện dễ dàng và không sai số

BMI= cân nặng (kg)/chiều cao (m)^2

Page 21: Nhập số liệu nghiên cứu

Lưu trữ số liệuid can tgian nhietdo hoatan mo nluong1 nluong2 canximau

1 36.98 5.1 400 51.37 4.24 1484.83 2227.25 2.06

2 13.74 26.4 400 72.33 30.87 289.94 434.90 1.33

3 10.08 23.8 400 71.44 33.01 320.79 481.19 0.97

4 8.53 46.4 400 79.15 44.61 164.76 247.14 0.62

5 36.42 7.0 450 80.47 33.84 1097.26 1645.89 0.22

6 26.59 12.6 450 89.90 41.26 605.06 907.59 0.76

7 19.07 18.9 450 91.48 41.88 405.37 608.05 1.71

8 5.96 30.2 450 98.60 70.79 253.70 380.55 3.93

9 15.52 53.8 450 98.05 66.82 142.27 213.40 1.97

… … … … … … … … …

25 11.19 11.5 450 77.88 25.20 663.09 994.63 1.61

26 75.62 5.2 470 75.50 8.66 1464.11 2196.17 4.78

27 36.03 10.6 470 83.15 22.39 720.07 1080.11 5.88

Page 22: Nhập số liệu nghiên cứu

Định dạng (format) trường ngày thángChọn (highlight) toàn bộ cột có ngày tháng, sau đó click chuột phải > format cell > Date > nên chọn ‘2001-03-14’ > bấm OK. Tương tự các trường khác tuỳ chọn.

Page 23: Nhập số liệu nghiên cứu

Lưu trữ file dữ liệuViệc đầu tiên là chúng ta cần làm, như nói trên, là vào Excel để lưu dưới dạng csv: Vào Excel, chọn File \ Save as Chọn Save as type “CSV (Comma delimited)”  

Page 24: Nhập số liệu nghiên cứu

Lưu lệnh R ở đâu? Tinn-RĐịa chỉ để tải ở đây: http://www.sciviews.org/Tinn-R/và tải chỗ này: Setup for Tinn-R, old stable version (1.17.2.4) (.exe, 5.2 Mb) compatible with Rgui in SDI or MDI mode, with SciViews R Console and with S-PLUS.

Kích hoạt Tinn-R cùng với RChọn R ở đâyGõ lệnh trên Tinn-RGửi lệnh đến R ơ đây

Page 25: Nhập số liệu nghiên cứu

Muốn lưu lại file dữ liệu vừa mới thao tác?hoso id ngaysinh ngaychet ngaypvan phatbenh phantich1 1 1982-11-03 2007-03-12 2006-07-12 2007-01-04 2007-07-162 2 1980-02-09 2007-05-12 2006-06-12 2007-02-05 2007-07-163 3 1990-04-23 <NA> 2006-06-05 <NA> 2007-07-164 4 1991-03-05 2006-10-18 2006-07-14 <NA> 2007-07-16

tuoi1 tuoi chet benh tgtheodoi1 8652 days 24 1 1 176 days2 9620 days 26 1 1 238 days3 5887 days 16 0 0 369 days4 5610 days 15 1 0 243 days

Thí dụ muốn lưu lại file này để có thể mở nhanh lại lần sau, cũng nên lưu bằng file đuôi ‘.csv’.Dùng lệnh:write.table(hoso,file="C:/duong dan/hosoluu.csv")

Page 26: Nhập số liệu nghiên cứu

Vài điểm quan trọng

• Thiết kế bộ câu hỏi đi kèm với các mã cần thiết.

• Nhập toàn bộ số liệu thu thập được ngay vào hồ sơ điện tử, chỉ nhập các số liệu thô có trong bộ câu hỏi, không tính toán.

• Lưu file hồ sơ gốc bằng ‘.csv’ và luôn luôn phải có một file dự trữ.

• Nếu chưa quen, chỉ làm việc trên file copy.

Page 27: Nhập số liệu nghiên cứu

Lời Cảm tạ

• Chúng tôi xin chân thành cám ơn Công ty Dược phẩm Bridge Healthcare, Australia đã tài trợ cho chuyến đi.