84
CC Y TDPHÒNG MÔI TRƯỜNG 2009 SPSS TÀI LIU TP HUN THNG KÊ VÀ XLÝ SLIU . N I

Spss_Than Khao SPSS12

Embed Size (px)

Citation preview

Page 1: Spss_Than Khao SPSS12

CỤC Y TẾ DỰ PHÒNG VÀ MÔI TRƯỜNG

2009

SPSS

TÀI LIỆU TẬP HUẤN THỐNG KÊ VÀ XỬ LÝ SỐ LIỆU

.

H À NỘ I

Page 2: Spss_Than Khao SPSS12

MỤC LỤC

STT trang

1 Quản lý số liệu - biến phân loại (biến định tính) 1

2 Quản lý số liệu - biến liên tục (biến định lượng) 15

3 Thống kê mô tả 27

4 Thống kê cho biến số định lượng – nghiên cứu cắt ngang (Bộ số liệu

IVF)

42

5 Thống kê phân tích – Biến phân loại 62

Page 3: Spss_Than Khao SPSS12

1

Quản lý số liệu - biến phân loại

(biến định tính) Tài liệu giảng dạy: Giáo trình thống kê Y tế Công Cộng- phần 2, Phân tích

số liệu. Nhà xuất bản Y học xuất bản năm 2005 với bộ số liệu biostats2. sav

Tài liệu này được viết dựa trên sử dụng bộ số liệu Chilumba.sav. Cả hai bộ số

liệu này được đăng tải trên website của môn học

Quản lý số liệu là các thao tác được tiến hành trên số liệu trước khi tiến hành

phân tích số liệu và sau khi hoàn thành thu thập số liệu tại cộng đồng. Quá trình

quản lý số liệu bao gồm:

1. Mã hóa số liệu

2. Nhập số liệu

3. Kiểm tra và làm sạch số liệu.

Quản lý số liệu là một bước quan trọng trong quá trình phân tích số liệu và ảnh

hưởng đến kết quả nghiên cứu. Trước khi bước vào việc quản lý số liệu bạn

nên kiểm tra lại số liệu thô (số liệu trên phiếu) trước khi nhập vào máy tính.Bạn

phải đảm bảo rằng những điều tra viên đã điền đúng vào bảng hỏi của bạn (họ

có thể điền hai hoặc nhiều hơn hai lựa chọn cho một ý câu hỏi đơn lựa chọn).

Sau khi đã hoàn thành công đoạn làm sạch thô trên phiếu hỏi, bạn bắt đầu tiến

hành mã hóa số liệu.

I. Mã hóa số liệu là quá trình số hóa các giá trị hoặc mức của biến. Sau

đây là một vài quy tắc chúng ta nên tham khảo và cân nhắc khi tiến hành mã

hóa số liệu:

1. Tất cả số liệu nên để dạng số. Trên thực tế chúng ta có thể sử dụng chữ hoặc

câu (biến dạng ký tự) như là một dạng số liệu ký tự. Tuy nhiên trong SPSS

chúng ta không nên lạm dụng cách dùng này. Để tránh dùng các biến có dạng

ký tự chúng ta nên mã hóa nó dạng số. Ví dụ như biến Giới tính (gender), một

quan sát có thể là nam hoặc nữ. Vậy chúng ta có thể mã hóa lại như sau:

1 : Nam

Page 4: Spss_Than Khao SPSS12

2

2: Nữ.

Lưu ý rằng bạn phải nhất quán trong nghiên cứu cách mã hóa giống nhau và

chọn một cách mã hóa cho tất cả các đối tượng tham gia nghiên cứu. Hơn thế

nữa, sử dụng codebook cũng la fmột cách giúp cho nhà phân tích và những

người khác hiểu được số liệu ở đây được mã hóa như thế nào.

2. Các giá trị mã của một biến phải không trùng nhau: tức một biến của mỗi

quan sát chỉ nhận một giá trị hoặc một danh sách các giá trị. Trên thực tế, trong

bộ câu hỏi thường chia làm hai loại: câu hỏi một lựa chọn và câu hỏi nhiều lựa

chọn. Đối với câu hỏi một lựa chọn thì câu hỏi đó được thể hiện là một biến và

có giá trị là một trong những phương án trả lời. Còn đối với câu hỏi nhiều lựa

chọn thì mỗi phương án trả lời thành một biến và mỗi biến nhận giá trị có (nếu

trả lời phương án đó) và không (nếu không trả lời phương án đó).

Ví dụ:

- Đối với câu hỏi giới tính: Giới tính của người tham gia phỏng vấn

1: nam

2: nữ

thì chúng ta chỉ cần một biến gender, biến này có hai giá trị 1 và

2.

- Đối với câu hỏi : anh/chị đã nghe thông tin về phòng chống HIV ở đâu:

1. Từ phương tiện thông tin đại chúng (tivi, đài)

2. Từ sách báo tạp chí

3. Từ hệ thống phát thanh của phường

4. Từ cán bộ y tế/ cán bộ phụ nữ

5. Bạn bè/người thân

6. Khác (…)

Trong trường hợp này thì một người có thể nghe thông tin từ nhiều nguồn cho

nên là câu hỏi nhiều lựa chọn. Để thể hiện được thông tin của biến này thì khi

mã hóa để nhập số liệu chúng ta phải chia câu trả lời này thành 6 biến

(c41,c42,c43,c44,c45,c46) và mỗi biến tương ứng với mỗi nguồn thông tin.

Nếu người nào trả lời là từ phương tiện thông tin đại chúng thì C41 có giá trị là

Page 5: Spss_Than Khao SPSS12

3

1. Người nào vừa trả lời là vừa từ bạn bè người thân vừa từ tạp chí sách báo thì

C42 có giá trị là 1 và C45 cũng có giá trị bằng 1.

Mỗi biến nên được mã hóa sao cho tối đa hóa thông tin. Hãy cố gắng đừng gộp

các mục phân loại và các giá trị của các biến lại với nhau khi tiến hành mã hóa

số liệu. Nếu bạn thấy cần phải gộp thì hãy tiến hành gộp khi phân tích số liệu

bằng máy tính. Trong tường hợp lý tưởng thì thông tin nhập vào máy tính càng

chi tiết càng tốt. Các thông tin như tính chỉ số BIM hay là nhóm tuổi nên thực

hiện sau này. Nếu ngược lại, bạn nhóm các thông tin lại với nhau rồi nhập số

liệu, nếu khi bạn phân tích bạn thay đổi các nhóm hoặc cách tính thì bạn không

có thông tin và phải nhập lại toàn bộ số liệu.

3. Mỗi một biến của mỗi trường hợp/ quan sát phải nằm trên cùng một cột của

số liệu SPSS. Trong SPSS các thông tin của mỗi quan sát chỉ nằm trên một

dòng và mỗi cột chứa thông tin của một biến. Bạn nên đặt tên biến ngắn, dễ

nhớ và theo một quy tắc nhất định. Không nên đặt tên biến bằng tiếng Việt vì

máy tính không nhận được.

4. Mỗi biến của mỗi quan sát phải có mã hoặc giá trị biến. Các mã này phải

dạng số ngoại trừ những biến bị thiếu thông tin. Bạn nên để trống cho những

biến không có thông tin vì SPSS sẽ tự động nhận các giá trị trống là giá trị

missing (chỉ ra biến bị thiếu thông tin). Tuy nhiên thì nhiều khi chúng ta để

missing sẽ làm cho việc phân tích số liệu sau này khó hơn, đặc biệt là trong

những trường hợp missing là do không phù hợp thì bạn nên mã hóa 98 (không

phù hợp) hoặc 99 (missing) cho các trường không phải là giá trị của biến.

5. Áp dụng các quy tắc về thống nhất số liệu của tất cả các quan sát. Điều này

có có nghĩa là bạn thống nhất một mã cho tất cả các quan sát cùng trả lời một

câu hỏi, bỏ thiếu thông tin một câu hỏi. Lưu ý này rất quan trọng cho những

câu hỏi nhiều lựa chọn nếu bạn 1 là có, 0 là không cho lựa chọn đó thì phải

thống nhất trên toàn bộ số liệu hoặc trong câu hỏi đó.

6. Nên sử dụng các giá trị cao cho những câu trả lời có thứ tự. Bạn nên code

giá trị 1 cho không đồng ý và 5 cho rất đồng ý. Tuy nhiên bạn không sai nếu

mã hóa ngược lại nhưng nó có thể làm bạn nhầm lẫn khi đọc ý nghĩa.

Page 6: Spss_Than Khao SPSS12

4

1 Chi tiết cụ thể về phần mã hóa số liệu, hãy đọc phần 2.2.1 Xử lý và

nhập số liệu trong Giáo trình Thống kê Y tế Công cộng phần 2 (trang 12 -

17).

II. Nhập số liệu

Sau khi số liệu được mã hóa, chúng được nhập vào máy tính để chuẩn bị cho

quá trình phân tích số liệu. Hiện nay có nhiều phần mềm có thể hỗ trợ trong

quá trình nhập số liệu. Với những số liệu lớn chúng ta có thể sử dụng các phần

mềm quản lý số liệu chuyên nghiệp như Microsoft Access, Oracle,… .Với

những phần mềm nhỏ chúng ta có thể sử dụng Epidata, Epi Info là những phần

mềm miễn phí để nhập liệu.

Chất lượng của một bộ số liệu được quyết định bởicông tác thu thập số liệu và

nhập liệu. Các lỗi có thể mắc trong quá trình nhập liệu là nhập liệu sai hoặc đọc

nhầm. Để giảm các lỗi này trong quá trình nhập liệu thì chúng ta có thể chọn

một trong những chiến lược nhập số liệu sau đây:

- Hai người nhập số liệu và tiến hành so sánh. Nếu lượng thông tin sai

khác của hai người quá lớn thì tiến hành nhập lại

- Một người nhập số liệu rồi lấy ra ngẫu nhiên khoảng 20% phiếu để kiểm

tra. Nếu thấy sai khác quá nhiều cũng phải nhập lại

- Dùng các thiết bị hiện đại: Máy quýet tự động.

1 Đọc thêm phần 2.2.2 Nhập số liệu, Giáo trình Thống kê Y tế Công

cộng, phần 2 năm 2005 (trang 17 và 18)

III. Kiểm tra và làm sạch số liệu

SPSS có hai cửa sổ màn hình là Data view và Variable View bên cạnh các cửa

sổ khác như là Output, syntax. Cửa số Data view hiện thị số liệu trong bộ số

liệu mà bạn đang mở và Variable view hiện thị biến và những đặc tính của các

biến trong bộ số liệu đang mở.

Bộ số liệu Chilumba gồm các biến số có chi tiết như sau:

Id (tên biến) Identity number Mã số

Caco (bệnh) 1=case, 0=control 1=bệnh, 0=chứng

Page 7: Spss_Than Khao SPSS12

5

Agegrp (nhóm

tuổi)

Age group: 1=1/14 2=15/24 3

= 25/34 4 = 35-44 5 = 45+

Nhóm tuổi: 1=1/14 2=15/24 3 =

25/34 4 = 35-44 5 = 45+

Sex (giới thiệu) 0=male, 1=female 0=nam, 1=nu

Bcgscar (chủng

ngừa BCG)

0=no, 1=yes 0=không, 1=có

School (học

vấn)

Duration of schooling: 1=none

2=1-3 year 3=4-6 year 4=7+

year

Học vấn : 1=không 2=1-3 năm

3=4-6 năm 4=7+ năm

Mbcont (tiếp

xúc phong u)

Contact with MB case Tiếp xúc với phong u (có nhiều

vi khuẩn)

Pbcont (tiếp

xúc phong củ)

Contact with PB case Tiếp xúc với phong củ (có ít vi

khuẩn)

Sau khi số liệu được nhập vào SPSS bạn nên tiến hành kiểm tra số biến, nhãn

biến và loại biến. Khi bạn nhập ở một phần mềm khác rồi sau đó chuyển sang

SPSS thì tuỳ vào phần mềm mà loại biến nhãn biến có thể bị thay đổi. Bạn nên

thay đổi loại biến bằng cách mở cửa sổ Variable view. Sau đó cửa sổ màn hình

sau sẽ hiện thị ra. Bạn kiểm tra dạng biến ở cột type (vòng tròn màu đỏ).

Nếu bạn muốn chuyển kiểu biến hãy kích chuột vào dấu ba chấm tại biến mà

bạn muốn chuyển. Khi đó cửa sổ kiểu biến sẽ hiện ra như sau và bạn chọn loại

biến tương ứng.

Page 8: Spss_Than Khao SPSS12

6

Nếu bạn muốn chuyển kiểu đo lường của biến định lượng (có ba loại đo lường

chính scale – tỷ số; ordinal – thứ bậc, norminal – định danh) thì bạn kích vào

dấu “v” trong cột Measure của biến mà bạn muốn thay đổi (vòng tròn màu

xanh).

Khi đó cửa sổ sau sẽ hiện ra và bạn chọn lọai đo lường phù hợp với biến của

bạn.

2 Dựa vào mã của các giá trị bên cột mã biến: hãy chuyển kiểu đo lường

cho tất cả các biến trong bộ số liệu Chilumba. Sav thành dạng thích hợp

Page 9: Spss_Than Khao SPSS12

7

Sau khi hoàn thành phần kiểm tra loại biến và dạng đo lường của biến, chúng ta

chuyển sang phần dán nhãn cho biến. Ở đây chúng ta có hai loại nhãn: Nhãn

của biến và nhãn của giá trị. Nhãn của biến lược thể hiện ở cột label của biến

đó còn nhãn của giá thể hiện ở cột values tương ứng. Để thay đổi nhãn của

biến, bạn nháy đúp chuột vào cột label của biến đó và gõ vào. Để thay đổi/

thêm giá trị của nhãn giá trị của biến bạn kích vào nút của biến đó và cửa sổ

sau sẽ hiện ra:

Bạn nhập giá trị của biến vào rồi kích add vào cửa sổ. Bạn thao tác cho khi

hoàn thành hết các mã của biến đó.

2 Dựa vào mã của các giá trị bên cột mã biến: hãy dán nhãn cho tất cả

các biến trong bộ số liệu Chilumba. Sav

1 Chi tiết thông tin về phần này tham khảo phần xem bộ số liệu trong

SPSS, Giáo trình Thống kê y tế công cộng phần 2 (trang 18-20)

Sau đó bạn tiến hành các khai báo với các giá trị missing. Nếu trong số liệu bạn

sử dụng các mã 98 hay 99 để thể hiện quan sát bị missing thì bạn sẽ khai báo

cho SPSS có thể hiểu được. Ngược lại, nếu bạn không khai báo mà chỉ để None

trong cột missing của biến đó thì SPSS sẽ hiểu đó là giá trị của quan sát đó. Đế

khai báo missing bạn kích vào cột missing của ô đó:

Page 10: Spss_Than Khao SPSS12

8

Sau đó có một cửa sổ nhỏ Missing values hiện ra, bạn chọn Dicrete missing

value và nhập vào những giá trị mà bạn đã mã hóa là missing.

Ngòai ra, trong cửa sổ Variable view còn cho phép bạn thay đổi số ký tự sau

dấu phấy của biến có dạng thập phân (decimal) và các tính chất khác của biến.

Chi tiết phần này bạn có thể tham khảo Menu Help của SPSS.

Bây giờ bạn đã định nghĩa và dán nhãn cho biến xong, bạn có thể in ra một

codebook, đó như là một từ điển cho số liệu của bạn. Việc này rất hữu ích vì nó

giúp bạn lưu lại những gì bạn đã thực hiện.. Để có codebook bạn dùng File

→Display Data File Information→ Working File

Page 11: Spss_Than Khao SPSS12

9

Về cơ bản những thông tin trong codebook giống như là các thông tin được thể

hiện trong màn hình Variable view. Và kết quả được thể hiện như sau:

Variable Information

Variable Position Label Measurement

Level Column Width Alignment

Print Format

Write Format

id 1

Identity number

Scale 8 Right F9.2 F9.2

caco 2

1=case, 0=control

Unknown 8 Right F8 F8

agegrp 3 Age group Unknown 8 Right F8 F8

sex 4

0=male, 1=female

Unknown 8 Right F8 F8

bcgscar 5 0=no, 1=yes Unknown 8 Right F8 F8

school 6

Duration of schooling

Unknown 8 Right F8 F8

mbcont

7 Contact with MB case

Unknown 8 Right F8 F8

pbcont

8 Contact with PB case

Unknown 8 Right F8 F8

Variables in the working file Variable Values

Page 12: Spss_Than Khao SPSS12

10

Value Label

caco 1 Case

2 Control

sex 0 Male

1 Female

bcgscar 0 No

1 Yes

’’’’Kết quả này trích từ SPSS 15.0. Nếu bạn dùng bản cao hoặc thấp hơn thì

kết quả có thể được trình bày hơi khác một chút nhưng lượng thông tin thì cũng tương tự. Làm sạch số liệu:

Mặc dù số liệu được kiểm sóat từ khi thu thập và nhập số liệu, nhưng số liệu có

thể còn nhiều sai sót nên vệc làm sạch bao giờ cũng là một khâu bắt buộc trước

khi phân tích số liệu. làm sạch số liệu gồm thực hiện các thao tác kiểm tra tính

phù hợp của số liệu, tính nhất quán và các giá trị bất thường trong bộ số liệu.

Đối với các biến định tính, để kiểm tra và làm sạch số liệu, chúng ta sử

dụng Bảng phân phối tần số - Lệnh Frequencies

Lệnh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies

Lệnh này chủ yếu dùng cho các biến phân loại

Page 13: Spss_Than Khao SPSS12

11

Sau đó cửa sổ màn hình sau đây sẽ hiện ra:

Bạn chọn biến mà bạn cần phải kiểm tra kích chuyển sang ô Variable và

kích Ok

Kết quả của câu lệnh này là:

Statistics

1260 1260 1260

0 0 0

Valid

Missing

N

1=case,

0=control

0=male,

1=female 0=no, 1=yes

Page 14: Spss_Than Khao SPSS12

12

Frequency Table

1=case, 0=control

1008 80.0 80.0 80.0

252 20.0 20.0 100.0

1260 100.0 100.0

0

case

Total

Valid

Frequency Percent Valid Percent

Cumulative

Percent

0=male, 1=female

571 45.3 45.3 45.3

689 54.7 54.7 100.0

1260 100.0 100.0

Male

Female

Total

Valid

Frequency Percent Valid Percent

Cumulative

Percent

0=no, 1=yes

744 59.0 59.0 59.0

516 41.0 41.0 100.0

1260 100.0 100.0

no

yes

Total

ValidFrequency Percent Valid Percent

Cumulative

Percent

Nhìn vào kết quả đầu ra ở đây bạn có thể tìm ra những giá trị không phù hợp

của bộ số liệu. Ví dụ như biến caco: biến ghi là 0: control 1: case (đã dán nhãn

phải như thế) nhưng đã dán nhãn nhầm là 1: case, 2 là control. Chúng ta phải

quay lại cửa sổ nhãn biến lúc đâu để chỉnh lại

Page 15: Spss_Than Khao SPSS12

13

Bạn thay số 2 ở Value và gõ vào số 0 rồi kích vào Change. Sau đó kích OK.

Ngòai ra câu lênh frequency cũng cho các bạn biến thông tin về giá trị missing

của các biến

Statistics

1260 1260 1260

0 0 0

Valid

Missing

N

1=case,

0=control

0=male,

1=female 0=no, 1=yes

1 Phần này bạn đọc chi tiết phần Kiểm tra những mã không phù hợp

trong giáo trình Thống kê Y tế công cộng, phần 2, Nhà xuất bản y học năm

2005 (trang 27-30)

Ngoài ra, căn cứ vào bộ câu hỏi mà bạn phải kiểm tra tính nhất quán của bộ số

liệu (Phần này bạn hãy đọc kỹ phần Kiểm tra tính nhất quán (trang 37- 40)

Giáo trình thống kê Y tế Công cộng phần 2); kiểm tra sự giống nhau của các

mã cá nhân (trang 25,26); Kiểm tra ngày thông tin của biến ngày tháng (trang

35-37) trong giáo trình trên.

Tài liệu tham khảo

Page 16: Spss_Than Khao SPSS12

14

1. George A Morgan và các đồng nghiệp, SPSS for Introductory statistics,

Use and interpretation, xuất bản lần thứ 2, Nhà xuất bản Lawrence

Erlbaum năm 2004.

2. Website: http://www.ats.ucla.edu/stat/spss/topics/data_management.htm

(truy cập ngày 23/01/08).

Page 17: Spss_Than Khao SPSS12

15

Quản lý số liệu - biến liên tục

(biến định lượng)

I. Quản lý số liệu cho biến liên tục

1.1 Tìm hiểu số liệu

2 Tải và lưu tập tin số liệu ivf.sav từ trang web elearning của khóa học vào máy

tính của bạn.

Nhấp chuột vào bộ số liệu ivf vừa tải về máy để mở tập tin. Nếu trên cửa sổ SPSS Data

Editor không phải ở chế độ “Data view” nhấp vào tab Data View ở góc dưới trái của cửa

sổ để vào chế độ này.

6Số liệu này bao gồm những biến số về những đứa trẻ sinh một của những bà mẹ

được thụ thai trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này đã được báo cáo trong tạp chí BMJ (1990;300:1229-1233). Tập tin này bao gồm 641 đứa trẻ. Bộ

số liệu này gồm có những biến số nào?

Hướng dẫn: Có nhiều cách để xác định này có bao nhiêu biến số. Nếu chúng ta ở trong

DataView, có thể tìm thấy tên biến ở hàng trên cùng của lưới số liệu tuy nhiên với cách

đó chúng ta không có chi biết về các biến số. Muốn biến về chi tiết của biến số chúng ta

có hai cách (a) sử dụng menu: Utilities/Variables để biết có bao nhiêu biến số, những

biến số đó là gì và có những tính chất gì hoặc (b) nhấp vào tab “Variable View”. Nếu

đang ở chế độ “Variable View” có thể chuyển qua chế độ “Data View” bằng cách nhấp

vào tab “Data View”.

Trả lời: Sau khi thực hiện những thao tác trên bạn có kết quả:

Số liệu này gồm 6 biến số có chi tiết như sau:

Page 18: Spss_Than Khao SPSS12

16

Stt Tên biến Nhãn biến Giải thích

1 Id identity number of mother and

baby

Mã số đối tượng

2 Matage maternal age in years Tuổi của mẹ (năm tuổi)

3 Ht hypertension 1=yes, 2=no Cao huyết áp thai kì 1= có 2 = không

4 Gestwks Gestational age in weeks Tuổi thai (tính theo tuần)

5 Sex sex of baby 1=male, 2=female Giới tính của trẻ 1=trai 2=gái

6 Bweight birth weight in gms Trọng lượng sinh tính theo grams

Lưu ý: Id là mã số đối tượng, do đó không phân tích về sau

6Tập tin này có bao nhiêu bản ghi?

Hướng dẫn: Để biết tập tin có bao nhiêu bản ghi, có thể lập bảng phân phối tần suất của

một biến số bất kì (thí dụ như biến sex) bằng cách nhấp vào Analyze/Descriptive

Statistics/Frequencies

Và bạn có kết quả :

Statistics

Sex of infant

641

0

Valid

Missing

N

Trả lời: tập tin này có 641 bản ghi và không có quan sát nào ở biến giới tính bị thiếu

thông tin cả.

6 Các giá trị của biến id, ht, sex, matage, bweight, matagegp và gestcat có 2 số lẻ

thập phân không cần thiết nên chúng ta hãy loại bỏ các con số thập phân này.

Hướng dẫn: để tạo nhãn cho các biến số, chuyển sang chế độ “Variable View” bằng

cách nhấp vào tab Variable View ở góc trái dưới màn hình. Nhấp con trỏ vào ô của hàng

id và cột Decimal ta thấy hiện lên một nút có mũi tên lên xuống hiện lên ở góc phải.

Nhấp vào nút mũi tên xuống sao cho giá trị của ô này (ô Decimal) bằng 0.

Page 19: Spss_Than Khao SPSS12

17

2 Thực hiện tương tự với các biến ht, sex, matage, bweight, matagegp và gestcat. (Chỉ

trừ biến gestwks là cần phải làm số chữ số thập phân).

6 Hãy tạo nhãn cho các biến số ht, sex, matagegp và gestcat

Hướng dẫn: để tạo nhãn cho các biến số, chuyển sang chế độ “Variable View” bằng

cách nhấp vào tab Variable View ở góc trái dưới màn hình. Nhấp con trỏ vào ô của hàng

ht và cột value ta thấy hiện lên một nút lệnh với 3 dấu chấm hiện lên ở góc phải. (Nếu

chúng ta nhấp vào phía bên phải của ô này thì cửa sổ Value labels sẽ hiện lên). Nhấp vào

nút lệnh này để hiện ra cửa số Value labels. Gán giá trị 1 là “cao huyet ap”.

Nhấn nút Add và tiếp tục gán giá trị 2 là “khong cao huyet ap”. Nhấp nút lệnh Add lần

nữa.

Nhấp vào nút lệnh OK để hoàn tất.

Page 20: Spss_Than Khao SPSS12

18

Tương tự đối với biến sex ta gán giá trị 1=”nam” 2=”nu”; biến matagegrp ta gán

1=”<30” 2=”30-34” ; 3=”35-39” ; 4=”40+” và gestcat 1 = “sinh non” 2 = “sinh du

thang”

Sau đó nhấp vào tab “Data View” để xem các giá trị đã mã hoá. Nếu các giá trị đã mã

hoá chưa xuất hiện, hãy chọn menu View/Variable Value để làm hiển thị các giá trị đã

mã hoá.

6 Lưu lại tập tin.

Hướng dẫn: Để lưu lại tập tin chúng ta có thể sử dụng một trong 3 cách sau: a) Nhấp vào

hình chiếc đĩa mềm trên Data Editor Toolbar b) Nhấn Ctrl-S c) Sử dụng menu File –

Save. Nếu chúng ta không muốn làm thay đổi giá trị của số liệu nguồn hãy lưu tập tin với

tên khác bằng cách sử dụng menu File/Save As.

1.2 Làm sạch số liệu cho biến liên tục

Trong làm sạch số liệu, chúng ta kiểm tra các lỗi có thể gặp sau đây:

- Các giá trị bất thường

- Kiểm tra việc nhập liệu

- Kiểm tra tính đồng nhất

1 Kiểm tra giá trị bất thường

Để kiểm tra giá trị bất thường của các biến số định lượng, chúng ta sử dụng:

- Các thông số thống kê tóm tắt: giá trị nhỏ nhất, giá trị lớn nhất

- Biểu đồ: đa giác tần số (histogram)

Các số thống kê tóm tắt

Để xem giá trị nhỏ nhất, lớn nhất, trung bình…chúng ta dùng lệnh Frequencies

(Analysis /Descriptives Statistics/Frequencies) và có màn hình lệnh như sau:

Page 21: Spss_Than Khao SPSS12

19

Lưu ý: bạn nên tắt tùy chọn Display frequency tables để kết quả của chúng ta không

có bảng phân bố tần số của từng giá trị- vì nó quá dài và không có ích trong trường

hợp này.

Hãy chọn biến mà bạn muốn tính và chuyển sang cửa sổ Variable(s). Trong trường hợp

này chúng ta chọn biến bweight rồi kích vào dấu để chuyển sang. Sau đó bạn hãy

kích vào tùy chọn Options và bạn có cửa sổ như sau hiện lên:

Kết quả của lệnh như sau:

Page 22: Spss_Than Khao SPSS12

20

Descriptive Statistics

641 630.00 4650.00 3129.5055

641

Birthweight

Valid N (listwise)

N Minimum Maximum Mean

Dựa vào con số nhỏ nhất, lớn nhất, chúng ta xem xét có giá trị bất thường nào hay không,

ví dụ nếu cân nặng khi sinh bằng 0 hoặc >6000 gram chẳng hạn. Trong trường hợp này,

không có số bất thường nào cả.

Biểu đồ

Chúng ta dùng đa giác tần số để kiểm tra liệu biến “trọng lượng sơ sinh” có giá trị bất

thường nào không.

Để vẽ đa giác tần số của biến trọng lượng sơ sinh, chúng ta hãy sử dụng menu Graphs –

Histogram. Chọn biến số bweight vào hộp Variable. Nhấp nút lệnh OK để hoàn tất.

Biểu đồ đa giác tần số của trọng lượng sơ sinh được thể hiện trong cửa sổ Output và có

dạng như sau. Nếu bạn muốn thể hiện đường cong phân bố chuẩn thì các bạn hãy kích

vào tùy chọn Display normal curve trong cửa sổ lệnh trên.

Page 23: Spss_Than Khao SPSS12

21

Khi đó, chúng ta sẽ xem trên biểu đồ có số liệu nào lớn bất thường hoặc nhỏ bất thường

hay không (xem ở vòng tròn đỏ).

6Hãy kiểm tra biến tuổi của mẹ những phụ nữ trong nghiên cứu này.

Hướng dẫn:

Bước 1: Dùng các số thống kê tóm tắt.

Để mô tả giá trị lớn nhất, nhỏ nhất, trung bình, và độ lệch chuẩn, trở lại các bước như mô

tả phần trên. Chọn Miximum (nhỏ nhất) và Maximum (lớn nhất), Mean (trung bình) và

Standard variable (độ lệch chuẩn), chúng ta có kết quả như sau:

Page 24: Spss_Than Khao SPSS12

22

Descriptive Statistics

641 23.00 43.00 33.9719 3.87046

641

Maternal age

Valid N (listwise)

N Minimum Maximum Mean Std. Deviation

Bảng này cũng cho thấy không có giá trị bất thường nào.

Bước 2: Hãy kiểm tra đa giác tần số của tuổi khi sinh của những bà mẹ trong nghiên cứu

theo các bước ở trên bạn sẽ có những kết quả sau

Đa giác tần số với đường cong phân bố chuẩn. Biểu đồ này cho thấy không có giá trị nhỏ

hoặc lớn bất thường nào.

6Nếu có giá trị bất thường, chúng ta phải làm gì:

Khi phát hiện có giá trị bất thường, chúng ta phải:

- So sánh với bộ số liệu gốc, nếu đúng như bộ số liệu gốc và số liệu là chính xác,

giữ nguyên.

Page 25: Spss_Than Khao SPSS12

23

- Nếu so với bộ số liệu gốc và thấy không đúng với giá trị trong bộ số liệu gốc, sửa

theo giá trị trong bộ số liệu gốc.

- Nếu không có bộ số liệu gốc và số lượng giá trị bất thường không quá nhiều (<5%

bộ số liệu), không phân tích các số liệu này.

- Nếu không có bộ số liệu gốc và số lượng giá trị bất thường nhiều (<5% bộ số

liệu), có thể sử dụng phân tích các số liệu này.

1 Kiểm tra việc nhập liệu

Kiểm tra việc nhập liệu được thực hiện khi nhập liệu với mục đích là đảm bảo việc nhập

liệu đầy đủ và chính xác. Thông thường:

- Nhập bộ số liệu hai lần bởi hai người khác nhau, sau đó so sánh hai bộ số liệu.

Cách này khó thực hiện đối với các bộ số liệu lớn do tốn nguồn lực và thời gian

- Nhập toàn bộ số liệu 1 lần, sau đó lấy khoảng 10 – 15% bộ số liệu nhập riêng và

so sánh hai nhóm.

1 Kiểm tra tính đồng nhất Ví dụ kiểm tra năm sinh để chắc rằng không có đối tượng nào có số tuổi âm.

1.3 Tạo biến số mới

Tạo biến số mới khi:

- Câu hỏi nghiên cứu không có biến sẵn có trong bộ số liệu, ví dụ câu hỏi nghiên

cứu “có bao nhiêu trẻ sinh đủ tháng và thiếu tháng?”, trong bộ số liệu, chúng ta chỉ

có biến tuổi thai tính theo tuần (biến định lượng) mà không có biến đủ tháng hay

thiếu tháng, do đó chúng ta phải tạo ra biến số này.

6 Hãy tạo ra các biến số mới theo yêu cầu sau:

Biến cần phải phân nhóm Tên biến Phân nhóm

Tuổi của mẹ phân nhóm matagegrp (1=<30; 2=30-34;3=35-39;4=40+)

Tuổi thai phân nhóm gestcat (1= <37 tuần; 2=37+tuần)

Page 26: Spss_Than Khao SPSS12

24

Hướng dẫn: Sử dụng Menu Transform/Recode/Into difference variables để mã hoá

biến matage thành biến matagegrp

Sau khi xuất hiện cửa sổ Recode into difference variables, chúng ta chọn biến matage

vào hộp Numeric variable và gõ tên matagegrp vào Output variable. Nhấn nút lệnh

Change. Sau đó nhấp vào nút lệnh Old and New Values để hiện ra cửa số: Recode into

difference variable: Old and New Values. Để mã hoá biến matage có giá trị từ tối thiểu

lên đến 29 thành biến matagegrp có giá trị là 1, chúng ta nhấp vào nút chọn Range

Lowest to và gõ vào hộp số Range Lowest to giá trị 29 và hộp Value (trong khung New

Value) giá trị 1 như trong hình sau.

Sau đó chúng ta nhấp vào nút lệnh Add và tiếp tục chọn nút chọn Range __ through __

với giá trị 1 là 30 và giá trị sau là 34. Hộp value ở khung New Value sẽ được nhận giá trị

2.

Page 27: Spss_Than Khao SPSS12

25

Nhấn nút lệnh Add. Thực hiện tương tự để mã hoá matage từ 35-39 là 3: tiếp tục nhấp

vào chọn nút chọn Range __ through __ với giá trị 1 là 35 và giá trị sau là 39. Hộp

value ở khung New Value sẽ được nhận giá trị 3. Nhấn nút lệnh Add.

Để mã hoá biến matage có giá trị từ 40 trở lên thành giá trị 4. Chọn nút chọn Range ___

through highest, và gõ giá trị 40 vào ô này. Hộp value ở khung New Value sẽ được

nhận giá trị 4. Nhấn nút lệnh Add. Khi đó chúng ta đã có đủ các yêu cầu mã hoá nằm

trong hộp Old->New.

Nhấp nút lệnh Continue để trở về cửa sổ Recode into Different Variable. Nhấp nút lệnh

OK để hoàn tất.

Page 28: Spss_Than Khao SPSS12

26

Lưu ý: Phải kiểm tra biến gốc trước khi tạo biến mới. Ví dụ:

Phải kiểm tra biến tuổi trước khi tạo biến nhóm tuổi. Nếu biến nhóm tuổi là tuổi chẵn

(tức là không có số thập phân sau dấu phẩy) như 30, 31, 32.. tuổi (không phải là 30.7

tuổi…), thì tạo biến mới như trên.

Nếu là tuổi lẻ (30,7 tuổi; 34,5 tuổi…) thì khi tạo biến mới như <30 tuổi, thì phải viết

“Lowest thru 29.99” như trên.

2 Tương tự, ta sử dụng Menu Transform - Recode – Into difference variables để mã

hoá biến gestwks thành biến gestcat.

Page 29: Spss_Than Khao SPSS12

27

Thống kê mô tả

1 Tìm hiểu số liệu

2 Tải và lưu tập tin số liệu So lieu NC THA.sav từ trang web elearning của khóa

học vào máy tính của bạn.

Số liệu này lấy từ nghiên cứu về tình trạng và các yếu tố nguy cơ của tăng huyết áp ở người cao tuổi

Sinh viên thực hiện quá trình làm sạch số liệu để tìm hiểu và chuẩn bị số liệu cho phân

tích.

2 Thống kê mô tả

Thống kê mô tả nhằm mục đích mô tả đối tượng nghiên cứu và những yếu tố nguy cơ

liên quan đến vấn đề nghiên cứu. Việc mô tả một cách rõ ràng và chính xác thông tin

của đối tượng nghiên cứu giúp cho những người đọc báo cáo kết quả nghiên cứu hiểu rõ

hơn đặc điểm của nghiên cứu và dân số nghiên cứu. Các thông tin được chọn để đưa ra

trong thống kê mô tả liên quan chặt chẽ đến những thông tin trong thống kê suy luận. Vì

vậy trước khi bạn tiến hành phân tích thống kê mô tả thì bạn phải xác định rõ các biến mà

bạn cần phải miêu tả hay nói một cách khác bạn phải có một kế hoạch phân tích rõ ràng.

1 Để tìm hiểu rõ cách lập kế hoạch phân tích cho toàn bộ báo cáo bạn hãy đọc

phần 3.2 và 3.3 trong Cuốn giáo trình Thống kê y tế Công cộng: phần 2 Phân tích số liệu (trang 48-51). Riêng phần lập kế hoạch cho phân tích mô tả bạn hãy đọc phần

3.4.1 trong tài liệu trên

2.1. Kế hoạch phân tích Một cách tóm tắt, kế hoạch phân tích bao gồm các bước sau:

1. Xác định câu hỏi phân tích. Câu hỏi này dựa trên các nội dung mà mục tiêu nghiên

cứu yêu cầu. Đây là phần rất quan trọng để định hướng phân tích theo đúng mục

tiêu của nghiên cứu

Ví dụ:

Page 30: Spss_Than Khao SPSS12

28

Mục tiêu nghiên cứu là: Xác định yếu tố nguy cơ của lối sống liên quan đến bệnh tăng

huyết áp

Câu hỏi phân tích có thể là:

- Lối sống ít vận động có phải là yếu tố nguy cơ của bệnh tăng huyết áp hay không?

- Tỷ lệ tăng huyết áp ở người ít vận động có cao hơn người vận động nhiều hay

không?

- Có sự khác nhau về tỷ lệ mắc bệnh tăng huyết áp ở người có và ít vận động

không?

2. Xác định các giả thuyết trong phân tích (đối với các câu hỏi phân tích suy luận).

Điều này giúp cho việc xem xét kết quả phân tích và phiên giải sau này

Ví dụ:

Câu hỏi phân tích là:

- Có sự khác biệt huyết áp tâm thu trung bình giữa nam và nữ hay không?

Giả thuyết:

Ho: HATT trung bình của nam và nữ không khác nhau

Ha: HATT trung bình của nam và nữ khác nhau

Câu hỏi:

Mô tả HATT trung bình theo hai giới?

Câu hỏi này không cần và không có giả thuyết vì đây là câu hỏi yêu cầu thực hiện

thống kê mô tả đơn thuần.

3. Liệt kê các biến số và tính chất của biến số, mối liên qua giữa các biến số

Ví dụ:

a. Trong câu hỏi “Có sự khác biệt huyết áp tâm thu trung bình giữa nam và nữ hay

không?” có:

Biến số phụ thuộc: HATT, là biến định lượng

Biến số độc lập: giới tính, là biến nhị giá

b. Trong câu hỏi “Mô tả HATT trung bình theo hai giới?” có 2 biến số

Biến số HATT: biến định lượng

Biến số giới tính: biến nhị giá

Page 31: Spss_Than Khao SPSS12

29

4. Lựa chọn phương pháp trình bày số liệu và thống kê thích hợp

Ví dụ:

Đối với câu 3a: đây là so sánh trung bình giữa hai nhóm đối tượng độc lập à chọn

kiểm định thống kê t-không ghép cặp

Đối với câu hỏi 3b: đây là mô tả mối liên quan giữa hai biến số, 1 biến định lượng, 1

biến định tính à lựa chọn cách trình bày như sau:

- Dùng số thống kê mô tả: trung bình và độ lệch chuẩn của HATT theo 2 giới (nếu

HATT có phân phối chuẩn)

- Dùng đồ thị (biểu đồ): Box-and-Whisker

5. Phiên giải các kết quả: dựa trên các kết quả để trả lời mục tiêu nghiên cứu

Ngoài ra, cần lưu ý là mỗi loại nghiên cứu có những quy định riêng rẽ về cách trình bày

và mô tả số liệu. Nói chung, nghiên cứu cắt ngang (nghiên cứu mô tả) thì được mô tả mà

không có so sánh (kiểm định thống kê) còn nghiên cứu phân tích (thuần tập, bệnh chứng)

luôn có so sánh các yếu tố liên quan tương ứng ở từng nhóm. Ví dụ nghiên cứu thuần tập

thì phải so sánh các đặc tính, yếu tố nguy cơ khác giữa nhóm phơi nhiễm và nhóm không

phơi nhiễm với yếu tố mà nhà nghiên cứu muốn đánh giá; còn nghiên cứu bệnh chứng thì

phải tiến hành so sánh các đặc tính, yếu tố nguy cơ khác của những người bị bệnh và

không bị bệnh.

2.2. Lựa chọn đại lượng mô tả biến số Như trong các ví dụ trên, việc chọn đại lượng mô tả cho biến liên tục phụ thuộc vào phân

bố của biến đó. Nếu biến có phân bố chuẩn, giá trị trung bình và độ lệch chuẩn được

dùng để mô tả đại lượng được thể hiện bởi biến đó. Nhưng nếu biến đó không có phân bố

chuẩn thì giá trị trung vị, khoảng (giá trị nhỏ nhất; giá trị lớn nhất) được dùng để mô tả

cho biến đó.

Page 32: Spss_Than Khao SPSS12

30

Bảng 1: Lựa chọn đại lượng mô tả 1 biến số

Biến số Định lượng Thứ bậc Danh định

Trình bày số liệu - Phân nhóm số

liệu

- Bảng phân phối

tần suất

- Có thể dùng %

tích luỹ

- Bảng phân phối

tần suất (sắp xếp

theo thứ tự)

- Có thể dùng %

tích luỹ

- Bảng phân phối

tần suất (sắp xếp

theo tần suất)

- Không dùng %

tích luỹ

Đồ thị, biểu đồ Histograms

Box-and-Whisker

Biểu đồ cột rời

Biểu đồ bánh

Biểu đồ cột rời

Biểu đồ bánh

Thống kê tóm tắt (phân

phối bình thường)

Trung bình

Độ lệch chuẩn

Không cần thiết

Phân phối không bình

thường

Trung vị Phạm vi (min, max,

phân vị)

Bảng 2: Lựa chọn đại lượng mô tả mối liên quan giữa hai biến số

Biến số Định lượng Phân loại Định lượng - Phân tán đồ (biểu đồ

chấm điểm)

- Hệ số tương quan

- Boxplot

- Case summaries

Phân loại - Boxplot

- Case summaries

Bảng chéo (Crosstabs)

Giả định

Các quan sát là độc lập

Biến định lượng có phân phối chuẩn

3 Mô tả biến số định lượng 3.1. Mô tả 1 biến số:

Bài tập 1: Mô tả các đặc tính của dân số nghiên cứu như HATT, HATTr, chiều cao, cân

nặng, vòng ngực, vòng bụng, BMI

Ví dụ HATT

Bước 1: Kiểm tra tính chuẩn của biến số:

Vẽ histogram có kết quả như sau:

Page 33: Spss_Than Khao SPSS12

31

Huyet ap tam thu

220.0200.0180.0160.0140.0120.0100.0

70

60

50

40

30

20

10

0

Std. Dev = 24.93

Mean = 137.3

N = 190.00

Một cách khác để kiểm tra phân phối chuẩn là sử dụng sơ đồ P-P plot (Normal P-P plot)

với menu Graphs – P-P sau đó chọn biến cần kiểm định vào ô Variable và có kết quả như

sau:

Normal P-P Plot of Huyet ap tam thu

Observed Cum Prob

1.00.75.50.250.00

Expecte

d C

um

Pro

b

1.00

.75

.50

.25

0.00

Đường Normal P-P plot càng nằm gần đường chéo của hình thì phân phối càng có tính

chuẩn.

Bước 2: Mô tả biến số

Page 34: Spss_Than Khao SPSS12

32

Huyết áp tâm thu có phân phối chuẩn nên các giá trị trung bình và độ lệch chuẩn được sử

dụng để mô tả tóm tắt biến số này.

Descriptive Statistics

190 90 220 137.29 24.932

190

Huyet ap tam thu

Valid N (listwise)

N Minimum Maximum Mean Std. Deviation

Nghiên cứu này có 190 đối tượng, huyết áp tâm thu trung bình của các đối tượng này là

khoảng 137 mmHg (độ lệch chuẩn là 24.9 mmHg). Huyết áp tâm thu thấp nhất là 90

mmHg, cao nhất là 220 mmHg. Các giá trị của HATT được mô tả như trong hình 1.

100

150

200

Hu

yet

ap

tam

th

u

A

A

A

A

A

(Cách vẽ: Graphs – Interrative – Boxplot)

Ngoài ra, chúng ta có thể mô tả theo cách phân nhóm giá trị của biến số để có thông tin

về tình trạng cao huyết áp vì thực tế, kết quả trên chưa thể hiện được mục đích chúng ta

mong muốn là thể hiện tình trạng THA của các đối tượng. Sau khi phân nhóm (xem lại

BT1) chúng ta có kết quả sau:

Page 35: Spss_Than Khao SPSS12

33

THATTHU

36 18.8 18.9 18.9

154 80.6 81.1 100.0

190 99.5 100.0

1 .5

191 100.0

khong tha tthu

co tha tthu

Total

Valid

SystemMissing

Total

Frequency Percent Valid Percent

Cumulative

Percent

Có 154 đối tượng có tăng huyết áp tâm thu (chiếm tỷ lệ 81.1%).

Hoặc chúng ta có thể thành nhiều mức độ như:

Mức độ THA HATThu HATTr

Không THA: HATThu < 120 và HATTr < 80

Tiền THA: 120-139 hoặc 80-89

THA độ 1: 140-159 hoặc 90-99

THA độ 2: ≥ 169 hoặc ≥ 100

Ta có kết quả:

THA

30 15.7 15.7 15.7

62 32.5 32.5 48.2

53 27.7 27.7 75.9

46 24.1 24.1 100.0

191 100.0 100.0

khong tha

tien tha

tha1

tha2

Total

ValidFrequency Percent Valid Percent

Cumulative

Percent

(Sinh viên tự suy nghĩ để thực hiện được thao tác tạo biến để tính toán như bảng

trên)

Bài tập 2: Tiếp tục thực hiện với các biến số định lượng còn lại trong bộ số liệu

3.2. Mô tả mối liên quan giữa 2 biến số

a. Mối liên quan giữa 1 biến định lượng và 1 biến phân loại:

Bài tập 3: Mô tả cân nặng theo giới.

Page 36: Spss_Than Khao SPSS12

34

Theo bảng 2, chúng ta có thể sử dụng: Case summaries và Box plot. Tuy nhiên trước tiên

phải kiểm tra phân phối của biến cân nặng ở hai nhóm.

30.0 40.0 50.0 60.0 70.0

Can nang

10

20

30

40

Co

un

t

Nam Nu

30.0 40.0 50.0 60.0 70.0

Can nang

(Thao tác: Graphs – Interrative – Histogram: lưu ý chọn mô hình vẽ theo count, đưa hai

biến vào vị trí, chọn histogram để chọn normal curve)

Theo biểu đồ trên, số lượng nam giới trong nghiên cứu này ít hơn nữ giới (điều này

chúng ta có thể kiểm tra khi mô tả giới tính trong nghiên cứu). Điều này một phần làm

cho phân phối của biến số cân nặng của nam giới không có phân phối chuẩn một cách rõ

ràng như nữ giới. Chúng ta có thể sử dụng cả trung bình, trung vị, độ lệch chuẩn để xem

xét thêm.

Mô tả hai biến số có kết quả như sau:

(Thao tác: Analyze – Reports – Case summaries: trong đó lưu ý chọn Statistics để lựa

chọn các con số thống kê cần báo cáo)

Case Summaries

Can nang

50 48.880 46.500 36.0 64.0 8.1432

137 43.938 43.500 29.0 72.0 7.5633

187 45.259 45.000 29.0 72.0 8.0066

GioiNam

Nu

Total

N Mean Median Minimum Maximum Std. Deviation

Page 37: Spss_Than Khao SPSS12

35

13750N =

Gioi

NuNam

Ca

n n

an

g80

70

60

50

40

30

20

102

(Thao tác: Graphs – Boxplot – Simple - Define)

Rõ ràng kết quả cho thấy chỉ có 50 nam giới trong nghiên cứu này, cân nặng trung bình

của nam cao hơn nữ (46.5 kg so với 43.5 kg). Hình vẽ box plot minh hoạ trực quan sự

khác biệt này.

Bài tập 4: Mô tả theo tuổi các biến số sau: HATT, HATTr, Chiều cao, vòng bụng.

b. Mối liên quan giữa hai biến định lượng:

Bài tập 5: Mô tả sự thay đổi của HA tâm thu theo vòng bụng (hoặc: HA tâm thu thay đổi

như thế nào khi vòng bụng thay đổi)

Theo bảng 2, chúng ta có thể sử dụng phân tán đồ và hệ số tương quan. Nhưng trước hết

phải kiểm tra phân phối của hai biến này.

Page 38: Spss_Than Khao SPSS12

36

Huyet ap tam thu

220.0200.0180.0160.0140.0120.0100.0

70

60

50

40

30

20

10

0

Std. Dev = 24.93

Mean = 137.3

N = 190.00

Vong bung

105.0100.095.090.085.080.075.070.065.0

60

50

40

30

20

10

0

Std. Dev = 7.43

Mean = 87.8

N = 186.00

Hai biến này đều có phân phối chuẩn. Tiếp tục thực hiện thao tác vẽ phân tán đồ (scatter)

và tính hệ số tương quan.

Page 39: Spss_Than Khao SPSS12

37

Huyet ap tam thu

24022020018016014012010080

Vong b

ung

110

100

90

80

70

60

Hình trên là scatter graph với đường fit line ước lượng mối liên hệ giữa HATT và cân

nặng. Theo hình trên thì dường như không có sự ảnh hưởng lên HATT của sự thay đổi

vòng bụng.

Thao tác: Graphs – Scatter – Simple – Define - chọn biến vào trục X và Y. Hình vẽ sau

khi hoàn thành các thao tác này không có đường fit line, để vẽ đường này, double click

vào hình vẽ, màn hình hiện lên như sau:

Page 40: Spss_Than Khao SPSS12

38

Khi đó chọn Chart, sau đó chọn Options, chọn Total trong ô Fit line. Như vậy hoàn tất

việc vẽ phân tán đồ.

Thao tác tính hệ số tương quan như sau: Analyze – Correlate – Bivariate: chọn 2 biến số

cần phân tích vào ô Variables. Kết quả như sau:

Correlations

1 .046

. .536

185 185

.046 1

.536 .

185 186

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Huyet ap tam thu

Vong bung

Huyet ap

tam thu Vong bung

Theo kết quả trên, hệ số tương quan giữa HATT và vòng bụng là 0.046, như vậy không

có mối tương quan giữa HATT và vòng bụng.

Nhắc lại lý thuyết:

- Hệ số tương quan R luôn luôn nằm trong đoạn [-1,1]

Page 41: Spss_Than Khao SPSS12

39

- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến (nghĩa là khi biến số

này tăng lên thì giá trị của biến số liên quan cũng tăng lên); hệ số tương quan r âm

chứng tỏ hai biến số là nghịch biến (khi giá trị 1 biến tăng thì biến kia giảm).

- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số.

- Nếu r=0 (hay r < 0,1) , không có mối liên hệ tuyến tính giữa hai biến số. Nếu r từ

0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ

mạnh.

- R2 nói lên tỉ lệ sự biến thiên của biến số phụ thuộc được giải thích bởi biến số độc

lập

Bài tập 6:

Mô tả sự liên quan giữa HATTr và cân nặng

Mô tả sự liên quan giữa cân nặng và vòng bụng

4 Mô tả biến số phân loại (định tính)

a. Mô tả 1 biến số phân loại:

Việc mô tả 1 biến số phân loại rất giống với thao tác trong quản lý số liệu và làm sạch số

liệu. Chúng ta dùng bảng phân phối tần số và các biểu đồ để minh hoạ.

Bài tập 7: Mô tả dân số nghiên cứu theo các đặc tính về tuổi, giới…

Tuoi

45 24.2 24.2 24.2

99 53.2 53.2 77.4

37 19.9 19.9 97.3

5 2.7 2.7 100.0

186 100.0 100.0

60-69 tuoi

70-79 tuoi

80-89 tuoi

>= 90tuoi

Total

ValidFrequency Percent Valid Percent

Cumulative

Percent

Page 42: Spss_Than Khao SPSS12

40

Tuoi

Tuoi

>= 90tuoi80-89 tuoi70-79 tuoi60-69 tuoi

Fre

qu

en

cy

120

100

80

60

40

20

0

Như vậy, trong nghiên cứu này, lứa tuổi 70-79 tuổi có số lượng nhiều nhất với 99 người

(chiếm 53.2%), lứa tuổi trên 90 ít nhất.

b. Mô tả mối liên quan giữa hai biến số phân loại

Bài tập 8: Mô tả tỷ lệ có tiền căn bị THA ở nam và nữ.

Theo bảng 2, chúng ta sử dụng bảng chéo để mô tả các tỷ lệ này. Thao tác như sau:

Analyze – Descriptive Statistics – Crosstabs: chọn biến giới tính vào hàng (row), chọn

biến đã từng bị THA vào cột (column), chọn Cells để lấy phần trăm theo giới tính (theo

hàng). Kết quả như sau:

Gioi * Ban than da bi THA Crosstabulation

13 32 6 51

25.5% 62.7% 11.8% 100.0%

39 65 30 134

29.1% 48.5% 22.4% 100.0%

52 97 36 185

28.1% 52.4% 19.5% 100.0%

Count

% within Gioi

Count

% within Gioi

Count

% within Gioi

Nam

Nu

Gioi

Total

Co Khong

Khong biet/

khong tra loi

Ban than da bi THA

Total

Như vậy, tỷ lệ có tiền căn THA ở nam là 25.5%, thấp hơn tỷ lệ có tiền căn THA ở nữ

(29.1%). Tuy nhiên sự chênh lệch này là không nhiều.

Page 43: Spss_Than Khao SPSS12

41

Lưu ý: Điều quan trọng là phải chọn tỷ lệ cho đúng. Vì ở đây chúng ta muốn so sánh tỷ lệ

có THA ở nam và ở nữ, do đó mẫu số là tổng số nam và tổng số nữ. Vậy phải lấy phần

trăm theo biến giới tính.

Bài tập 9: Mô tả tỷ lệ bị tai biến mạch vành ở nam và nữ.

5. Trình bày kết quả

Việc trình bày kết quả không chỉ đơn thuần là trình bày các thao tác thực hiện. Điểm cần

trình bày là chúng ta phải phiên giải kết quả theo yêu cầu mục tiêu của nghiên cứu. Trong

khi báo trình bày nghiên cứu, có hai phần chính:

- Báo cáo phương pháp phân tích số liệu: Thông thường được ghi ngắn gọn làm hai

phần

o Phân tích mô tả

o Phân tích suy luận

- Báo cáo kết quả phân tích: báo cáo theo từng mục như:

o Mô tả dân số nghiên cứu và các yếu tố liên quan, bênh…

o Kết quả theo từng mục tiêu.

Ví dụ:

Phương pháp phân tích số liệu:

Phân tích mô tả: các giá trị tỷ lệ phần trăm được sử dụng để mô tả các biến số định tính,

giá trị trung bình, độ lệch chuẩn được sử dụng mô tả biến định lượng. Khi biến định

lượng không có phân phối chuẩn, giá trị trung vị và các giá trị lớn nhất nhỏ nhất được sử

dụng

Phân tích suy luận: Kiểm định t được sử dụng để so sánh trung bình cân nặng giữa hai

giới….

Kết quả: Bảng 1: Mô tả các đặc tính của đối tượng nghiên cứu

Các đặc tính N Trung bình (SD) Trung vị (Max- min)

HA tâm thu

HA tâm trương

Cân nặng

Page 44: Spss_Than Khao SPSS12

42

Thống kê cho biến số định lượng – nghiên cứu cắt ngang

(Bộ số liệu IVF)

2222 Học viên tải tập tin ivf.sav trên E-learning và Save vào máy tính.

Mở tập tin số liệu ivf.sav.

Số liệu này được lấy từ nghiên cứu về những đứa trẻ sinh một của những bà mẹ

được thụ thai trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này đã được báo

cáo trong tạp chí BMJ (1990;300:1229-1233). Nghiên cứu này bao gồm 641 đứa

trẻ.

Số liệu này gồm 6 biến số có chi tiết như sau:

STT Biến số Nhãn của biến Phiên giải biến số- mã hoá

1 Id identity number of

mother and baby

Mã số nghiên cứu của bà mẹ

và trẻ

2 Matage maternal age in years Tuổi của mẹ (năm tuổi)

3 Ht hypertension 1=yes,

2=no

Cao huyết áp thai kì 1= có 2

= không

4 Gestwks gestational age in weeks Tuổi thai (tính theo tuần)

5 Sex sex of baby 1=male,

2=female

Giới tính của trẻ 1=trai 2=gái

6 Bweight birth weight in gms Trọng lượng sinh tính theo

grams

I. Chọn lựa kiểm định:

Bảng dưới đây mô tả nguyên tắc chọn lựa kiểm định phù hợp. Nguyên tắc bao gồm:

1. Dựa vào thang đo của biến số độc lập và biến số phụ thuộc

2. Dựa vào các giả định (các yêu cầu) của kiểm định: phân phối của biến số định

lượng, sự giống nhau của các phương sai trong các nhóm.

Page 45: Spss_Than Khao SPSS12

43

Thang đo

của biến số phụ thuộc

Loại thiết kế nghiên cứu (loại biến số độc lập)

Hai nhóm

đối tượng

gồm các cá

nhân khác

nhau

Ba hay

nhiều nhóm

đối tượng

gồm các cá

nhân khác

nhau

Trước và

sau nghiên

cứu trên

cùng các đối

tượng

≥ 3 can

thiệp trên

cùng các đối

tượng

Liên hệ giữa

hai biến số

Liên tục

(phân phối

chuẩn)

t-test không

ghép cặp

Phân tích

phương sai

t-test ghép

cặp

Phân tích

phương sai

đo lường lặp

lại

Hồi qui

tuyến tính

và tương

quan

pearson

Danh định

χ2 bảng 2 x

n

χ2 bảng 3 x

n

test

McNemar

Cochrance

Q

Hệ số của

bảng n x m

(OR, RR…)

Thứ tự

Kiểm định

sắp hạng –

tổng Mann-

Whitney

Kruskal-

Wallis

Kiểm định

sắp hạng có

dấu

Wilcoxon

Friedman Hệ số tương

quan

Spearman

II. Thống kê phân tích - biến số định lượng

� � � � Sơ lược lí thuyết về so sánh 2 trung bình

Kiểm định t dùng để so sánh 2 trung bình của của biến số định lương có phân phối

bình thường. Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình

trước và sau khi can thiệp trên một nhóm và (b) kiểm định t không bắt cặp để so

sánh trung bình của 2 nhóm độc lập.

Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập).

Kiểm định t có giả định 2 phương sai bằng nhau và kiểm định t không có giả định

phương sai bằng nhau. Hai loại kiểm định này có chung nguyên lí nhưng khác

nhau trong cách tính toán độ tự do (của kiểm định t) và cách tính sai số chuẩn.

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung

bình của 2 nhóm độc lập và đòi hỏi 2 giả định.

- Các giá trị của biến số của cả 2 dân số có phân phối bình thường

- Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau.

Nếu chúng ta kí hiệu:

Page 46: Spss_Than Khao SPSS12

44

x1 : giá trị trung bình ở nhóm 1

x2 : giá trị trung bình ở nhóm 2

n1 : cỡ mẫu của nhóm 1

n2 : cỡ mẫu của nhóm 2

s12 : phương sai ở nhóm 1

s22 : phương sai ở nhóm 2

Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công

thức sau:

- Độ tự do của kiểm định t: df = n1 + n2 - 2

- Sai số chuẩn: 21 /1/1 nnsse p += với

)1()1(

)1()1(

21

2

22

2

11

−+−

−+−=

nn

snsns p

- Giá trị thống kê t: 21

2121

/1/1 nns

xx

se

xxt

p +

−=

−=

Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 - 2)

độ tự do và tính được xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả

thuyết H0.

Kiểm định t không bắt cặp không có giả định 2 phương sai bằng nhau

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung

bình của 2 nhóm độc lập và chỉ đòi hỏi 1 giả định.

- Các giá trị của biến số của cả 2 dân số có phân phối bình thường

Nếu chúng ta kí hiệu:

x1 : giá trị trung bình ở nhóm 1

x2 : giá trị trung bình ở nhóm 2

n1 : cỡ mẫu của nhóm 1

n2 : cỡ mẫu của nhóm 2

s12 : phương sai ở nhóm 1

s22 : phương sai ở nhóm 2

Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công

thức sau:

Page 47: Spss_Than Khao SPSS12

45

- Độ tự do của kiểm định t:

−+

+

=

)1()1(

..

2

2

2

4

2

1

2

1

4

1

2

2

2

2

1

2

1

nn

s

nn

s

n

s

n

s

fd < n1 + n2 -2

- Sai số chuẩn: 2

2

2

1

2

1

n

s

n

sse +=

- Giá trị thống kê t:

2

2

2

1

2

1

2121

n

s

n

s

xx

se

xxt

+

−=

−=

Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với độ tự do phù

hợp (như tính toán ở trên) và tính được xác suất p. Thông thường nếu p <0,05

người ta bác bỏ giả thuyết H0.

Kiểm định phi tham số

Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương), có thể sử

dụng phép biến đổi (thường là biến đổi log) để đưa phân phối về bình thường hoặc

dùng test phi tham số. Kiểm định phi tham số có ưu điểm là không đòi hỏi giả định

về phân phối của biến số định lượng nhưng có khuyết điểm là không thể ước lượng

được tham số, đó là như không thể ước lượng khoảng tin cậy 95% hiệu số của

trung bình giữa 2 nhóm.

1.1. So sánh trung bình mẫu với trung bình quần thể:

Bài tập 1: Cân nặng sơ sinh trong nghiên cứu này có khác cân nặng sơ sinh trung

bình của quần thể (là 3000 gr) hay không?

Kế hoạch phân tích:

- Đây là câu hỏi nghiên cứu phân tích: nhằm trả lời có hay không có sự khác biệt

có ý nghĩa giữa cân nặng sơ sinh trung bình của mẫu nghiên cứu và quần thể

- Giả thuyết:

o Ho: CNSS nghiên cứu = 3000 gr

o Ha: CNSS nghiên cứu ≠ 3000 gr

- Liệt kê các biến: chỉ có 1 biến số - đó là biến CNSS: đây là biến định lượng, có

phân phối chuẩn (sinh viên cần kiểm chứng lại phân phối của CNSS)

- Chọn kiểm định: kiểm định t so sánh trung bình mẫu và trung bình quần thể

- Thao tác và phiên giải:

Page 48: Spss_Than Khao SPSS12

46

Analyze à Compare means à One-sample t-test: chọn biến số và số trung bình

quần thể cần so sánh

Kết quả như sau:

One-Sample Statistics

641 3123.2496 664.57546 26.24915 birth weight in gms

N Mean Std. Deviation

Std. Error

Mean

One-Sample Test

4.695 640 .000 123.2496 71.7047 174.7945 birth weight in gms

t df Sig. (2-tailed)

Mean

Difference Lower Upper

95% Confidence

Interval of the

Difference

Test Value = 3000

Kết quả trên cho thấy, cân nặng sơ sinh trung bình của 641 đứa trẻ trong nghiên

cứu này là 3123.25gr (độ lệch chuẩn là 664.6gr). Cân nặng sơ sinh trung bình của

trẻ em trong nghiên cứu này cao hơn cân nặng sơ sinh trung bình của quần thể là

123.25 gr (khoảng tin cậy 95% của sự khác biệt là 71.7-174.8gr). Sự khác biệt này

có ý nghĩa thống kê với p<0.001. Vậy, cân nặng sơ sinh trung bình của trẻ em

trong nghiên cứu lớn hơn trong quần thể.

(Với p<0.001 à bác bỏ giả thuyết Ho. Vậy, cân nặng sơ sinh trung bình của trẻ

em trong nghiên cứu lớn hơn trong quần thể).

Bài tập 2: Sinh viên trả lời các câu hỏi sau:

- Tuổi thai trung bình trong nghiên cứu này có khác với tuổi thai trung bình của

quần thể (là 37 tuần tuổi) hay không?

- Tuổi trung bình cuả các bà mẹ trong nghiên cứu này có bằng với tuổi trung

bình các bà mẹ trong quần thể (là 28 tuổi) hay không?

1.2. So sánh 2 trung bình ở hai nhóm đối tượng gồm các cá nhân khác nhau:

Bài tập 3: Cân nặng sơ sinh trung bình của nam và nữ có khác nhau hay không?

Kế hoạch phân tích:

- Đây là câu hỏi nghiên cứu phân tích: nhằm trả lời có hay không có sự khác biệt

có ý nghĩa giữa cân nặng sơ sinh trung bình của trẻ nam và nữ

- Giả thuyết:

o Ho: CNSS nam = CNSS nữ

o Ha: CNSS nam ≠ CNSS nữ

Page 49: Spss_Than Khao SPSS12

47

- Liệt kê các biến:

o Biến độc lập: giới tính

o Biến phụ thuộc: cân nặng sơ sinh

- Chọn kiểm định: kiểm định t không ghép cặp

Thao tác và phiên giải:

Analyze – Compare Means – Independent Samples T test: hiện ra cửa sổ

Independent Samples T test.

Đưa biến số cần kiểm định, thí dụ như biến bweight, vào hộp Test Variable(s) và

đưa biến số phân nhóm vào hộp Group Variable.

Sau đó nhấp vào nút lệnh Define Groups để cho biết các giá trị phân nhóm cần so

sánh. Do ở đây chúng ta cần so sánh nhóm nam (có giá trị là 1) và nhóm nữ (có giá

trị là 2) nên chúng ta đưa 2 giá trị nào vào 2 ô của Use specified values.

Continue à OK

Kết quả như sau:

Group Statistics

324 3208.6481 665.30226 36.96124

315 3032.1460 651.73730 36.72124

sex of baby

1=male, 2=female1.00

2.00

birth weight in gmsN Mean Std. Deviation

Std. Error

Mean

Page 50: Spss_Than Khao SPSS12

48

Independent Samples Test

.695 .405 3.387 637 .001 176.5021 52.11679 74.16063 278.84361

3.388 636.963 .001 176.5021 52.10165 74.19035 278.81389

Equal variances

assumed

Equal variances

not assumed

birth weight in gmsF Sig.

Levene's Test for

Equality of Variances

t df Sig. (2-tailed)

Mean

Difference

Std. Error

Difference Lower Upper

95% Confidence

Interval of the

Difference

t-test for Equality of Means

Lưu ý: Trước khi phiên giải cần lưu ý rằng, kiểm định t không ghép cặp đòi hỏi 2

giả định (2 yêu cầu):

- Trọng lượng sơ sinh có phân phối bình thường (sinh viên kiểm tra băng

histogram)

- Hai phương sai trong hai nhóm bằng nhau (test Levene)

Kết quả:

Xem 2 bảng kết quả: Cân nặng trung bình của 324 trẻ trai trong nghiên cứu này là

3208.6 gram, của 315 trẻ gái là 3032.15 gram. Vì trọng lượng sơ sinh có phân phối

bình thường chúng ta có thể sử dụng t-test. Để biết chúng ta nên sử dụng t test giả

định phương sai bằng nhau (equal variances assumed) hay t test không giả định

phương sai bằng nhau (equal variances not assumed) chúng ta hãy xem kết quả của

test Levene (kiểm định sự bằng nhau của 2 phương sai). Do mức nghĩa của test

Levene = 0,405 nên có thể kết luận rằng 2 phương sai bằng nhau, do đó chúng ta

xem kết quả ở hàng trên (hàng có dòng chữ equal variances not assumed).

Giá trị thống kê t là 3,387 và mức ý nghĩa (Sig. hay còn gọi là p-value) là 0.001.

Do đó chúng ta bác bỏ giả thuyết Ho và kết luận có sự khác biệt về trọng lượng sơ

sinh giữa trẻ trai và trẻ gái (p=0.001).

Phiên giải:

Cân nặng trung bình của 324 trẻ trai trong nghiên cứu này là 3208.6 gram (độ lệch

chuẩn 665.3gr), của 315 trẻ gái là 3032.15 gram (độ lệch chuẩn 651.7gr). Vì kết

quả kiểm định của test Levene cho thấy hai phương sai trong hai nhóm bằng nhau

(p=0.405) nên kiểm định t không ghép cặp với giả định hai phương sai bằng nhau

được sử dụng. Kết quả cho thấy, cân nặng sơ sinh trung bình của trẻ nam cao hơn

trẻ nữ là 176.5 gr, sự khác biệt này có ý nghĩa thống kê với p=0.001.

Bài tập 4: Sinh viên trả lời các câu hỏi sau:

Page 51: Spss_Than Khao SPSS12

49

- Cân nặng sơ sinh trung bình có khác nhau giữa bà mẹ có và không có tăng

huyết áp hay không?

- Tuổi thai trung bình của bà mẹ có và không có tăng huyết áp có khác nhau hay

không?

1.3. So sánh nhiều hơn 2 trung bình:

���� Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm.

Khi chúng ta cần so sánh trung bình của nhiều nhóm, chúng ta không thể dùng

nhiều kiểm định t để so sánh từng cặp của nhóm vì như vậy chúng ta sẽ làm tăng

nguy cơ của sai lầm loại 1. Phương pháp thích hợp để được dùng cho trường hợp

này được gọi là test ANOVA. Test ANOVA (phân tích phương sai) được xem như

là sự tổng quát hóa của test t (test t dùng cho 2 nhóm và test ANOVA dùng cho 2

hay nhiều hơn các nhóm). Ðiều kiện để test ANOVA hợp lệ là các giá trị có phân

phối bình thường và phương sai của các nhóm xấp xỉ nhau.

Trong kết xuất của test ANOVA, chúng ta thấy có sự hiện diện của thống kê F

(thống kê Fisher). Trong trường hợp chỉ có 2 nhóm, thống kê F chính xác bằng

bình phương của thống kê t và 2 phương pháp cho ra cùng một mức ý nghĩa.

Bài tập 5: Hãy so sánh trọng lượng của trẻ sinh ra từ con của các bà mẹ thuộc các

nhóm tuổi khác nhau (≤ 30 tuổi, 31 đến 35 tuổi, ≥ 36 tuổi).

Kế hoạch phân tích:

- Đây là câu hỏi nghiên cứu phân tích: nhằm trả lời có hay không có sự khác biệt

có ý nghĩa giữa cân nặng sơ sinh trung bình con của các bà mẹ trong các nhóm

tuổi khác nhau

- Giả thuyết:

o Ho: CNSS của trẻ con các bà mẹ trong cả 3 nhóm tuổi là như nhau

o Ha: Có ít nhất 1 sự khác biệt về CNSS trung bình con của các bà mẹ

trong các nhóm tuổi

- Liệt kê các biến:

o Biến độc lập: nhóm tuổi mẹ

o Biến phụ thuộc: cân nặng sơ sinh

- Chọn kiểm định: kiểm định ANOVA (one-way anova)

- Thao tác và phiên giải:

Page 52: Spss_Than Khao SPSS12

50

Trước hết, sinh viên cần tạo ra biến mới là biến nhóm tuổi của mẹ (matagr) theo

yêu cầu trên.

Sau đó thao tác:

Analyze à Compare Means à One-way ANOVA để hiện ra cửa sổ One-way

ANOVA. Đưa biến cần so sánh (biến phụ thuộc) là bweight đặt trong hộp

Dependent list. Đưa biến số độc lập là matagr vào ô Factor.

Lưu ý: Kiểm định ANOVA cũng yêu cầu:

- Cân nặng sơ sinh có phân phối chuẩn

- Phương sai trong các nhóm là như nhau

Do đó, để có thể có con số thống kê mô tả và để kiểm định phương sai của các

nhóm là đồng nhất (điều kiện để kiểm định ANOVA có giá trị) chúng ta nhấp vào

ô Options. Khi đó cửa sổ One-way ANOVA:Options xuất hiện, đánh dấu vào hai

hộp kiểm Descriptive (mô tả) và Homogeneity of Variance (kiểm định phương

sai đồng nhất). Nhấp continue để trở về và nhấp OK để hoàn tất. Kết quả được

trình bày ở hình sau:

Descriptives

birth weight in gms

128 3055.1953 753.28563 66.58167 2923.4422 3186.9484 .00 4520.00

273 3127.4908 642.29678 38.87357 3050.9595 3204.0222 630.00 4550.00

240 3154.7208 638.87403 41.23914 3073.4822 3235.9594 825.00 4650.00

641 3123.2496 664.57546 26.24915 3071.7047 3174.7945 .00 4650.00

duoi 30 tuoi

tu 30 den 35 tuoi

tu 36 tuoi tro len

Total

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval for

Mean

Minimum Maximum

Page 53: Spss_Than Khao SPSS12

51

Test of Homogeneity of Variances

birth weight in gms

1.093 2 638 .336

Levene

Statistic df1 df2 Sig.

ANOVA

birth weight in gms

835433.4 2 417716.711 .946 .389

2.82E+08 638 441735.600

2.83E+08 640

Between Groups

Within Groups

Total

Sum of

Squares df Mean Square F Sig.

Trả lời: Con bà mẹ tuổi dưới 30 có trọng lượng trung bình là 3055.2 gram, của bà

mẹ 31-35 là 3127.5 gram, của bà mẹ trên 36 tuổi là 3154.7 gram

Để sử dụng được kết quả phân tích ANOVA, cần kiểm tra yêu cầu đã nêu ở phần

trên:

- biến số phụ thuộc có phân phối bình thường - điều này đã được xác nhận từ đồ

thị histogram của trọng lượng sơ sinh

- phương sai của biến phụ thuộc ở các nhóm bằng nhau - điều này cũng được

xác nhận qua thống kê Levene với mức ý nghĩa (Sig.) là 0.336.

Vì vậy trong trường hợp này kiểm định ANOVA là có giá trị sử dụng. Với giá trị F

= 0.946 và mức ý nghĩa (Sig. hay còn gọi là p-value) là 0.389 chúng ta kết luận

không có sự khác biệt về trọng lượng sơ sinh của các nhóm tuổi bà mẹ.

Bài tập 6: So sánh tuổi thai trung bình trong các nhóm tuổi của mẹ.

1.4. Kiểm định phi tham số:

Xem lại bảng chọn lựa kiểm định

Thang đo

của biến số phụ thuộc

Loại thiết kế nghiên cứu (loại biến số độc lập)

Hai nhóm

đối tượng

gồm các cá

nhân khác

nhau

Ba hay

nhiều nhóm

đối tượng

gồm các cá

nhân khác

nhau

Trước và

sau nghiên

cứu trên

cùng các đối

tượng

≥ 3 can

thiệp trên

cùng các đối

tượng

Liên hệ giữa

hai biến số

Liên tục t-test không Phân tích t-test ghép Phân tích Hồi qui

Page 54: Spss_Than Khao SPSS12

52

(phân phối

chuẩn)

ghép cặp phương sai cặp phương sai

đo lường lặp

lại

tuyến tính

và tương

quan

pearson

Danh định

χ2 bảng 2 x

n

χ2 bảng 3 x

n

test

McNemar

Cochrance

Q

Hệ số của

bảng n x m

(OR, RR…)

Thứ tự

Kiểm định

sắp hạng –

tổng Mann-

Whitney

Kruskal-

Wallis

Kiểm định

sắp hạng có

dấu

Wilcoxon

Friedman Hệ số tương

quan

Spearman

Khi các kiểm định tham số (ô màu xanh) không sử dụng được do không đáp ứng

các yêu cầu (các giả định) của kiểm định như phân phối của biến phụ thuộc, các

phương sai bằng nhau, các kiểm định có thể được dùng để thay thế là kiểm định

phi tham số (ô màu vàng).

Bài tập 7: So sánh trọng lượng trung bình ở trẻ con bà mẹ cao huyết áp và bà mẹ

không cao huyết áp.

Vì kiểm định t không ghép cặp cho kết quả như sau:

Independent Samples Test

15.979 .000 -5.977 638 .000 -442.2728 73.99082 -587.568 -296.978

-4.909 105.000 .000 -442.2728 90.09368 -620.912 -263.634

Equal variances

assumed

Equal variances

not assumed

birth weight in gms

F Sig.

Levene's Test for

Equality of Variances

t df Sig. (2-tailed)

Mean

Difference

Std. Error

Difference Lower Upper

95% Confidence

Interval of the

Difference

t-test for Equality of Means

Trong đó có p của Levene test là <0.001, do đó hai phương sai hai nhóm không

bằng nhau, kết quả kiểm định t-không ghép cặp với giả định hai phương sai không

được sử dụng. Chúng ta có thể:

- Đọc kết quả kiểm định ở dòng dưới (Equal variances not asssumed – không giả

định hai phương sai bằng nhau)

- Thực hiện kiểm định phi tham số

Analyze à Non Parametric tests à 2-Independent-Samples Tests. Đưa biến cần so

sánh vào hộp Test Variable List. Đưa biến số phân loại (biến độc lập) vào hộp

Grouping variable.

Page 55: Spss_Than Khao SPSS12

53

Cần lưu ý xác định các nhóm cần so sánh bằng cách nhấp vào nút lệnh Define

Groups. Nhấp OK để hoàn tất và xem kết quả như sau:

Ranks

89 231.74 20624.50

551 334.84 184495.50

640

hypertension 1=yes, 2=no1.00

2.00

Total

birth weight in gmsN Mean Rank Sum of Ranks

Test Statisticsa

16619.500

20624.500

-4.881

.000

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

birth weight

in gms

Grouping Variable: hypertension 1=yes, 2=noa.

Trả lời: Có sự khác biệt có ý nghĩa thống kê của trọng lượng sơ sinh giữa con

những người bị cao huyết áp và những người không bị cao huyết áp (p<0.001).

Cần thấy rằng các kiểm định thống kê phi tham số không cho chúng ta số liệu

thống kê mô tả của số liệu như trọng lượng trung bình của con bà mẹ có và không

có có cao huyết áp. Điều này là do nguyên lý của thống kê phi tham số không tính

toán các quan sát bằng chính những đo lường thật của nó mà xếp hạng các giá trị

này và tính toán trên các thứ tự xếp hạng này. Trong quá trình báo cáo, nếu cần

trình bày các số liệu thống kê mô tả trước khi đưa ra kết luận về sự khác nhau,

Page 56: Spss_Than Khao SPSS12

54

chúng ta có thể sử dụng kết quả trong phần thống kê mô tả. Việc kết luận sự khác

nhau sẽ dựa vào giá trị thống kê của kiểm định phi tham số (dựa vào giá trị p-value

như trong kết quả p<0.001).

III. Tương quan và hồi quy:

���� Phần đọc thêm: Tương quan và hồi quy

Tương quan Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có

nhiều loại hệ số tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có

giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Nếu

chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có

giá trị âm nghĩa là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan

càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của sai số

ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là

hoàn toàn không có sai số ngẫu nhiên.

Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:

rx x y y

x x y y

i i

i i

=− −

− −

∑∑∑

( )( )

( ) ( )2 2

Và kiểm định t liên quan đến giả thuyết r ≠0 (không có sự tương quan) được

tính như sau:

t rn

r=

2

1 2 và có phân phối student với n-2 độ tự do.

Hồi quy

Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những

biến số khác.

Một phương trình hồi quy có thể có dạng như sau:

cân nặng (kg) = 6,85 + 0,18 x tháng tuổi

(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)

theo phương trình này người ta gọi:

cân nặng: biến số phụ thuộc

tháng tuổi: biến số độc lập

6,85: hệ số của hằng số (Constant), hay còn gọi là điểm chặn (intercept)

Page 57: Spss_Than Khao SPSS12

55

0,18: hệ số của biến số tháng tuổi.

Bài tập 8: Xác định sự tương quan giữa của biến số tuổi thai (gestwks) và trọng

lượng thai (bweight).

Thang đo

của biến số phụ thuộc

Loại thiết kế nghiên cứu (loại biến số độc lập)

Hai nhóm

đối tượng

gồm các cá

nhân khác

nhau

Ba hay

nhiều nhóm

đối tượng

gồm các cá

nhân khác

nhau

Trước và

sau nghiên

cứu trên

cùng các đối

tượng

≥ 3 can

thiệp trên

cùng các đối

tượng

Liên hệ giữa

hai biến số

Liên tục

(phân phối

chuẩn)

t-test không

ghép cặp

Phân tích

phương sai

t-test ghép

cặp

Phân tích

phương sai

đo lường lặp

lại

Hồi qui

tuyến tính

và tương

quan

pearson

Danh định

χ2 bảng 2 x

n

χ2 bảng 3 x

n

test

McNemar

Cochrance

Q

Hệ số của

bảng n x m

(OR, RR…)

Thứ tự

Kiểm định

sắp hạng –

tổng Mann-

Whitney

Kruskal-

Wallis

Kiểm định

sắp hạng có

dấu

Wilcoxon

Friedman Hệ số tương

quan

Spearman

Kế hoạch phân tích:

- Đây là câu hỏi nghiên cứu phân tích: nhằm xác định (mô tả và phân tích) mối

liên quan (tương quan) giữa cân nặng sơ sinh và tuổi thai

- Giả thuyết:

o Ho: CNSS không có liên quan với tuổi thai

o Ha: Có sự liên quan giữa tuổi thai và cân nặng sơ sinh

- Liệt kê các biến:

o Biến độc lập: tuổi thai

o Biến phụ thuộc: cân nặng sơ sinh

- Chọn kiểm định:

o mô tả bằng scatter graph (đã học trong phần thống kê mô tả),

o hệ số tương quan

o và hồi quy tuyến tính

- Thao tác và phiên giải:

Scatter graph:

Page 58: Spss_Than Khao SPSS12

56

Scattergram là đồ thị mô tả mối liên quan giữa hai biến số liên tục. Trong đó, trục

tung (Y axis) mô tả biến số phụ thuộc, trục hoành (X axis) mô tả biến số độc lập. Để

vẽ đồ thị này, vào menu Graphs – Scatter để làm xuất hiện cửa sổ Scatterplot.

Chọn kiểu Scatterplot đơn giản (simple). Nhấn nút đefine để tiếp tục. Sau đó đưa

biến số phụ thuộc (bweight) vào hộp Y axis, đưa biến độc lập (gestwks) vào hộp X

axis. Đến đây chúng ta có thể nhấp OK để hoàn tất nhưng nếu chúng ta muốn

phân biệt các điểm phân tán của trọng lượng trẻ trai và của trẻ gái, chúng ta

có thể đưa biến số phân loại (sex) vào hộp Set Markers by.

Đến đây, chúng ta có thể nhấp OK và xem kết quả.

Page 59: Spss_Than Khao SPSS12

57

Gestational age

50403020

Birth

weig

ht

5000

4000

3000

2000

1000

0

Sex of infant

Nu

Nam

Theo hình, có sự tương quan thuận tuyến tính giữa trọng lượng sơ sinh và tuổi

thai. Mối tương quan này khá chặt. Ở cùng tuổi thai trọng lượng trẻ trai dường như

hơi cao hơn trọng lượng trẻ gái.

Khi đánh giá phân tán đồ, chúng ta sẽ dựa vào hình dáng của đám mây phân bố của

phân tán đồ để xác định mối tương quan giữa hai biến quan tâm. Vấn đề này được

tóm tắt trong bảng sau:

Page 60: Spss_Than Khao SPSS12

58

Phân tán đồ cung cấp cho chúng ta cảm giác hoặc dự đoán về mối tương quan giữa

hai biến quan tâm. Để xác định mối tương quan này, chúng ta phải tính toán hệ số

tương quan (correlation coefficient) của chúng và phải đảm bảo rằng hệ số này là

khác 0 (nghĩa là không tương quan). Việc tính toán này được trình bày trong phần

sau đây.

Hệ số tương quan

Analyze à Correlate à Bivariate.

Correlations

1 .719**

. .000

641 641

.719** 1

.000 .

641 641

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

birth weight in gms

gestational age in weeks

birth weight

in gms

gestational

age in weeks

Correlation is significant at the 0.01 level (2-tailed).**.

Hệ số tương quan giữa hai biến trọng lượng sinh và tuổi thai là 0.719. Sự tương

quan này là tương quan dương (tương quan thuận) có ý nghĩa thống kê với

Page 61: Spss_Than Khao SPSS12

59

p<0.001. Giá trị 0.738 cho biết tương quan này là tương quan mạnh trong đó biến

số độc lập (tuổi thai) giải thích cho 0.7192 = 51.6% sự biến thiên của trọng lượng

sơ sinh.

Đối với kết quả về hệ số tương quan, dấu của hệ số tương quan cho thấy chiều của

tương quan (dương - + -: tương quan thuận, âm - : tương quan nghịch). Ngoài ra,

độ lớn của hệ số tương quan quyết định mức độ tương quan là hoàn toàn hay

không.

Trong 02 phần trên, chúng ta đã xem xét đến việc hai biến số: độc lập và phụ thuộc

có tương quan với nhau hay không. Hệ số tương quan sẽ trả lời câu hỏi đó. Tuy

nhiên, chúng ta chưa xác định được tương quan này là như thế nào, nói cách khác,

sự thay đổi của biến này sẽ làm thay đổi biến kia ra sao. Để trả lời câu hỏi này, đòi

hỏi chúng ta phải tính toán sự tương quan giữa chúng thông qua việc xây dựng

phương trình hồi quy.

Hồi quy tuyến tính

Analyze à Regression à Linear để làm xuất hiện cửa sổ Linear Regression. Đưa

biến số phụ thuộc (bweight) vào hộp dependent. Đưa biến số độc lập (gestwks) vào

hộp Independent. Chấp nhận phương pháp mô hình là buộc đưa vào (Method:

Enter)

Nhấp OK để hoàn tất. Ta có kết quả như sau:

Page 62: Spss_Than Khao SPSS12

60

Model Summary

.719a .516 .515 462.58754

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), gestational age in weeksa.

ANOVAb

1.46E+08 1 145924902.6 681.933 .000a

1.37E+08 639 213987.235

2.83E+08 640

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), gestational age in weeksa.

Dependent Variable: birth weight in gmsb.

Coefficientsa

-4803.479 304.094 -15.796 .000

204.906 7.847 .719 26.114 .000

(Constant)

gestational age in weeks

Model1

B Std. Error

Unstandardized

Coefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: birth weight in gmsa.

Trong kết quả này cũng trình bày Hệ số tương quan - R giữa hai biến trọng lượng

sinh và tuổi thai là 0.719 như kết quả thao tác phần trước. Hệ số tương quan bình

phương – R square = 0.7192 = 0.516 = 51.6% nói lên tuổi thai có thể giải thích cho

51.6% sự thay đổi về trọng lượng sơ sinh.

Dựa vào bảng các hệ số chúng ta có thể xây dựng phương trình hồi quy như sau:

Trọng lượng sơ sinh = -4803.5 + 204.9 x tuổi thai (tính theo tuần).

Mức ý nghĩa (Sig.) của biến số tuổi thai (Gestational age) là kết quả của kiểm định

ý nghĩa của biến số này trong phương trình có thực sự khác không hay không

(nói cách khác, liệu biến số này có ý nghĩa trong phương trình hay không). Trong

bảng này, p<0.001 chứng tỏ biến số này có ý nghĩa trong phương trình.

Hệ số của biến số độc lập (ô màu đỏ) nói lên sự thay đổi của biến số phụ thuộc

khi biến số độc lập thay đổi một đơn vị. Trong phương trình này chúng ta có thể lí

giải nếu đứa trẻ lớn hơn 1 tuần tuổi trọng lượng lúc sanh của nó sẽ tăng them 204.9

gram.

Page 63: Spss_Than Khao SPSS12

61

Như vậy: trong quá trình xem xét mối tương quan giữa hai biến liên tục, một cách

ngắn gọn, chúng ta quan tâm đến hai giá trị: hệ số tương quan và hệ số của biến

độc lập trong phương trình hồi qui.

Page 64: Spss_Than Khao SPSS12

62

THỐNG KÊ PHÂN TÍCH - BIẾN PHÂN LOẠI

2222 Học viên tải tập tin mwanza2.sav trên E-learning và Save vào máy

tính. Mở tập tin số liệu mwanza2.sav

I. Thông tin về nghiên cứu:

Một số nhà khoa học muốn đánh giá tác động của phòng ngừa bệnh lây truyền qua đường

tình dục lên tỉ lệ mắc mới của HIV ở Mwanza, Tanzania, một điều tra nền được tiến hành

ở 12 xã về tỉ lệ hiện nhiễm của HIV. Tất cả những phụ nữ có HIV dương (từ 15 tuổi trở

lên) được người điều tra quay trở lại và nếu có thể sẽ phỏng vấn về các yếu tố nguy cơ

của HIV sử dụng một bộ câu hỏi chuẩn. Ngoài việc hỏi những người phụ nữ có HIV

dương, người ta cũng chọn ngẫu nhiên một số người phụ nữ HIV âm từ danh sách dân số

được chuẩn bị khi tiến hành điều tra. Những phụ này sẽ được nhân viên điều tra thăm

viếng và nếu có thể sẽ phỏng vấn. Người ta không bắt cặp bệnh và chứng

Các mã số là như sau

Biến

số

Giải thích tiếng Anh Giải thích tiếng Việt

idno identity number Mã số

comp community 1-12 Cộng đồng1-12

case 1=case 0=control 1=bệnh 0=chứng

age1 age group: 1=15-19 2=20-24 3=25-

29 4=30-34 5=35-44 6=45-54

Nhóm tuổi: 1=15-19 2=20-24 3=25-29

4=30-34 5=35-44 6=45-54

ed education: 1=none/adult only 2=1-3

years 3=4-6 years 4=7+ years

Học vấn : 1=không 2=1-3 năm 3=4-6

năm 4=7+ năm

eth ethnic group: 1=Sukuma 2=Mkara

3=other 9=missing

Dân tộc 1=Sukuma 2=Mkara 3=Khác

9=khuyết

rel religion: 1=Moslem 2=Catholic Tôn giáo : 1=Hồi 2=Thiên chúa 3=Tin

Page 65: Spss_Than Khao SPSS12

63

3=Protestant 4=other 9=missing lành 4=khác 9=khuyết

msta marital status: 1=currently married

2=divorced/widowed 3=never married

9=missing

Hôn nhân: 1=có gia đình 2=li dị/goá

3=còn độc thân 9=khuyết

bld blood transfusion in last 5 years: 1=no

2=yes 9=missing

Truyền máu trong 5 năm qua: 1=không

2=có 9=khuyết

inj injections in past 1 year: 1=none 2=1

3=2-4 4=5-9 5=10+ 9=missing

Tiêm chích trong năm qua: 1=không

2=1 3=2-4 4=5-9 5=10+ 9=khuyết

skin skin incisions or tattoos: 1=no 2=yes

9=missing

Rạch da hay xâm da: 1=không 2=có

9=khuyết

fsex age at first sex: 1=<15 2=15-19

3=20+ 4=never 9=missing

Tuổi đầu tiên giao hợp: 1=<15 2=15-

19 3=20+ 4=không 9=khuyết

npa number of sexual partners ever: 1=0-1

2=2-4 3=5-9 4=10-19 5=20-49 6=50+

9=missing

Số bạn tình cho đến nay: 1=0-1 2=2-4

3=5-9 4=10-19 5=20-49 6=50+

9=khuyết

pa1 sex partners in last year: 1=none 2=1

3=2 4=3-4 5=5+ 9=missing

Số bạn tình trong năm qua: 1=không

2=1 3=2 4=3-4 5=5+ 9=khuyết

usedc

ever used a condom: 1=no 2=yes

9=missing

Có dùng bao cao su: 1=không 2=có

9=khuyết

ud genital ulcer or discharge in past year:

1=no 2=yes 9=missing

vết loét tình dục hay khí hư trong năm

qua: 1=không 2=có 9=khuyết

3. Tìm sự khác biệt về trình độ học vấn giữa nhóm bệnh và chứng:

Hướng dẫn

Page 66: Spss_Than Khao SPSS12

64

Nhấp vào nút lệnh Cells. Nhấp vào hộp kiểm Column trong phần Percentages. Đọc kết

quả như sau:

Education * Case/control Crosstabulation

263 49 312

45.8% 25.9% 40.9%

51 24 75

8.9% 12.7% 9.8%

255 110 365

44.4% 58.2% 47.8%

5 6 11

.9% 3.2% 1.4%

574 189 763

100.0% 100.0% 100.0%

Count

% within Case/control

Count

% within Case/control

Count

% within Case/control

Count

% within Case/control

Count

% within Case/control

1

2

3

4

Education

Total

0 1

Case/control

Total

Page 67: Spss_Than Khao SPSS12

65

Chi-Square Tests

26.737a 3 .000

27.011 3 .000

22.242 1 .000

763

Pearson Chi-Square

Likelihood Ratio

Linear-by-Linear

Association

N of Valid Cases

Value df

Asymp. Sig.

(2-sided)

1 cells (12.5%) have expected count less than 5. The

minimum expected count is 2.72.

a.

Kết quả ở trên có thể đọc như sau: số liệu gồm 763 bản ghi hợp lệ. Kiểm định Chi bình

phương về sự khác biệt về tỉ lệ giữa các hàng cho giá trị 26.737 với 3 độ tự do. Kiểm

định Chi bình phương để xem có phải có tính khuynh hướng về số chênh giữa các nhóm

là 22.242 với 1 độ tự do. Giá trị Likelihood Ratio về mặt ý nghĩa, tương tự như giá trị Chi

bình phương Pearson.

Giá trị Chi bình phương có thể không hợp lệ bởi vì có 1 ô có giá trị kì vọng nhỏ hơn 5.

4. Hãy tạo biến ed2 có giá trị 1 khi phụ nữ không được đi học (giá trị ed=1) và có giá trị 2

cho phụ nữ có đi học (giá trị ed=2/4). Tính tỉ lệ phụ nữ có đi học

5. Hãy tính tỉ số số chênh của mối liên quan giữa biến ed2 và nhiễm HIV. Từ kết quả này

chúng ta rút ra kết luận gì?

Hướng dẫn: Để giúp đọc các bảng chéo một cách dễ dàng, chúng ta nên mã hoá lại để

nhóm bệnh =1 và nhóm chứng =2.

Page 68: Spss_Than Khao SPSS12

66

Rồi nhấp continue để trở về cửa sổ Recode into same variables, rồi nhấp OK để hoàn tất.

Chúng ta có thể tính tỉ số số chênh cho nghiên cứu bệnh chứng sử dụng menu Statistics –

Descriptive Statistics – Crosstabs. Lưu ý nhớ nhấp nút Statistics để chọn vào hộp kiểm

Chi-square và Risk đồng thời nhấp vào nút lệnh Cells để chọn Column trong nhóm

Percentage.

Kết quả thu được như sau:

ED2 * Case/control Crosstabulation

49 263 312

25.9% 45.8% 40.9%

140 311 451

74.1% 54.2% 59.1%

189 574 763

100.0% 100.0% 100.0%

Count

% within Case/control

Count

% within Case/control

Count

% within Case/control

1.00

2.00

ED2

Total

1 2

Case/control

Total

Page 69: Spss_Than Khao SPSS12

67

Chi-Square Tests

23.279b 1 .000

22.463 1 .000

24.242 1 .000

.000 .000

23.248 1 .000

763

Pearson Chi-Square

Continuity Correctiona

Likelihood Ratio

Fisher's Exact Test

Linear-by-Linear

Association

N of Valid Cases

Value df

Asymp. Sig.

(2-sided)

Exact Sig.

(2-sided)

Exact Sig.

(1-sided)

Computed only for a 2x2 tablea.

0 cells (.0%) have expected count less than 5. The minimum expected count is

77.28.

b.

Risk Estimate

.414 .287 .596

.506 .378 .677

1.222 1.130 1.322

763

Odds Ratio for

ED2 (1.00 / 2.00)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Value Lower Upper

95% Confidence

Interval

Trả lời: OR = 0.414. Từ kết quả này chúng ta có thể nói không đi học là một yếu tố bảo

vệ khỏi nhiễm HIV. Người phụ nữ không đi học chỉ có nguy cơ bị nhiễm HIV vào

khoảng 41.4% so với phụ nữ có đi học. Khoảng tin cậy 95% là 0,287 đến 0,596.

6. Chúng ta hãy tạo ra biến số age2 từ tuổi theo quy tắc sau:

age2 1=15/19 2 20/29 3 = 30-44 4 = 45+

Nhóm tuổi có phải là yếu tố tương tác hay là yếu tố gây nhiễu hay không?

Hướng dẫn:

Chúng ta có thể mã hoá biến số age1 thành biến số age2 theo quy ước ở trên nghĩa là 1

trở thành 1; 2 và 3 trở thành 2; 4 và 5 trở thành 3 và 6 trở thành 4. Chúng ta có thể sử

dụng menu Transform – Recode – Recode into different variables để vào cửa sổ Recode

into different variables . Chọn age1 vào hộp Numeric variable, gõ age2 vào hộp Output

Page 70: Spss_Than Khao SPSS12

68

variable – Name, nhấp nút lệnh Change. Sau đó nhấp vào nút lệnh Old and new values,

thao tác để có kết quả như sau.

Nhấp vào Continue để trở về cửa số Recode into Different Variables và nhấp OK để thực

hiện.

Muốn tính OR về mối liên quan giữa học vấn và nhiễm HIV có hiệu chỉnh theo nhóm

tuổi bằng cách sử dụng menu Statistics – Descriptive Statistics – Crosstab và chọn thêm

biến age2 vào hộp Layer 1 of 1 như hình vẽ sau:

Page 71: Spss_Than Khao SPSS12

69

Khi phân tích phân tầng cần phải tính giá trị thống kê Mantel –Haenszel bằng cách nhấp

vào nút lệnh Statistics và chọn các hộp kiểm Chi-square, Risk và Cochrane and Mantel-

Haenszel Statistics.

Page 72: Spss_Than Khao SPSS12

70

----------+--------------------------------------------------------------------

age2 | Odds ratio chi2(1) P>chi2 [95% Conf. Interval]

----------+--------------------------------------------------------------------

1 | 1.925926 1.02 0.3132 0.526705 7.042253

2 | 0.512195 4.10 0.0430 0.264718 .9910314

3 | 0.289130 16.76 0.0000 0.153528 .5445023

4 | 0.351220 3.05 0.0808 0.102761 1.200413

----------+--------------------------------------------------------------------

Mantel-Haenszel estimate controlling for age2

----------------------------------------------------------------

Odds ratio chi2(1) P>chi2 [95% Conf. Interval]

----------------------------------------------------------------

0.436729 17.94 0.0000 0.294397 0.647875

----------------------------------------------------------------

Page 73: Spss_Than Khao SPSS12

71

Tests for Homogeneity of the Odds Ratio

18.023 1 .000

17.128 1 .000

8.053 3 .045

8.010 3 .046

StatisticsCochran's

Mantel-Haenszel

Conditional

Independence

Breslow-Day

Tarone's

Homogeneity

Chi-Squared df

Asymp. Sig.

(2-sided)

Under the conditional independence assumption, Cochran's statistic is

asymptotically distributed as a 1 df chi-squared distribution, only if the number of

strata is fixed, while the Mantel-Haenszel statistic is always asymptotically

distributed as a 1 df chi-squared distribution. Note that the continuity correction is

removed from the Mantel-Haenszel statistic when the sum of the differences

between the observed and the expected is 0.

Risk Estimate

1.926 .533 6.958

1.758 .596 5.180

.913 .740 1.125

109

.512 .266 .985

.622 .380 1.018

1.215 1.029 1.435

288

.289 .157 .532

.390 .242 .629

1.349 1.159 1.569

255

.351 .105 1.174

.434 .175 1.074

1.236 .901 1.696

111

Odds Ratio for

ED2 (1.00 / 2.00)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Odds Ratio for

ED2 (1.00 / 2.00)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Odds Ratio for

ED2 (1.00 / 2.00)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Odds Ratio for

ED2 (1.00 / 2.00)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

AGE21.00

2.00

3.00

4.00

Value Lower Upper

95% Confidence

Interval

Page 74: Spss_Than Khao SPSS12

72

Mantel-Haenszel Common Odds Ratio Estimate

.437

-.828

.204

.000

.293

.651

-1.227

-.429

Estimate

ln(Estimate)

Std. Error of ln(Estimate)

Asymp. Sig. (2-sided)

Lower Bound

Upper Bound

Common Odds

Ratio

Lower Bound

Upper Bound

ln(Common

Odds Ratio)

Asymp. 95% Confidence

Interval

The Mantel-Haenszel common odds ratio estimate is asymptotically normally

distributed under the common odds ratio of 1.000 assumption. So is the natural log of

the estimate.

Hình 1. Kế hoạch phân tích để đánh giá biến số gây nhiễu

Töông taùc

Gaây nhieãu?

Coù Trình baøy giaù trò ñaëc hieäu taàng

Khoâng

Coù Söû duïng soá hieäu chænh

Khoâng

Khoâng caàn xem xeùt bieán soá thöù 3

Ứng dụng sơ đồ trong hình một vào số liệu trên ta tiến hành lập luận như sau:

Bởi vì kiểm định Breslow Day có chi bình phương = 8.053 và giá trị p tương ứng là

0.045 chúng ta kết luận là có sự tương tác giữa nhóm tuổi và trình độ văn hoá lên tình

trạng nhiễm HIV. Ta cần báo cáo kết quả OR của từng tầng:

age2 OR

1=15/19 1.93

2 = 20/29 0.51

Page 75: Spss_Than Khao SPSS12

73

3 = 30-44 0.29

4 = 45+ 0.35

Kết luận: Như vậy chúng ta có thể kết luận Tuổi là yếu tố tương tác. Khi tuổi nhỏ thì học

vấn thấp là yếu tố nguy cơ nhưng ở lứa tuổi cao trên 20 thì học vấn thấp là yếu tố bảo vệ.

7. Tôn giáo có phải là yếu tố tương tác hay là yếu tố gây nhiễu hay không?

Hướng dẫn: Muốn tính OR về mối liên quan giữa học vấn và nhiễm HIV có hiệu chinh

theo tôn giáo, ta sử dụng menu Statistics – Descriptive Statistics – Crosstab và chọn thêm

biến re1 vào hộp Layer 1 of 1. Khi phân tích phân tầng cần phải tính giá trị thống kê

Mantel –Haenszel bằng cách nhấp vào nút lệnh Statistics và chọn các hộp kiểm Chi-

square, Risk và Cochrane and Mantel-Haenszel Statistics.

Tests for Homogeneity of the Odds Ratio

10.955 1 .001

10.281 1 .001

1.046 3 .790

1.046 3 .790

StatisticsCochran's

Mantel-Haenszel

Conditional

Independence

Breslow-Day

Tarone's

Homogeneity

Chi-Squared df

Asymp. Sig.

(2-sided)

Under the conditional independence assumption, Cochran's statistic is

asymptotically distributed as a 1 df chi-squared distribution, only if the number of

strata is fixed, while the Mantel-Haenszel statistic is always asymptotically

distributed as a 1 df chi-squared distribution. Note that the continuity correction is

removed from the Mantel-Haenszel statistic when the sum of the differences

between the observed and the expected is 0.

Page 76: Spss_Than Khao SPSS12

74

Mantel-Haenszel Common Odds Ratio Estimate

.522

-.649

.199

.001

.354

.771

-1.039

-.260

Estimate

ln(Estimate)

Std. Error of ln(Estimate)

Asymp. Sig. (2-sided)

Lower Bound

Upper Bound

Common Odds

Ratio

Lower Bound

Upper Bound

ln(Common

Odds Ratio)

Asymp. 95% Confidence

Interval

The Mantel-Haenszel common odds ratio estimate is asymptotically normally

distributed under the common odds ratio of 1.000 assumption. So is the natural log of

the estimate.

Cũng sử dụng sơ đồ trong hình 1 vào số liệu trên ta tiến hành lập luận như sau:

Bởi vì kiểm định Breslow Day có chi bình phương = 1.046 và giá trị p tương ứng là

0.790 chúng ta kết luận là không có sự tương tác giữa tôn giáo và trình độ văn hoá lên

tình trạng nhiễm HIV (ở nhóm tôn giáo nào học vấn thấp cũng là yếu tố bảo vệ). Khi đó

chúng ta không cần báo cáo kết quả OR của từng tầng mà phải kiểm tra nhóm tôn giáo có

phải là yếu tố gây nhiễu hay không. Chúng ta so sánh OR thô (0.414) với OR hiệu chỉnh

(common Odds Ratio=0.522) chúng ta thấy có sự khác biệt

%21522.0

414.0522.0=

=

MH

crudeMH

OR

OROR

Vì đây là sự khác biệt khá lớn nên chúng ta kết luận tôn giáo là yếu tố gây nhiễu. Do đó

chúng ta không thể báo cáo số OR thô là 0.414 mà phải báo cáo ORMH đã hiệu chỉnh là

0.522. Nói khác đi chúng ta cho rằng người phụ nữ học vấn thấp có nguy cơ bị nhiễm

HIV chỉ bằng 52,2% so với người phụ nữ có đi học nếu họ có cùng tôn giáo (khoảng tin

cậy 95% là 0.354 đến 0.771. Ngay ở phụ nữ cùng một tôn giáo sự khác biệt về tỉ lệ

nhiễm HIV giữa phụ nữ không đi học và phụ nữ có đi học vẫn có ý nghĩa thống kê rất cao

(chi bình phương = 10,281 với giá trị p = 0.001)

8. Chúng ta hãy xét vết loét tình dục là yếu tố nguy cơ. Xác định OR mối liên quan giữa

vết loét tình dục (ud) và nhiễm HIV (case).

Hướng dẫn: Lưu ý do biến vết loét tình dục (ud) có giá trị khuyết được mã hoá số 9.

Nếu chúng ta thực hiện lệnh crosstabl mà không để ý đến điều này sẽ không tính được

OR. Để báo cho phần mềm SPSS giá trị 9 của biến vết loét tình dục (ud) là giá trị khuyết

Page 77: Spss_Than Khao SPSS12

75

cần vào chuyển qua view “Variable View” bằng cách nhấp vào tab “Variable View” ở

góc dưới trái màn hình. Nhấp con trỏ vào ô của hàng ud và cột Missing ta thấy hiện lên

một nút lệnh với 3 dấu chấm hiện lên ở góc phải. (Nếu chúng ta nhấp vào phía bên phải

của ô này thì cửa sổ Missing value sẽ hiện lên ngay mà không cần thêm thao tác khác).

Nhấp vào nút lệnh này để hiện ra cửa số Missing Value. Nhấp vào nút chọn Discrete

missing value và nhập giá trị 9 vào ô đầu tiên.

Nhấp OK để hoàn tất.

Để thể hiện giá trị có vết loét tình dục là yếu tố nguy cơ, chúng ta cần mã hoá lại biến số

này. Dùng menu Transform – Recode – Into the variables. Chọn các biến số bld, usedc,

ud, skin để đưa vào hộp Numeric Variable (lưu ý chỉ những biến sẽ được xem là yếu tố

nguy cơ mới cần phải mã hoá lại, những yếu tố gây nhiễu không cần phải mã hoá lại).

Sau đó nhấp vào nút lệnh Old and New Value để mở cửa sổ Old and New Value. Thay

đổi Old Value (Value 1) thành New Value (Value 2) và Thay đổi Old Value (Value 2)

Page 78: Spss_Than Khao SPSS12

76

thành New Value (Value 1) như hình sau.

Nhấp vào continue để trở về cửa sổ Recode into Same Variables và nhấp nút lệnh OK để

hoàn tất.

Chúng ta có thể tính tỉ số số chênh cho nghiên cứu bệnh chứng sử dụng menu Statistics –

Descriptive Statistics – Crosstabs. Đưa biến phơi nhiễm loét sinh dục (ud) vào hộp

Row(s) và biến phụ thuộc nhiễm HIV (case) vào hộp Column(s).

Page 79: Spss_Than Khao SPSS12

77

Lưu ý nhớ nhấp nút Statistics để vào cửa sổ Crosstab:Statistics. Chọn vào hộp kiểm Chi-

square và Risk. Nhấp continue để trở về cửa sổ Crosstab.

Khi về cửa sổ Crosstab, nhấp vào nhấp vào nút lệnh Cells để vào của sổ Crosstabl:cell,

nhấp vào nút kiểm Column trong khung Percentage. Nhấp continue để trở về cửa sổ

Crosstab. Nhấp OK để hoàn tất.

Page 80: Spss_Than Khao SPSS12

78

Kết quả thu được như sau:

Genital ulcer/discharge, past y * Case/control Crosstabulation

42 90 132

22.2% 15.7% 17.3%

147 482 629

77.8% 84.3% 82.7%

189 572 761

100.0% 100.0% 100.0%

Count

% within Case/control

Count

% within Case/control

Count

% within Case/control

1

2

Genital ulcer/discharge,

past y

Total

1 2

Case/control

Total

Risk Estimate

1.530 1.015 2.306

1.361 1.022 1.814

.890 .786 1.007

761

Odds Ratio for Genital

ulcer/discharge, past y

(1 / 2)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Value Lower Upper

95% Confidence

Interval

Trả lời: Người bị vết loét tình dục có nguy cơ bị nhiễm HIV tăng gắp 1.53 lần so với

người bình thường.

9. Người có nhiều bạn tình sẽ có nhiều vết loét tình dục, người có nhiều bạn tình có nhiều

nguy cơ bị nhiễm HIV, do đó chúng ta cần phải xem số bạn tình (npa) có phải là yếu tố

gây nhiễu trong nghiên cứu của chúng ta hay không?

Hướng dẫn: Chúng ta có thể tính tỉ số số chênh cho nghiên cứu bệnh chứng sử dụng

menu Statistics –

Descriptive Statistics – Crosstabs. Đưa biến phơi nhiễm loét sinh dục (ud) vào hộp

Row(s) và biến phụ thuộc nhiễm HIV (case) vào hộp Column(s) và biến gây nhiễu số bạn

tình đã từng có (npa) vào hộp Layer. Lưu ý cần nhấp vào nút lệnh Statistics để vào cửa sổ

Crosstabs: Statistic. Chọn vào các hộp kiểm: Risk (để ước lượng OR), Chi-Square (để

tiến hành kiểm định) và Cochrane and Mantel-Haenszel Statistics (để tính OR hiệu chỉnh

và kiểm định tính đồng nhất của OR giữa các tầng). Nhấp nút lệnh continue để trở về hộp

Page 81: Spss_Than Khao SPSS12

79

thoại Crosstabs.

Nhấp vào nút lệnh OK để hoàn tất và xem kết quả.

Tests for Homogeneity of the Odds Ratio

2.741 1 .098

2.362 1 .124

10.314 4 .035

10.314 4 .035

StatisticsCochran's

Mantel-Haenszel

Conditional

Independence

Breslow-Day

Tarone's

Homogeneity

Chi-Squared df

Asymp. Sig.

(2-sided)

Under the conditional independence assumption, Cochran's statistic is

asymptotically distributed as a 1 df chi-squared distribution, only if the number of

strata is fixed, while the Mantel-Haenszel statistic is always asymptotically

distributed as a 1 df chi-squared distribution. Note that the continuity correction is

removed from the Mantel-Haenszel statistic when the sum of the differences

between the observed and the expected is 0.

Trả lời: Kết quả cho thấy có sự tương tác giữa số bạn tình và vết loét tình dục. Cùng bị

vết loét tình dục nhưng ở người không quá 1 bạn tình và người có từ 2-4 bạn tình có nguy

cơ nhiễm HIV chỉ tăng lên không đáng kể (OR = 1.023 và 0.925), ở những người có từ 5-

9 người bạn tình có vết loét sinh dục sẽ làm nguy cơ nhiễm HIV lên 1.795 lần, ở những

người có trên 10 bạn tình vết loét sinh dục sẽ làm tăng nguy cơ lên 4.250 và những người

Page 82: Spss_Than Khao SPSS12

80

có số bạn tình không đếm được, vết loét sinh dục làm tăng nguy cơ lên 19 lần. Như vậy

để giảm việc lây truyền HIV cần điều trị (và phòng ngừa) bệnh lây truyền qua đường tình

dục gây loét tình dục cho các phụ nữ nhưng cần ưu tiên điều trị và phòng ngừa các bệnh

này ở các phụ nữ có nhiều bạn tình.

Page 83: Spss_Than Khao SPSS12

81

Risk Estimate

1.023 .326 3.208

1.019 .380 2.733

.997 .852 1.167

199

.925 .482 1.777

.943 .574 1.549

1.019 .872 1.192

369

1.795 .753 4.278

1.454 .857 2.468

.810 .573 1.145

123

4.250 .782 23.107

1.650 1.033 2.637

.388 .108 1.401

43

19.000 2.029 177.932

7.000 1.668 29.384

.368 .118 1.152

27

Odds Ratio for Genital

ulcer/discharge, past y

(1 / 2)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Odds Ratio for Genital

ulcer/discharge, past y

(1 / 2)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Odds Ratio for Genital

ulcer/discharge, past y

(1 / 2)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Odds Ratio for Genital

ulcer/discharge, past y

(1 / 2)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Odds Ratio for Genital

ulcer/discharge, past y

(1 / 2)

For cohort

Case/control = 1

For cohort

Case/control = 2

N of Valid Cases

Number of sex

partners ever1

2

3

4

9

Value Lower Upper

95% Confidence

Interval

Page 84: Spss_Than Khao SPSS12

82

Mantel-Haenszel Common Odds Ratio Estimate

1.433

.360

.217

.097

.937

2.191

-.065

.784

Estimate

ln(Estimate)

Std. Error of ln(Estimate)

Asymp. Sig. (2-sided)

Lower Bound

Upper Bound

Common Odds

Ratio

Lower Bound

Upper Bound

ln(Common

Odds Ratio)

Asymp. 95% Confidence

Interval

The Mantel-Haenszel common odds ratio estimate is asymptotically normally

distributed under the common odds ratio of 1.000 assumption. So is the natural log of

the estimate.