Methodology 5

Chương 5. Nhập và xử lý dữ liệu

Môn học: Phương pháp nghiên cứu kinh tếKhoa Kinh tế Phát triển

Đại học Kinh Tế TP. Hồ Chí Minh

2

5.1 Giới thiệuNhằm hướng dẫn sinh viên cách:� Cách nhập liệu, xử lý và phân tích dữ liệu.� Các kỹ thuật phân tích dữ liệu mang tính

khám phá (exploratory data analysis). � Cách sử dụng bảng chéo (cross-tabulation)

để trắc nghiệm mối quan hệ giữa các biến phân loại (categorical variables).

� Cách sử dụng các thống kê phân tích trắc nghiệm giả thiết.

3

5.2 Quy trình phân tích dữ liệuLập đề cương NC

Thu thập và chuẩn bị dữ liệu

Phân tích và diễn giải dữ liệuPhân tích mô tả các biến số

Lập bảng chéo cho các biến số

Trình bày dữ liệu(histogram, boxplots, Pareto, stem-and-

leaf, AID, etc.)

Phân tích dữ liệu

Báo cáo nghiên cứu

Ra quyết định

Kế hoạch phân tích sơ khởi

Xác định lại giả thiết

Thể hiện trực quan dữ liệu

Trắc nghiệm giả thiết

Hình 5.1 Các bước khám phá, trắc nghiệm và phân tích trong quá trình nghiên cứu

4

5.3 Nhập số liệu

5.3.1 Cách bố trí dữ liệu trên máy tính

� Mục tiêu:� Nhằm tạo điều kiện thuận tiện cho việc

nhập liệu� Nhằm tạo sự thuận lợi cho việc chỉnh sửa

dữ liệu

5

5.3 Nhập số liệu� Thực hiện:

� Nguyên tắc chung: đặt tên biến ngắn gọn, viết tắt (tiếng Việt không dấu hoặc tiếng Anh). Tên biến nên được đặt theo quy định.

� Dùng Excel: dễ thao tác và chỉnh sửa, không gian lưu trữ hạn chế, công cụ thống kê và kinh tế lượng không đủ cho phân tích.

� Dùng SPSS: không gian lưu trữ gần như không hạn chế, công cụ thống kê và kinh tế lượng phát triển đầy đủ cho nhu cầu phân tích. Khai báo dữ liệu bắt buộc, mất thời gian.

6


Hình 5. 2 Cách nhập dữ liệu vào bảng tính SPSS

7


Hình 5.3 Cách định nghĩa các thuộc tính của các biến số định tính và định lượng

8

Định nghĩa kiểu biến

9

Xác định nhãn (giải thích) của biến

10

Xác định giá trị phân loại của biến

11

Xác định thang đo của biến

12

5.4 Làm sạch dữ liệu

5.4.1 Phát hiện giá trị dị biệt trong dữ liệua. Sử dụng Excel: hàm Max và Min, công cụ Auto Filter, đồ thị Scatter

13

5.4 Làm sạch dữ liệuHình 5.4 Công cụ đồ thị Scatter trong Excel

14


5.4.1 Phát hiện giá trị dị biệt trong dữ liệub. Sử dụng SPSS: đồ thị Scatter, công cụ Frequency, Bar Chart, Pie Chart, và Box Plot trong Explore

15


b. Sử dụng SPSS: đồ thị Scatter

Number of used days in a month

403020100

80

70

60

50

40

30

20

10

Others

Honda @

Honda Dream

SYM Attila

Yamaha Cygnus

Honda Wave

Yamaha Jupiter

Yamaha Sirius

Honda Future Neo

Honda AirBlade

16


b. Sử dụng SPSS: công cụ Frequency, Explore

Hình 5.6 Công cụ Frequency và Explore trong SPSS

17


b. Sử dụng SPSS: công cụ Frequency

Frequency Percent %Valid Cumulative Percent

Honda Air Blade 10 10.0 10.0 10.0Honda Future Neo 8 8.0 8.0 18.0

Yamaha Sirius 7 7.0 7.0 25.0Yamaha Jupiter 13 13.0 13.0 38.0

Honda Wave 24 24.0 24.0 62.0Yamaha Cygnus 4 4.0 4.0 66.0

SYM Attila 11 11.0 11.0 77.0Honda Dream 6 6.0 6.0 83.0Honda @ 7 7.0 7.0 90.0

Others 10 10.0 10.0 100.0Total 100 100.0 100.0

18


b. Sử dụng SPSS: công cụ Pie Chart và Bar Chart

10.0%

7.0%

6.0%

11.0%

4.0%

24.0%

13.0%

7.0%

8.0%

10.0%

Others

Honda @

Honda Dream

SYM Attila

Yamaha Cygnus

Honda Wave

Yamaha Jupiter

Yamaha Sirius

Honda Future Neo

Honda AirBlade

Motobike Names

Others

Honda @

Honda Dream

SYM Attila

Yamaha Cygnus

Honda Wave

Yamaha Jupiter

Yamaha Sirius

Honda Future Neo

Honda AirBlade

30

20

10

0

19


� Biểu đồ histogram là một giải pháp quy ước dùng để thể hiện các dữ liệu tỷ lệ hoặc khoảng cách.

� Biểu đồ histogram được sử dụng để phân nhóm các giá trị dữ liệu của các biến số (variable) thành các khoảng cách.

� Biểu đồ histogram được xây dựng dưới dạng các thanh thể hiện giá trị dữ liệu.

b. Sử dụng SPSS: công cụ Histogram

20


� Biểu đồ histogram rất hữu dụng cho việc: (1) thể hiện tất cả các khoảng cách trong một phân phối (distribution), và (2) trắc nghiệm dạng hình của phân phối như độ méo (skewness), độ nhọn (kurtosis).

� Ghi chú: Biểu đồ histogram không dùng được cho các biến danh nghĩa.


21


Age of motorbike user

757065605550454035302520

30

20

10

0

Std. Dev = 14.42

Mean = 39

N = 100.00

Ví dụ 5.2 Phân phối biến số tuổi của người sử dụng xe máy


22


� Mỗi dòng của biểu đồ được gọi là một thân; và mỗi số liệu thể hiện trên một thân gọi là một lá.

� Khi biểu đồ thân-và-lá được quay trái 900 , nó sẽ có dạng hình tương tự như biểu đồ histogram.

b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)

23


b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)Age of motorbike user Stem-and-Leaf Plot

Frequency Stem & Leaf

6.00 1 . 88999918.00 2 . 0001111222222333448.00 2 . 55677788

13.00 3 . 00122333344444.00 3 . 5556

12.00 4 . 12333333444413.00 4 . 555556677778910.00 5 . 01233444449.00 5 . 5666677792.00 6 . 034.00 6 . 5567.00 7 .1.00 7 . 6

Stem width: 10Each leaf: 1 case(s)

5.3 Biểu đồ Thân-và Lá của biến số Tuổi của người sử dụng xe máy

24


� Biểu đồ hộp, hay còn gọi là biểu đồ hộp-và-râu (box-and-whisker plot), cho ta một hình ảnh trực quan khác về vị trí, độ phân tán, dạng hình, độ dài đuôi và các giá trị bất thường (outliers) của phân phối.

� Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một phân phối là trung vị (median), hai tứ phân vị trên và dưới (the upper and lower quartiles), và các giá trị quan sát lớn nhất và nhỏ nhất

b. Sử dụng SPSS: biểu đồ hộp (Box-Plots)

25


� Các thành phần chủ yếu của biểu đồ hộp là: � Hộp hình chữ nhật chứa đựng 50% các giá trị dữ

liệu. � Đường thẳng ở trung tâm hộp là giá trị trung vị. � Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và

thứ 3 (tương ứng với giá trị thứ 25% (25th percentile) và giá trị thứ 75% (75th percentile) của dãy số liệu.

� Các “râu” kéo dài từ lề phía trên và phía dưới của hộp thể hiện giá trị lớn nhất và nhỏ nhất. Các giá trị này nằm trong khoảng tối đa 1,5 lần khoảng cách giữa các tứ phân vị tính từ lề của hộp.


26



Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes)Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers)

Giá trị lớn nhất quan sát được không phải là giá trị bất thường

Tứ phân vị thứ 3 (75th PERCENTILE)

Trung vị (MEDIAN)

Tứ phân vị thứ 1 (25th PERCENTILE)

Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (extremes)

Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers)

Giá trị lớn nhất quan sát được không phải là giá trị bất thường

50% trường hợp có giá trị nằm trong hộp

27



100100N =

Number of used daysAge of motorbike use

100

80

60

40

20

0

5.4 Biểu đồ hộp của biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng

28

5.5 Phân tích thống kê mô tả

� Sử dụng Excel: công cụ Descriptives Statistics trong chức năng Data Analysis.

� Sử dụng SPSS: công cụ Frequency, Descriptives, Explore trong chức năng Descriptive Statistics của SPSS.

5.5.1 Phân tích thống kê mô tả định lượng

29


Các chỉ tiêu thống kê mô tả :� xu hướng trung tâm, � tính biến thiên và � dạng hình phân phối của dữ liệu.


30


Đo lường xu hướng trung tâm (Measures of Central Tendency)

� Giá trị trung bình (mean) là tổng tất cả giá trị của các dữ liệu chia cho số lượng của dữ liệu.

� Trung vị (median) là giá trị của số liệu có vị trí nằm giữa bộ số liệu sắp xếp theo trật tự. Đây chính là điểm giữa của phân phối. Khi số quan sát là chẵn, trung vị là giá trị trung bình của hai quan sát ở vị trí trung tâm.

� Mode là giá trị của quan sát có tần suất xuất hiện nhiều nhất trong bộ dữ liệu.

� Khoảng cách (range) là giá trị khác biệt giữa con số lớn nhất và nhỏ nhất trong bộ dữ liệu.


31


Đo lường tính biến thiên (Measures of Variability)� Phương sai (Variance; σ2) là trung bình tổng các sai số

bình phương giữa các giá trị của các quan sát và giá trị trung bình.

� Độ lệch chuẩn (Standard deviation; SD; σ) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình.

� Sai số chuẩn của giá trị trung bình (Standard error of the mean; s.e.) đo lường phạm vi mà giá trị trung bình của quần thể (μ) có thể xuất hiện với một xác suất cho trước dựa trên giá trị trung bình của mẫu (mean).


32


Đo lường dạng hình của phân phối (Measures of Shape)� Độ méo (skewness) đo lường độ lệch của phân phối về

một trong hai phía. � Phân phối méo trái (negative skew, left-skewed) khi

đuôi phía trái dài hơn, và phần lớn số liệu tập trung ở phía phải của phân phối.

� Phân phối méo phải (positive sknew, right-skewed) khi đuôi phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân phối.

� Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị skewness âm. Độ méo càng lớn thì giá trị sknewness càng lớn hơn 0.


33

5.5 Phân tích thống kê mô tả5.5.1 Phân tích thống kê mô tả định lượng

Hình 5.10 Đường phân phối chuẩn và các đặc tính

34

5.5 Phân tích thống kê mô tả5.5.1 Phân tích thống kê mô tả định lượng

Hình 5.11 Các dạng phân phối lệch trái và lệch phải so với phân phối bình thường

35


Đo lường dạng hình của phân phối (Measures of Shape)� Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của

phân phối so với phân phối bình thường (có độ nhọn bằng 0). Phân phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi giá trị kurtosis âm.

� Với phân phối bình thường, giá trị của độ méo và độ nhọn bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình thường hay không (khi tỷ số này nhỏ hơn -2 và lớn hơn +2, phân phối là không bình thường).


36

5.5 Phân tích thống kê mô tảPhân tích thống kê mô tả với SPSS: công cụ Descriptive

Hình 5.13 Các chức năng thống kê mô tả của công cụ Descriptives

37

5.5 Phân tích thống kê mô tảPhân tích thống kê mô tả với SPSS: công cụ Descriptive

Statistic Std. ErrorAge of motorbike user N 100

Range 58Minimum 18Maximum 76Mean 39.01 1.44Std. Deviation 14.42Variance 207.909Skewness .242 .241Kurtosis -.948 .478

Bảng 5.6 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy

38

5.5 Phân tích thống kê mô tảPhân tích thống kê mô tả với SPSS: công cụ ExploreCông cụ Explore rất thích hợp để thống kê mô tả chi tiết các biến số phân nhóm theo một biến phân loại khác (factor variable).

39

Age of motorbike user Number of used days in a month

User gender

Statistic Std. Error Statistic Std. Error

female Mean 38.46 2.11 20.71 1.07

95% Confidence Interval for Mean

Lower Bound

34.19 18.54

Upper Bound

42.74 22.88

5% Trimmed Mean 38.13 20.95

Median 41.00 22.00

Variance 183.205 47.212

Std. Deviation 13.54 6.87

Minimum 19 7

Maximum 65 30

Range 46 23

Interquartile Range 23.00 11.00

Skewness .118 .369 -.513 .369

Kurtosis -1.089 .724 -.838 .724

5.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính

40

5.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính

male Mean 39.39 1.97 19.76 1.01

95% Confidence Interval for Mean

Lower Bound 35.45 17.74

Upper Bound 43.33 21.79

5% Trimmed Mean 38.87 19.90

Median 42.00 21.00

Variance 228.173 60.460

Std. Deviation 15.11 7.78

Minimum 18 5

Maximum 76 32

Range 58 27

Interquartile Range 28.00 15.00

Skewness .292 .311 -.175 .311

Kurtosis -.932 .613 -1.271 .613

41

5.5 Phân tích thống kê mô tả5.5.2 Phân tích thống kê mô tả định tính

a. Sử dụng công cụ Basic Table trong SPSS

42



43



2 20.0% 3 30.0% 3 30.0% 1 10.0% 1 10.0% 4 50.0% 2 25.0% 2 25.0% 1 14.3% 1 14.3% 2 28.6% 3 42.9% 4 30.8% 1 7.7% 4 30.8% 4 30.8%

1 4.2% 2 8.3% 8 33.3% 7 29.2% 5 20.8% 1 4.2% 1 25.0% 1 25.0% 1 25.0% 1 25.0%

3 27.3% 4 36.4% 1 9.1% 2 18.2% 1 9.1% 3 50.0% 1 16.7% 1 16.7% 1 16.7% 2 28.6% 1 14.3% 4 57.1% 2 20.0% 2 20.0% 5 50.0% 1 10.0%

Honda AirBladeHonda Future NeoYamaha SiriusYamaha JupiterHonda WaveYamaha Cy gnusSYM Att ilaHonda DreamHonda @Others

MotobikeNames

Count Row %under 20

Count Row %under 30

Count Row %under 40

Count Row %under 50

Count Row %under 60

Count Row %older than 60

Age groups

Bảng. Phân bố nhóm tuổi của người sử dụng xe máy theo nhãn hiệu

44


� Bảng chéo là một kỹ thuật dùng để so sánh dữ liệu từ hai hoặc nhiều hơn các biến phân loại hoặc danh nghĩa (categorical or nominal variables), ví dụ như là giới tính. Bảng chéo sử dụng các bảng có các cột và dòng thể hiện các mức độ hoặc các giá trị mã hóa của từng biến phân loại hoặc danh nghĩa.

� Bảng chéo là bước đầu tiên để xác định các quan hệ giữa các biến. Khi bảng chéo được xây dựng để trắc nghiệm thống kê, ta gọi chúng là bảng contingency (contingency tables), và loại trắc nghiệm dùng để đánh giá liệu các biến phân loại có độc lập với nhau hay không là χ2 (Chi bình phương / chi-square).

5.5.2 Phân tích thống kê mô tả định tính

b. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS

45



46



47

5.5 Phân tích thống kê mô tảBảng. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu

Motobike Names * User gender Crosstabulation

Count

3 7 104 4 83 4 76 7 139 15 242 2 45 6 112 4 63 4 74 6 10

41 59 100

Honda AirBladeHonda Future NeoYamaha SiriusYamaha JupiterHonda WaveYamaha Cy gnusSYM Att ilaHonda DreamHonda @Others

MotobikeNames

Total

f emale maleUser gender

Total

48

User gender * Motobike Names Crosstabulation

3 4 3 6 9 2 5 2 3 4 414.1 3.3 2.9 5.3 9.8 1.6 4.5 2.5 2.9 4.1 41.0

7.3% 9.8% 7.3% 14.6% 22.0% 4.9% 12.2% 4.9% 7.3% 9.8% 100.0%30.0% 50.0% 42.9% 46.2% 37.5% 50.0% 45.5% 33.3% 42.9% 40.0% 41.0%

3.0% 4.0% 3.0% 6.0% 9.0% 2.0% 5.0% 2.0% 3.0% 4.0% 41.0%7 4 4 7 15 2 6 4 4 6 59

5.9 4.7 4.1 7.7 14.2 2.4 6.5 3.5 4.1 5.9 59.011.9% 6.8% 6.8% 11.9% 25.4% 3.4% 10.2% 6.8% 6.8% 10.2% 100.0%70.0% 50.0% 57.1% 53.8% 62.5% 50.0% 54.5% 66.7% 57.1% 60.0% 59.0%

7.0% 4.0% 4.0% 7.0% 15.0% 2.0% 6.0% 4.0% 4.0% 6.0% 59.0%10 8 7 13 24 4 11 6 7 10 100

10.0 8.0 7.0 13.0 24.0 4.0 11.0 6.0 7.0 10.0 100.010.0% 8.0% 7.0% 13.0% 24.0% 4.0% 11.0% 6.0% 7.0% 10.0% 100.0%

100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%10.0% 8.0% 7.0% 13.0% 24.0% 4.0% 11.0% 6.0% 7.0% 10.0% 100.0%

CountExpected Count% within User gender% within Motobike Names% of TotalCountExpected Count% within User gender% within Motobike Names% of TotalCountExpected Count% within User gender% within Motobike Names% of Total

f emale

male

User gender

Total

HondaAirBlade

HondaFuture Neo

YamahaSirius

YamahaJupiter Honda Wave

YamahaCy gnus SYM Att ila Honda Dream Honda @ Others

Motobike Names

Total

5.5 Phân tích thống kê mô tảBảng. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu

49

5.6 Phân tích trắc nghiệm giả thiết5.6.1 Trắc nghiệm giả thiết� Mục tiêu của trắc nghiệm giả thiết là nhằm quyết

định tính chính xác của giả thiết dựa trên các số liệu mẫu thu thập được. Chúng ta đánh giá tính chính xác của các giả thiết bằng cách áp dụng các kỹ thuật thống kê; và đánh giá tầm quan trọng của sự khác biệt có ý nghĩa thống kê.

� Cách tiếp cận cổ điển hay là lý thuyết lấy mẫu thể hiện cách nhìn mục tiêu theo xác suất dựa trên phân tích dữ liệu mẫu. Một giả thiết được xây dựng, nó sẽ bị bác bỏ hoặc chấp nhận dựa trên mẫu dữ liệu thu thập.

50

5.6 Phân tích trắc nghiệm giả thiếtMục tiêu và kiểu của các câu hỏi nghiên cứu

Mục tiêu chung

Mục tiêu cụ thể

Kiểu câu hỏi/ giả thiết

Kiểu thống kê

Khác biệt Liên quan Mô tả

Mức độ liên quan, các biến

liên quan

So sánh nhóm

Tóm lược dữ liệu

Quan hệ giữa các biến Thuần Mô tả

Thống kê khác biệt (v.d. t-test, ANOVA)

Thống kê liên quan

(v.d. tương quan, hồi quy)

Thống kê mô tả (v.d. trung bình, tỷ lệ)

51

5.6 Phân tích trắc nghiệm giả thiếtXây dựng giả thiết H0 và giả thiết thay thế

Câu hỏi NC Giả thiết H0 Biểu diễn giả thiết H0

Giả thiết H1 Biểu diễn giả thiết H1

Có sự khác biệt về tuổi giữa nam và nữ?

Không có sự khác biệt về tuổi giữa nam và nữ.

H0: μnam = μnữ Có sự khác biệt về tuổi giữa nam và nữ.

H0: μnam ≠ μnữ

Có liên hệ gì giữa giới tính và nhãn hiệu xe?

Không có liên hệ gì giữa giới tính và nhãn hiệu xe.

H0: рGM = 0 Có liên hệ giữa giới tính và nhãn hiệu xe.

H0: рGM ≠ 0

Mức độ sử dụng xe có khác biệt giữa các nhóm tuổi không?

Không có khác biệt giữa các nhóm tuổi về mức độ sử dụng xe.

H0: μuth = μu

th Có khác biệt giữa các nhóm tuổi về mức độ sử dụng xe.

H1: μuth ≠ μu

th

52

5.6 Phân tích trắc nghiệm giả thiết5.6.2 Quy trình trắc nghiệm giả thiết

1. Phát biểu giả thiết

2. Chọn loại trắc nghiệm thống kê

3. Chọn mức ý nghĩa mong muốn

4. Tính giá trị khác biệt

5. Có được giá trị trắc nghiệm

6. Diễn giải kết quả trắc nghiệm

53

5.6 Phân tích trắc nghiệm giả thiết5.6.2 Quy trình trắc nghiệm giả thiết

1. Phát biểu giả thiết và giả thiết thay thế

2. Chọn mức ý nghĩa mong muốn

3. Có được giá trị xác suất p

4. So sánh giá trị xác suất p và mức ý nghĩa và ra quyết định

5. Diễn giải kết quả trắc nghiệm

54

5.6 Phân tích trắc nghiệm giả thiết

� Hầu hết các phần mềm thống kê đều cho kết quả với giá trị xác suất (p values).

� Giá trị xác suất p value là xác suất để đạt được một kết quả, ít nhất cao bằng, hoặc cao hơn giá trị được quan sát trong thực tế, với điều kiện cho trước là giả thiết H0 là đúng.

Giá trị xác suất (p Values)

55


� Giá trị p value được so sánh với mức ý nghĩa (significant level - α), và dựa trên kết quả này để bác bỏ hay không bác bỏ giả thiết.

� Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả thiết bị bác bỏ (p value < α, bác bỏ giả thiết H0).

� Nếu giá trị p value bằng hoặc lớn hơn mức ý nghĩa, không bác bỏ giả thiết (p value > α, không bác bỏ giả thiết H0).

Giá trị xác suất (p Values)

56


� Có hai loại: parametric (tham số) và nonparametric (phi tham số).

� Parametric tests là công cụ mạnh vì xử lý các dữ liệu dạng scale (interval, ratio).

� Nonparametric tests là công cụ xử lý các dữ liệu dạng nominal và ordinal.

Kiểm định ý nghĩa: các kiểu kiểm định

57


� Parametric tests đòi hỏi một số giả định: � Các quan sát phải độc lập với nhau.� Các quan sát phải được rút ra từ các dân số

phân phối bình thường chuẩn.� Các dân số nên có phương sai tương đương.� Thang đo phải ở dạng scale để các tính toán

có thể thực hiện được.

Parametric tests

58


� Nonparametric tests ít đòi hỏi các giả định: � Không đòi hỏi các quan sát phải được rút ra từ các

dân số phân phối bình thường chuẩn.� Không đòi hỏi các dân số phải có phương sai tương

đương.� Là cách duy nhất để xử lý dữ liệu nominal.� Là cách đúng đắn để xử lý dữ liệu ordinal, mặc dù

parametric có thể áp dụng được.� Dễ hiểu và dễ sử dụng.

Parametric tests

59


� Để chọn một trắc nghiệm thống kê phù hợp, nên suy nghĩ đến 3 câu hỏi: � Trắc nghiệm liên quan đến 1 mẫu, 2 mẫu hay

nhiều hơn 2 mẫu (k)?� Nếu có 2 mẫu hay nhiều hơn 2 mẫu (k),

chúng có độc lập với nhau hay không?� Dữ liệu thuộc loại nào (nominal, ordinal,

scale)?

Làm sao chọn một trắc nghiệm thống kê phù hợp?

60

5.6 Phân tích trắc nghiệm giả thiếtCác kỹ thuật phân tích thống kê nên dùng theo loại dữ liệu và trắc nghiệm

Measurement scale

One-sample Case

Two-Samples Tests k-Samples TestsRelated Samples

Independent Samples

Related Samples

Independent Samples

Nominal - Binomial- χ2 one-sample test

- McNemar - Fisher exact test- χ2 two-sample test

- Cochran Q - χ2 for k-samples

Ordinal - Kolmogorov-Smirnov one-sample test- Runs test

- Sign test- Wilcoxon matched-pairs test

-Median testMann-Whitney U- Kolmogorov-SmirnovWald-Wolfowitz

-Friedman two-way ANOVA

- Median extension- Kruskal-Wallis one-way ANOVA

Interval and Ratio - T-test- Z test

- T-test for paired samples

- T-test- Z test

- Repeated-measured ANOVA

- One-way ANOVA- N-way ANOVA

61

5.6 Phân tích trắc nghiệm giả thiết5.6.3 Phân tích dữ liệua. Excel: công cụ Correlation, Anova và Regression trong chức năng Data Analysis

b. SPSS: các công cụ Compare Means và Nonparametric Tests

62

5.6 Phân tích trắc nghiệm giả thiết5.6.3 Phân tích dữ liệu

b. SPSS: các công cụ Compare Means và Nonparametric Tests

63

5.7 Một số áp dụng cụ thể

� One-sample tests được dùng khi ta có 1 mẫu và muốn kiểm định giả thiết là liệu mẫu này có đến từ 1 dân số cụ thể nào đó không? Ví dụ:� Liệu có sự khác biệt giữa tần suất quan sát và 1

tần suất chuẩn nào đó dựa trên lý thuyết?� Liệu có sự khác biệt giữa tỷ phần quan sát với 1

tỷ phần kỳ vọng nào đó không?

1. One-Sample T Test

64

5.7 Một số áp dụng cụ thể1. One-Sample T Test

� Ví dụ 1 (Parametric test)� Có số liệu tốc độ tăng doanh số của 9

doanh nghiệp.� Tốc độ tăng trưởng chuẩn là 6,5%/năm.� Giả thiết: tốc độ tăng trưởng doanh số

bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6,5%/năm).

65

5.7 Một số áp dụng cụ thể1. One-Sample T Test. Ví dụ 1 (parametric test)

66


Analyze � Compare Means � One-Sample T Test (TẠI SAO?)

67


Analyze � Compare Means � One-Sample T Test

68


Analyze � Compare Means � One-Sample T Test

� Diễn giải kết quả phân tích Ví dụ 1 (Parametric test)� P value (Sig. 2 tailed) > 0.05.� Khác biệt giữa tốc độ tăng trưởng doanh số bình

quân của 9 doanh nghiệp và tốc độ chuẩn không có ý nghĩa thống kê ở mức ý nghĩa 0.05.

� Chấp nhận giả thiết (không bác bỏ): tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6,5%/năm).

69


� Ví dụ 2 (Nonparametric test)� Số liệu điều tra sử dụng xe máy.� Giả thiết H0: tất cả các nhãn hiệu xe máy

đều có cơ hội được người sử dụng xe lựa chọn như nhau.

2. One-Sample Chi-Square Test

Analyze � Nonparametric Tests � Chi-Square

70

5.7 Một số áp dụng cụ thể2. One-Sample Chi-Square Test

71


Ta có 100 quan sát và 10nhãn xe máy. Cơ hội đểmỗi nhãn xe được chọn là10%, và số lượng kỳ vọnglà 10 xe/nhãn hiệu.

Tuy nhiên, sự khác biệtgiữa N quan sát và N kỳvọng cho từng nhãn xe làlớn.

Với P value < 0.05, ta bácbỏ giả thiết Ho và phát biểulà các nhãn hiệu xe máyđược người sử dụng lựachọn khác biệt nhau. 72


� Có hai kiểu T Test cho hai mẫu: � Không bắt cặp (unpaired, independent T

Test): cho hai mẫu độc lập với nhau, ví dụ nam, nữ, các nhóm người, nhóm nghề nghiệp, v.v.)

� Bắt cặp (paired T Test): cho hai mẫu có liên hệ với nhau, ví dụ 1 nhóm người trước và sau khi bị một yếu tố tác động.

3. Two-Sample T Test

73


� Ví dụ 3. Số liệu điều tra sử dụng xe máy � Giả thiết: tuổi trung bình của người sử

dụng xe máy nam và nữ là như nhau.

3. Two-Sample T Test

74

5.7 Một số áp dụng cụ thể3. Two-Sample T Test

Analyze � Compare Means � Independent-Samples T Test

75


76


Chọn biến Age cho ô Test Variable(s)

Grouping Variable: Group 1 = 1 (male); Group 2 = 0 (female)

77


P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều. Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ.

Independent Samples Test

1.239 .268 -.315 98 .754 -.93 2.95 -6.77 4.92

-.321 91.785 .749 -.93 2.89 -6.66 4.81

Equal variancesassumedEqual variancesnot assumed

Age of motorbike userF Sig.

Lev ene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

Dif f erenceStd. ErrorDif f erence Lower Upper

95% Conf idenceInterv al of the

Dif f erence

t-test f or Equality of Means

78

5.7 Một số áp dụng cụ thể4. Two-Sample Nonparametric Test

� Ví dụ 4. Số liệu điều tra sử dụng xe máy � Giả thiết: sự lựa chọn nhãn hiệu xe máy

giữa người sử dụng nam và nữ là như nhau.

Analyze � Nonparametric Test � Two-Independent Samples

79


Analyze � Nonparametric Test � Two-Independent Samples 80


Mann-Whitney Test

Test Statisticsa

1200.0002970.000

-.067.946

Mann-Whitney UWilcoxon WZAsy mp. Sig. (2-tailed)

MotobikeNames

Grouping Variable: User gendera.

Two-Sample Kolmogorov-Smirnov Test

Test Statisticsa

.045

.045-.018.224

1.000

AbsolutePositiv eNegativ e

Most ExtremeDif f erences

Kolmogorov-Smirnov ZAsy mp. Sig. (2-tailed)

MotobikeNames

Grouping Variable: User gendera.

Kết luận: chấp nhận giả thiết và phát biểu rằng sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau.

81


� Phương pháp thống kê để kiểm định giả thiết là các trung bình của các dân số bằng nhau là Phân tích phương sai - analysis of variance (ANOVA).

� One-way ANOVA sử dụng các mô hình 1 yếu tố, các ảnh hưởng cố định để so sánh ảnh hưởng của một nghiệm thức (treatment) hoặc một yếu tố (factor) trên một biến phụ thuộc và liên tục.

5. One-Way ANOVA (Parametric Test)

82


� Ví dụ 5. Số liệu điều tra sử dụng xe máy � Giả thiết: Không có sự khác biệt giữa các người

sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng.

5. One-Way ANOVA (Parametric Test)

Analyze � Compare Means � One-Way ANOVA…

83

5.7 Một số áp dụng cụ thể5. One-Way ANOVA (Parametric Test)

84


85


ANOVA

Number of used day s in a month

1428.944 5 285.789 6.737 .0003987.806 94 42.4235416.750 99

Between GroupsWithin GroupsTotal

Sum ofSquares df Mean Square F Sig.

P value < 0.05.

Kết luận: bác bỏ giả thiết;

Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng

86


Number of used days in a month

19 14.4725 17.96 17.966 18.33 18.33

26 22.62 22.6217 24.12 24.127 26.14

.695 .198 .76919 14.4725 17.96 17.966 18.33 18.33

26 22.62 22.6217 24.127 26.14

.175 .101 .215

Age groupsunder 60under 50under 20under 30under 40older than 60Sig.under 60under 50under 20under 30under 40older than 60Sig.

Tukey HSDa,b

Duncana,b

N 1 2 3Subset f or alpha = .05

Means f or groups in homogeneous subsets are displayed.Uses Harmonic Mean Sample Size = 12.013.a.

The group sizes are unequal. The harmonic mean of the group sizes isused. Ty pe I error lev els are not guaranteed.

b.

87


Age Group Value Grouping

Under 60 14,5 aUnder 50 17,9 abUnder 20 18,3 abUnder 30 22,6 abcUnder 40 24,1 abcOlder than 60 26,1 abc

88


Hình. Phân bố số ngày sử dụng xe máy bình quân trong tháng theo độ tuổi của người sử dụng

89

5.7 Một số áp dụng cụ thể6. Nonparametric Test for k-Independent Samples

� Ví dụ 6. Số liệu điều tra sử dụng xe máy � Giả thiết: Không có sự khác biệt giữa các

người sử dụng xe máy ở các nhóm tuổi khác nhau về nhãn hiệu xe.

Analyze � Nonparametric Tests � k Independent Samples

90

5.7 Một số áp dụng cụ thể6. Nonparametric Test for k-Independent Samples

91

5.7 Một số áp dụng cụ thể6. Nonparametric Test for k-Independent SamplesKruskal-Wallis Test

Ranks

6 46.2526 49.4017 50.6225 55.6619 45.877 52.07

100

Age groupsunder 20under 30under 40under 50under 60older than 60Total

Motobike NamesN Mean Rank

Test Statisticsa,b

1.4935

.914

Chi-SquaredfAsy mp. Sig.

MotobikeNames

Kruskal Wallis Testa.

Grouping Variable: Age groupsb.

P value > 0.05 � Kết luận: chấp nhận giả thiết;

Phát biểu rằng sự lựa chọn các nhãn hiệu xe máy giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau là như nhau.

Documents

Methodology 5