Upload
dung-fe
View
15
Download
1
Embed Size (px)
Citation preview
Chương 5. Nhập và xử lý dữ liệu
Môn học: Phương pháp nghiên cứu kinh tếKhoa Kinh tế Phát triển
Đại học Kinh Tế TP. Hồ Chí Minh
2
5.1 Giới thiệuNhằm hướng dẫn sinh viên cách:� Cách nhập liệu, xử lý và phân tích dữ liệu.� Các kỹ thuật phân tích dữ liệu mang tính
khám phá (exploratory data analysis). � Cách sử dụng bảng chéo (cross-tabulation)
để trắc nghiệm mối quan hệ giữa các biến phân loại (categorical variables).
� Cách sử dụng các thống kê phân tích trắc nghiệm giả thiết.
3
5.2 Quy trình phân tích dữ liệuLập đề cương NC
Thu thập và chuẩn bị dữ liệu
Phân tích và diễn giải dữ liệuPhân tích mô tả các biến số
Lập bảng chéo cho các biến số
Trình bày dữ liệu(histogram, boxplots, Pareto, stem-and-
leaf, AID, etc.)
Phân tích dữ liệu
Báo cáo nghiên cứu
Ra quyết định
Kế hoạch phân tích sơ khởi
Xác định lại giả thiết
Thể hiện trực quan dữ liệu
Trắc nghiệm giả thiết
Hình 5.1 Các bước khám phá, trắc nghiệm và phân tích trong quá trình nghiên cứu
4
5.3 Nhập số liệu
5.3.1 Cách bố trí dữ liệu trên máy tính
� Mục tiêu:� Nhằm tạo điều kiện thuận tiện cho việc
nhập liệu� Nhằm tạo sự thuận lợi cho việc chỉnh sửa
dữ liệu
5
5.3 Nhập số liệu� Thực hiện:
� Nguyên tắc chung: đặt tên biến ngắn gọn, viết tắt (tiếng Việt không dấu hoặc tiếng Anh). Tên biến nên được đặt theo quy định.
� Dùng Excel: dễ thao tác và chỉnh sửa, không gian lưu trữ hạn chế, công cụ thống kê và kinh tế lượng không đủ cho phân tích.
� Dùng SPSS: không gian lưu trữ gần như không hạn chế, công cụ thống kê và kinh tế lượng phát triển đầy đủ cho nhu cầu phân tích. Khai báo dữ liệu bắt buộc, mất thời gian.
6
5.3 Nhập số liệu
Hình 5. 2 Cách nhập dữ liệu vào bảng tính SPSS
7
5.3 Nhập số liệu
Hình 5.3 Cách định nghĩa các thuộc tính của các biến số định tính và định lượng
8
Định nghĩa kiểu biến
9
Xác định nhãn (giải thích) của biến
10
Xác định giá trị phân loại của biến
11
Xác định thang đo của biến
12
5.4 Làm sạch dữ liệu
5.4.1 Phát hiện giá trị dị biệt trong dữ liệua. Sử dụng Excel: hàm Max và Min, công cụ Auto Filter, đồ thị Scatter
13
5.4 Làm sạch dữ liệuHình 5.4 Công cụ đồ thị Scatter trong Excel
14
5.4 Làm sạch dữ liệu
5.4.1 Phát hiện giá trị dị biệt trong dữ liệub. Sử dụng SPSS: đồ thị Scatter, công cụ Frequency, Bar Chart, Pie Chart, và Box Plot trong Explore
15
5.4 Làm sạch dữ liệu
b. Sử dụng SPSS: đồ thị Scatter
Number of used days in a month
403020100
80
70
60
50
40
30
20
10
Others
Honda @
Honda Dream
SYM Attila
Yamaha Cygnus
Honda Wave
Yamaha Jupiter
Yamaha Sirius
Honda Future Neo
Honda AirBlade
16
5.4 Làm sạch dữ liệu
b. Sử dụng SPSS: công cụ Frequency, Explore
Hình 5.6 Công cụ Frequency và Explore trong SPSS
17
5.4 Làm sạch dữ liệu
b. Sử dụng SPSS: công cụ Frequency
Frequency Percent %Valid Cumulative Percent
Honda Air Blade 10 10.0 10.0 10.0Honda Future Neo 8 8.0 8.0 18.0
Yamaha Sirius 7 7.0 7.0 25.0Yamaha Jupiter 13 13.0 13.0 38.0
Honda Wave 24 24.0 24.0 62.0Yamaha Cygnus 4 4.0 4.0 66.0
SYM Attila 11 11.0 11.0 77.0Honda Dream 6 6.0 6.0 83.0Honda @ 7 7.0 7.0 90.0
Others 10 10.0 10.0 100.0Total 100 100.0 100.0
18
5.4 Làm sạch dữ liệu
b. Sử dụng SPSS: công cụ Pie Chart và Bar Chart
10.0%
7.0%
6.0%
11.0%
4.0%
24.0%
13.0%
7.0%
8.0%
10.0%
Others
Honda @
Honda Dream
SYM Attila
Yamaha Cygnus
Honda Wave
Yamaha Jupiter
Yamaha Sirius
Honda Future Neo
Honda AirBlade
Motobike Names
Others
Honda @
Honda Dream
SYM Attila
Yamaha Cygnus
Honda Wave
Yamaha Jupiter
Yamaha Sirius
Honda Future Neo
Honda AirBlade
30
20
10
0
19
5.4 Làm sạch dữ liệu
� Biểu đồ histogram là một giải pháp quy ước dùng để thể hiện các dữ liệu tỷ lệ hoặc khoảng cách.
� Biểu đồ histogram được sử dụng để phân nhóm các giá trị dữ liệu của các biến số (variable) thành các khoảng cách.
� Biểu đồ histogram được xây dựng dưới dạng các thanh thể hiện giá trị dữ liệu.
b. Sử dụng SPSS: công cụ Histogram
20
5.4 Làm sạch dữ liệu
� Biểu đồ histogram rất hữu dụng cho việc: (1) thể hiện tất cả các khoảng cách trong một phân phối (distribution), và (2) trắc nghiệm dạng hình của phân phối như độ méo (skewness), độ nhọn (kurtosis).
� Ghi chú: Biểu đồ histogram không dùng được cho các biến danh nghĩa.
b. Sử dụng SPSS: công cụ Histogram
21
5.4 Làm sạch dữ liệu
Age of motorbike user
757065605550454035302520
30
20
10
0
Std. Dev = 14.42
Mean = 39
N = 100.00
Ví dụ 5.2 Phân phối biến số tuổi của người sử dụng xe máy
b. Sử dụng SPSS: công cụ Histogram
22
5.4 Làm sạch dữ liệu
� Mỗi dòng của biểu đồ được gọi là một thân; và mỗi số liệu thể hiện trên một thân gọi là một lá.
� Khi biểu đồ thân-và-lá được quay trái 900 , nó sẽ có dạng hình tương tự như biểu đồ histogram.
b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)
23
5.4 Làm sạch dữ liệu
b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)Age of motorbike user Stem-and-Leaf Plot
Frequency Stem & Leaf
6.00 1 . 88999918.00 2 . 0001111222222333448.00 2 . 55677788
13.00 3 . 00122333344444.00 3 . 5556
12.00 4 . 12333333444413.00 4 . 555556677778910.00 5 . 01233444449.00 5 . 5666677792.00 6 . 034.00 6 . 5567.00 7 .1.00 7 . 6
Stem width: 10Each leaf: 1 case(s)
5.3 Biểu đồ Thân-và Lá của biến số Tuổi của người sử dụng xe máy
24
5.4 Làm sạch dữ liệu
� Biểu đồ hộp, hay còn gọi là biểu đồ hộp-và-râu (box-and-whisker plot), cho ta một hình ảnh trực quan khác về vị trí, độ phân tán, dạng hình, độ dài đuôi và các giá trị bất thường (outliers) của phân phối.
� Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một phân phối là trung vị (median), hai tứ phân vị trên và dưới (the upper and lower quartiles), và các giá trị quan sát lớn nhất và nhỏ nhất
b. Sử dụng SPSS: biểu đồ hộp (Box-Plots)
25
5.4 Làm sạch dữ liệu
� Các thành phần chủ yếu của biểu đồ hộp là: � Hộp hình chữ nhật chứa đựng 50% các giá trị dữ
liệu. � Đường thẳng ở trung tâm hộp là giá trị trung vị. � Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và
thứ 3 (tương ứng với giá trị thứ 25% (25th percentile) và giá trị thứ 75% (75th percentile) của dãy số liệu.
� Các “râu” kéo dài từ lề phía trên và phía dưới của hộp thể hiện giá trị lớn nhất và nhỏ nhất. Các giá trị này nằm trong khoảng tối đa 1,5 lần khoảng cách giữa các tứ phân vị tính từ lề của hộp.
b. Sử dụng SPSS: biểu đồ hộp (Box-Plots)
26
5.4 Làm sạch dữ liệu
b. Sử dụng SPSS: biểu đồ hộp (Box-Plots)
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes)Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers)
Giá trị lớn nhất quan sát được không phải là giá trị bất thường
Tứ phân vị thứ 3 (75th PERCENTILE)
Trung vị (MEDIAN)
Tứ phân vị thứ 1 (25th PERCENTILE)
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (extremes)
Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers)
Giá trị lớn nhất quan sát được không phải là giá trị bất thường
50% trường hợp có giá trị nằm trong hộp
27
5.4 Làm sạch dữ liệu
b. Sử dụng SPSS: biểu đồ hộp (Box-Plots)
100100N =
Number of used daysAge of motorbike use
100
80
60
40
20
0
5.4 Biểu đồ hộp của biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng
28
5.5 Phân tích thống kê mô tả
� Sử dụng Excel: công cụ Descriptives Statistics trong chức năng Data Analysis.
� Sử dụng SPSS: công cụ Frequency, Descriptives, Explore trong chức năng Descriptive Statistics của SPSS.
5.5.1 Phân tích thống kê mô tả định lượng
29
5.5 Phân tích thống kê mô tả
Các chỉ tiêu thống kê mô tả :� xu hướng trung tâm, � tính biến thiên và � dạng hình phân phối của dữ liệu.
5.5.1 Phân tích thống kê mô tả định lượng
30
5.5 Phân tích thống kê mô tả
Đo lường xu hướng trung tâm (Measures of Central Tendency)
� Giá trị trung bình (mean) là tổng tất cả giá trị của các dữ liệu chia cho số lượng của dữ liệu.
� Trung vị (median) là giá trị của số liệu có vị trí nằm giữa bộ số liệu sắp xếp theo trật tự. Đây chính là điểm giữa của phân phối. Khi số quan sát là chẵn, trung vị là giá trị trung bình của hai quan sát ở vị trí trung tâm.
� Mode là giá trị của quan sát có tần suất xuất hiện nhiều nhất trong bộ dữ liệu.
� Khoảng cách (range) là giá trị khác biệt giữa con số lớn nhất và nhỏ nhất trong bộ dữ liệu.
5.5.1 Phân tích thống kê mô tả định lượng
31
5.5 Phân tích thống kê mô tả
Đo lường tính biến thiên (Measures of Variability)� Phương sai (Variance; σ2) là trung bình tổng các sai số
bình phương giữa các giá trị của các quan sát và giá trị trung bình.
� Độ lệch chuẩn (Standard deviation; SD; σ) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình.
� Sai số chuẩn của giá trị trung bình (Standard error of the mean; s.e.) đo lường phạm vi mà giá trị trung bình của quần thể (μ) có thể xuất hiện với một xác suất cho trước dựa trên giá trị trung bình của mẫu (mean).
5.5.1 Phân tích thống kê mô tả định lượng
32
5.5 Phân tích thống kê mô tả
Đo lường dạng hình của phân phối (Measures of Shape)� Độ méo (skewness) đo lường độ lệch của phân phối về
một trong hai phía. � Phân phối méo trái (negative skew, left-skewed) khi
đuôi phía trái dài hơn, và phần lớn số liệu tập trung ở phía phải của phân phối.
� Phân phối méo phải (positive sknew, right-skewed) khi đuôi phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân phối.
� Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị skewness âm. Độ méo càng lớn thì giá trị sknewness càng lớn hơn 0.
5.5.1 Phân tích thống kê mô tả định lượng
33
5.5 Phân tích thống kê mô tả5.5.1 Phân tích thống kê mô tả định lượng
Hình 5.10 Đường phân phối chuẩn và các đặc tính
34
5.5 Phân tích thống kê mô tả5.5.1 Phân tích thống kê mô tả định lượng
Hình 5.11 Các dạng phân phối lệch trái và lệch phải so với phân phối bình thường
35
5.5 Phân tích thống kê mô tả
Đo lường dạng hình của phân phối (Measures of Shape)� Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của
phân phối so với phân phối bình thường (có độ nhọn bằng 0). Phân phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi giá trị kurtosis âm.
� Với phân phối bình thường, giá trị của độ méo và độ nhọn bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình thường hay không (khi tỷ số này nhỏ hơn -2 và lớn hơn +2, phân phối là không bình thường).
5.5.1 Phân tích thống kê mô tả định lượng
36
5.5 Phân tích thống kê mô tảPhân tích thống kê mô tả với SPSS: công cụ Descriptive
Hình 5.13 Các chức năng thống kê mô tả của công cụ Descriptives
37
5.5 Phân tích thống kê mô tảPhân tích thống kê mô tả với SPSS: công cụ Descriptive
Statistic Std. ErrorAge of motorbike user N 100
Range 58Minimum 18Maximum 76Mean 39.01 1.44Std. Deviation 14.42Variance 207.909Skewness .242 .241Kurtosis -.948 .478
Bảng 5.6 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy
38
5.5 Phân tích thống kê mô tảPhân tích thống kê mô tả với SPSS: công cụ ExploreCông cụ Explore rất thích hợp để thống kê mô tả chi tiết các biến số phân nhóm theo một biến phân loại khác (factor variable).
39
Age of motorbike user Number of used days in a month
User gender
Statistic Std. Error Statistic Std. Error
female Mean 38.46 2.11 20.71 1.07
95% Confidence Interval for Mean
Lower Bound
34.19 18.54
Upper Bound
42.74 22.88
5% Trimmed Mean 38.13 20.95
Median 41.00 22.00
Variance 183.205 47.212
Std. Deviation 13.54 6.87
Minimum 19 7
Maximum 65 30
Range 46 23
Interquartile Range 23.00 11.00
Skewness .118 .369 -.513 .369
Kurtosis -1.089 .724 -.838 .724
5.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính
40
5.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính
male Mean 39.39 1.97 19.76 1.01
95% Confidence Interval for Mean
Lower Bound 35.45 17.74
Upper Bound 43.33 21.79
5% Trimmed Mean 38.87 19.90
Median 42.00 21.00
Variance 228.173 60.460
Std. Deviation 15.11 7.78
Minimum 18 5
Maximum 76 32
Range 58 27
Interquartile Range 28.00 15.00
Skewness .292 .311 -.175 .311
Kurtosis -.932 .613 -1.271 .613
41
5.5 Phân tích thống kê mô tả5.5.2 Phân tích thống kê mô tả định tính
a. Sử dụng công cụ Basic Table trong SPSS
42
5.5 Phân tích thống kê mô tả5.5.2 Phân tích thống kê mô tả định tính
a. Sử dụng công cụ Basic Table trong SPSS
43
5.5 Phân tích thống kê mô tả5.5.2 Phân tích thống kê mô tả định tính
a. Sử dụng công cụ Basic Table trong SPSS
2 20.0% 3 30.0% 3 30.0% 1 10.0% 1 10.0% 4 50.0% 2 25.0% 2 25.0% 1 14.3% 1 14.3% 2 28.6% 3 42.9% 4 30.8% 1 7.7% 4 30.8% 4 30.8%
1 4.2% 2 8.3% 8 33.3% 7 29.2% 5 20.8% 1 4.2% 1 25.0% 1 25.0% 1 25.0% 1 25.0%
3 27.3% 4 36.4% 1 9.1% 2 18.2% 1 9.1% 3 50.0% 1 16.7% 1 16.7% 1 16.7% 2 28.6% 1 14.3% 4 57.1% 2 20.0% 2 20.0% 5 50.0% 1 10.0%
Honda AirBladeHonda Future NeoYamaha SiriusYamaha JupiterHonda WaveYamaha Cy gnusSYM Att ilaHonda DreamHonda @Others
MotobikeNames
Count Row %under 20
Count Row %under 30
Count Row %under 40
Count Row %under 50
Count Row %under 60
Count Row %older than 60
Age groups
Bảng. Phân bố nhóm tuổi của người sử dụng xe máy theo nhãn hiệu
44
5.5 Phân tích thống kê mô tả
� Bảng chéo là một kỹ thuật dùng để so sánh dữ liệu từ hai hoặc nhiều hơn các biến phân loại hoặc danh nghĩa (categorical or nominal variables), ví dụ như là giới tính. Bảng chéo sử dụng các bảng có các cột và dòng thể hiện các mức độ hoặc các giá trị mã hóa của từng biến phân loại hoặc danh nghĩa.
� Bảng chéo là bước đầu tiên để xác định các quan hệ giữa các biến. Khi bảng chéo được xây dựng để trắc nghiệm thống kê, ta gọi chúng là bảng contingency (contingency tables), và loại trắc nghiệm dùng để đánh giá liệu các biến phân loại có độc lập với nhau hay không là χ2 (Chi bình phương / chi-square).
5.5.2 Phân tích thống kê mô tả định tính
b. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS
45
5.5 Phân tích thống kê mô tả5.5.2 Phân tích thống kê mô tả định tính
b. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS
46
5.5 Phân tích thống kê mô tả5.5.2 Phân tích thống kê mô tả định tính
b. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS
47
5.5 Phân tích thống kê mô tảBảng. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu
Motobike Names * User gender Crosstabulation
Count
3 7 104 4 83 4 76 7 139 15 242 2 45 6 112 4 63 4 74 6 10
41 59 100
Honda AirBladeHonda Future NeoYamaha SiriusYamaha JupiterHonda WaveYamaha Cy gnusSYM Att ilaHonda DreamHonda @Others
MotobikeNames
Total
f emale maleUser gender
Total
48
User gender * Motobike Names Crosstabulation
3 4 3 6 9 2 5 2 3 4 414.1 3.3 2.9 5.3 9.8 1.6 4.5 2.5 2.9 4.1 41.0
7.3% 9.8% 7.3% 14.6% 22.0% 4.9% 12.2% 4.9% 7.3% 9.8% 100.0%30.0% 50.0% 42.9% 46.2% 37.5% 50.0% 45.5% 33.3% 42.9% 40.0% 41.0%
3.0% 4.0% 3.0% 6.0% 9.0% 2.0% 5.0% 2.0% 3.0% 4.0% 41.0%7 4 4 7 15 2 6 4 4 6 59
5.9 4.7 4.1 7.7 14.2 2.4 6.5 3.5 4.1 5.9 59.011.9% 6.8% 6.8% 11.9% 25.4% 3.4% 10.2% 6.8% 6.8% 10.2% 100.0%70.0% 50.0% 57.1% 53.8% 62.5% 50.0% 54.5% 66.7% 57.1% 60.0% 59.0%
7.0% 4.0% 4.0% 7.0% 15.0% 2.0% 6.0% 4.0% 4.0% 6.0% 59.0%10 8 7 13 24 4 11 6 7 10 100
10.0 8.0 7.0 13.0 24.0 4.0 11.0 6.0 7.0 10.0 100.010.0% 8.0% 7.0% 13.0% 24.0% 4.0% 11.0% 6.0% 7.0% 10.0% 100.0%
100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%10.0% 8.0% 7.0% 13.0% 24.0% 4.0% 11.0% 6.0% 7.0% 10.0% 100.0%
CountExpected Count% within User gender% within Motobike Names% of TotalCountExpected Count% within User gender% within Motobike Names% of TotalCountExpected Count% within User gender% within Motobike Names% of Total
f emale
male
User gender
Total
HondaAirBlade
HondaFuture Neo
YamahaSirius
YamahaJupiter Honda Wave
YamahaCy gnus SYM Att ila Honda Dream Honda @ Others
Motobike Names
Total
5.5 Phân tích thống kê mô tảBảng. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu
49
5.6 Phân tích trắc nghiệm giả thiết5.6.1 Trắc nghiệm giả thiết� Mục tiêu của trắc nghiệm giả thiết là nhằm quyết
định tính chính xác của giả thiết dựa trên các số liệu mẫu thu thập được. Chúng ta đánh giá tính chính xác của các giả thiết bằng cách áp dụng các kỹ thuật thống kê; và đánh giá tầm quan trọng của sự khác biệt có ý nghĩa thống kê.
� Cách tiếp cận cổ điển hay là lý thuyết lấy mẫu thể hiện cách nhìn mục tiêu theo xác suất dựa trên phân tích dữ liệu mẫu. Một giả thiết được xây dựng, nó sẽ bị bác bỏ hoặc chấp nhận dựa trên mẫu dữ liệu thu thập.
50
5.6 Phân tích trắc nghiệm giả thiếtMục tiêu và kiểu của các câu hỏi nghiên cứu
Mục tiêu chung
Mục tiêu cụ thể
Kiểu câu hỏi/ giả thiết
Kiểu thống kê
Khác biệt Liên quan Mô tả
Mức độ liên quan, các biến
liên quan
So sánh nhóm
Tóm lược dữ liệu
Quan hệ giữa các biến Thuần Mô tả
Thống kê khác biệt (v.d. t-test, ANOVA)
Thống kê liên quan
(v.d. tương quan, hồi quy)
Thống kê mô tả (v.d. trung bình, tỷ lệ)
51
5.6 Phân tích trắc nghiệm giả thiếtXây dựng giả thiết H0 và giả thiết thay thế
Câu hỏi NC Giả thiết H0 Biểu diễn giả thiết H0
Giả thiết H1 Biểu diễn giả thiết H1
Có sự khác biệt về tuổi giữa nam và nữ?
Không có sự khác biệt về tuổi giữa nam và nữ.
H0: μnam = μnữ Có sự khác biệt về tuổi giữa nam và nữ.
H0: μnam ≠ μnữ
Có liên hệ gì giữa giới tính và nhãn hiệu xe?
Không có liên hệ gì giữa giới tính và nhãn hiệu xe.
H0: рGM = 0 Có liên hệ giữa giới tính và nhãn hiệu xe.
H0: рGM ≠ 0
Mức độ sử dụng xe có khác biệt giữa các nhóm tuổi không?
Không có khác biệt giữa các nhóm tuổi về mức độ sử dụng xe.
H0: μuth = μu
th Có khác biệt giữa các nhóm tuổi về mức độ sử dụng xe.
H1: μuth ≠ μu
th
52
5.6 Phân tích trắc nghiệm giả thiết5.6.2 Quy trình trắc nghiệm giả thiết
1. Phát biểu giả thiết
2. Chọn loại trắc nghiệm thống kê
3. Chọn mức ý nghĩa mong muốn
4. Tính giá trị khác biệt
5. Có được giá trị trắc nghiệm
6. Diễn giải kết quả trắc nghiệm
53
5.6 Phân tích trắc nghiệm giả thiết5.6.2 Quy trình trắc nghiệm giả thiết
1. Phát biểu giả thiết và giả thiết thay thế
2. Chọn mức ý nghĩa mong muốn
3. Có được giá trị xác suất p
4. So sánh giá trị xác suất p và mức ý nghĩa và ra quyết định
5. Diễn giải kết quả trắc nghiệm
54
5.6 Phân tích trắc nghiệm giả thiết
� Hầu hết các phần mềm thống kê đều cho kết quả với giá trị xác suất (p values).
� Giá trị xác suất p value là xác suất để đạt được một kết quả, ít nhất cao bằng, hoặc cao hơn giá trị được quan sát trong thực tế, với điều kiện cho trước là giả thiết H0 là đúng.
Giá trị xác suất (p Values)
55
5.6 Phân tích trắc nghiệm giả thiết
� Giá trị p value được so sánh với mức ý nghĩa (significant level - α), và dựa trên kết quả này để bác bỏ hay không bác bỏ giả thiết.
� Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả thiết bị bác bỏ (p value < α, bác bỏ giả thiết H0).
� Nếu giá trị p value bằng hoặc lớn hơn mức ý nghĩa, không bác bỏ giả thiết (p value > α, không bác bỏ giả thiết H0).
Giá trị xác suất (p Values)
56
5.6 Phân tích trắc nghiệm giả thiết
� Có hai loại: parametric (tham số) và nonparametric (phi tham số).
� Parametric tests là công cụ mạnh vì xử lý các dữ liệu dạng scale (interval, ratio).
� Nonparametric tests là công cụ xử lý các dữ liệu dạng nominal và ordinal.
Kiểm định ý nghĩa: các kiểu kiểm định
57
5.6 Phân tích trắc nghiệm giả thiết
� Parametric tests đòi hỏi một số giả định: � Các quan sát phải độc lập với nhau.� Các quan sát phải được rút ra từ các dân số
phân phối bình thường chuẩn.� Các dân số nên có phương sai tương đương.� Thang đo phải ở dạng scale để các tính toán
có thể thực hiện được.
Parametric tests
58
5.6 Phân tích trắc nghiệm giả thiết
� Nonparametric tests ít đòi hỏi các giả định: � Không đòi hỏi các quan sát phải được rút ra từ các
dân số phân phối bình thường chuẩn.� Không đòi hỏi các dân số phải có phương sai tương
đương.� Là cách duy nhất để xử lý dữ liệu nominal.� Là cách đúng đắn để xử lý dữ liệu ordinal, mặc dù
parametric có thể áp dụng được.� Dễ hiểu và dễ sử dụng.
Parametric tests
59
5.6 Phân tích trắc nghiệm giả thiết
� Để chọn một trắc nghiệm thống kê phù hợp, nên suy nghĩ đến 3 câu hỏi: � Trắc nghiệm liên quan đến 1 mẫu, 2 mẫu hay
nhiều hơn 2 mẫu (k)?� Nếu có 2 mẫu hay nhiều hơn 2 mẫu (k),
chúng có độc lập với nhau hay không?� Dữ liệu thuộc loại nào (nominal, ordinal,
scale)?
Làm sao chọn một trắc nghiệm thống kê phù hợp?
60
5.6 Phân tích trắc nghiệm giả thiếtCác kỹ thuật phân tích thống kê nên dùng theo loại dữ liệu và trắc nghiệm
Measurement scale
One-sample Case
Two-Samples Tests k-Samples TestsRelated Samples
Independent Samples
Related Samples
Independent Samples
Nominal - Binomial- χ2 one-sample test
- McNemar - Fisher exact test- χ2 two-sample test
- Cochran Q - χ2 for k-samples
Ordinal - Kolmogorov-Smirnov one-sample test- Runs test
- Sign test- Wilcoxon matched-pairs test
-Median testMann-Whitney U- Kolmogorov-SmirnovWald-Wolfowitz
-Friedman two-way ANOVA
- Median extension- Kruskal-Wallis one-way ANOVA
Interval and Ratio - T-test- Z test
- T-test for paired samples
- T-test- Z test
- Repeated-measured ANOVA
- One-way ANOVA- N-way ANOVA
61
5.6 Phân tích trắc nghiệm giả thiết5.6.3 Phân tích dữ liệua. Excel: công cụ Correlation, Anova và Regression trong chức năng Data Analysis
b. SPSS: các công cụ Compare Means và Nonparametric Tests
62
5.6 Phân tích trắc nghiệm giả thiết5.6.3 Phân tích dữ liệu
b. SPSS: các công cụ Compare Means và Nonparametric Tests
63
5.7 Một số áp dụng cụ thể
� One-sample tests được dùng khi ta có 1 mẫu và muốn kiểm định giả thiết là liệu mẫu này có đến từ 1 dân số cụ thể nào đó không? Ví dụ:� Liệu có sự khác biệt giữa tần suất quan sát và 1
tần suất chuẩn nào đó dựa trên lý thuyết?� Liệu có sự khác biệt giữa tỷ phần quan sát với 1
tỷ phần kỳ vọng nào đó không?
1. One-Sample T Test
64
5.7 Một số áp dụng cụ thể1. One-Sample T Test
� Ví dụ 1 (Parametric test)� Có số liệu tốc độ tăng doanh số của 9
doanh nghiệp.� Tốc độ tăng trưởng chuẩn là 6,5%/năm.� Giả thiết: tốc độ tăng trưởng doanh số
bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6,5%/năm).
65
5.7 Một số áp dụng cụ thể1. One-Sample T Test. Ví dụ 1 (parametric test)
66
5.7 Một số áp dụng cụ thể1. One-Sample T Test
Analyze � Compare Means � One-Sample T Test (TẠI SAO?)
67
5.7 Một số áp dụng cụ thể1. One-Sample T Test
Analyze � Compare Means � One-Sample T Test
68
5.7 Một số áp dụng cụ thể1. One-Sample T Test
Analyze � Compare Means � One-Sample T Test
� Diễn giải kết quả phân tích Ví dụ 1 (Parametric test)� P value (Sig. 2 tailed) > 0.05.� Khác biệt giữa tốc độ tăng trưởng doanh số bình
quân của 9 doanh nghiệp và tốc độ chuẩn không có ý nghĩa thống kê ở mức ý nghĩa 0.05.
� Chấp nhận giả thiết (không bác bỏ): tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6,5%/năm).
69
5.7 Một số áp dụng cụ thể
� Ví dụ 2 (Nonparametric test)� Số liệu điều tra sử dụng xe máy.� Giả thiết H0: tất cả các nhãn hiệu xe máy
đều có cơ hội được người sử dụng xe lựa chọn như nhau.
2. One-Sample Chi-Square Test
Analyze � Nonparametric Tests � Chi-Square
70
5.7 Một số áp dụng cụ thể2. One-Sample Chi-Square Test
71
5.7 Một số áp dụng cụ thể
Ta có 100 quan sát và 10nhãn xe máy. Cơ hội đểmỗi nhãn xe được chọn là10%, và số lượng kỳ vọnglà 10 xe/nhãn hiệu.
Tuy nhiên, sự khác biệtgiữa N quan sát và N kỳvọng cho từng nhãn xe làlớn.
Với P value < 0.05, ta bácbỏ giả thiết Ho và phát biểulà các nhãn hiệu xe máyđược người sử dụng lựachọn khác biệt nhau. 72
5.7 Một số áp dụng cụ thể
� Có hai kiểu T Test cho hai mẫu: � Không bắt cặp (unpaired, independent T
Test): cho hai mẫu độc lập với nhau, ví dụ nam, nữ, các nhóm người, nhóm nghề nghiệp, v.v.)
� Bắt cặp (paired T Test): cho hai mẫu có liên hệ với nhau, ví dụ 1 nhóm người trước và sau khi bị một yếu tố tác động.
3. Two-Sample T Test
73
5.7 Một số áp dụng cụ thể
� Ví dụ 3. Số liệu điều tra sử dụng xe máy � Giả thiết: tuổi trung bình của người sử
dụng xe máy nam và nữ là như nhau.
3. Two-Sample T Test
74
5.7 Một số áp dụng cụ thể3. Two-Sample T Test
Analyze � Compare Means � Independent-Samples T Test
75
5.7 Một số áp dụng cụ thể3. Two-Sample T Test
76
5.7 Một số áp dụng cụ thể3. Two-Sample T Test
Chọn biến Age cho ô Test Variable(s)
Grouping Variable: Group 1 = 1 (male); Group 2 = 0 (female)
77
5.7 Một số áp dụng cụ thể3. Two-Sample T Test
P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều. Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ.
Independent Samples Test
1.239 .268 -.315 98 .754 -.93 2.95 -6.77 4.92
-.321 91.785 .749 -.93 2.89 -6.66 4.81
Equal variancesassumedEqual variancesnot assumed
Age of motorbike userF Sig.
Lev ene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
Dif f erenceStd. ErrorDif f erence Lower Upper
95% Conf idenceInterv al of the
Dif f erence
t-test f or Equality of Means
78
5.7 Một số áp dụng cụ thể4. Two-Sample Nonparametric Test
� Ví dụ 4. Số liệu điều tra sử dụng xe máy � Giả thiết: sự lựa chọn nhãn hiệu xe máy
giữa người sử dụng nam và nữ là như nhau.
Analyze � Nonparametric Test � Two-Independent Samples
79
5.7 Một số áp dụng cụ thể4. Two-Sample Nonparametric Test
Analyze � Nonparametric Test � Two-Independent Samples 80
5.7 Một số áp dụng cụ thể4. Two-Sample Nonparametric Test
Mann-Whitney Test
Test Statisticsa
1200.0002970.000
-.067.946
Mann-Whitney UWilcoxon WZAsy mp. Sig. (2-tailed)
MotobikeNames
Grouping Variable: User gendera.
Two-Sample Kolmogorov-Smirnov Test
Test Statisticsa
.045
.045-.018.224
1.000
AbsolutePositiv eNegativ e
Most ExtremeDif f erences
Kolmogorov-Smirnov ZAsy mp. Sig. (2-tailed)
MotobikeNames
Grouping Variable: User gendera.
Kết luận: chấp nhận giả thiết và phát biểu rằng sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau.
81
5.7 Một số áp dụng cụ thể
� Phương pháp thống kê để kiểm định giả thiết là các trung bình của các dân số bằng nhau là Phân tích phương sai - analysis of variance (ANOVA).
� One-way ANOVA sử dụng các mô hình 1 yếu tố, các ảnh hưởng cố định để so sánh ảnh hưởng của một nghiệm thức (treatment) hoặc một yếu tố (factor) trên một biến phụ thuộc và liên tục.
5. One-Way ANOVA (Parametric Test)
82
5.7 Một số áp dụng cụ thể
� Ví dụ 5. Số liệu điều tra sử dụng xe máy � Giả thiết: Không có sự khác biệt giữa các người
sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng.
5. One-Way ANOVA (Parametric Test)
Analyze � Compare Means � One-Way ANOVA…
83
5.7 Một số áp dụng cụ thể5. One-Way ANOVA (Parametric Test)
84
5.7 Một số áp dụng cụ thể5. One-Way ANOVA (Parametric Test)
85
5.7 Một số áp dụng cụ thể5. One-Way ANOVA (Parametric Test)
ANOVA
Number of used day s in a month
1428.944 5 285.789 6.737 .0003987.806 94 42.4235416.750 99
Between GroupsWithin GroupsTotal
Sum ofSquares df Mean Square F Sig.
P value < 0.05.
Kết luận: bác bỏ giả thiết;
Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng
86
5.7 Một số áp dụng cụ thể5. One-Way ANOVA (Parametric Test)
Number of used days in a month
19 14.4725 17.96 17.966 18.33 18.33
26 22.62 22.6217 24.12 24.127 26.14
.695 .198 .76919 14.4725 17.96 17.966 18.33 18.33
26 22.62 22.6217 24.127 26.14
.175 .101 .215
Age groupsunder 60under 50under 20under 30under 40older than 60Sig.under 60under 50under 20under 30under 40older than 60Sig.
Tukey HSDa,b
Duncana,b
N 1 2 3Subset f or alpha = .05
Means f or groups in homogeneous subsets are displayed.Uses Harmonic Mean Sample Size = 12.013.a.
The group sizes are unequal. The harmonic mean of the group sizes isused. Ty pe I error lev els are not guaranteed.
b.
87
5.7 Một số áp dụng cụ thể5. One-Way ANOVA (Parametric Test)
Age Group Value Grouping
Under 60 14,5 aUnder 50 17,9 abUnder 20 18,3 abUnder 30 22,6 abcUnder 40 24,1 abcOlder than 60 26,1 abc
88
5.7 Một số áp dụng cụ thể5. One-Way ANOVA (Parametric Test)
Hình. Phân bố số ngày sử dụng xe máy bình quân trong tháng theo độ tuổi của người sử dụng
89
5.7 Một số áp dụng cụ thể6. Nonparametric Test for k-Independent Samples
� Ví dụ 6. Số liệu điều tra sử dụng xe máy � Giả thiết: Không có sự khác biệt giữa các
người sử dụng xe máy ở các nhóm tuổi khác nhau về nhãn hiệu xe.
Analyze � Nonparametric Tests � k Independent Samples
90
5.7 Một số áp dụng cụ thể6. Nonparametric Test for k-Independent Samples
91
5.7 Một số áp dụng cụ thể6. Nonparametric Test for k-Independent SamplesKruskal-Wallis Test
Ranks
6 46.2526 49.4017 50.6225 55.6619 45.877 52.07
100
Age groupsunder 20under 30under 40under 50under 60older than 60Total
Motobike NamesN Mean Rank
Test Statisticsa,b
1.4935
.914
Chi-SquaredfAsy mp. Sig.
MotobikeNames
Kruskal Wallis Testa.
Grouping Variable: Age groupsb.
P value > 0.05 � Kết luận: chấp nhận giả thiết;
Phát biểu rằng sự lựa chọn các nhãn hiệu xe máy giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau là như nhau.