84
Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 1 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN KHOA TOÁN KINH TẾ BỘ MÔN TOÁN KINH TẾ HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC HÀNH LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN TÀI LIỆU LƯU HÀNH NỘI BỘ Tác giả: Bùi Dương Hải Hà Nội, 7 / 2016

HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

  • Upload
    phungtu

  • View
    307

  • Download
    18

Embed Size (px)

Citation preview

Page 1: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 1

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

KHOA TOÁN KINH TẾ BỘ MÔN TOÁN KINH TẾ

HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC HÀNH

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN

TÀI LIỆU LƯU HÀNH NỘI BỘ

Tác giả: Bùi Dương Hải

Hà Nội, 7 / 2016

Page 2: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 2

Mở đầu 1. Tính một số xác suất cơ bản 2. Minh họa một số quy luật phân phối xác suất thông dụng 3. Thống kê mô tả 4. Bảng thống kê nhiều chiều 5. Mô tả số liệu bằng đồ thị 6. Ước lượng tham số 7. Kiểm định tham số 8. Kiểm định phi tham số 9. Phân tích phương sai 10. Hồi quy tương quan

Page 3: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 3

MỞ ĐẦU Phân loại Thống kê

Phân loại biến dùng trong thống kê

Thống kê mô tả Thống kê suy diễn

Bảng biểu Đồ thị

Thống kê tổng hợp

Ước lượng tham số

Kiểm định giả thuyết

Tr.bình, tr.vị, mốt Phương sai, độ lệch chuẩn, Phân vị, Hệ số nhọn, bất đối xứng, hệ số tương quan…

Ước lượng điểm: 푥̅, 푠 , 푓 Khoảng tin cậy: µ, σ2, p

Tham số : µ = µ0 ; σ2

= σ0

2

p = p0

µX = µY ; σX2

= σY

2 pX = pY Phi tham số

Biến định tính - Qualitative

Biến định danh Nominal

Biến thứ bậc Ordinal

Liệt kê, nhóm đếm số lượng, tỉ lệ

Liệt kê, nhóm đếm số lượng, tỉ lệ So sánh, xếp thứ tự Có thể

Mã hóa thành các con số, không có đơn vị Đồ thị tròn, cột. Không thể chuyển thành định lượng

Biến định lượng - Quantitative

Biến đo lường – Cardinal (rời rạc, liên tục / khoảng, tỉ lệ)

Liệt kê, nhóm, đếm số lượng, tỉ lệ So sánh, xếp thứ tự Các phép toán học Các loại thống kê Các phân tích chéo, theo thời gian…

Là con số có có đơn vị Tất cả các loại đồ thị Có thể chuyển thành định tính

Page 4: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 4

Excel và công cụ Data Analysis Toàn bộ tài liệu được viết dựa trên Microsoft Excel 2013. Để thực hiện các thao tác thống kê cơ bản, cần có Add-in Data Analysis trên thanh công cụ. Trước hết cần kiểm tra xem Excel đã cài công cụ Data Analysis hay chưa: Nhấn vào DATA để xem có Data Analysis Hình 1.

Nếu chưa có, thực hiện cài Data Analysis như sau:

Bước 1. File Options Hộp thoại Excel Options.

Bước 2. Tại hộp thoại Excel Options Add-Ins Manage: Excel Add-ins Go Hộp thoại Add-Ins.

Bước 3. Tại hộp thoại Add-Ins: Đánh dấu vào các lựa chọn: Analysis TookPak, Analysis ToolPak-VBA OK.

*Lưu ý: Excel được sử dụng trong tài liệu này theo hệ Anh, dấu thập phân là dấu chấm “.” và ngăn cách giữa các đối tượng là dấu phảy “,”. Nếu Excel sử dụng hệ Pháp thì dấu thập phân là dấu “,” và ngăn cách các đối tượng là dấu chấm phảy “;”.

Page 5: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 5

1. TẠO MỘT SỐ CHUỖI NGẪU NHIÊN Để thực hiện mô phỏng các hiện tượng ngẫu nhiên trong kinh tế xã hội, có thể thực hiện việc tạo ra một số chuỗi giá trị ngẫu nhiên giả định. Excel cho phép tạo một số chuỗi ngẫu nhiên tuân theo quy luật phân phối xác suất cơ bản, với số lượng chuỗi số và số lượng con số trong mỗi chuỗi là tùy ý.

1.1. Chọn một số ngẫu nhiên Trong nhiều trường hợp, để đảm bảo tính ngẫu nhiên khách quan, cần tìm một con số hoàn toàn ngẫu nhiên trong một khoảng cho trước, chẳng hạn chọn ngẫu nhiên một sinh viên trên danh sách của một lớp gồm 60 sinh viên. Hàm chọn ngẫu nhiên một giá trị nguyên trong đoạn [a, b] là: = RANDBETWEEN(a , b) Trong đó a, b là số thực bất kỳ, kết quả là các số có thể âm (nếu a < 0) và dương (nếu b > 0) Ví dụ 1.1: Để chọn ngẫu nhiên một sinh viên từ danh sách lớp gồm 60 sinh viên, có thể dùng hàm:

= RANDBETWEEN(0,60) Xác suất để mỗi số nguyên trong đoạn [a ,b] được chọn là bằng nhau. Lệnh chọn lấy một số thực ngẫu nhiên trong đoạn [0,1] là : = RAND( )

1.2. Tạo chuỗi số phân phối Không-một: A(p)

Ví dụ 1.2: Tạo một chuỗi gồm 20 con số rút từ biến phân phối A(p = 0.4), đặt vào cột đầu tiên của bảng tính, bắt đầu từ ô A2, làm như sau:

DATA Data Analysis Hộp thoại [Data Analysis] Random Number Generation [Random Number Generation]

Number of Variables: 1

Number of Random Numbers: 20

Distribution: Bernoulli

Parameters p Value = 0.4 Random Seed (để trống)*

Output options Output Range: A2

OK

Biến X phân phối Không-Một, hay phân phối Bernoulli: X ~ A(p) X = {0 , 1} với P(X = 1) = p và P(X = 0) = 1 – p

E(X) = p và V(X) = p(1 – p) ;

Page 6: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 6

Hình 1.1

Kết quả sẽ hiển thị theo cột, gồm 20 con số 0 và 1 ngẫu nhiên. Kết quả sẽ khác nhau với mỗi lần thực hiện, do đó trong tài liệu này sẽ không đưa kết quả của thủ tục tạo chuỗi số ngẫu nhiên này. *Random seed: Nếu muốn tạo ra các chuỗi giống hệt như chuỗi tạo ra trước đó thì gõ số lần vào ô này. Ví dụ nếu gõ 4 thì nếu lặp lại 4 lần tiếp theo, chuỗi vẫn giống cũ. Nếu để trống thì các chuỗi tạo ra sẽ khác nhau

1.3. Tạo chuỗi phân phối Nhị thức: B(n, p)

Ví dụ 1.3: Tạo ra 2 chuỗi, mỗi chuỗi gồm 15 con số rút từ biến ngẫu nhiên gốc phân phối Nhị thức B(n = 10, p = 0,4), bắt đầu từ ô B2. Cách làm tương tự như chuỗi A(p), chỉ khác ở mục Distribution [Random Number Generation]

Number of Variables: 2

Biến X rời rạc, phân phối Nhị thức (Binary): X ~ B(n, p)

X = {0, 1,…, n} với

E(X) = np và V(X) = np(1 – p) ;

Page 7: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 7

Number of Random Numbers: 15 Distribution: Binomial

Parameters p Value = 0.4 Number of trials = 10

Output options Output Range: B2

1.4. Tạo chuỗi phân phối Poisson: P()

Ví dụ 1.4: Tạo ra một chuỗi gồm 20 con số rút từ biến ngẫu nhiên gốc phân phối P( = 5), bắt đầu từ ô D2. [Random Number Generation]

Number of Variables: 1

Number of Random Numbers: 20 Distribution: Poisson

Parameters Lambda = 5

Output options Output Range: D2

1.5. Tạo chuỗi phân phối Đều: U(a, b)

Ví dụ 1.5: Tạo 1 chuỗi, mỗi chuỗi 20 con số rút từ biến ngẫu nhiên gốc U(a = 0, b = 5), bắt đầu từ ô F2.

Biến X rời rạc, phân phối Poisson: X ~ P()

X= {0, 1, 2, ….} với

E(X) = và V(X) =

Biến X liên tục, phân phối Đều (Uniform): X ~ U(a, b)

X (a, b) với

E(X) = (a + b)/2 và V(X) = (b – a)2/12 a b

1/(b – a)

Page 8: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 8

[Random Number Generation]

Number of Variables: 1

Number of Random Numbers: 20

Distribution: Uniform

Parameters Between 0 and 5

Output options Output Range: F2

1.6. Tạo chuỗi phân phối Chuẩn: N(, σ2)

Ví dụ 1.6: Tạo 2 chuỗi, mỗi chuỗi 10 con số rút từ biến ngẫu nhiên gốc N( = 15, σ2 = 42), bắt đầu từ ô G2. [Random Number Generation]

Number of Variables: 2

Number of Random Numbers: 10

Distribution: Normal

Parameters Mean = 15 Standard deviation = 4

Output options Output Range: G2

Bài tập Bài 1.1. (a) Tạo ra một chuỗi chứa 10 phần tử phân phối Không-Một với p = 0.5. Trong chuỗi đó có bao nhiêu phần tử bằng 1? (b) Tạo 10 chuỗi, mỗi chuỗi 10 phần tử, phân phối Không-Một với p = 0.5. Dùng hàm SUM để tính tổng các giá trị, cũng chính là tổng số phần tử bằng 1. Tỉ lệ phần tử bằng 1 so với tổng số bằng bao nhiêu?

Biến X liên tục, phân phối Chuẩn (Normal): X ~ N(, σ2)

X (–, +) với

E(X) = và V(X) = σ2

P( – 3σ < X < + 3σ) = 0.9975

P( – 4σ < X < + 4σ) 1 –3σ + 3σ

Page 9: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 9

(c) Khi tăng số chuỗi và số phần tử trong câu (b), thì tỉ lệ phần tử bằng 1 gần với giá trị nào? Bài 1.2. Tạo hai chuỗi, mỗi chuỗi 10 phần tử, phân phối Nhị thức với n = 5 và p = 0.5.

(a) Số lượng phần tử nhận các giá trị 0, 1, 2, 3, 4, 5 giữa hai chuỗi có bằng nhau không? (b) Dùng hàm AVERAGE để tính trung bình các giá trị của mỗi chuỗi. Trung bình của hai

chuỗi có giống nhau không? (c) Tăng số lượng phần tử của chuỗi lên thành 100, khi đó trung bình của chuỗi xấp xỉ bằng

bao nhiêu? Bài 1.3. Tạo ra 2 chuỗi, mỗi chuỗi 20 phần tử phân phối đều trong khoàng từ 4 đến 10.

(a) Giá trị của các phần tử là số nguyên hay số thập phân. (b) Dùng hàm AVERAGE tính trung bình cộng của hai chuỗi và so sánh với nhau.

Page 10: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 10

BÀI 2. MỘT SỐ HÀM TÍNH XÁC SUẤT THÔNG DỤNG Excel tự động tính một số giá trị hàm xác suất thông dụng. Tại một ô bất kỳ trong bảng tính Excel, gõ hàm và giá trị các đối số, sẽ cho kết quả (làm tròn đến 4 số thập phân)

2.1. Biến ngẫu nhiên phân phối Nhị thức: B(n, p) Xác suất tại giá trị x: ( | , )P X x n p , hàm : = BINOMDIST(x, n, p, 0)

Hàm phân phối (tích lũy) xác suất tại x: ( | , )P X x n p , hàm : = BINOMDIST(x, n, p, 1)

2.2. Biến ngẫu nhiên phân phối Poisson: P() Xác suất tại giá trị x: ( | )P X x , hàm : = POISSON(x, , 0)

Hàm phân phối (tích lũy) xác suất tại x: ( | )P X x , hàm : = POISSON(x, , 1)

2.3. Biến ngẫu nhiên phân phối Chuẩn: N(, σ2) Hàm mật độ tại giá trị x: ( )f x , hàm: = NORMDIST(x, , σ, 0)

Hàm phân phối tại giá trị x: ( ) ( )F x P X x , hàm: = NORMDIST(x, , σ, 1)

Giá trị phân vị mức , kí hiệu *x : P(X < *x ) = , hàm: = NORMINV(, , σ )

Giá trị tới hạn mức , kí hiệu x : P(X > x ) = , hàm: = NORMINV(1 – , , σ ) Phân phối Chuẩn hóa: N(0,1)

Giá trị tới hạn chuẩn hóa mức , kí hiệu u : hàm: = NORMINV(1 – , 0, 1)

Do tính chất đối xứng nên giá trị u cũng có thể tính theo hàm: = – NORMINV( , 0, 1)

2.4. Biến ngẫu nhiên phân phối Khi-bình phương: 2(n) Giá trị xác suất 2( ( ) )P n x , hàm: = CHIDIST(x , n)

Hàm phân phối (tích lũy) xác suất: 22( ) ( ( ) )F x P n x

, hàm: = 1 – CHIINV( , n)

Giá trị tới hạn mức : 2 ( )n , hàm: = CHIINV( , n)

2.5. Biến ngẫu nhiên phân phối Student: T(n) Giá trị xác suất ( ( ) )P T n x , hàm: = TDIST(x, n, 1)

Hàm phân phối (tích lũy) xác suất ( ) ( ( ) )TF x P T n x , hàm: =1 – TDIST(x, n, 1)

Giá trị xác suất ( ( )P T n x hoặc ( ) )T n x , hàm: = TDIST(x, n, 2)

Cũng chính là 2P(T (n) > x)

Page 11: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 11

Giá trị phân vị mức kí hiệu (n)*t : ( )*( ( ) )nP T n t , hàm: = T.INV( , n)

Lưu ý: có dấu chấm “.” giữa T và INV

Giá trị tới hạn mức /2 kí hiệu ( )/2nt : ( )

/2( ( ) ) / 2nP T n t ; hàm: = TINV(, n)

Giá trị tới hạn mức : ( )nt , hàm: = TINV(2* , n)

Do tính chất đối xứng nên giá trị tới hạn cũng tính bởi hàm: = –T.INV( , n)

2.6. Biến ngẫu nhiên phân phối Fisher: F(n1, n2) Giá trị xác suất 1 2( ( , ) )P F n n x , hàm: =FDIST(x, n1, n2)

Giá trị tới hạn mức : 1 2( , )n nf , hàm: = FINV( , n1, n2)

Lưu ý: Với Excel 2013, trong các hàm trên, có thể có dấu chấm “.” trước chữ DIST, INV. Ngoại trừ hàm TINV và T.INV, các hàm khác không có sự khác biệt của kết quả. Ví dụ

Quy luật Tính giá trị Hàm Kết quả

X ~ B(n = 5, p = 0,4) P(X = 3) = ? = BINOMDIST(3,5,0.4,0) 0.2304

P(X 3) = ? = BINOMDIST(3,5,0.4,1) 0.9130

X ~ P( = 4) P(X = 3) = ? = POISSON(3, 4, 0) 0.1954

P(X 3) = ? = POISSON(3, 4, 1) 0.4335

X ~ N( = 10, σ2 = 4) f (x = 12) = ? = NORMDIST(12, 10, 2, 0) 0.1210

F(x = 12) = P(X < 12) = ? = NORMDIST(12, 10, 2, 1) 0.8413

x*0.05: P(X < ?) = 0.05 = NORMINV(0.05, 10, 2) 6.7103

x0.05: P(X > ?) = 0.05 = NORMINV(0.95, 10, 2) 13.2897

U ~ N( = 0, σ2 = 1) u0.05 : P(U > ?) = 0.05 = NORMINV(0.95, 0,1) = –NORMINV(0.05, 0,1)

1.6449

2 ~ 2 ( 10)n P(2 > 10) = ? = CHIDIST(12, 10) 0.2851

F(x = 10) = P(2 < 10) = ? = 1 – CHIDIST(12, 10) 0.7149

20.05 (10) = ? = CHIINV(0.05, 10) 18.3070

T ~ T(n = 10) P(T > 1) = ? = TDIST(1, 10, 1) 0.1704

F(x = 1) = P(T < 1) = ? = 1 – TDIST(1, 10, 1) 0.8286

P(T > 1 hoặc T < –1) = ? = TDIST(1, 10, 2) 0.3409

Page 12: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 12

P(T < ?) = 0.05 = T.INV(0.05, 10) –1.8125

P(T < ?) = 0.95 = T.INV(0.95, 10) 1.8125

t0.05(10) = ? = TINV(0.1, 10) 1.8125

F ~ F(n1 = 10, n2 = 15) P(F > 2) = ? = FDIST(2, 10, 15) 0.1091

F(x = 2) = P(F < 2) = ? = 1 – FDIST(2, 10, 15) 0.8909

f0.05(10,15) = ? = FINV(0.05, 10, 15) 2.5437

Bài tập Bài 2.1. Sử dụng Excel tính các giá trị sau với ~ ( , )X B n p :

( 6 | 10, 0.24)P X n p

( 5 | 12, 0.4)P X n p

( 7 | 15, 0.4)P X n p

Bài 2.2. Sử dụng Excel tính các bài toán sau, với ~ ( )X P ;

( 6 | 10)P X

( 5 | 6.2)P X

( 5 | 7)P X

Bài 2.3. Trên một chặng bay, biết số hành khách hủy vé của các chuyến bay là biến ngẫu nhiên phân phối Poisson với trung bình là 5. Tính xác suất để trong một chuyến bay chọn ngẫu nhiên thì:

(a) Có đúng 3 khách hủy vé (b) Có hơn 6 khách hủy vé (c) Có hành khách hủy vé

Bài 2.4. Biết xác suất có lỗi khi in mỗi trang sách là đều bằng 0,004. Tính xác suất trong quyển sách 800 trang có:

(a) Đúng 3 lỗi (b) Hơn 4 lỗi

Bài 2.5. Cho 2~ ( , )X N , tính các giá trị sau:

(a) 2 2( 10 | 12, 5 )f x

(b) 2 2( 10 | 12, 5 )P X

(c) 2 2( 11| 12, 5 )P X

(d) 2 2(9 13 | 12, 5 )P X

(e) Tìm a, sao cho 2 2( | 12, 5 ) 0.4P X a

(f) Tìm b, sao cho 2 2( | 12, 5 ) 0.2P X b

Bài 2.6. Sử dụng Excel giải bài toán sau: Biết kích thước sản phẩm phân phối chuẩn với trung bình là 50 mm, phương sai 64 mm2.

Page 13: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 13

(a) Tính xác suất một sản phẩm ngắn hơn 48 mm (b) Tính xác suất một sản phẩm dài hơn 53 mm (c) Tính tỉ lệ sản phẩm có kích thước trong khoảng 46 đến 52 mm (d) Với xác suất 0,95 thì kích thước sản phẩm tối đa bao nhiêu? (e) Với xác suất 0,8 thì kích thước sản phẩm tối thiểu bao nhiêu?

Bài 2.7. Tính các giá trị sau và so sánh (a) Giá trị tới hạn Student bậc tự do 10 mức 0.05 và mức 0.95 (b) Giá trị tới hạn Student bậc tự do 20 mức 0.025 và mức 0.975 (c) Giá trị tới hạn Student bậc tự do 20 mức 0.05 và bậc tự do 200 mức 0.05 (d) Giá trị tới hạn Student bậc tự do 1000 mức 0.05 và giá trị tới hạn chuẩn mức 0.05

Bài 2.8. Tính các giá trị sau và so sánh (a) Giá trị tới hạn Khi-bình phương bậc tự do 10 mức 0.05 và mức 0.95 (b) Giá trị tới hạn Khi-bình phương bậc tự do 10 mức 0.025 và bậc tự do 100 mức 0.025

Bài 2.9. Tính các giá trị sau và so sánh (a) Giá trị tới hạn Fisher bậc tự do 10 và 20, mức 0.05; và bậc tự do 10 và 20, mức 0.95 (b) Giá trị tới hạn Fisher bậc tự do 10 và 20, mức 0.025; và bậc tự do 20 và 10, mức 0.975 (c) Tính nghịch đảo của (20,20)

0,95f và so sánh với (20,20)0,05f

Page 14: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 14

3. HÀM THỐNG KÊ MÔ TẢ CƠ BẢN Số liệu thực hành trong tệp PROBSTAT2016.xlsx, trang tính DATA. Số liệu được lấy từ bộ số liệu VHLSS năm 2012, gồm 420 quan sát là 420 hộ gia đình ở Hà Nội, cả khu vực thành thị và nông thôn, gồm 5 biến, xếp theo cột từ A đến F; mỗi cột gồm dòng đầu là tên biến, các dòng từ 2 đến 421 là các giá trị quan sát. Các biến gồm:

KV: mã hóa của khu vực, KV = 1 nếu ở Thành thị, KV = 2 nếu ở nông thôn Khu vực: Thành thị và Nông thôn Số người: Tổng số người trong hộ gia đình Thu nhập: Tổng thu nhập của hộ gia đình (đơn vị: triệu đồng) “ Chi tiêu: Chi cho tiêu dùng thường xuyên (đơn vị: triệu đồng) Chi ăn uống: Chi cho các khoản ăn và uống (đơn vị: triệu đồng)

Bảng 3.1

A B C D E F 1 KV Khu vực Số người Thu nhập Chi tiêu Chi ăn uống 2 1 Thành thị 3 130.8 160.1 147.1 3 1 Thành thị 5 343.0 301.0 258.1 4 1 Thành thị 5 112.6 316.3 248.5

419 2 Nông thôn 4 89.9 77.0 62.1 420 2 Nông thôn 2 11.4 20.6 13.4 421 2 Nông thôn 3 100.2 56.1 45.7

Trong các phần sau, khi dùng thuật ngữ “mảng” (array) sẽ được hiểu là một khu vực hình chữ nhật, được xác định bởi ô đầu tiên (trên cùng bên trái) và ô cuối cùng (dưới cùng bên phải) cách nhau bởi dấu hai chấm “:”. Ví dụ: A1:B3; A1:A421; A1: F421.

3.1. Đếm số quan sát Hàm COUNT đếm số lượng ô có số liệu trong mảng, có dạng: COUNT(mảng) Ví dụ: Đếm số ô có giá trị của biến KV (trừ dòng đầu): = COUNT(A2:A421) Đếm số ô có giá trị từ ô A2 đến ô F421: = COUNT(A2: F421) Hàm COUNTIF đếm số lượng quan sát thỏa mãn điều kiện có dạng:

= COUNIF(mảng, điều kiện) Ví dụ: Đếm số quan sát của biến KV nhận giá trị bằng 1: = COUNTIF(A2: A421, 1) Đếm số hộ ở khu vực thành thị: Chính là đếm số quan sát của KV nhận giá trị bằng 1, hoặc số quan sát của biến Khu vực nhận giá trị là “Thành thị”: = COUNTIF(B2: B421, “Thành thị”) Đếm số hộ có trên 4 người, hay biến Số người > 4: = COUNTIF(C2:C421, “>4”)

Page 15: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 15

Đếm số hộ có dưới 5 người: = COUNTIF(C2:C421, “< 5”) Đếm số hộ có số người khác 5: = COUNTIF(C2:C421, “< > 5”) Đếm số hộ có số người từ 4 đến 6: qua phép trừ:

= COUNTIF(C2:C421, “<=6”) – COUNIF(C2:C421, “<4”) Hàm COUNTIFS đếm số quan sát thỏa mãn nhiều điều kiện: = COUNTIFS(mảng 1, điều kiện 1, mảng 2, điều kiện 2,…) Ví dụ: Đếm số hộ ở thành thị có từ 4 người trở lên:

= COUNTIFS(B2:B421, “Thành thị”, C2:C421, “>=4”) Hàm RANK cho biết hạng của một giá trị x, nghĩa là nếu số liệu xếp theo thứ tự tăng dần thì giá trị x đó đứng số thứ tự bao nhiêu trong mảng, có dạng: RANK(x, mảng, 1). Do đó RANK – 1 chính là số quan sát có giá trị nhỏ hơn x. Nếu xét theo thứ tự giảm dần thì dùng RANK(x, mảng, 0) Ví dụ: Xét biến Số người, nếu xếp theo thứ tự tăng dần thì hộ gia đình có 2 người đứng ở vị trí thứ bao nhiêu: = RANK(2, C2:C421,1) Kết quả là 23, nghĩa là có 22 hộ gia đình có số người nhỏ hơn 2. Bảng kết quả xếp hạng với biến Số người Bảng 3.2

Số người RANK Ý nghĩa: Khi xếp theo thứ tự tăng dần của Số người thì: 1 1 Số 1 xếp đầu tiên: hộ gia đình ít nhất là 1 người 2 23 Số 2 xếp ở vị trí thứ 23, có 22 hộ ít hơn 2 người 3 77 Số 3 xếp ở vị trí thứ 77, có 76 hộ ít hơn 3 ngời 4 155 … 5 294 6 368 7 401 8 413 9 417 Số 9 xếp ở vị trí thứ 417, có 416 hộ ít hơn 9 người, có 4 hộ có 9 người

3.2. Tính tổng Hàm SUM tính tổng giá trị các con số: SUM(mảng cần tính tổng = mảng*) Ví dụ: Tổng số người trong các hộ gia đình trong mẫu: = SUM(C2:C421) Tổng thu nhập của các hộ gia đình trong mẫu: = SUM(D2:D421) Hàm SUMIF tính tổng giá trị có điều kiện: SUMIF(mảng*, điều kiện) hoặc SUMIF(mảng 1, điều kiện, mảng*) Ví dụ: Tính tổng số người chỉ với những hộ từ 4 người trở lên:

Page 16: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 16

= SUMIF(C2:C421, “>=4”) Tính tổng thu nhập chỉ với những hộ từ 4 người trở lên:

=SUMIF(C2:C421,“>=4”, D2:D421) Hàm SUMIFS tính tổng với nhiều điều kiện: SUMIFS(mảng*, mảng 1, điều kiện 1, mảng 2, điều kiện 2…) Ví dụ: Tính tổng Thu nhập với những hộ ở Thành thị và có từ 4 người trở lên:

= SUMIFS(D2:D421, A2:A421, 1, C2:C421, “>=4” ) Hàm SUMSQ tính tổng bình phương các giá trị: SUMSQ(mảng) Ví dụ: Tổng bình phương biến Số người: = SUMSQ(C2:C421)

3.3. Các cực trị Hàm MIN và MAX cho giá trị nhỏ nhất và lớn nhất: MIN(mảng) và MAX(mảng) Ví dụ: Mức Thu nhập thấp nhất trong các hộ gia đình: = MIN(D2:D421) = 5.5

Mức Thu nhập cao nhất trong các hộ gia đình: = MAX(D2:D421) = 782.5 Suy ra khoảng biến thiên: = MAX(D2:D421) – MIN(D2:D421)

3.4. Các thống kê về xu thế trung tâm (central tendency) Gồm Trung bình, Trung vị, Mốt. Trung bình trong hầu hết các trường hợp là Trung bình cộng. Ngoài ra còn trung bình nhân và trung bình điều hòa.

Hàm AVERAGE tính trung bình cộng x : AVERAGE(mảng) Ví dụ: Trung bình cộng của Số người trong các hộ gia đình

Với số liệu

Trung bình cộng (mean):

Trung vị (median): xd là giá trị của phần tử nằm ở giữa

Mốt (mode): x0 là giá trị xảy ra nhiều lần nhất

Trung bình nhân (geometric mean) :

Trung bình điều hòa (harmonic mean):

Page 17: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 17

= AVERAGE(C2:C421) = 3.905 Trung bình cộng của Thu nhập: = AVERAGE(D2:D421) = 140.035 Tương tự hàm SUM, hàm AVERAGE cũng có điều kiện: AVERAGEIF và AVERAGEIFS Ví dụ: Trung bình cộng của Thu nhập với hộ có trên 4 người:

= AVERAGEIF(C2:C421, “>4”, D2:D421) = 194.3 Trung bình cộng của Thu nhập với hộ có trên 4 người và ở Thành thị:

= AVERAGEIFS(D2:D421, C2:C421, “>4”, B2:B421, “Thành thị”) = 263.77 Hàm MEDIAN tính trung vị xd : MEDIAN(mảng) Ví dụ: Trung vị của Số người trong mẫu: = MEDIAN(C2:C421) = 4

Trung vị của Thu nhập: = MEDIAN(D2:D421) = 111.1 Hàm MODE tính mốt x0: MODE(mảng) Ví dụ: Mốt của Số người: = MODE(C2:C421) = 4

Mốt của Thu nhập: = MODE(D2:D421) = 215.8 Có thể phân tích độ lệch của phân phối giá trị biến qua việc so sánh ba giá trị Trung bình, Trung vị, Mốt qua hình minh họa sau:

Nếu Trung bình < Trung vị < Mốt: phân phối lệch trái, hệ số bất đối xứng âm: đa số các giá trị là lớn, một số ít giá trị rất nhỏ kéo đuôi của phân phối về bên trái.

Nếu Trung bình = Trung vị = Mốt: phân phối đối xứng, hệ số bất đối xứng gần 0, đa số các giá trị tập trung vào giữa, phân phối ra hai bên đều nhau.

Nếu Mốt < Trung vị < Trung bình: phân phối lệch phải, hệ số bất đối xứng dương, đa số các giá trị là nhỏ, một số ít giá trị rất lớn kéo đuôi của phân phối về bên phải

Hình 3.1

Hàm GEOMEAN tính trung bình nhân x : GEOMEAN(mảng)

Đối xứng, hình chuông Phân phối chuẩn

Phân phối lệch phải (lệch dương)

Phân phối lệch trái (lệch âm)

Trung bình < Tr.vị < Mốt Hệ số bất đối xứng < 0

Mốt < Tr.vị < Trung bình Hệ số bất đối xứng > 0

Trung bình = Tr.vị = Mốt Hệ số bất đối xứng = 0

Page 18: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 18

Ví dụ: Trung bình nhân của Thu nhập: = GEOMEAN(D2:D421) = 106.008 Tính chất: logarit(trung bình nhân) = trung bình cộng(logarit) Hàm HARMEAN tính trung bình điều hòa x : HARMEAN(mảng) Ví dụ: Trung bình điều hòa của Thu nhập: = HARMEAN(D2:D421) = 70.16 Tính chất: nghịch đảo(trung bình điều hòa) = trung bình cộng(nghịch đảo)

3.5. Các phân vị (quantile)

Hàm QUARTILE tính các tứ phân vị: QUARTILE(mảng, j) với j = 1, 2, 3 Ví dụ: các tứ phân vị của Thu nhập

Tứ phân vị thứ nhất Q1 : = QUARTILE(D2:D421, 1) = 66.425 Tứ phân vị thứ hai Q2: = QUARTILE(D2:D421, 2) = 111.1 = Trung vị Tứ phân vị thứ ba Q3: = QUARTILE(D2:D421, 3) = 185.775

Như vậy số lượng hộ gia đình trong 4 khoảng: (Min Q1), (Q1 Q2), (Q2 Q3), (Q3 Max) là bằng nhau và bằng 420 / 4 = 105. Hàm PERCENTILE tính các bách phân vị: PERCENTILE(mảng, j) với j = 0.01, 0.02,…, 0.99 Ví dụ: các bách phân vị của Thu nhập

Bách phân vị thứ nhất P1 : = PERCENTILE(D2:D421, 0.01) = 9.342 Bách phân vị thứ 25: P25 : = PERCENTILE(D2:D421, 0.25) = Q1 Bách phân vị thứ 50: P50 : = PERCENTILE(D2:D421, 0.5) = Q2 = Trung vị

Trong nhiều trường hợp, cần chia số liệu thành những khoảng với số lượng phần tử bằng nhau, và số lượng khoảng có thể là 3, 4, 5,…, 10 thì có các khái niệm: Tam phân vị (tercile); Tứ phân vị (quartile), Ngũ phân vị (quintile), Lục phân vị (sextile), Thất phân vị (septile), Bát phân vị (octile), Thập phân vị (decile). Trong đó tứ phân vị và ngũ phân vị thường được dùng trong phân tích so sánh kinh tế. Chẳng hạn muốn phân chia các hộ gia đình theo mức độ thu nhập bình quân đầu người, nếu sử dụng tứ phân vị, có thể chia thành bốn nhóm với số lượng bằng nhau: Giàu – Trung bình thấp –

Với số liệu

3 tứ phân vị (quartile) Q1, Q2, Q3 chia số liệu thành 4 phần với số phần tử bằng nhau Tứ phân vị thứ hai bằng trung vị: Q2 = xd

99 bách phân vị (percentile) chia số liệu thành 100 phần với số phần tử bằng nhau

Page 19: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 19

Trung bình cao – Giàu. Nếu dùng ngũ phân vị có thể chia thành năm nhóm: Giàu – Trung bình thấp – Trung bình – Trung bình cao – Giàu.

3.6. Các thống kê về độ phân tán (variability)

Hàm DEVSQ tính tổng bình phương sai lệch SS: DEVSQ(mảng) Ví dụ: Tổng bình phương sai lệch của Thu nhập: = DEVSQ(D2:D421) = 5113997.07 Hàm VAR tính phương sai mẫu s2: VAR(mảng) Ví dụ: Phương sai của Thu nhập: = VAR(D2:D421) = 12205.244 Hàm STDEV tính độ lệch chuẩn mẫu s: STDEV(mảng) Ví dụ: Độ lệch chuẩn của Thu nhập: = STDEV(D2:D421) = 110.477 *Lưu ý: nếu dùng hàm VAR.P và STDEV.P thì Excel hiểu số liệu là tổng thể, do đó tính theo công thức phương sai và độ lệch chuẩn tổng thể (chia cho n chứ không phải n – 1) Hàm AVEDEV tính trung bình sai lệch tuyệt đối: AVEDEV(mảng) Ví dụ: Trung bình sai lệch tuyệt đối của Thu nhập: = AVEDEV(D2:D421) = 80.685

Với số liệu

Tổng bình phương sai lệch (sum squared Deviation):

Phương sai mẫu (sample variance):

Phương sai tổng thể (population variance):

Độ lệch chuẩn (standard deviation): ;

Khoảng tứ phân vị (interquartile range): IQR = Q3 – Q1

Hệ số biến thiên (coefficient of variation):

Trung bình sai lệch tuyệt đối (average absolute deviation)

Page 20: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 20

Excel không tính sẵn Hệ số biến thiên hay Khoảng tứ phân vị nhưng có thể thực hiện qua các phép tính. Hệ số biến thiên đo độ phân tán tương đối của biến, đơn vị là %. Tính hệ số biến thiên (mẫu) bằng cách lấy độ lệch chuẩn chia cho trung bình và nhân với 100:

= STDEV(mảng)/ABS(AVERAGE(mảng)*100 Khoảng tứ phân vị thể hiện độ rộng của khoảng chứa 50% giá trị của biến nằm ở giữa, là khoảng cách giữa tứ phân vị thứ ba và tứ phân vị thứ nhất:

= QUARTILE(mảng, 3) – QUARTILE(mảng, 1) Các Tứ phân vị có thể dùng kết hợp với giá trị nhỏ nhất, lớn nhất để thể hiện sự phân bố của giá trị các biến. Năm giá trị xếp theo thứ tự: Min < Q1 < Q2 < Q3 < Max được thể hiện trên đồ thị, gọi là đồ thị hộp (box-plot). Ngoài ra có thể thêm hai giá trị ngoại lệ kí hiệu là O1 và O2 với công thức như sau: O1 = Q1 – 1.5IQR và O1 = Q3 + 1.5IQR Nhìn vào các vị trí của năm giá trị cơ bản, có thể nhận xét về phân phối của số liệu.

Hình 3.2

3.7. Các thống kê về dạng phân phối

Lệch phải

Lệch trái

Đối xứng

Min Q1 Q2 Q3 Max

O2

O1

IQR

Với số liệu

Hệ số bất đối xứng (skewness):

Hệ số nhọn (kurtosis):

hoặc hệ số nhọn:

Page 21: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 21

Hàm SKEW tính hệ số bất đối xứng Sk: SKEW(mảng) Sk < 0: Phân phối lệch trái, đuôi kéo dài về bên trái Sk = 0: Phân phối đối xứng, hai đuôi bằng nhau, gần Chuẩn Sk > 0: Phân phối lệch phải, đuôi kéo dài về bên phải

Độ lớn của Sk xét về trị tuyệt đối cho biết độ bất đối xứng của phân phối là nhiều hay ít, đuôi có kéo dài về một phía đến mức độ nào. Mức độ bất đối xứng của phân phối có thể đánh giá qua sự so sánh ba giá trị Trung bình, Trung vị, Mốt. Ví dụ: Hệ số bất đối xứng của Thu nhập: = SKEW(D2:D421) = 1.871

Hệ số bất đối xứng của Chi tiêu: = SKEW(E2:E421) = 1.949 Hai giá trị trên cho biết Thu nhập và Chi tiêu đều phân phối lệch phải, đa số các giá trị là nhỏ hơn trung bình, một số hộ có thu nhập và chi tiêu cao vượt hẳn lên kéo đuôi về bên phải. Độ lệch đuôi kéo về bên phải của Chi tiêu là lớn hơn so với Thu nhập. Hàm KURT tính hệ số nhọn K: KURT(mảng) Theo công thức tính hệ số nhọn a4 trong Giáo trình thì a4 sẽ vây quanh giá trị 3, a4 càng gần 3 độ nhọn càng gần với phân phối Chuẩn. Tuy nhiên trong Excel hệ số nhọn K được tính bằng a4 – 3, do vậy K của phân phối Chuẩn bằng 0, K càng lớn thì càng nhọn hơn Chuẩn. Khái niệm nhọn được hiểu là xác suất tập trung hơn hay ít tập trung hơn so với phân phối chuẩn. Ví dụ: Hệ số nhọn của Thu nhập: = KURT(D2:D421) = 5.119

Hệ số nhọn của Chi tiêu: = KURT(E2:E421) = 5.395

Hình 3.3

*Excel tính hệ số Skewness và Kurtosis đã hiệu chỉnh, không hoàn toàn như công thức ở trên. Tuy nhiên hai giá trị không khác nhau đáng kể khi kích thước mẫu lớn Xét biến Chi tiêu, các thống kê mô tả như sau: Xu thế trung tâm: x = 103.9; xd = 81.5; x0 = 77.1 Năm điểm cơ bản: Min = 4.2; Q1 = 51.1; Q2 = 81.5; Q3 = 132.2; Max = 571.2

a4 < 3

K < 0

a4 = 3

K = 0

a4 > 3

K > 0

Page 22: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 22

Độ phân tán: s2 = 6263; s = 79.1; CV = 76.2; IQR = 81.1 Dạng phân phối: Sk = 1.95; K = 5.4

Hình 3.4

Có thể thấy Chi tiêu có phân phối lệch phải rất lớn, giá trị lớn nhất lệch khỏi trung bình rất nhiều.

3.8. Các thống kê về mối liên hệ (relationship)

0

10

20

30

40

50

60

70

80

20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460 480 500 520 540 560 580

Với số liệu theo cặp

Hiệp phương sai (covariance):

Hệ số tương quan (correlation):

r = –1 : Tương quan tuyến tính âm: đường thẳng dốc xuống

r < 0 : Tương quan âm: xu thế dốc xuống

r = 0 : Không có tương quan: không liên hệ về thống kê

r > 0 : Tương quan dương: xu thế dốc lên

r = 1 : Tương quan tuyến tính dương: đường thẳng dốc lên

Min Q1 Q2 Q3 Max

x0 xd x

Page 23: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 23

Hình 3.5

Hàm COVAR tính hiệp phương sai của hai biến: COVAR(mảng 1, mảng 2) Ví dụ: Hiệp phương sai Thu nhập và Chi tiêu: = COVAR(D2:D421, E2:E421) = 7289.152 Hàm CORREL tính hệ số tương quan của hai biến: CORREL(mảng 1, mảng 2) Ví dụ: Hệ số tương quan của Thu nhập và Chi tiêu: = CORREL(D2:D421, E2:E421) = 0.8357 Tổng hợp các hàm thống kê cơ bản của mẫu như sau: Bảng 3.3 Ý nghĩa Hàm Ví dụ Kết quả Đếm số COUNT = COUNT(A2:A421) 420 Đếm có điều kiện COUNTIF = COUNTIF(A2:A421, 1) 138 Tổng SUM = SUM(A2:A421) 657 Trung bình AVERAGE = AVERAGE(D2:D421) 142.0 Trung bình nhân GEOMEAN = GEOMEAN(D2:D421) 106.0 Trung vị MEDIAN = MEDIAN(D2:D421) 111.1 Mốt MODE = MODE(D2:D421) 215.8 Tứ phân vị QUARTILE j = QUARTILE(D2:D421, 1) 66.425 Bách phân vị PERCENTILE j = PERCENTILE(D2:D421, 0.05) 25.19 Tổng b.phương sai lệch DEVSQ = DEVSQ(D2:D421) 5113997 Phương sai VAR = VAR(D2:D421) 12205.2 Độ lệch chuẩn STDEV = STDEV(D2:D421) 110.5 TB sai lệch tuyệt đối AVEDEV = AVEDEV(D2:D421) 80.7 Hệ số bất đx SKEW = SKEW(D2:D421) 1.87 Hệ số nhọn KURT = KURT(D2:D421) 5.12 Hiệp phương sai COVAR = COVAR(D2:D421, E2:E421) 7289.2 Hệ số tương quan CORREL = CORREL(D2:D421, E2:E421) 0.8357

Tương quan dương

Lỏng

Chặt

Tương quan âm

Không tương quan

r = 0.5

r = – 0.5

r = 0.8

r = 0

Page 24: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 24

3.9. Tổng hợp các thống kê

Công cụ Data Analysis tổng hợp các thống kê mô tả chính trong một bảng. Ví dụ: muốn tính các thống kê tổng hợp cho Thu nhập và Chi tiêu, dữ liệu từ D1 đến E421 (kể cả dòng đầu chứa tên biến)

DATA Data Analysis Hộp thoại [Data Analysis] Descriptive Statistics Hình 3.6

[Descriptive Statistics]

Input Range: D1:E421 Mảng giá trị để tính

Group by: Column Số liệu theo cột

Label in first row Dòng đầu là tên biến

Output Range: M1 Kết quả đưa ra từ ô M1

Summary statistics Các thống kê tổng hợp

OK Hình 3.7

Page 25: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 25

Bảng 3.4

Ý nghĩa Thu nhập Chi tiêu Trung bình Mean 142.035 103.882 Sai số chuẩn Standard Error 5.391 3.862 Trung vị Median 111.1 81.5 Mốt Mode 215.8 77.1 Độ lệch chuẩn Standard Deviation 110.477 79.139 Phương sai mẫu Sample Variance 12205.244 6262.989 Hệ số nhọn Kurtosis 5.119 5.395 Hệ số bất đối xứng Skewness 1.871 1.949 Khoảng giá trị Range 777 567 Nhỏ nhất Minimum 5.5 4.2 Lớn nhất Maximum 782.5 571.2 Tổng Sum 59654.5 43630.4 Số quan sát Count 420 420

Bảng kết quả cho thấy các kết quả thống kê cơ bản nhất của biến.

Bài tập Bài 3.1. Tính số hộ, và từ đó tính tỉ lệ tương ứng

(a) Số hộ có 5 người trở lên (b) Số hộ có 5 người trở lên và ở thành thị (c) Tỉ lệ hộ có 5 người trở lên trong số các hộ ở thành thị

Page 26: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 26

(d) Tỉ lệ hộ ở thành thị trong số hộ có từ 5 người trở lên Bài 3.2. Tính Trung bình của Chi tiêu của các hộ

(a) Có từ 5 người trở lên (b) Ở nông thôn và có từ 5 người trở lên (c) Ở thành thị và có thu nhập từ 200 trở lên (d) Ở thành thị, có từ 4 người trở lên, thu nhập từ 200 trở lên

Bài 3.3. Tính các thống kê cơ bản của biến Số người. Biến này có dạng phân phối thế nào? Bài 3.4. Với biến Thu nhập

(a) Tính các thống kê cơ bản (b) So sánh Trung bình, Trung vị và phán đoán dạng của phân phối (c) Thu nhập lệch trái hay lệch phải? (d) Tìm mức thu nhập mà 25% các hộ thu nhập ít hơn mức đó (e) Mức thu nhập cận trên của 20% hộ có thu nhập cao nhất là bao nhiêu?

Bài 3.5. Đặt biến TNBQ là Thu nhập bình quân đầu người (Thu nhập / số người) (a) Tính các thống kê cơ bản: trung bình, phương sai, độ lệch chuẩn. (b) Độ dao động tương đối, đo bằng hệ số biến thiên là bao nhiêu %? (c) TNBQ lệch trái hay phải? Nhọn hơn chuẩn hay không? (d) Hộ có TNBQ trong nhóm 20% thấp nhất là nghèo. Xác định mức TNBQ để từ đó trở xuống

gọi là nghèo. (e) Hộ có TNBQ trong nhóm 20% cao nhất là giàu. Mức TNBQ cận dưới của các hộ giàu là

bao nhiêu? Bài 3.6. Đặt biến CTBQ là Chi tiêu bình quân đầu người

(a) Tính các thống kê cơ bản. (b) Nhóm 50% có CTBQ nằm ở giữa của các hộ sẽ có mức CTBQ trong khoảng từ bao nhiêu

đến bao nhiêu ? (c) So sánh độ biến động tuyệt đối và tương đối của TNBQ và CTBQ (d) Tính hệ số tương quan giữa TNBQ với CTBQ, so sánh hệ số này với hệ số tương quan giữa

Thu nhập và Chi tiêu.

Page 27: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 27

4. BẢNG TỔNG HỢP NHIỀU CHIỀU Khi cần tính các thống kê như tần số, tần suất, trung bình, độ lệch chuẩn… của một biến trong các điều kiện khác nhau, có thể sử dụng bảng thống kê theo nhiều chiều. Chức năng PIVOT TABLE của Excel sẽ trợ giúp rất hiệu quả cho các công việc này

4.1. Tạo bảng Pivot Table Tại trang tính chứa dữ liệu VHLSS

INSERT Pivot Table Hộp thoại [Create Pivot Table] Hình 4.1

[Create Pivot Table]

Table/Range A1:F421

New Worksheet

OK Trang tính mới, bên phải có thông tin: Pivot Table Fields với các biến, và phần định dạng cho bảng kết quả.

Hình 4.2

Page 28: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 28

4.2. Bảng tần số, tần suất một chiều Tính số lượng các hộ được phân chia theo Khu vực (Thành thị, Nông thôn)

Đánh dấu Khu vực giữ chuột trái, kéo xuống góc COLUMNS

giữ chuột trái, kéo tiếp xuống góc VALUES Excel tự động chuyển thành “Count of Khu vực”

Hình 4.3

Được kết quả Bảng 4.1

Row Labels Count of Khu vực Nông thôn 237 Thành thị 183 Grand Total 420

Đổi sang tiếng Việt: Khu vực Số hộ Nông thôn 237 Thành thị 183 Tổng số 420

Page 29: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 29

Nhấn chuột vào “Count of Khu vực ” Hộp lựa chọn Value Field Settings… Có thể nhấn chuột phải vào con số 237 hoặc 183 trong bảng kết quả cũng xuất hiện hộp lựa chọn Value Field Settings…

Hình 4.4

[Value Field Settings] Show Values As % of Column Total

Hình 4.5

Được kết quả Bảng 4.2

Page 30: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 30

Row Labels Count of Khu vực Nông thôn 56.43% Thành thị 43.57% Grand Total 100.00%

Đổi sang tiếng Việt: Khu vực Tỉ lệ Nông thôn 56.43% Thành thị 43.57% Tổng số 100.00%

4.3. Bảng tần số, tần suất theo số liệu gộp nhóm Thực hiện tương tự với biến Số người. Lưu ý vì biến Khu vực là biến định danh nên Excel tự động tính tần số, còn biến Số người là biến định lượng nên Excel tự động tính Tổng. Do đó thông tin trong khu vực VALUES là “Sum of Số người” do đó bảng kết quả không phải tần số. Để hiển thị bảng tần số, thực hiện đổi như sau:

[Value Field Settings] Summarize Value By… Count Bảng 4.3

Row Labels Sum of Số người 1 22 2 108 3 234 4 556 5 370 6 198 7 84 8 32 9 36 Grand Total 1640

Đổi từ bảng tổng số người sang bảng tổng số hộ

Row Labels Count of Số người 1 22 2 54 3 78 4 139 5 74 6 33 7 12 8 4 9 4 Grand Total 420

Muốn gộp các gia đình thành 3 nhóm với số người là [1 – 3] ;[4 – 6]; [7 – 9], cần thay đổi định dạng của cột bên trái.

Chuột phải vào ô bất kỳ của cột Row Labels Hộp lựa chọn Group Hộp thoại Grouping

[Grouping] Starting at 1

Ending at 9 By: 3

Hình 4.6

Page 31: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 31

Được kết quả Bảng 4.4

Row Labels Count of Số người 1-3 154 4-6 246 7-9 20 Grand Total 420

Hoặc đổi sang tỉ lệ %

Row Labels Count of Số người 1-3 36.67% 4-6 58.57% 7-9 4.76% Grand Total 100.00%

4.4. Bảng tần số, tần suất hai chiều Tính số hộ vả tỉ lệ hộ phân chia theo Số người (theo dòng) và Khu vực (theo cột) Thực hiện tương tự trên, kéo biến Khu vực vào ô COLUMN của bảng Pivot Table

Hình 4.7

Được kết quả Bảng 4.5

Page 32: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 32

Count of Số người Column Labels Row Labels Nông thôn Thành thị Grand Total 1-3 85 69 154 4-6 137 109 246 7-9 15 5 20 Grand Total 237 183 420

Để dễ hiểu, đổi sang tiếng Việt như sau

Tần số hộ gia đình Khu vực Số người Nông thôn Thành thị Tổng 1-3 85 69 154 4-6 137 109 246 7-9 15 5 20 Tổng 237 183 420

Tuy nhiên, khi đổi kết quả sang dạng tỉ lệ %, cần lưu ý có 3 loại chia tỉ lệ % Tỉ lệ % Ý nghĩa Ví dụ với ô đầu tiên Theo tổng số Tỉ lệ trên tổng 420 hộ = (85 / 420)100% = 20.24% Theo cột Tỉ lệ trong các hộ theo Khu vực = (85 / 237)100% = 35.86% Theo hàng Tỉ lệ trong các hộ theo Số người = (85 / 154)100% = 55.19%

[Value Field Settings] Show Values As % of Grand Total Bảng 4.6

Tỉ lệ % Khu vực Số người Nông thôn Thành thị Tổng 1-3 20.24% 16.43% 36.67% 4-6 32.62% 25.95% 58.57% 7-9 3.57% 1.19% 4.76% Tổng 56.43% 43.57% 420

[Value Field Settings] Show Values As % of Column Total Bảng 4.7

Tỉ lệ % Khu vực Số người Nông thôn Thành thị Tổng 1-3 35.86% 37.70% 36.67% 4-6 57.81% 59.56% 58.57% 7-9 6.33% 2.73% 4.76% Tổng 100.00% 100.00% 100.00%

[Value Field Settings] Show Values As % of Row Total

Page 33: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 33

Bảng 4.8 Tỉ lệ % Khu vực Số người Nông thôn Thành thị Tổng 1-3 55.19% 44.81% 100.00% 4-6 55.69% 44.31% 100.00% 7-9 75.00% 25.00% 100.00% Tổng 56.43% 43.57% 100.00%

4.5. Bảng thống kê nhiều chiều Muốn tính các tiêu chí thống kê, như Trung bình, Phương sai, Độ lệch chuẩn,…, của một biến (chẳng hạn Thu nhập) theo các trường hợp khác nhau (như Khu vực, Số người), có thể thực hiện như sau:

[PivotTable Fields] ROWS: Số người COLUMNS: Khu vực VALUES: Thu nhập Thay đổi các thống kê được tính trong hộp thoại Value Field Settings Các hàm thống kê được tính Count: Tần số Sum: Tổng số Average: Trung bình cộng Max Giá trị lớn nhất Min Giá trị nhỏ nhất Product Tích số Count Numbers Tổng số giá trị khác nhau StdDev Độ lệch chuẩn (mẫu) SedDevp Độ lệch chuẩn (tổng thể) Var Phương sai (mẫu) Varp Phương sai (tổng thể)

Ví dụ: Xét biến Thu nhập, phân tích theo Khu vực, Số người Thống kê về trung bình Bảng 4.9

Average of Thu nhập Khu vực Số người Nông thôn Thành thị Tổng 1-3 56.51 151.55 99.09 4-6 113.70 222.42 161.87 7-9 204.22 302.02 228.67 Tổng 98.92 197.87 142.03

Thống kê về độ lệch chuẩn Bảng 4.10

StdDev of Thu nhập Khu vực Số người Nông thôn Thành thị Tổng

Page 34: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 34

1-3 37.96 138.11 107.32 4-6 66.18 109.14 103.01 7-9 98.73 110.67 107.93 Tổng 71.38 126.24 110.48

Có thể tạo bảng nhiều chiều hơn để phân tích. Ví dụ: Lập bảng thống kê trung bình của chi tiêu với các hộ gia đình được chia theo các tiêu chí: Khu vực (thành thị, nông thôn), Thu nhập (theo nhóm khoảng cách 200), Số người (theo nhóm khoảng cách là 3) Đổi các chữ tiếng Anh sang tiếng Việt, có bảng sau: Bảng 4.11

Trung bình của Chi tiêu Số người Thu nhập 1-3 4-6 7-9 Tổng Nông thôn 45.16 74.98 130.82 67.82

0-200 45.16 70.32 112.15 61.97 200-400 107.64 152.25 122.51 400-600 165.90 151.60 161.13

Thành thị 117.31 167.07 250.38 150.58 0-200 84.21 127.21 137.00 105.02 200-400 207.00 186.19 188.60 189.09 400-600 380.10 309.08 368.85 330.88 600-800 438.95 438.95

Tổng 77.49 115.79 160.71 103.88 Những ô trống thể hiện không có hộ gia đình nào thỏa mãn các tiêu chí đó, chẳng hạn không có hộ nào có 1–3 người ở Nông thôn có thu nhập trên 200; không hộ nào có từ 4 người trở lên ở Thành thị thu nhập từ 600 trở lên. Trong phân tích, việc thống kê theo Thu nhập và Chi tiêu của hộ có thể không thích hợp bằng phân thích theo Thu nhập bình quân đầu người và Chi tiêu bình quân đầu người. Do đó với biến TNBQ và CTBQ là Thu nhập/người và Chi tiêu/người, có bảng thống kê sau: Thống kê Trung bình của Chi tiêu/người theo Khu vực và Số người: Bảng 4.12

Trung bình của TNBQ Khu vực Số người Nông thôn Thành thị Tổng 1 23.09 60.80 33.37 2 29.00 59.13 41.28 3 23.23 60.90 43.03 4 25.45 48.25 35.46 5 25.60 50.41 37.67 6 21.99 47.17 31.15

Page 35: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 35

7 28.16 27.64 28.07 8 30.10 52.28 35.65 9 20.54 39.16 29.85 Tổng 25.27 52.86 37.29

Thống kê Trung bình của hai biến Thu nhập/người, Chi tiêu/người theo Khu vực và Số người Bảng 4.13

Khu vực Số người

Trung bình của

TNBQ

Trung bình của

CTBQ Nông thôn 25.27 17.94

1-3 25.38 20.17 4-6 24.96 16.60 7-9 27.53 17.52

Thành thị 52.86 40.22 1-3 60.33 46.21 4-6 48.85 36.87 7-9 37.18 30.66

Tổng 37.29 27.65 Thống kê Trung bình của Chi tiêu/người theo Khu vực, Thu nhập/người, và Số người Bảng 4.14

Trung bình của CTBQ Số người Khu vực TNBQ 1-3 4-6 7-9 Tổng Nông thôn 20.17 16.60 17.52 17.94

0-100 20.17 16.52 17.52 17.89 100-200 28.50 28.50

Thành thị 46.21 36.87 30.66 40.22 0-100 37.52 36.19 30.66 36.50 100-200 82.05 73.29 79.13 200-300 177.99 177.99

Tổng 31.83 25.58 20.80 27.65 Có thể tạo các bảng với nhiều chiều, nhiều lớp hơn, tuy nhiên khi đó việc đọc kết quả cũng không đơn giản. Thông thường bảng có 2 chiều, bảng 3 chiều nên hạn chế.

BÀI TẬP Bài 4.1. Lập bảng tần số, tỉ lệ của các hộ ứng với các giá trị của biến Số người

(a) Trong toàn bộ mẫu (b) Phân chia theo khu vực nông thôn, thành thị

Page 36: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 36

Bài 4.2. Lập bảng tần số của các hộ phân chia theo hai tiêu chí: khu vực và Chi tiêu (phân thành 3 nhóm). Lập bảng tỉ lệ phân chia theo ba cách:

(a) Trong tổng số (b) Theo từng khu vực (c) Theo từng nhóm chi tiêu

Bài 4.3. Lập bảng tần số và tần suất của các hộ phân chia theo hai tiêu chí: Thu nhập (phân thành 3 nhóm) và Chi tiêu (phân thành 3 nhóm) Bài 4.4. So sánh Chi cho ăn uống của các hộ khi phân chia theo các nhóm Thu nhập (phân thành 4 nhóm) qua các thống kê:

(a) Trung bình (b) Phương sai

Bài 4.5. So sánh trung bình và phương sai của Chi cho ăn uống khi phân chia các hộ gia đình theo hai tiêu chí là Khu vực và Thu nhập (phân thành 4 nhóm) Bài 4.6. So sánh trung bình của Chi tiêu bình quân đầu người của các hộ khi phân chia các hộ gia đình theo hai tiêu chí:

(a) Khu vực và Số người (phân thành 3 nhóm) (b) Khu vực và Thu nhập (phân thành 3 nhóm) (c) Số người (phân thành 3 nhóm) và Thu nhập (phân thành 3 nhóm) (d) Khu vực và Thu nhập bình quân đầu người (phân thành 3 nhóm)

Page 37: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 37

5. MÔ TẢ SỐ LIỆU BẰNG ĐỒ THỊ Mỗi loại biến sẽ có cách thể hiện bằng đồ thị khác nhau, tùy theo đặc tính của biến và mục đích sử dụng. Thông thường đồ thị tròn dành cho các biến định tính, hoặc biến định lượng khi được phân chia thành các nhóm. Trong Excel, đồ thị thường được sử dụng với các bảng số liệu tổng hợp,

5.1. Đồ thị tròn (pie chart)

Ví dụ 5.1: Với số liệu tần số sau Bảng 5.1

Khu vực Tần số Nông thôn 237 Thành thị 183 Tổng 420

INSERT Charts Hình đồ thị tròn (Pie chart) hoặc Recommended Charts và lựa chọn đồ thị tròn

Hình 5.1

Hình 5.2

Chart Title

Nông thôn Thành thị

Page 38: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 38

Nhấn chuột phải vào các phần trên đồ thị để sửa đổi, có thể tạo thành các đồ thị với hình thức đẹp hơn, hiển thị nhiều thông tin hơn, tùy vào mục đích sử dụng và sở thích của người dùng.

Hình 5.3

5.2. Đồ thị cột (column chart) Đồ thị cột có thể dùng cho số liệu định tính và định lượng, có thể là cột dọc (column chart) hoặc cột ngang (bar chart), cột với trong hệ tọa độ 2 chiều hoặc 3 chiều. Ví dụ 5.2: Với số liệu về tần số của Số người trong các hộ gia đình Bảng 5.2 Số người 1 2 3 4 5 6 7 8 9 Tổng Tần số 22 54 78 139 74 33 12 4 4 420

Hình 5.4

Hình 5.5

23756%

18344%

Cơ cấu hộ gia đình theo Khu vực

Nông thôn Thành thị

23756%

18344%

Phân bố theo khu vực

Nông thôn Thành thị

Page 39: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 39

Đồ thị cột so sánh Ví dụ 5.3: Đồ thị Thu nhập trung bình của hộ gia đình theo Số người và Khu vực, theo hai cách so sánh Bảng 5.3

Trung bình của TN Khu vực Số người Nông thôn Thành thị Chung 1-2 46.37 105.95 68.32 3-4 91.47 188.87 137.25 5-6 129.41 259.79 187.90 7-9 204.22 302.02 228.67 Chung 98.92 197.87 142.03

Khi muốn so sánh về Thu nhập giữa Nông thôn và Thành thị trong từng Nhóm tuổi, tức là xét thành 4 cụm đồ thị tương ứng với 4 nhóm tuổi, trong mỗi cụm gồm 3 cột thể hiện Nông thôn – Thành thị - Chung, đồ thị như sau:

Hình 5.6

0

50

100

150

1 2 3 4 5 6 7 8 9

Chart Title

22

54

78

139

74

3312 4 4

0

50

100

150

1 2 3 4 5 6 7 8 9

Phân bố số người trong hộ gia đình

4691

129

204

106

189

260302

68

137

188229

0

50

100

150

200

250

300

350

1-2 3-4 5-6 7-9

Thu nhập theo Số người và Khu vực

Nông thôn Thành thị Chung

Page 40: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 40

Khi muốn so sánh về Thu nhập giữa các Nhóm tuổi trong từng Khu vực, tức là xét thành 3 cụm đồ thị tương ứng với 3 trường hợp Nông thôn – Thành thị - Chung; trong mỗi cụm gồm 4 cột thể hiện 4 nhóm tuổi, đồ thị như sau:

Hình 5.7

Cũng có thể sử dụng đồ thị trên hệ tọa độ ba chiều để so sánh theo cả hai cách. Trong đồ thị sau khu vực Chung đã được bỏ bớt để tránh rối.

Hình 5.8

5.3. Đồ thị phân phối giá trị (histogram) Đồ thị histogram khác với đồ thị cột khác ở chỗ trục hoành phải tương ứng với giá trị của một biến định lượng, trục tung là tần số hoặc tần suất. Có thể tạo bảng tần số / tần suất từ chức năng Pivot table + Group, hoặc từ chức năng Histogram của Data Analysis. Sự khác biệt là Group của Pivot table cho các tần số theo các khoảng giá trị đều nhau, trong khi Histogram có thể tạo các khoảng giá trị với khoảng cách tùy ý. Ví dụ 5.4: Với số liệu Chi tiêu hộ gia đình, nếu nhóm với khoảng cách 20 đơn vị, từ giá trị nhỏ nhất đến lớn nhất, có thể có rất nhiều nhóm, và đồ thị phân phối (tính theo tỉ lệ %) như sau:

46106

6891

189

137129

260

188204

302

229

NÔNG THÔN THÀNH THỊ CHUNG

Thu nhập theo Khu vực và Số người

1-2 3-4 5-6 7-9

Nông thônThành thị

0100

200

300

400

1-2 3-4 5-6 7-9

4691 129

204106189

260302

Thu nhập theo Số người và Khu vực

Nông thôn Thành thị

Page 41: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 41

Hình 5.9

Để dễ nhìn hơn, có thể sử dụng đồ thị với khoảng cách nhóm lớn hơn, và nhóm cuối cùng không nhất thiết kéo đến giá trị lớn nhất. Chẳng hạn muốn tạo bảng tần số và tần suất (tính theo tỉ lệ %) của Chi tiêu theo các nhóm với khoảng cách là 40 đơn vị, từ 360 trở lên gộp thành một nhóm, cách đơn giản nhất là sử dụng bảng Pivot table, lấy Minimum là 0, maximum là 360, khoảng cách là 40. Cách thứ hai là sử dụng chức năng Histogram trong Data Analysis. Trước hết phải tạo một mảng chứa các “bin” – là các điểm phân cách giá trị. Nếu muốn chia thành các nhóm với khoảng cách là 40 thì các bin lần lượt là 0, 40, 80,…, 360: Tạo cột Bin, với các giá trị 0, 40, 80,… tại cột H của bộ số liệu

DATA Data Analysis Histogram

Input Range: E1:E421

Bin Range: H1:H11

Label

Output Range: J1 Kết quả như sau: Bảng 5.4

0.0%

2.0%

4.0%

6.0%

8.0%

10.0%

12.0%

14.0%

16.0%

18.0%

20.0%

20 40 60 80 100120140160180200220240260280300320340360380400420440460480500520540560580

Đồ thị phân phối giá trị của Chi tiêu

Page 42: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 42

Từ đó có thể tính tỉ lệ % bằng cách chia các tần số cho tổng số lượng các hộ gia đình (420) Với bảng tỉ lệ % tính từ Pivot table, có thể vẽ đồ thị như sau.

Hình 5.10

Chi tiêu Tỉ lệ % 0-40 15.0% 40-80 34.3% 80-120 20.2% 120-160 12.4% 160-200 8.1% 200-240 3.6% 240-280 2.4% 280-320 1.4% 320-360 1.2% >360 1.4% Tổng 100.0%

5.4. Đồ thị rải điểm (scatter plot) Ví dụ 5.5: Đồ thị của Chi tiêu theo Thu nhập hộ gia đình. Chọn mảng số liệu hai biến Thu nhập và Chi tiêu; lưu ý chọn Thu nhập trước để biến nằm trên trục hoành, sau đó chọn Chi tiêu để biến nằm trên trục tung.

INSERT Charts: X Y scatter Hình 5.11

15.0%

34.3%

20.2%

12.4%

8.1%

3.6% 2.4% 1.4% 1.2% 1.4%

Đồ thị phân phối của Chi tiêu

Page 43: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 43

Với đồ thị, chọn Add trend để thấy xu thế, hay đường hồi quy tuyến tính

Hình 5.12

Ví dụ 5.6: Sử dụng đồ thị rải điểm, kết hợp với hàm NORMDIST, có thể vẽ đồ thị hàm mật độ của các biến ngẫu nhiên phân phối chuẩn

Hình 5.13

0

100

200

300

400

500

600

0 100 200 300 400 500 600 700 800

Chi t

iêu

Thu nhập

Đồ thị Chi tiêu theo Thu nhập

Page 44: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 44

Trong hình, cột A được xác định các giá trị của x từ (–4) đến (+10) với khoảng cách hai giá trị là 0.01. Cột (u) được tính là hàm mật độ biến chuẩn hóa tại x, hàm: =NORMDIST(x, 0, 1, 0). Cột f(x1) là hàm mật độ biến phân phối chuẩn trung bình và độ lệch chuẩn tương ứng trên đỉnh cột, tại ô C1 và C2, hàm: = NORMDIST(x, C$1, C$2, 0). Tương tự cho cột f(x2). Vẽ đồ thị của các điểm này cho hàm mật độ của ba biến phân phối chuẩn: U ~ N(0,1); X1 ~ N(2, 1.52); X2 ~ N(5, 0.82).

5.5. Đồ thị mạng nhện (radar chart) Đồ thị mạng nhện hay đồ thị dạng rađa (radar chart) dùng để so sánh hai hay nhiều đối tượng về một số tiêu chí có cùng độ đo, cùng đơn vị, độ lớn tương đồng nhau. Số chỉ tiêu so sánh thường từ 5 trở lên thì mới áp dụng loại đồ thị này. Với bộ số liệu đang sử dụng chỉ có ba biến là Thu nhập, Chi tiêu, Chi ăn uống. Đặt thêm hai biến là “Chi khác ăn uống” = “Chi tiêu” – “Chi ăn uống”, và biến “Tiết kiệm + mua tài sản” = “Thu nhập” – “Chi tiêu”. Ví dụ 5.7: Sử dụng Pivot table được bảng sau Bảng 5.5

Trung bình của Nông thôn Thành thị Thu nhập 98.92 197.87 Chi tiêu 67.82 150.58 Chi ăn uống 52.78 104.54 Chi khác ăn uống 15.04 46.05 Tiết kiệm + mua tài sản 31.10 47.29

Chọn Nông thôn và Thành thị, đồ thị radar

Hình 5.14

Page 45: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 45

Ngoài ra còn nhiều dạng đồ thị, dùng cho các mục đích thể hiện số liệu khác nhau. Người đọc có thể tự tìm hiểu và sử dụng linh hoạt.

Bài tập Bài 5.1. Vẽ đồ thị tròn và đồ thị cột thể hiện số lượng và tỉ lệ các giá trị của biến Số người Bài 5.2. Vẽ đồ thị cột thể hiện Thu nhập bình quân trung bình ứng với Số người (chia làm 3 nhóm) và nhận xét về đồ thị Bài 5.3. Vẽ đồ thị cột thể hiện Chi tiêu bình quân trung bình phân chia theo hai tiêu chí:

(a) Khu vực và số người (chia thành 3 nhóm) (b) Khu vực và Thu nhập bình quân (chia thành 3 nhóm) (c) Số người (chia thành 3 nhóm) và Thu nhập bình quân (chia thành 3 nhóm) Với mỗi đồ thị, nhận xét về Chi tiêu bình quân.

Bài 5.4. Vẽ đồ thị phân phối giá trị của Thu nhập bình quân và Chi tiêu bình quân, mỗi đồ thị gồm 10 cột Bài 5.5. Vẽ đồ thị rải điểm của Chi tiêu bình quân theo Thu nhập bình quân.

0.00

50.00

100.00

150.00

200.00Thu nhập

Chi tiêu

Chi ăn uốngChi khác ăn uống

Tiết kiệm + mua tài sản

Đồ thị so sánh 5 chỉ tiêu

Nông thôn Thành thị

Page 46: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 46

6. ƯỚC LƯỢNG THAM SỐ 6.1. Hàm hợp lý (Likelyhood function)

Phương pháp ước lượng hợp lý tối đa dựa trên cơ sở tìm giá trị ước lượng tham số sao cho hàm hợp lý đạt lớn nhất, hoặc logarit của hàm hợp lý đạt lớn nhất. Có thể sử dụng Excel để minh họa cho hàm hợp lý và phương pháp ước lượng hợp lý tối đa cho các tham số.

Ví dụ 6.1: Với biến ngẫu nhiên phân phối Không-Một A(p), tức là giá trị có thể có chỉ là 0 và 1. Có mẫu gồm 6 quan sát là (1, 0, 1, 0, 0, 0). Tính các giá trị hàm hợp lý với các mức p = 0.1, 0.2, …, 0.9 và xem mức p nào là hợp lý nhất với mẫu đã cho. Với bảng Excel, mẫu nằm trên dòng 1, bắt đầu từ ô C1 đến H1 lần lượt là 1, 0, 1, 0, 0; giá trị p nằm trên cột A, từ A1 đến A10 lần lượt là 0.1, 0.2,…, 0.9.

Công thức tính xác suất biến A(p): 1( ) (1 )x xP X x p p

Tính giá trị xác suất tại ô C2 theo công thức: =$A2^C$1*(1-$A2)^(1-C$1) Trong đó $A để cố định cột A là cột giá trị p, và $1 là để cố định dòng 1 là dòng chứa mẫu. Cột Likelyhood là tích của các giá trị xác suất trên cùng hàng, dùng hàm: = PRODUCT(mảng) Bảng 6.1

Hàm hợp lý của X ứng với mẫu

nếu X rời rạc

nếu X liên tục

Page 47: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 47

Nhận thấy giá trị p = 0.3 có hàm hợp lý lớn nhất, tiếp đó là p = 0.4. Phán đoán rằng giá trị p hợp lý nhất sẽ nằm giữa 0.3 và 0.4; thay các giá trị trong cột p bằng 0.30; 0.31; … sẽ thấy p = 0.33 là hợp lý nhất. Cứ tiếp tục như vậy, có thể thấy p = 0.3333 là giá trị hợp lý nhất, hay ước lượng hợp lý tối đa của p trên mẫu này là 0.3333 hay 1/3.

Ví dụ 6.2: Ước lượng hợp lý tối đa tham số của biến ngẫu nhiên phân phối Poisson P() trên mẫu (0, 2, 4, 3, 6, 6).

Thực hiện tương tự, với giá trị xác suất tính theo hàm: = POISSON(x, , 0)

Với giá trị = 1, 2, …, 6 thì = 4 hàm hợp lý lớn nhất, tiếp đó là = 3. Với giá trị = 3.1, 3.2,…, 3.9 thì = 3.5 hàm hợp lý lớn nhất. Làm tương tự sẽ thấy 3.5 là ước lượng hợp lý tối đa của . Bảng 6.2

6.2. Khoảng tin cậy đối xứng cho trung bình tổng thể

Khoảng tin cậy hai phía (đối xứng):

Hay với ME là sai số biên,

Page 48: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 48

Trong thống kê mô tả tổng hợp (Descriptive statistics) của Data Analysis cho phép tính giá trị sai số biên ME của ước lượng, thông qua lựa chọn Confidence Level for Mean. Ví dụ 6.3: Sử dụng chức năng Descriptive Statistics để tính khoảng tin cậy của trung bình hai biến Thu nhập và Chi tiêu, độ tin cậy 95%.

DATA Data Analysis Descriptive Statistics

Confidence Level for Mean: 95%

Hình 6.1

Được kết quả sau (một số thống kê được loại bỏ bớt) Bảng 6.2

Thu nhập Chi tiêu Mean 142.035 103.882 Standard Error 5.391 3.862 Standard Deviation 110.477 79.139 Sample Variance 12205.244 6262.989 Count 420 420 Confidence Level(95.0%) 10.596 7.591

Sai số chuẩn (của trung bình mẫu) Standard Error, ( ) /Se X s n và ( 1)/2 ( )nME t Se X đều được

tính sẵn.

Page 49: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 49

Với biến Thu nhập, ME = 10.596, nên khoảng tin cậy 95% cho trung bình tổng thể của Thu nhập là: 142.035 10.596

Tương tự, khoảng tin cậy 95% cho trung bình tổng thể của Chi tiêu là: 103.882 7.591. Khoảng tinh cậy Trung bình biến phân phối Không-một

Biến X ~ A(p) chỉ nhận giá trị 0 và 1, có thể coi chính là mã hóa của một dấu hiệu A. Nếu quan sát

có dấu hiệu A thì X = 1, không có dấu hiệu A thì X = 0. Dễ thấy 1

nii

x chính là tổng số lần A

xuất hiện trong n lần, do đó:

Trung bình tổng thể: 1

1 N

ii

x pN

là xác suất xảy ra biến cố A

Trung bình mẫu: 1

1 n

ii

x x fn

là tần suất mẫu của biến cố A

Chứng minh được khi X chỉ nhận giá trị 0 và 1 thì: (1 )1

ns f fn

Do đó nếu n đủ lớn thì: (1 )s f f và ( 1)/2 /2nt u , f xấp xỉ phân phối chuẩn

Lại có: x f , p , nên hai khoảng tin cậy: ( 1)/2n sx t

n

và /2(1 )f ff u

n

là gần

giống nhau. Do đó có thể sử dụng chức năng Descriptive Statistic để ước lượng cho p. Ví dụ 6.4: Ước lượng tỉ lệ tổng thể hộ gia đình ở nông thôn qua mẫu 421 hộ, cần có biến 0 – 1, với NT = 1 nếu ở nông thôn, NT = 0 nếu không ở nông thôn. Với số liệu hiện có, có nhiều cách để đặt biến NT như vậy: Cách 1: Do biến KV = 1 nếu ở Thành thị, = 2 nếu ở Nông thôn, nên đặt NT = KV – 1 Cách 2: Dùng biến Khu vực, lệnh: = IF(ô tương ứng của biến Khu vực = “Nông thôn”, 1, 0) Dùng chức năng Descriptive Statistic với biến NT Bảng 6.3

NT

Khoảng tin cậy hai phía (đối xứng):

Hay với

Page 50: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 50

Mean 0.5643 Standard Error 0.0242 Median 1 Mode 1 Standard Deviation 0.4964 Sample Variance 0.2465 Kurtosis -1.9416 Skewness -0.2602 Range 1 Minimum 0 Maximum 1 Sum 237 Count 420 Confidence Level(95.0%) 0.0476

Theo kết quả này thì f = 0.5643, ME = 0.0476 do đó khoảng tin cậy của p là 0.5643 0.0476

Nếu áp dụng công thức ước lượng p thì: ME = 0.5643(1 0.5643)

1.96420

= 0.0474, chênh lệch

không đáng kể so với kết quả trên.

6.3. Khoảng tin cậy cho ba tham số quan trọng Để thực hiện tính toán tổng quát cho mọi bài khoảng tin cậy với ba tham số:

: trung bình biến phân phối chuẩn, hay trung bình tổng thể (Mean) σ2 : phương sai biến phân phối chuẩn, hay phương sai tổng thể (Variance) p : tham số biến Không-Một, hay tỉ lệ tổng thể (Proportion)

Trong phần này coi như các thống kê đặc trưng mẫu đã biết, chỉ tính toán khoảng tin cậy cuối cùng. Lập vùng nhập dữ liệu cần thiết gồm: Kích thước mẫu n Trung bình mẫu x Độ lệch chuẩn mẫu s Tần số của mẫu k Độ tin cậy (1 - )

Ví dụ 6.5: Trong hình dưới, với số liệu về Thu nhập hộ gia đình, tần số hộ ở Nông thôn, ô tần suất f được tự động tính = k / n Bảng 6.4

Page 51: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 51

Khoảng tin cậy cho Trung bình biến phân phối chuẩn (Confidence interval for mean)

Có thể thiết lập trong bảng tính Excel Bảng 6.5

Kết quả như sau Bảng 6.6

Khoảng tin cậy hai phía (đối xứng):

Khoảng tin cậy phía trái (chặn trên):

Khoảng tin cậy phía phải (chặn dưới):

Page 52: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 52

Khoảng tin cậy cho phương sai biến phân phối chuẩn (Confidence interval for variance)

Với khoảng tin cậy cho phương sai, sử dụng công thức và hàm tính giá trị tới hạn Khi bình phương, thực hiện như sau Bảng 6.7

Kết quả như sau, tính thêm cột độ lệch chuẩn là căn bậc hai của phương sai Bảng 6.8

Khoảng tin cậy cho tham số p (Confidence interval for propotion) Với khoảng tin cậy cho tham số p của biến A(p), hay tần suất tổng thể, có thể thực hiện như sau

Khoảng tin cậy hai phía

Khoảng tin cậy phía trái (tối đa)

Khoảng tin cậy phía phải (tối thiểu)

Page 53: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 53

Bảng 6.9

Kết quả là Bảng 6.10

Bài tập Bài 6.1. Với mẫu w1 = (1, 0, 0, 1, 1, 0) và mẫu w2 = (0, 1, 0, 1, 0 , 1) từ biến ngẫu nhiên Không-một, hãy lập hàm hợp lý ứng với các giá trị của p từ 0.1 đến 0.9 và so sánh hàm hợp lý của hai mẫu đó. Bài 6.2. Giả sử biến ngẫu nhiên gốc phân phối Chuẩn với trung bình 10 và phương sai 25. Tìm hàm hợp lý ứng với các mẫu sau:

(a) (12, 14, 8, 16) (b) (2, 19, 12, 15) (c) (0, 3, 15, 20)

Khoảng tin cậy hai phía (đối xứng):

Khoảng tin cậy phía trái (tối đa):

Khoảng tin cậy phía phải (tối thiểu):

Page 54: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 54

Bài 6.3. Với mẫu w = (12, 14, 8, 16) rút ra từ biến ngẫu nhiên phân phối Chuẩn có phương sai là 9, hãy so sánh giá trị hàm hợp lý ứng với các giá trị trung bình chạy từ 8 đến 16. Bài 6.4. Ước lượng bằng khoảng tin cậy hai phía mức 95% cho trung bình của các biến

(a) Chi tiêu (b) Chi tiêu bình quân (c) Thu nhập bình quân (d) Chi cho ăn uống

Bài 6.5. Ước lượng bằng khoảng tin cậy hai cho trung bình của Thu nhập khi độ tin cậy là:

(a) 80% (b) 90% (c) 99%

Bài 6.6. Ước lượng bằng khoảng tin cậy hai phía mức 95% cho phương sai của:

(a) Chi tiêu (b) Chi cho ăn uống (c) Thu nhập bình quân (d) Chi tiêu bình quân

Bài 6.7. Ước lượng bằng khoảng tin cậy hai phía mức 95% cho tỉ lệ của các hộ gia đình

(a) Có từ 6 người trở lên (b) Thu nhập từ 200 trở lên (c) Chi tiêu từ 150 trở xuống

Page 55: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 55

7. KIỂM ĐỊNH THAM SỐ 7.1. Kiểm định một tham số

Chức năng Data Analysis trong Excel không tự động tính toán các bài kiểm định giả thuyết về một tham số , σ2, p mà chỉ kiểm định hai tham số và kiểm định hai tham số σ2. Tuy nhiên có thể thực hiện việc kiểm định thông qua các hàm của Excel. Trong các ví dụ sau, mức ý nghĩa là , kiểm định về , σ2 có giả định các biến phân phối chuẩn. Kiểm định Trung bình biến phân phối chuẩn (Hypothesis testing for mean) Với mức ý nghĩa cho trước, X ~ (, σ2) giả thuyết so sánh và 0 có thể dùng hai cách: (1) So sánh thống kê t (t-statistic) với giá trị ngưỡng (critical value); (2) hoặc so sánh P-value với mức ý nghĩa , nếu P-value < thì bác bỏ H0 (reject H0), ngược lại thì chưa bác bỏ H0 (not reject H0)

Ví dụ 7.1: Với số liệu của Hà Nội, kiểm định giả thuyết so sánh Trung bình của thu nhập với 130 (giả thiết thu nhập phân phối chuẩn). Các giá trị trung bình mẫu, độ lệch chuẩn mẫu, kích thước mẫu dễ dàng có được qua các hàm AVERAGE, STDEV, COUNT, do đó thiết lập bảng Excel với các ô tương ứng, và tính các thống kê T, dùng hàm TINV để xác định các giá trị ngưỡng (cũng là các giá trị tới hạn), và dùng hàm TDIST để tính các P-value. Việc kết luận dựa trên P-value. Bảng 7.1

Bảng 7.2

H0 : = 0 H1 Bác bỏ H0 khi P-value

t-statistic

0

> 0

< 0

Page 56: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 56

Theo kết quả này, với mức ý nghĩa 5%, bác bỏ H0 trong cặp giả thuyết hai phía và cặp giả thuyết > 130, chưa bác bỏ H0 trong cặp giả thuyết < 130 Hàm ZTEST Hàm ZTEST cho P-value cặp giả thuyết dấu “>” khi kiểm định trung bình với một số cho trước.

H0: 0 & H1: 0 . Thủ tục của hàm là: = ZTEST(mảng, 0 ),

Ví dụ 7.1 (tiếp), Kiểm định so sánh trung bình của Thu nhập với 130: = ZTEST(D2:D421, 130) = 0.0128.

Cặp giả thuyết là H0: = 130 & H1: > 130 và P-value của cặp giả thuyết bằng 0.0128 nhỏ hơn mức ý nghĩa 5% nên chưa có cơ sở bác bỏ H0. Từ đây, P-value cặp giả thuyết hai phía: H0: = 130 & H1: 130 sẽ có P-value bằng 20.0128 = 0.0256. Với hàm = ZTEST(D2:D421, 140) thì kết quả là 0.353 và = ZTEST(D2:D421, 150) = 0.93 Kiểm định Phương sai biến phân phối chuẩn (Hypothesis testing for variance)

Ví dụ 7.2: Kiểm định so sánh phương sai Thu nhập hộ gia đình với 10000 (hay so sánh độ lệch chuẩn với 100) Bảng 7.3

H0 : H1 Bác bỏ H0 P-value

Chisq-statistic

Nếu: :

Nếu: :

Page 57: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 57

Bảng 7.4

Kiểm định tần suất tổng thể (Hypothesis testing for proportion)

Ví dụ 7.3: Kiểm định giả thuyết cho rằng tỉ lệ hộ gia đình sống ở nông thôn trong tổng thể là 62%, hay 0.62. Kiểm định tham số p với con số 0.62. Bảng 7.5

H0 : p = p0 H1 Bác bỏ H0 khi P-value u-statistic

p p0

p > p0

p < p0

Page 58: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 58

Bảng 7.6

7.2. Kiểm định hai tham số Với hai biến ngẫu nhiên phân phối chuẩn 2~ ( , )X XX N , 2~ ( , )Y YY N , kiểm định so sánh

tham số X với Y có liên quan đến kiểm định so sánh 2X với 2

Y .

Logic của kiểm định hai trung bình có thể thấy ở sơ đồ sau:

Hình 7.

Số liệu cặp (xi, yi)

di = xi – yi

Biết ,

kiểm định F

Kiểm định

với

Không biết ,

Số liệu X, Y độc lập

Page 59: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 59

Kiểm định hai trung bình khi số liệu theo cặp Ví dụ 7.4: Tạo biến “Chi khác ăn uống” = “Chi tiêu” – “Chi ăn uống” đặt ở cột G. Đặt Chi ăn uống là X, Chi khác ăn uống là Y. Kiểm định giả thuyết: Trung bình của X (cột F) = Trung bình của Y (cột G)

Hay 0X Y

DATA Data Analysis t-Test: Pair Two-Sample for Means OK Hình 7.

H0 : H1 Bác bỏ H0 P-value

F-statistic

Nếu: :

Nếu: :

Cặp giả thuyết Bác bỏ H0 trong các trường hợp

H0 : Số liệu theo cặp

X, Y độc lập Biết

X, Y độc lập, chưa biết

H1 :

H1 :

H1 :

Page 60: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 60

Bậc tự do (n – 1)

P-value cặp gt một phía

Giá trị tới hạn

Giá trị tới hạn

P-value cặp gt hai phía

[t-Test: Pair Two-Sample for Means]

Variable 1 Range: F1:F421

Variable 2 Range: G1:G421

Hypothesized Mean Difference: 0

Labels (do có dòng đầu là tên biến)

Alpha: 0.05

Output Range: L1 Bảng 7.7

Ở đây có hai cặp giả thuyết được kiểm định: một phía (one-tail) và hai phía (two-tail) Nhận thấy x = 75.33 > y = 28.55 nên cặp giả thuyết một phía là:

0

1

::

X Y

X Y

HH

Có tqs = 24.9 > ( 1) (419)0.05 1.648nt t

nên bác bỏ H0. Hoặc P-value bằng 5.16E-85 = 5.1610-85 rất nhỏ nên bác bỏ H0.

t-Test: Paired Two Sample for Means

Chi ăn uống

(X) Chi khác ăn uống

(Y) Mean 75.330 28.552 Variance 2730.030 1141.777 Observations 420 420 Pearson Correlation 0.677 Hypothesized Mean Difference 0 df 419 t Stat 24.914 P(T<=t) one-tail 5.16E-85 t Critical one-tail 1.648 P(T<=t) two-tail 1.03E-84 t Critical two-tail 1.966

Page 61: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 61

Cặp giả thuyết hai phía:

0

1

::

X Y

X Y

HH

Có ( 1) (419)/2 0.025 1.966nt t < tqs; P-value bằng 1.0310-84 nên cũng bác bỏ H0.

Ví dụ 7.5: Khi kiểm định 45X Y có kết quả sau:

Bảng 7.8 t-Test: Paired Two Sample for Means

Chi ăn uống Chi khác ăn uống Mean 75.330 28.552 Variance 2730.030 1141.777 Observations 420 420 Pearson Correlation 0.677 Hypothesized Mean Difference 45 df 419 t Stat 0.947 P(T<=t) one-tail 0.172 t Critical one-tail 1.648 P(T<=t) two-tail 0.344 t Critical two-tail 1.966

Qua kiểm định, có thể cho rằng 45X Y , về trung bình thì chi cho ăn uống nhiều hơn chi cho mục đích khác là 45 đơn vị. Kiểm định hai trung bình khi biết hai phương sai Kiểm định so sánh Thu nhập trung bình ở Thành thị (số liệu từ D2 đến D184) và Nông thôn (từ D185 đến D241) Ví dụ 7.6: Giả sử biết phương sai của Thu nhập tại thành thị là 10000, và tại Nông thôn là 5000, kiểm định giả thuyết trung bình của Thu nhập tại thành thị và nông thôn bằng nhau. Kiểm định U trong Excel gọi là kiểm định Z

DATA Data Analysis z-Test: Two-Sample for Means OK [z-Test: Two-Sample for Means]

Variable 1 Range: D2:D184

Variable 2 Range: D185:D421

Hypothesized Mean Difference: 0

Variable 1 Variance (known): 10000

Variable 2 Variance (known): 5000

Labels (không đánh dấu do không có dòng đầu là tên biến)

Alpha: 0.05

Page 62: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 62

Output Range: L20 Bảng 7.9

z-Test: Two Sample for Means Variable 1 Variable 2

Mean 197.874 98.918 Known Variance 10000 5000 Observations 183 237 Hypothesized Mean Difference 0 z 11.370 P(Z<=z) one-tail 0.000 z Critical one-tail 1.645 P(Z<=z) two-tail 0.000 z Critical two-tail 1.960

Ví dụ 7.7: Kiểm định trung bình Thu nhập Thành thị và Nông thôn chênh lệch nhau 100 đơn vị, giả thiết biết phương sai tương ứng là 10000 và 5000. Bảng 7.10

z-Test: Two Sample for Means Variable 1 Variable 2

Mean 197.874 98.918 Known Variance 10000 5000 Observations 183 237 Hypothesized Mean Difference 100 z -0.120 P(Z<=z) one-tail 0.452 z Critical one-tail 1.645 P(Z<=z) two-tail 0.905 z Critical two-tail 1.960

Kiểm định này cho thấy có thể nói trung bình chênh lệch là 100 đơn vị Kiểm định hai trung bình khi không biết hai phương sai Kiểm định về hai phương sai Ví dụ 7.8: Khi không biết hai phương sai Thu nhập tại Thành thị và Nông thôn, cần kiểm định xem hai phương sai có bằng nhau hay không

DATA Data Analysis F-Test: Two-Sample for Variances OK [F-Test: Two-Sample for Variances]

Variable 1 Range: D2:D184

Variable 2 Range: D185:D421

Labels (không đánh dấu do không có dòng đầu là tên biến)

Page 63: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 63

P-value cặp giả thuyết một phía

Giá trị tới hạn

Alpha: 0.05

Output Range: L40 Bảng 7.11

Kiểm định F chỉ thực hiện kiểm định một phía, và vì 2 2X Ys s nên cặp giả thuyết ở đây là:

2 20

2 21

:

:X Y

X Y

H

H

Với Fqs = 3.128 > ( 1, 1) (182,236)0.05

X Yn nf f = 1.256 nên bác bỏ H0. P-value bằng 1.75610-16 cũng

cho kết luận tương tự. Với cặp giả thuyết hai phía:

2 20

2 21

:

:X Y

X Y

H

H

thì P-value bằng 2 lần P-value của cặp giả thuyết một phía, nên P-value của cặp giả thuyết này bằng 21.75610-16 = 3.51210-16 cũng rất nhỏ, bác bỏ H0. Có thể nói 2 2

X Y .

Do đó để kiểm định hai trung bình, thực hiện kiểm định T khi hai phương sai không bằng nhau. Kiểm định hai trung bình khi hai phương sai khác nhau Ví dụ 7.9: Với thông tin có được từ Ví dụ 7.8, kiểm định Trung bình của Thu nhập tại Thành thị và Nông thôn bằng nhau. Vì ví dụ 7.8 chỉ ra rằng phương sai của Thu nhập tại hai khu vực khá nhau, do đó phải kiểm định hai trung bình khi biết hai phương sai là khác nhau. DATA Data Analysis t-Test: Two-Sample Assuming Unequal Variances OK [t-Test: Two-Sample Assuming Unequal Variances]

Variable 1 Range: D2:D184

Variable 2 Range: D185:D421

Hypothesized Mean Difference: 0 Labels (không đánh dấu do không có dòng đầu là tên biến)

F-Test Two-Sample for Variances Variable 1 Variable 2

Mean 197.874 98.918 Variance 15936.803 5094.462 Observations 183 237 df 182 236 F 3.128 P(F<=f) one-tail 1.756E-16 F Critical one-tail 1.256

Page 64: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 64

Alpha: 0.05

Output Range: L60 Bảng 7.12

t-Test: Two-Sample Assuming Unequal Variances Variable 1 Variable 2

Mean 197.874 98.918 Variance 15936.803 5094.462 Observations 183 237 Hypothesized Mean Difference 0 df 270 t Stat 9.497 P(T<=t) one-tail 6.08E-19 t Critical one-tail 1.651 P(T<=t) two-tail 1.22E-18 t Critical two-tail 1.969

Ví dụ 7.10: Kiểm định chênh lệch hai trung bình bằng 100, khi biết hai phương sai khác nhau Bảng 7.13

t-Test: Two-Sample Assuming Unequal Variances Variable 1 Variable 2

Mean 197.874 98.918 Variance 15936.803 5094.462 Observations 183 237 Hypothesized Mean Difference 100 df 270 t Stat -0.100 P(T<=t) one-tail 0.460 t Critical one-tail 1.651 P(T<=t) two-tail 0.920 t Critical two-tail 1.969

Kiểm định hai trung bình khi hai phương sai bằng nhau Ví dụ 7.11: Trong trường hợp giả sử phương sai bằng nhau (không lấy kết quả kiểm định F ở trên), lựa chọn t-Test: Two-Sample Assuming Equal Variances, sẽ được kết quả sau: Bảng 7.14

t-Test: Two-Sample Assuming Equal Variances Variable 1 Variable 2

Mean 197.874 98.918 Variance 15936.803 5094.462 Observations 183 237 Pooled Variance 9815.290 Hypothesized Mean Difference 0

Page 65: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 65

df 418 t Stat 10.150 P(T<=t) one-tail 4.37E-22 t Critical one-tail 1.649 P(T<=t) two-tail 8.74E-22 t Critical two-tail 1.966

Hàm FTEST và TTEST Hàm FTEST cho P-value của cặp giả thuyết hai phía về hai phương sai. Đây là cách nhanh nhất để kiểm định hai phương sai có bằng nhau hay không. Thủ tục là: FTEST(mảng X, mảng Y).

Ví dụ 7.8 có thể thực hiện bởi hàm: = FTEST(D2:D184, D185,D421) = 3.51210-16 Đây chính là P-value của cặp giả thuyết hai phía. Với kết quả này bác bỏ giả thuyết cho rằng hai phương sai là bằng nhau. Hàm TTEST cho P-value của kiểm định so sánh hai trung bình với ba trường hợp và hai loại cặp giả thuyết, có dạng: TTEST(mảng X, mảng Y, tail, type) trong đó Tail = 1 nếu là cặp giả thuyết một phía, dạng > hay < tùy thuộc vào x và y

Tail = 2 nếu là cặp giả thuyết hai phía Type = 1 nếu là số liệu theo cặp

Type = 2 nếu số liệu độc lập và hai phương sai bằng nhau Type = 3 nếu số liệu độc lập và hai phương sai khác nhau

Ví dụ 7.6 ; 7.11 và 7.9 khi dùng TTEST cho kết quả sau Bảng 7.15

Trường hợp Cặp giả thuyết Hàm P-value

(1) VD7.6 Số liệu theo cặp

H0: TBĂn uống = TBKhác ăn uống H1: TBĂn uống > TBKhác ăn uống

= TTEST(F2:F421, G2:G421, 1, 1) 5.16E-85

H0: TBĂn uống = TBKhác ăn uống H1: TBĂn uống TBKhác ăn uống

= TTEST(F2:F421, G2:G421, 2, 1) 1.03E-84

(2) VD7.11 Phương sai bằng nhau

H0: TBTNTh.thị = TBTNN.thôn

H0: TBTNTh.thị > TBTNN.thôn = TTEST(D2:D184, D185:D421, 1, 2) 4.37E-22

H0: TBTNTh.thị = TBTNN.thôn

H0: TBTNTh.thị TBTNN.thôn = TTEST(D2:D184, D185:D421, 2, 2) 8.74E-22

(3) VD7.9 Phương sai khác nhau

H0: TBTNTh.thị = TBTNN.thôn

H0: TBTNTh.thị > TBTNN.thôn = TTEST(D2:D184, D185:D421, 1, 3) 6.05E-19

H0: TBTNTh.thị = TBTNN.thôn

H0: TBTNTh.thị TBTNN.thôn = TTEST(D2:D184, D185:D421, 2, 3) 1.21E-18

Page 66: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 66

Kiểm định hai tham số p

Excel không có sẵn chức năng kiểm định hai tham số p, tuy nhiên ta có thể tự tạo kiểm định và sử dụng chức năng trong Data Analysis để thực hiện. Ví dụ 7.12: Kiểm định giả thuyết: “Tỉ lệ hộ có từ 5 người trở lên ở Thành thị và Nông thôn là như nhau”. Sử dụng lệnh COUNTIF tính số hộ ở Thành thị và Nông thôn, và số hộ có từ 5 người trở lên ở hai khu vực. Thiết lập bảng Excel theo công thức. Bảng 7.16

Thống kê f = 0.30238, (1 )f f = 0.21095 và Uqs = –0.50045.

Với cả ba cặp giả thuyết, đều chưa có cơ sở bác bỏ H0, kết luận hai tỉ lệ ở Thành thị và Nông thôn là bằng nhau. Kiểm định hai tham số p theo t-Test

H0 : H1 Bác bỏ H0 khi P-value

Page 67: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 67

Như lập luận trong phần khoảng tin cậy của tham số p, nếu biến X và Y là biến 0–1 thì Xf x và

Yf y , và nếu số quan sát là đủ lớn thì 2pf s , suy ra

22 21 1(1 )

X Y

p p

X Y X Y

f f x yu ts sf f

n n n n

Đồng thời: ( 2)X Yn nt u , do đó kiểm định về hai tham số p cũng chính là kiểm định về hai trung

bình với giả định hai phương sai bằng nhau, trong điều kiện số quan sát là đủ lớn. Tạo biến 0-1, đặt tên là SN5 sao cho SN5 = 1 với hộ có Số người > 4 và SN5 = 0 với hộ có Số người 4. Với cột H, sử dụng hàm: = IF(ô tương ứng của Số người > 4, 1, 0), ví dụ với ô H2: = IF(C2 > 4, 1, 0), kéo đến ô H421. Bảng 7.17

Thực hiện kiểm định hai trung bình với giả định hai phương sai bằng nhau với hai mảng H2:H184 (ứng với Thành thị) và H185:H421 (ứng với Nông thôn), được kết quả: Bảng 7.18

t-Test: Two-Sample Assuming Equal Variances Variable 1 Variable 2

Mean 0.2896175 0.3122363 Variance 0.2068696 0.2156547 Observations 183 237 Pooled Variance 0.2118296 Hypothesized Mean Difference 0 df 418 t Stat -0.4994032 P(T<=t) one-tail 0.3088791 t Critical one-tail 1.6485071 P(T<=t) two-tail 0.6177581 t Critical two-tail 1.9656555

Dễ thấy Mean 1 = 0.2896175 = fThành thị và Mean 2 = 0.2122363 = fNông thôn, ;

Page 68: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 68

Giá trị 2ps = 0.2118296 không chênh lệch nhiều vói (1 )f f = 0.21095 và Tqs = –0.4994 cũng gần

bằng Uqs = –0.50045. Có thể thấy kiểm định U và T trong hai trường hợp gần như hoàn toàn tương đương.

Bài tập Bài 7.1. Với mức ý nghĩa 5%, kiểm định các giả thuyết sau và cho biết P-value:

(a) Chi tiêu trung bình bằng 100 (b) Chi tiêu trung bình bằng 120 (c) Chi cho ăn uống trung bình bằng 70 (d) Thu nhập bình quân trung bình bằng 40 (e) Chi tiêu bình quân trung bình bằng 20

Bài 7.2. Với mức ý nghĩa 5%, kiểm định các giả thuyết sau và cho biết P-value:

(a) Phương sai của Chi tiêu lớn hơn 5000 (b) Phương sai của Chi cho ăn uống nhỏ hơn 3000 (c) Phương sai của Chi tiêu bình quân là khác 1000

Bài 7.3. Với mức ý nghĩa 5%, kiểm định các giả thuyết sau và cho biết P-value:

(a) Tỉ lệ hộ có 4 người là 40% (b) Tỉ lệ hộ có Thu nhập trên 120 là 50% (c) Tỉ lệ hộ có Chi tiêu trên 25 là 30%

Bài 7.4. Sử dụng chức năng SORT trong DATA để sắp xếp các quan sát theo thứ tự tăng dần của Số người, và thực hiện các kiểm định với mức ý nghĩa 5%. Chỉ ra P-value của các kiểm định:

(a) So sánh phương sai và trung bình của Thu nhập của hộ có 3 người và có 4 người (b) So sánh phương sai và trung bình của Chi tiêu của hộ có 3 người và 4 người (c) So sánh phương sai và trung bình của Thu nhập bình quân của hộ có 3 người và 4 người

Bài 7.5. Kiểm định so sánh phương sai và trung bình của Chi tiêu, ứng với hai nhóm hộ gia đình có thu nhập dưới 200 và từ 200 trở lên, với mức ý nghĩa 5%. Bài 7.6. Kiểm định so sánh phương sai và trung bình của Chi tiêu bình quân với mức ý nghĩa 5%, giữa các nhóm sau:

(a) Hộ dưới 4 người và từ 4 người trở lên (b) Hộ có thu nhập bình quân dưới 30 và từ 30 trở lên (c) Hộ có 4 người ở Thành thị và ở Nông thôn

Page 69: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 69

8. KIỂM ĐỊNH PHI THAM SỐ 8.1. Kiểm định tính độc lập (Independentness test)

Kiểm định tính độc lập là một phần của kiểm định xem thực nghiệm có phù hợp với lý thuyết không, sử dụng kiểm định Khi-bình phương.

Hàm CHITEST cho P-value của kiểm định 2 khi đối chiếu tần số thực nghiệm và tần số lý thuyết. Quy cách của hàm là: = CHITEST(máng thực nghiệm, mảng lý thuyết) Sử dụng bảng tiếp liên (contingency table), tức là bảng tần số hai chiều của hai tiêu chí định tính.

Ví dụ 8.1: Kiểm định xem dấu hiệu định tính Số người (chia thành 3 nhóm) và Khu vực (2 nhóm) có độc lập với nhau không. Sử dụng Pivot table, được bảng sau: Bảng 8.1

Frequency Số người Khu vực 1-3 4-6 7-9 Grand Total Nông thôn 85 137 15 237 Thành thị 69 109 5 183 Grand Total 154 246 20 420

Đây chính là bảng tiếp liên của Khu vực và Số người. Lập bảng tần số lý thuyết (expected frequency) theo công thức:

Bảng tiếp liên của hai dấu hiệu A (gồm A1,…, Ak) và B (gồm B1,…, Bh) chứa các tần

số thực nghiệm nij, tổng theo hàng i là Ri, tổng theo cột j là Cj:

B1 B2 … Bh

A1 n11 n11 … n1h R1

A2 n21 n22 … n2h R2

… … … … … …

Ak nk1 nk2 … nkh Rk

C1 C2 … Ch n

H0: A, B độc lập

H1: A, B không độc lập

Tần số lý thuyết:

Nếu thì bác bỏ H0

P-value =

Page 70: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 70

Bảng 8.2

Với bảng tần số thực nghiệm Oi và tần số lý thuyết Ei, lập bảng tính các giá trị 2( ) /ij ij in E E rồi

tính tổng bằng hàm SUM. Có thể tính giá trị tới hạn mức 5% bằng hàm CHIINV(0.05, 2). Bậc tự do bằng 2 là do số hàng bằng 2, số cột bằng 3, nên bậc tự do = (2 – 1)(3 – 1) = 2. Và có thể tính P-value bằng hàm CHIDIST Bảng 8.3

Theo kết quả này, 2

qs = 2.955; 2(2)0,05 = 5.99 nên tại mức ý nghĩa 5% thì chưa bác bỏ H0. Có thể

cho rằng hai yếu tố là độc lập nhau. Với giá trị P-value bằng 0.228 lớn hơn 5%, cũng cho kết luận tương tự. Hàm CHITEST Hàm CHITEST tính P-value của kiểm định so sánh giữa tần số thực nghiệm và lý thuyết, để kiểm định xem hai yếu tố độc lập không: CHITEST(mảng thực nghiệm, mảng lý thuyết) Bảng 8.4

Page 71: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 71

Kết quả là 0.228. Kết quả này tương tự như ở trên. Với mức ý nghĩa 5% thì chưa bác bỏ H0, Số người và Khu vực độc lập với nhau.

8.2. Kiểm định quy luật lý thuyết

Về lý thuyết, kiểm định này hoàn toàn tương tự kiểm định trên bảng tiếp liên. Hay bảng tiếp liên chỉ là một trường hợp của kiểm định tổng quát này. Ví dụ 8.2: Kiểm định xem Số người trong hộ gia đình có phân phối theo quy luật Poisson hay không. Có bảng tần số thực nghiệm của số người trong hộ gia đình, với 420 hộ như sau: Bảng 8.5

Số người 1 2 3 4 5 6 7 8 9 Grand Total Frequency 22 54 78 139 74 33 12 4 4 420

Với giả thuyết

Kiểm định H0: Biến tuân theo quy luật Q H1: Biến không tuân theo quy luật Q Các quan sát chia thành k nhóm giá trị khác nhau với tần số thực nghiệm Oi Nếu theo quy luật Q, tần số lý thuyết là Ei

, nếu thì bác bỏ H0; P-value =

Page 72: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 72

H0: Biến Số người phân phối Poisson H1: Biến Số người không phân phối Poisson Nếu giả thuyết H0 là đúng, cần tính xác suất tương ứng và tần số lý thuyết tương ứng. Số liệu thực nghiệm chỉ cho giá trị từ 1 đến 9, hay tần số với X = 0 và X > 0 đều bằng 0. Tuy nhiên về lý thuyết, phân phối Poisson có thể nhận giá trị 0 và giá trị lớn hơn 9.

Phân phối Poisson cần có tham số là trung bình. Sử dụng trung bình mẫu là số người trung bình trong mẫu để tính: = 3.938 (dùng hàm AVERAGE). Ví số người trung bình là 3.938 (có thể dùng hàm: = AVERAGE để tính), tính xác suất số người bằng các giá trị 1, 2,…, 8 (tương ứng với ô I1, I2,…, I8) theo hàm: =POISSON(x, 2.938, 0). Riêng ô tương ứng số người bằng 9 thì dùng hàm = 1 – (tổng các ô trước đó) để đảm bảo tổng xác suất bằng 1.

Tiếp đó tính tần số lý thuyết = xác suất 420 Bảng 8.6

Sử dụng hàm: = CHITEST để tính P-value của kiểm định Bảng 8.7

P-value của kiểm định 2 là 310-11, bác bỏ H0, biến Số người không phân phối Poisson.

8.3. Kiểm định tính phân phối chuẩn (Normality test) Kiểm định Jacques-Berra

Page 73: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 73

Sử dụng hàm: = SKEW và hàm: =KURT để tính các giá trị Sk và K, sau đó thay vào công thức để tính JB và từ đó kết luận. Ví dụ 8.3: Kiểm định tính phân phối chuẩn của biến Chi tiêu. Xét riêng số liệu Chi tiêu đặt trong cột A, từ A1 đến A421. Bảng 8.7

JB = 775.2 > 2(2) 2(2)0.05 5.99 ; hoặc P-value = 4.5810-169 nên bác bỏ H0, biến Chi tiêu

không phân phối chuẩn. Với số liệu có chia khoảng (như trong phần vẽ đồ thị), cũng có thể dùng kiểm định 2 như trong mục 8.2 để đánh giá. Cách kiểm định phức tạp hơn, do đó không trình bày ở đây.

Bài tập Bài 8.1. Kiểm định tính phân phối chuẩn của các biến: Thu nhập bình quân, Chi tiêu bình quân, Tỉ lệ Chi tiêu / Thu nhập Bài 8.2. Kiểm định tính độc lập của hai dấu hiệu Thu nhập và Chi tiêu, khi chia hai biến này thành 3 nhóm và coi đó như dấu hiệu định tính.

Kiểm định H0: Biến tuân theo quy luật chuẩn H1: Biến không tuân theo quy luật chuẩn

nếu thì bác bỏ H0; P-value =

Page 74: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 74

9. PHÂN TÍCH PHƯƠNG SAI Phân tích phương sai (Analysis of Variance: ANOVA) là kỹ thuật kiểm định sự bằng nhau về trung bình của một biến định lượng trong các nhóm được phân chia bởi một hoặc hai biến định tính.

9.1. Phân tích phương sai một nhân tố (One-way ANOVA)

Ví dụ 9.1: Phân tích phương sai về Thu nhập/người (TNBQ) sử dụng số liệu của 40 hộ gia đình đầu tiên trong bộ số liệu VHLSS2012. Với 40 hộ này Số người từ 2 đến 6, chia thành 3 nhóm là Nhóm 2-3 người, nhóm 4 người, nhóm 5-6 người. Có số liệu như sau, nằm trong mảng từ A1 đến C16. Lưu ý số quan sát trong mỗi nhóm không cần bằng nhau. Bảng 9.1 A B C 1 Size 2-3 Size 4 Size 5-6 2 35.45 48.48 68.60 3 62.40 50.35 22.52 4 74.55 52.38 54.62 5 43.60 48.30 32.50 6 49.33 42.90 19.80 7 72.20 43.25 47.06 8 71.17 59.05 37.94 9 59.27 43.63 41.78

10 83.73 23.25 24.46 11 85.27 22.50 59.72

Bảng số liệu có một nhân tố B (gồm k nhóm B1,…, Bk)

và n quan sát của X nằm trong các nhóm đó.

Giả thiết: mỗi nhóm phân phối chuẩn và phương sai

bằng nhau

B1 B2 … Bk

x11 …

x21 …

xk1 …

Bảng ANOVA một nhân tố

Nguồn biến động SS df MS = SS / df F Nhân tố B (Giữa các nhóm) SSB k – 1

Yếu tố khác (Phần dư, sai số) SSR n – k

Tổng SST n – 1 H0: Trung bình của k nhóm bằng nhau (nhân tố B không tác động đến trung bình) H1: Ít nhất một cặp trung bình khác nhau (nhân tố B có tác động đến trung bình)

Nếu thì bác bỏ H0, P-value =

Page 75: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 75

12 40.77 61.63 50.00 13 61.90 44.65 35.97 14 56.95 76.52 15 51.15 16 54.48

DATA Data Analysis Anova: Single Factor [Anova: Single Factor]

Input Range: A1:C16

Group by: Columns

Label in first row

Alpha: 0.05

Output Range: E1 Bảng 9.2

Anova: Single Factor SUMMARY

Groups Count Sum Average Variance Size 2-3 12 739.633 61.636 274.551 Size 4 15 702.925 46.862 127.642 Size 5-6 13 571.483 43.960 311.251 ANOVA Source of Variation SS df MS F P-value F crit Between Groups 2241.817 2 1120.909 4.855 0.013 3.252 Within Groups 8542.061 37 230.867 Total 10783.878 39

Với giả thiết phân phối chuẩn và phương sai bằng nhau, kiểm định giả thuyết về tác động của nhân tố Số người (ở đây chỉ gồm ba nhóm) đến Trung bình của Thu nhập/người:

H0: Nhân tố Số người không tác động đến Trung bình của Thu nhập/người H1: Nhân tố Số người có tác động đến Trung bình của Thu nhập/người

Fqs = 4.855 > f = 3.252; hoặc P-value = 0.013 nên với mức ý nghĩa 5% bác bỏ H0, nhân tố Số người tác động đến trung bình của Thu nhập/người

9.2. Phân tích phương sai hai nhân tố không có tương tác (Two-way ANOVA without interaction)

Page 76: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 76

Ví dụ 9.2: Sử dụng Pivot table có bảng thống kê về Thu nhập/người như trong bảng 9.3, thực hiện phân tích phương sai để đánh giá xem nhân tố Khu vực và Số người có tác động đến trung bình của Thu nhập/người hay không. Bảng 9.3

A B C D E 1 Average of TNBQ Số người 2 Khu vực 1-3 4-6 7-9 Grand Total 3 Nông thôn 25.375 24.964 27.532 25.274 4 Thành thị 60.326 48.847 37.177 52.856 5 Grand Total 41.035 35.546 29.943 37.292

DATA Data Analysis Anova: Two-Factor Without Replication [Anova: Two-Factor Without Replication]

Hai nhân tố hàng A (gồm h nhóm A1,…, Ah) và

nhân tố cột B (gồm k nhóm B1,…, Bk).

Tại mỗi ô có một giá trị xij, nếu có nhiều hơn

một thì lấy trung bình cộng làm đại diện.

Tổng cộng n = hk quan sát

B1 B2 … Bk

A1 x11 x12 … x1k

A2 x21 x22 … x2k … … … … … Ah xh1 xh2 … xhk

Bảng ANOVA hai nhân tố không có tương tác

Nguồn SS df MS = SS / df F

Nhân tố hàng (A) SSA h – 1

Nhân tố cột (B) SSB k – 1

Yếu tố khác SSR (h – 1)(h – 1)

Tổng SST n – 1 = hk – 1 Với giả thiết phân phối chuẩn và phương sai bằng nhau trong mỗi nhóm H0: Nhân tố hàng (A) không tác động đến trung bình H1: Nhân tố hàng (A) có tác động đến trung bình

Nếu thì bác bỏ H0

H0: Nhân tố cột (B) không tác động đến trung bình H1: Nhân tố cột (B) có tác động đến trung bình

Nếu thì bác bỏ H0

Page 77: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 77

Input Range: A2:D4

Labels

Alpha: 0.05

Output Range: G1 Bảng 9.4

Anova: Two-Factor Without Replication SUMMARY Count Sum Average Variance

Nông thôn 3 77.870 25.957 1.903 Thành thị 3 146.349 48.783 133.972 1-3 2 85.701 42.850 610.769 4-6 2 73.810 36.905 285.204 7-9 2 64.708 32.354 46.512 ANOVA Source of Variation SS df MS F P-value F crit Rows 781.552 1 781.552 9.713 0.089 18.513 Columns 110.818 2 55.409 0.689 0.592 19.000 Error 160.932 2 80.466 Total 1053.302 5

Với giả thiết phân phối chuẩn và phương sai bằng nhau, kiểm định tác động của nhân tố Khu vực:

H0: Nhân tố Khu vực không tác động đến trung bình của Thu nhập/người H1: Nhân tố Khu vực có tác động

Fqs = 9.713 < f = f0.05 = 18.513; hoặc P-value = 0.089 nên với mức ý nghĩa 5% chưa có cơ sở bác bỏ H0, nhân tố Khu vực không tác động đến trung bình của Thu nhập/người Kiểm định tác động của nhân tố Số người:

H0: Nhân tố Số người không tác động đến trung bình của Thu nhập/người H1: Nhân tố Số người có tác động

Fqs = 0.689 < f = f0.05 = 19.0; hoặc P-value = 0.592 nên với mức ý nghĩa 5% chưa có cơ sở bác bỏ H0, nhân tố Số người không tác động đến trung bình của Thu nhập/người

9.3. Phân tích phương sai hai nhân tố có tương tác (Two-way ANOVA with interaction)

Page 78: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 78

Ví dụ 9.3: Với số liệu trong bảng 9.5 sau, tổng hợp nhờ Pivot table, tại mỗi nhóm lấy ba giá trị là Nhỏ nhất (min), Trung bình (average) và Lớn nhất (max) làm đại diện. Phân tích ANOVA hai nhân tố Khu vực và Số người có xét tương tác của hai nhân tố đó. Bảng 9.5

A B C D 1 TNBQ Số người 2 Khu vực 1-3 4-6 7-9 3 Nông thôn 5.50 6.10 13.61 4 25.38 24.96 27.53

Hai nhân tố hàng A (gồm h nhóm A1,…, Ah) và

nhân tố cột B (gồm k nhóm B1,…, Bk).

Tại mỗi ô có hơn một giá trị xijs, số lượng giá trị

tại mỗi ô bằng nhau và bằng m

Tổng cộng n = h k m quan sát

B1 B2 … Bk

A1

x111 …

x11m

x121 …

x12m

x1k1 …

x1km

… … … … …

Ah

xh11 …

xh1m

xh21 …

xh2m …

xhk1 …

xhkm

Bảng ANOVA hai nhân tố có tương tác

Nguồn SS df MS = SS / df F

Nhân tố hàng (A) SSA h – 1

Nhân tố cột (B) SSB k – 1

Tương tác A và B SSI (h – 1)(h – 1)

Yếu tố khác SSR n – hk

Tổng SST n – 1 = hk – 1 Với giả thiết phân phối chuẩn và phương sai bằng nhau trong mỗi nhóm H0: Nhân tố hàng (A) không tác động đến trung bình

Nếu thì bác bỏ H0

H0: Nhân tố cột (B) không tác động đến trung bình

Nếu thì bác bỏ H0

H0: Tương tác của A và B không tác động đến trung bình

Nếu thì bác bỏ H0

Page 79: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 79

5 70.10 105.05 64.07 6 Thành thị 10.30 7.58 26.57 7 60.33 48.85 37.18 8 260.83 109.13 52.28

Thực hiện như sau

DATA Data Analysis Anova: Two-Factor With Replication [Anova: Two-Factor With Replication]

Input Range: A2:D8

Row per sample: 3

Alpha: 0.05

Output Range: G1 Bảng 9.6

Anova: Two-Factor With Replication SUMMARY 1-3 4-6 7-9 Total

Nông thôn Count 3 3 3 9 Sum 100.975 136.114 105.217 342.306 Average 33.658 45.371 35.072 38.034 Variance 1094.749 2760.129 679.128 1164.158

Thành thị Count 3 3 3 9 Sum 331.459 165.547 116.023 613.029 Average 110.486 55.182 38.674 68.114 Variance 17578.810 2608.204 166.851 6149.468

Total Count 6 6 6 Sum 432.434 301.660 221.240 Average 72.072 50.277 36.873 Variance 9240.184 2176.210 342.284 ANOVA Source of Variation SS df MS F P-value F crit

Sample 4071.708 1 4071.708 0.982 0.341 4.747 Columns 3787.325 2 1893.662 0.457 0.644 3.885 Interaction 4945.938 2 2472.969 0.596 0.566 3.885 Within 49775.744 12 4147.979 Total 62580.714 17

Với cả ba cặp giả thuyết H0: Nhân tố Khu vực không tác động đến Trung bình của Thu nhập/người

Page 80: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 80

P-value kiểm định F bằng 0.341, chưa bác bỏ H0. H0: Nhân tố Số người không tác động đến Trung bình của Thu nhập/người P-value kiểm định F bằng 0.644, chưa bác bỏ H0. H0: Tương tác của Khu vực và Số người không tác động đến Trung bình của Thu nhập/người P-value kiểm định F bằng 0.566, chưa bác bỏ H0. Do đó có thể nói việc phân chia Thu nhập/người theo khu vực và Số người không mang ý nghĩa về mặt thống kê. *Lưu ý rằng cách phân chia nhóm Số người trong phân tích hai nhân tố ở mục 10.2 và 10.3 không giống cách phân chia số người trong phân tích một nhân tố đã làm ở mục 10.1, số quan sát cũng khác, do đó kết luận không giống nhau là điều có thể xảy ra.

Bài tập Bài 9.1. Với 40 quan sát đầu tiên, xét biến Thu nhập (a) Chia Số người thành ba nhóm tương tự ví dụ 9.1: nhóm 2-3, nhóm 4, nhóm 5-6 người, xét các mức Thu nhập của các hộ theo ba nhóm đó. (b) Thực hiện phân tích phương sai một nhân tố với số liệu trong câu (a). (c) Chia Số người thành năm nhóm: 2, 3, 4, 5, 6 người, xét các mức Thu nhập theo năm nhóm đó (d) Phân tích phương sai một nhân tố với số liệu trong câu (c)

Page 81: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 81

10. PHÂN TÍCH HỒI QUY Hồi quy tương quan là kỹ thuật phân tích mối liên hệ giữa các biến. Trong khi tương quan chỉ cho biết mức độ liên quan, chiều của sự liên quan, mà không cho biết đâu là nguyên nhân, đâu là kết quả, cũng như không phân tích mối quan hệ của nhiều biến, thì hồi quy cần xác định rõ mối liên hệ phụ thuộc, và có nhiều biến là nguyên nhân có thể xét cùng lúc. Phân tích hồi quy là kỹ thuật cơ bản của Kinh tế lượng.

10.1. Hồi quy đơn (single regression)

Ví dụ: Xét mối quan hệ hồi quy giữa Chi tiêu (CT) và Thu nhập (TN), trong đó Chi tiêu phụ thuộc vào thu nhập. Biến Chi tiêu trong các ô E1:E421, biến Thu nhập trong các ô D1:D421 Mô hình hồi quy có dạng

CT = 1 + 2TN + u Ước lượng trên mẫu là

CT = b1 + b2TN + e

(Hay: 1 2ˆ ˆCT TN e )

DATA Data Analysis Regression [Regression]

Input Y Range: E1:E421 Input X Range: D1:D421 Label Constant is Zero (không đánh dấu ô này, vì mô hình có hệ số chặn)

Confidence Level (không cần đánh ô này vì máy tự động có sẵn)

Output Range: J1 Bảng 10.1

SUMMARY OUTPUT Regression Statistics

Multiple R 0.816

Mối quan hệ hồi quy Y theo X có dạng: Y = 1 + 2X + u Trong mẫu có dạng : Y = b1 + b2X + e hay Ŷ = b1 + b2X

Với ,

Đo độ chính xác qua Se(b1), Se(b2), hệ số xác định R2, Sai số chuẩn , Tổng bình phương phần dư RSS.

Có các bài toán kiểm định T và ước lượng về hệ số 1 + 2.

Page 82: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 82

R Square 0.667 Adjusted R Square 0.665 Standard Error 51.389 Observations 240 ANOVA

df SS MS F Significance F Regression 1 1257041.9 1257042 476.011 1.05E-58 Residual 238 628506.8 2640.8 Total 239 1885548.7

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 24.904 5.985 4.161 0.000 13.115 36.694 Thu nhập 0.605 0.028 21.818 0.000 0.551 0.660

Theo kết quả này có thể viết hàm hồi quy mẫu

CTi = 24.904 + 0.605 TNi + ei Về trung bình, khi Thu nhập bằng 0 thì Chi tiêu bằng 24.9 hay tiêu dùng tự định bằng 24.9; khi Thu nhập tăng một đơn vị thì Chi tiêu tăng 0,6 đơn vị, hay khuynh hướng tiêu dùng cận biên bằng 0.6, do đó khuynh hướng tiết kiệm cận biên là 0.4. Mô hình giải thích được 67% sự biến động của Chi tiêu. Với mức ý nghĩa 5%, các kiểm định cho các kết luận sau:

- Hàm hồi quy phù hợp - Hệ số chặn có ý nghĩa thống kê - Hệ số góc có ý nghĩa thống kê

Với độ tin cậy 95%, khoảng tin cậy đối xứng của hệ số chặn là từ 13.1 đến 36.7; hay tiêu dùng tự định nằm trong khoảng (13.1 ; 36.7). Khoảng tin cậy của hệ số góc hay Khuynh hướng tiêu dùng cận biên nằm trong khoảng (0.55 ; 0.66).

10.2. Hồi quy bội (multiple regression) Xét mô hình hồi quy bội với Chi tiêu là biến phụ thuộc, biến độc lập là Thu nhập và Số người, thực hiện ước lượng như sau:

DATA Data Analysis Regression [Regression]

Input Y Range: E1:E421

Input X Range: C1:D421 Label Constant is Zero (không đánh dấu ô này, vì mô hình có hệ số chặn)

Confidence Level (không cần đánh ô này vì máy tự động có sẵn)

Output Range: J20

Page 83: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 83

Bảng 10.2 SUMMARY OUTPUT

Regression Statistics Multiple R 0.819 R Square 0.670 Adjusted R Square 0.667 Standard Error 51.228 Observations 240 ANOVA

df SS MS F Sig. F Regression 2 1263580.2 631790.1 240.743 8.36E-58 Residual 237 621968.5 2624.3 Total 239 1885548.7

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 13.322 9.457 1.409 0.160 -5.309 31.953 Số người 3.766 2.386 1.578 0.116 -0.934 8.467 Thu nhập 0.587 0.030 19.616 0.000 0.528 0.646

Kết quả ước lượng:

CTi = 13.322 + 3.766 SNi + 0.587 TNi + ei Theo kết quả này, xét về trung bình, khi số người tăng thêm 1 thì chi tiêu tăng 3.766 đơn vị ; khi Thu nhập tăng 1 đơn vị thì Chi tiêu tăng 0.587. Với mức ý nghĩa 5%, biến Số người không có ý nghĩa thống kê, biến Thu nhập có ý nghĩa thống kê. Với biến không có ý nghĩa thống kê, ước lượng khoảng vô nghĩa.

10.3. Xem phần dư, giá trị ước lượng biến phụ thuộc Khi muốn xem phần dư và giá trị ước lượng của biến phụ thuộc, thực hiện hoàn toàn tương tự, chỉ thêm hai đánh dấu ở lựa chọn Residual và Residual Plots

DATA Data Analysis Regression [Regression]

Input Y Range: E1:E421

Input X Range: C1:D421

Label Constant is Zero (không đánh dấu ô này, vì mô hình có hệ số chặn)

Confidence Level (không cần đánh ô này vì máy tự động có sẵn)

Output Range: J40

Residual Residual Plots

Page 84: HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC · PDF fileCác phân tích chéo, theo thời gian ... cách giữa các đối tượng là dấu ... Excel tự động tính một

Hướng dẫn thực hành Microsoft Excel – bổ trợ học phần Lý thuyết xác suất và Thống kê toán

www.mfe.edu.vn/buiduonghai - Bùi Dương Hải - Khoa Toán kinh tế - ĐHKTQD 84

Bảng 10.3 RESIDUAL OUTPUT

Observation Predicted Chi tiêu Residuals 1 96.062 64.038 2 224.193 76.807 3 87.890 228.410 4 106.237 31.063 5 134.689 42.211 6 59.328 44.972 7 139.126 -10.126 8 143.918 34.382 9 182.840 56.960

10 200.052 -30.952 … … …

Bảng kết quả phần dư cho thấy chênh lệch giữa giá trị thực tế của số liệu với giá trị ước lượng bởi đường hồi quy. Với hộ gia đình thứ nhất, mức chi tiêu thực thế cao hơn mức trung bình được tính toán bởi mô hình. Hộ gia đình thứ 7 có mức chi tiêu thực thế thấp hơn mức trung bình.