Upload
nguyen-pham
View
16
Download
4
Embed Size (px)
Citation preview
1
PHẦN II: THỐNG KÊ
--------------------------------------------------------------------------------
CHƯƠNG III -LÝ THUYẾT MẪU
III.1 KHÁI NIỆM VỀ THỐNG KÊ:
Thống kê là một nhánh của toán học liên quan đến việc thu thập, phân tích, diễn giải hay
giải thích và trình bày các dữ liệu. Một số lĩnh vực nghiên cứu sử dụng thống kê ứng dụng
nhiều đến mức mỗi ngành đã đưa ra môn học riêng, còn gọi là “thống kê ngành” như: thống
kê y học, vật lý thống kê, thống kê sinh học, thống kê dân số, thống kê xã hội, thống kê
trong giáo dục học, thống kê trong kinh doanh, kinh tế lượng, phân tích dữ liệu từ phân tích
hóa học, địa lý và hệ thống thông tin địa lý, thống kê độ tin cậy của công nghệ, thống kê
trong thể thao, thống kê bảo hiểm… Trong lĩnh vực xã hội, thống kê đóng vai trò quan
trọng là một công cụ cơ bản quan trọng trong việc nhận thức tình hình và hỗ trợ ra quyết
định.
Thống kê toán ( còn gọi là thống kê lý thuyết) là một nhánh của toán ứng dụng, sử dụng lý
thuyết và phân tích xác suất để nghiên cứu cơ sở lý thuyết của thống kê như các luật phân
phối.
Thống kê ứng dụng bao gồm thống kê mô tả và thống kê suy diễn. Thống kê mô tả được
dùng để tóm tắt dữ liệu, để mô tả mẫu nghiên cứu dưới dạng số hay đồ họa. Các công cụ
thường dùng nhất là trung bình cộng và độ lệch chuẩn. Các công cụ đồ họa bao gồm biểu đồ
và đồ thị. Thống kê suy diễn được dùng để mô hình hóa các kiểu biến thiên trong dữ liệu,
giải thích những biến thiên có vẻ ngẫu nhiên và rút ra kết luận về tổng thể nghiên cứu mà
chúng ta thường không có điều kiện để khảo sát hết.
Việc sử dụng bất kỳ phương pháp thống kê nào cũng chỉ đúng đắn khi tổng thể nghiên cứu
thỏa mãn những giả thiết toán học cần thiết của phương pháp. Việc sử dụng sai dữ liệu
thống kê có thể tạo ra những sai lầm nghiêm trọng trong việc mô tả và diễn giải. Bằng việc
chọn ( hoặc bác bỏ, hoặc thay đổi) một giá trị nào đó, hay việc bỏ đi các giá trị quan sát quá
lớn hoặc quá nhỏ cũng là một cách làm thay đổi kết quả; đôi khi những kết quả thú vị khi
nghiên cứu với mẫu nhỏ lại không còn đúng với mẫu lớn.
Tổng thể thống kê là tập hợp các phần tử thuộc hiện tượng nghiên cứu, cần được quan sát,
thu thập và phân tích theo một hoặc một số đặc trưng nào đó. Các phần tử tạo thành tổng thể
thống kê được gọi là đơn vị tổng thể.
Tài liệu tham khảo:
1. Hoàng Trọng, Chu Nguyễn Mộng Ngọc. Thống kê ứng dụng trong kinh tế- xã hội. NXB LĐ-XH-2011.
2. PGS.TS. Nguyễn Cao Văn, TS. Trần Thái Ninh. Giáo trình Lý thuyết xác suất và thống kê toán. NXB
ĐHKTQD-2008.
2
Mẫu là một số đơn vị được chọn ra từ tổng thể chung theo một phương pháp lấy mẫu nào
đó. Các đặc trưng mẫu được sử dụng để suy rộng ra các đặc trưng của tổng thể nói chung.
Đặc điểm thống kê (hay dấu hiệu nghiên cứu) là các tính chất quan trọng liên quan trực
tiếp đến nội dung nghiên cứu và khảo sát cần thu thập dữ liệu trên các đơn vị tổng thể. Đặc
điểm thống kê được chia làm 2 loại: đặc điểm thuộc tính và đặc điểm số lượng.
Khái quát quá trình nghiên cứu thống kê:
Xác định vấn đề nghiên cứu, mục tiêu, nội dung,
đối tượng nghiên cứu.
Xây dựng hệ thống các khái niệm, các chỉ tiêu thống kê.
Thu thập các dữ liệu thống kê.
Xử lý số liệu:
- Kiểm tra, chỉnh lý và sắp xếp số liệu.
- Phân tích thống kê sơ bộ.
- Phân tích thống kê thích hợp.
Phân tích và giải thích kết quả.
Báo cáo và truyền đạt kết quả nghiên cứu
Trong mô hình trên, hướng mũi tên từ trên xuống chỉ trình tự tiến hành các công đoạn của
quá trình nghiên cứu. Hướng mũi tên từ dưới lên biểu diễn các công đoạn cần phải kiểm tra
lại, bổ sung thông tin hay phải làm lại nếu chưa đạt yêu cầu.
III.2 MỘT SỐ ĐẶC TRƯNG CỦA TỔNG THỂ:
Số lượng N các phần tử của tổng thể gọi là kích thước tổng thể. Trong trường hợp kích
thước tổng thể quá lớn hay không thể biết được ta coi như kích thước tổng thể là vô hạn.
Để mô tả tổng thể theo một dấu hiệu nghiên cứu nào đó, người ta mô hình hóa dấu hiệu đó
bởi một biến ngẫu nhiên X, gọi là biến ngẫu nhiên gốc. Ta thường gặp các tham số đặc
trưng của tổng thể:
- Trung bình tổng thể: E(X). Trong tài liệu này ta quy ước dùng kí hiệu a hoặc để
biểu thị giá trị của E(X).
- Trung bình điều hòa:
3
VD: Một xí nghiệp có 2 phân xưởng cùng lắp ráp 1 loại sản phẩm. Phân xưởng thứ nhất
lắp ráp 1 sản phẩm hết 15 phút, phân xưởng thứ hai lắp ráp 1 sản phẩm hết 20 phút.
Nếu trong 1 ngày mỗi phân xưởng làm việc 8 giờ thì thời gian trung bình để lắp ráp 1
sản phẩm mh là bao nhiêu?
60 8 960
17,1460 8 60 8 56
15 20
hm
phút.
- Trung bình nhân:
VD: Trong khoảng thời gian 10 năm, tốc độ tăng giá trị sản lượng của một xí nghiệp
như sau: Có 5 năm tốc độ tăng so với năm trước là 110%; có 2 năm tốc độ tăng là
125% và có 3 năm tốc độ tăng là 115%. Tìm tốc độ tăng trưởng trung bình mg hàng
năm của xí nghiệp trong 10 năm đó.
5 2 210 (1,1) (1,25) (1,15)gm
Suy ra 1
ln 5ln(1,1) 2ln(1,25) 3ln(1,15)10
gm , và mg = 1,144 hay 114,4%.
- Phương sai tổng thể: D(X). Ta quy ước dùng kí hiệu 2 để biểu thị giá trị của D(X).
Khi đó độ lệch chuẩn của tổng thể D(X) được kí hiệu là .
- Tỉ lệ tổng thể: Nếu dấu hiệu nghiên cứu mang tính chất định tính thì người ta coi X
có phân phối không – một. Tỉ lệ tổng thể chính là xác suất lấy ngẫu nhiên một phần
tử thì phần tử đó mang dấu hiệu nghiên cứu. Quy ước kí hiệu tỉ lệ tổng thể là p.
III.3 MẪU NGẪU NHIÊN 1 CHIỀU:
III.3.1 TỔNG QUAN:
Trong thực tế, phương pháp nghiên cứu toàn bộ tổng thể chỉ áp dụng được với các tập hợp
có qui mô nhỏ, còn chủ yếu người ta áp dụng phương pháp nghiên cứu không toàn bộ, đặc
biệt là phương pháp chọn mẫu. Nếu mẫu được chọn ra một cách ngẫu nhiên và xử lý bằng
các phương pháp xác suất thì thu được kết luận một cách nhanh chóng, đỡ tốn kém mà vẫn
đảm bảo độ chính xác cần thiết.
Có 2 phương pháp để lấy một mẫu có n phần tử : lấy có hoàn lại và lấy không hoàn lại.
Nếu kích thước mẫu rất bé so với kích thước tổng thể thì hai phương pháp này được coi là
cho kết quả như nhau. Ta luôn giả định rằng các phần tử được lấy vào mẫu theo phương
thức có hoàn lại và mỗi phần tử của tổng thể đều được lấy vào mẫu với khả năng như nhau.
Mẫu ngẫu nhiên kích thước n là tập hợp của n biến ngẫu nhiên độc lập
X1 , X2 , .., Xn được thành lập từ biến ngẫu nhiên X của tổng thể nghiên cứu và có cùng
quy luật phân phối xác suất với X.
Kí hiệu của mẫu ngẫu nhiên kích thước n là : W = (X1 , X2 , .., Xn )
với E(Xi) = E(X) = a; D(Xi ) = D(X) = 2, i.
4
Việc thực hiện một phép thử đối với mẫu ngẫu nhiên W chính là thực hiện một phép thử
đối với mỗi thành phần Xi. Giả sử X1 nhận một giá trị cụ thể là x1; X2 nhận giá trị x2; …, Xn
nhận giá trị xn thì w = ( x1, x2 , .., xn ) tạo thành 1 giá trị cụ thể của mẫu ngẫu nhiên , hay
còn gọi là mẫu cụ thể.
Các phương pháp chọn mẫu :
Bao gồm mẫu giản đơn; mẫu hệ thống ; mẫu chùm; mẫu phân tổ; mẫu nhiều cấp.
(SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành)
Thang đo các giá trị mẫu :
Để biểu diễn các giá trị của dấu hiệu nghiên cứu trong tổng thể cũng như trong mẫu,
ta phải dùng các thang đo khác nhau nhằm mục đích lượng hóa dấu hiện nghiên cứu đó.
Trong kinh tế xã hội, các thang đo được sử dụng theo cấp độ từ thấp đến cao là : thang định
danh; thang thứ bậc; thang đo khoảng; thang đo tỉ lệ.
( SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành).
Các phương pháp mô tả số liệu mẫu :
Bao gồm bảng phân phối tần số thực nghiệm; bảng phân phối tần suất thực nghiệm;
hàm phân bố thực nghiệm; Một số loại đồ thị như đa giác đồ , đa giác tần số, đa giác tần
suất, biểu đồ tần số, biểu đồ tần suất …
Có rất nhiều phần mềm máy tính có chức năng thống kê được dùng để mô tả số liệu
mẫu như Excel, SPSS, MFIT , Stata….
( SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành).
III.3.2 MỘT SỐ ĐẶC TRƯNG CỦA MẪU:
Từ một mẫu ngẫu nhiên W= ( X1 , X2 , .., Xn ) thì chỉ có thể có một vài kết luận sơ bộ
và rời rạc về biến ngẫu nhiên gốc X của tổng thể, vì các giá trị Xi của mẫu có cùng phân
phối với X, song quy luật này thường chưa xác định được hoàn toàn. Nhưng nếu tổng hợp
các biến ngẫu nhiên này lại thì theo quy luật số lớn thì chúng sẽ bộc lộ những quy luật mới
làm cơ sở để nhận định về biến ngẫu nhiên gốc.
Việc tổng hợp mẫu W= ( X1 , X2 , .., Xn ) dưới dạng một hàm nào đó của các giá trị
X1 , X2 , .., Xn gọi là thống kê, và kí hiệu G = f( X1 , X2 , .., Xn ). Bản thân G cũng là một
biến ngẫu nhiên tuân theo một quy luật phân phối xác suất nhất định và có các tham số đặc
trưng. Đồng thời khi mẫu ngẫu nhiên nhận 1 giá trị cụ thể
w = ( x1, x2 , .., xn ) thì G cũng nhận một giá trị cụ thể là g = f( x1, x2 , .., xn ).
Mẫu ngẫu nhiên cụ thể w = ( x1, x2 , .., xn ) còn có thể được mô tả bởi bảng phân phối tần
số thực nghiệm:
Các giá trị của Xi x1 x2 … xk
Tần số tương ứng n1 n2 … nk và 1
k
i
i
n n
5
Một số thống kê đặc trưng mẫu thường dùng trong chương trình:
8
CÁC ĐẶC TRƯNG CỦA MẪU TỔNG QUÁT
CÁC ĐẶC TRƯNG CỦA MẪU CỤ THỂ
TRUNG BÌNH MẪU Trung bình mẫu:
hay
PHƯƠNG SAI MẪU Phương sai mẫu: Độ lệch mẫu:
hay
PHƯƠNG SAI MẪUHIỆU CHỈNH
Phương sai mẫu hiệu chỉnh: s2
Độ lệch mẫu hiệu chỉnh: s
hay
TỈ LỆ MẪU Tỉ lệ mẫu:
n
i
i=1
1X = X
n
n122
i
i=1
1S (X -X)
n
ct
n 22 2
i
i=1
1 nS = (X -X) = S
n-1 n-1
MF=
n
1
1 n
i
i
xxn
1
1 k
i i
i
n xxn
2
1
2 1( )
n
i
i
x xsn
2
1
2 22 21 k
i i
i
xs n x x xn
22
1
1( )
1
n
i
i
s x xn
22
1
ns
ns
m=
nf
2
s s
Hướng dẫn sử dụng MTBT tìm 1 số đặc trưng của BNN rời rạc:
HD Sử dụng MTBT tìm 1 số đặc trưng của BNN rời rạc:
Các bước thực
hiệnMáy CASIO fx 570 ES PLUS… Máy CASIO fx 500 MS….
Mở thêm cột
tần số
SHIFT – MODE (SETUP)- - 4 (STAT)- – 1 (ON)
Vào TK 1
biến.MODE -- 3 (STAT) -- 1 (1-VAR) MODE -- MODE --…-- 1 (SD)
Nhập dữ liệu
………..
Đọc kết quả
nSHIFT – 1 (STAT)- 4 (VAR) -- 1 (n ) -- = SHIFT – (S) - (n )
Đọc kết quả SHIFT – 1 (STAT)- 4 (VAR) -- 2 ( ) -- = SHIFT – 2 (SVAR) -1 ( )-- =
Đọc kết quả SHIFT – 1 (STAT)- 4 (VAR) - 3 ( ) -= SHIFT – 2 (SVAR)- 2 ( )-- =
Đọc kết quả
sSHIFT – 1 (STAT)- 4 (VAR) - 4 ( sx ) -= SHIFT – 2 (SVAR)- 3 ( )-- =
Kq trung gian SHIFT – 1 (STAT)- 3 (SUM) –2 ( ) = SHIFT – 1 (SSUM)- ( )--- =
SHIFT – 1 (STAT)- 3 (SUM) –1 ( )= SHIFT – 1 (SSUM)- ( )-- =
nxσ
x
s
x
σx
n-1xσ
1 1
k n
i i i
i i
x n x
2 2
1 1
k n
i i i
i i
x n x
x
2x
x
x
2x
6
III.3.3 QUY LUẬT PHÂN PHỐI XÁC SUẤT CỦA MỘT SỐ ĐẶC TRƯNG MẪU
1- Phaân phoái xaùc suaát cuûa tyû leä maãu
Vì E(F) = p vaø n
pqFD )( neân theo ñònh lyù 4.5 chöông 4 (xem giaùo trình
XS) thì vôùi n30 ta coù theå coi ),(~
n
pqpNF .
Vôùi moät maãu cuï theå kích thöôùc n, tyû leä maãu f, ta coù p f, neân:
))1(
,(~
n
ffpNF
hay
( )~ (0,1)
(1 )
F pN
f f
n
2- Phaân phoái xaùc suaát cuûa trung bình maãu
Vì n
XD aXD
2
)(,)(
neân neáu toång theå coù phaân phoái chuaån thì
),(~
2
n
aNX
hay )1,0(~ NnaX
Neáu n 30 thì vôùi moät maãu cuï theå kích thöôùc n ta coù 22
s
Do ñoù ),(~
2
n
saNX hay ~ (0,1)
X an N
s
trong ñoù s2 laø phöông sai maãu hieäu chænh cuûa moät maãu kích thöôùc n baát kyø.
Tröôøng hôïp n < 30, toång theå coù phaân phoái chuaån, ta coù
~ ( 1)X a
n T ns
3- Phaân phoái xaùc suaát cuûa phöông sai maãu
Neáu toång theå coù phaân phoái chuaån thì ta coù
22 2 2
2 2 21
1 1( ) ~ ( 1)
n
i
i
nS nS X X X n
7
CHƯƠNG IV - ƯỚC LƯỢNG CÁC THAM SỐ CỦA BNN
Giả thiết một dấu hiệu nghiên cứu trong tổng thể được xem như một biến ngẫu nhiên X
với quy luật phân phối xác suất đã biết nhưng chưa biết một tham số nào đó của nó. Phải
ước lượng ( xác định một cách gần đúng) giá trị tham số . Phương pháp mẫu cho phép
giải bài toán trên bằng quy nạp thống kê như sau: Từ tổng thể nghiên cứu rút ra 1 mẫu ngẫu
nhiên kích thước n và dựa vào đó xây dựng một thống kê θ = f( X1 , X2 , .., Xn ) dùng để
ước lượng bằng cách này hay cách khác, gọi là hàm ước lượng.
Có 2 phương pháp để ước lượng: ước lượng điểm và ước lượng bằng khoảng tin cậy.
IV.1 Phương pháp ước lượng điểm :
Phương pháp ước lượng điểm là phương pháp dùng một giá trị để thay thế cho tham số
chưa biết của tổng thể. Thông thường giá trị được chọn là một hàm ước lượng θ nào đó của
mẫu ngẫu nhiên. Có vô số hàm ước lượng θ khác nhau, vì vậy người ta đưa ra các tiêu
chuẩn để đánh giá chất lượng của các hàm này, để từ đó lựa chọn được hàm “xấp xỉ một
cách tốt nhất” tham số cần ước lượng.
Các tiêu chuẩn lựa chọn hàm ước lượng:
+ Ước lượng không chệch: θ là ước lượng không chệch của nếu E(θ ) = .
+ Ước lượng hiệu quả: θ là ước lượng hiệu quả của nếu nó là ước lượng không chệch
của và có phương sai nhỏ nhất so với các ước lượng không chệch khác được xây dựng
trên cùng mẫu đó.
+ Ước lượng vững: θ là ước lượng vững (hay ước lượng nhất quán) của nếu θ hội tụ
theo xác suất đến khi n ; tức là với mọi dương bé tùy ý thì ^
lim 1n
P
.
( + Ước lượng đủ: Một ước lượng θ được gọi là ước lượng đủ nếu nó chứa toàn bộ các
thông tin trong mẫu về tham số của ước lượng. Chẳng hạn trung bình mẫu và trung vị
đều là các hàm ước lượng không chệch của trung bình tổng thể, song trung bình mẫu là
ước lượng đủ còn trung vị mẫu lại không phải ước lượng đủ, vì nó chỉ dùng đến giá trị
chính giữa của dãy số liệu mẫu mà thôi. )
Phương pháp ước lượng hợp lý cực đại:
Có nhiều phương pháp ước lượng tổng quát như phương pháp moment, phương pháp Bayes,
phương pháp minimax,.., nhưng thông dụng nhất là phương pháp ước lượng hợp lý cực đại
(maximal likelyhood). Phương pháp này do Ronald Fisher đề ra, nó là một trong những
phương pháp quan trọng và hay dùng nhất để tìm hàm ước lượng.
8
Giả sử ta đã biết phân phối xác suất tổng quát của biến ngẫu nhiên gốc X dưới dạng hàm
mật độ f(x, ). Đó cũng có thể là biểu thức xác suất nếu X là biến ngẫu nhiên rời rạc. Để
ước lượng , ta lấy mẫu ngẫu nhiên (X1,X2,…,Xn) và lập hàm số:
L()= f(X1, ). f(X2, )….f(Xn, ).
Hàm L được gọi là hàm hợp lý của mẫu, nó phụ thuộc vào X1, X2,….,Xn và nhưng ta coi
X1, X2,….,Xn là các hằng số, còn được coi là biến số. Từ đó tìm hàm ước lượng θ phụ
thuộc vào X1, X2,….,Xn sao cho L() đạt GTLN tại θ .
Bảng 1- Tóm tắt một số hàm ước lượng tham số thông dụng:
Tham số
cần ước
lượng
Chọn thống kê θ để
ước lượng
E[θ ] D[θ ] Tính chất của ước
lượng
Tỉ lệ p
(xác suất)
F = m
n
E(F) =p
D(F)=
p(1-p)
n
Không chệch, vững,
hiệu quả; hợp lý cực
đại.
Kỳ vọng
= E(X)
n
i
i=1
1X = X
n E X =
2
D Xn
Không chệch, vững,
hiệu quả; hợp lý cực
đại.
Phương sai
2 = D(X)
n22
i
i=1
1S = (X -X)
n
2 n-1E S =
n
2
… Chệch, vững; hợp lý
cực đại.
n2 2
i
i=1
1S = (X -X)
n-1
2E S 2
… Không chệch, vững.
IV.2 Phương pháp ước lượng bằng khoảng tin cậy:
Nói chung mọi ước lượng đều có sai số. Một nhược điểm cơ bản của phương pháp
ước lượng điểm là khi kích thước mẫu chưa thực sự lớn thì ước lượng điểm tìm được có thể
sai lệch rất nhiều so với giá trị của tham số cần ước lượng. Mặt khác dùng các phương pháp
ước lượng điểm này không đánh giá được khả năng mắc sai lầm là bao nhiêu.
Khoảng ( G1, G2 ) của thống kê G được gọi là khoảng tin cậy (hay khoảng ước lượng)
của tham số nếu nó thỏa điều kiện P( G1 < < G2 ) = 1- với (1- ) cho trước. Khi đó
xác suất (1- ) được gọi là độ tin cậy của ước lượng, còn I = G2 - G1 gọi là độ dài khoảng
tin cậy (hay độ dài khoảng ước lượng) .
Nếu θ là một ước lượng không chệch của thì khoảng tin cậy của tham số có
dạng θ , θ được gọi là khoảng tin cậy đối xứng.
9
Phương pháp tìm khoảng tin cậy cho tham số với độ tin cậy 1- cho trước:
Trước tiên ta xây dựng hàm ước lượng G = f(X1 , X2 , .., Xn , ) sao cho quy luật phân phối
xác suất của G hoàn toàn xác định, không phụ thuộc vào các đối số. Chọn các giá trị không
âm 1, 2 sao cho 1 + 2 = và tìm G1 , G2 tương ứng mà P( G < G1) =1 và
P (G > G2 ) = 2. Từ đó suy ra P( G1 < G < G2) = 1 - . Biến đổi tương đương sẽ tìm
được các giá trị G1, G2 sao cho P(G1 < < G2 ) = 1- . Khi đó khoảng (G1, G2) chính là
một trong các khoảng tin cậy cần tìm.
Theo nguyên lý xác suất lớn thì với độ tin cậy (1 -) đủ lớn ta hầu như chắc chắn biến cố
(G1 < < G2 ) sẽ xảy ra trong một phép thử. Vì vậy trong thực tế chỉ cần thực hiện phép thử
để có được một mẫu cụ thể w = (x1, x2 , .., xn) rồi tính giá trị của G1 và G2 ứng với mẫu đã
cho.
Phương pháp ước lượng bằng khoảng tin cậy có ưu thế hơn phương pháp ước lượng điểm vì
nó làm tăng độ chính xác của ước lượng và còn đánh giá được mức độ tin cậy của ước
lượng. Nó chứa đựng khả năng mắc sai lầm là .
Ví dụ: Xét mẫu tổng quát có kích thước n ( đủ lớn) và tỉ lệ mẫu F.
Ký hiệu f là tỉ lệ của một mẫu cụ thể.
Tìm khoảng tin cậy đối xứng cho tỉ lệ tổng thể p với độ tin cậy 1-.
Theo một kết quả đã nêu ở mục 1. trong III.3.3 (Chương III), nếu đặt:
(1 )
F pG n
f f
thì G (0,1)N .
Chọn 1= 2 = /2 ;
Chọn z thỏa 1
( )2
z
(tra ngược bảng Phụ lục II)
thì P( - z < G < z ) = 1 -
P 1-α(1 )
F pz n z
f f
. (1 ) . (1 )
P 1-αz f f z f f
F pn n
. (1 ) . (1 )
P 1-αz f f z f f
F p Fn n
P 1-αF p F ;ở đây (1 )z f f
n
gọi là sai số của ước lượng.
Vậy khoảng ước lượng đối xứng cho p là (F-; F+). Độ dài khoảng ước lượng này là 2.
10
Với một mẫu cụ thể có tỉ lệ mẫu f, ta tìm được khoảng ước lượng cho p là (f-; f+) với độ
tin cậy 1-. Tuy nhiên lúc này ta lại không thể nói P( f-< p< f+) = 1-, vì đây là khoảng
cụ thể và p cũng là 1 số cụ thể (dù ta chưa biết) nên xác suất này chỉ có thể bằng không
hoặc bằng 1. Giả sử ta chọn độ tin cậy 1- = 95% thì có thể hiểu ý nghĩa của biểu thức
P 95%F p F như sau: Nếu chúng ta lấy rất nhiều mẫu cụ thể khác nhau
có cùng kích thước n thì có 95% số khoảng ước lượng tương ứng chứa p.
Tham khảo cách trình bày khác:
Từ kết quả trong Bảng 1, do F là ước lượng không chệch của p nên ta chọn hàm ước lượng
F để ước lượng cho tỉ lệ tổng thể p chưa biết.
Khoảng ước lượng đối xứng có dạng (F- , F +), vì thế ta sẽ phải tìm sao cho
P (F- < p < F +) = 1 - (1)
Từ (1) suy ra P ( - < F- p < ) = 1 - hay
P 1-α(1 ) (1 ) (1 )
F pn n n
f f f f f f
.
Đặt (1 )
z nf f
, bài toán dẫn đến tìm z để P 1-α
(1 )
F pz n z
f f
(2)
Do hàm (1 )
F pG n
f f
(0,1)N nên biểu thức (2) 1P z G z
2. ( ) 1z , dẫn đến 1
( ) .2
z
Tìm z bằng cách tra (ngược) bảng giá trị hàm tích phân Laplace (x) ở bảng Phụ lục II,
sau đó thay vào biểu thức tìm sẽ được công thức . (1 )z f f
n
.
Lưu ý:
* Có vô số khoảng ước lượng cho giá trị p của tổng thể tùy theo cách chọn 1, 2 sao cho
1 + 2= . Đối với bài toán ước lượng tỉ lệ như trên hay ước lượng trung bình ( tìm tương
tự) thì khoảng ước lượng này chính là khoảng ước lượng đối xứng và nó có độ dài ngắn
nhất. Đối với bài toán ước lượng phương sai nói chung (xem phần sau) thì khoảng ước
lượng tương ứng không là đối xứng.
* Với giả thiết từ bài toán trên, nếu ta chọn trước 1= 0 và 2 = thì ta thu được khoảng
ước lượng bên trái 2 (1 )
, Fz f f
n
hay 2 (1 )
0, Fz f f
n
với
2
1 2( )
2z
; Người ta nói 2 (1 )
Fz f f
n
là ước lượng giá trị tối đa của p .
11
* Nếu chọn 1= và 2= 0 thì ta thu được khoảng ƯL bên phải 2 (1 )
F ,z f f
n
hay 2 (1 )
F ,1z f f
n
, và ước lượng giá trị tối thiểu của p là 2 (1 )F
z f f
n
.
* Nếu độ tin cậy tăng thì z tăng, dẫn đến khoảng ước lượng rộng ra. Nếu ta muốn độ tin
cậy tăng nhưng khoảng ước lượng không tăng thì phải tăng kích thước mẫu.
Bảng 2: Tóm tắt kết quả một số bài toán ước lượng khoảng thông dụng trong phạm vi
chương trình.
Tham số cần
ước lượng
Phân bố của
tổng thể
Thông tin bổ sung Khoảng tin cậy
Tỉ lệ p
(xác suất)
Nhị thức
B(1, p)
Mẫu lớn ( n 30 )
α
(1 )F ± z .
f f
n
Trung bình
a
Bất kỳ Mẫu lớn
( n 30 ) α
SX ± z .
n
Chuẩn N(a,2)
2
đã biết α
σX ± z .
n
Chuẩn N(a,2)
2
chưa biết
Mẫu nhỏ ( n < 30 ) S
X ± T .n
Phương sai
2
Chuẩn N(a,2)
a chưa biết 2 2
2 2
12 2
( 1) ( 1)
( 1) ( 1),
n n
n s n s
a đã biết 2 2 2 2
1 1
2 2
12 2
( 1) ( 1)
. .
,
n n
i i
i i
n n
X n a X n a
Hướng dẫn lời giải chi tiết để tìm các khoảng ước lượng từ một mẫu cụ thể :
1. Ước lượng khoảng cho tỉ lệ tổng thể p trong trường hợp mẫu đủ lớn:
- Xác định kích thước mẫu n, tỉ lệ mẫu f.
- Từ độ tin cậy 1- , tìm giá trị z thỏa 1
( )2
z
.
12
- Tìm (sai số của ƯL, hay độ chính xác của ƯL) từ công thức: (1 )z f f
n
.
- Suy ra khoảng ước lượng cho p : ( f - ; f+ )
2. Ước lượng khoảng cho trung bình tổng thể a :
a) Trường hợp n ≥ 30 , chưa biết phương sai tổng thể 2:
- Xác định kích thước mẫu n , trung bình mẫu x ; độ lệch mẫu hiệu chỉnh s.
- Từ độ tin cậy 1- , tìm giá trị z thỏa 1
( )2
z
- Tìm từ công thức : .z s
n
- Suy ra khoảng ước lượng cho a : ( x - ; x + )
b) Trường hợp tổng thể có phân phối chuẩn, đã biết phương sai tổng thể 2 :
Tương tự trường hợp a) , chỉ cần thay .z
n
c) Trường hợp tổng thể có phân phối chuẩn, chưa biết phương sai 2 , n < 30:
- Xác định kích thước mẫu n , trung bình mẫu x ; độ lệch mẫu hiệu chỉnh s.
- Từ độ tin cậy 1- , tìm giá trị T trong bảng phân phối Student ở phần Phụ lục.
Nếu dùng bảng P(T< Tk ) = 1- hay bảng P(T > T
k ) = thì ta tra giá trị
T = ( 1)
2
nt
nằm ở dòng thứ n-1, cột 2
. Còn với bảng P(T< T
k ) = 1- thì tra
( 1)T nt
ở dòng n-1 và cột .
- Tìm từ công thức : .T s
n
- Suy ra khoảng ước lượng cho a : ( x - ; x + )
3. Ước lượng khoảng cho phương sai tổng thể 2
Trường hợp chưa biết trung bình tổng thể
- Xác định kích thước mẫu n, phương sai mẫu hiệu chỉnh s2.
- Từ độ tin cậy 1- , tra bảng phân phối Khi bình phương ở phần Phụ lục để tìm các
giá trị 2 ( 1)
2
n
và 2 ( 1)
12
n
. (Lưu ý đây là bảng P(
2 >
2,n ) = ).
- Suy ra khoảng ước lượng cho 2 :
2 2
2 ( 1) 2 ( 1)
12 2
( 1) ( 1),
n n
n s n s
13
4. Một số bài toán ƯL khác: UL hiệu 2 kỳ vọng toán, ƯL hiệu 2 tỉ lệ; ƯL tỉ lệ của 2
phương sai: tự tham khảo.
Một số bài toán mở rộng:
1) Bài toán xác định cỡ mẫu n khi đã biết sai số của UL là và độ tin cậy 1- .
2) Bài toán xác định độ tin cậy khi đã biết sai số của UL là và cỡ mẫu n .
Yêu cầu SV tự tìm lời giải từ các công thức tương ứng .
BÀI TẬP CHƯƠNG IV
1. Bằng khoảng tin cậy đối xứng, hãy ước lượng tỉ lệ nảy mầm của 1 loại hạt giống với
độ tin cậy 0,99 trên cơ sở gieo 1000 hạt thì có 140 hạt không nảy mầm. Hãy ước
lượng tỉ lệ tối thiểu và tối đa của tỉ lệ hạt nảy mầm.
2. Trong đợt vận động bầu cử ở một bang có khoảng 4 triệu cử tri, người ta phỏng vấn
1600 cử tri thì có 960 cử tri ủng hộ ứng cử viên A. Với độ tin cậy 98% , hãy dự đoán
xem ứng cử viên A có khoảng bao nhiêu phiếu ủng hộ ở bang này?
3. Để điều tra số cá trong một hồ, cơ quan quản lý đánh bắt 300 con, làm dấu rồi thả
xuống hồ. Lần sau người ta bắt ngẫu nhiên 400 con thì thấy có 60 con đã được đánh
dấu. Hãy xác định số cá trong hồ với độ tin cậy 96%.
4. Hao phí nguyên liệu cho một đơn vị sản phẩm là một đại lượng ngẫu nhiên tuân theo
quy luật chuẩn với độ lệch chuẩn = 0,03 . Người ta sản xuất thử 36 sản phẩm và thu
được bảng số liệu sau:
Mức hao phí nguyên liệu (gram) 19,5–19,7 19,7–19,9 19,9-20,1 20,1-20,3 ni 6 8 18 4
a) Với độ tin cậy 95%, hãy tìm khoảng tin cậy của mức hao phí nguyên liệu trung
bình cho một đơn vị sản phẩm.
b) Nếu muốn độ dài khoảng tin cậy là 0,01 thì cần sản xuất thêm bao nhiêu sản phẩm
nữa?
5. Để xác định giá trung bình của một loại hàng hóa trên thị trường, người ta điều tra
ngẫu nhiên 100 cửa hàng và thu được số liệu:
Giá (nghìn đồng) 83 84 85 86 87 88 89 90 Số cửa hàng 6 7 12 15 30 10 10 10
a) Hãy tìm khoảng tin cậy cho giá trung bình của loại hàng hóa trên tại thời điểm
đang xét với độ tin cậy 97% .
b) Nếu muốn sai số của ước lượng không vượt quá 300 đồng và độ tin cậy của ước
lượng là 99% thì cần phải điều tra thêm ít nhất bao nhiêu cửa hàng?
6. Người ta xếp cứ 100 trái ổi vào một thùng, có rất nhiều thùng như thế. Kiểm tra ngẫu
nhiên 50 thùng thấy có 450 trái ổi không đạt tiêu chuẩn.
a) Hãy ước lượng tỉ lệ trái ổi không đạt tiêu chuẩn với độ tin cậy 95%.
b) Nếu ta ước lượng tỉ lệ trái ổi không đạt tiêu chuẩn với độ chính xác 0,5% thì độ tin
cậy của ước lượng là bao nhiêu?
14
c) Muốn ước lượng tỉ lệ trái ổi không đạt tiêu chuẩn với độ tin cậy 99,7% thì độ
chính xác đạt được là bao nhiêu?
7. Biết rằng thời gian thi công một chi tiết máy tuân theo quy luật phân phối chuẩn. Để
định mức thời gian gia công một chi tiết máy, người ta theo dõi ngẫu nhiên quá trình
thi công của 25 chi tiết và có được số liệu ở bảng sau:
Thời gian gia công (phút) 15-17 17-19 19-21 21-23 23-25 25-27 Số chi tiết máy tương ứng 1 3 4 12 3 2
a) Hãy tìm khoảng ước lượng cho thời gian gia công trung bình một chi tiết máy với độ
tin cậy 0,95.
b) Hãy tìm khoảng ước lượng cho phương sai với độ tin cậy 0,95.
8. Để ước lượng doanh thu của 1 công ty gồm 380 cửa hàng trên toàn quốc trong 1 tháng,
người ta chọn ngẫu nhiên 10% số cửa hàng và có bảng thống kê doanh thu trong 1 tháng
như sau:
Doanh thu (triệu đồng / tháng) 20 40 60 80 Số cửa hàng 8 16 12 2
a) Với độ tin cậy 97%, hãy ước lượng doanh thu trung bình của mỗi cửa hàng và doanh
thu trung bình của công ty trong 1 tháng.
b) Nếu muốn có sai số của ước lượng doanh thu trung bình của mỗi cửa hàng trong 1
tháng là ba triệu đồng thì độ tin cậy của khoảng ước lượng khi đó là bao nhiêu?
9. Để nghiên cứu nhu cầu về loại hàng A ở một khu vực người ta tiến hành khảo sát 400
trong toàn bộ 4000 gia đình, được kết quả:
Nhu cầu (kg/tháng) 0–1 1–2 2–3 3–4 4–5 5–6 6–7 7–8 Số gia đình 10 35 86 132 78 31 18 10
a) Ước lượng nhu cầu trung bình loại hàng A của khu vực trên trong 1 năm với độ tin
cậy 95%.
b) Muốn có ước lượng trên với độ chính xác 4,8 tấn và độ tin cậy 95% thì cần khảo sát
tối thiểu bao nhiêu gia đình trong khu vực?
10. Để nghiên cứu độ ổn định của 1 loại máy tiện người ta đo ngẫu nhiên đường kính (có
phân phối chuẩn và đơn vị là mm) 24 trục máy do loại máy tiện này làm ra thì có kết
quả dưới đây . Với độ tin cậy 96 %, hãy ước lượng đường kính trung bình và độ phân tán
của đường kính trục máy.
24,1; 27,2; 26,7; 23,6; 24,6; 24,5; 26,4; 26,1; 25,8; 27,3; 23,2; 26,9
27,1; 25,4; 23,3; 25,9; 22,7; 26,9; 24,8; 24,0; 23,4; 23,0; 24,3; 25,4
11. Người ta muốn ước lượng tỉ lệ phế phẩm trong một lô hàng mới nhập về với độ tin cậy
99% và sai số không vượt quá 3%. Hãy cho biết để thỏa yêu cầu đó người ta phải kiểm
tra ít nhất bao nhiêu sản phẩm với mỗi giả thiết sau:
a) Chưa có một thông tin gì liên quan đến tỉ lệ phế phẩm của lô hàng;
b) Người ta đã lấy một mẫu sơ bộ thì thấy tỉ lệ phế phẩm trong mẫu này là 20%.
15
CHƯƠNG V KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
V.1 Một số khái niệm:
- Giả thiết thống kê là giả thiết về dạng phân phối xác suất của biến ngẫu nhiên, về giả
thiết các tham số đặc trưng của biến ngẫu nhiên, hay về tính độc lập của các biến ngẫu
nhiên. Người ta thường dựa vào các cơ sở nào đó để đưa ra giả thiết thống kê, được kí hiệu
là H0 và gọi là giả thiết gốc. Một mệnh đề mâu thuẫn với H0 luôn được đi kèm với H0, gọi
là giả thiết đối, kí hiệu H1.
VD : H0 : Nhu cầu của thị trường về mặt hàng A tuân theo quy luật phân phối chuẩn.
H1 : Nhu cầu của thị trường về mặt hàng A không tuân theo luật phân phối chuẩn.
VD: H0 : p = p0 ( Tỉ lệ phế phẩm do máy sản xuất là p0 ).
H1 : p p0 ( nếu là bài toán kiểm định 2 phía );
hay H1 : p < p0 ( nếu là bài toán kiểm định bên trái );
hay H1 : p > p0 ( nếu là bài toán kiểm định bên phải ).
- Đối với những bài toán kiểm định tham số, trong phạm vi chương trình ta giới hạn chỉ
xét bài toán kiểm định 2 phía. Vì các giả thiết thống kê có thể đúng, có thể sai nên cần phải
kiểm định, tức là xem có thể thừa nhận hay không thừa nhận giá trị đó. Việc kiểm định này
dựa vào thông tin thực nghiệm của mẫu để kết luận nên có tên gọi là kiểm định thống kê.
- Phương pháp chung để kiểm định một giả thiết thống kê như sau : Trước hết, ta giả
thiết H0 là đúng. Từ thông tin của mẫu tìm được một biến cố A nào đó sao cho xác suất xảy
ra biến cố A bằng nhỏ đến mức có thể sử dụng nguyên lý xác suất nhỏ, tức là coi A không
xảy ra trong một phép thử về biến cố này. Lúc đó trên một mẫu cụ thể thực hiện một phép
thử với biến cố A. Nếu A xảy ra thì điều đó coi như vô lý, dẫn đến kết luận H0 sai, còn nếu
A không xảy ra thì ta chưa có cơ sở để bác bỏ H0.
- Từ biến ngẫu nhiên X trong tổng thể, lấy mẫu ngẫu nhiên W= ( X1, X2, .., Xn ) và chọn
thống kê G = f( X1 , X2 , .., Xn , 0), trong đó 0 là tham số liên quan đến giả thiết cần kiểm
định. Điều kiện đặt ra với thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G
phải hoàn toàn xác định. Thống kê G được gọi là tiêu chuẩn kiểm định.
- Miền W gọi là miền bác bỏ giả thiết nếu P( G W / H0 đúng) = . là một số khá
bé, thường không quá 0,05 và gọi là mức ý nghĩa của kiểm định. Có vô số miền W như
vậy.
- Quy tắc kiểm định : Từ thực nghiệm ta thu được mẫu cụ thể , qua đó tính được một giá trị
cụ thể của tiêu chuẩn kiểm định là gqs =f(x1 , x2 , .., xn , ) .
Nếu gqs W thì bác bỏ giả thiết H0 , thừa nhận giả thiết H1 .
Nếu gqs W : ta chưa đủ dữ liệu khẳng định H0 sai , do đó phải chấp nhận H0.
16
- Sai lầm loại I: Bác bỏ giả thiết H0 trong khi H0 đúng. Xác suất mắc phải sai lầm này
nếu H0 đúng chính bằng mức ý nghĩa . Nguyên nhân mắc phải sai lầm loại I thường có thể
do kích thước mẫu quá nhỏ, có thể do phương pháp lấy mẫu …
- Sai lầm loại II: Thừa nhận H0 trong khi H0 sai, tức là mặc dù H1 đúng nhưng giá trị
quan sát f(x1 , x2 , .., xn , ) không thuộc vào miền bác bỏ W.
Ta xét mối quan hệ sau giữa việc kiểm định giả thiết và các loại sai lầm:
Tình huống
Quyết định
H0 đúng H0 sai
Bác bỏ H0 Sai lầm loại I. Xác suất = Quyết định đúng.
Không bác bỏ H0 Quyết định đúng. Sai lầm loại II. Xác suất =
Ví dụ tham khảo:
Xét bài toán kiểm tra chất lượng sản phẩm giữa nhà sản xuất (hay nhà cung cấp, là
bên bán) và bên mua hàng. Giả thiết kiểm định là lô hàng đạt yêu cầu (với 1 tỉ lệ phế
phẩm nằm trong mức cho phép giữa 2 bên) . Giả thiết đối là lô hàng không đạt yêu cầu.
Khi chưa có sự hiểu biết giữa 2 bên, người tiêu dùng thường kiểm tra tất cả 100%
lô hàng, khi đó xác suất mắc sai lầm loại I và II coi như bằng 0. Khi nhà sản xuất đã có
uy tín nhất định, bên mua chỉ kiểm tra ngẫu nhiên một mẫu nào đó từ lô hàng. Nếu mẫu
đó đạt yêu cầu thì bên mua nhận toàn bộ lô hàng, ngược lại nếu mẫu đó không đạt yêu
cầu thì lô hàng đó bị hoàn trả. Lúc này chính là mức độ rủi ro cho nhà sản xuất, là
mức độ rủi ro cho người mua. càng nhỏ thì nhà cung cấp càng có lợi, càng nhỏ thì
người mua càng có lợi. Thông thường hai bên thỏa thuận trước với nhau mức ý nghĩa
dựa trên điều hòa lợi ích hai bên. Tuy nhiên không thể tăng lên quá mức vì sẽ dẫn đến
một sự nỗ lực quá lớn của nhà sản xuất.
Với một mẫu xác định, khi ta giảm đi thì đồng thời sẽ làm tăng và ngược lại. Ta
chỉ có thể cùng giảm xác suất mắc cả 2 loại sai lầm nói trên nếu tăng kích thước mẫu.
Người ta thường có xu hướng coi trọng xác suất mắc sai lầm loại I nên sẽ hạn chế trước
giá trị tùy vào bài toán cụ thể, và sau đó phải tìm miền bác bỏ W sao cho xác suất
mắc sai lầm loại II là nhỏ nhất. Miền W thỏa yêu cầu này được gọi là miền bác bỏ tốt
nhất dựa trên các cơ sở toán học chặt chẽ.
V.2 BÀI TOÁN KIỂM ĐỊNH THAM SỐ:
V.2.1 Kiểm định tỉ lệ:
Bài toán minh họa :
Để dễ hình dung, chúng ta trình bày quá trình kiểm định tỉ lệ tổng thể:
Giả sử ta chưa biết tỉ lệ tổng thể p, nhưng có cơ sở để đặt giả thiết H0: “ p = p0”.
* Xét bài toán kiểm định hai phía, tức là sử dụng giả thiết đối H1: “ p p0”.
17
Lập một mẫu có kích thước n , tỉ lệ mẫu F.
Nếu giả thiết H0 đúng thì theo các kết quả lý thuyết ở chương trước,
thống kê 0
0 0
(0,1)(1 )
F pZ n N
p p
.
Từ kết quả lý thuyết, miền bác bỏ tốt nhất chính là miền bác bỏ 2 phía W :
( , ) ( , )W z z sao cho P( Z W) = .
Vì Z N(0,1) nên P ( Z W ) = 1- P( Z< z ) = 1-
2 ( z) = 1 - ( z) = 1
2
.
Từ một mẫu ngẫu nhiên , ta tính được Zqs.
Nếu Zqs W thì bác bỏ giả thiết H0, công nhận giả thiết H1.
Nếu Zqs W thì ta vẫn phải thừa nhận H0.
* Đối với bài toán kiểm định bên trái, sử dụng giả thiết đối H1: “ p < p0”.
Thống kê Z được xây dựng như trên.
Miền bác bỏ “tốt nhất” trong bài toán này lại là miền bác bỏ bên trái ( , )W x
sao cho P(Z W) = .
Vì Z N(0,1) nên P ( x < Z < 0 ) = 1 1 2
2 2
(- x) =
1 2
2
.
Để dễ nhớ, ta kí hiệu cho x = - z2 .
Do đó 2( , )W z với (z2) = 1 2
2
.
* Đối với bài toán kiểm định bên phải, sử dụng giả thiết đối H1: “ p > p0”.
Tương tự ta có được miền bác bỏ tốt nhất là miền bên phải 2( , )W z
với (z2) = 1 2
2
.
Hướng dẫn chi tiết bài toán kiểm định đối với mẫu cụ thể.
A. Bài toán kiểm định tỉ lệ tổng thể :
Giả sử tổng thể có tỉ lệ p chưa biết. Mẫu có kích thước n ( n 30), tỉ lệ mẫu f.
Hãy kiểm định giả thiết H0 : “ p = p0 ” với giả thiết đối H1 và mức ý nghĩa .
Các bước giải:
B1: Đặt giả thiết kiểm định (KĐ) : H0 : “ p = p0 ” và giả thiết đối H1.
+ Nếu là bài toán KĐ 2 phía: H1: “ p p0 ”.
+ Nếu là bài toán KĐ bên trái: H1: “ p < p0 ”.
+ Nếu là bài toán KĐ bên phải: H1: “ p > p0 ”.
Tính các tham số đặc trưng của mẫu ( nếu còn thiếu ).
B2: + Nếu là bài toán KĐ 2 phía: Từ hệ thức 1
( )2
z
suy ra giá trị z.
18
Miền bác bỏ: ( , ) ( , )W z z
+ Nếu là bài toán KĐ bên trái: Từ hệ thức2
1 2( )
2z
suy ra giá trị z2.
Miền bác bỏ: 2( , )W z
+ Nếu là bài toán KĐ bên phải:Từ hệ thức2
1 2( )
2z
suy ra giá trị z2.
Miền bác bỏ: 2( , )W z
B3: Tính giá trị 0
0 0(1 )qs
f pz n
p p
B4: Kết luận : Nếu zqs W thì chấp nhận H0 .
Nếu zqs W thì bác bỏ H0, chấp nhận H1.
Lưu ý: Nếu chỉ xét bài toán KĐ 2 phía, ta còn có cách trình bày khác:
B1: Đặt giả thiết KĐ: H0 : “ p = p0 ” và giả thiết đối H1: “ p p0 ”.
B2: Từ hệ thức 1
( )2
z
suy ra giá trị z.
B3: Tính giá trị 0
0 0(1 )qs
f pZ n
p p
B4: Kết luận : Nếu Zqs z thì chấp nhận H0.
Nếu Zqs > z thì bác bỏ H0, chấp nhận H1.
B. Bài toán kiểm định so sánh tỉ lệ hai tổng thể :
Giả sử tổng thể I có tỉ lệ p1 chưa biết , tổng thể II có tỉ lệ p2 chưa biết.
Từ tổng thể I lấy một mẫu có kích thước n1, tỉ lệ mẫu f1.
Từ tổng thể II lấy một mẫu có kích thước n2, tỉ lệ mẫu f2. ( n1, n2 30)
Hãy kiểm định giả thiết H0: “ p1 = p2 ” với giả thiết đối H1 và mức ý nghĩa .
Các bước tiến hành cho bài toán KĐ hai phía:
B1: Đặt giả thiết kiểm định H0: “p1 = p2 ” và giả thiết đối H1: “ p1 p2 ”.
B2: Từ hệ thức 1
( )2
z
suy ra giá trị z .
Miền bác bỏ tương ứng Wα = (-, -zα) (zα, +)
B3: Tính giá trị 1 2 1 1 2 2*
1 2
* *
1 2
;1 1
(1 )
qs
f f n f n fz p
n np p
n n
B4: Kết luận: Nếu zqs W thì chấp nhận H0 .
Nếu zqs W thì bác bỏ H0, chấp nhận H1.
Lưu ý: Riêng bài toán kiểm định so sánh 2 tỉ lệ, người ta còn có cách làm khác là gọi là
kiểm định Chi-bình-phương, xem thêm ở mục Kiểm định tính độc lập, phần sau.
19
Bảng 3: Tóm tắt các kết quả bài toán kiểm định tỉ lệ (hay gọi bài toán kiểm định
xác suất p):
Giả
thiết
KĐ H0
Giả
thiết đối
H1
Tiêu chuẩn kiểm định
Miền bác bỏ H0 với mức ý
nghĩa
BT
1 mẫu
Mẫu
lớn
p = p0
p p0 0
0 0(1 )qs
F pZ n
p p
Wα = (-, -zα) (zα, +)
p < p0 Wα = (-, -z2α)
p > p0 Wα = (z2α, +)
BT
2 mẫu
Mẫu
lớn
p1 = p2
p1 p2 1 2
1 2
;1 1
(1 )
qs
F FZ
p pn n
1 1 2 2
1 2
n F n Fp
n n
Wα = (-, -zα) (zα, +)
p1 < p2 Wα = (-, -z2α)
p1 > p2 Wα = (z2α, +)
V.2.2 Kiểm định trung bình:
A. Bài toán kiểm định trung bình tổng thể:
Giả sử tổng thể có trung bình a chưa biết.
Mẫu có kích thước n, trung bình mẫu X , phương sai (PS) mẫu hiệu chỉnh S2.
Xét ví dụ bài toán kiểm định giả thiết H0: “a = a0” với giả thiết đối H1: “a a0”
và mức ý nghĩa . Đối với các trường hợp H1 còn lại, SV xem trong bảng tóm tắt.
a) Trường hợp n 30, không biết phương sai tổng thể 2 :
B1: Đặt giả thiết kiểm định H0: “a = a 0” và giả thiết đối H1: “a a 0 ”.
Tính các tham số đặc trưng của mẫu ( nếu còn thiếu ).
B2: Từ hệ thức 1
( )2
z
suy ra giá trị z,
và miền bác bỏ Wα = (-, -zα) (zα, +).
B3: Tính 0
q s
X aZ n
S
.
B4: Kết luận : Nếu zqs W thì chấp nhận H0 .
Nếu zqs W thì bác bỏ H0, chấp nhận H1.
b) Trường hợp tổng thể có phân phối chuẩn, đã biết phương sai 2:
Tương tự trường hợp a) , chỉ thay đổi ở B3.
B3: Tính 0
q s
X aZ n
20
c) Trường hợp n < 30, tổng thể có phân phối chuẩn, chưa biết phương sai 2:
Tương tự trường hợp a), chỉ thay đổi ở B2 và B4.
B2: Tìm t/2 n-1
bằng cách tra bảng Student P(T > Tk ) = thay vì tính z.
Miền bác bỏ 2 phía khi đó trở thành Wα = (-, - t/2 (n-1
) (t/2 (n-1)
, +).
B4: Kết luận : Nếu tqs W thì chấp nhận H0 .
Nếu tqs W thì bác bỏ H0, chấp nhận H1. ( cách viết zqs hay tqs chỉ đơn thuần là ký hiệu cho dễ nhớ)
B. Bài toán kiểm định so sánh 2 trung bình:
Giả sử tổng thể I có trung bình a1 chưa biết, tổng thể II có trung bình a2 chưa biết.
Từ tổng thể I lấy mẫu có kích thước n1, trung bình mẫu 1X , PS mẫu hiệu chỉnh S1
2.
Từ tổng thể II lấy mẫu có kích thước n2, trung bình mẫu 2X , PS mẫu hiệu chỉnh S2
2.
Hãy kiểm định giả thiết H0: “a1 = a2” với giả thiết đối H1: “a1 a2” và mức ý nghĩa .
Đối với các trường hợp H1 khác, SV xem trong bảng tóm tắt ở phần dưới.
a) Trường hợp n1, n2 30:
B1: Đặt giả thiết kiểm định H0: “a1 = a2” và giả thiết đối H1: “a 1 a 2”.
B3: Tính 1 2
2 2
1 2
1 2
qs
X XZ
S S
n n
.
Nếu đã biết 12, 2
2 thì dùng 1
2, 2
2 ; không cần sử dụng S1
2, S2
2.
B2 và B4 tương tự như trường hợp A.a) trên.
b) Trường hợp n1 < 30 hoặc n2 < 30, các tổng thể có phân phối chuẩn, chưa biết 12,
22
nhưng biết 12 = 2
2 :
B2: tìm t/2(n1 + n2 -2 )
từ bảng Student, bậc n1 + n2 -2.
B3: Tính giống trường hợp a)
Chúng ta tóm tắt các công thức của bài toán kiểm định trung bình qua bảng sau với
lưu ý các bảng phụ lục được sử dụng kèm theo là:
+ PL1: Bảng tra số cho Phân vị chuẩn (Bảng giá trị tích phân Laplace).
+ PL2: Bảng tra số cho phân phối Student P( Tn > tn, ) = .
+ PL3: Bảng tra số cho phân phối Khi bình phương P( 2 >
2,n ) = .
+ PL4: Bảng tra số cho phân phối Fisher P(F > fα ) = α .
21
Bảng 4 và Bảng 5: Kiểm định trung bình và Kiểm định phương sai
GT KĐ
H0
GT đối
H1
Tiêu chuẩn kiểm định Miền bác bỏ H0 với mức ý nghĩa
BT
1
mẫu
2 chưa biết
2 đã biết
- Tổngthể ph phối
chuẩn, biết 2.
- Hoặc tổng thể
tùy ý, mẫu lớn (n
30). PL1
- Tổng thể phân phối
chuẩn.
- n < 30.
- Chưa biết 2.
PL2
a = a 0 a a 0 0
qs
X aZ n
S
0qs
X aZ n
Wα = (-, -zα)
(zα, +)
Wα = (-, - 2
( 1)t n )
(
2
( 1)t n , +)
a < a 0 Wα = (-, -z2α) Wα = (-, - t(n-1)
)
a > a 0 Wα = (z2α, +) Wα = (t(n-1)
, +)
BT
2
mẫu
Nếu đã biết 12
và 22
thì
dùng thay thế S12 và S2
2.
-Tổng thể tùy ý.
- n1 , n2 30
PL1
- 2 tổng thể có phân
phối chuẩn.
-12,2
2 chưa biết
nhưng 12 =2
2.
-n1<30 hay n2<30
a 1 = a 2 a 1 a2 1 2
2 2
1 2
1 2
qs
X XT
S S
n n
Wα = (-, -zα)
(zα, +)
Wα =(-,- 1 2
2
( 2)t n n )
( 1 2
2
( 2)t n n , +)
a1 < a 2 Wα = (-, -z2α) Wα=(-, - 1 2( 2)t n n )
a1 > a 2 Wα = (z2α, +) Wα =( 1 2( 2)t n n ,+)
VII.2.3 Kiểm định phương sai:
Giả
thiết
KĐ H0
Giả
thiết
đối H1
ĐK của PP
tổng thể Tiêu chuẩn
kiểm định Miền bác bỏ H0 với mức ý nghĩa
BT 1 mẫu
2 =
20
2
20
-Bất kỳ khi
mẫu lớn. -PP chuẩn,
khi n nhỏ.
22
2
0
( 1)q s
n S
Wα = [0, 2
12
( 1)n
) (2
2
( 1)n , +)
PL3
2<
20 Wα = [0,
2
1 ( 1)n )
2>
20 Wα = (
2( 1)n , +)
BT 2
mẫu
2
1=22
2
12
2 -Bất kỳ khi
mẫu lớn. -PP chuẩn,
khi n nhỏ. - Chưa biết
a1,a2.
2
1
2
2
q s
SF
S
Luôn lưu ý
đặt S1 > S2
Wα = ( 1 2
2
( 1; 1)n nf , +) PL4
2
1>22 Wα = ( 1 2( 1; 1)n nf , + )
22
V.2.4 Giá trị xác suất của kiểm định: giá trị P ( P-value):
Bây giờ chúng ta nhìn lại bài toán kiểm định 2 phía cho trung bình tổng thể a với trường
hợp n≥30. Giả sử mức ý nghĩa đang được xem xét là α1=0,05 thì zα1=1,96 và miền bác bỏ
tương ứng là Wα1 =(-; -1,96) (1,96; +).
Nếu từ một mẫu cụ thể ta tính được zqsA = 2,10 Wα1 nên giả thiết H0 tương ứng bị bác
bỏ. Nếu với một mẫu cụ thể khác ta tính được zqsB = 10 chẳng hạn thì giả thiết H0 cũng bị
bác bỏ. Ta nhận thấy việc bác bỏ H0 trong trường hợp sau “thuyết phục” hơn.
Một mặt khác, nếu thay đổi mức ý nghĩa đang được xem xét thành α2=0,02 thì zα2=2,33
và miền bác bỏ tương ứng là Wα2 =(-; -2,33) (2,33; -). Lúc này ta vẫn bác bỏ H0 nếu
zqsB = 10 nhưng lại phải chấp nhận H0 nếu zqsB = 2,10. Rõ ràng việc bác bỏ H0 với zqsB = 10
“khá thuyết phục” nhưng việc kết luận bác bỏ hay chấp nhận H0 với
zqsB = 2,10 lại “ít thuyết phục” hơn.
Quá trình kiểm định như trên được gọi là kiểm định theo cách tiếp cận cổ điển. Gần đây
nhiều nhà nghiên cứu thường sử dụng một cách tiếp cận khác. Thay vì kiểm định giả thiết
với một mức ý nghĩa định trước thì họ cho rằng sau khi định rõ các giả thiết kiểm định H0
và giả thiết đối H1, ta thu thập các số liệu mẫu và xác định mức độ khẳng định việc bác bỏ
giả thiết H0. Mức độ khẳng định này thường được gọi là giá trị xác suất P hay P-value.
Nói cách khác, mức ý nghĩa nhỏ nhất tại đó giả thiết H0 bị bác bỏ được gọi là giá trị P
kết hợp với mẫu quan sát được.
Xét ví dụ là bài toán kiểm định trung bình tổng thể trong trường hợp mẫu lớn (n 30).
Tiêu chuẩn kiểm định là thống kê 0X-a
Z= n (0,1)S
N nếu H0 : “ a = a0” đúng.
a) Giả thiết kiểm định H0 : “ a = a0”. H1: “a a 0”.
P-value = 2. P( Z >Zqs)
= 2* [ 0,5 - (|Zqs|) ] = 1 - (|Zqs|)
VD: Nếu zqs = 2,01
P_value = 1 - (2,01) = 4,44 %
b) Giả thiết kiểm định H0 : “ a = a0”. H1: “a < a 0”.
P-value = P (Z < Zqs) = 0,5 + (Zqs)
* Nếu zqs = - 2,01 P_value = 0,5+(2,01)
= 0,5- 0,4778 = 2,22%
* Nếu zqs = 2,01
P_value = 0,5 + (2,01) = 97,78 %
23
c) Giả thiết kiểm định H0 : “ a = a0”. H1: “a > a 0”.
P-value = P (Z > Zqs)
= 0,5 - (Zqs)
VD: Nếu zqs = 2,01
P_value = 0,5 - (2,01)
= 2,22 %
Trong VD ở mục a) P_value = 4,44% tức là giả thiết H0 sẽ bị bác bỏ khi mức ý nghĩa
được yêu cầu trong bài toán lớn hơn 4,44%. Nếu mức ý nghĩa trong bài nhỏ hơn
4,44% thì ta phải công nhận giả thiết H0.
Các phần mềm thống kê hiện nay đều đưa ra P-value cho mỗi bài toán kiểm định để độc
giả tự đánh giá kết quả. Ý tưởng chủ đạo là P-value càng nhỏ thì càng bác bỏ giả thiết
mạnh, P-value càng lớn thì càng chấp nhận giả thiết mạnh.
Thông thường người ta tiến hành kiểm định theo nguyên tắc:
- Nếu 0,1 P-value: ta thường thừa nhận H0.
- Nếu 0,05 P-value < 0,1: cân nhắc cẩn thận trước khi bác bỏ H0.
- Nếu 0,01 P-value < 0,05: nghiêng về hướng bác bỏ H0 nhiều hơn.
- Nếu 0,001 P-value < 0,01: có thể ít băn khoăn khi bác bỏ H0.
- Nếu P-value < 0,001: có thể hoàn toàn yên tâm khi bác bỏ H0.
Trong các VD ở mục a) và c) ta tính được giá trị P tương đối nhỏ nên kết luận nghiêng
về xu hướng bác bỏ H0. Còn VD ở mục b) khi zqs= -2,01 thì giá trị P quá lớn nên ta luôn
chấp nhận H0.
Những trường hợp tiêu chuẩn kiểm định có các phân phối khác như phân phối Student,
phân phối Khi bình phương, phân phối Fisher, chúng ta có thể tìm giá trị P tương ứng
với giá trị quan sát được lấy từ mẫu. Tuy nhiên do hạn chế của phần tra bảng nên chúng
ta không trình bày VD ở đây, để tính toán chúng, sinh viên có thể sử dụng các hàm
tương ứng trong Excel.
V.2.5 Tìm xác suất mắc sai lầm loại 2 ( β ) và năng lực kiểm định (1- β) :
Xét bài toán kiểm định trung bình tổng thể với trường hợp mẫu lớn.
Giả sử tổng thể có trung bình a chưa biết.
Mẫu có kích thước n 30 , trung bình mẫu X , phương sai tổng thể 2. ( sử dụng phương
sai mẫu hiệu chỉnh S2 thay thế nếu giả thiết không cho biết
2 ).
Giả thiết kiểm định H0: “a = a0 ”
Giả thiết đối H1: “a a0” và mức ý nghĩa cho trước.
Yêu cầu:
24
a) Tìm miền bác bỏ W cho bài toán.
b) Tìm xác suất mắc sai lầm loại II = cho bài toán nếu trung bình thực sự của tổng
thể là a1 = a0 + . ( 0).
Giải:
a) W = (-, -zα) (zα, +) .
b) Xác suất mắc sai lầm loại II = β = P( Chấp nhận H0 /H1 đúng)
= P ( Zqs W / H1 đúng) = P( - z < Zqs < z / H1 đúng)
Vì trung bình thực sự là a = a1 nên thống kê 0X-a
Z = nqs
không có phân phối chuẩn mà
thống kê có phân phối chuẩn bây giờ lại là 1X-
= n (0,1)a
Q N
.
Biến đổi: 0 1 1 0 1 01
X-a X- X-n n n n n
a a a a aaQ
Suy ra β = P( - z < Zqs < z ) = P( - z < 0X-a
n
< z )
= P( - z < 1 0 na
Qa
< z ) = P( - z -
1 0 na a
< Q < z - 1 0 n
a a
)
= 1 0 1 0n nz za a a a
Giả sử với 1 số giá trị cụ thể:
= 5% z = 1,96. n= 36 ; s = 4
a0 = 300; a1 = 303 = 3.
thì β = 3 31,96 36 1,96 36
4 4
= 0,0054
Người ta gọi giá trị 1- β là năng lực kiểm định.
Tương tự như trên, chúng ta tìm được sai lầm loại II trong các bài toán kiểm định 1 phía.
25
V.3 Kiểm tính phi tham số:
V.3.1 Bài toán kiểm định phân phối của tổng thể:
Các bước tiến hành chung:
+ B1: Đặt giả thiết kiểm định: H0: Tổng thể có phân phối F(x)
H1: Tổng thể không có phân phối F(x).
Tính các đặc trưng mẫu cần thiết ở dạng hàm ước lượng hợp lý cực đại.
+ B2: Tìm miền bác bỏ. W = (2
(k-r-1); +)
k: số hàng ( cột) được chia trong bảng dữ liệu mẫu.
r: số tham số chưa biết của phân phối F(x).( chính là số tham số cần ước lượng từ
mẫu để sử dụng trong công thức tính các pi ).
+ B3: Tính tiêu chuẩn kiểm định:
2
1
2k
i i
i i
qs
O E
E
;
ở đây Oi = ni là tần số từ mẫu thực nghiệm;
Ei là tần số theo lý thuyết nếu giả thiết H0 đúng.
+ B4: Kết luận. Nếu 2qs > 2
(k-r-1) thì ta bác bỏ giả thiết H0.
Chấp nhận H0 trong trường hợp ngược lại.
Lưu ý: Kiểm định Chi-Bình-Phương được coi là chính xác hơn khi tất cả giá trị tần số lý
thuyết lớn hơn hay bằng 5. Vì vậy khi xuất hiện tần số lý thuyết nhỏ hơn 5 thì ta nên phân
chia lại dữ liệu thích hợp.
Ví dụ 1: Kiểm định phân phối Poisson.
Một hãng bảo hiểm nghiên cứu về số tai nạn xảy ra trong các gia đình có từ 2 con nhỏ trở
lên trong một năm. Dưới đây là một bảng số liệu thống kê:
Số tai nạn 0 1 2 3 4 5
Số gia đình 135 344 257 165 78 21
Với mức ý nghĩa 5%, có thể xem như số vụ tai nạn loại này tuân theo quy luật phân bố
Poisson hay không?
Gợi ý:
Gọi X là số vụ tai nạn trong một năm của các gia đình có từ 2 con nhỏ trở lên.
+ B1: Giả thiết kiểm định H0: X có phân phối Poisson.
H1: X không có phân phối Poisson.
Tính các đặc trưng mẫu: n= 1000 ; x = 1,77 ; s = …
x là ước lượng hợp lý cực đại cho ; còn s2
là ước lượng hợp lý cực đại cho 2,
trong bài này không dùng đến vì P() chỉ có 1 tham số .
26
+ B2: Tra bảng Chi-Bình-Phương với k= 6 ; r = 1 tìm 2 ( 1)k r =2
0,05(6 1 1) = 9,49.
+ B3:
xi ni Oi pi = P(X= xi)
= ( )!
ix
i
e
x
n*pi Ei
2
i
2
i
i
O -E
E
i i
i
n np
np
0 135 0.170333 170.333 7.329291
1 344 0.301489 301.4894 5.994081
2 257 0.266818 266.8181 0.361277
3 165 0.157423 157.4227 0.364723
4 78 0.06966 69.65954 0.998619
5 21 0.024659 24.65948 0.543068
n=1000 Tổng: 2
qs = 15.59106
+ B4: Do 2
qs > 2
nên ta bác bỏ giả thiết, coi như mẫu không phù hợp phân phối Poisson.
Ví dụ 2: Kiểm định phân phối chuẩn.
(BT 7.24 – Giáo trình) Cho maãu sau:
xi 5 – 15 15 – 25 25 - 35 35 – 45 45 - 55 55 - 65 65 - 75
ni 25 67 191 273 202 54 18
Vôùi möùc yù nghóa = 1%, coù theå coi maãu treân phuø hôïp vôùi phaân phoái chuaån khoâng?
(BT 7.25 – Giáo trình) Thoáng keâ veà chieàu cao cuûa moät loaïi caây sau hai thaùng tuoåi, người
ta thu được keát quaû sau:
Ñoä cao (cm) 5 7 9 11 13 15 17 19 21
Soá löôïng 11 26 27 32 25 22 24 20 13
Vôùi möùc yù nghóa = 5%, haõy kieåm ñònh xem maãu treân coù phuø hôïp vôùi phaân phoái
chuaån khoâng?
Gợi ý bài 7.24:
+ B1: Giả thiết kiểm định H0: Mẫu phù hợp với phân phối Chuẩn.
H1: Mẫu không phù hợp với phân phối Chuẩn.
Tính các đặc trưng mẫu: n= 830 ; x = 39.56627 ; s = 12.33292
x là ước lượng hợp lý cực đại cho a ; còn s2
là ước lượng hợp lý cực đại cho 2,
+ B2: Tra bảng Chi-Bình-Phương với k= 7 ; r = 2 ....tìm 2 ( 1)k r = 13,28.
+ B3: Tính tiêu chuẩn kiểm định.
27
Khoảng
(; )
ni Oi pi = P(<X<)
= β-a α-a-Φ
σ σ
n*pi Ei
2
i
2
i
i
O -E
E
i i
i
n np
np
(-; 15)
25
15-a - 0,5
σ
= 0.02319 19.24739
1.719326
(15; 25)
67
25-a 15-a-Φ
σ σ
=
0.095594 79.34329
........
(25; 35) 191 0.236814 196.5558 ........
(35; 45) 273 0.314646 261.1563 ........
(45; 55) 202 0.224366 186.2239 ........
(55; 65) 54 0.085798 71.2126 ........
(65;+)
18
65-a0,5 -Φ
σ
= 0.019591 16.26082 ........
n= 830 Tổng: 2
qs= 10.01663
+ B4: Do 2
qs < 2
nên mẫu phù hợp với phân phối chuẩn.
Gợi ý bài 7.25: Lưu ý cách chuyển trả dữ liệu từ rời rạc về liên tục, sau đó làm tương tự ví
dụ trên.
Ví dụ 3: Kiểm định sự phù hợp của quy luật đa thức (tham khảo)
Để kiểm tra sự cân đối giữa các mặt của 1 con xúc xắc, người ta tung ngẫu nhiên con xúc
xắc đó 120 lần và thống kê được kết quả sau:
Mặt xuất hiện 1 2 3 4 5 6
Số lần xuất hiện 23 19 24 21 18 15
Với mức ý nghĩa 5%, có thể xem con xúc xắc này là cân đối hay không?
Gợi ý: Gọi X là số chấm xuất hiện khi tung con xúc xắc.
+ B1: Giả thiết kiểm định H0: X có phân phối đều rời rạc, hay là con xúc xắc cân đối.
H1: Con xúc xắc không cân đối.
+ B2: Tra bảng Chi-Bình-Phương với k= 6 ; r = 0 ....tìm 2 ( 1)k r
xi ni Oi
pi = P(X= xi) n*pi Ei
2
i
2
i
i
O -E
E
i i
i
n np
np
1 23 1/6 20 0,45
2 19 1/6 20 0,05
... ... … ..... ...
6 15 1/6 20 1,25
n = 120 Tổng: 2
qs= 2,8
+ B4: So sánh 2
qs với 2
rồi kết luận.
28
V.3.2 Bài toán kiểm định tính độc lập:
( Còn gọi là bài toán so sánh các tỷ lệ )
Xét một mẫu kích thước n của biến ngẫu nhiên định tính 2 chiều (X,Y). X nhận các
giá trị A1; A2;….; Ak. Y nhận các giá trị B1; B2; …; Bh. Hãy kiểm định xem X,Y có
độc lập hay không với mức ý nghĩa .
Y
X B1 B2 … Bh
Tổng
hàng
A1 n11 n12 … n1h n1
A2 n21 n22 … n2h n2
… … … … … …
Ak nk1 nk2 … nkh nk
Tổng cột m1 m2 … mh n
B1: Giả thiết kiểm định H0: X,Y độc lập.
Giả thiết đối H1: X, Y không độc lập.
B2: Miền bác bỏ W = (2
(số hàng-1)*(số cột-1) ; +)
B3: Do giả thiết X,Y độc lập nên xác suất tính theo lý thuyết là
pij = P(X= Ai ; Y= Bj) = P(X= Ai)*P(Y= Bj) = *ji
mn
n n
suy ra tần số lý thuyết là Oij = n*pij = *i jn m
n
Tính tiêu chuẩn kiểm định:
2
2
;
ij ij
qs
i j ij
O E
E
hoặc
2
2
;
. 1ij
qs
i j i j
nn
n m
B4: So sánh và kết luận: nếu 2
qs > 2
thì bác bỏ giả thiết.
(BT 7.26 – Giáo trình) ÔÛ moät tröôøng ñaïi hoïc, ñeå nghieân cöùu xem khaû naêng học
toaùn cuûa sinh vieân coù töông quan gì vôùi söï yeâu thích moân thoáng keâ hay khoâng,
ngöôøi ta choïn ngaãu nhieân 200 sinh vieân ñieàu tra coù keát quaû:
Thaùi ñoä ñoái vôùi moân
thoáng keâ
Khaû naêng hoïc toaùn
Thaáp Trung bình Cao
Ít thích 60 15 15
Thích vöøa 15 45 10
Raát thích 5 10 25
Vôùi möùc yù nghóa = 0,05, kieåm ñònh xem söï yeâu thích moân thoáng keâ coù phuï thuoäc
vaøo khaû naêng hoïc toaùn cuûa sinh vieân tröôøng naøy hay khoâng?
29
Gợi ý:
B1: Gọi yếu tố X thể hiện các mức độ yêu thích đối với môn Thống kê của sinh viên.
Gọi yếu tố Y biểu diễn các mức độ thể hiện khả năng học toán của sinh viên.
Giả thiết kiểm định H0: X, Y độc lập H1: X,Y không độc lập.
B2: W = (2
0,05 (3-1)*(3-1) ; +) = ( 9,49, +).
B3: Lập Bảng tần số thực nghiệm Oij
60 15 15 90
15 45 10 70
5 10 25 40
80 70 50 200
Lập thêm bảng tần số lý thuyết Eij
90*80
200
90*70
200
…
… … …
… … 40*50
200
Tính tiêu chuẩn kiểm định
2
2
;
ij ij
qs
i j ij
O E
E
(=84,7513) và từ đó nêu kết luận.
MỘT SỐ BÀI TẬP
12. Dưới đây là một bảng số liệu cũ về
trọng lượng gà xuất chuồng của một
trại nuôi gà . Giá trị … còn bỏ trống là
do tài liệu bảo quản không tốt nên
nhìn không rõ. Nhưng dựa vào bảng số
liệu còn lưu cho biết giá trị trung bình
mẫu đã được tính là 3,075 . Biết rằng
trang trại nuôi khoảng 30 ngàn con gà
và các con gà có trọng lượng trên 3,3
kg được coi là gà loại I.
Trọng lượng (kg) Số con
2,3 – 2,7 5
2,7 – 2,9 30
2,9 – 3,1 …
3,1 – 3,3 25
3,3 – 3,5 10
3,5 – 3,7 5
3,7 – 3,9 5
a) Hãy tìm và điền giá trị bị mất vào bảng trên rồi ước lượng số lượng gà đạt tiêu chuẩn
loại I với độ tin cậy 98%.
b) Với độ tin cậy 95%, hãy ước lượng trọng lượng trung bình của một con gà loại I khi
xuất chuồng.
c) Ban giám đốc trại cho biết tỉ lệ gà loại I là 35%. Với mức ý nghĩa 0,02; hãy cho ý
kiến về kết luận này.
13. Tỉ lệ phế phẩm do công ty A sản xuất là 5%. Nhằm giảm tỉ lệ phế phẩm, công ty A đã
cải tiến kỹ thuật. Sau cải tiến người ta kiểm tra ngẫu nhiên 400 sản phẩm thấy có 18 phế
phẩm. Với mức ý nghĩa 5%, hãy cho kết luận về hiệu quả của việc cải tiến kỹ thuật ở
công ty A? Tìm giá trị P.
14. Điểm danh ngẫu nhiên 100 sinh viên khoa Kinh tế thấy có 8 người vắng, điểm danh 120
sinh viên khoa CNTT thấy có 12 người vắng. Với mức ý nghĩa 3%, hãy so sánh mức độ
chuyên cần của sinh viên hai khoa?
30
15. Tỉ lệ bệnh nhân bị bệnh T được chữa khỏi bệnh bằng thuốc A là 85%. Thí nghiệm dùng
thuốc B điều trị thì trong 1100 bệnh nhân thì thấy có 980 người khỏi bệnh. Có thể nói
rằng thuốc B điều trị có hiệu quả hơn thuốc A được không, kết luận với mức ý nghĩa
4%?
16. Trước bầu cử người ta thăm dò 1000 cử tri thì thấy có 400 người nói rằng sẽ bỏ phiếu
cho ứng cử viên A. Một tuần sau người ta tổ chức một cuộc thăm dò khác và thấy có
680 trong số 1500 cử tri được hỏi sẽ bỏ phiếu cho ông A. Với mức ý nghĩa 5%, cho biết
tỉ lệ cử tri bỏ phiếu cho ông A có thay đổi không?
17. Khối lượng mỗi bao gạo do máy sản xuất ra là đại lượng ngẫu nhiên có phân phối chuẩn
với trung bình là 50 kg và độ lệch chuẩn 0,3 kg. Nghi ngờ máy hoạt động không bình
thường làm thay đổi khối lượng trung bình của sản phẩm, người ta cân thử 100 bao gạo
và có được kết quả :
Khối lượng sản phẩm (kg) 49 49.5 50 51 52 Số bao gạo tương ứng 10 60 20 5 5
Với mức ý nghĩa 3% , hãy kết luận về nghi ngờ nói trên. Tìm giá trị P của bài toán.
18. Định mức cũ để sản xuất một sản phẩm là 20,5 phút. Sau khi cải tiến kỹ thuật, người ta
sản xuất thử 100 sản phẩm và thu được số liệu :
Thời gian để sản xuất một
sản phẩm ( phút) 16-17 17-18 18-19 19-20 20-21 21-22
Số sản phẩm tương ứng 6 10 24 30 18 12
Sử dụng giá trị P để kiểm định xem có thể nói việc cải tiến kỹ thuật đã làm tăng năng
suất hay không, biết rằng thời gian sản xuất một sản phẩm là đại lượng ngẫu nhiên có
phân phối chuẩn. Tính xác suất mắc sai lầm loại II nếu thời gian trung bình để sản xuất
một sản phẩm thực sự là 19.5 phút.
19. Trồng cùng một giống lúa trên hai thửa ruộng như nhau và bón hai loại phân khác nhau.
Đến ngày thu hoạch ta có kết quả như sau: Thửa thứ nhất lấy mẫu 1000 bông lúa thấy
số hạt trung bình là 70 hạt và độ lệch hiệu chỉnh là 10 . Thửa thứ hai lấy mẫu 50 bông
lúa thấy số hạt trung bình là 72 hạt và độ lệch hiệu chỉnh là 20. Với mức ý nghĩa 1% ,
hãy xét xem sự khác nhau giữa hai trung bình mẫu là ngẫu nhiên hay bản chất.
20. Trọng lượng của một loại sản phẩm tuân theo phân phối chuẩn. Quan sát một số sản
phẩm do máy I và II sản xuất, ta được số liệu sau. Với mức ý nghĩa 5%, hãy kết luận
xem phải chăng trọng lượng trung bình của sản phẩm do 2 máy sản xuất là khác nhau?
Máy I Trọng lượng (g) 9 9,5 10 10,5
Số sản phẩm 2 4 7 2
Máy II Trọng lượng (g) 9 9,5 10 10,5
Số sản phẩm 1 4 6 3
21. Chỉ tiêu chất lượng X (gram) của 1 loại sản phẩm là đại lượng ngẫu nhiên có phân phối
chuẩn. Kiểm tra ngẫu nhiên 1 số sản phẩm loại này, có kết quả:
31
240; 200; 260; 220; 200; 280; 260; 260; 240; 260;
280; 240; 260; 220; 240; 240; 240; 260; 240; 220;
280; 260; 280; 260; 280; 280; 240; 260; 240; 220;
280; 260; 260; 220; 260; 260; 260; 260; 240; 240;
220; 260; 240; 220; 240; 240; 240; 200; 240; 260.
a) Các sản phẩm có chỉ tiêu X < 240gr là sản phẩm loại 2. Có tài liệu nói trung bình chỉ
tiêu X của các sp loại 2 là 220gr, với mức ý nghĩa 2% có nhận xét gì về tài liệu này?
b) Để ước lượng tỉ lệ sản phẩm loại 2 với độ tin cậy 88% và độ chính xác 2% thì cần
kiểm tra thêm bao nhiêu sản phẩm nữa?
c) Cho biết chỉ tiêu Y của sản phẩm này thỏa Y = 0,4X + 0,35. Với độ tin cậy 97%, hãy
ước lượng trung bình chỉ tiêu Y?
22. Nếu máy móc hoạt động bình thường thì chiều dài của một loại sản phẩm là đại lượng
ngẫu nhiên có phân phối chuẩn với phương sai là 3 cm2 . Nghi ngờ máy hoạt động
không bình thường, người ta đo thử một số sản phẩm thì được số liệu :
Chiều dài ( cm) 105 107 109 111
Số sản phẩm 2 4 5 2
Từ đó hãy cho kết luận về nghi ngờ nói trên với mức ý nghĩa 2%.
23. Soá con cuûa 2000 phuï nöõ ôû moät vuøng daân cö ôû ñoä tuoåi 26 cho ôû baûng sau
xi (soá con) 0 1 2 3 4
ni (soá phuï nöõ) 1090 650 220 30 10
Vôùi möùc yù nghóa = 0,05, coù theå xeùt xem maãu treân phuø hôïp vôùi phaân phoái Poisson
ñöôïc khoâng?
24. Ñeå kieåm tra coâng vieäc cuûa 200 coâng nhaân, ngöôøi ta choïn ngaãu nhieân 1000 saûn
phaåm cuûa moãi ngöôøi ñem ñi thöû nghieäm ñeå tìm ra pheá phaåm. Keát quaû nhö sau:
Soá pheá phaåm treân 1000 saûn phaåm 0 1 2 3 4
Soá coâng nhaân 109 65 22 3 1
Vôùi möùc yù nghóa = 0,01, coù theå coi maãu treân phuø hôïp vôùi phaân phoái Poisson hay
khoâng?
25. Keát quaû ño kích thöôùc cuûa 1000 chi tieát cho trong baûng sau:
Kích thöôùc
mm
97,75
-
98,25
98,25
-
98,75
98,75
-
99,25
99,25
-
99,75
99,75
-
100,25
100,25
-
100,75
100,75
-
101,25
101,25
-
101,75
101,75
-
102,25
102,25
-
102,75
Soá chi tieát
töông öùng 21 47 87 158 181 201 142 97 41 25
Vôùi möùc yù nghóa = 0,05, coù theå coi kích thöôùc chi tieát saûn xuaát ra tuaân theo quy
luaät chuaån hay khoâng?
32
26. Töø boä saûn phaåm cuûa moät maùy tieän ngöôøi ta choïn ra 200 chieác. Baùn kính saûn phaåm
ñöôïc ño ñaïc vaø cho nhö sau:
Baùn kính xi 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6 4,8 5,0
Soá löôïng ni 1 5 4 18 86 62 14 6 3 1
Vôùi möùc yù nghóa = 0,05 coù theå coi baùn kính saûn phaåm cuûa maùy tieän ñoù tuaân theo
quy luaät chuaån?
27. Dưới đây là thống kê số lần đứng đầu khối về điểm thi đua các hoạt động phong trào
hàng tuần của các lớp 12 trong một trường THPT. Với mức ý nghĩa 1%, hãy cho biết
có thể xem như năng lực hoạt động phong trào của các lớp là như nhau không?
Tên lớp 121
122 12
3 12
4 12
5
Số lần đứng đầu khối 9 6 10 7 8
28. Khi nghiên cứu ảnh hưởng của gia đình với tình trạng phạm tội của trẻ em vị thành
niên, người ta có được số liệu :
Tình trạng phạm tội Hoàn cảnh gia đình
Bố mẹ đã mất Bố mẹ ly hôn Còn cả bố mẹ
Không phạm tội 20 25 13
Có phạm tội 29 43 18
Với mức ý nghĩa = 0,05 , có thể kết luận hoàn cảnh gia đình độc lập với tình trạng
phạm tội của trẻ em hay không ?
29. Theo dõi ngày nghỉ việc của 1000 công nhân trong một công ty, ta thấy :
Số ngày nghỉ việc trong năm Nữ Nam
0 – 10 300 500
10 – 20 80 70
20 trở lên 20 30
Với mức ý nghĩa 5% , có phải số ngày nghỉ việc liên quan đến giới tính ?
30. Để nghiên cứu sự phát triển của 1 loại cây làm giấy, người ta tiến hành đo ngẫu nhiên
đường kính X(cm) và chiều cao Y(m) của một số cây được bảng số liệu:
X Y 2 3 4 5 6 7
20 3 5
22 2 10
24 3 8 14 10
26 4 16 7
28 8 13
33
a) Hãy ước lượng tỉ lệ cây loại 1 ( có chiều cao từ 6 m trở lên) với độ tin cậy 89%.
b) Ước lượng đường kính trung bình của cây loại 1 với độ tin cậy 98%.
c) Trước đây, chiều cao trung bình của loại cây này là 5,1m. Số liệu trên lấy ở những cây
đã được áp dụng kỹ thuật chăm sóc mới. Với mức ý nghĩa 5%, hãy cho nhận xét về tác
dụng của kỹ thuật mới này?
d) Lập phương trình đường hồi quy tuyến tính mẫu Y theo X. Dự đoán xem nếu cây có
đường kính 25cm thì cao cỡ bao nhiêu m?
31. Quan sát chiều cao Y(cm) và độ tuổi X(năm) của 1 số thanh thiếu niên, có được:
X
Y
15
17
19
21
23
145 – 150 5
150 – 155 12 11
155 – 160 14 8 6
160 – 165 10 17
165 – 170 15 4 7
170 – 175 12
a) Ước lượng chiều cao trung bình của những người 21 tuổi với độ tin cậy 99%.
b) Những người cao hơn 1,65m là người “khá cao”. Ước lượng tỉ lệ và chiều cao trung
bình của những người khá cao với độ tin cậy 95%?
c) Một tài liệu cũ nói rằng chiều cao trung bình của thanh thiếu niên trong độ tuổi trên
là 153,5cm. Hãy cho kết luận về tài liệu này với mức ý nghĩa 3%?
d) Tìm rXY và vẽ đường hồi quy mẫu biểu diễn chiều cao trung bình theo tuổi.
e) Lập phương trình đường hồi quy tuyến tính mẫu của Y theo X. Dự đoán xem nếu
người 20 tuổi thì cao khoảng bao nhiêu ?
32. Theo dõi lượng phân bón X(kg/ha) và năng suất một loại cây trồng Y(tạ/ha) của
một số thửa ruộng (có cùng diện tích 1 ha), có bảng số liệu:
X Y 120 140 160 180 200
20 – 24 5 4
24 – 28 7 10 5
28 – 32 15 20 12
32 – 36 7 9 6
a. Ước lượng năng suất trung bình của những thửa ruộng bón phân 180kg/ha với độ
tin cậy 98%.
b. Để ước lượng năng suất trung bình với độ chính xác 0,5 và độ tin cậy 98% thì cần
phải theo dõi thêm bao nhiêu thửa ruộng nữa?
c. Một tài liệu cũ nói rằng năng suất trung bình của loại cây trồng này là 30 tạ/ha. Với
mức ý nghĩa 2%, hãy cho kết luận về tài liệu này?
d. Vẽ đường hồi quy thực nghiệm của Y theo X. Tìm hệ số tương quan của X,Y.
e. Lập phương trình đường hồi quy tuyến tính mẫu của năng suất cây trồng theo lượng
phân bón. Dự đoán xem nếu lượng phân bón là 190 kg/ha thì năng suất khoảng bao
nhiêu?
f. Lập phương trình đường hồi quy tuyến tính mẫu của X theo Y.