Upload
anh-thu-ngo
View
237
Download
2
Embed Size (px)
DESCRIPTION
Â
Citation preview
CHƯƠNG1
XÁC SUẤT
1.1 Không gian mẫu và biến cố
1.1.1 Phép thử
Trong thực tế có nhiều thí nghiệm có thể lặp đi lặp lại nhiều lần trong cùng một điều
kiện như nhau nhưng chúng ta không thể biết chắc chắn kết quả sẽ xảy ra khi thực hiện thí
nghiệm đó. Những thí nghiệm đó ta gọi là phép thử ngẫu nhiên (hay gọi tắt là phép thử). Nói
chung, 1 phép thử phải thỏa mãn 2 điều kiện:
- Có thể lặp vô hạn lần;
- Kết quả của mỗi lần thực hiện phép thử là hoàn toàn ngẫu nhiên.
Ví dụ 1.1.
- Gieo một con xúc xắc. Mặc dù làm đi làm lại nhiều lần nhưng mỗi lần tung lại cho ta kết
quả nói chung là khác nhau. Các kết quả của một thí nghiệm ngẫu nhiên là ngẫu nhiên.
- Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên.
- Đo chiều cao của một sinh viên được chọn ngẫu nhiên.
1.1.2 Không gian mẫu.
Tập tất cả các kết quả có thể xảy ra của một phép thử được gọi là không gian mẫu. Kí
hiệu không gian mẫu là Ω.
Ví dụ 1.2. Khi tung một đồng xu, có hai kết quả có thể xảy ra: xuất hiện mặt sấp (S) hoặc
xuất hiện mặt ngữa (N). Không gian mẫu trong trường hợp này là Ω = S;N.
Ví dụ 1.3. Gieo một con xúc xắc. Nếu ta quan tâm đến số chấm xuất hiện trên mặt ngửa
của con xúc xắc thì không gian mẫu sẽ là
Ω = 1; 2; 3; 4; 5; 6.
1
TS. Lê Văn Dũng
Nhưng nếu ta chỉ quan tâm đến sự suất hiện mặt chẵn hay mặt lẻ thì không gian mẫu sẽ là
Ω = chẵn; lẻ.
Ví dụ 1.4. Đo chiều cao của một sinh viên được chọn ngẫu nhiên trong lớp học (đơn vị:
mét).
Ω = x ∈ R|x > 0.
Ví dụ 1.5. Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên trong lớp học.
Ω = 1,2,3,4,5,6,7,8,9,10,11,12.
1.1.3 Biến cố.
1. Định nghĩa
Mỗi tập con của không gian mẫu được gọi là một biến cố. Biến cố chỉ có 1 phần tử được
gọi là biến cố sơ cấp.
Ta nói một biến cố xảy ra khi thực hiện phép thử nếu kết quả của thực hiện phép thử rơi
vào biến cố đó.
Ví dụ 1.6. Cho không gian mẫu tuổi thọ (năm) của một thiết bị điện tử là Ω = x ∈ R : x ≥
0. Biến cố thiết bị điện tử bị hỏng trước 5 năm là A = x ∈ R : 0 ≤ x < 5.
Ví dụ 1.7. Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên trong lớp học.
- Biến cố sinh viên đó sinh vào tháng chẵn là
A = 2,4,6,8,10,12.
- Biến cố sinh viên có tháng sinh 32 ngày là ∅.
- Biến cố sinh viên có tháng sinh bé hơn 32 ngày là Ω.
Biến cố rỗng (∅) gọi là biến cố không thể, không gian mẫu (Ω) gọi là biến cố chắc chắn.
2. Các phép toán trên biến cố
Cho 2 biến cố A và B của không gian mẫu Ω.
a) Giao:
A ∩ B (còn có kí hiệu là: A.B), là biến cố xảy ra khi đồng thời hai biến cố A và B cùng xảy
ra.
2
Giáo trình xác suất thống kê
Nếu hai biến cố A và B không thể đồng thời xảy ra thì ta nói rằng A và B xung khắc và kí
hiệu A ∩B = ∅.
A ∩B = ω ∈ Ω : ω ∈ A và ω ∈ B.
b) Hợp:
A ∪B, là biến cố xảy ra khi có ít nhất một trong hai biến cố A, B xảy ra.
A ∪B = ω ∈ Ω : ω ∈ A hoặc ω ∈ B.
c) Hiệu:
A\B là biến cố xảy ra khi và chỉ khi A xảy ra và B không xảy ra .
Ω\B = B được gọi là biến cố đối của B. Nếu B xảy ra thì B không xảy ra và ngược lại.
A = ω ∈ Ω : ω 6∈ A,
A\B = A ∩B = ω ∈ A và ω 6∈ B.
Biểu đồ Ven minh họa biến cố giao, biến cố hợp và biến cố đối.
Ví dụ 1.8. Hai xạ thủ cùng bắn vào một mục tiêu, kí hiệu A là biến cố xạ thủ 1 bắn trúng
mục tiêu, B là sự kiện xạ thủ 2 bắn trúng mục tiêu. Hãy biểu diễn qua A và B các biến cố
sau:
a) Cả hai xạ thủ bắn trúng mục tiêu.
b) Không có xạ thủ nào bắn trúng mục tiêu.
c) Có đúng một xạ thủ bắn trúng mục tiêu.
d) Có ít nhất một xạ thủ bắn trúng mục tiêu.
Ví dụ 1.9. Tung một con xúc xắc cân đối đồng chất, khi đó có thể xuất hiện mặt 1chấm, 2
chấm, 3 chấm,..., 6 chấm.
+ Không gian mẫu Ω = 1; 2; 3; 4; 5; 6.
+ biến cố sơ cấp 1, 2, 3, 4, 5, 6
+ biến cố A = số chấm của mặt xuất hiện bé hơn 4 = 1; 2; 3
+ biến cố B = xuất hiện mặt chẵn = 2; 4; 6
Tìm các biến cố A ∪B, A ∩B, A.
Ví dụ 1.10. Đo chiều cao một sinh viên được chọn ngẫu nhiên trong lớp học (đơn vị: mét)
Ω = R+ = x ∈ R|x > 0.
3
TS. Lê Văn Dũng
Với
A = x|1, 5 ≤ x < 1, 7 và B = x|1, 6 < x < 1, 8.
Tìm A ∪B, A ∩B, A, A ∩B.
1.2 Xác suất biến cố
Xác suất của một biến cố là một số thuộc đoạn [0; 1] dùng để đo lường khả năng xảy ra
biến cố đó. Xác suất của một biến cố càng lớn thì khả năng xảy ra biến cố đó càng cao.
1.2.1 Định nghĩa xác suất cổ điển
Định nghĩa. Cho không gian mẫu Ω gồm n biến cố sơ cấp có khả năng xảy ra bằng nhau
và A là một biến cố. Xác suất biến cố A kí hiệu là P (A), được tính bằng công thức
P (A) =|A||Ω|
.
trong đó, |A| là số phần tử của A.
Ví dụ 1.11. Một hộp đựng 3 viên bi xanh (X1, X2, X3) và 2 viên bi đỏ (D1, D2), các viên
bi này giống nhau hoàn toàn về kích thước và khối lượng. Lấy ngẫu nhiên 1 viên bi.
Không gian mẫu: Ω = X1, X2, X3, D1, D2
Biến cố lấy được viên bi xanh: A = X1, X2, X3.
Xác suất lấy được viên bi xanh?
Từ định nghĩa ta có các tính chất sau:
1) 0 ≤ P (A) ≤ 1;2) P (∅) = 0, P (Ω) = 1;3) Nếu E1 và E2 không thể đồng thời xảy ra (E1 ∩ E2 = ∅) thì
P (E1 ∪ E2) = P (E1) + P (E2);
Tổng quát: Nếu E1, E2, ..., En đôi một xung khắc thì
P (E1 ∪ E2 ∪ ... ∪ En) = P (E1) + P (E2) + ...+ P (En);
4) P (E) + P (E) = 1.
Ví dụ 1.12. Một hộp đựng 4 viên bi xanh, 5 viên bi đỏ và 6 viên bi vàng. Các viên bi đồng
chất, giống nhau hoàn toàn về kích thước và khối lượng. Lấy ngẫu nhiên 5 viên bi. Tính xác
suất các biến cố sau:
4
Giáo trình xác suất thống kê
a) A: lấy được 1 bi xanh, 2 bi đỏ và 2 bi vàng.
b) B: lấy được 3 bi xanh.
c) C: lấy được ít nhất 4 bi đỏ.
d) D: lấy được ít nhất 1 bi vàng.
Giải. |Ω| = C515.
a) |A| = C14C
25C
26 suy ra P (A) =
200
1001≈ 0, 2.
b) |B| = C34C
21 suy ra P (B) =
20
273≈ 0, 073.
c) |C| = C45C
110 + C5
5 suy ra P (C) =226
3003≈ 0, 075.
d) |D| = C59 suy ra P (D) = 1− P (D) = 1− 6
143≈ 0, 985.
1.2.2 Định nghĩa xác suất bằng tần số tương đối
Nếu không gian mẫu Ω là một tập vô hạn hoặc hữu hạn nhưng các biến cố sơ cấp không
đồng khả năng thì ta không thể áp dụng công thức tính xác suất cổ điển. Giả sử phép thử C
có thể thực hiện lặp đi lặp lại vô hạn lần trong một điều kiện giống hệt nhau. Nếu trong n
lần thực hiện phép thử C có kn lần xuất hiện biến cố A thì tỉ số fn(A) = knn được gọi là tần số
tương đối xuất hiện biến cố A trong n lần thực hiện phép thử. Người ta nhận thấy rằng khi
số phép thử tăng ra vô hạn thì tần số tương đối fn(A) dao động rất ít xung quanh 1 hằng số.
Hằng số đó được định nghĩa là xác suất của biến cố A.
Như vậy, với n đủ lớn ta có P (A) ≈ fn(A) = knn .
1.2.3 Mô hình xác suất hiện đại
Cho không gian mẫu Ω có hữu hạn hoặc vô hạn biến cố sơ cấp. Ta chỉ xét một lớp F các
tập con của Ω thỏa mãn 3 điều kiện:
(1) ∅ ∈ F ;
(2) Nếu A ∈ F thì A ∈ F ;
(3) Nếu A1, A2, ...., An, ... ∈ F thì⋃∞n=1An ∈ F .
Lớp F như vậy được gọi là σ-đại số các tập con của Ω.
Một hàm tập hợp P : F → R được gọi là độ đo xác suất nếu thỏa mãn 3 điều kiện:
(1) Với mọi A ∈ F , 0 ≤ P (A) ≤ 1;
(2) P (Ω) = 1;
5
TS. Lê Văn Dũng
(3) Nếu A1, A2, ..., An, ... ∈ F đôi một không giao nhau (Ai ∩ Aj = ∅ với mọi i 6= j) thì
P (
∞⋃n=1
An) =
∞∑n=1
P (An).
Khi đó, mỗi phần tử của F được gọi là biến cố và P (A) gọi là xác suất xảy ra biến cố
A.(Ω,F , P ) được gọi là không gian xác suất.
1.3 Đại số tổ hợp
1.3.1 Quy tắc nhân
Nếu một công việc được thực hiện qua k bước.
Bước 1 có n1 cách thực hiện,
Bước 2 có n2 cách thực hiện,
...
Bước k có nk cách thực hiện.
Khi đó, có n1 × n2 × ...× nk cách thực hiện công việc đó.
Ví dụ 1.13. Một lớp có 17 sinh viên nam và 13 sinh viên nữ. Hỏi có bao nhiêu cách chọn ra
hai sinh viên gồm 1 nam và một nữ?
Ví dụ 1.14. Một đoàn tàu có 5 toa, mỗi toa có ít nhất 3 chổ trống. Có bao nhiêu cách xếp
3 hành khách lên đoàn tàu đó?
1.3.2 Hoán vị
Số cách sắp xếp n phần tử vào n vị trí sao cho mỗi vị trí có đúng 1 phần tử là n!.
1.3.3 Tổ hợp
Số cách lấy ra k phần tử khác nhau từ một tập n phần tử là
Ckn =n!
k!(n− k)!(0 ≤ k ≤ n).
Ví dụ 1.15. Một lớp học có 17 sinh viên nam và 13 sinh viên nữ.
a) Chọn ngẫu nhiên 3 người, hỏi có bao nhiêu cách chọn?
b) Hỏi có bao nhiêu cách chọn ra 2 nam và 1 nữ?
6
Giáo trình xác suất thống kê
1.4 Công thức cộng xác suất
Cho A và B là hai biến cố bất kì, ta có
P (A ∪B) = P (A) + P (B)− P (A ∩B)
Ví dụ 1.16. Một lớp có 20 sinh viên, trong đó có 10 sinh viên biết tiếng Anh, 12 sinh viên
biết tiếng Pháp và 7 sinh viên biết cả 2 thứ tiếng Anh và Pháp. Chọn ngẫu nhiên 1 sinh viên.
Tìm xác suất sinh viên đó biết ít nhất 1 ngoại ngữ tiếng Anh hoặc tiếng Pháp.
Giải. Gọi A là biến cố chọn được sinh viên biết tiếng Anh, B là biến cố chọn được sinh viên
biết tiếng Pháp.
P (A ∪B) = P (A) + P (B)− P (AB) = 0, 75.
1.5 Xác suất có điều kiện
Xét ví dụ: Ở một lớp học phần môn Triết gồm 17 sinh viên nam và 13 sinh viên nữ. Trong
số đó có 12 sinh viên nam và 11 sinh viên nữ thi qua môn Triết.
Chọn ngẫu nhiên một sinh viên, xác suất sinh viên đó thi qua môn Triết là 23/30.
Nhưng nếu chọn ngẫu nhiên một sinh viên nam thì xác suất sinh viên đó thi qua môn Triết
sẽ là 12/17.
Rõ ràng 2 xác suất trên không bằng nhau. Để phân biệt 2 xác suất trên ta kí hiệu A là biến
cố sinh viên đó thi qua môn Triết, B là điều kiện sinh viên được chọn là sinh viên nam. Khi
đó P(A/B)=12/17 được gọi là xác suất của biến cố A với điều kiện B.
Chú ý rằng
P (A/B) =|A ∩B||B|
=|A ∩B|/|Ω||B|/|Ω|
=P (A ∩B)
P (B).
Cho hai biến cố A và B với P (B) > 0, xác suất của A với điều kiện B, kí hiệu P (A/B),
xác định bởi
P (A/B) =P (A ∩B)
P (B).
Ví dụ 1.17. Một hộp đựng 20 bóng đèn tốt, 7 bóng đèn sẽ hỏng sau 1 giờ sử dụng và 3 bóng
đèn hỏng. Lấy ngẫu nhiên một chiếc sử dụng thấy rằng nó không phải là bóng đèn hỏng.
Tính xác suất đó là chiếc bóng đèn tốt.
7
TS. Lê Văn Dũng
Giải. Gọi A là biến cố lấy được bóng đèn tốt, B là biến cố lấy được bóng đèn không phải là
bóng đèn hỏng.
P (A/B) = 20/27 ≈ 0, 74.
Ví dụ 1.18. Trong một vùng dân cư tỉ lệ người hút thuốc là 60%, tỉ lệ người vừa hút thuốc
vừa bị viêm phổi là 35%. Chọn ngẫu nhiên một người của vùng dân cư đó thấy người này
hút thuốc. Tìm xác suất để người này bị viêm phổi.
Giải. Gọi A là biến cố người được chọn hút thuốc, B là biến cố người được chọn bị viêm
phổi. Xác suất để người này bị viêm phổi là
P (B/A) =P (A ∩B)
P (B)=
0, 35
0, 6≈ 0, 583.
1.6 Công thức nhân xác suất
P (A ∩B) = P (A/B)P (B) = P (B/A)P (A)
Ví dụ 1.19. Một hộp đựng 4 chiếc bút mới và 6 chiếc bút cũ. Mỗi ngày lấy ngẫu nhiên một
chiếc ra sử dụng, cuối ngày trả bút đó lại hộp. Tính xác suất
a) Sau 3 ngày sử dụng hộp còn đúng 1 bút mới.
b) Sau 2 ngày sử dụng hộp còn đúng 3 bút mới.
Giải. Kí hiệu Ak là biến cố ngày thứ k lấy được bút mới.
a) P (A1A2A3) = P (A1)P (A2/A1)P (A3/A1A2) =4
10.
3
10.
2
10= 0, 24.
b)
P ((A1Ac2) ∪ (Ac1A2)) = P (A1A
c2) + P (Ac1A2)
= P (A1)P (Ac2/A1) + P (Ac1)P (A2/Ac1)
=4
10.
7
10+
6
10.
4
10= 0, 52.
8
Giáo trình xác suất thống kê
Ví dụ 1.20. Trong 1 trường đại học có 40% sinh viên học tiếng Anh, 30% sinh viên học
tiếng Pháp, trong số sinh viên học tiếng Anh có 55% sinh viên học tiếng Pháp. Chọn ngẫu
nhiên 1 sinh viên, biết sinh viên đó học tiếng Pháp. Tính xác suất để sinh viên đó học tiếng
Anh.
Giải. Gọi A là biến cố chọn được sinh viên biết tiếng Anh, B là biến cố chọn được sinh viên
biết tiếng Pháp.
P (A/B) =P (A).P (B/A)
P (B)=
0, 4.0, 55
0, 3≈ 0, 733.
1.7 Các biến cố độc lập
Ta có thể hiểu hai biến cố A và B độc lập nếu việc xảy ra hay không xảy ra biến cố này
không làm thay đổi xác suất xảy ra của biến cố kia. Tức là,
P (A/B) = P (A) hoặc P (B/A) = P (B).
Khi đó, nếu biến cố A độc lập với biến cố B thì từ công thức nhân xác suất suy ra
P (A ∩B) = P (A)P (B).
Định nghĩa 1.1. Hai biến cố A và B được gọi là độc lập nếu
P (A ∩B) = P (A)P (B).
Trong trường hợp tổng quát ta có định nghĩa sau:
Định nghĩa 1.2. Một tập hữu hạn các biến cố T = A1;A2; ..., An (n ≥ 2) được gọi là độc
lập nếu k (2 ≤ k ≤ n) biến cố bất kì An1 , An2 , ..., Ank của T ta có
P (An1 .An2 ...Ank) = P (An1)P (An2)...P (Ank).
Từ định nghĩa trên suy ra: nếu các biến cố A1;A2; ..., An độc lập thì
P (A1.A2...An) = P (A1)P (A2)...P (An).
Định lý 1.3. Nếu A và B độc lập thì A và Bc, Ac và B, Ac và Bc là những cặp biến cố độc
lập.
9
TS. Lê Văn Dũng
Ví dụ 1.21. Hộp I có 3 bi đỏ và 7 bi xanh; hộp II có 6 bi đỏ và 4 bi xanh. Lấy ngẫu nhiên
từ mỗi hộp ra 1 viên bi. Tìm xác suất để
a) lấy được hai viên bi cùng màu đỏ.
b) lấy được 1 bi xanh và 1 bi đỏ.
Giải. Kí hiệu A là lấy từ hộp I được viên bi màu đỏ, B là lấy từ hộp II được viên bi màu đỏ.
a) A và B độc lập nên xác suất lấy được hai viên bi cùng màu đỏ là
P (AB) = P (A).P (B) =3
10.
6
10= 0, 18.
b) P (ABc ∪ AcB) = P (A)P (Bc) + P (Ac)P (B) = 0, 54.
1.8 Công thức xác suất toàn phần và công thức Bayes
1.8.1 Hệ đầy đủ
Một hệ gồm n biến cố E1, E2, . . . , En được gọi là hệ đầy đủ nếu thỏa mãn hai điều kiện
(1) Ei ∩ Ej = ∅ nếu i 6= j (hai biến cố bất kì khác nhau không thể đồng thời xảy ra);
(2) E1 ∪ E2 ∪ . . . ∪ En = Ω (chắc chắn có ít nhất 1 biến cố xảy ra).
Từ định nghĩa hệ đầy đủ ta suy ra: nếu E1, E2, . . . , En là hệ đầy đủ thì
P (E1) + P (E2) + ...+ P (En) = 1.
Ví dụ 1.22. Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên.Kí hiệu
E1 là biến cố sinh viên được hỏi sinh vào mùa xuân (gồm các tháng 1,2,3);
E2 là biến cố sinh viên được hỏi sinh vào mùa hạ (gồm các tháng 4,5,6);
E3 là biến cố sinh viên được hỏi sinh vào mùa thu (gồm các tháng 7,8,9);
E4 là biến cố sinh viên được hỏi sinh vào mùa đông (gồm các tháng 10,11,12);
Khi đó E1, E2, E3, E4 là hệ đầy đủ.
Ví dụ 1.23. Một hộp đựng 5 bi xanh và 6 bi đỏ và 7 bi vàng. Lấy ngẫu nhiên 2 viên bi. Hãy
chỉ ra một số hệ đầy đủ.
10
Giáo trình xác suất thống kê
1.8.2 Công thức xác suất toàn phần và công thức Bayes
Định lý 1.4. Giả sử Ei; 1 ≤ i ≤ n là một hệ đầy đủ sao cho P (Ei) > 0, A là biến cố bất
kì. Khi đó
(i) P (A) = P (E1)P (A/E1) + P (E2)P (A/E2) + ...+ P (En)P (A/En).
(ii)Nếu thêm điều kiện P (A) > 0 thì
P (Ei/A) =P (Ei)P (A/Ei)
P (A)
=P (Ei)P (A/Ei)
P (E1)P (A/E1) + P (E2)P (B/E2) + ...+ P (En)P (A/En).
Ví dụ 1.24. Hộp I đựng 4 bi xanh và 3 bi đỏ và 2 bi vàng, hộp II đựng 5 bi xanh 2 bi đỏ và
3 bi vàng. Từ hộp I lấy ngẫu nhiên ra một viên bi bỏ vào hộp II sau đó từ hộp II lấy ngẫu
nhiên ra hai viên bi. Tính xác suất để hai viên bi lấy ra lần 2 là 2 bi xanh.
Giải. Gọi E là biến cố viên bi lấy từ hộp I bỏ vào hộp II là bi xanh, A là biến cố 2 viên bi
lấy lần 2 là 2 viên bi xanh
P (A) = P (E)P (A/E) + P (Ec)P (A/Ec) =4
9.C26
C211
+5
9.C25
C211
=2
9≈ 0, 22.
Ví dụ 1.25. Một nhà máy có 3 phân xưởng sản xuất. Phân xưởng I sản xuất 50% sản phẩm,
phân xưởng II sản xuất 30% sản phẩm, phân xưởng III sản xuất 20% sản phẩm. Biết rằng tỉ
lệ phế phẩm do phân xưởng I, phân xưởng II, phân xưởng III sản xuất ra tương ứng là 2%,
1% và 3%. Lấy ngẫu nhiên 1 sản phẩm của nhà máy.
a) Tìm xác suất để sản phẩm lấy ra là phế phẩm.
b) Giả sử sản phẩm lấy ra là chính phẩm. Tính xác suất để sản phẩm đó do phân xưởng I
sản xuất.
Giải. Kí hiệu E1, E2, E3 lần lượt là các biến cố sản phẩm lấy ra là của phân xưởng I, II và
III. E1, E2, E3 là hệ đầy đủ.
a) Kí hiệu A là biến cố sản phẩm lấy ra là phế phẩm. Theo công thức xác suất toàn phần:
P (A) = P (E1).P (A/E1) + P (E2)P (A/E2) + P (E3)P (A/E3)
= 0, 5.0, 02 + 0, 3.0, 01 + 0, 20, 03 = 0, 019.
b) P (E1/Ac) =
P (Ac/E1).P (E1))
P (Ac)=
0, 98.0, 5
1− 0, 019≈ 0, 4995.
11
TS. Lê Văn Dũng
Ví dụ 1.26. Một công ty sử dụng hai máy cùng sản xuất 1 loại sản phẩm. Tỉ lệ phế phẩm
của máy I là 3% và của máy II là 2%. Số lượng sản phẩm do máy I sản xuất là 2/3 và máy
II sản xuất là 1/3 tổng sản phẩm của công ty. Tính tỉ lệ phế phẩm của công ty đó.
Giải. Đáp án: 2, 7%.
1.9 Công thức Bernoulli
Định lý 1.5. Cho Ω là không gian mẫu của phép thử C và A là một biến cố thỏa mãn
P (A) = p ∈ (0; 1).
Thực hiện liên tiếp n lần độc lập phép thử C, xác suất có đúng k lần xuất hiện biến cố A
là
pn(k) = Cknpk(1− p)n−k.
Ví dụ 1.27. Tung 10 lần một con xúc xắc cân đối đồng chất.
a) Tính xác suất có đúng 6 lần xuất hiện mặt một chấm
b) Tính xác suất có ít nhất 9 lần xuất hiện mặt một chấm.
b) Tính xác suất có ít nhất 1 lần xuất hiện mặt một chấm.
Giải. Gọi A là biến cố xuất hiện mặt một chấm ở mỗi lần tung xúc xắc, p = P (A) = 1/6.
a) p10(6) = C610(
1
6)6(
5
6)4 ≈ 0, 0022.
b) p10(k ≥ 9) = C910(
1
6)9(
5
6)1 + (
1
6)10 ≈ 8.10−7.
c) p10(k ≥ 1) = 1− p10(k = 0) = 1− (5
6)10 ≈ 0, 84.
Định lý 1.6. Cho n ∈ Z, n ≥ 1 và p ∈ (0; 1). Hàm số
pn(k) = Cknpk(1− p)n−1 với k ∈ 0, 1, 2..., n
đạt giá trị lớn nhất tại
k =
[(n+ 1)p] nếu (n+ 1)p 6∈ Z(n+ 1)p− 1 và (n+ 1)p nếu (n+ 1)p ∈ Z
Ví dụ 1.28. Xác suất bắn trúng mục tiêu của một xạ thủ là 0, 6. Cho xạ thủ này bắn độc
lập 20 phát vào mục tiêu. Tìm số lần bắn trúng mục tiêu có xác suất xảy lớn nhất.
Giải. (n + 1)p = 21.0, 6 = 12, 6 6∈ Z nên số lần bắn trúng mục tiêu có xác suất lớn nhất là
k = 12.
12
CHƯƠNG2
BIẾN NGẪU NHIÊN
2.1 Định nghĩa
Xét ví dụ: Tung đồng thời 2 con xúc xắc. Gọi X là tổng số chấm trên mặt xuất hiện của
hai con xúc xắc.
Ta có không gian mẫu Ω = (m;n) : m,n = 1, 2, 3, 4, 5, 6.Khi đó X = m+ n.
X chính là hàm số X : Ω → R và mỗi lần thực hiện phép thử (tung xúc xắc) sẽ cho ta một
giá trị của X hoàn toàn ngẫu nhiên. Ta gọi X là biến ngẫu nhiên. Ta có định nghĩa sau.
Cho Ω là không gian mẫu của phép thử C. Mỗi ánh xạ X : Ω→ R được gọi là biến ngẫu
nhiên (mỗi lần thực hiện phép thử C cho một giá trị ngẫu nhiên của X).
- Nếu X có miền giá trị là tập hữu hạn x1, x2, ..., xn hoặc tập đếm được x1, x2, ..., xn, ...
thì X được gọi là biến ngẫu nhiên rời rạc.
- Nếu X có miền giá trị là một khoảng trên trục số thì X được gọi là biến ngẫu nhiên
liên tục.
Ví dụ 2.1. Tung một con xúc xắc, gọi X là "Số chấm xuất hiện". Miền giá trị của X là
1; 2; 3; 4; 5; 6 nên X là biến ngẫu nhiên rời rạc.
Ví dụ 2.2. Gọi X (mét) là chiều cao của một sinh viên được chọn ngẫu nhiên trong lớp học.
X có miền giá trị (0; 2, 5) nên X là biến ngẫu nhiên liên tục.
2.2 Biến ngẫu nhiên độc lập
Cho n biến ngẫu nhiên X1, ..., Xn xác định trên cùng một không gian mẫu. Ta nói X1, ..., Xn
độc lập nếu với mọi a1, ..., an ∈ R ta có các biến cố X < a1, ..., X < an độc lập.
2.3 Biến ngẫu nhiên rời rạc
2.3.1 Bảng phân phối xác suất
Cho biến ngẫu nhiên X có miền giá trị E = x1, x2, ..., xn, .... Bảng số
X x1 x2 ... xn ...P P (X = x1) P (X = x2) ... P (X = xn) ...
13
TS. Lê Văn Dũng
được gọi là bảng phân phối xác suất của X.
Hàm số
f(x) = P (X = x) =
P (X = xk) nếu x = xk, k = 1, 2, ...
0 nếu x 6∈ E
được gọi là hàm mật độ của X.
Ví dụ 2.3. Một hộp đựng 3 viên bi xanh và 2 viên bi đỏ, các viên bi giống nhau hoàn toàn
về kích thước và khối lượng. Lấy ngẫu nhiên ra 2 sản phẩm, gọi X là số bi xanh có trong 2
viên bi lấy ra. Lập bảng phân phối xác suất của X.
Giải.
X 0 1 2P 0, 1 0, 6 0, 3
Chú ý. Nếu biến ngẫu nhiên X có miền giá trị x1, x2, ..., xn, ... thì∑k
P (X = xk) = 1.
2.3.2 Hàm phân phối xác suất
1. Định nghĩa
Cho biến ngẫu nhiên X có miền giá trị x1, x2, ..., xn, .... Hàm số
F (x) = P (X < x) =∑xi<x
P (X < xi), x ∈ R
được gọi là hàm phân phối xác suất của biến ngẫu nhiên X.
Ví dụ 2.4. Tìm hàm phân phối của X trong Ví dụ 2.3.
Giải.
F (x) =
0 nếu x ≤ 0
0, 1 nếu 0 < x ≤ 1
0, 7 nếu 1 < x ≤ 2
1 nếu x > 2.
14
Giáo trình xác suất thống kê
2. Tính chất
Hàm phân phối F (x) của biến ngẫu nhiên rời rạc X có các tính chất sau:
(1) 0 ≤ F (x) ≤ 1; limx→−∞ F (x) = 0;limx→+∞ F (x) = 1.
(2) Nếu x1 ≤ x2 thì F (x1) ≤ F (x2).
(3) Không liên tục trên R.(4) Nếu a < b thì P (a ≤ X < b) = F (b)− F (a).
2.3.3 Các số đặc trưng
1. Kì vọng (giá trị trung bình)
Giả sử biến ngẫu nhiên rời rạc X có bảng phân phối xác suất
X x1 x2 ... xn...P p1 p2 ... pn...
với pk = P (X = xk)
Kì vọng của X, kí hiệu E(X), xác định bởi
E(X) =∑k
xkpk.
Ví dụ 2.5. Cho biến ngẫu nhiên X có bảng phân phối xác suất
X 0 1 2 3 4P 0, 6561 0, 2916 0, 0486 0, 0036 0, 0001
Tính E(X).
Giải.
E(X) = 0.0, 6561 + 1.0, 2916 + 2.0, 0486 + 3.0, 0036 + 4.0, 0001 = 0, 4.
Ví dụ 2.6. Tỉ lệ tai nạn xe máy chết người trong 1 năm ở một nước là 0,001. Một công ty
bán bảo hiểm xe máy với giá 65 nghìn đồng 1 hợp đồng bảo hiểm/xe/năm. Nếu xảy ra tai
nạn chết người thì được trả bảo hiểm 30 triệu đồng. Biết rằng chi phí quản lí và chi phí khác
chiếm 20% trên mỗi hợp đồng bảo hiểm. Tính lợi nhuận kì vọng trên mỗi hợp đồng bảo hiểm
của công ty bảo hiểm trên.
Giải. Số tiền thu được sau khi trừ chi phí của mỗi hợp đồng bảo hiểm là 65 (nghìn) ×80% = 52
(nghìn).
Gọi X ( nghìn đồng) là lợi nhuận thu được trên mỗi hợp đồng bảo hiểm, ta có bảng phân
phối xác suất của X là
X 52-30000 52P 0,001 0,999
E(X) = (52− 30000).0, 001 + 52.0, 999 = 22 (nghìn đồng).
15
TS. Lê Văn Dũng
Định lý 2.1. Cho a và b là hằng số; X và Y là biến ngẫu nhiên. Khi đó
(1)E(aX + b) = aE(X) + b;
(2)E(aX + bY ) = aE(X) + bE(Y ).
2. Phương sai và độ lệch chuẩn
Để đo độ phân tán các giá trị của X xung quanh giá trị trung bình người ta đã đưa ra
khái niệm phương sai xác định như sau
Giả sử biến ngẫu nhiên X có bảng phân phối
X x1 x2 ... xn...P p1 p2 ... pn...
với pk = P (X = xk)
Phương sai, kí hiệu D(X), xác định bởi
D(X) =∑k
[xk − E(X)]2pk
=∑k
x2kpk −
[∑k
xkpk
]2.
Độ lệch chuẩn của X là
σ(X) =√D(X).
Ý nghĩa của phương sai. Phương sai của một đại lượng ngẫu nhiên X càng nhỏ thì độ
phân tán các giá trị của X gần xung quanh giá trị trung bình E(X) càng thấp.
Ví dụ 2.7. Số lượng tin nhắn được gửi trong 1 giờ ở một mạng máy tính có bảng phân phối
xác suất:
X 10 11 12 13 14 15P 0, 08 0, 15 0, 3 0, 2 0, 2 0, 07
Tính trung bình và độ lệch chuẩn số tin nhắn trong 1 giờ của mạng máy tính trên.
Giải.
E(X) = 100, 08 + 11.0, 15 + 12.0, 3 + 13.0, 2 + 14.0, 2 + 15.0, 07 = 12, 5,
D(X) = 102.0, 08 + 112.0, 15 + 122.0, 3 + 132.0, 2 + 142.0, 2 + 152.0, 07− 12, 52 = 1, 85,
σ(X) =√D(X) ≈ 1, 36.
Định lý 2.2. (1) D(X) = E(X2) = (E(X))2;
(2) Nếu a, b là hằng số thì D(aX + b) = a2D(X);
(3) Nếu X, Y là 2 biến ngẫu nhiên độc lập thì
D(X ±X) = D(X) +D(Y ).
16
Giáo trình xác suất thống kê
3. Trung vị
Giá trị xk của biến ngẫu nhiên rời rạc X được gọi là trung vị nếu
P (X < xk) ≤1
2và P (X > xk) ≤
1
2.
Kí hiệu Med(X) = xk.
4. Mốt
Giá trị xk của biến ngẫu nhiên rời rạc X được gọi là mode của X nếu
P (X = xk) ≥ P (X = x) ∀x ∈ R.
Kí hiệu Mod(X) = xk.
2.4 Biến ngẫu nhiên liên tục
2.4.1 Hàm mật độ xác suất
Hàm số f(x) xác định trên toàn trục số được gọi là hàm mật độ của biến ngẫu nhiên liên
tục X nếu thỏa mãn 3 điều kiện
(1) f(x) ≥ 0 ∀x;
(2)+∞∫−∞
f(x)dx = 1;
(3) Với a ≤ b, P (a ≤ X ≤ b) =∫ baf(x)dx.
Nếu f(x) là hàm mật độ của biến ngẫu nhiên liên tục X thì từ (3) ta có xác suất để X nhận
giá trị trên đoạn [a; b] bằng diện tích hình phẳng giới hạn bởi đồ thị y = f(x), trục hoành
y = 0 và hai đường thẳng x = a, x = b. Vì vậy nếu khoảng cách từ a đến b càng nhỏ thì xác
suất đó tiến tới 0, hay với ε > 0,
P (a− ε ≤ X ≤ a+ ε) =
a+ε∫a−ε
f(x)dx,
cho ε→ 0 ta có P (X = a) = 0. Vì vậy:
17
TS. Lê Văn Dũng
Nếu X là biến ngẫu nhiên liên tục thì P (X = a) = 0 với mọi a và
P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b).
Ví dụ 2.8. Cho biến ngẫu nhiên liên tục X là đường kính lỗ khoan trên 1 tấm kim loại.
Đường kính đúng tiêu chuẩn là 12, 5 mm. Dữ liệu quá khứ chỉ ra rằng X có hàm mật độ
f(x) =
20e−20(x−12,5) nếu x ≥ 12, 5
0 nếu x < 12, 5.
Tính P (X > 12, 6), P (12.5 < X < 12, 6).
Giải.
P (X > 12, 6) =∞∫
12,6
f(x)dx =∞∫
12,6
20e−20(x−12,5)dx =1
e2≈ 0, 133.
P (12, 5 < X < 12, 6) =12.6∫12,5
f(x)dx =∞∫
12,6
20e−20(x−12,5)dx = 1− 1
e2≈ 0, 864.
2.4.2 Hàm phân phối xác suất
1. Định nghĩa
Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất f(x). Hàm số
F (x) = P (X < x) =
x∫−∞
f(t)dt, x ∈ R.
được gọi là Hàm phân phối xác suất của biến ngẫu nhiên X.
Ví dụ 2.9. Thời gian để một phản ứng hóa học hoàn tất (tính theo đơn vị giây) là một biến
ngẫu nhiên liên tục được xấp xỉ bởi hàm phân phối
F (x) =
0 nếu x < 0
1− e−0,01x nếu x ≥ 0.
Tìm hàm mật độ của X. Tính xác suất phản ứng hóa học kết thúc trước 200 giây.
Giải. P (X < 200) = F (200) = 1− e−2 ≈ 0, 865.
Ví dụ 2.10. Tìm hàm phân phối xác suất trong của các đại lượng ngẫu nhiên ở Ví dụ 2.8.
Giải.
F (x) =
0 nếu x < 12, 5
1− e−20(x+12,5) nếu x ≥ 12, 5.
18
Giáo trình xác suất thống kê
2. Tính chất
Cho biến ngẫu nhiên liên tục X có hàm phân phối xác suất F (x) và hàm mật độ xác
suất f(x). Khi đó
(1) 0 ≤ F (x) ≤ 1; limx→−∞ F (x) = 0;limx→+∞ F (x) = 1.
(2) Nếu x1 ≤ x2 thì F (x1) ≤ F (x2).
(3) Liên tục trên R.(4) Nếu a < b thì
P (a < X < b) = P (a ≤ X ≤ b) =
∫ b
a
f(x)dx = F (b)− F (a).
(5) F ′(x) = f(x).
Ví dụ 2.11. Cho biến ngẫu nhiên liên tục X có hàm mật độ
f(x) =
k(3x− x2) nếu x ∈ [0; 3]
0 nếu x 6∈ [0; 3]
a) Tìm hằng số k.
b) Tính P (X < 0, 5), P (X ≥ 1).
c) Tìm hàm phân phối xác suất của X.
Giải. a) Ta có∫∞−∞ f(x)dx = 1⇔
∫ 3
0k(3x− x2)dx = 1⇔ k = 2/9.
b) P (X < 0, 5) =∫ 0,5
−∞ f(x)dx =∫ 0
−∞ f(x)dx+∫ 0,5
0f(x)dx = 2/27
P (X > 1) =∫ +∞1
f(x)dx =∫ 3
1f(x)dx+
∫ +∞3
f(x)dx = 20/27
c) F (x) =∫ x−∞ f(t)dt.
Nếu x < 0 thì F (x) =∫ x−∞ 0dt = 0.
Nếu 0 ≤ x ≤ 3 thì F (x) =∫ 0
−∞ f(t)dt+∫ x0f(t)dt =
2
9(3x2
2− x3
3).
Nếu x > 3 thì∫ 0
−∞ f(t)dt+∫ 3
0f(t)dt+
∫ +∞3
f(t)dt = 1.
Vậy
F (x) =
0 nếu x < 02
9(3x2
2− x3
3) nếu 0 ≤ x ≤ 3
1 nếu x > 3
19
TS. Lê Văn Dũng
2.4.3 Các số đặc trưng
1. Kì vọng, phương sai và độ lệch chuẩn
Giả sử biến ngẫu nhiên liên tục X có hàm mật độ f(x).
Kì vọng của X, kí hiệu E(X), xác định bởi
E(X) =
∫ +∞
−∞xf(x)dx.
Phương sai của X, kí hiệu D(X), xác định bởi
D(X) =
∫ +∞
−∞(x− E(X))2f(x)dx =
∫ +∞
−∞x2f(x)dx− (
∫ +∞
−∞xf(x)dx)2.
Độ lệch chuẩn của X là σ(X) =√D(X).
Ví dụ 2.12. Tính kì vọng và phương sai của các đại lượng ngẫu nhiên trong Ví dụ 2.8.
Giải. E(X) =+∞∫−∞
xf(x)dx =+∞∫12,5
20xe−20(x−12,5)dx = 12, 55.
D(X) =+∞∫−∞
x2f(x)dx− (E(X))2 =+∞∫12,5
20x2e−20(x−12,5)dx− 12, 552 = 0, 0025.
Ví dụ 2.13. Cho X là đại lượng ngẫu nhiên liên tục có hàm mật độ
f(x) =
ax2 nếu 0 ≤ x ≤ 1
0 nếu x < 0 hoặc x > 1.
Tìm hệ số a, tính E(X).
Giải.+∞∫−∞
f(x)dx = 1⇔ a1∫0
x2dx = 1⇔ a = 3.
E(X) =+∞∫−∞
xf(x)dx =1∫0
3x3dx = 0, 75.
Tính chất. Kì vọng và phương sai của biến ngẫu nhiên liên tục tương tự tính chất của biến
ngẫu nhiên rời rạc.
2. Trung vị
Giá trị x0 của biến ngẫu nhiên liên tục X được gọi là trung vị nếu
P (X < x0) ≤1
2và P (X > x0) ≤
1
2.
Do P (X > x0) ≤1
2⇔ P (X ≤ x0) ≥
1
2suy ra F (x0) =
1
2. Vì vậy trung vị của biến ngẫu nhiên
liên tục X là nghiệm phương trình F (x) =1
2với F (x) là hàm phân phối xác suất của X.
Kí hiệu Med(X) = x0.
20
Giáo trình xác suất thống kê
3. Mốt
Giá trị x0 của biến ngẫu nhiên liên tục X có hàm mật độ f(x) được gọi là mode của X
nếu hàm mật độ f(x) đạt giá trị lớn nhất tại x0.
Kí hiệu Mod(X) = x0.
2.5 Một số phân phối xác suất quan trọng
2.5.1 Phân phối 0− 1 (phân phối Bernoulli
Định nghĩa
Biến ngẫu nhiên rời rạc X được gọi là có phân phối 0− 1 với tham số p ∈ (0; 1) nếu miền
giá trị của X là 0, 1 và
P (X = k) = pk(1− p)n−k, k = 0, 1.
Kí hiệu: X ∼ A(p)
Tính chất
Nếu X ∼ A(p) thì E(X) = p và D(X) = p(1− p).
2.5.2 Phân phối nhị thức B(n; p)
Định nghĩa
Biến ngẫu nhiên rời rạc X được gọi là có phân phối nhị thức với tham số n, p ∈ (0; 1) nếu
X có miền giá trị E = 0, 1, 2, ..., n và
P (X = k) = Cknpk(1− p)n−k, k ∈ E.
Kí hiệu: X ∼ B(n, p)
Ví dụ 2.14. Tỉ lệ phế phẩm của một nhà máy là 10%. Lấy ngẫu nhiên 3 sản phẩm của nhà
máy này, gọi X là số phế phẩm trong 3 sản phẩm lấy ra. Lập bảng phân phối xác suất của
X.
Giải.
X 0 1 2 3P 0, 729 0, 243 0, 027 0, 001
21
TS. Lê Văn Dũng
Tính chất
(i) Nếu X ∼ B(n, p) thì E(X) = np và D(X) = np(1− p).
(ii) Nếu X1, X2, ..., Xn là n biến ngẫu nhiên độc lập cùng phân phối A(p) thì biến ngẫu
nhiên S = X1 +X2 + ...+Xn có phân phối nhị thức B(n, p).
Ví dụ 2.15. Tỉ lệ phế phẩm của một nhà máy là 12%. Các sản phẩm của nhà máy được
đóng gói thành từng hộp, mỗi hộp 20 sản phẩm.
a) Trung bình mỗi hộp chứa bao nhiêu phế phẩm? Tính độ lệch chuẩn số phế phẩm trong
mỗi hộp.
b) Một khách hàng mua ngẫu nhiên một hộp sản phẩm. Tính xác suất hộp đó có chứa phế
phẩm.
c) Tìm số phế phẩm trong hộp có xác suất lớn nhất.
Giải.
Gọi X là số phế phẩm trong mỗi hộp. Suy ra X ∼ B(20; 0, 12).
a) E(X) = np = 2, 4.
b) P (X ≥ 1) = 1− P (X = 0) = 1− 0, 883 = 0, 318528.
c) (n+ 1)p = 2, 52 6∈ Z nên P (X = k) = Ck20.0, 12k.0, 8820−k đạt giá trị lớn nhất tại k = 2.
2.5.3 Phân phối Poisson
Biến ngẫu nhiên rời rạc X được gọi là có phân phối Poisson với tham số λ (λ > 0) nếu X
có miền giá trị N = 0, 1, 2, ... và
P (X = k) =e−λλk
k!k ∈ N.
Kí hiệu: X ∼ ℘(λ).
Phân phối Poisson thường gặp thể hiện phân phối số lần xuất hiện 1 biến cố nào đó trong
một khoảng thời gian (t1; t2) và tỉ lệ với độ dài khoảng đó, tức là trong khoảng thời gian có
độ dài T phân phối có tham số λ thì trong khoảng thời gian có độ dài kT phân phối sẽ có
tham số là kλ.
Ví dụ 2.16. Một gara cho thuê xe ôtô có 2 ôtô loại A. Số đơn đặt hàng ôtô loại này vào
ngày cuối tuần có phân phối Poisson với số đơn trung bình 2 đơn/ngày. Tính xác suất trong
ngày cuối tuần:
a) Có một ôtô loại A được thuê.
b) Có 2 ôtô loại A được thuê.
c) Gara không đáp ứng nhu cầu thuê ôtô loại này.
22
Giáo trình xác suất thống kê
Giải. Gọi X là số đơn đặt hàng thuê ô tô ngày cuối tuần của gara. Ta có X ∼ ℘(2) (do
E(X) = λ = 2).
a) P (X = 1) = e−221
1!=≈ 0, 27.
b) P (X ≥ 2) = 1− P (X < 2) = 1− P (X = 0)− P (X = 1) = 1− e−2 − e−221
1!=≈ 0, 59.
c) P (X > 2) = 1− P (X < 2) = 1− P (X = 0)− P (X = 1) ≈ 0, 41.
Ví dụ 2.17. Ở một tổng đài Bưu điện, số cuộc điện thoại gọi đến xuất hiện ngẫu nhiên, độc
lập với nhau và có tốc độ trung bình 2 cuộc gọi trong 1 phút. Tính xác suất để
a) có đúng 5 cuộc trong 2 phút.
b) không có cuộc điện thoại nào gọi đến trong khoảng thời gian 30 giây.
Giải.
a) Gọi X là số cuộc điện thoại gọi đến trong khoảng thời gian 2 phút, suy ra X có phân phối
Poisson. Vì E(X) = 4 nên λ = 4. Do đó
P (X = 5) = e−445
5!≈ 0, 156.
b) Gọi Y là số cuộc điện thoại gọi đến trong khoảng thời gian 30 giây. Y ∼ ℘(1). Do đó
P (Y = 0) = e−1 ≈ 0, 368.
Tính chất
(i) Nếu X ∼ ℘(λ) thì E(X) = λ, D(X) = λ.
(ii) Nếu X1, X2, ..., Xn là n biến ngẫu nhiên độc lập cùng phân phối với X ∼ ℘(λ) thì biến
ngẫu nhiên S = X1 +X2 + ...+Xn có phân phối Poisson ℘(nλ).
2.5.4 Phân phối chuẩn
1. Định nghĩa
Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn nếu X có hàm mật độ:
f(x) =1
σ√
2πe−
(x−µ)2
2σ2 , x ∈ R,
trong đó, −∞ < µ < +∞, σ > 0.
Kí hiệu X ∼ N(µ;σ2).
Dưới đây là hình dáng đồ thị của hàm mật độ f(x) của phân phối chuẩn:
23
TS. Lê Văn Dũng
2. Phân phối chuẩn tắc
Biến ngẫu nhiên có phân phối chuẩn với µ = 0 và σ = 1 được gọi là phân phối chuẩn tắc
và kí hiệu là Z. Khi đó,
hàm mật độ xác suất được kí hiệu là ϕ(x),
ϕ(x) =1√2πe−
x2
2 ;
hàm phân phối xác suất được kí hiệu là Φ0(x),
Φ0(x) =
x∫−∞
ϕ(t)dt =1√2π
x∫−∞
e−t2
2 dt.
0
Hàm Laplace
Hàm số
Φ(x) =1√2π
x∫0
e−t2
2 dt
được gọi là hàm Laplace. Khi đó ta có
Φ0(x) = 0, 5 + Φ(x).
Chú ý rằng Φ(x) là hàm lẻ, tức là Φ(−x) = −Φ(x). Các giá trị của Φ(x) được cho ở Bảng I.
24
Giáo trình xác suất thống kê
3. Tính Φ(x) bằng máy tính Casio
1) CASIO FX570MS:
- Mode→Mode→1 (SD);
- Shift→ 3 (Distr) →2;
- Nhập x.
2) CASIO FX570ES:
- Mode→3 (Stat)→1 (1-Var)→ AC
- Shift→ 1(Stat)→ 7 (Distr) →2;
- Nhập x.
3. Tính chất
Định lý 2.3. Cho X ∼ N(µ, σ2). Khi đó
(i) E(X) = µ, V ar(X) = σ2.
(ii) Z =X − µσ
∼ N(0; 1).
(iii) Nếu X1, X2, ..., Xn là các biến ngẫu nhiên độc lập, cùng phân phối xác suất với X ∼
N(µ;σ2) thì
S = X1 +X2 + ...+Xn ∼ N(nµ;nσ2) và X =X1 +X2 + ...+Xn
n∼ N(µ;σ2/n).
(iv) P (X < a) = P (X ≤ a) = Φ(a− µσ
).
(v) Với α < β ta có
P (α < X < β) = P (α ≤ X ≤ β) = Φ(β − µσ
)− Φ(α− µσ
).
Ví dụ 2.18. Cho ĐLNN liên tục X ∼ (1, 4). Tính P (X < 4, 5), P (X > 0), P (0 < X ≤ 3, 5).
Giải.
P (X < 2) = 0, 5 + Φ(4, 5− 1
2) = 0, 5 + Φ(1, 75) = 0, 96;
P (X > 0) = 1− P (X ≤ 0) = 0, 5− Φ(−0, 5) = 0, 5 + Φ(0, 5) = 0, 691;
P (0 < X ≤ 3, 5) = Φ(1, 25)− Φ(−0, 5) = Φ(1, 25) + Φ(0, 5)] = 0, 586.
Ví dụ 2.19. Giả sử số đo chiều dài của một sợi dây kim loại do một máy tự động cắt ra là
một biến ngẫu nhiên chuẩn với µ = 10mm, σ2 = 4mm2.
a) Tính xác suất lấy ra được một sợi dây có chiều dài lớn hơn 13mm.
b) Tìm tỉ lệ sợi dây do máy cắt ra có chiều dài từ 8,5mm đến 12,5mm.
Giải.
P (X > 13) = 1− P (X ≤ 13) = 0, 5− Φ(1, 5) = 0, 067;
P (8, 5 ≤ X ≤ 12, 5) = Φ(1, 25)− Φ(−0, 75) = Φ(1, 25) + Φ(0, 75)] = 0, 668.
Ví dụ 2.20. Đường kính của một trục trong ổ đĩa quang là một biến ngẫu nhiên chuẩn với
đường kính trung bình là 0, 2508 inch và độ lệch chuẩn 0, 0005 inch. Thông số kỹ thuật ghi
trên trục là 0, 25± 0, 0015 inch. Tìm tỉ lệ trục có đường kính phù hợp với thông số kỹ thuật.
25
TS. Lê Văn Dũng
Giải.
Gọi X là đường kính của trục ổ đĩa quang, ta có X ∼ N(0, 2508; 0, 00052).
P (0, 250, 0015 ≤ X ≤ 0, 25 + 0, 0015) = Φ(3)− Φ(−3) = 2Φ(3) = 0, 997.
Ví dụ 2.21. Lãi suất (%) đầu tư vào một dự án trong năm được xem là một biến ngẫu
nhiên có phân phối chuẩn. Theo đánh giá của uỷ ban đầu tư thì với xác suất 0,1587 cho lãi
suất cao hơn 20% và với xác suất 0,0228 cho lãi suất lớn hơn 25%. Vậy khả năng đầu tư mà
công ty không bị lỗ là bao nhiêu?
Giải. Gọi X là lãi suất đầu tư vào 1 dự án trong 1 năm, khi đó X ∼ N(µ;σ2). Từ giả thiết
ta có P (X > 0, 2) = 0, 1587
P (X > 0, 25) = 0, 0228⇔
1− Φ(0,2−µσ ) = 0, 1587
1− Φ(0,25−µσ ) = 0, 0228
⇔
Φ(0,2−µσ ) = 0, 8413 = Φ(1)
Φ(0,25−µσ ) = 0, 9772 = Φ(2)⇔µ = 0, 15
σ = 0, 05
Vì vậy, xác suất công ty không bị lỗ là
P (X > 0) = 1− Φ(0− 0, 15
0, 05) = Φ(3) = 0, 9987.
Ví dụ 2.22. Chiều cao X (mét) của nam thanh niên trưởng thành ở quốc gia A tuân theo
quy luật phân phối chuẩn N(1, 65; 0, 12). Chọn ngẫu nhiên 100 nam thanh niên của quốc gia
A. Tính xác suất sai số tuyệt đối giữa chiều cao trung bình của 100 nam thanh niên được
chọn với µ = 1, 65 không vượt quá 0, 03.
Giải. Gọi Xk là chiều cao của nam thanh niên thứ k (k = 1, 2, ..., 100). Khi đó,
X =X1 +X2 + ...+X100
100
là phân bố chiều cao trung bình của 100 nam thanh niên được chọn. Vì X ∼ N(1, 65; 0, 012)
nên ta có
P (|X − 1, 65| ≤ 0, 03) = 2Φ(3)− 1 = 0, 9974.
Như vậy khi chọn ngẫu nhiên 100 nam thanh niên thì xác suất chiều cao trung bình của 100
nam thanh niên đó rơi vào đoạn [1, 62; 1, 68] là 0, 9974.
Một số kết quả liên quan đến phân phối chuẩn thường hay áp dụng trong thực tế còn được
gọi là quy tắc 3σ:
P (µ− σ < X < µ+ σ) = 0, 6827,
P (µ− 2σ < X < µ+ 2σ) = 0, 9545,
P (µ− 3σ < X < µ+ 3σ) = 0, 9973
26
Giáo trình xác suất thống kê
2.5.5 Phân phối mũ
Biến ngẫu nhiên liên tục X được gọi là có phân phối mũ với tham số λ (λ > 0) nếu có
hàm mật độ
f(x) =
λe−λx nếu x ≥ 0
0 nếu x < 0.
Khi đó, E(X) = 1/λ, D(X) = 1/λ2.
Kí hiệu: X ∼ Exp(λ).
Trong cuộc sống, phân phối mũ thể hiện phân phối thời gian chờ giữa hai lần phục vụ của
các đối tượng, thời gian sống của các đối tượng, ...
Ví dụ 2.23. Giả sử tuổi thọ (X) của một chiếc quạt trong máy tính là một biến ngẫu nhiên
phân phối mũ với tuổi thọ trung bình là 3300 giờ. Tính xác suất
a) Chiếc quạt hỏng trước 10000 giờ.
b) có tuổi thọ lớn hơn 7000 giờ
Giải. Theo giả thiết E(X) =1
λ= 3300 nên λ =
1
3300.
a) P (X < 10000) =10000∫0
1
3300e−x/3300dx ≈ 0, 952.
b) P (X > 7000) = 1− P (X ≤ 7000) =7000∫0
1
3300e−x/3300dx ≈ 0, 88.
2.6 Các định lí giới hạn
2.6.1 Luật số lớn
Định lý 2.4 (Bất đẳng thức Chebyshev). Cho X là biến ngẫu nhiên. Khi đó, với mọi ε > 0
ta có
P (|X − E(X)| > ε) ≤ D(X)
ε2
27
TS. Lê Văn Dũng
Định lý 2.5 (Luật yếu số lớn). Dãy Xn, n ≥ 1 các biến ngẫu nhiên độc lập, cùng phân
phối xác suất với biến ngẫu nhiên X có kì vọng E(X) = µ và phương sai D(X) = σ2 hữu hạn
thì
limn→∞
P (| 1n
n∑k=1
Xk − µ| ≤ ε) = 1
với mọi ε > 0.
Chứng minh. Đặt S = X1 +X2 + ...+Xn. Do các biến ngẫu nhiên Xk độc lập, cùng phân phối
xác suất nên E(S) = nµ và D(S) = nσ2. Áp dụng bất đẳng thức Chebyshev, ta có
P (|Snn− µ| > ε) = P (|S − E(S)| > nε) ≤ D(S)
(nε)2=
σ2
nε2→ 0.
Ý nghĩa của luật số lớn: Nếu X1, X2, ..., Xn là các biến ngẫu nhiên độc lập, cùng phân
phối xác suất với biến ngẫu nhiên X thì với n đủ lớn ta có
X =X1 +X2 + ...+Xn
n≈ E(X).
2.6.2 Định lí giới hạn trung tâm
Định lý 2.6. Nếu Xn, n ≥ 1 là dãy các biến ngẫu nhiên độc lập, cùng phân phối xác suất
với biến ngẫu nhiên X có kì vọng E(X) = µ và phương sai D(X) = σ2 hữu hạn thì
limn→∞
P (S − nµ√
nσ< x) = Φ(x) x ∈ R,
trong đó S = X1 +X2 + ...+Xn.
Ý nghĩa Định lí giới hạn trung tâm: Nếu X1, X2, ..., Xn là các biến ngẫu nhiên độc
lập, cùng phân phối xác suất (không cần thiết có phân phối chuẩn) thì với n đủ lớn ta có
S = X1 +X2 + ...+Xn ≈ N(nµ;nσ2) và X =X1 +X2 + ...+Xn
n≈ N(µ;σ2/n).
Ví dụ 2.24. Tuổi thọ làm việc của một linh kiện điện tử là một biến ngẫu nhiên X có kì
vọng 250 giờ và độ lệch chuẩn là 250 giờ. Một công ty mỗi lần chỉ dùng một linh kiện đến
khi nào hỏng mới thay linh kiện khác. Tính xác suất với 100 linh kiện công ty này đủ dùng
ít nhất 1 năm (365 ngày).
Chứng minh. Gọi Xk là tuổi thọ của linh kiện thứ k (1 ≤ k ≤ 100), khi đó các biến ngẫu nhiên
X1, X2, ..., Xn độc lập, cùng phân phối xác suất với X. Theo Định lí giới hạn trung tâm ta có
S = X1 +X2 + ...+Xn ≈ N(100.250; 100.2502).
Do đó
P (S ≥ 365.24) = 1− P (S < 8760) = 1− Φ(8760− 25000
2500) = Φ(6, 496) = 1.
28
Giáo trình xác suất thống kê
Hệ quả 2.7. (Định lý giới hạn tích phân Moivre-Laplace) Giả sử Xn là biến ngẫu nhiên có
phân phối nhị thức B(n; p). Đặt
Zn =Xn − np√np(1− p)
.
Khi đó với mọi x ∈ R,limn→∞
P (Zn < x) = Φ(x).
Nói cách khác, với n đủ lớn ta có B(n; p) ≈ N(np;np(1− p)).
Xấp xỉ trên tốt nhất khi np > 5 và n(1− p) > 5.
Ví dụ 2.25. Xác suất bắn trúng mục tiêu của một xạ thủ là 0, 7. Cho xạ thủ bắn 100 phát
độc lập vào mục tiêu, tính xác suất có ít nhất 75 phát trúng mục tiêu.
Giải. Gọi X là số phát trúng trong 100 phát đã bắn. Khi đó, X ∼ B(100; 0, 7). Áp dụng hệ
quả trên, X xấp xỉ phân phối chuẩn N(70; 21). Do đó,
P (X ≥ 75) = 1− P (X < 75) = 1− Φ(75− 70√
21) ≈ 0, 14.
Ví dụ 2.26. Có 10000 xe máy mua bảo hiểm của một công ty. Mỗi chủ xe phải nộp phí 100
000 đồng/1 năm và trung bình nhận lại 5 triệu đồng nếu xe máy bị tai nạn giao thông. Qua
thống kê cho biết tỉ lệ xe máy bị tai nạn giao thông trong 1 năm là 0,006. Tính xác suất để:
a) Sau một năm hoạt động công ty bị lỗ.
b) Sau một năm hoạt động công ty lãi ít nhất 800 triệu.
Giải. Gọi X là số xe máy mua bảo hiểm của công ty bị tai nạn trong một năm, khi đó
X ∼ B(104; 0, 006). Vì np = 60 và np(1 − p) = 59, 64 nên ta có thể xấp xỉ X bởi phân phối
chuẩn N(60; 59, 64).
a) Xác suất sau một năm hoạt động công ty bị lỗ là
P (109 − 5.106X < 0) = P (X > 200) = 1− P (X ≤ 200) = 1− Φ(18, 13) = 0.
b) Xác suất sau một năm hoạt động công ty lãi ít nhất 800 triệu
P (109 − 5.106X ≥ 8.108) = P (X ≤ 40) = Φ(−2, 59) ≈ 0, 005.
29
TS. Lê Văn Dũng
30
CHƯƠNG3
THỐNG KÊ MÔ TẢ
3.1 Khái niệm mẫu và tổng thể
Trước hết ta xét ví dụ sau: để điều tra chiều cao của thanh niên Việt Nam từ 18 tuổi đến
25 tuổi, người điều tra phải lập danh sách tất cả thanh niên Việt Nam có độ tuổi từ 18 đến
25. Ứng với mỗi thanh niên, ghi chiều cao của thanh niên đó. Khi đó:
- Tập hợp toàn bộ thanh niên Việt Nam có độ tuổi từ 18 đến 25 được gọi là tổng thể
(population).
- Mỗi thanh niên được điều tra được gọi là cá thể của tổng thể.
- Vì số lượng thanh niên có độ tuổi từ 18 đến 25 trên cả nước là rất lớn nên ta không thể
điều tra hết được mà chỉ chọn ra 1 tập hợp con để điều tra. Tập hợp con được chọn ra đó
được gọi là một mẫu, số phần tử của mẫu được gọi là kích thước mẫu, tập tất cả các giá trị
chiều cao của các cá thể trong mẫu được gọi là mẫu số liệu.
a) Một tổng thể (population) là tập hợp tất cả các đối tượng có chung một
tính chất nào đó mà chúng ta đang quan tâm.
b) Mỗi phần tử của tổng thể được gọi là một cá thể.
c) Một biến lượng (variable) X là ánh xạ từ tập hợp chính lên trục số.
c) Việc chọn ra từ tổng thể một tập con nào đó để nghiên cứu được gọi là phương
pháp chọn mẫu. Tập con được chọn ra đó được gọi là mẫu (sample).Tập các
giá trị của biến lượng X trong mẫu được gọi là mẫu số liệu của X.
Nếu phương pháp chọn mẫu là ngẫu nhiên (mỗi cá thể được lấy ra từ tổng thể là độc lập và
có xác suất như nhau) thì ta có thể xem biến lượng X là biến ngẫu nhiên. Trong phạm vị
giáo trình này ta chỉ xét phương pháp chọn mẫu ngẫu nhiên.
3.1.1 Phương pháp chọn mẫu
Để có thể từ thông tin của mẫu đưa ra được những kết luận đủ chính xác cho tổng thể
thì mẫu phải phản ánh đúng đặc điểm của tổng thể theo dấu hiệu nghiên cứu. Tùy thuộc
vào đặc điểm của tổng thể mà mẫu có thể được chọn theo nhiều phương pháp khác nhau để
đảm bảo tính đại diện của mẫu. Sau đây là một số phương pháp chọn mẫu ngẫu nhiên thông
31
TS. Lê Văn Dũng
dụng.
1. Mẫu giản đơn
Đánh số tất cả các phần tử của tổng thể sau đó lấy ra n phần tử theo một bảng số ngẫu
nhiên nào đó.
2. Mẫu hệ thống
Lập danh sách có đánh số thứ tự tất cả phần tử của tổng thể sau đó chia danh sách thành
n phần bằng nhau có độ dài d = N/n với N là kích thước tổng thể. Chọn ngẫu nhiên 1 phần
tử của phần đầu tiên có số thứ tự từ 1 đến d, các phần tử tiếp theo được lấy theo thứ tự và
cách nhau một khoảng d.
3. Mẫu chùm
Trong một số trường hợp, để tiện cho việc nghiên cứu ta chia tổng thể thành các chùm sao
cho mỗi phần tử của tổng thể chỉ thuộc một chùm; mỗi chùm chứa nhiều phần tử khác nhau
về dấu hiệu nghiên cứu; các chùm tương đối đồng đều về quy mô. Sau đó chọn ngẫu nhiên
một số chùm để nghiên cứu. Các chùm được chọn ngẫu nhiên và tất cả các phần tử của chùm
được chọn đều được đưa vào mẫu.
Ví dụ. Để nghiên cứu cân nặng của học sinh lớp 10 phổ thông của một tỉnh ta có thể xem
chùm là các trường THPT.
4.Mẫu nhiều cấp
Nếu các phần tử của tổng thể phân bố quá rộng và thiếu thông tin về chúng, người ta thường
chọn mẫu nhiều cấp. Ta chia tổng thể thành các nhóm riêng biệt theo một tiêu thức nào đó
được gọi là cấp, sao cho tính chất nghiên cứu các phần tử trong mỗi cấp được đồng đều hơn.
Sau đó áp dụng chọn mẫu giản đơn hoặc mẫu hệ thống cho mỗi cấp để tìm số cá thể cần
nghiên cứu.
Ví dụ. Để nghiên cứu ý kiến khách hàng của cả nước về mức độ hài lòng về sản phẩm, doanh
nghiệp có thể chọn mẫu nhiều cấp như sau:
Cấp 1: chọn ra các tỉnh, thành phố đại diện;
Cấp 2: trong các tỉnh, thành phố được chọn, chọn ra một số quận, huyện đại diện;
Cấp 3: trong các quận, huyện được chọn, chọn ra một số phường xã đại diện.
32
Giáo trình xác suất thống kê
3.2 Các số đặc trưng của một mẫu số liệu
3.2.1 Trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu
Cho x1, x2, ..., xn là mẫu số liệu kích thước n.
1) Trung bình mẫu, kí hiệu là x, được tính theo công thức:
x =x1 + x2 + ...+ xn
n=
1
n
n∑i=1
xi.
2) Phương sai mẫu, kí hiệu là s2, được tính theo công thức:
s2 =1
n− 1
n∑i=1
(xi − x)2 =1
n− 1
[n∑i=1
x2i − nx2].
3) Độ lệch chuẩn mẫu.
s =√s2 =
√√√√ 1
n− 1
[n∑i=1
x2i − nx2
].
Ví dụ 3.1. Giả sử ta có mẫu số liệu về chiều cao (mét) của 10 sinh viên một trường đại học
như sau:
1,75 1,69 1,73 1,77 1,68
1,73 1,77 1,70 1,74 1,71
Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.
Chú ý 3.1.
1) Mẫu số liệu cho dạng bảng phân phối tần số rời rạc
X x1 x2 ... xmni n1 n2 ... nm
- Kích thước mẫu: n = n1 + n2 + ...+ nm.
- Trung bình mẫu: x =1
n
m∑i=1
nixi.
- Phương sai mẫu: s2 =1
n− 1
[m∑i=1
nix2i − nx
2
].
2)Mẫu số liệu cho dạng bảng phân phối tần số liên tục
X a0 − a1 a1 − a2 ... am−1 − amni n1 n2 ... nm
trong đó ak−1 − ak = [ak−1; ak).
Đặt xk =ak−1 + ak
2ta được
X x1 x2 ... xmni n1 n2 ... nm
33
TS. Lê Văn Dũng
ta đưa về Chú ý 1 để tính x, s2 và s.
Ví dụ 3.2. Chọn ngẫu nhiên 100 sợi dây thép trong một kho hàng người ta thu được mẫu
số liệu về chiều dài như sau:
X(mét) 1, 90− 1, 94 1, 94− 1, 98 1, 98− 2, 02 2, 02− 2, 06 2, 06− 2, 10ni 15 25 30 20 10
Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.
3.2.2 Trung vị mẫu
Sắp xếp mẫu số liệu theo thứ tự tăng dần, giả sử x1 < x2 < ... < nn. Trung vị mẫu, kí hiệu
med(x), xác định bởi
med(x) =
xn+1
2nếu n lẻ
xn2
+ xn2+1
2nếu n chẵn.
3.2.3 Tứ phân vị
Sắp xếp mẫu số liệu theo thứ tự tăng dần, giả sử x1 < x2 < ... < nn. Tứ phân vị là cách
chia mẫu số liệu thành 4 phần bằng nhau.
Tứ vị 1 (Q1) là giá trị ở vị trí thứn+ 1
4.
Tứ vị 2 (Q2 là trung vị.
Tứ vị 3 (Q3 là giá trị ở vị trí thứ3(n+ 1)
4.
3.2.4 Mốt mẫu
Giá trị xk của một mẫu số liệu được gọi là mốt mẫu nếu xk có tần số xuất hiện lớn nhất
trong mẫu.
3.3 Biểu đồ
3.3.1 Pie chart (Biểu đồ hình tròn)
Pie chart thường được dùng để so sánh các giá trị số liệu dưới dạng tỉ lệ % trên 1 hình
tròn, toàn bộ hình tròn là 100%.
Ví dụ 3.3. Bảng phân phối tần số tuổi của 40 bệnh nhân như sau:
Tuổi Dưới 40 40-49 50-59 60-69 Trên 70Số bệnh nhân 3 6 8 11 12
Khi đó, ta có Pie chart:
34
Giáo trình xác suất thống kê
3.3.2 Histogram (Biểu đồ phân phối tần số)
Histogram là biểu đồ mô tả số liệu cho dạng bảng phân phối tần số liên tục
X [a0; a1) [a1; a2) ... [am−1; am)ni n1 n2 ... nm
Sử dụng hệ trục tọa độ Đề các Oxy để vẽ biểu đồ hình khối với trục hoành là các khoảng giá
trị [ak−1; ak), trục tung là tần số (hoặc tần số tương đối).
Trường hợp mẫu số liệu cho dạng tổng quát: x1, x2, ..., xn. Để xây dựng bảng phân phối
tần số ta sẽ chia miền số liệu thành các khoảng có độ dài bằng nhau. Số khoảng cần chia tốt
nhất là từ 5 đến 20 khoảng, có thể chọn xấp xỉ bằng√n (hoặc 1 + log2(n)). Nếu ta chia dữ
liệu thành m khoảng thì độ dài mỗi khoảng xấp xỉ (maxxk −minxk)/m.
Ví dụ 3.4. Bảng phân phối tần số huyết áp tối đa của 199 bệnh nhân như sau:
Huyết áp Số bệnh nhân85-95 695-105 20105-115 27115-125 48125-135 34135-145 36145-155 17155-165 5165-175 6
Khi đó, ta có Histogram:
35
TS. Lê Văn Dũng
3.3.3 Stem-and-Leaf Plots(Biểu đồ thân-lá)
Biểu đồ này tương tự histogram, chỉ khác ở chỗ chúng trình bày giá trị dữ liệu thay vì
dùng các cột. Biểu đồ stem-and-leaf gồm 3 thành phần là phần thân (gồm một hoặc 2 chữ
số đầu của một số liệu) và phần lá (gồm những chữ số còn lại) và tần số, thường chỉ dùng
cho các nhóm dữ liệu nhỏ. Để tạo Stem-and-Leaf Plots ta làm như sau:
(1) Chia mỗi số liệu xk thành 2 phần: phần thân gồm một hoặc 2 chữ số đầu, phần lá là
những chữ số còn lại;
(2) Ghi phần thân thành một cột;
(3) Mỗi số liệu xk ghi lại phần lá ứng với phần thân trên cùng một hàng;
(4) Với mỗi xk ghi lại phần lá trên hàng của cột 2 ứng với phần thân;
(5) Ghi tần số trên cột thứ 3 (số phần lá ứng với phần thân).
(Tốt nhất chia số liệu từ 5 đến 20 thân)
Ví dụ 3.5. Nghiên cứu sức chịu nén của mẫu hợp kim Nhôm-Liti mới sản xuất (hợp kim
sử dụng làm vật liệu chế tao máy bay) người ta thử nghiệm 80 mẫu và thu được số liệu sau
(đơn vị pound/inch2)
105 221 183 186 121 181 180 14397 154 153 174 120 168 167 141245 228 174 199 181 158 176 110163 131 154 115 160 208 158 133207 180 190 193 194 133 156 123134 178 76 167 184 135 229 146218 157 101 171 165 172 158 169199 151 142 163 145 171 148 158160 175 149 87 160 237 150 135196 201 200 176 150 170 118 149
Lấy phần thân là các số 7, 8, 9, ..., 24, khi đó ta được biểu đồ Thân - Lá như sau:
36
Giáo trình xác suất thống kê
3.3.4 Bar chart
Bar chart thường được dùng để mô tả mối tương quan giữa 2 biến lượng.
Ví dụ 3.6. Bảng số liệu mô tả mối tương quan giữa mức độ béo phì và nhóm tuổi:
Nhóm tuổiĐộ béo phì Dưới 50 50-59 60-69 Trên 69Bình thường 11 22 26 19
Mập 11 23 30 21Béo phì 8 7 10 12
Khi đó, ta có biểu đồ Bar chart:
3.3.5 Box plot
Boxplot là một cách mô tả tứ phân vị của mẫu số liệu dưới dạng biểu đồ hộp. Boxplot
rất hữu dụng khi cần so sánh nhiều nhóm số liệu.
Ví dụ 3.7. Ta có một mẫu số liệu về hàm lượng nước ngầm trong đất (%) như sau:
7,5 9,0 9.3 10,4 10,4 10,6 10,7 11,6 12,1 12,8.
37
TS. Lê Văn Dũng
Khi đó ta có tứ phân vị của mẫu số liệu: Q1 = 9, 225%;Q2 = 10, 5%;Q3 = 11, 725%.
Box plot của mẫu số liệu:
38
CHƯƠNG4
ƯỚC LƯỢNG THAM SỐ
4.1 Mẫu ngẫu nhiên
ChoX là một biến ngẫu nhiên xác định trên 1 tổng thể cần nghiên cứu. Giả sử x1;x2; ...;xnlà một mẫu số liệu của biến ngẫu nhiên X. Ta có thể xem xi là một giá trị của biến ngẫu
nhiên Xi, (i = 1, 2, ..., n) với X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối xác
suất với X.
Mẫu ngẫu nhiên là một bộ gồm các biến ngẫu nhiên X1, X2, ..., Xn độc lập cùng
phân phối xác suất với đại lượng ngẫu nhiên X.
Do đó, nếu x1;x2; ...;xn là mẫu số liệu gồm n giá trị của biến ngẫu nhiên X thì ta có thể
xem mẫu số liệu là một giá trị của mẫu ngẫu nhiên X1;X2; ...Xn.
4.2 Ước lượng điểm
4.2.1 Ước lượng điểm và hàm ước lượng
Ước lượng điểm của tham số θ là một giá trị t chỉ phụ thuộc vào mẫu số liệu
x1, x2, ..., xn. Nói cách khác, t là một hàm n biến số:
t = h(x1, x2, ..., xn).
Ví dụ 4.1. x, s2, s lần lượt là các ước lượng điểm của E(X), V ar(X) và σ(X).
Ví dụ 4.2. Cho biến ngẫu nhiên X có phân phối nhị thức B(n; p) và k là một giá trị quan
sát được của X. Khi đó f = k/n là một ước lượng điểm của p.
Vì x1;x2; ...;xn có thể xem là giá trị của biến ngẫu nhiên X1;X2; ...Xn nên t lại chính là một
giá trị của đại lượng ngẫu nhiên T = h(X1, X2, ..., Xn). T = h(X1, X2, ..., Xn) gọi là hàm ước
lượng.
39
TS. Lê Văn Dũng
Ước lượng không chệch
Hàm ước lượng T = h(X1, X2, ..., Xn) được gọi là ước lượng không chệch đối với tham số
θ nếu E(T ) = θ. Ngược lạị, ta gọi T là ước lượng chệch và E(T ) − θ gọi là độ chệch của ước
lượng.
Ước lượng không chệch của kì vọng và phương sai
Giả sử X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối xác suất
với biến ngẫu nhiên X với E(X) = µ, V ar(X) = σ2. Khi đó
X =X1 +X2 + ...+Xn
nlà ước lượng không chệch của µ.
S2 =1
n− 1
n∑i=1
(Xi −X)2 là ước lượng không chệch của σ2.
Chú ý rằng ta có S∗2 =1
n
n∑i=1
(Xi −X)2 là một ước lượng có chệch của σ2 với độ chệch −σ2
n.
Ước lượng không chệch tham số p của phân phối A(p)
Giả sử X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối xác suất
với biến ngẫu nhiên X có phân phối A(p). Khi đó P =X1 +X2 + ...+Xn
nlà
một ước lượng không chệch của tham số p.
4.3 Ước lượng khoảng kì vọng của phân phối chuẩn
Giả sử biến ngẫu nhiên X ∼ N(µ;σ2) có kì vọng E(X) = µ chưa biết, ước lượng khoảng
cho µ có dạng k < µ < l.
Với α ∈ (0; 1) khá bé cho trước, giả sử ta xác định được các biến ngẫu nhiên K và L sao
cho
P (K < µ < L) = 1− α.
Khi đó với mỗi giá trị k của K và l của L ta có được một ước lượng khoảng của µ là k < µ < l.
α gọi là mức ý nghĩa, 1− α gọi là độ tin cậy của ước lượng.
40
Giáo trình xác suất thống kê
4.3.1 X ∼ N(µ;σ2) với σ2 đã biết
Phân vị của phân phối chuẩn tắc
Cho α ∈ (0; 1) và Z ∼ N(0; 1). Ta gọi giá trị u(1− α) là phân vị mức α của phân phối chuẩn
tắc Z nếu P (Z ≥ u(1− α)) = α, tương đương với Φ(u(1− α)) = 0, 5− α.Các phân vị u(1− α) được cho ở bảng II.
Định lý 4.1. Nếu X1, X2, ..., Xn là các biến ngẫu nhiên độc lập, cùng phân phối xác suất với
biến ngẫu nhiên X có phân phối chuẩn N(µ, σ2) thì biến ngẫu nhiên
X − µσ/√n
có phân phối chuẩn tắc N(0, 1).
Giả sử X1, X2,..., Xn là các biến ngẫu nhiên độc lập, cùng phân phối xác suất với X ∼ N(µ;σ2)
với µ chưa biết và σ2 đã biết. Theo Định lí 4.1 ta có
P (−u(1− α
2) <
X − µσ/√n< u(1− α
2)) = 1− α
⇔ P
(X − u(1− α
2)σ√n< µ < X + u(1− α
2)σ√n
)= 1− α.
Vì vậy:
Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ;σ2) với σ2
đã biết, thì với độ tin cậy 1− α, ước lượng khoảng của µ là
x− u(1− α
2)σ√n< µ < x+ u(1− α
2)σ√n,
trong đó u(1− α2 ) tra ở Bảng II.
41
TS. Lê Văn Dũng
Ví dụ 4.3. Trọng lượng (kg) sản phẩm của công ty A có phân phối chuẩn N(µ;σ2) với σ = 1
(kg). Chọn ngẫu nhiên 25 sản phẩm người ta tính được trung bình mẫu x = 50, 1 (kg). Với
độ tin cậy 95% hãy ước lượng khoảng trọng lượng trung bình của sản phẩm công ty A.
Giải. α = 0, 05 suy ra u(1− α2 ) = z(0, 025) = 1, 96
ε = u(1− α
2)σ√n
= 1, 961√25
= 0, 4.
Ước lượng khoảng trọng lượng trung bình của sản phẩm: 49, 7 < µ < 50, 5.
Chọn cỡ mẫu
Từ công thức ước lượng khoảng µ ta thấy rằng sai số của ước lượng |x − µ| bé hơn hoặc
bằng z(α/2)σ
n. Do đó với độ tin cậy 1−α, nếu muốn có ước lượng µ có sai số không vượt quá
∆ cho trước thì ta cần chọn cỡ mẫu n thỏa mãn
u(1− α
2)σ
n< ∆
tương đương với
n >
(u(1− α
2 )σ
∆
)2
.
Khoảng tin cậy một phía
Khoảng tin cậy đối xứng trong trường hợp l =∞ hoặc u =∞, thay u(1− α2 ) bởi u(1− α)
ta thu được khoảng tin cậy một phía như sau:
Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ;σ2) thì
với độ tin cậy 1− α ước lượng khoảng cực đại của µ là
µ < x+ u(1− α)σ√n,
với độ tin cậy 1− α, ước lượng khoảng cực tiểu của µ là
x− u(1− α)σ√n< µ,
trong đó u(1− α) tra ở Bảng I.
Chú ý. Nếu X không phải là phân phối chuẩn thì theo định lí giới hạn trung tâm, với kích
thước mẫu đủ lớn,X − µσ/√n
có phân phối xác suất xấp xỉ chuẩn tắc. Vì vậy khi cỡ mẫu lớn
(thường lấy n>30) thì chúng ta có thể bỏ qua giả thiết X có phân phối chuẩn.
42
Giáo trình xác suất thống kê
4.3.2 X ∼ N(µ;σ2) với σ2 chưa biết
Phân phối Student
Biến ngẫu nhiên liên tục X được gọi là có phân phối Student n bậc tự do nếu có hàm mật
độ
fn(x) =Γ(n+1
2 )√nπΓ(n2 )
[1 +
x2
n
]−n+12
∀x ∈ R,
trong đó Γ(x) =∫∞0ux−1e−udu gọi là hàm Gamma.
Kí hiệu X ∼ Tn.
Đồ thị hàm mật độ fn(x) của phân phối Tn có dạng như sau (fn(x) là hàm số chẵn).
Phân vị mức α của phân phối Student n bậc tự do là giá trị tn(1 − α) sao cho P (Tn ≥tn(1− α)) = α và được cho ở bảng III.
Định lý 4.2. Cho X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối với biến
ngẫu nhiên X có phân phối chuẩn N(µ, σ2). Khi đó biến ngẫu nhiên
X − µS/√n
có phân phối Student (t-phân phối) n− 1 bậc tự do (Tn−1).
Giả sử X1, X2,..., Xn là các biến ngẫu nhiên độc lập, cùng phân phối xác suất với X ∼ N(µ;σ2)
với µ và σ2 đều chưa biết. Theo Định lí 4.2 ta có
P
(−tn−1(1−
α
2) <
X − µS/√n< tn−1(1−
α
2)
)= 1− α (4.1)
⇔ P
(X − tn−1(1−
α
2)S√n< µ < X − tn−1(1−
α
2)S√n
)= 1− α. (4.2)
43
TS. Lê Văn Dũng
Vì vậy:
Nếu x1, x2, ..., xn là là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ;σ2) với
σ2 chưa biết, thì với độ tin cậy 1− α, ước lượng khoảng kì vọng µ là
x− tn−1(1−α
2)s√n< µ < x+ tn−1(1−
α
2)s√n,
trong đó tn−1(1− α2 ) tra ở Bảng II.
Ví dụ 4.4. Một bài báo trong tạp chí Materials Engineering (1989, Vol. II, No. 4, pp.
275–281) mô tả kết quả kiểm tra độ bền của 22 mẫu hợp kim U-700 (đơn vị: MPa) như sau:
19,8 10,1 14,9 7,5 15,4 15,4
15,4 18,5 7,9 12,7 11,9 11,4
11,4 14,1 17,6 16,7 15,8 19,5
8,8 13,6 11,9 11,4
Với độ tin cậy 95% hãy ước lượng khoảng độ bền trung bình của loại hợp kim trên. Biết rằng
độ bền của hợp kim là một đại lượng ngẫu nhiên chuẩn.
Giải. x = 13, 71; s = 3, 55 tn−1(1− α2 ) = t21(0, 025) = 2, 080.
ε = tn−1(1−α
2)s√n
= 2, 0803, 55√
21= 1, 57.
Ước lượng khoảng độ bền của loại hợp kim đó là: 12, 14 < µ < 15, 28.
Khoảng tin cậy một phía
Nếu x1, x2, ..., xn là là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ;σ2) thì
với độ tin cậy 1− α, ước lượng khoảng cực đại của kì vọng µ là
µ < x+ tn−1(1− α)s√n,
với độ tin cậy 1− α, ước lượng khoảng cực tiểu của kì vọng µ là
x− tn−1(1− α)s√n< µ,
trong đó tn−1(1− α) tra ở Bảng II.
Chú ý. Khi n đủ lớn thì phân phối Student có xấp xỉ phân phối chuẩn tắc N(0; 1). Vì vậy,
khi cỡ mẫu lớn (n > 30) thì ta có thể lấy tn−1(x) = u(x). Hơn nữa theo định lí giới hạn trung
tâm, ta có thể bỏ qua giả thiết X có phân phối chuẩn.
44
Giáo trình xác suất thống kê
Ví dụ 4.5. Một bài báo trong năm 1993 của Hiệp hội Thủy sản Mỹ báo cáo kết quả của
một nghiên cứu để điều tra về ô nhiễm thủy ngân trong loài cá vược miệng rộng. Một mẫu
cá đã được lựa chọn từ 53 hồ ở Florida, kết quả nồng độ thủy ngân được như sau (đơn vị:
10−4%)
1,23 0,49, 0,49 1,08 0,59 0,28 0,18 0,10 0,94
1,33 0,19 1,16 0,98 0,34 0,34 0,19 0,21 0,40
0,04 0,83 0,05 0,63 0,34 0,75 0,04 0,86 0,43
0,04 0,81 0,15 0,56 0,84 0,87 0,49 0,52 0,25
1,20 0,71 0,19 0,41 0,50 0,56 1,10 0,65 0,27
0,27 0,50 0,77 0,73 0,34 0,17 0,16 0,27
Với độ tin cậy 95% hãy ước lượng khoảng nồng độ thủy ngân trung bình có trong loài cá
trên.
4.4 Ước lượng khoảng phương sai phân phối chuẩn
4.4.1 Phân phối khi bình phương
Biến ngẫu nhiên liên tục X được gọi là có phân phối khi bình phương n bậc tự do nếu có
hàm mật độ
fn(x) =
1
2n2 Γ(n2 )
xn2−1e−
x2 nếu x > 0,
0 nếu x ≤ 0
trong đó Γ(x) =∫∞0ux−1e−udu gọi là hàm Gamma.
Kí hiệu X ∼ χ2n.
Đồ thị hàm mật độ fn(x) của phân phối χ2n có dạng như sau.
Phân vị mức α của phân phối Khi bình phương n bậc tự do là giá trị χ2n(1 − α) sao cho
P (χ2n ≥ χ2n(1− α)) = α và được cho ở bảng IV.
Định lý 4.3. Cho X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối với biến
ngẫu nhiên X có phân phối chuẩn N(µ, σ2). Khi đó biến ngẫu nhiên
(n− 1)S2
σ2
có phân phối khi bình phương với n− 1 bậc tự do (χ2n−1).
45
TS. Lê Văn Dũng
Giả sử X1, X2,..., Xn là các biến ngẫu nhiên độc lập, cùng phân phối xác suất với X ∼ N(µ;σ2)
với σ2 chưa biết. Theo Định lí 4.3 ta có
P
(χ2n−1(
α
2) <
(n− 1)S2
σ2< χ2n−1(1−
α
2)
)= 1− α.
Biến đổi tương đương ta được
P
((n− 1)S2
χ2n−1(1−α2 )
< σ2 <(n− 1)S2
χ2n−1(α2 )
)= 1− α.
Vì vậy:
Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ, σ2) thì với
độ tin cậy 1− α ước lượng khoảng phương sai σ2 là
(n− 1)s2
χ2n−1(1−α2 )
< σ2 <(n− 1)s2
χ2n−1(α2 ),
trong đó χ2n−1(α2 ) và χ2n−1(
α2 ) tra ở bảng IV.
Ví dụ 4.6. Để ước lượng độ phân tán (phương sai) về kích thước của chi tiết máy do một
nhà máy sản xuất, người ta lấy ngẫu nhiên 25 chi tiết máy, đem đo và thu được các kích
thước (cm) như sau:
24,1 27,2 26,7 23,6 26,4
25,8 27,3 23,2 26,9 27,1
22,7 26,9 24,8 24,0 23,4
24,5 26,1 25,9 25,4 22,9
26,4 25,4 23,3 23,0 24,3
Với độ tin cậy 95% hãy ước lượng độ phân tán về kích thước của chi tiết máy do nhà đó máy
sản xuất. Biết kích thước chi tiết máy có phân phối chuẩn.
Giải. s2 = 2, 331; χ2n−1(α2 ) = χ224(0, 975) = 12, 401; χ2n−1(1−
α2 ) = χ224(0, 025) = 39, 364.
Ước lượng khoảng phương sai kích thước chi tiết máy là: 1, 42 < σ2 < 4, 51.
46
Giáo trình xác suất thống kê
Khoảng tin cậy một phía
Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ, σ2) thì
với độ tin cậy 1− α ước lượng khoảng cực đại phương sai σ2 là
σ2 <(n− 1)s2
χ2n−1(α),
với độ tin cậy 1− α ước lượng khoảng cực tiểu phương sai σ2 là
(n− 1)s2
χ2n−1(1− α)< σ2,
trong đó χ2n−1(α) và χ2n−1(1− α) tra ở bảng IV.
4.5 Ước lượng khoảng tham số p của phân phối A(p)
Cho x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ A(p) với p chưa biết. Với
k = x1 + x2 + ... + xn ta đã biết f = k/n là một ước lượng điểm của p. Trong phần này ta sẽ
xây dựng công thức ước lượng khoảng của p.
Xét X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối với biến ngẫu nhiên
X ∼ A(p), đặt S = X1 +X2 + ...+Xn. Theo Định lí giới hạn trung tâm, với n đủ lớn, S có xấp
xỉ bằng phân phối chuẩn N(np;np(1− p)). Do đó
X − p√p(1− p)
√n
có xấp xỉ phân phối chuẩn tắc N(0; 1). Do đó
P
(−u(1− α
2) <
X − p√p(1− p)
√n < u(1− α
2)
)≈ 1− α. (4.3)
Với S = k ta có f = k/n là một ước lượng điểm của p nên thay√p(1− p) bởi
√f(1− f) vào
(4.3) ta được
P
(−u(1− α
2) <
X − p√f(1− f)
√n < u(1− α
2)
)≈ 1− α
tương đương với
P
(X − u(1− α
2)
√f(1− f)
n< p < X + u(1− α
2)
√f(1− f)
n
)≈ 1− α.
Vì vậy:
47
TS. Lê Văn Dũng
Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ A(p) với p chưa
biết thì với độ tin cậy 1− α, ước lượng khoảng của p là
f − u(1− α
2)
√f(1− f)
n< p < f − u(1− α
2)
√f(1− f)
n,
trong đó f =x1 + x2 + ...+ xn
n=k
n, u(1− α
2 ) tra ở Bảng II.
Ước lượng trên tốt nhất khi k ≥ 10 và n− k ≥ 10.
Ví dụ 4.7. Với độ tin cậy 95% hãy ước lượng tỷ lệ phế phẩm của một nhà máy biết rằng
kiểm tra 100 sản phẩm của nhà máy thì thấy có 10 phế phẩm.
Giải.k = 10
n = 100
α = 0, 05
⇒f = 0, 1
u(1− α2 ) = z(0, 025) = 1, 96
ε = u(1− α2 )
√f(1− f)
n= 1, 96
√0, 1.0, 9
100= 0, 059.
Ước lượng khoảng tỉ lệ phế phẩm của nhà máy là 0, 041 < p < 0, 159.
Khoảng tin cậy một phía
Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ A(p) với p chưa
biết thì
với độ tin cậy 1− α ước lượng khoảng cực đại của p là
p < f + z(α)
√f(1− f)
n;
với độ tin cậy 1− α ước lượng khoảng cực tiểu của p là
f − z(α)
√f(1− f)
n< p,
trong đó đó f =x1 + x2 + ...+ xn
n=k
n, z(α) tra ở Bảng II.
48
CHƯƠNG5
KIỂM ĐỊNH MỘT MẪU
5.1 Khái niệm chung
5.1.1 Giả thuyết thống kê và kiểm định giả thuyết thống kê
Với mỗi biến ngẫu nhiên đều gắn với một hàm mật độ xác suất nào đó và mỗi hàm mật độ
xác suất lại chứa một hay nhiều tham số mà nhiều khi ta chưa thể xác định được các tham
số này. Chẳng hạn, phân phối nhị thức có hàm mật độ f(x) = Cxnpx(1− p)n−1, x ∈ 0; 1; ...;n
chứa tham số p; phân phối chuẩn có hàm mật độ f(x) =1
σ√
2πe−
(x−µ)2
2σ2 , x ∈ R chứa tham số µ
và σ2. Trong chương trước, chúng ta đã xây dựng ước lượng khoảng một tham số từ dữ liệu
mẫu. Tuy nhiên, nhiều vấn đề trong kinh tế, kỹ thuật,... yêu cầu chúng ta cần phải ra quyết
định chấp nhận hoặc từ chối một khẳng định về một tham số nào đó của một biến ngẫu
nhiên hoặc các số đặc trưng của một tổng thể trên cơ sở mẫu số liệu của biến ngẫu nhiên đó
mà ta quan sát được.
Giả thuyết thống kê là một khẳng định về giá trị tham số của biến ngẫu nhiên hoặc
giá trị các số đặc trưng của một tổng thể, về phân phối xác suất của một biến ngẫu nhiên
hoặc của một tổng thể.
Ví dụ:
(1) µ là tuổi thọ trung bình của người Việt Nam. Giả thuyết thống kê có thể là: µ = 60
(tuổi) hoặc µ > 60, hoặc µ 6= 60,....
(2) p là tỉ lệ phế phẩm của nhà máy A. Giả thuyết thống kê có thể là: p < 0, 1 hoặc
p = 0, 1 hoặc p 6= 0, 1,....
(3) X là chiều cao của nam thanh niên Việt Nam. Giả thuyết thống kê có thể là: X có
phân phối chuẩn hoặc X không có phân phối chuẩn,...
Trong các bài toán kiểm định giả thuyết, có 2 giả thuyết mâu thuẫn nhau được đưa ra để
xem xét. Chẳng hạn, giả thuyết tỉ lệ phế phẩm của nhà máy: p < 0, 1 và p ≥ 0, 1, giả thuyết
tuổi thọ trung bình: µ = 60 và µ 6= 60. Một trong 2 giả thuyết đó gọi là giả thuyết không
được kí hiệu là H0 và giả thuyết còn lại gọi là đối thuyết được kí hiệu là H1. Giả thuyết H0
được xem là giả thuyết đúng, thủ tục kiểm định giả thuyết là phương pháp sử dụng số
liệu thu thập được để để bác bỏ H0. Giả thuyết không H0 bị bác bỏ và chấp nhận đối thuyết
H1 khi có đủ cơ sở để cho rằng H0 sai. Nếu mẫu số liệu thu thập được không đủ mạnh để
49
TS. Lê Văn Dũng
chứng tỏ H0 sai thì ta sẽ tiếp tục chấp nhận H0 đúng. Việc công nhận H0 đúng ở đây cần
hiểu là các chứng cứ và số liệu thu thập được chưa có cơ sở để bác bỏ H0, cần phải nghiên
cứu tiếp.
Ví dụ 5.1. Gieo 1 đồng xu 100 lần thấy có 60 lần xuất hiện mặt sấp. Ta nghi ngờ rằng xác
suất xuất hiện mặt sấp lớn hơn xác suất xuất hiện mặt ngữa. Gọi p là xác suất xuất hiện mặt
sấp. Như vậy ta có bài toán kiểm định giả thuyết là H0 : p = 0, 5, H1 : p > 0, 5. Thủ tục kiểm
định ở đây là dựa trên kết quả của 100 lần tung đồng xu để bác bỏ H0. Nếu không chứng
minh được H0 sai thì ta phải chấp nhận H0 đúng.
5.1.2 Sai lầm loại I và sai lầm loại II
Khi tiến hành kiểm định giả thuyết thông kê theo cách trên ta sẽ có thể phạm phải một
trong hai sai lầm sau:
- Bác bỏ H0 trong khi thực tế là H0 đúng. Sai lầm này gọi là sai lầm loại I.
- Chấp nhận H0 trong khi thực tế là H0 sai. Sai lầm này gọi là sai lầm loại II.
H0 đúng H0 saiBác bỏ H0 sai lầm loại I quyết định đúngChấp nhận H0 quyết định đúng sai lầm loại II
Ví dụ 5.2. Một đợt kiểm định độ tin cậy được tiến hành cho một tội phạm. Bị cáo sẽ chưa
bị kết luận là có tội khi tội của anh ta chưa được chứng minh. Nguyên đơn cố gắng chứng
minh tội của bị cáo. Chỉ khi có đủ bằng chứng thì bị cáo mới bị buộc tội.
Bắt đầu đợt kiểm định, có hai giả thuyết được đưa ra là H0: "bị cáo không có tội" và H1:
"bị cáo có tội".
Sai lầm loại I ở đây là kết luận bị cáo có tội trong khi bị cáo vô tội, còn sai lầm loại II là
bỏ thoát tội bị cáo trong khi thực tế bị cáo có tội. Bởi vì chúng ta không muốn đổ oan cho
người vô tội nên cần kiểm soát sao cho sai lầm loại I này ít xảy ra nhất cho dù xác suất mắc
sai lầm loại II có thể lớn.
α = P (sai lầm loại I) = P (bác bỏ H0/H0 đúng) được gọi là mức ý nghĩa của kiểm định. Trong
bài toán kiểm định ta thường cho trước mức ý nghĩa α để kiểm soát mắc sai lầm loại I.
5.1.3 Thủ tục kiểm định giả thuyết và p-giá trị
Ta xét ví dụ sau: Ở một quốc gia có chiều cao của nam thanh niên trưởng thành tuân
theo quy luật phân phối chuẩn với chiều cao trunh bình là 1, 60 (m) và độ lệch chuẩn là 0, 1
(m). Ở một địa phương nọ của quốc gia trên người ta chọn ngẫu nhiên 100 nam thanh niên
trưởng thành, tiến hành đo chiều cao 100 nam thanh niên này người ta tính được trung bình
mẫu x = 1, 63 (m). Trên cơ sở mẫu số liệu này liệu có thể cho rằng chiều cao nam thanh niên
trưởng thành ở địa phương trên lớn hơn 1, 60 (m) không?
50
Giáo trình xác suất thống kê
Gọi Gọi X là phân bố chiều cao của nam thanh niên trưởng thành ở địa phương trên và
E(X) = µ là chiều cao trung bình chưa biết, khi đó X ∼ N(µ; 0, 12). Bài toán kiểm định giả
thuyết được đưa ra là H0 : µ = 1, 60 và H1 : µ > 1, 60.
Gọi X1, X2, ..., X100 là mẫu ngẫu nhiên về chiều cao của 100 nam thanh niên được chọn ở
địa phương trên, ta có
X =X1 +X2 + ...+X100
100
có phân phối chuẩn N(µ;σ2) với σ2 =0, 12
100= 0, 012.
Nếu H0 đúng (µ = 1, 60) thì X ∼ N(160; 0, 12) và X ∼ N(160; 0, 012). Theo luật số lớn ta có x
cũng phải khá gần với µ = 160. Do đó ta sẽ bác bỏ H0 nếu x lớn hơn so với 1, 60 một cách có
ý nghĩa, điều này tương đương với: nếu xác suất P (X ≥ x) quá nhỏ thì ta sẽ bác bỏ H0.
Với x = 1, 63 ta có xác suấtP (X ≥ 1, 65) với điều kiện µ = 1, 60 là
P (X ≥ 1, 65/µ = 1, 60) = 0, 5− Φ(1, 63− 1, 6
0, 01) = 1− Φ(3) = 0, 00135
Xác suất này rất nhỏ nên ta có thể bác bỏ H0 và chấp nhận H1.
Giá trị xác suất P (X ≥ 1, 65/µ = 1, 60) được gọi là p-giá trị.
Ta có thể hiểu p-giá trị = P (X ≥ 1, 65/µ = 1, 60) như sau: theo luật số lớn x = 1, 65 là một
xấp xỉ của µ nên P (X ≥ 1, 65) phải xấp xỉ bằng 0,5 (do P (X ≥ µ) = 0, 5). Do đó nếu H0 đúng
thì P (X ≥ 1, 65/µ = 1, 60) phải xấp xỉ bằng 0,5. Nếu ta tính được P (X ≥ 1, 65/µ = 1, 60) quá
nhỏ thì đó là điều vô lí nên không thể xem H0 đúng được.
Một vấn đề đặt ra ở đây là p-giá trị như thế nào được xem là nhỏ để có thể bác bỏ H0?
Trong thống kê người ta quy ước như sau:
+) p-giá trị > 0, 05: không có đủ cơ sở để bác bỏ H0;
+) 0, 01 ≤ p-giá trị ≤ 0, 05: có đủ cơ sở để bác bỏ H0;
+) p-giá trị < 0, 01: có cơ sở vững chắc để bác bỏ H0.
Trong trường hợp cho trước mức ý nghĩa α thì
bác bỏ H0 nếu p-giá trị ≤ α;
chấp nhận H0 nếu p-giá trị > α.
Nói cách khác, p-giá trị chính là mức ý nghĩa thấp nhất mà ta có thể bác bỏ H0.
51
TS. Lê Văn Dũng
5.2 Kiểm định kì vọng của phân phối chuẩn
5.2.1 Đã biết phương sai
Giả sử X là biến ngẫu nhiên có phân phối chuẩn N(µ;σ2) với kì vọng E(X) = µ chưa biết
nhưng phương sai D(X) = σ2 đã biết.
(i) Xét bài toán kiểm định giả thuyết
H0 : µ = µ0
với đối thiết
H1 : µ > µ0,
trong đó µ0 là một hằng số.
Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Nếu H0 đúng thì X ∼ N(µ0;σ2) và X ∼
N(µ0;σ2/n). Ta sẽ bác bỏ H0 nếu x (là trung bình mẫu tính được từ mẫu số liệu) lớn hơn rất
nhiều so với µ0 một cách có ý nghĩa. Do đó p-giá trị sẽ là P (X ≥ x/µ = µ0). Ta có
P (X ≥ x/µ = µ0) = 1− Φ(x− µ0σ
√n)
= 0, 5− Φ(υ)
= 0, 5− Φ(|υ|) với υ =x− µ0σ
√n.
Ví dụ 5.3. Trong năm trước trọng lượng trung bình của bò xuất chuồng ở một trang trại
là 380 kg. Năm nay người ta áp dụng thử một chế độ ăn mới với hy vọng là bò sẽ tăng trọng
nhanh hơn. Sau thời gian áp dụng thử người ta lấy ngẫu nhiên 50 con bò xuất chuồng đem
cân và tính được trọng lượng trung bình của chúng là x = 390 kg. Có thể cho rằng trọng
lượng trung bình của bò xuất chuồng đã tăng lên không? Giả thuyết trọng lượng của bò có
phân phối chuẩn với σ = 25, 2 kg.
Giải. Gọi X là trọng lượng bò xuất chuồng sau khi áp dụng chế độ ăn mới và E(X) = µ là
trọng lượng trung bình (chưa biết). Ta cần kiểm định giả thuyết H0 : µ = 380 với đối thiết
H1 : µ > 380.
υ =x− µ0σ
√n ≈ 2, 8
p-giá trị = 1− Φ(2, 8) = 0, 0025. Giá trị xác suất này rất nhỏ nên có cơ sở bác bỏ H0. Tức là
có thể cho rằng trọng lượng trung bình của bò xuất chuồng đã tăng lên.
52
Giáo trình xác suất thống kê
Chú ý 5.1. Trong bài toán kiểm định giả thuyết H0 : µ = µ0 với đối thiết H1 : µ > µ0, nếu
cho trước mức ý nghĩa α thì ta bác bỏ H0 nếu p-giá trị ≤ α. Ta có
p-giá trị ≤ α⇔ 0, 5− Φ(υ) ≤ α⇔ Φ(υ) ≥ 0, 5− α⇔ υ ∈ [u(1− α); +∞)
W = [u(1− α); +∞) được gọi là miền bác bỏ H0. Vì vậy, nếu cho trước mức ý nghĩa α thì ta
có thể giải bài toán kiểm định giả thuyết trên như sau:
+ tìm miền bác bỏ W = [u(1− α); +∞)
+ tính υ =x− µ0σ
√n
+ nếu υ ∈ W thì bác bỏ H0, nếu υ 6∈ W thì chấp nhận H0.
(ii) Xét bài toán kiểm định giả thuyết
H0 : µ = µ0
với đối thiết
H1 : µ < µ0,
trong đó µ0 là một hằng số.
Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Nếu H0 đúng thì X có phân phối chuẩn
N(µ0;σ2/n). Ta sẽ bác bỏ H0 nếu x (là trung bình mẫu tính được từ mẫu số liệu) nhỏ hơn
rất nhiều so với µ0 một cách có ý nghĩa. Do đó p-giá trị sẽ là P (X ≤ x/µ = µ0). Ta có
P (X ≤ x/µ = µ0) = Φ(x− µ0σ
√n)
= Φ(υ)
= 0, 5− Φ(|υ|) với υ =x− µ0σ
√n.
Nếu cho trước mức ý nghĩa α thì miền bác bỏ H0 trong bài toán kiểm định này là W =
(−∞;−u(1− α)].
(iii) Xét bài toán kiểm định giả thuyết
H0 : µ = µ0
với đối thiết
H1 : µ 6= µ0,
trong đó µ0 là một hằng số.
53
TS. Lê Văn Dũng
Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Nếu H0 đúng thì X có phân phối chuẩn
N(µ0;σ2/n). Ta sẽ bác bỏ H0 nếu x (là trung bình mẫu tính được từ mẫu số liệu) nhỏ hơn
rất nhiều hoặc lớn hơn rất nhiều so với µ0 một cách có ý nghĩa. Do đó
p-giá trị =
2P (X ≥ x) nếu x > µ02P (X ≤ x) nếu x < µ0
= 2(0, 5− Φ(|x− µ0|
σ
√n))
= 2(0, 5− Φ(|υ|)) với υ =x− µ0σ
√n.
Nếu cho trước mức ý nghĩa α thì miền bác bỏ H0 trong bài toán kiểm định này là W =
(−∞;−u(1− α2 )] ∪ [u(1− α
2 ); +∞).
Kết luận
X ∼ N(µ;σ2) với σ2 đã biết.
Miền bác bỏ H0 P -giá trịH0 : µ = µ0H1 : µ > µ0
|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : µ = µ0H1 : µ < µ0
|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : µ = µ0H1 : µ 6= µ0
|υ| > u(1− α2 ) 2(0, 5− Φ(|υ|))
Trong đó, υ =(x− µ0)
√n
σ, giá trị u(1− α
2 ) và u(1− α) tra ở Bảng II.
Ví dụ 5.4. Tốc độ đốt cháy một loại nhiên liệu máy bay là biến ngẫu nhiên chuẩn với
σ = 2cm/s. Với mức ý nghĩa α = 0, 05 hãy kiểm định giả thuyết H0 : µ = 50cm/s với đối thiết
H1 : µ 6= 50cm/s biết rằng lấy n = 25 mẫu ngẫu nhiên thu được x = 51, 3cm/s.
Giải. υ = 3, 25
Cách 1: p-giá trị = 2(0, 5− Φ(3, 25)) = 0, 001 < α nên bác bỏ H0.
Cách 2: α = 0, 05⇒ u(1− α) = 1, 645.
|υ| = 3, 25 > u(1− α) ∈ W nên bác bỏ H0.
54
Giáo trình xác suất thống kê
5.2.2 Chưa biết phương sai
Giả sử X là biến ngẫu nhiên có phân phối chuẩn N(µ;σ2) với kì vọng E(X) = µ chưa biết
và phương sai D(X) = σ2 chưa biết.
Xét bài toán kiểm định giả thuyết
H0 : µ = µ0
với đối thiết
H1 : µ > µ0,
trong đó µ0 là một hằng số.
Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Nếu H0 đúng thìX − µ0
s
√n có phân phối
Student n− 1 bậc tự do (Tn−1). Ta sẽ bác bỏ H0 nếu x (là trung bình mẫu tính được từ mẫu
số liệu) lớn hơn rất nhiều so với µ0 một cách có ý nghĩa, tương đương với bác bỏ H0 nếu
υ =x− µ0s
√n lớn hơn rất nhiều so với 0 một cách có ý nghĩa. Do đó, p-giá trị sẽ là
p-giá trị = P (Tn−1 ≥ υ)
= P (Tn−1 > |υ|) với υ =x− µ0s
√n.
Chú ý 5.2. Nếu cho trước mức ý nghĩa α, ta có
p-giá trị ≤ α⇔ P (Tn−1 ≥ υ) ≤ α⇔ υ ∈ [tn−1(1− α); +∞).
W = [tn−1(1− α); +∞) được gọi là miền bác bỏ H0. Vì vậy, nếu cho trước mức ý nghĩa α thì
ta có thể giải bài toán kiểm định giả thuyết trên như sau:
+ tìm miền bác bỏ W = [tn−1(1− α); +∞)
+ tính υ =x− µ0σ
√n
+ nếu υ ∈ W thì bác bỏ H0, nếu υ 6∈ W thì chấp nhận H0.
Tương tự bài toán kiểm định giả thuyết trên, ta có:
Bài toán kiểm định giả thuyết H0 : µ = µ0 với đối thiết H1 : µ < µ0 có p-giá trị là
p-giá trị = P (Tn−1 ≤ υ) = P (Tn−1 ≥ |υ|).
Bài toán kiểm định giả thuyết H0 : µ = µ0 với đối thiết H1 : µ 6= µ0 có p-giá trị là
p-giá trị = 2P (Tn−1 ≥ |υ|)
trong đó υ =x− µ0s
√n.
55
TS. Lê Văn Dũng
H0 : µ = µ0, H1 : µ < µ0 H0 : µ = µ0, H1 : µ 6= µ0
Kết luận
X ∼ N(µ;σ2).
Miền bác bỏ H0 P -giá trịH0 : µ = µ0H1 : µ > µ0
|υ| > tn−1(1− α) P (Tn−1 ≥ |υ|)H0 : µ = µ0H1 : µ < µ0
|υ| > tn−1(1− α) P (Tn−1 ≥ |υ|)H0 : µ = µ0H1 : µ 6= µ0
|υ| > tn−1(1− α2 ) 2P (Tn−1 ≥ |υ|)
Trong đó, υ =(x− µ0)
√n
s, giá trị tn−1(1− α
2 ) và tn−1(1− α) tra ở Bảng III.
Trong trường hợp cỡ mẫu lớn (n > 30) thì Tn−1 ≈ N(0; 1) nên ta có thể lấy tn−1(1−α) ≈ u(1−α)
và sử dụng máy tính CASIO để tính P -giá trị. Cụ thể
P (Tn−1 ≥ |υ|) ≈ 0, 5− Φ(|υ|).
Vì vậy, với cỡ mẫu n > 30 ta có
X ∼ N(µ;σ2) với σ2 chưa biết và cỡ mẫu n > 30.
Miền bác bỏ H0 P -giá trịH0 : µ = µ0H1 : µ > µ0
|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : µ = µ0H1 : µ < µ0
|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : µ = µ0H1 : µ 6= µ0
|υ| > u(1− α2 ) 2(0, 5− Φ(|υ|))
Trong đó, υ =(x− µ0)
√n
s, giá trị u(1− α
2 ) và u(1− α) tra ở Bảng II.
Ví dụ 5.5. Trọng lượng của một loại sản phẩm do một xí nghiệp sản xuất đạt tiêu chuẩn
nếu có trọng lượng là 6 kg. Sau một thời gian sản xuất người ta tiến hình kiểm tra ngẫu
nhiên 121 sản phẩm do xí nghiệp đó sản xuất và tính được trung bình mẫu x = 5, 8 kg và độ
lệch chuẩn mẫu s = 1, 4 kg. Với mức ý nghĩa α = 5% có thể cho rằng trọng lượng sản phẩm
của xí nghiệp đạt tiêu chuẩn không? Biết rằng trọng lượng sản phẩm của xí nghiệp có phân
phối chuẩn.
56
Giáo trình xác suất thống kê
Giải. Gọi X là trọng lượng sản phẩm và E(X) = µ là trọng lượng sản phẩm trung bình thực
tế. Ta cần kiểm định giả thuyết H0 : µ = 6 với đối thiết H1 : µ 6= 6.
υ =x− µ0s
√n = −1, 571.
Cách 1. p-giá trị = 2P (T120 ≥ 1, 571) ≈ 2(1− Φ(1, 571)) = 0, 116 > α nên chưa có cơ sở bác bỏ
H0.
Cách 2. tn−1(1− α2 ) = t120(0, 975) ≈ u(0, 975) = 1, 96.
|υ| = 1, 571 < tn−1(1− α2 ) nên chưa có cơ sở bác bỏ H0.
Ví dụ 5.6. Tuổi thọ trung bình của một loại bóng đèn do nhà máy A sản xuất khi chưa cải
tiến kĩ thuật là 2000 giờ. Sau thời gian cải tiến kĩ thuật người ta chọn ngẫu nhiên 25 bóng
đèn cho lắp thử nghiệm, kết quả thực nghiệm thu được tuổi thọ trung bình mẫu x = 2010 giờ
và độ lệch chuẩn mẫu s = 15 giờ. Với mức ý nghĩa 0, 025 có thể kết luận "sau khi cải tiến kĩ
thuật, tuổi thọ bóng đèn có tăng lên" không? Biết tuổi thọ bóng đèn có phân phối chuẩn.
Giải. Gọi X là tuổi thọ bóng đèn sau cải tiến kĩ thuật và E(X) = µ là tuổi thọ trung bình.
Ta cần kiểm định giả thuyết H0 : µ = 2000 với đối thiết H1 : µ > 2000.
υ =x− µ0s
√n = 4, 167.
Cách 1. p-giá trị = P (T24 ≥ 4, 147) = 0, 001 < α nên bác bỏ H0.
Cách 2. tn−1(1− α) = t24(0, 975) = 2, 0639.
|υ| = 4, 167 > tn−1(1− α) nên bác bỏ H0 tức là có cơ sở để kết luận "sau khi cải tiến kĩ thuật,
tuổi thọ bóng đèn có tăng lên".
5.3 Kiểm định phương sai của phân phối chuẩn
Giả sử X là biến ngẫu nhiên có phân phối chuẩn N(µ;σ2) với phương sai D(X) = σ2 chưa
biết.
Xét bài toán kiểm định giả thuyết
H0 : σ2 = σ20
với đối thiết
H1 : σ2 > σ20,
trong đó σ0 là một hằng số.
57
TS. Lê Văn Dũng
Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Giả sử rằng (X1, X2, ..., Xn) là một mẫu
ngẫu nhiên kích thước n của biến ngẫu nhiên. Nếu H0 đúng thì(n− 1)S2
σ20có phân phối Khi
bình phương n− 1 bậc tự do.
Mặt khác, phương sai mẫu s2 (được tính từ mẫu số liệu thu thập được) là một xấp xỉ của σ2
nên ta sẽ bác bỏ H0 nếu s2 lớn hơn rất nhiều so với σ20 một cách có ý nghĩa, tương đương với
bác bỏ H0 nếu υ =(n− 1)s2
σ20lớn hơn rất nhiều so với n− 1 một cách có ý nghĩa (chú ý rằng
0, 4 ≤ P (χ2n−1 > n− 1) ≤ 0, 5 với mọi n > 3). Do đó, p-giá trị sẽ là
p-giá trị = P (χ2n−1 ≥ υ)
Chú ý 5.3. Nếu cho trước mức ý nghĩa α, ta có
p-giá trị ≤ α⇔ P (Tn−1 ≥ υ) ≤ α⇔ υ ∈ [χ2n−1(1− α); +∞).
W = [χ2n−1(1− α); +∞) được gọi là miền bác bỏ H0. Vì vậy, nếu cho trước mức ý nghĩa α thì
ta có thể giải bài toán kiểm định giả thuyết trên như sau:
+ tìm miền bác bỏ W = [χ2n−1(α); +∞)
+ tính υ =(n− 1)s2
σ20+ nếu υ ∈ W thì bác bỏ H0, nếu υ 6∈ W thì chấp nhận H0.
Tương tự đối với bài toán kiểm định trên ta có:
Bài toán kiểm định giả thuyết H0 : σ2 = σ20 với đối thiết H1 : σ2 < σ20 ta có
p-giá trị = P (χ2n−1 ≤ υ).
Bài toán kiểm định giả thuyết H0 : σ2 = σ20 với đối thiết H1 : σ2 6= σ20 ta có
p-giá trị = 2 minP (χ2n−1 ≤ υ);P (χ2n−1 ≥ υ).
Trong đó υ =(n− 1)s2
σ20.
H0 : σ2 = σ20, H1 : σ2 < σ20 H0 : σ2 = σ20, H1 : σ2 6= σ20
Kết luận:
58
Giáo trình xác suất thống kê
X ∼ N(µ;σ2) với σ2 chưa biết.
Miền bác bỏ H0 P -giá trịH0 : σ2 = σ20H1 : σ2 > σ20
υ > χ2n−1(1− α) P (χ2n−1 ≥ υ)
H0 : σ2 = σ20H1 : σ2 < σ20
υ < χ2n−1(α) P (χ2n−1 ≤ υ)
H0 : σ2 = σ20H1 : σ2 6= σ20
υ < χ2n−1(α2 )]
hoặc υ > χ2n−1(1−α2 )
2 minP (χ2n−1 ≤ υ);P (χ2n−1 ≥ υ)
Trong đó, υ =(n− 1)s2
σ20, giá trị χ2n−1(x) tra ở Bảng III.
Ví dụ 5.7. Chủ hãng sản xuất một loại thiết bị cho biết độ lệch chuẩn của sai số đo của
thiết bị là σ = 5 (đơn vị). Người ta kiểm tra 19 thiết bị thì thấy s2 = 33. Với α = 0, 05 có kết
luận gì về ý kiến của chủ hãng trên.
Giải. Ta cần kiểm định giả thuyết H0 : σ2 = 25 với đối thiết H1 : σ2 6= 25.
υ =(n− 1)s2
σ20=
1833
25= 23, 76.
Cách 1. α = 0, 05⇒ χ218(0, 025) = 8, 231, χ218(0, 975) = 31, 526.
Miền bác bỏ W = (−∞; 8, 231) ∪ (31, 526; +∞).
υ = 23, 76 6∈ W nên chưa có cơ sở bác bỏ H0, tức là ý kiến của chủ hãng trên có thể chấp
nhận được.
Cách 2. p-giá trị = 2 minP (χ218 ≤ 8, 231);P (χ2n−1 ≥ 8, 231) = 0, 326 > α nên chấp nhận
H0.
5.4 Kiểm định tham số p của phân phối A(p)
Cho x1, x2, ..., xn là một mẫu số liệu của X ∼ A(p) với p chưa biết.
Miền bác bỏ H0 P -giá trịH0 : p = p0H1 : p > p0
|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : p = p0H1 : p < p0
|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : p = p0H1 : p 6= p0
|υ| > u(1− α2 ) 2(0, 5− Φ(|υ|))
Trong đó,f =x1 + ...+ xn
n=k
n, υ = f−p0√
p0(1−p0)
√n, giá trị u(1− α
2 ) và u(1−α) tra
ở Bảng II.
Ví dụ 5.8. Giám đốc một công ty tuyên bố 90% sản phẩm của công ty đạt tiêu chuẩn quốc
gia. Một công ty kiểm định độc lập đã tiến hành kiểm tra 200 sản phẩm của công ty đó thì
thấy có 168 sản phẩm đạt yêu cầu. Với mức ý nghĩa α = 0, 05 có kết luận gì về tuyên bố trên?
59
TS. Lê Văn Dũng
Giải. Gọi p là tỉ lệ sản phẩm của công ty đạt chuẩn quốc gia.
Ta cần kiểm định giả thuyết H0 : p = 0, 9 với đối thiết H1 : p < 0.9
υ =k/n− p0√p0(1− p0)
√n ≈ −2, 83
Cách 1. p-giá trị = 0, 5− Φ(2, 83) = 0, 0023 < α nên bác bỏ H0.
Cách 2. α = 0, 05⇒ u(1− α) = z(0, 95) = 1, 645.
|υ| ≈ 2, 83 > u(1− α) nên không có cơ sở để tin vào tuyên bố của vị giám đốc trên.
5.5 Kiểm định quy luật phân phối xác suất
Giả sử x1;x2, ..., xn là mẫu số liệu các giá trị của biến ngẫu nhiên X mà ta ta chưa biết
quy luật phân phối xác suất của X. Từ mẫu số liệu của X là cần kiểm định giả thuyết X
tuân theo quy luật phân phối xác suất A nào đó, tức là ta cần kiểm định giả thuyết
H0 : X tuân theo quy luật phân phối xác suất A
với đối thiết
H1 : X không tuân theo quy luật phân phối xác suất A.
5.5.1 Biến ngẫu nhiên rời rạc
Từ mẫu số liệu lập bảng phân phối tần số rời rạc
X x1 x2 ... xmni n1 n2 ... nm
n1 + n2 + ...+ nm = n.
Giả sử H0 đúng, tính các xác suất pk = P (X = xk/H0 đúng) và đặt n′
k = npk ta được bảng
phân phối của X với điều kiện H0 đúng
X x1 x2 ... xmn′
i n′
1 n′
2 ... n′
mn′
1 + n′
2 + ...+ n′
m = n.
Người ta đã chứng minh đượcm∑k=1
(nk − n′
k)2
n′
k
có phân phối khi bình phương m− r− 1 bậc tự do với r là số tham số cần ước lượng của quy
luật cần kiểm định (chẳng hạn phân phối nhị thức và Poisson có r = 1).
p-giá trị = P (χ2m−r−1 > υ) với υ =m∑k=1
(nk − n′
k)2
n′
k
.
Với mức ý nghĩa α, miền bác bỏ H0 là W = [χ2m−r−1(α); +∞).
5.5.2 Biến ngẫu nhiên liên tục
Chia miền giá trị của X thành m khoảng rời nhau: S1, S2, ..., Sm.
Từ mẫu số liệu lập bảng phân phối tần số liên tục
X S1 S2 ... Smni n1 n2 ... nm
60
Giáo trình xác suất thống kê
sao cho nk ≥ 5 với mọi k.
Giả sử H0 đúng, tính các xác suất pk = P (X ∈ Sk/H0 đúng) và đặt n′
k = npk ta được bảng
phân phối của X với điều kiện H0 đúng
X S1 S2 ... Smn′
i n′
1 n′
2 ... n′
m
p-giá trị = P (χ2m−r−1 > υ) với υ =m∑k=1
(nk − n′
k)2
n′
k
.
Với mức ý nghĩa α, miền bác bỏ H0 là W = [χ2m−r−1(α); +∞).
Ví dụ 5.9. Số cuộc gọi đến (X) ở một trạm điện thoại trong một phút được cho bởi bảng
sau
X 0 1 2 3 4 5 ≥ 6ni 17 22 26 20 11 2 2
Với mức ý nghĩa α = 0, 05 có thể coi X có phân phối Poisson không?
Giải. Từ mẫu số liệu trên ta tính được x = 2.
Ta cần kiểm định giả thuyết H0 : X có phân phối Poisson với đối thiết H1 : X không có phân
phối Poisson.
Giả sử H0 đúng, ta chọn λ = x = 2. Ta lập bảng sau
xk nk pk = e−22xk
xk!n′
k = npk(nk − n
′
k)2
n′
k0 17 0,1353 13,53 0,891 22 0,2707 27,07 0,952 26 0,2707 27,07 0,043 20 0,1804 18,04 0,214 11 0,0902 9,02 0,435 2 0,0361 3,61 0,72≥ 6 2 0,0166 1,66 0,07
100 1 υ = 3, 31
p-giá trị = P (χ25 ≥ 3, 31) = 0, 65 > α nên chưa có cơ sở bác bỏ H0, tức là có thểm coi X có
phân phối Poisson với λ = 2.
Ví dụ 5.10. Tiến hành đo ngẫu nhiên chiều cao (X) của 100 cây bạch đàn trong khu rừng
trồng bạch đàn của một lâm trường ta được kết quả sau
X (mét) nk X (mét) nk[8,275;8,325) 1 [8,625-8,675) 17[8,325;8,375) 2 [8,675;8,725) 12[8,375;8,425) 4 [8,725;8,775) 9[8,425;8,475) 5 [8,775;8,825) 7[8,475;8,525) 8 [8,725;8,775) 6[8,525;8,575) 10 [8,775;8,925) 0[8,575;8,625) 18 [8,925;8,975) 1
Với mức ý nghĩa α = 0, 05 có thể cỏi chiều cao cây bạch đàn ở khu rừng trên có phân phối
chuẩn không?
61
TS. Lê Văn Dũng
Giải. Tiến hành ghép lớp để đảm bảo các nk ≥ 5 ta được
X (mét) nk X (mét) nk(-∞;8,425) 7 [8,625;8,675) 17[8,425-8,475) 5 [8,675;8,725) 12[8,475-8,525) 8 [8,725;8,775) 9[8,525-8,575) 10 [8,775;8,825) 7[8,575-8,625) 18 [8,725;+∞) 7
Từ mẫu trên ta tính được x = 8, 63, s = 0, 128.
Giả sử X có phân phối chuẩn N(µ;σ2), khi đó ta xấp xỉ µ = 8, 63 và σ = 0, 128 để tính các pk
theo công thức
pk = P (ak−1 ≤ X < ak) = Φ(ak − 8, 63
0, 128)− Φ(
ak−1 − 8, 63
0, 128).
Từ đó ta có
X (mét) nk pk n′
k = npk(nk − n
′
k)2
n′
k(-∞;8,425) 7 0,0548 5,48 0,4216[8,425-8,475) 5 0,0583 5,83 0,1182[8,475-8,525) 8 0,0930 9,3 0,1817[8,525-8,575) 10 0,1295 12,95 0,6720[8,575-8,625) 18 0,1484 14,84 0,6729[8,625;8,675) 17 0,1528 15,28 0,1936[8,675;8,725) 12 0,1735 17,35 0,1365[8,725;8,775) 9 0,1004 10,04 0,1077[8,775;8,825) 7 0,0650 6,5 0,0385[8,825;+∞) 7 0,0643 6,43 0,0505
100 υ = 2, 5923
p-giá trị = P (χ27 ≥ 2, 5932) = 0, 925 > α nên chưa có cơ sở bác bỏ H0, tức là có thể coi chiều
cao cây bạch đàn ở khu rừng trên có phân phối chuẩn.
62