Xac suat thong ke

CHƯƠNG1

XÁC SUẤT

1.1 Không gian mẫu và biến cố

1.1.1 Phép thử

Trong thực tế có nhiều thí nghiệm có thể lặp đi lặp lại nhiều lần trong cùng một điều

kiện như nhau nhưng chúng ta không thể biết chắc chắn kết quả sẽ xảy ra khi thực hiện thí

nghiệm đó. Những thí nghiệm đó ta gọi là phép thử ngẫu nhiên (hay gọi tắt là phép thử). Nói

chung, 1 phép thử phải thỏa mãn 2 điều kiện:

- Có thể lặp vô hạn lần;

- Kết quả của mỗi lần thực hiện phép thử là hoàn toàn ngẫu nhiên.

Ví dụ 1.1.

- Gieo một con xúc xắc. Mặc dù làm đi làm lại nhiều lần nhưng mỗi lần tung lại cho ta kết

quả nói chung là khác nhau. Các kết quả của một thí nghiệm ngẫu nhiên là ngẫu nhiên.

- Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên.

- Đo chiều cao của một sinh viên được chọn ngẫu nhiên.

1.1.2 Không gian mẫu.

Tập tất cả các kết quả có thể xảy ra của một phép thử được gọi là không gian mẫu. Kí

hiệu không gian mẫu là Ω.

Ví dụ 1.2. Khi tung một đồng xu, có hai kết quả có thể xảy ra: xuất hiện mặt sấp (S) hoặc

xuất hiện mặt ngữa (N). Không gian mẫu trong trường hợp này là Ω = S;N.

Ví dụ 1.3. Gieo một con xúc xắc. Nếu ta quan tâm đến số chấm xuất hiện trên mặt ngửa

của con xúc xắc thì không gian mẫu sẽ là

Ω = 1; 2; 3; 4; 5; 6.

1

TS. Lê Văn Dũng

Nhưng nếu ta chỉ quan tâm đến sự suất hiện mặt chẵn hay mặt lẻ thì không gian mẫu sẽ là

Ω = chẵn; lẻ.

Ví dụ 1.4. Đo chiều cao của một sinh viên được chọn ngẫu nhiên trong lớp học (đơn vị:

mét).

Ω = x ∈ R|x > 0.

Ví dụ 1.5. Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên trong lớp học.

Ω = 1,2,3,4,5,6,7,8,9,10,11,12.

1.1.3 Biến cố.

1. Định nghĩa

Mỗi tập con của không gian mẫu được gọi là một biến cố. Biến cố chỉ có 1 phần tử được

gọi là biến cố sơ cấp.

Ta nói một biến cố xảy ra khi thực hiện phép thử nếu kết quả của thực hiện phép thử rơi

vào biến cố đó.

Ví dụ 1.6. Cho không gian mẫu tuổi thọ (năm) của một thiết bị điện tử là Ω = x ∈ R : x ≥

0. Biến cố thiết bị điện tử bị hỏng trước 5 năm là A = x ∈ R : 0 ≤ x < 5.

Ví dụ 1.7. Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên trong lớp học.

- Biến cố sinh viên đó sinh vào tháng chẵn là

A = 2,4,6,8,10,12.

- Biến cố sinh viên có tháng sinh 32 ngày là ∅.

- Biến cố sinh viên có tháng sinh bé hơn 32 ngày là Ω.

Biến cố rỗng (∅) gọi là biến cố không thể, không gian mẫu (Ω) gọi là biến cố chắc chắn.

2. Các phép toán trên biến cố

Cho 2 biến cố A và B của không gian mẫu Ω.

a) Giao:

A ∩ B (còn có kí hiệu là: A.B), là biến cố xảy ra khi đồng thời hai biến cố A và B cùng xảy

ra.

2

Giáo trình xác suất thống kê

Nếu hai biến cố A và B không thể đồng thời xảy ra thì ta nói rằng A và B xung khắc và kí

hiệu A ∩B = ∅.

A ∩B = ω ∈ Ω : ω ∈ A và ω ∈ B.

b) Hợp:

A ∪B, là biến cố xảy ra khi có ít nhất một trong hai biến cố A, B xảy ra.

A ∪B = ω ∈ Ω : ω ∈ A hoặc ω ∈ B.

c) Hiệu:

A\B là biến cố xảy ra khi và chỉ khi A xảy ra và B không xảy ra .

Ω\B = B được gọi là biến cố đối của B. Nếu B xảy ra thì B không xảy ra và ngược lại.

A = ω ∈ Ω : ω 6∈ A,

A\B = A ∩B = ω ∈ A và ω 6∈ B.

Biểu đồ Ven minh họa biến cố giao, biến cố hợp và biến cố đối.

Ví dụ 1.8. Hai xạ thủ cùng bắn vào một mục tiêu, kí hiệu A là biến cố xạ thủ 1 bắn trúng

mục tiêu, B là sự kiện xạ thủ 2 bắn trúng mục tiêu. Hãy biểu diễn qua A và B các biến cố

sau:

a) Cả hai xạ thủ bắn trúng mục tiêu.

b) Không có xạ thủ nào bắn trúng mục tiêu.

c) Có đúng một xạ thủ bắn trúng mục tiêu.

d) Có ít nhất một xạ thủ bắn trúng mục tiêu.

Ví dụ 1.9. Tung một con xúc xắc cân đối đồng chất, khi đó có thể xuất hiện mặt 1chấm, 2

chấm, 3 chấm,..., 6 chấm.

+ Không gian mẫu Ω = 1; 2; 3; 4; 5; 6.

+ biến cố sơ cấp 1, 2, 3, 4, 5, 6

+ biến cố A = số chấm của mặt xuất hiện bé hơn 4 = 1; 2; 3

+ biến cố B = xuất hiện mặt chẵn = 2; 4; 6

Tìm các biến cố A ∪B, A ∩B, A.

Ví dụ 1.10. Đo chiều cao một sinh viên được chọn ngẫu nhiên trong lớp học (đơn vị: mét)

Ω = R+ = x ∈ R|x > 0.

3

TS. Lê Văn Dũng

Với

A = x|1, 5 ≤ x < 1, 7 và B = x|1, 6 < x < 1, 8.

Tìm A ∪B, A ∩B, A, A ∩B.

1.2 Xác suất biến cố

Xác suất của một biến cố là một số thuộc đoạn [0; 1] dùng để đo lường khả năng xảy ra

biến cố đó. Xác suất của một biến cố càng lớn thì khả năng xảy ra biến cố đó càng cao.

1.2.1 Định nghĩa xác suất cổ điển

Định nghĩa. Cho không gian mẫu Ω gồm n biến cố sơ cấp có khả năng xảy ra bằng nhau

và A là một biến cố. Xác suất biến cố A kí hiệu là P (A), được tính bằng công thức

P (A) =|A||Ω|

.

trong đó, |A| là số phần tử của A.

Ví dụ 1.11. Một hộp đựng 3 viên bi xanh (X1, X2, X3) và 2 viên bi đỏ (D1, D2), các viên

bi này giống nhau hoàn toàn về kích thước và khối lượng. Lấy ngẫu nhiên 1 viên bi.

Không gian mẫu: Ω = X1, X2, X3, D1, D2

Biến cố lấy được viên bi xanh: A = X1, X2, X3.

Xác suất lấy được viên bi xanh?

Từ định nghĩa ta có các tính chất sau:

1) 0 ≤ P (A) ≤ 1;2) P (∅) = 0, P (Ω) = 1;3) Nếu E1 và E2 không thể đồng thời xảy ra (E1 ∩ E2 = ∅) thì

P (E1 ∪ E2) = P (E1) + P (E2);

Tổng quát: Nếu E1, E2, ..., En đôi một xung khắc thì

P (E1 ∪ E2 ∪ ... ∪ En) = P (E1) + P (E2) + ...+ P (En);

4) P (E) + P (E) = 1.

Ví dụ 1.12. Một hộp đựng 4 viên bi xanh, 5 viên bi đỏ và 6 viên bi vàng. Các viên bi đồng

chất, giống nhau hoàn toàn về kích thước và khối lượng. Lấy ngẫu nhiên 5 viên bi. Tính xác

suất các biến cố sau:

4


a) A: lấy được 1 bi xanh, 2 bi đỏ và 2 bi vàng.

b) B: lấy được 3 bi xanh.

c) C: lấy được ít nhất 4 bi đỏ.

d) D: lấy được ít nhất 1 bi vàng.

Giải. |Ω| = C515.

a) |A| = C14C

25C

26 suy ra P (A) =

200

1001≈ 0, 2.

b) |B| = C34C

21 suy ra P (B) =

20

273≈ 0, 073.

c) |C| = C45C

110 + C5

5 suy ra P (C) =226

3003≈ 0, 075.

d) |D| = C59 suy ra P (D) = 1− P (D) = 1− 6

143≈ 0, 985.

1.2.2 Định nghĩa xác suất bằng tần số tương đối

Nếu không gian mẫu Ω là một tập vô hạn hoặc hữu hạn nhưng các biến cố sơ cấp không

đồng khả năng thì ta không thể áp dụng công thức tính xác suất cổ điển. Giả sử phép thử C

có thể thực hiện lặp đi lặp lại vô hạn lần trong một điều kiện giống hệt nhau. Nếu trong n

lần thực hiện phép thử C có kn lần xuất hiện biến cố A thì tỉ số fn(A) = knn được gọi là tần số

tương đối xuất hiện biến cố A trong n lần thực hiện phép thử. Người ta nhận thấy rằng khi

số phép thử tăng ra vô hạn thì tần số tương đối fn(A) dao động rất ít xung quanh 1 hằng số.

Hằng số đó được định nghĩa là xác suất của biến cố A.

Như vậy, với n đủ lớn ta có P (A) ≈ fn(A) = knn .

1.2.3 Mô hình xác suất hiện đại

Cho không gian mẫu Ω có hữu hạn hoặc vô hạn biến cố sơ cấp. Ta chỉ xét một lớp F các

tập con của Ω thỏa mãn 3 điều kiện:

(1) ∅ ∈ F ;

(2) Nếu A ∈ F thì A ∈ F ;

(3) Nếu A1, A2, ...., An, ... ∈ F thì⋃∞n=1An ∈ F .

Lớp F như vậy được gọi là σ-đại số các tập con của Ω.

Một hàm tập hợp P : F → R được gọi là độ đo xác suất nếu thỏa mãn 3 điều kiện:

(1) Với mọi A ∈ F , 0 ≤ P (A) ≤ 1;

(2) P (Ω) = 1;

5

TS. Lê Văn Dũng

(3) Nếu A1, A2, ..., An, ... ∈ F đôi một không giao nhau (Ai ∩ Aj = ∅ với mọi i 6= j) thì

P (

∞⋃n=1

An) =

∞∑n=1

P (An).

Khi đó, mỗi phần tử của F được gọi là biến cố và P (A) gọi là xác suất xảy ra biến cố

A.(Ω,F , P ) được gọi là không gian xác suất.

1.3 Đại số tổ hợp

1.3.1 Quy tắc nhân

Nếu một công việc được thực hiện qua k bước.

Bước 1 có n1 cách thực hiện,

Bước 2 có n2 cách thực hiện,

...

Bước k có nk cách thực hiện.

Khi đó, có n1 × n2 × ...× nk cách thực hiện công việc đó.

Ví dụ 1.13. Một lớp có 17 sinh viên nam và 13 sinh viên nữ. Hỏi có bao nhiêu cách chọn ra

hai sinh viên gồm 1 nam và một nữ?

Ví dụ 1.14. Một đoàn tàu có 5 toa, mỗi toa có ít nhất 3 chổ trống. Có bao nhiêu cách xếp

3 hành khách lên đoàn tàu đó?

1.3.2 Hoán vị

Số cách sắp xếp n phần tử vào n vị trí sao cho mỗi vị trí có đúng 1 phần tử là n!.

1.3.3 Tổ hợp

Số cách lấy ra k phần tử khác nhau từ một tập n phần tử là

Ckn =n!

k!(n− k)!(0 ≤ k ≤ n).

Ví dụ 1.15. Một lớp học có 17 sinh viên nam và 13 sinh viên nữ.

a) Chọn ngẫu nhiên 3 người, hỏi có bao nhiêu cách chọn?

b) Hỏi có bao nhiêu cách chọn ra 2 nam và 1 nữ?

6


1.4 Công thức cộng xác suất

Cho A và B là hai biến cố bất kì, ta có

P (A ∪B) = P (A) + P (B)− P (A ∩B)

Ví dụ 1.16. Một lớp có 20 sinh viên, trong đó có 10 sinh viên biết tiếng Anh, 12 sinh viên

biết tiếng Pháp và 7 sinh viên biết cả 2 thứ tiếng Anh và Pháp. Chọn ngẫu nhiên 1 sinh viên.

Tìm xác suất sinh viên đó biết ít nhất 1 ngoại ngữ tiếng Anh hoặc tiếng Pháp.

Giải. Gọi A là biến cố chọn được sinh viên biết tiếng Anh, B là biến cố chọn được sinh viên

biết tiếng Pháp.

P (A ∪B) = P (A) + P (B)− P (AB) = 0, 75.

1.5 Xác suất có điều kiện

Xét ví dụ: Ở một lớp học phần môn Triết gồm 17 sinh viên nam và 13 sinh viên nữ. Trong

số đó có 12 sinh viên nam và 11 sinh viên nữ thi qua môn Triết.

Chọn ngẫu nhiên một sinh viên, xác suất sinh viên đó thi qua môn Triết là 23/30.

Nhưng nếu chọn ngẫu nhiên một sinh viên nam thì xác suất sinh viên đó thi qua môn Triết

sẽ là 12/17.

Rõ ràng 2 xác suất trên không bằng nhau. Để phân biệt 2 xác suất trên ta kí hiệu A là biến

cố sinh viên đó thi qua môn Triết, B là điều kiện sinh viên được chọn là sinh viên nam. Khi

đó P(A/B)=12/17 được gọi là xác suất của biến cố A với điều kiện B.

Chú ý rằng

P (A/B) =|A ∩B||B|

=|A ∩B|/|Ω||B|/|Ω|

=P (A ∩B)

P (B).

Cho hai biến cố A và B với P (B) > 0, xác suất của A với điều kiện B, kí hiệu P (A/B),

xác định bởi

P (A/B) =P (A ∩B)

P (B).

Ví dụ 1.17. Một hộp đựng 20 bóng đèn tốt, 7 bóng đèn sẽ hỏng sau 1 giờ sử dụng và 3 bóng

đèn hỏng. Lấy ngẫu nhiên một chiếc sử dụng thấy rằng nó không phải là bóng đèn hỏng.

Tính xác suất đó là chiếc bóng đèn tốt.

7

TS. Lê Văn Dũng

Giải. Gọi A là biến cố lấy được bóng đèn tốt, B là biến cố lấy được bóng đèn không phải là

bóng đèn hỏng.

P (A/B) = 20/27 ≈ 0, 74.

Ví dụ 1.18. Trong một vùng dân cư tỉ lệ người hút thuốc là 60%, tỉ lệ người vừa hút thuốc

vừa bị viêm phổi là 35%. Chọn ngẫu nhiên một người của vùng dân cư đó thấy người này

hút thuốc. Tìm xác suất để người này bị viêm phổi.

Giải. Gọi A là biến cố người được chọn hút thuốc, B là biến cố người được chọn bị viêm

phổi. Xác suất để người này bị viêm phổi là

P (B/A) =P (A ∩B)

P (B)=

0, 35

0, 6≈ 0, 583.

1.6 Công thức nhân xác suất

P (A ∩B) = P (A/B)P (B) = P (B/A)P (A)

Ví dụ 1.19. Một hộp đựng 4 chiếc bút mới và 6 chiếc bút cũ. Mỗi ngày lấy ngẫu nhiên một

chiếc ra sử dụng, cuối ngày trả bút đó lại hộp. Tính xác suất

a) Sau 3 ngày sử dụng hộp còn đúng 1 bút mới.

b) Sau 2 ngày sử dụng hộp còn đúng 3 bút mới.

Giải. Kí hiệu Ak là biến cố ngày thứ k lấy được bút mới.

a) P (A1A2A3) = P (A1)P (A2/A1)P (A3/A1A2) =4

10.

3

10.

2

10= 0, 24.

b)

P ((A1Ac2) ∪ (Ac1A2)) = P (A1A

c2) + P (Ac1A2)

= P (A1)P (Ac2/A1) + P (Ac1)P (A2/Ac1)

=4

10.

7

10+

6

10.

4

10= 0, 52.

8


Ví dụ 1.20. Trong 1 trường đại học có 40% sinh viên học tiếng Anh, 30% sinh viên học

tiếng Pháp, trong số sinh viên học tiếng Anh có 55% sinh viên học tiếng Pháp. Chọn ngẫu

nhiên 1 sinh viên, biết sinh viên đó học tiếng Pháp. Tính xác suất để sinh viên đó học tiếng

Anh.

Giải. Gọi A là biến cố chọn được sinh viên biết tiếng Anh, B là biến cố chọn được sinh viên

biết tiếng Pháp.

P (A/B) =P (A).P (B/A)

P (B)=

0, 4.0, 55

0, 3≈ 0, 733.

1.7 Các biến cố độc lập

Ta có thể hiểu hai biến cố A và B độc lập nếu việc xảy ra hay không xảy ra biến cố này

không làm thay đổi xác suất xảy ra của biến cố kia. Tức là,

P (A/B) = P (A) hoặc P (B/A) = P (B).

Khi đó, nếu biến cố A độc lập với biến cố B thì từ công thức nhân xác suất suy ra

P (A ∩B) = P (A)P (B).

Định nghĩa 1.1. Hai biến cố A và B được gọi là độc lập nếu

P (A ∩B) = P (A)P (B).

Trong trường hợp tổng quát ta có định nghĩa sau:

Định nghĩa 1.2. Một tập hữu hạn các biến cố T = A1;A2; ..., An (n ≥ 2) được gọi là độc

lập nếu k (2 ≤ k ≤ n) biến cố bất kì An1 , An2 , ..., Ank của T ta có

P (An1 .An2 ...Ank) = P (An1)P (An2)...P (Ank).

Từ định nghĩa trên suy ra: nếu các biến cố A1;A2; ..., An độc lập thì

P (A1.A2...An) = P (A1)P (A2)...P (An).

Định lý 1.3. Nếu A và B độc lập thì A và Bc, Ac và B, Ac và Bc là những cặp biến cố độc

lập.

9

TS. Lê Văn Dũng

Ví dụ 1.21. Hộp I có 3 bi đỏ và 7 bi xanh; hộp II có 6 bi đỏ và 4 bi xanh. Lấy ngẫu nhiên

từ mỗi hộp ra 1 viên bi. Tìm xác suất để

a) lấy được hai viên bi cùng màu đỏ.

b) lấy được 1 bi xanh và 1 bi đỏ.

Giải. Kí hiệu A là lấy từ hộp I được viên bi màu đỏ, B là lấy từ hộp II được viên bi màu đỏ.

a) A và B độc lập nên xác suất lấy được hai viên bi cùng màu đỏ là

P (AB) = P (A).P (B) =3

10.

6

10= 0, 18.

b) P (ABc ∪ AcB) = P (A)P (Bc) + P (Ac)P (B) = 0, 54.

1.8 Công thức xác suất toàn phần và công thức Bayes

1.8.1 Hệ đầy đủ

Một hệ gồm n biến cố E1, E2, . . . , En được gọi là hệ đầy đủ nếu thỏa mãn hai điều kiện

(1) Ei ∩ Ej = ∅ nếu i 6= j (hai biến cố bất kì khác nhau không thể đồng thời xảy ra);

(2) E1 ∪ E2 ∪ . . . ∪ En = Ω (chắc chắn có ít nhất 1 biến cố xảy ra).

Từ định nghĩa hệ đầy đủ ta suy ra: nếu E1, E2, . . . , En là hệ đầy đủ thì

P (E1) + P (E2) + ...+ P (En) = 1.

Ví dụ 1.22. Hỏi tháng sinh của một sinh viên được chọn ngẫu nhiên.Kí hiệu

E1 là biến cố sinh viên được hỏi sinh vào mùa xuân (gồm các tháng 1,2,3);

E2 là biến cố sinh viên được hỏi sinh vào mùa hạ (gồm các tháng 4,5,6);

E3 là biến cố sinh viên được hỏi sinh vào mùa thu (gồm các tháng 7,8,9);

E4 là biến cố sinh viên được hỏi sinh vào mùa đông (gồm các tháng 10,11,12);

Khi đó E1, E2, E3, E4 là hệ đầy đủ.

Ví dụ 1.23. Một hộp đựng 5 bi xanh và 6 bi đỏ và 7 bi vàng. Lấy ngẫu nhiên 2 viên bi. Hãy

chỉ ra một số hệ đầy đủ.

10


1.8.2 Công thức xác suất toàn phần và công thức Bayes

Định lý 1.4. Giả sử Ei; 1 ≤ i ≤ n là một hệ đầy đủ sao cho P (Ei) > 0, A là biến cố bất

kì. Khi đó

(i) P (A) = P (E1)P (A/E1) + P (E2)P (A/E2) + ...+ P (En)P (A/En).

(ii)Nếu thêm điều kiện P (A) > 0 thì

P (Ei/A) =P (Ei)P (A/Ei)

P (A)

=P (Ei)P (A/Ei)

P (E1)P (A/E1) + P (E2)P (B/E2) + ...+ P (En)P (A/En).

Ví dụ 1.24. Hộp I đựng 4 bi xanh và 3 bi đỏ và 2 bi vàng, hộp II đựng 5 bi xanh 2 bi đỏ và

3 bi vàng. Từ hộp I lấy ngẫu nhiên ra một viên bi bỏ vào hộp II sau đó từ hộp II lấy ngẫu

nhiên ra hai viên bi. Tính xác suất để hai viên bi lấy ra lần 2 là 2 bi xanh.

Giải. Gọi E là biến cố viên bi lấy từ hộp I bỏ vào hộp II là bi xanh, A là biến cố 2 viên bi

lấy lần 2 là 2 viên bi xanh

P (A) = P (E)P (A/E) + P (Ec)P (A/Ec) =4

9.C26

C211

+5

9.C25

C211

=2

9≈ 0, 22.

Ví dụ 1.25. Một nhà máy có 3 phân xưởng sản xuất. Phân xưởng I sản xuất 50% sản phẩm,

phân xưởng II sản xuất 30% sản phẩm, phân xưởng III sản xuất 20% sản phẩm. Biết rằng tỉ

lệ phế phẩm do phân xưởng I, phân xưởng II, phân xưởng III sản xuất ra tương ứng là 2%,

1% và 3%. Lấy ngẫu nhiên 1 sản phẩm của nhà máy.

a) Tìm xác suất để sản phẩm lấy ra là phế phẩm.

b) Giả sử sản phẩm lấy ra là chính phẩm. Tính xác suất để sản phẩm đó do phân xưởng I

sản xuất.

Giải. Kí hiệu E1, E2, E3 lần lượt là các biến cố sản phẩm lấy ra là của phân xưởng I, II và

III. E1, E2, E3 là hệ đầy đủ.

a) Kí hiệu A là biến cố sản phẩm lấy ra là phế phẩm. Theo công thức xác suất toàn phần:

P (A) = P (E1).P (A/E1) + P (E2)P (A/E2) + P (E3)P (A/E3)

= 0, 5.0, 02 + 0, 3.0, 01 + 0, 20, 03 = 0, 019.

b) P (E1/Ac) =

P (Ac/E1).P (E1))

P (Ac)=

0, 98.0, 5

1− 0, 019≈ 0, 4995.

11

TS. Lê Văn Dũng

Ví dụ 1.26. Một công ty sử dụng hai máy cùng sản xuất 1 loại sản phẩm. Tỉ lệ phế phẩm

của máy I là 3% và của máy II là 2%. Số lượng sản phẩm do máy I sản xuất là 2/3 và máy

II sản xuất là 1/3 tổng sản phẩm của công ty. Tính tỉ lệ phế phẩm của công ty đó.

Giải. Đáp án: 2, 7%.

1.9 Công thức Bernoulli

Định lý 1.5. Cho Ω là không gian mẫu của phép thử C và A là một biến cố thỏa mãn

P (A) = p ∈ (0; 1).

Thực hiện liên tiếp n lần độc lập phép thử C, xác suất có đúng k lần xuất hiện biến cố A

là

pn(k) = Cknpk(1− p)n−k.

Ví dụ 1.27. Tung 10 lần một con xúc xắc cân đối đồng chất.

a) Tính xác suất có đúng 6 lần xuất hiện mặt một chấm

b) Tính xác suất có ít nhất 9 lần xuất hiện mặt một chấm.

b) Tính xác suất có ít nhất 1 lần xuất hiện mặt một chấm.

Giải. Gọi A là biến cố xuất hiện mặt một chấm ở mỗi lần tung xúc xắc, p = P (A) = 1/6.

a) p10(6) = C610(

1

6)6(

5

6)4 ≈ 0, 0022.

b) p10(k ≥ 9) = C910(

1

6)9(

5

6)1 + (

1

6)10 ≈ 8.10−7.

c) p10(k ≥ 1) = 1− p10(k = 0) = 1− (5

6)10 ≈ 0, 84.

Định lý 1.6. Cho n ∈ Z, n ≥ 1 và p ∈ (0; 1). Hàm số

pn(k) = Cknpk(1− p)n−1 với k ∈ 0, 1, 2..., n

đạt giá trị lớn nhất tại

k =

[(n+ 1)p] nếu (n+ 1)p 6∈ Z(n+ 1)p− 1 và (n+ 1)p nếu (n+ 1)p ∈ Z

Ví dụ 1.28. Xác suất bắn trúng mục tiêu của một xạ thủ là 0, 6. Cho xạ thủ này bắn độc

lập 20 phát vào mục tiêu. Tìm số lần bắn trúng mục tiêu có xác suất xảy lớn nhất.

Giải. (n + 1)p = 21.0, 6 = 12, 6 6∈ Z nên số lần bắn trúng mục tiêu có xác suất lớn nhất là

k = 12.

12

CHƯƠNG2

BIẾN NGẪU NHIÊN

2.1 Định nghĩa

Xét ví dụ: Tung đồng thời 2 con xúc xắc. Gọi X là tổng số chấm trên mặt xuất hiện của

hai con xúc xắc.

Ta có không gian mẫu Ω = (m;n) : m,n = 1, 2, 3, 4, 5, 6.Khi đó X = m+ n.

X chính là hàm số X : Ω → R và mỗi lần thực hiện phép thử (tung xúc xắc) sẽ cho ta một

giá trị của X hoàn toàn ngẫu nhiên. Ta gọi X là biến ngẫu nhiên. Ta có định nghĩa sau.

Cho Ω là không gian mẫu của phép thử C. Mỗi ánh xạ X : Ω→ R được gọi là biến ngẫu

nhiên (mỗi lần thực hiện phép thử C cho một giá trị ngẫu nhiên của X).

- Nếu X có miền giá trị là tập hữu hạn x1, x2, ..., xn hoặc tập đếm được x1, x2, ..., xn, ...

thì X được gọi là biến ngẫu nhiên rời rạc.

- Nếu X có miền giá trị là một khoảng trên trục số thì X được gọi là biến ngẫu nhiên

liên tục.

Ví dụ 2.1. Tung một con xúc xắc, gọi X là "Số chấm xuất hiện". Miền giá trị của X là

1; 2; 3; 4; 5; 6 nên X là biến ngẫu nhiên rời rạc.

Ví dụ 2.2. Gọi X (mét) là chiều cao của một sinh viên được chọn ngẫu nhiên trong lớp học.

X có miền giá trị (0; 2, 5) nên X là biến ngẫu nhiên liên tục.

2.2 Biến ngẫu nhiên độc lập

Cho n biến ngẫu nhiên X1, ..., Xn xác định trên cùng một không gian mẫu. Ta nói X1, ..., Xn

độc lập nếu với mọi a1, ..., an ∈ R ta có các biến cố X < a1, ..., X < an độc lập.

2.3 Biến ngẫu nhiên rời rạc

2.3.1 Bảng phân phối xác suất

Cho biến ngẫu nhiên X có miền giá trị E = x1, x2, ..., xn, .... Bảng số

X x1 x2 ... xn ...P P (X = x1) P (X = x2) ... P (X = xn) ...

13

TS. Lê Văn Dũng

được gọi là bảng phân phối xác suất của X.

Hàm số

f(x) = P (X = x) =

P (X = xk) nếu x = xk, k = 1, 2, ...

0 nếu x 6∈ E

được gọi là hàm mật độ của X.

Ví dụ 2.3. Một hộp đựng 3 viên bi xanh và 2 viên bi đỏ, các viên bi giống nhau hoàn toàn

về kích thước và khối lượng. Lấy ngẫu nhiên ra 2 sản phẩm, gọi X là số bi xanh có trong 2

viên bi lấy ra. Lập bảng phân phối xác suất của X.

Giải.

X 0 1 2P 0, 1 0, 6 0, 3

Chú ý. Nếu biến ngẫu nhiên X có miền giá trị x1, x2, ..., xn, ... thì∑k

P (X = xk) = 1.

2.3.2 Hàm phân phối xác suất

1. Định nghĩa

Cho biến ngẫu nhiên X có miền giá trị x1, x2, ..., xn, .... Hàm số

F (x) = P (X < x) =∑xi<x

P (X < xi), x ∈ R

được gọi là hàm phân phối xác suất của biến ngẫu nhiên X.

Ví dụ 2.4. Tìm hàm phân phối của X trong Ví dụ 2.3.

Giải.

F (x) =

0 nếu x ≤ 0

0, 1 nếu 0 < x ≤ 1

0, 7 nếu 1 < x ≤ 2

1 nếu x > 2.

14


2. Tính chất

Hàm phân phối F (x) của biến ngẫu nhiên rời rạc X có các tính chất sau:

(1) 0 ≤ F (x) ≤ 1; limx→−∞ F (x) = 0;limx→+∞ F (x) = 1.

(2) Nếu x1 ≤ x2 thì F (x1) ≤ F (x2).

(3) Không liên tục trên R.(4) Nếu a < b thì P (a ≤ X < b) = F (b)− F (a).

2.3.3 Các số đặc trưng

1. Kì vọng (giá trị trung bình)

Giả sử biến ngẫu nhiên rời rạc X có bảng phân phối xác suất

X x1 x2 ... xn...P p1 p2 ... pn...

với pk = P (X = xk)

Kì vọng của X, kí hiệu E(X), xác định bởi

E(X) =∑k

xkpk.

Ví dụ 2.5. Cho biến ngẫu nhiên X có bảng phân phối xác suất

X 0 1 2 3 4P 0, 6561 0, 2916 0, 0486 0, 0036 0, 0001

Tính E(X).

Giải.

E(X) = 0.0, 6561 + 1.0, 2916 + 2.0, 0486 + 3.0, 0036 + 4.0, 0001 = 0, 4.

Ví dụ 2.6. Tỉ lệ tai nạn xe máy chết người trong 1 năm ở một nước là 0,001. Một công ty

bán bảo hiểm xe máy với giá 65 nghìn đồng 1 hợp đồng bảo hiểm/xe/năm. Nếu xảy ra tai

nạn chết người thì được trả bảo hiểm 30 triệu đồng. Biết rằng chi phí quản lí và chi phí khác

chiếm 20% trên mỗi hợp đồng bảo hiểm. Tính lợi nhuận kì vọng trên mỗi hợp đồng bảo hiểm

của công ty bảo hiểm trên.

Giải. Số tiền thu được sau khi trừ chi phí của mỗi hợp đồng bảo hiểm là 65 (nghìn) ×80% = 52

(nghìn).

Gọi X ( nghìn đồng) là lợi nhuận thu được trên mỗi hợp đồng bảo hiểm, ta có bảng phân

phối xác suất của X là

X 52-30000 52P 0,001 0,999

E(X) = (52− 30000).0, 001 + 52.0, 999 = 22 (nghìn đồng).

15

TS. Lê Văn Dũng

Định lý 2.1. Cho a và b là hằng số; X và Y là biến ngẫu nhiên. Khi đó

(1)E(aX + b) = aE(X) + b;

(2)E(aX + bY ) = aE(X) + bE(Y ).

2. Phương sai và độ lệch chuẩn

Để đo độ phân tán các giá trị của X xung quanh giá trị trung bình người ta đã đưa ra

khái niệm phương sai xác định như sau

Giả sử biến ngẫu nhiên X có bảng phân phối

X x1 x2 ... xn...P p1 p2 ... pn...

với pk = P (X = xk)

Phương sai, kí hiệu D(X), xác định bởi

D(X) =∑k

[xk − E(X)]2pk

=∑k

x2kpk −

[∑k

xkpk

]2.

Độ lệch chuẩn của X là

σ(X) =√D(X).

Ý nghĩa của phương sai. Phương sai của một đại lượng ngẫu nhiên X càng nhỏ thì độ

phân tán các giá trị của X gần xung quanh giá trị trung bình E(X) càng thấp.

Ví dụ 2.7. Số lượng tin nhắn được gửi trong 1 giờ ở một mạng máy tính có bảng phân phối

xác suất:

X 10 11 12 13 14 15P 0, 08 0, 15 0, 3 0, 2 0, 2 0, 07

Tính trung bình và độ lệch chuẩn số tin nhắn trong 1 giờ của mạng máy tính trên.

Giải.

E(X) = 100, 08 + 11.0, 15 + 12.0, 3 + 13.0, 2 + 14.0, 2 + 15.0, 07 = 12, 5,

D(X) = 102.0, 08 + 112.0, 15 + 122.0, 3 + 132.0, 2 + 142.0, 2 + 152.0, 07− 12, 52 = 1, 85,

σ(X) =√D(X) ≈ 1, 36.

Định lý 2.2. (1) D(X) = E(X2) = (E(X))2;

(2) Nếu a, b là hằng số thì D(aX + b) = a2D(X);

(3) Nếu X, Y là 2 biến ngẫu nhiên độc lập thì

D(X ±X) = D(X) +D(Y ).

16


3. Trung vị

Giá trị xk của biến ngẫu nhiên rời rạc X được gọi là trung vị nếu

P (X < xk) ≤1

2và P (X > xk) ≤

1

2.

Kí hiệu Med(X) = xk.

4. Mốt

Giá trị xk của biến ngẫu nhiên rời rạc X được gọi là mode của X nếu

P (X = xk) ≥ P (X = x) ∀x ∈ R.

Kí hiệu Mod(X) = xk.

2.4 Biến ngẫu nhiên liên tục

2.4.1 Hàm mật độ xác suất

Hàm số f(x) xác định trên toàn trục số được gọi là hàm mật độ của biến ngẫu nhiên liên

tục X nếu thỏa mãn 3 điều kiện

(1) f(x) ≥ 0 ∀x;

(2)+∞∫−∞

f(x)dx = 1;

(3) Với a ≤ b, P (a ≤ X ≤ b) =∫ baf(x)dx.

Nếu f(x) là hàm mật độ của biến ngẫu nhiên liên tục X thì từ (3) ta có xác suất để X nhận

giá trị trên đoạn [a; b] bằng diện tích hình phẳng giới hạn bởi đồ thị y = f(x), trục hoành

y = 0 và hai đường thẳng x = a, x = b. Vì vậy nếu khoảng cách từ a đến b càng nhỏ thì xác

suất đó tiến tới 0, hay với ε > 0,

P (a− ε ≤ X ≤ a+ ε) =

a+ε∫a−ε

f(x)dx,

cho ε→ 0 ta có P (X = a) = 0. Vì vậy:

17

TS. Lê Văn Dũng

Nếu X là biến ngẫu nhiên liên tục thì P (X = a) = 0 với mọi a và

P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b).

Ví dụ 2.8. Cho biến ngẫu nhiên liên tục X là đường kính lỗ khoan trên 1 tấm kim loại.

Đường kính đúng tiêu chuẩn là 12, 5 mm. Dữ liệu quá khứ chỉ ra rằng X có hàm mật độ

f(x) =

20e−20(x−12,5) nếu x ≥ 12, 5

0 nếu x < 12, 5.

Tính P (X > 12, 6), P (12.5 < X < 12, 6).

Giải.

P (X > 12, 6) =∞∫

12,6

f(x)dx =∞∫

12,6

20e−20(x−12,5)dx =1

e2≈ 0, 133.

P (12, 5 < X < 12, 6) =12.6∫12,5

f(x)dx =∞∫

12,6

20e−20(x−12,5)dx = 1− 1

e2≈ 0, 864.

2.4.2 Hàm phân phối xác suất

1. Định nghĩa

Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất f(x). Hàm số

F (x) = P (X < x) =

x∫−∞

f(t)dt, x ∈ R.

được gọi là Hàm phân phối xác suất của biến ngẫu nhiên X.

Ví dụ 2.9. Thời gian để một phản ứng hóa học hoàn tất (tính theo đơn vị giây) là một biến

ngẫu nhiên liên tục được xấp xỉ bởi hàm phân phối

F (x) =

0 nếu x < 0

1− e−0,01x nếu x ≥ 0.

Tìm hàm mật độ của X. Tính xác suất phản ứng hóa học kết thúc trước 200 giây.

Giải. P (X < 200) = F (200) = 1− e−2 ≈ 0, 865.

Ví dụ 2.10. Tìm hàm phân phối xác suất trong của các đại lượng ngẫu nhiên ở Ví dụ 2.8.

Giải.

F (x) =

0 nếu x < 12, 5

1− e−20(x+12,5) nếu x ≥ 12, 5.

18


2. Tính chất

Cho biến ngẫu nhiên liên tục X có hàm phân phối xác suất F (x) và hàm mật độ xác

suất f(x). Khi đó

(1) 0 ≤ F (x) ≤ 1; limx→−∞ F (x) = 0;limx→+∞ F (x) = 1.

(2) Nếu x1 ≤ x2 thì F (x1) ≤ F (x2).

(3) Liên tục trên R.(4) Nếu a < b thì

P (a < X < b) = P (a ≤ X ≤ b) =

∫ b

a

f(x)dx = F (b)− F (a).

(5) F ′(x) = f(x).

Ví dụ 2.11. Cho biến ngẫu nhiên liên tục X có hàm mật độ

f(x) =

k(3x− x2) nếu x ∈ [0; 3]

0 nếu x 6∈ [0; 3]

a) Tìm hằng số k.

b) Tính P (X < 0, 5), P (X ≥ 1).

c) Tìm hàm phân phối xác suất của X.

Giải. a) Ta có∫∞−∞ f(x)dx = 1⇔

∫ 3

0k(3x− x2)dx = 1⇔ k = 2/9.

b) P (X < 0, 5) =∫ 0,5

−∞ f(x)dx =∫ 0

−∞ f(x)dx+∫ 0,5

0f(x)dx = 2/27

P (X > 1) =∫ +∞1

f(x)dx =∫ 3

1f(x)dx+

∫ +∞3

f(x)dx = 20/27

c) F (x) =∫ x−∞ f(t)dt.

Nếu x < 0 thì F (x) =∫ x−∞ 0dt = 0.

Nếu 0 ≤ x ≤ 3 thì F (x) =∫ 0

−∞ f(t)dt+∫ x0f(t)dt =

2

9(3x2

2− x3

3).

Nếu x > 3 thì∫ 0

−∞ f(t)dt+∫ 3

0f(t)dt+

∫ +∞3

f(t)dt = 1.

Vậy

F (x) =

0 nếu x < 02

9(3x2

2− x3

3) nếu 0 ≤ x ≤ 3

1 nếu x > 3

19

TS. Lê Văn Dũng

2.4.3 Các số đặc trưng

1. Kì vọng, phương sai và độ lệch chuẩn

Giả sử biến ngẫu nhiên liên tục X có hàm mật độ f(x).

Kì vọng của X, kí hiệu E(X), xác định bởi

E(X) =

∫ +∞

−∞xf(x)dx.

Phương sai của X, kí hiệu D(X), xác định bởi

D(X) =

∫ +∞

−∞(x− E(X))2f(x)dx =

∫ +∞

−∞x2f(x)dx− (

∫ +∞

−∞xf(x)dx)2.

Độ lệch chuẩn của X là σ(X) =√D(X).

Ví dụ 2.12. Tính kì vọng và phương sai của các đại lượng ngẫu nhiên trong Ví dụ 2.8.

Giải. E(X) =+∞∫−∞

xf(x)dx =+∞∫12,5

20xe−20(x−12,5)dx = 12, 55.

D(X) =+∞∫−∞

x2f(x)dx− (E(X))2 =+∞∫12,5

20x2e−20(x−12,5)dx− 12, 552 = 0, 0025.

Ví dụ 2.13. Cho X là đại lượng ngẫu nhiên liên tục có hàm mật độ

f(x) =

ax2 nếu 0 ≤ x ≤ 1

0 nếu x < 0 hoặc x > 1.

Tìm hệ số a, tính E(X).

Giải.+∞∫−∞

f(x)dx = 1⇔ a1∫0

x2dx = 1⇔ a = 3.

E(X) =+∞∫−∞

xf(x)dx =1∫0

3x3dx = 0, 75.

Tính chất. Kì vọng và phương sai của biến ngẫu nhiên liên tục tương tự tính chất của biến

ngẫu nhiên rời rạc.

2. Trung vị

Giá trị x0 của biến ngẫu nhiên liên tục X được gọi là trung vị nếu

P (X < x0) ≤1

2và P (X > x0) ≤

1

2.

Do P (X > x0) ≤1

2⇔ P (X ≤ x0) ≥

1

2suy ra F (x0) =

1

2. Vì vậy trung vị của biến ngẫu nhiên

liên tục X là nghiệm phương trình F (x) =1

2với F (x) là hàm phân phối xác suất của X.

Kí hiệu Med(X) = x0.

20


3. Mốt

Giá trị x0 của biến ngẫu nhiên liên tục X có hàm mật độ f(x) được gọi là mode của X

nếu hàm mật độ f(x) đạt giá trị lớn nhất tại x0.

Kí hiệu Mod(X) = x0.

2.5 Một số phân phối xác suất quan trọng

2.5.1 Phân phối 0− 1 (phân phối Bernoulli

Định nghĩa

Biến ngẫu nhiên rời rạc X được gọi là có phân phối 0− 1 với tham số p ∈ (0; 1) nếu miền

giá trị của X là 0, 1 và

P (X = k) = pk(1− p)n−k, k = 0, 1.

Kí hiệu: X ∼ A(p)

Tính chất

Nếu X ∼ A(p) thì E(X) = p và D(X) = p(1− p).

2.5.2 Phân phối nhị thức B(n; p)

Định nghĩa

Biến ngẫu nhiên rời rạc X được gọi là có phân phối nhị thức với tham số n, p ∈ (0; 1) nếu

X có miền giá trị E = 0, 1, 2, ..., n và

P (X = k) = Cknpk(1− p)n−k, k ∈ E.

Kí hiệu: X ∼ B(n, p)

Ví dụ 2.14. Tỉ lệ phế phẩm của một nhà máy là 10%. Lấy ngẫu nhiên 3 sản phẩm của nhà

máy này, gọi X là số phế phẩm trong 3 sản phẩm lấy ra. Lập bảng phân phối xác suất của

X.

Giải.

X 0 1 2 3P 0, 729 0, 243 0, 027 0, 001

21

TS. Lê Văn Dũng

Tính chất

(i) Nếu X ∼ B(n, p) thì E(X) = np và D(X) = np(1− p).

(ii) Nếu X1, X2, ..., Xn là n biến ngẫu nhiên độc lập cùng phân phối A(p) thì biến ngẫu

nhiên S = X1 +X2 + ...+Xn có phân phối nhị thức B(n, p).

Ví dụ 2.15. Tỉ lệ phế phẩm của một nhà máy là 12%. Các sản phẩm của nhà máy được

đóng gói thành từng hộp, mỗi hộp 20 sản phẩm.

a) Trung bình mỗi hộp chứa bao nhiêu phế phẩm? Tính độ lệch chuẩn số phế phẩm trong

mỗi hộp.

b) Một khách hàng mua ngẫu nhiên một hộp sản phẩm. Tính xác suất hộp đó có chứa phế

phẩm.

c) Tìm số phế phẩm trong hộp có xác suất lớn nhất.

Giải.

Gọi X là số phế phẩm trong mỗi hộp. Suy ra X ∼ B(20; 0, 12).

a) E(X) = np = 2, 4.

b) P (X ≥ 1) = 1− P (X = 0) = 1− 0, 883 = 0, 318528.

c) (n+ 1)p = 2, 52 6∈ Z nên P (X = k) = Ck20.0, 12k.0, 8820−k đạt giá trị lớn nhất tại k = 2.

2.5.3 Phân phối Poisson

Biến ngẫu nhiên rời rạc X được gọi là có phân phối Poisson với tham số λ (λ > 0) nếu X

có miền giá trị N = 0, 1, 2, ... và

P (X = k) =e−λλk

k!k ∈ N.

Kí hiệu: X ∼ ℘(λ).

Phân phối Poisson thường gặp thể hiện phân phối số lần xuất hiện 1 biến cố nào đó trong

một khoảng thời gian (t1; t2) và tỉ lệ với độ dài khoảng đó, tức là trong khoảng thời gian có

độ dài T phân phối có tham số λ thì trong khoảng thời gian có độ dài kT phân phối sẽ có

tham số là kλ.

Ví dụ 2.16. Một gara cho thuê xe ôtô có 2 ôtô loại A. Số đơn đặt hàng ôtô loại này vào

ngày cuối tuần có phân phối Poisson với số đơn trung bình 2 đơn/ngày. Tính xác suất trong

ngày cuối tuần:

a) Có một ôtô loại A được thuê.

b) Có 2 ôtô loại A được thuê.

c) Gara không đáp ứng nhu cầu thuê ôtô loại này.

22


Giải. Gọi X là số đơn đặt hàng thuê ô tô ngày cuối tuần của gara. Ta có X ∼ ℘(2) (do

E(X) = λ = 2).

a) P (X = 1) = e−221

1!=≈ 0, 27.

b) P (X ≥ 2) = 1− P (X < 2) = 1− P (X = 0)− P (X = 1) = 1− e−2 − e−221

1!=≈ 0, 59.

c) P (X > 2) = 1− P (X < 2) = 1− P (X = 0)− P (X = 1) ≈ 0, 41.

Ví dụ 2.17. Ở một tổng đài Bưu điện, số cuộc điện thoại gọi đến xuất hiện ngẫu nhiên, độc

lập với nhau và có tốc độ trung bình 2 cuộc gọi trong 1 phút. Tính xác suất để

a) có đúng 5 cuộc trong 2 phút.

b) không có cuộc điện thoại nào gọi đến trong khoảng thời gian 30 giây.

Giải.

a) Gọi X là số cuộc điện thoại gọi đến trong khoảng thời gian 2 phút, suy ra X có phân phối

Poisson. Vì E(X) = 4 nên λ = 4. Do đó

P (X = 5) = e−445

5!≈ 0, 156.

b) Gọi Y là số cuộc điện thoại gọi đến trong khoảng thời gian 30 giây. Y ∼ ℘(1). Do đó

P (Y = 0) = e−1 ≈ 0, 368.

Tính chất

(i) Nếu X ∼ ℘(λ) thì E(X) = λ, D(X) = λ.

(ii) Nếu X1, X2, ..., Xn là n biến ngẫu nhiên độc lập cùng phân phối với X ∼ ℘(λ) thì biến

ngẫu nhiên S = X1 +X2 + ...+Xn có phân phối Poisson ℘(nλ).

2.5.4 Phân phối chuẩn

1. Định nghĩa

Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn nếu X có hàm mật độ:

f(x) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R,

trong đó, −∞ < µ < +∞, σ > 0.

Kí hiệu X ∼ N(µ;σ2).

Dưới đây là hình dáng đồ thị của hàm mật độ f(x) của phân phối chuẩn:

23

TS. Lê Văn Dũng

2. Phân phối chuẩn tắc

Biến ngẫu nhiên có phân phối chuẩn với µ = 0 và σ = 1 được gọi là phân phối chuẩn tắc

và kí hiệu là Z. Khi đó,

hàm mật độ xác suất được kí hiệu là ϕ(x),

ϕ(x) =1√2πe−

x2

2 ;

hàm phân phối xác suất được kí hiệu là Φ0(x),

Φ0(x) =

x∫−∞

ϕ(t)dt =1√2π

x∫−∞

e−t2

2 dt.

0

Hàm Laplace

Hàm số

Φ(x) =1√2π

x∫0

e−t2

2 dt

được gọi là hàm Laplace. Khi đó ta có

Φ0(x) = 0, 5 + Φ(x).

Chú ý rằng Φ(x) là hàm lẻ, tức là Φ(−x) = −Φ(x). Các giá trị của Φ(x) được cho ở Bảng I.

24


3. Tính Φ(x) bằng máy tính Casio

1) CASIO FX570MS:

- Mode→Mode→1 (SD);

- Shift→ 3 (Distr) →2;

- Nhập x.

2) CASIO FX570ES:

- Mode→3 (Stat)→1 (1-Var)→ AC

- Shift→ 1(Stat)→ 7 (Distr) →2;

- Nhập x.

3. Tính chất

Định lý 2.3. Cho X ∼ N(µ, σ2). Khi đó

(i) E(X) = µ, V ar(X) = σ2.

(ii) Z =X − µσ

∼ N(0; 1).

(iii) Nếu X1, X2, ..., Xn là các biến ngẫu nhiên độc lập, cùng phân phối xác suất với X ∼

N(µ;σ2) thì

S = X1 +X2 + ...+Xn ∼ N(nµ;nσ2) và X =X1 +X2 + ...+Xn

n∼ N(µ;σ2/n).

(iv) P (X < a) = P (X ≤ a) = Φ(a− µσ

).

(v) Với α < β ta có

P (α < X < β) = P (α ≤ X ≤ β) = Φ(β − µσ

)− Φ(α− µσ

).

Ví dụ 2.18. Cho ĐLNN liên tục X ∼ (1, 4). Tính P (X < 4, 5), P (X > 0), P (0 < X ≤ 3, 5).

Giải.

P (X < 2) = 0, 5 + Φ(4, 5− 1

2) = 0, 5 + Φ(1, 75) = 0, 96;

P (X > 0) = 1− P (X ≤ 0) = 0, 5− Φ(−0, 5) = 0, 5 + Φ(0, 5) = 0, 691;

P (0 < X ≤ 3, 5) = Φ(1, 25)− Φ(−0, 5) = Φ(1, 25) + Φ(0, 5)] = 0, 586.

Ví dụ 2.19. Giả sử số đo chiều dài của một sợi dây kim loại do một máy tự động cắt ra là

một biến ngẫu nhiên chuẩn với µ = 10mm, σ2 = 4mm2.

a) Tính xác suất lấy ra được một sợi dây có chiều dài lớn hơn 13mm.

b) Tìm tỉ lệ sợi dây do máy cắt ra có chiều dài từ 8,5mm đến 12,5mm.

Giải.

P (X > 13) = 1− P (X ≤ 13) = 0, 5− Φ(1, 5) = 0, 067;

P (8, 5 ≤ X ≤ 12, 5) = Φ(1, 25)− Φ(−0, 75) = Φ(1, 25) + Φ(0, 75)] = 0, 668.

Ví dụ 2.20. Đường kính của một trục trong ổ đĩa quang là một biến ngẫu nhiên chuẩn với

đường kính trung bình là 0, 2508 inch và độ lệch chuẩn 0, 0005 inch. Thông số kỹ thuật ghi

trên trục là 0, 25± 0, 0015 inch. Tìm tỉ lệ trục có đường kính phù hợp với thông số kỹ thuật.

25

TS. Lê Văn Dũng

Giải.

Gọi X là đường kính của trục ổ đĩa quang, ta có X ∼ N(0, 2508; 0, 00052).

P (0, 250, 0015 ≤ X ≤ 0, 25 + 0, 0015) = Φ(3)− Φ(−3) = 2Φ(3) = 0, 997.

Ví dụ 2.21. Lãi suất (%) đầu tư vào một dự án trong năm được xem là một biến ngẫu

nhiên có phân phối chuẩn. Theo đánh giá của uỷ ban đầu tư thì với xác suất 0,1587 cho lãi

suất cao hơn 20% và với xác suất 0,0228 cho lãi suất lớn hơn 25%. Vậy khả năng đầu tư mà

công ty không bị lỗ là bao nhiêu?

Giải. Gọi X là lãi suất đầu tư vào 1 dự án trong 1 năm, khi đó X ∼ N(µ;σ2). Từ giả thiết

ta có P (X > 0, 2) = 0, 1587

P (X > 0, 25) = 0, 0228⇔

1− Φ(0,2−µσ ) = 0, 1587

1− Φ(0,25−µσ ) = 0, 0228

⇔

Φ(0,2−µσ ) = 0, 8413 = Φ(1)

Φ(0,25−µσ ) = 0, 9772 = Φ(2)⇔µ = 0, 15

σ = 0, 05

Vì vậy, xác suất công ty không bị lỗ là

P (X > 0) = 1− Φ(0− 0, 15

0, 05) = Φ(3) = 0, 9987.

Ví dụ 2.22. Chiều cao X (mét) của nam thanh niên trưởng thành ở quốc gia A tuân theo

quy luật phân phối chuẩn N(1, 65; 0, 12). Chọn ngẫu nhiên 100 nam thanh niên của quốc gia

A. Tính xác suất sai số tuyệt đối giữa chiều cao trung bình của 100 nam thanh niên được

chọn với µ = 1, 65 không vượt quá 0, 03.

Giải. Gọi Xk là chiều cao của nam thanh niên thứ k (k = 1, 2, ..., 100). Khi đó,

X =X1 +X2 + ...+X100

100

là phân bố chiều cao trung bình của 100 nam thanh niên được chọn. Vì X ∼ N(1, 65; 0, 012)

nên ta có

P (|X − 1, 65| ≤ 0, 03) = 2Φ(3)− 1 = 0, 9974.

Như vậy khi chọn ngẫu nhiên 100 nam thanh niên thì xác suất chiều cao trung bình của 100

nam thanh niên đó rơi vào đoạn [1, 62; 1, 68] là 0, 9974.

Một số kết quả liên quan đến phân phối chuẩn thường hay áp dụng trong thực tế còn được

gọi là quy tắc 3σ:

P (µ− σ < X < µ+ σ) = 0, 6827,

P (µ− 2σ < X < µ+ 2σ) = 0, 9545,

P (µ− 3σ < X < µ+ 3σ) = 0, 9973

26


2.5.5 Phân phối mũ

Biến ngẫu nhiên liên tục X được gọi là có phân phối mũ với tham số λ (λ > 0) nếu có

hàm mật độ

f(x) =

λe−λx nếu x ≥ 0

0 nếu x < 0.

Khi đó, E(X) = 1/λ, D(X) = 1/λ2.

Kí hiệu: X ∼ Exp(λ).

Trong cuộc sống, phân phối mũ thể hiện phân phối thời gian chờ giữa hai lần phục vụ của

các đối tượng, thời gian sống của các đối tượng, ...

Ví dụ 2.23. Giả sử tuổi thọ (X) của một chiếc quạt trong máy tính là một biến ngẫu nhiên

phân phối mũ với tuổi thọ trung bình là 3300 giờ. Tính xác suất

a) Chiếc quạt hỏng trước 10000 giờ.

b) có tuổi thọ lớn hơn 7000 giờ

Giải. Theo giả thiết E(X) =1

λ= 3300 nên λ =

1

3300.

a) P (X < 10000) =10000∫0

1

3300e−x/3300dx ≈ 0, 952.

b) P (X > 7000) = 1− P (X ≤ 7000) =7000∫0

1

3300e−x/3300dx ≈ 0, 88.

2.6 Các định lí giới hạn

2.6.1 Luật số lớn

Định lý 2.4 (Bất đẳng thức Chebyshev). Cho X là biến ngẫu nhiên. Khi đó, với mọi ε > 0

ta có

P (|X − E(X)| > ε) ≤ D(X)

ε2

27

TS. Lê Văn Dũng

Định lý 2.5 (Luật yếu số lớn). Dãy Xn, n ≥ 1 các biến ngẫu nhiên độc lập, cùng phân

phối xác suất với biến ngẫu nhiên X có kì vọng E(X) = µ và phương sai D(X) = σ2 hữu hạn

thì

limn→∞

P (| 1n

n∑k=1

Xk − µ| ≤ ε) = 1

với mọi ε > 0.

Chứng minh. Đặt S = X1 +X2 + ...+Xn. Do các biến ngẫu nhiên Xk độc lập, cùng phân phối

xác suất nên E(S) = nµ và D(S) = nσ2. Áp dụng bất đẳng thức Chebyshev, ta có

P (|Snn− µ| > ε) = P (|S − E(S)| > nε) ≤ D(S)

(nε)2=

σ2

nε2→ 0.

Ý nghĩa của luật số lớn: Nếu X1, X2, ..., Xn là các biến ngẫu nhiên độc lập, cùng phân

phối xác suất với biến ngẫu nhiên X thì với n đủ lớn ta có

X =X1 +X2 + ...+Xn

n≈ E(X).

2.6.2 Định lí giới hạn trung tâm

Định lý 2.6. Nếu Xn, n ≥ 1 là dãy các biến ngẫu nhiên độc lập, cùng phân phối xác suất

với biến ngẫu nhiên X có kì vọng E(X) = µ và phương sai D(X) = σ2 hữu hạn thì

limn→∞

P (S − nµ√

nσ< x) = Φ(x) x ∈ R,

trong đó S = X1 +X2 + ...+Xn.

Ý nghĩa Định lí giới hạn trung tâm: Nếu X1, X2, ..., Xn là các biến ngẫu nhiên độc

lập, cùng phân phối xác suất (không cần thiết có phân phối chuẩn) thì với n đủ lớn ta có

S = X1 +X2 + ...+Xn ≈ N(nµ;nσ2) và X =X1 +X2 + ...+Xn

n≈ N(µ;σ2/n).

Ví dụ 2.24. Tuổi thọ làm việc của một linh kiện điện tử là một biến ngẫu nhiên X có kì

vọng 250 giờ và độ lệch chuẩn là 250 giờ. Một công ty mỗi lần chỉ dùng một linh kiện đến

khi nào hỏng mới thay linh kiện khác. Tính xác suất với 100 linh kiện công ty này đủ dùng

ít nhất 1 năm (365 ngày).

Chứng minh. Gọi Xk là tuổi thọ của linh kiện thứ k (1 ≤ k ≤ 100), khi đó các biến ngẫu nhiên

X1, X2, ..., Xn độc lập, cùng phân phối xác suất với X. Theo Định lí giới hạn trung tâm ta có

S = X1 +X2 + ...+Xn ≈ N(100.250; 100.2502).

Do đó

P (S ≥ 365.24) = 1− P (S < 8760) = 1− Φ(8760− 25000

2500) = Φ(6, 496) = 1.

28


Hệ quả 2.7. (Định lý giới hạn tích phân Moivre-Laplace) Giả sử Xn là biến ngẫu nhiên có

phân phối nhị thức B(n; p). Đặt

Zn =Xn − np√np(1− p)

.

Khi đó với mọi x ∈ R,limn→∞

P (Zn < x) = Φ(x).

Nói cách khác, với n đủ lớn ta có B(n; p) ≈ N(np;np(1− p)).

Xấp xỉ trên tốt nhất khi np > 5 và n(1− p) > 5.

Ví dụ 2.25. Xác suất bắn trúng mục tiêu của một xạ thủ là 0, 7. Cho xạ thủ bắn 100 phát

độc lập vào mục tiêu, tính xác suất có ít nhất 75 phát trúng mục tiêu.

Giải. Gọi X là số phát trúng trong 100 phát đã bắn. Khi đó, X ∼ B(100; 0, 7). Áp dụng hệ

quả trên, X xấp xỉ phân phối chuẩn N(70; 21). Do đó,

P (X ≥ 75) = 1− P (X < 75) = 1− Φ(75− 70√

21) ≈ 0, 14.

Ví dụ 2.26. Có 10000 xe máy mua bảo hiểm của một công ty. Mỗi chủ xe phải nộp phí 100

000 đồng/1 năm và trung bình nhận lại 5 triệu đồng nếu xe máy bị tai nạn giao thông. Qua

thống kê cho biết tỉ lệ xe máy bị tai nạn giao thông trong 1 năm là 0,006. Tính xác suất để:

a) Sau một năm hoạt động công ty bị lỗ.

b) Sau một năm hoạt động công ty lãi ít nhất 800 triệu.

Giải. Gọi X là số xe máy mua bảo hiểm của công ty bị tai nạn trong một năm, khi đó

X ∼ B(104; 0, 006). Vì np = 60 và np(1 − p) = 59, 64 nên ta có thể xấp xỉ X bởi phân phối

chuẩn N(60; 59, 64).

a) Xác suất sau một năm hoạt động công ty bị lỗ là

P (109 − 5.106X < 0) = P (X > 200) = 1− P (X ≤ 200) = 1− Φ(18, 13) = 0.

b) Xác suất sau một năm hoạt động công ty lãi ít nhất 800 triệu

P (109 − 5.106X ≥ 8.108) = P (X ≤ 40) = Φ(−2, 59) ≈ 0, 005.

29

TS. Lê Văn Dũng

30

CHƯƠNG3

THỐNG KÊ MÔ TẢ

3.1 Khái niệm mẫu và tổng thể

Trước hết ta xét ví dụ sau: để điều tra chiều cao của thanh niên Việt Nam từ 18 tuổi đến

25 tuổi, người điều tra phải lập danh sách tất cả thanh niên Việt Nam có độ tuổi từ 18 đến

25. Ứng với mỗi thanh niên, ghi chiều cao của thanh niên đó. Khi đó:

- Tập hợp toàn bộ thanh niên Việt Nam có độ tuổi từ 18 đến 25 được gọi là tổng thể

(population).

- Mỗi thanh niên được điều tra được gọi là cá thể của tổng thể.

- Vì số lượng thanh niên có độ tuổi từ 18 đến 25 trên cả nước là rất lớn nên ta không thể

điều tra hết được mà chỉ chọn ra 1 tập hợp con để điều tra. Tập hợp con được chọn ra đó

được gọi là một mẫu, số phần tử của mẫu được gọi là kích thước mẫu, tập tất cả các giá trị

chiều cao của các cá thể trong mẫu được gọi là mẫu số liệu.

a) Một tổng thể (population) là tập hợp tất cả các đối tượng có chung một

tính chất nào đó mà chúng ta đang quan tâm.

b) Mỗi phần tử của tổng thể được gọi là một cá thể.

c) Một biến lượng (variable) X là ánh xạ từ tập hợp chính lên trục số.

c) Việc chọn ra từ tổng thể một tập con nào đó để nghiên cứu được gọi là phương

pháp chọn mẫu. Tập con được chọn ra đó được gọi là mẫu (sample).Tập các

giá trị của biến lượng X trong mẫu được gọi là mẫu số liệu của X.

Nếu phương pháp chọn mẫu là ngẫu nhiên (mỗi cá thể được lấy ra từ tổng thể là độc lập và

có xác suất như nhau) thì ta có thể xem biến lượng X là biến ngẫu nhiên. Trong phạm vị

giáo trình này ta chỉ xét phương pháp chọn mẫu ngẫu nhiên.

3.1.1 Phương pháp chọn mẫu

Để có thể từ thông tin của mẫu đưa ra được những kết luận đủ chính xác cho tổng thể

thì mẫu phải phản ánh đúng đặc điểm của tổng thể theo dấu hiệu nghiên cứu. Tùy thuộc

vào đặc điểm của tổng thể mà mẫu có thể được chọn theo nhiều phương pháp khác nhau để

đảm bảo tính đại diện của mẫu. Sau đây là một số phương pháp chọn mẫu ngẫu nhiên thông

31

TS. Lê Văn Dũng

dụng.

1. Mẫu giản đơn

Đánh số tất cả các phần tử của tổng thể sau đó lấy ra n phần tử theo một bảng số ngẫu

nhiên nào đó.

2. Mẫu hệ thống

Lập danh sách có đánh số thứ tự tất cả phần tử của tổng thể sau đó chia danh sách thành

n phần bằng nhau có độ dài d = N/n với N là kích thước tổng thể. Chọn ngẫu nhiên 1 phần

tử của phần đầu tiên có số thứ tự từ 1 đến d, các phần tử tiếp theo được lấy theo thứ tự và

cách nhau một khoảng d.

3. Mẫu chùm

Trong một số trường hợp, để tiện cho việc nghiên cứu ta chia tổng thể thành các chùm sao

cho mỗi phần tử của tổng thể chỉ thuộc một chùm; mỗi chùm chứa nhiều phần tử khác nhau

về dấu hiệu nghiên cứu; các chùm tương đối đồng đều về quy mô. Sau đó chọn ngẫu nhiên

một số chùm để nghiên cứu. Các chùm được chọn ngẫu nhiên và tất cả các phần tử của chùm

được chọn đều được đưa vào mẫu.

Ví dụ. Để nghiên cứu cân nặng của học sinh lớp 10 phổ thông của một tỉnh ta có thể xem

chùm là các trường THPT.

4.Mẫu nhiều cấp

Nếu các phần tử của tổng thể phân bố quá rộng và thiếu thông tin về chúng, người ta thường

chọn mẫu nhiều cấp. Ta chia tổng thể thành các nhóm riêng biệt theo một tiêu thức nào đó

được gọi là cấp, sao cho tính chất nghiên cứu các phần tử trong mỗi cấp được đồng đều hơn.

Sau đó áp dụng chọn mẫu giản đơn hoặc mẫu hệ thống cho mỗi cấp để tìm số cá thể cần

nghiên cứu.

Ví dụ. Để nghiên cứu ý kiến khách hàng của cả nước về mức độ hài lòng về sản phẩm, doanh

nghiệp có thể chọn mẫu nhiều cấp như sau:

Cấp 1: chọn ra các tỉnh, thành phố đại diện;

Cấp 2: trong các tỉnh, thành phố được chọn, chọn ra một số quận, huyện đại diện;

Cấp 3: trong các quận, huyện được chọn, chọn ra một số phường xã đại diện.

32


3.2 Các số đặc trưng của một mẫu số liệu

3.2.1 Trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu

Cho x1, x2, ..., xn là mẫu số liệu kích thước n.

1) Trung bình mẫu, kí hiệu là x, được tính theo công thức:

x =x1 + x2 + ...+ xn

n=

1

n

n∑i=1

xi.

2) Phương sai mẫu, kí hiệu là s2, được tính theo công thức:

s2 =1

n− 1

n∑i=1

(xi − x)2 =1

n− 1

[n∑i=1

x2i − nx2].

3) Độ lệch chuẩn mẫu.

s =√s2 =

√√√√ 1

n− 1

[n∑i=1

x2i − nx2

].

Ví dụ 3.1. Giả sử ta có mẫu số liệu về chiều cao (mét) của 10 sinh viên một trường đại học

như sau:

1,75 1,69 1,73 1,77 1,68

1,73 1,77 1,70 1,74 1,71

Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.

Chú ý 3.1.

1) Mẫu số liệu cho dạng bảng phân phối tần số rời rạc

X x1 x2 ... xmni n1 n2 ... nm

- Kích thước mẫu: n = n1 + n2 + ...+ nm.

- Trung bình mẫu: x =1

n

m∑i=1

nixi.

- Phương sai mẫu: s2 =1

n− 1

[m∑i=1

nix2i − nx

2

].

2)Mẫu số liệu cho dạng bảng phân phối tần số liên tục

X a0 − a1 a1 − a2 ... am−1 − amni n1 n2 ... nm

trong đó ak−1 − ak = [ak−1; ak).

Đặt xk =ak−1 + ak

2ta được

X x1 x2 ... xmni n1 n2 ... nm

33

TS. Lê Văn Dũng

ta đưa về Chú ý 1 để tính x, s2 và s.

Ví dụ 3.2. Chọn ngẫu nhiên 100 sợi dây thép trong một kho hàng người ta thu được mẫu

số liệu về chiều dài như sau:

X(mét) 1, 90− 1, 94 1, 94− 1, 98 1, 98− 2, 02 2, 02− 2, 06 2, 06− 2, 10ni 15 25 30 20 10

Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.

3.2.2 Trung vị mẫu

Sắp xếp mẫu số liệu theo thứ tự tăng dần, giả sử x1 < x2 < ... < nn. Trung vị mẫu, kí hiệu

med(x), xác định bởi

med(x) =

xn+1

2nếu n lẻ

xn2

+ xn2+1

2nếu n chẵn.

3.2.3 Tứ phân vị

Sắp xếp mẫu số liệu theo thứ tự tăng dần, giả sử x1 < x2 < ... < nn. Tứ phân vị là cách

chia mẫu số liệu thành 4 phần bằng nhau.

Tứ vị 1 (Q1) là giá trị ở vị trí thứn+ 1

4.

Tứ vị 2 (Q2 là trung vị.

Tứ vị 3 (Q3 là giá trị ở vị trí thứ3(n+ 1)

4.

3.2.4 Mốt mẫu

Giá trị xk của một mẫu số liệu được gọi là mốt mẫu nếu xk có tần số xuất hiện lớn nhất

trong mẫu.

3.3 Biểu đồ

3.3.1 Pie chart (Biểu đồ hình tròn)

Pie chart thường được dùng để so sánh các giá trị số liệu dưới dạng tỉ lệ % trên 1 hình

tròn, toàn bộ hình tròn là 100%.

Ví dụ 3.3. Bảng phân phối tần số tuổi của 40 bệnh nhân như sau:

Tuổi Dưới 40 40-49 50-59 60-69 Trên 70Số bệnh nhân 3 6 8 11 12

Khi đó, ta có Pie chart:

34


3.3.2 Histogram (Biểu đồ phân phối tần số)

Histogram là biểu đồ mô tả số liệu cho dạng bảng phân phối tần số liên tục

X [a0; a1) [a1; a2) ... [am−1; am)ni n1 n2 ... nm

Sử dụng hệ trục tọa độ Đề các Oxy để vẽ biểu đồ hình khối với trục hoành là các khoảng giá

trị [ak−1; ak), trục tung là tần số (hoặc tần số tương đối).

Trường hợp mẫu số liệu cho dạng tổng quát: x1, x2, ..., xn. Để xây dựng bảng phân phối

tần số ta sẽ chia miền số liệu thành các khoảng có độ dài bằng nhau. Số khoảng cần chia tốt

nhất là từ 5 đến 20 khoảng, có thể chọn xấp xỉ bằng√n (hoặc 1 + log2(n)). Nếu ta chia dữ

liệu thành m khoảng thì độ dài mỗi khoảng xấp xỉ (maxxk −minxk)/m.

Ví dụ 3.4. Bảng phân phối tần số huyết áp tối đa của 199 bệnh nhân như sau:

Huyết áp Số bệnh nhân85-95 695-105 20105-115 27115-125 48125-135 34135-145 36145-155 17155-165 5165-175 6

Khi đó, ta có Histogram:

35

TS. Lê Văn Dũng

3.3.3 Stem-and-Leaf Plots(Biểu đồ thân-lá)

Biểu đồ này tương tự histogram, chỉ khác ở chỗ chúng trình bày giá trị dữ liệu thay vì

dùng các cột. Biểu đồ stem-and-leaf gồm 3 thành phần là phần thân (gồm một hoặc 2 chữ

số đầu của một số liệu) và phần lá (gồm những chữ số còn lại) và tần số, thường chỉ dùng

cho các nhóm dữ liệu nhỏ. Để tạo Stem-and-Leaf Plots ta làm như sau:

(1) Chia mỗi số liệu xk thành 2 phần: phần thân gồm một hoặc 2 chữ số đầu, phần lá là

những chữ số còn lại;

(2) Ghi phần thân thành một cột;

(3) Mỗi số liệu xk ghi lại phần lá ứng với phần thân trên cùng một hàng;

(4) Với mỗi xk ghi lại phần lá trên hàng của cột 2 ứng với phần thân;

(5) Ghi tần số trên cột thứ 3 (số phần lá ứng với phần thân).

(Tốt nhất chia số liệu từ 5 đến 20 thân)

Ví dụ 3.5. Nghiên cứu sức chịu nén của mẫu hợp kim Nhôm-Liti mới sản xuất (hợp kim

sử dụng làm vật liệu chế tao máy bay) người ta thử nghiệm 80 mẫu và thu được số liệu sau

(đơn vị pound/inch2)

105 221 183 186 121 181 180 14397 154 153 174 120 168 167 141245 228 174 199 181 158 176 110163 131 154 115 160 208 158 133207 180 190 193 194 133 156 123134 178 76 167 184 135 229 146218 157 101 171 165 172 158 169199 151 142 163 145 171 148 158160 175 149 87 160 237 150 135196 201 200 176 150 170 118 149

Lấy phần thân là các số 7, 8, 9, ..., 24, khi đó ta được biểu đồ Thân - Lá như sau:

36


3.3.4 Bar chart

Bar chart thường được dùng để mô tả mối tương quan giữa 2 biến lượng.

Ví dụ 3.6. Bảng số liệu mô tả mối tương quan giữa mức độ béo phì và nhóm tuổi:

Nhóm tuổiĐộ béo phì Dưới 50 50-59 60-69 Trên 69Bình thường 11 22 26 19

Mập 11 23 30 21Béo phì 8 7 10 12

Khi đó, ta có biểu đồ Bar chart:

3.3.5 Box plot

Boxplot là một cách mô tả tứ phân vị của mẫu số liệu dưới dạng biểu đồ hộp. Boxplot

rất hữu dụng khi cần so sánh nhiều nhóm số liệu.

Ví dụ 3.7. Ta có một mẫu số liệu về hàm lượng nước ngầm trong đất (%) như sau:

7,5 9,0 9.3 10,4 10,4 10,6 10,7 11,6 12,1 12,8.

37

TS. Lê Văn Dũng

Khi đó ta có tứ phân vị của mẫu số liệu: Q1 = 9, 225%;Q2 = 10, 5%;Q3 = 11, 725%.

Box plot của mẫu số liệu:

38

CHƯƠNG4

ƯỚC LƯỢNG THAM SỐ

4.1 Mẫu ngẫu nhiên

ChoX là một biến ngẫu nhiên xác định trên 1 tổng thể cần nghiên cứu. Giả sử x1;x2; ...;xnlà một mẫu số liệu của biến ngẫu nhiên X. Ta có thể xem xi là một giá trị của biến ngẫu

nhiên Xi, (i = 1, 2, ..., n) với X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối xác

suất với X.

Mẫu ngẫu nhiên là một bộ gồm các biến ngẫu nhiên X1, X2, ..., Xn độc lập cùng

phân phối xác suất với đại lượng ngẫu nhiên X.

Do đó, nếu x1;x2; ...;xn là mẫu số liệu gồm n giá trị của biến ngẫu nhiên X thì ta có thể

xem mẫu số liệu là một giá trị của mẫu ngẫu nhiên X1;X2; ...Xn.

4.2 Ước lượng điểm

4.2.1 Ước lượng điểm và hàm ước lượng

Ước lượng điểm của tham số θ là một giá trị t chỉ phụ thuộc vào mẫu số liệu

x1, x2, ..., xn. Nói cách khác, t là một hàm n biến số:

t = h(x1, x2, ..., xn).

Ví dụ 4.1. x, s2, s lần lượt là các ước lượng điểm của E(X), V ar(X) và σ(X).

Ví dụ 4.2. Cho biến ngẫu nhiên X có phân phối nhị thức B(n; p) và k là một giá trị quan

sát được của X. Khi đó f = k/n là một ước lượng điểm của p.

Vì x1;x2; ...;xn có thể xem là giá trị của biến ngẫu nhiên X1;X2; ...Xn nên t lại chính là một

giá trị của đại lượng ngẫu nhiên T = h(X1, X2, ..., Xn). T = h(X1, X2, ..., Xn) gọi là hàm ước

lượng.

39

TS. Lê Văn Dũng

Ước lượng không chệch

Hàm ước lượng T = h(X1, X2, ..., Xn) được gọi là ước lượng không chệch đối với tham số

θ nếu E(T ) = θ. Ngược lạị, ta gọi T là ước lượng chệch và E(T ) − θ gọi là độ chệch của ước

lượng.

Ước lượng không chệch của kì vọng và phương sai

Giả sử X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối xác suất

với biến ngẫu nhiên X với E(X) = µ, V ar(X) = σ2. Khi đó

X =X1 +X2 + ...+Xn

nlà ước lượng không chệch của µ.

S2 =1

n− 1

n∑i=1

(Xi −X)2 là ước lượng không chệch của σ2.

Chú ý rằng ta có S∗2 =1

n

n∑i=1

(Xi −X)2 là một ước lượng có chệch của σ2 với độ chệch −σ2

n.

Ước lượng không chệch tham số p của phân phối A(p)

Giả sử X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối xác suất

với biến ngẫu nhiên X có phân phối A(p). Khi đó P =X1 +X2 + ...+Xn

nlà

một ước lượng không chệch của tham số p.

4.3 Ước lượng khoảng kì vọng của phân phối chuẩn

Giả sử biến ngẫu nhiên X ∼ N(µ;σ2) có kì vọng E(X) = µ chưa biết, ước lượng khoảng

cho µ có dạng k < µ < l.

Với α ∈ (0; 1) khá bé cho trước, giả sử ta xác định được các biến ngẫu nhiên K và L sao

cho

P (K < µ < L) = 1− α.

Khi đó với mỗi giá trị k của K và l của L ta có được một ước lượng khoảng của µ là k < µ < l.

α gọi là mức ý nghĩa, 1− α gọi là độ tin cậy của ước lượng.

40


4.3.1 X ∼ N(µ;σ2) với σ2 đã biết

Phân vị của phân phối chuẩn tắc

Cho α ∈ (0; 1) và Z ∼ N(0; 1). Ta gọi giá trị u(1− α) là phân vị mức α của phân phối chuẩn

tắc Z nếu P (Z ≥ u(1− α)) = α, tương đương với Φ(u(1− α)) = 0, 5− α.Các phân vị u(1− α) được cho ở bảng II.

Định lý 4.1. Nếu X1, X2, ..., Xn là các biến ngẫu nhiên độc lập, cùng phân phối xác suất với

biến ngẫu nhiên X có phân phối chuẩn N(µ, σ2) thì biến ngẫu nhiên

X − µσ/√n

có phân phối chuẩn tắc N(0, 1).

Giả sử X1, X2,..., Xn là các biến ngẫu nhiên độc lập, cùng phân phối xác suất với X ∼ N(µ;σ2)

với µ chưa biết và σ2 đã biết. Theo Định lí 4.1 ta có

P (−u(1− α

2) <

X − µσ/√n< u(1− α

2)) = 1− α

⇔ P

(X − u(1− α

2)σ√n< µ < X + u(1− α

2)σ√n

)= 1− α.

Vì vậy:

Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ;σ2) với σ2

đã biết, thì với độ tin cậy 1− α, ước lượng khoảng của µ là

x− u(1− α

2)σ√n< µ < x+ u(1− α

2)σ√n,

trong đó u(1− α2 ) tra ở Bảng II.

41

TS. Lê Văn Dũng

Ví dụ 4.3. Trọng lượng (kg) sản phẩm của công ty A có phân phối chuẩn N(µ;σ2) với σ = 1

(kg). Chọn ngẫu nhiên 25 sản phẩm người ta tính được trung bình mẫu x = 50, 1 (kg). Với

độ tin cậy 95% hãy ước lượng khoảng trọng lượng trung bình của sản phẩm công ty A.

Giải. α = 0, 05 suy ra u(1− α2 ) = z(0, 025) = 1, 96

ε = u(1− α

2)σ√n

= 1, 961√25

= 0, 4.

Ước lượng khoảng trọng lượng trung bình của sản phẩm: 49, 7 < µ < 50, 5.

Chọn cỡ mẫu

Từ công thức ước lượng khoảng µ ta thấy rằng sai số của ước lượng |x − µ| bé hơn hoặc

bằng z(α/2)σ

n. Do đó với độ tin cậy 1−α, nếu muốn có ước lượng µ có sai số không vượt quá

∆ cho trước thì ta cần chọn cỡ mẫu n thỏa mãn

u(1− α

2)σ

n< ∆

tương đương với

n >

(u(1− α

2 )σ

∆

)2

.

Khoảng tin cậy một phía

Khoảng tin cậy đối xứng trong trường hợp l =∞ hoặc u =∞, thay u(1− α2 ) bởi u(1− α)

ta thu được khoảng tin cậy một phía như sau:

Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ;σ2) thì

với độ tin cậy 1− α ước lượng khoảng cực đại của µ là

µ < x+ u(1− α)σ√n,

với độ tin cậy 1− α, ước lượng khoảng cực tiểu của µ là

x− u(1− α)σ√n< µ,

trong đó u(1− α) tra ở Bảng I.

Chú ý. Nếu X không phải là phân phối chuẩn thì theo định lí giới hạn trung tâm, với kích

thước mẫu đủ lớn,X − µσ/√n

có phân phối xác suất xấp xỉ chuẩn tắc. Vì vậy khi cỡ mẫu lớn

(thường lấy n>30) thì chúng ta có thể bỏ qua giả thiết X có phân phối chuẩn.

42


4.3.2 X ∼ N(µ;σ2) với σ2 chưa biết

Phân phối Student

Biến ngẫu nhiên liên tục X được gọi là có phân phối Student n bậc tự do nếu có hàm mật

độ

fn(x) =Γ(n+1

2 )√nπΓ(n2 )

[1 +

x2

n

]−n+12

∀x ∈ R,

trong đó Γ(x) =∫∞0ux−1e−udu gọi là hàm Gamma.

Kí hiệu X ∼ Tn.

Đồ thị hàm mật độ fn(x) của phân phối Tn có dạng như sau (fn(x) là hàm số chẵn).

Phân vị mức α của phân phối Student n bậc tự do là giá trị tn(1 − α) sao cho P (Tn ≥tn(1− α)) = α và được cho ở bảng III.

Định lý 4.2. Cho X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối với biến

ngẫu nhiên X có phân phối chuẩn N(µ, σ2). Khi đó biến ngẫu nhiên

X − µS/√n

có phân phối Student (t-phân phối) n− 1 bậc tự do (Tn−1).


với µ và σ2 đều chưa biết. Theo Định lí 4.2 ta có

P

(−tn−1(1−

α

2) <

X − µS/√n< tn−1(1−

α

2)

)= 1− α (4.1)

⇔ P

(X − tn−1(1−

α

2)S√n< µ < X − tn−1(1−

α

2)S√n

)= 1− α. (4.2)

43

TS. Lê Văn Dũng

Vì vậy:

Nếu x1, x2, ..., xn là là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ;σ2) với

σ2 chưa biết, thì với độ tin cậy 1− α, ước lượng khoảng kì vọng µ là

x− tn−1(1−α

2)s√n< µ < x+ tn−1(1−

α

2)s√n,

trong đó tn−1(1− α2 ) tra ở Bảng II.

Ví dụ 4.4. Một bài báo trong tạp chí Materials Engineering (1989, Vol. II, No. 4, pp.

275–281) mô tả kết quả kiểm tra độ bền của 22 mẫu hợp kim U-700 (đơn vị: MPa) như sau:

19,8 10,1 14,9 7,5 15,4 15,4

15,4 18,5 7,9 12,7 11,9 11,4

11,4 14,1 17,6 16,7 15,8 19,5

8,8 13,6 11,9 11,4

Với độ tin cậy 95% hãy ước lượng khoảng độ bền trung bình của loại hợp kim trên. Biết rằng

độ bền của hợp kim là một đại lượng ngẫu nhiên chuẩn.

Giải. x = 13, 71; s = 3, 55 tn−1(1− α2 ) = t21(0, 025) = 2, 080.

ε = tn−1(1−α

2)s√n

= 2, 0803, 55√

21= 1, 57.

Ước lượng khoảng độ bền của loại hợp kim đó là: 12, 14 < µ < 15, 28.


Nếu x1, x2, ..., xn là là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ;σ2) thì

với độ tin cậy 1− α, ước lượng khoảng cực đại của kì vọng µ là

µ < x+ tn−1(1− α)s√n,

với độ tin cậy 1− α, ước lượng khoảng cực tiểu của kì vọng µ là

x− tn−1(1− α)s√n< µ,

trong đó tn−1(1− α) tra ở Bảng II.

Chú ý. Khi n đủ lớn thì phân phối Student có xấp xỉ phân phối chuẩn tắc N(0; 1). Vì vậy,

khi cỡ mẫu lớn (n > 30) thì ta có thể lấy tn−1(x) = u(x). Hơn nữa theo định lí giới hạn trung

tâm, ta có thể bỏ qua giả thiết X có phân phối chuẩn.

44


Ví dụ 4.5. Một bài báo trong năm 1993 của Hiệp hội Thủy sản Mỹ báo cáo kết quả của

một nghiên cứu để điều tra về ô nhiễm thủy ngân trong loài cá vược miệng rộng. Một mẫu

cá đã được lựa chọn từ 53 hồ ở Florida, kết quả nồng độ thủy ngân được như sau (đơn vị:

10−4%)

1,23 0,49, 0,49 1,08 0,59 0,28 0,18 0,10 0,94

1,33 0,19 1,16 0,98 0,34 0,34 0,19 0,21 0,40

0,04 0,83 0,05 0,63 0,34 0,75 0,04 0,86 0,43

0,04 0,81 0,15 0,56 0,84 0,87 0,49 0,52 0,25

1,20 0,71 0,19 0,41 0,50 0,56 1,10 0,65 0,27

0,27 0,50 0,77 0,73 0,34 0,17 0,16 0,27

Với độ tin cậy 95% hãy ước lượng khoảng nồng độ thủy ngân trung bình có trong loài cá

trên.

4.4 Ước lượng khoảng phương sai phân phối chuẩn

4.4.1 Phân phối khi bình phương

Biến ngẫu nhiên liên tục X được gọi là có phân phối khi bình phương n bậc tự do nếu có

hàm mật độ

fn(x) =

1

2n2 Γ(n2 )

xn2−1e−

x2 nếu x > 0,

0 nếu x ≤ 0

trong đó Γ(x) =∫∞0ux−1e−udu gọi là hàm Gamma.

Kí hiệu X ∼ χ2n.

Đồ thị hàm mật độ fn(x) của phân phối χ2n có dạng như sau.

Phân vị mức α của phân phối Khi bình phương n bậc tự do là giá trị χ2n(1 − α) sao cho

P (χ2n ≥ χ2n(1− α)) = α và được cho ở bảng IV.

Định lý 4.3. Cho X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối với biến

ngẫu nhiên X có phân phối chuẩn N(µ, σ2). Khi đó biến ngẫu nhiên

(n− 1)S2

σ2

có phân phối khi bình phương với n− 1 bậc tự do (χ2n−1).

45

TS. Lê Văn Dũng


với σ2 chưa biết. Theo Định lí 4.3 ta có

P

(χ2n−1(

α

2) <

(n− 1)S2

σ2< χ2n−1(1−

α

2)

)= 1− α.

Biến đổi tương đương ta được

P

((n− 1)S2

χ2n−1(1−α2 )

< σ2 <(n− 1)S2

χ2n−1(α2 )

)= 1− α.

Vì vậy:

Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ, σ2) thì với

độ tin cậy 1− α ước lượng khoảng phương sai σ2 là

(n− 1)s2

χ2n−1(1−α2 )

< σ2 <(n− 1)s2

χ2n−1(α2 ),

trong đó χ2n−1(α2 ) và χ2n−1(

α2 ) tra ở bảng IV.

Ví dụ 4.6. Để ước lượng độ phân tán (phương sai) về kích thước của chi tiết máy do một

nhà máy sản xuất, người ta lấy ngẫu nhiên 25 chi tiết máy, đem đo và thu được các kích

thước (cm) như sau:

24,1 27,2 26,7 23,6 26,4

25,8 27,3 23,2 26,9 27,1

22,7 26,9 24,8 24,0 23,4

24,5 26,1 25,9 25,4 22,9

26,4 25,4 23,3 23,0 24,3

Với độ tin cậy 95% hãy ước lượng độ phân tán về kích thước của chi tiết máy do nhà đó máy

sản xuất. Biết kích thước chi tiết máy có phân phối chuẩn.

Giải. s2 = 2, 331; χ2n−1(α2 ) = χ224(0, 975) = 12, 401; χ2n−1(1−

α2 ) = χ224(0, 025) = 39, 364.

Ước lượng khoảng phương sai kích thước chi tiết máy là: 1, 42 < σ2 < 4, 51.

46



Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ N(µ, σ2) thì

với độ tin cậy 1− α ước lượng khoảng cực đại phương sai σ2 là

σ2 <(n− 1)s2

χ2n−1(α),

với độ tin cậy 1− α ước lượng khoảng cực tiểu phương sai σ2 là

(n− 1)s2

χ2n−1(1− α)< σ2,

trong đó χ2n−1(α) và χ2n−1(1− α) tra ở bảng IV.

4.5 Ước lượng khoảng tham số p của phân phối A(p)

Cho x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ A(p) với p chưa biết. Với

k = x1 + x2 + ... + xn ta đã biết f = k/n là một ước lượng điểm của p. Trong phần này ta sẽ

xây dựng công thức ước lượng khoảng của p.

Xét X1, X2, ..., Xn là các biến ngẫu nhiên độc lập cùng phân phối với biến ngẫu nhiên

X ∼ A(p), đặt S = X1 +X2 + ...+Xn. Theo Định lí giới hạn trung tâm, với n đủ lớn, S có xấp

xỉ bằng phân phối chuẩn N(np;np(1− p)). Do đó

X − p√p(1− p)

√n

có xấp xỉ phân phối chuẩn tắc N(0; 1). Do đó

P

(−u(1− α

2) <

X − p√p(1− p)

√n < u(1− α

2)

)≈ 1− α. (4.3)

Với S = k ta có f = k/n là một ước lượng điểm của p nên thay√p(1− p) bởi

√f(1− f) vào

(4.3) ta được

P

(−u(1− α

2) <

X − p√f(1− f)

√n < u(1− α

2)

)≈ 1− α

tương đương với

P

(X − u(1− α

2)

√f(1− f)

n< p < X + u(1− α

2)

√f(1− f)

n

)≈ 1− α.

Vì vậy:

47

TS. Lê Văn Dũng

Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ A(p) với p chưa

biết thì với độ tin cậy 1− α, ước lượng khoảng của p là

f − u(1− α

2)

√f(1− f)

n< p < f − u(1− α

2)

√f(1− f)

n,

trong đó f =x1 + x2 + ...+ xn

n=k

n, u(1− α

2 ) tra ở Bảng II.

Ước lượng trên tốt nhất khi k ≥ 10 và n− k ≥ 10.

Ví dụ 4.7. Với độ tin cậy 95% hãy ước lượng tỷ lệ phế phẩm của một nhà máy biết rằng

kiểm tra 100 sản phẩm của nhà máy thì thấy có 10 phế phẩm.

Giải.k = 10

n = 100

α = 0, 05

⇒f = 0, 1

u(1− α2 ) = z(0, 025) = 1, 96

ε = u(1− α2 )

√f(1− f)

n= 1, 96

√0, 1.0, 9

100= 0, 059.

Ước lượng khoảng tỉ lệ phế phẩm của nhà máy là 0, 041 < p < 0, 159.


Nếu x1, x2, ..., xn là một mẫu số liệu của biến ngẫu nhiên X ∼ A(p) với p chưa

biết thì

với độ tin cậy 1− α ước lượng khoảng cực đại của p là

p < f + z(α)

√f(1− f)

n;

với độ tin cậy 1− α ước lượng khoảng cực tiểu của p là

f − z(α)

√f(1− f)

n< p,

trong đó đó f =x1 + x2 + ...+ xn

n=k

n, z(α) tra ở Bảng II.

48

CHƯƠNG5

KIỂM ĐỊNH MỘT MẪU

5.1 Khái niệm chung

5.1.1 Giả thuyết thống kê và kiểm định giả thuyết thống kê

Với mỗi biến ngẫu nhiên đều gắn với một hàm mật độ xác suất nào đó và mỗi hàm mật độ

xác suất lại chứa một hay nhiều tham số mà nhiều khi ta chưa thể xác định được các tham

số này. Chẳng hạn, phân phối nhị thức có hàm mật độ f(x) = Cxnpx(1− p)n−1, x ∈ 0; 1; ...;n

chứa tham số p; phân phối chuẩn có hàm mật độ f(x) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R chứa tham số µ

và σ2. Trong chương trước, chúng ta đã xây dựng ước lượng khoảng một tham số từ dữ liệu

mẫu. Tuy nhiên, nhiều vấn đề trong kinh tế, kỹ thuật,... yêu cầu chúng ta cần phải ra quyết

định chấp nhận hoặc từ chối một khẳng định về một tham số nào đó của một biến ngẫu

nhiên hoặc các số đặc trưng của một tổng thể trên cơ sở mẫu số liệu của biến ngẫu nhiên đó

mà ta quan sát được.

Giả thuyết thống kê là một khẳng định về giá trị tham số của biến ngẫu nhiên hoặc

giá trị các số đặc trưng của một tổng thể, về phân phối xác suất của một biến ngẫu nhiên

hoặc của một tổng thể.

Ví dụ:

(1) µ là tuổi thọ trung bình của người Việt Nam. Giả thuyết thống kê có thể là: µ = 60

(tuổi) hoặc µ > 60, hoặc µ 6= 60,....

(2) p là tỉ lệ phế phẩm của nhà máy A. Giả thuyết thống kê có thể là: p < 0, 1 hoặc

p = 0, 1 hoặc p 6= 0, 1,....

(3) X là chiều cao của nam thanh niên Việt Nam. Giả thuyết thống kê có thể là: X có

phân phối chuẩn hoặc X không có phân phối chuẩn,...

Trong các bài toán kiểm định giả thuyết, có 2 giả thuyết mâu thuẫn nhau được đưa ra để

xem xét. Chẳng hạn, giả thuyết tỉ lệ phế phẩm của nhà máy: p < 0, 1 và p ≥ 0, 1, giả thuyết

tuổi thọ trung bình: µ = 60 và µ 6= 60. Một trong 2 giả thuyết đó gọi là giả thuyết không

được kí hiệu là H0 và giả thuyết còn lại gọi là đối thuyết được kí hiệu là H1. Giả thuyết H0

được xem là giả thuyết đúng, thủ tục kiểm định giả thuyết là phương pháp sử dụng số

liệu thu thập được để để bác bỏ H0. Giả thuyết không H0 bị bác bỏ và chấp nhận đối thuyết

H1 khi có đủ cơ sở để cho rằng H0 sai. Nếu mẫu số liệu thu thập được không đủ mạnh để

49

TS. Lê Văn Dũng

chứng tỏ H0 sai thì ta sẽ tiếp tục chấp nhận H0 đúng. Việc công nhận H0 đúng ở đây cần

hiểu là các chứng cứ và số liệu thu thập được chưa có cơ sở để bác bỏ H0, cần phải nghiên

cứu tiếp.

Ví dụ 5.1. Gieo 1 đồng xu 100 lần thấy có 60 lần xuất hiện mặt sấp. Ta nghi ngờ rằng xác

suất xuất hiện mặt sấp lớn hơn xác suất xuất hiện mặt ngữa. Gọi p là xác suất xuất hiện mặt

sấp. Như vậy ta có bài toán kiểm định giả thuyết là H0 : p = 0, 5, H1 : p > 0, 5. Thủ tục kiểm

định ở đây là dựa trên kết quả của 100 lần tung đồng xu để bác bỏ H0. Nếu không chứng

minh được H0 sai thì ta phải chấp nhận H0 đúng.

5.1.2 Sai lầm loại I và sai lầm loại II

Khi tiến hành kiểm định giả thuyết thông kê theo cách trên ta sẽ có thể phạm phải một

trong hai sai lầm sau:

- Bác bỏ H0 trong khi thực tế là H0 đúng. Sai lầm này gọi là sai lầm loại I.

- Chấp nhận H0 trong khi thực tế là H0 sai. Sai lầm này gọi là sai lầm loại II.

H0 đúng H0 saiBác bỏ H0 sai lầm loại I quyết định đúngChấp nhận H0 quyết định đúng sai lầm loại II

Ví dụ 5.2. Một đợt kiểm định độ tin cậy được tiến hành cho một tội phạm. Bị cáo sẽ chưa

bị kết luận là có tội khi tội của anh ta chưa được chứng minh. Nguyên đơn cố gắng chứng

minh tội của bị cáo. Chỉ khi có đủ bằng chứng thì bị cáo mới bị buộc tội.

Bắt đầu đợt kiểm định, có hai giả thuyết được đưa ra là H0: "bị cáo không có tội" và H1:

"bị cáo có tội".

Sai lầm loại I ở đây là kết luận bị cáo có tội trong khi bị cáo vô tội, còn sai lầm loại II là

bỏ thoát tội bị cáo trong khi thực tế bị cáo có tội. Bởi vì chúng ta không muốn đổ oan cho

người vô tội nên cần kiểm soát sao cho sai lầm loại I này ít xảy ra nhất cho dù xác suất mắc

sai lầm loại II có thể lớn.

α = P (sai lầm loại I) = P (bác bỏ H0/H0 đúng) được gọi là mức ý nghĩa của kiểm định. Trong

bài toán kiểm định ta thường cho trước mức ý nghĩa α để kiểm soát mắc sai lầm loại I.

5.1.3 Thủ tục kiểm định giả thuyết và p-giá trị

Ta xét ví dụ sau: Ở một quốc gia có chiều cao của nam thanh niên trưởng thành tuân

theo quy luật phân phối chuẩn với chiều cao trunh bình là 1, 60 (m) và độ lệch chuẩn là 0, 1

(m). Ở một địa phương nọ của quốc gia trên người ta chọn ngẫu nhiên 100 nam thanh niên

trưởng thành, tiến hành đo chiều cao 100 nam thanh niên này người ta tính được trung bình

mẫu x = 1, 63 (m). Trên cơ sở mẫu số liệu này liệu có thể cho rằng chiều cao nam thanh niên

trưởng thành ở địa phương trên lớn hơn 1, 60 (m) không?

50


Gọi Gọi X là phân bố chiều cao của nam thanh niên trưởng thành ở địa phương trên và

E(X) = µ là chiều cao trung bình chưa biết, khi đó X ∼ N(µ; 0, 12). Bài toán kiểm định giả

thuyết được đưa ra là H0 : µ = 1, 60 và H1 : µ > 1, 60.

Gọi X1, X2, ..., X100 là mẫu ngẫu nhiên về chiều cao của 100 nam thanh niên được chọn ở

địa phương trên, ta có

X =X1 +X2 + ...+X100

100

có phân phối chuẩn N(µ;σ2) với σ2 =0, 12

100= 0, 012.

Nếu H0 đúng (µ = 1, 60) thì X ∼ N(160; 0, 12) và X ∼ N(160; 0, 012). Theo luật số lớn ta có x

cũng phải khá gần với µ = 160. Do đó ta sẽ bác bỏ H0 nếu x lớn hơn so với 1, 60 một cách có

ý nghĩa, điều này tương đương với: nếu xác suất P (X ≥ x) quá nhỏ thì ta sẽ bác bỏ H0.

Với x = 1, 63 ta có xác suấtP (X ≥ 1, 65) với điều kiện µ = 1, 60 là

P (X ≥ 1, 65/µ = 1, 60) = 0, 5− Φ(1, 63− 1, 6

0, 01) = 1− Φ(3) = 0, 00135

Xác suất này rất nhỏ nên ta có thể bác bỏ H0 và chấp nhận H1.

Giá trị xác suất P (X ≥ 1, 65/µ = 1, 60) được gọi là p-giá trị.

Ta có thể hiểu p-giá trị = P (X ≥ 1, 65/µ = 1, 60) như sau: theo luật số lớn x = 1, 65 là một

xấp xỉ của µ nên P (X ≥ 1, 65) phải xấp xỉ bằng 0,5 (do P (X ≥ µ) = 0, 5). Do đó nếu H0 đúng

thì P (X ≥ 1, 65/µ = 1, 60) phải xấp xỉ bằng 0,5. Nếu ta tính được P (X ≥ 1, 65/µ = 1, 60) quá

nhỏ thì đó là điều vô lí nên không thể xem H0 đúng được.

Một vấn đề đặt ra ở đây là p-giá trị như thế nào được xem là nhỏ để có thể bác bỏ H0?

Trong thống kê người ta quy ước như sau:

+) p-giá trị > 0, 05: không có đủ cơ sở để bác bỏ H0;

+) 0, 01 ≤ p-giá trị ≤ 0, 05: có đủ cơ sở để bác bỏ H0;

+) p-giá trị < 0, 01: có cơ sở vững chắc để bác bỏ H0.

Trong trường hợp cho trước mức ý nghĩa α thì

bác bỏ H0 nếu p-giá trị ≤ α;

chấp nhận H0 nếu p-giá trị > α.

Nói cách khác, p-giá trị chính là mức ý nghĩa thấp nhất mà ta có thể bác bỏ H0.

51

TS. Lê Văn Dũng

5.2 Kiểm định kì vọng của phân phối chuẩn

5.2.1 Đã biết phương sai

Giả sử X là biến ngẫu nhiên có phân phối chuẩn N(µ;σ2) với kì vọng E(X) = µ chưa biết

nhưng phương sai D(X) = σ2 đã biết.

(i) Xét bài toán kiểm định giả thuyết

H0 : µ = µ0

với đối thiết

H1 : µ > µ0,

trong đó µ0 là một hằng số.

Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Nếu H0 đúng thì X ∼ N(µ0;σ2) và X ∼

N(µ0;σ2/n). Ta sẽ bác bỏ H0 nếu x (là trung bình mẫu tính được từ mẫu số liệu) lớn hơn rất

nhiều so với µ0 một cách có ý nghĩa. Do đó p-giá trị sẽ là P (X ≥ x/µ = µ0). Ta có

P (X ≥ x/µ = µ0) = 1− Φ(x− µ0σ

√n)

= 0, 5− Φ(υ)

= 0, 5− Φ(|υ|) với υ =x− µ0σ

√n.

Ví dụ 5.3. Trong năm trước trọng lượng trung bình của bò xuất chuồng ở một trang trại

là 380 kg. Năm nay người ta áp dụng thử một chế độ ăn mới với hy vọng là bò sẽ tăng trọng

nhanh hơn. Sau thời gian áp dụng thử người ta lấy ngẫu nhiên 50 con bò xuất chuồng đem

cân và tính được trọng lượng trung bình của chúng là x = 390 kg. Có thể cho rằng trọng

lượng trung bình của bò xuất chuồng đã tăng lên không? Giả thuyết trọng lượng của bò có

phân phối chuẩn với σ = 25, 2 kg.

Giải. Gọi X là trọng lượng bò xuất chuồng sau khi áp dụng chế độ ăn mới và E(X) = µ là

trọng lượng trung bình (chưa biết). Ta cần kiểm định giả thuyết H0 : µ = 380 với đối thiết

H1 : µ > 380.

υ =x− µ0σ

√n ≈ 2, 8

p-giá trị = 1− Φ(2, 8) = 0, 0025. Giá trị xác suất này rất nhỏ nên có cơ sở bác bỏ H0. Tức là

có thể cho rằng trọng lượng trung bình của bò xuất chuồng đã tăng lên.

52


Chú ý 5.1. Trong bài toán kiểm định giả thuyết H0 : µ = µ0 với đối thiết H1 : µ > µ0, nếu

cho trước mức ý nghĩa α thì ta bác bỏ H0 nếu p-giá trị ≤ α. Ta có

p-giá trị ≤ α⇔ 0, 5− Φ(υ) ≤ α⇔ Φ(υ) ≥ 0, 5− α⇔ υ ∈ [u(1− α); +∞)

W = [u(1− α); +∞) được gọi là miền bác bỏ H0. Vì vậy, nếu cho trước mức ý nghĩa α thì ta

có thể giải bài toán kiểm định giả thuyết trên như sau:

+ tìm miền bác bỏ W = [u(1− α); +∞)

+ tính υ =x− µ0σ

√n

+ nếu υ ∈ W thì bác bỏ H0, nếu υ 6∈ W thì chấp nhận H0.

(ii) Xét bài toán kiểm định giả thuyết

H0 : µ = µ0


H1 : µ < µ0,


Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Nếu H0 đúng thì X có phân phối chuẩn

N(µ0;σ2/n). Ta sẽ bác bỏ H0 nếu x (là trung bình mẫu tính được từ mẫu số liệu) nhỏ hơn

rất nhiều so với µ0 một cách có ý nghĩa. Do đó p-giá trị sẽ là P (X ≤ x/µ = µ0). Ta có

P (X ≤ x/µ = µ0) = Φ(x− µ0σ

√n)

= Φ(υ)

= 0, 5− Φ(|υ|) với υ =x− µ0σ

√n.

Nếu cho trước mức ý nghĩa α thì miền bác bỏ H0 trong bài toán kiểm định này là W =

(−∞;−u(1− α)].

(iii) Xét bài toán kiểm định giả thuyết

H0 : µ = µ0


H1 : µ 6= µ0,


53

TS. Lê Văn Dũng

Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Nếu H0 đúng thì X có phân phối chuẩn

N(µ0;σ2/n). Ta sẽ bác bỏ H0 nếu x (là trung bình mẫu tính được từ mẫu số liệu) nhỏ hơn

rất nhiều hoặc lớn hơn rất nhiều so với µ0 một cách có ý nghĩa. Do đó

p-giá trị =

2P (X ≥ x) nếu x > µ02P (X ≤ x) nếu x < µ0

= 2(0, 5− Φ(|x− µ0|

σ

√n))

= 2(0, 5− Φ(|υ|)) với υ =x− µ0σ

√n.

Nếu cho trước mức ý nghĩa α thì miền bác bỏ H0 trong bài toán kiểm định này là W =

(−∞;−u(1− α2 )] ∪ [u(1− α

2 ); +∞).

Kết luận

X ∼ N(µ;σ2) với σ2 đã biết.

Miền bác bỏ H0 P -giá trịH0 : µ = µ0H1 : µ > µ0

|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : µ = µ0H1 : µ < µ0

|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : µ = µ0H1 : µ 6= µ0

|υ| > u(1− α2 ) 2(0, 5− Φ(|υ|))

Trong đó, υ =(x− µ0)

√n

σ, giá trị u(1− α

2 ) và u(1− α) tra ở Bảng II.

Ví dụ 5.4. Tốc độ đốt cháy một loại nhiên liệu máy bay là biến ngẫu nhiên chuẩn với

σ = 2cm/s. Với mức ý nghĩa α = 0, 05 hãy kiểm định giả thuyết H0 : µ = 50cm/s với đối thiết

H1 : µ 6= 50cm/s biết rằng lấy n = 25 mẫu ngẫu nhiên thu được x = 51, 3cm/s.

Giải. υ = 3, 25

Cách 1: p-giá trị = 2(0, 5− Φ(3, 25)) = 0, 001 < α nên bác bỏ H0.

Cách 2: α = 0, 05⇒ u(1− α) = 1, 645.

|υ| = 3, 25 > u(1− α) ∈ W nên bác bỏ H0.

54


5.2.2 Chưa biết phương sai

Giả sử X là biến ngẫu nhiên có phân phối chuẩn N(µ;σ2) với kì vọng E(X) = µ chưa biết

và phương sai D(X) = σ2 chưa biết.

Xét bài toán kiểm định giả thuyết

H0 : µ = µ0


H1 : µ > µ0,


Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Nếu H0 đúng thìX − µ0

s

√n có phân phối

Student n− 1 bậc tự do (Tn−1). Ta sẽ bác bỏ H0 nếu x (là trung bình mẫu tính được từ mẫu

số liệu) lớn hơn rất nhiều so với µ0 một cách có ý nghĩa, tương đương với bác bỏ H0 nếu

υ =x− µ0s

√n lớn hơn rất nhiều so với 0 một cách có ý nghĩa. Do đó, p-giá trị sẽ là

p-giá trị = P (Tn−1 ≥ υ)

= P (Tn−1 > |υ|) với υ =x− µ0s

√n.

Chú ý 5.2. Nếu cho trước mức ý nghĩa α, ta có

p-giá trị ≤ α⇔ P (Tn−1 ≥ υ) ≤ α⇔ υ ∈ [tn−1(1− α); +∞).

W = [tn−1(1− α); +∞) được gọi là miền bác bỏ H0. Vì vậy, nếu cho trước mức ý nghĩa α thì

ta có thể giải bài toán kiểm định giả thuyết trên như sau:

+ tìm miền bác bỏ W = [tn−1(1− α); +∞)

+ tính υ =x− µ0σ

√n

+ nếu υ ∈ W thì bác bỏ H0, nếu υ 6∈ W thì chấp nhận H0.

Tương tự bài toán kiểm định giả thuyết trên, ta có:

Bài toán kiểm định giả thuyết H0 : µ = µ0 với đối thiết H1 : µ < µ0 có p-giá trị là

p-giá trị = P (Tn−1 ≤ υ) = P (Tn−1 ≥ |υ|).

Bài toán kiểm định giả thuyết H0 : µ = µ0 với đối thiết H1 : µ 6= µ0 có p-giá trị là

p-giá trị = 2P (Tn−1 ≥ |υ|)

trong đó υ =x− µ0s

√n.

55

TS. Lê Văn Dũng

H0 : µ = µ0, H1 : µ < µ0 H0 : µ = µ0, H1 : µ 6= µ0

Kết luận

X ∼ N(µ;σ2).


|υ| > tn−1(1− α) P (Tn−1 ≥ |υ|)H0 : µ = µ0H1 : µ < µ0

|υ| > tn−1(1− α) P (Tn−1 ≥ |υ|)H0 : µ = µ0H1 : µ 6= µ0

|υ| > tn−1(1− α2 ) 2P (Tn−1 ≥ |υ|)


√n

s, giá trị tn−1(1− α

2 ) và tn−1(1− α) tra ở Bảng III.

Trong trường hợp cỡ mẫu lớn (n > 30) thì Tn−1 ≈ N(0; 1) nên ta có thể lấy tn−1(1−α) ≈ u(1−α)

và sử dụng máy tính CASIO để tính P -giá trị. Cụ thể

P (Tn−1 ≥ |υ|) ≈ 0, 5− Φ(|υ|).

Vì vậy, với cỡ mẫu n > 30 ta có

X ∼ N(µ;σ2) với σ2 chưa biết và cỡ mẫu n > 30.


|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : µ = µ0H1 : µ < µ0

|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : µ = µ0H1 : µ 6= µ0

|υ| > u(1− α2 ) 2(0, 5− Φ(|υ|))


√n

s, giá trị u(1− α

2 ) và u(1− α) tra ở Bảng II.

Ví dụ 5.5. Trọng lượng của một loại sản phẩm do một xí nghiệp sản xuất đạt tiêu chuẩn

nếu có trọng lượng là 6 kg. Sau một thời gian sản xuất người ta tiến hình kiểm tra ngẫu

nhiên 121 sản phẩm do xí nghiệp đó sản xuất và tính được trung bình mẫu x = 5, 8 kg và độ

lệch chuẩn mẫu s = 1, 4 kg. Với mức ý nghĩa α = 5% có thể cho rằng trọng lượng sản phẩm

của xí nghiệp đạt tiêu chuẩn không? Biết rằng trọng lượng sản phẩm của xí nghiệp có phân

phối chuẩn.

56


Giải. Gọi X là trọng lượng sản phẩm và E(X) = µ là trọng lượng sản phẩm trung bình thực

tế. Ta cần kiểm định giả thuyết H0 : µ = 6 với đối thiết H1 : µ 6= 6.

υ =x− µ0s

√n = −1, 571.

Cách 1. p-giá trị = 2P (T120 ≥ 1, 571) ≈ 2(1− Φ(1, 571)) = 0, 116 > α nên chưa có cơ sở bác bỏ

H0.

Cách 2. tn−1(1− α2 ) = t120(0, 975) ≈ u(0, 975) = 1, 96.

|υ| = 1, 571 < tn−1(1− α2 ) nên chưa có cơ sở bác bỏ H0.

Ví dụ 5.6. Tuổi thọ trung bình của một loại bóng đèn do nhà máy A sản xuất khi chưa cải

tiến kĩ thuật là 2000 giờ. Sau thời gian cải tiến kĩ thuật người ta chọn ngẫu nhiên 25 bóng

đèn cho lắp thử nghiệm, kết quả thực nghiệm thu được tuổi thọ trung bình mẫu x = 2010 giờ

và độ lệch chuẩn mẫu s = 15 giờ. Với mức ý nghĩa 0, 025 có thể kết luận "sau khi cải tiến kĩ

thuật, tuổi thọ bóng đèn có tăng lên" không? Biết tuổi thọ bóng đèn có phân phối chuẩn.

Giải. Gọi X là tuổi thọ bóng đèn sau cải tiến kĩ thuật và E(X) = µ là tuổi thọ trung bình.

Ta cần kiểm định giả thuyết H0 : µ = 2000 với đối thiết H1 : µ > 2000.

υ =x− µ0s

√n = 4, 167.

Cách 1. p-giá trị = P (T24 ≥ 4, 147) = 0, 001 < α nên bác bỏ H0.

Cách 2. tn−1(1− α) = t24(0, 975) = 2, 0639.

|υ| = 4, 167 > tn−1(1− α) nên bác bỏ H0 tức là có cơ sở để kết luận "sau khi cải tiến kĩ thuật,

tuổi thọ bóng đèn có tăng lên".

5.3 Kiểm định phương sai của phân phối chuẩn

Giả sử X là biến ngẫu nhiên có phân phối chuẩn N(µ;σ2) với phương sai D(X) = σ2 chưa

biết.

Xét bài toán kiểm định giả thuyết

H0 : σ2 = σ20


H1 : σ2 > σ20,

trong đó σ0 là một hằng số.

57

TS. Lê Văn Dũng

Gọi (X1, X2, ..., Xn) là mẫu ngẫu nhiên của X. Giả sử rằng (X1, X2, ..., Xn) là một mẫu

ngẫu nhiên kích thước n của biến ngẫu nhiên. Nếu H0 đúng thì(n− 1)S2

σ20có phân phối Khi

bình phương n− 1 bậc tự do.

Mặt khác, phương sai mẫu s2 (được tính từ mẫu số liệu thu thập được) là một xấp xỉ của σ2

nên ta sẽ bác bỏ H0 nếu s2 lớn hơn rất nhiều so với σ20 một cách có ý nghĩa, tương đương với

bác bỏ H0 nếu υ =(n− 1)s2

σ20lớn hơn rất nhiều so với n− 1 một cách có ý nghĩa (chú ý rằng

0, 4 ≤ P (χ2n−1 > n− 1) ≤ 0, 5 với mọi n > 3). Do đó, p-giá trị sẽ là

p-giá trị = P (χ2n−1 ≥ υ)

Chú ý 5.3. Nếu cho trước mức ý nghĩa α, ta có

p-giá trị ≤ α⇔ P (Tn−1 ≥ υ) ≤ α⇔ υ ∈ [χ2n−1(1− α); +∞).

W = [χ2n−1(1− α); +∞) được gọi là miền bác bỏ H0. Vì vậy, nếu cho trước mức ý nghĩa α thì

ta có thể giải bài toán kiểm định giả thuyết trên như sau:

+ tìm miền bác bỏ W = [χ2n−1(α); +∞)

+ tính υ =(n− 1)s2

σ20+ nếu υ ∈ W thì bác bỏ H0, nếu υ 6∈ W thì chấp nhận H0.

Tương tự đối với bài toán kiểm định trên ta có:

Bài toán kiểm định giả thuyết H0 : σ2 = σ20 với đối thiết H1 : σ2 < σ20 ta có

p-giá trị = P (χ2n−1 ≤ υ).

Bài toán kiểm định giả thuyết H0 : σ2 = σ20 với đối thiết H1 : σ2 6= σ20 ta có

p-giá trị = 2 minP (χ2n−1 ≤ υ);P (χ2n−1 ≥ υ).

Trong đó υ =(n− 1)s2

σ20.

H0 : σ2 = σ20, H1 : σ2 < σ20 H0 : σ2 = σ20, H1 : σ2 6= σ20

Kết luận:

58


X ∼ N(µ;σ2) với σ2 chưa biết.

Miền bác bỏ H0 P -giá trịH0 : σ2 = σ20H1 : σ2 > σ20

υ > χ2n−1(1− α) P (χ2n−1 ≥ υ)

H0 : σ2 = σ20H1 : σ2 < σ20

υ < χ2n−1(α) P (χ2n−1 ≤ υ)

H0 : σ2 = σ20H1 : σ2 6= σ20

υ < χ2n−1(α2 )]

hoặc υ > χ2n−1(1−α2 )

2 minP (χ2n−1 ≤ υ);P (χ2n−1 ≥ υ)

Trong đó, υ =(n− 1)s2

σ20, giá trị χ2n−1(x) tra ở Bảng III.

Ví dụ 5.7. Chủ hãng sản xuất một loại thiết bị cho biết độ lệch chuẩn của sai số đo của

thiết bị là σ = 5 (đơn vị). Người ta kiểm tra 19 thiết bị thì thấy s2 = 33. Với α = 0, 05 có kết

luận gì về ý kiến của chủ hãng trên.

Giải. Ta cần kiểm định giả thuyết H0 : σ2 = 25 với đối thiết H1 : σ2 6= 25.

υ =(n− 1)s2

σ20=

1833

25= 23, 76.

Cách 1. α = 0, 05⇒ χ218(0, 025) = 8, 231, χ218(0, 975) = 31, 526.

Miền bác bỏ W = (−∞; 8, 231) ∪ (31, 526; +∞).

υ = 23, 76 6∈ W nên chưa có cơ sở bác bỏ H0, tức là ý kiến của chủ hãng trên có thể chấp

nhận được.

Cách 2. p-giá trị = 2 minP (χ218 ≤ 8, 231);P (χ2n−1 ≥ 8, 231) = 0, 326 > α nên chấp nhận

H0.

5.4 Kiểm định tham số p của phân phối A(p)

Cho x1, x2, ..., xn là một mẫu số liệu của X ∼ A(p) với p chưa biết.

Miền bác bỏ H0 P -giá trịH0 : p = p0H1 : p > p0

|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : p = p0H1 : p < p0

|υ| > u(1− α) 0, 5− Φ(|υ|)H0 : p = p0H1 : p 6= p0

|υ| > u(1− α2 ) 2(0, 5− Φ(|υ|))

Trong đó,f =x1 + ...+ xn

n=k

n, υ = f−p0√

p0(1−p0)

√n, giá trị u(1− α

2 ) và u(1−α) tra

ở Bảng II.

Ví dụ 5.8. Giám đốc một công ty tuyên bố 90% sản phẩm của công ty đạt tiêu chuẩn quốc

gia. Một công ty kiểm định độc lập đã tiến hành kiểm tra 200 sản phẩm của công ty đó thì

thấy có 168 sản phẩm đạt yêu cầu. Với mức ý nghĩa α = 0, 05 có kết luận gì về tuyên bố trên?

59

TS. Lê Văn Dũng

Giải. Gọi p là tỉ lệ sản phẩm của công ty đạt chuẩn quốc gia.

Ta cần kiểm định giả thuyết H0 : p = 0, 9 với đối thiết H1 : p < 0.9

υ =k/n− p0√p0(1− p0)

√n ≈ −2, 83

Cách 1. p-giá trị = 0, 5− Φ(2, 83) = 0, 0023 < α nên bác bỏ H0.

Cách 2. α = 0, 05⇒ u(1− α) = z(0, 95) = 1, 645.

|υ| ≈ 2, 83 > u(1− α) nên không có cơ sở để tin vào tuyên bố của vị giám đốc trên.

5.5 Kiểm định quy luật phân phối xác suất

Giả sử x1;x2, ..., xn là mẫu số liệu các giá trị của biến ngẫu nhiên X mà ta ta chưa biết

quy luật phân phối xác suất của X. Từ mẫu số liệu của X là cần kiểm định giả thuyết X

tuân theo quy luật phân phối xác suất A nào đó, tức là ta cần kiểm định giả thuyết

H0 : X tuân theo quy luật phân phối xác suất A


H1 : X không tuân theo quy luật phân phối xác suất A.

5.5.1 Biến ngẫu nhiên rời rạc

Từ mẫu số liệu lập bảng phân phối tần số rời rạc

X x1 x2 ... xmni n1 n2 ... nm

n1 + n2 + ...+ nm = n.

Giả sử H0 đúng, tính các xác suất pk = P (X = xk/H0 đúng) và đặt n′

k = npk ta được bảng

phân phối của X với điều kiện H0 đúng

X x1 x2 ... xmn′

i n′

1 n′

2 ... n′

mn′

1 + n′

2 + ...+ n′

m = n.

Người ta đã chứng minh đượcm∑k=1

(nk − n′

k)2

n′

k

có phân phối khi bình phương m− r− 1 bậc tự do với r là số tham số cần ước lượng của quy

luật cần kiểm định (chẳng hạn phân phối nhị thức và Poisson có r = 1).

p-giá trị = P (χ2m−r−1 > υ) với υ =m∑k=1

(nk − n′

k)2

n′

k

.

Với mức ý nghĩa α, miền bác bỏ H0 là W = [χ2m−r−1(α); +∞).

5.5.2 Biến ngẫu nhiên liên tục

Chia miền giá trị của X thành m khoảng rời nhau: S1, S2, ..., Sm.

Từ mẫu số liệu lập bảng phân phối tần số liên tục

X S1 S2 ... Smni n1 n2 ... nm

60


sao cho nk ≥ 5 với mọi k.

Giả sử H0 đúng, tính các xác suất pk = P (X ∈ Sk/H0 đúng) và đặt n′

k = npk ta được bảng

phân phối của X với điều kiện H0 đúng

X S1 S2 ... Smn′

i n′

1 n′

2 ... n′

m

p-giá trị = P (χ2m−r−1 > υ) với υ =m∑k=1

(nk − n′

k)2

n′

k

.

Với mức ý nghĩa α, miền bác bỏ H0 là W = [χ2m−r−1(α); +∞).

Ví dụ 5.9. Số cuộc gọi đến (X) ở một trạm điện thoại trong một phút được cho bởi bảng

sau

X 0 1 2 3 4 5 ≥ 6ni 17 22 26 20 11 2 2

Với mức ý nghĩa α = 0, 05 có thể coi X có phân phối Poisson không?

Giải. Từ mẫu số liệu trên ta tính được x = 2.

Ta cần kiểm định giả thuyết H0 : X có phân phối Poisson với đối thiết H1 : X không có phân

phối Poisson.

Giả sử H0 đúng, ta chọn λ = x = 2. Ta lập bảng sau

xk nk pk = e−22xk

xk!n′

k = npk(nk − n

′

k)2

n′

k0 17 0,1353 13,53 0,891 22 0,2707 27,07 0,952 26 0,2707 27,07 0,043 20 0,1804 18,04 0,214 11 0,0902 9,02 0,435 2 0,0361 3,61 0,72≥ 6 2 0,0166 1,66 0,07

100 1 υ = 3, 31

p-giá trị = P (χ25 ≥ 3, 31) = 0, 65 > α nên chưa có cơ sở bác bỏ H0, tức là có thểm coi X có

phân phối Poisson với λ = 2.

Ví dụ 5.10. Tiến hành đo ngẫu nhiên chiều cao (X) của 100 cây bạch đàn trong khu rừng

trồng bạch đàn của một lâm trường ta được kết quả sau

X (mét) nk X (mét) nk[8,275;8,325) 1 [8,625-8,675) 17[8,325;8,375) 2 [8,675;8,725) 12[8,375;8,425) 4 [8,725;8,775) 9[8,425;8,475) 5 [8,775;8,825) 7[8,475;8,525) 8 [8,725;8,775) 6[8,525;8,575) 10 [8,775;8,925) 0[8,575;8,625) 18 [8,925;8,975) 1

Với mức ý nghĩa α = 0, 05 có thể cỏi chiều cao cây bạch đàn ở khu rừng trên có phân phối

chuẩn không?

61

TS. Lê Văn Dũng

Giải. Tiến hành ghép lớp để đảm bảo các nk ≥ 5 ta được

X (mét) nk X (mét) nk(-∞;8,425) 7 [8,625;8,675) 17[8,425-8,475) 5 [8,675;8,725) 12[8,475-8,525) 8 [8,725;8,775) 9[8,525-8,575) 10 [8,775;8,825) 7[8,575-8,625) 18 [8,725;+∞) 7

Từ mẫu trên ta tính được x = 8, 63, s = 0, 128.

Giả sử X có phân phối chuẩn N(µ;σ2), khi đó ta xấp xỉ µ = 8, 63 và σ = 0, 128 để tính các pk

theo công thức

pk = P (ak−1 ≤ X < ak) = Φ(ak − 8, 63

0, 128)− Φ(

ak−1 − 8, 63

0, 128).

Từ đó ta có

X (mét) nk pk n′

k = npk(nk − n

′

k)2

n′

k(-∞;8,425) 7 0,0548 5,48 0,4216[8,425-8,475) 5 0,0583 5,83 0,1182[8,475-8,525) 8 0,0930 9,3 0,1817[8,525-8,575) 10 0,1295 12,95 0,6720[8,575-8,625) 18 0,1484 14,84 0,6729[8,625;8,675) 17 0,1528 15,28 0,1936[8,675;8,725) 12 0,1735 17,35 0,1365[8,725;8,775) 9 0,1004 10,04 0,1077[8,775;8,825) 7 0,0650 6,5 0,0385[8,825;+∞) 7 0,0643 6,43 0,0505

100 υ = 2, 5923

p-giá trị = P (χ27 ≥ 2, 5932) = 0, 925 > α nên chưa có cơ sở bác bỏ H0, tức là có thể coi chiều

cao cây bạch đàn ở khu rừng trên có phân phối chuẩn.

62

Documents

Xac suat thong ke