127
Cao Hào Thi 1 Chương 1 XÁC SUT (Probability) 1.1. THÍ NGHIM NGU NHIÊN, KHÔNG GIAN MU, BIN C: 1.1.1. Thí nghim ngu nhiên (Random Experiment) Thí nghim ngu nhiên là mt thí nghim có hai đặc tính : - Không biết chc hu qunào sxy ra. - Nhưng biết được các hu qucó thxy ra Ví d: Tung mt con xúc sc là mt thí nghim ngu nhiên vì : - Ta không biết chc mt nào sxut hin - Nhưng biết được có 6 trường hp xy ra (xúc sc có 6 mt 1, 2, 3, 4, 5, 6) Ràng buc: - Con xúc sc đồng cht để 6 mt đều có thxut hin như nhau. - Cách tung xúc sc không cý thiên vcho mt nào hin ra. 1.1.2. Không gian mu (Sample Space) Tp hp các hu qucó thxy ra trong thí nghim ngu nhiên gi là không gian mu ca thí nghim đó. Ví d: Không gian mu ca thí nghim thy mt con xúc xc là: E = {1, 2, 3, 4, 5, 6} Không gian mu ca thí nghim thy cùng mt lúc hai đồng xu là: E = {SS, SN, NS, NN} vi S: Sp, N: Nga 1.1.3. Biến c(Event) a) Biến c- Mi tp hp con ca không gian mu là mt biến c- Biến ccha mt phn tgi là biến csơ đẳng Ví d: Trong thí nghim thy 1 con xúc sc : - Biến ccác mt chn là : {2, 4, 6}. Biến ccác mt l: {1, 3, 5} - Các biến csơ đẳng là : {1}, {2}, {3}, {4}, {5}, {6}

Giáo Trình Xác Suất Thống Kê

Embed Size (px)

DESCRIPTION

Xác suất, biến, định lượng định tính,

Citation preview

Page 1: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 1

Chương 1

XÁC SUẤT (Probability)

1.1. THÍ NGHIỆM NGẪU NHIÊN, KHÔNG GIAN MẪU, BIẾN CỐ:

1.1.1. Thí nghiệm ngẫu nhiên (Random Experiment)

Thí nghiệm ngẫu nhiên là một thí nghiệm có hai đặc tính :

- Không biết chắc hậu quả nào sẽ xảy ra.

- Nhưng biết được các hậu quả có thể xảy ra

Ví dụ: Tung một con xúc sắc là một thí nghiệm ngẫu nhiên vì :

- Ta không biết chắc mặt nào sẽ xuất hiện

- Nhưng biết được có 6 trường hợp xảy ra (xúc sắc có 6 mặt 1, 2, 3, 4, 5, 6)

Ràng buộc:

- Con xúc sắc đồng chất để 6 mặt đều có thể xuất hiện như nhau.

- Cách tung xúc sắc không cố ý thiên vị cho mặt nào hiện ra.

1.1.2. Không gian mẫu (Sample Space)

Tập hợp các hậu quả có thể xảy ra trong thí nghiệm ngẫu nhiên gọi là không gian mẫu của thí nghiệm đó.

Ví dụ:

Không gian mẫu của thí nghiệm thảy một con xúc xắc là: E = {1, 2, 3, 4, 5, 6}

Không gian mẫu của thí nghiệm thảy cùng một lúc hai đồng xu là: E = {SS, SN, NS, NN} với S: Sấp, N: Ngửa

1.1.3. Biến cố (Event)

a) Biến cố - Mỗi tập hợp con của không gian mẫu là một biến cố

- Biến cố chứa một phần tử gọi là biến cố sơ đẳng

Ví dụ:

Trong thí nghiệm thảy 1 con xúc sắc :

- Biến cố các mặt chẵn là : {2, 4, 6}. Biến cố các mặt lẻ: {1, 3, 5}

- Các biến cố sơ đẳng là : {1}, {2}, {3}, {4}, {5}, {6}

Page 2: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 2

b) Biến cố xảy ra (hay thực hiện) Gọi r là một hậu quả xảy ra và A là một biến cố

- nếu r ∈ A ta nói biến cố A xảy ra

- nếu r ∉ A ta nói biến cố A không xảy ra

Ví dụ:

Trong thí nghiệm thảy một con xúc sắc nếu mặt 4 xuất hiện thì:

- Biến cố {2,4,6} xảy ra vì 4 ∈ {2, 4, 6}

- Biến cố {1,3,5} không xảy ra vì 4 ∉ {1, 3, 5}

Ghi chú:

- φ ⊂ E => φ là một biến cố

∀ r, r ∉ φ => φ là một biến cố vô phương (biến cố không)

- E ⊂ E => E là một biến cố

∀ r, r ∈ E => E là một biến cố chắc chắn

1.1.4. Các phép tính về biến cố

Cho 2 biến cố A, B với A ⊂ E và B ⊂ E

a) Biến cố hội A ∪ B (Union)

Biến cố hội của 2 biến cố A và B được ký hiệu là A ∪ B:

A ∪ B xảy ra (A xảy ra HAY B xảy ra)

b) Biến cố giao A ∩ B (Intersection)

A ∩ B xảy ra (A xảy ra VÀ B xảy ra)

A B A∪B

E

A B A∩B

E

Page 3: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 3

c) Biến cố phụ A (Biến cố đối lập, Component of A)

A xảy ra A không xảy ra

d) Biến cố cách biệt ( biến cố xung khắc, mutually exclusive event)

A cách biệt với B A ∩ B = φ

A cách biệt với B A với B không cùng xảy ra

Ví dụ:

Trong thí nghiệm thảy một con xúc sắc, ta có không gian mẫu: E = {1, 2, 3, 4, 5, 6}

- Gọi A là biến cố mặt lẻ xuất hiện => A = {1, 3, 5}

- Gọi B là biến cố khi bội số của 3 xuất hiện => B = {3, 6}

- Gọi C là biến cố khi mặt 4 xuất hiện => C = {4}, biến cố sơ đẳng.

Ta có:

A ∪ B = {1, 3, 5, 6}

A ∩ B = {3}

A = {2,4,6} : biến cố khi mặt chẵn xuất hiện.

A ∩ C = φ => A và C là 2 biến cố cách biệt.

e) Hệ đầy đủ (Collectively Exhaustive)

Gọi A1, A2…, Ak là k biến cố trong không gian mẫu E

Nếu A1∪ A2∪… ∪Ak = E thì K biến cố trên được gọi là một hệ đầy đủ.

A E

A

B

A

E

A∩B=φ

Page 4: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 4

1.2. XÁC SUẤT (Probability).

1.2.1. Định nghĩa:

Nếu thông gian mẫu E có N biến cố sơ đẳng và biến cố A có n biến cố sơ đẳng thì xác suất của biến cố A là :

P(A) = N

n(A)

Một cách khác ta có thể viết :

P(A) = raxaûy theå coù hôïptröôøng Soá

raxaûyAhôïptröôøngSoá

Ví dụ:

Trong thí nghiệm thảy một con xúc sắc, xác suất biến cố các mặt chẵn xuất hiện là :

P(A) = N

n(A) = 21

63

=

1.2.2. Tính chất:

a. Gọi A là một biến cố bất kỳ trong không gian mẫu E

0 ≤ P(A) ≤ 1

b. P (φ) = 0 => φ là Biến cố vô phương

P (E) = 1 => E là Biến cố chắc chắn

1.2.3. Công thức về xác suất :

a) Xác suất của biến cố hội:

P (A ∪ B) = P (A) + P(B) - P( A ∩ B)

Chứng minh:

Gọi N : là số phần tử của không gian mẫu E

n1: là số phần tử của (A - B)

n2: là số phần tử của (A∩B)

n3: là số phần tử của (B - A)

A B

n1 n2 n3

E

Page 5: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 5

n(A ∪ B) = n1 + n2 + n3

= n1 + n2 + n2 + n3 - n2

= n(A) + n(B) - n(A ∩ B)

Do đó : n( A ∪ B)/N = n(A)/N + n(B)/N - n(A ∩ B )/N

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Ghi chú : Nếu A và B là 2 biến cố cách biệt, ta có:

A ∩ B = φ => P(A ∩ B) = P(φ) = 0

==> P (A ∪ B) = P(A) + P(B)

b) Xác suất của biến cố phụ (biến cố đối lập)

Biến cố phụ của biến cố A trong không gian mẫu E là A : P(A) + P ( A ) = 1

Chứng minh:

A∪ A = E

P (A∪ A ) = P(E)

P(A) + P( A ) - P(A ∩ A ) = 1 vì P(A∩ A ) = P(φ) = 0

1.2.4. Công thức nhân về xác suất :

a) Xác xuất có điều kiện :

Gọi P (B / A) là xác suất có điều kiện của biến cố B sau khi biến cố A đã thực hiện.

P(B/A) = P(A ∩ B)/ P(A) Với P(A) > 0 ; P(B) > 0

hay

P(A/B) = P(A ∩ B)/ P(B)

Chứng minh :

• Gọi E là không gian mẫu chứa hai biến cố A,B

• Giả sử A thực hiện rồi thì A là biến cố chắc chắn, ta có thể chọn A làm không gian mẫu thu gọn.

• Biến cố B thực hiện sau khi biến cố A xảy ra trở thành biến cố B/A.

• Trong không gian mẫu biến cố B/A thực hiện nếu và chỉ nếu A ∩ B thực hiện.

r ∈ B/A r ∈ A ∩ B

A B

A∩B

E

Page 6: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 6

Theo định nghĩa, ta có:

)A(P)BA(P

N)A(n

N)BA(n

)A(n)BA(n)A/B(P ∩

=

=∩

=

b) Công thức nhân về xác suất:

Cho hai biến cố A và B trong không gian mẫu E, xác suất của biến cố giao được tính:

P(A∩B) = P(B/A) * P(A) hay P(A∩B) = P(A/B) * P(B)

c) Biến cố độc lập :

Biến cố gọi là độc lập với biến cố A về phương diện xác suất nếu xác suất của biến cố B không thay đổi cho dù biến cố A đã xảy ra, nghĩa là:

P(B/A) = P(B) ngược lại: P(A/B) = P(A)

Trong trường hợp hai biến cố độc lập, công thức nhân trở thành:

P(A∩B) = P(A) * P(B)

1.2.5. Công thức xác suất đầy đủ - Công thức Bayes

a) Công thức xác suất đầy đủ :

Giả sử biến cố B xảy ra khi và chỉ khi một trong các biến cố của hệ đầy đủ cách biệt nhau từng đôi một A1, A2…, Ak xảy ra.

Biết xác suất P(Ai) và P(B/Ai) hãy tìm P(B)

E AkA2A1

B

B∩A1 B∩A2 B∩Ak

Page 7: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 7

Theo giả thiết bài toán thì

B = (B ∩ A1) ∪ (B ∩ A2) ∪ … ∪ (B∩Ak)

P(B)= P[(B∩A1) ∪ (B∩A2) ∪…∪ (B∩Ak)] = P(B∩A1) + P(B∩A2) + … + P(B∩Ak)

Vì: P(B∩Ai) = P(B/Ai) * P(Ai)

P(B) = ∑=

k

iii )A(P*)A/B(P

1

Công thức này được gọi là công thức xác xuất đầy đủ.

Ví dụ:

Trong nhà máy có 4 phân xưởng. Phân xưởng I sản xuất chiếm 1/3 tổng sản lượng của nhà máy; Phân xưởng II chiếm 1/4; Phân xưởng III chiếm 1/4; Phân xưởng IV chiếm 1/6. Tỷ lệ phế phẩm tương ứng với các phân xưởng là 0,15; 0,08; 0,05; 0,01.

Tìm xác suất để lấy ngẫu nhiên một sản phẩm trong kho sản phẩm của nhà máy thì sản phẩm đó là phế phẩm

Giải :

Gọi A1, A2, A3, A4 là biến cố lấy đúng một sản phẩm của phân xưởng I,II,III,IV.

Gọi B là biến cố lấy được một phế phẩm

B = (B∩A1) ∪ (B∩A2) ∪ (B∩A3) ∪ (B∩A4)

==> P(B) = ∑=

4

1iii )A(P*)A/B(P

Theo đề bài:

P(A1) = 1/3, P(A2) = 1/4, P(A3)= 1/4, P(A4) = 1/6, ∑ = 1)Ai(P

P(B/A1) = 0,15, P(B/A2) = 0,08, P(B/A3) = 0,05, P(B/A4) = 0,01

Vậy P(B) =1/3 * 0,15 + 1/4 * 0,08 + 1/4 * 0,05 + 1/6 * 0,01 = 0,0816

b) Công thức Bayes:

Giải bài toán ngược của bài toán trên, tức là biết các P(Ai), P(B/Ai) và biến cố B đã xảy ra, tìm P(Ai/B)

Ta có : B = (B∩A1) ∪ (B∩A2) ∪ (B∩A3) ∪ (B∩A4)

và P(Ai∩B) = P(Ai/B) * P(B) = P(B/Ai) * P(Ai)

P(Ai /B) = P(B)

)P(A*)P(B/A ii

P(Ai /B) =

∑=

k

iii

ii

)P(A * )P(B/A

)P(A*)P(B/A

1

Page 8: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 8

Công thức này được gọi là công thức Bayes, hay công thức xác suất các giả thiết về các biến cố Ai có thể xem như giả thiết theo đó biến cố B xuất hiện. Ta phải tính xác suất của các giả thiết với điều kiện biến cố B xuất hiện.

Ví dụ:

Xét lại thí dụ 2.2, cũng với giả thiết đó bây giờ ta yêu cầu xác suất để lấy một sản phẩm của phân xưởng thứ nhất biết nó là một phế phẩm.

Ta phải tìm P(A1/B)

P(A1/B) = [P(B/A1) * P(A)]/P(B) = [0,15 * 1/3]/0,0816 = 0,61

1.2.6. Công thức Bernoulli :

a) Công thức Bernoulli :

Nếu tiến hành những phép thử độc lập, trong mỗi phép thử xác suất hiện của biến cố A như nhau và bằng p thì xác suất để biến cố A xuất hiện k lần trong n phép thử đó được biểu diễn bằng công thức Bernoulli

Pn(k) = Cn

kpk qn-k Với q = 1-p

Ghi chú :

a. Trong trường hợp biến cố A xuất hiện từ k1 đến k2 lần trong n phép thử thì ta ký hiệu xác xuất đó là Pn(k1,k2)

Gọi Aki là biến cố A xuất hiện ki lần

A = Aki ∪ Ak1+1 ∪…∪ Ak2

Pn (k1,k2) = P(A) = ∑=

−2

1

k

ki

iniin qpC

b. Khi n và k khá lớn việc tính toán Pn(k) và Pn(k1, k2) sẽ phức tạp. Để khắc phục điều đó người ta phải tìm cách tính gần đúng các xác suất đó bằng cách áp dụng các định lý giới hạn.

Ví dụ:

Trong thùng có 30 bi: 20 trắng và 10 đen. Lấy liên tiếp 4 bi, trong đó mỗi bi lấy ra đều hoàn lại thùng trước khi lấy bi tiếp theo và các bi đều được trộn lại. Hỏi xác suất để trong 4 bi lấy ra có 2 bi trắng.

Giải:

Xác suất lấy được bi trắng p = 20/30 =2/3 có thể xem như nhau trong 4 phép thử:

q = 1 - p = 1/3

áp dụng công thức Bernoulli

P4(2) = C42 p²q(4-2) =

278

31

302

2134 22

=⎟⎠⎞

⎜⎝⎛

⎟⎠⎞

⎜⎝⎛

** ≈ 0,3

Ví dụ:

Page 9: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 9

Xác suất xuất hiện biến cố A bằng 0,4. Hỏi xác suất để trong 10 phép thử biến cố A xuất hiện không quá 3 lần.

Giải:

p = 0.4, q = 0.6

Xác suất để biến cố A xuất hiện 0 lần : P10(0) = q10

Xác suất để biến cố A xuất hiện 1 lần : P10(1) = 10pq9

Xác suất để biến cố A xuất hiện 2 lần : P10(2) = 45p2q8

Xác suất để biến cố A xuất hiện 3 lần : P10(3) = 120p3q7

Xác suất để biến cố A xuất hiện không quá 3 lần

P10(0,3) = P10(0) + P10(1) + P10(2) + P10(3) ≈ 0.38

Ghi chú:

• Chỉnh hợp Apn =

p)!-(nn!

• Tổ hợp Cpn =

p)!-(np!n!

• Hoán hợp pn = Cnn = n! = n* (n - 1) * ( n - 2) * …. 3 * 2 * 1

b) Số lần xuất hiện chắc chắn nhất:

Trị số của Pn(k) nói chung phụ thuộc vào k. Ta tìm một số k0 sao cho Pn(k0) đạt giá trị lớn nhất. Số k0 gọi là số lần xuất hiện chắc chắn nhất của biến cố A trong n phép thử. Ta có:

np-q ≤ k0 ≤ np + p p ≠ 0 và p ≠ 1

Ví dụ:

Xác suất bắn trúng đích của một người bằng 0,7. Nếu người đó bắn 25 phát. Xác định số lần có khả năng trúng đích nhất.

Giải :

n = 25, p = 0,7, q = 0,3

np - q ≤ k0 ≤ np + p

25 * 0,7 – 0,3 ≤ k0 ≤ 25 * 0,7 + 0,7

17,2 ≤ k0 ≤ 18,2

Vì k là số nguyên, nên chọn k = 18

c) Các công thức gần đúng để tính Pn (k) và Pn (k1,k2)

Các công thức được rút ra từ các định lý giới hạn.

Công thức Moixre - Laplace :

Pn(k) ≈ ϕ(xk)/ npq

• Công thức Moixre - Laplace được sử dụng khi n khá lớn

Page 10: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 10

• p là xác suất của biến cố A trong phép thử Bernoulli, p không quá gần 0 và 1

xk = (k-np)/ npq

ϕ(x) = 1 / 2π * e-x²/2 : hàm số Gauss

x

y

f(x)/ 2π

Ví dụ:

Xác suất để sản xuất ra một chi tiết loại tốt là 0.4. Tìm xác suất để trong 26 chi tiết sản xuất ra thì có 13 chi tiết loại tốt.

Vấn đề là tìm P26(13)

n = 26

p = 0.4

q = 0.6

xk = (k - np)/ npq = 1,04

ϕ(xk) = ϕ(1,04) = 0,2323

P26(13) = ϕ(xk) / npq = 0,2323/2,5 = 0,093

Pn (k1, k2) ≈ ∅ (β) - ∅ (α)

∅(x)

1/2

0

-1/2

α = (k1 - np)/ npq

Page 11: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 11

β = (k2 - np)/ npq

∅(x) = 1/ 20

πx

∫ e-x²/2dx : hàm Laplace chuẩn

Ví dụ:

Một phân xưởng sản xuất bóng đèn đạt trung bình là 70% sản phẩm loại tốt. Tìm xác suất để trong 1000 bóng đèn có từ 652 đèn 760 bóng đèn loại tốt.

Xác suất phải tìm là P1000 (652, 760)

n = 1000, p = 0,7 q = 0,3 k1 = 652 k2 = 700

α = (k1 - np)/ npq = - 3,31 => ∅ (α) = ∅(-3,31) = - 0,499520

β = (k2 - np)/ npq = 4,14 => ∅ (β) = ∅(4,14) = 0,499968

P1000 (652, 760) = ∅ (β) - ∅ (α) = 0,999488

Công thức Poisson

• Nếu n → ∞ và p → 0 sao cho np = λ (const) thì

Pn (k) ≈ (e-λλk) / k!

• Định lý Poisson cũng có thể dùng để tính gần đúng Pn (k1,k2)

Pn (k1, k2) = ∑∑==

−≈2

1

2

1

!n (k)Pk

kkk

ek

kk

kλλ

Ví dụ:

Tổng sản phẩm của xí nghiệp A trong 1 quí là 800. Xác xuất để sản xuất ra một phế phẩm là 0.005. Tìm xác suất để cho :

1. Có 3 sản phẩm là phế phẩm

2. Có không quá 10 sản phẩm bị hỏng

Giải:

n =800, p = 0,005 => λ = np = 4

1. P800(3) = e-44³/3! = 0,1954

2. P800(0,10) = k =∑

0

10

e-44k/k! = 0, 997

Page 12: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 13

Chương 2

THỐNG KÊ

Thống kê là một khoa học có mục đích thu thập, xếp đặt và phân tích các dữ liệu về một tập hợp gồm các phân tử cùng loại

2.1 TẬP HỢP CHÍNH VÀ MẪU (Population and Sample)

2.1.1 Tập hợp chính (tập hợp tổng quát, tổng thể)

Tập hợp chính là tập hợp tất cả các đối tượng mà ta quan tâm nghiên cứu trong một vấn đề nào đó. Số phần tử của tập hợp chính được ký hiệu là N.

2.1.2 Mẫu

Mẫu là tập hợp con của tập hợp chính. Mẫu gồm một số hữu hạn n phần tử. Số n được gọi là cỡ mẫu:

Tập hợp chính = {x1,x2…xN}

Mẫu = {x1,x2…xn}

2.1.3 Cách chọn mẫu Có nhiều cách chọn mẫu khác nhau, nhưng nguyên tắc quan trọng nhất là làm sao mẫu phải phản ảnh trung thực tập hợp chính.

Các cách chọn mẫu thường dùng:

• Chọn mẫu ngẫu nhiên : đó là cách chọn n phần tử từ tập hợp chính N phần tử sao cho mỗi tổ hợp trong n

NC tổ hợp đều có cùng khả năng được chọn như nhau.

• Cách chọn máy móc.

• Cách chọn phân lớp

• Cách chọn hàng loạt

• Cách chọn kết hợp (nhiều bậc)

2.2 BẢNG KÊ VÀ BIỂU ĐỒ

Để mô tả các dữ liệu một cách cụ thể ta dùng bảng kê và các biểu đồ.

2.2.1 Bảng kê (Table)

• Xếp đặt các dữ liệu vào một bảng theo một qui tắc nào đó ta được một bảng kê.

• Bảng kê thường bắt đầu bằng tiêu đề và chấm dứt bằng một xuất xứ.

+ Tiêu đề : Mô tả đơn giản nội dung của bảng kê

+ Xuất xứ : Ghi nguồn gốc các dữ liệu trong bảng kê.

Page 13: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 14

Thí dụ:

Bảng 2.1: Diện tích các đại dương trên thế giới

Đại dương Diện tích (triệu km²)

Thái Bình Dương

Đại Tây Dương

Ấn Độ Dương

Nam Băng Dương

Bắc Băng Dương

183

106,7

73,8

19,7

12,4

nguồn : Liên Hiệp Quốc

2.2.2 Biểu đồ

Để có ấn tượng rõ và mạnh hơn về dữ liệu người ta trình bày dữ liệu bằng các biểu đồ:

a) Biểu đồ hình thanh (Bar chart)

Biểu đồ hình thanh dọc Biểu đồ hình thanh ngang

b) Biểu đồ hình gẫy khúc (Line Chart)

Biểu đồ này thích hợp với việc biểu diễn một sự liên hệ giữa hai đại lượng với nhau:

Dieän tích (trieäu km²)

183

106.7

73.8

19.7

12.4

0 50 100 150 200

TBD

DTD

ADD

NBD

BBD

Dieän tích (trieäu km²)

183

106.7

73.8

19.7 12.4

0

50

100

150

200

TBD DTD ADD NBD BBD

Page 14: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 15

18.519

19.520

20.521

21.5

2222.5

2323.5

1 2 3 4 5 6 7 8 9 10 11 12

Nhiệt độ trung bình tại Đà Lạt năm 1969

c) 2.2.2.3 Biểu đồ hình tròn (Pie Chart)

Dieän tích (%)

TBD

DTD

ADD NBD

BBD

Biểu đồ hình tròn là một vòng tròn chia thành nhiều hình quạt. Cả hình tròn tượng trưng toàn thể đại lượng, mỗi hình quạt tương trưng một thành phần mà góc ở tâm tỷ lệ với số dữ kiện thuộc thành phần đó.

2.3 TẦN SỐ

• Nếu mỗi biến cố sơ đẳng A thuộc tập hợp biến cố ω nào đấy có thể đặt tương ứng với một đại lượng xác định X = X(A), thì X được gọi là một biến ngẫu nhiên. Biến ngẫu nhiên X có thể xem như hàm của biến cố A với miền xác định là ω.

• Các biến ngẫu nhiên được ký hiệu bằng các chữ lớn X,Y,Z … còn các giá trị của chúng được ký hiệu bằng các chữ nhỏ x,y,z…

• Biến ngẫu nhiên được chia ra là biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục.*

* - Nếu các giá trị mà biến ngẫu nhiên X cho trước có thể lập thành dãy số rời rạc các số x1,x2…,xn (dãy

hữu hạn hay vô hạn) thì chính biến ngẫu nhiên X được gọi là biến ngẫu nhiên rời rạc. - Nếu các giá trị mà biến ngẫu nhiên X cho trước có thể lấp đầy toàn bộ khoảng hữu hạn hay vô hạn [a,b] của trục số thì biến ngẫu nhiên X được gọi là biến ngẫu nhiên liên tục.

Page 15: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 16

2.3.1 Tần số (Frequency)

• Gọi xi là các giá trị quan sát được của biến ngẫu nhiên X (i = 1,2,…l)

• Số lần xuất hiện của giá trị xi trong khối dữ liệu được gọi là tần số của xi và được ký hiệu là fi.

nfl

ii =∑

=1 với n là cỡ mẫu

2.3.2 Tần số tương đối (Relative frequency, tần suất)

Tỉ số giữa tần số fi và cỡ mẫu n gọi là tần số tương đối nfi

nf

W ii = 1

1=∑

=

l

iWi

2.3.3 Tần số tích lũy (Cumulative Frequency)

Tần số tích lũy của một giá trị xi là tổng số tần số của giá trị này với tần số của các giá trị nhỏ hơn xi.

2.3.4 Bảng phân phối tần số

Bảng phân phối tần số là bảng thiết lập sự tương quan giữa các giá trị xi của biến ngẫu nhiên X và các tần số của xi. Tùy thuộc vào loại tần số ta có:

• Bảng phân phối tần số

• Bảng phân phối tần số tương đối (Bảng phân phối thống kê)

• Bảng phân phối tần số tích lũy.

Thí dụ:

• Bảng phân phối tần số tương đối của biến ngẫu nhiên rời rạc.

X x1 x2 x3 … xl

Wi w1 w2 w3… wl

• Bảng phân phối tần số của biến ngẫu nhiên liên tục.

X [ξo, ξ1) [ξ1, ξ2) [ξ2, ξ3) … [ξl-1, ξl)

fi f1 f2 f3 ... f l

2.3.5 Đa giác phân phối và biểu đồ tổ chức

a) Đa giác phân phối

Đối với biến ngẫu nhiên rời rạc, để dễ nhận biết người ta trình bày phân phối thống kê của biến ngẫu nhiên rời rạc dưới dạng đa giác phân phối. Muốn vậy, ta biểu diễn các điểm liên tiếp (x1,w1),(x2,w2)…(xl,wl) trên mặt phẳng tọa độ và nối chúng bằng các đoạn thẳng.

Page 16: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 17

x1 x2 xi xl

b) Biểu đồ tổ chức

Là biểu đồ thiết lập sự liên hệ giữa tần số (hay tần số tương đối) và các khoảng chia mà các giá trị của biến ngẫu nhiên rơi vào đó.

X [ξo, ξ1) [ξ1, ξ2) … [ξi-1, ξi) [ξl-1, ξl)

fi f1 f2 … fi fl

yi = fi/h

h = ξi - ξi-1 = Const

Si = yi * h = fi

Si = fi

Ghi chú :

Đối với tần số tương đối yi = wi/hi và Si = Wi

y yi fi/h 0 ξ ξi-1 ξi ξl-1 ξl X

Wi

X

Page 17: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 18

Thí dụ:

Trong kết quả của phép thử biến ngẫu nhiên X lấy các giá trị sau đây:

ξ1 = 2 ξ2 = 5 ξ3 = 7 ξ4 =1 ξ5 =10

ξ6 = 5 ξ7 = 9 ξ8 = 6 ξ9 = 8 ξ10 = 6

ξ11 = 2 ξ12 = 3 ξ13 = 7 ξ14 = 6 ξ15 = 8

ξ16 = 3 ξ17 = 8 ξ10 = 10 ξ19 = 6 ξ20 = 7

ξ21 = 3 ξ22 = 9 ξ23 = 4 ξ24 = 5 ξ25 = 6

1. Lập bảng phân phối tần số:

2. Xây dựng bảng phân phối thống kê

3. Vẽ đa giác phân phối

Giải :

1. Cỡ mẫu n = 2, tần số fi và tần số tích lũyΣf

X 1 2 3 4 5 6 7 8 9 10

fi

Fi

1 2 3 1 3 5 3 3 2 2

1 3 6 7 10 15 18 21 23 25

2.

X 1 2 3 4 5 6 7 8 9 10

Wi= nfi

0.04 0.08 0.12 0.04 0.12 0.2 0.12 0.12 0.08 0.08

Σ wi = 1

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

1 2 3 4 5 6 7 8 9 10

w

X

Page 18: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 19

2.4 SỐ ĐỊNH TÂM (Measure of Central Tendency)

Số định tâm của nhóm dữ liệu là số đại diện cho tất cả các dữ liệu đó, nó thể hiện vai trò trung tâm của nhóm dữ liệu. Có các loại số định tâm sau: số trung bình (Mean), trung bình trọng số (Weighted mean), số trung vị (Median) và số yếu vị (Mode).

2.4.1 Số trung bình (Mean, kỳ vọng)

a) Số trung bình của tập hợp chính (Population Mean)

N

xN

ii∑

== 1µ

b) Số trung bình của mẫu (Sample Mean)

n

xx

n

ii∑

== 1

2.4.2 Số trung bình trọng số (Weighted Mean)

=

== N

ii

N

iii

w

xw

1

1.

µ wi : trọng số

2.4.3 Số trung vị (Median)

• Số trung vị của khối Dữ liệu là số mà phân nửa giá trị quan sát được của khối Dữ liệu nhỏ hơn nó và phân nữa giá trị quan sát lớn hơn nó.

• Gọi n là số giá trị quan sát được (đối với biến ngẫu nhiên rời rạc)

Nếu n là số lẻ thì số trung vị là số có thứ tự (n+1)/2. Nó chính là số có vị trí ở giữa khối Dữ liệu.

Nếu n là số chẵn thì số trung vị là trung bình cộng của hai số có thứ tự 2n và

2n +1

2.4.4 Số yếu vị (Mode)

Số yếu vị của khối Dữ liệu là số có tần số lớn nhất

Thí dụ:

Cho khối dữ kiện

0 1 0 2 5 2 5 2 3 3 5 6 4

Tìm số trung bình, số trung vị và số yếu vị của khối Dữ liệu.

Giải :

Page 19: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 20

Ta có bảng phân phối tần số :

X 0 1 2 3 4 5 6

Tần số fi 2 1 3 2 1 3 1

Số trung bình (Mean)

X = ∑

=

=7

1

7

1

ii

iii

f

xf = 923,2

1361534132231102=

++++++ xxxxxxx

Số trung vị (Median): Cỡ mẫu n = 13 lẻ => (n+1)/2 = 7

0 0 1 2 2 2 3 3 4 5 5 5 6

⇒ Số trung vị là số có thứ tự 7, nghĩa là số trung vị là 3

Số yếu vị là 2 và 5 có tần số lớn nhất là 3

Số trung vị, số yếu vị không bị lệ thuộc vào các Dữ liệu có trị số thái quá.

2.5 SỐ PHÂN TÁN (Measure of Dispersion)

Số phân tán dùng để thể hiện sự khác biệt giữa các số trong dữ liệu đối với số định tâm.

2.5.1 Phương sai (Variance)

a) Phương sai của tập hợp chính (Population Variance)

21

2

1

2

2)(

µµ

σ −=−

=∑∑==

N

x

N

xN

ii

N

ii

b) Phương sai của mẫu (Sample Variance)

1

)(1

2

2

−=∑=

n

xxS

n

ii

2.5.2 Độ lệch chuẩn (Standard Deviation)

a) Độ lệch chuẩn của tập hợp chính (Population Standard Deviation)

( )∑ µ−=σ=σ 22 1ix

N

b) Độ lệch chuẩn của mẫu (Sample Standard Deiation)

Page 20: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 21

∑ −−

== 22 )(1

1 xxn

ss i

c) Ý nghĩa của độ lệch chuẩn s

Qui tắc kinh nghiệm (Empirical Rule for Standard Desiation)

Đối với một khối dữ liệu, sẽ có hơn 90% các giá trị của Dữ liệu ở trong khoảng µ±3 s

Qui tắc Tchebycher (Tchebycher’s Rule)

Đối với khối Dữ liệu của tập hợp chính có số trung bình là µ và độ lệch chuẩn s, sẽ có ít nhất 100(1 - 1/m²)% giá trị của dữ liệu nằm trong khoảng µ ± ms

m 1,5 2 2,5 3

100(1-1/m²)% 55,6% 75% 84% 88,9%

Qui tắc đối với khối dữ liệu có phân bố hình chuông (Rule for Bell Shaped Data)

Đối với khối dữ liệu có dạng phân bố hình chuông thì :

Khoảng 68% các giá trị của dữ liệu nằm ở khoảng µ ± s

Khoảng 95% các giá trị của dữ liệu nằm ở khoảng µ ± 2 s

Khoảng 100% các giá trị của dữ liệu nằm ở khoảng µ ± 3s

68%

95%

µ+σµ−σ µ µ+2σµ−2σ

2.5.3 Hàng số (khoảng, Range)

Trong một khối dữ liệu, hàng số là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất.

Thí dụ :

Hàng số của khối dữ liệu 6, 7, 9, 3, 5, 2 là 9 – 2 = 7

2.5.4 Hàng số tứ phân (Interquartile Range)

a) Số tứ phân

Trong 1 khối dữ liệu xếp thứ tự lớn dần, các số tứ phân là các số Q1, Q2, Q3 chia khối dữ liệu lần lượt thành 4 phần có tần số bằng nhau.

Page 21: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 22

Q1 Q2 Q3

N/4 N/2 3N/4 N

Nhận xét: Q2 là số trung vị (median)

b) Hàng số tứ phân

Là hiệu số Q3 - Q1

c) Độ lệch tứ phân

Là phân nửa của hàng số tứ phân: Q = (Q3-Q1)/2

Thí dụ : Cho khối dữ liệu xếp theo thứ tự lớn dần

1 1 2 3 3 3 5 5 6 6 7 9 10 11 11

Số tứ phân thứ 1 là Q1 = 3

Số tứ phân thứ 2 là Q2 = 5

Số tứ phân thứ 3 là Q3 = 9

Hàng số tứ phân là Q3 - Q1 = 9 - 3 = 6

Độ lệch tứ phân Q = (Q3 - Q1)/2 = (9-3)/2 = 3

Page 22: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 22

Chương 3

RA QUYẾT ĐỊNH TRONG QUẢN LÝ

3

3.1 GIỚI THIỆU VỀ RA QUYẾT ĐỊNH TRONG QUẢN LÝ:

3.1.1 Tổng Quát

Trong cuộc sống hằng ngày, mỗi người trong chúng ta đều phải ra không biết bao nhiêu quyết định liên quan đến các sinh hoạt cá nhân từ ăn gì, uống gì, mặc gì, làm gì, khi nào, ở đâu, với ai đó là các quyết định rất bình thường. Nội dung chương này muốn đề cập đến các quyết định trong quản lý.

Vai trò đặc trưng chung của nhà quản lý là trách nhiệm ra quyết định , từ các quyết định quan trọng như phát triển một loại sản phẩm mới, giải thể công ty đến các quyết định thông thường như tuyển nhân viên, xác định kế hoạch sản xuất hàng tháng, hàng quí. Ra quyết định thâm nhập vào cả bốn chức năng của nhà quản lý gồm hoạch định, tổ chức, chỉ đạo và kiểm tra, vì vậy nhà quản lý đôi khi còn được gọi là người ra quyết định

Các quyết định liên quan đến bốn chức năng quản lý thường có thể thấy qua các ví dụ sau:

Hoạch định:

- Mục tiêu dài hạn của công ty là gì ?

- Nên theo chiến lược nào để đạt đến mục tiêu ?

Tổ chức :

- Nên chọn cấu trúc tổ chức nào ?

- Nên tập trung thẩm quyền đến mức nào ?

- Ai làm việc gì, Ai báo cáo cho ai ?

Chỉ đạo:

- Nên theo kiểu lãnh đạo nào?

- Làm thế nào để động viên nhân viên hiệu quả?

Kiểm tra:

- Cần kiểm tra ở những khâu nào, khi nào, bằng cách nào?

- Ai chịu trách nhiệm kiểm tra?

3.1.2 Định nghĩa

Ra quyết định ở một quá trình lựa chọn có ý thức giữa hai hoặc nhiều phương án để chọn ra một phương án và phương án này sẽ tạo ra được một kết quả mong muốn trong các điều kiện ràng buộc đã biết.

Page 23: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 23

Lưu ý rằng, nếu chỉ có một giải pháp để giải quyết vấn đề thì không phải là bài toán ra quyết định. Và cũng cần lưu ý rằng, phương án “Không làm gì cả” (do nothing) cũng là một phương án, đôi khi đó lại là phương án được chọn.

3.1.3 Giả thuyết về sự hợp lý

Trước khi nghiên cứu quá trình ra quyết định của các nhà quản lý, cần phải thông hiểu một giả thuyết quan trọng ẩn chứa trong quá trình. Đó là giả thiết về "sự hợp lý".

Giả thiết về sự hợp lý cho rằng các quyết định được đưa ra là kết quả của một sự lựa chọn có lập trường và với mục tiêu là tối ưu (cực đại hay cực tiểu) một giá trị nào đó trong những điều kiện ràng buộc cụ thể.

Theo giả thuyết này, Người ra quyết định hoàn toàn khách quan, có logic, có mục tiêu rõ ràng và tất cả hành vi trong quá trình ra quyết định dựa trên một lập trường duy nhất nhằm được mục tiêu cực trị một giá trị nào đó đồng thời thỏa mãn các điều kiện ràng buộc.

Cụ thể hơn, quá trình ra quyết định hợp lý được dựa trên các giả thuyết sau:

- Người ra quyết định có mục tiêu cụ thể.

- Tất cả các phương án có thể có đều được xác định đầy đủ.

- Sự ưa thích của người ra quyết định cần phải rõ ràng, cần lượng hóa các tiêu chuẩn của các phương án và xếp hạng các tiêu chuẩn theo thứ tự ưa thích của người ra quyết định.

- Sự ưa thích của người ra quyết định là không thay đổi trong quá trình ra quyết định, nghĩa là các tiêu chuẩn và trọng số của các tiêu chuẩn là không đổi.

- Không có sự hạn chế về thời gian và chi phí, nghĩa là có đủ điều kiện để thu nhập đầy đủ thông tin trước khi ra quyết định.

- Sự lựa chọn cuối cùng sẽ là tối ưu mục tiêu mong muốn

3.2 CÁC LOẠI RA QUYẾT ĐỊNH TRONG QUẢN LÝ

Loại vấn đề mà người ra quyết định gặp phải là một yếu tố quan trọng trong quá trình ra quyết định. Ra quyết định trong quản lý được phân loại dựa trên hai cơ sở : Cấu trúc của vấn đề và tính chất của vấn đề.

3.2.1 Ra quyết định theo cấu trúc của vấn đề

Theo cấu trúc của vấn đề người ta chia vấn đề làm hai loại:

- Vấn đề có cấu trúc tốt : Khi mục tiêu được xác định rõ ràng thông tin đầy đủ, bài toán có dạng quen thuộc

Ví dụ: Bài toán quyết định thưởng/phạt nhân viên

- Vấn đề có cấu trúc kém: Dạng bài toán mới mẽ, thông tin không đầy đủ, không rõ ràng

Ví dụ: Bài toán quyết định chiến lược phát triển của công ty

Page 24: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 24

Thông thường, các vấn đề có cấu trúc tốt có thể được phân quyền cho các nhà quản lý cấp dưới ra quyết định theo những tiêu chuẩn và các hướng dẫn đã được lập sẵn. Còn các nhà quản lý cấp cao trong tổ chức sẽ dành nhiều thời gian cho các vấn đề có cấu trúc kém. Do vậy tương ứng với hai loại vấn đề sẽ có hai loại ra quyết định: Ra quyết định theo chương trình và ra quyết định không theo chương trình.

- Ra quyết định theo chương trình :

Nhằm giải quyết các bài toán cấu trúc tốt, lặp đi lặp lại, các phương án hầu như có sẵn, lời giải thường dựa trên các kinh nghiệm. Thường để giải quyết bài toán dạng này, các nhà quản lý lập ra các quy trình, luật hay chính sách :

o Quy trình (procedure): Bao gồm một chuỗi các bước có liên quan nhau mà người ra quyết định có thể sử dụng để xử lý các bài toán cấu trúc tốt .

o Luật (Rule): Là phát biểu cụ thể hướng dẫn người ra quyết định nên làm điều gì và không nên làm điều gì.

o Chính sách (Policy): Là các hướng dẫn để định hướng cho người ra quyết định trong việc giải quyết vấn đề. Khác với luật, chính sách thường là những khái niệm chung chung để cho người ra quyết định tham khảo hơn là những điều buộc người ra quyết định phải làm.

- Ra quyết định không theo chương trình:

Nhằm giải quyết các bài toán cấu trúc kém, các vấn đề mới, đơn chiếc không lặp đi lặp lại, thông tin không rõ ràng.

Trong thực tế có nhiều bài toán ở dạng trung gian giữa hai loại vấn đề trên.

3.2.2 Ra quyết định theo tính chất của vấn đề

Theo tính chất của vấn đề, có thể chia quyết định làm ba loại :

- Ra quyết định trong điều kiện chắc chắn (cetainty): Khi ra quyết định, đã biết chắc chắn trạng thái nào sẽ xảy ra , do đó sẽ dễ dàng và nhanh chóng ra quyết định.

- Ra quyết định trong điều kiện rủi ro (risk): Khi ra quyết định đã biết được xác suất xảy ra của mỗi trạng thái.

- Ra quyết định trong điều kiện không chắc chắn (uncertainty): Khi ra quyết định, không biết được xác suất xảy ra của mỗi trạng thái hoặc không biết được các dữ liệu liên quan đến các vấn đề cần giải quyết.

3.3 QUÁ TRÌNH RA QUYẾT ĐỊNH TRONG QUẢN LÝ

3.3.1 Các bước của quá trình ra quyết định

Quá trình ra quyết định thường được tiến hành theo sáu bước: Bước 1: Xác định rõ vấn đề cần giải quyết. Bước 2: Liệt kê tất cả các phương án có thể có. Bước 3: Nhận ra các tình huống hay các trạng thái. Bước 4: Ước lượng tất cả lợi ích và chi phí cho mỗi phương án ứng với mỗi trạng thái. Bước 5: Lựa chọn một mô hình toán học trong PP định lượng để tìm lời giải tối ưu. Bước 6: Áp dụng mô hình để tìm lời giải và dựa vào đó để ra quyết định.

Page 25: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 25

3.3.2 Bài toán ra quyết định

Ví du:

Ông A là Giám đốc của công ty X muốn ra quyết định về một vấn đề sản xuất, ông lần lượt thực hiện sáu bước như sau :

• Bước 1: Ông A nêu vấn đề có nên sản xuất một sản phẩm mới để tham gia thị trường hay không?

• Bước 2: Ông A cho rằng có 3 phương án sản xuất là :

+ Phương án 1: lập 1 nhà máy có qui mô lớn để sản xuất sản phẩm.

+ Phương án 2: lập 1 nhà máy có qui mô nhỏ để sản xuất sản phẩm.

+ Phương án 3: không làm gì cả (do nothing).

• Bước 3: Ông A cho rằng có 2 tình huống của thị trường sẽ xảy ra là :

+ Thị trường tốt.

+ Thị trường xấu.

• Bước 4: Ông A ước lượng lợi nhuận của các phương án ứng với các tình huống:

Bảng 2.1 : BẢNG SỐ LIỆU BAN ĐẦU

Trạng thái Phương án

Thị trường Tốt Thị trường Xấu Nhà máy lớn 200.000 - 180.000 Nhà máy nhỏ 100.000 - 20.000 Không làm gì 0 0

• Bước 5 và 6: Chọn một mô hình toán học trong phương pháp định lượng để tác dụng

vào bài toán này. Việc chọn lựa mô hình được dựa vào sự hiểu biết, vào thông tin ít hay nhiều về khả năng xuất hiện các trạng thái của hệ thống.

3.4 RA QUYẾT ĐỊNH TRONG TRONG ĐIỀU KIỆN RỦI RO:

Khi ra quyết định trong điều kiện rủi ro, ta đã biết được xác suất xảy ra của mỗi trạng thái. Ra quyết định trong điều kiện rủi ro, ta thường sử dụng các tiêu chuẩn sau :

- Cực đại giá trị kỳ vọng được tính bằng tiền EMV (Expected Moneytary Value), hay

- Cực tiểu thiệt hại kỳ vọng EOL (Expected Opportunity Loss).

Để xác định các tiêu chuẩn trên người ta có thể sử dụng phương pháp lập bảng quyết định hoặc cây quyết định.

3.4.1 Phương pháp lập bảng quyết định

Trong phần này ta lần lượt trình bày các mô hình Max EMV và mô hình Min EOL, đồng thời cũng đề cập đến khái niệm EVWPI và EVPI.

Page 26: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 26

a) Mô hình Max EMV(i)

Trong mô hình này, chúng ta sẽ chọn phương án i có giá trị kỳ vọng tính bằng tiền lớn nhất. EMV (i) : giá trị kỳ vọng tính bằng tiền của phương án i

EMV i P S xPjj

m

ij( ) ( )==∑

1

o P(Sj): xác suất để trạng thái j xuất hiện o Pij : là lợi nhuận/chi phí của phương án i ứng với trạng thái j o i = 1 đến n và j = 1 đến m

Ví dụ: Trở lại bài toán của ông giám đốc A của công ty X với giả sử rằng thị trường xấu cũng như thị trường tốt đều có xác suất như nhau và bằng 0.5.

Giải:

o EMV (p/á nhà máy lớn) = 0.5 x 200.000 + 0.5 (-180.000) = 10.000

o EMV (p/á nhà máy nhỏ) = 0.5 x 100.000 + 0.5 (-20.000) = 40.000

o EMV (không) = 0.5 x 0 + 0.5 x 0 = 0

Ta có bảng kết quả tương ứng

Bảng 2.2 : BẢNG TÍNH EMV (i)

Trạng thái j Phương án i Thị trường tốt

(j = 1) Thị trường xấu (j = 2)

EMV(i)

Nhà máy lớn (i=1) 200.000 -180.000 10.000

Nhà máy nhỏ (i=2) 100.000 -20.000 40.000

Không làm gì (i=3) 0 0 0

Xác suất các trạng thái P(Sj) 0,5 0,5

Ra quyết định:

o EMV (i) > 0 ⇒ phương án có lợi

o Max EMV (i) =EMV (i=2) = 40.000 ⇒ Chọn phương án qui mô nhà máy nhỏ.

b) Khái niệm EVPI

EVPI là giá trị kỳ vọng của thông tin hoàn hảo (Expected Value of Perfect Information).

o Ta dùng EVPI để chuyển đổi môi trường có rủi ro sang môi trường chắc chắn và EVPI chính bằng cái giá nào đó mà ta phải trả để mua thông tin.

o Giả sử có một công ty tư vấn đến đề nghị cung cấp cho ông A thông tin về tình trạng thị trường tốt hay xấu với giá 65000. Vấn đề đặt ra: Ông A có nên nhận lời đề nghị đó hay không? Giá mua thông tin này đắt hay rẻ? Bao nhiêu là hợp lý?

o Để trả lời câu hỏi trên cần trang bị thêm 2 khái niệm về EVWPI và EVPI

Page 27: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 27

EVWPI (Expected value with perfect information): là giá trị kỳ vọng với thông tin hoàn hảo. Nếu ta biết thông tin hoàn hảo trước khi quyết định, ta sẽ có:

EVWPI = P(S Max Pjj=1

m

ij∑ ×)

Ví dụ: Ap dụng bảng 2.2 ta có : EVWPI = 05. (200.000) + 0.5 x (0) = 100.000

EVPI

EVPI: là sự gia tăng giá trị có được khi mua thông tin và đây cũng chính là giá trị tối đa có thể trả khi mua thông tin.

Ví du: EVPI = 100000 - 40000 = 60000

c) Mô hình Min EOL(i) (Expeded Opportunity Loss, Thiệt hại cơ hội kỳ vọng)

OLij là thiệt hại cơ hội của phương án i ứng với trạng thái j được định nghĩa như sau :

ijijij PMaxPOL −=

Đây cũng chính là số tiền ta bị thiệt hại khi ta không chọn được phương án tối ưu mà phải chọn phương án i.

Ví dụ: Từ bảng 2.2 ta có :

OL11 = 200.000 - 200.000 = 0

OL12 = 0 - (-180.000) = 180.000

OL21 = 200.000 - 100.000 = 100.000

OL22 = 0 - (-20.000) = 20.000

OL31 = 200.000 - 0 = 200.000

OL32 = 0 - 0 = 0

Bảng 2.3: BẢNG THIỆT HẠI CƠ HỘI Olij

Trạng thái Phương án

Thị trường Tốt Thị trường Xấu Nhà máy lớn 0 180.000 Nhà máy nhỏ 100.000 20.000 Không làm gì 200.000 0 Xác suất của các trạng thái 0,5 0,5

EVPI = EVWPI - Max EMV(i)

Page 28: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 28

Thiệt hại cơ hội kỳ vọng EOL(i) (Expected Opportunity loss)

EOL (i) = P(S . OLjj=i

m

ij∑ )

Ví dụ: EOL (lớn) = 0.5 x 0 + 0 .5 x 180.000 = 90.000

EOL (nhỏ) = 0.5 x 100.000 + 0.5 x 20.000 = 60.000

EOL (không) = 0.5 x 200.000 + 0.5 x 0 = 100.000

Ra quyết định theo tiêu chuẩn Min EOL (i)

Min EOL (i) = Min (90.000, 60.000, 100.000) = 60.000

⇒ Chọn phương án nhà máy nhỏ

Ghi chú: o Phương pháp Min EOL (i) và phương pháp EVPI sẽ cho cùng kết quả. Thật ra, ta

luôn có: EVPI = Min EOL (i)

o Bản chất bài toán của Ông A là bài toán Max lợi nhuận. Đối với các bài toán Min ta sẽ hoán đổi Max thành Min trong khi tính toán.

3.4.2 Cây quyết định

Các bài toán ra quyết định được diễn tả bằng bảng quyết định thì cũng diễn tả được bằng đồ thị gọi là cây quyết định.

a) Các qui ước về đồ thị của cây quyết định

o Nút quyết định (Decision node)

- Được ký hiệu là

- Nút quyết định là nút mà từ đó phát xuất ra các quyết định hay còn gọi là phương án

o Nút trạng thái (states of nature node)

- Được ký hiệu là

- Nút trạng thái là nút từ đó phát xuất ra các trạng thái

o Quyết định hay còn gọi là phương án được vẽ bởi một đoạn nối từ một nút quyết định đến nút trạng thái.

o Trạng thái được vẽ bởi một đoạn nối từ 1 nút trạng thái đến một nút quyết định hoặc là bởi một đường phát xuất ra từ một nút trạng thái.

o Mọi trạng thái có thể có ứng với một quyết định hay phương án thì được vẽ tiếp theo sau phương án ấy; bắt đầu từ một nút trạng thái.

Page 29: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 29

Ví dụ: Trở lại bài toán ông Giám đốc A ở phần trước. Từ bảng quyết định 2.1 ta có cây quyết định như sau: Hình 2.1: Cây quyết định

b) Các bước của việc phân tích bài toán theo cây quyết định

Gồm 5 bước:

Bước 1: Xác định vấn đề cần giải quyết

Bước 2: Vẽ cây quyết định

Bước 3: Gán xác suất cho các trạng thái

Bước 4: Ước tính lợi nhuận thay chi phí cho một sự kết hợp giữa một phương án và một trạng thái

Bước 5: Giải bài toán bằng phương pháp Max EMV (i). Nghĩa là tìm phương án i có giá trị kỳ vọng tính bằng tiền lớn nhất. Việc tính EMV tại mỗi nút được thực hiện từ phải qua trái theo các đường đến từng nút rồi lấy tổng từ nút ấy.

Ví dụ: Giải bài toán ông Giám đốc A bằng cây quyết định

Bước 1: Vấn đề đặt ra như đã nêu ở các ví dụ trước đây

Bước 2: Vẽ cây quyết định như ở hình 2.1

Bước 3: Gán xác suất 0.5 cho các loại thị trường

Bước 4: Dùng giá trị ở bảng số liệu để ghi vào

Bước 5: Tính các giá trị EMV (i) tại các nút

- Tại nút : EMV(1) = 0,5 x 200.000 + 0,5 x (-180.000) = 10.000

- Tại nút : EMV(2) = 0,5 x 100.000 + 0,5 x (-20.0000) = 40.000

- Tại nút : EMV(3) = 0

Nhà máy lớn

Nhà máy nhỏ

Không

TT xấu

TTtốt

TT xấu

TTtốt

1

2

3

Page 30: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 30

Hình 2.2 Kết quả tính toán của cây quyết định

Ta chọn Max EMV = 40.000 => Chọn phương án nhà máy nhỏ

3.5 RA QUYẾT ĐỊNH NHIỀU YẾU TỐ (Multi Factor Decision Making)

Trong thực tế có nhiều bài toán ra quyết định liên quan đến nhiều yếu tố.

Ví dụ:

Một sinh viên tốt nghiệp muốn tìm việc làm thì có nhiều yếu tố sẽ ảnh hưởng đến quyết định chọn nhiệm vụ của anh ta:

o Lương khởi điểm

o Cơ hội thăng tiến

o Vị trí của nơi làm việc

o Những người mà mình sẽ làm việc với họ

o Loại công việc bạn cần phải làm

o Những lợi nhuận khác ngoài lương...

Để giải quyết bài toán ra quyết định đa yếu tố có thể làm các cách sau:

o Nhiều người xem xét các yếu tố khác nhau này một cách chủ quan và trực giác.

o Dùng phương pháp đánh giá yếu tố MFEP Multi Factor Evaluation Process.

Phương pháp MFEP

Trong phương pháp MFEP mỗi yếu tố quan trọng ảnh hưởng đến quyết định sẽ được gán 1 hệ số nói lên tầm quan trọng tương đối giữa các yếu tố với nhau. Sau đó đánh giá phương án theo các hệ số này.

Các bước thực hiện phương pháp MEFP:

Bước 1: Liệt kê tất cả các yếu tố và gán cho yếu tố thứ i 1 trọng số FWi (Factor weight), 0 < FWi < 1. FWi nói lên tầm quan trọng của mỗi yếu tố một cách tương đối ΣFWi = 1

Bước 2: Lượng giá theo yếu tố. Với mỗi yếu tố i ta đánh giá phương án j bằng cách gián một hệ số FEij gọi là lượng giá của phương án j đối với yếu tố i. (FE: Factor Evaluation)

200000 10000 TTtốt (0,5)

- 180000

100000 40000

-20000

Nhà máy lớn

Không

Nhà máy nhỏ

TT xấu (0,5)

TTtốt (0,5)

TT xấu (0,5)

0

1

2

3

Page 31: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 31

Bước 3: Tính tổng lượng quá trọng số của từng phương án j (Total Weighted evaluation)

TWEj = F W x F Ei

ii j∑

⇒ Chọn phương án j0 ứng với Max TWEj

Ví dụ: Bài toán tìm việc làm của sinh viên

Bước 1: Xác định Fwi

Sau khi nghiên cứu, bàn bạc với thầy, bạn bè, gia đình... sinh viên S nhận thấy 3 yếu tố quan trọng nhất đối với việc chọn sở làm là:

- Lương

- Cơ hội thăng tiến

- Vị trí nơi làm việc

Sinh viên S gán cho các yếu tố các trọng số sau:

Các yếu tố i Trọng số FWi Lương Cơ hội thăng tiến Vị trí nơi làm việc

0,3 0,6 0,1

Bước 2: Xác định FEij

Sinh viên S nghĩ rằng có 3 công ty A, B, C sẽ nhận mình vào làm việc. Đối với mỗi công ty, sinh viên S đánh giá theo 3 yếu tố trên và có bảng lượng giá như sau:

Phương án j

Yếu tố i Công ty

A Công ty

B Công ty

C Lương 0,7 0,8 0,9 Cơ hội thăng tiến 0,9 0,7 0,6 Vị trí nơi làm việc 0,6 0,8 0,9

Làm sao xác định giá trị trong bảng này?

Ví dụ:

Đối với lương, Anh S mong rằng lương sẽ là 1000000. Nhưng thực tế công ty A trả 700000, công ty B trả 800000, công ty C trả 900000.

⇒ 0.91.000.000900.0000.8

1.000.000800.0000.7

1.000.000700.000

===

Bước 3: Tính các tổng lương giá trọng số TWEj TWE(A) = 0,3 x 0,7 + 0,6 x 0,9 + 0,1 x 0,6 = 0,81 TWE(B) = 0,3 x 0,8 + 0,6 x 0,7 + 0,1 x 0,8 = 0,74 TWE(C) = 0,3 x 0,9 + 0,6 x 0,6 + 0,1 x 0,9 = 0,72

Kết luận: Sinh viên S chọn công ty A

i: yếu tố j: phương án

Page 32: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 32

3.6 RA QUYẾT ĐỊNH TRONG TRONG ĐIỀU KIỆN KHÔNG CHẮC CHẮN:

Trong điều kiện không chắc chắn, ta không biết được xác suất xuất hiện của mỗi trạng thái hoặc các dữ kiện liên quan đến bài toán không có sẵn. Trong trường hợp này ta có thể dùng một trong 5 mô hình sau :

o Maximax

o Maximin

o Đồng đều ngẫu nhiên (Equally -likely)

o Tiêu chuẩn hiện thực (criterion of readism) hay tiêu chuẩn Hurwiez

o Minimax

Ghi chú:

o Bốn mô hình đầu được tính từ bảng 2.1

o Mô hình cuối cùng được tính từ bảng 2.3

3.6.1 Mô hình Maximax

Tìm phương án i ứng với Max của max, nghĩa là tìm giá trị lớn nhất trong bảng quyết định

)( ijjiPMaxMax

Trong mô hình này ta tìm lợi nhuận tối đa có thể có được bất chấp rủi ro, vì vậy tiêu chuẩn này còn được gọi là tiêu chuẩn lạc quan (optimistic decision criterion)

Ví dụ:

Từ bảng 2.1 ta có )( ijjiPMaxMax = 200.000

Ra quyết định: chọn phương án nhà máy lớn

3.6.2 Mô hình Maximin

Chọn phương án i ứng với Max của Min

)( ijjiPMinMax

Nghĩa là tìm Min trong hàng i, sau đó lấy Max những giá trị Min vừa tìm được. Cách làm này phản ánh tinh thần bi quan, còn gọi là quyết định bi quan (pessimistic decision) Ví dụ:

Từ bảng 2.1 ta có )( ijjiPMinMax = 0

Ra quyết định: không làm gì cả

3.6.3 Mô hình đồng đều ngẫu nhiên

Trong mô hình này, ta xem mọi trạng thái đều đồng đều ngẫu nhiên, nghĩa là xem các trạng thái đều có xác suất xuất hiện bằng nhau. Trong trường hợp này ta tìm phương án i ứng với:

Page 33: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 33

i

ijj=1

m

Max P

S

∑⎛

⎜⎜⎜⎜

⎟⎟⎟⎟

oá traïng thaùi

Nghĩa là tìm phương án làm cực đại giá trị trung bình các lợi nhuận của từng phương án

Ví dụ : Từ bảng 2.1 ta có: Max ( 200.000 + (-180.0000) , 100.000 + (-20.000) , 0 + 0 )

i

2 2 2 = Max ( 10.000 , 40.000 , 0 ) i = 40.000

Ra quyết định: Chọn phương án xây nhà máy nhỏ

3.6.4 Mô hình Hurwiez - còn được gọi là mô hình trung bình có trọng số

Đây là mô hình dung hòa giữa tiêu chuẩn lạc quan và tiêu chuẩn bi quan. Bằng cách chọn một hệ số α (0<α<1). Sau đó chọn phương án i ứng với hệ số α sao cho:

])1([ ijjijjiPMinPMaxMax αα −+

ijjPMin : giá trị nhỏ nhất ở hàng thứ i

ijjPMax : giá trị lớn nhất ở hàng thứ i

Hệ số α ( coefficient of realison) , 0<α<1 + α = 1: Người quyết định lạc quan về tương lai + α = 0: Người quyết định bi quan về tương lai

Phương pháp này có dạng mềm dẻo hơn, giúp cho người ra quyết định đưa được cảm xúc cá nhân về thị trường vào mô hình.

Ví dụ:

Chọn α = 0,8

Max [0,8 x 200.000 + 0,2 (-180.000) ;0,8 x 100.000 + 0,2 (-20.000) ;0,8x0 + 0,2x0 ]

Max [124.000 , 76.000 , 0 ]=124.000

Ra quyết định: chọn phương án nhà máy có qui mô lớn.

3.6.5 Mô hình Minimax

Ta tìm phương án ứng với:

)( ijjiOLMaxMin

Tìm Max theo phương án i nghĩa là tìm giá trị lớn nhất trong các cột j tính theo từng hàng

Olij : thiệt hại cơ hội của phương án i ứng với trạng thái j được tính như trong mô hình ra quyết định trong điều kiện rủi ro.

Trong mô hình này ta tìm phương án để làm cực tiểu cơ hội thiệt hại cực đại.

Page 34: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 34

Ví dụ : Áp dụng bảng 2.3 ta có:

Min [Max Olij ]= Min [180.000 , 100.000 , 200.000 ]= 100.000

Ra quyết định: Chọn phương án nhà máy có qui mô nhỏ.

3.7 THUYẾT ĐỘ HỮU ÍCH (Utility Theory)

3.7.1 Khái niệm về độ hữu ích

Ở các phần trước ta dùng tiêu chuẩn EMV để đánh giá lựa chọn các phương án. Tuy nhiên, trong nhiều trường hợp tiêu chuẩn EMV dẫn đến việc lựa chọn các phương án không tốt.

Ví dụ :

o Giả sử bạn có một tấm vé số đặc biệt mà khi thảy đồng xu lên nếu mặt ngửa xuất hiện thì bạn trúng thưởng 5.000.000đ, nếu mặt sấp xuất hiện thì bạn không có gì hết.

o Vấn đề đặt ra: Nếu có người nào đó đề nghị mua lại tấm vé số của bạn trước khi tung đồng xu với giá 2.000.000đ thì các bạn có bán hay không?

Giải :

o Nếu xét theo tiêu chuẩn EMV

EMV (không bán) = EMV(1) = 5.000.000 x 0,5 + 0 x 0,5 = 2.500.000

EMV (bán) = 2.000.000

Dựa vào kết quả EMV (không bán) > EMV (bán) Kết luận: Không bán tấm vé số

o Nếu xét trên quan điểm thực tế:

Đa số mọi người sẽ bán vì ít ai thích may rủi trừ những người tỉ phú thích may rủi.

Trong ví dụ trên, lời giải của vấn đề tùy thuộc vào cảm nhận của người ra quyết định về sự rủi ro.

Từ đó người ta đưa ra lý thuyết về độ hữu ích như sau:

5000000

Ngửa

00,5

20000001

Không bán

Bán

0,5

Sấp

Page 35: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 35

Độ hữu ích là độ đo mức ưu tiên của người ra quyết định đối với lợi nhuận.

Lý thuyết độ hữu ích là lý thuyết nghiên cứu cách kết hợp mức độ ưu tiên về độ may rủi của người ra quyết định đối với các yếu tố khác trong quá trình ra quyết định.

3.7.2 Cách tính độ hữu ích

a) Độ hữu ích được ước tính như sau:

Kết quả tốt nhất sẽ có độ hữu ích là 1 => U (tốt nhất) = 1

Kết quả xấu nhất sẽ có độ hữu ích là 0 => U (xấu nhất) = 0

Kết quả khác sẽ có độ hữu ích ∈ (0,1) => 0 < U(khác) < 1

b) Cách tính độ hữu ích của kết quả khác:

Độ hữu ích của kết quả khác được tính dựa trên sự xem xét một trò chơi chuẩn gồm 2 kết quả:

+ Kết quả tốt nhất có xác suất là P

+ Kết quả xấu nhất có xác suất là (1 - P)

Ta có 2 phương án:

+ Phương án 1: Chấp nhận trò chơi ta sẽ được kết quả tốt nhất hay được kết quả xấu nhất.

+ Phương án 2: Không chấp nhận trò chơi để có một kết quả chắc chắn tránh được rủi ro.

Vấn đề: Xác định xác suất p để 2 phương án này được xem là tương đương đối với người ra quyết định. Ta có sơ đồ cây quyết định:

Đối với người ra quyết định, hai phương án được xem là tương đương nhau nếu kỳ vọng độ hữu ích của 2 phương án bằng nhau.

Gọi EU là kỳ vọng của độ hữu ích (Expected Utility)

EU (kết quả khác) = EU (không chơi)

EU (không chơi) = EU(chơi) = px U(T) + (1 - p) U(X)

= p x 1 + (1 - p) x 0 = p

EU (kết quả khác) = p

U(T) = 1

U(X) = 0

U(Không chơi) đ

= U(Kết quả khác) = ?

Chơi

Kết quả khác Không chơi

Xấu nhất

Tốt nhất

(1-p)

p

Page 36: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 36

Kết luận: p chính là kỳ vọng của độ hữu ích để làm cho 2 phương án tương đương nhau đối với

người ra quyết định.

Như vậy độ hữu ích hoàn toàn chủ quan, tùy thuộc vào mức độ cảm nhận về rủi ro của người ra quyết định.

Để đo độ hữu ích, ta xem xét ví dụ sau:

Cô X muốn vẽ đường độ hữu ích đối với tiền, từ 0 đến 10.000

với U(10.000) = 1 và U (0) = 0

Cô X có một số tiền, cô có thể mua bất động sản hoặc bỏ vào qũi tiết kiệm của ngân hàng. Nếu cô X đầu tư vào bất động sản thì sau 3 năm cô thu được 10.000 hoặc là bị mất trắng. Nếu cô X gửi tiết kiệm thì sau 3 năm sẽ chắc chắn thu được 5000đ.

Về mặt chủ quan, cô X cho rằng nếu 80% có cơ may thu được 10.000đ sau 3 năm thì cô X mới đầu tư vào bất động sản nếu không cô X sẽ gửi tiết kiệm.

Như vậy với xác suất p = 0,8 để mua bất động sản thành công thì 2 phương án mua bất động sản và gửi tiền tiết kiệm là như nhau. Ta có: U(5000) = p = 0,8 đối với cô X.

Tương tự, nếu gửi tiết kiệm vào ngân hàng sau 3 năm cô X thu được 7000 đ thì p sẽ là bao nhiêu? Nếu là 3000 thì p sẽ là bao nhiêu?

Giả sử đối với cô X U(7000) = 90% = 0,9 U(3000) = 50% = 0,5 Độ hữu

ích U 1

0,5

Số tiền 5.000 10.0000

10000 U (10000) = 1

U (0) = 0

U (5000) = ?

Thành công p = 0,8

0

5000

Bất động sản

Tiết kiệm

Thất bại p = 0,2

Page 37: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 37

Dựa vào các số liệu trên ta vẽ ra đường cong độ hữu ích đối với tiền của cô X

c) Các dạng của đường cong độ hữu ích:

Dạng 1: Dạng đường cong có bề lõm quay xuống.

- Khi số tiền tăng thì U tăng nhưng U tăng chậm hơn số tiền tăng, có nghĩa là độ gia tăng của U giảm dần.

- Đây là biểu hiện của người ra quyết định tránh rủi ro, tránh tình huống mà sự rủi ro mang lại thiệt hại lớn.

Dạng 2: Dạng đường cong có bề lõm quay lên

- Khi số tiền tăng thì U tăng nhanh hơn số tiền tăng, có nghĩa là độ gia tăng của U tăng dần.

- Đây là đường cong độ hữu ích của người thích rủi ro, thích mạo hiểm, thích chọn tình huống may thì được nhiều, rủi thì hại lớn.

Dạng 3: Dạng đường phân giác Đối với người không có sự thiên lệch về rủi ro thì đường độ hữu ích là đường phân giác.

3.7.3 Đánh giá phương án bằng độ hữu ích

Trong việc đánh giá phương án bằng độ hữu ích, giá trị tính bằng tiền được thay thế bằng độ hữu ích tương ứng.

U

$

$

U

U

450

$

Page 38: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 38

Ví dụ: Ông B xem xét có nên tham gia đầu tư vào một dự án hay không. Nếu dự án thành công, Ông B thu được 10.000 trái lại mất 10.000. Theo Ông B dự án có 45% cơ may thành công. Ngoài ra đường độ hữu ích của Ông B có dạng: Vấn đề: Ông B có tham gia đầu tư vào dự án này không?

EU (tham gia) = 0,45 x 0,3 + 0,55 x 0,05 = 0,1625

EU (không tham gia) = 0,15 < 0,1625

Kết luận: Ông B tham gia đầu tư vào dự án.

Nếu dùng EMV:

EMV (tham gia) = 0,45 x 10.000 + 0,55(-10.000) = -1000

EMV (không tham gia) = 0 > - 1000

Nếu theo EMV thì Ông B không tham gia.

U

0,30

0,15

0

0,05

Tiền -10.000 10.000-20.000

10000 U (10000) = 0,3

U (-10000) = 0,05

U (0) = 0,15

Thành công

0,55-10000

0

Tham gia

Không tham gia

Thất bại

0,45

Page 39: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 39

Chương 4

PHÂN TÍCH BIÊN SAI (Marginal analysis)

4.1. Giới thiệu

Trong các bài toán ra quyết định ở các phần trước đây, mỗi bài toán chỉ có một vài phương án tương ứng với một số trạng thái khác nhau. Khi bài toán có số phương án tăng lên nhiều và mỗi phương án lại có nhiều trạng thái thì việc ra quyết định theo các phương pháp trước đây sẽ trở nên phức tạp. Trong trường hợp phức tạp này, để ra quyết định người ta thường dùng phương pháp phân tích biên sai

Phân tích biên sai là phân tích dựa trên lợi nhuận biên sai và thiệt hại biên sai được định nghĩa như sau:

• Lợi nhuận biên sai (Marginal Profit - Ký hiệu là MP) là lợi nhuận có được do ta bán thêm được hay tồn trữ thêm được một đơn vị sản phẩm

• Thiệt hại biên sai (Marginal Loss - Ký hiệu là ML) là thiệt hại mà ta phải chịu khi không bán được thêm một đơn vị sản phẩm.

Ví dụ: Trong việc kinh doanh nhật báo, nếu giá mua một tờ báo là 1000đ, giá bán một tờ báo là 1200đ thì:

Lợi nhuận biên sai nếu bán được sẽ là MP = 1200 - 1000 = 200đ

Thiệt hại biên sai nếu không bán được sẽ là ML = 1000đ

Trong phân tích biên sai người ta thường phân tích biên sai với phân phối xác suất rời rạc và phân tích biên sai với phân phối chuẩn.

• Phân tích biên sai với phân phối xác suất rời rạc thường được sử dụng khi số trạng thái và số phương án là một số nhỏ và ta biết được xác suất xảy ra của mỗi trạng thái.

• Phân tích biên sai với phân phối chuẩn thường được sử dụng khi số trạng thái và số phương án là một số lớn và phân phối xác suất của các trạng thái là phân phối chuẩn.

4.2. Phân tích biên sai với phân phối rời rạc

Trong phân tích này, gọi p là xác suất để cho số cầu lớn hơn một số cung đã cho trước, ta có:

p = P (số cầu > số cung cho trước)

Xác suất p này cũng chính là xác suất để bán thêm ít nhất 1 đơn vị kể từ số cung cho trước trở lên. Vậy;

(1 - p) = P (số cầu < số cung cho trước)

Từ p, MP và ML ta có:

Lợi nhuận biên sai kỳ vọng EMP (Expected Marginal Profit): EMP = p x MP

Thiệt hại biên sai kỳ vọng EML (Expected Marginal Loss): EML = (1 - p) x ML

Page 40: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 40

Ta chỉ trữ thêm 1 đơn vị vào mức tồn kho nếu lợi nhuận biên sai kỳ vọng lớn hơn thiệt hại biên sai kỳ vọng.

EMP ≥ EML

hay

p x MP ≥ (1 - p) ML

p ≥

Tóm lại, để trữ thêm một đơn vị sản phẩm thì xác suất p phải thỏa mãn điều kiện của công thức trên.

Ví dụ: Một cửa hàng kinh doanh sữa tươi với giá mua một lọ sữa tươi là 4000đ và giá bán một lọ sữa tươi là 6000đ. Sau một ngày nếu không bán được thì phải bỏ đi các lọ sữa vì sữa này không dùng được cho ngày hôm sau.

Theo kinh nghiệm, số lọ sữa bán ra được trong ngày 100 ngày trước đây được ghi nhận thức sau:

Số lọ sữa bán ra hàng ngày 4 5 6 7 8 9 10

Số ngày bán được 5 15 15 20 25 10 10

Vấn đề đặt ra: Cửa hàng nên đặt mua bao nhiêu lọ mỗi ngày.

Giải:

• Bước 1: Xác định p

Ta có: MP = 6000 - 4000 = 2000đ

ML = 4000đ

p ≥

p ≥

p ≥ 0,66

p ≥ 66%

• Bước 2: Tìm xác suất để số lượng bán ra lớn hơn hoặc bằng một số lượng đã cho trước.

ML ML + MP

ML ML + MP

4000 4000 + 2000

Page 41: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 41

Số lọ sữa bán ra

hàng ngày x (lọ)

Số ngày bán được

x (lọ)

Xác suất để bán được

x (lọ)

Xác suất được số lọ sữa bán ra hàng

ngày lớn hơn hay bằng x (lọ)

4 5 6 7 8 9 10

5 15 15 20 25 10 10

Tổng = 100

5% 15% 15% 20% 25% 10% 10%

Tổng = 100%

100% ≥ 66% 95% ≥ 66% 80% ≥ 66%

65% 45% 20% 10%

Bước 3: Ra quyết định

Căn cứ vào kết quả tính toán của bảng trên, ra quyết định mỗi ngày cửa hàng nên đặt mua 6 lọ sữa. Vì:

p = P (số lọ sữa bán ra hàng ngày ≥ 6) = 80% > 66%

4.3. 3. Phân tích biên sai với phân phối chuẩn.

Mặc dù phân tích biên sai với phân phối rời rạc là một công cụ phân tích hữu hiệu so với bảng quyết định trong trường hợp có nhiều trạng thái hay nhiều phương án, nhưng khi số trạng thái hay số phương án lớn hơn 15 đến 20 thì phân tích biên sai với phân phối chuẩn.

Trong phân tích biên sai với phân phối chuẩn, lượng cầu hay lượng hàng bán ra phải tuân theo phân phối chuẩn, đây cũng là tình huống thường gặp trong kinh doanh.

Các bước trong phân tích biên sai với phân phối chuẩn:

Bước 1: Xác định các tham số của lượng hàng bán ra, gồm có:

• Số trung bình µ

• Độ lệch chuẩn σ

• Lợi nhuận biên sai MP

• Thiệt hại biên sai ML

Bước 2: Xác định xác suất p,

p ≥ ML

ML + MP

Page 42: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 42

Bước 3: Từ xác suất p tra bảng tính sẵn của đường cong phân phối chuẩn ta có được giá trị Z với

Z =

Có Z, µ và σ ta tìm được X*, đó là lượng hàng tối ưu cần tồn trữ.

Ví dụ:

Một người bán báo nhận thấy rằng số lượng báo bán ra hàng ngày tuân theo phân phối chuẩn với số trung bình là 50 tờ và độ lệch chuẩn là 10 tờ.

Hãy xác định số lượng báo tối ưu mà người bán báo cần mua hàng ngày để bán. Biết giá mua và giá bán một tờ báo lần lượt là 4000đ và 10000đ.

Giải : Bước 1: Xác định các tham số về lượng báo bán ra:

Số trung bình µ = 50

Độ lệch chuẩn σ = 10

Lợi nhuận biên sai MP = 10000 - 4000 = 6000

Thiệt hại biên sai ML = 4000

Bước 2: Xác định xác suất p

p ≥ = = 0,4

Bước 3 Với p = 0,4

Tra bảng phân phối chuẩn ta có Z = 0,25

Z = = = 0,25

Ta có,

X* = 53 tờ

ML ML + MP

4000 10000

X* - µ σ

X* - 50 10

X* - µ σ

Page 43: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 43

CHƯƠNG 5

BIẾN NGẪU NHIÊN VÀ PHÂN PHỐI XÁC SUẤT (Random Variables and Probability Distributons)

5. ĐỊNH NGHĨA BIẾN NGẪU NHIÊN (Random Variable)

5.1.1. Định nghĩa

• Biến ngẫu nhiên là những biến mà giá trị của nó được xác định một cách ngẫu nhiên.

• Về mặt toán học, nếu mỗi biến cố sơ đẳng A thuộc tập hợp biến cố ω nào đấy có thể đặt tương ứng với một đại lượng xác định X = X(A) thì X được gọi là một biến cố ngẫu nhiên. Biến ngẫu nhiên X có thể xem như hàm của biến cố A với miền xác định là ω.

• Các biến ngẫu nhiên được ký hiệu bằng các chữ lớn X, Y, Z,… còn các giá trị của chúng được ký hiệu bằng các chữ nhỏ x, y, z...

5.1.2. Phân loại

Biến ngẫu nhiên được chia làm hai loại: biến ngẫu nhiên rời rạc, biến ngẫu nhiên liên tục.

a) Biến ngẫu nhiên rời rạc (Discrete Random Variable)

Nếu giá trị của biến ngẫu nhiên X có thể lập thành dãy rời rạc các số x1, x2, …, xn (dãy hữu hạn hay vô hạn) thì X được gọi là biến ngẫu nhiên rời rạc.

b) 3.1.2.2. Biến ngẫu nhiên liên tục (Continuous Random Variable)

Nếu giá trị của biến ngẫu nhiên X có thể lấp đầy toàn bộ khoảng hữu hạn hay vô hạn (a,b) của trục số 0x thì biến ngẫu nhiên X được gọi là biến ngẫu nhiên liên tục.

Thí dụ

• Lượng khách hàng đến cửa hàng trong ngày là biến ngẫu nhiên rời rạc.

• Nhiệt độ trong ngày ở Sài Gòn là biến ngẫu nhiên liên tục.

5.2. PHÂN PHỐI XÁC SUẤT ĐỐI VỚI BIẾN NGẪU NHIÊN RỜI RẠC (Probability Distribution for Discrete Variable)

5.2.1. Hàm xác suất (Probability Function)

Hàm xác suất Px(x) của biến ngẫu nhiên rời rạc X dùng diễn tả xác suất để cho biến ngẫu nhiên X đạt giá trị x. PX(x) là hàm của giá trị x

PX(x) = P(X=x)

Page 44: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 44

Thí dụ

Trong thí nghiệm thảy 1 con xúc sắc, ta có

P(X=1) = P(X=2) = … = P(X=6) = 1/6

→ Hàm xác suất là : PX(x) = P(X=x) = 1/6 với x =1, 2, 3, 4, 5, 6

5.2.2. Phân phối xác suất (Probability Distribution)

Phân phối xác suất của biến ngẫu nhiên X thể hiện sự tương quan giữa các giá trị xi của X và các xác suất của xi, sự tương quan có thể trình bày bằng bảng đồ thị hoặc bằng biểu thức.

Thí dụ

Trong thí nghiệm thảy 1 con xúc sắc, phân phối xác suất là:

Trình bày bằng bảng:

X 1 2 3 4 5 6

PX(x) 1/6 1/6 1/6 1/6 1/6 1/6

Trình bày bằng đồ thị :

5.2.3. Hàm xác suất tích lũy (Cumulative Probalility Function).

a) Định nghĩa

Hàm xác suất tích lũy FX(xo) của biến ngẫu nhiên rời rạc x thể hiện xác suất để X không vượt quá giới hạn xo. FX(xo) là hàm của xo

FX(xo) = P (X≤xo)

PX(x) 1/6 0 1 2 3 4 5 6 x

Page 45: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 45

b) Tính chất

Ta có các tính chất sau:

a. FX(xo) = ∑≤xox

X )x(P

∑≤xox

X )x(P : tổng của tất cả các giá trị có thể có của x với điều kiện x≤xo

b. 0 ≤ FX(xo) ≤ 1 ∀xo

c. Nếu x1 < x2 thì FX(x1) ≤ FX(x2)

Thí dụ

Trong thí nghiệm thảy 1 con xúc sắc, ta có hàm xác suất tích lũy như sau

FX(xo) =

⎪⎪

⎪⎪

=+<≤

<

61

52116

10

0

0

0

x neáu

),...,,j(jx j neáu j

x neáu

FX(x≤ 2.5) = PX(1) + PX(2) = 1/6 + 1/6 = 1/3

• Đối với biến ngẫu nhiên rời rạc hàm xác suất tích lũy luôn có dạng bậc thang bắt đầu từ 0 và tận cùng bằng 1.

1

5/6

4/6

3/6

2/6

1/6

FX(xo)

0 1 2 3 4 5 6 x

Page 46: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 46

5.2.4. Kỳ vọng của biến ngẫu nhiên rời rạc (Expected Value of Discrete Random Variable)

a) Kỳ vọng của biến ngẫu nhiên

• Kỳ vọng, E(X), của biến ngẫu nhiên rời rạc X được định nghĩa như sau:

E(X) = ∑x

x )x(P.x

• ∑x

: Tổng tất cả các giá trị có thể có của x

• Kỳ vọng của biến ngẫu nhiên được gọi là số trung bình (mean) và được ký hiệu là µx

E(X) = µx

Thí dụ

Gọi X là số lỗi có trong 1 trang sách. Hàm xác suất của biến ngẫu nhiên X được cho bởi: PX(0) = 0,81, PX(1) = 0,17, PX(2) = 0,02.

Tìm số lỗi trung bình có trong 1 trang sách ?

Giải

µx = E(X) = ∑x

X )x(P*x = 0 * 0,81 + 1 * 0,17 + 2 * 0,02

= 0,21 lỗi /1 trang

b) Kỳ vọng của hàm số của biến ngẫu nhiên

Gọi X là biến ngẫu nhiên rời rạc với hàm xác suất PX(x)

g(X) là một hàm số của biến ngẫu nhiên X

Kỳ vọng của hàm số g(X) được định nghĩa như sau :

E[g(x)] = ∑x

X )x(P)x(g

PX(x)

0,8

0,4

0 1 2 x µx = 0,21

Page 47: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 47

5.2.5. Phương sai (Variance)

Gọi X là biến ngẫu nhiên rời rạc.

Gọi µX là số trung bình của biến ngẫu nhiên

• Phương sai của biến ngẫu nhiên X chính là kỳ vọng của (X - µx)² và được ký hiệu 2Xσ .

2Xσ = E[(X - µX)²] = ( )∑ µ−

xXX )x(P*x 2

• Phuơng sai 2Xσ có thể tính theo công thức :

2Xσ = E(X²) - 2

Xµ = 22X

xX )x(Px µ−∑

Chứng minh

2Xσ = )x(P)x( XX

x

2µ−∑ = ∑∑∑ +−x

XXx

XXx

X xPxPxxPx )()(.2)( 22 µµ

2Xσ = 22

Xx

X )x(Px µ−∑

5.2.6. Độ lệch chuẩn σx (Standard Deviation)

Độ lệch chuẩn được ký hiệu σx

σX = 2Xσ

Thí dụ

Cho hàm xác suất của số lỗi X có trong 1 trang sách là

PX(0) = 0,81, PX(1) = 0,17, PX(2) = 0,02

Tìm độ lệch chuẩn của số lỗi có trong 1 trang sách ?

Giải

Trong thí dụ trước ta có µX = 0,21

• Kỳ vọng của X²

E(X²) = ∑x

X )x(Px 2 = 0² * 0,81 + 1² * 0,17 + 2² * 0,02

E(X²) = 0,25

• Phương sai 2Xσ = E(X²) - 2

Xµ = 0,25 - (0,21)² = 0,2059

• Độ lệch chuẩn

Page 48: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 48

σx = 4538,02059,02 ==Xσ

5.2.7. Momen

a) Momen gốc cấp k (Momen of Order k)

mk = E [Xk] = )x(Px Xx

k∑

• k = 1: m1 = E[X] = XXx

)x(Px µ=∑

• k = 2: m2 = E[X²]

b) Momen trung tâm cấp k (Central Momen of Order k)

Mk = E[(X-µX)k] = )x(P.)x( Xk

Xµ−∑

• k = 2: 2Xσ = E[(X - µX)²] = m2 - 2

1m

• M1 = E [(X - µ)] = 0

M2 = E [(X - µ)² ] = σ² (Variance)

M3 = E [(X - µ)³] = γ (Skewness : độ lệch)

M4 = E [(X - µ)4] = KM2² = Kσ4

K : hệ số Kurtorsis

5.2.8. Phân phối xác suất nhị thức (Binomial Probability Distubutions)

a) Hàm xác suất của phân phối nhị thức (Probability Function of Binomial Distribution).

Tiến hành n phép thử độc lập.

Gọi p là xác suất thành công trong mỗi phép thử độc lập => q = (1-p) là xác suất thất bại trong mỗi phép thử độc lập.

Xác suất để có số lần thử thành công là x trong những phép thử độc lập được cho bởi hàm xác suất như sau :

Px(x) = [n!/ (x!(n - x)!)].[px(1 - p)n-x ] với x = 0,1,2,…, n

hay

Px(x) = xnC pxqn-x với q = 1 - p

Ghi chú

• Phân phối của số lần phép thử thành công là x được gọi là phân phối nhị thức..

Page 49: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 49

• Hàm xác suất PX(x) là hàm xác suất của phân phối nhị thức.

b) Số trung bình, phương sai và độ lệch chuẩn của phân phối nhị thức

Gọi X là số lần thành công trong n phép thử, mỗi phép thử có xác suất thành công là p. X tuân theo phân phối nhị thức với số trung bình, phương sai và độ lệch chuẩn được tính theo các công thức sau:

Số trung bình

µX = E(X) = np

Phương sai 2Xσ = E[(X - µx)²] = np(1-p)

Hay 2Xσ = npq với q = 1-p

Độ lệch chuẩn

σx = npq

Thí dụ

Một người đi bán hàng đi tiếp xúc để chào hàng với 5 khách hàng. Xác suất để bán được hàng trong mỗi lần chào hàng là 0,4.

a) Tìm phân phối xác suất của số lần bán được hàng.

b) Tìm số trung bình, phương sai và độ lệch chuẩn của số lần bán được hàng.

c) Tìm xác suất của số lần bán được hàng trong khoảng 2 đến 4 lần.

Giải

a. Xác suất của số lần bán được hàng tuân theo phân phối nhị thức :

PX(x) = xnC Px qn-x = xC5 * (0,4)x * (0,6)5-x

PX(x) = )!x(!x

!−5

5 * (0,4)x * (0,6)5-x

x = 0 => PX(0) = 0,078

(không bán được)

x = 1 => PX(1) = 0,259

x = 2 => PX(2) = 0,346

x = 3 => PX(3) = 0,230

x = 4 => PX(4) = 0,077

x = 5 => PX(5) = 0,010

(trong 5 lần bán được cả 5)

PX(x)

0,4

0,2

0 0 1 2 3 4 5 X số lần thành công

Page 50: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 50

b. Số trung bình của số lần bán được hàng µx = np = 5 * 0,4 = 2

Phương sai 2Xσ = np(1-p) = 5 * 0,4 * 0,6 = 1,2

Độ lệch chuẩn σx = 12. = 1,10

c. P(2 < X < 4) = PX(2) + PX(3) + PX(4) = 0,653

5.2.9. Phân phối xác suất Poisson

a) Phân phối Poisson

Biến ngẫu nhiên X được gọi tuân theo phân phối Poisson nếu hàm xác suất của X có dạng

PX(x) = !x

e xλλ−

với λ > 0, ∀λ

x = 0,1,2,…

b) Số trung bình, phương sai và độ lệch chuẩn của phân phối Poisson

• Số trung bình của phân phối Poisson

µx = E(x) = λ

• Phương sai.

σ²x = E[(x-µx)²] = λ

• Độ lệch chuẩn

σx = λ

Thí dụ

Một trạm điện thoại tự động nhận được trung bình 300 lần gọi trong 1 giờ. Hỏi xác suất để trạm đó nhận được đúng 2 lần gọi trong 1 phút cho trước.

Giải

Số lần nhận được trung bình trong 1 phút

300/60 = 5 lần/1phút => λ = 5

Xác suất để nhận được đúng 2 lần trong 1 phút.

PX(2) = (5² * e-5)/2! = 25/2e5 ≈ 0,09

Page 51: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 51

5.3. PHÂN PHỐI XÁC SUẤT ĐỐI VỚI BIẾN NGẪU NHIÊN LIÊN TỤC (Probability Distributions For Continuous Random Variables)

Phân phối của biến ngẫu nhiên liên tục được xác định bởi hàm mật độ xác suất.

5.3.1. Hàm mật độ xác suất (Probability Density Function)

Gọi X là biến ngẫu nhiên liên tục, gọi x là giá trị bất kỳ nằm trong miền các giá trị có thể có của X.

Hàm mật độ xác suất fX(x) của biến ngẫu nhiên liên tục là hàm có những tính chất sau :

• fX(x) ≥ 0 , ∀x

• Xác suất P(a<X<b) để giá trị của biến ngẫu nhiên X rơi vào khoảng (a,b) được xác định bởi đẳng thức.

P(a<X<b) = ∫b

a X dx)x(f

Ghi chú

Đồ thị của hàm mật độ xác suất fX(x) được gọi là đường cong mật độ xác suất (probability density curve) hay đường cong tần số (frequency curve) hay cũng còn được gọi đường cong phân phối xác suất đối với biến ngẫu nhiên liên tục. Tung độ của mỗi điểm trên đường cong gọi là mật độ xác suất.

Về mặt hình học xác suất để biến ngẫu nhiên rơi vào khỏang (a,b) bằng diện tích hình thang cong giới hạn bởi đường cong phân phối xác suất, trục 0x, x = a, x = b.

x

Fx(x)

a b

SFX(x)

P(a<X<b) = S

∫∞

∞−= 1dx)x(fx ==> Toàn bộ diện tích của hình thang cong là 1

Nếu fX(x) là hàm mật độ phân phối thì fX(x) cần thỏa mãn 2 điều kiện FX(x) ≥ 0, ∀x

∫∞

= 1dx)x(fx

Page 52: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 52

Thí dụ

Biến ngẫu nhiên X tuân theo luật phân phối với mật độ fX(x), trong đó

fX(x) =

⎪⎪⎩

⎪⎪⎨

>

≤≤

<

1x neáu 0

1x0 neáu 2x

0x neáu 0

Tìm xác suất để X rơi vào khoảng (0,5; 0,75)

Giải

Kiểm tra điều kiện của hàm mật độ phân phối fX(x) ≥ 0, ∀x

10201

1

0

0=++= ∫∫∫∫

∞−

+∞

∞−

dxxdxdxdx)x(f

Vậy f(x) là hàm mật độ xác suất.

P[0,5<X<0,75] = ] 75,05,0

275,0

5,0

75,0

5,0

2)( xxdxdxxf == ∫∫ = (0,75)2 – (0,5)2 = 0,3125

1

1

2

x

y

0.5 0.75

Thí dụ

Cho hàm mật độ xác suất của biến ngẫu nhiên có dạng:

fx(x) =

⎪⎪⎪

⎪⎪⎪

>

≤≤+

<≤+

<

1x neáu 0

1x0 neáu aax-

0x1- neáu aax

-1x neáu 0

a. Tìm a

b. Tìm xác suất để biến ngẫu nhiên X có giá trị ở trong khoảng (1/2,1) và ở trong khoảng (-1/3,1/3)

Page 53: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 53

c. Tìm P(X=1/2)

Giải:

-1 1

x

f(x)

a

a. Tìm a:

S = ∫− ==−−==>=1

1111

211 a))((aSdx)x(fX

b. Tìm xác suất

P(1/2≤X≤1) = ∫ +−=+−1

211

21

2

21

/ /]xxdx)x(

= [-12

11 2

21 2

2 2

+ − − +] [( / )

/ ]

= 1/2-[-1/8+1/2] = 1/8

P(-1/3≤X≤1/3) = 2P(0≤X≤1/3)=20

1 31

/( )∫ − +x dx

= 2 [ -x²/2+x ]0

1 3/

= 2 [-1/18+1/3] = 5/9

c. P(X = ½) = 021

21=∫ dx)x(fX

/

/

Thí dụ

Cho hàm mật độ xác suất của biến ngẫu nhiên X có dạng:

1

x

f(x)

1

3/40

Page 54: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 54

Tìm

a) P (X ≤ 3/4)

b) P (X > 1/2)

c) P (1/4 ≤ X ≤ 411 )

Giải

a. P (X ≤ 3/4) = dx)x(fdx)x(fdx)x(f X/

X/

X/

∫∫∫ +=43

0

21

0

43

0

= 1/2(1/2 *1) + 1 (1(3/4 - 1/2) = 0,5

b. P (X > 1/2) = dx)x(fx∫ 211

21

= 1(1-1/2) + 1/2 (1)(112

1− ) = 0,75

c. P (1/4 ≤X≤114

) = dx)x(fx411

∫41

= 1-2 [1/2 * 1/4 * 1/2] = 7/8

5.3.2. Hàm phân phối tích lũy (Cumulative Distribution Function)

Hàm phân phối tích lũy còn được gọi là hàm phân tích hay hàm phân phối xác suất

a) Định nghĩa

Hàm phân phối tích lũy, FX(x) của biến ngẫu nhiên liên tục X thể hiện xác suất để X không vượt quá giá trị x. FX(x) là hàm của x.

Fx(x) = P(X ≤ x)

b) 3.3.2.2. Tính chất

Fx(x) = ∫ ∞−

xX dx)x(f với fX(x) là hàm mật độ xác suất.

FX(x)dx = f ’X(x) = dFX(x)/dx

FX(x) là hàm không giảm => FX(x + ∆x) ≥ FX(x)

0 ≤ FX(x) ≤ 1

F(-∞ ) = 0

F(+∞ ) =1

P (a < X < b) = FX(b) – FX(a)

Page 55: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 55

x

y

FX(x)1

-1

FX(x)

Thí dụ

Biến ngẫu nhiên X được cho bởi hàm phân phối

FX(x) = 01 21

( ) /x −

⎨⎪

⎩⎪

Tính xác suất để biến ngẫu nhiên X nằm trong khoảng (1.5, 2.5) và khoảng (2.5, 3.5)

Giải

P(1,5 < X < 2,5) = F(2,5) - F(1,5)

= (2,5 - 1)/2 - (1,5 -1)/2 = 0,5

P(2,5 < X < 3,5) = F(3,5) - F(2,5)

= 1 - (2,5 -1)/2 = 0,25

5.3.3. Kỳ vọng của biến ngẫu nhiên liên tục

a) Kỳ vọng của biến ngẫu nhiên

Kỳ vọng E(X) của biến ngẫu nhiên liên tục X được định nghĩa như sau :

E(X) = dx)x(xfx∫∞

∞−

Kỳ vọng của biến ngẫu nhiên được gọi là số trung bình ký hiệu là µx

E(X) = µx

b) Kỳ vọng của hàm số của biến ngẫu nhiên

dx)x(f)x(g)]x(g[E X∫∞

∞−=

Nếu x <1 Nếu 1 ≤ x ≤ 3 Nếu x >1

Page 56: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 56

5.3.4. Phương sai

σ² = E[X - µx)²]

σ² = −∞

∫ [x - µx)²]fX(x)dx

hay

σ² = E(X²) - µ²x

5.3.5. Độ lệch chuẩn :

σ² = 2xσ

5.3.6. Hàm phân phối chuẩn (The Normal Distribution)

a) Hàm mật độ xác suất của phân phối chuẩn

Nếu hàm mật độ xác suất của biến ngẫu nhiên X có dạng

fX (x) = 2

2

222

1 σµ−

σΠ

)x(

e

Với - ∞ < µ < +∞ và 0 < σ² < +∞

Thì biến ngẫu nhiên X được gọi là tuân theo luật phân phối chuẩn.

b) Tính chất của phân phối chuẩn

Gọi X là biến ngẫu nhiên tuân theo luật phân phối chuẩn với các tham số µ và σ². Ta có các tính chất sau

a. Số trung bình của biến ngẫu nhiên X tuân theo luật phân phối chuẩn là µ.

E(X) = µ

b. Phương sai của biến ngẫu nhiên X là σ²

Var(X) = E[(X - µ)²] = σ²

c. Đường cong của hàm mật độ xác suất có dạng hình chuông đối xứng qua trị số trung bình µ và được gọi là đường cong chuẩn (normal curve)

Page 57: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 57

µ+σµ−σ µ

• Phân phối chuẩn có phương sai giống nhau nhưng số trung bình khác nhau

µ1 < µ2 < µ3

µ3µ1 µ2

• Phân phối chuẩn có số trung bình giống nhau nhưng phương sai khác nhau

σ21 < σ2

2 < σ23

σ22

µ

σ32

σ12

d. Ký hiệu: Nếu biến ngẫu nhiên X tuân theo phân phối chuẩn có số trung bình là µ và phương sai là σ², ta ký hiệu

X ~ N (µ,σ²)

Page 58: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 58

c) Hàm phân phối tích lũy của phân phối chuẩn (Cumulative Distribution Function of Normal Distribution)

Định nghĩa

Cho X ~ N (µ,σ²). Hàm phân phối tích lũy của biến ngẫu nhiên X tuân theo phân phối chuẩn được định nghĩa như sau :

FX(x) = P(X<x) = dxex )x(

∫∞−

σµ−

πσ

2

2

222

1

Thí dụ

Diện tích S = ∫∞−

xo

X dx)x(f FX(xo) = P (X≤xo) = S

x

µ x0

Diện tích S = FX(x)

x

F(x)

0 xo

FX(xo)

P[a<X<b] = ∫b

aX dxxf )( = FX(b) - FX(a)

x

µ b

Diện tích S = FX(x)

a

x

F(x)

0 a b

FX(b)

FX(a)

5.3.7. Phân phối chuẩn chuẩn hoá (Standard Normal Distribution)

a) Định nghĩa

Phân phối chuẩn chuẩn hóa là phân phối chuẩn có số trung bình là 0 (zero) và phương sai là 1.

Ghi chú

• Biến ngẫu nhiên tuân theo phân phối chuẩn chuẩn hóa được gọi là biến ngẫu nhiên chẩn hóa (standard normal variable) và được ký hiệu là Z. Z ~ N(0,1)

Page 59: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 59

• Đường cong của hàm mật độ xác suất của phân phối chuẩn chuẩn hóa gọi là đường cong chuẩn chuẩn hóa (standard normal variable)

x

µ = 0σ2 = 1

f(x)

Tung độ của 1 điểm bất kỳ trên đường cong chuẩn sẽ được xác định từ phương trình của hàm mật độ xác suất của phân phối chuẩn.

fX(x) = 2

2

222

1 σµ−

πσ

)x(

e

Với µ = 0 , σ = 1 và x = z ⇒ 22

20

21)(

z

exf−

=πσ

• Giá trị của hàm phân phối tích lũy của phân phối chuẩn chuẩn hóa (cũng bằng diện tích nằm dưới đường cong chuẩn) được lập thành bảng và được cho sẵn trong các phụ lục của sách thống kê. Các bảng này cho giá trị của

FZ(z) = P (Z ≤ z) = ∫∞−

z

Z dz)z(f

Z

0

f(x)

Ζ

Một số bảng lập sẵn, chỉ cho ta diện tích nằm dưới đường cong chuẩn từ 0 đến z.

Z

0

f(x)

Ζ

Dựa vào bảng này ta có thể tính được xác suất để cho biến ngẫu nhiên Z nằm trong khoảng nào đó. Cụ thể.

Page 60: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 60

P(Z < a) P(a ≤ Z ≤ b) P(Z > b)

b) Chuẩn hóa biến ngẫu nhiên (Standardization of Variable)

Nếu biến ngẫu nhiên X có số trung bình là µ và phương sai là σ², thì biến ngẫu nhiên Z = (X-µ)/σ sẽ có số trung trung bình là 0 và phương sai là 1.

Z được gọi là biến ngẫu nhiên được chuẩn hóa (standardized).

Nếu X tuân theo phân phối chuẩn thì Z tuân theo phân phối chuẩn chuẩn hóa và Z được gọi là biến ngẫu nhiên chuẩn chuẩn hóa (Standard normal variable). Khi đó :

P(a < X < b) = P[(a-µ)/σ < Z < (b-µ)/σ

X

µ+σµ−σ µ µ+3σµ−3σΖ

−3 0 1 2 3−2 −1

µ−2σ µ+2σ

Thí dụ

Cho Z ~N(0,1). Tìm xác suất để giá trị của Z

a) Nhỏ hơn - 1,25

b) Nằm trong khoảng (-0,50 , 0,75)

c) Lớn hơn 1 Giải

a. P(Z ≤ - 1,25) = FZ (-1,25)

= 1 - FZ(1,25)

= 1 - 0,8944

= 1 - 0,1056

Ghi chú

FZ(-zo) = 1 – FZ (zo)

b. P(-0,50 ≤ Z ≤0,75)

= FZ (0,75) – FZ(-0,50)

= FZ(0,75) - [1 – FZ(0,50)]

= 0,7734 - [1 - 0,6915)]

0

f(x)

1.25−1.25

Z

0

f(x)

0.75−0.5

Page 61: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 61

= 0,4649

c. P(Z > 1) = 1 - P(Z ≤ 1)

= 1 – FZ(1)

= 1 – 0,8413

= 0,1587

Thí dụ

Cho X ~ N(15,16). Tìm xác suất để X có giá trị lớn hơn 18

Giải

P (X >18) = P(Z> [(18 -µ)/σ] = P(Z> [(18 - 15)/4] = P(Z> 0,75)

= 1 - P(Z<0,75) = 1 – FZ(0,75)

= 1 – 0,7734

P(X>18) = 0,2266

Thí du

Nếu X là biến ngẫu nhiên tuân theo phân phối chuẩn có số trung bình là 3 và độ lệch chuẩn là 2. Tìm P(4<X<6)

Giải

P (4 <X<6) = P(4-3)/2 < Z(6 - 3)/2]

= P(0,5< Z<1,5) = FZ(1,5)- FZ(0,5)

= 0,9332 – 0,6915 = 0,2417

Thí dụ

Tìm giá trị của b biết rằng P (-b < Z < b) = 0,9010 Giải

Z

0

f(x)

1.65

FZ(b) = 1 - (1-0,9010)/2 = 1 – 0,0990/2 = 1 - 0,0495

FZ(b) = 0,9505 ==> b = 1,65

5.3.8. Sự gần đúng của phân phối chuẩn đối với phân phối nhị thức

Z

0

f(x)

0.75−0.5

Page 62: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 62

(Normal Approximaton to the Binomial Distribution)

Gọi X là số lần thành công trong những phép thử và xác suất thành công trong mỗi phép thử là p

Nếu n lớn và p không quá gần 0 hay quá gần 1 thì ta có thể dùng phân phối chuẩn để tính toán gần đúng cho phân phối nhị thức.

Biến ngẫu nhiên X tuân theo luật phân phối nhị thức được chuẩn hóa theo công thức

Z = )p(np

npX−

1

Với số trung bình của phân phối nhị thức µ = np và độ lệch chuẩn )p(np −=σ 1

Khi đó :

P(a ≤ X ≤ b) ≈ P()p(np

npbZ)p(np

npa−

−≤≤

11) Điều kiện n ≥ 50

Nếu kể đến sự hiệu chỉnh liên tục (continuity correction)

P(a ≤ X ≤ b) ≈ P()1(

5,0)1(

5,0pnpnpbZ

pnpnpa

−−+

≤≤−−− Điều kiện 20≤ n ≤ 50

P(X=a) = P(a-0,5 ≤ X ≤ a+0,5) ≈ ()1(

5,0)1(

5,0pnpnpaZ

pnpnpa

−−+

≤≤−−−

5.3.9. Sự gần đúng của phân phối chuẩn đối với phân phối Poisson

Gọi X là biến ngẫu nhiên tuân theo phân phối Poisson có số trung bình là λ.

Nếu λ lớn thì ta có thể dùng phân phối chuẩn để tính toán gần đúng cho phân phối Poisson. Biến ngẫu nhiên X được chuẩn hóa theo công thức.

Z = λ

λ−X

X Số lần thành công

Px(x)

Page 63: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 63

P(a≤ X ≤ b) ≈ P )5,05,0(λ

λλ

λ −+≤≤

−− bZa

P(X=a) ≈ P (a-0,5 ≤ X ≤ a+0,5)

Thí dụ

Một người bán hàng đi chào hàng với 100 khách hàng. Theo kinh nghiệm hy vọng bán được hàng cho mỗi một khách hàng là 40%. Tìm xác suất để số khách hàng sẽ mua hàng nằm trong khoảng 45 đến 50.

Giải

Gọi X là số khách hàng sẽ mua hàng X tuân theo luật phân phối nhị thức với

µ = np = 100 * 4 = 40, độ lệch σ = 246,0*4,0*100)1( ==− pnp

Dùng cách tính gần đúng của phân phối chuẩn

P(45 ≤ X ≤ 50) = P[24

405024

4045 −≤≤

− Z ]

= P[1,02≤ Z ≤ 2,04]

= FZ(2,04) – FZ(1,02)

= 0,9793 - 0,8461

= 0,1332

Nếu kể đến sự hiệu chỉnh liên tục.

P(45 ≤ X ≤ 50) = P[24

4055024

4045 −≤≤

− .Z ]

= P[0,92≤ Z ≤ 2,14]

= FZ(2,04) – FZ(1,02)

= 0,9838 - 0,8212

= 0,1626

Ghi chú : Nếu tính trực tiếp bằng phân phối nhị thức.

P(45≤X≤50) = PX(45) + PX(46) + PX(46) + PX(47) + PX(48) + PX(49) + PX(50)

Các bảng nhị thức ứng với n ≤ 20.

Thí dụ

Một nhà máy sản xuất thử một loại sản phẩm mới. Mỗi sản phẩm sản xuất có xác suất bị hư là 0,16. Tìm xác suất để có đúng 20 sản phẩm bị hư trong 80 sản phẩm.

Giải

Gọi X là số sản phẩm bị hư. X tuân thủ theo luật phân phối nhị thức với.

Page 64: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 64

µ = np = 80 * 0,16 = 12,8

σ = 279,384,0*16,0*80)1( ==− pnp

P(X = 20 ) = P(19,5 <X<20,5)

= P(19,5-12,8)/3,279 <Z<(20,5-12,8)/3,279

= P(2,04 <Z<2,35)

= FZ (2,35)-FZ (2,05) = 0,9906 - 0,9793

P(X = 20 ) = 0,113

Ghi chú :

Lời giải chính xác : P(X = 20 ) = C80

20P20 q80-20 = 0,122

5.3.10. Sự gần đúng của phân phối chuẩn đối với tỉ số của số lần thành công của biến ngẫu nhiên X tuân theo luật phân phối nhị thức

Gọi X là biến ngẫu nhiên chỉ số lần thành công trong n phép thử.

Gọi f = X/n là tỉ số của số lần thành công.

Gọi p là xác suất thành công của 1 lần thử.

• Kỳ vọng của f

E(f) = p

• Phương sai của f

2fσ = p(1-p)/n

• Độ lệch chuẩn của f

σf = n

)p(pf

−=σ

12

• Sự chuẩn hóa của biến ngẫu nhiên f

Z =

n)p(p

pf−

−1

Thí dụ

Giả sử n = 100, p = 0,36. Tìm xác suất sao cho số f của số lần thành công trong n phép thử nằm trong khoảng 0,24 và 0,42.

Giải

Page 65: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 65

E(f) = p = 0,36

Var(f) = 2fσ = p(1-p)/n = 0,36 * 0,64/100 = 0,002304

σf = 2fσ = 0,048

Biến ngẫu nhiên f được chuẩn hóa dưới dạng

Z = (f - 0,36)/0,048

P(0,24 ≤ f ≤ 0,42) = P[(0,24 - 0,36)/0,048 ≤ (f -0,36)/0,048 ≤ (0,42 - 0,36)/0,048]

= P(-2,5 ≤ Z ≤ 1,25) = 0,4938 + 0,3944 = 0,8881 ≈ 0,89

Ghi chú

P(0,24 ≤ f ≤ 0,42) = P(24 ≤ X ≤ 42)

Page 66: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 66

Chương 6

LẤY MẪU VÀ PHÂN PHỐI MẪU (Sampling and Sampling Distribution)

6.1. LẤY MẪU TỪ TẬP HỢP CHÍNH (Sampling from a Population)

6.1.1. Tập hợp chính (Population)

Tập hợp chính là tập hợp tất cả các đối tương mà ta quan tâm nghiên cứu trong một vấn đề nào đó. Số phần tử của tập hợp chính được ký hiệu là N.

- Nếu N là số hữu hạn ta có tập hợp chính hữu hạn (finite population)

- Nếu N là số vô hạn ta có tập hợp chính vô hạn (infinite population)

6.1.2. Mẫu (Sample)

Mẫu là tập hợp con của tập hợp chính. Số phần tử của mẫu đã ký hiệu là n (cỡ mẫu).

6.1.3. Lấy mẫu ngẫu nhiên đơn giản (Simple Random Sampling)

Đó là cách chọn n phần tử từ tập hợp chính gồm N phần tử sao cho mỗi tổ hợp trong nNC

tổ hợp đều có cùng khả năng được chọn như nhau. Kết quả của việc chọn này cho ta các mẫu ngẫu nhiên (random sample).

Việc lấy mẫu ngẫu nhiên có thể tiến hành theo cách lấy mẫu không hoàn trả lại (sampling without replacement) hay theo cách lấy mẫu có hoàn trả lại (sampling with replacement).

6.1.4. Phân phối mẫu (Sampling Distribution)

Các mẫu đều có các đặc trưng thống kê của mẫu như số trung bình X , phương sai 2xS .

Phân phối xác suất của các đặc trưng thống kê của mẫu được gọi là phân phối mẫu. Trong chương này ta khảo sát phân phối mẫu của X , 2

xS .

Suy diễn thống kê (Statistic Inference) : Dựa vào các đặc trưng thống kê của mẫu ta có thể suy rộng ra cho các đặc trưng thống kê của tập hợp chính.

6.2. PHÂN PHỐI MẪU CỦA SỐ TRUNG BÌNH CỦA MẪU X (Sampling Distribution of the Sample Mean)

Phân phối mẫu của số trung bình của mẫu là phân phối xác suất của đại lượng X

6.2.1. Kỳ vọng của số trung bình mẫu E ( X )

Giả sử tập hợp chính có N phần tử, có trung bình là µx và phương sai là 2xσ . Ta có:

N

XN

ii

x

∑=µ =1

N

)X(N

ii

x

∑ µ−=σ =1

2

2

Page 67: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 67

Gọi X1, X2 ... Xn là mẫu ngẫu nhiên có cỡ mẫu là n, được chọn từ tập hợp chính. Số trung bình của mẫu là :

∑= iXn

X 1

• Kỳ vọng của số trung bình mẫu của số trung bình mẫu E ( X ) là giá trị trung bình của tập hợp chính µx. Nói cách khác, phân phối mẫu của X có số trung bình là µx.

E( X ) = µx

Thí dụ: Giả sử tập hợp chính gồm 5 học sinh có số tuổi là 2, 4, 6, 8 và 10. Trong trường hợp này số trung bình của tập hợp chính sẽ là

µx = 1/5(2+4+6+8+10) = 6

Giả sử lấy mẫu ngẫu nhiên không hoàn lại với cỡ mẫu là 2. Ta sẽ có 25C = 10 mẫu khác

nhau (với cỡ mẫu là 2). Và mỗi mẫu sẽ có số trung bình của mẫu X như sau :

Sample 2,4 2,6 2,8 2,10 4,6 4,8 4,10 6,8 6,10 8,10

X 3 4 5 6 5 6 7 7 8 9 Phân phối mẫu của số trung bình X là :

(Phân phối xác suất của đặc trưng thống kê của mẫu X

Sample 3 4 5 6 7 8 9 10

X 0,1 0,1 0,2 0,2 0,2 0,1 0,1 0,1

Kỳ vọng của X

E( X ) = Σ X * p( X )

= 3 * 0,1 + 4 * 0,1 + 5 * 0,2 + 6 * 0,2 + 7 * 0,2 + 8 * 0,1 + 9 * 0,1

E( X ) = 6 = µx

6.2.2. Phương sai của số trung bình mẫu (2Xσ )

a) Trường hợp tập hợp chính vô hạn (Infinite Polulation)

Phương sai của số trung bình mẫu X được ký hiệu là σ2x

Var ( X ) = σ2x =

nxσ2

Đúng khi n < N

Với σ2x là phương sai của tập hợp chính, n là cỡ mẫu.

Var ( X ) = σ2x = )(

1NnN

n

2x

−−σ

Page 68: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 68

b) Trường hợp tập hợp chính hữu hạn (Finite Population)

Thí dụ:

Tính phương sai của X trong thí dụ trên

Phương sai của tập hợp chính

σ2x = E[(Xi - µx)² = Σ(xi - µx)² * P(Xi) µx = 6; P(Xi) = 1/5

= 1/5[(2-6)² + (4 - 6)² + (6 -6 )² + (8-6)² + (10 - 6)²]

σ2x = 8

Phương sai của X tính từ định nghĩa

Var ( X ) = E [( X - E( X ))2] = E [( X - 6)2] vì E ( X ) = µx = 6

= [(3-6)2*0,1 + (4-6)2*0,1 + (5-6)2*0,2 + (6-6)2*0,2 + (7-6)2*0,2 + (8-6)2

*0,1 + (9-6)2*0,1]

Var ( X ) = σ2x = 3

Nếu áp dụng công thức :

Var ( X ) = 3 1525

28

1NnN

n

2x2

X =−−

=−−σ

=σ **

6.2.3. Độ lệch chuẩn của số trung bình mẫu ( Xσ )

Độ lệch chuẩn của X được ký hiệu ( Xσ )

σ σσ

x xx

n= =2 Đối với tập hợp chính vô hạn

hay 1NnN

n x

x −−σ

=σ * Đối với tập hợp chính hữu hạn

xσ được xem như sai số chuẩn (Standard Error) của số trung bình mẫu X .

6.2.4. Lấy mẫu từ tập hợp chính tuân theo phân phối chuẩn (Sampling From Normal Population)

Luật phân phối của số trung bình mẫu X

Nếu tập hợp chính của biến X tuân theo phân phối chuẩn với số trung bình là µx và phương sai σx thì số trung bình mẫu X sẽ tuân theo phân phối chuẩn với số trung trình là µx và phương sai là n2

x /σ .

X ~ X N 2xX ==>σµ ),( ~ N

nXX( , )µ

σ2

Page 69: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 69

6.2.5. Chuẩn hóa số trung bình mẫu X

Đặt : Z X X

X

=− µσ

Nếu X có số trung bình là µx và phương sai là σ2X thì Z có số trung bình là 0 và

phương sai là 1.

Nếu ( ) ( )102 ,N~Z ,N~X Xx ==>σµ

6.2.6. Định lý giới hạn trung tâm (Central Limit Theorem)

Khi n lớn thì

n

X Z

X

X

σµ−

= sẽ gần đúng có phân phối chuẩn chuẩn hóa hay X có

phân phối chuẩn với số trung bình là µx phương sai nx2σ

Khi n lớn ==> Z ~ N(0, 1) hay X NnX

X~ ,µσ2⎛

⎝⎜

⎞⎠⎟

Thí dụ :

Chiều dài của các cây thước kẻ trong dây chuyền sản xuất thước tuân theo phân phối chuẩn với µ = 30cm. Độ lệch chuẩn xung quanh số trung trung bình là σ = 0,1cm. Nhân viên thanh tra lấy mẫu với cỡ mẫu n = 4 và nhận thấy số trung bình của mẫu là X = 29875cm. Tìm xác suất để số trung bình của mẫu nhỏ hơn hoặc bằng 29875cm.

Giải :

( )⎥⎥⎥

⎢⎢⎢

⎡−

≤⎟⎟⎟

⎜⎜⎜

⎛−

=⟨

40,1

3029875

30X P 29875 XP

= P (Z ≤ - 350) = 0,062

Thí dụ : Một nhà sản xuất phụ tùng xe ôtô cho biết tuổi thọ của phụ tùng xe tuân theo luật phân phối chuẩn với số trung bình là 36.000 dặm và độ lệch chuẩn là 4.000 dặm. Đối với một mẫu được chọn một cách ngẫu nhiên với cỡ mẫu là 16 thì tuổi thọ trung bình của mẫu là 34.500 dặm. Nếu nhà sản xuất nói đúng thì xác suất để số trung bình mẫu nhỏ hơn hoặc bằng giá trị của mẫu đã đo là bao nhiêu.

Giải :

( )⎟⎟⎟⎟

⎜⎜⎜⎜

⎛−

⟨−

=⟨

164000

000.36500.34 500.34 X

XXPXP

σµ = P (Z < -1,5) = 0,0668

Page 70: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 70

Thí dụ:

Giả sử tập hợp chính tuân theo phân phối chuẩn với µ = 40, σ 2 = 100 .

X

µ = 40

f(x)

Lấy 1.000 mẫu ngẫu nhiên với cỡ mẫu 5. Gọi X là số trung bình của mẫu. X tuân theo

phân phối chuẩn với số trung bình là µ = 40 phương sai σ 2 1005

20n

= = .

Lấy 1.000 mẫu ngẫu nhiên với cỡ mẫu 10. Gọi X là số trung bình của mẫu. X tuân theo

phân phối chuẩn với số trung bình là µ = 40, phương sai σ 2 10010

10n

= = .

X

µ = 40

f(x)

Ν = 10

Ν=5

Nhận xét :

Phương sai của phân phối mẫu sẽ giảm khi cỡ mẫu tăng.

6.3. PHÂN PHỐI MẪU CỦA PHƯƠNG SAI MẪU 2xS .

(Sampling Distribution Of The Sample Variance)

Phân phối mẫu của phương sai mẫu là phân phối xác suất của phương sai mẫu 2xS .

6.3.1. Kỳ vọng của phương sai mẫu E (2xS )

Phương sai mẫu ký hiệu là S2x.

( )2

1

2

11 ∑

=

−−

=n

iX XX

NS

i

Page 71: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 71

Kỳ vọng của phương sai mẫu E(S2x) chính là phương sai của tập hợp chính 2

Xσ . Nói cách khác, phân phối mẫu của ( 2

xS ) có số trung bình là 2Xσ .

E( 2xS ) = 2

Xσ Điều kiện : n < < N

6.3.2. Phương sai của phương sai mẫu

Phương sai của phương sai mẫu được ký hiệu Var( 2xS ).

Var( 2xS ) tùy thuộc vào luật phân phối của tập hợp chính. Nếu tập hợp chính tuân

theo phân phối chuẩn thì

( )1n

2SVar4X2

X −σ

=

6.3.3. Phân phối χ2 (Chi - squared Distribution)

Biến ngẫu nhiên X2 tuân theo luật phân phối χ2 có độ tự do là n (degree of freedom) nếu hàm mật độ xác suất của X2 có dạng

⎪⎪

⎪⎪

>⎟⎟⎠

⎞⎜⎜⎝

⎟⎠⎞

⎜⎝⎛ ν

Γ=

−−

ν

0 x neáu 0

0 x neáu e2

x

22

1

xf2x1

22

2X

2

2

*)(

Ghi chú :

( )

α

χ2υ,α

∫∞

−−=

2

22

21

22

2 )2

()2/(

1),(x

dxxv

exvp

vxP

Người ta lập bảng tính sẵn các giá trị diện tích P(x², ν)

Biến ngẫu nhiên X tuân theo luật phân phối χ2 với độ tự do là ν được ký hiệu.

X² ~ χ2v

F(χ2)

0 χ2

Page 72: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 72

6.3.4. Luật phân phối của 2x

2xS1n

σ− )( = χ²n-1

Ta có:

X²n-1= 2x

2xS1n

σ− )( =

2X

n

1i

2i XX

σ

∑ −=

)(

Nếu tập hợp chính tuân theo luật phân phối chuẩn thì 2x

2xS1n

σ− )( tuân theo luật phân phối

χ² với độ tự do là (n-1)

X ~ N(µx, 2xσ ) => 2

x

2xS1n

σ− )( ~ χ²n-1

Thí dụ :

Một nhà sản xuất sữa hộp muốn trọng lượng trung bình của các hộp sữa sản xuất ra phải gần bằng trọng lượng đã được quảng cáo. Giả sử phân phối trọng lượng của tập hợp chính tuân theo phân phối chuẩn. Nếu lấy ngẫu nhiên 20 hộp đem đi kiểm tra. Tìm 2 số K1 và K2 sao cho :

a) P( 05,0)12

2

=< KS

x

x

σ

b) P( 05,0)22

2

=> KS

x

x

σ

Giải :

a. 0,05 = ( =<σ

)12x

2x K

S P[ 2x

2xS1n

σ− )( < (n-1)K1]

= P[χ²n-1 < (n-1) K1]

Với cỡ mẫu n =20 và χ²n-1 là biến ngẫu nhiên có độ tự do n-1 = 19. Ta có :

0,05 = P[χ²n-1 <19K1] = P[ χ²19<19K1]

hay 1-0,05 = 0,95= P[χ²n-1 >19K1] = P[χ²19>19K1]

Tra bảng ta có : 19K1 = 10,12

K1 = 0,533 Ý nghĩa : Với xác suất 5%, phương sai của mẫu sẽ nhỏ hơn 53,3% lần phương sai của tập hợp chính.

Hay P( 2xS < 0,533 2

xσ ) = 0,05

b. 0,05 = P( ])1()1(

[) 22

2

22

2

KnSn

PKS

X

x

x

x −>−

=>σσ

= P[χ²n-1 >(n-1)K2]

0,05= P[χ²19> 19K2]

n : cỡ mẫu

Page 73: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 73

Tra bảng ta có : 19K2 = 30,14

K2 = 1,586

Ý nghĩa : Với xác suất 5%, phương sai của mẫu sẽ lớn hơn 58.6% phương sai của tập hợp chính.

X5% 5%

P( 2xS >1,586 2

xσ ) = 0,05

Page 74: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 74

Chương 7

ƯỚC LƯỢNG CÁC THAM SỐ THỐNG KÊ (Estimation)

7.1 KHÁI NIỆM CHUNG

Xét một tập hợp chính gồm N biến ngẫu nhiên X có hàm mật độ xác suất là f (x,θ); trong đó θ là các tham số thống kê của tập hợp chính.

Thí dụ: Trong phân phối nhị thức:

f x Cnx x n x( , ) ( )θ ρ ρ= − −1 ⇒ θ = ρ, θ ∈ [0 , 1]

Trong phân phối poisson

f x

ex

x

( , )!

θ λλ

= ⇒ θ = λ λ > 0

Trong phân phối chuẩn

f x e

x

( , )( )

θπσ

µσ=

−−1

2 22

2

2

⇒ θ = (µ, σ2) ;

-∞ < µ < +∞ ; 0 < σ2 < +∞

Gọi {x1, x2,.... , xn} là mẫu ngẫu nhiên, cỡ mẫu n được dùng lấy ra từ tập hợp chính tuân theo hàm mật độ xác suất f (x,θ). Ở đây dạng của hàm f xem như đã biết còn các tham số thống kê θ của tập hợp chính xem như chưa biết.

Vấn đề đặt ra ở chương trình này là dựa vào các mẫu quan sát {x1,x2,...,xn} ta ước lượng xem giá trị cụ thể của θ bằng bao nhiêu (bài toán đó gọi là ước lượng điểm ) hoặc ước lượng xem θ nằm trong khoảng nào (bài toán ước lượng khoảng).

7.2 ƯỚC LƯỢNG ĐIỂM (Point Estimation)

7.2.1 Ước lượng và giá trị ước lượng (Estimator And Estimate)

a) Ước lượng (Estimator) và hàm ước lượng - Là biến ngẫu nhiên hay các tham số thống kê của mẫu được dùng để ước lượng các

tham số thống kê chưa biết của tập hợp chính.

- Ước lượng của tham số thống kê θ của tập hợp chính được ký hiệu là θ̂

- Dựa vào mẫu {x1,x2...,xn} người ta lập ra Hàm θ̂ = θ̂ (x1,x2,....,xn) để ước lượng cho θ. θ̂ được gọi là hàm ước lượng của θ hay gọi tắt là ước lượng của θ.

Page 75: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 75

θ̂ chỉ phụ thuộc vào giá trị quan sát x1, x2, ... ,xn chứ không phụ thuộc vào các tham số chưa biết θ của tập hợp chính.

b) Giá trị ước lượng (Estimate) hay còn gọi là giá trị ước lượng điểm (Point Estimate)

Là giá trị cụ thể của ước lượng θ̂ và được xem như giá trị ước lượng của tham số thống kê θ của tập hợp chính.

Tham số thống kê và tập hợp chính (Population Parameter) Ước lượng (Estimation) Giá trị ước lượng

Estimate (Point estimate)

Số trung bình µ X

Phương sai 2xσ Sx

2

Độ lệch chuẩn σx Sx

Tỷ lệ p f̂

7.2.2 Ước lượng không chệch: (Unbiased Estimators)

a) Ước lượng không chệch:

Ước lượng θ được gọi là ước lượng không chệch của tham số thống kê θ nếu kỳ vọng của θ̂ là θ.

E ( θ̂ ) = θ

Thí dụ

E( X ) = µ => X là ước lượng không chệch của µ

E(Sx2) = 2

xσ => Sx2 là ước lượng không chệch cuả 2

E ( f̂ ) = p => f̂ là ước lượng không chệch của p

b) Độ chệch (The Bias)

Gọi θ̂ là ước lượng của θ: Bias( θ̂ ) = E ( θ̂ ) - θ

Đối với ước lượng không chệch ⇒ Bias = độ chệch = 0

c) Ước lượng hiệu quả tốt nhất:

Gọi θ̂ 1 và θ̂ 2 là 2 ước lượng không chệch của θ dựa trên số lượng của mẫu quan sát giống nhau.

o θ̂ 1 được gọi là hiệu quả hơn θ̂ 2 nếu: Var ( θ̂ 1) < Var ( θ̂ 2)

o Hiệu quả tương đối giữa hai ước lượng là tỉ số giữa 2 phương sai của chúng.

Hiệu quả tương đối (Relative Efficency) =)ˆ(Var)ˆ(Var

1

2

θ

θ

Page 76: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 76

o Nếu θ̂ là ước lượng không chệch của θ và nếu không có một ước lượng không chệch nào có phương sai nhỏ hơn phương sai của θ̂ thì θ̂ đuợc gọi là ước lượng tốt nhất (Best Estimator) hay θ̂ còn gọi là ước lượng không chệch có phương sai nhỏ nhất của θ (Minimum Variance Unbiased Estimator of θ)

θ2θ1

θ2

θ1

θ̂ 1 : ước lượng không chệch của θ θ̂ 1 θ̂ 2: ước lượng không chệch của θ

θ̂ 2 : ước lượng chệch của θ θ̂ 1 ước lượng hiệu quả hơn θ̂ 2:

d) Sai số bình phương trung bình (Mean Squared Error - MSE)

Sai số bình phương trung bình của ước lượng θ̂ được định nghĩa như sau:

MSE( θ̂ ) = E [( θ̂ - θ)2]

Người ta chứng minh được rằng:

MSE ( θ̂ ) = Var( θ̂ ) + [θ - E ( θ̂ )]2

MSE ( θ̂ ) = Var ( θ̂ ) + [ Bias( θ̂ )]2

Nếu θ̂ là ước lượng không chệch ta có:

Bias( θ̂ ) = 0

⇒ MSE ( θ̂ ) = Var ( θ̂ )

e) Ước lượng nhất quán vững (Consistent Estimators)

θ̂ n = θ̂ (x1, x2,... xn) gọi là ước lượng vững của θ nếu với mọi ε > 0 ta có:

∞→i

lim P( | θ̂ n - θ | ≤ ε) = 1

tức là dãy θ̂ n hội tụ theo xác suất tới θ khi n → ∞

Page 77: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 77

7.3 ƯỚC LƯỢNG KHOẢNG (Interval Estimation)

7.3.1 Khoảng tin cậy (Confidence Interval)

a) Ước lượng khoảng và giá trị ước lượng khoảng (Interval Estimator And Interval Estimate).

Ước lượng khoảng: Ước lượng khoảng đối với tham số thống kê của tập hợp chính θ là một quy tắc dựa trên thông tin của mẫu để xác định miền (Range) hay khoảng (Interval) mà tham số θ hầu như nằm trong đó.

Gía trị ước lượng khoảng: là giá trị cụ thể của miền hay khoảng mà tham số θ nằm trong đó.

b) Khoảng tin cậy và độ tin cậy (Confidence Interval and Level of Confidence)

Gọi θ là tham số thống kê chưa biết. Giả sử dựa trên thông tin của mẫu ta có thể xác định được 2 biến ngẫu nhiên A và B sao cho

P (A < θ < B) = 1 - α với 0 < α < 1

Nếu giá trị cụ thể của biến ngẫu nhiên A và B là a và b thì khoảng (a,b) từ a đến b được gọi là khoảng tin cậy của θ với xác suất là (1 - α)

Xác suất (1 - α) được gọi là độ tin cậy của khoảng.

Ghi chú:

o Trong thực tế, độ tin cậy (1-α) do nhà thống kê chọn theo yêu cầu của mình, thông thường độ tin cậy được chọn là 0,90; 0,95; 0,99...

o α là xác suất sai lầm khi chọn khoảng tin cậy (a, b)

7.3.2 Khoảng tin cậy đối với số trung bình của phân phối chuẩn trong trường hợp đã biết phương sai của tập hợp chính:

Nghĩa là đi tìm ước lượng của µ trong N (µ, σx2) khi đã biến σx

2

a) Điểm phần trăm giới hạn trên Z (Upper Percentage Cut Off Point)

Gọi Z là biến ngẫu nhiên chuẩn hóa và α là số bất kỳ sao cho 0 < α < 1

Zα là điểm phần trăm giới hạn trên nếu.

P (Z > Zα ) = α

Ghi chú:

P (Z > Zα) = FZ (Zα) = 1 - α

Page 78: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 78

Z

α

Ζα P (-Zα/2 < Z < Zα/2) = 1 - α

Chứng minh:

Do tính đối xứng: P(Z > Zα/2 ) = 2α

P (Z < -Zα/2) = 2α

⇒ P (-Zα/2 < Z < Zα/2) = 1 - 2α -

2α = 1 - α

Zα/2

Ζα

α/2

−Ζα 0

fZ(z)

b) Khoảng tin cậy của µ trong N(µ, σx2) khi đã biến σx

2

Giả sử ta có mẫu ngẫu nhiên vơí cỡ mẫu n từ phân phối chuẩn N(µ, σx2 ). Nếu σx

2 và số trung bình mẫu đã biết, giá trị trung bình tập hợp chính được tính bởi.

x

Z

nx

Z

nx x

− −

− < < +α ασµ

σ/ /2 2

Trong đó Zα/2 là số có P (Z > Zα/2) = α/2 với Z là biến ngẫu nhiên chuẩn chuẩn hóa.

Chứng minh:

Ta có: P ( - Zα/2 < Z < Zα/2) = 1 - α

P ( - Zα/2 < n/

X

Xσµ− < Zα/2) = 1 - α

P (-n

Z x/ σα 2 < µ−X < n

Z x/ σα 2 ) = 1 - α

P ( X - n

Z x/ σα 2 < µ < X + n

Z x/ σα 2 )= 1 - α

Page 79: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 79

Thí dụ:

Giả sử trọng lượng của các học sinh lớp 2 tuân theo phân phối chuẩn với độ lệch chuẩn 1,2kg. Mẫu ngẫu nhiên gồm 25 học sinh có trung bình là 19,8kg. Tìm khoảng tin cậy 95% đối với trọng lượng trung bình của tất cả học sinh lớp 2 trong 1 trường.

Giải:

Ta có: 100 (1 - α) = 95 ⇒ α = 0,05

⇒ Zα/2 =Z0,025

⇒ P(Z > Z0,025) = 0,025

P(Z < Z0,025) = FZ (Z0,025) = 1 - 0,025 = 0,975

Tra bảng ta có: Z0,025 = 1,96

Khoảng tin cậy 95% đối với số trung bình tập chính µ sẽ là

x

Z

nx

Z

nx X− < < +α ασ

µσ/ /2 2

Với X = 19,8 kg σx = 1,2 kg n = 25 Zα/2 = 1,96

Vậy : 19,33 < µ < 20,27

Ghi chú:

ε = n

Z x/ σα 2 : gọi là độ chính xác của ước lượng hay dung sai

X là trung tâm của khoảng tin cậy với bề rộng của khoảng tin cậy của µ là

WZ

nx= =

222α σε/

o W càng nhỏ thì ước lượng càng chính xác ( ≡ ε càng nhỏ)

o Với xác suất α và cỡ mẫu nhỏ, σx càng lớn thì W càng lớn.

o Với α và σx cho trước, n càng lớn thì W càng nhỏ.

o Với σx và n cho trước, (1 - α) càng lớn thì W càng nhỏ

n = 25 σx = 1.2 1-α = 0.99

n = 25

n = 64

n = 25

σx = 1.2

σx = 1.2

σx = 1.2

1-α = 0.95

1-α = 0.95

1-α = 0.95

c) Khoảng tin cậy của số trung bình µ trong tập hợp chính trường hợp cỡ mẫu lớn.

Giả sử ta có mẫu với cỡ mẫu là n được lấy từ tập hợp chính có số trung bình là µ.

Gọi X là số trung bình của mẫu và Sx là phương sai của mẫu.

Page 80: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 80

Nếu n lớn thì khoảng tin cậy với xác suất 100(1-α) % đối với µ được xem đúng là:

xZ S

nx

Z S

nX x− < < +α αµ/ /2 2

Ghi Chú: o Sự ước lượng này gần đúng ngay cả khi tập hợp chính không theo phân phối

chuẩn.

o Khi n lớn ta có thể xem gần đúng Sx = σx

7.3.3 Phân phối Stutent t:

Trong phần trước, ta đi tìm khoảng tin cậy của µ trong N (µ, σx2) khi đã biết σx

2 hoặc tìm khoảng tin cậy của µ khi có mẫu lớn.

Trong trường hợp không biết phương sai σx2 và cỡ mẫu không lớn, để tìm khoảng tin cậy

của µ ta cần phải có một phân phối thích hợp hơn, đó là phân phối Student t.

a) Phân phối Student t

Cho mẫu ngẫu nhiên với cỡ n với số trung bình của mẫu X và độ lệch chuẩn mẫu Sx; mẫu được lấy ra từ tập hợp chính với số trung bình là µ.

Biến ngẫu nhiên :

tx

S nx

=− µ/

t tuân theo phân phối Student t với độ tự do là n - 1

t

0

f(t)Phân phối chuẩn

Phân phối Student tvới độ tự do là 3

Biến ngẫu nhiên X được gọi là tuân theo phân phối Studen t với độ tự do ν nếu hàm mật độ xác định có dạng.

f x

x

Bx ( )

( )

( , )

( )

=+

−+

1

12 2

2 12

ϑ

ϑ ϑ

ϑ

Page 81: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 81

b) Điểm phần trăm giới hạn trên tν,α:

Biến ngẫu nhiên tuân theo phân phối Student t với độ tự do ν, được ký hiệu là tν. tν,α là điểm phần trăm giới hạn trên nếu:

P(tν > tν,α) = α

Người ta lập bảng tính sẳn cho các giá trị diện tích ở dưới đường cong từ tν,α đến +∞

tυ,α0

f(tυ)

Tương tự phần trăm trên ta có:

P(-tν,α/2 < tν < tν,α/2) = 1 - α

tα/2 α/2

tυ,α/20

f(tυ)

−tυ,α/2

7.3.4 Khoảng tin cậy đối với số trung bình µ trong phân phối chuẩn khi chưa biết phương sai:

(Khoảng tin cậy của µ trong N(µ, σx2) khi chưa biết σx

2

Giả sử ta có mẫu ngẫu nhiên với cỡ mẫu n từ phân phối chuẩn với số trung bình là µ và phương sai σx

2 chưa biết. Nếu số trung bình mẫu là X và độ lệch chuẩn mẫu là Sx thì khoảng tin cậy của số trung bình tập hợp chính µ sẽ được tính bởi .

n

Stx

n

Stx x/,nx/,n 2121 α−α− +<µ<−

Trong đó tn-1,α/2 là số có P(tn-1 > tn-1,α/2) = 2α và tn-1 là biến ngẫu nhiên tuân theo phân phối

Student với độ tự do là n - 1

Chứng minh:

Page 82: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 82

P(-tn-1,α/2 < tn-1 < tn-1,α/2) = 1 - α

α−=⎟⎟⎠

⎞⎜⎜⎝

⎛<

µ−<− α−α− 12121 /,n

x/,n t

n/SXtP

α−=⎟⎟⎠

⎞⎜⎜⎝

⎛<µ−<

− α−α− 12121

n

StX

n

StP x/,nx/,n

α−=⎟⎟⎠

⎞⎜⎜⎝

⎛+<µ<− α−α− 12121

n

StX

n

StXP x/,nx/,n

Thí dụ: Mẫu ngẫu nhiên của trọng lượng 6 học sinh lớp 2 có giá trị như sau:

18,6kg 18,4kg 19,2kg 20,8kg 19,4kg 20,5kg

Tìm khoảng tin cậy 90% đối với số trung bình của tất cả học sinh lớp 2. Gỉa sử rằng phân phối trọng lượng của tất cả học sinh lớp 2 là phân phối chuẩn.

Giải:

Trước hết ta phải tìm số trung bình mẫu X và phương sai mẫu Sx

Số trung bình mẫu:

x

nxi= ∑ = =

1 16

116 9 19 4833( . ) .

Phương sai mẫu:

S

nx nxx i

2 2 211

=−

∑ −( )

= 15

2 282 41 6 19 4833 0 962( . , , ) ,− × =

Độ lệch chuẩn: Sx = =0 96 0 98, .

Khoảng tin cậy 90% đối với trọng lượng trung bình của tất cả học sinh lớp 2 là:

xl S

nx

t S

nn x n x− < < +− −1 2 1 2, ,/ /α αµ

X = 19,4833 , Sx = 0,98 , n = 6

i xi xi2

1 18,6 345,962 18,4 338,563 19,2 368,644 20,8 432,645 19,4 376,366 20,5 420,25

Tổng 116,9 2282,4

Page 83: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 83

100 (1-α) = 90 => α = 0,10 => α/2 = 0,05

Tra bảng ta có: tn-1,α/2 = t5,0.05 = 2.015

19 48 2 015 0 0986

19 48 2 015 0 986

18 67 20 29

. . . . . .

. .

−×

< < +×

< <

µ

µ

Các khoảng tin cậy:

(18.89,4) (20.07,4)

(18.67,2) (20.29,2)

(18.45,0) (20.51,0)

(17.87,-2) (21.09,-2

Khoảng tin cậy 99%

Khoảng tin cậy 95%

Khoảng tin cậy 90%

Khoảng tin cậy 80%

7.3.5 Khoảng tin cậy đối với phương sai của phân phối chuẩn σ2

Nhắc lại, giả sử ta có mẫu ngẫu nhiên với cỡ mẫu n được lấy ra từ tập hợp chính có phân phối chuẩn N(µx,sx

2) và gọi Sx2 là phương sai của mẫu.

Biến ngẫu nhiên 2

22,

)1(

x

xSnσ

χ αγ−

= sẽ tuân theo phân phối 2χ với độ tự do n - 1

a) Điểm phần trăm giới hạn trên 2,αγχ

Biến ngẫu nhiên tuân theo phân phối 2χ với độ tự do γ được ký hiệu 2,αγχ

2,αγχ là điểm phần trăm giới hạn trên nếu

P( 2γχ > 2

,αγχ ) = α

( )

α

χ2υ,α Thí dụ: Tìm 2

%5;6χ

Page 84: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 84

P( 26χ > 2

%5;6χ ) = 5% ⇒ 2%5;6χ = 12,59

Tương tự ta có:

⎢⎢⎢⎢

−=<

=>

− 21)(

2)(

22/1,

2

22/,

2

αχχ

αχχ

αγγ

αγγ

P

P

α−=χ<χ<χ αγγα−γ 122

2221 )(P /,/,

t

b) Khoảng tin cậy của phương sai phân phối chuẩn σ2:

Khoảng tin cậy với xác suất 100 (1- α)% của σ2 là

2211

22

221

2 11

/,n

x

/,n

x S)n(S)n(

α−−α− χ−

<σ<χ

Trong đó 221 /,n α−χ là số có P( 2

γχ > 221 /,n α−χ ) = α/2

Trong đó 2211 /,n α−−χ là số có P( 2

γχ > 2211 /,n α−−χ ) = α/2

Và biến ngẫu nhiên 21−χn tuân theo phân phối 2χ với độ tự do là n – 1

Chứng minh :

α−=χ<χ<χ αγγα−γ 122

2221 )(P /,/,

α−=χ<χ<χ α−−α−− 1221

21

2211 )(P /,nn/,n

α−=⎟⎟⎠

⎞⎜⎜⎝

⎛χ<

σ−

<χ α−α−− 11 2

212

22

211 /,nx

x/,n

S)n(P

α−=⎟⎟⎠

⎞⎜⎜⎝

χ−

<σ<χ

α−−α−

111

2211

22

221

2

/,n

xx

/,n

x S)n(S)n(P

Thí dụ : Một mẫu ngẫu nhiên gồm 15 viên thuốc nhức đầu cho thấy độ lệch chuẩn trong thành phần cấu tạo thuốc là 0,8. Tìm khoảng tin cậy 90% của phương sai lô thuốc nói trên (thành phần trong lô thuốc tuân theo phân phối chuẩn)

α/2α/2

-χ2ν,1-α/2 χ2

ν,α/2

Page 85: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 85

Giải :

n = 15, 2xS = 0,82 = 0,64; α = 10%

Tra bảng 221 /,n α−χ = 68,232

%5;14 =χ

Và 2211 /,n α−−χ = 57,62

%95;14 =χ

Vậy: 2211

22

221

2 11

/,n

xx

/,n

x S)n(S)n(

α−−α− χ−

<σ<χ

⇔ 0,378 < 2xσ < 1,364

⇔ 0,61 < xσ < 1,17

7.3.6 Ước lượng khoảng tin cậy của tham số thống kê p trong phân phối nhị thức trong điều kiện cỡ mẫu lớn :

Nhắc lại, gọi f là tỷ số của số lần thành công trong n phép thử độc lập: nXf =

X tuân theo phân phối chuẩn có - số trung bình µ = np

- Phương sai : σ2 = np(1-p)

Ta có : E(f) = p f là ước lượng không chệch của p.

n

)p(pf

−=σ

1

Khi cỡ mẫu đủ lớn thì biến ngẫu nhiên chuẩn hóa Z = m/)p(p

pf−−

1 sẽ gần đúng có phân

phối chuẩn chuẩn hóa :

22 11ff S

n)f(f

n)p(p

=−

≈−

Khi đó biến ngẫu nhiên Z = n/)f(f

pf−−

1 sẽ có phân phối chuẩn chuẩn hóa.

Khi Z tuân theo phân phối chuẩn chuẩn hóa, ta có:

P(-Zα/2 < Z < Zα/2) = 1 - α

α−=⎟⎟⎠

⎞⎜⎜⎝

⎛<

−−

<− αα 11 22 // Z

n/)f(fpfZP

α−=⎟⎟⎠

⎞⎜⎜⎝

⎛ −+<<

−− αα 111

22 n)f(fZfp

n)f(fZfP //

Khoảng tin cậy của p : Gọi f là tỷ số số lần thành công quan sát được trong phép thử được rút từ tập hợp chính có tỷ số số lần thành công là p. Nếu n lớn thì khoảng tin cậy của p là:

Page 86: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 86

n)f(fZfp

n)f(fZf //

−+<<

−− αα

1122

Trong đó Zα/2 là số có P(Z > Zα/2) = α/2 (Z là biến ngẫu nhiên chẩn hóa)

Thí dụ:

Một công ty đi nhận một lô hàng gồm vài ngàn sản phẩm. Người giám định lô hàng lấy ngẫu nhiên 81 sản phẩm và nhận thấy 8 sản phẩm không đạt yêu cầu. Tìm khoảng tin cậy 90% của tỷ lệ số sản phẩm không đạt yêu cầu trong toàn bộ lô hàng.

Giải:

Ta có : α = 10% ⇒ tra bảng Zα/2 = Z5% = 1,645,

099,0818

===nXf và

n)f(f

f−

=σ1 = 0,033

Khoảng tin cậy 90% của p là :

0,099 -1,645*0,033 < p < 0,099 + 1,645*0,033

0,045 < p < 0,153

7.3.7 Ước lượng cỡ mẫu (Estimating the Sample Size)

Trong các phần trước, chúng ta đi tìm các ước lượng khoảng đối với các tham số thống kê θ (µx, σ2

x, p …) của tập hợp chính dựa trên các mẫu cho trước (nghĩa là đã biết cỡ mẫu n). Với cách làm đó, ta có thể gặp những kết quả không mong muốn là bề rộng của khoảng tin cậy w quá lớn, có nghĩa là độ chính xác của các ước lượng nhỏ (vì độ chính xác hay dung sai = w/2 có giá trị lớn).

w = 2ε

εθ −ˆ θ̂ εθ +ˆ

ε nói lên độ chính xác của ước lượng, nếu ε càng nhỏ thì θ̂ càng gần θ.

Trong thực tế thường sai số cho phép ta ấn định độ chính xác ε (có nghĩa là ấn định trước bề rộng khoảng tin cậy w) từ đó tính toán chọn cỡ mẫu đủ lớn để đảm bảo độ chính xác ε.

Để xác định cỡ mẫu ta cần các thông tin sau:

- Định rõ độ tin cậy (1 - α), thường là 90%, 95%, hay 99%.

- Độ chính xác hay sai số cho phép ε hoặc bề rộng khoảng tin cậy w.

- Độ lệch chuẩn.

Cỡ mẫu n lớn hay nhỏ phụ thuộc độ phân tán σ, sai số cho phép ε chứ không phụ thuộc vào kích thước tập hợp chính N.

Page 87: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 87

a. Cỡ mẫu đối với khoảng tin cậy của trung bình µ trong N(µ;σ2) với σ2 biết trước:

- +

w = 2ε

xx

nZ σα 2/ x

nZ σα 2/x

xZ

nx

Z

nx x

− −

− < < +α ασµ

σ/ /2 2

hay : µ = X ± 2ε với ε = n

Z x/ σα 2

Với sai số cho phép ε cho trước, cỡ mẫu n đối với ước lượng µ trong N(µ;σ2) với σ2 biết trước được xác định bởi công thức:

2

222/

εσα xZ

n =

Thí dụ:

Giả sử độ lệch chuẩn của các đường ống thép được sản xuất ra trong ngày ở một phân xưởng là 10 kg. Chúng ta muốn ước lượng trong lượng trung bình µ của các đường ống thép được sản xuất ra trong ngày ở phân xưởng đó với độ chính xác ± 2,5kg và với độ tin cậy 95%. Tìm cỡ mẫu cần thiết cho sự ước lượng nói trên.

Giải:

Ta có: ε = 2,5kg, σ = 10 kg,

α = 5% ⇒ Zα/2 = Z0,025 = 1,96

Vậy: n = 5,615,2

10*96,12

22

=

Cỡ mẫu n = 62 (ống thép).

b. Cỡ mẫu đối với khoảng tin cậy của trung bình µ trong N(µ;σ2) khi chưa biết σ2:

Khoảng tin cậy của trung bình µ trong N(µ;σ2) khi chưa biết σ2:

n

Stx

n

Stx x/,nx/,n 2121 α−α− +<µ<−

⇒ ε = n

St xn 2/,1 α− ⇒ 2

222/,1

εα xn St

n −=

Thí dụ:

Một nhà quản lý công ty may muốn ước lượng khoảng thời gian trung bình để một công nhân hoàn thành một sản phẩm. Cô ta muốn ước lượng µ với sai số ± 5 phút và với độ tin cậy 90%. Bởi vì cô ta chưa có khái niệm gì về giá trị độ lệch chuẩn σ của tập hợp chính,

Page 88: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 88

cô ta lấy mẫu đầu tiên với cỡ mẫu n = 15 công nhân và nhận thấy Sx = 20 phút. Hỏi cỡ mẫu bằng bao nhiêu để đạt được khoảng tin cậy mong muốn.

Giải:

Ta có: ε = 5 phút, Sx = 20 phút,

α = 10% ⇒ tn-1,α/2 = t14;0,05 = 1,761

Vậy: n = 6,495

20*761,12

22

=

Cỡ mẫu n = 50 (công nhân).

Ghi chú: sau khi có n = 50 ta phải tính lặp lại lần thứ 2 với cỡ mẫu n = 50 (nghĩa là tìm Sx và tn-1,α/2 của mẫu mới). Tính lặp nhiều lần ta sẽ được kết quả hội tụ mong muốn.

c. Cỡ mẫu đối với khoảng tin cậy của p trong phân phối nhị thức:

Khoảng tin cậy của p trong phân phối nhị thức

nffZfp

nffZf )1()1(

2/2/−

+<<−

− αα

⇒ ε = n

ffZ )1(2/

−α ⇒ 2

22/ )1(

εα ffZ

n−

=

Thí dụ:

Một kỹ sư kiểm tra chất lượng sản phẩm muốn tỷ lệ phế phẩm trong dây chuyền sản xuất với sai số ± 0,05 và độ tin cậy 95%. Trong lần lấy mẫu đầu tiên với 25 sản phẩm người kỹ sư nhận thấy có 4 phế phẩm. Hỏi cỡ mẫu bằng bao nhiêu để đạt được khoảng tin cậy mong muốn.

Giải:

Ta có: ε = 0,05, n = 25, f = 4/25 = 0,16

α = 5% ⇒ Zα/2 = Z0,025 = 1,96

Vậy: n = 5,20605,0

)16,01(*16,0*96,12

2

=−

Cỡ mẫu n = 207 (sản phẩm).

Ghi chú:

- Sau khi có n = 207 ta phải tính lặp lại lần thứ 2 với cỡ mẫu n = 207 (nghĩa là tìm f của mẫu mới và tính lại n).

- Nếu ban đầu ta chưa biết cỡ mẫu bằng bao nhiêu ta có thể giả sử f = 0,5 để suy ra n và thực hiện các bước lặp như trên. Tính lặp nhiều lần ta sẽ được kết quả hội tụ mong muốn.

Page 89: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 89

Chương 8

KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ (Tests of Hypotheses)

Thông thường đối với tham số θ chưa biết của tập hợp chính ta có thể đưa ra nhiều giả thuyết về θ.

Vấn đề đặt ra là làm thế nào kiểm định được giả thuyết nào thích hợp với các số liệu của mẫu quan sát được (x1, x2, …, xn ).

8.1 NHỮNG KHÁI NIỆM VỀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

8.1.1 Giả thuyết thống kê ( Statistical Hypothesis) Là một giả sử hay một phát biểu có thể đúng, có thể sai liên quan đến tham số của một hay nhiều tập hợp chính.

8.1.2 Giả thuyết không (giả thuyết đơn) và giả thuyết ngược lại (đối thuyết) (Null Hypothesis & Alternative Hypothesis)

Giả thuyết không: là sự giả sử mà ta muốn kiếm định thường được ký hiệu là Ho.

Giả thuyết ngược lại: Việc bác bỏ giả thuyết không sẽ dẫn đến việc chấp nhận giả thuyết ngược lại. Giả thuyết ngược lại thường được ký hiệu là H1.

Ví dụ

Kiếm định giả thuyết Ho: θ ≥ θo có thể θ = θo

Với H1: θ < θo

Kiếm định giả thuyết Ho: θ ≤ θo có thể θ = θo

Với H1: θ > θo

Kiếm định giả thuyết Ho: θ = θo

Với H1: θ ≠ θo

8.1.3 Các loại sai lầm trong việc kiểm định giả thuyết thống kê

Việc kiểm định giả thuyết thống kê có thể phạm phải 2 loại sai lầm

a) Sai lầm loại I (type I error) Là loại sai lầm mà chúng ta phạm phải trong việc bác bỏ giả thuyết Ho khi Ho đúng.

Xác suất của việc bác bỏ Ho khi Ho đúng là xác suất của sai lầm loại I và được ký hiệu là α

α = P ( bác bỏ Ho / Ho đúng) = P(type I error)

α : còn được gọi là mức ý nghĩa ( level of significance)

α = 0,05; 0,01 ; 0,001 …

Page 90: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 90

b) Sai lầm II (type II error) Là loai sai lầm mà chúng ta phạm phải khi không bác bỏ giả thuyết Ho khi Ho sai.

Xác suất của việc không bác bỏ Ho khi Ho sai là xác suất của sai lầm loại II và được ký hiệu là β.

β = P (không bác bỏ Ho /Ho sai) = P(type II error)

Bản chất của Ho Quyết định về

giả thuyết không Ho Ho đúng Ho sai

Không bác bỏ (chấp nhận )

Quyết định đúng Prob = 1- α P (không bác bỏ Ho / Ho) = 1-α

Sai lầm loại II Prob = β

Bác bỏ

Sai lầm loại I Prob = α (α = mức ý nghĩa kiểm định)

Quyết định đúng Prob = 1 - β (1 - β: năng lực kiểm định)

8.1.4 Miền bác bỏ và miền chấp nhận ( Rejection Region & Acceptance Region )

Tất cả các giá trị có thể có của các đại lượng thống kê trong kiểm định có thể chia làm 2 miền: miền bác bỏ và miền chấp nhận.

Miền bác bỏ là miền chứa các giá trị làm cho giả thuyết Ho bị bác bỏ.

Miền chấp nhận là miền chứa các giá trị giúp cho giả thuyết Ho không bị bác bỏ.

Trong thực tế khi Ho không bị bác bỏ cùng nghĩa là nó được chấp nhận.

Giá trị chia đôi hai miền được gọi là giá trị giới hạn (Critical value)

8.1.5 Kiểm định một đầu và kiểm định 2 đầu (one – tailed test & two – tailed test)

a) Kiểm định một đầu

Khi giả thuyết ngược lại H1 có tính chất 1 phía (one – sided) thì việc kiểm định được gọi là kiểm định 1 đầu.

Ho: θ ≤ θo hay Ho: θ ≥ θo H1: θ > θo H1: θ < θo

b) Kiểm định hai đầu:

Khi giả thuyết ngược lại H1 có tính chất 2 phía (two – sided) thì việc kiểm định được gọi là kiểm định 2 đầu.

Ho: θ = θo H1: θ ≠ θo

Page 91: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 91

8.2 CÁC BƯỚC CỦA VIỆC KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ:

Gồm 6 bước:

Bước 1: Thành lập giả thuyết Ho

Ví dụ:

Ho: θ = θo

Ho: θ ≤ θo

Ho: θ ≥ θo

Bước 2: Thành lập giả thuyết H1

Ví dụ:

H1: θ < θo

H1: θ > θo

H1: θ ≠ θo

Bước 3: Xác định mức ý nghĩa α

Bước 4: Chọn các tham số thống kê thích hợp cho việc kiếm định và xác định các miền bác bỏ, miền chấp nhận và giá trị giới hạn.

Bước 5: Tính toán các giá trị của các tham số thống kê trong việc kiểm định dựa trên số hiệu của mẫu ngẫu nhiên.

Bước 6: Ra quyết định: Nếu các giá trị tính toán rơi vào miền bác bỏ Ho thì ra quyết định bác bỏ Ho. Ngược lại sẽ chấp nhận Ho.

8.3 KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH µ CỦA PHÂN PHỐI CHUẨN N(µ,σ2) KHI ĐÃ BIẾT σ2

Cho ( x1, x2 , …, xn) là mẫu ngẫu nhiên cỡ n được lấy từ tập họp chính tuân theo phân phối chuẩn N (µ,σ2 ) trong đó σ2 đã biết.

8.3.1 Trường hợp 1

Ho : µ = µo hay µ ≥ µo

H1 : µ < µo

Không bác bỏ H0

0

Bác bỏ H0

Page 92: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 92

Miền bác bỏ R: Bác bỏ Ho nếu Ztt = n

X/

0

σµ−

< - αZ

8.3.2 Trường hợp 2:

Ho : µ = µo hay µ ≤ µo

H1 : µ > µo

Không bác bỏ H0

0

Bác bỏ H0

α

Miền bác bỏ R: Bác bỏ Ho nếu Ztt = n

X/

0

σµ−

> αZ

8.3.3 Trường hợp 3:

Ho : 0µ=µ

H1 : 0µ≠µ

-Zα/2

Không bác bỏ H0

0

Bác bỏ H0

α/2 α/2

Zα/2

Bác bỏ H0

Miền bác bỏ R: Bác bỏ Ho nếu Ztt < - 2/αZ hoặc Ztt > 2/αZ

Với : Ztt = n

X/

0

σµ−

Thí dụ

Trong một nhà máy bánh kẹo, một máy tự động sản xuất ra các thanh sô cô la với trọng lượng qui định 250g. Biết rằng trọng lượng các thanh sô cô la được sản xuất ra có phân bố chuẩn N(µ,52). Trong một ngày bộ phân kiểm tra kỹ thuật chọn một mẫu ngẫu nhiên gồm 16 thanh sô cô la và tính trọng lượng trung bình của chúng được 244g. Có thể khẳng

Page 93: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 93

định máy tự động sản xuất ra các thanh sô cô la có trọng lượng nhỏ hơn qui định không? Với mức ý nghĩa α=0,05 kiểm định giả thuyết thống kê tương ứng.

Giải

1/ Ho : µ = 250g

2/ H1 : µ < 250g

3/ α = 0,05

4/ == 05,0ZZα 16,45 ⇒ - =αZ -1,645

5/ 8,416/5250246

/0 −=

−=

−=

nX

Ztt σµ

=2σ 52 ⇒ σ = 5

n = 16 X = 244g , 0µ = 250g

6/ Ztt = -4,8 < - 05,0Z = -1,645

Ra quyết định: Bác bỏ giả thuyết Ho ở mức ý nghĩa 5%. Nghĩa là: máy tự động sản xuất sô cô la có trọng lượng nhỏ hơn qui định ⇒ Phải điều chỉnh lại máy

Thí dụ Một máy khoan trong dây chuyền sản xuất dùng để khoan lỗ trên các bản thép. Khi máy khoan hoạt động đúng chức năng thiết kế đường kính các lỗ khoan sẽ tuân theo phân phối chuẩn với số trung bình là 2 inches và độ lệch chuẩn là 0,06 inches. Trong quá trình kiểm tra định kỳ xem máy khoan có hoạt động đúng hay không, người ta lấy đo ngẫu nhiên các lỗ đã khoan. Giả sử độ lệch chuẩn không thay đổi. Mẫu ngẫu nhiên gồm 9 lỗ khoan cho ta đường kính trung bình của mẫu là 1,95 inches.

Kiểm định giả thuyết Ho : số trung bình của tập hợp chính là 2 inches.

Với H1 : số trung bình của tập hợp chính khác 2 inches.

Trong quá trình kiểm định dùn α = 5%

Giải:

1/ Ho : µ = µ0 = 2

2/ H1 : µ ≠ 2

3/ α = 0,05

4/ 96,1025,02/ == ZZα ⇒ - 96,12/ −=αZ

5/ X = 1,95; µ0 =2; σ = 0,06; n = 9

50,29/06,0295,1

/0 −=

−=

−=

nX

Ztt σµ

6/ Ta có : Ztt < - 96,12/ −=αZ

Ra quyết định : Bác bỏ giả thuyết Ho ở mức ý nghĩa 5%. ⇒ Máy hoạt động không đúng chức năng thiết kế.

Page 94: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 94

8.4 KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH µ CỦA PHÂN PHỐI CHUẨN N(µ,σ2) KHI CHƯA BIẾT σ2

Giả sử ta có mẫu ngẫu nhiên cỡ mẫu là n được lấy từ tập hợp chính tuân theo phân phối chuẩn có số trung bình là µ. Gọi X và Sx là số trung bình và độ lệch chuẩn của mẫu, ta sẽ có 3 trường hợp kiểm định µ với mức ý nghĩa α.

8.4.1 Trường hợp 1:

Ho : µ = µo hay µ ≥ µo

H1 : µ < µo

Miền bác bỏ R : Bác bỏ Ho nếu tn-1 < tn-1,α

Với tn-1= n

X

x /0

σµ−

, tn-1 tuân theo phân phối Student t với độ tự do n-1

8.4.2 Trường hợp 2:

Ho : µ = µo hay µ ≤ µo

H1 : µ > µo

Miền bác bỏ R: Bác bỏ Ho nếu tn-1 > tn-1,α

8.4.3 Trường hợp 3:

Ho : 0µ=µ

H1 : 0µ≠µ

Miền bác bỏ R: Bác bỏ Ho nếu tn-1 > tn-1,α/2

Hay tn-1 < - tn-1,α/2

t*n-1,α

Không bác bỏ H0 Bác bỏ H0

α

t*n-1,α

Không bác bỏ H0Bác bỏ H0

α

t*n-1,α/2

Không bác bỏ H0Bác bỏ H0 Bác bỏ H0

-t*n-1,α/2

α/2 α/2

Page 95: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 95

Thí dụ

Nhà quản lý các cửa hàng bán lẻ nhận thấy rằng số lượng hàng bán ra trung bình trong tháng 12 cao hơn 20% so với tháng 11. Theo dõi sổ sách của sáu cửa hàng (được chọn một cách ngẫu nhiên) nhà quản lý nhận thấy phần trăm độ tăng trung bình của lượng hàng bán ra tại 6 cửa hàng trong tháng 12 như sau:

19,2%; 18,4%; 19,8%; 20,2%; 20,4% và 19,0%

Giả sử phần trăm độ tăng trung bình của lượng hàng bán ra tại tất cả các cửa hàng trong hệ thống bán lẻ tuân theo phân phối chuẩn

Kiểm định giả thuyết rằng phần trăm độ tăng trung bình của lượng hàng bán ra trong tháng 12 là 20% so với tháng 11 với α = 10%

Giải:

Giả thuyết: Ho : µ = µ0 = 20

H1 : µ ≠ 20

Ta có: α = 10% tn-1, α/2 = t5, 0.05 = 2,015

-tn-1, α/2 = -t5 , 0.05 = -2,015

Xác định X và Sx

5,196

117n

X ix ==∑

=

Sx2 = 0,588 ⇒ Sx = 588,0 = 0,767

tn-1 =nS

x

x /0µ−

= 597,16/767,0

205,19−=

Ra quyết định: tn-1, α/2 < tn-1 < tn-1, α/2

-2,015 < -1,597 < 2,015

⇒ Chấp nhận giả thuyết Ho (Những dữ kiện từ mẫu không đủ mạnh để bác bỏ Ho)

8.5 KIỂM ĐỊNH PHƯƠNG SAI CỦA PHÂN PHỐI CHUẨN N(µ,σ2)

Giả sử ta có mẫu ngẫu nhiên cỡ mẫu là n được lấy ra từ tập hợp chính tuân theo phân phối chuẩn có phương sai là σ2 . Gọi S2

x là phương sai của mẫu, ta sẽ có 3 trường hợp kiểm định σ2 với mức ý nhĩa là α

8.5.1 Trường hợp 1:

Ho : σ2 = σ02 hay Ho : σ2 ≥ σ0

2

H1 : σ2 < σ02

R : Bác bỏ Ho nếu χ2n-1 < χ2

n-1,1-α

Với 20

22

1)1(

σχ x

nSn −

=− χ2n-1 tuân theo phân phối X2 với độ tự do n-1.

Page 96: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 96

8.5.2 Trường hợp 2:

Ho : σ2 = σ02 hay Ho : σ2 ≤ σ0

2

H1 : σ2 > σ02

R : Bác bỏ Ho nếu χ2n-1 > χ2

n-1,α

8.5.3 Trường hợp 3:

Ho : σ2 = σ02

H1 : σ2 ≠ σ02

R : Bác bỏ Ho nếu χ2n-1 > χ2

n-1,α/2 hay χ2n-1 < χ2

n-1,1-α/2

Thí dụ

Để thỏa mãn tiêu chuẩn đã được ấn định trong hợp đồng là phương sai của hàm lượng chất bẩn trong các lò hàng hoá chất không được vượt quá 4%. Lấy ngẫu nhiên 20 lô hàng ta có phương sai của hàm lượng chất bẩn trong các lô hàng mẫu là 5,62%.

Kiểm định giả thuyết phương sai của hàm lượng chất bẩn trong tất cả các lô hàng không quá 4% với α =10%. Giả sử rằng tập hợp chính tuân theo phân phối chuẩn.

Giải:

Giả thuyết: Ho : σ2 ≤ σ02 = 4

H1 : σ2 > 4

R : Bác bỏ Ho nếu χ2n-1 >

Ta có: α = 0,1, n = 20 → χ2n-1,α = χ2

19,0,1 = 27,20

S2x = 5,62, n = 20, σ2

0 =4

χ2n-1 = 695,26

462,5*19)1(

20

2

==−σ

σ xn

Ra quyết định: Vì χ2n-1 =26,695 < χ2

n-1,α =27,20

⇒ Không bác bỏ Ho tại mức α =10%

8.6 KIỂM ĐỊNH GIÁ TRỊ TỶ SỐ P CỦA TẬP HỢP CHÍNH TRONG ĐIỀU KIỆN CỠ MẪU LỚN:

Gọi P là tỉ số của số lần thành công trong tập hợp chính

f là tỉ số của số lần thành công trong n phép thử

Khi cỡ mẫu n lớn, thì biến ngẫu nhiên chuẩn hóa n/)p1(p

pf−−

=∑ sẽ gần đúng có phân

phối chuẩn hóa.

Ta có 3 trường hợp p với mức ý nghĩa α.

Page 97: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 97

8.6.1 Trường hợp 1:

Ho : P = P0 hay Ho : P ≥ P0

H1 : P < P0

R : Bác bỏ Ho nếu Ztt < - Zα

Với npp

pfZ/)1( −

−= , Z ∼ N (0,1)

8.6.2 Trường hợp 2:

Ho : P = P0 hay Ho : P ≤ P0

H1 : P > P0

R : Bác bỏ Ho nếu Z > Zα

8.6.3 Trường hợp 3:

Ho : P = P0

H1 : P ≠ P0

R : Bác bỏ Ho nếu Z > Zα/2 Hay Z < -Zα/2

Thí dụ

Lấy ý kiến 199 giảng viên về việc day học theo lối tín chỉ thì có 104 giảng viên đồng ý. Kiếm định với mức về giả thuyết cho rằng có một nửa số giảng viên trong trường Bách khoa đồng ý dạy theo lối tín chỉ.

Giải

Gọi P là tỉ lệ số giảng viên trường Đại học Bách Khoa đồng ý dạy theo lối tín chỉ

Giả thuyết: Ho : P = Po =0,5

H1 : P ≠ 0,5

Zα/2 = Z0,05 = 1,645 vì α = 10%

-Zα/2 = -Z0,05 = -1,645

n =199, Po = 0,5 ⇒ f = 523,0199104

=

65,0199/50,0*50,0

50,0523,0/)1( 00

0 =−

=−

−=

npppf

Z

Ra quyết định: -Zα/2 < Z < Zα/2

-1,645 < 0,65 < 1,645

⇒ Không bác bỏ Ho

Page 98: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 98

Thí dụ

Cũng ví dụ trên, kiếm định giả thuyết số giảng viên đồng ý hơn hoặc bằng một nửa số giảng viên trong trường.

Giải:

Giả thuyết: Ho : P ≥ Po = 0,5

H1 : P < 0,5

Zα = Z0,1 = 1,28 ⇒ -Zα = -1,28

Ra quyết định: Z = 0,65 > -Zα = 1,28 ⇒ Không bác bỏ Ho.

8.7 KIỂM ĐỊNH GIẢ THUYẾT VỀ QUY LUẬT PHÂN PHỐI LÝ THUYẾT

8.7.1 Kiểm định tính phù hợp (A Goddness-of-Fit Test)

Giả sử ta có mẫu ngẫu nhiên với cỡ mẫu là n. Mỗi giá trị quan sát của mẫu ngẫu nhiên có thể xếp vào 1 trong K lớp. Gọi số phần tư của lớp thứ i là Oi với i = 1,2, …,K.

Trong việc kiểm định tính phù hợp ta có:

Ho : Xác suất để cho các giá trị quan sát rơi vào lớp thứ i = Pi (i =1,2, … k)

H1 : Xác suất để cho các giá trị quan sát rơi vào lớp thứ i ≠ Pi

R : Bác bỏ Ho nếu χ2k-1 > χ2

k-1,α

Với : i

iik

ik E

EO 2

1

21

)( −= ∑

=−χ

Ei : Kỳ vọng của số phần tử trong lớp thứ i. Với giả thuyết Ho ta có:

Ei = n*Pi

χ2k-1 tuân theo phân phối χ2 với độ tự do là k-1.

Ví dụ

Một công ty chất đốt dựa vào kinh nghiệm trong quá khứ cho rằng đến cuối mùa đông sẽ có 80% lượng khách hàng trả đầy đủ tiền ngay 10% trả chậm 1 tháng, 6% trả chậm 2 tháng và 4% trả châm hơn 2 tháng. Đến cuối mùa đông để kiểm định lại điều này, Cty lấy ngẫu nhiên mẫu gồm 400 khách hàng và nhận thấy có 287 khách hàng trả ngay, 49 trả chậm 1 tháng, 30 trả chậm 2 tháng và 34 trả chậm hơn 2 tháng. Hỏi những kinh nhiệm trong quá khứ có thể áp dựng cho mùa đông năm nay không? Kiểm định với mức ý nghĩa 5%.

Giải

Ho : Xác suất lượng khách hàng trả tiền ở mùa đông hiện tại phù hợp với các số liệu trong quá khứ. Nghĩa là xác suất tương ứng với 4 loại khách hàng là:

P1 = 0,8, P2 = 0,1, P3 = 0,06, P4 = 0,04

H1 : P1 ≠ 0,8, P2 ≠ 0,1, P3 ≠ 0,06, P4 ≠ 0,04

α = 0,05 , k = 4 ⇒ χ2k-1,α = χ2

3,0,05 = 7,81

Page 99: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 99

Dưới giả thuyết Ho, kỳ vọng số khách hàng trong mỗi loại từ tổng số 400 khách hàng:

E1 = 400 * 0,8 = 320

E2 = 400 * 0,1 = 40

E3 = 400 * 0,06 = 24

E4 = 400 * 0,04 = 16

Ta có:

Số tháng trả chậm 0 1 2 > 2 Tổng

Số khách hàng dựa vào mẫu quan sát Oi

287 49 30 34 400

Xác suất Pi 0,8 0,1 0,06 0,04 1

Kỳ vọng của số khách hàng trong mỗi loại Ei

320 40 24 16 400

χ2k-1 =

i

2ii

4

1i E)EO( −∑

=

=16

)1634(24

)2430(40

)4049(320

)320287( 2222 −+

−+

−+

χ2k-1 =227,187

Ra quyết định: Vì χ2k-1 > χ2

k-1,α

⇒ Bác bỏ Ho. Nghĩa là không thể áp dụng kinh nghiệm trong quá khứ vào năm nay. Số lượng khách hàng trả chậm trong năm nay nhiều hơn các năm trước.

8.7.2 Kiểm định giả thuyết về qui luật phân phối lý thuyết

Trong việc kiểm định giả thuyết tính phù hợp của số liệu quan sát với qui luật phân phối lý thuyết ta có:

Ho : Số liệu quan sát tuân theo qui luật phân phối lý thuyết

H1 : Số liệu quan sát không tuân theo qui luật phân phối lý thuyết

Cách tìm miền bác bỏ R bằng kiểm định χ2

Chia n số liệu quan sát ra làm K khoảng

Gọi Oi là số phần tử của mẫu quan sát nằm trong khoảng i (i=1,2, …, K)

Gọi Ei là kỳ vọng của số phần tư nằm trong khoảng i (Ei được tính dựa vào qui luật phân phối lý thuyết)

Ei = n . Pi Pi = xác suất để cho các phần tử nằm trong khoảng i

Tính χ2

χ2k-1 =

i

2ii

4

1i E)EO( −∑

=

χ2 gần đúng tuân theo phân phối Chi Squared với độ tự do là ν, ν = k -r -1

r : số tham số cần phải ước lượng .

Page 100: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 100

Với phân phối chuẩn r = 2

Với phân phối Poisson r = 1

Tìm miền bác bỏ R

Nếu χ2 > χ2ν,α ta bác bỏ giả thuyết Ho. Nghĩa là số liệu quan sát không tuân theo qui luật

phân phối lý thuyết đã định → Đi tìm qui luật phân phối lý thuyết khác.

Ví dụ : Kiểm định phân phối chuẩn

Để đo lường chất lượng của 1 lô sản phẩm, người ta lấy ra đo 200 chi tiết và cho kết quả như sau:

Các lớp Số chi tiết quan sát được Oi

54,795 54,80 54,805 54,805 54,81 54,815 54,815 54,82 54,825 54,825 54,83 54,835 54,835 54,84 54,845 54,845 54,85 54,855 54,855 54,86 54,865 54,865 54,87 54,875

6 14 33 47 45 33 15 7

n = 200

Vấn đề đặt ra là các số liệu quan sát được có tuân theo phân phối chuẩn không?

Giải:

Giả thuyết: Ho : Các số liệu quan sát tuân theo phân phối chuẩn

H1 : Các số liệu quan sát không tuân theo phân phối chuẩn

Tính Ei

Ei = n * pI

Với Pi = P(xi < x < xi+1) = ⎟⎠⎞

⎜⎝⎛ −

<<− +

σµ

σµ 1ii x

Zx

P

Ở đây lấy 835,54== Xµ (số trung bình của mẫu)

σ = Sx = 0,016 (độ lệch của mẫu)

Ví dụ: Tính P1 , E1

P1 = P (54,795 < X < 54,805) = P (016,0

835,54805,54016,0

835,54795,54 −<<

− Z )

= P (-2,5 < Z <-1,88)

= 0,4938 – 0,4699

P1= 0,0239 ⇒ E1 = n P1 = 200 * 0,0239 =4,78

Tính tương tự cho các lớp khác ta có

Page 101: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 101

Các lớp Kỳ vọng của số phần tử nằm trong lớp i Ei

(- ∞

54,795

54,805

54,815

54,825

54,835

54,845

54,855

54,865

(54,865

-

-

-

-

-

-

-

-

-

-

54,805)

54,805

54,815

54,825

54,835

54,845

54,855

54,865

54,875

+ ∞ )

4,78

6,02

14,74

31,46

46,18

46,74

32,52

15,76

6,58

5,20

Tổng n ≈ 200 n = 200 (n = 197,38)

Tính X2:

Oi Ei (Oi – Ei) (Oi –Ei)2

i

2iii

E)EO( −

6

14

33

47

45

33

15

7

6,02

14,74

31,46

46,18

46,74

32,52

15,76

6,58

-0,02

-0,74

1,54

0,82

-1,74

0,48

-0,76

0,42

0,0004

0,5476

2,3716

0,6724

3,0276

0,2304

0,5776

0,1764

≈ 0

0,037

0,075

0,014

0,069

0,007

0,036

0,027

n = 20 n = 200 X2 = 0,265

Tính χ2γ,α :

γ = K – r –1 = 8 –2 – 1

Số lớp K = 8; r = 2 (phân phối chuẩn)

α = 0,05

Tra bảng χ25,0,05 = 11,0706

6/ Ra quyết định : Vì χ2 = 0,265 < χ25,0,05 = 11,0706

⇒ Không bác bỏ Ho

⇒ Số liệu quan sát tuân theo phân phối chuẩn .

Page 102: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 102

8.8 BẢNG DỮ KIỆN NGẪU NHIÊN (Contingency Tables)

8.8.1 Bảng dữ kiện ngẫu nhiên 2 chiều (Two Way Contingency Tables)

Nếu các dữ kiện của biến ngẫu nhiên được xếp loại theo 2 tiêu chuẩn thì các dữ kiên sẽ được trình bày trong bảng gồm hàng và cột gọi là bảng dữ kiện ngẫu nhiên 2 chiều. Tổng quát, bảng ngẫu nhiên 2 chiều gồm r hàng và c cột được trình bày như sau:

1 2 3 … c1 O11 O11 O11 … O1c R1

2 O21 O21 O21 … O2c R2

3 O31 O31 O31 … O3c R3

… … … … … … …r Or1 Or2 Or3 … Orc RC

CộtHàng Tổng theo hàng

Tổng theo cột

C1 C2 C3 … C5

Ký hiệu:

Oij : Số dữ kiện quan sát ở hàng i, cột j

R : Tổng các dữ kiện quan sát ở hàng i

Cj : Tổng các dữ kiện quan sát ở cột j

n : Cỡ mẫu n = ∑ Ri = ∑ Cj

8.8.2 Kiểm định giả thuyết về tính độc lập giữa 2 thuộc tính của tập hợp chính

Trong việc kiểm định giả thuyết về tính độc lập giữa 2 thuộc tính của tập họp chính ta có:

Ho : Các tiêu chuẩn được phân loại theo hàng và theo cột độc lập với nhau.

H1 : Các tiêu chuẩn đựợc phân loại theo hàng và theo cột phụ thuộc nhau

R : Bác bỏ giả thuyết Ho nếu X2 ≥ X2α,γ

ij

ijji

ji EEO 2

,

,

2 )( −= ∑χ

Eij : là kỳ vọng của phần tử ở hàng i, cột j

nCR

E jiij =

Eij = Pij * n = PI * Pj * n

= n*n

C*

nR ji =

nCR ji

χ2 : tuân theo phân phối Chi – squared với độ tự do là ν

Page 103: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 103

ν = (r -1)(C –1)

Ví dụ

Để đánh giá hiệu quả làm tăng chất lượng của một biện pháp công nghệ mới trên một dây chuyền sản xuất người ta thu thập được các số liệu sau:

Chất lượng

Công nghệ Phế phẩm (cái) Chính phẩm (cái) Tổng số (cái)

Sau khi thay đổi công nghệ 8 192 200

Trước khi thay đổi công nghệ 92 708 800

Tổng số 100 900 1000

Vấn đề đặt ra là việc áp dụng công nghệ mới và chất lượng có liên quan hay không ? (Với α =0,05)

Giải:

1/ Ho : Công nghệ mới độc lập với chất lượng

2/ H1 : Chất lượng phụ thuộc công nghệ mới

3/ Tính Eij:

• Tỉ lệ phế phẩm 101000100

= %

• Tỉ lệ chính phẩm 90100900

= %

Chất lượng

Công nghệ Phế phẩm (cái) Chính phẩm (cái) Tổng số (cái)

Sau khi thay đổi công nghệ 200 *

10010 = 20 200 *

10090 = 180

200

Trước khi thay đổi công nghệ 800 *

10010 = 80 800 *

10090 = 720

800

Tổng số 100 900 1000

Tính X2:

X2 = ij

2ijj,i

j,i E)EO( −

∑ = ( ) ( ) ( ) ( )720

720708180

18019280

809220208 2222 −

+−

+−

+−

2χ = 10

Tính 2,αυχ

α = 0,05 ν = (r-1)(c-1) = 1

Tra bảng χ21;0,05 = 3,84

Page 104: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 104

Ra quyết định: χ2 > χ21;0,05 ⇒ Bác bỏ giả thuyết H0. Nghĩa là việc áp dụng công nghệ mới

đã làm tăng chất lượng sản phẩm.

Page 105: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 1

CHƯƠNG 9

TƯƠNG QUAN & HỒI QUI TUYẾN TÍNH (Linear Correlation and Regression)

7.1. KHÁI NIỆM CHUNG Trong các chương trước chúng ta chỉ nghiên cứu các vấn đề liên quan đến mẫu ngẫu nhiên của một biến ngẫu nhiên X. Trong chương này, chúng ta quan tâm đến mẫu ngẫu nhiên bao gồm các cặp giá trị của hai biến ngẫu nhiên X và Y.

Ví dụ Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong một trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều cao và cân nặng của n học sinh. Gọi X là biến ngẫu nhiên để đo chiều cao của học sinh và Y là biến ngẫu nhiên chỉ cân nặng của học sinh. Với n học sinh ta có n cặp giá trị (Yi , Xi).

X(m) x1 x2 x3 ..... xi ....... xn

Y(kg) y1 y2 y3 .......... yi .......... yn

Mục tiêu của chương này là nghiên cứu sự liên hệ giữa biến Y và X bằng sự phân tích tương quan và hồi qui. Trong phân tích tương quan người ta đề cập đến cường độ của mối quan hệ giữa hai biến Y và X, đánh giá xem hai biến Y và X có quan hệ với nhau hay không.

Trong phân tích hồi qui người ta lại xác định quan hệ giữa hai biến Y và X dưới dạng phương trình toán học, từ đó ta có thể dự đoán được biến Y (biến phụ thuộc, dependent variable) dựa vào biến X (biến độc lập, independent variable)

Trong chương này, chúng ta cũng giới hạn chỉ nghiên cứu tương quan và hồi qui đơn biến và tuyến tính, nghĩa là chỉ nghiên cứu trường hợp biến Y chỉ phụ thuộc vào 1 biến X và dạng phương trình hồi qui là phương trình đường thẳng (khác với các tương quan và hồi qui bội và phi tuyến).

7.2. TƯƠNG QUAN TUYẾN TÍNH (Linear Correlation)

7.2.1. Đồ thị phân tán (Scatter Diagram)

Đồ thị phân tán của biến Y đối với biến X là tập hợp các điểm M(xi , yi) trong hệ tọa độ vuông góc.

Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2 biến Y và X.

Y

X X

Y

X

Y

(D)

Page 106: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 2

7.2.2. Tương quan tuyến tính (Linear Correlation)

Trong đồ thị phân tán, nếu các điểm M(xi , yi) qui tụ xung quanh một đường thẳng (D) ta nói hai biến ngẫu Y và X có một sự tương quan tuyến tính. Đường thẳng (D) được gọi là đường hồi qui tuyến tính (đường hòa hợp thẳng).

7.2.3. Hệ số tương quan ρ của tập hợp chính (The Population Correlation Coefficient)

Gọi X, Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là µx , µy và phương sai là σ x

2 , σ y2 . Để đo lường mức độ quan hệ giữa X và Y người ta dùng đại lượng hiệp tương

quan (covariance) và hệ số tương quan (correlation coefficent).

7.2.3.1. Hiệp tương quan (Covariance)

σX,Y = Cov(X,Y) = E [(x - µx)(y - µy)]

σµ µ

xy

i x i yi

N

Cov X Yx y

N= =

− −=∑

( , )( )( )

1

7.2.3.2. Hệ số tương quan của tập hợp chính

ρσ σ

= =Corr X Y Cov X Y

x y( , ) ( , )

ρσ

σ σ= xy

x y Với

N

y

N

x

N

iii

y

N

ix

x

=

=

−=

−=

1

2

2

1

21

2

)(

)(

µσ

µσ

hay

ρµ µ

µ µ=

− −

− −

E X Y

E X E Y

x y

x y

[( )( )]

[( ) ] * [( ) ]2 2

ρµ µ

µ µ

=− −

− −

==

∑∑

( )( )

( ) * ( )

x y

x y

x i yi

N

i x i yi

N

i

N

11

2 2

11

Page 107: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 3

Tính chất

- 1 ≤ ρ ≤ 1

� ρ = + 1 : X, Y tương quan tuyến tính dương tuyệt đối

� ρ = - 1 : X, Y tương quan tuyến tính âm tuyệt đối

• ρ = 0 : X, Y không tương quan tuyến tính.

7.2.4. Hệ số tương quan r của mẫu 7.2.4.1. Hiệp tương quan của mẫu (Sample Covariance)

1n

yyxxYXCovS

in

1ii

YX −

−−∑== =

∧ ))((),(,

7.2.4.2. Hệ số tương quan của mẫu r (Sample Correlation Coefficient)

rS

S SXY

X Y=

rx x y y

x x y y

ii

n

i

ii

n

ii

n=

− −

− −

=

= =

∑ ∑

( )( )

( ) * ( )

1

1

2

1

2

hay

rx y nx y

x nx y ny

i ii

n

ii

n

ii

n=

−⎛

⎝⎜⎜

⎠⎟⎟ −⎛

⎝⎜⎜

⎠⎟⎟

=

= =

∑ ∑

1

2

1

22

1

2

.

Ghi Chú

� -1 ≤ r ≤ 1

� r được dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa X,Y.

⏐r⏐ > 0,8 tương quan mạnh

⏐r⏐ = 0,4 - 0,8 tương quan trung bình

⏐r⏐ < 0,4 tương quan yếu

⏐r⏐ càng lớn thì tương quan giữa X và Y càng chặt

r > 0 hướng TN - ĐB, r < 0 hướng TB - ĐN

0 < r ≤ 1 : gọi là tương quan tuyến tính thuận (X↑, Y↑)

-1 ≤ r ≤ 0 : gọi là tương quan tuyến tính nghịch (X↑, Y↓)

� r là ước lượng của ρ

Page 108: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 4

Ví dụ Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng tương quan sau:

X 0 1 2 3 4

Y 6 7 8 9 4

Giải Số phần tử của mẫu n = 5

xi yi (xi - x ) (yi - y ) (xi - x )2 (yi - y )2 (xi - x )(yi- y )

0

1

2

3

4

6

5

7

8

4

-2

-1

0

1

2

0

-1

1

2

-2

4

1

0

1

4

0

1

1

4

4

0

1

0

2

-4

10 30 10 10 -1

x = =105

2 y = =305

6 n = 5

1,01010

1

)()(

)()(

25

1

25

1

5

1 −=×−

=

−×−

−⋅−=

∑∑

==

=

ii

ii

ii

i

yyxx

yyxxr

r = -0,1 tương quan yếu.

7.2.5. Kiểm định giả thuyết về ρ

Nếu chúng ta muốn kiểm định giả thuyết cho rằng các biến không có tương quan tuyến tính thì ta phải kiểm định giả thuyết H0: ρ = 0. Ta có 3 trường hợp:

Page 109: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 5

Trường hợp 1

H0 : ρ = 0

H1 : ρ ≠ 0

R : bác bỏ H0 nếu tn-2 < - tn - 2, α/2

hay tn-2 > tn-2,a/2

Với )/()( 2nr1

rt22n

−−=−

r: hệ số tương quan của mẫu

n: cỡ mẫu

tn-2: tuân theo phân phối Student t với độ tự do n-2

Trường hợp 2

H0 : ρ = 0

H1 : ρ > 0

R : bác bỏ H0 nếu tn-2 > - tn - 2, α

Trường hợp 3

H0 : ρ = 0

H1 : ρ < 0

R : bác bỏ H0 nếu tn-2 < - tn - 2, α

Ví dụ Lấy mẫu ngẫu nhiên 2 biến X và Y ta có các giá trị (xi, yi) cho bởi bảng sau:

X 13 18 9 25 36 19

Y 70 55 100 40 15 20

a) Tìm hệ số tương quan giữa 2 biến X, Y

b) Kiểm định giả thuyết cho rằng biến giữa X và Y không tương quan, với α = 0.05

Giải a) Tính r yI xi yx

2 xi2 xiyi

70 55

100 40 15 20

13189

253619

49003025

100001600225400

169 324 81

625 1296 361

910991900

1000540380

Tổng 300 120 20150 2856 4720

Page 110: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 6

( )

( )

( ) 2565/128050*20*6472051

11

10305/515050*62015051

11

2,915/45620*6285651

11

206

120

506

300

6

1

226

1

22

226

1

22

−=−=−=⎟⎠

⎞⎜⎝

⎛⋅−

−=

==−=⎟⎠

⎞⎜⎝

⎛−

−=

==−=⎟⎠

⎞⎜⎝

⎛−

−=

===

===

=

=

=

yxnyxn

S

ynyn

S

xnxn

S

nx

x

ny

y

iiiXY

iiy

iiX

i

i

Hệ số tương quan:

835,01030*2,91

256−=

−==

YX

XY

SSSr tương quan mạnh

b) Kiểm định giả thuyết:

1. H0 : ρ = 0

2. H1 : ρ ≠ 0

3. α = 0,05 => α/2 = 0,025

n = 6 => n - 2 = 4

tn -2, α/2 = t4, 0,025 = 2,776

- tn - 2 , α/2 = -2,776

4, r = -0,835

4/])835,0(1[

835,0)2/()1( 222

−−

−=

−−−

nrrtn

tn -2 = - 3,03

5. Ra quyết định

tn - 2 = - 3,03 < - tn -2, α/2 = -2,776

=> Bác bỏ H0.

Giữa 2 biến Y và X có tương quan nghịch.

7.3. HỒI QUI TUYẾN TÍNH ĐƠN GIẢN (Simple Linear Regression)

7.3.1 Khái niệm cơ bản về hồi qui tuyến tính đơn giản 7.3.1.1. Mô hình hồi qui tuyến tính đơn giản (Simple Linear Regression Model)

Để mô hình hóa quan hệ tuyến tính trong đó diễn tả sự thay đổi của biến Y theo biến X cho trước người ta sử dụng mô hình hồi qui tuyến tính đơn giản.

Mô hình hồi qui tuyến tính đơn giản có dạng sau:

Yi = A + BXi + ei (mô hình hồi qui tuyến đơn giản Y theo X)

� Yi : Giá trị của biến phụ thuộc Y trong lần quan sát thứ i.

Page 111: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 7

� Xi : Giá trị của biến độc lập X trong lần quan sát thứ i .

� ei : Giá trị đối với sự dao động ngẫu nhiên hay sai số trong lần quan sát thứ i.

� A : là thông số diễn tả tung độ gốc của đường hồi qui của tập hợp chính, hay A là giá trị trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vị.

� B : là thông số diễn tả độ dốc của đường hồi qui của tập hợp chính, hay B diễn tả sự thay đổi của giá trị trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vị.

7.3.1.2. Phương trình hồi qui tuyến tính đơn giản của tập hợp chính (Population Simple Linear Regression Equation)

Là phương trình diễn tả giá trị trung bình của biến phụ thuộc Y theo biến độc lập X đã biết.

µY/ X = A + BX

7.3.1.3. Phương trình hồi qui tuyến tính đơn giản của mẫu Chúng ta có thể ước lượng các tham số (A,B) của phương trình hồi qui tuyến tính đơn giản của tập hợp chính bằng cách sử dụng số liệu của mẫu ngẫu nhiên thu thập được. Dựa vào số liệu của mẫu ta có phương trình hồi qui tuyến tính đơn giản của mẫu.

Y∧

= a + bX

Trong đó:

� Y∧

là ước lượng của giá trị trung bình của Y đối với biến X đã biết

� a: là ước lượng của A

� b là ước lượng của B

Ghi chú � Phương trình hồi qui của Y theo X khác phương trình hồi qui của X theo Y

� Nếu X đổi mà Y không đổi => Y và X không có tương quan

Page 112: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 8

Y

X

Dựa vào phương trình hồi qui ta có thể tự đoán Y khi biết X

7.3.2. Xác định dốc và tung độ gốc của đường hồi qui tuyến tính

Dựa vào số hiệu của mẫu ta có phương trình hồi qui của Y theo X có dạng:

Y∧

= a + bX

Trong thống kê, để xác định tung độ gốc a và độ dốc b người ta thường sử dụng phương pháp bình phương tối thiểu (least squared method)

( )e Y Y Y a bXi

n

ii i

i

n

ii

n∧

=

= =∑ ∑ ∑= − = − −

1

2

1

2

1

2

( )

Trong phương pháp bình phương tối thiểu ta có:

Min eii

n ∧

=∑

2

1

Để tìm cực tiểu ta cần giải hệ phương trình:

( )∂

∂∂

aY a bX

bY a bX

i ii

n

ii

n

i

− − =

− − =

=

=

2

1

1

2

0

0( )

Giải hệ phương trình ta có:

Y

b

1

Y∧

i

Yi êi = Yi - Y∧

i

a

Xi X

Page 113: Giáo Trình Xác Suất Thống Kê

Cao Haøo Thi 9

( )( )

( )b

x x y y

x x

x y nxy

x nx

a y bx

i ii

n

ii

n

i ii

n

ia

i

n=

− −

−=

= −

=

=

=

=

1

2

1

1

1

2

Người ta chứng minh được rằng a, b là những ước lượng không chệch và vững của A,B.

Đường thẳng Y∧

= a + bX được gọi là đường hồi qui thực nghiệm

Đường thẳng Y∧

= A + BX được gọi là đường hồi qui lý thuyết

Ví dụ Tìm đường hồi qui thực nghiệm của y theo x cho bời bảng tương quan sau:

xi 1 2 3 4 5

yi 2 5 4 3 6

Giải Gọi phương trình đường hồi qui là y = a + bx => xác định a, b. xi yi xì

2 xiyi

1

2

3

4

5

2

5

4

3

6

1

4

9

16

25

2

10

12

12

30

Tổng 15 20 55 66

n = 2 x = =155

3 y = =205

4

2,23*6,04

6,0106

3*5554*3*566

22

1

2

5

1

=−=−=

==−−

=−

−=

=

=

xbya

xnx

yxnyxb n

ii

iii

Phương trình đường hồi qui thực nghiệm là

y = 0,6x + 2,2

Page 114: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 1

Chương 10 PHÂN TÍCH CHUỖI TUẦN TỰ THEO THỜI GIAN VÀ DỰ

BÁO ( Time seties Analysis and Forecoasting)

8.1 Chuỗi tuần tự theo thời gian ( Time series)

8.1.1 Định nghĩa: - Chuỗi tuần tự theo thời gian là một chuỗi các gía trị của một đại lượng nào đó

được ghi nhận tuần tự theo thời gian. Ví dụ: • Số lượng hàng bán được trong 12 tháng của một công ty. - Các gía trị của chuỗi tuần tự theo thời gian của đại lượng X được ký hiệu X1,

X2, ………, Xt, …. Xn, với Xt, là gía trị quan sát của X ở thời điểm t.

8.1.2 Các thành phần của chuỗi tuần tự theo thời gian: (Components of time series)

Các nhà thống kê thường chia chuỗi tuần tự theo thời gian ra làm 4 thành phần: - Thành phần xu hướng dài hạn (long-term trend component) - Thành phần mùa (Seasonal component) - Thành phần chu kỳ (Cyclical component) - Thành phần bất thường (irregular component)

8.1.2.1 Thành phần xu hướng dài hạn: Thành phần này dùng để chỉ xu hướng tăng giảm của đại lượng X trong khoảng thời gian dài. Về mặt đồ thị thành phần này có thể diễn tả bằng một đường thẳng hay bằng một đường cong tròn (Smooth curve)

8.1.2.2 Thành phần mùa: Thành phần này chỉ sự thay đổi của đại lượng X theo các mùa trong năm (có thể theo các tháng trong năm)

t

Xt

X

t

Xu hướng giảm theo thời gian

Page 115: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 2

Ví dụ: - Lượng tiêu thụ chất đốt sẽ tăng vào mùa đông và sẽ giảm vào mùa hè. Ngược

lại lượng tiêu thụ xăng sẽ tăng vào mùa hè và giảm vào mùa đông - Lượng tiêu thụ đồ dùng học tập sẽ tăng vào mùa khai trường

8.1.2.3 Thành phần chu kỳ: Thành phần này chỉ thay đổi của đại lượng X theo chu kỳ. Sự khác biệt của thành phần này so với thành phần mùa là chu kỳ của nó dài hơn một năm. Để đánh gía thành phần chu kỳ các gía trị của chuỗi tuần tự theo thời gian sẽ được quan sát hằng năm Ví dụ: Lượng dòng chảy đến hồ chứa Trị An từ năm 1959 đến 1985

8.1.2.4 Thành phần bất thường: Thành phần này dùng để chỉ những sự thay đổi bất thường của các gía trị trong chuỗi tuần tự theo thời gian. Sự thay đổi này không thể dự đoán bằng các số liệu kinh nghiệm trong qúa khứ, về mặt bản chất này không có tính chu kỳ.

t

Chất đốt

Xu hướng tăng theo thời gian Thay đổi theo mùa

6 12 6 12 6 12

t (năm) 1985

Q (m3/s)

1959 1960

Page 116: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 3

8.1.3 Mô hình hóa việc dự báo gía trị của đại lượng X

8.1.3.1 Mô hình nhân: ( Multiplicative model)

Xt: Gía tị của đại lượng X ở thời điểm t Tt: Gía trị của thành phần xu hướng ở thời điểm t. Tt có cùng đơn vị với Xt

St, Ct, It: là các hệ số đánh gía ảnh hưởng của các thành phần mùa, thành phần chu kỳ và thành phần bất kỳ đến gía trị của X ở thời điểm t.

Trong thực tế việc xác định It rất khó khăn nên thường được bỏ qua, khi đó:

8.1.3.2 Mô hình cộng: (Additive model)

Xt: gía trị của đại lượng X ở thời điểm t Tt, St, Ct, It: Gía trị của thành phần xu hướng, mùa, chu kỳ và bất thường ở thời điểm t. Trong thực tế, để dự báo gía trị của đại lượng X ta có thể phối hợp cả 2 loại mô hình trên.

8.2. Các phương pháp làm trơn: (Smoothing methods) Trong một số chuỡi tuần tự theo thời gian thành phần mùa và thành phần bất thường thay đổi quá lớn làm cho việc xác định thành phần xu hướng và thành phần chu kỳ gặp nhiều khó khăn. Sự thay đổi lớn này có thể được giảm nhỏ bằng các phương pháp làm trơn. Các phương pháp làm trơn được đề cập trong chương này gồm phương pháp trung bình dịch chuyển và phương pháp làm trơn bằng hàm số mũ. (Moving average and exponential smoothing methods)

8.2.1 Phương pháp trung bình dịch chuyển: (Trung bình trượt – Moving average)

Nội dung của phương pháp này là thay thế gía trị quan sát Xt bằng gía trị trung bình của chính nó với m gía trị trước nó và m gía trị sau nó. Nghĩa là thay Xt bằng X*

t, với:

Xt* = ∑

−=++

m

mjjtX

1m21

Xt = Tt * St * Ct * It

Xt = Tt * St *Ct

Xt = Tt + St + Ct + It

Xt* =

1m2XX...X...XX mt1mtt1mtmt

+++++++ +−++−−

Page 117: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 4

X*

t : là gía trị trung bình dịch chuyển của (2m+1) điểm Ví dụ: Nếu m =2, ta có gía trị trung bình trượt của 5 điểm được tính theo công thức:

Xt* =

5XXXXX 2t1tt2t 1t ++− ++++

Nếu t = 3

X*3 =

5XXXXX

54321 ++++

8.2.2 Phương pháp làm trơn bằng hàm số mũ đơn giản: (Simple exponential smoothing method) Phương pháp làm trơn hàm số mũ tiến hành dựa trên việc xem xét một cách liên tục các gía trị của quá khứ, dựa trên trung bình có trọng số của chuỗi dữ liệu. Trong phương pháp này trọng số có gía trị càng nhỏ khi nó càng cách xa thời điểm dự báo. Với ý nghĩa trên ta có:

tX = α Xt + (1-α) α Xt-1 + (1-α)2 α Xt-2 + (1-α)3 α Xt-3 +…+(1-α)t-1 α X1 Tương Tự 1

2t4t

33t

22t1t1t X)1(......X)1(X)1(X)1(XX αα−++αα−+αα−+αα−+α= −

−−−−− 1

13

32

211 )1(....)1()1()1()1( XXXXX t

tttt ααααααααα −−−−− −++−+−+−=−

Từ các phương trình trên ta có: Trong tóm tắt ta lấy

122 )1( XXX αα −+= 233 )1( XXX αα −+= . . . . . . . . . . . . .

1ttt X)1(XX −α−+α= . . . . . . . . . . . . . .

1nnn X)1(XX −α−+α= Ví dụ: Bảng số liệu sau đây cho thấy số lượng máy tính được bán ra của cửa hàng trong 24 tháng vừa qua. a) Tìm chuỗi thời gian trung bình trượt 5 tháng b) Tìm các gía trị trung bình bằng phương pháp làm trơn hàm mũ với hệ số làm trơn

1ttt X)1(XX −α−+α= Với 10 ≤α≤ α: hằng số làm trơn (Smoothing Constant)

1XX = Và các trị số Xt được lấy từ số liệu quan sát

Hàm 2 Cho (1-α)

Page 118: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 5

c) STT

t Tháng Số liệu quan sát

Xt Số trung bình

trượt 5 tháng X*t

Số trung bình bằng PP làm trơn hàm mũ Xt

1 2 3 4 5 6 7 8 9 10 11 12

13 14 15 16 17 18 19 20 21 22 23 24

2 năm trước Một Hai Ba Tư

Năm Sáu Bảy Tám Chín Mười

Mười Một Mười Hai

1 năm trước Môt Hai Ba Tư

Năm Sáu Bảy Tám Chín Mười

Mười một Mười hai

21 20 19 18 14 15 22 28 25 25 25 20

25 25 24 28 36 32 25 23 22 23 22 27

18,4 17,2 17,6 19,4 20,8 23,0 25,0 24,6 24,0 24,0

23,8 24,4 27,6 29,0 29,0 28,8 27,6 25,0 23,0 23,4

21,0 20,0 19,8 18,9 16,5 15,8 18,9 23,5 24,3 24,7 24,9 22,5

23,8 24,4 24,2 26,1 31,0 31,5 28,3 25,7 23,8 23,4 22,7 24,9

8.3 Dự báo:

8.3.1 Khái niệm chung : Dự báo là khả năng nhận thức được sự vận động của các đối tượng nghiên cứu trong tương lai dựa trên sự phân tích chuỗi thông tin quá khứ và hiện tại. Cho đến nay, nhu cầu dự báo đã trở nên hết sức cần thiết ở mỗi lĩnh vực.

8.3.1.1 Bản chất các khái niệm liên quan đến dự báo:

8.3.1.1.1 Tiên đoán (Predicting) Đoán trước sự vận động của đối tượng nghiên cứu trong tương lai. Đó là kết quả nhận thức chủ quan của con người dựa trên một số cơ sở nhất định. Có thể nêu mức độ tiên đoán ở 3 khía cạnh.

Page 119: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 6

a) Tiên đoán không tưởng: Đó là những tiên đoán không có cơ sở khoa học, chỉ dựa trên những mối liên hệ

không tưởng thiếu căn cứ.

b) Tiên đoán kinh nghiệm: Đó là những tiên đoán dựa trên chuỗi thông tin lịch sử. Mức độ ít nhiều có cơ sở

khách quan, tuy nhiên có nhược điểm là loại tiên đoán này không giải thích được xu thế vận động của đối tượng nghiên cứu và đa số dừng lại ở bước định tính.

c) Tiên đoán khoa học: Đó là tiên đoán dựa trên phân tích mối liên hệ qua lại giữa các đối tượng nghiên

cứu và phương pháp xử lý thông tin khoa học nhằm phát hiện tính quy luật của đối tượng .

8.3.1.1.2 Dự báo (Forecasting) Dự báo là tiên đoán khoa học mang tính xác suất và tính phương án trong khoảng thời gian hữu hạn về tương lai phát triển của đối tượng nghiên cứu.

a) Tính xác suất : Do dự báo dựa trên việc xử lý chuỗi thông tin bao gồm cả 2 yếu tố xu thế phát

triển và yếu tố ngẫu nhiên, vì vậy kết quả dự báo so với thực tế có sự chên lệch mang tính xác suất.

b) Tính chất phương án: Dự báo được thể hiện bằng nhiều dạng kết quả có thể xảy ra trong tương lai (dạng

định tính, dạng định lượng, dạng khoảng, dạng điểm, …)

c) Tính chất thời gian hữu hạn: Sự chênh lệch giữa thời điểm dự báo và thời điểm hiện tại được gọi là khoảng

cách dự báo (tầm xa dự báo l), khoảng cách này không thể tùy tiện mà nó phụ thuộc vào mức độ ổn định của đối tượng nghiên cứu trong quá trình phát triển . Vì vậy dự báo được tiến hành với khoảng cách dự báo thích hợp tương ứng một khoảng thời gian hữu hạn nào đó.

8.3.1.2 Phân loại dự báo :

a) Dựa vào thời gian : Căn cứ vào khoảng cách dự báo, người ta chia dự báo thành 2 loại chính: - Dự báo ngắn hạn : Khoảng cách dự đoán ngắn hạn dùng cho cấp quản lý trung

bình và thấp, cho chiến lược tức thời. - Dự báo dài hạn : Khoảng cách dự báo dài dùng cho quản lý cấp cao, cho các

đối tượng nghiên cứu mang tầm cỡ chiến lược.

Page 120: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 7

b) Dựa theo kết quả : - Dự báo điểm : Kết quả dự báo được thể hiện bằng một giá trị duy nhất.

Ft+l : giá trị dự báo thời điểm t+l. - Dự báo khoảng : Kết quả dự báo được thể hiện dưới dạng khoảng tin cậy với

xác suất xảy ra được chủ định.

c) Dựa theo đối tượng nghiên cứu: - Dự báo tài nguyên. - Dự báo khoa học kỹ thuật. - Dự báo dân số lao động. - Dự báo xã hội. - Dự báo thị trường…

8.3.2 Các bước dự báo: Công tác dự báo gồm 4 bước:

8.3.2.1 Thu thập số liệu: Yêu cầu phải có số liệu - Chính xác - Đúng mục đích dự báo Đây là phần khó khăn và tốn thời gian.

8.3.2.2 Xử lý sơ bộ số liệu: - Bỏ những số liệu không cần thiết, không chính xác. - Bổ xung những số liệu còn thiếu. - Chia tập số liệu thành 2 nhóm : nhóm đầu và nhóm kiểm tra.

8.3.2.3 Lựa chọn phương pháp và xây dựng mô hình dự báo - Phương pháp dự báo được chọn sao cho phù hợp với số kiệu thuộc nhóm đầu

và với đối tượng nghiên cứu. - Lập mô hình dự báo sao cho sai số dự báo là nhỏ nhất. Sai số dự báo được

kiểm định bởi nhóm số liệu kiểm tra.

8.3.2.4 Dự báo: - Từ mô hình dự báo xác định giá trị dự báo - Phân tích kết quả nhận được.

F t+l = A

Ft+l = A ε±

Page 121: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 8

8.3.3 Các phương pháp dự báo thông dụng: Các phương pháp dự báo thường dùng có thể chia làm 3 loại:

- Phương pháp giản đơn (naive method) - Phương pháp trung bình (average method) - Phương pháp làm trơn (smoothing method)

8.3.3.1 Phương pháp dự báo giản đơn:

A. Phương pháp 1: Trong phương pháp này người ta giả thiết giá trị gần đây nhất là giá trị đúng nhất cho tương lai.

Ft+1 : là giá trị dự báo ở thời điểm t+1 Xt : là trị quan sát được ở thời điểm t

Nhận Xét: - Đây là mô hình đơn giản nhất. Mô hình này không thể hiện được các

thành phần của chuỗi thời gian. - Để đánh giá độ chính xác của công tác dự báo người ta phải tính sai số dự

báo e.

Ví dụ: Lượng hàng bán ra theo qúy của một công ty từ năm 1979 đến 1985 được cho trong

bảng số liệu. Dựa vào bảng số liệu lập mô hình dự báo lượng hàng bán ra theo quý trong tương

lai. Năm Quý T Lương sp

bán được 1979

1980

1981

1 2 3 4

1 2 3 4

1 2

1 2 3 4

5 6 7 8

9 10

500 350 250 400

450 350 200 300

350 200

Ft+1 = Xt

et+1 = Xt+1 – Ft+1

Page 122: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 9

1982

1983

1984

1985

3 4

1 2 3 4

1 2 3 4

1 2 3 4

1 2 3 4

11 12

13 14 15 16

17 18 19 20

21 22 23 24

25 26 27 28

150 400

550 350 250 550

550 400 350 600

750 500 400 650

850 600 450 700

Giải: Nếu chúng ta sử dụng số liệu từ năm 1979 đến năm 1984 làm phần đầu của nhóm

số liệu và sử dụng số liệu năm 1985 là phần kiểm tra Giá trị dự báo cho quí I năm 1985 (thời điểm 25)

F25 = F24 + 1 = X24 = 650

Sai số dự báo ở thời điểm 25 là

e25 = X25 – F25 = 850 – 650 = 200

Tương tự, giá trị dự báo cho quí II năm 1985 (thời điểm 26) là

F26 = X25 = 850

Sai số dự báo ở thời điểm 26 là

e26 = X26 – F26 = 600 –850 = -250

Nhận Xét: Sai số lớn cần phải sửa đổi mô hình.

B. Phương pháp 2: Trong phương pháp này, người ta thêm vào các số hạng để đánh giá ảnh

hưởng của thành phần xu hướng trong chuỗi thời gian. Mô hình có thể có dạng:

Page 123: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 10

a)

Đánh giá ảnh hưởng của thành phần xu hướng Ví dụ: Giá trị dự báo ở thời điểm 25

F25 = X24 + ( X24 - X23 ) = 650 + ( 650 – 400) F25 = 900

Sai số dự báo ở thời điểm 25

E25 = X25 - F25 = 850 - 900 e25 = -50

b)

Ví dụ:

F25 = X24 * 23

24

XX

= 650 * 400650

F25 = 1050

e25 = X25 - F25

= 850 -1056

e25 = -206

C. Phương pháp 3: Trong phương pháp này, người ta có chú ý đến ảnh hưởng của thành

phần mùa trong chuỗi thời gian.

Ft+1 = Xt + ( Xt – Xt – 1)

Ft+1 = Xt *1t

t

XX

Ft+1 = Xt-3

Page 124: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 11

Với công thức này lượng sản phẩm bán ra ở quý dự báo bằng lượng sản phẩm bán ra trong quý tương ứng ở năm trước đó. Nhược điểm của phương pháp này là không chú ý tới tác động khác nhau giữa các năm và thành phần xu hướng. Ví dụ:

F25 = X21 = 750

e25 = X25 - F25

= 850 – 750

e25 = 100

D. Phương pháp 4:

Trong phương pháp này, người ta chú ý đến ảnh hưởng của thành phần mùa và thành phần xu hướng của chuỗi thời gian.

Ví dụ:

F25 = X21 + 4)XX()XX)XX()XX( 2021212222232324 −+−+−+−

= 750 +4

)600750()750500()500400()400650( −+−+−+−

= 750 +12,5

F25 = 762,5

e25 = X25 - F25

= 850 - 762.5

e25 = 87.5

Ft+1 = Xt-3 + 4

)XX(...)XX( 4t3t1tt −−− −++−

T/phần mùa Giá trị trung bình của sự thay đổi của 4 qúy gần nhất T/phần xu hướng

Page 125: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 12

Nhận xét chung: Phương pháp Naive có ưu điểm đơn giản và phù hợp cho những phân tích

ban đầu nhưng sai số lớn.

8.3.3.2 Các phương pháp trung bình: a. Phương pháp trung bình giản đơn:

Trong phương pháp này, người ta sử dụng giá trị trung bình của toàn bộ số liệu đã có trước thời điểm dự báo làm giá trị dự báo.

Ví dụ: giá trị dự báo cho quí I/1985 (thời điểm t = 25)

F25 = 241 ∑

=

24

1ttX

= )9800(*241

F25 = 408,33

e25 = X25 – F25

= 850 – 408,33

e25 = 441,67

Giá trị dự báo cho quí II/1985 (thời điểm t = 26)

F26 = ⎥⎦

⎤⎢⎣

⎡+= ∑∑

==25

24

1tt

25

1tt XX

251X

251

= [ ]8509800251

+

F26 = 251 * 10650 = 426

e26 = X26 - F26

= 600 - 426

Ft+1 = n1 ∑

=

n

1ttX

Page 126: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 13

e26 = 174

Trong ví dụ này, các sai số dự báo lớn → dự báo không chính xác. Phương pháp trung bình đơn giản thường được sử dụng khi dãy số liệu không

biến đổi theo mùa,không có hướng, không đối xứng và với tập số liệu lớn. b. Phương pháp trung bình dịch chuyển ; (Moving – Average)

Trong phương pháp này, người ta sử dụng giá trị trung bình của n số liệu quan sát trước thời điểm dự báo.

Nhận xét: - Mô hình này chú ý đến n số liệu quan sát đã biết gần thời điểm dự báo nhất. - Số n không thay đổi khi tính giá trị trung bình dịch chuyển.

• n = 1⇒ Ft+1 = Xt : Phương pháp naive

• n = 1⇒ Ft+1 = ∑=

n

1ttX

n1 :Phương pháp trung bình giản đơn.

- Tổng quát, phương pháp trung bình dịch chuyển tốt hơn phương pháp trung bình

giản đơn. Ví dụ: Giá trị dự báo cho quí I/1985 với n = 4

F25 = 41 (X24 +X23 + X22 +X21 )

= 41 (650 + 400 +500 +750 ) =

41 * 2300

F25 = 575

e25 = X25 - F25

= 850 – 575

e25 = 275

c. Phương pháp làm trơn hàm mũ:(Exponential Smoothing Methods)

Ft+1 = n1 (Xt + Xt-1 + Xt-2 +….+ Xt-n+1)

(toàn bộ số liệu)

Ft+1 = α Xt + (1-α) Ft

Page 127: Giáo Trình Xác Suất Thống Kê

Cao Hào Thi 14

Ft+1 :giá trị dự báo ở thời điểm t+1 Ft :giá trị dự báo ở thời điểm t Xt :giá trị quan sát ở thời điểm t α :hằng số làm trơn, 10 ≤α≤

8.3.3.3 Phương pháp tự hồi qui:(Autoregressive models)

a) Mô hình tự hồi qui bậc 1:(first-order autoregressive models)

β, Φ1 : là các tham số cố định at : là biến ngẫu nhiên có số trung bình là 0

b) Mô hình tự hồi qui bậc 2 (second order autoregressive models )

c) Mô hình tự hồi qui bậc p: (Autoregressive model of order p)

Xt= β + Φ1 Xt-1 + at

Xt = β +Φ1 Xt-1 + Φ2 Xt-2 + at

Xt = β + Φ1 Xt-1 + Φ2 Xt-2 + … + ΦpXt-p +at