33
1 PHẦN II: THỐNG KÊ -------------------------------------------------------------------------------- CHƯƠNG III -LÝ THUYẾT MẪU III.1 KHÁI NIỆM VỀ THỐNG KÊ: Thống kê là một nhánh của toán học liên quan đến việc thu thập, phân tích, diễn giải hay giải thích và trình bày các dữ liệu. Một số lĩnh vực nghiên cứu sử dụng thống kê ứng dụng nhiều đến mức mỗi ngành đã đưa ra môn học riêng, còn gọi là “thống kê ngành” như: thống y học, vật lý thống kê, thống kê sinh học, thống kê dân số, thống kê xã hội, thống kê trong giáo dục học, thống kê trong kinh doanh, kinh tế lượng, phân tích dữ liệu từ phân tích hóa học, địa lý và hệ thống thông tin địa lý, thống kê độ tin cậy của công nghệ, thống kê trong thể thao, thống kê bảo hiểm… Trong lĩnh vực xã hội, thống kê đóng vai trò quan trọng là một công cụ cơ bản quan trọng trong việc nhận thức tình hình và hỗ trợ ra quyết định. Thống kê toán ( còn gọi là thống kê lý thuyết) là một nhánh của toán ứng dụng, sử dụng lý thuyết và phân tích xác suất để nghiên cứu cơ sở lý thuyết của thống kê như các luật phân phối. Thống kê ứng dụng bao gồm thống kê mô tả và thống kê suy diễn. Thống kê mô tả được dùng để tóm tắt dữ liệu, để mô tả mẫu nghiên cứu dưới dạng số hay đồ họa. Các công cụ thường dùng nhất là trung bình cộng và độ lệch chuẩn. Các công cụ đồ họa bao gồm biểu đồ và đồ thị. Thống kê suy diễn được dùng để mô hình hóa các kiểu biến thiên trong dữ liệu, giải thích những biến thiên có vẻ ngẫu nhiên và rút ra kết luận về tổng thể nghiên cứu mà chúng ta thường không có điều kiện để khảo sát hết. Việc sử dụng bất kỳ phương pháp thống kê nào cũng chỉ đúng đắn khi tổng thể nghiên cứu thỏa mãn những giả thiết toán học cần thiết của phương pháp. Việc sử dụng sai dữ liệu thống kê có thể tạo ra những sai lầm nghiêm trọng trong việc mô tả và diễn giải. Bằng việc chọn ( hoặc bác bỏ, hoặc thay đổi) một giá trị nào đó, hay việc bỏ đi các giá trị quan sát quá lớn hoặc quá nhỏ cũng là một cách làm thay đổi kết quả; đôi khi những kết quả thú vị khi nghiên cứu với mẫu nhỏ lại không còn đúng với mẫu lớn. Tổng thể thống kê là tập hợp các phần tử thuộc hiện tượng nghiên cứu, cần được quan sát, thu thập và phân tích theo một hoặc một số đặc trưng nào đó. Các phần tử tạo thành tổng thể thống kê được gọi là đơn vị tổng thể. Tài liệu tham khảo: 1. Hoàng Trọng, Chu Nguyễn Mộng Ngọc. Thống kê ứng dụng trong kinh tế- xã hội. NXB LĐ-XH-2011. 2. PGS.TS. Nguyễn Cao Văn, TS. Trần Thái Ninh. Giáo trình Lý thuyết xác suất và thống kê toán. NXB ĐHKTQD-2008.

Chuong III Phan Thong Ke

Embed Size (px)

Citation preview

Page 1: Chuong III Phan Thong Ke

1

PHẦN II: THỐNG KÊ

--------------------------------------------------------------------------------

CHƯƠNG III -LÝ THUYẾT MẪU

III.1 KHÁI NIỆM VỀ THỐNG KÊ:

Thống kê là một nhánh của toán học liên quan đến việc thu thập, phân tích, diễn giải hay

giải thích và trình bày các dữ liệu. Một số lĩnh vực nghiên cứu sử dụng thống kê ứng dụng

nhiều đến mức mỗi ngành đã đưa ra môn học riêng, còn gọi là “thống kê ngành” như: thống

kê y học, vật lý thống kê, thống kê sinh học, thống kê dân số, thống kê xã hội, thống kê

trong giáo dục học, thống kê trong kinh doanh, kinh tế lượng, phân tích dữ liệu từ phân tích

hóa học, địa lý và hệ thống thông tin địa lý, thống kê độ tin cậy của công nghệ, thống kê

trong thể thao, thống kê bảo hiểm… Trong lĩnh vực xã hội, thống kê đóng vai trò quan

trọng là một công cụ cơ bản quan trọng trong việc nhận thức tình hình và hỗ trợ ra quyết

định.

Thống kê toán ( còn gọi là thống kê lý thuyết) là một nhánh của toán ứng dụng, sử dụng lý

thuyết và phân tích xác suất để nghiên cứu cơ sở lý thuyết của thống kê như các luật phân

phối.

Thống kê ứng dụng bao gồm thống kê mô tả và thống kê suy diễn. Thống kê mô tả được

dùng để tóm tắt dữ liệu, để mô tả mẫu nghiên cứu dưới dạng số hay đồ họa. Các công cụ

thường dùng nhất là trung bình cộng và độ lệch chuẩn. Các công cụ đồ họa bao gồm biểu đồ

và đồ thị. Thống kê suy diễn được dùng để mô hình hóa các kiểu biến thiên trong dữ liệu,

giải thích những biến thiên có vẻ ngẫu nhiên và rút ra kết luận về tổng thể nghiên cứu mà

chúng ta thường không có điều kiện để khảo sát hết.

Việc sử dụng bất kỳ phương pháp thống kê nào cũng chỉ đúng đắn khi tổng thể nghiên cứu

thỏa mãn những giả thiết toán học cần thiết của phương pháp. Việc sử dụng sai dữ liệu

thống kê có thể tạo ra những sai lầm nghiêm trọng trong việc mô tả và diễn giải. Bằng việc

chọn ( hoặc bác bỏ, hoặc thay đổi) một giá trị nào đó, hay việc bỏ đi các giá trị quan sát quá

lớn hoặc quá nhỏ cũng là một cách làm thay đổi kết quả; đôi khi những kết quả thú vị khi

nghiên cứu với mẫu nhỏ lại không còn đúng với mẫu lớn.

Tổng thể thống kê là tập hợp các phần tử thuộc hiện tượng nghiên cứu, cần được quan sát,

thu thập và phân tích theo một hoặc một số đặc trưng nào đó. Các phần tử tạo thành tổng thể

thống kê được gọi là đơn vị tổng thể.

Tài liệu tham khảo:

1. Hoàng Trọng, Chu Nguyễn Mộng Ngọc. Thống kê ứng dụng trong kinh tế- xã hội. NXB LĐ-XH-2011.

2. PGS.TS. Nguyễn Cao Văn, TS. Trần Thái Ninh. Giáo trình Lý thuyết xác suất và thống kê toán. NXB

ĐHKTQD-2008.

Page 2: Chuong III Phan Thong Ke

2

Mẫu là một số đơn vị được chọn ra từ tổng thể chung theo một phương pháp lấy mẫu nào

đó. Các đặc trưng mẫu được sử dụng để suy rộng ra các đặc trưng của tổng thể nói chung.

Đặc điểm thống kê (hay dấu hiệu nghiên cứu) là các tính chất quan trọng liên quan trực

tiếp đến nội dung nghiên cứu và khảo sát cần thu thập dữ liệu trên các đơn vị tổng thể. Đặc

điểm thống kê được chia làm 2 loại: đặc điểm thuộc tính và đặc điểm số lượng.

Khái quát quá trình nghiên cứu thống kê:

Xác định vấn đề nghiên cứu, mục tiêu, nội dung,

đối tượng nghiên cứu.

Xây dựng hệ thống các khái niệm, các chỉ tiêu thống kê.

Thu thập các dữ liệu thống kê.

Xử lý số liệu:

- Kiểm tra, chỉnh lý và sắp xếp số liệu.

- Phân tích thống kê sơ bộ.

- Phân tích thống kê thích hợp.

Phân tích và giải thích kết quả.

Báo cáo và truyền đạt kết quả nghiên cứu

Trong mô hình trên, hướng mũi tên từ trên xuống chỉ trình tự tiến hành các công đoạn của

quá trình nghiên cứu. Hướng mũi tên từ dưới lên biểu diễn các công đoạn cần phải kiểm tra

lại, bổ sung thông tin hay phải làm lại nếu chưa đạt yêu cầu.

III.2 MỘT SỐ ĐẶC TRƯNG CỦA TỔNG THỂ:

Số lượng N các phần tử của tổng thể gọi là kích thước tổng thể. Trong trường hợp kích

thước tổng thể quá lớn hay không thể biết được ta coi như kích thước tổng thể là vô hạn.

Để mô tả tổng thể theo một dấu hiệu nghiên cứu nào đó, người ta mô hình hóa dấu hiệu đó

bởi một biến ngẫu nhiên X, gọi là biến ngẫu nhiên gốc. Ta thường gặp các tham số đặc

trưng của tổng thể:

- Trung bình tổng thể: E(X). Trong tài liệu này ta quy ước dùng kí hiệu a hoặc để

biểu thị giá trị của E(X).

- Trung bình điều hòa:

Page 3: Chuong III Phan Thong Ke

3

VD: Một xí nghiệp có 2 phân xưởng cùng lắp ráp 1 loại sản phẩm. Phân xưởng thứ nhất

lắp ráp 1 sản phẩm hết 15 phút, phân xưởng thứ hai lắp ráp 1 sản phẩm hết 20 phút.

Nếu trong 1 ngày mỗi phân xưởng làm việc 8 giờ thì thời gian trung bình để lắp ráp 1

sản phẩm mh là bao nhiêu?

60 8 960

17,1460 8 60 8 56

15 20

hm

phút.

- Trung bình nhân:

VD: Trong khoảng thời gian 10 năm, tốc độ tăng giá trị sản lượng của một xí nghiệp

như sau: Có 5 năm tốc độ tăng so với năm trước là 110%; có 2 năm tốc độ tăng là

125% và có 3 năm tốc độ tăng là 115%. Tìm tốc độ tăng trưởng trung bình mg hàng

năm của xí nghiệp trong 10 năm đó.

5 2 210 (1,1) (1,25) (1,15)gm

Suy ra 1

ln 5ln(1,1) 2ln(1,25) 3ln(1,15)10

gm , và mg = 1,144 hay 114,4%.

- Phương sai tổng thể: D(X). Ta quy ước dùng kí hiệu 2 để biểu thị giá trị của D(X).

Khi đó độ lệch chuẩn của tổng thể D(X) được kí hiệu là .

- Tỉ lệ tổng thể: Nếu dấu hiệu nghiên cứu mang tính chất định tính thì người ta coi X

có phân phối không – một. Tỉ lệ tổng thể chính là xác suất lấy ngẫu nhiên một phần

tử thì phần tử đó mang dấu hiệu nghiên cứu. Quy ước kí hiệu tỉ lệ tổng thể là p.

III.3 MẪU NGẪU NHIÊN 1 CHIỀU:

III.3.1 TỔNG QUAN:

Trong thực tế, phương pháp nghiên cứu toàn bộ tổng thể chỉ áp dụng được với các tập hợp

có qui mô nhỏ, còn chủ yếu người ta áp dụng phương pháp nghiên cứu không toàn bộ, đặc

biệt là phương pháp chọn mẫu. Nếu mẫu được chọn ra một cách ngẫu nhiên và xử lý bằng

các phương pháp xác suất thì thu được kết luận một cách nhanh chóng, đỡ tốn kém mà vẫn

đảm bảo độ chính xác cần thiết.

Có 2 phương pháp để lấy một mẫu có n phần tử : lấy có hoàn lại và lấy không hoàn lại.

Nếu kích thước mẫu rất bé so với kích thước tổng thể thì hai phương pháp này được coi là

cho kết quả như nhau. Ta luôn giả định rằng các phần tử được lấy vào mẫu theo phương

thức có hoàn lại và mỗi phần tử của tổng thể đều được lấy vào mẫu với khả năng như nhau.

Mẫu ngẫu nhiên kích thước n là tập hợp của n biến ngẫu nhiên độc lập

X1 , X2 , .., Xn được thành lập từ biến ngẫu nhiên X của tổng thể nghiên cứu và có cùng

quy luật phân phối xác suất với X.

Kí hiệu của mẫu ngẫu nhiên kích thước n là : W = (X1 , X2 , .., Xn )

với E(Xi) = E(X) = a; D(Xi ) = D(X) = 2, i.

Page 4: Chuong III Phan Thong Ke

4

Việc thực hiện một phép thử đối với mẫu ngẫu nhiên W chính là thực hiện một phép thử

đối với mỗi thành phần Xi. Giả sử X1 nhận một giá trị cụ thể là x1; X2 nhận giá trị x2; …, Xn

nhận giá trị xn thì w = ( x1, x2 , .., xn ) tạo thành 1 giá trị cụ thể của mẫu ngẫu nhiên , hay

còn gọi là mẫu cụ thể.

Các phương pháp chọn mẫu :

Bao gồm mẫu giản đơn; mẫu hệ thống ; mẫu chùm; mẫu phân tổ; mẫu nhiều cấp.

(SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành)

Thang đo các giá trị mẫu :

Để biểu diễn các giá trị của dấu hiệu nghiên cứu trong tổng thể cũng như trong mẫu,

ta phải dùng các thang đo khác nhau nhằm mục đích lượng hóa dấu hiện nghiên cứu đó.

Trong kinh tế xã hội, các thang đo được sử dụng theo cấp độ từ thấp đến cao là : thang định

danh; thang thứ bậc; thang đo khoảng; thang đo tỉ lệ.

( SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành).

Các phương pháp mô tả số liệu mẫu :

Bao gồm bảng phân phối tần số thực nghiệm; bảng phân phối tần suất thực nghiệm;

hàm phân bố thực nghiệm; Một số loại đồ thị như đa giác đồ , đa giác tần số, đa giác tần

suất, biểu đồ tần số, biểu đồ tần suất …

Có rất nhiều phần mềm máy tính có chức năng thống kê được dùng để mô tả số liệu

mẫu như Excel, SPSS, MFIT , Stata….

( SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành).

III.3.2 MỘT SỐ ĐẶC TRƯNG CỦA MẪU:

Từ một mẫu ngẫu nhiên W= ( X1 , X2 , .., Xn ) thì chỉ có thể có một vài kết luận sơ bộ

và rời rạc về biến ngẫu nhiên gốc X của tổng thể, vì các giá trị Xi của mẫu có cùng phân

phối với X, song quy luật này thường chưa xác định được hoàn toàn. Nhưng nếu tổng hợp

các biến ngẫu nhiên này lại thì theo quy luật số lớn thì chúng sẽ bộc lộ những quy luật mới

làm cơ sở để nhận định về biến ngẫu nhiên gốc.

Việc tổng hợp mẫu W= ( X1 , X2 , .., Xn ) dưới dạng một hàm nào đó của các giá trị

X1 , X2 , .., Xn gọi là thống kê, và kí hiệu G = f( X1 , X2 , .., Xn ). Bản thân G cũng là một

biến ngẫu nhiên tuân theo một quy luật phân phối xác suất nhất định và có các tham số đặc

trưng. Đồng thời khi mẫu ngẫu nhiên nhận 1 giá trị cụ thể

w = ( x1, x2 , .., xn ) thì G cũng nhận một giá trị cụ thể là g = f( x1, x2 , .., xn ).

Mẫu ngẫu nhiên cụ thể w = ( x1, x2 , .., xn ) còn có thể được mô tả bởi bảng phân phối tần

số thực nghiệm:

Các giá trị của Xi x1 x2 … xk

Tần số tương ứng n1 n2 … nk và 1

k

i

i

n n

Page 5: Chuong III Phan Thong Ke

5

Một số thống kê đặc trưng mẫu thường dùng trong chương trình:

8

CÁC ĐẶC TRƯNG CỦA MẪU TỔNG QUÁT

CÁC ĐẶC TRƯNG CỦA MẪU CỤ THỂ

TRUNG BÌNH MẪU Trung bình mẫu:

hay

PHƯƠNG SAI MẪU Phương sai mẫu: Độ lệch mẫu:

hay

PHƯƠNG SAI MẪUHIỆU CHỈNH

Phương sai mẫu hiệu chỉnh: s2

Độ lệch mẫu hiệu chỉnh: s

hay

TỈ LỆ MẪU Tỉ lệ mẫu:

n

i

i=1

1X = X

n

n122

i

i=1

1S (X -X)

n

ct

n 22 2

i

i=1

1 nS = (X -X) = S

n-1 n-1

MF=

n

1

1 n

i

i

xxn

1

1 k

i i

i

n xxn

2

1

2 1( )

n

i

i

x xsn

2

1

2 22 21 k

i i

i

xs n x x xn

22

1

1( )

1

n

i

i

s x xn

22

1

ns

ns

m=

nf

2

s s

Hướng dẫn sử dụng MTBT tìm 1 số đặc trưng của BNN rời rạc:

HD Sử dụng MTBT tìm 1 số đặc trưng của BNN rời rạc:

Các bước thực

hiệnMáy CASIO fx 570 ES PLUS… Máy CASIO fx 500 MS….

Mở thêm cột

tần số

SHIFT – MODE (SETUP)- - 4 (STAT)- – 1 (ON)

Vào TK 1

biến.MODE -- 3 (STAT) -- 1 (1-VAR) MODE -- MODE --…-- 1 (SD)

Nhập dữ liệu

………..

Đọc kết quả

nSHIFT – 1 (STAT)- 4 (VAR) -- 1 (n ) -- = SHIFT – (S) - (n )

Đọc kết quả SHIFT – 1 (STAT)- 4 (VAR) -- 2 ( ) -- = SHIFT – 2 (SVAR) -1 ( )-- =

Đọc kết quả SHIFT – 1 (STAT)- 4 (VAR) - 3 ( ) -= SHIFT – 2 (SVAR)- 2 ( )-- =

Đọc kết quả

sSHIFT – 1 (STAT)- 4 (VAR) - 4 ( sx ) -= SHIFT – 2 (SVAR)- 3 ( )-- =

Kq trung gian SHIFT – 1 (STAT)- 3 (SUM) –2 ( ) = SHIFT – 1 (SSUM)- ( )--- =

SHIFT – 1 (STAT)- 3 (SUM) –1 ( )= SHIFT – 1 (SSUM)- ( )-- =

nxσ

x

s

x

σx

n-1xσ

1 1

k n

i i i

i i

x n x

2 2

1 1

k n

i i i

i i

x n x

x

2x

x

x

2x

Page 6: Chuong III Phan Thong Ke

6

III.3.3 QUY LUẬT PHÂN PHỐI XÁC SUẤT CỦA MỘT SỐ ĐẶC TRƯNG MẪU

1- Phaân phoái xaùc suaát cuûa tyû leä maãu

Vì E(F) = p vaø n

pqFD )( neân theo ñònh lyù 4.5 chöông 4 (xem giaùo trình

XS) thì vôùi n30 ta coù theå coi ),(~

n

pqpNF .

Vôùi moät maãu cuï theå kích thöôùc n, tyû leä maãu f, ta coù p f, neân:

))1(

,(~

n

ffpNF

hay

( )~ (0,1)

(1 )

F pN

f f

n

2- Phaân phoái xaùc suaát cuûa trung bình maãu

Vì n

XD aXD

2

)(,)(

neân neáu toång theå coù phaân phoái chuaån thì

),(~

2

n

aNX

hay )1,0(~ NnaX

Neáu n 30 thì vôùi moät maãu cuï theå kích thöôùc n ta coù 22

s

Do ñoù ),(~

2

n

saNX hay ~ (0,1)

X an N

s

trong ñoù s2 laø phöông sai maãu hieäu chænh cuûa moät maãu kích thöôùc n baát kyø.

Tröôøng hôïp n < 30, toång theå coù phaân phoái chuaån, ta coù

~ ( 1)X a

n T ns

3- Phaân phoái xaùc suaát cuûa phöông sai maãu

Neáu toång theå coù phaân phoái chuaån thì ta coù

22 2 2

2 2 21

1 1( ) ~ ( 1)

n

i

i

nS nS X X X n

Page 7: Chuong III Phan Thong Ke

7

CHƯƠNG IV - ƯỚC LƯỢNG CÁC THAM SỐ CỦA BNN

Giả thiết một dấu hiệu nghiên cứu trong tổng thể được xem như một biến ngẫu nhiên X

với quy luật phân phối xác suất đã biết nhưng chưa biết một tham số nào đó của nó. Phải

ước lượng ( xác định một cách gần đúng) giá trị tham số . Phương pháp mẫu cho phép

giải bài toán trên bằng quy nạp thống kê như sau: Từ tổng thể nghiên cứu rút ra 1 mẫu ngẫu

nhiên kích thước n và dựa vào đó xây dựng một thống kê θ = f( X1 , X2 , .., Xn ) dùng để

ước lượng bằng cách này hay cách khác, gọi là hàm ước lượng.

Có 2 phương pháp để ước lượng: ước lượng điểm và ước lượng bằng khoảng tin cậy.

IV.1 Phương pháp ước lượng điểm :

Phương pháp ước lượng điểm là phương pháp dùng một giá trị để thay thế cho tham số

chưa biết của tổng thể. Thông thường giá trị được chọn là một hàm ước lượng θ nào đó của

mẫu ngẫu nhiên. Có vô số hàm ước lượng θ khác nhau, vì vậy người ta đưa ra các tiêu

chuẩn để đánh giá chất lượng của các hàm này, để từ đó lựa chọn được hàm “xấp xỉ một

cách tốt nhất” tham số cần ước lượng.

Các tiêu chuẩn lựa chọn hàm ước lượng:

+ Ước lượng không chệch: θ là ước lượng không chệch của nếu E(θ ) = .

+ Ước lượng hiệu quả: θ là ước lượng hiệu quả của nếu nó là ước lượng không chệch

của và có phương sai nhỏ nhất so với các ước lượng không chệch khác được xây dựng

trên cùng mẫu đó.

+ Ước lượng vững: θ là ước lượng vững (hay ước lượng nhất quán) của nếu θ hội tụ

theo xác suất đến khi n ; tức là với mọi dương bé tùy ý thì ^

lim 1n

P

.

( + Ước lượng đủ: Một ước lượng θ được gọi là ước lượng đủ nếu nó chứa toàn bộ các

thông tin trong mẫu về tham số của ước lượng. Chẳng hạn trung bình mẫu và trung vị

đều là các hàm ước lượng không chệch của trung bình tổng thể, song trung bình mẫu là

ước lượng đủ còn trung vị mẫu lại không phải ước lượng đủ, vì nó chỉ dùng đến giá trị

chính giữa của dãy số liệu mẫu mà thôi. )

Phương pháp ước lượng hợp lý cực đại:

Có nhiều phương pháp ước lượng tổng quát như phương pháp moment, phương pháp Bayes,

phương pháp minimax,.., nhưng thông dụng nhất là phương pháp ước lượng hợp lý cực đại

(maximal likelyhood). Phương pháp này do Ronald Fisher đề ra, nó là một trong những

phương pháp quan trọng và hay dùng nhất để tìm hàm ước lượng.

Page 8: Chuong III Phan Thong Ke

8

Giả sử ta đã biết phân phối xác suất tổng quát của biến ngẫu nhiên gốc X dưới dạng hàm

mật độ f(x, ). Đó cũng có thể là biểu thức xác suất nếu X là biến ngẫu nhiên rời rạc. Để

ước lượng , ta lấy mẫu ngẫu nhiên (X1,X2,…,Xn) và lập hàm số:

L()= f(X1, ). f(X2, )….f(Xn, ).

Hàm L được gọi là hàm hợp lý của mẫu, nó phụ thuộc vào X1, X2,….,Xn và nhưng ta coi

X1, X2,….,Xn là các hằng số, còn được coi là biến số. Từ đó tìm hàm ước lượng θ phụ

thuộc vào X1, X2,….,Xn sao cho L() đạt GTLN tại θ .

Bảng 1- Tóm tắt một số hàm ước lượng tham số thông dụng:

Tham số

cần ước

lượng

Chọn thống kê θ để

ước lượng

E[θ ] D[θ ] Tính chất của ước

lượng

Tỉ lệ p

(xác suất)

F = m

n

E(F) =p

D(F)=

p(1-p)

n

Không chệch, vững,

hiệu quả; hợp lý cực

đại.

Kỳ vọng

= E(X)

n

i

i=1

1X = X

n E X =

2

D Xn

Không chệch, vững,

hiệu quả; hợp lý cực

đại.

Phương sai

2 = D(X)

n22

i

i=1

1S = (X -X)

n

2 n-1E S =

n

2

… Chệch, vững; hợp lý

cực đại.

n2 2

i

i=1

1S = (X -X)

n-1

2E S 2

… Không chệch, vững.

IV.2 Phương pháp ước lượng bằng khoảng tin cậy:

Nói chung mọi ước lượng đều có sai số. Một nhược điểm cơ bản của phương pháp

ước lượng điểm là khi kích thước mẫu chưa thực sự lớn thì ước lượng điểm tìm được có thể

sai lệch rất nhiều so với giá trị của tham số cần ước lượng. Mặt khác dùng các phương pháp

ước lượng điểm này không đánh giá được khả năng mắc sai lầm là bao nhiêu.

Khoảng ( G1, G2 ) của thống kê G được gọi là khoảng tin cậy (hay khoảng ước lượng)

của tham số nếu nó thỏa điều kiện P( G1 < < G2 ) = 1- với (1- ) cho trước. Khi đó

xác suất (1- ) được gọi là độ tin cậy của ước lượng, còn I = G2 - G1 gọi là độ dài khoảng

tin cậy (hay độ dài khoảng ước lượng) .

Nếu θ là một ước lượng không chệch của thì khoảng tin cậy của tham số có

dạng θ , θ được gọi là khoảng tin cậy đối xứng.

Page 9: Chuong III Phan Thong Ke

9

Phương pháp tìm khoảng tin cậy cho tham số với độ tin cậy 1- cho trước:

Trước tiên ta xây dựng hàm ước lượng G = f(X1 , X2 , .., Xn , ) sao cho quy luật phân phối

xác suất của G hoàn toàn xác định, không phụ thuộc vào các đối số. Chọn các giá trị không

âm 1, 2 sao cho 1 + 2 = và tìm G1 , G2 tương ứng mà P( G < G1) =1 và

P (G > G2 ) = 2. Từ đó suy ra P( G1 < G < G2) = 1 - . Biến đổi tương đương sẽ tìm

được các giá trị G1, G2 sao cho P(G1 < < G2 ) = 1- . Khi đó khoảng (G1, G2) chính là

một trong các khoảng tin cậy cần tìm.

Theo nguyên lý xác suất lớn thì với độ tin cậy (1 -) đủ lớn ta hầu như chắc chắn biến cố

(G1 < < G2 ) sẽ xảy ra trong một phép thử. Vì vậy trong thực tế chỉ cần thực hiện phép thử

để có được một mẫu cụ thể w = (x1, x2 , .., xn) rồi tính giá trị của G1 và G2 ứng với mẫu đã

cho.

Phương pháp ước lượng bằng khoảng tin cậy có ưu thế hơn phương pháp ước lượng điểm vì

nó làm tăng độ chính xác của ước lượng và còn đánh giá được mức độ tin cậy của ước

lượng. Nó chứa đựng khả năng mắc sai lầm là .

Ví dụ: Xét mẫu tổng quát có kích thước n ( đủ lớn) và tỉ lệ mẫu F.

Ký hiệu f là tỉ lệ của một mẫu cụ thể.

Tìm khoảng tin cậy đối xứng cho tỉ lệ tổng thể p với độ tin cậy 1-.

Theo một kết quả đã nêu ở mục 1. trong III.3.3 (Chương III), nếu đặt:

(1 )

F pG n

f f

thì G (0,1)N .

Chọn 1= 2 = /2 ;

Chọn z thỏa 1

( )2

z

(tra ngược bảng Phụ lục II)

thì P( - z < G < z ) = 1 -

P 1-α(1 )

F pz n z

f f

. (1 ) . (1 )

P 1-αz f f z f f

F pn n

. (1 ) . (1 )

P 1-αz f f z f f

F p Fn n

P 1-αF p F ;ở đây (1 )z f f

n

gọi là sai số của ước lượng.

Vậy khoảng ước lượng đối xứng cho p là (F-; F+). Độ dài khoảng ước lượng này là 2.

Page 10: Chuong III Phan Thong Ke

10

Với một mẫu cụ thể có tỉ lệ mẫu f, ta tìm được khoảng ước lượng cho p là (f-; f+) với độ

tin cậy 1-. Tuy nhiên lúc này ta lại không thể nói P( f-< p< f+) = 1-, vì đây là khoảng

cụ thể và p cũng là 1 số cụ thể (dù ta chưa biết) nên xác suất này chỉ có thể bằng không

hoặc bằng 1. Giả sử ta chọn độ tin cậy 1- = 95% thì có thể hiểu ý nghĩa của biểu thức

P 95%F p F như sau: Nếu chúng ta lấy rất nhiều mẫu cụ thể khác nhau

có cùng kích thước n thì có 95% số khoảng ước lượng tương ứng chứa p.

Tham khảo cách trình bày khác:

Từ kết quả trong Bảng 1, do F là ước lượng không chệch của p nên ta chọn hàm ước lượng

F để ước lượng cho tỉ lệ tổng thể p chưa biết.

Khoảng ước lượng đối xứng có dạng (F- , F +), vì thế ta sẽ phải tìm sao cho

P (F- < p < F +) = 1 - (1)

Từ (1) suy ra P ( - < F- p < ) = 1 - hay

P 1-α(1 ) (1 ) (1 )

F pn n n

f f f f f f

.

Đặt (1 )

z nf f

, bài toán dẫn đến tìm z để P 1-α

(1 )

F pz n z

f f

(2)

Do hàm (1 )

F pG n

f f

(0,1)N nên biểu thức (2) 1P z G z

2. ( ) 1z , dẫn đến 1

( ) .2

z

Tìm z bằng cách tra (ngược) bảng giá trị hàm tích phân Laplace (x) ở bảng Phụ lục II,

sau đó thay vào biểu thức tìm sẽ được công thức . (1 )z f f

n

.

Lưu ý:

* Có vô số khoảng ước lượng cho giá trị p của tổng thể tùy theo cách chọn 1, 2 sao cho

1 + 2= . Đối với bài toán ước lượng tỉ lệ như trên hay ước lượng trung bình ( tìm tương

tự) thì khoảng ước lượng này chính là khoảng ước lượng đối xứng và nó có độ dài ngắn

nhất. Đối với bài toán ước lượng phương sai nói chung (xem phần sau) thì khoảng ước

lượng tương ứng không là đối xứng.

* Với giả thiết từ bài toán trên, nếu ta chọn trước 1= 0 và 2 = thì ta thu được khoảng

ước lượng bên trái 2 (1 )

, Fz f f

n

hay 2 (1 )

0, Fz f f

n

với

2

1 2( )

2z

; Người ta nói 2 (1 )

Fz f f

n

là ước lượng giá trị tối đa của p .

Page 11: Chuong III Phan Thong Ke

11

* Nếu chọn 1= và 2= 0 thì ta thu được khoảng ƯL bên phải 2 (1 )

F ,z f f

n

hay 2 (1 )

F ,1z f f

n

, và ước lượng giá trị tối thiểu của p là 2 (1 )F

z f f

n

.

* Nếu độ tin cậy tăng thì z tăng, dẫn đến khoảng ước lượng rộng ra. Nếu ta muốn độ tin

cậy tăng nhưng khoảng ước lượng không tăng thì phải tăng kích thước mẫu.

Bảng 2: Tóm tắt kết quả một số bài toán ước lượng khoảng thông dụng trong phạm vi

chương trình.

Tham số cần

ước lượng

Phân bố của

tổng thể

Thông tin bổ sung Khoảng tin cậy

Tỉ lệ p

(xác suất)

Nhị thức

B(1, p)

Mẫu lớn ( n 30 )

α

(1 )F ± z .

f f

n

Trung bình

a

Bất kỳ Mẫu lớn

( n 30 ) α

SX ± z .

n

Chuẩn N(a,2)

2

đã biết α

σX ± z .

n

Chuẩn N(a,2)

2

chưa biết

Mẫu nhỏ ( n < 30 ) S

X ± T .n

Phương sai

2

Chuẩn N(a,2)

a chưa biết 2 2

2 2

12 2

( 1) ( 1)

( 1) ( 1),

n n

n s n s

a đã biết 2 2 2 2

1 1

2 2

12 2

( 1) ( 1)

. .

,

n n

i i

i i

n n

X n a X n a

Hướng dẫn lời giải chi tiết để tìm các khoảng ước lượng từ một mẫu cụ thể :

1. Ước lượng khoảng cho tỉ lệ tổng thể p trong trường hợp mẫu đủ lớn:

- Xác định kích thước mẫu n, tỉ lệ mẫu f.

- Từ độ tin cậy 1- , tìm giá trị z thỏa 1

( )2

z

.

Page 12: Chuong III Phan Thong Ke

12

- Tìm (sai số của ƯL, hay độ chính xác của ƯL) từ công thức: (1 )z f f

n

.

- Suy ra khoảng ước lượng cho p : ( f - ; f+ )

2. Ước lượng khoảng cho trung bình tổng thể a :

a) Trường hợp n ≥ 30 , chưa biết phương sai tổng thể 2:

- Xác định kích thước mẫu n , trung bình mẫu x ; độ lệch mẫu hiệu chỉnh s.

- Từ độ tin cậy 1- , tìm giá trị z thỏa 1

( )2

z

- Tìm từ công thức : .z s

n

- Suy ra khoảng ước lượng cho a : ( x - ; x + )

b) Trường hợp tổng thể có phân phối chuẩn, đã biết phương sai tổng thể 2 :

Tương tự trường hợp a) , chỉ cần thay .z

n

c) Trường hợp tổng thể có phân phối chuẩn, chưa biết phương sai 2 , n < 30:

- Xác định kích thước mẫu n , trung bình mẫu x ; độ lệch mẫu hiệu chỉnh s.

- Từ độ tin cậy 1- , tìm giá trị T trong bảng phân phối Student ở phần Phụ lục.

Nếu dùng bảng P(T< Tk ) = 1- hay bảng P(T > T

k ) = thì ta tra giá trị

T = ( 1)

2

nt

nằm ở dòng thứ n-1, cột 2

. Còn với bảng P(T< T

k ) = 1- thì tra

( 1)T nt

ở dòng n-1 và cột .

- Tìm từ công thức : .T s

n

- Suy ra khoảng ước lượng cho a : ( x - ; x + )

3. Ước lượng khoảng cho phương sai tổng thể 2

Trường hợp chưa biết trung bình tổng thể

- Xác định kích thước mẫu n, phương sai mẫu hiệu chỉnh s2.

- Từ độ tin cậy 1- , tra bảng phân phối Khi bình phương ở phần Phụ lục để tìm các

giá trị 2 ( 1)

2

n

và 2 ( 1)

12

n

. (Lưu ý đây là bảng P(

2 >

2,n ) = ).

- Suy ra khoảng ước lượng cho 2 :

2 2

2 ( 1) 2 ( 1)

12 2

( 1) ( 1),

n n

n s n s

Page 13: Chuong III Phan Thong Ke

13

4. Một số bài toán ƯL khác: UL hiệu 2 kỳ vọng toán, ƯL hiệu 2 tỉ lệ; ƯL tỉ lệ của 2

phương sai: tự tham khảo.

Một số bài toán mở rộng:

1) Bài toán xác định cỡ mẫu n khi đã biết sai số của UL là và độ tin cậy 1- .

2) Bài toán xác định độ tin cậy khi đã biết sai số của UL là và cỡ mẫu n .

Yêu cầu SV tự tìm lời giải từ các công thức tương ứng .

BÀI TẬP CHƯƠNG IV

1. Bằng khoảng tin cậy đối xứng, hãy ước lượng tỉ lệ nảy mầm của 1 loại hạt giống với

độ tin cậy 0,99 trên cơ sở gieo 1000 hạt thì có 140 hạt không nảy mầm. Hãy ước

lượng tỉ lệ tối thiểu và tối đa của tỉ lệ hạt nảy mầm.

2. Trong đợt vận động bầu cử ở một bang có khoảng 4 triệu cử tri, người ta phỏng vấn

1600 cử tri thì có 960 cử tri ủng hộ ứng cử viên A. Với độ tin cậy 98% , hãy dự đoán

xem ứng cử viên A có khoảng bao nhiêu phiếu ủng hộ ở bang này?

3. Để điều tra số cá trong một hồ, cơ quan quản lý đánh bắt 300 con, làm dấu rồi thả

xuống hồ. Lần sau người ta bắt ngẫu nhiên 400 con thì thấy có 60 con đã được đánh

dấu. Hãy xác định số cá trong hồ với độ tin cậy 96%.

4. Hao phí nguyên liệu cho một đơn vị sản phẩm là một đại lượng ngẫu nhiên tuân theo

quy luật chuẩn với độ lệch chuẩn = 0,03 . Người ta sản xuất thử 36 sản phẩm và thu

được bảng số liệu sau:

Mức hao phí nguyên liệu (gram) 19,5–19,7 19,7–19,9 19,9-20,1 20,1-20,3 ni 6 8 18 4

a) Với độ tin cậy 95%, hãy tìm khoảng tin cậy của mức hao phí nguyên liệu trung

bình cho một đơn vị sản phẩm.

b) Nếu muốn độ dài khoảng tin cậy là 0,01 thì cần sản xuất thêm bao nhiêu sản phẩm

nữa?

5. Để xác định giá trung bình của một loại hàng hóa trên thị trường, người ta điều tra

ngẫu nhiên 100 cửa hàng và thu được số liệu:

Giá (nghìn đồng) 83 84 85 86 87 88 89 90 Số cửa hàng 6 7 12 15 30 10 10 10

a) Hãy tìm khoảng tin cậy cho giá trung bình của loại hàng hóa trên tại thời điểm

đang xét với độ tin cậy 97% .

b) Nếu muốn sai số của ước lượng không vượt quá 300 đồng và độ tin cậy của ước

lượng là 99% thì cần phải điều tra thêm ít nhất bao nhiêu cửa hàng?

6. Người ta xếp cứ 100 trái ổi vào một thùng, có rất nhiều thùng như thế. Kiểm tra ngẫu

nhiên 50 thùng thấy có 450 trái ổi không đạt tiêu chuẩn.

a) Hãy ước lượng tỉ lệ trái ổi không đạt tiêu chuẩn với độ tin cậy 95%.

b) Nếu ta ước lượng tỉ lệ trái ổi không đạt tiêu chuẩn với độ chính xác 0,5% thì độ tin

cậy của ước lượng là bao nhiêu?

Page 14: Chuong III Phan Thong Ke

14

c) Muốn ước lượng tỉ lệ trái ổi không đạt tiêu chuẩn với độ tin cậy 99,7% thì độ

chính xác đạt được là bao nhiêu?

7. Biết rằng thời gian thi công một chi tiết máy tuân theo quy luật phân phối chuẩn. Để

định mức thời gian gia công một chi tiết máy, người ta theo dõi ngẫu nhiên quá trình

thi công của 25 chi tiết và có được số liệu ở bảng sau:

Thời gian gia công (phút) 15-17 17-19 19-21 21-23 23-25 25-27 Số chi tiết máy tương ứng 1 3 4 12 3 2

a) Hãy tìm khoảng ước lượng cho thời gian gia công trung bình một chi tiết máy với độ

tin cậy 0,95.

b) Hãy tìm khoảng ước lượng cho phương sai với độ tin cậy 0,95.

8. Để ước lượng doanh thu của 1 công ty gồm 380 cửa hàng trên toàn quốc trong 1 tháng,

người ta chọn ngẫu nhiên 10% số cửa hàng và có bảng thống kê doanh thu trong 1 tháng

như sau:

Doanh thu (triệu đồng / tháng) 20 40 60 80 Số cửa hàng 8 16 12 2

a) Với độ tin cậy 97%, hãy ước lượng doanh thu trung bình của mỗi cửa hàng và doanh

thu trung bình của công ty trong 1 tháng.

b) Nếu muốn có sai số của ước lượng doanh thu trung bình của mỗi cửa hàng trong 1

tháng là ba triệu đồng thì độ tin cậy của khoảng ước lượng khi đó là bao nhiêu?

9. Để nghiên cứu nhu cầu về loại hàng A ở một khu vực người ta tiến hành khảo sát 400

trong toàn bộ 4000 gia đình, được kết quả:

Nhu cầu (kg/tháng) 0–1 1–2 2–3 3–4 4–5 5–6 6–7 7–8 Số gia đình 10 35 86 132 78 31 18 10

a) Ước lượng nhu cầu trung bình loại hàng A của khu vực trên trong 1 năm với độ tin

cậy 95%.

b) Muốn có ước lượng trên với độ chính xác 4,8 tấn và độ tin cậy 95% thì cần khảo sát

tối thiểu bao nhiêu gia đình trong khu vực?

10. Để nghiên cứu độ ổn định của 1 loại máy tiện người ta đo ngẫu nhiên đường kính (có

phân phối chuẩn và đơn vị là mm) 24 trục máy do loại máy tiện này làm ra thì có kết

quả dưới đây . Với độ tin cậy 96 %, hãy ước lượng đường kính trung bình và độ phân tán

của đường kính trục máy.

24,1; 27,2; 26,7; 23,6; 24,6; 24,5; 26,4; 26,1; 25,8; 27,3; 23,2; 26,9

27,1; 25,4; 23,3; 25,9; 22,7; 26,9; 24,8; 24,0; 23,4; 23,0; 24,3; 25,4

11. Người ta muốn ước lượng tỉ lệ phế phẩm trong một lô hàng mới nhập về với độ tin cậy

99% và sai số không vượt quá 3%. Hãy cho biết để thỏa yêu cầu đó người ta phải kiểm

tra ít nhất bao nhiêu sản phẩm với mỗi giả thiết sau:

a) Chưa có một thông tin gì liên quan đến tỉ lệ phế phẩm của lô hàng;

b) Người ta đã lấy một mẫu sơ bộ thì thấy tỉ lệ phế phẩm trong mẫu này là 20%.

Page 15: Chuong III Phan Thong Ke

15

CHƯƠNG V KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ

V.1 Một số khái niệm:

- Giả thiết thống kê là giả thiết về dạng phân phối xác suất của biến ngẫu nhiên, về giả

thiết các tham số đặc trưng của biến ngẫu nhiên, hay về tính độc lập của các biến ngẫu

nhiên. Người ta thường dựa vào các cơ sở nào đó để đưa ra giả thiết thống kê, được kí hiệu

là H0 và gọi là giả thiết gốc. Một mệnh đề mâu thuẫn với H0 luôn được đi kèm với H0, gọi

là giả thiết đối, kí hiệu H1.

VD : H0 : Nhu cầu của thị trường về mặt hàng A tuân theo quy luật phân phối chuẩn.

H1 : Nhu cầu của thị trường về mặt hàng A không tuân theo luật phân phối chuẩn.

VD: H0 : p = p0 ( Tỉ lệ phế phẩm do máy sản xuất là p0 ).

H1 : p p0 ( nếu là bài toán kiểm định 2 phía );

hay H1 : p < p0 ( nếu là bài toán kiểm định bên trái );

hay H1 : p > p0 ( nếu là bài toán kiểm định bên phải ).

- Đối với những bài toán kiểm định tham số, trong phạm vi chương trình ta giới hạn chỉ

xét bài toán kiểm định 2 phía. Vì các giả thiết thống kê có thể đúng, có thể sai nên cần phải

kiểm định, tức là xem có thể thừa nhận hay không thừa nhận giá trị đó. Việc kiểm định này

dựa vào thông tin thực nghiệm của mẫu để kết luận nên có tên gọi là kiểm định thống kê.

- Phương pháp chung để kiểm định một giả thiết thống kê như sau : Trước hết, ta giả

thiết H0 là đúng. Từ thông tin của mẫu tìm được một biến cố A nào đó sao cho xác suất xảy

ra biến cố A bằng nhỏ đến mức có thể sử dụng nguyên lý xác suất nhỏ, tức là coi A không

xảy ra trong một phép thử về biến cố này. Lúc đó trên một mẫu cụ thể thực hiện một phép

thử với biến cố A. Nếu A xảy ra thì điều đó coi như vô lý, dẫn đến kết luận H0 sai, còn nếu

A không xảy ra thì ta chưa có cơ sở để bác bỏ H0.

- Từ biến ngẫu nhiên X trong tổng thể, lấy mẫu ngẫu nhiên W= ( X1, X2, .., Xn ) và chọn

thống kê G = f( X1 , X2 , .., Xn , 0), trong đó 0 là tham số liên quan đến giả thiết cần kiểm

định. Điều kiện đặt ra với thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G

phải hoàn toàn xác định. Thống kê G được gọi là tiêu chuẩn kiểm định.

- Miền W gọi là miền bác bỏ giả thiết nếu P( G W / H0 đúng) = . là một số khá

bé, thường không quá 0,05 và gọi là mức ý nghĩa của kiểm định. Có vô số miền W như

vậy.

- Quy tắc kiểm định : Từ thực nghiệm ta thu được mẫu cụ thể , qua đó tính được một giá trị

cụ thể của tiêu chuẩn kiểm định là gqs =f(x1 , x2 , .., xn , ) .

Nếu gqs W thì bác bỏ giả thiết H0 , thừa nhận giả thiết H1 .

Nếu gqs W : ta chưa đủ dữ liệu khẳng định H0 sai , do đó phải chấp nhận H0.

Page 16: Chuong III Phan Thong Ke

16

- Sai lầm loại I: Bác bỏ giả thiết H0 trong khi H0 đúng. Xác suất mắc phải sai lầm này

nếu H0 đúng chính bằng mức ý nghĩa . Nguyên nhân mắc phải sai lầm loại I thường có thể

do kích thước mẫu quá nhỏ, có thể do phương pháp lấy mẫu …

- Sai lầm loại II: Thừa nhận H0 trong khi H0 sai, tức là mặc dù H1 đúng nhưng giá trị

quan sát f(x1 , x2 , .., xn , ) không thuộc vào miền bác bỏ W.

Ta xét mối quan hệ sau giữa việc kiểm định giả thiết và các loại sai lầm:

Tình huống

Quyết định

H0 đúng H0 sai

Bác bỏ H0 Sai lầm loại I. Xác suất = Quyết định đúng.

Không bác bỏ H0 Quyết định đúng. Sai lầm loại II. Xác suất =

Ví dụ tham khảo:

Xét bài toán kiểm tra chất lượng sản phẩm giữa nhà sản xuất (hay nhà cung cấp, là

bên bán) và bên mua hàng. Giả thiết kiểm định là lô hàng đạt yêu cầu (với 1 tỉ lệ phế

phẩm nằm trong mức cho phép giữa 2 bên) . Giả thiết đối là lô hàng không đạt yêu cầu.

Khi chưa có sự hiểu biết giữa 2 bên, người tiêu dùng thường kiểm tra tất cả 100%

lô hàng, khi đó xác suất mắc sai lầm loại I và II coi như bằng 0. Khi nhà sản xuất đã có

uy tín nhất định, bên mua chỉ kiểm tra ngẫu nhiên một mẫu nào đó từ lô hàng. Nếu mẫu

đó đạt yêu cầu thì bên mua nhận toàn bộ lô hàng, ngược lại nếu mẫu đó không đạt yêu

cầu thì lô hàng đó bị hoàn trả. Lúc này chính là mức độ rủi ro cho nhà sản xuất, là

mức độ rủi ro cho người mua. càng nhỏ thì nhà cung cấp càng có lợi, càng nhỏ thì

người mua càng có lợi. Thông thường hai bên thỏa thuận trước với nhau mức ý nghĩa

dựa trên điều hòa lợi ích hai bên. Tuy nhiên không thể tăng lên quá mức vì sẽ dẫn đến

một sự nỗ lực quá lớn của nhà sản xuất.

Với một mẫu xác định, khi ta giảm đi thì đồng thời sẽ làm tăng và ngược lại. Ta

chỉ có thể cùng giảm xác suất mắc cả 2 loại sai lầm nói trên nếu tăng kích thước mẫu.

Người ta thường có xu hướng coi trọng xác suất mắc sai lầm loại I nên sẽ hạn chế trước

giá trị tùy vào bài toán cụ thể, và sau đó phải tìm miền bác bỏ W sao cho xác suất

mắc sai lầm loại II là nhỏ nhất. Miền W thỏa yêu cầu này được gọi là miền bác bỏ tốt

nhất dựa trên các cơ sở toán học chặt chẽ.

V.2 BÀI TOÁN KIỂM ĐỊNH THAM SỐ:

V.2.1 Kiểm định tỉ lệ:

Bài toán minh họa :

Để dễ hình dung, chúng ta trình bày quá trình kiểm định tỉ lệ tổng thể:

Giả sử ta chưa biết tỉ lệ tổng thể p, nhưng có cơ sở để đặt giả thiết H0: “ p = p0”.

* Xét bài toán kiểm định hai phía, tức là sử dụng giả thiết đối H1: “ p p0”.

Page 17: Chuong III Phan Thong Ke

17

Lập một mẫu có kích thước n , tỉ lệ mẫu F.

Nếu giả thiết H0 đúng thì theo các kết quả lý thuyết ở chương trước,

thống kê 0

0 0

(0,1)(1 )

F pZ n N

p p

.

Từ kết quả lý thuyết, miền bác bỏ tốt nhất chính là miền bác bỏ 2 phía W :

( , ) ( , )W z z sao cho P( Z W) = .

Vì Z N(0,1) nên P ( Z W ) = 1- P( Z< z ) = 1-

2 ( z) = 1 - ( z) = 1

2

.

Từ một mẫu ngẫu nhiên , ta tính được Zqs.

Nếu Zqs W thì bác bỏ giả thiết H0, công nhận giả thiết H1.

Nếu Zqs W thì ta vẫn phải thừa nhận H0.

* Đối với bài toán kiểm định bên trái, sử dụng giả thiết đối H1: “ p < p0”.

Thống kê Z được xây dựng như trên.

Miền bác bỏ “tốt nhất” trong bài toán này lại là miền bác bỏ bên trái ( , )W x

sao cho P(Z W) = .

Vì Z N(0,1) nên P ( x < Z < 0 ) = 1 1 2

2 2

(- x) =

1 2

2

.

Để dễ nhớ, ta kí hiệu cho x = - z2 .

Do đó 2( , )W z với (z2) = 1 2

2

.

* Đối với bài toán kiểm định bên phải, sử dụng giả thiết đối H1: “ p > p0”.

Tương tự ta có được miền bác bỏ tốt nhất là miền bên phải 2( , )W z

với (z2) = 1 2

2

.

Hướng dẫn chi tiết bài toán kiểm định đối với mẫu cụ thể.

A. Bài toán kiểm định tỉ lệ tổng thể :

Giả sử tổng thể có tỉ lệ p chưa biết. Mẫu có kích thước n ( n 30), tỉ lệ mẫu f.

Hãy kiểm định giả thiết H0 : “ p = p0 ” với giả thiết đối H1 và mức ý nghĩa .

Các bước giải:

B1: Đặt giả thiết kiểm định (KĐ) : H0 : “ p = p0 ” và giả thiết đối H1.

+ Nếu là bài toán KĐ 2 phía: H1: “ p p0 ”.

+ Nếu là bài toán KĐ bên trái: H1: “ p < p0 ”.

+ Nếu là bài toán KĐ bên phải: H1: “ p > p0 ”.

Tính các tham số đặc trưng của mẫu ( nếu còn thiếu ).

B2: + Nếu là bài toán KĐ 2 phía: Từ hệ thức 1

( )2

z

suy ra giá trị z.

Page 18: Chuong III Phan Thong Ke

18

Miền bác bỏ: ( , ) ( , )W z z

+ Nếu là bài toán KĐ bên trái: Từ hệ thức2

1 2( )

2z

suy ra giá trị z2.

Miền bác bỏ: 2( , )W z

+ Nếu là bài toán KĐ bên phải:Từ hệ thức2

1 2( )

2z

suy ra giá trị z2.

Miền bác bỏ: 2( , )W z

B3: Tính giá trị 0

0 0(1 )qs

f pz n

p p

B4: Kết luận : Nếu zqs W thì chấp nhận H0 .

Nếu zqs W thì bác bỏ H0, chấp nhận H1.

Lưu ý: Nếu chỉ xét bài toán KĐ 2 phía, ta còn có cách trình bày khác:

B1: Đặt giả thiết KĐ: H0 : “ p = p0 ” và giả thiết đối H1: “ p p0 ”.

B2: Từ hệ thức 1

( )2

z

suy ra giá trị z.

B3: Tính giá trị 0

0 0(1 )qs

f pZ n

p p

B4: Kết luận : Nếu Zqs z thì chấp nhận H0.

Nếu Zqs > z thì bác bỏ H0, chấp nhận H1.

B. Bài toán kiểm định so sánh tỉ lệ hai tổng thể :

Giả sử tổng thể I có tỉ lệ p1 chưa biết , tổng thể II có tỉ lệ p2 chưa biết.

Từ tổng thể I lấy một mẫu có kích thước n1, tỉ lệ mẫu f1.

Từ tổng thể II lấy một mẫu có kích thước n2, tỉ lệ mẫu f2. ( n1, n2 30)

Hãy kiểm định giả thiết H0: “ p1 = p2 ” với giả thiết đối H1 và mức ý nghĩa .

Các bước tiến hành cho bài toán KĐ hai phía:

B1: Đặt giả thiết kiểm định H0: “p1 = p2 ” và giả thiết đối H1: “ p1 p2 ”.

B2: Từ hệ thức 1

( )2

z

suy ra giá trị z .

Miền bác bỏ tương ứng Wα = (-, -zα) (zα, +)

B3: Tính giá trị 1 2 1 1 2 2*

1 2

* *

1 2

;1 1

(1 )

qs

f f n f n fz p

n np p

n n

B4: Kết luận: Nếu zqs W thì chấp nhận H0 .

Nếu zqs W thì bác bỏ H0, chấp nhận H1.

Lưu ý: Riêng bài toán kiểm định so sánh 2 tỉ lệ, người ta còn có cách làm khác là gọi là

kiểm định Chi-bình-phương, xem thêm ở mục Kiểm định tính độc lập, phần sau.

Page 19: Chuong III Phan Thong Ke

19

Bảng 3: Tóm tắt các kết quả bài toán kiểm định tỉ lệ (hay gọi bài toán kiểm định

xác suất p):

Giả

thiết

KĐ H0

Giả

thiết đối

H1

Tiêu chuẩn kiểm định

Miền bác bỏ H0 với mức ý

nghĩa

BT

1 mẫu

Mẫu

lớn

p = p0

p p0 0

0 0(1 )qs

F pZ n

p p

Wα = (-, -zα) (zα, +)

p < p0 Wα = (-, -z2α)

p > p0 Wα = (z2α, +)

BT

2 mẫu

Mẫu

lớn

p1 = p2

p1 p2 1 2

1 2

;1 1

(1 )

qs

F FZ

p pn n

1 1 2 2

1 2

n F n Fp

n n

Wα = (-, -zα) (zα, +)

p1 < p2 Wα = (-, -z2α)

p1 > p2 Wα = (z2α, +)

V.2.2 Kiểm định trung bình:

A. Bài toán kiểm định trung bình tổng thể:

Giả sử tổng thể có trung bình a chưa biết.

Mẫu có kích thước n, trung bình mẫu X , phương sai (PS) mẫu hiệu chỉnh S2.

Xét ví dụ bài toán kiểm định giả thiết H0: “a = a0” với giả thiết đối H1: “a a0”

và mức ý nghĩa . Đối với các trường hợp H1 còn lại, SV xem trong bảng tóm tắt.

a) Trường hợp n 30, không biết phương sai tổng thể 2 :

B1: Đặt giả thiết kiểm định H0: “a = a 0” và giả thiết đối H1: “a a 0 ”.

Tính các tham số đặc trưng của mẫu ( nếu còn thiếu ).

B2: Từ hệ thức 1

( )2

z

suy ra giá trị z,

và miền bác bỏ Wα = (-, -zα) (zα, +).

B3: Tính 0

q s

X aZ n

S

.

B4: Kết luận : Nếu zqs W thì chấp nhận H0 .

Nếu zqs W thì bác bỏ H0, chấp nhận H1.

b) Trường hợp tổng thể có phân phối chuẩn, đã biết phương sai 2:

Tương tự trường hợp a) , chỉ thay đổi ở B3.

B3: Tính 0

q s

X aZ n

Page 20: Chuong III Phan Thong Ke

20

c) Trường hợp n < 30, tổng thể có phân phối chuẩn, chưa biết phương sai 2:

Tương tự trường hợp a), chỉ thay đổi ở B2 và B4.

B2: Tìm t/2 n-1

bằng cách tra bảng Student P(T > Tk ) = thay vì tính z.

Miền bác bỏ 2 phía khi đó trở thành Wα = (-, - t/2 (n-1

) (t/2 (n-1)

, +).

B4: Kết luận : Nếu tqs W thì chấp nhận H0 .

Nếu tqs W thì bác bỏ H0, chấp nhận H1. ( cách viết zqs hay tqs chỉ đơn thuần là ký hiệu cho dễ nhớ)

B. Bài toán kiểm định so sánh 2 trung bình:

Giả sử tổng thể I có trung bình a1 chưa biết, tổng thể II có trung bình a2 chưa biết.

Từ tổng thể I lấy mẫu có kích thước n1, trung bình mẫu 1X , PS mẫu hiệu chỉnh S1

2.

Từ tổng thể II lấy mẫu có kích thước n2, trung bình mẫu 2X , PS mẫu hiệu chỉnh S2

2.

Hãy kiểm định giả thiết H0: “a1 = a2” với giả thiết đối H1: “a1 a2” và mức ý nghĩa .

Đối với các trường hợp H1 khác, SV xem trong bảng tóm tắt ở phần dưới.

a) Trường hợp n1, n2 30:

B1: Đặt giả thiết kiểm định H0: “a1 = a2” và giả thiết đối H1: “a 1 a 2”.

B3: Tính 1 2

2 2

1 2

1 2

qs

X XZ

S S

n n

.

Nếu đã biết 12, 2

2 thì dùng 1

2, 2

2 ; không cần sử dụng S1

2, S2

2.

B2 và B4 tương tự như trường hợp A.a) trên.

b) Trường hợp n1 < 30 hoặc n2 < 30, các tổng thể có phân phối chuẩn, chưa biết 12,

22

nhưng biết 12 = 2

2 :

B2: tìm t/2(n1 + n2 -2 )

từ bảng Student, bậc n1 + n2 -2.

B3: Tính giống trường hợp a)

Chúng ta tóm tắt các công thức của bài toán kiểm định trung bình qua bảng sau với

lưu ý các bảng phụ lục được sử dụng kèm theo là:

+ PL1: Bảng tra số cho Phân vị chuẩn (Bảng giá trị tích phân Laplace).

+ PL2: Bảng tra số cho phân phối Student P( Tn > tn, ) = .

+ PL3: Bảng tra số cho phân phối Khi bình phương P( 2 >

2,n ) = .

+ PL4: Bảng tra số cho phân phối Fisher P(F > fα ) = α .

Page 21: Chuong III Phan Thong Ke

21

Bảng 4 và Bảng 5: Kiểm định trung bình và Kiểm định phương sai

GT KĐ

H0

GT đối

H1

Tiêu chuẩn kiểm định Miền bác bỏ H0 với mức ý nghĩa

BT

1

mẫu

2 chưa biết

2 đã biết

- Tổngthể ph phối

chuẩn, biết 2.

- Hoặc tổng thể

tùy ý, mẫu lớn (n

30). PL1

- Tổng thể phân phối

chuẩn.

- n < 30.

- Chưa biết 2.

PL2

a = a 0 a a 0 0

qs

X aZ n

S

0qs

X aZ n

Wα = (-, -zα)

(zα, +)

Wα = (-, - 2

( 1)t n )

(

2

( 1)t n , +)

a < a 0 Wα = (-, -z2α) Wα = (-, - t(n-1)

)

a > a 0 Wα = (z2α, +) Wα = (t(n-1)

, +)

BT

2

mẫu

Nếu đã biết 12

và 22

thì

dùng thay thế S12 và S2

2.

-Tổng thể tùy ý.

- n1 , n2 30

PL1

- 2 tổng thể có phân

phối chuẩn.

-12,2

2 chưa biết

nhưng 12 =2

2.

-n1<30 hay n2<30

a 1 = a 2 a 1 a2 1 2

2 2

1 2

1 2

qs

X XT

S S

n n

Wα = (-, -zα)

(zα, +)

Wα =(-,- 1 2

2

( 2)t n n )

( 1 2

2

( 2)t n n , +)

a1 < a 2 Wα = (-, -z2α) Wα=(-, - 1 2( 2)t n n )

a1 > a 2 Wα = (z2α, +) Wα =( 1 2( 2)t n n ,+)

VII.2.3 Kiểm định phương sai:

Giả

thiết

KĐ H0

Giả

thiết

đối H1

ĐK của PP

tổng thể Tiêu chuẩn

kiểm định Miền bác bỏ H0 với mức ý nghĩa

BT 1 mẫu

2 =

20

2

20

-Bất kỳ khi

mẫu lớn. -PP chuẩn,

khi n nhỏ.

22

2

0

( 1)q s

n S

Wα = [0, 2

12

( 1)n

) (2

2

( 1)n , +)

PL3

2<

20 Wα = [0,

2

1 ( 1)n )

2>

20 Wα = (

2( 1)n , +)

BT 2

mẫu

2

1=22

2

12

2 -Bất kỳ khi

mẫu lớn. -PP chuẩn,

khi n nhỏ. - Chưa biết

a1,a2.

2

1

2

2

q s

SF

S

Luôn lưu ý

đặt S1 > S2

Wα = ( 1 2

2

( 1; 1)n nf , +) PL4

2

1>22 Wα = ( 1 2( 1; 1)n nf , + )

Page 22: Chuong III Phan Thong Ke

22

V.2.4 Giá trị xác suất của kiểm định: giá trị P ( P-value):

Bây giờ chúng ta nhìn lại bài toán kiểm định 2 phía cho trung bình tổng thể a với trường

hợp n≥30. Giả sử mức ý nghĩa đang được xem xét là α1=0,05 thì zα1=1,96 và miền bác bỏ

tương ứng là Wα1 =(-; -1,96) (1,96; +).

Nếu từ một mẫu cụ thể ta tính được zqsA = 2,10 Wα1 nên giả thiết H0 tương ứng bị bác

bỏ. Nếu với một mẫu cụ thể khác ta tính được zqsB = 10 chẳng hạn thì giả thiết H0 cũng bị

bác bỏ. Ta nhận thấy việc bác bỏ H0 trong trường hợp sau “thuyết phục” hơn.

Một mặt khác, nếu thay đổi mức ý nghĩa đang được xem xét thành α2=0,02 thì zα2=2,33

và miền bác bỏ tương ứng là Wα2 =(-; -2,33) (2,33; -). Lúc này ta vẫn bác bỏ H0 nếu

zqsB = 10 nhưng lại phải chấp nhận H0 nếu zqsB = 2,10. Rõ ràng việc bác bỏ H0 với zqsB = 10

“khá thuyết phục” nhưng việc kết luận bác bỏ hay chấp nhận H0 với

zqsB = 2,10 lại “ít thuyết phục” hơn.

Quá trình kiểm định như trên được gọi là kiểm định theo cách tiếp cận cổ điển. Gần đây

nhiều nhà nghiên cứu thường sử dụng một cách tiếp cận khác. Thay vì kiểm định giả thiết

với một mức ý nghĩa định trước thì họ cho rằng sau khi định rõ các giả thiết kiểm định H0

và giả thiết đối H1, ta thu thập các số liệu mẫu và xác định mức độ khẳng định việc bác bỏ

giả thiết H0. Mức độ khẳng định này thường được gọi là giá trị xác suất P hay P-value.

Nói cách khác, mức ý nghĩa nhỏ nhất tại đó giả thiết H0 bị bác bỏ được gọi là giá trị P

kết hợp với mẫu quan sát được.

Xét ví dụ là bài toán kiểm định trung bình tổng thể trong trường hợp mẫu lớn (n 30).

Tiêu chuẩn kiểm định là thống kê 0X-a

Z= n (0,1)S

N nếu H0 : “ a = a0” đúng.

a) Giả thiết kiểm định H0 : “ a = a0”. H1: “a a 0”.

P-value = 2. P( Z >Zqs)

= 2* [ 0,5 - (|Zqs|) ] = 1 - (|Zqs|)

VD: Nếu zqs = 2,01

P_value = 1 - (2,01) = 4,44 %

b) Giả thiết kiểm định H0 : “ a = a0”. H1: “a < a 0”.

P-value = P (Z < Zqs) = 0,5 + (Zqs)

* Nếu zqs = - 2,01 P_value = 0,5+(2,01)

= 0,5- 0,4778 = 2,22%

* Nếu zqs = 2,01

P_value = 0,5 + (2,01) = 97,78 %

Page 23: Chuong III Phan Thong Ke

23

c) Giả thiết kiểm định H0 : “ a = a0”. H1: “a > a 0”.

P-value = P (Z > Zqs)

= 0,5 - (Zqs)

VD: Nếu zqs = 2,01

P_value = 0,5 - (2,01)

= 2,22 %

Trong VD ở mục a) P_value = 4,44% tức là giả thiết H0 sẽ bị bác bỏ khi mức ý nghĩa

được yêu cầu trong bài toán lớn hơn 4,44%. Nếu mức ý nghĩa trong bài nhỏ hơn

4,44% thì ta phải công nhận giả thiết H0.

Các phần mềm thống kê hiện nay đều đưa ra P-value cho mỗi bài toán kiểm định để độc

giả tự đánh giá kết quả. Ý tưởng chủ đạo là P-value càng nhỏ thì càng bác bỏ giả thiết

mạnh, P-value càng lớn thì càng chấp nhận giả thiết mạnh.

Thông thường người ta tiến hành kiểm định theo nguyên tắc:

- Nếu 0,1 P-value: ta thường thừa nhận H0.

- Nếu 0,05 P-value < 0,1: cân nhắc cẩn thận trước khi bác bỏ H0.

- Nếu 0,01 P-value < 0,05: nghiêng về hướng bác bỏ H0 nhiều hơn.

- Nếu 0,001 P-value < 0,01: có thể ít băn khoăn khi bác bỏ H0.

- Nếu P-value < 0,001: có thể hoàn toàn yên tâm khi bác bỏ H0.

Trong các VD ở mục a) và c) ta tính được giá trị P tương đối nhỏ nên kết luận nghiêng

về xu hướng bác bỏ H0. Còn VD ở mục b) khi zqs= -2,01 thì giá trị P quá lớn nên ta luôn

chấp nhận H0.

Những trường hợp tiêu chuẩn kiểm định có các phân phối khác như phân phối Student,

phân phối Khi bình phương, phân phối Fisher, chúng ta có thể tìm giá trị P tương ứng

với giá trị quan sát được lấy từ mẫu. Tuy nhiên do hạn chế của phần tra bảng nên chúng

ta không trình bày VD ở đây, để tính toán chúng, sinh viên có thể sử dụng các hàm

tương ứng trong Excel.

V.2.5 Tìm xác suất mắc sai lầm loại 2 ( β ) và năng lực kiểm định (1- β) :

Xét bài toán kiểm định trung bình tổng thể với trường hợp mẫu lớn.

Giả sử tổng thể có trung bình a chưa biết.

Mẫu có kích thước n 30 , trung bình mẫu X , phương sai tổng thể 2. ( sử dụng phương

sai mẫu hiệu chỉnh S2 thay thế nếu giả thiết không cho biết

2 ).

Giả thiết kiểm định H0: “a = a0 ”

Giả thiết đối H1: “a a0” và mức ý nghĩa cho trước.

Yêu cầu:

Page 24: Chuong III Phan Thong Ke

24

a) Tìm miền bác bỏ W cho bài toán.

b) Tìm xác suất mắc sai lầm loại II = cho bài toán nếu trung bình thực sự của tổng

thể là a1 = a0 + . ( 0).

Giải:

a) W = (-, -zα) (zα, +) .

b) Xác suất mắc sai lầm loại II = β = P( Chấp nhận H0 /H1 đúng)

= P ( Zqs W / H1 đúng) = P( - z < Zqs < z / H1 đúng)

Vì trung bình thực sự là a = a1 nên thống kê 0X-a

Z = nqs

không có phân phối chuẩn mà

thống kê có phân phối chuẩn bây giờ lại là 1X-

= n (0,1)a

Q N

.

Biến đổi: 0 1 1 0 1 01

X-a X- X-n n n n n

a a a a aaQ

Suy ra β = P( - z < Zqs < z ) = P( - z < 0X-a

n

< z )

= P( - z < 1 0 na

Qa

< z ) = P( - z -

1 0 na a

< Q < z - 1 0 n

a a

)

= 1 0 1 0n nz za a a a

Giả sử với 1 số giá trị cụ thể:

= 5% z = 1,96. n= 36 ; s = 4

a0 = 300; a1 = 303 = 3.

thì β = 3 31,96 36 1,96 36

4 4

= 0,0054

Người ta gọi giá trị 1- β là năng lực kiểm định.

Tương tự như trên, chúng ta tìm được sai lầm loại II trong các bài toán kiểm định 1 phía.

Page 25: Chuong III Phan Thong Ke

25

V.3 Kiểm tính phi tham số:

V.3.1 Bài toán kiểm định phân phối của tổng thể:

Các bước tiến hành chung:

+ B1: Đặt giả thiết kiểm định: H0: Tổng thể có phân phối F(x)

H1: Tổng thể không có phân phối F(x).

Tính các đặc trưng mẫu cần thiết ở dạng hàm ước lượng hợp lý cực đại.

+ B2: Tìm miền bác bỏ. W = (2

(k-r-1); +)

k: số hàng ( cột) được chia trong bảng dữ liệu mẫu.

r: số tham số chưa biết của phân phối F(x).( chính là số tham số cần ước lượng từ

mẫu để sử dụng trong công thức tính các pi ).

+ B3: Tính tiêu chuẩn kiểm định:

2

1

2k

i i

i i

qs

O E

E

;

ở đây Oi = ni là tần số từ mẫu thực nghiệm;

Ei là tần số theo lý thuyết nếu giả thiết H0 đúng.

+ B4: Kết luận. Nếu 2qs > 2

(k-r-1) thì ta bác bỏ giả thiết H0.

Chấp nhận H0 trong trường hợp ngược lại.

Lưu ý: Kiểm định Chi-Bình-Phương được coi là chính xác hơn khi tất cả giá trị tần số lý

thuyết lớn hơn hay bằng 5. Vì vậy khi xuất hiện tần số lý thuyết nhỏ hơn 5 thì ta nên phân

chia lại dữ liệu thích hợp.

Ví dụ 1: Kiểm định phân phối Poisson.

Một hãng bảo hiểm nghiên cứu về số tai nạn xảy ra trong các gia đình có từ 2 con nhỏ trở

lên trong một năm. Dưới đây là một bảng số liệu thống kê:

Số tai nạn 0 1 2 3 4 5

Số gia đình 135 344 257 165 78 21

Với mức ý nghĩa 5%, có thể xem như số vụ tai nạn loại này tuân theo quy luật phân bố

Poisson hay không?

Gợi ý:

Gọi X là số vụ tai nạn trong một năm của các gia đình có từ 2 con nhỏ trở lên.

+ B1: Giả thiết kiểm định H0: X có phân phối Poisson.

H1: X không có phân phối Poisson.

Tính các đặc trưng mẫu: n= 1000 ; x = 1,77 ; s = …

x là ước lượng hợp lý cực đại cho ; còn s2

là ước lượng hợp lý cực đại cho 2,

trong bài này không dùng đến vì P() chỉ có 1 tham số .

Page 26: Chuong III Phan Thong Ke

26

+ B2: Tra bảng Chi-Bình-Phương với k= 6 ; r = 1 tìm 2 ( 1)k r =2

0,05(6 1 1) = 9,49.

+ B3:

xi ni Oi pi = P(X= xi)

= ( )!

ix

i

e

x

n*pi Ei

2

i

2

i

i

O -E

E

i i

i

n np

np

0 135 0.170333 170.333 7.329291

1 344 0.301489 301.4894 5.994081

2 257 0.266818 266.8181 0.361277

3 165 0.157423 157.4227 0.364723

4 78 0.06966 69.65954 0.998619

5 21 0.024659 24.65948 0.543068

n=1000 Tổng: 2

qs = 15.59106

+ B4: Do 2

qs > 2

nên ta bác bỏ giả thiết, coi như mẫu không phù hợp phân phối Poisson.

Ví dụ 2: Kiểm định phân phối chuẩn.

(BT 7.24 – Giáo trình) Cho maãu sau:

xi 5 – 15 15 – 25 25 - 35 35 – 45 45 - 55 55 - 65 65 - 75

ni 25 67 191 273 202 54 18

Vôùi möùc yù nghóa = 1%, coù theå coi maãu treân phuø hôïp vôùi phaân phoái chuaån khoâng?

(BT 7.25 – Giáo trình) Thoáng keâ veà chieàu cao cuûa moät loaïi caây sau hai thaùng tuoåi, người

ta thu được keát quaû sau:

Ñoä cao (cm) 5 7 9 11 13 15 17 19 21

Soá löôïng 11 26 27 32 25 22 24 20 13

Vôùi möùc yù nghóa = 5%, haõy kieåm ñònh xem maãu treân coù phuø hôïp vôùi phaân phoái

chuaån khoâng?

Gợi ý bài 7.24:

+ B1: Giả thiết kiểm định H0: Mẫu phù hợp với phân phối Chuẩn.

H1: Mẫu không phù hợp với phân phối Chuẩn.

Tính các đặc trưng mẫu: n= 830 ; x = 39.56627 ; s = 12.33292

x là ước lượng hợp lý cực đại cho a ; còn s2

là ước lượng hợp lý cực đại cho 2,

+ B2: Tra bảng Chi-Bình-Phương với k= 7 ; r = 2 ....tìm 2 ( 1)k r = 13,28.

+ B3: Tính tiêu chuẩn kiểm định.

Page 27: Chuong III Phan Thong Ke

27

Khoảng

(; )

ni Oi pi = P(<X<)

= β-a α-a-Φ

σ σ

n*pi Ei

2

i

2

i

i

O -E

E

i i

i

n np

np

(-; 15)

25

15-a - 0,5

σ

= 0.02319 19.24739

1.719326

(15; 25)

67

25-a 15-a-Φ

σ σ

=

0.095594 79.34329

........

(25; 35) 191 0.236814 196.5558 ........

(35; 45) 273 0.314646 261.1563 ........

(45; 55) 202 0.224366 186.2239 ........

(55; 65) 54 0.085798 71.2126 ........

(65;+)

18

65-a0,5 -Φ

σ

= 0.019591 16.26082 ........

n= 830 Tổng: 2

qs= 10.01663

+ B4: Do 2

qs < 2

nên mẫu phù hợp với phân phối chuẩn.

Gợi ý bài 7.25: Lưu ý cách chuyển trả dữ liệu từ rời rạc về liên tục, sau đó làm tương tự ví

dụ trên.

Ví dụ 3: Kiểm định sự phù hợp của quy luật đa thức (tham khảo)

Để kiểm tra sự cân đối giữa các mặt của 1 con xúc xắc, người ta tung ngẫu nhiên con xúc

xắc đó 120 lần và thống kê được kết quả sau:

Mặt xuất hiện 1 2 3 4 5 6

Số lần xuất hiện 23 19 24 21 18 15

Với mức ý nghĩa 5%, có thể xem con xúc xắc này là cân đối hay không?

Gợi ý: Gọi X là số chấm xuất hiện khi tung con xúc xắc.

+ B1: Giả thiết kiểm định H0: X có phân phối đều rời rạc, hay là con xúc xắc cân đối.

H1: Con xúc xắc không cân đối.

+ B2: Tra bảng Chi-Bình-Phương với k= 6 ; r = 0 ....tìm 2 ( 1)k r

xi ni Oi

pi = P(X= xi) n*pi Ei

2

i

2

i

i

O -E

E

i i

i

n np

np

1 23 1/6 20 0,45

2 19 1/6 20 0,05

... ... … ..... ...

6 15 1/6 20 1,25

n = 120 Tổng: 2

qs= 2,8

+ B4: So sánh 2

qs với 2

rồi kết luận.

Page 28: Chuong III Phan Thong Ke

28

V.3.2 Bài toán kiểm định tính độc lập:

( Còn gọi là bài toán so sánh các tỷ lệ )

Xét một mẫu kích thước n của biến ngẫu nhiên định tính 2 chiều (X,Y). X nhận các

giá trị A1; A2;….; Ak. Y nhận các giá trị B1; B2; …; Bh. Hãy kiểm định xem X,Y có

độc lập hay không với mức ý nghĩa .

Y

X B1 B2 … Bh

Tổng

hàng

A1 n11 n12 … n1h n1

A2 n21 n22 … n2h n2

… … … … … …

Ak nk1 nk2 … nkh nk

Tổng cột m1 m2 … mh n

B1: Giả thiết kiểm định H0: X,Y độc lập.

Giả thiết đối H1: X, Y không độc lập.

B2: Miền bác bỏ W = (2

(số hàng-1)*(số cột-1) ; +)

B3: Do giả thiết X,Y độc lập nên xác suất tính theo lý thuyết là

pij = P(X= Ai ; Y= Bj) = P(X= Ai)*P(Y= Bj) = *ji

mn

n n

suy ra tần số lý thuyết là Oij = n*pij = *i jn m

n

Tính tiêu chuẩn kiểm định:

2

2

;

ij ij

qs

i j ij

O E

E

hoặc

2

2

;

. 1ij

qs

i j i j

nn

n m

B4: So sánh và kết luận: nếu 2

qs > 2

thì bác bỏ giả thiết.

(BT 7.26 – Giáo trình) ÔÛ moät tröôøng ñaïi hoïc, ñeå nghieân cöùu xem khaû naêng học

toaùn cuûa sinh vieân coù töông quan gì vôùi söï yeâu thích moân thoáng keâ hay khoâng,

ngöôøi ta choïn ngaãu nhieân 200 sinh vieân ñieàu tra coù keát quaû:

Thaùi ñoä ñoái vôùi moân

thoáng keâ

Khaû naêng hoïc toaùn

Thaáp Trung bình Cao

Ít thích 60 15 15

Thích vöøa 15 45 10

Raát thích 5 10 25

Vôùi möùc yù nghóa = 0,05, kieåm ñònh xem söï yeâu thích moân thoáng keâ coù phuï thuoäc

vaøo khaû naêng hoïc toaùn cuûa sinh vieân tröôøng naøy hay khoâng?

Page 29: Chuong III Phan Thong Ke

29

Gợi ý:

B1: Gọi yếu tố X thể hiện các mức độ yêu thích đối với môn Thống kê của sinh viên.

Gọi yếu tố Y biểu diễn các mức độ thể hiện khả năng học toán của sinh viên.

Giả thiết kiểm định H0: X, Y độc lập H1: X,Y không độc lập.

B2: W = (2

0,05 (3-1)*(3-1) ; +) = ( 9,49, +).

B3: Lập Bảng tần số thực nghiệm Oij

60 15 15 90

15 45 10 70

5 10 25 40

80 70 50 200

Lập thêm bảng tần số lý thuyết Eij

90*80

200

90*70

200

… … …

… … 40*50

200

Tính tiêu chuẩn kiểm định

2

2

;

ij ij

qs

i j ij

O E

E

(=84,7513) và từ đó nêu kết luận.

MỘT SỐ BÀI TẬP

12. Dưới đây là một bảng số liệu cũ về

trọng lượng gà xuất chuồng của một

trại nuôi gà . Giá trị … còn bỏ trống là

do tài liệu bảo quản không tốt nên

nhìn không rõ. Nhưng dựa vào bảng số

liệu còn lưu cho biết giá trị trung bình

mẫu đã được tính là 3,075 . Biết rằng

trang trại nuôi khoảng 30 ngàn con gà

và các con gà có trọng lượng trên 3,3

kg được coi là gà loại I.

Trọng lượng (kg) Số con

2,3 – 2,7 5

2,7 – 2,9 30

2,9 – 3,1 …

3,1 – 3,3 25

3,3 – 3,5 10

3,5 – 3,7 5

3,7 – 3,9 5

a) Hãy tìm và điền giá trị bị mất vào bảng trên rồi ước lượng số lượng gà đạt tiêu chuẩn

loại I với độ tin cậy 98%.

b) Với độ tin cậy 95%, hãy ước lượng trọng lượng trung bình của một con gà loại I khi

xuất chuồng.

c) Ban giám đốc trại cho biết tỉ lệ gà loại I là 35%. Với mức ý nghĩa 0,02; hãy cho ý

kiến về kết luận này.

13. Tỉ lệ phế phẩm do công ty A sản xuất là 5%. Nhằm giảm tỉ lệ phế phẩm, công ty A đã

cải tiến kỹ thuật. Sau cải tiến người ta kiểm tra ngẫu nhiên 400 sản phẩm thấy có 18 phế

phẩm. Với mức ý nghĩa 5%, hãy cho kết luận về hiệu quả của việc cải tiến kỹ thuật ở

công ty A? Tìm giá trị P.

14. Điểm danh ngẫu nhiên 100 sinh viên khoa Kinh tế thấy có 8 người vắng, điểm danh 120

sinh viên khoa CNTT thấy có 12 người vắng. Với mức ý nghĩa 3%, hãy so sánh mức độ

chuyên cần của sinh viên hai khoa?

Page 30: Chuong III Phan Thong Ke

30

15. Tỉ lệ bệnh nhân bị bệnh T được chữa khỏi bệnh bằng thuốc A là 85%. Thí nghiệm dùng

thuốc B điều trị thì trong 1100 bệnh nhân thì thấy có 980 người khỏi bệnh. Có thể nói

rằng thuốc B điều trị có hiệu quả hơn thuốc A được không, kết luận với mức ý nghĩa

4%?

16. Trước bầu cử người ta thăm dò 1000 cử tri thì thấy có 400 người nói rằng sẽ bỏ phiếu

cho ứng cử viên A. Một tuần sau người ta tổ chức một cuộc thăm dò khác và thấy có

680 trong số 1500 cử tri được hỏi sẽ bỏ phiếu cho ông A. Với mức ý nghĩa 5%, cho biết

tỉ lệ cử tri bỏ phiếu cho ông A có thay đổi không?

17. Khối lượng mỗi bao gạo do máy sản xuất ra là đại lượng ngẫu nhiên có phân phối chuẩn

với trung bình là 50 kg và độ lệch chuẩn 0,3 kg. Nghi ngờ máy hoạt động không bình

thường làm thay đổi khối lượng trung bình của sản phẩm, người ta cân thử 100 bao gạo

và có được kết quả :

Khối lượng sản phẩm (kg) 49 49.5 50 51 52 Số bao gạo tương ứng 10 60 20 5 5

Với mức ý nghĩa 3% , hãy kết luận về nghi ngờ nói trên. Tìm giá trị P của bài toán.

18. Định mức cũ để sản xuất một sản phẩm là 20,5 phút. Sau khi cải tiến kỹ thuật, người ta

sản xuất thử 100 sản phẩm và thu được số liệu :

Thời gian để sản xuất một

sản phẩm ( phút) 16-17 17-18 18-19 19-20 20-21 21-22

Số sản phẩm tương ứng 6 10 24 30 18 12

Sử dụng giá trị P để kiểm định xem có thể nói việc cải tiến kỹ thuật đã làm tăng năng

suất hay không, biết rằng thời gian sản xuất một sản phẩm là đại lượng ngẫu nhiên có

phân phối chuẩn. Tính xác suất mắc sai lầm loại II nếu thời gian trung bình để sản xuất

một sản phẩm thực sự là 19.5 phút.

19. Trồng cùng một giống lúa trên hai thửa ruộng như nhau và bón hai loại phân khác nhau.

Đến ngày thu hoạch ta có kết quả như sau: Thửa thứ nhất lấy mẫu 1000 bông lúa thấy

số hạt trung bình là 70 hạt và độ lệch hiệu chỉnh là 10 . Thửa thứ hai lấy mẫu 50 bông

lúa thấy số hạt trung bình là 72 hạt và độ lệch hiệu chỉnh là 20. Với mức ý nghĩa 1% ,

hãy xét xem sự khác nhau giữa hai trung bình mẫu là ngẫu nhiên hay bản chất.

20. Trọng lượng của một loại sản phẩm tuân theo phân phối chuẩn. Quan sát một số sản

phẩm do máy I và II sản xuất, ta được số liệu sau. Với mức ý nghĩa 5%, hãy kết luận

xem phải chăng trọng lượng trung bình của sản phẩm do 2 máy sản xuất là khác nhau?

Máy I Trọng lượng (g) 9 9,5 10 10,5

Số sản phẩm 2 4 7 2

Máy II Trọng lượng (g) 9 9,5 10 10,5

Số sản phẩm 1 4 6 3

21. Chỉ tiêu chất lượng X (gram) của 1 loại sản phẩm là đại lượng ngẫu nhiên có phân phối

chuẩn. Kiểm tra ngẫu nhiên 1 số sản phẩm loại này, có kết quả:

Page 31: Chuong III Phan Thong Ke

31

240; 200; 260; 220; 200; 280; 260; 260; 240; 260;

280; 240; 260; 220; 240; 240; 240; 260; 240; 220;

280; 260; 280; 260; 280; 280; 240; 260; 240; 220;

280; 260; 260; 220; 260; 260; 260; 260; 240; 240;

220; 260; 240; 220; 240; 240; 240; 200; 240; 260.

a) Các sản phẩm có chỉ tiêu X < 240gr là sản phẩm loại 2. Có tài liệu nói trung bình chỉ

tiêu X của các sp loại 2 là 220gr, với mức ý nghĩa 2% có nhận xét gì về tài liệu này?

b) Để ước lượng tỉ lệ sản phẩm loại 2 với độ tin cậy 88% và độ chính xác 2% thì cần

kiểm tra thêm bao nhiêu sản phẩm nữa?

c) Cho biết chỉ tiêu Y của sản phẩm này thỏa Y = 0,4X + 0,35. Với độ tin cậy 97%, hãy

ước lượng trung bình chỉ tiêu Y?

22. Nếu máy móc hoạt động bình thường thì chiều dài của một loại sản phẩm là đại lượng

ngẫu nhiên có phân phối chuẩn với phương sai là 3 cm2 . Nghi ngờ máy hoạt động

không bình thường, người ta đo thử một số sản phẩm thì được số liệu :

Chiều dài ( cm) 105 107 109 111

Số sản phẩm 2 4 5 2

Từ đó hãy cho kết luận về nghi ngờ nói trên với mức ý nghĩa 2%.

23. Soá con cuûa 2000 phuï nöõ ôû moät vuøng daân cö ôû ñoä tuoåi 26 cho ôû baûng sau

xi (soá con) 0 1 2 3 4

ni (soá phuï nöõ) 1090 650 220 30 10

Vôùi möùc yù nghóa = 0,05, coù theå xeùt xem maãu treân phuø hôïp vôùi phaân phoái Poisson

ñöôïc khoâng?

24. Ñeå kieåm tra coâng vieäc cuûa 200 coâng nhaân, ngöôøi ta choïn ngaãu nhieân 1000 saûn

phaåm cuûa moãi ngöôøi ñem ñi thöû nghieäm ñeå tìm ra pheá phaåm. Keát quaû nhö sau:

Soá pheá phaåm treân 1000 saûn phaåm 0 1 2 3 4

Soá coâng nhaân 109 65 22 3 1

Vôùi möùc yù nghóa = 0,01, coù theå coi maãu treân phuø hôïp vôùi phaân phoái Poisson hay

khoâng?

25. Keát quaû ño kích thöôùc cuûa 1000 chi tieát cho trong baûng sau:

Kích thöôùc

mm

97,75

-

98,25

98,25

-

98,75

98,75

-

99,25

99,25

-

99,75

99,75

-

100,25

100,25

-

100,75

100,75

-

101,25

101,25

-

101,75

101,75

-

102,25

102,25

-

102,75

Soá chi tieát

töông öùng 21 47 87 158 181 201 142 97 41 25

Vôùi möùc yù nghóa = 0,05, coù theå coi kích thöôùc chi tieát saûn xuaát ra tuaân theo quy

luaät chuaån hay khoâng?

Page 32: Chuong III Phan Thong Ke

32

26. Töø boä saûn phaåm cuûa moät maùy tieän ngöôøi ta choïn ra 200 chieác. Baùn kính saûn phaåm

ñöôïc ño ñaïc vaø cho nhö sau:

Baùn kính xi 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6 4,8 5,0

Soá löôïng ni 1 5 4 18 86 62 14 6 3 1

Vôùi möùc yù nghóa = 0,05 coù theå coi baùn kính saûn phaåm cuûa maùy tieän ñoù tuaân theo

quy luaät chuaån?

27. Dưới đây là thống kê số lần đứng đầu khối về điểm thi đua các hoạt động phong trào

hàng tuần của các lớp 12 trong một trường THPT. Với mức ý nghĩa 1%, hãy cho biết

có thể xem như năng lực hoạt động phong trào của các lớp là như nhau không?

Tên lớp 121

122 12

3 12

4 12

5

Số lần đứng đầu khối 9 6 10 7 8

28. Khi nghiên cứu ảnh hưởng của gia đình với tình trạng phạm tội của trẻ em vị thành

niên, người ta có được số liệu :

Tình trạng phạm tội Hoàn cảnh gia đình

Bố mẹ đã mất Bố mẹ ly hôn Còn cả bố mẹ

Không phạm tội 20 25 13

Có phạm tội 29 43 18

Với mức ý nghĩa = 0,05 , có thể kết luận hoàn cảnh gia đình độc lập với tình trạng

phạm tội của trẻ em hay không ?

29. Theo dõi ngày nghỉ việc của 1000 công nhân trong một công ty, ta thấy :

Số ngày nghỉ việc trong năm Nữ Nam

0 – 10 300 500

10 – 20 80 70

20 trở lên 20 30

Với mức ý nghĩa 5% , có phải số ngày nghỉ việc liên quan đến giới tính ?

30. Để nghiên cứu sự phát triển của 1 loại cây làm giấy, người ta tiến hành đo ngẫu nhiên

đường kính X(cm) và chiều cao Y(m) của một số cây được bảng số liệu:

X Y 2 3 4 5 6 7

20 3 5

22 2 10

24 3 8 14 10

26 4 16 7

28 8 13

Page 33: Chuong III Phan Thong Ke

33

a) Hãy ước lượng tỉ lệ cây loại 1 ( có chiều cao từ 6 m trở lên) với độ tin cậy 89%.

b) Ước lượng đường kính trung bình của cây loại 1 với độ tin cậy 98%.

c) Trước đây, chiều cao trung bình của loại cây này là 5,1m. Số liệu trên lấy ở những cây

đã được áp dụng kỹ thuật chăm sóc mới. Với mức ý nghĩa 5%, hãy cho nhận xét về tác

dụng của kỹ thuật mới này?

d) Lập phương trình đường hồi quy tuyến tính mẫu Y theo X. Dự đoán xem nếu cây có

đường kính 25cm thì cao cỡ bao nhiêu m?

31. Quan sát chiều cao Y(cm) và độ tuổi X(năm) của 1 số thanh thiếu niên, có được:

X

Y

15

17

19

21

23

145 – 150 5

150 – 155 12 11

155 – 160 14 8 6

160 – 165 10 17

165 – 170 15 4 7

170 – 175 12

a) Ước lượng chiều cao trung bình của những người 21 tuổi với độ tin cậy 99%.

b) Những người cao hơn 1,65m là người “khá cao”. Ước lượng tỉ lệ và chiều cao trung

bình của những người khá cao với độ tin cậy 95%?

c) Một tài liệu cũ nói rằng chiều cao trung bình của thanh thiếu niên trong độ tuổi trên

là 153,5cm. Hãy cho kết luận về tài liệu này với mức ý nghĩa 3%?

d) Tìm rXY và vẽ đường hồi quy mẫu biểu diễn chiều cao trung bình theo tuổi.

e) Lập phương trình đường hồi quy tuyến tính mẫu của Y theo X. Dự đoán xem nếu

người 20 tuổi thì cao khoảng bao nhiêu ?

32. Theo dõi lượng phân bón X(kg/ha) và năng suất một loại cây trồng Y(tạ/ha) của

một số thửa ruộng (có cùng diện tích 1 ha), có bảng số liệu:

X Y 120 140 160 180 200

20 – 24 5 4

24 – 28 7 10 5

28 – 32 15 20 12

32 – 36 7 9 6

a. Ước lượng năng suất trung bình của những thửa ruộng bón phân 180kg/ha với độ

tin cậy 98%.

b. Để ước lượng năng suất trung bình với độ chính xác 0,5 và độ tin cậy 98% thì cần

phải theo dõi thêm bao nhiêu thửa ruộng nữa?

c. Một tài liệu cũ nói rằng năng suất trung bình của loại cây trồng này là 30 tạ/ha. Với

mức ý nghĩa 2%, hãy cho kết luận về tài liệu này?

d. Vẽ đường hồi quy thực nghiệm của Y theo X. Tìm hệ số tương quan của X,Y.

e. Lập phương trình đường hồi quy tuyến tính mẫu của năng suất cây trồng theo lượng

phân bón. Dự đoán xem nếu lượng phân bón là 190 kg/ha thì năng suất khoảng bao

nhiêu?

f. Lập phương trình đường hồi quy tuyến tính mẫu của X theo Y.