36
9/7/2010 1 Phn 02 Nguyn Duy Long, TiếnSBmôn Thi Công QLXD Bmôn Thi Công QLXD ©2010, Nguyn Duy Long, Tiến S1 Trình bày dliu đnh lưng tphân phi bng s tphân phi bng s Đlch chun như thưc đo và mô hình chun ©2010, Nguyn Duy Long, Tiến S2

Phan02 - hcmut.edu.vnndlong/TK/mat/Phan02.pdf · 9/7/2010 5 Cắtgiátrịdữliệu thành các con sốchủđạo (cành) và các con sốkéo theo (lá). Dùng các cành đểgán

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

9/7/2010

1

Phần 02Nguyễn Duy Long, Tiến SỹBộ môn Thi Công và QLXDBộ môn Thi Công và QLXD

©2010, Nguyễn Duy Long, Tiến Sỹ 1

Trình bày dữ liệu định lượng Mô tả phân phối bằng số Mô tả phân phối bằng số Độ lệch chuẩn như thước đo và mô hình

chuẩn

©2010, Nguyễn Duy Long, Tiến Sỹ 2

9/7/2010

2

3©2010, Nguyễn Duy Long, Tiến Sỹ

Tóm tắt dữ liệu giúp xem xét tập hợp các dữliệu định lượng lớn.Nế khô ó ắ ẽ ấ khó để biế á dữ Nếu không tóm tắt, sẽ rất khó để biết các dữliệu cho chúng ta biết điều gì.

Không dùng biểu đồ bánh cho các biến địnhlượng.

4©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

3

1997 1998 1999 2000 2001Tháng 1 -$1.44 0.78 3.28 5.72 14.38Tháng 2 -0.75 0.62 3.34 21.06 -1.08Tháng 3 -0.69 2.44 -1.22 4.50 -10.11Tháng 4 -0.88 -0.28 0.47 4.56 -12.11Tháng 5 0.12 2.22 5.62 -1.25 5.84Tháng 6 0.75 -0.50 -1.59 -1.19 -9.37Tháng 7 0.81 2.06 4.31 -3.12 -4.74Tháng 8 -1.75 -0.88 1.47 8.00 -2.69

©2010, Nguyễn Duy Long, Tiến Sỹ 5

Tháng 9 0.69 -4.50 -0.72 9.31 -10.61Tháng 10 -0.22 4.12 -0.38 1.12 -5.85Tháng 11 -0.16 1.16 -3.25 -3.19 -17.16Tháng 12 0.34 -0.50 0.03 -17.75 -11.59(Nguồn: De Veaux et al., 2006)

Chia khoản giá trị của biến định lượng thành cáccột có cùng chiều rộng, gọi là hộc (bins).

Các hộc và số đếm trong mỗi hộc cho ra phânphối của biến định lượng.

Giá thay đổi hàngtháng của cổhiế C E

thán

g

©2010, Nguyễn Duy Long, Tiến Sỹ 6

phiếu Cty Enron:

Thay đổi giá ($)

Số

9/7/2010

4

Biểu đồ tần suất tương đối mô tả phần trăm của cáctrường hợp cho mỗi hộc thay vì số đếm.

thán

gBiểu đồ tần suất tương đối:

Thay đổi giá hàng tháng của cổ phiếu Enron

Thay đổi giá ($)

% số

t

©2010, Nguyễn Duy Long, Tiến Sỹ 7

Biểu đồ cành-và-lá (stem-and-leaf displays)biểu diễn phân phối của biến định lượngp p ị ợ gnhư biểu đồ tần suất, nhưng vẫn giữ các giátrị riêng rẽ.

Biểu đồ cành-và-lá:◦ chứa tất cả thông tin có trong biểu đồ tần suất◦ thỏa mãn nguyên lý diện tích, và

ể ố◦ biểu thị sự phân phối.

©2010, Nguyễn Duy Long, Tiến Sỹ 8

9/7/2010

5

Cắt giá trị dữ liệu thành các con số chủ đạo (cành) và các con số kéo theo (lá).

Dùng các cành để gán hộc. Chỉ dùng một con số cho mỗi lá – hoặc làm tròn

hoặc cắt các giá trị dữ liệu để có một vị trí thậpphân phía sau cành.

©2010, Nguyễn Duy Long, Tiến Sỹ 9

Xây dựng biểu đồ cành và lá cho dữ liệu sau:◦ Với hộc 10 triệu VNĐ◦ Với hộc 5 triệu VNĐ

Công trình Chi phí móng (triệu VNĐ)01 33Với hộc 5 triệu VNĐ 01 3302 3503 5004 4105 4806 3307 45

©2010, Nguyễn Duy Long, Tiến Sỹ 10

08 4709 5210 6311 4512 71

9/7/2010

6

So sánh biểu đồ tần suất và biểu đồ cành-và-lá hiểnthị nhịp tim của 24 phụ nữ ở một trạm y tế. Sự hiểnthị nào có nhiều thông tin hơn?thị nào có nhiều thông tin hơn?

Biểu đồ cành-và-lá:Nhịp tim của 24 phụ nữBiểu đồ tần xuất

Tần

suất

©2010, Nguyễn Duy Long, Tiến Sỹ 11

T

Nhịp tim (nhịp/phút)

Đồ thị điểm (dotplot) làmột sự hiển thị đơn giản -chỉ đặt một dấu chấm

anch

iến

thắn

g(g

iây)

chỉ đặt một dấu chấm(dot) dọc một trục cho mỗitrường hợp trong dữ liệu.

Đồ thị điểm có thể biểudiễn theo phương nganghoặc phương đứng.

Thờ

igia

Số cuộc đua

Thời gian chiến thắng củađua ngựa Kentucky Derby, 1875-2004 (hình bên)

©2010, Nguyễn Duy Long, Tiến Sỹ 12

Nguồn: http://en.wikipedia.org/wiki/Kentucky_Derby

9/7/2010

7

Khi mô tả một phân phối, luôn nói về bađiều: hình dạng (shape), trung tâm (center), ạ g ( p ), g ( ),và sải (spread).

Hình dạng của phân phối là gì?◦ Phân phối có một gò (hump) ở trung tâm hay có vài

mỏm (bump) phân tán?ể đồ ầ ấ ó đố ?

©2010, Nguyễn Duy Long, Tiến Sỹ 13

◦ Biểu đồ tần suất có đối xứng?◦ Có các đặc điểm bất thường lộ ra không?

Câu hỏi 1: Phân phối có một gò (hump) ở trung tâmhay có vài mỏm (bump) phân tán?◦ Gò trên biểu đồ tần suất gọi là mốt (mode).◦ Biểu đồ tần suất có một đỉnh gọi là một mốt

(unimodal), hai đỉnh gọi là hai mốt (bimodal), vàba đỉnh trở lên gọi là nhiều (đa) mốt (multimodal).

©2010, Nguyễn Duy Long, Tiến Sỹ 14

9/7/2010

8

Biểu đồ tần suất hai mốt có hai đỉnh:

ượng

sốđế

m

©2010, Nguyễn Duy Long, Tiến Sỹ 15

L

Tần suất đều (uniform): Biểu đồ tần suất dườngnhư không có mốt và tất cả các thanh có chiều caoầgần như nhau:

ợng

sốđế

m

©2010, Nguyễn Duy Long, Tiến Sỹ 16

Lượ

9/7/2010

9

Câu hỏi 2: Biểu đồ tần suất có đối xứng?

ấGấp dọcđườngđứt

©2010, Nguyễn Duy Long, Tiến Sỹ 17

Biểu đồ tần suất đối xứng… … có thể gấp ở giữa sao chohai bên gần như trùng nhau

◦ Các đầu mỏng hơn của phân phối gọi là đuôi(tails). Nếu một đuôi trải xa hơn đuôi còn lại, biểuđồ tần suất là lệch (skewed) về phía có đuôi dàiđồ tần suất là lệch (skewed) về phía có đuôi dàihơn.◦ Biểu đồ tần suất màu xanh bên dưới gọi là lệch

trái (skewed left), biểu đồ màu hồng là lệch phải(skewed right).

tim tim

©2010, Nguyễn Duy Long, Tiến Sỹ 18

Tuổi

Sốnữ

bệnh

Sốnữ

bệnh

Lệ phí ($)

9/7/2010

10

Câu hỏi 3: Có các đặc điểm bất thường lộ rakhông?g◦ Thỉnh thoảng những đặc điểm bất thường cho ta

biết có gì đó lý thú về dữ liệu◦ Luôn đề cập đến các giá trị ngoại lệ (outliers) mà nóđứng tách ra trong phần thân của phân phối◦ Có các chỗ gián đoạn (gap) trong phân phối? Nếu

vậy, dữ liệu có thể có từ hơn một nhóm.

©2010, Nguyễn Duy Long, Tiến Sỹ 19

Biểu đồ tần suất sau đây có giá các trị ngoài lệ. Cóba thành phố ở thanh xa nhất bên trái.

Theo bạn điều gì đang xảy ra? Theo bạn, điều gì đang xảy ra?Số nhân khẩu trong một hộ ở các thành phố được chọn lựa

ành

phố

©2010, Nguyễn Duy Long, Tiến Sỹ 20

Nhân khẩu/hộ

Sốth

à

9/7/2010

11

Nếu bạn phải lấy một số để mô tả tất cả dữ liệu, bạn sẽ lấy số gì?Dễ dà để tì t tâ khi biể đồ tầ ất là Dễ dàng để tìm trung tâm khi biểu đồ tần suất làmột mốt và đối xứng – nó ngay ở giữa.

Ngược lại, sẽ rất khó để tìm trung tâm nếu biểu đồtần suất là bị lệch hoặc có hai hay nhiều mốt.

Đến đây ta chỉ cần chỉ ra trung tâm của phân phốibăng mắt thường.

©2010, Nguyễn Duy Long, Tiến Sỹ 21

Vấn đề ở sự biến đổi (thống kê học là về sự biếnđổi).

Các giá trị của phân phối là gom lại xung quanhtrung tâm hay sải ra?

Các phần tiếp theo ta nói về sải…

©2010, Nguyễn Duy Long, Tiến Sỹ 22

9/7/2010

12

Thường ta muốn so sánh hai hay nhiều phân phốivới nhau thay vì chỉ xem một phân phối.

Khi xem xét hai phân phối, điều quan trọng là cácbiểu đồ tần suất có cùng tỷ lệ.

Khi so sánh các phân phối, chúng ta nói về hìnhdạng, trung tâm, và sải của các phân phối.

©2010, Nguyễn Duy Long, Tiến Sỹ 23

So sánh hai biểu đồbên: hâ

nnữ

bên:◦ Chúng có gì chung?◦ Chúng khác nhau ra

sao?

Các phân phối của bệnhnhân nữ và nam bị nhồi

á i

Tuổi

Sốbệ

nhnh

ânna

m

máu cơ tim:

©2010, Nguyễn Duy Long, Tiến Sỹ 24

Tuổi

Sốbệ

nhnh

â

9/7/2010

13

Với một số tập dữ liệu, chúng ta quan tâm đến dữliệu cư xử thế nào theo thời gian – vẽ biểu đồ thờigian (time-plots) cho dữ liệugian (time plots) cho dữ liệu.◦ Cổ phiểu của Enron như thế nào theo thời gian?

Thay đổi về giá của cổ phiếu Enron, 1997-2002

vềgi

á($

)

©2010, Nguyễn Duy Long, Tiến Sỹ 25

Năm

Thayđổ

i

Biểu đồ số người mắc bệnh và tử vong do cúm A/H1N1:

©2010, Nguyễn Duy Long, Tiến Sỹ 26Nguồn: Báo Tuổi Trẻ, 28/09/2009

9/7/2010

14

©2010, Nguyễn Duy Long, Tiến Sỹ 27

Để đo trung tâm, khoảng giữa (midrange, trị trungbình của các giá trị nhỏ và lớn nhất) là rất nhạy với

ốcác phân phối lệch hoặc giá trị ngoại lệ. Trung vị (median) là lựa chọn hợp lý cho trung tâm

hơn là khoảng giữa…

28©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

15

Trung vị là giá trị mà một nửa các giá trị của dữ liệunhỏ hơn nó và một nửa lớn hơn nó.◦ Đó là giá trị giữa của dữg ị g

liệu khi sắp xếp theo thứtự và chia biểu đồ tầnsuất ra hai phần có diệntích bằng nhau.◦ Với số điểm dữ liệu là

chẵn, lấy trung bình haisố ở giữa:

Tuổi thọ của các nước thànhviên của Liên Hiệp Quốc (2001)

Sốnư

ớc

số ở giữa: median(2,4,6,7,8,9) =6.5

Tuổi thọ

S

©2010, Nguyễn Duy Long, Tiến Sỹ 29

Luôn cho biết độ sải (spread) cùng với trị trung tâmkhi mô tả phân phối bằng số.

Khoảng (vùng) (range) của dữ liệu là sự khác nhaugiữa các giá trị lớn và nhỏ nhất:

Vùng (range) = max – min Bất lợi của khoảng là nếu có một giá trị cực hạn có

thể làm nó rất lớn và vì thế không đại diện cho dữliệu nói chung.

©2010, Nguyễn Duy Long, Tiến Sỹ 30

9/7/2010

16

Khoảng tứ phân vị (interquartile range, IQR) bỏ qua cácgiá trị cực hạn và tập trung vào vùng giữa của dữ liệu.

Để tìm IQR trước tiên tìm các điểm tứ phân vị Để tìm IQR, trước tiên tìm các điểm tứ phân vị(quartiles), mà chia dữ liệu thành bốn đoạn bằng nhau. ◦ Điểm tứ phân vị dưới (lower quartile, Q1) là trung vị

của nửa dữ liệu nằm dưới trung vị.◦ Điểm tứ phân vị trên (upper quartile, Q3) là trung vị

của nửa dữ liệu nằm trên trung vị..◦ Nếu số điểm trong dữ liệu là chẵn, việc phân chia là

rõ ràng. Nếu số lẻ, tính trung vị trong cả hai nửa củag , g ị gdữ liệu.

Sự khác nhau giữa hai điểm tứ phân vị là IQR IQR = điểm tứ phân vị trên – điểm tứ phân vị dưới

©2010, Nguyễn Duy Long, Tiến Sỹ 31

Điểm tứ phân vị dưới và trên là các phân vị(percentiles) thứ 25 và 75 của dữ liệu.IQR hứ 50% iá t ị ở iữ ủ hâ hối IQR chứa 50% giá trị ở giữa của phân phối

“Tóm tắt năm số” về tuổi thọ:max = 73.6Q3 = 62.65Median = 57.7Q1 = 48.9

Tuổi thọ của các nước thànhviên của Liên Hiệp Quốc (2001)

Sốnư

ớc

min = 26.5

©2010, Nguyễn Duy Long, Tiến SỹTuổi thọ

S

năm

32

9/7/2010

17

Tóm tắt năm số (five-number summary) của

ố ế ề

Chết tại các buổi diễn nhạc Rock, 1999-2000

ết

phân phối cho biết vềtrung vị, hai điểm tứphân vị, và các giá trịcực hạn (maximum and minimum).◦ Ví dụ: Tóm tắt năm số về

tuổi lúc mất của 66 ngườiMax 47 năm

Q3 22

Sốlượ

ngch

tuổi lúc mất của 66 ngườixem các buổi diễn nhạcrock do chen lấn như bênphải

©2010, Nguyễn Duy Long, Tiến Sỹ

Q3 22

Median 19

Q1 17

Min 13

33

Biểu đồ hộp (boxplot) là biểu thị đồ họa về tóm tắtnăm số*.

Biểu đồ hộp đặc biệt hữu ích khi so sánh các nhóm(groups).

* Và một số thông tin khác, ví dụ là các giá trị ngoại lệ (outliers)

©2010, Nguyễn Duy Long, Tiến Sỹ 34

9/7/2010

18

1. Vẽ một trục bao hàmkhoảng giá trị của dữ liệu

• Vẽ ba đường ngang ngắntại Q1, Q3, và trung vị.

• Nối chúng lại bằng cácđường đứng để hình thànhmột hộp (box).

©2010, Nguyễn Duy Long, Tiến Sỹ 35

2. Dựng “hàng rào” xungquyanh phần chính củadữ liệu.◦ Hàng rào trên là 1.5xIQR

trên Q3.◦ Hàng rào dưới là 1.5xIQR

dưới Q1.

©2010, Nguyễn Duy Long, Tiến Sỹ 36

9/7/2010

19

3. Dùng hàng rào để phát triển“đuôi”◦ Vẽ các đường từ các đầu của hộp

lên và xuống đến các giá trị dữliệu cực hạn trong hàng rào.

◦ Nếu một giá trị dữ liệu nằm ngoàicác hàng rào, đừng nối nó để trởthành đuôi.

©2010, Nguyễn Duy Long, Tiến Sỹ 37

4. Thêm các giá trị ngoại lệ nằmngoài hàng rào bằng các kýhiệu khác.

©2010, Nguyễn Duy Long, Tiến Sỹ 38

9/7/2010

20

So sánh biểu đồ tần suất và biểu đồ hộpChết tại các buổi diễn nhạc Rock, 1999-2000

Sốlượ

ngchết

Biểu đồ trên biểu thị dữ liệu như thế nào?

©2010, Nguyễn Duy Long, Tiến Sỹ

Tuổi

39

Biểu đồ hộp so sánh hiệu quả của các bình chứa càphê:

Thay đổi nhiệt độ theo các nhãn hiệu của bình chứa cà phê

đổivề

nhiệ

tđộ

(o F)

©2010, Nguyễn Duy Long, Tiến Sỹ

Tahy

Bình chứa

40

9/7/2010

21

Trung vị là rất tốt để xác định trung tâm của cácphân phối lệch. p p ệ

Khi dữ liệu đối xứng, trị trung bình (mean) xác địnhtrung tâm tốt.

Tìm trị trung bình:n

yi

©2010, Nguyễn Duy Long, Tiến Sỹ

ni

i

y

1

41

Phân phối về nhịp tim của 52 người lớn này đốixứng, với trị trung bình 72.7 (nhịp/phút) và trung vịlà 73 (nhịp/phút):

Nhịp tim của 52 người lớn

gườ

ilớ

n

nhịp/phút

Slide 5- 42©2010, Nguyễn Duy Long, Tiến Sỹ

Sốn

Nhịp tim (nhịp/phút)

9/7/2010

22

Bất kể hình dạngcủa phân phối trị

Tuổi thọ của các nước thànhviên của Liên Hiệp Quốc (2001)

của phân phối, trịtrung bình làđiểm mà biểu đồtần suất cânbằng: Số

nướ

c

©2010, Nguyễn Duy Long, Tiến Sỹ

Tuổi thọ

Điểm cân bằng

43

Phân phối đối xứng có giá trị trung bình và trung vịgần nhau, nên có thể dùng trị bất cứ trị nào để chỉ

âtrung tâm. Với phân phối lệch nhiều thì dùng trung vị để xác định trung tâm.

©2010, Nguyễn Duy Long, Tiến Sỹ 44

9/7/2010

23

Độ lệch chuẩn (standard deviation) đo lường sải(spread) tốt hơn IQR, bằng cách xem xét mỗi giá trịdự liệu cách trị trung bình bao xa.

Độ lệch (deviation) là khoảng cách từ một giá trị dữliệu đến trị trung bình.

©2010, Nguyễn Duy Long, Tiến Sỹ 45

Phương sai (variance), với ký hiệu s2:

2

Vấn đề của phương sai khi đo lường sải là được đolường theo bình phương đơn vị đo của dữ liệu ban đầu.

2

1ii

y ys

n

©2010, Nguyễn Duy Long, Tiến Sỹ 46

9/7/2010

24

Độ lệch chuẩn (standard deviation), s, (hay SD):

2

1ii

y ys

n

©2010, Nguyễn Duy Long, Tiến Sỹ 47

Vì thống kê học là về sự biến đổi (variation), sải làmột khái niệm quan trọng của thống kê học.Đ độ ải iú hú t bà ề hữ ái hú t Đo độ sải giúp chúng ta bàn về những cái chúng takhông biết.

Khi các giá trị dữ liệu cụm lại xung quyanh trungtâm của phân phối, IQR và SD là nhỏ.

Khi các giá trị dữ liệu phân tán xa trung tâm củaphân phối, IQR và SD sẽ lớn.

©2010, Nguyễn Duy Long, Tiến Sỹ 48

9/7/2010

25

Khi mô tả biến định lượng, luôn cho biết về hìnhdạng phân phối của nó, cùng với trung tâm và sải.◦ Nếu hình dạng bị lệch, cho biết trung vị và khoảng tứ phân

vị.◦ Nếu hình dạng đối xứng, cho biết trị trung bình và độ lệch

chuẩn và có thể cả trung vị và khoảng tứ trung vị.

©2010, Nguyễn Duy Long, Tiến Sỹ 49

Nếu có các trị ngoại lề rõ ràng mà cho biết về trịtrung bình và độ lệch chuẩn thì cho biết chúng khicó trị ngoại lệ và không có trị ngoại lệ. Sự khácnhau có thể bộc lộ.

Chú ý: Trung vị và khoảng tứ trung vị ít khả năng bịảnh hưởng bởi các trị ngoại lệ như trị trung bình vàđộ lệch chuẩn.

©2010, Nguyễn Duy Long, Tiến Sỹ 50

9/7/2010

26

Mô tả dữ liệu bằng số

Hình dạng

Đối xứnghay lệch

Trung tâm

Trung bình

Sải

Khoảng tứtrung vị

©2010, Nguyễn Duy Long, Tiến Sỹ 51

Trị ngoại lệ Trung vị

Khoảnggiữa

Khoảng

Độ lệchchuẩn

Mô tả dữ liệu phân phối ra sao Đối xứng hay lệch Đối xứng hay lệch

Lệch phảiLệch trái Đối xứng

Mean=Median= ModeMean<Median<Mode Mode<Median<Mean

52©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

27

Đo lường sự biến đổi mô tả về sải hay biếnthiên của các giá trị dữ liệu.g ị ệ

Cùng trung tâm, Sự biến đổi khác nhau

53©2010, Nguyễn Duy Long, Tiến Sỹ

©2010, Nguyễn Duy Long, Tiến Sỹ 54

9/7/2010

28

Độ lệch chuẩn như là thước đo để so sánh các giátrị trông khác nhau.

Độ lệch chuẩn cho ta biết sự tập hợp (collection) của các giá trị thay đổi ra sao – là thước đo để so sánh giá trị riêng rẻ với một nhóm.

Độ lệch chuẩn là trị đo thường dùng của sự biếnđổi, và đóng vai trò quan trọng việc chúng ta nhìnvào dữ liệu như thế nào.

©2010, Nguyễn Duy Long, Tiến Sỹ 55

Điểm z (z-score): Khi so sánh một giá trị đơn lẻ vớitrung vị, sự tương đối với độ lệch chuẩn:

Gọi kết quả là trị được chuẩn hóa (standardized values), ký hiệu z hay điểm z (z-scores).

y yz

s

©2010, Nguyễn Duy Long, Tiến Sỹ 56

9/7/2010

29

Cộng (hay trừ) một lượng không đổi vào mỗi giá trịchỉ cộng (hay trừ) lượng đó vào trị trung bình.Điề đó ũ đú h t ị à á t ị đ ề ị Điều đó cũng đúng cho trung vị và các trị đo về vịtrí khác.

Thêm một hằng số vào mỗi giá trị dữ liệu sẽ thêmhằng số đó vào các trị đo về trung tâm và các phânvị nhưng các trị đo về sải không đổi.

©2010, Nguyễn Duy Long, Tiến Sỹ 57

Biểu đồ tần suất (và hộp) chỉ sự dịch chuyển từ cânnặng của đàn ông sang số cân trên cân nặng được

ếkhuyến nghị:

Sốđà

nôn

g

Sốđà

nôn

g

©2010, Nguyễn Duy Long, Tiến Sỹ

Cân nặng (kg) Số cân (kg) trên cân nặng khuyến nghị)

58

9/7/2010

30

Khi nhân (hay chia) tất cả các giá trị dữ liệu bởi mộtgiá trị không đổi, các trị sau đây được nhân (hay chia) bởi giá trị không đổi đóchia) bởi giá trị không đổi đó◦ các giá trị riêng lẻ (max, min),◦ trị đo về trung tâm (trung bình và trung vị) và◦ trị đo về sải ( khoảng, khoảng tứ trung vị, độ lệch chuẩn)

©2010, Nguyễn Duy Long, Tiến Sỹ 59

Dữ liệu về cân nặng của đàn ông đo lường bằngkg. Nếu đổi qua cân Anh (lb), chúng ta sẽ thay đổitỷ lệ (rescale) dữ liệu:

đàn

ông

ốđà

nôn

g

©2010, Nguyễn Duy Long, Tiến Sỹ

Cân nặng (kg)

Số

Cân nặng (lb)

S

60

9/7/2010

31

Chuẩn hóa dữ liệu thành điểm z dịch chuyển (shift) dữ liệu bằng cách trừ trị trung bình và thay đổi tỷ lệ

ằ(rescale) các giá trị bằng cách chia cho độ lệchchuẩn.◦ Chuẩn hóa thành điểm z không thay đổi hình dạng (shape)

của phân phối. ◦ Chuẩn hóa thành điểm z thay đổi trung tâm (center) với trị

trung bình bằng 0.◦ Chuẩn hóa thành điểm z thay đổi sải (spread) với độ lệchy ( p ) ộ ệ

chuẩn bằng 1.

©2010, Nguyễn Duy Long, Tiến Sỹ 61

Điểm z chỉ ra một giá trị bất thường thế nào bởi vìnó cho biết giá trị đó cách trung bình bao xa.

Dùng điểm z với một mô hình (model) thường gặptrong thống kê học: mô hình chuẩn (Normal model)

©2010, Nguyễn Duy Long, Tiến Sỹ 62

9/7/2010

32

Mô hình chuẩn thường thích hợp cho các phânphối có hình dạng một mốt và khá đối xứng - hìnhchuông (bell shaped).chuông (bell shaped).

N(μ,σ) thể hiện mô hình chuẩn với trị trung bìnhbằng μ độ lệch là σ.

Dùng chữ cái Hy Lạp vì trị trung bình và độ lệch nàykhông phải từ dữ liệu và chúng từ các thông số(parameters) của mô hình.

Các tóm tắt của dữ liệu, như trị trung bình và độẩ ẫ

ệ , ị g ộlệch chuẩn của mẫu dùng chữ cái La Tinh. Các tómtắt đó gọi là trị số thống kê (statistics).

©2010, Nguyễn Duy Long, Tiến Sỹ 63

Khi chuẩn hóa các dữ liệu chuẩn (Normal), giá trịđược chuẩn hóa là điểm z (z-score):

Một khi chuẩn hóa, chỉ cần một mô hình: ◦ Mô hình N(0,1) gọi là mô hình chuẩn (chính) tắc (standard

Normal model hay standard Normal distribution).

yz

Không dùng mô hình chuẩn cho bất cứ tập dữ liệunào, vì việc chuẩn hóa không thay đổi hình dạngcủa phân phối

©2010, Nguyễn Duy Long, Tiến Sỹ 64

9/7/2010

33

Khi dùng mô hình chuẩn, ta đang giả định phânphối là chuẩn.

Vì không thể kiểm tra giả định này trong thực tế, kiểm tra điều kiện sau:◦ Điều kiện gần chuẩn (Nearly Normal Condition): Hình dạng

của phân phối dữ liệu là một mốt và đối xứng.

©2010, Nguyễn Duy Long, Tiến Sỹ 65

Các mô hình chuẩn cho ta biết mức cực hạn củamột giá trị bằng cách cho biết khả năng để tìm mộtgiá trị cách xa trị trung bìnhgiá trị cách xa trị trung bình.

Có thể tìm số này một cách chính xác ở các chươngsau, bay giờ có thể dùng một qui tắc đơn giản màcho ta biết rất nhiều về mô hình chuẩn…

Với mô hình chuẩn:◦ Khoảng 68% các giá trị nằm trong một khoảng độ lệch

chuẩn của trị trung bình;h ả 9 % á á ằ h kh ả đ l h h ẩ◦ Khoảng 95% các giá trị nằm trong hai khoảng độ lệch chuẩn

của trị trung bình; và,◦ Khoảng 99.7% các giá trị nằm trong ba khoảng độ lệch

chuẩn của trị trung bình.

©2010, Nguyễn Duy Long, Tiến Sỹ 66

9/7/2010

34

Hình sao biểu thị qui tắc 68-95-99.7.

©2010, Nguyễn Duy Long, Tiến Sỹ 67

Bảng Z trong phụ lục E (tr. A56-57) là bảng cho mô hìnhchuẩn tắc.Ví dụ với z 1 80: Ví dụ với z = 1.80:◦ Bao nhiêu phần trăm dữ liệu đã được chuẩn hóa dưới điểm

z = 1.80 này?

©2010, Nguyễn Duy Long, Tiến Sỹ 68

9/7/2010

35

MS Excel có hàm kiểm nghiệm z một phía(one-sided z-test):( )

Có thể tìm phân phối cho một điểm z với hàm Normsdist(z)

◦ Ví dụ: Normsdist(1.8) = 0.9641: giá trị chuẩn hóa của dữ liệu dưới điểm z bằng 1.8 khoảng 96.41%.

Có thể tì điể h ột á ất à Có thể tìm điểm z cho một xác suất nào đó với hàm Normsinv(p)

◦ Ví dụ: Normsinv(.9641) = 1.8

©2010, Nguyễn Duy Long, Tiến Sỹ 69

Tìm z hay giá trị dữ liệu ban đầu với một diện tíchđã cho.

Ví dụ: tìm điểm z cho điểm tứ phân vị thứ nhấttrong mô hình chuẩn?

©2010, Nguyễn Duy Long, Tiến Sỹ

Độ lệch chuẩn

70

9/7/2010

36

Dùng bảng Z theo cách khác:

©2010, Nguyễn Duy Long, Tiến Sỹ 71

©2010, Nguyễn Duy Long, Tiến Sỹ 72