49
Bài 2 Các khái niệm cơ bản về thống kê

Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bài 2

Các khái niệm cơ bản về

thống kê

Page 2: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Nội dung

• Loại dữ liệu

• Thống kê mô tả

• Biểu diễn dữ liệu

Page 3: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Loại dữ liệu

Page 4: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Biến ngẫu nhiên

• Biến định lượng

• Có thể đếm hoặc đo với một giá trị số học

• Có thể là biến liên tục hoặc rời rạc (thường là một con số).

• Biến định tính

• Không phải là một biến số học dùng để phân loại, nhưng có không thể đo được bằng một giá trị số học

• Đùng để định danh hoặc đánh thứ tự

Page 5: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Dữ liệu liên tục

• Dữ liệu có thể là một giá trị số bất kỳ nào đó,

và chúng có thể lưu lại bất kỳ ở nhiều điểm

khác nhau

• Ví dụ

• Nhiệu độ (39.25oC)

• Thời gian (2.468 seconds)

• Chiều cao (1.25m)

• Cân nặng (66.34kg)

Page 6: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Dữ liệu rời rạc

• Dữ liệu rời rạc dựa trên biến đếm, ví dụ:

• Số chiếc xe oto đậu trong một chổ đậu xe.

• Số bệnh nhân được bác sĩ thăm khám trong một

ngày.

• Chỉ duy nhất một số là có thể chẳng han 10,

20, hoặc 30 bệnh nhân được thăm khám,

nhưng không thể 15.6 bệnh nhân

Page 7: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Dữ liệu định danh

• Dữ liệu định danh là dữ liệu đo mức độ của đợn vị đo.

Biến dữ liệu này được chia thanh nhiều loại hoặc đối

tượng và việc “đo” được gán cho một loại nào đó

• Ví dụ:

• Màu sắc của đối tượng (red, yellow, blue, green)

• Loại phương tiện di chuyển (plane, car, boat)

• Không có một thứ tự nào cho từng loại. Ví dụ: Không

thể nói màu “blue” là thấp hơn hay cao hơn màu “red”.

Page 8: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Dữ liệu thứ tự

• Dữ liệu thứ tự là dữ liệu phân loại, khi đó loại có thể tuân theo một thứ tự logic nào đó có thể tăng hoặc giảm;

• 0 – 5 điểm cho kinh nghiệm về ngôn ngữ lập trình, trong đó 0

= không biết và 5 = chuyên gia

• Chúng thể hiện mức độ: điểm ‘5 – excellent’ thì tốt hơn điểm ‘4 – good’.

• Tuy nhiên không có dữ liệu ở khoảng giữa 2 muwasc độ này.

Page 9: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bài tập 1

• Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự, định danh, rời rạc hoặc liên tục (giải thích)

• Tuổi

• Năm sinh

• Giới tính

• Chiều cao

• Số nhân viên của một phòng ban

• Thời gian làm việc

• Sự ưa thích của một loại cafe

• Kích thước công ty

Page 10: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Thống kê mô tả

Page 11: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Giới thiệu

• Thống kê mô tả là mô tả các đặc trung cơ bản

của dữ liệu. Kết hợp với phân tích dữ liệu bằng

hình vẽ cho phép ta phân tích định lượng dữ

liệu một cách trực quan.

• Có hai phần: Độ đo tính cục bộ, độ đo tính

phân tán của dữ liệu

Page 12: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Các độ đo cục bộ

Page 13: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Các đại lượng đặc trưng

• Độ đo tính cục bộ tổng quát về dữ liệu với các con số đơn

• Có 3 đại lượng

• Trung bình (Mean)

• Yếu vị (Mode)

• Trung vị (Median)

• Phần tư vị (Quartiles)

Page 14: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Trung bình (Mean)

• Trung bình là đại lượng sử dụng rất phổ biến (average)

• Thông thường giá trị trung bình thường sử dụng để

trình bày giá trị của trục x trong đồ thị ‘x-bar’.

• Cách tính trung bình cho ‘n’ điểm dữ liệu như sau:

x

n

xx

Trục X bằng tổng số dữ liệu chia cho số điểm

dữ liệu

Page 15: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bàn luận

• Ưu điểm

– Dể tính toán

– Tất cả các giá trị dữ liệu được sử dụng cho việc tính toán

– Sử dụng trong nhiều thủ tục thống kê.

• Nhược điểm

– Nó thường là giá trị không thực ví dụ: 2.4 con cho một gia đình.

– Có thể sẽ bị thay đổi bởi những giá trị ngoại lai vd: điểm của 7 sinh viên như sau:

40 42 45 50 53 54 99

– Điểm trung bình là 54.7 – nhưng có phải là đại diện của nhóm 7 sinh viên hay không?

– Nếu giá trị 99 bỏ ra, thì điểm trung bình sẽ là 47.3

Page 16: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Yếu vị (Mode)

• Yếu vị là giá trị có tần số xuất hiện cao nhất trong tập

dữ liệu.

• Xác định yếu vị:

• Nếu chúng ta thấy rằng hầu hết giá trị xuất hiện duy nhất một

lần thì đây là phân bố không có yếu vị.

• Nếu chúng ta tìm thấy hai hoặc nhiều hơn đây là vấn đề

thường xuyên, thì phân bố này có hơn một yếu vị

Page 17: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bàn luận

• Ưu điểm

– Dể hiểu

– Không bị ảnh hưởng bởi giá trị gọi là outliers (extreme values)

– Có thể được diễn dữ liệu định tính

ví dụ: tính thường xuyên của dữ liệu

• Nhược điểm

– Không phải tất cả các tập dữ liệu đều có giá trị yếu vị

– Một số tập giá trị thì có nhiều hơn 1 giá trị yếu vị

– Nếu nhiều dữ liệu làm sao ta có thể xác định và so sánh để xác định?

Page 18: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bài tập 2

• Dưới đây là độ tuổi của những sinh viên tam gia một

khóa học: 18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18

• Tìm mean

• Tìm mode

• Theo ý kiến cá nhân của bạn giá trị nào (mean và

mode) là có thể đại diện cục bộ của tập dữ liệu này?

Page 19: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Trung vị (Median)

• Trung vị nghĩa là giá trị giữa của tập dữ liệu, để xác

định trung vị người ta sắp xếp tập dữ liệu và chọn giá

trị giữa.

• Đặc biệt, giá trị này chia tập dữ liệu thành 2 phần: một

lớn hơn và một nhỏ hơn

18 24 29 30 32

Phần lớn hơn > 29Phần nhỏ hơn< 29

Page 20: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Tìm trung vị (Median) từ bộ dữ liệu

cụ thể

• Ví dụ sau:

40 42 45 50 53 54 70 99

Vị trí ở giữa = ½*(n+1) = 4.5

Median =

Median =

2

5point -data 4point -data

5.512

5350

Page 21: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bàn luận

• Ưu điểm

– Khái niệm thật dể hiểu

– Trung vị có thể xác định được cho bất ỳ loại dữ liệu nào (trừ dữ liệu định danh)

– Trung vị không bị ảnh hưởng bởi giá trị outliers của tập dữ liệu

• Nhược điểm

– Dữ liệu phải được sắp xếp (tăng hoặc giảm)

– Không thể gọp giá trị trung vị trong thống kê với giá trị trung bình

Page 22: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bài tập 3

• Sử dụng tập dữ liệu tuổi sinh viên ở trên, tìm

trung vị của tập:

18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18

Page 23: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Phần tư vị (Quartiles)

• Được biết như phần trăm

• Nhỏ hơn 4 phần tư - 25%

• Position of Q1 = ¼*(n+1)

• Lớn hơn 4 phần tư– 75%

• Position of Q3 = ¾*(n+1)

Page 24: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Phần tư vị (Quartiles) (tt)

• Phần tư vị trong tập sau:

40 42 45 50 53 54 70 99

Vị trí lớn hơn Quartile = ¾*(n+1) = 6.75

Lớn hơn quartile = data-point 6 + 0.75*(data-point 7 – data-point

6)

Lớn hơn quartile = 54 + 0.75*(70 – 54) = 66

Page 25: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bài tập 4

• Cho tập dữ liệu tuổi sinh viên xác định phần

1/3, và ¾ vị

18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18

Page 26: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Độ đo tính phân tán của dữ liệu

Page 27: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Các đại lượng phổ biến

• Đặc trưng phân bố của tập dữ liệu độ lệch của bộ dữ

liệu

Report turnaround time (days)Report turnaround time (days)

4 162 6 8 10 12 14 42 6 8 10 12

Page 28: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Các đại lượng thường sử dụng

• Có bốn đại lượng sau:

• Khoảng quan sát (range)

• Khoảng phần tư vị

• Phương sai (variance)

• Độ lệch chuẩn (standard deviation - sd)

Page 29: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Range

4 16 DaysRange

Page 30: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bàn luận

• Ưu điểm

– Tốt trong trường hợp dữ liệu cân xứng không có outliers

– Dể tính và dể hiểu

– Sử dụng tốt trong dữ liệu thứ tự

• Nhược điểm

– Không sử dụng trong trường hơp có nhiều outliers

– Bị ảnh hưởng bởi các outliers

– Nó chỉ thể hiện khoảng rộng dữ liệu, không thấy hình dạng dữ liệu.

Page 31: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bài tập 5

• Tìm range dữ liệu tuổi của sinh viên.

18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18

Page 32: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Phương sai (Variance) và độ lệch

chuẩn (Standard Deviation)

(s2, s2) =(quần thể, mẫu)

• Phương sai (s2, s2) và độ lệch chuẩn (s, s

Page 33: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Variance và Standard Deviation

• Độ lệch chuẩn (SD) là căn bâc hai của phương sai. • small SD = giá trị tập trung quanh mean

• large SD = giá trị bị phân tán

Days 8 1210

1 SD1 SD Mean

4 16

Mean

10

1 SD1 SD

6 8 12 14

Page 34: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Variance và Standard Deviation

• Xác định:

Quần thể Mẫu

22

2

2

2

2

1

ss

n

xxs

N

x

Deviation Standard Deviation Standard

VarianceVariance

ss

s

Page 35: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bài tập 6

• Sử dụng dữ liệu tuổi sinh viên tính variance và

standard deviation

18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18

Page 36: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Tóm lại

• Đơn vị đo cục bộ• Mean

• Mode

• Median

• Quartiles

• Đơn vị đo phân tán• Range

• Interquartile Range

• Variance

• Standard Deviation

Page 37: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Biểu diễn hình ảnh dữ

liệu

Page 38: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Gồm các nội dung sau

– Histograms

– Run charts

– Box plots

– Bar charts

– Pareto charts

– Pie charts

– Scatter plots

– Contingency tables

Page 39: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Histograms

90.082.575.067.560.052.545.0

30

25

20

15

10

5

0

dataset 1 (normal)

Fre

qu

en

cy

Histogram of dataset 1 (normal)

Page 40: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Run Charts

frithuwedtuemonfrithuwedtuemonfrithuwedtuemonfrithuwedtuemon

35.0

32.5

30.0

27.5

25.0

Day

Tim

e T

ake

n

Time Series Plot of Time Taken

Page 41: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Boxplots

dataset 3 (uniform)dataset 2 (exponential)dataset 1 (normal)

400

300

200

100

0

Da

ta

Boxplot of dataset 1 (norma, dataset 2 (expon, dataset 3 (unifo

Page 42: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bar Charts

wrong medicinewrong timewrong dosewrong patientmissed dose

20

15

10

5

0

Causes of Medication Errors

Fre

qu

en

cy

Chart of Frequency

Page 43: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Pareto Charts

Frequency 18 15 4 2 1

Percent 45.0 37.5 10.0 5.0 2.5

Cum % 45.0 82.5 92.5 97.5 100.0

Causes of Medication Errors

Othe

r

wro

ng patient

wrong

med

icine

wrong

time

wro

ng dos

e

40

30

20

10

0

100

80

60

40

20

0

Fre

qu

en

cy

Pe

rce

nt

Pareto Chart of Causes of Medication Errors

Page 44: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Pie Charts

missed dose

wrong patient

wrong dose

wrong time

wrong medicine

Category

4, 10.0%

15, 37.5%18, 45.0%

2, 5.0%1, 2.5%

Pie Chart of Causes of Medication Errors

Page 45: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Scatterplots

2520151050

80

70

60

50

40

30

20

10

0

Time on Diet

We

igh

t Lo

ss

Scatterplot of Weight Loss vs Time on Diet

Page 46: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Contingency Tables

Colour of eyes

Colour of hair Brown Green/grey Blue Total

Black 50 54 41 145

Brown 38 46 48 132

Fair 22 30 31 83

Ginger 10 10 20 40

Total 120 140 140 400=N

Page 47: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Bài tập

• Sinh viên sử dụng R vẽ các loại biểu đồ trên

Page 48: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Tóm tắc phần biểu diễn hình

học dữ liệu

– Histograms

– Run charts

– Box plots

– Bar charts

– Pareto charts

– Pie charts

– Scatter plots

– Contingency tables

Page 49: Bài 2 - WordPress.com...Bài tập 1 • Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự,

Tóm tắt bài học

• Các loại dữ liệu

• Thống kê mô tả

• Biểu diễn hình học dữ liệu