Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Bài 2
Các khái niệm cơ bản về
thống kê
Nội dung
• Loại dữ liệu
• Thống kê mô tả
• Biểu diễn dữ liệu
Loại dữ liệu
Biến ngẫu nhiên
• Biến định lượng
• Có thể đếm hoặc đo với một giá trị số học
• Có thể là biến liên tục hoặc rời rạc (thường là một con số).
• Biến định tính
• Không phải là một biến số học dùng để phân loại, nhưng có không thể đo được bằng một giá trị số học
• Đùng để định danh hoặc đánh thứ tự
Dữ liệu liên tục
• Dữ liệu có thể là một giá trị số bất kỳ nào đó,
và chúng có thể lưu lại bất kỳ ở nhiều điểm
khác nhau
• Ví dụ
• Nhiệu độ (39.25oC)
• Thời gian (2.468 seconds)
• Chiều cao (1.25m)
• Cân nặng (66.34kg)
Dữ liệu rời rạc
• Dữ liệu rời rạc dựa trên biến đếm, ví dụ:
• Số chiếc xe oto đậu trong một chổ đậu xe.
• Số bệnh nhân được bác sĩ thăm khám trong một
ngày.
• Chỉ duy nhất một số là có thể chẳng han 10,
20, hoặc 30 bệnh nhân được thăm khám,
nhưng không thể 15.6 bệnh nhân
Dữ liệu định danh
• Dữ liệu định danh là dữ liệu đo mức độ của đợn vị đo.
Biến dữ liệu này được chia thanh nhiều loại hoặc đối
tượng và việc “đo” được gán cho một loại nào đó
• Ví dụ:
• Màu sắc của đối tượng (red, yellow, blue, green)
• Loại phương tiện di chuyển (plane, car, boat)
• Không có một thứ tự nào cho từng loại. Ví dụ: Không
thể nói màu “blue” là thấp hơn hay cao hơn màu “red”.
Dữ liệu thứ tự
• Dữ liệu thứ tự là dữ liệu phân loại, khi đó loại có thể tuân theo một thứ tự logic nào đó có thể tăng hoặc giảm;
• 0 – 5 điểm cho kinh nghiệm về ngôn ngữ lập trình, trong đó 0
= không biết và 5 = chuyên gia
• Chúng thể hiện mức độ: điểm ‘5 – excellent’ thì tốt hơn điểm ‘4 – good’.
• Tuy nhiên không có dữ liệu ở khoảng giữa 2 muwasc độ này.
Bài tập 1
• Xem thử những biến dưới đây và quyết đinh chúng là loại dữ liệu nào: định tính, định lượng, thứ tự, định danh, rời rạc hoặc liên tục (giải thích)
• Tuổi
• Năm sinh
• Giới tính
• Chiều cao
• Số nhân viên của một phòng ban
• Thời gian làm việc
• Sự ưa thích của một loại cafe
• Kích thước công ty
Thống kê mô tả
Giới thiệu
• Thống kê mô tả là mô tả các đặc trung cơ bản
của dữ liệu. Kết hợp với phân tích dữ liệu bằng
hình vẽ cho phép ta phân tích định lượng dữ
liệu một cách trực quan.
• Có hai phần: Độ đo tính cục bộ, độ đo tính
phân tán của dữ liệu
Các độ đo cục bộ
Các đại lượng đặc trưng
• Độ đo tính cục bộ tổng quát về dữ liệu với các con số đơn
• Có 3 đại lượng
• Trung bình (Mean)
• Yếu vị (Mode)
• Trung vị (Median)
• Phần tư vị (Quartiles)
Trung bình (Mean)
• Trung bình là đại lượng sử dụng rất phổ biến (average)
• Thông thường giá trị trung bình thường sử dụng để
trình bày giá trị của trục x trong đồ thị ‘x-bar’.
• Cách tính trung bình cho ‘n’ điểm dữ liệu như sau:
x
n
xx
Trục X bằng tổng số dữ liệu chia cho số điểm
dữ liệu
Bàn luận
• Ưu điểm
– Dể tính toán
– Tất cả các giá trị dữ liệu được sử dụng cho việc tính toán
– Sử dụng trong nhiều thủ tục thống kê.
• Nhược điểm
– Nó thường là giá trị không thực ví dụ: 2.4 con cho một gia đình.
– Có thể sẽ bị thay đổi bởi những giá trị ngoại lai vd: điểm của 7 sinh viên như sau:
40 42 45 50 53 54 99
– Điểm trung bình là 54.7 – nhưng có phải là đại diện của nhóm 7 sinh viên hay không?
– Nếu giá trị 99 bỏ ra, thì điểm trung bình sẽ là 47.3
Yếu vị (Mode)
• Yếu vị là giá trị có tần số xuất hiện cao nhất trong tập
dữ liệu.
• Xác định yếu vị:
• Nếu chúng ta thấy rằng hầu hết giá trị xuất hiện duy nhất một
lần thì đây là phân bố không có yếu vị.
• Nếu chúng ta tìm thấy hai hoặc nhiều hơn đây là vấn đề
thường xuyên, thì phân bố này có hơn một yếu vị
Bàn luận
• Ưu điểm
– Dể hiểu
– Không bị ảnh hưởng bởi giá trị gọi là outliers (extreme values)
– Có thể được diễn dữ liệu định tính
ví dụ: tính thường xuyên của dữ liệu
• Nhược điểm
– Không phải tất cả các tập dữ liệu đều có giá trị yếu vị
– Một số tập giá trị thì có nhiều hơn 1 giá trị yếu vị
– Nếu nhiều dữ liệu làm sao ta có thể xác định và so sánh để xác định?
Bài tập 2
• Dưới đây là độ tuổi của những sinh viên tam gia một
khóa học: 18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18
• Tìm mean
• Tìm mode
• Theo ý kiến cá nhân của bạn giá trị nào (mean và
mode) là có thể đại diện cục bộ của tập dữ liệu này?
Trung vị (Median)
• Trung vị nghĩa là giá trị giữa của tập dữ liệu, để xác
định trung vị người ta sắp xếp tập dữ liệu và chọn giá
trị giữa.
• Đặc biệt, giá trị này chia tập dữ liệu thành 2 phần: một
lớn hơn và một nhỏ hơn
18 24 29 30 32
Phần lớn hơn > 29Phần nhỏ hơn< 29
Tìm trung vị (Median) từ bộ dữ liệu
cụ thể
• Ví dụ sau:
40 42 45 50 53 54 70 99
Vị trí ở giữa = ½*(n+1) = 4.5
Median =
Median =
2
5point -data 4point -data
5.512
5350
Bàn luận
• Ưu điểm
– Khái niệm thật dể hiểu
– Trung vị có thể xác định được cho bất ỳ loại dữ liệu nào (trừ dữ liệu định danh)
– Trung vị không bị ảnh hưởng bởi giá trị outliers của tập dữ liệu
• Nhược điểm
– Dữ liệu phải được sắp xếp (tăng hoặc giảm)
– Không thể gọp giá trị trung vị trong thống kê với giá trị trung bình
Bài tập 3
• Sử dụng tập dữ liệu tuổi sinh viên ở trên, tìm
trung vị của tập:
18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18
Phần tư vị (Quartiles)
• Được biết như phần trăm
• Nhỏ hơn 4 phần tư - 25%
• Position of Q1 = ¼*(n+1)
• Lớn hơn 4 phần tư– 75%
• Position of Q3 = ¾*(n+1)
Phần tư vị (Quartiles) (tt)
• Phần tư vị trong tập sau:
40 42 45 50 53 54 70 99
Vị trí lớn hơn Quartile = ¾*(n+1) = 6.75
Lớn hơn quartile = data-point 6 + 0.75*(data-point 7 – data-point
6)
Lớn hơn quartile = 54 + 0.75*(70 – 54) = 66
Bài tập 4
• Cho tập dữ liệu tuổi sinh viên xác định phần
1/3, và ¾ vị
18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18
Độ đo tính phân tán của dữ liệu
Các đại lượng phổ biến
• Đặc trưng phân bố của tập dữ liệu độ lệch của bộ dữ
liệu
Report turnaround time (days)Report turnaround time (days)
4 162 6 8 10 12 14 42 6 8 10 12
Các đại lượng thường sử dụng
• Có bốn đại lượng sau:
• Khoảng quan sát (range)
• Khoảng phần tư vị
• Phương sai (variance)
• Độ lệch chuẩn (standard deviation - sd)
Range
4 16 DaysRange
Bàn luận
• Ưu điểm
– Tốt trong trường hợp dữ liệu cân xứng không có outliers
– Dể tính và dể hiểu
– Sử dụng tốt trong dữ liệu thứ tự
• Nhược điểm
– Không sử dụng trong trường hơp có nhiều outliers
– Bị ảnh hưởng bởi các outliers
– Nó chỉ thể hiện khoảng rộng dữ liệu, không thấy hình dạng dữ liệu.
Bài tập 5
• Tìm range dữ liệu tuổi của sinh viên.
18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18
Phương sai (Variance) và độ lệch
chuẩn (Standard Deviation)
(s2, s2) =(quần thể, mẫu)
• Phương sai (s2, s2) và độ lệch chuẩn (s, s
Variance và Standard Deviation
• Độ lệch chuẩn (SD) là căn bâc hai của phương sai. • small SD = giá trị tập trung quanh mean
• large SD = giá trị bị phân tán
Days 8 1210
1 SD1 SD Mean
4 16
Mean
10
1 SD1 SD
6 8 12 14
Variance và Standard Deviation
• Xác định:
Quần thể Mẫu
22
2
2
2
2
1
ss
n
xxs
N
x
Deviation Standard Deviation Standard
VarianceVariance
ss
s
Bài tập 6
• Sử dụng dữ liệu tuổi sinh viên tính variance và
standard deviation
18, 19, 18, 25, 22, 20, 21, 45, 33, 20, 18, 18
Tóm lại
• Đơn vị đo cục bộ• Mean
• Mode
• Median
• Quartiles
• Đơn vị đo phân tán• Range
• Interquartile Range
• Variance
• Standard Deviation
Biểu diễn hình ảnh dữ
liệu
Gồm các nội dung sau
– Histograms
– Run charts
– Box plots
– Bar charts
– Pareto charts
– Pie charts
– Scatter plots
– Contingency tables
Histograms
90.082.575.067.560.052.545.0
30
25
20
15
10
5
0
dataset 1 (normal)
Fre
qu
en
cy
Histogram of dataset 1 (normal)
Run Charts
frithuwedtuemonfrithuwedtuemonfrithuwedtuemonfrithuwedtuemon
35.0
32.5
30.0
27.5
25.0
Day
Tim
e T
ake
n
Time Series Plot of Time Taken
Boxplots
dataset 3 (uniform)dataset 2 (exponential)dataset 1 (normal)
400
300
200
100
0
Da
ta
Boxplot of dataset 1 (norma, dataset 2 (expon, dataset 3 (unifo
Bar Charts
wrong medicinewrong timewrong dosewrong patientmissed dose
20
15
10
5
0
Causes of Medication Errors
Fre
qu
en
cy
Chart of Frequency
Pareto Charts
Frequency 18 15 4 2 1
Percent 45.0 37.5 10.0 5.0 2.5
Cum % 45.0 82.5 92.5 97.5 100.0
Causes of Medication Errors
Othe
r
wro
ng patient
wrong
med
icine
wrong
time
wro
ng dos
e
40
30
20
10
0
100
80
60
40
20
0
Fre
qu
en
cy
Pe
rce
nt
Pareto Chart of Causes of Medication Errors
Pie Charts
missed dose
wrong patient
wrong dose
wrong time
wrong medicine
Category
4, 10.0%
15, 37.5%18, 45.0%
2, 5.0%1, 2.5%
Pie Chart of Causes of Medication Errors
Scatterplots
2520151050
80
70
60
50
40
30
20
10
0
Time on Diet
We
igh
t Lo
ss
Scatterplot of Weight Loss vs Time on Diet
Contingency Tables
Colour of eyes
Colour of hair Brown Green/grey Blue Total
Black 50 54 41 145
Brown 38 46 48 132
Fair 22 30 31 83
Ginger 10 10 20 40
Total 120 140 140 400=N
Bài tập
• Sinh viên sử dụng R vẽ các loại biểu đồ trên
Tóm tắc phần biểu diễn hình
học dữ liệu
– Histograms
– Run charts
– Box plots
– Bar charts
– Pareto charts
– Pie charts
– Scatter plots
– Contingency tables
Tóm tắt bài học
• Các loại dữ liệu
• Thống kê mô tả
• Biểu diễn hình học dữ liệu