40
บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล การสร้างแผนภาพกล่อง (Box plot) 88520159 PROBABILITY AND STATISTICS FOR COMPUTING 1/38

บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

บทที่ 2สถิติเชิงพรรณนา

การวัดการกระจายของข้อมูลการสร้างแผนภาพกล่อง (Box plot)

88520159

PROBABIL ITY AND STATIST ICS FOR COMPUTING

1/38

Page 2: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การวัดการกระจายของข้อมูล

⦁ ข้อมูลที่มีค่ากลางเท่ากัน แต่ลักษณะของข้อมูลแตกต่างกัน

⦁ หากพิจารณาหรือสรุปลักษณะของขอ้มูลโดยใช้ค่ากลางอย่างเดียว อาจท าให้ไม่ทราบถึงลักษณะของขอ้มูลได้อย่างชัดเจน

ตัวอย่าง การตัดสินใจเลือกซื้อหุ้นจากบริษัท A และ B โดยพิจารณาจากเปอร์เซ็นต์ของผลก าไรต่อปี ในช่วง 5 ปีที่ผ่านมา ได้ข้อมูลดังนี้

บริษัท A 10 12 15 18 20

บริษัท B 2 8 15 22 28

2/38

Page 3: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การวัดการกระจายของข้อมูล

> set = c(rep("group A",5), rep("group B",5))> dat = c(10,12,15,18,20,2,8,15,22,28)> Info = data.frame(set, dat)> tapply(info$dat, set, mean) #ค ำนวณค่ำเฉลี่ยของข้อมูล dat ในแต่ละกลุ่มของตัวแปร setgroup A group B

15 15

ฟังก์ชัน tapply() เป็นฟังก์ชันที่ใช้ในการค านวณค่าสถิติของข้อมูลในแต่ละกลุ่ม

3/38

Page 4: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

Scatter plots (Dot plots)

เมื่อพิจารณาทั้งก าไรเฉลี่ยและการกระจายของก าไรจะท าให้ตัดสินใจได้ว่าควรซื้อหุ้นจากบริษัท A

ดังนั้น ถ้าข้อมูลมีค่าเฉลี่ยเท่ากันแล้วให้พิจารณาการกระจายควบคู่กันไปด้วย

4/38

> stripchart(dat~set, data = info)ฟังก์ชัน stripchart() พลอตค่าของข้อมูลแต่ละค่าเพื่อให้เห็นการกระจายของข้อมูล

Page 5: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การวัดการกระจายของข้อมูล

⦁ ในการที่จะทราบความแตกต่างของข้อมูลในแต่ละกลุ่มเรา เรียกว่า

“การวัดการกระจาย”

⦁ ข้อมูลที่ดีจะต้องมีการกระจายต่ าสุด

⦁ มีวิธีการวัด ดังนี้1. ค่าพิสัย2. ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน 3. พิสัยควอไทล์4. ค่าสัมประสิทธิ์การแปรผัน 5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์

5/38

Page 6: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

1. พิสัย (Range)

⦁ พิสัยเป็นการวัดการกระจายที่ง่ายที่สุด เป็นการหาความแตกต่างของข้อมูลสูงสุดและต่ าสุดของกลุ่ม

พิสัย = ค่าสูงสุดของข้อมูล – ค่าต่ าสุดของข้อมูล

ตัวอย่าง

พิสัยของข้อมูลบริษัท A ซึ่งมีข้อมูลคือ 10, 12, 15, 18 และ 20 ค านวณหาพิสัยคือ 20-10=10

พิสัยของข้อมูลบริษัท B ซึ่งมีข้อมูลคือ 2, 8, 15, 22 และ 28ค านวณหาพิสัยคือ 28-2=26

จะเห็นว่าข้อมูลบริษัท B จะมีค่าการกระจายมากกว่าข้อมูลบริษัท A

6/38

Page 7: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

1. พิสัย (Range)

> tapply(info$dat, set, range)$`group A`[1] 10 20$`group B`[1] 2 28

> groupA=c(10, 12, 15, 18, 20)> groupB=c(2, 8, 15, 22 ,28)> range(groupA)[1] 10 20> range(groupB)[1] 2 28

ฟังก์ชัน range() ให้ผลลัพธ์เป็นค่าต่ าสุด และค่าสูงสุด

7/38

Page 8: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

1. พิสัย (Range)

จากข้อมูล exec.pay(UsingR) ค านวณหาค่าพิสัย

พิสัยมีข้อเสีย คือ ในกรณีใช้พิสัยกับข้อมูลที่มีจ านวนมาก การวัดจะไม่แน่นอน และค่าของพิสัยจะขึ้นอยู่กับขนาดของข้อมูล ถ้าข้อมูลมีจ านวนมากพิสัยจะมาก ถ้าข้อมูลมีจ านวนน้อยพิสัยจะน้อย

> install.packages(“UsingR”)> library(UsingR)> exec.pay> diff(range(exec.pay))[1] 2510

8/38

Page 9: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

2. ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน

⦁ การวัดความแปรปรวนจะใช้ขอ้มูลทุกตัว

⦁ พิจารณาจากผลรวมของค่าแตกต่างระหว่างคา่ของขอ้มูลกับคา่เฉลี่ย

⦁ ถ้าค่าแตกต่างนั้นมากแสดงว่าข้อมูลกระจายมาก

⦁ หน่วยของความแปรปรวนนั้นจะเป็นหน่วยของ 𝑥 ยกก าลังสอง

⦁ ส่วนเบี่ยงเบนมาตรฐานนั้นเป็นรากที่สองของความแปรปรวน จะมีหน่วยเดียวกับ 𝑥

⦁ การอธิบายถึงการกระจายของข้อมูลด้วยส่วนเบี่ยงเบนมาตรฐานจึงเข้าใจได้ง่ายกว่าการใช้ความแปรปรวน

9/38

Page 10: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

ค่าความแปรปรวน (Variance)

ความแปรปรวนของตัวอย่าง (Sample Variance)

𝑠2 =σ𝑖=1𝑛 (𝑥𝑖− ҧ𝑥)2

𝑛−1

ความแปรปรวนของประชากร (population variance)

𝜎2 =σ𝑖=1𝑛 (𝑥𝑖−𝜇)

2

𝑁

10/38

Page 11: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

ส่วนเบี่ยงเบนมาตรฐาน (standard deviation)

ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง (Sample standard deviation)

𝑠 = 𝑠2 =σ𝑖=1𝑛 (𝑥𝑖− ҧ𝑥)2

𝑛−1

ส่วนเบี่ยงเบนมาตรฐานของประชากร (population standard deviation)

𝜎 = 𝜎2 =σ𝑖=1𝑛 (𝑥𝑖−𝜇)

2

𝑁

11/38

Page 12: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

2. ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน

ตัวอย่าง จงหาค่าความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานของข้อมูลจ านวนนิสิต (คน) ที่ลงทะเบียนเรียนวิชาสถิติ 7 กลุ่ม

25 35 55 74 28 54 50

> num=c(25,28,35,50,54,55,74) > var(num)[1] 305.1429> sd(num) [1] 17.46834

ฟังก์ชัน var() ค ำนวณค่ำควำมแปรปรวนของตัวอย่ำงฟังก์ชัน sd() ค ำนวณค่ำเบี่ยงเบนมำตรฐำนของตัวอย่ำง

จากการค านวณได้ค่าความแปรปรวนของข้อมูลจ านวนนิสิตที่เรียนวิชาสถิติเป็น 305.14 คน2 และมีค่าเบี่ยงเบนมาตรฐานเป็น 17.47 คน

12/38

Page 13: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

3. พิสัยควอไทล์ (Inter quartile range :IQR)

• ค่าพิสัยควอไทล์เป็นค่าที่บอกความผันแปรของข้อมูลได้อย่างหยาบๆ

• ค่าพิสัยควอไทล์หาได้จากผลต่างระหว่าง Q1 และ Q3

• คือพิสัยของข้อมูลจ านวน 50 เปอร์เซ็นต์ที่อยู่กึ่งกลางของชุดข้อมูล

• เป็นการวัดการกระจายที่เหมาะกับข้อมูลที่การแจกแจงแบบเบ้

• สังเกตได้จากการค านวณจากค่า Q1 และ Q3 ซึ่งไม่ได้น าข้อมูลที่มีค่าสูงๆ หรือต่ าๆ มาค านวณ

IQR = Q3-Q1

13/38

Page 14: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

3. พิสัยควอไทล์ (Inter quartile range :IQR)

> IQR(exec.pay) [1] 27.5> sd(exec.pay) [1] 207.0435 > summary(exec.pay)Min. 1st Qu. Median Mean 3st Qu. Max0.00 14.00 27.00 59.89 41.50 2510.00

หากพิจารณาลักษณะของข้อมูลโดยรวมพบว่าข้อมูลมีการกระจายเบ้ขวามากจะใช้ค่าพิสัยควอไทล์เป็นการวัดการกระจายของข้อมูลชุดนี้

ค่าพิสัยควอไทล์ของข้อมูลมีค่าเป็น 27.5

14/38

Page 15: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)

⦁ หากต้องการเปรียบเทียบการกระจายของข้อมูลมากกว่าหนึ่งชุด

⦁ น าข้อมูลแต่ละชุดมาเปรียบเทียบกันว่าข้อมูลชุดใดมีการกระจายมากกว่ากัน

⦁ เปรียบเทียบการกระจายของข้อมูลตั้งแต่ 2 ชุด ขึ้นไป⦁หน่วยต่างกัน ⦁มีหน่วยเหมือนกัน แต่ขนาดต่างกัน (ค่าเฉลี่ยต่างกัน)

⦁ สัมประสิทธิ์ความแปรผัน เป็นค่าที่ไม่มีหน่วย

15/38

Page 16: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)

สัมประสิทธิ์ความแปรผันของตัวอย่าง

𝑐𝑣 =𝑠

ҧ𝑥× 100%

สัมประสิทธิ์ความแปรผันของประชากร

𝑐𝑣 =𝜎

𝜇× 100%

𝑠 คือ ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง

𝜎 คือ ส่วนเบี่ยงเบนมาตรฐานของประชากร

16/38

Page 17: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)

ตัวอย่าง จากข้อมูลของบริษัทจ าหน่ายรถยนต์แห่งหนึ่ง ในรอบ 3 เดือน พบว่าจ านวนรถยนต์ ที่จ าหน่ายได้เฉลี่ย 87 คัน มีค่าเบี่ยงเบนมาตรฐานเท่ากับ 5 คัน และค่าคอมมิชชั่น (commissions) เฉลี่ย $5225 มีค่าเบี่ยงเบนมาตรฐาน $773

จงเปรียบเทียบการกระจายของข้อมูลทั้งสอง

17/38

Page 18: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)

ตัวอย่าง ข้อมูลต่อไปนี้เป็นส่วนสูง (cm) และน้ าหนัก (kg) ของนักกีฬา 10 คนที่ถูกสุ่มมาเป็นตัวอย่าง

จงเปรียบเทียบการกระจายของน้ าหนักและส่วนสูงของนักกีฬา

น ำหนัก 75 70 82 72 85 68 59 80 76 56ส่วนสูง 172 169 185 170 180 173 165 182 175 166

18/38

Page 19: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)

ตัวอย่าง บริษัทแห่งหนึ่งแบ่งคนงานออกเป็น 2 กลุ่ม ๆ ละ 5 คน จ านวนชิ้นของสินค้าที่คนงานแต่ละคนในกลุ่มผลิตเป็นดังนี้

กลุ่มที่ 1 (X) : 13, 6, 8, 2, 15

กลุ่มที่ 2 (Y) : 8, 2, 7, 7, 8

จงหากลุ่มพนักงานใดมีการกระจายของความสามารถในการผลิตสินค้ามากกว่ากัน

19/38

Page 20: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)

> g1=c(13,6,8,2,15)> g2=c(8,2,7,7,8)> CV1=sd(g1)/mean(g1)*100> CV1[1] 59.80772> CV2=sd(g2)/mean(g2)*100 > CV2[1] 39.21844

กลุ่มที่ 1 มีการกระจายของความสามารถในการผลิตสินค้ามากกว่ากลุ่มที่ 2

20/38

Page 21: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation)

• เป็นการเปรียบเทียบการประจายของข้อมูลสองชุด เมื่อข้อมูลไม่มีการแจกแจงสมมาตร

𝐶𝐷 =𝑄3−𝑄1

𝑄3+𝑄1

เมื่อ Q3 และ Q1 คือค่าควอไทล์ที่ 1 และ 3 ตามล าดับ

21/38

Page 22: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation)

ตัวอย่าง จากชุดข้อมูล airquality เปรียบเทียบการกระจายของข้อมูล Solar.R และ Wind

> par(mfrow=c(1,2))> plot(density(airquality$Solar.R,na.rm=TRUE)) > plot(density(airquality$Wind,na.rm=TRUE))

22/38

Page 23: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation)

ข้อมูล Solar.R และ Wind เป็นข้อมูลคนละประเภท มีหน่วยการวัดแตกต่างกัน อีกทั้งจากกราฟจะพบว่าข้อมูลไม่มีการกระจายสมมาตร ดังนั้นเราจะเปรียบเทียบการกระจายด้วยสัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์

23/38

Page 24: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation)

> Q3=quantile(airquality$Solar.R,0.75,na.rm = TRUE) > Q1=quantile(airquality$Solar.R,0.25,na.rm = TRUE) > CD1=(Q3-Q1)/(Q3+Q1)> CD175% 0.3818425> Q3_W=quantile(airquality$Wind,0.75,na.rm = TRUE) > Q1_W=quantile(airquality$Wind,0.25,na.rm = TRUE) > CD2=(Q3_W-Q1_W)/(Q3_W+Q1_W)> CD275% 0.2169312

แสดงว่าข้อมูล Solar.R มีการกระจายมากกว่าข้อมูล Wind

24/38

Page 25: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

Box and whisker plot หรือ Box plot• กราฟที่ให้รายละเอียดขอค่าสถิติเพื่อตรวจสอบการแจกแจง• ค่าต่ าสุดของข้อมูลที่ยังไม่ต่ าผิดปกติ• ค่าควอไทล์ท่ี 1 (Q1)• ค่ามัธยฐาน หรือ ค่าควอไทล์ท่ี 2 (Q2)• ค่าควอไทล์ที่ 3 (Q3)• ค่าสูงสุดของข้อมูลที่ยังไม่สูงผิดปกติ • บ่งบอกความเบ้หรือสมมาตรของข้อมูล• สามารถตรวจสอบค่าผิดปกติของชุดข้อมูลได้

25/38

Page 26: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

การสร้าง boxplot

1. เรียงข้อมูลจากน้อยไปมาก

2. หาค่า Q1, Q2 (มัธยฐาน) , Q3

3. หาขอบเขตของค่าที่ยังไม่ผิดปกติ ◦ ได้แก่ f1 = Q1 − 1.5(IQR) และ f2 = Q3 + 1.5(IQR)

4. สร้างกล่อง โดยสองด้านของกล่องคือควอไทล์ที่ 1 และ 3

26/38

Page 27: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

การสร้าง boxplot

5. สร้าง whisker ทั้ง 2 ด้าน ◦ ลากเส้นแนวนอนจากขอบกล่องด้าน Q1 ไปยังค่าต่ าสุดในกรณีที่ไม่มีค่าผิดปกติ

หรือให้ลากไปยังค่าต่ าสุดที่สูงกว่า f1 ถ้ามีค่าผิดปกติ ◦ ลากเส้นแนวนอนจากขอบกล่องด้าน Q3 ไปยังค่าสูงสุดในกรณีที่ไม่มีค่าผิดปกติ

หรือให้ลากไปยังค่าสูงสุดที่ต่ ากว่า f2 ถ้ามีค่าผิดปกติ

6. ในกรณีที่มีค่าผิดปกติให้เขียนลงไปในแผนภาพโดยใช้สัญลักษณ์ ◦ หรือ *

27/38

Page 28: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

• ความกว้างของ box เท่ากับ Q3 − Q1 (IQR) กล่าวได้ว่ามีข้อมูล 50% อยู่ใน box ถ้า box กว้างแสดงว่าข้อมูลมีการกระจายมาก ถ้า box แคบแสดงว่าข้อมูลมีการกระจายน้อย

• การดูลักษณะของข้อมูลว่า สมมาตร เบ้ซ้าย เบ้ขวา ให้ดูทั้งหมดของ box-plot และ Q2 ไปจนถึง whisker ถ้าด้านใดยาวแสดงว่าข้อมูลเบ้ไปทางด้านน้ัน

• ค่าสูงสุดของข้อมูลที่ยังไม่สูงผดิปกติ คือ ค่าสูงสุดของข้อมูลที่มีค่าไม่เกิน Q3 + 1.5(IQR)

28/38

Page 29: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

• ค่าต่ าสุดของข้อมูลที่ยังไม่ต่ าผิดปกติ คือ ค่าต่ าสุดของข้อมูลที่มีค่าไม่เกิน Q1 − 1.5(IQR)

• ถ้ามีข้อมูลใดมีค่าน้อยกว่า Q1 − 1.5(IQR) หรือมากกว่า Q3 + 1.5(IQR) จะเรียกข้อมูลนั้น ว่า Outlier แสดงด้วยเครื่องหมายวงกลม (◦)

• ถ้ามีข้อมูลใดมีค่าน้อยกว่า Q1 − 3(IQR) หรือมากกว่า Q3 + 3(IQR) จะเรียกข้อมูลนั้นว่า Extremes แสดงด้วยเครื่องหมายดอกจัน (∗)

29/38

Page 30: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

ตัวอย่าง ข้อมูลต่อไปนี้คือคะแนนวิชาคณิตศาสตร์ของนิสิตจ านวน 15 คน

13 9 18 15 14 21 7 10 11 20 5 18 37 16 17

วิธีท า

1. เรียงล าดับจากน้อยไปมาก

5 7 9 10 11 13 14 15 16 17 18 18 20 21 37

2. หาค่า Q1, Q2, Q3

30/38

Page 31: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

3. หาขอบเขตของค่าที่ยังไม่ผิดปกติ ◦ f1 = Q1 − 1.5(IQR) ◦ f2 = Q3 + 1.5(IQR)

4. สร้างกล่อง โดยสองด้านของกล่องคือควอไทล์ที่ 1 และ 3

5. สร้าง whisker ทั้ง 2 ด้าน

6. เขียนสัญลักษณ์ค่าผิดปกติ (ถ้ามี)

31/38

Page 32: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

ตัวอย่าง แผนภาพกล่อง (Box plot) ข้อมูลต่อไปนี้คือคะแนนวิชาคณิตศาสตร์ของนิสิตจ านวน 15 คน

13 9 18 15 14 21 7 10 11 20 5 18 37 16 17

minimum maximummedianQ1 Q3

จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ 1 ค่า คือ 37 หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้างเบ้ซ้าย

32/38

Page 33: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

ตัวอย่าง ข้อมูลต่อไปนี้คือระดับความสูงของน้ า (เซนติเมตร) ที่ท่วมบริเวณอ าเภอต่าง ๆ 8 อ าเภอในจังหวัดปราจีนบุรี

15 13 6 5 12 20 39 18

> water=c(15,13,6,5,12,20,39,18)> boxplot(water)

33/38

Page 34: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

34/38

จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ 1 ค่า คือ 39 หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้างสมมาตร

Page 35: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

ตัวอย่าง ข้อมูลต่อไปนี้เป็นเวลาที่นิสิตใช้ในการเล่นอินเทอร์เน็ตต่อวัน (หน่วย:นาที) ของนิสิตจ านวน 50 คน

22 32 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69 70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83 84 84 85 86 87 88 89 90 90 92 93 95 98 99

>internet=c(22,32,48,49,53,55,57,58,59,60,62,62,63,64,65,66,68,69,70,71,72,73,74,75,75,76,77,77,78,78,79,79,80,80,80,81,83,84,84,85,86,87,88,89,90,90,92,93,95,98,99)> boxplot(internet, horizontal = TRUE)

35/38

Page 36: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot) ให้นิสิตอธิบาย

ข้อมูลชุดนี้

36/38

จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ ….. ค่า คือ ……. หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้าง………..

Page 37: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

โจทย์ตัวอย่าง

ข้อมูลต่อไปนี้เป็นระยะเวลาที่ใช้เล่นเกมส์ (นาที) ของเด็กผู้ชาย 10 คน และเด็กผู้หญิง 15 คน ที่ถูกสุ่มมาเป็นตัวอย่าง

◦ จงหาค่าเฉลี่ยและฐานนิยมของระยะเวลาที่ใช้เล่นเกมส์ในแต่ละกลุ่ม ◦ จงหามัธยฐานของระยะเวลาที่ใช้เล่นเกมส์ของเด็กแต่ละกลุ่ม◦ จงหาค่าควอไทล์ที่ 1 และ 3 ของระยะเวลาที่ใช้เล่นเกมส์ของเด็กแต่ละกลุ่ม◦ ข้อมูลระยะเวลาของเด็กกลุ่มใดมีการกระจายมากกว่ากัน จงแสดงวิธีการ

ค านวณ

ชำย 62, 75, 58, 45, 60, 86, 75, 90, 67, 45

หญิง 50, 25, 40, 38, 75, 49, 50, 44, 80, 30, 33, 46, 57, 68, 74

37/38

Page 38: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

การสร้างแผนภาพกล่อง (Box plot)

boxplot(female, male, names = c("female", "male"), horizontal = TRUE)

ข้อมูลสองกลุ่มมีหน่วยเหมือนกัน แต่ค่าเฉลี่ยต่างกันและทั้งสองกลุ่มมีการกระจายแบบสมมาตร ควรใช้ สัมประสิทธิ์การแปรผัน ในการวัดการกระจาย

38/38

Page 39: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

สรุป

สมมาตร / ไม่สมมาตร ดูจาก

- boxplot

- denaity plot

- ความสัมพันธ์ของค่าเฉลี่ย มัธยฐาน ฐานนิยม

ค่ากลางที่เหมาะสม

- mean (สมมาตร)

- median (ไม่สมมาตร)

- mode (ข้อมูลเชิงคุณภาพ)

39/38

Page 40: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/lecture/lecture03.pdf · บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล

สรุป

ค่าการกระจายที่เหมาะสม

• วัดการกระจายข้อมูลชุดเดียว หรือ ตั้งแต่ 2 ชุดที่มีหน่วยเหมือนกันและค่าเฉลี่ยเท่ากัน

- ค่าพิสัย (สมมาตร หาแบบหยาบๆ)

- ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน (สมมาตร หาแบบละเอียด)

- ค่าพิสัยควอไทล์ (ไม่สมมาตร)

• วัดการกระจายตั้งแต่ 2 ชุด ที่มีหน่วยเหมือนกันแต่ค่าเฉลี่ยต่างกัน หรือ มีหน่วยต่างกัน

- ค่าสัมประสิทธิ์การแปรผัน (สมมาตร)

- ค่าสัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (ไม่สมมาตร)

40/38