24
บทที2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง การวัดแนวโน้มเข้าสู่ส่วนกลางเป็นวิธีการทางสถิติเชิงพรรณนาที ่ใช้ในการหาค่ากลางหรือค่าเฉลี ่ยเพื่อใช้ เป็นตัวแทนแสดงขนาดและลักษณะของข้อมูลชุดนั ้น ประโยชน์ของการวัดแนวโน้มเข้าสู่ส่วนกลางคือทำให้ได้ ตัวแทนของข้อมูลที่เป็นตัวเลขจำนวนเดียวที่แทนค่าทั้งหมดของข้อมูลชุดนั ้นมาเสนอรายงาน โดยไม่จำเป็นต้องนำ ข้อมูลทั ้งชุดมาพิจารณา ค่าวัดแนวโน้มเข้าสู่ส่วนกลางมีอยู่หลายค่าด้วยกัน เช่น ค่าเฉลี ่ย ค่ามัธยฐาน และค่าฐาน นิยม เป็นต้น 2.1.1 ค่าเฉลี่ย (Mean) เป็นค่ากลางแบบหนึ ่งที่นิยมใช้เป็นตัวแทนของข้อมูล เนื่องจากใช้ข้อมูลทุกตัวในการคำนวณ ซึ่งคำนวณได้ จากนำข้อมูลทุกตัวมารวมกันแล้วหารด้วยจำนวนข้อมูลทั้งหมด ดังสูตรต่อไปนีค่าเฉลี่ยของตัวอย่าง ( ) = $ % $&’ ค่าเฉลี่ยของประชากร () = $ * $&’ เมื่อ คือ จำนวนข้อมูลทั้งหมดในตัวอย่าง คือ จำนวนข้อมูลทั้งหมดในประชากร ตัวอย่างที2.1 จงหาค่าเฉลี่ยของข้อมูลตัวอย่างต่อไปนี16, 8, 15, 12, 14, 7 = 16 + 8 + 15 + 12 + 14 + 7 6 = 12

บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

บทท 2 สถตเชงพรรณนา

2.1 การวดแนวโนมเขาสสวนกลาง

การวดแนวโนมเขาสสวนกลางเปนวธการทางสถตเชงพรรณนาทใชในการหาคากลางหรอคาเฉลยเพอใชเปนตวแทนแสดงขนาดและลกษณะของขอมลชดนน ประโยชนของการวดแนวโนมเขาสสวนกลางคอทำใหไดตวแทนของขอมลทเปนตวเลขจำนวนเดยวทแทนคาทงหมดของขอมลชดนนมาเสนอรายงาน โดยไมจำเปนตองนำขอมลทงชดมาพจารณา คาวดแนวโนมเขาสสวนกลางมอยหลายคาดวยกน เชน คาเฉลย คามธยฐาน และคาฐานนยม เปนตน

2.1.1 คาเฉลย (Mean)

เปนคากลางแบบหนงทนยมใชเปนตวแทนของขอมล เนองจากใชขอมลทกตวในการคำนวณ ซงคำนวณไดจากนำขอมลทกตวมารวมกนแลวหารดวยจำนวนขอมลทงหมด ดงสตรตอไปน

คาเฉลยของตวอยาง (𝑥)

𝑥 = 𝑥$%

$&'𝑛

คาเฉลยของประชากร (𝜇)

𝜇 = 𝑥$*

$&'𝑁

เมอ 𝑛 คอ จำนวนขอมลทงหมดในตวอยาง 𝑁 คอ จำนวนขอมลทงหมดในประชากร

ตวอยางท 2.1 จงหาคาเฉลยของขอมลตวอยางตอไปน 16, 8, 15, 12, 14, 7

𝑥 =16 + 8 + 15 + 12 + 14 + 7

6= 12

Page 2: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

ตวอยางท 2.2 ขอมลเวลาในการออกกำลงกาย/วน (นาท) ของนาย A ในสปดาหท 1 ทถกสมมาเปนตวอยาง ดงน

30, 36, 25, 18, 45, 55, 22

จงหาเวลาเฉลยทนาย A ใชออกกำลงกายใน 1 สปดาห

2.1.2 คาเฉลยแบบถวงนำหนก (weighted mean)

ถาขอมลแตละคามความสำคญไมเทากนหรอมคาถวงนำหนกไมเทากน จะตองนำนำหนกมาคดในการหาคาเฉลยดวยเสมอ โดยการนำนำหนกของขอมลแตละคามาคณกบขอมลตวนน จากนนนำมารวมกนทกตวแลวหารดวยผลรวมของนำหนกทงหมด สามารถคำนวณไดจากสตรตอไปน

คาเฉลยแบบถวงนำหนก

𝑥 = 𝑥$𝑤$%

$&'𝑤$%

$&'

เมอ 𝑤$ คอ นำหนกของ 𝑥$

คำสง R

> age=c(14,16,14,17,16,14,18,17)

> mean(age)

[1] 15.75

หมายเหต ฟงกชน mean() ใชหาคาเฉลยเลขคณตสำหรบขอมลเชงปรมาณ

Page 3: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

ตวอยางท 2.3 ใหหาเกรดเฉลยของนสตคนหนง ซงมผลการเรยนดงน

วชา หนวยกต เกรด

ภาษาไทย 2 3 คณตศาสตร 3 4 ภาษาองกฤษ 4 2 วทยาศาสตร 1 4

2.1.3 คาเฉลยเลขคณตรวม

ในกรณทมขอมลอยหลาย ๆ กลมและเราทราบคาเฉลยของขอมลแตละกลมจะสามารถหาคาเฉลยเลขคณตรวมทกกลมไดดงน

คาเฉลยเลขคณตรวม

𝑥 =𝑛$𝑥$5

$&'𝑛$5

$&'

เมอ 𝑥$ คอ คาเฉลยของกลมท 𝑖 𝑛$ คอ จำนวนขอมลของกลมท 𝑖 𝑎 คอ จำนวนกลมทงหมด

ตวอยางท 2.4 นสตสาขาวชาสถตของมหาวทยาลยแหงหนงมจำนวน 90 คน โดยมนสตชายทงหมด 40 คน ซงนสตชายสอบไดคะแนนเฉลย 65 คะแนน สวนนสตหญงสอบไดคะแนนเฉลย 72 คะแนน จงหาคะแนนเฉลยของนสตทงสาขา

Page 4: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

2.1.4 คามธยฐาน (Median)

มธยฐานเปนคาทอยกงกลางของขอมล เมอเรยงลำดบขอมลจากนอยไปหามาก และแบงครงขอมลออก เปนสองสวนเทากน คามธยฐานอาจจะเปนคาใดคาหนงของชดขอมล หรอมคาอยระหวางสองคาใด ๆ กได สญลกษณทใชแทนคามธยฐานคอ 𝑀𝐷 สามารถคำนวณหาตำแหนงของมธยฐานไดดงน

ขนท 1 เรยงลำดบขอมล

ขนท 2 หาคามธยฐาน

• เมอจำนวนขอมลเปนเลขค

𝑀𝐷 =คาของขอมลลำดบท %:';

• เมอจำนวนขอมลเปนเลขค

𝑀𝐷 =คาของขอมลลำดบท𝑛2 + คาของขอมลลำดบท

𝑛 + 12

2

ตวอยางท 2.5 จำนวนนสตทลงทะเบยนเรยนวชาสถตสำหรบวทยาศาสตรในเทอมนม 7 กลม คอ 25, 35, 55, 74, 28, 54 และ 50 จงหาคามธยฐานของขอมลชดน

ขนท 1 เรยงลำดบขอมลจากนอยไปหามาก 25 28 35 50 54 55 74

ขนท 2 หาคามธยฐาน

มธยฐาน = คาของขอมลลำดบท <:';

= 4 = 50

คำสง R > num=c(25,28,35,50,54,55,74) > median(num) [1] 50 หมายเหต ฟงกชน median() ใชหาคามธยฐานสำหรบขอมลเชงปรมาณ

Page 5: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

2.1.5 ฐานนยม (Mode)

ฐานนยม คอ คาของขอมลทเกดขนบอยครงทสดหรอมความถมากทสด ชดขอมลทมคาของขอมลทเกดขนบอยทสดเพยงคาเดยว จะเรยกวา unimodal สวนชดขอมลทมคาทเกดขนบอยทสดสองคา จะเรยกวา bimodal และเมอชดขอมลใดทไมมคาสงเกตใดเกดขนมากกวาหนงครงเราจะเรยกวาไมมฐานนยม

ตวอยางท 2.6 จงหาฐานนยมของขอมลตอไปน

A: 5, 8, 6, 5, 9, 5

B: 10, 15, 2, 10, 9, 2, 8

C: 6, 9, 7, 2, 3, 11

2.1.6 คณสมบตและการใชคาวดแนวโนมเขาสสวนกลาง

คาเฉลย (Mean)

1. คาเฉลยนนคำนวณมาจากคาสงเกตทกคาในชดขอมล 2. คาเฉลยจะมคาเปลยนแปลงนอยมากเมอเทยบกบคามธยฐานหรอฐานนยม เมอชดขอมลตวอยางถกสมมาจากประชากรเดยวกน

3. คาเฉลยจะถกนำไปใชในการคำนวณคาสถตอน ๆ เชน ความแปรปรวน เปนตน 4. สำหรบชดขอมลชดหนงจะมคาเฉลยเพยงคาเดยวเทานน และไมจำเปนตองเปนคาสงเกตคาใดคาหนงในชดขอมล

5. คาเฉลยจะถกกระทบดวยคาสงเกตทมคาสงหรอตำผดปกต ซงเราเรยกคาเหลานวา outliers ซงใน กรณนคาเฉลยอาจจะไมใชคาวดแนวโนมเขาสสวนกลางทเหมาะสม

คำสง R > a=c(11, 11, 12, 12, 12, 13, 13, 13, 13, 13, 14, 14, 14, 15, 15, 16, 16, 17, 17, 18) > which.max(table(a)) 13 3 หมายเหต ฟงกชน table() ใชนบจำนวนความถของขอมล

ฟงกชน which.max() เปนการหาคาทมจำนวนสงทสด โดยทเราตองใสตวแปรทหาความถเรยบรอยแลวใหกบฟงกชนนฟงกชน which.max() จงตองทำงานคกบ table()

Page 6: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

มธยฐาน (Median)

1. การหาคามธยฐานนนเราตองหาคากงกลางของขอมล 2. คามธยฐานจะถกนำมาใชเมอเราตองการทราบวาคาสงเกตนนตกอยในครงลางหรอครงบนของการแจกแจง

3. คามธยฐานจะถกกระทบดวยคาสงเกตทสงหรอตำผดปกตนอยกวาคาเฉลย

ฐานนยม (Mode)

1. การหาคาฐานนยมจะใชเพยงคาสงเกตทเกดขนบอยครงมากทสดเทานน 2. ฐานนยมเปนคาวดแนวโนมเขาสสวนกลางทคำนวณไดงายทสด 3. ฐานนยมนนสามารถใชไดกบขอมลทอยในระดบนามบญญต เชน เพศ หรอ ศาสนา เปนตน 4. ขอมลชดหนงอาจมฐานนยมไดมากกวาหนงคา หรออาจจะไมมฐานนยมเลยกได

2.2 ลกษณะการกระจายของขอมล

สงทสำคญทจะชวยใหทราบลกษณะของการแจกแจงมอย 4 ประการคอ ตำแหนงกงกลาง, ความแปรปรวน, ความเบและความโดง เมอเราทราบคาทง 4 แลว เราจะสามารถทราบลกษณะของการแจกแจงของขอมลได

• ตำแหนงกงกลาง เปนการวดคาทอยตรงกลางของการแจกแจง ในทนคอคาเฉลย • ความแปรปรวน บอกขนาดของกลม ถาขอมลทงหมดมคาเขาใกลคาเฉลย ความแปรปรวนจะมคานอยทสด

• ความเบบอกความสมมาตรหรอไมสมมาตรของการแจกแจงความถ ถาการแจกแจงไมสมมาตรแลวความถสวนใหญมคาตำและความถสวนนอยมคาสง การแจกแจงจะเปนเบทางบวก (positively skewed) หรอเบขวา (right skewed) ในทางตรงกนขาม ถาความถสวนใหญมคาสงและความถสวนนอยมคาตำ การแจกแจงความถจะเปนเบทางลบ (negatively skewed) หรอเบซาย (left skewed)

• ความโดง บอกลกษณะของการแจกแจงวาโดงมากหรอโดงนอย ซงอธบายการกระจายของขอมล หากขอมลมความโดงมาก นนคอขอมลมการกระจายนอย แตหากขอมลมความโดงนอย นนคอขอมลมการกระจายมาก

รปรางการการจายของขอมลมไดหลายลกษณะขนอยกบขอมล เมอขอมลมการแจกแจงแบบสมมาตร (symmetry) คาเฉลย มธยฐาน และฐานนยม จะอยทตำแหนงเดยวกน หรอมคาเทากนทงหมด ถาขอมลมการแจกแจงแบบเบซาย คาเฉลยจะมคานอยกวามธยฐาน และโดยปกตคามธยฐานมกจะมคานอยกวาฐานนยม ถาขอมลมการแจกแจงเบขวา คาเฉลยจะมคามากกวามธยฐาน และ มธยฐานจะมคามากกวาฐานนยม ดงรปท 2.1

Page 7: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

รปท 2.1 การกระจายของขอมลในแบบตาง ๆ

ตวอยางท 2.7 ขอมลตอไปนเปนจำนวนครงทนสตคนหนงเขาเวบไซต Facebook ใน 1 วน จำนวน 12 วน

40 35 24 28 26 29 36 31 42 20 23 32

จงนำเสนอคากลางของขอมลทเหมาะสม

รปท 2.2 กราฟหนาแนนของขอมลจำนวนครงในการเขาเวบไซต Facebook

คำสง R > fb=c(40,35,24,28,26,29,36,31,42,20,23,32) > plot(density(fb)) > mean(fb) [1] 30.5 > median(fb) [1] 30

Page 8: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

จากการวเคราะหจะไดวา จำนวนครงทนสตเขาเวบไซต Facebook ใน 1 วน มคาเฉลยเปน 30.5 ครง และมคามธยฐานเปน 30 ครง คาทงสองมคาใกลเคยงกน ซงสอดคลองกบการกระจายของขอมลซงมลกษณะสมมาตรดงรปท 2.2 ดงนนเราจะเลอกใชคาเฉลยในการนำเสนอขอมล นนคอ โดยเฉลยแลวนสตเขาเวบไซต Facebook 30.5 ครงตอวน

ตวอยางท 2.8 จากขอมล exec.pay (UsingR) แสดงคาตอบแทนของผบรหาร ในประเทศสหรฐอเมรกา จำนวน 199 คน ในป 2000 (มหนวยเปน 10000 ดอลลาร)

รปท 2.3 กราฟความหนาแนนของขอมลคาตอบแทน

คำสง R > install.packages("UsingR") > library(UsingR) > exec.pay > plot(density(exec.pay)) > mean(exec.pay) [1] 59.88945 > median(exec.pay) [1] 27

Page 9: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

จากรปท 2.3 จะเหนไดวาขอมลมการกระจายแบบเบขวา และเมอคำนวณหาคาเฉลยไดคาเปน 59.88945 และคามธยฐานมคาเปน 27 ซงมคาแตกตางกนอยางมาก ดงนนหากพจารณาเลอกใชสถตในการอธบายคากลางของขอมลชดนจะเลอกใชคามธยฐานเปนคากลาง ดงนนคาตอบแทนของผบรหารในประเทศสหรฐอเมรกามคากลางเปน 27,000 ดอลลาร

2.3 การวดตำแหนงของขอมล (Measure of position)

การจำแนกขอมลหมายถง การแบงขอมลออกเปนสวน สวนละเทา ๆ กน โดยการจำแนกขอมลน ตองนำคาของขอมลมาเรยงลำดบจากคานอยไปหาคามาก หรออาจะเรยงจากคามากไปหาคานอย การจำแนกขอมลแบงเปน 3 ประเภท คอ

1. ควอไทล (Quartile) เปนการแบงขอมลออกเปน 4 สวน เทา ๆ กน โดยแตละสวนจะมจำนวนขอมล 25% ของจำนวนขอมลทงหมด ซงควอไทลในขอมลชดหนงๆ จะม 3 คา คอ ควอไทลท 1 (Q1) ควอไทลท 2 (Q2) และ ควอไทลท 3 (Q3) การหาคาควอไทล 1.1 เรยงลำดบขอมลทงหมดจากนอยไปหามาก 1.2 คำนวณควอไทลท r (Qr) ซงกคอขอมลทอยในตำแหนง

>(%:')A

2. เดไซล (Decile) เปนการแบงขอมลออกเปน 10 สวน เทา ๆ กน โดยแตละสวนจะมจำนวนขอมล สวนละ 10% ของจำนวนขอมลทงหมด และจะม 9 คา คอ เดไซลท 1 (D1) เดไซลท 2 (D2) .…เดไซลท 9 (D9) การหาคาเดไซล 2.1 เรยงลำดบขอมลทงหมดจากนอยไปหามาก 2.2 คำนวณเดไซลท r (Dr) ซงกคอขอมลทอยในตำแหนง

>(%:')'B

3. เปอรเซนไทล (Percentile) เปนการแบงขอมลออกเปน 100 สวน เทา ๆ กน โดยแตละสวนจะมจำนวนขอมล สวนละ 1% ของจำนวนขอมลทงหมด และจะม 99 คา คอ เปอรเซนไทลท 1 (P1) เปอรเซนไทลท 2 (P2) . . . และ ปอรเซนไทลท 99 (P99) ซง P25 จะเทยบไดกบ Q1, P50 จะเทยบไดกบ Q2 และ P75 เทยบไดกบ Q3 การหาคาเปอรเซนไทล 3.1 เรยงลำดบขอมลทงหมดจากนอยไปหามาก 3.2 คำนวณเปอรเซนไทลท r (Pr) ซงกคอขอมลทอยในตำแหนง

>(%:')'BB

Page 10: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

ตวอยางท 2.9 ผลการสอบวชาสถตเบองตนของนสตคณะวทยาการสารสนเทศ 20 คน (คะแนนเตม 100 คะแนน) ดงน

40 78 80 50 60 45 70 63 55 66 71 45 74 72 75 61 65 53 42 52

จงหาคะแนนทอยในตำแหนงเปอรเซนไทลท 40, เปอรเซนไทลท 75, เดไซลท 6 และ ควอไทลท 3

วธทำ

1. เรยงลำดบจากนอยไปมาก 40 42 45 45 50 52 53 55 60 61 63 65 66 70 71 72 74 75 78 80

2. หาคะแนนในตำแหนงเปอรเซนไทลท 40 𝑟(𝑛 + 1)100 =

40(20 + 1)100 = 8.4

𝑥E.A = 𝑥E + 0.4(𝑥F − 𝑥E)

ดงนน คะแนน 𝑃AB = 55 + 2 = 57

3. ตำแหนงเปอรเซนไทลท 75

4. เดไซลท 6

5. ควอไทลท 3

Page 11: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

2.4 การวดการกระจายของขอมล (Measures of Variation)

การพจารณาหรอสรปลกษณะของขอมลโดยใชคากลางหรอคาเฉลยเพยงอยางเดยวอาจทำใหไมทราบถงลกษณะของขอมลไดอยางชดเจน เนองจากอาจมขอมลทมคากลางเทากน แตลกษณะของขอมลแตกตางกน เชน การตดสนใจเลอกซอหนจากบรษท A และ B โดยพจารณาจากเปอรเซนตของ ผลกำไรตอป ในชวง 5 ปทผานมา ไดขอมลดงน

บรษท A 10 12 15 18 20 บรษท B 2 8 15 22 28

รปท 2.4 กราฟการกระจายของขอมล 2 ชด

คำสง R > set=c(rep("group A",5),rep("group B",5)) > dat=c(10,12,15,18,20,2,8,15,22,28) > info=data.frame(set,dat) > tapply(info$dat,set,mean) #คำนวณคาเฉลยของขอมล dat ในแตละกลมของตวแปร set group A group B 15 15 > stripchart(dat~set,data=info) หมายเหต

ฟงกชน tapply() เปนฟงกชนทใชในการคำนวณคาสถตของขอมลในแตละกลม ฟงกชน stripchart ()เปนฟงกชนพลอตคาของขอมลแตละคาเพอใหเหนการกระจายของขอมล

Page 12: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

จากขอมลจะพบวากำไรของทง 2 บรษทมคาเทากนคอ 15% ถาพจารณาเพยงแคนกอาจจะตดสนใจซอหนของบรษทใดกได แตถาวเคราะหใหละเอยดมากขนจะพบวากาไรของบรษท A แตละปจะแตกตางกนนอยมาก เมอพจารณาทงกาไรเฉลยและการกระจายของกาไรจะทาใหตดสนใจไดวาควรซอหนจากบรษท A ดงนนถาขอมลมคาเฉลยเทากนแลวใหพจารณาการกระจายควบคกนไปดวย

ในการจะทราบความแตกตางของขอมลในแตละกลมเราเรยกวา การวดการกระจาย โดยขอมลทดจะตองมการกระจายตำสด การวดการกระจายของขอมลสามารถทำไดหลายวธดงน

การวดการกระจายสมบรณ (Absolute Variation) คอการวดการกระจายของขอมลเพยงชดเดยวเพอดวาขอมลชดน แตละคามความแตกตางกนมากหรอนอยเพยงไร นยมใชกนอยางนอย 4 ชนด ไดแก คาพสย คาความแปรปรวน สวนเบยงเบนมารตฐาน และพสยควอไทล

การวดการกระจายสมพทธ (Relative Variation) การหาคาเพอเปรยบเทยบการกระจายระหวางขอมลมากกวาหนงชด โดยใชอตราสวนการเปรยบเทยบการกระจายของขอมลระหวางชด ทนยมใชม 2 ชนด ไดแก คาสมประสทธการแปรผน และสมประสทธสวนเบยงเบนควอไทล

2.4.1 พสย (Range)

พสยเปนการวดการกระจายทงายทสด เปนการหาความแตกตางของขอมลสงสดและตำสดของกลม

พสย = คาสงสดของขอมล – คาตำสดของขอมล

ตวอยางท 2.10

พสยของขอมลบรษท A ซงมขอมลคอ 10, 12, 15, 18 และ 20 คานวณหาพสยคอ 20-10=10

พสยของขอมลบรษท B ซงมขอมลคอ 2, 8, 15, 22 และ 28 คานวณหาพสยคอ 28-2=26

จะเหนวาขอมลบรษท B จะมคาการกระจายมากกวาขอมลบรษท A

จากขอมล info สามารถคำนวณคาพสย ไดดงน

คำสง R > tapply(info$dat,set,range) $`group A` [1] 10 20 $`group B` [1] 2 28

Page 13: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

หากสรางตวแปร 2 ตวเพอเกบคาขอมล ดงน

ในกรณใชพสยกบขอมลทมจำนวนมาก การวดจะไมแนนอน และคาของพสยจะขนอยกบขนาดของขอมล ถาขอมลมจำนวนมากพสยจะมาก ถาขอมลมจำนวนนอยพสยจะนอย

จากขอมล exec.pay(UsingR) คานวณหาคาพสย

2.4.2 คาความแปรปรวน และสวนเบยงเบนมาตรฐาน (Variance and Standard deviation)

เนองจากการใชพสยเปนการวดการกระจายอยางหยาบเทานนเพราะใชขอมลเพยง 2 ตว คอคาขอมลทมคาสงสดและตำสด แตการวดความแปรปรวนจะใชขอมลทกตวจงเปนคาทนยมใชวดการกระจายมากทสด โดยจะพจารณาจากผลรวมของคาแตกตางระหวางคาของขอมลกบคาเฉลย ถาคาแตกตางนนมากแสดงวาขอมลกระจายมาก คาแตกตางระหวางขอมลกบคาเฉลยอาจมคาเปนบวกหรอลบกได ซงอาจทำใหผลรวมเปนศนย จงตองกำหนดใหนำคาแตกตางระหวางขอมลกบคาเฉลยมายกกำลงสองดวย

คำสง R > groupA=c(10,12,15,18,20) > groupB=c(2,8,15,22,28) > range(groupA) [1] 10 20 > range(groupB) [1] 2 28

หมายเหต ฟงกชน range() ใหผลลพธเปนคาตำสดและคาสงสด ดงนนจะหาคาพสยตองนาคาทงสองมาลบกน

> install.packages(“UsingR”) > library(UsingR) > exec.pay > diff(range(exec.pay)) [1] 2510

Page 14: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

ความแปรปรวนของตวอยาง (Sample Variance)

𝑠;=

(𝑥 − 𝑥);%$&'

𝑛 − 1

ความแปรปรวนของประชากร (population variance)

𝜎;=

(𝑥 − 𝜇);%$&'

𝑁

โดยปกตเรามกนยมใชสวนเบยงเบนมาตรฐานเปนคาวดความผนแปรของขอมลมากกวาความแปรปรวน

สาเหตนนเกยวของกบหนวยของคาสถตทงสองน จะเหนไดวาหนวยของความแปรปรวนนนจะเปนหนวยของ 𝑥

ยกกำลงสอง เชน ถา 𝑥 มหนวยเปนคะแนน ความแปรปรวนจะมหนวยเปนคะแนนกำลงสอง ในขณะทสวน

เบยงเบนมาตรฐานนนเปนรากทสองของความแปรปรวน จะมหนวยเดยวกบ 𝑥 นนคอมหนวยเปนคะแนน ดงนนการอธบายถงการกระจายของขอมลดวยสวนเบยงเบนมาตรฐานจงเขาใจไดงายกวาการใชความแปรปรวน

สวนเบยงเบนมาตรฐานของตวอยาง (Sample Standard Deviation)

𝑠 = 𝑠;=

(𝑥 − 𝑥);%$&'

𝑛 − 1

สวนเบยงเบนมาตรฐานของประชากร (population standard deviation)

𝜎 = 𝜎;=

(𝑥 − 𝜇);%$&'

𝑁

จากสตรขางตนเหนไดวาตองใชเวลาในการคำนวณมากเพราะตองใชคาเฉลยเลขคณตดงนนจงมการ ปรบปรงสตรนเพอใหใชคำนวณไดรวดเรวขนดงน

Page 15: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

ความแปรปรวนของตวอยาง

𝒔𝟐=

𝒙𝟐−( 𝒙𝒏

𝒊&𝟏 )𝟐

𝒏𝒏𝒊&𝟏

𝒏 − 𝟏

สวนเบยงเบนมาตรฐานของตวอยาง

𝒔 = 𝒙𝟐−( 𝒙𝒏

𝒊&𝟏)𝟐

𝒏𝒏𝒊&𝟏

𝒏 − 𝟏

𝑥 คอคาของขอมล

𝑥คอคาเฉลยของตวอยาง 𝜇 คอคาเฉลยของประชากร

𝑛 คอขนาดของขอมลตวอยาง

𝑁 คอขนาดของขอมลประชากร

ตวอยางท 2.11 ขอมลตอไปนเปนนำหนกของนกกฬายกนำหนก 10 คนทถกสมมาเปนตวอยาง

58 62 50 65 68 48 52 60 49 75

จงหาความแปรปรวนและสวนเบยงเบนมาตรฐานของขอมลชดน

Page 16: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

ตวอยางท 2.12 จงหาคาความแปรปรวนและสวนเบยงเบนมาตรฐานของขอมลจานวนนสต (คน) ทลงทะเบยนเรยนวชาสถต 7 กลม

25 35 55 74 28 54 50

จากการคานวณไดคาความแปรปรวนของขอมลจานวนนสตทเรยนวชาสถตเปน 305.14 คน2 และม คาเบยงเบนมาตรฐานเปน 17.47 คน

2.4.3 พสยควอไทล (Inter quartile range :IQR)

คาพสยควอไทลเปนคาทบอกความผนแปรของขอมลไดอยางหยาบๆ โดยคาพสยควอไทลหาไดจากผลตาง ระหวาง Q1 และ Q3 ซงกคอพสยของขอมลจานวน 50 เปอรเซนตทอยกงกลางของชดขอมลนนเอง พสยควอไทลนเปนการวดการกระจายทเหมาะกบขอมลทการแจกแจงแบบเบ ซงสงเกตไดจากการคานวณจากคา Q1 และ Q3 ซงไมไดนาขอมลทมคาสงมาก ๆ หรอตำมาก ๆ มาคานวณ

IQR = Q3 - Q1

ตวอยางท 2.13 จงหาคาพสยควอไทลของขอมลจานวนนสต (คน) ทลงทะเบยนเรยนวชาสถต 7 กลม

25 35 55 74 28 54 50

คำสง R > num=c(25,28,35,50,54,55,74) > var(num)

[1] 305.1429> sd(num) [1] 17.46834 หมายเหต

ฟงกชน var() คำนวณคาความแปรปรวนของตวอยาง ฟงกชน sd() คานวณคาเบยงเบนมาตรฐานของตวอยาง

Page 17: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

จากขอมล exec.pay

จะไดวา คาพสยควอไทลของขอมลมคาเปน 27.5 แตเมอเปรยบเทยบกบคาสวนเบยงเบนมาตรฐานของขอมลจะไดวามคาเปน 207.04 ซงมคาแตกตางกนมาก ดงนนหากพจารณาลกษณะของขอมลโดยรวมพบวาขอมลมการกระจายเบขวามาก และดวยคาสง summary แลวจะพบวาขอมลมความแตกตางกนมากจากคาสงสดและตำสด แตขอมลสวนใหญมการกระจายไมมากอยใกล ๆ 0 มเพยงบางคาทมคาสงมาก ๆ ดงนนเราจะเหนไดวาการใชคาพสยควอไทลเปนการวดการกระจายของขอมลชดน

2.4.4 สมประสทธการแปรผน (Coefficient of variation)

หากเราตองการเปรยบเทยบการกระจายของขอมลมากกวาหนงชด และนำขอมลแตละชดมาเปรยบเทยบกนวาขอมลชดใดมการกระจายมากกวากน โดยทขอมลทงสองชดนนจะเปนขอมลในเรองเดยวกนหรอตางเรองกนกได เชน ตองการเปรยบเทยบขอมลนำหนก กบสวนสง ซงจะเหนไดวา ขอมลนำหนกมหนวยเปนกโลกรม และสวนสงมหนวยเปนเซนตเมตร ซงโดยปกตเราไมสามารถเปรยบเทยบการกระจายของขอมลทงสองชดนโดยพจารณาจากคาสวนเบยงเบนมาตรฐานโดยตรงได เนองจากหนวยของขอมลนนแตกตางกนอยางไรกตามคาทจะชวยวดการกระจายของขอมลเหลาน เรยกวา สมประสทธความแปรผน ซงเปนคาทไมมหนวย ตางจากคาสถตตวอน ๆ ทใชวดการกระจาย ซงมหนวยเปนหนวยเดยวกนกบขอมล คาสมประสทธการแปรผนคอ คาเบยงเบนมาตรฐานหารดวยคาเฉลย เนองจากหนวยของคาเบยงเบนมาตรฐานและคาเฉลยของขอมลจะเปนหนวยเดยวกนทำใหคาสมประสทธการแปรผนไมมหนวย

สมประสทธความผนแปรของตวอยาง

𝑐𝑣 = 𝑠𝑥×100%

คำสง R > IQR(exec.pay)

[1] 27.5> sd(exec.pay) [1] 207.0435 > summary(exec.pay)

Min. 1st Qu. Median Mean 3st Qu. Max0.00 14.00 27.00 59.89 41.50 2510.00

Page 18: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

สมประสทธความผนแปรของประชากร

𝑐𝑣 = 𝜎𝜇×100%

ตวอยางท 2.14 จากขอมลของบรษทจำหนายรถยนตแหงหนง ในรอบ 3 เดอน พบวาจำนวนรถยนต ทจำหนายไดเฉลย 87 คน มคาเบยงเบนมาตรฐานเทากบ 5 คน และคาคอมมชชน (commissions) เฉลย $5225 มคาเบยงเบนมาตรฐาน $773 จงเปรยบเทยบการกระจายของขอมลทงสอง

ตวอยางท 2.15 ขอมลตอไปนเปนสวนสง (cm) และนำหนก (kg) ของนกกฬา 10 คนทถกสมมาเปนตวอยาง

นาหนก 75 68 82 72 85 65 59 80 76 56 สวนสง 172 169 185 170 180 173 165 182 175 166

จงเปรยบเทยบการกระจายของนำหนกและสวนสงของนกกฬา

ตวอยางท .2 16 บรษทแหงหนงแบงคนงานออกเปน 2 กลม ๆ ละ 8 คน จำนวนชนของสนคาทคนงานแตละคน

ในกลมผลตเปนดงน

กลมท 1 (X) : 13, 6, 8, 2, 15 กลมท 2 (Y) : 8, 2, 7, 7, 8

จงหากลมพนกงานใดมการกระจายของความสามารถในการผลตสนคามากกวากน

Page 19: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

จากการคานวณ กลมท 1 มคาสมประสทธความแปรผนเปน 59.80772 และกลมท 2 มคาสมประสทธความ แปรผนเปน 39.21844 จะไดวากลมท 1 มการกระจายของความสามารถในการผลตสนคามากกวากลมท 2

2.4.5 สมประสทธสวนเบยงเบนควอไทล (Coefficient of quartile deviation)

เปนการเปรยบเทยบการประจายของขอมลสองชด ดวยการกระจายสมพทธเมอขอมลไมมการแจกแจงสมมาตร โดยคาสมประสทธสวนเบยงเบนควอไทลคำนวณไดจาก

𝐶𝐷 =𝑄V − 𝑄'𝑄V + 𝑄'

เมอ Q3 และ Q1 คอคาควอไทลท 1 และ 3 ตามลำดบ

ตวอยางท 2.17 จากชดขอมล airquality เปรยบเทยบการกระจายของขอมล Solar.R และ Wind

คำสง R > g1=c(13,6,8,2,15) > g2=c(8,2,7,7,8) > CV1=sd(g1)/mean(g1)*100

> CV1

[1] 59.80772 > CV2=sd(g2)/mean(g2)*100

> CV2[1] 39.21844

คำสง R > par(mfrow=c(1,2)) > plot(density(airquality$Solar.R,na.rm=TRUE)) > plot(density(airquality$Wind,na.rm=TRUE))

Page 20: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

รปท .2 4 กราฟการกระจายของ Solar.R และ Wind

ขอมล Solar.R และ Wind เปนขอมลคนละประเภท มหนวยการวดแตกตางกน อกทงจากกราฟจะพบวาขอมลไมมการกระจายสมมาตร ดงนนเราจะเปรยบเทยบการกระจายดวยสมประสทธสวนเบยงเบนควอไทล

จากการคานวณคาสมประสทธสวนเบยงเบนควอไทล ไดคา CD1=0.38 และ CD2=0.22 แสดงวาขอมล Wind มการกระจายมากกวาขอมล Solar.R

คำสง R > Q3=quantile(airquality$Solar.R,0.75,na.rm = TRUE) > Q1=quantile(airquality$Solar.R,0.25,na.rm = TRUE) > CD1=(Q3-Q1)/(Q3+Q1) > CD1 75% 0.3818425 > Q3_W=quantile(airquality$Wind,0.75,na.rm = TRUE) > Q1_W=quantile(airquality$Wind,0.25,na.rm = TRUE) > CD2=(Q3_W-Q1_W)/(Q3_W+Q1_W) > CD2 75% 0.2169312

Page 21: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

2.5 การสรางแผนภาพกลอง (Box plot)

Box and whisker plot หรอ Boxplot เปนการนาเสนอขอมลดวยรปแบบกราฟแบบหนง ซงกราฟนจะ แสดงคากลางของขอมล (มธยฐาน) การกระจายของขอมล และบงบอกความเบ หรอสมมาตรของขอมล และ มากไปกวานนยงสามารถตรวจสอบคาผดปกตของชดขอมลดวย เรามกนยมใชกราฟ boxplot ในการเปรยบเทยบขอมลตงแตสองชดขนไป

การสราง boxplot

1. เรยงขอมลจากนอยไปมาก 2. หาคา Q1, Q2, Q3

3. สรางกลอง 4. หาขอบเขตของคาทยงไมผดปกต ไดแก Q3 + 1.5(IQR) และ Q1 − 1.5(IQR)

5. สราง whisker ทง 2 ดาน โดยลากเสนจากกงกลางกลองไปยงคาสงสดของขอมลทยงไมสงผดปกต และ คาตำสดของขอมลทยงไมตำผดปกต

6. ในกรณทมคาผดปกตใหเขยนลงไปในแผนภาพโดยใชสญลกษณ ◦ หรอ *

• ความกวางของ box เทากบ Q3 − Q1(IQR) กลาวไดวามขอมล 50% อยใน box ถา box กวางแสดงวา

ขอมลมการกระจายมาก ถา box แคบแสดงวาขอมลมการกระจายนอย

• การดลกษณะของขอมลวา สมมาตร เบซาย หรอ เบขวา ใหดทงหมดของ box-plot ไปจนถง whisker

ถาดานใดยาวแสดงวาขอมลเบไปทางดานนน

• คาสงสดของขอมลทยงไมสงผดปกต คอ คาสงสดของขอมลทมคาไมเกน Q3 + 1.5Z(IQR)

• คาตาสดของขอมลทยงไมตาผดปกต คอ คาตาสดของขอมลทมคาไมเกน Q1 − 1.5(IQR)

• ถามขอมลใดมคานอยกวา Q1 − 1.5(IQR) หรอมากกวา Q3 + 1.5(IQR) จะเรยกขอมลนน วา Outlier

แสดงดวยเครองหมายวงกลม (◦) • ถามขอมลใดมคานอยกวา Q1 – 3(IQR) หรอมากกวา Q3 + 3(IQR) จะเรยกขอมลนนวา Extremes

แสดงดวยเครองหมายดอกจน (∗)

Page 22: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

ตวอยางท 2.18 ผลการสอบวชาสถตเบองตนของนสตคณะวทยาการสารสนเทศ 20 คน (คะแนนเตม 100 คะแนน) ดงน

40 78 80 50 60 45 70 63 55 66 71 45 74 72 75 61 65 53 42 52

วธทำ

1. เรยงลำดบจากนอยไปมาก 40 42 45 45 50 52 53 55 60 61 63 65 66 70 71 72 74 75 78 80

2. หาคา Q1, Q2, Q3

Q1 = 1(20+1)/4 = 5.25 ขอมล Q1 = 50.5

Q2 = 2(20+1)/4 = 10.5 ขอมล Q2 = 62

Q3 = 3(20+1)/4 = 15.75 ขอมล Q3 = 71.75

3. สรางกลอง

4.

Page 23: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

ตวอยางท .2 19 ขอมลตอไปนคอระดบความสงของนำ (เซนตเมตร) ททวมบรเวณอาเภอตางๆ 8 อำเภอใน จงหวดปราจนบร

15 13 6 5 12 20 39 18

รปท 2.6 Box and Whisker plot สำหรบขอมลความสงของนำ

จากรปท 2.6 จะเหนไดวาขอมลชดนมคาผดปกต 1 คา คอ 39 หากไมพจารณาคาผดปกตแลวจะไดวาขอมลมการกระจายคอนขางสมมาตร

ตวอยางท 2.20 ขอมลตอไปนเปนเวลาทนสตใชในการเลนอนเทอรเนตตอวน (หนวย:นาท) ของนสตจำนวน 50 คน

22 32 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69 70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83 84 84 85 86 87 88 89 90 90 92 93 95 98 99

คำสง R > water=c(15,13,6,5,12,20,39,18) > boxplot(water)

Page 24: บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf · บทที่ 2 สถิติเชิงพรรณนา 2.1 การวัดแนวโน้มเข้าสู่ส่วนกลาง

รปท 2.7 Box and Whisker plot สำหรบขอมล internet

คำสง R > internet=c(22,32,48,49,53,55,57,58,59,60,62,62,63,64,65,66,68,69,70,71,72,73,74,75,75,76, + 77,77,78,78,79,79,80,80,80,81,83,84,84,85,86,87,88,89,90,90,92,93,95,98,99) > boxplot(internet)