45
Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС 1 ТОЙМ СТАТИСТИК (Descriptive Statistics) Н.Хүдэрчулуун Эпидемиологи Биостатистикийн Тэнхим Нийгмийн Эрђђл Мэндийн Сургууль Эрђђл Мэндийн Шинжлэх Ухааны Их Сургууль e-mail: [email protected]

Descriptive statistics ph d

Embed Size (px)

Citation preview

Page 1: Descriptive statistics ph d

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС 1

ТОЙМ СТАТИСТИК (Descriptive Statistics)

Н.Хүдэрчулуун

Эпидемиологи Биостатистикийн Тэнхим

Нийгмийн Эрђђл Мэндийн Сургууль

Эрђђл Мэндийн Шинжлэх Ухааны Их Сургууль

e-mail: [email protected]

Page 2: Descriptive statistics ph d

Агуулга

Статистикийн ђндсэн ойлголт, тєрєл

Тойм ба нарийвчилсан статистик

Мэдээллийн эх ђђсвэр

Анхдагч

Хоѐрдогч

Мэдээллийн тєрєл, хэлбэр

Хэмжилтийн тђвшин

Тоон мэдээллийн ђндсэн ђзђђлэлтђђд

Тєвийн хандлага

Хэлбэлзэлийн ђзђђлэлт

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 2

Page 3: Descriptive statistics ph d

Агуулга

SPSS программ ашиглан Тойм статистик ђр

дђнг тооцоолох

ёр дђнг тооцоолох техник

SPSS Output

Тойм статистик ђр дђнг бичих

Статистик программ

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 3

(continued)

Page 4: Descriptive statistics ph d

Шаардлагатай нэр томъѐо

Эх олонлог (Population)

Судлагдаж буй нийт масс

Тђђвэр (Sample)

Эх олонлогоос сонгогдсон тодорхой хэсэг

Параметр (Parameter)

Эх олонлогт хамаарах ђзђђлэлт

Статистик (Statistic)

Тђђвэр олонлогт хамаарах ђзђђлэлт

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 4

Page 5: Descriptive statistics ph d

5

Статистик гэж юу вэ?

Ñòàòèñòèê íü ÒÎÎ ÌÝÄÝÝÃ öóãëóóëàõ, ýìõòãýí

öýãöëýõ, ТОЙМЛОН ¿ç¿¿ëýõ, ГҮНЗГИЙРҮҮЛЭН

ñóäëàõ àðãà òåõíèê¿¿äèéã áàãòààñàí øèíæëýõ óõààí.

Тойм Статистик (Descriptive statistics)

Ñóäëàãäàæ áóé þìñ ¿çýãäëèéí ерєнхий òºëºâ

áàéäëыã ä¿ðñëýí ¿ç¿¿ëýõ

Нарийвчилсан статистик (Inferential statistics)

Ñóäëàãäàæ áóé þìñ ¿çýãäëèéí õºãæèë, õýòèéí

òºëâèéí òàëààð ¿íýëãýý, ä¿ãíýëò õèéõ áîëîìæ

îëãîäîã.

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 6: Descriptive statistics ph d

6

Тойм Статистик (Descriptive

Statistics)

Мэдээлэл цуглуулах(Collect data)

Жнь: Асуумж

Мэдээллийг тоймлох (Present data)

Хђснэгт ба График г.м

Ерєнхий ђр дђн

Тђђврийн дундаж = г.мiX

n

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 7: Descriptive statistics ph d

7

Нарийвчилсан Статистик (Inferential Statistics)

Үнэлгээ (Estimation)

Цэгэн ђнэлгээ

Интервал ђнэлгээ

Таамаглал шалгах(Hypothesis

testing)

t, z тест, ANOVA

Хи-квадрат тест

Түүврийн үр дүнд үндэслэн эх олонлогийн талаарх дүнгэлт, шийдвэр гаргана.

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 8: Descriptive statistics ph d

8

Мэдээллийн эх ђђсвэр (Data

Sources)

ХоёрдогчМэдээллийн эх

үүсвэр

Ажиглалт

Туршилт

Print or Electronic

Асуумж

Анхдагч

Мэдээллийн эх үүсвэр

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 9: Descriptive statistics ph d

Мэдээллийг Тоймлох

Тоон мэдээлэл

Тархалтын давтам, єсєн

нэмэгдэх давтамж

Гистограмм

Polygon

Ogive

Мэдээллийг эрэмбэлэх

Steam and leaf

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 9

Stem Leaves

2 1 4 4 6 7 7

3 0 2 8

4 1

Ogive: Daily High Temperature

0

20

40

60

80

100

10 20 30 40 50 60

Cum

ulat

ive

Per

cent

age

Frequency Polygon: Daily High Temperature

0

1

2

3

4

5

6

7

5 15 25 35 45 55 More

Fre

qu

ency

21, 24, 24, 26,

27, 27, 30, 32,

38, 41

(continued)

Page 10: Descriptive statistics ph d

Мэдээллийг Тоймлох

Чанарын мэдээлэл

Хђснэгт

Нийлбэр хђснэгт

График

Баганан график

Бялуун диаграмм

Pareto diagram

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 10

Investor's Portfolio

0 10 20 30 40 50

Stocks

Bonds

CD

Savings

Amount in $1000's

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

Stocks Bonds Savings CD

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Page 11: Descriptive statistics ph d

11

Мэдээллийн тєрєл (Types of Data)

Мэдээлэл (Data)

Чанарын (Categorical)

Тоон (Numerical)

Тасралттай (Discrete)

Тасралтгүй (Continuous)

Жишээ:

Гэрлэлтийн байдал

Яс үндэс

Хүйс

(Категорт ангилагдах) Жишээ:

Ам бүлийн тоо

Төрөлтийн давтамж

(Тасралтай тоо)

Жишээ:

БЖИ

Цусан дахь сахарын хэмжээ

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 12: Descriptive statistics ph d

Тоон мэдээллийн ангилал (хэмжилтийн тђвшингээс хамаатуулсан)

Интервал (Interval)

Дэс дараалсан (Ordinal)

Нэрлэсэн (Nominal)

Хэмжилтийн дээд

тђвшин

Хэмжилтийн доод

тђвшин

Категор (зарим тохиолдолд зєвхєн ангилагдах боломжтой)

Дараалсан категор (дэс дараалуулах боломжтой)

Утгуудын хооронд утга тєгєлдєр ялгаа байдаг

Харьцуулсан (Ratio)Утгуудын хооронд харьцуулах боломжтой байх

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 13: Descriptive statistics ph d

13

Тоон мэдээллийн ерєнхий

ђзђђлэлтђђд

Арифметик дундаж

Голч утга

Моод

Тоон мэдээлэл

Дисперс

Стандарт хазайлт

Вариацийн коэффициент

Далайц

Завсарын квартил

Геометр дундаж

Тэгш хэм

Төвийн үзүүлэлт Хазайлт Хэлбэр (Shape)Квартил

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 14: Descriptive statistics ph d

14

Тєвийн хандлагийн ђзђђлэлтђђд (Measures of Central Tendency)

Төвийн үзүүлэлт

Арифметик дундаж Голч утга Моод Геометр дундаж

n

X

X

n

ii

1

n/1n21G )XXX(X

Тэнцђђ

хуваах утга

Олон

давтагдах

утга

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 15: Descriptive statistics ph d

15

Арифметик Дундаж (Arithmetic Mean)

Арифметик дундаж нь тєвийн хандлагийн

тодорхойлох нэг гол ђзђђлэлт юм

Дундажийг тооцох:

Тђђврийн хэмжээ

n

XXX

n

X

X n21

n

1ii

Ажиглалтын утга

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 16: Descriptive statistics ph d

16

Арифметик Дундаж (Arithmetic Mean)

Тєвийн хандлага хэмжих гол ђзђђлэлт

Дундаж = Утгуудын нийт нийлбэрийн тоонд нь хуваана

Алслагдсан утга нєлєєлдєг (extreme values)

(continued)

0 1 2 3 4 5 6 7 8 9 10

Дундаж = 3

0 1 2 3 4 5 6 7 8 9 10

Дундаж = 4

35

15

5

54321

4

5

20

5

104321

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 17: Descriptive statistics ph d

17

Голч Утга (Median)

Судлагдаж буй утгуудыг 2 тэнцђђ хэсэгт хуваах

утга (50% доош, 50% дээш)

Алслагдсан утгын нєлєєг тооцдоггђй

0 1 2 3 4 5 6 7 8 9 10

Голч утга = 3

0 1 2 3 4 5 6 7 8 9 10

Голч утга = 3

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 18: Descriptive statistics ph d

18

Моод (Mode)

Тєвийн хандлагын ђзђђлэлт

Ихэвчилэн тохиолддог

Алслагдсан утгууд тооцогдохгђй

Тоон болон чанарын мэдээнд ашиглаж болно

Огт моод байхгђй байж болно

Олон моод байж болно

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Моод = 9

0 1 2 3 4 5 6

No Mode

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 19: Descriptive statistics ph d

19

УБ хотын 5 баарны агаар дахь никотин тодорхойлжээ

Жишээ: (Дундаж, Медиан, Моод)

$2,000 K

$500 K

$300 K

$100 K

$100 K

Никотин:

25.2 µg/mg

8.7 µg/mg

7.4 µg/mg

6.8 µg/mg

6.8 µg/mg

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

25.2 µg/mg

8.7 µg/mg

7.4 µg/mg

6.8 µg/mg

6.8 µg/mg

Page 20: Descriptive statistics ph d

20

ёр дђнгийн статистик

Дундаж: (54.9/5) = 10.98 µg/mg

Медиан: тэнцђђ хуваах = 7.4 µg/mg

Моод: олон давтагдах = 6.8 µg/mg

Аль ђзђђлэлт нь илђђ тодорхойлж чадах вэ?

Никотин:

25.2

8.7

7.4

6.8

6.8

Нийлбэр 54.9

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Дундажийг ихэвчлэн ашигладаг ч алслагдсан утгат

мэдрэмж єндєртэй байдаг. (outliers?)

Медиан алслагдсан утгат мэдрэмжгђй.

Жишээ: Моод, дунджаас илђђ медиан нь 5 баарны

агаар дахь никотиний хэмжээг тодорхойлж байна

Page 21: Descriptive statistics ph d

21

Геометр Дундаж (Geometric Mean)

Геометр дундаж

Хазайлт єндєртэй ђзђђлэлтийн хувьд геометр дундаж тооцох тохиромжтой

ѓсєлтийн дундаж хурд тооцох геометр дундаж

Цаг хугацаанд гарсан єєрчлєлт

Ri i ђе дэхь єсєлтийн харьцаа

n/1n21G )XXX(X

1)]R1()R1()R1[(R n/1n21G

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 22: Descriptive statistics ph d

22

Жишээ

ѓрхийн эмнэлэгт ХБѓ-ний талаарх иргэдэд ђзђђлсэн тусламжийн зардал эхний сар ₮100,000, дараагийн сар ₮50,000 гурав дахь сард ₮100,000 байв:

000,100000,50000,100 321 XXX

50% буурсан 100% єссєн

Эхний сараас дундажаар хэдэн хувь єєрчлєгдсєн бэ?

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 23: Descriptive statistics ph d

23

Жишээ:

Сарын єєрчлєлтийн хувь тооцсон арифметик ба геометр дундаж:

%0111)]2()50[(.

1%))]100(1(%))50(1[(

1)]R1()R1()R1[(R

2/12/1

2/1

n/1n21G

%252

%)100(%)50(X

Арифметик

дундаж:

Геометр

дундаж :

Буруу ђр дђн

Зєв ђр

дђн

(continued)

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 24: Descriptive statistics ph d

24

Квартил (Quartiles)

Квартил нь судлагдаж буй ђзђђлэлтђђдийг дєрвєн

ижил тэнцђђ хэсэгт хуваах утгыг харуулна

25% 25% 25% 25%

Q1 = (n+1)/4, Q1 -аас 25% бага, 75% нь их байхаар хуваах утга

Q2 = (n+1)/2, Q2 нь медиантай тэнцђђ (50% бага, 50% их байхаар хуваах утга)

Q3 = 3(n+1)/4, гуравдугаар квартил нь ажиглалтын утгуудын 25% нь их байх утга

Q1 Q2 Q3

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 25: Descriptive statistics ph d

25

(n = 9)

Q1 = (9+1)/4 = 2.5 байрлал буюу 2 , 3 дахь

тооны дундаж утга

эндээс Q1 = 12.5

Квартил тооцох

Sample Data in Ordered Array: 11 12 13 16 16 17 18 21 22

Жишээ: Нэгдђгээр квартилыг олох

Q1 ба Q3 төвийн байрлалыг харуулахгүй

Q2 = Медиан, төвийн үзүүлэлт

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 26: Descriptive statistics ph d

26

Ижил дундаж,

Ялгаатай хазайлт

Хазайлтын ђзђђлэлт (Measures of

Variation)

Хазайлт

Дисперс (Variance)

Стандарт

хазайлт

Вариацийн

коэффициент

Далайц Завсарын

квартил

Хазайлтын ђзђђлэлтђђд

нь мэдээллийн тархалт

болон дундажийн талаарх

ђр дђнг тодруулдаг.

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 27: Descriptive statistics ph d

27

Далайц (Range)

Хамгийн энгийн хазайлтын ђзђђлэлт

Далайц нь хамгийн их хамгийн бага утгын

ялгавар:

Далайц = Xmax– Xmin

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Далайц = 14 - 1 = 13

Жишээ:

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 28: Descriptive statistics ph d

28

Мэдээллийн тархалтын байдлыг тооцдоггђй

Алсдагдсан утгад мэдрэмж ихтэй

7 8 9 10 11 12

Далайц = 12 - 7 = 5

7 8 9 10 11 12

Далайц = 12 - 7 = 5

Далайцын сул тал (Disadvantages of the

Range)

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120

Далайц = 5 - 1 = 4

Далайц = 120 - 1 = 119

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 29: Descriptive statistics ph d

29

Завсарын Квартил (Interquartile Range)

Голч утга

(Q2)X

maximumXminimum Q1 Q3

Жишээ:

25% 25% 25% 25%

12 30 45 57 70

Завсарын квартил

= 57 – 30 = 27Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Завсарын квартил = 3rd quartile – 1st quartile= Q3 – Q1

Page 30: Descriptive statistics ph d

30

Дундажаас хазайх хазайлтуудын квадратын

хувьд тооцсон дундаж хэмжигдэхђђн

Тђђврийн дисперс:

Дисперс (Variance)

1-n

)X(X

S

n

1i

2i

2

ёђнд: = арифметик дундаж

n = тђђврийн хэмжээ

X

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 31: Descriptive statistics ph d

31

Стандарт Хазайлт (Standard Deviation)

Хазайлтын гол ђзђђлэлт

Дундажаасаа хазайх хазайлтуудын хувьд

тооцсон квадрат дундаж

Тђђврийн стандарт хазайлт:

1-n

)X(X

S

n

1i

2i

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Бага стандарт хазайлт

Их стандарт хазайлт

Page 32: Descriptive statistics ph d

32

Стандарт хазайлт тооцох

Data (Xi) : 10 12 14 15 17 18 18 24

n = 8 Дундаж = X = 16

4.24267

126

18

16)(2416)(1416)(1216)(10

1n

)X(24)X(14)X(12)X(10S

2222

2222

Дундажаасаа хазайх

хазайлт

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 33: Descriptive statistics ph d

33

Жишээ: Стандарт хайзайлт

Дундаж = 15.5

S = 3.33811 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

B хувилбар

A хувилбар

Дундаж = 15.5

S = 0.926

11 12 13 14 15 16 17 18 19 20 21

Дундаж = 15.5

S = 4.570

C хувилбар

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 34: Descriptive statistics ph d

34

Вариацийн коэффициент (Coefficient of Variation)

Нэг тєрлийн байдал

Дундажийн тєлєєлєх чадвар

Тухайн ђзђђлэлтийн жигд байдалыг ђнэлэх

шалгуур ђзђђлэлт болно

“33%-иас багагђй байх”

100%X

SCV

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 35: Descriptive statistics ph d

35

Жишээ: Вариацийн коэффициент

A тохиолдол:

Нярайн биеийн жин= 2500 грамм

Стандарт хазайлт = 250 грамм

B тохиолдол:

Нярайн биеийн жин = 2000 грамм

Стандарт хазайлт = 250 грамм

Хоѐр

тохиолдол адил

стандарт

хазайлтай,

гэхдээ А

тохиолдол

харьцангуй

нэгэн тєрлийн

ђзђђлэлттэй

10%100%2500

250100%

X

SCVA

12.5%100%2000

250100%

X

SCVB

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 36: Descriptive statistics ph d

36

Тархалтын хэлбэр (Shape of a Distribution)

Нормал тархалт (ихэнх тохиолдолд)

Тархалтын хэлбэр

Тэгш хэмт эсвэл тэгш хэм хазайлттай

Дундаж = МедианДундаж < Медиан Медиан < Дундаж

Баруун-хазайлтЗүүн-хазайлт Тэгш хэмт

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 37: Descriptive statistics ph d

37

Хайрцган зураглал (Box and Whisker plot)

Box-and-Whisker Plot:Гарфик аргын тусламжтай тойм статистик 5-н гол ђзђђлэлт:

Minimum -- Q1 – Медиан -- Q3 -- Maximum

Жишээ:

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Min Q1 Голч утга Q3 Max

25% 25% 25% 25%

Page 38: Descriptive statistics ph d

38

Тархалтын хэлбэр бахайрцган зураглал

Баруун талт(Right-Skewed)

Зђђн талт (Left-Skewed)

Тэгш хэмт(Symmetric)

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Min Q1 Ме Q3 Max Min Q1 Ме Q3 Max Min Q1 Ме Q3 Max

Page 39: Descriptive statistics ph d

Статистик программ

Statistical software

SAS

R

SPSS

Stata

NCSS

MINITAB

Excel??

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 39

Graphical software

From list above

Sigmaplot

Harvard Graphics

Axum

Excel??

Page 40: Descriptive statistics ph d

40

SPSS программ ашиглах

Тойм статистик ђр дђнг тооцох:

analyze / descriptive statistics / frequencies

Frequencies цонхноос Тойм статистик

ђзђђлэлтийг сонгох

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 41: Descriptive statistics ph d

41

SPSS программ ашиглах

Тойм статистик ђр дђнг

тооцох:

analyze / descriptive

statistics / frequencies…

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 42: Descriptive statistics ph d

42

Тєвийн хандлага

Тархалт

Хазайлтын ђзђђлэлтђђд

SPSS программ ашиглах(continued)

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 43: Descriptive statistics ph d

43

SPSS output

SPSS программын тойм

статистик ђр дђн: SPSS

output,

Даралтын

хэмжээ:

123

120

110

110

115

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС

Page 44: Descriptive statistics ph d

Тойм Статистик ђр дђнг бичих

Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШИУС 44

Бүлэг A Бүлэг B p-утга

Тоон үзүүлэлт (Жнь: Нас)

Дундаж (SD)

Далайц

Медиан

Чанарын үзүүлэлт (Жнь: Хүйс)

Эрэгтэй n1 (%) n2 (%)

Эмэгтэй n3 (%) n4 (%)

Page 45: Descriptive statistics ph d

Амжилт хүсье!

45Эпидемиологи Биостатистикийн Тэнхим, НЭМС, ЭМШУИС