33
Statistica descriptiva 1. Tendinta centrala - Media aritmetica - Median - Mod 2. Variabilitatea - Deviatia standard - Deviatia cvartila - Domeniul de dispersie

Statistica descriptiva 1. Tendinta centrala - phys.ubbcluj.rodana.maniu/BIOSTAT/C2.pdf · urma curei vegetariene b) Calculati varianta si deviatia standard a nivelului colesterolului

Embed Size (px)

Citation preview

Statistica descriptiva

1. Tendinta centrala

- Media aritmetica

- Median

- Mod

2. Variabilitatea

- Deviatia standard

- Deviatia cvartila

- Domeniul de dispersie

1. Tendinta centrala

Majoritatea seriilor de date au o distributie de frecventa sub forma unui clopot

(se concentreaza in jurul valorii centrale)

Tendinta centrala a unui set de date poate fi exprimat prin:

0

20

40

60

80

100

120

140

160

180

200

Variable X

Fre

qu

en

cy

25 30 35 40 45 50 55 60 65 70 75 80 850

20

40

60

80

100

120

140

160

180

200

Variable X

Fre

qu

en

cy

25 30 35 40 45 50 55 60 65 70 75 80 85

Media aritmetica a valorilor din setul de date

Medianul setului de date

Modul (clasa modala)

Distributia de frecventa se obtine

prin determinarea frecventei de

aparitie a unor valori.

Media aritmetica - masura valorii centrale a setului de date in jurul caruia

fluctueaza datele setului

Proprietati:

- media aritmetica este influentata de valorile extreme

- suma diferentelor dintre valorile individuale ale seriei si medie este

totdeauna zero!

"Media aritmetica modificata" - media aritmetica obtinuta dupa ce s-au exclus

valorile extreme (5%) ce pot denatura valoarea mediei

n

xx

i

01

n

i

i XX

Ex.: xi = 20; 21; 22; 23; 24; 25 5,225

252423222120x

Media aritmetica

lornumarul

valorilorsumamedia

suma valorilor:

=B3+B4+B5+B6+B7+B8

sau

=SUM (B3:B8)

functia SUMIF: aduna doar numerele din celulele care indeplinesc un criteriu dat!

numarul valorilor:

=COUNT (B3:B8)

COUNTA: numara celulele

care nu sunt goale

(in celule pot fi si litere!)

COUNT: numara numai celulele

care contin numere

(numai numere!)

COUNTBLANK: numara celulele goale

COUNTIF: numara celulele

care indeplinesc o anumita

conditie.

media aritmetica:

=AVERAGE (B3:B8)

media aritmetica:

=(suma valorilor)/(numarul lor)

Activand bara de functie (dupa selectarea unei celule care contine o formula),

fiecare celula implicata in formula poate fi identificata, datorita codului de culoare!

Medianul - reprezinta valoarea centrala din setul de date ordonat

- se ordoneaza datele si se determina valoarea din mijloc

Daca datele sunt grupate in clase de frecventa, clasa mediana este

cea care contine medianul.

Proprietati:

- medianul nu este afectat de valorile extreme

- medianul poate fi nereprezentativ pentru distributie daca valorile

individuale nu se grupeaza in jurul valorii centrale!

date

brute

4

2

5

1

7

10

6

date

ordonate

1

2

4

5

6

7

10

număr impar de date

Medianul

5

date

brute

4

2

5

1

7

10

date

ordonate

1

2

4

5

7

10

Medianul

(4 + 5) / 2 = 4.5

număr par de date

Medianul este: - termenul al (n+1)/2-lea → daca n este impar

- media dintre termenii n/2 si n/2+1 → daca n este par

)(2

1::

1222

1

nneparneimpar XXMnXMn

EXCEL:

- functia MEDIAN calculeaza medianul unui set de date indiferent de numarul lor

Medianul este data care are ordinul egal cu (numarul valorilor)/2

Functia RANK indica ordinul unei anumite valori dintr-un set de date!

Daca vrem sa copiem formula in

celelalte celule, domeniul de

referinta trebuie fixat!

n = impar: medianul este

valoarea ce are ordinul: (N+1)/2

n = par: medianul este media

valorilor ce au ordinul: N/2 si

(N/2+1)

Modul - valoarea ce are cea mai mare frecventa in seria de date.

Daca datele sunt grupate in clase de frecventa, modul corespunde

clasei de frecventa maxima.

Distributie - unimodala (un singur maxim)

- multimodala (mai multe maxime)

0

20

40

60

80

100

120

140

160

180

200

Variable X

Fre

qu

en

cy

25 30 35 40 45 50 55 60 65 70 75 80 850

20

40

60

80

100

120

140

160

180

200

Variable X

Fre

qu

en

cy

25 30 35 40 45 50 55 60 65 70 75 80 85

Clasă modală

- în cazul datelor nominale

vorbim de clasă modală

EXCEL: functia MODE

Manual: se ordoneaza

setul de date si se

determina care este

valoarea cea mai

frecventa.

Distributia in frecventa a datelor poate fi analizata folosind Histograma

a) trebuie definit setul de categorii ("bins") in care sa fie grupate valorile

b) se activeaza "unealta" Histogram: "Tools" apoi "Data Analysis

Optiunea "Data Analysis" se

instaleaza din meniul "Tools"

selectand "Add Ins.."

c) se selecteaza setul

de date, setul de

categorii si optiunea

"Chart Output"

2. Variabilitatea

Variabilitatea unui set de date ne spune pe ce domeniu se intinde acel set

de date (cat este de dispersat).

Masura imprastierii (dispersiei) setului de date

- ofera informatii privind extinderea datelor

- este utila in stabilirea reprezentativitatii masurilor de centralitate

- are rol in estimarea parametrilor statistici si in predictia (inferenta) statistica

- Deviatia standard

- Deviatia cvartila

- Domeniul de dispersie

Variabilitatea unui set de date poate fi exprimata prin:

n

XX

s

2n

1i

i2

Unitatea de masura este egala cu patratul unitatii de

masura a valorilor setului de date.

n

XX

s

2n

1i

i

Varianta (s2): raportul dintre suma patratelor abaterilor (erorilor) de la media

aritmetica a seriei si gradul de libertate (df = n-1).

Deviatia standard (s):

abatere standard

- reprezinta "distanta euclidiana" a valorilor fata de media aritmetica

Deviatia standard are aceeasi unitate de masura cu media aritmetica si cu

valorile setului de date.

Pentru un set ce contine un numar mare de date, varianta este patratul deviatiei

standard.

1-n

XX

s

2n

1i

i2

Daca volumul esantionului "n"

este mare (n-1 ≈ n):

n

XX

s

2n

1i

i2

n

XX

s

2n

1i

i

Varianta:

Deviatia standard:

1-n

XX

s

2n

1i

i2

se poate calcula prin scrierea formulei sau folosind

functia dedicata!

functia radical: SQRT()

ridicarea la patrat: ^2

functia suma: SUM()

pentru rotunjire:

ROUND()

ROUNDUP()

ROUNDDOWN()

calcul manual

EXCEL: functia STDEVP Deviatia standard

EXCEL: functia VARP Varianta

Deviatia cvartila (DQ): măsoară dispersia datelor aflate in zona de mijloc a

distribuţiei

DQ = (Q3-Q1)/2

Mod de calcul:

- se ordonează datele

- se calculează - valoarea mediana a jumătăţii superioare (Q3=UQ: upper quartile)

- valoarea mediana a jumătăţii inferioare (Q1=LQ: lower quartile)

Indicatori de localizare:

Primul cvartil (Q1) - valoare mai mare (sau egala) decat 25% din datele seriei.

Al doilea cvartil (Q2) - este reprezentat de mediana (50% din datele seriei).

Al treilea cvartil (Q3) - valoare mai mare (sau egala) decat 75% din datele seriei.

EXCEL: functia QUARTILE

nr. crt. Valori nesortate Valori ordonate

1 25 14 LL sau Q0 (min)

2 27 16

3 20 16

4 23 18

5 26 19

6 24 20 LQ sau Q1

7 19 20

8 16 21

9 25 23

10 18 24

11 30 24 Md sau Q2

12 29 25

13 32 25

14 26 26

15 24 26

16 21 27 UQ sau Q3

17 28 27

18 27 28

19 20 29

20 16 30

21 14 32 UL sau Q4 (max)

UL – Upper limit LL – Lower limit

Deviatia cvartila EXCEL: functia QUARTILE

Domeniul de dispersie (DD):

DD = Xmax-Xmin

Xmax valoarea maxima din setul de date (UL - upper limit)

(EXCEL: functia MAX)

Xmin valoarea minima din setul de date (LL - lower limit)

(EXCEL: functia MIN)

Dezavantaj: se bazeaza doar pe valorile extreme.

Domeniul de dispersie:

DD = Xmax-Xmin

minimul unui set de date:

functia MIN

maximul unui set de date:

functia MAX

Coeficientul de variatie (CV) – este o masura relativa a dispersiei datelor.

CV reprezinta evaluarea deviatiei standard in raport cu media aritmetica.

Proprietati:

- CV este independent de unitatile de masura

- CV se foloseste pentru compararea variabilitatii relative a doua seturi de date

- CV intervine in studiul omogenitatii unor populatii:

CV <10% populatie omogena

10% < CV < 20% populatie relativ omogena

20% < CV < 30% populatie relativ eterogena

30% < CV populatie eterogena

x

sCV

Eroarea standard (ES):

se foloseste in inferenta statistica in determinarea intervalelor de

incredere pentru medie.

n

sES

EXCEL: functia SQRT (radacina patrata), ^2 (patrat)

EXCEL: functia SKEW

Asimetria (Skewness):

reprezinta abaterea de la aspectul simetric al distributiei de frecventa.

3 = 0 distributie simetrica

3 > 0 distributie cu coada spre dreapta

3 < 0 distributie cu coada spre stanga

n

s

xxn

i

i

1

3

3

Boltirea (Kurtosis): reprezinta aplatizarea/inaltimea unei distributii in raport cu o

distributie normala.

4 = 0 distributie normala

4 > 0 distributie mai inalta decat cea normala

4 < 0 distributie mai joasa

31

4

4

n

s

xxn

i

i

EXCEL: functia KURT

Importanta statistica a deviatiei standard

Pentru a prezice numarul (procentul) datelor cuprinse intre 2 valori simetrice

in jurul mediei, se foloseste teorema lui Cebasev:

Fractiunea de date cuprinse intre limitele ( ) cu k > 1 va fi

cel putin egala cu (1 - 1/k2)

(s - deviatia standard, - media aritmetica)

skxskx ,

x

Ex: proportia datelor situate de o parte si de alta a mediei la 3 deviatii

standard (k = 3) este egala sau mai mare decat (1-1/9) = 8/9 = 0,89. Deci cel putin

89% dintre date vor fi situate de o parte si de alta a mediei la 3 deviatii standard

Daca distributia este reprezentata prin curba lui Gauss (distributie

normala), media aritmetica, mediana si modul au aceleasi valori.

In acest caz sunt adevarate urmatoarele afirmatii:

- in intervalul se gasesc 68,3 % din valorile seriei

- in intervalul se gasesc 95,5 % din valorile seriei

- in intervalul se gasesc 99,7 % din valorile seriei

sx 1

sx 2

sx 3

P1. Pentru evaluarea eficacitatii unui regim

dietetic vegetarian asupra nivelului seric al

colesterolului, s-a realizat un studiu pe un esantion de

20 persoane, care a furnizat urmatoarele date:

a) Calculati media diferentei nivelului colesterolului in

urma curei vegetariene

b) Calculati varianta si deviatia standard a nivelului

colesterolului in urma curei vegetariene

c) Calculati mediana diferentei nivelului colesterolului

in urma curei vegetariene

d) Stabiliti gradul de omogenitate al esantionului din

punctul de vedere al nivelului colesterolului inainte de

regimul dietetic.

nr colesterol

initial

colesterol

final

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

195

145

205

159

244

166

250

236

192

224

238

197

169

158

151

197

180

222

168

168

146

155

178

146

208

147

202

215

184

208

206

169

182

127

149

178

161

187

176

145

Tema

P2. Urmatoarele date reprezinta varsta inbolnavirii (in ani) de o boala "A"

in 30 cazuri de aparitie a acestei boli (selectate aleator):

26, 45, 71, 51, 40, 51, 62, 63, 36, 54, 43, 67, 45, 34, 44, 52, 48, 55, 57, 43, 54, 47,

39, 50, 33, 40, 55, 29, 45, 42.

a) Calculati cu o zecimala urmatoarele statistici: mediana, modul, media aritmetica,

domeniul de dispersie, deviatia cvartala, varianta, deviatia standard, coeficientul

de variatie

b) Cate din observatii cad in afara urmatoarelor intervale:

c) Determinati nivelul de omogenitate al esantionului din punctul de vedere al

varsei de imbolnavire.

sx 1

sx 2

Tema