Skaitinės charakteristikos

Preview:

DESCRIPTION

Skaitinės charakteristikos. Aprašančios statistikos. Absoliučios statistikos arba padėties statistikos [ statistics of location ] aritm.vidurkis, max ir min, mediana, moda aprašo padėtį skaičių ašyje bet neaprašo formos. - PowerPoint PPT Presentation

Citation preview

Skaitinės charakteristikos

Aprašančios statistikos

A. Absoliučios statistikos arba padėties statistikos [statistics of location]

• aritm.vidurkis, max ir min, mediana, moda• aprašo padėtį skaičių ašyje • bet neaprašo formos. A. Santykinės statistikos arba sklaidos statistikos

[statistics of dispersion] • dispersija, vid.kv.nuokrypis, asimetrija, ekscesas,

pasiskirstymo plotis [range]• aprašo formą

Laužtė su visomis padėties statistikomis

empiriniai dažniai

0

20

40

60

80

100

120

140

1,00 1,50 2,00 2,50 3,00 3,50

dulkinės ilgis, mm

da

žnis

, vn

t.

empiriniai dažniai

Laužtė su vidurkiu ir minimumu bei maksimumu

-20

0

20

40

60

80

100

120

140

1,00 1,50 2,00 2,50 3,00 3,50

dulkinės ilgis, mm

da

žnis

, vn

t.

empiriniai dažniai Vidurkis Range

Laužtė su visomis padėties statistikomis

-20

0

20

40

60

80

100

120

140

1,00 1,50 2,00 2,50 3,00 3,50

dulkinės ilgis, mm

da

žnis

, vn

t.

empiriniai dažniai Vidurkis Mediana 25% kvartilis 75% kvartilis IQR Range

Box and Whisker

Median = 2,9 25%-75% = (2,65, 3,1) Min-Max = (1,4, 3,3)

DULK1_IL1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6

2,8

3,0

3,2

3,4

Dvimatis taškinis grafikas (scatterplot) su prišlietinėmis histogramomis

Dvimatis taškinis grafikas (scatterplot) su prišlietiniais box-and-whiskers grafikais

Aritm.vidurkio, medianos ir modos lyginimas

Labiausiai vartojamas vidurkis, kadangi:a) jo standartinė paklaida yra mažiausia iš visų vietos

statistikų,b) jo skaičiavimai lengviausi,c) jis pats linkęs barstytis normaliai, nors skirstinys gali būti

nenormalus.• Vidurkio trūkumai - ji labai veikia nukrypusios vertės, o

medianą ir modą jos veikia mažai.• Vidurkis yra jautresnis skirstinio formos pokyčiams, todėl

labiau tinka, kai norima atsižvelgti į skirstinio formą.• Vienviršūnių, simetriškų skirstinių vidurkis, mediana ir

moda sutampa. Pvz., normalusis skirstinys.• Vienviršūnių asimetriškų skirstinių (lognormaliojo tipo)

vidurkis būna arčiausiai ilgosios uodegos, moda - toliausiai nuo jos, mediana - tarp vidurkio ir modos.

Nuokrypiai: paprastasis nuokrypis

• Rodo nuokrypį nuo vidurkio nuokrypis (deviate):• Paprastų nuokrypių suma visada lygi 0, kadangi

vidurkis - svorio centras. • Nenaudojamas kaip bendra sklaidos

charakteristika.

Nuokrypiai: Vidutinis absoliutus nuokrypis

• Angl. average deviation • Jis nebūna lygus nuliui. • Kažkada labai populiarus, dabar nebenaudojamas,

jį nukonkuravo vidutinis kvadratinis nuokrypis.

Nuokrypiai: Vidutinis kvadratinis nuokrypis

• Angl. standard deviation (SD)• Liet. dar vadinamas standartiniu nuokrypiu• Susijęs su dispersija.

Box and whiskers plot

Mean = 2,797 ±SD = (2,4185, 3,1755) ±1,96*SD = (2,0551, 3,5389)

VAR91,8

2,0

2,2

2,4

2,6

2,8

3,0

3,2

3,4

3,6

Dvimatis taškinis grafikas (scatterplot) su prišlietiniais medianų ir kvartilių grafikais

Scatterplot with Box Plots (Mieziai 1 10v*468c)

1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4

DULK1_IL

1,0

1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6

2,8

3,0

3,2

3,4

3,6

DU

LK

2_

IL

Dvimatis taškinis grafikas (scatterplot) su prišlietiniais vidurkių ir vid.kv.nuokrypių grafikais

Scatterplot with Box Plots (Mieziai 1 10v*468c)

1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4

DULK1_IL

1,0

1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6

2,8

3,0

3,2

3,4

3,6

DU

LK

2_

IL

Ką apie duomenis sako Sx?

• [+1·σx  ; - 1·σx ] apima 68.27% duomenu.

• [+2·σx  ; -2·σx ] apima 95.45% duomenu

• [+3·σx  ; -3·σx ] apima 99.73% duomenu.

• 50% duomenu yra intervale 0.674·σx.

• 90% duomenu yra intervale 1.960·σx.

• 95% duomenu yra intervale 2.576·σx.

[+1·σx  ; - 1·σx ]

apima 68.27% duomenų

[+2·σx  ; -2·σx ]

apima 95.45% duomenų

[+3·σx  ; -3·σx ]

apima 99.73% duomenų

Sx naudingumas

• Xvid=64 cm

• Sx=17 cm

• Vadinasi, intervale [64-17 cm; 64+17 cm] yra ~68% duomenų

Dispersija

• Angl. variance• Paprastai naudojama kaip tarpinis dydis

skaičiavimuose.• Nepatogi, nes:• miglota biologinė/fizinė prasmė (dimensija

kvadratu)• dažnai yra labai didelis ar labai mažas skaičius

(nes skaičiuojama per nuokrypio kvadratus)

Nepaslinktosios statistikos

• Angl. unbiased statistics

• Nepaslinktosios statistikos požymis: Paėmus daug to pat dydžio imčių iš tos pačios generalinės aibės, šių imčių statistikų vidurkis lygus atitinkamam generalinės aibės parametrui.

• Pvz.: xix

Paslinktosios statistikos• Angl. biased statistics

• Paslinktosios statistikos požymis: Paėmus daug to pat dydžio imčių iš tos pačios generalinės aibės, šių imčių statistikų vidurkis nelygus atitinkamam generalinės aibės parametrui.

• Pvz.

xxiS

Paslinktosios statistikos

• Paslinktosios statistikos „paslinktai“ atspindi atitinkamą generalinės aibės parametrą.

• Norint gauti įvertį, artimesnį atitinkamam generalinės aibės parametrui, reikia specialių pataisų.

Pataisos

• Dispersijai – Beselio pataisa:

• Todėl

122*

n

nSS xx

1

)( 2*2

n

xxS ix

PataisosVidutinis kvadratinis

nuokrypis:

• Beselio pataisa

)5.0(21

21

5.0

n

nn

Cn

• Gurlando-Tripathio pataisa (Gurland, Tripathi, 1971)

Ši pataisa mažai reikšminga mažoms imtims (C5=1,0638;

C30=1.0086)

1

)( 2*

n

xxS ix

Variacijos koeficientas (1)

• Angl. coefficient of variation x

SV xx

vartojant šią pataisą Vx turi būti skaičiuojamas iš Sx be pataisos Cn.

• Vx pataisa svarbi, kai imtys mažos.

x*x V

n4

11V

Variacijos koeficientas (2)

• Neturi dimensijos

• Leidžia palyginti dviejų imčių išsibarstymą apie vidurkį – net skirtingų požymių imčių (nepriklausomai nuo matavimo vienetų)

Variacijos koeficientas (3)

Variacijos koeficiento biologinė prasmė: mažos reikšmės leidžia spėti, kad

a) tai evoliucijos griežtai ribojamas požymis,

b) tai homeostazės griežtai ribojamas požymis.

Variacijos koeficientas (4)

0

5

10

15

20

25

-30,00 -20,00 -10,00 0,00 10,00 20,00

dulkinės ilgis, mm

da

žnis

, vn

t.

empiriniai dažniai Vidurkis

Vx=1933,9%

Asimetrijos koeficientas (1)

• Angl. skew

• Rodo asimetriją

3x

n

1i

3i

1 sn

xxg

0

5

10

15

20

25

-30,00 -20,00 -10,00 0,00 10,00 20,00

dulkinės ilgis, mm

da

žnis

, vn

t.

empiriniai dažniai Vidurkis

Asimetrijos koeficientas (2)

g1=-0,45

Asimetrijos koeficientas (3)empiriniai dažniai

0

20

40

60

80

100

120

140

0,00 0,50 1,00 1,50 2,00 2,50

dulkinės ilgis, mm

da

žnis

, vn

t.

empiriniai dažniai

g1=2,38

Ekscesas • Angl. kurtosis

3

sn

xxg

4x

n

1i

4i

2

• Formulėje

atimamas 3 tam, kad normaliojo skirstinio ekscesas būtų lygus 0.

• Rodo skirtinio bukumą/smailumą ar dviviršūniškumą

• Asimetrija ir ekscesas yra paslinktos statistikos, tad jų pataisos – daugikliai:

• asimetrijai –

• ekscesui -

Asimetrijos koef. ir ekscesas – paslinktos statistikos

)2)(1(

2

nn

n

)3)(2)(1(

)1(2

nnn

nn

Recommended