27
Katarzyna Lubnauer 58 Podstawowe miary rozproszenia: Wariancja z populacji: 2 2 2 2 1 1 1 1 k k i i i i s x x x x n n Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 2 2 1 1 1 k i i s x x n Przykład 38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 1 1 66,95 n i i x x n 2 2 2 1 1 306, 77 n i i s x x n 2 2 1 1 321,38 1 n i i s x x n

Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 58

Podstawowe miary rozproszenia:

Wariancja z populacji:

22 2 2

1 1

1 1k k

i ii i

s x x x xn n

Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

22

1

11

k

ii

s x xn

Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1

1 66,95n

ii

x xn

2 2 2

1

1 306,77n

ii

s x xn

22

1

1 321,381

n

ii

s x xn

Page 2: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 59

Odchylenie standardowe to pierwiastek z wariancji:

2

1

1 k

ii

s x xn

2

1

11

k

ii

s x xn

lub

Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

306,77 17,5s 321,38 17,9s

Page 3: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 60

W szeregach rozdzielczych punktowych stosuje się tzw. wariancję, wyrażającą się wzorem:

22 2 2

1 1

1 1k k

i i i ii i

s n x x n x xn n

22

1

11

k

i ii

s n x xn

wartość wariantu i - tej klasy (przedziału)

liczebność i-tej klasy

Liczebność populacji

liczba klas

ix

in

k

n

Page 4: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 61

Dla szeregu rozdzielczego przedziałowego:

środek i - tej klasy (przedziału)

liczebność i-tej klasy

Liczebność populacji

liczba klas

1

2i i

ix xx

in

k

n

22 2 2

1 1

1 1k k

i i i ii i

s n x x n x xn n

22

1

11

k

i ii

s n x xn

Page 5: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 62

Współczynnik zmienności (niekiedy wynik jest podawany w procentach) Współczynnik zmienności mierzy zróżnicowanie względne i określa jaką część (ile procent) przeciętnego poziomu badanej cechy stanowi odchylenie standardowe.

svx

PrzykładMamy dwie maszyny rozsypujące cukier do torebek:1. Maszyna A rozsypuje cukier do torebek 1 kg, wyniki otrzymane przy kontroli wagi

pokazują następujące wyniki w kg: 0,85; 0,87; 0,9; 0,91; 1,03; 1,03; 1,08; 1,1; 1,122. Maszyna B rozsypuje cukier do worków 1 00kg, wyniki otrzymane przy kontroli wagi

pokazują następujące wyniki w kg: 86; 87,5; 91; 91; 100; 102; 105; 110; 115

svx

0,10533 0,1066330,987778

AA

A

svx

10,31315 0,10458498,61111

BB

B

svx

0,10533As

10,31315Bs

Badanie go ma sens tylko dla cech o dodatnich wartościach

Page 6: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 63

Def. Odchylenie przeciętne SD - jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniej arytmetycznej.

Odchylenie przeciętne

W szeregach szczegółowych stosuje się odchylenie przeciętne , wyrażającą się wzorem:

1

1 n

D ii

S x xn

Page 7: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 64

W szeregach rozdzielczych punktowych stosuje się odchylenie przeciętne, wyrażającą się wzorem:

wartość wariantu i - tej klasy (przedziału)

liczebność i-tej klasy

Liczebność populacji

liczba klas

ix

in

k

n

1

1 k

D i ii

S n x xn

Page 8: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 65

W szeregach rozdzielczych przedziałowych stosuje się odchylenie przeciętne, wyrażającą się wzorem:

Środek i - tej klasy (przedziału)

liczebność i-tej klasy

Liczebność populacji

liczba klas

ix

in

k

n

1

1 k

D i ii

S n x xn

Page 9: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 66

DS s

Zachodzi następująca zależność między odchyleniem przeciętnym i standardowym

Dla powyższej miary rozrzutu też można zdefiniować współczynnik zmienności:

DD

svx

Page 10: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 67

Rozstęp jest najprostszą miarą rozproszenia (zmienności). Jest niczym innym jak różnicą między wartością maksymalną a minimalną z naszego zbioru obserwacji. Pokazuje zatem jedynie jaki jest zakres naszych obserwacji nie informuje w żaden sposób co dzieje się "w środku" tego zakresu np. jaka wartość występowała najczęściej, czy jaka jest średnia dla tego zbioru obserwacji.

max minR x x Max Min Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

max min 98 38 60R x x

UwagaWartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o zróżnicowaniu pozostałych wartości cechy . Jest to niewątpliwie słabością tej miary dyspersji.

Page 11: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 68

Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest odstęp międzykwartylowy.

Odstęp międzykwartylowy definiuje się wzorem:

1 3IQR Q Q

Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1 3 79,75 52,5 17,25IQR Q Q

Min = 38 Q1=52,5 Q3=79,75 Max = 98

66,95x Me=70

Page 12: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 69

Znając średnie, mediany, kwartyle oraz wartości skrajne możemy zbudować wykresy pudełkowe w celu porównywania dwóch podobnych populacji ze względu na tę samą cechę.

Na rysunki mamy wykresy pudełkowe dla 2 grup studentów i ich wyniki procentowe z tego samego egzaminu.Jakie wnioski możemy wyciągnąć porównując wykresy?

Min = 38 Q1=52,5 Q3=79,75 Max = 98

66,95x Me=70

Min = 45 Q1=60,5 Q3=72,5 Max = 88

62,25x Me=64

Page 13: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 70

Przedział typowych wartości

[x - s, x + s]Jest to przedział, do którego należy większość danych statystycznych, interpretacja ta jest uzasadniona wtedy, gdy cecha ma rozkład zbliżony do rozkładu normalnego.

Page 14: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 71

Miara rozproszenia Zalety Wady

Wariancja, odchyleniestandardowe

• Łatwo policzyć, jest zdefiniowanaalgebraicznie

• Uwzględnia wszystkie wartości wariantów cechy

• Duży wpływ mają na nią wartości odskakujące

• Zniekształcenie w przypadku rozkładów skośnych

• Trudno porównywać przy różnychwielkościach

Współczynnik zmienności

• Łatwo policzyć, jest zdefiniowanaalgebraicznie

• Uwzględnia wszystkie wartości wariantów cechy

• Można porównywać dwie różniące się wartościami populacje

• Duży wpływ mają na nią wartości odskakujące

• Zniekształcenie w przypadku rozkładów skośnych

Rozstęp • Łatwo znaleźć • Zniekształcony przez wartości odskakujące

• Pomija większość informacji• Nie jest zdefiniowana algebraicznie

IQR • Nie jest zniekształcona w przypadku rozkładów skośnych

• Brak wpływu wartości odskakujących

• Dobry w przypadku rozkładów skośnych

• Pomija większość informacji• Nie jest zdefiniowana algebraicznie• Nie powinno się stosować do małych

prób

Zalety i wady różnych miar rozproszenia

Page 15: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 72

Miary asymetrii

Jak interpretujemy wartości miar asymetrii?

1 0x

2 0x

02468

1012141618

-3 -2 -1 0 1 2 3 4 5 6 7

02468

1012141618

-7 -6 -5 -4 -3 -2 -1 0 1 2 3

1 5,062279s

2 5,062279s

Page 16: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 73

Znak współczynnika asymetrii wskazuje na kierunek asymetrii natomiast jego wartość bezwzględna określa siłę asymetrii.

Mówimy, że rozkład może być

symetryczny:

Page 17: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 74

prawoskośny,

lewoskośny

Page 18: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 75

DefRozkład symetryczny występuje, jeśli skupienie wyników znajduje się wokół środka rozkładu.Rozkład prawoskośny - (asymetria dodatnia) wyniki skupiają się przy niskich wartościach cechy.Rozkład lewoskośny - (asymetria ujemna) wyniki skupiają się przy wysokich wartościach cechy.

Skośność mierzymy przy pomocy miar asymetrii, najpopularniejsze to:

Współczynnik asymetrii (klasyczny)

3

13

1 n

ii

x xnA

s

Page 19: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 76

Współczynnik asymetrii (klasyczny) dla szeregu punktowego:

3

13

1 k

i ii

n x xnA

s

3

13

1 k

i ii

n x xnA

s

Współczynnik asymetrii (klasyczny) dla szeregu przedziałowego:

Symbole we wzorach oznaczają to co zawsze.

Page 20: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 77

Miary asymetrii

Jak interpretujemy wartości miar asymetrii?

1 0x

2 0x

02468

1012141618

-3 -2 -1 0 1 2 3 4 5 6 7

02468

1012141618

-7 -6 -5 -4 -3 -2 -1 0 1 2 3

1 5,062279s

2 5,062279s

1 0,077084A

2 0,077084A

Page 21: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 78

Współczynnik asymetrii (klasyczny) - własności

na ogół

2 2A

• określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej , a dodatni prawostronnej

• o sile asymetrii mówi wartość bezwzględna z A:0-0,4 bardzo słaba asymetria, rozkład prawie symetryczny 0,4-0,8 słaba asymetria0,8-1,2 umiarkowana asymetria1,2-1,6 siła asymetriaPowyżej 1,6 bardzo silna asymetria.

Skośność (inna odmiana klasycznego współczynnika skośności)

3

311 2

ni

i

x xnAn n s

Z tego wzoru policzymy

skośność korzystając z Excela.

Page 22: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 79

Wskaźnik asymetrii Pearsona:

x dAPs

Możemy go wyznaczać tylko, jeśli próba ma modę (dominantę) dna ogół

1 1AP określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnejo sile asymetrii mówi wartość bezwzględna z AP :

0,0 - 0,2 bardzo słaba asymetria, rozkład prawie symetryczny 0,2 - 0,4 słaba asymetria0,4 - 0,6 umiarkowana asymetria0,6 - 0,8 silna asymetriaPowyżej 0,8 bardzo silna asymetria.

Page 23: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 80

Zauważmy, że najprostszym, prymitywnym sposobem badania skośności może być porównywanie położenia średniej i mediany,

• Jeśli średnia jest na prawo od mediany

d Me x to mamy asymetrię prawoskośną

• Jeśli średnia jest na lewo od mediany

x Me d to mamy asymetrię lewośną

Page 24: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 81

Miary skupienia (koncentracji)

Def.Koncentracja oznacza skupienie wartości cechy wokół średniej arytmetycznej z próby.

Def.Współczynnikiem kurtozy (koncentracji, spłaszczenia) nazywamy wartość K otrzymaną ze wzoru:

44

mKs

44

1

1 n

ii

m x xn

gdzie

Jest 4 momentem centralnym z populacji.

W celu oceny koncentracji badanego rozkładu porównuje się ją do rozkładu normalnego, dla którego 3K

Page 25: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 82

Def.Współczynnikiem ekscesu nazywamy wartość liczoną ze wzoru:

3K K Jak widać celem wprowadzenia nowego pojęcia było przesunięcie wartości do 0.

Rozkłady prawdopodobieństwa można podzielić ze względu na wartość współczynnika ekscesu na rozkłady:mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnymplatokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

Page 26: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 83

Page 27: Statystyka Opisowa 1 - Urząd Miasta Łodzimath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka... · 2015-03-17 · Katarzyna Lubnauer 60 W szeregach rozdzielczych punktowych stosuje

Katarzyna Lubnauer 84