Upload
dodieu
View
241
Download
4
Embed Size (px)
Citation preview
Statystyka Opisowa z Demografia oraz Biostatystyka
Opisowa analiza struktury zjawisk
statystycznych
Aleksander Denisiuk
Elblaska Uczelnia Humanistyczno-Ekonomiczna
ul. Lotnicza 2
82-300 Elblag
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 1
Opisowa analiza struktury zjawisk statystycznych
Najnowsza wersja tego dokumentu dostepna jest pod adresem
http://denisjuk.euh-e.edu.pl/
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 2
Rozkład empiryczny
• przyporzadkowanie kolejnym wartosciom zmiannej xjodpowiadajaych im liczebnosi nj
◦ zamiast liczebnosi uzywane sa takze czestotliwosci
wzgledne wj , wj =nj∑nk
(
nj∑nk
· 100%)
• odzwierciadla strukture badanej zbiorowosci z punktuwidzenia okreslonej cechy
• ustalany na podstawie konkretnych obserwacji
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 3
Rozkład empiryczny
• cechy skokowej, cechy ciagłej
◦ jednomodalny
◦ bimodalny
◦ wielomodalny
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 4
Rozkład jednomodalny
• symetryczny
• normalny
• asymetryczny
◦ prawostronny
◦ lewostronny
• zbiorowosci jednorodne
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 5
Rozkład empiryczny
• skrajnie asymetryczny
• siodłowy
• zbiorowosci skrajnie zróznicowane
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 6
Opisowe charakterystyki
• miary srednie
• miary rozproszenia
• miary asymetrii
• miary koncentracji
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 7
Opisowe charakterystyki
• sa bardziej syntetycznymi sposobami opisu rozkładów, nizforma graficzna lub tabelaryjna
• pozwalaja w sposób syntetyczny okreslic własciwoscibadanych rozkładów
• pozwalaja porównac:
◦ dwie rózne zbiorowosci pod wzgledem tej samej cechybadania
◦ rózne cechy tej samej zbiorowosci
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 8
Miary srednie
• klasyczne
◦ srednia arytmetyczna
◦ srednia harmoniczna
◦ srednia geometryczna
• pozycyjne
◦ dominanta (modalna, wartosc najczestsza)
◦ kwantyle• kwartyle• kwintyle• decyle• centyle (percentyle)
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 9
Srednia arytmetyczna
• srednia niewazona (zwykła)
• x = x1+x2+···+xN
N=
N∑
i=1
xi
N
• srednia wazona
◦ wagi — liczebnosci wariantów
◦ x = x1n1+x2n2+···+xknk
N=
k∑
i=1
xini
N
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 10
Srednia arytmetyczna. Przykład
• osoba przepracowała w pieciu kolejnych dniach liczbegodzin: 8, 3, 2, 10, 7.
◦ srednio 6 godzin
• oblicz srednia arytmetyczna liczby dzieci na utrzymaniuzaobserwowanej w grupie liczacej 82 osób
liczba dzieci ilosc pracowników
0 34
1 26
2 11
3 10
4 1
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 11
Srednia arytmetyczna. Przykład, cd
• osoba przepracowała w pieciu kolejnych dniach liczbegodzin: 8, 3, 2, 10, 7.
◦ srednio 6 godzin
• oblicz srednia arytmetyczna liczby dzieci na utrzymaniuzaobserwowanej w grupie liczacej 82 osób
liczba dzieci ilosc pracowników xini
0 34 0
1 26 26
2 11 22
3 10 30
4 1 4
◦ srednio 1 dziecko
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 12
Szeregi rozdzielcze przedziałowe
• srodki przedziałów x = x−+x+
2
• x = x1n1+x2n2+···+xknk
N=
k∑
i=1
xini
N
• wskazniki struktury wi =ni
N· 100
• x =
k∑
i=1
xiwi
100
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 13
Szeregi rozdzielcze. Przykład
• srednia liczb podmiotów publicznych w gminach wiejsckich
liczba podmiotów liczba gmin
5–9 22
10–14 37
15–19 17
20–24 3
25–29 2
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 14
Szeregi rozdzielcze. Przykład, cd
• srednia liczb podmiotów publicznych w gminach wiejsckich
xD–xG ni xi xini
5–9 22 7 154
10–14 37 12 444
15–19 17 17 289
20–24 3 22 66
25–29 2 27 54
◦ x = 12, 4
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 15
Srednia arytmetyczna
• xi — srednia grupy i
• srednia dla wszystkich grup łacznie: ¯x =
k∑
i=1
xini
N
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 16
Srednia arytmetyczna. Własciwosci
• jest wypadkowa wszystkich wartosci zmiennych, orazxmin 6 x 6 xmax
• suma odchylen poszczególnych wartosci od sredniejarytmetycznej jest równa zeru
◦N∑
i=1(xi − x) = 0 (szereg wiliczajacy)
◦k∑
i=1(xi − x)ni = 0 (szereg rozdzielczy punktowy)
◦k∑
i=1(xi − x)ni = 0 (szereg rozdzielczy przedziałowy)
• jezeli wszystkie wartosci pomniejszyc (powiekszyc,pomnozyc, podzielic) przez stała, to srednia arytmetycznazostanie pomniejszona (powiekszona, pomnozona,podzielona) przez te stała.
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 17
Srednia arytmetyczna. Własciwosci, cd
• jezeli liczebnosci poszczególnych wariantów cechy sajednakowe, to srednia arytmetyczna równa sie ilorazowisumy wartosci wariantów i ich liczby
• suma wartosci zmiennej jest równa iloczynowi sredniej
arytmetycznej i liczebnosci zbiorowej,N∑
i=1xi = Nx (szereg
wiliczajacy)
• jezeli wszystkie wartosci pomniejszyc (powiekszyc,pomnozyc, podzielic) przez stała, to srednia arytmetycznazostanie pomniejszona (powiekszona, pomnozona,podzielona) przez te stała.
• na poziom sreniej arytmetycznej silny wpływ wywierajawarosci ekstremalne
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 18
Srednia arytmetyczna. Ograniczenia
• jest miara prawidłowa tylko w odniesieniu do zbiorowoscijednorodnych
• w miare wzrostu asymetrii i zróznicowania, dla rozkładówbimodalnych i wielomodalnych srednia arytmetyczna tracipoznawcza wartosc
• nie mozna obliczyc dla szeregu o przedniałach otwartycch
◦ mozna domykac przedziały otwarte, jezeli liczbajednostek w nich nie przekracza 5%
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 19
Srednia harmoniczna
• jest odwrotnoscia sredniej arytmetycznej odwrotnosci
wartosci zmiennych H = NN∑
i=1
1
xi
• dla szeregów rozdzielczych punktowych H = Nk∑
i=1
1
xini
• dla szeregów rozdzielczych przedziałowych H = Nk∑
i=1
1
xini
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 20
Srednia harmoniczna
• stosuje sie, jezeli wartosci podane sa w jednostkachwzglednych (km/h, kg/osobe), wagi — w jednostkach,wystepujacych w licznikach
◦ predkosc (km/h), wagi w km
◦ gestosc zaludnienia (obob/km2), wagi w osobach
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 21
Srednia harmoniczna. Przykład
• załózmy, ze gestosc zaludnienia w dwu 60-tysiecznych
miastach wynosi odpowiednio 400 osób/km2 oraz 600
osób/km2
• jaka jest przecietna gestosc zaludnienia?
• (odp.: 480 osób/km2)
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 22
Srednia geometryczna
• xg = n√x1x2 . . . xN = N
√
N∏
i=1xi
• xg = N√
xn1
1 xn2
2 . . . xnk
k = N
√
k∏
i=1xni
i
• stosuje sie przy badaniu sredniego tempa zmian zjawisk
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 23
Dominanta (modalna, wartosc najczestsza)
• taka wartosc zmiennej, która w danym rozkładzie wystepujenajczesciej
◦ tylko dla rozkładów jednomodalnych
• w szeregach wyliczalnych i rozdzielczych punktowych jestwartoscia cechy
• w szeregach rozdzielczych przedziałowych mozna okreslictylko przedział
◦ konkretna wartosc dominanty oblicza sie jako
D = xD + nD−nD−1
(nD−nD−1)+(nD−nD+1)iD
◦ albo metoda graficzna• rozkład empiryczny jest jednomodalny• asymetria rozkładu jest umiarkowana• przedział w którym wystepuje dominanta oraz dwa
sasiadujace maja jednakowe rozpietosci
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 24
Dominanta. Przykład
• w przykładzie 12 dominanta jest 0 dzieci
• w przykładzie 14 dominanta jest 12 podmiotów publicznych
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 25
Kwantyle
• wartosci, które dziela zbiorowosc na kokreslone czesci podwzgledem liczby jednostek
◦ szewregi musza byc uporzadkowane
• kwartyle
• decyle
• centyle (percentyle)
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 26
Kwartyle
• kwartyl pierwszy (dolny) —25%
• kwartyl drugi (mediana, wartosc srodkowa) —50%
• kwartyl trzeci (górny) —75%
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 27
Mediana
• szeregi wyliczalne:
Me =
{
xN+1
2
, gdy N jest nieparzyste12
(
xN
2
+ xN
2+1
)
, gdy N jest parzyste
• szeregi rozdzielcze punktowe: kumulacja
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 28
Mediana. Przykład
• czas dojazdu do pracy: 35, 5, 20, 15, 30, 10, 60, 20, 45, 60
◦ mediana: 25 minut
• w przykładzie 12
◦ mediana: 1 dziecko
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 29
Kwartyle. Szeregi rozdzielcze przedziałowe
• Q1 = xQ1+
N
4−
k−1∑
i=1
ni
nQ1
iQ1
• Q2 = Me = xMe +
N
2−
k−1∑
i=1
ni
nMeiMe
• Q3 = xQ3+
3N
4−
k−1∑
i=1
ni
nQ3
iQ3
• gdzie
◦ Q1, Q2, Q3 — odpowiednie kwartyle
◦ xQ1, xMe, xQ3
— dolne granice przedziałów, w których
znajduja sie odpowiednie kwartyle
◦ nQ1, nMe, nQ3
— liczebnosci tych przedziałów
◦ iQ1, iMe, iQ3
— rozpietosci przedziałów
◦k−1∑
i=1ni — sumy liczebnosci do klasy, w której znajduje sie
kwartylStatystyka Opisowa z Demografia oraz Biostatystyka – p. 30
Uwagi o srednich
• kwartyle moga byc wykorzystywane we wszystkichprzypadkach
• decyle i centyle oreslane sa w sposób podobny
• srednia arytmetyczna, dominanta i mediana sa powiazanepewnymi zaleznosciami
◦ w przypadku umiarkowanie asymetrycznego rozkładux−D = 3(x−Me)
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 31
Miary zmiennosci
• dyspesja (rozproszenie) — zróznicowanie jednostek zewzgledu na wartosci badanej cechy
• miary pozycyjne
◦ empiryczny obszar zmiennosci (rozstep, amplitudawachan)
◦ odchylenie cwiartkowe
• miary klasyczne
◦ odchylenie standardowe
◦ wariancja
◦ odchylenie przecietne
• współczynnik zmiennosci
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 32
Miary zmiennosci
• bezwzgledne (absolutne)
◦ obszar zmiennosci
◦ wariancja
◦ odchylenie stadardowe
◦ odchylenie przecietne
◦ odchylenie cwiartkowe
• wzgledne (relatywne)
◦ współczynnik zmiennosci
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 33
Empiryczny obszar zmiennosci
• R = xmax − xmin
◦ szereg wyliczalny
◦ szereg rozdzilczy — tylko przyblizono
◦ przedziały otwarte — niemozliwe
◦ wstepna orientacja
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 34
Odchylenie przecietne
• d = 1N
N∑
i=1|xi − x|
• d = 1N
k∑
i=1|xi − x|ni
• d = 1N
k∑
i=1|xi − x|ni
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 35
Odchylenie cwiartkowe
• Q = Q3−Q1
2
• typowy obszar zmiennosci
◦ Me−Q 6 xtyp 6 Me+Q
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 36
Wariancja
• s2 = 1N
N∑
i=1(xi − x)2
• s2 = 1N
k∑
i=1(xi − x)2ni
• s2 = 1N
k∑
i=1(xi − x)2ni
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 37
Wariancja. Własciwosci
• s2 = x2i − x2
• jezeli zbiorowosc podzielic na k grup, to
s2 = s2i + s2(xi) =
k∑
i=1
s2ini
N+
k∑
i=1
(xi−x)2ni
N
• nieujemna i mianowana
• wariancja obliczona na podstawie szeregów rozdzielczychprzedziałowych jest zawyzona
◦ poprawka Shepparda s2 = 1N
k∑
i=1(x− x)2ni − i2
12
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 38
Odchylenie standardowe
• s =√s2
• obszar typowy x− s < xtyp < x+ s
• odchylenia standardowe, cwiartkowe oraz przecietne:Q < d < s
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 39
Odchylenie standardowe. Własciwosci
• obliczane na podstawie wszystkich obserwacji w danymszeregu
• nie zmienia sie, jezeli liczebnosci szeregu wyrazicw liczbach wglednych (procentach)
• nie zmienia sie, jezeli do wszystkich wartosci zmiennejdodac pewna stała
• jezeli wszystkie wartosci zmiennej pomnozyc przez pewnadodatnia stała, to odchylenie standardowe pomnozy sieprzez te sama stała
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 40
Reguła trzech sigm
• wprzypadku rozkładu normalnego (zblizonego donormalnego)
◦ blisko trzecia czesc obserwacji rózni sie od sredniejarytmetycznej o wiecej niz ±s
◦ około jedna na 20 obserwacji przekracza te srednia odwielkosc ±2s
◦ tylko jedna na 370 obserwacji przekracza sredniaarytmetyczna o ±3s
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 41
Współczynnik zmiennosci
• miara bezwzgledna
• jest ilorazem bezwzglednej miary dyspersji orazodpowiednich srednich
◦ klasyczne:• Vs =
sx· 100%
• Vd = dx· 100%
◦ pozycyjne:• VQ = Q
Me· 100%
• VQ1Q3= Q3−Q1
Q3+Q1
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 42
Współczynnik zmiennosci. Przykład
• srednie miesieczne wpływy za swiadczenie usługnolcegowych w trzech hotelach A, B i C były równe:xA = 600 000 zł., xB = 300 000 zł., xC = 500 000 zł.
• odchylenia standardowe wynosiły sA = 110 000 zł.,sB = 90 000 zł., sA = 120 000 zł.
• w którym hotelu wystepuje najmniejsza dyspersja?
◦ Vs(A) =110600 · 100% = 18,3%
◦ Vs(B) = 90300 · 100% = 30,0%
◦ Vs(C) = 120500 · 100% = 24,0%
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 43
Miary asymetrii
• w rozkładach symetrycznych trzy srednie sa równe:x = D = Me
• jezeli x > Me > D, to rozkład charakteryzuje sie asymetriaprawostronna
• jezeli x < Me < D, to — asymetria lewostronna
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 44
Wskaznik skosnosci (asymetrii)
• Ws = x−D
◦ w przypadku symetrii Ws = 0◦ w przypadku asymetri lewostronnej Ws < 0◦ w przypadku asymetri prawostronnej Ws > 0
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 45
Wskaznik skosnosci a kwartyle
• w przypadku symetrii (Q3 −Q2)− (Q2 −Q1) = 0
• w przypadku asymetri lewostronnej(Q3 −Q2)− (Q2 −Q1) < 0
• w przypadku asymetri prawostronnej(Q3 −Q2)− (Q2 −Q1) > 0
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 46
Wskaznik skosnosci
• jest bezwzgledna miara aymetrii
• okresla jedynie kirunek asymetrii
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 47
Współczynnik asymetrii (skosnosci)
• jest miara niemieanowana i unormowana
1. As = x−Ds
2. As = x−Dd
3. As = (Q3−Q2)−(Q2−Q1)(Q3−Q2)+(Q2−Q1)
= Q3+Q1−2Me2Q
• współczynniki 1 i 2 sa wzajemie zamienne
• (pozycyjny) współczynnik 3 jest stosowany, gdy nie moznaobliczyc dominanty czy sredniej arytmetycznej
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 48
Współczynnik asymetrii. Przykład
Wiek w latach Liczba zatrudnionych
xi−1 − xi ni xi
15–25 14 20
25–35 32 30
35–45 26 40
45–55 7 50
55–65 3 60
Razem: 82 ×
• D = 32,5
• As = 0,182
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 49
Współczynnik asymetrii. Przedział otwarty
Miasta o liczbie ludnosci Liczba miast Skumulowana liczba miast
xi−1 − xi ni nsi
<2 000 43 43
2 000–4 999 235 278
5 000–9 999 181 459
10 000–19 999 179 638
20 000–49 999 139 777
50 000–99 999 51 828
100 000–199 999 22 850
200 000 i wiecej 20 870
Razem: 870 ×
• A(Q) = 0,463
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 50
Moment centralny rzedu trzeciego
• moment trzeci
• m3 =1N
N∑
i=1(xi − x)3ni
◦ dla szeregów symetrycznych m3 = 0◦ dla lewostronnej asymetrii m3 < 0◦ dla prawostronnej asymetrii m3 > 0
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 51
Moment standardyzowany rzedu trzeciego
• moment wzgledny
• a3 =m3
s3
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 52
Moment trzeci. Przykład
• w przykładzie 12:
◦ x = 1◦ s = 1,07◦ m3 = 1,02◦ a3 = 0,833
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 53
Miary koncentracji
• nierównomierny podział zjawiska w zbiorowosci
◦ nierównomierny podział łacznego funduszu cechypomiedzy poszczególne jednostki zbiorowosci
• koncentracja zbiorowosci wokół sredniej (kurtoza)
• brak koncentracji
• zupełna koncentracja
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 54
Wielobok koncentracji Lorenza
• na osi odcietych — skumulowane czestosci wzgledne (w %)
• na osi rzednych — procentowe skumulowane czestosciwzgledne łacznego funduszu cechy
• krzywa Lorenza
• przekatna kwadratu: linia równomiernego rozdziału
• powierzchnia koncentracji
• współczynnik koncentracji Lorenza k = a5000 , gdzie a jest
polem powierzchni koncentracji
◦ jest miara niemianowana, 0 6 k 6 1◦ jezeli k = 0, brak koncentracji
◦ jezeli k = 1, to koncentracja zupełna
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 55
Wielobok koncentracji. Przykład
Gminy o liczbie ludnosci (w tys.) Liczba gmin Łaczna liczba ludnosci
ponizej 2 15 23,4
2–5 490 1 972,5
5–7 663 3 951,3
7–10 551 4 551,0
powyzej 10 351 4 364,3
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 56
Wielobok koncentracji. Przykład
� ��� ��� ��� ��� ��� ��� �� �� ��� ����
��
���
���
���
���
���
���
��
��
���
����
� ������������������
������������������ �� ������ �
������������������ ����!"�#� ���� � $
• a = 1055, 395, k = 0,21
• koncentracja nie jest duza
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 57
Koncentracja obserwacji wokół sredniej
• nalezy porównac rozkład z normalnym
• wykres bardziej wysmukły, niz krzywa normalna
◦ wieksze skupienie wartosci wokół sredniej
◦ leptokurtyczny rozkład
• wykres bardziej spłaszczony, niz krzywa normalna
◦ mniejsza koncentracja wartosci wokół sredniej
◦ platokurtyczny rozkład
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 58
Miara natezenia koncentracji wokół sredniej
• moment centralny czwartego rzedu m4 =1N
k∑
i=1(xi − x)4ni
• standardyzowany moment centralny czwartego rzedua4 =
m4
a4
◦ dla rozkładu normalnego a4 = 3◦ dla rozkładu spłaszczonego a4 < 3◦ dla rozkładu wysmukłego a4 > 3
• dla rozkładów jednomodalnych okreslany jest eksces: a4 − 3
Statystyka Opisowa z Demografia oraz Biostatystyka – p. 59