39
Marek Cieciura METODY PROBABILISTYCZNE W PIGUŁCE

W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

Embed Size (px)

Citation preview

Page 1: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

Marek Cieciura

METODY PROBABILISTYCZNE W PIGUŁCE

Page 2: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

Recenzenci

prof. dr hab. inż. Jerzy Gawinecki prof. dr hab. Tomasz Kuszewski

Projekt okładki i generowanie ebooka

Marek Cieciura

ISBN

978-83-62855-54-4

Copyright © by Marek Cieciura

Data ostatnich poprawek

22 października 2015

Niniejsza książka jest wydrukiem z formatu PDF ebooka dostępnego pod adresem http://cieciura.net/ebooki/

Instrukcja korzystania z ebooków umieszczona jest pod adresem http://cieciura.net/ebooki/ebook_instrukcja.pdf

Page 3: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

SPIS TREŚCI

PRZEDMOWA ........................................................................................................... 4

1. WPROWADZENIE ................................................................................................ 5

2. CHARAKTERYSTYKI LICZBOWE ........................................................................ 7

3. OPRACOWANIE DANYCH STATYSTYCZNYCH .............................................. 10

4. ZDARZENIA LOSOWE ....................................................................................... 12

5. ZMIENNE LOSOWE ............................................................................................ 15

6. PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH ..................................... 16

7. ROZKŁADY SKOKOWYCH ZMIENNYCH LOSOWYCH .................................... 18

8. ROZKŁADY CIĄGŁYCH ZMIENNYCH LOSOWYCH ......................................... 19

9. TWIERDZENIA GRANICZNE .............................................................................. 20

10. PARAMETRYCZNA ESTYMACJA PUNKTOWA .............................................. 21

11. PARAMETRYCZNA ESTYMACJA PRZEDZIAŁOWA ...................................... 22

12. ZASADY WERYFIKACJI HIPOTEZ .................................................................. 23

13. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH .......................................... 24

14. WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH .................................... 26

15. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH ............................ 28

16. ZAAWANSOWANE METODY ANALIZY STATYSTYCZNEJ ........................... 29

17. OPERACJE NA SYGNAŁACH CIĄGŁYCH ....................................................... 31

18. OCENA WYDAJNOŚCI OPROGRAMOWANIA ................................................ 33

DODATEK 1. PODSTAWOWA TERMINOLOGIA ................................................... 35

DODATEK 2. CYTATY STATYSTYCZNE ............................................................... 38

Page 4: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

4

PRZEDMOWA

O wszystkim należy mówić tak prosto jak się da, ale nie prościej – Albert Einstein

Opracowanie zawiera krótką charakterystykę 18 tematów metod probabilistycznych i uwzględnia następujący cel i efekty kształcenia.

Cel kształcenia

Zapoznanie studentów z podstawami statystyki opisowej, rachunku prawdopodo-bieństwa i statystyki matematycznej.

Efekty kształcenia Wiedza • Podstawowe pojęcia i metody statystyki opisowej, rachunku prawdopodobieństwa i statystyki matematycznej.

• Formułowanie problemów w kategoriach rachunku prawdopodobieństwa i staty-styki.

• Możliwości arkusza Excel w rozwiązywaniu zadań z rachunku prawdopodobień-stwa i statystyki i statystyki.

Umiejętności • Rozwiązywanie zadań ze statystyki opisowej, rachunku prawdopodobieństwa i statystyki matematycznej oraz interpretacja uzyskiwanych wyników.

Kompetencje społeczne • Zrozumienie probabilistycznego charakteru otaczającego nas świata. • Świadomość istoty i ograniczeń wykorzystywania wskaźników statystycznych sto-sowanych w życiu codziennym.

Elementy 16 charakterystyk zostały przedstawione w postaci odrębnego zadania z lukami, dostępnego w portalu: http://cieciura.net/mp/ w wersji Nauka i w wersji Sprawdzanie. Terminologia występująca w opracowaniu jest także treścią krzyżó-wek dostępnych w portalu w wersji Nauka i w wersji Sprawdzanie.

Nie zaleca się rozwiązywania krzyżówek i zadań z lukami w tych wersjach przy wykorzystaniu niniejszego opracowania. Bardziej przydaje się ono do rozszerzenia wiedzy i powtórzenia opanowanych wcześniej wiadomości.

Zwraca się uwagę, że w opracowaniu nie są podawane wzory1, należy je na podstawie zamieszczonego tekstu samodzielnie odtworzyć w pamięci i zapi-sać na kartce.

Opracowanie rekomendowane jest przede wszystkim: • jako pomoc w powtórzeniu materiału, • do przypomnienia sobie wcześniej opanowywanej wiedzy.

Kolejny etap rozszerzenia wiedzy powinien opierać się na lekturze udostępnionego podręcznika: http://cieciura.net/mp/index.php/pomoce-dydaktyczne/5-podrcznik

Pierwszy dodatek zawiera podstawową terminologię występującą w krzyżówkach.

Zamieszczone na końcu cytaty rekomenduje się do przemyślenia i zapamiętania kilku najbardziej przemawiających do Czytelnika.

Informacje podane w opracowaniu będą treścią sprawdzianów egzaminacyj-nych: krzyżówki i zadań z lukami. 1 Proszę przeczytać cytat autorstwa Renaty Bednarczyk zamieszony w ostatniej części opracowania.

Page 5: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

5

1. WPROWADZENIE

Populacja jest to zbiór elementów podlegających badaniu statystycznemu.

Elementy populacji charakteryzują się: • właściwością wspólną, pozwalającą odróżnić elementy populacji od innych ele-mentów, które do niej nie należą;

• właściwościami różniącymi je między sobą.

Aby można było odróżnić elementy populacji od innych elementów, populacja po-winna być określona pod względem: rzeczowym, terytorialnym (przestrzennym), czasowym.

Cecha populacji jest to właściwość, ze względu na którą elementy populacji mogą się różnić.

Warianty cechy są to możliwe wartości tej cechy.

Wyróżniające jednostki wchodzące w skład badanej zbiorowości nazywamy ce-chami statystycznymi. Rozróżniamy trzy zasadnicze typy cech: jakościowe, po-rządkowe i ilościowe.

Cechy jakościowe (niemierzalne) to takie, których nie można jednoznacznie scha-rakteryzować za pomocą liczb (czyli nie można zmierzyć). Możemy je tylko opisać słowami.

Cechy porządkowe (mierzalne) umożliwiają porządkowanie (lub szeregowanie) wszystkich elementów zbioru wyników. Cechy takie najlepiej określa się przymiotni-kami i ich stopniowaniem.

Cechy ilościowe (mierzalne) to takie, które dadzą się wyrazić za pomocą jedno-stek miary w pewnej skali.

Wyróżnia się tutaj dwie skale: przedziałową – określone jest odejmowanie warian-tów – i ilorazową – określone jest odejmowanie i dzielenie wariantów.

Wyróżnia się dwie podstawowe metody badań statystycznych: badanie pełne – wyznaczanie wartości badanej cechy wszystkich jednostek populacji – oraz bada-nie częściowe – wyznaczanie wartości badanej cechy tylko niektórych, specjalnie dobranych jednostek populacji.

Badanie częściowe stosujemy, gdy: • jest niszczące; • pełne jest zbyt drogie; • musi być przeprowadzone i opracowane w krótkim czasie.

Próba reprezentatywna, stosowana w badaniach częściowych, jest to próba, w której struktura cechy mało różni się od struktury tej cechy w populacji. Inny sło-wy, rozkład wariantów cech elementów próby powinien być taki sam jak w popula-cji.

Aby próba była reprezentatywna, powinna być dostatecznie liczna i elementy popu-lacji powinny być w odpowiedni sposób losowane.

Analizowane próby mogą być uzyskane z tych samych elementów – nazywane są one w tym wypadku próbami powiązanymi. Przy uzyskaniu prób z różnych ele-mentów nazywane są one próbami niepowiązanymi.

Page 6: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

6

W opracowaniu podano w pierwszej kolejności informacje dotyczące statystyki opi-sowej – jest to dział statystyki zajmujący się metodami opisu danych statystycznych uzyskanych podczas badania statystycznego – analizie podlegają wszystkie ele-menty populacji bądź próby.

Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.

Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach statystyki opisowej następuje pre-zentacja (tabelaryczna i graficzna) rozkładu cechy, a wstępne opracowanie wyni-ków pomiarów (próby) odbywa się bez posługiwania się pojęciami rachunku praw-dopodobieństwa. Jeśli badana jest próba to nie są wyciągane wnioski dotyczące populacji generalnej.

W następnej kolejności przedmiotem rozważań jest rachunek prawdopodobień-stwa – dział matematyki zwany także teorią prawdopodobieństwa, czy też probabi-listyką, zajmujący się tzw. zdarzeniami losowymi lub inaczej badaniem zjawisk lo-sowych. Rachunek prawdopodobieństwa zajmuje się badaniem abstrakcyjnych po-jęć matematycznych stworzonych do opisu zjawisk, które nie są deterministyczne: zmiennych losowych w wypadku pojedynczych zdarzeń oraz procesów stocha-stycznych w wypadku zdarzeń powtarzających się (w czasie).

Na zakończenie opisano statystykę matematyczną – dział statystyki, w którym stosuje się teorię prawdopodobieństwa i metody charakterystyczne dla innych dzia-łów matematyki. Przedmiotem zainteresowania są tutaj metody wnioskowania sta-tystycznego, które polegają na tym, że na podstawie wyników uzyskanych z próby formułujemy wnioski o całej zbiorowości.

Przyjmuje się, że modele badanych cech populacji są zmiennymi losowymi. Staty-styka matematyczna zajmuje się budowaniem i wykorzystywaniem reguł wniosko-wania statystycznego. Wnioskowanie statystyczne jest to wnioskowanie o rozkła-dzie cechy populacji lub kilku cech oraz o ich współzależności na podstawie próby.

Statystykę matematyczną można umownie podzielić na dwa podstawowe działy: teorię estymacji i teorię weryfikacji hipotez. Umowność podziału wynika z faktu, że przy rozwiązywaniu konkretnych problemów z reguły wykorzystuje się łącznie metody z obu tych działów.

W ramach statystyki opisowej podano szereg charakterystyk liczbowych danych statystycznych o postaciach wynikających ze „zdrowego rozsądku”. Określają one rozkład analizowanych elementów populacji czy też próby pobranej z populacji – bez żadnych uogólnień na populację.

Z kolei w wypadku estymacji, prowadzonej w ramach statystyki matematycznej, oszacowania na podstawie próby są uogólniane na populację i stąd w naturalny sposób pojawia się pytanie o dokładność takiego uogólniania.

Page 7: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

7

2. CHARAKTERYSTYKI LICZBOWE

W ramach statystyki opisowej analizuje się wartości określonej cechy wszystkich elementów populacji albo próby – są to tak zwane dane statystyczne.

Charakterystyki liczbowe danych statystycznych dzielimy na: • charakterystyki położenia (średnia, mediana, dominanta/moda); • charakterystyki rozproszenia (wariancja, odchylenie standardowe, współczynnik zmienności, odchylenie przeciętne, rozstęp);

• charakterystyki asymetrii (współczynnik asymetrii, wskaźnik asymetrii); • charakterystyki spłaszczenia (kurtoza).

Podstawowe charakterystyki położenia

Średnia danych statystycznych – jest równa ilorazowi sumy danych statystycz-nych i ich liczby.

Mediana danych statystycznych – w wypadku próby o liczności nieparzystej jest równa środkowej danej po uporządkowaniu danych statystycznych od najmniejszej do największej. W wypadku liczności nieparzystej medianę oblicza się po uporząd-kowaniu jako średnią arytmetyczną dwóch środkowych elementów.

Dominanta danych statystycznych – najczęściej występująca dana statystyczna (o ile istnieje).

Interpretacja charakterystyk położenia

Średnia arytmetyczna, mediana i dominanta są przykładami tzw. charakterystyk położenia, czyli wielkości informujących o przeciętnej wielkości cechy populacji. Wokół tych wielkości skupiają się na ogół wartości cechy populacji. Inaczej wyra-żamy to mówiąc, że poznane charakterystyki są miarami tendencji centralnej war-tości cechy populacji.

Średnia arytmetyczna jest liczbą informującą o tym, jaką wartość cechy powinny mieć elementy populacji, gdyby wszystkie dane statystyczne były sobie równe

Mediana dzieli zbiór danych statystycznych na dwa równoliczne podzbiory: do jed-nego z nich należą dane mniejsze lub równe medianie, zaś do drugiego dane więk-sze lub równe medianie.

Dominanta jest najbardziej typową daną statystyczną.

Charakterystyki rozproszenia

Wariancja danych statystycznych – średnia arytmetyczna kwadratów różnic po-między danymi statystycznymi i ich średnią.

Odchylenie standardowe danych statystycznych – pierwiastek z wariancji.

Współczynnik zmienności danych statystycznych – iloraz odchylenia standar-dowego i modułu średniej.

Rozstęp danych – różnica pomiędzy największą a najmniejszą daną

Interpretacja charakterystyk rozproszenia

Wariancja, odchylenie standardowe, współczynnik zmienności i rozstęp są przykła-dami charakterystyk rozproszenia (zmienności, zróżnicowania).

Page 8: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

8

Każda z tych charakterystyk ma wartość równą zeru tylko wtedy, jeśli wszystkie da-ne statystyczne są równe (nie ma wtedy zróżnicowania danych) i przyjmuje coraz większą wartość, gdy dane są bardziej zróżnicowane.

Wariancja i odchylenie standardowe mierzą średnie rozproszenie danych staty-stycznych od ich średniej arytmetycznej.

Współczynnik zmienności wyraża, jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej. Jest wielkością niemianowaną (bez jed-nostki). Nadaje się więc do porównywania zróżnicowania cech populacji wyrażo-nych w różnych jednostkach.

Rozstęp wyraża długość najkrótszego przedziału, do którego należą wszystkie da-ne statystyczne.

Charakterystyki asymetrii

Współczynnik asymetrii (skośności) – iloraz średniej arytmetycznej trzeciej potęgi różnic danych statystycznych i ich średniej oraz trzeciej potęgi odchylenia standar-dowego.

Jeśli współczynnik jest równy 0, rozkład cechy jest symetryczny, jeśli jest różny od zera, rozkład jest asymetryczny, przy czym, jeśli jest dodatni, to asymetria rozkładu jest prawostronna, jeśli ujemny, asymetria jest lewostronna.

Wartość bezwzględna współczynnika mierzy siłę asymetrii, im jest większa tym asymetria jest silniejsza.

Współczynnik jest jednostką niemianowaną, może więc służyć do porównywania asymetrii cech populacji wyrażonych w różnych jednostkach.

Charakterystyki spłaszczenia

Współczynnik spłaszczenia (kurtoza) – zmniejszony o 3 iloraz średniej arytme-tycznej czwartej potęgi różnic danych statystycznych i ich średniej oraz czwartej potęgi odchylenia standardowego.

Kurtoza jest miarą skupienia wokół średniej arytmetycznej; im większa jest jej war-tość, tym bardziej wartości zmiennej koncentrują się wokół średniej – miarą odnie-sienia jest rozkład normalny. Jeśli kurtoza jest ujemna, rozkład jest bardziej spłasz-czony od normalnego, jeśli dodatnia, rozkład jest bardziej wysmukły niż normalny.

Page 9: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

9

Page 10: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

10

3. OPRACOWANIE DANYCH STATYSTYCZNYCH

Opracowanie danych statystycznych polega na ich prezentacji (tabelarycznej i gra-ficznej) oraz obliczeniu charakterystyk liczbowych.

Szereg rozdzielczy

Na wstępie analizy z reguły przedstawia się dane statystyczne w postaci szeregu rozdzielczego.

Szereg rozdzielczy jest statystycznym sposobem prezentacji rozkładu empiryczne-go. Uzyskuje się go, dzieląc dane statystyczne na pewne kategorie i podając li-czebność lub częstość zbiorów danych przypadających na każdą z tych kategorii.

Podstawowe rodzaje szeregów rozdzielczych: • strukturalny (cecha jakościowa), • punktowy (cecha ilościowa, skokowa), • przedziałowy (cecha ilościowa, ciągła).

Kolejne kroki podczas wykonywania szeregu rozdzielczego: 1. Porządkowanie (jeśli to możliwe rosnąco) wartości cechy. 2. Zliczenie liczby wystąpień danej cechy w próbie. 3. Obliczenie częstości występowania dla każdej wartości cechy. 4. Prezentacja wyniku w formie tabeli.

Dla cechy w skali nominalnej wyznaczamy tylko dominantę. Dla cech w skali po-rządkowej wyznaczamy dominantę, kwantyle, medianę i rozstęp. Dla cech w pozo-stałych skalach: przedziałowej i ilorazowej można obliczać wszystkie charakterysty-ki liczbowe.

Przy małej liczbie danych obliczamy charakterystyki liczbowe i dokonujemy ich in-terpretacji.

Przy umiarkowanej liczbie różnych wartości (do 25) i dużej liczbie danych staty-stycznych dane prezentujemy tabelarycznie w postaci szeregu statystycznego punktowego (liczności występujących danych) oraz graficznie w postaci histogramu lub wykresu kołowego – jako wykres szeregu punktowego. Obliczamy następnie charakterystyki liczbowe i dokonujemy ich interpretacji.

Przy rozkładzie ciągłym, a także przy dużej liczbie różnych wartości (>25), dane grupujemy w pewną liczbę klas i obliczamy liczebności w poszczególnych klasach, prezentujemy je w postaci szeregu rozdzielczego przedziałowego. Obliczamy na-stępnie charakterystyki liczbowe i dokonujemy ich interpretacji.

Badanie zależności cech populacji

Przy badaniu populacji ze względu na dwie cechy X i Y sprawdza się, czy cechy te są zależne i jak silnie.

W tym celu konstruuje się szeregi statystyczne i wyznacza tablice korelacyjne oraz prezentuje graficznie dane statystyczne.

Rozważmy szeregi rozdzielcze warunkowe cechy postaci X/Y=vj dla wszystkich wa-riantów vj. Jeśli w każdym z tych szeregów dowolny wariant wi cechy X występuje z jednakową częstością, to cechę X nazywamy cechą stochastycznie niezależną od cechy Y.

Page 11: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

11

Analogicznie definiuje się niezależność stochastyczną cechy Y od cechy X. Mówi-my, że cechy X i Y są niezależne stochastycznie, jeśli cecha X nie zależy sto-chastycznie od cechy Y i Y nie zależy w tym sensie od X.

Niezależność stochastyczna bywa nazywana także niezależnością statystyczną.

Niezależność stochastyczna cech X i Y oznacza, że przyjęcie przez jedną z nich dowolnej wartości nie ma wpływu na wielkość częstości, z którą przyjmowane są wartości przez drugą cechę.

Cechy X i Y są zależne stochastycznie, jeśli przynajmniej w dwóch szeregach wa-runkowych nie wszystkie warianty mają jednakową częstość. Zależność stocha-styczna oznacza więc, że fakt przyjęcia przez jedną cechę pewnej wartości może mieć wpływ na częstości przyjmowania wartości przez drugą cechę.

Najważniejszą charakterystyką, która dotyczy tych dwóch cech łącznie, jest współ-czynnik korelacji r. Jest on równy ilorazowi kowariancji oraz iloczynu odchyleń standardowych. Przy czym kowariancja jest równa średniej arytmetycznej iloczy-nów różnic danych statystycznych i ich średnich..

Współczynnik korelacji r cech X i Y jest miarą siły ich zależności liniowej. Im war-tość bezwzględna r jest bliższa 1, tym zależność stochastyczna mniej różni się od zależności liniowej, przy czym dla r>0 upodabnia się do zależności liniowej rosną-cej, natomiast dla r<0 do zależności malejącej. Dla modułu współczynnika równego 1 staje się zależnością liniową.

Page 12: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

12

4. ZDARZENIA LOSOWE

Pojęciem pierwotnym rachunku prawdopodobieństwa jest zdarzenie elementarne.

Zdarzenia losowe (krótko: zdarzenia) są podzbiorami złożonymi z pewnej liczby zdarzeń elementarnych.

Sam zbiór wszystkich zdarzeń elementarnych nazywamy zdarzeniem pewnym.

Zbiór niezawierający żadnego zdarzenia elementarnego (zbiór pusty) nazywamy zdarzeniem niemożliwym.

Relacje między zdarzeniami

Suma zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń ele-mentarnych, które należą do co najmniej jednego ze zdarzeń A, B.

Suma zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi co najmniej jed-no ze zdarzeń A, B.

Iloczyn zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń ele-

mentarnych, które należą do każdego ze zdarzeń A, B.

Iloczyn zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi każde ze zda-rzeń A, B.

Różnica zdarzeń A, B – zdarzenie składające się z tych wszystkich zdarzeń

elementarnych, które należą do A i nie należą do B.

Różnica zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi A i nie zacho-dzi B.

Zdarzenie przeciwne do zdarzenia A – zdarzenie składające się z tych wszyst-

kich zdarzeń elementarnych, które nie należą do A (lecz należą do zbioru zda-

rzeń elementarnych ).

Zdarzenie przeciwne do A zachodzi wtedy i tylko wtedy, gdy nie zachodzi zda-rzenie A.

Page 13: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

13

Zdarzenie A pociągające za sobą zdarzenie B - jeśli każde zdarzenie elemen-tarne należące do A należy także do B.

Zdarzenie A pociąga zdarzenie B wtedy i tylko, wtedy, gdy z zajścia zdarzenia A wynika zajście zdarzenia B.

Wykluczające się zdarzenia A, B – jeśli nie mają one wspólnych zdarzeń ele-

mentarnych.

Zdarzenia A, B wykluczają się wtedy i tylko wtedy, gdy nie mogą zajść łącznie.

Prawa de Morgana

Zdarzenie przeciwne do sumy dwóch zdarzeń jest równe (równoważne) iloczynowi zdarzeń przeciwnych.

Zdarzenie przeciwne do iloczynu dwóch zdarzeń jest równe (równoważne) sumie zdarzeń przeciwnych

Definicje prawdopodobieństwa

Klasyczna definicja prawdopodobieństwa

Założenia: zbiór zdarzeń elementarnych ma skończoną liczbę elementów, wszystkie zdarzenia losowe jednoelementowe są jednakowo prawdopodobne.

Prawdopodobieństwo zdarzenia A jest równe ilorazowi liczby zdarzeń elementar-nych należących do zdarzenia A oraz liczby wszystkich zdarzeń elementarnych.

Geometryczna definicja prawdopodobieństwa

Zbiór zdarzeń elementarnych jest zbiorem punktów prostej, płaszczyzny lub

przestrzeni. Założenia: zbiór jest mierzalny, o skończonej mierze, tzn. ma skoń-

czoną długość, pole lub objętość oraz wszystkie punkty zbioru mają jednakowe szanse wylosowania.

Prawdopodobieństwo dowolnego zdarzenia A, będącego podzbiorem mierzalnym

zbioru , jest równe ilorazowi miary zdarzenia A i miary zbioru zdarzeń elementar-nych.

Statystyczna definicja prawdopodobieństwa W długiej serii doświadczeń obserwuje się wystąpienia zdarzenia A. Jeżeli częstość n/N zdarzenia A, gdzie N jest długością serii, a n liczbą doświadczeń, w których po-jawiło się zdarzenie A, przy wzrastaniu długości serii zbliża się do pewnej liczby p, oscylując wokół tej liczby, i jeśli wahania częstości zdarzenia przejawiają tendencję

Page 14: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

14

malejącą przy wzrastającym N, to liczba p nazywana jest prawdopodobieństwem zdarzenia A.

Aksjomatyczna definicja prawdopodobieństwa

Jeśli każdemu zdarzeniu losowemu A przyporządkowano liczbę rzeczywistą P(A), zwaną prawdopodobieństwem zdarzenia A, w taki sposób, aby spełnione były na-stępujące warunki: • P(A) jest niemniejsza od 0 i nie większa od 1; • Prawdopodobieństwo zdarzenia pewnego jest równe 1; • Jeżeli zdarzenia A1, A2, ... , An, ... wykluczają się parami (tzn. każde dwa z nich

wykluczają się), wtedy prawdopodobieństwo sumy tych zdarzeń jest równe sumie ich prawdopodobieństw;

tak określoną funkcję P nazywamy prawdopodobieństwem.

Ocena definicji prawdopodobieństwa

Klasyczna definicja prawdopodobieństwa zajścia zdarzenia jest tautologią, gdyż, definiując prawdopodobieństwo, posługuje się pojęciem zdarzeń jednakowo możli-wych, czyli jednakowo prawdopodobnych. Geometryczna definicja prawdopodo-bieństwa wymaga znajomości miary zbiorów, którymi się posługuje. Statystyczna definicja prawdopodobieństwa nie jest ścisła, ponieważ nie jest sprecyzowana gra-nica w niej występująca. Wad tych nie ma aksjomatyczna definicja prawdopodo-bieństwa.

Prawdopodobieństwem warunkowym zdarzenia A pod warunkiem, że zaszło zdarzenie B, dla którego P(B)>0, nazywamy iloraz prawdopodobieństwa iloczynu zdarzeń A i B oraz prawdopodobieństwa zdarzenia B.

Prawdopodobieństwo iloczynu dwóch zdarzeń jest równe iloczynowi prawdopo-dobieństwa jednego z tych zdarzeń i prawdopodobieństwa drugiego zdarzenia pod warunkiem zajścia pierwszego.

Zdarzenia A, B nazywamy zdarzeniami niezależnymi, jeśli prawdopodobieństwo iloczynu tych zdarzeń jest równe iloczynowi ich prawdopodobieństw.

Wzór Bayesa

Jeżeli pewne zdarzenia losowe Ai o dodatnich prawdopodobieństwach wykluczają się parami i suma ich jest zdarzeniem pewnym, to prawdopodobieństwo wystąpie-nia dowolnego zdarzenia losowego B jest równe sumie iloczynów prawdopodo-bieństwa zdarzenia losowych Ai oraz prawdopodobieństwa zdarzenia B pod wa-runkiem zajścia zdarzenia Ai.

Page 15: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

15

5. ZMIENNE LOSOWE

Jeżeli każdemu zdarzeniu elementarnemu przyporządkujemy liczbę rzeczywistą, to mówimy, że została określona zmienna losowa jednowymiarowa, albo – w skró-cie – zmienna losowa. Zmienna losowa jest więc funkcją, której dziedziną jest zbiór zdarzeń elementarnych Ω, a wartościami są liczby rzeczywiste ze zbioru R.

Zmienna losowa, która przyjmuje wartości ze zbioru skończonego lub przeliczalne-go, nazywana jest skokową zmienną losową. Z kolei zmienna losowa przyjmująca wartości z określonego przedziału nazywana jest ciągłą zmienną losową.

Uniwersalnym sposobem określenia rozkładu zmiennej losowej jest podanie funkcji F(x) zwanej dystrybuantą i określonej wzorem F(x) = P(X < x) dla każdego x nale-żącego do zbioru wartości R. Dystrybuanta w punkcie x jest równa prawdopodo-bieństwu, że zmienna losowa przyjmie wartości mniejsze od x. Prawdopodobień-stwo, że zmienna losowa przyjmie wartości z określonego przedziału jest równe różnicy wartości dystrybuanty w tych punktach.

Dystrybuanta F(x) jest funkcją niemalejącą i lewostronnie ciągłą.

Dla zmiennych losowych skokowych rozkład określa funkcja prawdopodobieństwa podająca dla każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpie-nia.

Między dystrybuantą zmiennej losowej skokowej X i jej funkcją prawdopodobień-stwa istnieje wzajemnie jednoznaczna odpowiedniość: • dystrybuancie zmiennej X odpowiada funkcja prawdopodobieństwa, • funkcji prawdopodobieństwa zmiennej X odpowiada dystrybuanta.

Dla zmiennych losowych ciągłych rozkład można wyrazić za pomocą gęstości prawdopodobieństwa f(x). Gęstość prawdopodobieństwa jest równa pochodnej dystrybuanty, jeżeli ta pochodna istnieje. Prawdopodobieństwo, że zmienna losowa przyjmie wartości z określonego przedziału jest równa całce z funkcji gęstości w tym przedziale – interpretacja geometryczna: pole obszaru ograniczonego wy-kresem gęstości i osią OX w granicach całkowania.

Gęstość f(x) jest funkcją nieujemną.

Jeśli na zbiorze zdarzeń elementarnych określimy dwie zmienne losowe X i Y, to uporządkowaną parę (X, Y) nazywamy zmienną losową dwuwymiarową. Zmienna losowa dwuwymiarowa jest więc przyporządkowaniem każdemu zdarze-niu elementarnemu uporządkowanej pary liczb rzeczywistych (x, y). Pary te nazy-wamy wartościami zmiennej losowej dwuwymiarowej (X, Y), są one punktami płaszczyzny.

Dla zmiennej losowej dwuwymiarowej w analogiczny sposób jak dla zmiennej loso-wej jednowymiarowej określa się dystrybuantę i funkcję gęstości.

Page 16: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

16

6. PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH

W zastosowaniach praktycznych zamiast rozpatrywać funkcje rozkładu prawdopo-dobieństwa, gęstość czy dystrybuantę zmiennych losowych, wystarczy nieraz ogra-niczyć się do wykorzystania jednego lub kilku parametrów opisujących zasadnicze właściwości rozkładu zmiennej losowej.

Parametry rozkładu zmiennej losowej jednowymiarowej dzielimy na dwie grupy: • miary położenia, dotyczące określonych wartości zmiennej losowej, do miar tego typu zaliczamy wartość oczekiwaną, medianę i dominantę (modę); • miary zmienności, zwane też miarami rozproszenia, przykładami miar tego typu są wariancja i odchylenie standardowe.

Wartość oczekiwaną zmiennej losowej X oznaczamy symbolami EX lub m.

Dla dyskretnej zmiennej losowej wartość oczekiwana jest równa sumie iloczynów możliwych wartości zmiennych losowych i prawdopodobieństwa ich występowania.

Dla ciągłej zmiennej losowej wartość oczekiwana jest równa całce z iloczynu x f(x) w przedziale wartości zmiennych losowych.

Wartość oczekiwana sumy zmiennych losowych jest równa sumie ich wartości oczekiwanych (addytywność).

Wartość oczekiwana iloczynu zmiennych losowych niezależnych jest równa iloczy-nowi ich wartości oczekiwanej (multiplikatywność).

Wartość oczekiwana zmiennej losowej to taka wartość, wokół której skupiają się wyniki wielokrotnych realizacji tej zmiennej.

Medianą zmiennej losowej jest taka wartość, dla której dystrybuanta wynosi 0,5.

Wariancję zmiennej losowej X oznaczamy symbolami 2D X lub σ2. Jest ona równa

wartości oczekiwanej kwadratu różnicy pomiędzy zmienna losową i jej wartością oczekiwaną. Uwzględniając sposób obliczenia wartości oczekiwanej zmiennej lo-sowej, otrzymujemy wzory do obliczenia wariancji zmiennej losowej. Wariancja cha-rakteryzuje średni rozrzut wokół wartości oczekiwanej.

Wariancję zmiennej losowej można obliczyć jako różnicę wartości oczekiwanej kwadratu zmiennej losowej oraz kwadratu wartości oczekiwanej.

Wariancja sumy lub różnicy zmiennych losowych niezależnych jest równa sumie wariancji tych zmiennych.

Odchylenie standardowe zmiennej losowej X jest równe pierwiastkowi z warian-cji zmiennej losowej.

Współczynnikiem zmienności zmiennej losowej X nazywamy iloraz odchylenia standardowego i wartości oczekiwanej tej zmiennej losowej, przy założeniu że war-tość oczekiwana nie jest równa zeru.

Współczynnikiem korelacji Pearsona (albo krótko współczynnikiem korelacji)

zmiennych losowych X i Y nazywamy liczbę równą ilorazowi kowariancji oraz ilo-czynu odchyleń standardowych (przy założeniu, że żadne z nich nie jest równe ze-ru).

Page 17: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

17

Kowariancja jest równa wartości oczekiwanej iloczynu różnic zmiennych losowych i ich wartości oczekiwanych. • Współczynnik korelacji zmiennych losowych niezależnych jest równy 0 (bo wtedy

kowariancja jest równa zeru). • Współczynnik korelacji przyjmuje wartości z przedziału <-1,+1>. • Wartość bezwzględna współczynnika korelacji jest równa 1 wtedy i tylko wtedy,

gdy z prawdopodobieństwem równym 1 zmienne losowe są zależne liniowo, przy czym dla ρ=1 mamy a > 0, zaś dla ρ = -1 mamy a < 0.

Współczynnik korelacji, ze względu na powyższe własności, interpretujemy jako miarę zależności liniowej zmiennych losowych. Jeśli współczynnik korelacji ma mo-duł większy od 0,7, przyjmuje się, że stopień zależności linowej jest na tyle wysoki, iż można wtedy jedną zmienną losową aproksymować funkcją liniową drugiej zmiennej losowej.

Do oceny korelacji można stosować też współczynnik korelacji Spearmana obli-czany jako współczynnik korelacji Pearsona dla rang zmiennych.

Page 18: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

18

7. ROZKŁADY SKOKOWYCH ZMIENNYCH LOSOWYCH

Rozkład dwupunktowy – zmienna losowa X przyjmuje dwie wartości a, b z praw-dopodobieństwami p i 1-p.

Zmienne losowe o rozkładzie dwupunktowym są modelami służącymi do opisu wła-sności urządzeń dwustanowych, jak np. wszelkiego rodzaju układy przekaźnikowe.

Jeżeli a = 0 i b =1 to rozkład dwupunktowy nazywa się rozkładem zerojedynko-wym.

Rozkładem dwupunktowym (zerojedynkowym) posługujemy się także wtedy, gdy w doświadczeniu spodziewamy się tylko dwóch wyników. Jeden z nich czasami na-zywamy sukcesem i spodziewamy się go z prawdopodobieństwem p. Drugi nazy-wamy niepowodzeniem lub porażką i jest on oczekiwany z prawdopodobieństwem q = 1 – p.

Parametry rozkładu zerojedynkowego są równe: EX=p D2X=pq

Rozkład Bernoulliego (rozkład dwumianowy) – rozkład sukcesów w n doświad-czeniach Bernoulliego: • w wyniku każdego doświadczenia może zajść zdarzenie A, zwane sukcesem, lub zdarzenie do niego przeciwne, zwane porażką; • wyniki poszczególnych doświadczeń są niezależne, przy czym prawdopodobień-stwo sukcesu w każdym doświadczeniu jest takie samo i wynosi p, a prawdopodo-bieństwo porażki q=1 – p

Parametry rozkładu dwumianowego są równe:

EX=np D2X=npq

Poszczególne doświadczenia można modelować zmiennymi losowymi niezależny-mi o tym samym rozkładzie zerojedynkowym z parametrem p będącym prawdopo-dobieństwem sukcesu w jednym doświadczeniu. Zmienna losowa o rozkładzie dwumianowym może być traktowana jako suma n zmiennych niezależnych o takim samym rozkładzie dwupunktowym z parametrem p.

Rozkład, jakiemu podlega numer doświadczenia Bernoulliego, w którym sukces wypadnie po raz pierwszy, nazywamy rozkładem geometrycznym.

Rozkład Poissona – określa prawdopodobieństwa występowania szeregu wyda-rzeń mających miejsce w określonym czasie, gdy występują one ze znaną średnią częstotliwością i w sposób niezależny od czasu, jaki upłynął od ostatniego zajścia takiego zdarzenia. Rozkład jest granicą ciągu rozkładów dwumianowych, gdy liczba prób dąży do nieskończoności, a oczekiwana liczba sukcesów jest stała.

Wartość oczekiwana i wariancja zmiennej losowej o rozkładzie Poissona są równe parametrowi λ rozkładu.

W oparciu o rozkład Poissona można w prosty sposób obliczyć przybliżoną wartość prawdopodobieństwa w rozkładzie Bernoulliego, przy dużej liczbie prób i niskim prawdopodobieństwie sukcesu

Page 19: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

19

8. ROZKŁADY CIĄGŁYCH ZMIENNYCH LOSOWYCH

Rozkład jednostajny (zwany też równomiernym lub prostokątnym) w przedziale (a; b) – gęstość prawdopodobieństwa w tym przedziale jest stałą dodatnią, równą od-wrotności długości przedziału, a poza nim jest równa zeru.

Wartość oczekiwana rozkładu jednostajnego jest równa środkowi długości prze-działu, a wariancja kwadratowi długości przedziału podzielonemu przez 12.

Rozkład normalny, zwany też rozkładem Gaussa – rozkład określony przez war-tość oczekiwaną i wariancję. Gęstość rozkładu ma kształt „dzwonu”. Rozkład nor-malny z parametrami m i σ oznaczamy N(m, σ).

Parametry m i σ są parametrami rozkładu: EX=m oraz DX= σ.

Rozkład ten jest często spotykany wśród zjawisk mających charakter przyrodniczy, fizyczny, ekonomiczny i techniczny.

Teoretycznie zmienna losowa o rozkładzie normalnym przyjmuje wartości od -∞ do +∞, praktycznie jednak prawie wszystkie wartości tej zmiennej (około 99,73%) na-leżą do przedziału (m-3σ, m+3σ), czyli do otoczenia wartości oczekiwanej o pro-mieniu równym trzem odchyleniom standardowym (reguła trzysigmowa). Długość

tego przedziału zależy od wartości , co jeszcze raz potwierdza interpretację tego parametru.

Rozkład wykładniczy – rozkład zmiennej losowej opisujący sytuację, w której obiekt może przyjmować stany X i Y, przy czym obiekt w stanie X może ze stałym prawdopodobieństwem przejść w stan Y w jednostce czasu. Prawdopodobieństwo wyznaczane przez ten rozkład to prawdopodobieństwo przejścia ze stanu X w stan Y w czasie δt. Dystrybuanta tego rozkładu to prawdopodobieństwo, że obiekt jest w stanie Y.

Wartość oczekiwana i zmiennej losowej o wykładniczym jest równa odwrotności parametru a rozkładu, zaś wariancja – odwrotności kwadratu tego parametru.

Rozkład chi-kwadrat – rozkład, któremu podlega suma kwadratów niezależnych zmiennych losowych o rozkładach N(0,1).

Wykres gęstości g(t) jest symetryczny względem prostej t = 0 i ma kształt zbliżony (szczególnie dla dużych n) do wykresu gęstości rozkładu normalnego N(0, 1).

Rozkład Studenta – rozkład, któremu podlega iloraz dwóch niezależnych zmien-nych losowych, z których pierwsza ma rozkład N(0,1), a druga rozkład chi-kwadrat z n stopniami swobody pomnożony przez pierwiastek z liczby zmiennych losowych tworzących zmienną losową o rozkładzie chi-kwadrat.

Rozkład Snedecora – rozkład, któremu podlega iloraz dwóch niezależnych zmien-nych losowych o rozkładach chi-kwadrat z n1 i n2 stopniami swobody, unormowa-nych względem liczby stopni swobody.

Page 20: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

20

9. TWIERDZENIA GRANICZNE

Twierdzenia graniczne są to twierdzenia podające warunki dostateczne lub warunki konieczne i dostateczne zbieżności ciągów zmiennych losowych dla różnych rodza-jów zbieżności.

Twierdzenie Lindeberga – Levy’ego: Dla dużych n suma niezależnych zmiennych losowych o takim samym rozkładzie ma w przybliżeniu rozkład normalny.

Integralne twierdzenie Moivre’a – Laplace’a: Dla dużych n zmienna losowa X o rozkładzie dwumianowym ma rozkład w przybliżeniu normalny.

Lokalne twierdzenie Moivre’a – Laplace’a: Dla dużych n prawdopodobieństwa rozkładu dwumianowego mogą być obliczone za pomocą funkcji gęstości rozkładu normalnego.

Prawo wielkich liczb Bernoulliego: Jeśli liczba doświadczeń Bernoulliego jest duża, to z prawdopodobieństwem bliskim jedności częstość sukcesu Yn przyjmuje wartości mało różniące się od prawdopodobieństwa sukcesu p.

Z tego prawa wynika, że prawdopodobieństwo zdarzenia może być oceniane przez jego częstość w długim ciągu powtórzeń doświadczenia, w którym zdarzenie występuje. Uprawniona jest zatem interpretacja prawdopodobieństwa zdarzenia za pomocą częstości tego zdarzenia.

Prawo wielkich liczb Chinczyna: Średnia arytmetyczna dużej liczby zmiennych losowych niezależnych o jednakowym rozkładzie, o wartości oczekiwanej m, przyj-muje wartości mało różniące się od m.

Z tego prawa wynika, że wartość oczekiwana może być oceniana przez średnią arytmetyczną dużej liczby zmiennych losowych.

Uprawniona jest więc interpretacja wartości oczekiwanej za pomocą średniej aryt-metycznej.

Page 21: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

21

10. PARAMETRYCZNA ESTYMACJA PUNKTOWA

Parametryczna estymacja punktowa dotyczy dokładnego szacowania nieznanych parametrów rozkładu, na przykład wartości oczekiwanej, wariancji albo współczyn-nika korelacji.

Parametryczna estymacja punktowa parametru Q polega na: 1) wybraniu pewnej statystyki Un o rozkładzie zależnym od parametru Q; 2) obliczeniu na podstawie próby wartości un statystyki Un; 3) przyjęciu, że un jest oszacowaniem parametru Q, co zapisujemy i czytamy: oce-

ną parametru Q jest un. Statystyka Un nazywa się wówczas estymatorem para-metru Q.

Najstarszą metodą wyznaczania estymatorów parametrycznych jest metoda mo-mentów, zgodnie z którą przyjmuje się, że estymatorem momentu cechy populacji jest odpowiadający mu moment z próby.

Najważniejsze własności estymatorów to zgodność, tzn. zbieżność według praw-dopodobieństwa do estymowanego parametru Q, oraz nieobciążoność, tzn. rów-ność wartości oczekiwanej estymatora estymowanemu parametrowi.

„Najlepszym” estymatorem jest estymator najefektywniejszy, tzn. taki estymator nieobciążony, którego wariancja jest najmniejsza spośród wszystkich estymatorów nieobciążonych.

Minimalny możliwy średniokwadratowy błąd estymatora określa nierówność Rao-Craméra.

Jako estymator wartości oczekiwanej przyjmuje się średnią z próby. Jest ona esty-matorem zgodnym i nieobciążonym wartości oczekiwanej. Dla rozkładu normalnego jest ona także estymatorem najefektywniejszym.

Page 22: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

22

11. PARAMETRYCZNA ESTYMACJA PRZEDZIAŁOWA

Parametryczna estymacja przedziałowa dotyczy przybliżonego szacowania niezna-nych parametrów rozkładu, na przykład wartości oczekiwanej, wariancji, albo współczynnika korelacji.

Szacowanie polega na wyznaczeniu przedziału ufności alfa. Przedział ufności wy-znacza się na podstawie tzw. poziomu ufności (1 – alfa), którego typowa wartością jest 0,95.

Parametr Q może należeć do przedziału ufności lub nie należeć. Jeśli jednak po-ziom ufności (1 – alfa) jest bliski jedności, to bardzo rzadko będziemy otrzymywać liczbowe przedziały ufności, do których parametr Q nie należy.

Granice przedziału ufności są zmiennymi losowymi. Dla różnych realizacji próby otrzymujemy na ogół różne realizacje przedziałów ufności. Gdybyśmy oszacowanie przedziałowe powtórzyli wiele razy, częstość realizacji, do których szacowany pa-rametr należy, byłaby bliska poziomowi ufności. Na przykład, jeśli próbę powtórzo-no 100 razy i poziom ufności przyjęto 0,99, to częstość tych realizacji, do których parametr należy, będzie bliska 0,99, a więc średnio tylko do jednej ze 100 realizacji szacowany parametr nie będzie należał.

Położenie końców przedziału ufności jest losowe. Długość przedziału zależy od po-ziomu ufności (1–alfa), im większy poziom ufności, tym dłuższy przedział ufności. Długość przedziału jest odwrotnie proporcjonalna do liczebności próby.

Przedział ufności dla wartości oczekiwanej zmiennej losowej o rozkładzie normal-nym ze znaną wariancją wyznaczamy z wykorzystaniem dystrybuanty standaryzo-wanego rozkładu normalnego.

Przedział ufności dla wartości oczekiwanej zmiennej losowej o rozkładzie normal-nym z nieznaną wariancją wyznaczamy z wykorzystaniem rozkładu Studenta.

Przedział ufności dla wariancji zmiennej losowej o rozkładzie normalnym wyzna-czamy z wykorzystaniem rozkładu chi-kwadrat.

Page 23: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

23

12. ZASADY WERYFIKACJI HIPOTEZ

Teoria weryfikacji hipotez zajmuje się metodami sprawdzania hipotez statystycz-nych.

Hipoteza statystyczna to każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy (cech). Hipotezę dotyczącą jedynie wartości parametrów cechy na-zywamy hipotezą parametryczną.

O parametrze Q wysuwamy dwie hipotezy: Hipotezę zerową, H0 (główną, spraw-dzaną) oraz Hipotezę alternatywną H1. Hipoteza zerowa odzwierciedla z reguły py-tanie, na które należy uzyskać odpowiedź.

Przy weryfikacji hipotez podejmujemy jedną z dwu decyzji:

1) odrzucić hipotezę zerową H0 i przyjąć alternatywną H1

lub

2) przyjąć hipotezę zerową H0 i odrzucić alternatywną H1.

Postępowanie przy weryfikacji powyższych hipotez jest następujące: 1) Wybieramy pewną statystykę o rozkładzie zależnym od parametru Q oraz pewną

liczbę alfa z przedziału [0;1] i wyznaczamy podzbiór K zbioru liczb rzeczywistych, tak by prawdopodobieństwo, iż statystyka Un przyjmie wartość ze zbioru K, przy założeniu, że prawdziwa jest hipoteza zerowa H0, było równe alfa.

2) Pobieramy próbę i obliczamy wartość un statystyki Un. 3) Podejmujemy decyzję: odrzucamy H0, gdy wartość un należy do K lub przyjmu-

jemy H0 w przeciwnym przypadku.

Wykorzystywaną statystykę Un nazywamy sprawdzianem, zbiór K – zbiorem kry-tycznym, a liczbę alfa poziomem istotności – typową wartością alfa jest 0,05.

W zależności od postaci hipotezy alternatywnej przyjmuje się różną postać zbioru krytycznego: dwustronną lub jednostronną (lewostronną lub prawostronną). Dwu-stronny zbiór krytyczny przyjmuje się, gdy hipoteza alternatywna H1 jest zaprze-czeniem hipotezy zerowej H0.

Przy weryfikacji hipotez można zawsze popełnić jeden z dwu błędów: błąd I rodzaju polegający na odrzuceniu hipotezy zerowej H0, gdy ta hipoteza jest prawdziwa, lub błąd II rodzaju polegający na przyjęciu hipotezy zerowej H0, gdy ta hipoteza jest fałszywa.

Prawdopodobieństwo błędu I rodzaju jest równe poziomowi istotności alfa.

Page 24: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

24

13. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH

Hipoteza określająca wartość parametru rozkładu cechy populacji nosi nazwę hipo-tezy parametrycznej.

Poniżej scharakteryzowano kilka testów umożliwiających weryfikację hipotez para-metrycznych.

Testy do weryfikacji hipotezy o wartości oczekiwanej

Testy te umożliwiają weryfikację hipotezy H0: m=m0 na podstawie jednej próby. Mamy tutaj kilka wariantów: • Rozkład cechy normalny N(m, σ) o znanym σ. • Rozkład cechy normalny N(m, σ) o nieznanym σ. • Rozkład cechy dowolny o nieznanym σ i licznej próbie.

W każdym wariancie wykorzystuje się statystykę w postaci unormowanej różnicy średniej z próby i wartości oczekiwanej występującej w hipotezie zerowej. Rozkład statystyki zależy od rozkładu cechy, znajomości σ i liczności próby.

Zbiór krytyczny przyjmuje się w zależności od postaci hipotezy alternatywnej.

Testy do porównywania wartości oczekiwanych dla prób niezależnych

Testy te umożliwiają weryfikację hipotezy o równości wartości oczekiwanej określo-nej cechy w dwóch populacjach H0: m1=m2 na podstawie dwóch prób. Mamy tutaj kilka wariantów: • Rozkład cechy normalny N(m1, σ1), N(m2, σ2) o znanych σ1 i σ2. • Rozkład cechy normalny N(m1, σ), N(m2,σ) o nieznanym σ. • Rozkład cechy normalny N(m1, σ1), N(m2, σ2) o nieznanych σ1 i σ2. • Rozkład cechy dowolny i liczne próby.

W każdym wariancie wykorzystuje się statystykę w postaci unormowanej różnicy średnich z obu prób. Rozkład statystyki zależy od rozkładu cechy, znajomości σ1 i σ2, równości σ1 i σ2 oraz liczności prób.

Zbiór krytyczny przyjmuje się w zależności od postaci hipotezy alternatywnej.

Testy dla wartości oczekiwanej nazywane są testami Studenta.

Sprawdzenia, czy wariancje są równe, dokonuje się opisanym poniżej testem.

Testy do porównywania wariancji

Badane są dwie populacje: pierwsza ze względu na cechę X, druga ze względu na cechę Y. Zakładamy, że cechy te są niezależne, o rozkładach normalnych odpo-wiednio N(m1,σ1), N(m2,σ2).

Hipoteza zerowa H0: σ1 = σ2.

Wykorzystuje się statystykę w postaci ilorazu estymatorów wariancji, która podlega rozkładowi Snedecora z parą (n1–1, n2 –1) stopni swobody.

Zbiór krytyczny przyjmuje się z reguły jako dwustronny.

Test do porównywania wartości oczekiwanych dla prób zależnych

Test stosuje się, gdy z populacji losujmy n elementów i mierzymy wartości cechy X w dwóch momentach. Otrzymujemy dwie próby n-elementowe dla dwóch cech: ce-

Page 25: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

25

chy X1 – wartość badanej cechy w momencie początkowym i cechy X2 – wartość badanej cechy w momencie końcowym. Aby sprawdzić hipotezę, że wartości ocze-kiwane obu cech są równe, należy najpierw sprawdzić hipotezę, iż wartość oczeki-wana zmiennej losowej Y = X1 – X2 jest równa zeru na podstawie próby, której wartościami są różnice wartości prób dla obu cech.

Jeżeli cecha Y ma rozkład normalny, potrzebny test jest szczególnym przypadkiem testu do weryfikacji hipotezy o wartości oczekiwanej m0=0

Page 26: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

26

14. WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Hipoteza podająca, do jakiego typu rozkładów należy rozkład cechy populacji, nosi nazwę hipotezy nieparametrycznej.

Ważnym przykładem hipotezy nieparametrycznej jest losowość próby. Może być ona sprawdzona testem serii, opartym o medianę z próby.

W pierwszej kolejności wyznaczamy medianę z próby i transformujemy próbę wg zasady: • jeśli element próby ma wartość mniejszą od mediany, przyporządkowujemy mu liczbę 0;

• jeśli element próby ma wartość większą od mediany, przyporządkowujemy mu liczbę 1;

• jeśli element próby ma wartość równą medianie, odrzucamy go z próby.

Po takiej transformacji wyznaczamy statystykę Un w postaci liczby serii w transfor-mowanej próbie.

Jeśli hipoteza zerowa jest prawdziwa, w transformowanej próbie powinna być umiarkowana liczba serii. Gdyby bowiem serii było mało, np. byłyby tylko dwie se-rie, oznaczałoby to, że w próbie najpierw kolejno występują elementy o wartościach mniejszych od mediany, a następnie kolejno elementy większe od mediany (lub na odwrót). Próba taka z oczywistego powodu nie byłaby losowa. Gdyby serii było du-żo, np. tyle, ile jest elementów próby, oznaczałoby to, iż w próbie występują na przemian elementy większe i mniejsze od mediany. Taką próbę też byłoby trudno uznać za losową. Duża i mała liczba serii w próbie transformowanej przemawia więc za odrzuceniem hipotezy zerowej, natomiast umiarkowana liczba serii prze-mawia za jej przyjęciem. Dlatego zbiór krytyczny przyjmujemy dwustronny.

Granice zbioru krytycznego wyznaczamy na podstawie dostępnych tablic, zgodnie z przyjętym poziomem istotności.

Inny przykład hipotezy nieparametrycznej dotyczy dystrybuanty F(x) występującej w hipotezie zerowej H0. Taką hipotezę można zweryfikować za pomocą testu zgod-ności chi-kwadrat. Idea postępowania jest następująca: 1) Przedział zmienności próby dzielimy na pewna liczę podprzedziałów i obliczamy

liczbę elementów próby w tych podprzedziałach – są to tzw. liczności empiryczne. 2) Obliczamy, jakie są prawdopodobieństwa, że cecha populacji o rozkładzie okre-

ślonym F(x) przyjmie wartości należące do wyznaczonych podprzedziałów – są to tzw. prawdopodobieństwa teoretyczne.

3) Na podstawie prawdopodobieństw teoretycznych obliczamy, ile elementów próby trafiłoby do poszczególnych przedziałów – są to tzw. liczebności teoretyczne.

4) Obliczamy wartość sprawdzianu w oparciu o sumę kwadratów różnic liczebności teoretycznych i empirycznych.

5) Sprawdzamy hipotezę w oparciu o prawostronny zbiór krytyczny – duża różnica pomiędzy liczebnościami teoretycznymi i empirycznymi przemawia za fałszywo-ścią hipotezy zerowej – wyznaczany na podstawie poziomu istotności.

Do weryfikacji hipotezy o normalności rozkładu na podstawie próby o małej liczeb-ności stosuje się test Shapiro-Wilka.

Page 27: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

27

Kolejny z testów nieparametrycznych to test zgodności rozkładów dla prób nie-powiązanych, zwany też testem Wilcoxona. Hipoteza zerowa H0 dotyczy jedna-kowego rozkładu dwóch cech, tzn. rozkład określa taka sama dystrybuanta.

Aby sprawdzić hipotezy zerową i alternatywną, łączymy obie próby w jedną próbę i porządkujemy ją niemalejąco. Następnie rangujemy elementy uporządkowanej próby, tzn. numerujemy jej elementy kolejnymi liczbami naturalnymi, poczynając od liczby 1. Jeśli w uporządkowanej próbie występują elementy jednakowe, to każde-mu z nich przypisujemy tę samą rangę, równą średniej arytmetycznej rang tych elementów, gdyby były one różne.

Sprawdzianem testu do weryfikacji wysuniętych hipotez jest statystyka Un = suma rang elementów próby o mniejszej liczebności.

Przyjmujemy zbiór krytyczny dwustronny, co wynika z poniższego rozumowania. Gdyby wszystkie elementy próby o mniejszej liczebności były mniejsze od wszyst-kich elementów próby o większej liczebności, ich suma byłaby możliwie mała. Gdy-by wszystkie elementy próby o mniejszej liczebności były większe od wszystkich elementów próby o większej liczebności, ich suma byłaby możliwie duża.

Ostatni z rozpatrywanych testów to test zgodności rozkładów dla prób powiąza-nych, nazywany testem rangowanych znaków.

Z populacji losujemy n elementów i badamy wartości cechy X w dwóch momentach początkowym i końcowym. Niech X1 będzie cechą oznaczającą wartości cechy X w momencie początkowym, a X2 cechą oznaczającą wartości cechy X w momencie końcowym. Otrzymujemy dwie próby (powiązane) n-elementowe. Obliczamy różni-ce między elementami pierwszej i drugiej próby, sortujemy je niemalejąco i rangu-jemy (numerujemy) liczbami od 1 do n.

Przyjmujemy sprawdzian w postaci: suma rang różnic dodatnich oraz z reguły dwu-stronny zbiór krytyczny, co wynika z następującego rozumowania. Gdyby wszystkie elementy pierwszej próby były większe od wszystkich elementów drugiej próby, wszystkie różnice byłyby dodatnie, a ich suma możliwie duża. Gdyby wszystkie elementy pierwszej próby były mniejsze od wszystkich elementów drugiej próby, wszystkie różnice byłyby ujemne, a ich suma byłaby równa, czyli byłaby możliwie mała.

Dla małych liczności prób rozkład dokładny statystyki jest stablicowany. Dla n > 20 statystyka ta ma rozkład asymptotycznie normalny N(m, σ), gdzie m i σ zależą od liczebności próby.

Page 28: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

28

15. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH

W dziale statystyki zwanym analizą korelacji bada się, czy istnieje zależność mię-dzy cechami populacji oraz to, jaka jest siła tej zależności. Ograniczymy się do ba-dania istnienia i siły związku liniowego. Do tego celu służy współczynnik korelacji ρ badanych cech populacji. Rzecz jednak w tym, że w zagadnieniach praktycznych wartość tego współczynnika nie jest znana. Należy zatem wnioskować o ρ na pod-stawie próby. Stąd nazwa działu statystyki, który podaje reguły wnioskowania o tym parametrze.

W analizie korelacji zakłada się, że przy normalnym rozkładzie zmiennej losowej dwuwymiarowej (X, Y) współczynnik korelacji z próby ma rozkład asymptotycznie normalny, przy czym zgodność ta jest dobra dla wielkich prób – n ≥ 500. Z tego powodu wykorzystuje się statystykę w postaci przekształcenia logarytmicznego współczynnika korelacji, która ma rozkład asymptotycznie normalny, przy czym zgodność z rozkładem normalnym jest dobra nawet dla niewielkich prób – n ≥ 20.

Analiza korelacji obejmuje wnioskowanie o sile związku liniowego między cechami X i Y, do tego celu służy współczynnik korelacji badanych cech populacji.

Estymatorem współczynnika korelacji jest współczynnik korelacji R z próby, jest on równy ilorazowi kowariancji z próby oraz iloczynu odchyleń standardowych z próby. R jest estymatorem zgodnym i asymptotycznie nieobciążonym współczynnika kore-lacji.

Współczynnik korelacji z próby R ma rozkład asymptotycznie normalny.

W ramach analizy korelacji wyznacza się przedział ufności dla współczynnika kore-lacji oraz weryfikuje hipotezy o współczynniku korelacji, w tym także o jego istotno-ści (H0: ρ=0) – hipoteza taka oznacza, że zmienne losowe są nieskorelowane, a ponieważ z założenia mają dwuwymiarowy rozkład normalny, są też niezależne.

Analizę regresji prowadzi się, jeżeli siła związku liniowego jest duża. Ma ona na celu aproksymowanie związku między cechami a zależnością liniową.

Do estymacji współczynników regresji można wykorzystać metodę momentów, me-todę najmniejszych kwadratów lub metodę największej wiarygodności.

Dla empirycznej funkcji regresji: • Suma różnic pomiędzy wartościami zmiennej zależnej i wartościami funkcji regre-

sji jest równa zeru. • Suma odchyleń dodatnich od funkcji regresji jest równa sumie odchyleń ujem-

nych.

Jeżeli zmienna losowa dwuwymiarowa (X,Y), ze względu na którą badana jest po-pulacja, ma rozkład normalny o współczynniku korelacji ρ, to estymatory współ-czynników regresji liniowej mają rozkłady normalne oraz są estymatorami zgodnymi i nieobciążonymi tych parametrów.

W ramach analizy regresji wyznacza się także przedziały ufności dla współczynni-ków regresji oraz weryfikuje hipotezy o współczynnikach regresji.

Page 29: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

29

16. ZAAWANSOWANE METODY ANALIZY STATYSTYCZNEJ

Zaawansowane metody statystyczne są metodami wielowymiarowymi, tzn. służą do analizy prób wielowymiarowych, składających się z wyników pomiaru określonej liczby zmiennych > 2.

Pojęcie próby wielowymiarowej jest uogólnieniem pojęcia próby dwuwymiarowej.

Poniżej krótko scharakteryzowano zaawansowane metody statystyczne.

Ocena istotności różnic rozkładu w więcej niż dwóch warunkach. Dla rozwią-zania tego problemu przeznaczony jest szereg metod. Jedną z nich jest analiza wa-riancji, stanowiąca rozszerzenie testu Studenta.

Analiza regresji wykorzystywana jest do szukania związku funkcyjnego pomiędzy tzw. zmienną zależną i określoną liczbą tzw. zmiennych niezależnych. Najczęściej przyjmuje się związek liniowy. W wypadku małej liczby zmiennych niezależnych szuka się też związku w postaci wielomianu. Możliwe jest ustalenie a priori zmien-nych niezależnych, które ujmowane są w równaniu regresji lub też określenie tylko ich zbioru. Do równania wprowadzane są wówczas tylko te zmienne, które charak-teryzuje określony współczynnik korelacji cząstkowej ze zmienną zależną.

Analiza czynnikowa pozwala na podział analizowanych zmiennych na określoną liczbę grup, z których każda kształtowana jest samoistnie przez oddzielny czynnik.

Analiza korelacji kanonicznej wykorzystywana jest do wyznaczania związku li-niowego pomiędzy dwoma grupami zmiennych. Można traktować ją więc jako uogólnienie analizy regresji.

Analiza skupień wykorzystywana jest do podziału zbioru określonych elementów na grupy, których obiekty są podobne do siebie w określonym sensie. Obiektami mogą być zarówno dowolne elementy materialne, opisane wybranymi cechami, jak i cechy opisujące rozpatrywane elementy materialne.

Wielowymiarowa analiza wariancji (MANOVA) wykorzystywana jest do weryfika-cji hipotez o równości kilku wektorów wartości oczekiwanych. Jest ona rozszerze-niem analizy wariancji (ANOVA) albowiem rozpatruje ona powyższą hipotezę dla kilku wartości oczekiwanych. MANOVA stosowana jest w powiązaniu z analizą dyskryminacji, której ważnym krokiem jest zastąpienie wielu cech naturalnych ma-łą liczbą zmiennych abstrakcyjnych bez zmniejszenia zróżnicowania grup. Możliwe jest też wybranie cech najbardziej różnicujących. W ramach tej analizy prowadzona jest klasyfikacja na podstawie cech abstrakcyjnych. Stopień jej zgodności z podzia-łem a priori świadczy poglądowo o występującym zróżnicowaniu grup.

Podsumowanie

Należy podkreślić wyjątkowo duże znaczenie analiz wielowymiarowych, wykorzy-stujących naturalne powiązania pomiędzy poszczególnymi cechami. Właśnie to stanowi o ich bardzo istotnym znaczeniu. Można zilustrować ten fakt następującymi przykładami: • Wartości współczynników korelacji cząstkowej różnią się na ogół w znacznym

stopniu od wartości współczynników korelacji Pearsona. • Cechy różniące dwie populacje wielowymiarowe nie muszą podlegać istotnie

zróżnicowanym rozkładom przy ocenie wyizolowanej.

Page 30: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

30

• Postać związku pomiędzy dwoma zbiorami cech w wielu wypadkach jest sprzecz-na z wartościami współczynników korelacji pomiędzy parami cech uwzględnia-nych zbiorów.

W ramach tych analiz można dokonywać porównania rozkładów cech, oceniać ko-relacje oraz budować i weryfikować modele matematyczne analizowanych zjawisk.

Poszczególne metody umożliwiają przeprowadzenie analiz z różnych punktów wi-dzenia. Bardzo często dopiero łączne ich zastosowanie powoduje otrzymanie wartościo-wych wniosków. Na przykład: • łączne zastosowanie analizy regresji i analizy korelacji kanonicznej pozwala na

identyfikację nieznanych zależności pomiędzy rozpatrywanymi cechami; • w analizie dyskryminacji przedmiotem obliczeń są zbiory danych dotyczące grup

określonych elementów wyróżnionych a priori; analiza skupień prowadzona dla tych elementów może być wykorzystana do weryfikacji takiego podziału;

• w analizie czynnikowej uzyskuje się podział rozpatrywanych cech na podzbiory kształtowane oddzielnie przez poszczególne czynniki; analiza skupień prowadzo-na dla tych cech może być wykorzystana do weryfikacji otrzymanego podziału.

Dwuwymiarowe i wielowymiarowe analizy statystyczne umożliwiają rozwiązywanie 3 rodzajów problemów: • oceny istotności zależności statystycznej pomiędzy cechami; • skupiania elementów (obiektów lub cech); • oceny istotności różnic rozkładu cechy.

Page 31: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

31

17. OPERACJE NA SYGNAŁACH CIĄGŁYCH

Ważną operacją jest konwersja analogowo-cyfrowa A/C (ang. A/D – analog to digi-tal) - przekształcanie sygnału analogowego (ciągłego) na reprezentację cyfrową (sygnał cyfrowy. Przetwarzanie A/C składa się z trzech kolejnych etapów:

1. Próbkowanie (dyskretyzacja, kwantowanie w czasie) to proces tworzenia sygna-łu dyskretnego, reprezentującego sygnał ciągły za pomocą ciągu wartości zwa-nych próbkami.

Okres próbkowania to czas pomiędzy pobieraniem kolejnych próbek. Częstotli-wość próbkowania to odwrotność okresu próbkowania.

Częstotliwość próbkowania, po której sygnał ciągły może być ponownie odtwo-rzony z sygnału dyskretnego, powinna być co najmniej dwa razy większa od gra-nicznej częstotliwości swego widma, określa to twierdzenie Kotielnikowa – Shan-nona.

2. Kwantowanie (kwantyzacja) – polega na podzieleniu ciągłego zbioru wartości sygnału na skończoną liczbę sąsiadujących ze sobą przedziałów i ustaleniu po-ziomów kwantowania (tj. określonych wartości z każdego przedziału reprezentu-jących wszystkie wartości w tym przedziale), a następnie przypisaniu każdej próbce odpowiedniego (najbliższego) poziomu kwantowania. Poziomem repre-zentacji może być górna bądź dolna granica przedziału, jednak najczęściej jest nią wartość ze środka przedziału. Takie rozwiązanie skutkuje minimalizacją błędu średniokwadratowego, jednak tylko pod warunkiem, że rozkład prawdopodobień-stwa wartości wejściowych jest stały w danym przedziale. Warunek ten zostaje w przybliżeniu spełniony, jeśli szerokości przedziałów kwantyzacji są bardzo ma-łe.

Rozróżnia się dwa rodzaje kwantyzacji: • skalarna, w której kwantowane są niezależnie pojedyncze wartości; • wektorowa, w której kwantowanych jest jednocześnie kilka wartości (co naj-

mniej dwie).

Kwantyzacja skalarna może być: • równomierna (ang. uniform), • nierównomierna (ang. nonuniform).

3. Kodowanie – polega na przyporządkowaniu poziomom kwantowania (a więc i skwantowanym próbkom) ciągów kodowych – w wypadku kodowania binarnego każdemu z 2**n poziomów kwantowania odpowiada słowo kodowe składające się z n zer i jedynek2.

Na sygnałach ciągłych wykonywane są jeszcze inne operacje: • Interpolacja – określenie wartości procesu w momencie, w którym nie dokony-

wano pomiaru, realizowane jest to w oparciu o informację, jaką niosą elementy sąsiednie.

2 Ewangelia według św. Mateusza

Wasza mowa niech będzie: "Tak - tak, nie - nie". A co nadto, z zepsucia jest.

"Tak - tak, nie - nie" oznacza mówienie prawdy i odrzucenie kłamstwa. Oznacza usunięcie ze składanej przysięgi, ślubu, przyrzeczenia i obietnicy, przesady i nadmiaru słów.

Page 32: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

32

• Predykcja (prognozowanie) – przewidywanie wartości procesu w chwili t + θ na podstawie wartości procesu dla momentu t i wcześniejszych.

Dokładność prognozy można ocenić: • ex post – badając odchylenie prognozy od rzeczywistej wartości. Używane staty-

styki są wynikami porównania przeszłych prognoz ze znanymi już prawdziwymi wartościami prognozowanych wielkości.

• ex ante – wyznaczając możliwy błąd prognozy na etapie prognozowania.

Page 33: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

33

18. OCENA WYDAJNOŚCI OPROGRAMOWANIA

Wydajność oprogramowania wyraża ilość pracy wykonanej w określonym przedzia-le czasu. Im więcej pracy program wykona w jednostce czasu, tym większa jest je-go wydajność. Uściślając, wydajność programu jest mierzona liczbą jednostek da-nych wejściowych (rozmiarem danych), którymi w danym czasie program ten za-rządza w celu przekształcenia ich na jednostki wyjściowe (dane wynikowe).

Jednym ze sposobów oceny wydajności oprogramowania jest wykorzystanie teorii masowej obsługi (teoria kolejek), jednej z gałęzi zastosowań rachunku prawdopo-dobieństwa, przydatnej w warunkach konieczności obsługi w krótkim okresie czasu dużej ilości klientów. Podstawy teorii opracował w 1955 radziecki matematyk Alek-sander Chinczyn, pierwsze zastosowania dotyczyły projektowania i eksploatacji central telefonicznych.

W teorii obsługi masowej najczęściej analizowane są następujące dyscypliny ob-sługi:

• FIFO – zgłoszenia są obsługiwane w kolejności ich przybycia do systemu; • LIFO – pierwszeństwo w sensie kolejności obsługi ma zgłoszenie, które przybyło

jako ostatnie do systemu obsługi; • SIRO – w chwili ukończenia obsługi zgłoszenia, następne wybierane jest w spo-

sób losowy.

Wyróżnia się systemy obsługi z szeregową, równoległą i mieszaną organizacją ob-sługi, jak również systemy bez poczekalni i z poczekalnią.

Podstawowe charakterystyki systemu to: • oczekiwany czas obsługi jednego zgłoszenia, • oczekiwana długość kolejki, • oczekiwany czas pobytu w systemie, • oczekiwany czas pobytu w kolejce, • prawdopodobieństwo braku zgłoszeń w systemie, • prawdopodobieństwo tego, że w systemie znajduje się n zgłoszeń.

Przyjmując założenia odnośnie do realizowanego procesu obsługi, można uzyskać wzory pozwalające na obliczenie ww. charakterystyk3. Założenia te dotyczą: • rozkładu napływu zgłoszeń, • rozkładu czasu obsługi, • liczby stanowisk obsługi, • liczby miejsc w systemie (łącznie stanowiska obsługi + kolejka).

Innym sposobem oceny wydajności oprogramowania jest przeprowadzenie testów wydajnościowych.

Istnieje kilka rodzajów wymagań wydajnościowych: • wymagania na szybkość przetwarzania, • wymagania na równoległość przetwarzania, • wymagania na wielkość obsługiwanych danych.

3 https://www.google.pl/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&sqi=2&ved=0CCgQFjABahUKEwjrxfCZ-

a3IAhXCbRQKHcIhBj4&url=http%3A%2F%2Foizet.p.lodz.pl%2Fistan%2Fdydaktyka%2Fbadania%2FTEORIA%2520KOLEJEK1.ppt&usg=AFQjCNGhGNg6jdHhctAP_Pky0Vv5jfJ0Pg&sig2=eFcm1dmFlHsVRrOdMhVD6A

Page 34: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

34

Testy wydajnościowe przeprowadza się zwykle w dwóch sytuacjach: na granicy wymagania wydajnościowego oraz powyżej wymagania wydajnościowego. W tym drugim przypadku testy są nazywane przeciążeniowymi.

Wyniki uzyskiwane podczas testów poddawane są różnorodnym analizom staty-stycznym.

Page 35: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

35

DODATEK 1. PODSTAWOWA TERMINOLOGIA4

ANALIZA REGRESJI - Metoda określania postaci zależności pomiędzy zmiennymi, pozwalająca na zbadanie związku pomiędzy różnymi wielkościami i wykorzystanie tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie znanych wartości innych

BENCHMARK - Test wydajności systemu komputerowego: sprzętu lub oprogramo-wania

BŁĄD PIERWSZEGO RODZAJU - Błąd polegający na odrzuceniu hipotezy zero-wej, gdy ta hipoteza jest prawdziwa

DYSTRYBUANTA - Funkcja rzeczywista, jednoznacznie wyznaczająca rozkład prawdopodobieństwa, niemalejąca, lewostronnie ciągła oraz mająca granice w mi-nus i plus nieskończoności odpowiednio równe 0 i 1

EFEKTYWNOŚĆ - Własność estymatora, iloraz jego wariancji i wariancji estymato-ra najefektywniejszego

ESTYMACJA NIEPARAMETRYCZNA - Szacowanie postaci funkcyjnej rozkładu, np. w postaci dystrybuanty.

ESTYMACJA PARAMETRYCZNA - Szacowanie nieznanych parametrów rozkładu

ESTYMATOR NAJEFEKTYWNIEJSZY - Estymator o możliwie najmniejszej wa-riancji w klasie estymatorów nieobciążonych

ESTYMATOR - Statystyka służąca do szacowania wartości parametru rozkładu

FIFO - Zgłoszenia są obsługiwane w kolejności ich przybycia do systemu

GĘSTOŚĆ - Nieujemna funkcja ciągłej zmiennej losowej X pozwalająca wyznaczyć prawdopodobieństwo, że zmienna losowa należy do przedziału (a,b) za pomocą całki oznaczonej w tym przedziale

HIPOTEZA ALTERNATYWNA - Hipoteza wyrażająca skrystalizowane a priori przy-puszczenie o treści różnej od treści hipotezy sprawdzanej

HIPOTEZA NIEPARAMETRYCZNA - Przypuszczenie precyzujące do jakiego typu rozkładów należy rozkład cechy populacji

HIPOTEZA PARAMETRYCZNA - Przypuszczenie dotyczące wartości parametru rozkładu

HIPOTEZA ZEROWA - Hipoteza odzwierciedlająca z reguły pytanie, na które nale-ży uzyskać odpowiedź

ISTOTNOŚĆ - Pojęcie występujące w teorii weryfikacji hipotez przy określaniu błę-du pierwszego rodzaju - błędu polegającego na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa

KWANTOWANIE - Proces zamiany informacji ciągłej na jej reprezentację cyfrową

LIFO - Pierwszeństwo obsługi ma zgłoszenie, które przybyło jako ostatnie do sys-temu obsługi

4 Proszę o uzupełnianie niniejszego wykazu

Page 36: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

36

MEDIANA - Wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji

MODA - Wartość o największym prawdopodobieństwie wystąpienia, lub wartość najczęściej występująca w próbie

MOMENT CENTRALNY RZĘDU K - Wartość oczekiwana k-tej potęgi różnicy zmiennej losowej i jej wartości oczekiwanej

NIEOBCIĄŻONOŚĆ - Własność estymatora: wartość oczekiwana rozkładu estyma-tora jest równa wartości szacowanego parametru

NIEZALEŻNOŚĆ ZDARZEŃ - Równość prawdopodobieństwa iloczynu dwóch zda-rzeń oraz iloczynu ich prawdopodobieństw

POPULACJA - Zbiór elementów, podlegających badaniu statystycznemu

POZIOM ISTOTNOŚCI - Prawdopodobieństwo odrzucenia hipotezy zerowej w przypadku gdy jest ona prawdziwa

POZIOM UFNOŚCI - Prawdopodobieństwo z którym przedział ufności pokrywa prawdziwą wartość parametru

PRAWO WIELKICH LICZB CHINCZYNA - Średnia arytmetyczna dużej liczby zmiennych losowych niezależnych o jednakowym rozkładzie o wartości oczekiwa-nej m przyjmuje z prawdopodobieństwem bliskim jedności, wartości mało różniące się od m

PRÓBA - Zbiór obserwacji statystycznych wybranych (zwykle wylosowanych) z po-pulacji

PRÓBKOWANIE - Proces tworzenia sygnału dyskretnego, reprezentującego sygnał ciągły za pomocą ciągu wartości nazywanych próbkami

PRÓBY NIEPOWIĄZANE - Wartości określonej cechy zmierzone u różnych ele-mentów

PRÓBY POWIĄZANE - Wartości określonej cechy mierzone są u tych samych elementów w różnych momentach lub w różnych warunkach

ROZKŁAD CHI-KWADRAT - Podlega mu suma kwadratów niezależnych zmien-nych losowych o rozkładach normalnych N(0,1)

ROZKŁAD POISSONA - Rozkład skokowy którym przybliżamy rozkład liczby suk-cesów gdy liczba doświadczeń jest duża, a prawdopodobieństwo sukcesu małe

ROZKŁAD SNEDECORA – Rozkład któremu podlega sprawdzian testu do porów-nywania wariancji … .

ROZKŁAD STUDENTA – Rozklad definiowany w oparciu o niezależne zmienne losowe kako …: zmiennej losowej o rozkładzie N(0,1) i zmiennej losowej o rozkła-dzie chi-kwadrat

ROZSTĘP DANYCH - Różnica pomiędzy największym i najmniejszym elementem próby

SKALA NOMINALNA - …

SKALA PORZĄDKOWA - …

Page 37: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

37

SKALA PRZEDZIAŁOWA - Jedna ze skal pomiarowych, określona relacja: większe o tyle

ŚREDNIA UCINANA - Średnia arytmetyczna elementów próby z pominięciem naj-mniejszych i największych

ŚREDNIA WAŻONA - …

STANDARYZACJA - Przekształcenie zmiennej losowej w zmienną losową o zero-wej wartości oczekiwanej i wariancji równej 1

TWIERDZENIE BAYESA - Twierdzenie wiążące prawdopodobieństwa warunkowe oraz prawdopodobieństwa a'priori i a'posteriori …

TWIERDZENIE BERNOULLIEGO - Przy dużej liczebności próby częstość wystę-powania danego zdarzenia losowego będzie się dowolnie mało różniła od jego prawdopodobieństwa z prawdopodobieństwem bliskim 1

WARIANCJA - Wartość oczekiwana kwadratu różnicy zmiennej losowej i jej warto-ści oczekiwanej

WSPÓŁCZYNNIK KORELACJI PEARSONA - Wspólczynnik określający poziom zależności liniowej między zmiennymi losowymi

WSPÓŁCZYNNIK ZMIENNOŚCI - Iloraz odchylenia standardowego i modułu śred-niej arytmetycznej elementów próby

ZBIÓR KRYTYCZNY - Zbiór wartości sprawdzianu testu przy których następuje od-rzucanie hipotezy zerowej

ZDARZENIA WYKLUCZAJĄCE - Jeżeli zdarzenia A i B nie mają wspólnych zda-rzeń elementarnych

ZDARZENIE POCIĄGAJĄCE ZA SOBĄ ZDRAZENNIE B - Jeżeli zdarzenie ele-mentarne należące do A należy także do B to zdarzenie A

ZGODNOŚĆ - Własność estymatora: zbieżność według prawdopodobieństwa do prawdziwej wartości szacowanego parametru

Page 38: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

38

DODATEK 2. CYTATY STATYSTYCZNE

1. Fakt jest zawsze głupi. Zresztą bierze je diabeł i statystyka – Friedrich Nie-tzsche

2. Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, statystyki – Benja-min Disraeli

3. Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny – Jean Rigaux

4. Jest prawda, półprawda i statystyki. Statystykami można manipulować, a intu-icją nie. Ona praktycznie nigdy nie zawodzi – Zbigniew Bartman

5. Jeśli mój sąsiad codziennie bije swoją żonę, ja zaś nie biję jej nigdy, to w świe-tle statystyki obaj bijemy je co drugi dzień – George Bernard Shaw

6. Każdy człowiek ma określony horyzont. Gdy ten się zawęża i staje się nieskoń-czenie mały, ogranicza się do punktu. Wówczas człowiek powiada: to jest mój punkt widzenia – Dawid Hilbert

7. Korzystanie z metod statystycznych nie eliminuje zwykłego, ludzkiego podej-mowania decyzji, ale pomaga ukierunkować badacza, menedżera czy dyrekto-ra w tym zadaniu. Narzędzia statystyczne są środkiem do celu, a nie celem samym w sobie – Duane Schulz

8. Myślenie w kategoriach statystyki będzie kiedyś równie niezbędne do skutecz-nego wykorzystywania praw obywatelskich, jak umiejętność czytania i pisania – Herbert George Wells

9. Najważniejszą rzeczą w nauczaniu rachunku prawdopodobieństwa jest zdrowy rozsądek i logiczne myślenie (niekoniecznie znajomość wzorów) – Renata Bednarczyk

10. Nastąpił ostateczny koniec zbierania danych. Nie było już czego zbierać. Ale wszystkie zebrane dane trzeba jeszcze kompletnie skorelować i umieścić we wszystkich możliwych relacjach. Poświęcono na to wieczność. I nagle AC zro-zumiał, jak zmienić kierunek entropii – Isaac Asimov

11. Nasze dni są policzone: przez statystyków – Stanisław Jerzy Lec

12. Nauki statystyczne są tym szczególnym aspektem postępu ludzkości, który na-dał XX wiekom jego specjalny charakter, (...) to do statystyka zwraca się obec-ny wiek w poszukiwaniu tego, co jest najistotniejsze we wszystkich ważniej-szych przedsięwzięciach – Ronald Aylmer Fisher

13. Nic się nie da zmienić: statystycznie wypada jedna śmierć na jednego człowie-ka – Krzysztof Mętrak

14. Nie wierzę w zrządzenia losu ani w przeznaczenie, jako technik przyzwyczajo-ny jestem do liczenia się z formułami prawdopodobieństwa. [...] Żeby uznać nieprawdopodobieństwo za fakt istniejący, nie potrzebna mi mistyka: matema-tyka mi wystarcza – Max Frisch

15. Nikt z nas nie zna ludzi tak dobrze, by mieć statystycznie poprawny punkt wi-dzenia – Claude C. Hopkins

Page 39: W PIGUŁCE - cieciura.netcieciura.net/ebooki/ebook_mp.pdf · Statystyka opisowa podaje metody badania rozkładu cechy lub cech populacji bez metod wnioskowania statystycznego. W ramach

METODY PROBABILISTYCZNE W PIGUŁCE

39

16. Normalność nie jest kwestią statystyki – George Orwell

17. Obrywał „po głowie”, bo wystawała mu ponad przeciętne – Czesław Banach

18. Pozwólmy przemówić danym, niech mówią za siebie – John Tukey

19. Statystyka jest jak kostium bikini: pokazuje wiele, ale nie pokazuje najważniej-szego – Aaron Levenstein

20. Statystyka nie kłamie. Kłamią jedynie statystycy – Janusz Leon Wiśniewski

21. Statystyka to matematyczny kamuflaż błędu – Georges Elgozy

22. Śmierć jednostki to tragedia – milion zabitych to tylko statystyka – Józef Stalin

23. To nieprawda, że prawdopodobieństwo śmierci w czasie wojny jest większe. Ono jest zawsze takie samo – stuprocentowe - Clive Staples Lewis

24. W morzu dociekań toną statki hipotez – Sławomir Wróblewski Uwaga: Treść „złośliwych” cytatów nie jest prawdziwa. Przy reprezentatywnych da-nych i właściwym doborze metod analizy statystycznych uzyskiwane wyniki są zgodne z rzeczywistością i jednoznaczne.

Inne cytaty

Inne cytaty