Wstęp do probabilistyki i statystyki
Wykład
dr inż. Barbara Swatowska
Katedra Elektroniki, AGH
e-mail: [email protected]
http://home.agh.edu.pl/~swatow
Plan zajęć
Zajęcia:
Wykład 10 h oraz Ćwiczenia 10 h
PLAN realizacji tematyki:
1. Kombinatoryka, symbol Newtona
2. Prawdopodobieństwo całkowite, warunkowe i niezależne, Twierdzenie Bayesa
3. Zmienna losowa i dystrybuanta
4. Obliczanie prawdopodobieństwa z wykorzystaniem gęstości
5. Wprowadzenie do statystyki, średnia, odchylenie standardowe, wariancja
6. Analiza regresji przykładowych danych
7. Obliczanie przedziału ufności dla różnych danych
8. Estymacja i wnioskowanie statystyczne
2WdPiS – wykład dla EiT – B. Swatowska
Literatura:
3
1. Krysicki W., Bartos J., i inni., Rachunek prawdopodobieństwa i statystyka matematyczna część I, II, Wydawnictwo Naukowe PWN, Warszawa 1997.
2. Plucińska A. , Pluciński E.: Zadania z rachunku prawdopodobieństwa i statystyki matematycznej dla studentów politechnik, PWN
3. Plucińska A. , Pluciński E.: Probabilistyka, Rachunek prawdopodobieństwa, statystyka matematyczna, procesy stochastyczne, Wydawnictwo Naukowo-Techniczne, Warszawa 2000
4. Jakubowski J., Sztencel R.: Wstęp do teorii prawdopodobieństwa, SCRIPT, 2000
5. Ostasiewicz S., Rusnak Z., Siedlecka U., Statystyka. Elementy teorii i zadania. Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, 1999
6. Greń Jerzy: Statystyka matematyczna. Modele i zadania.
7. Sobczyk Mieczysław: Statystyka, Wydawnictwo Naukowe PWN, Warszawa, 1996
8. Koronacki J, Mielniczuk J.: Statystyka dla studentów kierunków technicznych i przyrodniczych, Wydawnictwo Naukowo-Techniczne, Warszawa 2001
WdPiS – wykład dla EiT – B. Swatowska
Czym zajmuje się probabilistyka i statystyka?
4
Teoria prawdopodobie ństwa (także rachunek prawdopodobie ństwa lub probabilistyka ) – dział matematyki zajmujący się zdarzeniami losowymi. Zdarzenie losowe to wynik doświadczenia losowego.
Doświadczenie losowe może być powtarzane dowolnie wiele razy w warunkach identycznych lub bardzo zbliżonych a jego wynik nie daje się przewidziećjednoznacznie.
Częstość zdarzenia:
gdzie l oznacza ile razy zaszło zdarzenie, gdy doświadczenie powtarzano n razy.
Prawidłowość statystyczna – przy coraz większej liczbie doświadczeń losowych częstość zdarzenia dąży do pewnej stałej liczby
n
l
WdPiS – wykład dla EiT – B. Swatowska
Czym zajmuje się probabilistyka i statystyka?
5
Statystyka zajmuje się metodami zbierania informacji(liczbowych) oraz ich analizą i interpretacją.
Rachunek prawdopodobieństwa zajmuje się badaniem abstrakcyjnych pojęć matematycznych stworzonych do opisu zjawisk, które nie są deterministyczne: 1. zmiennych losowych w przypadku pojedynczych zdarzeń oraz2. procesów stochastycznych w przypadku zdarzeń powtarzających się
(w czasie).
Jako matematyczny fundament statystyki, teoria prawdopodobieństwa odgrywa istotną rolę w sytuacjach, w których konieczna jest analiza dużych zbiorów danych.
Jednym z największych osiągnięć fizyki dwudziestego wieku było odkrycie probabilistycznej natury zjawisk fizycznych w skali mikroskopowej, co zaowocowało powstaniem mechaniki kwantowej.
WdPiS – wykład dla EiT – B. Swatowska
Statystyka
Czym zajmuje się probabilistyka i statystyka?
OPISOWA ANALIZA DANYCH(DESCRIPTIVE STATISTICS)
Organizacja danych
Podsumowanie danych
Prezentacja danych
DEDUKCYJNA – MODELOWANIE STOCHASTYCZNE( STATISTICAL INFERENCE)
Podaje metody formułowania wniosków dotyczące obiektu badań (populacji generalnej) w oparciu o mniej liczny zbiór (próbę)
6
GRAFICZNA NUMERYCZNA
WdPiS – wykład dla EiT – B. Swatowska
Rys historyczny
7
• Matematyczna teoria prawdopodobieństwa sięga swoimi korzeniami do analizy gier losowych podjętej w siedemnastym wieku przez Pierre de Fermata oraz Blaise Pascala.
• Z tego powodu, początkowo teoria prawdopodobieństwa zajmowała się niemal wyłącznie zjawiskami dyskretnymi i używała metod kombinatorycznych. Zmienne ciągłe zostały wprowadzone do teorii prawdopodobieństwa znacznie później.
• Za początek stworzenia współczesnej teorii prawdopodobieństwa powszechnie uważa się jej aksjomatyzację, której w 1933 dokonał Andriej Kołmogorow.
WdPiS – wykład dla EiT – B. Swatowska
Hazard
Zdecydowana większość gier losowych opiera się na prawdopodobieństwie zdarzenia...
...oraz może być pod tym kątem analizowana.
Prawdopodobieństwo trafienia „oczka”
Ilość unikatowych rozdań w pokerze
8
...najprostszy,jak rzut monetą, ...
...całkowicie losowy jak ruletka...
...złożony, jak rozdanie pokera...
WdPiS – wykład dla EiT – B. Swatowska
Rys historyczny
9
Blaise Pascal (1601-1662)
knkn
k
n bak
nba −
=
=+ ∑
0
)(
dwumian Newtona
XVII w. , Pary ż, Francja
Unieśmiertelnił kawalera de Méré oraz jego paradoks hazardowy
„Trójk ąt Pascala” wykorzystywany przy pot ędze sumy
WdPiS – wykład dla EiT – B. Swatowska
Trójkąt Pascala
16
66
5
615
4
620
3
615
2
66
1
61
0
66
15
55
4
510
3
510
2
55
1
51
0
55
14
44
3
46
2
44
1
41
0
44
13
33
2
33
1
31
0
33
12
22
1
21
0
22
11
11
0
11
10
00
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
n
n
n
n
n
n
n
10
!!)(
!
kkn
n
k
n
−=
Symbol
WdPiS – wykład dla EiT – B. Swatowska
Trójkąt Pascala
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
1 6 15 20 15 6 1
11
n = 0
n = 1
n = 2
n = 3
n = 4
n = 5
n = 6
+
WdPiS – wykład dla EiT – B. Swatowska
Rys historyczny
12
Pierre de Fermat (1601-1665)
Początek XVII w., Touluse, Francja
Badał wła ściwo ści liczb pierwszych, teori ę liczb, równolegle opracował metod ę współrz ędnych w geometrii. Razem z Pascalem stworzył podstawy pod współczesny rachunek prawdopodobie ństwa.
WdPiS – wykład dla EiT – B. Swatowska
Rys historyczny
Siméon Denis Poisson (1781-1840)
13
XVIII-XIX w., Pary ż, Francja
Przyjaciel Lagrange'a, ucze ń Laplace'a na sławnej École Polytechnique.
Poza zagadnieniami fizycznymi zajmował si ę teori ą prawdopodobie ństwa.
Proces stochastyczny (podobnie jak pr. Markowa), rozkład Poissona - dystrybuanta!
WdPiS – wykład dla EiT – B. Swatowska
Carl Frederich Gauss (1777-1855)
XVIII-XIX w., Getynga, Niemcy
Profesor Uniwersytetu w Getyndze
Genialny matematyk, który ju ż w dzieci ństwie wyprzedzał umiej ętnościami rówie śników. W szkole podstawowej jako jedyny rozwi ązał zadanie nauczyciela - zsumowanie liczb 1 do 40 – zauwa żając, że jest to (40+1)*20
Rozkład normalny, zwany krzyw ą Gaussa.
Rys historyczny
14WdPiS – wykład dla EiT – B. Swatowska
Paradoks kawalera de Méré
15
Dwaj hazardziści S1 i S2 umawiają się, że zagrają pewną serię partii i że zwycięzcą będzie ten, kto pierwszy wygra pięć partii.
Co należy zrobić, gdy trzeba będzie grę przedwcześnie przerwać?
Załóżmy, że S1 wygrywa cztery partie, a S2tylko trzy. Jak sprawiedliwie podzielić stawki?
Propozycja 1:
podzielić stawki w stosunku 4:3
Propozycja 2:
podzielić stawki w stosunku (5-3):(5-4)=2:1
wg W.R. Fuchs, Matematyka popularna, Wiedza Powszechna, Warszawa 1972
WdPiS – wykład dla EiT – B. Swatowska
Paradoks kawalera de Méré
16
Blaise Pascal rozwiązał zadanie rozumując bardzo prosto. Aby rozstrzygnąć grę, należy zagrać jeszcze najwyżej dwie partie.
Jeżeli pierwszą partię wygra S1, to gra będzie rozstrzygnięta od razu.
Gdy pierwszą partię wygra S2, to wygranie drugiej partii przez S1przesądziłoby grę na jego korzyść.
Jednak je śli pozostałe dwie partie wygra S2 to on zostanie zwyci ęzcą. Zatem sprawiedliwy podział stawki to 3:1.
WdPiS – wykład dla EiT – B. Swatowska
Statystyka - typy danych
17
ILOŚCIOWE
(QUANTITATIVE, NUMERICAL)
Przykłady:
Zbiór ludzi
Wiek
Wzrost
Wysokość zarobków
Obliczenia pewnych parametrów, jak np. średnia arytmetyczna, mediana, ekstrema, mają sens
JAKOŚCIOWE
(QUALITATIVE, CATEGORIAL)
Przykłady:
Płeć
Stan cywilny
Można przypisać różnym cechom arbitralne wartości liczbowe.
Obliczenia parametrów nie mają sensu, można jedynie podawać np. udział procentowy
WdPiS – wykład dla EiT – B. Swatowska
Pojęcie zmiennej losowej
RxeX
RX
ee
ii ∈=→Ω
=Ω
)(
:
,, 21 K
18
Zmienna losowa jest to funkcja X, która przypisuje liczbę rzeczywistą x danemu wynikowi eksperymentu losowego.
Przykłady: 1. Rzut monetą: zdarzeniu ‘orzeł’ przypisujemy 1; zdarzeniu reszka
przypisujemy 0.2. Analog. losowanie wyrobów: zdarzeniu ‘brak’ (wadliwy) - 0, dobry – 13. Rzut kostką wyrzucenie ‘1’ – 1, ‘2’ – 2 itd…4. Odcinek [a, b] na osi liczbowej – wybór punktu o współrzędnej ‘x’
przypisujemy np. wartość x ; wartość sin2(3x+17) itp.…
WdPiS – wykład dla EiT – B. Swatowska
Zmienna losowa
19
dyskretna
Gdy wartości zmiennej losowej X są izolowanymi punktami na osi liczbowej (obejmują skończonyprzedział wartości).
• Rzut monetą• Błędy przy transmisji• Wadliwe układy na linii produkcyjnej• Ilość połączeń przychodzących w ciągu 5 minut
ciągła
Gdy wartości zmiennej losowej stanowią wszystkie punkty odcinka(obejmują przedziałliczb rzeczywistych)
• Natężenie prądu w przewodniku• Temperatura• Ciśnienie
WdPiS – wykład dla EiT – B. Swatowska
Graficzna prezentacja danych
20
Dane statystyczne można prezentowa ć na wiele sposobów, np. cz ęstość wyst ępowania danej cechy
x Ilość wystąpień Częstotliwość
1 3 3/23 = 0,1304
2 5 5/23 = 0,2174
3 10 10/23 = 0,4348
4 4 4/23 = 0,1739
5 1 1/23 = 0,0435
Razem: 23 1,0000
WdPiS – wykład dla EiT – B. Swatowska
21WdPiS – wykład dla EiT – B. Swatowska
Graficzna prezentacja danych
13%
22%
44%
17%
4%
Wykres kołowy
1 2 3 4 5
1 0,13043478
2 0,2173913
3 0,43
4 0,17391
5 0,04347826
graf1
22
Graficzna prezentacja danych
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
1 2 3 4 5
Wykres kolumnowy
Serie1
1 0,13043478
2 0,2173913
3 0,43
4 0,17391
5 0,04347826
WdPiS – wykład dla EiT – B. Swatowska
Dane ilościowe
23WdPiS – wykład dla EiT – B. Swatowska
Wyniki 34 pomiarów (np. wielkość ziaren w [nm], temperatura w kolejnych dniach o godz. 11:00 w [deg. C], czas rozmów telefonicznych w [min], itp.
3,6 13,2 12 12,8 13,5 15,2 4,8
12,3 9,1 16,6 15,3 11,7 6,2 9,4
6,2 6,2 15,3 8 8,2 6,2 6,3
12,1 8,4 14,5 16,6 19,3 15,3 19,2
6,5 10,4 11,2 7,2 6,2 2,3
Tak podane warto ści s ą mało czytelne!
24WdPiS – wykład dla EiT – B. Swatowska
Histogram
Sporządzenie wykresu (histogramu):
1. Uporządkować zbiór wg. rosnących (lub malejących) wartości – program Excel ma taką opcję.
2. Wyniki próby (o liczebności n) stanowią zbiór n-liczb (niekoniecznie różniących się od siebie). Celem ich ilustracji dzieli się je na klasy, tworząc tzn. szereg rozdzielczy.
3. Szerokość poszczególnych klas nie musi być taka sama, choć zwykle stosuje się klasy o tej samej szerokości
4. Ilość klas nie może być zbyt mała ani też zbyt liczna. Najbardziej optymalną liczbę klas 'k' określa reguła Sturge'a.
25WdPiS – wykład dla EiT – B. Swatowska
Histogram
0 2 8 14 200
2
4
6
8
10
12
14
16
3 klasy
x
Czę
stość
bezw
glę
dna
26
Histogram
0 2 3,5 5 6,5 8 9,5 11 12,5 14 15,5 17 18,5 200
1
2
3
4
5
6
7
8
12 klas
x
Czę
stość
be
zwzg
lędn
a
WdPiS – wykład dla EiT – B. Swatowska
27
Histogram
WdPiS – wykład dla EiT – B. Swatowska
0 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10 10,5 11 11,5 12 12,513 13,5 14 14,5 15 15,5 16 16,5 17 17,5 18 18,5 19 19,50
1
2
3
4
5
6
7
8
35 klas
x
Czę
stość
bez
wzg
lęd
na
28WdPiS – wykład dla EiT – B. Swatowska
Reguła Sturge'a
k= 1+3,3log10n
n= 34k= 5.59 ≈ 6
Dla naszego przykładu:
Liczebność próbki, n Liczba klas, k
< 50 5 – 7
50 – 200 7 – 9
200 – 500 9 – 10
500 – 1000 10 -11
1000 – 5000 11 – 13
5000 – 50000 13 – 17
50000 < 17 – 20
29
Histogram optymalny
0 2 5 8 11 14 17 200
0,05
0,1
0,15
0,2
0,25
0,3
6 klas (optymalnie)
x
Czę
stość
wzg
lęd
na
WdPiS – wykład dla EiT – B. Swatowska
30WdPiS – wykład dla EiT – B. Swatowska
Rachunek prawdopodobieństwa i statystyka w nauce i technice
Statystyka umożliwia analizę i modelowanie rozwoju chorób oraz pomaga zapobiegać epidemiom.
Statystyka medyczna, np. średnia liczba zachorowań w regionie.
Statystyka społeczna, np. gęstość zaludnienia.
Statystyka gospodarcza, np. PKB, wydatki na opiekę zdrowotną.
Liczba zachorowań na świńską grypę w roku 2009 w USA(Źródło: http://commons.wikimedia.org)
31WdPiS – wykład dla EiT – B. Swatowska
Meteorologia
Modele pogodowe umożliwiające przewidywanie pogody oraz wykrywanie potencjalnych kataklizmów, np. huraganów
(Źródło:stormdebris.net/Math_Forecasting.html)
Opis problemu
Identyfikacja najważ-niejszychczynników
Przeprowadzenie eksperymentów
Propozycja modelu
Modyfikacja modelu
32
Potwierdzenierozwiązania
Wnioski i rekomendacje
Jak rozwi ązuje si ę problem inżynierski?
WdPiS – wykład dla EiT – B. Swatowska
Przykład : Załóżmy, że inżynier projektuje przewód paliwowy, który mazastosowanie w silnikach samochodowych. Inżynier wybiera grubośćściany 3/32 cale ale nie jest pewny czy to jest wystarczające dlauzyskania odpowiedniej siły ciągu.
Opis problemu
Identyfikacja najwa żniejszych czynników
Wyprodukowano osiem elementów, dla których zmierzono siły ciągu i otrzymano następujące wartości (w funtach): 12.6, 12.9, 13.4, 12.3, 13.6, 13.5, 12.6, 13.1. Siła ciągu może być traktowana jako zmienna losowa.
33WdPiS – wykład dla EiT – B. Swatowska
Jak rozwi ązuje si ę problem inżynierski?
Propozycja modelu
Przyjmijmy model, w którym zmienna losowa X jest przedstawiona jako:
Stała warto ść Zaburzenie (bł ąd, szum)
Stała µ nie zmienia się przy kolejnych pomiarach. Małe zmiany w otoczeniu, układzie pomiarowym, różnice obserwowane dla obiektu mierzonego wpływają na wartość zaburzenia ε. W świecie rzeczywistym zawsze istnieją czynniki prowadzące do niezerowego zaburzenia. Musimy je opisać w sposób ilościowy i znaleźć sposób na ograniczenie ich wpływu na wynik pomiaru.
34WdPiS – wykład dla EiT – B. Swatowska
Jak rozwi ązuje si ę problem inżynierski?
Rysunek 1-2 przedstawia uzyskane wyniki w postaci diagramu punktowego (dot diagram) .
Diagramy tego typu są użyteczne dla małej ilości danych (do ok. 20 obserwacji).
Wykresy tego typu pozwalają ocenić położenie (środek) i rozproszenie (rozrzut)
Średnia wartość siły ciągu wynosi 13.0 funtów.
Przeprowadzenie eksperymentów
35
Jak rozwi ązuje si ę problem inżynierski?
WdPiS – wykład dla EiT – B. Swatowska
Inżynier zmienia grubość ściany do 1/8 cali zakładając, że pomoże to zwiększyć siłę ciągu. Znowu zbudowano 8 prototypów, przeprowadzono eksperymenty i otrzymano wyniki siły ciągu: 12.9, 13.7, 12.8, 13.9, 14.2, 13.2, 13.5, 13.1. Wyniki, w porównaniu z poprzednim eksperymentem, zestawiono na Rys. 1-3.
.
Średnia wartość siły ciągu wynosi 13.4 funty.
Modyfikacja (udoskonalenie) modelu
36
Jak rozwi ązuje si ę problem inżynierski?
WdPiS – wykład dla EiT – B. Swatowska
Wykres stwarza wrażenie, że zwiększenie grubości ściany prowadzi do wzrostu siły ciągu.
Potwierdzenie rozwi ązania?
Jednak, pozostaje pytanie czy jest tak istotnie?
37WdPiS – wykład dla EiT – B. Swatowska
Jak rozwi ązuje si ę problem inżynierski?
Statystyka pomoże nam udzielić odpowiedzi na pytania:
• Skąd pewność, że inna próbka elementów nie da innych wyników?
• Czy próbka 8-elementowa jest wystarczająca aby dać wyniki, którym można ufać?
• Jeżeli użyjemy wyników, które do tej pory otrzymaliśmy, aby sformułować wniosek (decyzja), że wzrost grubości ściany jest korzystny, jak oszacować ryzyko z tym związane?
• Czy jest możliwe, że pozorny wzrost siły ciągu obserwowany dla grubszych elementów ma charakter jedynie losowy? Może nie ma sensu zwiększanie grubości ścian (powiększanie kosztów produkcji)?
Wnioski (rekomendacje?)
38
Jak rozwi ązuje si ę problem inżynierski?
WdPiS – wykład dla EiT – B. Swatowska
0 40 80 120 160 200 240 280 32060708090
100110120130140150160170180
39
Czy ten wykres jest narysowany zgodnie z zasadami?
1. Należy wyra źnie zaznaczy ć punkty eksperymentalne !!!
Zasady rysowania wykresów
WdPiS – wykład dla EiT – B. Swatowska
2. Trzeba nanie ść błąd pomiaru
0 40 80 120 160 200 240 280 32060708090
100110120130140150160170180
40WdPiS – wykład dla EiT – B. Swatowska
3. Dobrać zakresy osi współrz ędnych odpowiednio do zakresu zmienno ści danych pomiarowych !!!
0 40 80 120 160 200 240 280 32060708090
100110120130140150160170180
41WdPiS – wykład dla EiT – B. Swatowska
42WdPiS – wykład dla EiT – B. Swatowska
4. Właściwie opisa ć osie współrz ędnych i dobra ć skal ę, tak aby łatwo mo żna było odczyta ć warto ści zmierzone.
co jest na osiach ???
5. Nie łączyć punktów eksperymentalnych lini ą łaman ą!!! Jeśli znany jest przebieg teoretyczny to dokona ć
dopasowania teorii do do świadczenia (przeprowadzi ć fitowanie)
160 200 240 280 32060
90
120
150
180
ρ [µ
Ω c
m]
T [K]
43WdPiS – wykład dla EiT – B. Swatowska
44WdPiS – wykład dla EiT – B. Swatowska
6. Zadbać o aspekt estetyczny wykresu(opis, zamkni ęcie ramk ą, itp.)