Estymacja parametrów statystycznych – podstawowe pojęcia

Preview:

DESCRIPTION

Estymacja parametrów statystycznych – podstawowe pojęcia. Estymacja – po co i dlaczego?. - PowerPoint PPT Presentation

Citation preview

Jeśli jesteśmy w stanie zebrać wszystkie informacje na temat interesującej nas zbiorowości wówczas do pełnego opisu wystarczą nam metody statystyki opisowej. W wielu jednak sytuacjach mówiąc o zbiorowości opieramy się na danych pochodzących z próby. Aby prawidłowo uogólniać wyniki z próby na populację generalną należy stosować metody statystyki indukcyjnej.

Procedur uogólniania wyników z próby losowej na zbiorowość dostarcza dział wnioskowania statystycznego.

Wnioskowanie przybiera postać: 1. estymacji parametrów statystycznych czyli

szacowania nieznanych wartości parametrów np. średniej arytmetycznej w zbiorowości generalnej, odchylenia standardowego.

2. testowania hipotez, które z kolei dotyczy weryfikacji przypuszczeń odnośnie określonego poziomu zmiennej losowej lub kształtu rozkładu w populacji generalnej.

W każdym przypadku mamy do czynienia z ryzykiem błędu statystycznego ale dzięki wnioskowaniu ryzyko jego popełnienia może być kontrolowane przez badacza.

Na podstawie danych uzyskanych z próby losowej obliczamy statystyki z próby, które są estymatorami parametrów populacji generalnej stąd estymacja.

Estymator – wielkość (charakterystyka, miara), obliczona na podstawie próby, służąca do oceny wartości nieznanych parametrów populacji generalnej.

Dobór właściwej statystyki, będącej najlepszym estymatorem parametru w populacji generalnej dokonuje się na podstawie właściwości estymatorów (nieobciążony, zgodny, efektywny, dostateczny).

Estymatory minimalizują błąd pojawiający się w badaniach częściowych

Estymator nieobciążony to ten, którego przeciętna wartość jest dokładnie równa wartości szacowanego parametru. Innymi słowy, przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony jest równa wartości szacowanego parametru. Obciążoność oznacza, że oszacowania dostarczone przez taki estymator są obarczone błędem systematycznym

Estymator jest tym efektywniejszy, im mniejsza jest jego wariancja i odchylenie standardowe.

Zgodność oznacza, że wartość estymatora zgodnego będzie bliska paramereu z populacji, będzie wzrastać wraz ze wzrostem proby

Estymator dostateczny zawierać będzie wszystkie informacje o szacowanym parametrze, jakie występują w próbie.

W praktyce jesteśmy zmuszeni do szacowania wartości parametrów wyłącznie na podstawie statystyk otrzymanych z próby – są one wystarczające, gdyż z godnie z centralnym twierdzeniem granicznym rozkład z próby zbliża się do rozkładu normalnego, bez względu ma kształt populacji.

Choć konkretne wartości z próby losowej różnią się od prawdziwych wartości odpowiadających im parametrów w populacji generalnej to stosując metody estymacji przedziałowej można odpowiedzieć na pytanie w jakim marginesie błędu poruszamy się, jak duży jest przedział liczbowy, który z przyjętym prawdopodobieństwem pokryje „nieznaną” wartość parametru.

W statystycznym wnioskowaniu o parametrach i rozkładach w populacjach generalnych na podstawie wyników badań prób losowych popełniane są błędy przypadkowe, których rozkład jest normalny lub granicznie normalny. Zawiera się w tym merytoryczny sens statystycznej indukcji, czyli wnioskowania. Na podstawie tej prawidłowości, skonstruowane zostały wszystkie metody estymacji parametrów oraz metody weryfikacji hipotez

Rozkład normalny jest rozkładem częstości, którego obraz przypomina kształtem dzwon, krzywa taka posiada 3 zasadnicze cechy:

1. Jest jednomodalna2. Jest symetryczna3. Jej końce zbliżają się asomptotycznie do osi

wartości – wykres funkcji dla wartości dążących do plus nieskończoności będzie zbliżać się do osi odciętych ale nigdy ich nie przetnie, ba nawet nie dotknie

Rozkład normalny swoją nazwę zawdzięcza temu, że jest to typ rozkładu częstości, który jest charakterystyczny dla szeregu wskaźników społecznych w populacji ludzkiej: wzrost, waga, współczynnik inteligencji. Nie oznacza że inne typy rozkładów częstości są nienormalne

Stosując metody estymacji korzystamy z właściwości rozkładu normalnego, który jest stablicowany, tak że przy określonych wartościach zmiennej standaryzowanej Z odczytujemy wartości konkretnych prawdopodobieństw np. wiemy, że w odległości jednego odchylenia standardowego od wartości oczekiwanej znajduje się ponad 68% obserwacji natomiast w odległości dwóch odchyleń standardowych znajduje się ponad 95% obserwacji

Wartość zmiennej Z odczytujemy z wartości w pierwszym wierszu i kolumnie np. 0,95 to 0,9 + 0,05 przecięcie tych dwóch wartości w środku tabeli daje wynik prawdopodobieństwa.

Spójrzmy na wartość Z dla 1,00 równa się ona 0,34135 (prawdopodobieństwo), jest to tablica rozkładów jednostronnych dlatego mnożymy razy 2 co równa się 0,6827 stąd ponad 68%, możemy to przedstawić za pomocą wykresu:

Korzystając z tablic rozkładu normalnego łatwo nam odczytać prawdopodobieństwo z którym interesująca nas wartość parametru np. średniej arytmetycznej znajdzie się w granicach pewnego przedziału liczbowego. Przedział ten to przedział ufności, który pokrywa nam nieznaną wartość interesującego nas parametru. Prawdopodobieństwo o którym mowa to z kolei współczynnik ufności i wynosi p= 1-α, gdzie α to określone przez badacza małe prawdopodobieństwo niepokrycia szacowanego parametru wyznaczonym przedziałem liczbowym.

Możemy też powiedzieć, że z prawdopodobieństwem 1-α wartość szukanego parametru Z znajdzie się w przedziale –Z (α/2) do Z (α/2).

Współczynniki ufności są odpowiednikami poziomów istotności czyli α dla testu dwustronnego

Powyższe rozważania są trafne jeśli znamy odchylenie standardowe z populacji

Gdy nie znamy posługujemy się estymatorem odchylenia standardowego z próby – stąd rozkład przybiera postać rozkładu t – Studenta (o czym szerzej na kolejnych slajdach)

Zosia wypełniając test inteligencji uzyskała wynik 115 punktów Jaś 80. To dużo czy mało jeśli średnia równa się 100 (na skali 0 – 200) a odchylenie standardowe równa się 10?

Ile osób prawdopodobnie będzie lepszych a ile gorszych od Jasia i Zosi?

Pole pod krzywą to 100% co w wymiarze bezwzględnym stanowi 1,0. Pole pod krzywą wynosi więc 1, rozkład jest symetryczny więc pole po lewej stronie od średniej to 0,5 i po prawej 0,5. Prawdopodobieństwo wylosowania osoby poniżej i powyżej średniej jest takie samo. Zosia uzyskał wynik lepszy od średniej a więc jej odpowiada pole po prawej stronie średniej Jasiowi po lewej.

Proporcji osób które prawdopodobnie lepiej zalicza test od Zosi odpowiada pole pod krzywą normalną na prawo od średniej.

Zacznijmy od policzenia różnicy pomiędzy wynikiem Zosi a średnią:

X - µ = 115 – 100 = 15, tę różnicę dzielimy przez odchylenie standardowe 15/10 = 1,5 zgodność z formułą standaryzacji – wynik ten oznacza, że IQ Zosi znajduje się w odległości 1,5 odchylenia standardowego od średniej

Szukamy z = 1,5 = 0,43319 = 0,4332 (to pole jakie jest pod krzywą od średniej do punktu 1,5, i od średniej do – 1,5 )

0,4332*2=0,8664 1 – 0,8664 = 0,1336 0,1336/2= 0,0668 (to pole od punktu 1,5 do plus nieskończoności i od –1,5 do minus

nieskończoności)

Wobec powyższego 6,68% będzie miało prawdopodobnie lepszy wynik od Zosi gorszy zaś 93,32% Zosia jest mądra Jaś nie zobaczmy: 80-100/10=-2,0 (- oznacza że wartość Jasia jest po lewej stronie od średniej) Wartość Z = 0,4772 * 2 = 0,9544

1 – 0,9544 = 0,0456/2 = 0,0228Jaś będzie lepszy tylko od niewiele ponad 2 % osób.

Jak odczytać Z dla współczynnika ufności równego 1-α = 0,95? Jeśli korzystamy z tabeli standardowego rozkładu Z to wygląda to następująco:

Z tablicy standaryzowanego rozkładu normalnego wiemy, że Z przyjmuje wartość z przedziału od 0 do Z aby uwzględnić przedział od –Z do 0 musimy 0,95/2 = 0, 4750 i takiego prawdopodobieństwa szukamy wewnątrz tabeli odczytujemy odpowiadające jej wartości Z 1,9 + 0,06 + 1,96 a więc przedział który nas interesuje wynosi od -1,96 do 1,96. To przedział w którym z 0,95 prawdopodobieństwem mieści się szukany parametr.

Rozkład t Studenta (pseudonim Gosseta, który wprowadził tą statystykę) w odróżnieniu od Z stasujemy dla grup małych z reguły n<30. Kluczowe dla testu t są stopnie swobody df. Rozkład t charakteryzuje się większą niepewnością w porównaniu z testem Z. Odchylenie standardowe z próby znacznie odbiega od odchylenia standardowego z populacji generalnej.

df = n-1 – wzór na stopnie swobody dla jednej próby

Wyobraźmy sobie formułę matematyczną x1 + x2+ x3 = 10 jeśli x3 równa się 5 to x1 może równać się 2 a x2 =3 lub też x1=1 to x2 =4

Takie równanie ma więc dwa stopnie swobody przy założeniu x3=5 dwie wartości (x1 i x2) mogą być różne

Przy odczytywaniu należy zwrócić uwagę czy tabela zawiera jednostronny czy dwustronny obszar krytyczny.

Np. jak oszacować 99 procentowy obszar ufności przy próbie 20 osobowej?

1-0,99= 0,01 szukamy tej wartości w pierwszym wierszu po czym przesuwamy się w dół do 19 stopni swobody i odczytujemy t

Dla jednostronnego 0,01/2 = 0,005 później postępujemy jak wyżej

Im krótszy przedział (różnica między górną i dolną granicą przedziału), tym bardziej precyzyjna jest estymacja przedziałowa.

Im wyższa jest wartość współczynnika ufności, tym większa jest długość przedziału.

Recommended