142
INSTYTUT HODOWLI I AKLIMATYZACJI ROLIN PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH MATERIAY SZKOLENIOWE Dr hab. Zbigniew Laudaski, prof. nadzw. Katedra Biometrii Wydzia Rolnictwa i Biologii SGGW — Warszawa Mgr in&. Dariusz R. Makowski Pracownia Ekonomiki Nasiennictwa i Hodowli Rolin Zakad Nasiennictwa i Nasionoznawstwa IHAR — Radzików IHAR —RADZIKÓW, 2007

planowanie i wnioskowanie statystyczne w badaniach rolniczych

Embed Size (px)

Citation preview

Page 1: planowanie i wnioskowanie statystyczne w badaniach rolniczych

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH

ROLNICZYCH MATERIAŁY SZKOLENIOWE

Dr hab. Zbigniew Laudański, prof. nadzw. Katedra Biometrii

Wydział Rolnictwa i Biologii SGGW — Warszawa

Mgr inż. Dariusz R. Mańkowski Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin

Zakład Nasiennictwa i Nasionoznawstwa IHAR — Radzików

IHAR — RADZIKÓW, 2007

Page 2: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

2

Page 3: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

3

SPIS TREŚCI

Szczegółowy program seminarium...............................................................5 I. Wprowadzenie do statystyki matematycznej...............................................9

1. Zdarzenia losowe i prawdopodobieństwo..................................................... 9 1.1. Klasyczna definicja prawdopodobieństwa (Laplace’a)..................... 10 1.2. Aksjomatyczna definicja prawdopodobieństwa (Kołmogorowa) ..... 11 1.3. zasadnicze twierdzenia......................................................................... 11 1.4. Prawdopodobieństwo całkowite, wzór Bayesa .................................. 12

2. Zmienne losowe i ich rozkłady teoretyczne.................................................. 14 2.1. Zmienne losowe typu skokowego ........................................................ 14 2.2. Zmienne losowe typu ciągłego............................................................. 18

3. Estymacja punktowa i przedziałowa parametrów populacji jednowymiarowych, hipotezy statystyczne................................................... 26 3.1. Statystyczna próba losowa................................................................... 26 3.2. Pojęcie estymatora (estymacja punktowa)......................................... 28 3.3. Estymacja przedziałowa ...................................................................... 30 3.4. Hipotezy statystyczne i ich weryfikacja, testy statystyczne .............. 34 3.5. Więcej niż dwie średnie — test analizy wariancji ............................. 46 II. Analiza statystyczna danych doświadczalnych............................................51

1. Wprowadzenie ................................................................................................ 51

2. Zasady statystyczne planowania eksperymentów........................................ 52 2.1. Metodyka i technika doświadczeń rolniczych.................................... 53

3. Pojęcie kontrastu ............................................................................................ 68

4. Transformacje danych empirycznych .......................................................... 71

5. Analiza współzależności ................................................................................. 73

6. Funkcja regresji.............................................................................................. 77 6.1. Reresja liniowa dwu zmiennych.......................................................... 77 6.2. Korelacja i regresja wielu zmiennych ................................................ 80 6.3. Modele linearyzowane, regresja krzywoliniowa................................ 82

7. Regresja w analizie wariancji........................................................................ 84

8. Analiza kowariancji........................................................................................ 85

9. Testy χ2............................................................................................................. 87 9.1. Testy zgpdmości χ2 ............................................................................... 87 9.2. Testy niezależności χ2 ........................................................................... 90 9.3. Zgodność rozkładów empirycznych.................................................... 93

Page 4: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

4

10. Klasyfikacja danych statystycznych.................................................................. 95 10.1. Analiza skupień (Cluster analysis)....................................................... 95 10.2. Miary odległości (Dissimilarity measure) ............................................ 95 10.3. Miary bliskości / podobieństwa (Similarity measure) ........................ 97 10.4. Analiza skupień (cd.) ............................................................................ 98

11. Analiza czynnikowa ........................................................................................ 102 11.1. Rotacje czynników, metoda varimax.................................................. 103 III. Ćwiczenia pokazowe...................................................................................... 107

1. Prawidłowe przygotowanie danych do analizy ............................................ 107

2. Wczytywanie danych do Systemu SAS® ....................................................... 109 2.1. SAS Enterprise Guide® ........................................................................ 109 2.2. Środowisko programistyczne SAS® .................................................... 111

3. Podstawowe analizy statystyczne................................................................... 115 3.1. Statystyki opisowe ................................................................................ 115 3.2. Testy t .................................................................................................... 117 3.3. Analiza wariancji.................................................................................. 119

4. Planowanie eksperymentu ............................................................................. 121 4.1. Środowisko programistyczne SAS® .................................................... 121 4.2. Środowisko JMP 6 / 7........................................................................... 123

5. Statystyczne metody opracowywania wyników ........................................... 126 5.1. Analiza wariancji.................................................................................. 126 5.2. Analiza korelacji i regresji prostych................................................... 132 5.3. Analiza regresji wielokrotnej .............................................................. 134 5.4. Analiza kowariancji.............................................................................. 135 5.5. Tablice kontyngencji i testy chi-kwadrat ........................................... 136 5.6. Analiza skupień..................................................................................... 137 5.7. Wielowymiarowa analiza czynnikowa................................................ 139 Literatura........................................................................................................141

Page 5: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

5

SZCZEGÓŁOWY PROGRAM SEMINARIUM

„PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH”(S. Sz. 13/2007)

Kierownik merytoryczny:Dr hab. Zbigniew Laudański, prof. nadzw. Katedra Biometrii SGGW Warszawa

Data i miejsce: 20–22 listopad 2007 r. IHAR Radzików (sala konferencyjna)

Szkolenie skierowane jest w głównej mierze do pracowników naukowych Instytutów Badawczych, Uczelni Wyższych i Firm Hodowlanych, wykorzystujących w swej pracy metody i analizy statystyczne. Obejmuje zagadnienia związane z podstawami statystyki matematycznej, biostatystyki, doświadczalnictwa rolniczego i analizy danych. W trakcie szkolenia zaprezentowane będzie wykorzystanie komputerowego oprogramowania analitycznego (System SAS®, SAS Institute Inc.) do analizy przykładów obrazujących omawiane zagadnienia.

W szczególności szkolenie to kierowane jest do młodych pracowników nauki, którym prezentowane zagadnienia z zakresu doświadczalnictwa rolniczego i statystyki matematycznej są potrzebne do prowadzenia badań.

DATA TEMAT LICZBA GODZIN

GODZINY OD – DO PROWADZĄCY

1 2 3 4 5

Przyjazd uczestników; poczęstunek (kawa, herbata, ciastka) godz. 1000–1030

Otwarcie seminarium; przedstawienie celu; sprawy organizacyjne 0,3 1030–1045

Kierownik merytoryczny Kierownik Sekcji Promocji i Szkoleń

BLOK I Wprowadzenie do statystyki matematycznej

20 listopad 2007 r.

(wtorek)

1. Prawdopodobieństwo, zmienne losowe, rozkłady zmiennych losowych skokowych i ciągłych, parametry zmiennych losowych. Pojęcia populacji generalnej i próby reprezentatywnej – dane statystyczne i ich pozyskiwanie. Szereg rozdzielczy i histogram.

1 1045–1130 prof. SGGW Zbigniew Laudański

2. Estymacja punktowa i przedziałowa parametrów populacji jednowymiarowych. Pojęcie modelu liniowego obserwacji:

i iy m ε= + . Hipotezy merytoryczne i statystyczne. Błędy wnioskowania statystycznego.

1 1130–1215 prof. SGGW Zbigniew Laudański

Page 6: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

6

1 2 3 4 5

Praktyczne stosowanie statystycznych testów istotności: t – Studenta oraz F – Fishera przy weryfikacji hipotez statystycznych:

0 0H : m m= , 0 1 2H : m m= , 2 20 1 2H :σ σ= .

0,5 1215–1235

mgr inż.Dariusz R. Mańkowski IHAR — Radzików Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin

3. Klasyfikacja danych statystycznych według wielu poziomów jednego kryterium (czynnika). Model liniowy obserwacji: ij i ijy m α ε= + + .Hipoteza zerowa postaci

0 1 2 kH : m m m= = =� , jako rozszerzenie hipotezy postaci 0 1 2H : m m= . Metoda analizy wariancji.

1 1235–1320 prof. SGGW Zbigniew Laudański

Przerwa obiadowa — godz. 1320–1420

BLOK I (ciąg dalszy)

Porównania wielokrotne, zastosowanie testów: Tukeya, Duncana, Dunneta. Pojęcie grupy jednorodnej oraz wartości NIR — Najmniejszej Istotnej Różnicy.

0,5 1420–1445 mgr inż.Dariusz R. Mańkowski

4. Ćwiczenia pokazowe. 1 1445–1530 mgr inż.Dariusz R. Mańkowski

Kolacja — godz. 1800

BLOK II

Planowanie eksperymentu

1. Laboratoryjne i polowe doświadczenia porównawcze. Doświadczenia w układach: całkowicie losowych i losowanych bloków (klasyczny, kwadrat łaciński, split-plot, split-block). Modele liniowe danych z wybranych doświadczeń jedno–, dwu– oraz trójczynnikowych. Pojęcie współdziałania (interakcji) czynników. Doświadczenia wielokrotne.

1,25 830–930 prof. SGGW Zbigniew Laudański

2. Doświadczenia czynnikowe w układach kompletnych i niekompletnych, zrównoważonych i niezrównoważonych.

0,75 930–1000 prof. SGGW Zbigniew Laudański

3. Ćwiczenia pokazowe. 1 1000–1045 mgr inż.Dariusz R. Mańkowski

21 listopad 2007 r.

(środa)

Przerwa na kawę i herbatę— godz. 1045–1115

BLOK III Statystyczne metody opracowywania wyników doświadczeń wg modeli analizy wariancji, kowariancji i regresji.

1. Analiza wariancji danych z wieloczynnikowych doświadczeń porównawczych. Transformacje danych. Pojęcie kontrastu.

1 1115–1200 prof. SGGW Zbigniew Laudański

Page 7: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

7

1 2 3 4 5

Weryfikacja hipotez ogólnych i szczegółowych — porównania wielokrotne średnich. 1 1200–1245 mgr inż.

Dariusz R. Mańkowski

Przerwa obiadowa — godz. 1245–1345

BLOK III (ciąg dalszy)

2. Populacje dwuwymiarowe i wielowymiarowe. Analiza korelacja i analiza regresji liniowej dwóch zmiennych. Korelacja i regresja liniowa wielu zmiennych.

1,5 1345–1450 prof. SGGW Zbigniew Laudański

3. Zastosowanie wybranych funkcji jednej zmiennej niezależnej w analizach statystycznych. Regresja w analizie wariancji. Analiza kowariancji.

1 1450–1535 prof. SGGW Zbigniew Laudański

Kolacja — godz. 1700

Wyjazd do teatru — godz. 1750

BLOK III (ciąg dalszy) Inne metody opracowywania danych statystycznych.

1. Zastosowania testu 2 Pearsonaχ − . Hipotezy nieparametryczne dotyczące zgodności rozkładu populacji generalnej z rozkładem teoretycznym na podstawie wieloelementowej próby (szeregi rozdzielcze) oraz zgodności rozkładów kilku populacji generalnych. Badanie niezależności cech jakościowych na podstawie tablic kontyngencji.

1 830–915 prof. SGGW Zbigniew Laudański

22 listopad 2007 r.

(czwartek)

2. Analiza skupień w badaniach zróżnicowania obiektów wielocechowych. Wielowymiarowa analiza czynnikowa w zastosowaniach do grupowania zmiennych (cech).

2 915–1045 prof. SGGW Zbigniew Laudański

Przerwa na kawę i herbatę— godz. 1045–1115

BLOK III (ciąg dalszy)

3. Ćwiczenia pokazowe. 2,5 1115–1315 mgr inż.Dariusz R. Mańkowski

Podsumowanie seminarium połączone z dyskusjąuczestników; rozdanie zaświadczeń. 0,3 13151335

Kierownik merytoryczny Kierownik Sekcji Promocji i Szkoleń

Obiad — godz. 1335

Odwiezienie autokarem do Warszawy — godz. 1415

Page 8: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

8

Page 9: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

9

I. WPROWADZENIE DO STATYSTYKI MATEMATYCZNEJ

1. ZDARZENIE LOSOWE I PRAWDOPODOBIEŃSTWO Doświadczeniem (eksperymentem) losowym nazywamy takie doświadczenie dla którego,

pomimo sprecyzowania warunków jego realizacji, nie jesteśmy w stanie przewidzieć jego wyniku (wynik losowy, przypadkowy).

Rzucając monetą (doświadczenie) nie jesteśmy w stanie określić wyniku — możemy przecież uzyskać orła lub reszkę. Rzucając kostką sześcienną, w wyniku można uzyskać jednąz sześciu możliwości. Są to wszystkie możliwe zdarzenia występujące w tym doświadczeniu.

W każdym doświadczeniu losowym można więc wyróżnić najprostsze, nierozkładalne zdarzenia (wyniki), które nazywamy elementarnymi, o własnościach:

1) dane zdarzenie może zajść lub nie,2) jedno ze zdarzeń elementarnych na pewno zajdzie,3) zajście jednego w tym samym doświadczeniu wyklucza zajście innego.

Zbiór wszystkich zdarzeń elementarnych związanych z doświadczeniem nazywamy przestrzenią zdarzeń elementarnych i będziemy oznaczać symbolem E . Natomiast jej elementy, poszczególne zdarzenia — symbolem ie . Przestrzeń zdarzeń elementarnych możezawierać skończoną liczbę elementów, np. przy rzucie kostką — { }1,2,3,4,5,6E = . Może byćrównież zbiorem nieskończonym przeliczalnym, np. rzut monetą do pierwszego pojawienia sięorła — { }O,RO,RRO,RRRO,E = … jak i nieprzeliczalnym — np. trafienie strzałem do tarczy traktowanej jako powierzchnia o nieprzeliczalnej liczbie punktów.

Każdy podzbiór przestrzeni zdarzeń elementarnych nazywamy zdarzeniem (losowym). Przy czym zdarzeniem pewnym nazywamy całą przestrzeń — E , natomiast zdarzeniem niemożliwym — podzbiór pusty ∅ zbioru E , tzn. podzbiór który niezawiera żadnego zdarzenia. Na przykład przy rzucie kostką oprócz zdarzeń E i ∅ , mamy 6 podzbiorów jednoelementowych, 15 dwuelementowych, 20 trzyelementowych, 15 czteroelementowych i 6 pięcioelementowych.

Z matematycznego punktu widzenia zdarzenia są zbiorami (podzbiorami), dlatego teżmożna wykonywać wszystkie działania mnogościowe, które prowadzą do tworzenia nowych zdarzeń. Stąd też mamy, dla co najmniej dwu zdarzeń A oraz B (np. { }2 4 6, ,A e e e= — parzysta liczba oczek, { }4 5 6, ,B e e e= — liczba oczek większa niż 3), odpowiednie operacje:

1. Suma (alternatywę) zdarzeń— { }2 4 5 6, , ,A B e e e e∪ = ,2. Iloczyn (koniunkcję) zdarzeń — { }4 6,A B e e∩ = . Jeżeli iloczyn jest zbiorem pustym

— ∅ , wtedy mówimy o zdarzeniach wykluczających się (wyłączających się), 3. Różnica zdarzeń— { }2A B e− = ,

4. Negacja zdarzeń — { }1 3 5, ,A e e e=� oznacza zdarzenie przeciwne do zdarzenia A ,

czyli A E A= −� .5. Implikacja zdarzeń — jeżeli jedno zdarzenie pociąga za sobą zajście innego

zdarzenia; np. zdarzenie: C = „wypadła jedynka” pociąga za sobą np. zdarzenie: D = „wypadła nieparzysta liczba oczek”, czyli C D⊂ .

Page 10: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

10

1.1. Klasyczna definicja prawdopodobieństwa (Laplace'a)Jeżeli wszystkie zdarzenia elementarne są jednakowo możliwe, to prawdopodobieństwo

zajścia zdarzenia A jest ilorazem liczby zdarzeń elementarnych sprzyjających zajściu A do

liczby możliwych zdarzeń, tzn. ( ) kP An

= .

Przykład:

Zdarzenie { }3 4 5 6, , ,A e e e e= w rzucie kostką, wtedy 4, 6k n= = , czyli ( ) 23P A = .

Przykład:

Niech zdarzenie A oznacza trafienie „szóstki” w dużego lotka. Liczba elementów przestrzeni E jest równa:

( ) ( )! 49 13 983 816

! ! 6! 49 6 !kn

nkC n k n k = = = = ⋅ − ⋅ −

,

czyli ( ) 1 0,000000071513983816

P A = ≅ .

Możemy wyznaczyć prawdopodobieństwa wylosowania:

„trójki”:

6 433 3

0,0176504496

⋅ =

,

„czwórki”:

6 434 2

0,0009686496

⋅ =

,

„piątki”:

6 435 1

0,00001845496

⋅ =

.

Prawdopodobieństwo jakiejkolwiek wygranej w totolotka jest równe sumie prawdopodobieństw poszczególnych wygranych (suma zdarzeń rozłącznych), tzn. jest ono równe: 0,0186375215 0,019≈ . Oznacza to, że na 1000 zakładów (gier) mamy szansę wygrania w 19 zakładach, natomiast przegrania (zdarzenie przeciwne) w 981 grach.

Dalej, że trafić „trójkę” mamy szansę 0,017650418,220,0009686

= razy większą niż wytypować

„czwórkę”, natomiast trafienie „czwórki” jest 0,000968652,500,00001845

= razy większe niż „piątki”.

Jaka bywa praktyka — np. w zakładach z 27.10.2007 r. mieliśmy:

( ) ( ) ( ) ( )6 1, 5 228, 4 13662, 3 244684⇒ ⇒ ⇒ ⇒ ,

Page 11: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

11

Mamy tutaj, że szansa trafienia „trójki” jest 24468417,9113662

= razy większa niż wytypowanie

„czwórki”, natomiast trafienie „czwórki” jest 1366259,92228

= razy większe niż „piątki”.

Widoczna jest znacząca zgodność teorii z praktyką.

1.2. Aksjomatyczna definicja prawdopodobieństwa (Kołmogorowa)Prawdopodobieństwo zdarzenia A jest to funkcja określona na zbiorze zdarzeń

elementarnych E o określonych możliwościach tworzenia sum zdarzeń, iloczynów, różnic, zdarzeń przeciwnych, pewnych i niemożliwych, spełniająca układ trzech aksjomatów:

1. Dla każdego A mamy ( ) 0P A ≥ ,2. ( ) 1P E = ,3. ( ) ( ) ( )1 2 1 2P A A P A P A∪ ∪ = + +… … dla zdarzeń parami rozłącznych —

i jA A∩ =∅ dla i j≠ .

Z powyższych aksjomatów wynikają wnioski: 1. Dla każdego A prawdziwe jest równość

( ) ( )1P A P A= −� ,

2. Prawdopodobieństwo zdarzenia niemożliwego jest równe zero, tzn. ( ) 0P ∅ = ,czyli ( ) 1P E = ,

3. Dla każdego zdarzenia A E⊆ prawdziwa jest relacja:

( )0 1P A≤ ≤ .

1.3. Zasadnicze twierdzenia Jeżeli zdarzenia A i B są zależne (losowanie bez zwracania), wtedy mamy

prawdopodobieństwo warunkowe:

( ) ( )( )

P A BP A B

P B∩

= , jeśli ( ) 0P B > .

Jeśli natomiast spełniona jest równość:

( ) ( )P A B P A= lub ( ) ( )P B A P B= ,

to zdarzenia A i B są niezależne (losowanie ze zwracaniem).

Prawdopodobieństwo iloczynu dwóch zdarzeń:

( ) ( ) ( ) ( ) ( )P A B P A P B A P B P A B∩ = ⋅ = ⋅ ,

co można uogólnić na dowolną liczbę zdarzeń, np. dla trzech:

( ) ( ) ( ) ( )P A B C P A P B A P C A B∩ ∩ = ⋅ ⋅ ∩ .

Jeżeli zdarzenia A i B są niezależne, wtedy:

( ) ( ) ( )P A B P A P B∩ = ⋅ .

Page 12: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

12

Przykład:

W urnie znajduje się 5 białych, 4 czarne i 3 zielone kule. Losujemy bez zwracania trzy kule. Jakie jest prawdopodobieństwo wylosowania kul: A — białej, B — czarnej oraz C — kuli zielonej?

( ) ( ) ( ) ( )

5 4 3 1 .12 11 10 22

P A B C P A P B A P C A B∩ ∩ = ⋅ ⋅ ∩ =

= + + =

Prawdopodobieństwo sumy zdarzeń:

( ) ( ) ( ) ( )P A B P A P B P A B∪ = + − ∩ .

Jeżeli dwa zdarzenia A i B są rozłączne (wykluczające się), wtedy:

( ) ( ) ( )P A B P A P B∪ = + .

1.4. Prawdopodobieństwo całkowite, wzór Bayesa Załóżmy, że interesujące nas zdarzenie A może zajść, jeśli zajdzie jedno z wykluczających

się zdarzeń: 1 2, , , nB B B… , tworzących układ zdarzeń wyłączających się, a ich suma prawdopodobieństw wynosi 1 — czyli jest zdarzeniem pewnym (jakiekolwiek iB zawsze zajdzie), wtedy prawdopodobieństwo całkowite zajścia zdarzenia A :

( ) ( ) ( )1

n

i ii

P A P B P A B=

= ⋅∑ .

Załóżmy dalej, że przeprowadzono doświadczenie, w wyniku którego zaszło zdarzenie A ,które może zajść tylko wówczas, gdy zajdzie jedno ze zdarzeń iB — dla 1,2, ,i n= … .Ponieważ nie wiemy, które z tych zdarzeń iB zajdzie, więc zdarzenia te nazywamy hipotezami,ich prawdopodobieństwa realizacji ( )iP B — prawdopodobieństwami a’priori, natomiast

( )iP B A — prawdopodobieństwami hipotezy a’posteriori, które to prawdopodobieństwa wyznaczymy korzystając z formuły Bayesa:

( ) ( ) ( )( )

i ii

P B P A BP B A

P A⋅

= ,

gdzie oczywiście ( ) ( ) ( )1

n

i ii

P A P B P A B=

= ⋅∑ .

Przykład:

Nasiona w sklepie pochodzą od trzech producentów odpowiednio: 10%, 50% i 40%. Na podstawie obserwacji stwierdzono, że niekiełkujące nasiona od pierwszego stanowią 2%, od drugiego — 10%, zaś od trzeciego — 4%. Wysiane nasionko nie wykiełkowało — od którego producenta najprawdopodobniej ono pochodzi?

Przeprowadźmy cykl obliczeń dla uzyskania odpowiedzi.

Prawdopodobieństwo (całkowite) tego, że wysiane nasionko nie wykiełkuje jest równe:

( ) 0,1 0,02 0,5 0,1 0,4 0,04 0,068P A = ⋅ + ⋅ + ⋅ = ,

Page 13: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

13

natomiast szanse realizacji poszczególnych trzech hipotez a’posteriori wynoszą odpowiednio:

( ) ( )1 10,1 0,02: 0,0294

0,068H P B A ⋅= = ,

( ) ( )2 20,5 0,1: 0,73530,068

H P B A ⋅= = ,

( ) ( )3 30,4 0,04: 0,2353

0,068H P B A ⋅= = .

Nietrudno zauważyć, że szanse te są zróżnicowane. Różnice te wynikają oczywiście ze zróżnicowania poszczególnych udziałów oraz zdolności kiełkowania nasion pochodzących od poszczególnych producentów.

Page 14: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

14

2. ZMIENNE LOSOWE I ICH ROZKŁADY TEORETYCZNE Przez zmienną losową można intuicyjnie rozumieć zmienną, która w wyniku doświadczenia

losowego może przyjąć wartość z pewnego zbioru liczb rzeczywistych z określonym prawdopodobieństwem. Na przykład:

1) liczba przedmiotów wyprodukowanych na danym stanowisku w ciągu jednej zmiany,

2) wyniki pomiarów, 3) ilość energii zużywanej dziennie w mieszkaniu, 4) wartość cech jednostek statystycznych wylosowanych z populacji generalnej

(próba).

Przestrzeń zdarzeń elementarnych E może być zatem zbiorem o różnych elementach (np. orzeł i reszka, ścianki kostki sześciennej, plony konkretnej rośliny uprawnej, itp.) i każdy taki zbór E można odwzorować na podzbiór liczb rzeczywistych R – (np. odpowiednio: {0, 1}, {1, 2, 3, 4, 5, 6}, {plony od 0 do 150 dt/ha}).

Przykład:

Rzucamy trzema monetami (orzeł— 1, reszka — 0). Każdemu zdarzeniu elementarnemu — {(OOO), (OOR), (ORO), (ROO), (RRO), (ROR), (ORR), (RRR)} przyporządkowujemy sumęliczb, wskazującą na liczbę wyrzuconych orłów. Mianowicie odpowiednio: {3, 2, 2, 2, 1, 1, 1, 0}. W przypadku rzutu kostką do gry, mamy zbiorowi sześciu ścianek kostki przyporządkowany zbiór wartości: {1, 2, 3, 4, 5, 6} — liczba oczek.

Można powiedzieć, że zmienną losową X nazywamy każdą funkcję mierzalną określoną na przestrzeni zdarzeń elementarnych E i przybierającą wartość ze zbioru liczb rzeczywistych (odwzorowanie :X E R→ ).

Zmienne losowe oznaczamy zazwyczaj dużymi literami: , , ,X Y Z … , natomiast wartości przybierane przez te zmienne (tzw. realizacje zmiennych), małymi: , , ,x y z… Wzajemne przyporządkowanie wartości zmiennych losowych i zdarzeń jest jednoznaczne. Oznacza to, żekażde zdarzenie może być scharakteryzowane tylko jedną z możliwych wartości zmiennej losowej. Liczby rzeczywiste x R∈ będące realizacjami zmiennej losowej X , mogą tworzyćskończony lub nieskończony podzbiór zbioru liczb rzeczywistych.

a) Zmienną losową, której zbiór różnych wartości jest przeliczalny albo skończony, nazywamy zmienną losową skokową lub dyskretną. Takimi zmiennymi losowymi sąnp. liczba dzieci w rodzinie, liczba nasion w kłosie czy liczba jaj zniesionych przez kurę w okresie roku.

b) Zmienną losową, której zbiór możliwych realizacji jest nieskończony i nieprzeliczalny nazywamy zmienna losową ciągłą. Takimi zmiennymi typu ciągłego jest np. wzrost, waga, wiek poszczególnych osób czy plon z hektara konkretnej odmiany zboża.

2.1. Zmienne losowe typu skokowego Z definicji zmiennej losowej wynika, że dowolne zbiory jej wartości są zdarzeniami

losowymi, którym odpowiadają określone prawdopodobieństwa. Funkcję przyporządkowującąrealizacjom zmiennej losowej X odpowiadające im prawdopodobieństwa nazywamy funkcjąrozkładu prawdopodobieństwa tej zmiennej lub krócej: rozkładem prawdopodobieństwa.

Zapisujemy to następująco:

( )i iP x x p= = , gdzie 1

1nii p

==∑ oraz 0ip ≥ , 1,2,3,i = …

Page 15: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

15

Liczby ix nazywamy punktami skokowymi zmiennej losowej X , a prawdopodobieństwa

ip — skokami tej zmiennej. Rozkład takiej zmiennej można definiować za pomocą wzoru, tabeli lub wykresu. Na przykład zmienna losowa oznaczająca liczbę orłów uzyskanych w trzech rzutach monetą:

wartości ( ix ) zmiennej X 0 1 2 3

prawdopodobieństwa ( ip ) 18

38

38

18

Rozkład ten można przedstawić graficznie:

Rozkład prawdopodobieństwa wyrażony analitycznie (za pomocą wzoru), podający prawdopodobieństwa tego, że orzeł pojawi się po raz pierwszy w k-tym rzucie monetą( 1,2,k = … ), tzn. { }O,RO,RRO,RRRO,E = … jest następujący:

( ) 12kP X k= = ,

gdzie oczywiście 1

11 2 112 1 2

n

kk =

= =−

∑ , jako suma wyrazów postępu geometrycznego

nieskończonego o ilorazie równym 12 i pierwszym wyrazie równym 1

2 .

Ważnym pojęciem związanym ze zmienną losową i jej rozkładem jest pojęcie funkcji dystrybuanty. Dystrybuantą zmiennej losowej X nazywamy funkcję ( )F x zmiennej rzeczywistej x , określoną wzorem:

( ) ( )F x P X x= ≤ dla każdego x R∈ .

Dla zmiennej losowej skokowej — dystrybuanta określona jest wzorem:

( ) ( )i

ix xF x P X x p

≤= ≤ =∑ dla 0,1,2,i = …

18

38

10 2 3 xi

pi

Page 16: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

16

Dystrybuanta zmiennej losowej oznaczającej liczbę orłów w trzech rzutach monetą jest postaci:

( )F x

d la x

d la x

d la x

d la x

d la x

=

<

≤ <

≤ <

≤ <

0 018

0 1

48

1 2

78

2 3

1 3

Znając rozkład, zawsze można znaleźć dystrybuantę, i odwrotnie. Dystrybuanta zmiennej losowej ma następujące własności:

1. Jest niemalejąca, tzn. dla 1 2x x< zawsze ( ) ( )1 2F x F x≤ oraz prawostronnie ciągła. 2. Jest ograniczona: ( )0 1F x≤ ≤ , przy czym ( ) 0F −∞ = i ( ) 1F +∞ = .3. Jest przedziałami stała oraz może mieć skończoną lub przeliczalną liczbę punktów

nieciągłości (skoków), przy czym mamy: ( ) ( ) ( )P a X b F b F a< ≤ = − .

Największe praktyczne znaczenie mają parametry zmiennej losowej charakteryzujące jej położenie i rozrzut wartości. Są to odpowiednio: wartość średnia (oczekiwana, przeciętna) oraz wariancja i odchylenie standardowe.

Wartością oczekiwaną zmiennej losowej X typu skokowego nazywamy liczbę określonąwzorem:

( ) 1n

i iiE X x p=

= ⋅∑ .

Własności wartości oczekiwanej: 1) wartość oczekiwana stałej jest równa tej stałej, tzn.

( )E C C= ,2) wartość oczekiwana sumy zmiennych losowych jest równa:

( ) ( ) ( )E X Y E X E Y+ = + — sumie wartości oczekiwanych, co można uogólnić nawiele zmiennych.

3) wartość oczekiwana iloczynu dwóch zmiennych jest równa: ( ) ( ) ( )E X Y E X E Y⋅ = ⋅ — iloczynowi wartości oczekiwanych. Oczywiście, stały

mnożnik można wynosić przed wartość średnią, tzn. ( ) ( )E C X C E X⋅ = ⋅ .

( )F x

18

1

10 2 3 x4

48

78

Page 17: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

17

Wariancją zmiennej losowej X typu skokowego nazywamy liczbę:

( ) ( ) ( )

( ) ( )

2 221

22 .

ni iiD X x E X p E X E X

E X E X

== − = − =

= −

Wariancja jest więc wartością oczekiwaną kwadratu odchyleń wartości zmiennej od jej wartości oczekiwanej. Ma ona następujące własności:

1) wariancja stałej jest równa zeru, tzn. ( )2 0D C = ,2) wariancja iloczynu stałej i zmiennej losowej jest równa:

( ) ( )2 2 2D C X C D X⋅ = ⋅ ,3) wariancja sumy (różnicy) dwóch zmiennych niezależnych jest równa sumie ich

wariancji, tzn. ( ) ( ) ( )2 2 2D X Y D X D Y± = + .

Pierwiastek kwadratowy z wariancji nosi nazwę odchylenia standardowego, czyli:

( ) ( )2D X D X= .

2.1.1. Przykładowe rozkłady zm. losowych typu skokowego Wartościom zmiennych losowych można na nieskończenie wiele sposobów

przyporządkowywać prawdopodobieństwa spełniające warunki: 1

1nii p

==∑ (lub

11ii p∞

==∑ )

oraz 0ip ≥ . Oznacza to, że istnieje wiele rozkładów zmiennych losowych skokowych, jednakże niektóre z nich pojawiają się często w praktycznych zastosowaniach. Do nich należą rozkłady:

1. Dwupunktowy — powstały w wyniku podziału zbioru zdarzeń elementarnych na dwie części: zdarzenie A (sukces) i zdarzenie przeciwne A� (niepowodzenie), a następnie przyporządkowanie tym zdarzeniom liczb rzeczywistych: 1A x→ ,

2A x→� . Najczęściej rozważamy zmienną losową gdy: 1 0x = , 2 1x = (rozkład zerojedynkowy). Przyjmując oznaczenia: 1p q= i 2 1p q p= − = . Zatem funkcja rozkładu jest postaci: ( ) 1x xP X x p q −= = dla 0x = lub 1x = i wartość oczekiwana

wynosi ( )E X p= , a wariancja ( )2D X pq= .

2. Dwumianowy (Bernoulliego) — wyraża liczbę sukcesów w serii n niezależnych doświadczeń. Jest więc w gruncie rzeczy sumą n niezależnych zmiennych losowych zerojedynkowych. Funkcja rozkładu prawdopodobieństwa jest tutaj postaci:

( ); ; k n knP X k n p p qk− = = ⋅ ⋅

, dla { }0,1,2, ,k n∈ … ,

czyli: ( )E X np= , ( )2D X npq= i ( )D X npq= .Na przykład wyrzucenie dwu orłów w rzucie trzema monetami jest równe:

( ) 2 3 232;3;0,5 0,5 0,5 3 0,25 0,5 0,3752P X − = = ⋅ ⋅ = ⋅ ⋅ =

.

Parametry rozkładu zmiennej obrazującej rzut trzema monetami: ( ) 1,5E X = ;

( )2 0,75D X = ; ( ) 0,75D X = .

Page 18: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

18

3. Poissona (rozkład rzadkich zdarzeń) — jest granicznym rozkładem niezależnych serii doświadczeń, w których wraz ze wzrostem n maleje do zera prawdopodobieństwo p pojedynczego sukcesu, w ten sposób, że np λ→ , gdzie λ— ustalona liczba dodatnia. Funkcja rozkładu jest postaci:

( )!

k

P k ek

λλ

λ −= ⋅ ,

stąd też mamy, że: ( )E X λ= , ( )2D X λ= , ( )D X λ= .

Przykład:

W jednej z uczelni wylosowano 90 studentów oraz dokonano rejestracji ich nieobecności na obowiązkowych zajęciach w wybranym semestrze. Otrzymano wyniki:

liczba dni nieobecności 0 1 2 3 4 5 6 7 liczba studentów 12 20 27 18 7 3 2 1

Zakładając, że rozkład liczby nieobecności na zajęciach jest rozkładem Poissona, wyznaczyć prawdopodobieństwo, że student będzie nieobecny mniej niż dwa razy oraz trzykrotnie. Mamy tutaj:

( ) 12 20 27 10 1 2 7 2,190 90 90 90

E Xλ = = ⋅ + ⋅ + ⋅ + + ⋅ =� .

Można więc wyznaczyć poszczególne prawdopodobieństwa:

( )3

2,12,13 0,1893!

P X e−= = ⋅ = ,

( ) ( ) ( )0 1

2,1 2,1

2 1 2

2,1 2,1 0,1225 0,2575 0,38.0! 1!

P X P X P X

e e− −

< = = + = =

= ⋅ + ⋅ = + =

2.2. Zmienne losowe typu ciągłego Dla zmiennej losowej ciągłej niemożliwe jest przypisanie jej wartościom dodatnich

prawdopodobieństw sumujących się do jedności. Możliwe jest jednak przyporządkowanie takich prawdopodobieństw przedziałom, np. ( )P x X x x< < + ∆ , gdzie x∆ jest długościąpewnego krótkiego przedziału o początku w punkcie x. Jeżeli przy 0x∆ → istnieje granica

( )f x postaci:

( ) ( )

0limx

P x X x xf x

x∆ →

< < + ∆=

∆,

to granicę tę nazywamy funkcją gęstości prawdopodobieństwa zmiennej losowej X , lub krótko: gęstością prawdopodobieństwa.

Prawdopodobieństwo tego, że zmienna losowa ciągła przyjmuje wartość z przedziałuliczbowego [a, b] jest całką z funkcji gęstości prawdopodobieństwa, tzn.

( ) ( ) ( )b

a

P a X b P a X b f x dx≤ ≤ = < < = ∫ ,

gdyż ( ) ( ) 1P a X a P b X b≤ ≤ = ≤ ≤ = .

Page 19: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

19

Tak więc każda funkcja spełniająca warunki na przedziale [ ],a b :

1. ( ) 0f x ≥ ,

2. ( ) 1b

a

f x dx =∫ lub ( ) 1f x dx+∞

−∞

=∫ , może być funkcją gęstości prawdopodobieństwa.

Dystrybuanta zmiennej losowej ciągłej X nazywamy funkcję postaci:

( ) ( ) ( )x

F x P X x f u du−∞

= ≤ = ∫ , stąd funkcja gęstości jest równa: ( ) ( ) ( )dF xf x F x

dx′= = o ile

( )F x jest funkcją różniczkowalną.

2.2.1. Przykładowe rozkłady zmiennych losowych typu ciągłego 1. Rozkład równomierny — zmienna losowa X ma rozkład równomierny, jeśli jej

funkcja gęstości jest dana wzorem:

( )f x

a b x

1b a−

2a b+

( ) [ ][ ]

1 dla , ,

0 dla ,

x a bf x b ax a b

∈= −∉

Powyższy wykres przedstawia funkcję rozkładu równomiernego (prostokątnego). Postać funkcji dystrybuanty powyższej zmiennej losowej jest następująca:

( ) ( ) 1 1xx x

aa

u x a aF x f u du du xb a b a b a b a b a−∞

−= = = = = ⋅ −− − − − −∫ ∫ .

Jest to więc funkcja liniowa na przedziale [ ],a b o równaniu jak wyżej, natomiast dla pozostałych x jest funkcją stałą: dla x a< mamy ( ) 0f x = , zaś dla x b≥ mamy

( ) 1f x = .

Tak więc dystrybuanta tej zmiennej losowej jest postaci:

( ) [ ]

0

,

1

dla x ax aF x dla x a bb a

dla x b

≤ −= ∈ −

Page 20: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

20

Wykres funkcji dystrybuanty dla a = 1 i b = 4 przedstawia poniższy rysunek

Zmienna ta przyjmuje więc wartości z przedziału [a, b] z jednakowymi szansami. Jej parametry są równe:

( ) ( ) ( ) ( )2 2 2

2 2 2

bb b

a a a

x x b a a bE X x f x dx dxb a b a b a

− += ⋅ = = = =− − −

∫ ∫ ,

( ) ( ) ( ) ( )2222 1

2 12

b b

a a

b aa bD X x E X f x dx x dxb a

−+ = − ⋅ = − ⋅ = − ∫ ∫ ,

( ) ( ) ( )22

12 2 3b a b aD X D X− −= = = .

2. Rozkład normalny (Gaussa–Laplace'a) — jest podstawowym rozkładem zmiennej

losowej ciągłej o funkcji gęstości danej wzorem: ( )( )2

2212

x m

f x e σ

σ π

− −

= ⋅ , gdzie:

( )m E X= , ( )D Xσ = .

Fakt ten najczęściej zapisujemy: ( )2~ ,X N m σ . Krzywa normalna jest krzywą

symetryczną względem prostej x m= , posiada maksimum w punkcie x m= , które

jest równe 12σ π

. Punkt ten jest nie tylko wartością oczekiwaną, ale także

medianą i modalną (dominantą) rozkładu. Krzywa ta ma dwa punkty przegięcia w punktach: x m σ= − oraz x m σ= + . Dystrybuanta rozkładu jest określona

wzorem: ( ) ( )2

2

1 exp22

x t mF x dt

σσ π −∞

− − = ⋅

∫ dla x R∈ .

Page 21: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

21

Lewe i prawe ramię krzywej zbliżają się asymptotycznie do osi odciętych (x), przy czym poza przedziałem „trzysigmowym” rzędne niewiele różnią się od zera. Mamy odpowiednio:

( ) 0,6827P m X mσ σ− ≤ ≤ + = ,

( )2 2 0,9545P m X mσ σ− ≤ ≤ + = ,

( )3 3 0,9973P m X mσ σ− ≤ ≤ + =

Ostatnia relacja określa tzw. prawo trzech sigm — prawie wszystkie elementy populacji mieszczą się w przedziale trzysigmowym.

2.2.2. Standaryzacja rozkładu normalnego Dla uniknięcia żmudnych rachunków przy wyliczaniu wartości gęstości i dystrybuanty

zmiennej losowej ( )2~ ,X N m σ stosuje się przekształcenie zwane standaryzacją:X mZσ−= .

W ten sposób funkcja gęstości rozkładu normalnego standaryzowanego — ( )~ 0;1Z N , jest

postaci: ( )2

212

z

g z eπ

= .

Wykres gęstości rozkładu normalnego standaryzowanego

Page 22: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

22

Wartości funkcji gęstości i dystrybuanty rozkładu ( )~ 0;1Z N są tablicowane. Natomiast dla obliczania dowolnego prawdopodobieństwa można wykorzystywać równość:

( ) a m X m b m a m b mP a X b P P Zσ σ σ σ σ− − − − − ≤ ≤ = ≤ ≤ = ≤ ≤

.

Przykład:

Obliczyć prawdopodobieństwo, że wzrost przypadkowego mężczyzny będzie zawarty między 190 a 200 cm, skoro wiadomo, że populacja mężczyzn ma rozkład ( )~ 172;36X N .

( )

( )

190 172 200 172190 2006 6

3 4,67 0,0013

P X P Z

P Z

− − ≤ ≤ = ≤ ≤ =

= ≤ ≤ =

Rozkład ( )2~ ;X N m σ , f. g. p.: ( )( )2

2212

x m

f x e σ

σ π

− −

= X mZσ−= rozkład

standaryzowany ( )~ 0;1Z N , f. g. p.: ( )2

212

z

g z eπ

= .

Funkcja gęstości prawdopodobieństway=normal(x;0;1)

0,00

0,15

0,30

0,45

0,60

-3,50 -1,75 0,00 1,75 3,50

{ }1,75 0,959941P X ≤ =

Funkcja dystrybuanty — ( )21

212

z tF z e dt

π−

−∞

= ∫Dystrybuanta

p=inormal(x;0;1)

0,0

0,2

0,4

0,6

0,8

1,0

-3,50 -1,75 0,00 1,75 3,50

( ) ( )1,75 1,75 0,959941F P X= ≤ =

Page 23: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

23

Dystrybuanta rozkładu N(0; 1) — ( )21

212

z tF z e dt

π−

−∞

= ∫z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586 0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535 0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409 0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173 0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793 0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240 0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490 0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524 0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327 0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891 1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214 1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298 … … … … … … … … … … …1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574 2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 … … … … … … … … … … …2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861 3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900 3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992 3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997

Jeżeli z jest liczbą ujemną, to ( ) ( )1F z F z= − −

( ) ( )F z P Z z= ≤

Page 24: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

24

Dystrybuanta rozkładu N(0; 1) — ( )21

212

z t

z

z e dtπ

Φ = ∫z 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1 0,0 0,00798 0,01596 0,02393 0,03191 0,03988 0,04784 0,05581 0,06376 0,07171 0,07966 0,1 0,08759 0,09552 0,10343 0,11134 0,11924 0,12712 0,13499 0,14285 0,15069 0,15852 0,2 0,16633 0,17413 0,18191 0,18967 0,19741 0,20514 0,21284 0,22052 0,22818 0,23582 0,3 0,24344 0,25103 0,25860 0,26614 0,27366 0,28115 0,28862 0,29605 0,30346 0,31084 0,4 0,31819 0,32551 0,33280 0,34006 0,34729 0,35448 0,36164 0,36877 0,37587 0,38292 0,5 0,38995 0,39694 0,40389 0,41080 0,41768 0,42452 0,43132 0,43809 0,44481 0,45149 0,6 0,45814 0,46474 0,47131 0,47783 0,48431 0,49075 0,49714 0,50350 0,50981 0,51607 0,7 0,52230 0,52848 0,53461 0,54070 0,54675 0,55275 0,55870 0,56461 0,57047 0,57629 0,8 0,58206 0,58778 0,59346 0,59909 0,60468 0,61021 0,61570 0,62114 0,62653 0,63188 0,9 0,63718 0,64243 0,64763 0,65278 0,65789 0,66294 0,66795 0,67291 0,67783 0,68269 1,0 0,68750 0,69227 0,69699 0,70166 0,70628 0,71086 0,71538 0,71986 0,72429 0,72867 1,1 0,73300 0,73729 0,74152 0,74571 0,74986 0,75395 0,75800 0,76200 0,76595 0,76986 … … … … … … … … … … …1,9 0,94387 0,94514 0,94639 0,94762 0,94882 0,95000 0,95116 0,95230 0,95341 0,95450 2,0 0,95557 0,95662 0,95764 0,95865 0,95964 0,96060 0,96155 0,96247 0,96338 0,96427 2,1 0,96514 0,96599 0,96683 0,96765 0,96844 0,96923 0,96999 0,97074 0,97148 0,97219 2,2 0,97289 0,97358 0,97425 0,97491 0,97555 0,97618 0,97679 0,97739 0,97798 0,97855 … … … … … … … … … … …2,9 0,99639 0,99650 0,99661 0,99672 0,99682 0,99692 0,99702 0,99712 0,99721 0,99730 3,0 0,99739 0,99747 0,99755 0,99763 0,99771 0,99779 0,99786 0,99793 0,99800 0,99806 3,1 0,99813 0,99819 0,99825 0,99831 0,99837 0,99842 0,99848 0,99853 0,99858 0,99863 3,2 0,99867 0,99872 0,99876 0,99880 0,99885 0,99889 0,99892 0,99896 0,99900 0,99903 3,3 0,99907 0,99910 0,99913 0,99916 0,99919 0,99922 0,99925 0,99928 0,99930 0,99933 3,4 0,99935 0,99937 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 0,99952 0,99953 3,5 0,99955 0,99957 0,99958 0,99960 0,99961 0,99963 0,99964 0,99966 0,99967 0,99968 3,6 0,99969 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 0,99977 0,99978 0,99978 3,7 0,99979 0,99980 0,99981 0,99982 0,99982 0,99983 0,99984 0,99984 0,99985 0,99986 3,8 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 0,99989 0,99990 0,99990 0,99990 3,9 0,99991 0,99991 0,99992 0,99992 0,99992 0,99993 0,99993 0,99993 0,99993 0,99994

( ) ( ) ( )( ) ( )1 2 1z F z F z F zΦ = − − = ⋅ −

( ) ( )z P z Z zΦ = − ≤ ≤

Page 25: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

25

2.2.3. Rozkład empiryczny a rozkład normalny Wiele zjawisk w naszym otoczeniu zachowuje się „normalnie”.

Plon_z_pola_dt/ha

87,582,5

77,572,5

67,562,5

57,552,5

47,542,5

37,532,5

27,522,5

17,512,5

7,5

Plon pszenicy ozimej80

60

40

20

0

Std. Dev = 11,78 Mean = 38,7N = 574,00

Std. Dev = 103,90 Mean = 393,7N = 191,00

Plony buraka cukrowego z 1 ha

625,0575,0

525,0475,0

425,0375,0

325,0275,0

225,0175,0

125,0

Rozkład empiryczny plonów buraka cukrowego a rozkład normalny30

20

10

0

Wykresy „słupkowe” (histogram) przedstawiają rozkład empiryczny (wartości obserwowane) badanej cechy (plon) na tle rozkładu teoretycznego ( tutaj — normalnego).

Page 26: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

26

3. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA PARAMETRÓW POPULACJI JEDNOWYMIAROWYCH, HIPOTEZY STATYSTYCZNE

Statystyka matematyczna zajmuje się zasadami i metodami uogólniania wyników otrzymanych z próby losowej na całą populację (zbiorowość z której została pobrana). To postępowanie nosi nazwę wnioskowania statystycznego (indukcyjnego) dla którego wyróżnia siędwa działy:

1. estymację, czyli szacowanie wartości parametrów lub postaci rozkładu zmiennej losowej w populacji na podstawie rozkładu empirycznego dla próby,

2. weryfikację (testowanie) hipotez statystycznych, czyli sprawdzanie określonych przypuszczeń (założeń) wysuniętych w stosunku do parametrów lub rozkładu populacji generalnej na podstawie próby.

3.1. Statystyczna próba losowa Wnioskowanie o populacji generalnej jest zasadne, gdy próba jest reprezentatywna, tzn. gdy

jej struktura ze względu na interesujące nas cechy statystyczne jest zbliżona do struktury populacji. A jest reprezentacyjna, gdy:

1. elementy populacji są pobierane do próby w sposób losowy,

2. próba jest dostatecznie liczna.

Wyróżniamy różne schematy losowania elementów populacji:

1. losowanie zależne (bez zwracania elementów populacji) i niezależne (ze zwracaniem tychże elementów),

2. losowanie indywidualne (losuje się pojedyncze elementy) i zespołowe (losowanie grupy elementów),

3. losowanie jednostopniowe (losuje się od razu element populacji) i wielostopniowe (podział populacji na grupy które dzielimy na podgrupy kolejnego stopnia i losujemy kolejno grupy i podgrupy, by w ostatniej losować pojedyncze elementy),

4. losowanie ograniczone (warstwowe — z części populacji) i nieograniczone (z całej populacji).

Losowanie indywidualne, nieograniczone i niezależne nazywamy losowaniem prostym,a otrzymaną próbę określamy mianem próby losowej prostej.

We wszystkich dalszych rozważaniach używając słowa: próba lub próba losowa będziemy mieć na myśli próbę losową prostą.

3.1.1. Parametry próby Próbę n-elementową można scharakteryzować pewnymi jej parametrami, zwanymi

statystykami. Statystyką z próby nazywamy zmienną losową będącą funkcją obserwowanych w próbie zmiennych losowych. Jeśli oznaczymy statystykę przez θ, a obserwowane zmienne losowe przez 1 2, , , nX X X… , to możemy zapisać jako funkcję postaci: ( )1 2, , , nf X X Xθ = … .

Niech 1 2, , , nx x x… oznacza ciąg pomiarów, to wartość średnią tych pomiarów liczymy według wzoru:

1

1 nii

x xn =

= ∑ .

Page 27: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

27

Zauważamy dla tak obliczanych wartości x własność pewnej regularności statystycznej, tzn. o ile poszczególne pomiary ix mogą wykazywać brak jakiejkolwiek regularności względem siebie, to ich wartości średnie dla dużych n wykazują uderzającą regularność.

Dokładność tej oceny wyrażamy przez odchylenie standardowe, które określane jest jako:

( )2

1

1

nii

x

x xs

n=

−=

−∑ .

Dla dużych n wartości xs wykazują regularność. Można stwierdzić, że gdy liczba n doświadczeń rośnie, to zarówno wartość x jak i xs dążą asymptotycznie do stałych wielkości, które są niezależne od n.

(MNK) — Każdy pomiar ix , możemy zapisać

i ix m ε= + , dla i=1, 2, …, n,

co można traktować jako układ n – równań z (n+1) niewiadomymi.

Gauss na przełomie XVIII i XIX wieku zaproponował procedurę estymacji znanej jako metoda najmniejszych kwadratów (MNK), polegającą na poszukiwaniu takiego rozwiązania niniejszego układu równań aby suma kwadratów odchyleń iε była jak najmniejsza.

Zapisać ten warunek możemy następująco:

( )221 1

min!n ni i ii i x mε

= == − =∑ ∑ ,

co oznacza, że istnieje wartość m spełniająca nierówność postaci:

( ) ( )2 21 1

ˆn ni ii ii ix m x m

= =− ≤ −∑ ∑ , dla każdej innej wartości m .

Warunek ten praktycznie sprowadza się do n+1 równania postaci ( )12 0n

ii x m=

− − =∑ .W ten sposób uzyskujemy rozwiązania naszego układu równań i ix m ε= + :

1

1ˆ nii

m x xn =

= = ∑ , ˆ ˆix mε = − , dla i=1,...,n,

a średni błąd pomiarów w próbie:

( )( )2

1n

iix p

x xS

n=

−= ∑ .

Tak uzyskiwane ˆiε posiadają własność

( )1 1 1ˆ 0n n ni i ii i ix x x n xε

= = == − = − ⋅ =∑ ∑ ∑ .

Fakt ten można potraktować jako „grę z przyrodą” o sumie zerowej, tzn. „wygrane”(np. ˆ 0iε > ) i „przegrane” ( ˆ 0iε < ) bilansują się.

Podstawowe statystyki z próby możemy więc zapisać:

średnia:

1

1 nii

x xn =

= ∑ ,

Page 28: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

28

wariancja:

( )22

1

1 varnp ii

xS x xn n=

= − =∑ , gdzie ( )2

1var n

iix x x

== −∑ ,

odchylenie standardowe:

( )22

1

1 np p ii

S S x xn =

= = −∑ ,

oraz współczynnik zmienności:

100%pSCV

x= ⋅ .

Dla konkretnych prób określone statystyki przyjmują na ogół różne wartości. Np. z pewnej

populacji pobrano próbę (35, 37, 40, 38, 40), wtedy 35 37 40 38 40 385

x + + + += = , średnia na

podstawie innej próby z tej samej populacji, np. (37, 38, 45, 42, 43), wynosi 41x = .

Jest to oczywiste, gdyż każda statystyka jako funkcja zmiennych losowych jest zmiennąlosową, tzn. posiada pewien rozkład. W zastosowaniach praktycznych statystyki najczęściej wykorzystywane są rozkłady średniej arytmetycznej, wariancji i odchylenia standardowego.Np. dla cechy X — populacji normalnej o wartości średniej m oraz wariancji 2σ —

( )2;N m σ , mamy:

( ) ( )1 1

1 1 1n ni ii i

E X E X E X n m mn n n= =

= = = ⋅ = ∑ ∑ ,

( ) ( )2

2 2 2 22 21 1

1 1 1n ni ii i

D X D X D X nn n n n

σσ= =

= = = ⋅ = ∑ ∑ ,

tym samym mamy, że

( ) 2D X n

σ= .

3.2. Pojęcie estymatora (estymacja punktowa) Estymator jest to wielkość wyznaczona na podstawie próby losowej (a więc statystyka)

służąca do oceny wartości nieznanych parametrów populacji. Należy zauważyć, że nie każda statystyka obliczona z elementów próby może być estymatorem określonego parametru populacji. Istnieją lepsze lub gorsze estymatory z uwagi na popełnianie błędu szacowania parametru populacji. Dlatego w celu uzyskania dobrego szacowania parametrów populacji na podstawie próby wprowadza się pewne własności jakie musi spełniać dobry estymator.

Są to m.in.: nieobciążoność, zgodność, efektywność i dostateczność.θ — estymator parametru θ jest estymatorem nieobciążonym jeżeli posiada własność postaci:

( )ˆE θ θ= ,θ — estymator parametru θ jest estymatorem zgodnym jeżeli posiada własność postaci: dla

każdego, dowolnie małego 0ε > , zachodzi { }ˆlim 1nnP θ θ ε

→∞− ≤ = ,

Page 29: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

29

θ — estymator parametru θ jest estymatorem efektywnym jeżeli zdefiniujemy efektywność oceny 2θ względem 1θ parametru θ wzorem postaci:

( )( )

2

1

ˆ

ˆE

efEθ θ

θ θ

−=

−, a dla estymatorów nieobciążonych:

22

21

ˆˆ

DefDθθ

= ,

to estymator 2θ jest efektywniejszy od estymatora 1θ jeśli 1ef < .W ten sposób estymator o najmniejszej wartości ef względem pewnego 0θ , w danej klasie estymatorów jest najefektywniejszym. Praktycznie jest sens mówić o estymatorach najefektywniejszych w klasie estymatorów nieobciążonych. Wartości estymatora najefektywniejszego wykazują się najmniejszym rozrzutem wokół prawdziwej wartości parametru. Zatem ocena parametru θ , uzyskana za pomocą estymatora najefektywniejszego, ma najmniejszy błąd standardowy (inaczej, jest obarczona najmniejszym błędem).

θ — estymator parametru θ jest estymatorem dostatecznym jeżeli zawiera wszystkie informacje o parametrze θ istniejące w próbie. Na przykład estymator średniej populacji m dany wzorem postaci:

1

1

11

nii

x xn

==− ∑ ,

jest nieobciążony i zgodny, ale nie jest dostateczny, jak również jest nieefektywny

Natomiast średnia arytmetyczna 1

1 nii

x xn =

= ∑ spełnia wszystkie te wymienione warunki,

zaś ( )22

1

1 np ii

S x xn =

= −∑ jest estymatorem obciążonym prawdziwej wariancji. Estymatorem

nieobciążonym wariancji populacji jest wielkość:

( )22 21

1 var1 1 1

np ii

n xs S x xn n n=

= = − =− − −∑

Do wnioskowania statystycznego w populacjach normalnych często wykorzystujemy standaryzację zmiennej losowej X postaci:

X m X mZ nn

σ σ− −= =

Jeżeli odchylenie standardowe populacji nie jest znane to nie można posługiwać sięw przypadku małych prób rozkładem normalnym. Dokonujemy wtedy przekształcenia zwanego studentyzacją

X m X mt ns sn

− −= = ,

gdzie ( )221

11

nii

s s x xn =

= = −− ∑ .

Statystyka t tak określona jest niezależna od 2σ i ma rozkład t Studenta o n–1 stopniach swobody (liczba możliwych związków z n zmiennymi próby — jeden to związek średniej arytmetycznej). Przy n→∞ rozkład ten jest zbieżny do rozkładu normalnego

( )20; 1N m σ= = . Inne rozkłady wartości empirycznych: rozkład χ2 Pearsona oraz rozkład F Fishera są rozkładami wartości z których będziemy praktycznie korzystać. Wartości tych rozkładów do celów praktycznych są dostępne w postaci odpowiednich tablic.

Page 30: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

30

Podsumujmy więc:

średnia:

1

1 nii

x xn =

= ∑ ,

wariancja:

( )22

1

1 var1 1

nii

xs x xn n=

= − =− −∑ , gdzie ( )

2

1var n

iix x x

== −∑ ,

odchylenie standardowe:

( )22

1

11

nii

s s x xn =

= = −− ∑ ,

oraz współczynnik zmienności:

100%sCVx

= ⋅ .

3.3. Estymacja przedziałowa Estymacja przedziałowa polega na konstruowaniu przedziału liczbowego, który

z określonym z góry (bliskim jedności) prawdopodobieństwem będzie zawierał nieznanąwartość szacowanego parametru. Przedział ten nosi nazwę przedziału ufności, i jest postaci:

{ }1 2 1P g gθ α≤ ≤ = − .

Twórcą metody estymacji przedziałowej był statystyk polskiego pochodzenia Jerzy Spława-Neyman (1894 – 1981). W tym ujęciu parametr θ jest wielkością stałą (nielosową), zaś końce przedziału: dolna — 1g i górna — 2g , są zmiennymi losowymi zależnymi od prawdopodobieństwa ( )1 α− , nazywanego poziomem ufności, natomiast α — poziomem istotności. Poprawnym jest więc stwierdzenie, że „z prawdopodobieństwem ( )1 α− przedziałufności obejmuje szacowany parametr θ ”.

Należy pamiętać, że to nie szacowany parametr trafia do przedziału ufności — gdyżparametr ten jest wielkością stałą, więc jego wartość nie może „trafić” do przedziału ufności!

3.3.1. Przedział ufności dla wartości średniej Przedział ufności dla średniej populacji m możemy napisać w postaci:

{ }, 1 , 1 1n nP t t tα α α− −− ≤ ≤ = − ,

gdzie x m x mt ns sn

− −= = , stąd też otrzymujemy, że:

, 1 , 1 1n ns sP x t m x tn nα α α− −

− ⋅ ≤ ≤ + ⋅ = −

,

gdzie wielkość xss

n= nazywamy błędem średniej, , 1ntα − jest wartością rozkładu t Studenta

dla poziomu istotności α oraz liczby swobody równej n–1.

Page 31: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

31

Przykład:

Czas potrzebny na wykonanie pewnego urządzenia ma rozkład normalny. W celu oszacowania średniego czasu pracy potrzebnego na tę czynność, zmierzono czasy wykonania dla 21 pracowników wylosowanych losowo i otrzymano wyniki w godzinach:

4,00; 3,35; 3,18; 2,89; 3,60; 3,05; 3,71; 3,30; 3,42; 2,96; 3,56; 2,97; 2,78; 2,39; 3,16; 3,04; 2,54; 2,59; 3,62; 3,28; 2,76.

Zbudować przedział ufności dla średniej czasu wykonania, przyjmując poziom ufności ( )1 0,95α− = . (odp. 2,96 ≤ m ≤ 3,34)

21

166,15ii

x=

=∑ , 21 21

211,8639iix

==∑ , min 2,39= , max 4,00= , 3,15x = , 3,16eM = ,

var 3,4914x = , 2 3,4914 0,1745720

s = = , 0,41782s = , 0,41782 0,1326 13,26%3,15

V = = = ,

0,41782 0,091174,5825821x

ss = = = , 0,05;20 2,086tα = = ,

( ) ( )3,15 2,086 0,09117; 3,15 2,086 0,09117 2,96; 3,34− ⋅ + ⋅ = .

Na poziomie ufności 0,95 możemy stwierdzić, że średni czas wykonania tego urządzenia przez wszystkich pracowników jest nie mniejszy niż 2,96 i nie większy niż 3,34 godziny.

3.3.2. Przedział ufności dla różnicy średnich

( ) ( ){ }1 2 , 1 2 1 2 , 1v r v rP x x t s m m x x t sα α α− − ⋅ ≤ − ≤ − + ⋅ = − ,

gdzie:

n1, n2 — liczebność próby z pierwszej i drugiej populacji,

m1, m2 — wartości średnie populacji o jednakowych wariancjach,

tzn. 2 21 2σ σ= , gdzie: 2

1 2

1 1r es s

n n

= +

— błąd różnicy średnich, przy czym mamy, że:

( ) ( )( ) ( )2 2

1 1 2 22 1 2

1 2 1 2

1 1var var1 1 2e

n s n sx xsn n n n

− + −+= =− + − + −

— wariancja wspólna,

(dlatego też powinna zachodzić równość wariancji w rozpatrywanych populacjach), ,vtα –wartość statystyki t Studenta, zaś 1 2 2v n n= + − — liczba stopni swobody wspólnej wariancji.

Przykład:

Badano próby sera dojrzewającego w pewnej wytwórni latem (populacja A) i zimą(populacja B). Wytwórnia deklaruje jednakową zawartość tłuszczu w danym gatunku sera tak w produkcji w lato jak i w produkcji zimą. Z prób 20 elementowych uzyskano odpowiednio:

54,26Ax = , 2 23,13As = , 56,18Bx = , 2 13,27Bs = .

Czy deklarację producenta można uznać za zasadną, przy prawdopodobieństwie ( )1 0,95α− = ?

2 19 23,13 19 13,27 23,13 13,27 18,2019 19 2es ⋅ + ⋅ += = =

+,

Page 32: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

32

1 118,2 18,2 0,1 1,3520 20rs = ⋅ + = ⋅ =

,

0,05;38 2,023 1,35 2,731rt sα = ⋅ = ⋅ = ,

( ) ( )54,26 56,18 2,73; 54,26 56,18 2,73 4,65; 0,81− − − + = − .

Różnica między średnimi zawartościami tłuszczu latem i zimą jest nie mniejsza niż(– 4,65%) ale nie większa niż 0,81%. Dopuszczamy więc także możliwość „zera” dla tej różnicy, stąd też dopuszczamy równość tych średnich zawartości tłuszczu z prawdopodobieństwem ufności ( )1 0,95 1 0,05α− = = − .

Zauważmy, że jeżeli zachodzi relacja postaci:

( );A B v rx x t s NIRα α− > ⋅ = ,

to dopuszczamy zróżnicowanie faktycznych średnich w populacjach.

3.3.3. Przedział ufności dla wariancji Podobnie można skonstruować przedział ufności dla wariancji populacji. Jest on postaci:

22 2

, 1 1 , 12 2

var var 1n n

x xPα α

σ αχ χ− − −

≤ ≤ = −

.

Określa on granice losowego przedziału obejmującego nieznaną wartość wariancji populacji.

Odpowiednio przedział ufności dla odchylenia standardowego:

2 2

, 1 1 , 12 2

var var1

n n

x xP α α

σ αχ χ− − −

≤ ≤ = −

.

Dla populacji mającej rozkład dwupunktowy (zerojedynkowy), tzn. zakładamy, że elementy populacji podzielone są na dwie klasy, przy czym frakcja elementów wyróżnionych wynosi p i nie jest małym ułamkiem ( 0,05p > ). Z populacji wylosowano dużą liczbę elementów próby ( 100n > ), wtedy przedział ufności dla wskaźnika struktury p populacji generalnej jest określony przybliżonym wzorem:

1 1

1

m m m mm mn n n nP z p zn n n nα α α

⋅ − ⋅ − − ⋅ ≤ ≤ + ⋅ ≈ −

,

gdzie m jest elementów wyróżnionych i znalezionych w próbie, zα jest wartością odczytanąz tablic rozkładu normalnego ( )0;1N w taki sposób, by { } 1P z Z zα α α− ≤ ≤ = − dla ustalonego α.

Page 33: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

33

Przykład:

Spośród partii żarówek wyprodukowanych w fabryce wylosowano 100 szt. i sprawdzono ich jakość. 16 żarówek okazało się złych. Przyjmując poziom ufności 0,99 oszacować procent braków w wyprodukowanej partii żarówek.

( ) ( )0,16 1 0,16 0,16 1 0,160,16 2,576 0,16 2,576

100 100p

⋅ − ⋅ −− ⋅ ≤ ≤ + ⋅ ,

0,16 2,576 0,03666 0,16 2,576 0,03666p− ⋅ ≤ ≤ + ⋅ ,

0,16 0,095 0,16 0,095p− ≤ ≤ + ,

0,065 0,255p≤ ≤ .

Tak więc poziom złych żarówek w danej partii zawiera się w przedziale: 6,5% a 25,5%. Zwróćmy uwagę, że gdyby było 160 wadliwych żarówek na 1000 sprawdzanych, wtedy zamiast 0,095 byłoby 0,0299, czyli mielibyśmy przedział ufności: 0,13 0,19p≤ ≤ . Dlaczego?

3.3.4. Przedział ufności dla różnicy dwóch frakcji Niech badana cecha X w dwóch populacjach A i B ma rozkład dwupunktowy

z parametrami Ap i Bp . W celu oszacowania przedziałem ufności różnicy tych prawdopodobieństw, wylosowano dwie próby proste o liczebności 100An ≥ i 100Bn ≥

jednostek. Niech A

A

mn oraz B

B

mn oznaczają wskaźniki struktury odpowiednio z pierwszej

i drugiej próby, natomiast A B

A B

m mp n n+= + jest frakcją wyróżnionych elementów

jednocześnie w obu próbach ( Am i Bm — są to liczby wyróżnionych elementów spośród 100An ≥ i 100Bn ≥ populacji A oraz B ), zaś błąd różnicy tych parametrów jest równy:

( ) ( )11 11rA B

p pSP p p

n n n⋅ −

= ⋅ − ⋅ + =

,

gdzie A B

A B

n nnn n⋅=+

.

W efekcie wzór na przedział ufności dla różnicy frakcji, gdzie zα — wartość zmiennej normalnej dla poziomu istotności α, jest postaci:

1A B A Br A B r

A B A B

m m m mP z SP p p z SPn n n nα α α

− − ⋅ ≤ − ≤ − + ⋅ ≈ −

.

Przykład:

Spośród wylosowanych 500 mężczyzn i 600 kobiet było odpowiednio 200 i 252 osoby palące. Zbudować przedział dla różnicy frakcji palaczy papierosów wśród mężczyzn i wśród kobiet przyjmując poziom ufności α = 0,95 ( 0,05 1,96z = ).

Obliczenia:

200 0,4500

A

A

mn

= = ; 252 0,42600

B

B

mn

= = ;

Page 34: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

34

452 0,4111100

A B

A B

m mpn n

+= = =+

, 500 600 272,73500 600

A B

A B

n nnn n⋅ ⋅= = =+ +

;

( )1 0,411 0,589 0,0298272,73r

p pSP

n⋅ − ⋅= = = , czyli

3.4. Hipotezy statystyczne i ich weryfikacja, testy statystyczne Drugim obok estymacji (szacowania wartości parametrów lub postaci rozkładu zmiennej

losowej w populacji na podstawie rozkładu empirycznego dla próby) podstawowym rodzajem wnioskowania statystycznego (indukcyjnego) jest weryfikacja (testowanie) hipotez statystycznych, czyli sprawdzanie określonych przypuszczeń (założeń) wysuniętych w stosunku do parametrów lub rozkładu populacji generalnej na podstawie próby.

Hipotezy statystyczne są odpowiednio sformułowanymi przypuszczeniami dotyczącymi rozkładu populacji. Mogą one mieć różną postać w zależności od hipotez badawczych, wysuwanych przez specjalistów różnych dziedzin, którym statystyka służy swymi metodami.

Hipotezy parametryczne, precyzujące wartości parametrów w rozkładzie populacji, należą do najczęściej sprawdzanych hipotez statystycznych.

Weryfikacja hipotezy statystycznej odbywa się przez zastosowanie specjalnego narzędzia, zwanego testem statystycznym. Jest to reguła postępowania, która każdej możliwej próbie losowej przyporządkowuje decyzję przyjęcia lub odrzucenia sprawdzanej hipotezy.

Istota każdego testu polega na tym, aby uchronić się przed popełnieniem błędu pierwszego rodzaju (α) – polegającym na odrzuceniu hipotezy prawdziwej, jak i przed popełnieniem błędu drugiego rodzaju (β), polegającym na przyjęciu hipotezy fałszywej.

Hipoteza H0 odrzucona przyjęta prawdziwa α 1–αfałszywa 1–β β

W teorii weryfikacji hipotez statystycznych większe znaczenie przypisywane jest błędowi I-go rodzaju. Z tego powodu od testu statystycznego wymaga się by szansa (prawdopodobieństwo) popełnienia tego błędu była mała, a prawdopodobieństwo (α) jego popełnienia nazywamy poziomem istotności.

Wybór poziomu istotności — α jest sprawą arbitralną. Określa on stopień naszej pewności co do odrzucenia hipotezy H0, tzn. jeżeli test odrzucił weryfikowaną hipotezę, to im na mniejszym poziomie α to zrobił, tym bardziej możemy być „pewniejsi”, że rzeczywiście nasza hipoteza jest nieprawdziwa.

Przyjęcie lub odrzucenie hipotezy przy pomocy testu nie jest równoznaczne z logicznym udowodnieniem jej prawdziwości lub fałszywości. Należy bowiem pamiętać, że w teście statystycznym sprawdzającym daną hipotezę na podstawie danych z próby, mamy szansę co najwyżej α (poziom istotności) na prawdziwość tej hipotezy, i dlatego ją odrzucamy.

Testy statystyczne, które na podstawie wyników próby losowej pozwalają podejmowaćjedynie decyzję odrzucenia hipotezy lub stwierdzenia braku podstaw do jej odrzucenia,nazywamy testami istotności. Są one w większości przypadków zupełnie wystarczające dla

07,84% 3,84%A Bp p− ≤ − ≤ +

Page 35: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

35

potrzeb praktyki. Jest tak dlatego, że najczęściej hipotezę badawczą (merytoryczną) którąchcemy sprawdzić, daje się zamienić na hipotezę statystyczną, jak gdyby „odwrotną” do badawczej. W konsekwencji zależy więc nam na odrzuceniu hipotezy statystycznej a nie na jej przyjęciu, gdyż odrzucenie hipotezy statystycznej praktycznie prowadzi do przyjęcia naszej hipotezy badawczej, jako odwrotnej do statystycznej.

Zilustrujmy to przykładem. Przypuśćmy, że hodowca wykreował nową odmianę (A)o prawdopodobnie wyższym plonowaniu niż dotychczas uprawiane. Przeprowadzono eksperyment z nową odmianą — A oraz z najlepszą z dotychczas uprawianych (B), by na podstawie wyników liczbowych (uzyskanych plonów) wykazać przeciętne wyższe plonowanie odmiany A od odmiany B. Do udowodnienia tej hipotezy badawczej wystarczy zastosować test istotności dla hipotezy statystycznej sformułowanej następująco: średnie plonowanie odmiany A i B jest takie same. Formalne zapisujemy to w postaci hipotezy zerowej 0 : A BH m m= , wobec hipotezy alternatywnej 1 : A BH m m> , gdzie mA i mB oznaczają średnie plony odpowiednio odmiany A i B.

Jeżeli zastosowany test istotności dla hipotezy H0 doprowadzi do jej odrzucenia, to wyższość nowej odmiany została udowodniona (a o to chodziło) z odpowiednio małym ryzykiem błędu (poziomem istotności). Jeżeli natomiast zastosowany test istotności da odpowiedź, że nie ma podstaw do odrzucenia hipotezy H0, to oznacza to, że wyniki eksperymentu mające świadczyć o wyższości nowej odmiany, są zbyt słabym argumentem i nie udowadniają tej wyższości. Taka odpowiedź przysparza hodowcy w wystarczającym stopniu zmartwień, by zależało mu na przyjęciu hipotezy H0, bo to oznaczałoby, że marnował czas na tworzeniem odmiany o nie wyższym pod względem przeciętnego plonowania od dotychczasowych odmian.

Przykład ten świadczy o wystarczalności dla praktycznego wykorzystywania testów istotności, które polegają na konstruowaniu pewnej statystyki S z wyników próby i wyznaczaniu jej rozkładu przy założeniu słuszności hipotezy zerowej H0.

W rozkładzie tym wybiera się taki obszar Q statystki S, by spełniona była równość:{ }P S Q α⊂ = , gdzie α jest arbitralnie ustalonym dowolnie małym prawdopodobieństwem.

Obszar Q nazywa się obszarem krytycznym testu, gdyż ilekroć wartość statystyki S z próby znajdzie się w nim, to podejmuje się decyzję odrzucenia hipotezy H0 na korzyść hipotezy alternatywnej H1. Natomiast, gdy otrzymana statystyka S nie należy do obszaru krytycznego Q,to nie ma podstaw do odrzucenia H0 i nie jest to równoznaczne z jej przyjęciem.

Obszar krytyczny Q zostaje tak wyznaczony, że przy prawdziwości hipotezy H0prawdopodobieństwo otrzymania z próby wartości statystyki S jest znane i bardzo małe. Takie zdarzenie losowe nie powinno się zrealizować w jednym doświadczeniu. Jeżeli jednak naprawdę zrealizowało się, to musiało mieć większe prawdopodobieństwo niż to wynika z założenia prawdziwości hipotezy H0, więc jesteśmy skłonni uznać tę hipotezę za fałszywąi odrzucamy ją. Możemy pomylić się i odrzucić hipotezę w gruncie rzeczy prawdziwą (błądI-szego rodzaju), jednakże prawdopodobieństwo takiej pomyłki jest bardzo małe, równe obranej dowolnie liczbie α (poziom istotności).

Jeżeli natomiast wartość statystyki S z próby znalazła się poza obszarem krytycznym, tzn. można zapisać, że { } 1P S Q α⊄ = − (gdyż { }P S Q α⊂ = ), czyli prawdopodobieństwo tegożzdarzenia jest bliskie 1. Zaszło zatem zdarzenie, które powinno przy prawdziwości hipotezy H0zajść, bo miało duże prawdopodobieństwo zajścia, więc nie ma podstaw do odrzucenia hipotezy H0.

Jako poziom istotności α wybiera się najczęściej liczby: 0,10; 0,05; 0,01; 0,001, co nie oznacza, że nie można przyjąć np. 0,02 lub 0,07.

Page 36: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

36

3.4.1. Hipoteza porównania wartości średniej z normą

Hipoteza o średniej populacji — 0 0:H m m=

Zakładamy, że populacja generalna ma rozkład normalny ( )2;N m σ , przy czym m oraz σ2

populacji nie są znane. W oparciu o wyniki n-elementowej próby losowej należy zweryfikowaćhipotezę zerową:

0 0:H m m= ≡ 0 0: 0H m m− = ,

wobec hipotezy alternatywnej

1 0:H m m≠ ≡ 1 0: 0H m m− ≠ .

Dla weryfikacji tej hipotezy zerowej wyliczmy wartość statystyki t-Studenta według wzoru:

0emp

x

x mt

s−

= ,

gdzie: 1

1 nii

x xn =

= ∑ , ( )221

11

nii

s s x xn =

= = −− ∑ , zaś x

ssn

= — błąd średniej

arytmetycznej.

Statystyka ta ma przy założeniu słuszności hipotezy H0 rozkład Studenta o (n–1) stopniach swobody. Z tablic tego rozkładu, dla ustalonego poziomu istotności α i dla (n–1) stopni swobody, odczytuje się taką wartość tα , że { }P t tα α≥ = . Nierówność t tα≥ określa obszar krytyczny (dwustronny) w tym teście. Wystarczy więc porównać wartość empt z wartościąkrytyczną tα . Jeżeli zajdzie nierówność empt tα≥ , to hipotezę 0H należy odrzucić na korzyść hipotezy 1H . Natomiast gdy zajdzie nierówność przeciwna, tzn. empt tα< , to nie ma podstaw do odrzucenia hipotezy 0H .

Przykład:

Badano próby sera dojrzewającego w pewnej wytwórni latem (populacja A) i zimą(populacja B). Wytwórnia deklaruje 55% zawartości tłuszczu w danym gatunku sera. Z prób 20 elementowej uzyskano odpowiednio:

54,26Ax = , 2 23,13As = , 56,18Bx = , 2 13,27Bs = .

v′

v

,vtα,vtα−

( ), 1vP t tα α≤ = −

v liczba stopni swobody−

Page 37: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

37

Tutaj możemy zweryfikować dwie hipotezy: 1-sza — czy deklarowana zawartość tłuszczu w serze produkowanym w okresie letnim jest zgodna z faktyczną, tzn. 0 : 55%A AH m = , 2-ga —to samo, ale w stosunku do okresu zimowego, tzn. 0 : 55%B BH m = .

0 : 55%A AH m = , 23,13 1,1565 1,0754120xs = = = ,

0,05;1954,26 55,00 0,688 2,093

1,07541empt t−= = < = ;

0 : 55%B BH m = , 13,27 0,6636 0,8145620xs = = = ,

0,05;1956,18 55,00 1,449 2,093

0,81456empt t−= = < = ,

W obu przypadkach hipoteza zerowa nie została odrzucona na poziomie istotności 0,05. Oznacza to, że deklaracja wytwórni ma pokrycie w faktach.

Cecha X populacji ma rozkład ( )2;N m σ , postać hipotezy zerowej: 0 0:H m m=

Hipoteza alternatywna

Wartość funkcji testowej Obszar krytyczny Q 0H odrzucamy,

jeżeli:

1 0:H m m> 0emp

x

x mts−

= )2 , 1;nt α − +∞ 2 , 1emp nt t α −>

1 0:H m m< 0emp

x

x mts−

= ( 2 , 1; nt α − −∞ − 2 , 1emp nt t α −< −

1 0:H m m≠ 0emp

x

x mt

s−

= ( , 1; ntα − −∞ − ∪ ), 1;ntα − +∞ , 1emp nt tα −>

3.4.2. Hipoteza porównania frakcji z normą

Hipoteza zerowa dla frakcji — 0 0:H p p=

Dla populacji mającej rozkład dwupunktowy, tzn. zakładamy, że elementy populacji podzielone są na dwie klasy, przy czym frakcja elementów wyróżnionych wynosi p i nie jest małym ułamkiem ( 0,05p > ). Z populacji wylosowano dużą liczbę elementów próby ( 100n > ),

wtedy zmienna losowa: ( )1

m pnZ

p pn

−=

−ma rozkład asymptotycznie normalny

( )1;

p pN p

n −

, gdzie m jest liczbą elementów wyróżnionych i znalezionych w próbie

n – elementowej, natomiast p jest parametrem rozkładu zero-jedynkowego.

Naszym zadaniem jest weryfikacja hipotezy, że wartość tego parametru p w populacji jest równa 0p ( 0 0:H p p= ). Jeśli prawdziwa jest hipoteza zerowa, to wskaźnik struktury z próby ma asymptotyczny rozkład

( )0 0

01

;p p

N pn

,

Page 38: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

38

a statystyka ( )0 00

1p pmZ pn n

− = −

, rozkład asymptotycznie normalny ( )0;1N .

Przykład:

Spośród partii żarówek, wylosowano 100 sztuk i sprawdzono ich jakość. 15 okazało sięzłych. Przyjmując poziom istotności 0,05α = , zweryfikować hipotezę o brakach na poziomie 20% ( 0 : 0,2H p = ).

( ) 0,05

0,15 0,20 0,05 1,25 1,960,040,2 1 0,2

100

empz z−

= = = < =−

.

Z powyższej relacji wynika że naszej hipotezy zerowej postaci 0 : 0,2H p = nie możemy odrzucić (zachodzi brak podstaw do jej odrzucenia) przy poziomie istotności 0,05α = ,natomiast moglibyśmy tę hipotezę odrzucić przy poziomie istotności 0,23α = jako, że

0,23 1,2z ≅ . Tak duży poziom ryzyka odrzucenia prawdy jest nie do przyjęcia. Dlatego też tęhipotezę byśmy przyjęli.

Zwróćmy uwagę, że gdyby w próbie 1000 elementowej, 150 żarówek okazało sięwadliwych, wtedy naszą hipotezę 0 : 0,2H p = z racji uzyskanej wartości odpowiedniej statystyki:

( ) 0,05

0,15 0,20 0,05 3,953 1,960,012650,2 1 0,2

1000

empz z−

= = = < =−

,

należałoby odrzucić, i to nie tylko na poziomie istotności 0,05α = , ale także na poziomie 0,001α = jako, że:

0,001 3,291 3,953 empz z= < = .

Cecha X populacji ma rozkład zero-jedynkowy, tzn. ( )1P X p= = , ( )0 1P X p= = − ,hipoteza zerowa jest tutaj postaci: 0 0:H p p= .

Hipoteza (H1) alternatywna może tutaj przyjmować jedną z trzech postaci:

H1 alternatywna empz – wartość f. testowej

Obszar krytyczny Q 0H odrzucamy, jeżeli:

1 0:H p p> ( )0

0 01

m pn

p pn

−[ )2 ;z α +∞ ,

gdzie ( )2 1 2F z α α= −2empz z α>

1 0:H p p< ( )0

0 01

m pn

p pn

( ]2; z α−∞ − ,

gdzie ( )

( )2

21

F z

F zα

α

− =

= −2empz z α< −

1 0:H p p≠( )

0

0 01

m pn

p pn

( ]; zα−∞ − ∪ [ );zα +∞ ,gdzie ( ) 1zα αΦ = −

empz zα>

Page 39: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

39

Wielkość zα jest wartością odczytaną z tablic rozkładu normalnego ( )0;1N w taki sposób, by dla ustalonego α zachodziła równość:

{ } 1P z Z zα α α− ≤ ≤ = − .

3.4.3. Hipoteza porównania dwóch wariancji

Hipoteza zerowa o równości wariancji dwóch populacji ma postać 2 20 1 2:H σ σ= , zaś

2 21 1 2:H σ σ>

Gdy badanie statystyczne ze względu na pewną cechę mierzalną prowadzimy w dwóch populacjach, może zajść potrzeba sprawdzenia hipotezy o równości wariancji badanej cechy w obu populacjach.

Rozkładem, którym będziemy się posługiwać w omawianym teście, jest rozkład F-Fishera.Dostępne tablice wartości tego rozkładu są sporządzone tak, iż podają taką wartość Fα dla której zachodzi { }P F Fα α≥ = , tzn. dla niniejszego testu obszar krytyczny jest prawostronny. Przy stosowaniu tego testu należy oznaczenia populacji numerami 1 i 2 przyjąć tak, by w ilorazie dwu wariancji wyznaczonych na podstawie prób licznik był zawsze większy od mianownika. Wartość statystyki testowej wyznaczamy według wzoru:

2122

empsFs

= ,

która przy założeniu prawdziwości hipotezy 0H ma rozkład F-Fishera z ( )1 1n − stopniami swobody licznika i ( )2 1n − stopniami swobody mianownika (gdzie: 1 2,n n — liczebność prób losowych).

Przykład:

Badano próby sera dojrzewającego w pewnej wytwórni latem (populacja A) i zimą(populacja B). Wytwórnia deklaruje 55% zawartości tłuszczu w danym gatunku sera. Z prób 20 elementowych uzyskano odpowiednio:

54,26Ax = , 2 23,13As = , 56,18Bx = , 2 13,27Bs = .

Dla tego przykładu liczbowego mamy:

0,05;19;1923,13 1,743 2,1713,27empF F= = < =

zatem hipotezę o równości wariancji zawartości tłuszczu w produkcji zimowej i letniej, tzn. 2 2

0 1 2:H σ σ= – przyjmujemy na poziomie istotności α = 0,05.

Page 40: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

40

3.4.4. Hipoteza porównania dwóch wartości średnich

0H — o wartości oczekiwanych dwóch populacji

W praktycznych zastosowaniach statystyki matematycznej niejednokrotnie zachodzi potrzeba porównania średnich Am i Bm dwóch populacji. Weryfikuję się wówczas hipotezęzerową postaci:

0 : A BH m m=

wobec odpowiedniej hipotezy alternatywnej:

1 : A BH m m≠ , 1 : A BH m m> lub 1 : A BH m m< .

Niech analizowane populacje generalne mają rozkłady normalne ( )2;A AN m σ i ( )2;B BN m σ ,

przy czym parametry tych populacji są nieznane, ale wariancje są jednakowe, tzn. 2 2A Bσ σ=

(można sprawdzić słuszność takiego założenia dla konkretnej sytuacji, wykorzystując test Fishera weryfikujący hipotezę 2 2

0 : A BH σ σ= ).

W celu weryfikacji tej hipotezy zerowej ( 0 : A BH m m= ) wykorzystujemy test postaci:

A B

r

x xts−= ,

gdzie:

2 1 1r e

A Bs s

n n

= +

— błąd różnicy średnich,

( ) ( )( ) ( )2 2

2 1 1var var1 1 2

A A B BA Be

A B A B

n s n sx xsn n n n

− + −+= =− + − + −

— wariancja wspólna (wynika z założenia

równości wariancji w populacjach).

Przy czym zakładamy, wylosowanie dwóch prób z rozpatrywanych populacji o liczebności odpowiednio: An i Bn , średnich: Ax i Bx oraz wariancjach 2

As i 2Bs .

Otóż tak określona statystyka ( )A B rt x x s= − , przy założeniu słuszności hipotezy zerowej

0 : A BH m m= , ma rozkład Studenta o 2A Bn n+ − stopniach swobody. Dlatego też wartość

A Bemp

r

x xts−= — wyznaczona na podstawie prób z dwóch populacji jest porównywana

z wartością krytyczną ,vtα z tablic rozkładu Studenta. Jeśli między tymi wielkościami uzyskamy

relację ;emp vt tα> ( )2A Bv n n= + − , wtedy hipotezę zerową odrzucamy na rzecz hipotezy

alternatywnej postaci: 1 : A BH m m≠ (tzw. test obustronny).

Page 41: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

41

Natomiast relacja przeciwna, tzn. ;emp vt tα≤ nie daje nam podstaw do odrzucenia hipotezy zerowej, a więc w tej sytuacji przyjmujemy ją. Zauważmy przy tym, że H0 odrzucamy, gdy

,A B

emp vr

x xt t

s α−

= > , czyli jeśli zachodzi nierówność postaci: ,A B v rx x t s NIRα α− > ⋅ = .

Wielkość ,v rt s NIRα α⋅ = nazywamy Najmniejszą Istotną Różnicą

Przykład:

Badano próby sera dojrzewającego w pewnej wytwórni latem (populacja A) i zimą(populacja B). Wytwórnia deklaruje jednakową zawartość tłuszczu w danym gatunku sera w produkcji latem i zimą, tzn. 0 : A BH m m= . Z dwóch prób 20 elementowych uzyskano odpowiednio:

54,26Ax = , 2 23,13As = , 56,18Bx = , 2 13,27Bs = .

Stąd:

2 19 23,13 19 13,27 23,13 13,27 18,2019 19 2es ⋅ + ⋅ += = =

+,

czyli 1 118,2 18,2 0,1 1,3520 20rs = ⋅ + = ⋅ =

, a więc w tej sytuacji, z racji iż wartość:

0,05;3854,26 56,18 1,92 1,422 2,023

1,35 1,35empt t−

= = = < =

naszej hipotezy 0 : A BH m m= nie możemy odrzucić, czyli naszą hipotezę zerową (o braku różnic między średnią zawartością tłuszczu w serach produkowanych latem i zimą).

Zauważmy, że Najmniejsza Istotna Różnica jest tutaj równa:

( ) 0,05;38 2,023 1,35 2,731rNIR t sαα == ⋅ = ⋅ = .

Różnica między dwiema naszymi średnimi z prób jest równa 1,422 nie przewyższa wielkości NIR, a więc wniosek, że średnie tych populacji nie różnią się między sobą w stopniu istotnym.

v′

v

,vtα,vtα−

( ), 1vP t tα α≤ = −

v liczba stopni swobody−

Page 42: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

42

Zauważmy także, że podobny wniosek uzyskaliśmy po analizie tychże danych wg przedziału ufności dla różnicy średnich – w uzyskanym przedziale zawiera się wartość zerowa, tzn. dopuszczamy różnicę zerową między porównywanymi średnimi.

Populacji A ma rozkład ( )2,AN m σ , zaś populacji B — ( )2,BN m σ .

Hipoteza zerowa: 0 : A BH m m=

Hipoteza alternatywna Funkcja testowa Obszar krytyczny Q 0H odrzucamy,

jeżeli:

1 : A BH m m> A Bemp

r

x xts−= )2 , 2 ;

A Bn nt α + − +∞ 2 , 2A Bemp n nt t α + −>

1 : A BH m m< A Bemp

r

x xts−= ( 2 , 2;

A Bn nt α + − −∞ − 2 , 2A Bemp n nt t α + −< −

1 : A BH m m≠ A Bemp

r

x xt

s−

=( , 2;

A Bn ntα + − −∞ −

lub ), 2 ;A Bn ntα + − +∞

, 2A Bemp n nt tα + −>

2 1 1r e

A Bs s

n n

= +

— błąd różnicy średnich,

( ) ( )2 22 1 1

2A A B B

eA B

n s n ss

n n− + −

=+ −

— wariancja wspólna.

W przypadku gdy analizowane populacje generalne mają rozkłady normalne ( )2;A AN m σ

i ( )2;B BN m σ , przy czym parametry tych populacji są nieznane, a wariancje nie są jednakowe,

tzn. 2 2A Bσ σ≠ (można sprawdzić słuszność takiego założenia dla konkretnej sytuacji,

wykorzystując test Fishera weryfikujący hipotezę 2 20 : A BH σ σ= ).

W celu weryfikacji tej hipotezy zerowej ( 0 : A BH m m= ) wykorzystujemy tak zwany test Behrensa-Fishera w postaci:

2 2

' A B

A B

A B

x xts sn n

−=

+

0

4,65 0,81A Bm m− ≤ − ≤

Page 43: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

43

Otóż tak określona statystyka 't , przy założeniu słuszności hipotezy zerowej 0 : A BH m m= ,ma rozkład Studenta o

22 2

2 22 2

1 1

A B

A B

A B

A B

A B

s sn n

vs sn n

n n

+

≈ + − −

stopniach swobody (tzw. metoda Satterthwaite’a). Dlatego też wartość 'empt — wyznaczona na podstawie prób z dwóch populacji jest porównywana z wartością krytyczną ,vtα z tablic

rozkładu Studenta. Jeśli między tymi wielkościami uzyskamy relację ;emp vt tα> , wtedy hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej.

0H — o wartości oczekiwanych dwóch populacji zależnych

Niekiedy zachodzi potrzeba porównania średniego poziomu pewnej cechy przed i po pewnym dodatkowym działaniu na elementach tej samej populacji. Z populacji tej pobieramy losowo n elementową próbę i dla każdego elementu dysponujemy parą wyników:

( ), 1,2, ,i ix y i n= … . Takich par wyników nie należy traktować jako dwu różnych prób prostych, gdyż mogą one być ze sobą skorelowane (powiązane). Przykładem może być badanie wagi ciałaprzed kuracją odchudzająca i po zakończeniu takiej kuracji. Mamy tutaj do czynienia z sytuacją,gdy średnie są zależne (poszczególne pary są zależne). Sprawdzaną hipotezą jest tutaj hipoteza zerowa postaci 0 : 0zH m = i jej równoważna postać: 0 : 0x yH m m− = , wobec hipotezy alternatywnej 1 : 0zH m ≠ , 1 : 0zH m < lub 1 : 0zH m > .

Wartość zm jest średnia wartością obliczoną z przyrostów par wyników: i i iz x y= − .Hipotezą zerową można zweryfikować testem Studenta, zastępując tam statystyki odpowiednimi wartościami wyliczonymi z przyrostów iz , tzn.:

empz

zt

s= ,

gdzie:

zz

ssn

= — błąd średniej,

zaś ( )1 1

1 1n ni i ii i

z z x yn n= =

= = −∑ ∑ , ( )221

11

nz z ii

s s z zn =

= = −− ∑ .

Wartość empt wyznaczona z konkretnej próby, jest wartością zmiennej losowej z

zt

s= , która

przy założeniu prawdziwości 0H , ma rozkład Studenta z (n–1) st. swobody.

Page 44: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

44

3.4.4. Hipoteza porównania dwóch frakcji Niech badana cecha X w dwóch populacjach A i B ma rozkład dwupunktowy z parametrami

Ap i Bp . Wysuwamy hipotezę, że oba te parametry są identyczne. Hipotezą zerową jest więctutaj 0 : A BH p p= , a hipotezami alternatywnymi mogą być hipotezy: 1 : A BH p p≠ ,

1 : A BH p p> lub 1 : A BH p p< .

W celu weryfikacji tej hipotezy zerowej wylosowano dwie próby proste o liczebności nA

i nB ≥ 100 jednostek. Niech A

A

mn

oraz B

B

mn

oznaczają wskaźniki struktury odpowiednio

z pierwszej i drugiej próby, natomiast A B

A B

m mpn n

+=+

jest frakcją wyróżnionych elementów

jednocześnie w obu próbach (mA i mB — są to liczby wyróżnionych elementów spośród odpowiednio nA i nB z populacji A oraz B).

Jeśli prawdziwa jest hipoteza zerowa 0 : A BH p p= , to statystyka:

( ) ( ) ( )1 1 1

A B A B

A B A B

A B

m m m mn n n nZ

p p p p p pn n n

− −= =

− − −+

ma rozkład asymptotycznie normalny ( )0;1N , gdzie

A B

A B

m mpn n

+=+

, A B

A B

n nnn n⋅=+

, natomiast mianownik jest równy:

( ) ( )11 11 rA B

p pp p SP

n n n⋅ −

⋅ − ⋅ + = =

.

Wielkości te występują w przedziale ufności dla różnicy frakcji, gdzie zα — wartość zmiennej normalnej dla prawdopodobieństwa α:

1A B A Br A B r

A B A B

m m m mP z SP p p z SPn n n nα α α

− − ⋅ ≤ − ≤ − + ⋅ ≈ −

.

W praktyce oznacza to, że jeżeli wartość zmiennej Z wyznaczona na podstawie wyników

z prób losowych, tzn. ( )1

A B

A Bemp

m mn nz

p pn

−=

−jest większa od wartości krytycznej zmiennej

normalnej — zα , dla ustalonego poziomu istotności α ( empz zα> ), wtedy hipotezę zerowąpostaci: 0 : A BH p p= — odrzucamy na rzecz hipotezy alternatywnej. Jeśli uzyskamy relację

empz zα≤ — wtedy mówimy o braku podstaw do odrzucenia hipotezy zerowej, a więc hipotezęzerową przyjmujemy.

Przykład:

Na poziomie istotności α = 0,05 zweryfikować przypuszczenie, że palacze papierosów stanowią jednakowy odsetek wśród mężczyzn i wśród kobiet na podstawie wyników: spośród wylosowanych 500 mężczyzn było 200 palaczy, a spośród wylosowanych 600 kobiet było252 palących. Z uwagi na to, że brak jest sugestii która płeć ma większy (lub mniejszy) odsetek palaczy, przyjmujemy obustronny obszar krytyczny.

Page 45: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

45

Stawiamy więc hipotezę zerową postaci: 0 : A BH p p= (jednakowe odsetki palaczy) wobec hipotezy alternatywnej: 1 : A BH p p≠ .

Wykonujemy odpowiednie obliczenia wg poznanych wzorów:

200 0,4500

A

A

mn

= = ; 252 0,42600

B

B

mn

= = ; 452 0,4111100

A B

A B

m mpn n

+= = =+

,

500 600 272,73500 600

A B

A B

n nnn n⋅ ⋅= = =+ +

;

( )1 0,411 0,589 0,0298272,73r

p pSP

n⋅ − ⋅= = = ,

czyli 0,4 0,42 0,6710,0298empz −= = − .

Mamy więc relację 0,05 1,96 0,671 empz z= > = , z której wnioskujemy o braku możliwości odrzucenia hipotezy zerowej, a więc naszą hipotezę o jednakowym występowaniu palaczy papierosów wśród mężczyzn i kobiet przyjmujemy.

Przypomnijmy nasz przedział ufności dla różnicy prawdopodobieństw i wynikający z niego wniosek:

Cecha X populacji A i B ma rozkład zerojedynkowy, tzn.

( )1P X p= = , ( )0 1P X p= = − .

Hipoteza zerowa: 0 A BH : p p= , gdzie A B

A B

m mpn n

+=+

, A B

A B

n nnn n⋅=+

.

1H alternatywna Wartość funkcji testowej Obszar krytyczny 0H odrzucamy jeżeli

1 : A BH p p>( )1

A B

A Bemp

m mn nzp p

n

−=

−[ )2 ;z α +∞ 2empz z α>

1 : A BH p p<( )1

A B

A Bemp

m mn nzp p

n

−=

−( ]2; z α−∞ − 2empz z α< −

1 : A BH p p≠( )1

A B

A Bemp

m mn n

zp p

n

−=

−( ]; zα−∞ − lub [ );zα +∞ empz zα>

07,84% 3,84%A Bp p− ≤ − ≤ +

Page 46: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

46

3.5. Więcej niż dwie średnie — test analizy wariancji Analiza wariancji dla klasyfikacji pojedynczej

Testy analizy wariancji są podstawowym narzędziem statystyki eksperymentalnej, tj. szeroko rozbudowanej statystycznej metody planowania i oceny wyników eksperymentów naukowych dla potrzeb doświadczalnictwa rolniczego, medycznego, itp. Testy te pozwalają na sprawdzenie, czy pewne czynniki, które można dowolnie regulować w toku doświadczenia, wywierają wpływ. Jeśli tak, to w jakim stopniu oddziaływają na kształtowanie się średnich wartości cech mierzalnych. Istotą metody analizy wariancji jest rozbicie na addytywne składniki sumy kwadratów wariancji całego zbioru wyników, i których liczba wynika z potrzeb eksperymentu. Test analizy wariancji zwykle przeprowadza się według ustalonego schematu, ujętego w postaci tzw. tabeli analizy wariancji. Należy tutaj zauważyć, że testy analizy wariancji mają bardzo liczne zastosowania między innymi w analizie regresji.

Źródłozmienności Stopnie swobody Suma kwadratów Średni kwadrat Test F

Najprostszym przypadkiem jest analiza wariancji tzw. jednokierunkowego układu danych doświadczalnych, często określany jako jednoczynnikowy układ całkowicie losowy.

Danych jest k populacji, każda o rozkładzie normalnym ( )2;i iN m σ ( 1,2, ,i k= … ) lub o rozkładzie zbliżonym do normalnego. Zakłada się przy tym, że wariancje tych k populacji sąjednakowe (metoda jest nie jest odporna na nierówne wariancje — można sprawdzić to założenie np. przy pomocy testu Bartletta).

Z każdej z tych k populacji wylosowano niezależnie próby o in elementach. Oznaczającwyniki prób przez ijx możemy napisać model obserwacji dla 1,2, ,i k= … oraz 1,2, , ij n= … ,

zaś1

kii n n

==∑ :

ij i ij i ijx m e m a e= + = + + ,

gdzie:

im — jest nieznaną średnią w i-tej populacji,

ije — jest wartością zmiennej losowej (składnikiem losowym) o rozkładzie normalnym

( )20;N σ ,

m — jest tutaj nieznaną średnią wszystkich populacji,

i ia m m= − — jest efektem i-tej populacji.

Na podstawie wyników ijx należy zweryfikować hipotezę

20 1 2 0 1

: : 0kk iiH m m m H a

== = = ≡ =∑�

wobec hipotezy alternatywnej 1H — nie wszystkie średnie badanych populacji są równe (przynajmniej dwie są różne).

Page 47: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

47

Źródłozmienności Stopnie swobody Suma kwadratów Średni kwadrat Test F

Populacje 1k − var A 2 var1AAs

k=−

2

2A

empe

sFs

=

Wewnątrz populacji n k− var E 2 var

eEs

n k=−

Całkowita 1n − var x

gdzie:

( )2.1

var ki iiA n x x

== −∑ , ( )2

.1 1var ik n

ij ii jE x x

= == −∑ ∑ ,

( )2

1 1var var varik n

iji jx x x A E

= == − = +∑ ∑ ,

zaś . 1

1 ini ijj

ix x

n == ∑ ,

1 1

1 ik niji j

x xn = =

= ∑ ∑ .

Obliczoną w tablicy wartość empF porównujemy z wartością krytyczną Fα odczytanąz tablic rozkładu Fishera dla ustalonego z góry poziomu istotności α i dla odpowiedniej liczby

1k − oraz n k− stopni swobody. Jeżeli zachodzi ; 1;emp k n kF Fα − −≥ , to hipotezę 0H odrzucamy,natomiast gdy ; 1;emp k n kF Fα − −< , wtedy mówimy o braku podstaw do odrzucenia hipotezy 0H .

Przykład:

Doświadczenie wazonowe. Cecha badana — masa korzeni selera. Czynnik — początkowa liczba nicieni w ziemi. Liczba obiektów 7k = , liczba powtórzeń dla poszczególnych obiektów

4in r= = , czyli ogólna liczba obserwacji 7 4 28n = ⋅ = .

Liczba nicieni 0 50 100 200 400 800 1600

Nr powt.

Masa korz.

Nr powt.

Masa korz.

Nr powt.

Masa korz.

Nr powt.

Masa korz.

Nr powt.

Masa korz.

Nr powt.

Masa korz.

Nr powt.

Masa korz.

1 6,8 1 6,4 1 6,0 1 5,8 1 5,5 1 5,8 1 4,7 2 8,2 2 6,3 2 6,1 2 4,8 2 4,9 2 4,8 2 5,1 3 6,9 3 6,3 3 6,2 3 6,0 3 4,7 3 4,6 3 3,8 4 7,0 4 5,6 4 6,3 4 5,4 4 5,2 4 5,1 4 4,0

ŹródłoZmienności St. sw. Suma

Kwd. Śr.

Kwd. empF

Obiekty 6 20,9071 3,4846 14,99Błąd 21 4,8825 0,2325Całk. 27 25,7896

L_nicieni Średnia Grupa 0 7,225 a

50 6,150 ab 100 6,150 ab 200 5,500 bc 400 5,075 bc 800 5,075 bc

1600 4,400 c 0,05Nir 1,109

Page 48: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

48

Dla naszej analizy:

0,05;6;21 2,573F = ,

0,01;6;21 3,812F = ,

0,001;6;21 5,881F = ,

Tak więc naszą hipotezę zerową o braku wpływu początkowej liczby nicieni na masękorzeni selera odrzucamy na poziomie istotności 0,001α = .

Wyznaczona wartość 0,0000013valueP = określa nam poziom istotności przy którym nasza hipoteza może być odrzucona.

Test Bartletta równości wariancji w populacjach: 2 6,34 0,386emp valuePχ = ⇒ = .

3.5.1. Procedury porównań wielokrotnych

W przypadku odrzucenia hipotezy zerowej 0 1 2: kH m m m= = =� w teście analizy wariancji, stwierdza się, iż nie wszystkie średnie badanych populacji są równe, czyli, że co najmniej jedna średnia obiektowa różni się od pozostałych w sposób istotny. Analiza wariancji nie daje jednak odpowiedzi, które średnie obiektowe różnią się od pozostałych, nie mówi również o charakterze tych różnic.

W celu zbadania różnic pomiędzy średnimi obiektowymi wykorzystuje się tak zwane procedury porównań wielokrotnych. Procedury te pozwalają na wyodrębnienie grup jednorodnych.

Grupa jednorodna obiektów, w ramach zbioru średnich obiektowych, stanowi rozłączny z innymi grupami jednorodnymi podzbiór obiektów, które nie różnią się między sobą ze względu na wartości średnie.

Część procedur porównań wielokrotnych opiera się na wartości zwanej NIR, czyli na Najmniejszej Istotnej Różnicy. Jeżeli różnica pomiędzy dwoma średnimi obiektowymi jest mniejsza od NIR, to uznaje się, że średnie te nie różnią się między sobą w sposób istotny.

Opracowano szereg procedur porównań wielokrotnych i innych metod wyznaczania grup jednorodnych. Poniżej przedstawiono wyniki analizy wariancji doświadczenia jednoczynnikowego porównującego plonowanie 20 odmian kapusty oraz podział na grupy jednorodne różnymi metodami.

Źródłozmienności

Stopnie swobody

Suma kwadratów odchyleń

Średni kwadrat odchyleń

empF p-value

Odmiana 19 48579,1375 2556,7967 2,50 0,0037 Błąd 60 61314,2500 1021,9042 Całkowita 79 109893,3875

Page 49: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

49

Wyznaczone grupy jednorodne

Odm

iana

Śred

nia

Proc

edur

aSt

uden

ta

Proc

edur

aTu

keya

Proc

edur

aD

unca

na

Proc

edur

aSt

uden

ta-

New

man

a-K

euls

a

Proc

edur

aG

abrie

la

Proc

edur

aSi

daka

Proc

edur

aBo

nffe

roni

ego

Proc

edur

aSh

effe

go

Met

oda

kont

rast

ów

Agora 193,75 � � � � � � � � �Atena 176,25 ��� ��� ��� ��� ��� ��� ��� �� ��Edyta 173,75 ��� ��� ��� ��� ��� ��� ��� �� ��Ovation 173,75 ��� ��� ��� ��� ��� ��� ��� �� ��Rigoletto 170,00 ��� ��� ��� ��� ��� ��� ��� �� ��Alka 162,50 ���� ��� ���� ��� ��� ��� ��� �� ��Ambra 158,75 ����� ��� ����� ��� ��� ��� ��� �� ��Marius 156,75 ����� ��� ����� ��� ��� ��� ��� �� ��Bona 153,75 ����� ��� ����� ��� ��� ��� ��� �� ��Juventa 151,25 ������ ��� ����� ��� ��� ��� ��� �� ��Sunny 151,25 ������ ��� ����� ��� ��� ��� ��� �� ��Michalinka 150,00 ������ ��� ����� ��� ��� ��� ��� �� ��Sonata 141,25 ������� ��� ������ ��� ��� ��� ��� �� ���Marioliers 140,00 ������� ��� ������ ��� ��� ��� ��� �� ���Ewelina 135,00 ������� ��� ������ ��� ��� ��� ��� �� ���Sande 122,50 � ����� ��� ������ ��� ��� ��� ��� �� ���Charlena 122,50 � ����� ��� ������ ��� ��� ��� ��� �� ���Fulmara 115,00 � ���� ��� ������ ��� ��� ��� ��� �� ���Charan 107,50 � ��� ��� ������ ��� ��� ��� ��� �� ���Malika 96,25 � � � � � � � � � �NIR 45,215 83,774 — — 87,019 87,504 87,680 130,81 — Liczba grup 6 2 5 2 2 2 2 1 2

W praktycznym doświadczalnictwie rolniczym najprzydatniejszymi metodami wyznaczani grup jednorodnych są procedury porównań wielokrotnych Duncana, Tukeya (Tukeya-Kramera), test Dunneta porównania z wzorcem oraz metodę opartą na kontrastach.

Procedura porównań wielokrotnych Duncana

Procedura Duncana ma zastosowanie tylko w przypadku gdy w ramach wszystkich poziomów badanego czynnika liczba obserwacji jest jednakowa ( 1 2 kn n n n= = = =… ). Po uporządkowaniu średnich obiektowych w kolejności rosnącej, porównuje się różnicę pomiędzy średnią obiektową na pozycji k i średnią obiektową na pozycji 1k − z wartością NIR, wraz z kolejnymi krokami do porównań bierze się kolejne średnie obiektowe. NIR Duncana ma postać:

( )2

, ', 2D DSeNIR t k vn

α= ⋅ ⋅

gdzie: n — liczba obserwacji w ramach jednego poziomu czynnika, v — liczba stopni swobody dla błędu losowego (z analizy wariancji),

'k — liczba aktualnie porównywanych poziomów czynnika, 2Se — średni kwadrat odchyleń (wariancja) dla błędu losowego (z analizy wariancji),

( ), ',Dt k vα — wartość krytyczna wielokrotnego testu Duncana.

Page 50: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

50

Procedura porównań wielokrotnych Tukeya

Przypadku układu gdy w ramach wszystkich poziomów badanego czynnika liczba obserwacji jest jednakowa ( 1 2 kn n n n= = = =… ) wartość NIR Tukeya ma postać:

( )2

; 1,TSeNIR q k vn

α= − ⋅

gdzie: n — liczba obserwacji w ramach jednego poziomu czynnika, k — liczba poziomów czynnika, v — liczba stopni swobody dla błędu losowego (z analizy wariancji),

2Se — średni kwadrat odchyleń (wariancja) dla błędu losowego (z analizy wariancji),

( ); 1,q k vα − — wartość krytyczna studentyzowanego rozstępu.

Gdy liczba obserwacji w ramach poziomów badanego czynnika nie jest jednakowa ( 1 2 kn n n≠ ≠ ≠… ) wartość NIR Tukeya wyznacza się oddzielnie dla każdej porównywanej pary średnich środowiskowych wg wzoru (tzw. procedura Tukeya-Kramera):

( ) ( )1 2

2

1 2

1 1 1, 1,2TNIR q k v Se

n nµ µ α−

= − ⋅ ⋅ ⋅ +

gdzie:

1n , 2n — liczba obserwacji w ramach porównywanych poziomów czynnika,

k — liczba poziomów czynnika, v — liczba stopni swobody dla błędu losowego (z analizy wariancji),

2Se — średni kwadrat odchyleń (wariancja) dla błędu losowego (z analizy wariancji),

( ); 1,q k vα − — wartość krytyczna studentyzowanego rozstępu.

Test Dunneta porównania średnich obiektowych z wzorcem

Test Dunneta ma zastosowanie, gdy w ramach poziomów badanego czynnika występuje jeden poziom, który można określić jako wzorzec. Wówczas można sprawdzić, za pomocą tego testu, które średnie obiektowe różnią się istotnie od średniej dla wzorca. Test Dunneta ma postać:

22i C

d

h

x xtSe

n

−=

gdzie:

ix — i-ta średnia obiektowa,

Cx — wartość średnia dla wzorca, 2Se — średni kwadrat odchyleń (wariancja) dla błędu losowego (z analizy wariancji),

hn — średnia harmoniczna liczby obserwacji dla danego poziomu czynnika i dla wzorca.

Page 51: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

51

II. ANALIZA STATYSTYCZNA DANYCH DOŚWIADCZALNYCH 1. WPROWADZENIE

Dane empiryczne, będące przedmiotem badań statystycznych powstają zazwyczaj w wyniku pomiaru określonych cech mierzalnych pewnych populacji zwierząt, roślin, próbek gleby, produktów przemysłu, itp. Cechy te podlegają naturalnej zmienności, którą bez trudu możemy zaobserwować chociażby na populacji ludzkiej, a która występuje w każdej zbiorowości przyrodniczej, obojętnie, czy wytworzonej przez człowieka czy też naturalnie istniejącej. Zmienność ta w populacjach żywych spowodowana jest zarówno przyczynami genetycznymi jak i pływami zmiennych warunków środowiska w procesie wzrostu i dojrzewania organizmów. W populacjach sztucznych, wytworzonych przez człowieka, występuje zmienność spowodowana niedokładnością przyrządów, maszyn czy niejednorodności surowca, z którego wykonujemy elementy badanej zbiorowości. Dokonując odpowiednio dokładnych pomiarów, możemy wykryć nawet drobne różnice istniejące między badanymi przedmiotami. Oprócz wymienionych źródeł zmienności danych empirycznych występuje jeszcze czysto techniczne źródło, związane z dokonywaniem pomiaru.

Celem badań (analiz) statystycznych jest uchwycenie prawidłowości występujących w zmiennym materiale liczbowym oraz wyodrębnienie różnic istotnych wśród losowych, przypadkowych, występujących w zbiorowości, która a priori uznajemy za jednorodną. Cel ten osiąga się w trzech etapach statystycznego opracowania danych empirycznych: opis, analiza i wnioskowanie.

Doświadczalnictwo jest aktywnym zbieraniem danych statystycznych, polegającym na zastosowaniu do materiału eksperymentalnego określonych zabiegów i obserwacji ich efektów. Podstawowym postulatem wymaganym od schematu gromadzenia danych empirycznych jest możliwość sensownej ich interpretacji. Dla uzyskania niniejszego celu potrzebne jest właściwe planowanie doświadczenia i zastosowanie właściwych metod analizy statystycznej.

Planując jakiekolwiek doświadczenie, chcemy uzyskać dane niezbędne do charakterystyki i opisu nowego zjawiska, bądź też rozstrzygnięcia pewnych nowych hipotez, albo potwierdzenia hipotez stawianych przez innych badaczy, w odmiennych, specyficznych warunkach. Na przykład w doświadczeniach odmianowych z roślinami uprawianymi w Polsce, prowadzonych permanentnie przez wyspecjalizowane stacje doświadczalne oceny odmian, zbiera się dane eksperymentalne dotyczące zarówno najważniejszych cech użytkowych roślin, takich jak wysokość plonu nasion, korzenia czy bulw, oraz określających wartość technologiczną bądźkonsumpcyjną plonów, jak również cech pobocznych charakteryzujących rośliny, ich odporność na choroby. Dane te pozwalają na rozpoznanie kształtowania się cech nowych odmian w różnych rejonach kraju, służą rejonizacji nowych odmian oraz kontroli nad wyradzaniem sięodmian będących w uprawie od wielu lat.

Dokonując opisu danych empirycznych, który w gruncie rzeczy jest ich redukcją odpewnych wskaźników (parametrów), musimy uświadomić sobie — czego ten opis dotyczy, a właściwie — co będzie podmiotem wniosków formułowanych w oparciu o ten opis.

Na przykład, dokonujemy obserwacji dynamiki przyrostów masy oraz powierzchni poszczególnych elementów roślin zbożowych w doświadczeniu wazonowym. Uzyskane pomiary są reprezentacją populacji tych wielkości u roślin zboża danego gatunku i danej odmiany oraz przy ustalonych warunkach glebowych, poziomu nawożenia, itp. Mamy więctutaj zbiorowość danych uzyskanych bezpośrednio z pomiarów oraz zbiorowość drugą, którą te dane reprezentują. Pierwsza z nich nazywamy próbą, natomiast drugą — populacją generalną.Tak więc pod określeniem: populacja – rozumiemy zbiorowość wszystkich możliwych wartości rozpatrywanej cechy pewnej populacji przedmiotowej roślin uprawnych, drzew, zwierząt czy ludzi, oraz próba – jako reprezentacja populacji generalnej.

Page 52: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

52

Każde doświadczenie jest ciągiem ustalonych wcześniej czynności prowadzących do uzyskania możliwie najbardziej wiarygodnych informacji o interesującym nas zjawisku. W ścisłych doświadczeniach naukowych zwykle bada się wpływ konkretnych czynników kontrolowanych na występowanie lub natężenie zjawisk będących przedmiotem badań,z możliwym wyłączeniem innych, nieinteresujących czynników, mogących zakłócić zbierane informacje. W doświadczeniu jednoczynnikowym, najprostszym możliwym typem eksperymentu naukowego porównawczego, tylko jeden czynnik podlega zmianom zgodnie z intencjami eksperymentatora, inne zaś są utrzymywane na stałym poziomie lub są nieobecne. W zagadnieniach biologicznych na ogół występują jednak nie dające się kontrolować wpływy zróżnicowanego materiału doświadczalnego, zewnętrznych warunków przyrodniczych (klimat, środowisko), czy nawet samej techniki obserwacji. Wszystkie te dodatkowe elementy sąprzyczyna tego, że wyniki dwóch eksperymentów identycznie zaplanowanych i przeprowadzonych różnią się między sobą. To niekontrolowane zróżnicowanie towarzyszące właściwemu doświadczeniu musi być akceptowane przez eksperymentatora jako błąddoświadczenia. Wynika stąd wniosek, że aby doświadczenie pozwalało na ocenę interesującego nas zjawiska, konieczne jest rozdzielenie zmienności spowodowanej wpływem badanego czynnika i zmienności losowej. Rozdział tych dwu różnych zmienności w doświadczeniu jest wykonalny, jeżeli badania będą powtarzane w niezmienionych warunkach, przy ustalonych poziomach kontrolowanych czynników. Układ doświadczenia musi zatem spełniać pewne warunki formalne, aby można było korzystać z metod analizy statystycznej danych empirycznych.

Celem każdego doświadczenia jest potwierdzenie lub zaprzeczenie pewnej hipotezie odnośnie badanego zjawiska. Hipotezę te nazywamy hipotezą merytoryczną. Formułuje się ja przystępując do badań, w momencie planowania doświadczenia. Może to być np. hipoteza, żenowa odmiana (lub odmiany) pod względem pewnych cech przewyższają dotychczas uprawiane, że jakiś zabieg na przedmiocie eksperymentu przyniesie nowe efekty mierzalne lub jakościowe, że wyniki osiągane w innym miejscu lub czasie potwierdzą się w zmienionych warunkach. Jest zrozumiałe, że sformułowanie hipotezy merytorycznej powinno nastąpić pozapoznaniu się z aktualnym stanem wiedzy w danej dziedzinie. Jasne i konkretne sformułowanie hipotezy merytorycznej ułatwia zaplanowanie doświadczenia i właściwy wybór modelu w późniejszym opracowaniu jego wyników. Powinno się unikać dla formułowania dla jednego doświadczenia zbyt złożonych hipotez dla uzyskiwania jednoznaczności wyniku jej weryfikacji oraz z faktu, że hipoteza statystyczna musi być jednoznacznym odwzorowaniem hipotezy merytorycznej – by wnioski statystyczne mogły być bez zastrzeżeń i wątpliwości transponowane na wnioski merytoryczne. Czasami, ze względu na wymóg testowania hipotez prostych, hipoteza statystyczna jest zaprzeczeniem hipotezy merytorycznej. Na przykład dla wykazania wyższego plonowania nowej odmiany od wybranej odmiany starej, sprawdzamy hipotezę zerową, że średnie z populacji generalnej obu odmian są jednakowe. Odrzucenie lub przyjęcie hipotezy zerowej prowadzi do jednoznacznych wniosków o relacji między plonowaniem porównywanych odmian.

Duże znaczenie w doświadczalnictwie odgrywają modele liniowe, prowadzące do analizy wariancji lub analizy regresji wyników eksperymentu. Można stwierdzić, że matematyczne modele liniowe, zwane także hipotezami liniowymi, są adekwatnymi modelami wielkiej klasy hipotez merytorycznych, sprawdzanych doświadczalnie. Zachodzi to w tych eksperymentach, w których badamy wpływ czynnika lub czynników kontrolowanych na cechy mierzalne jednostek doświadczalnych, przy czym każdy z tych czynników występuje co najmniej w dwóch poziomach. Czynniki mogą być jakościowe, jak np. odmiany roślin, rasy zwierząt, itp., bądź ilościowe, jak temperatura, terminy siewu lub zbioru, dawki nawozu, itd. Hipoteza merytoryczna w doświadczeniach czynnikowych dotyczy zróżnicowanego oddziaływania ich poziomów na określone cechy jednostek zbiorowości będącej przedmiotem badań. Znajduje ona odzwierciedlenie w hipotezie liniowej w postaci składników wartości oczekiwanej każdej obserwacji.

Page 53: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

53

2. ZASADY STATYSTYCZNE PLANOWANIA EKSPERYMENTÓW Określenie jednostki doświadczalnej jako elementarnego źródła obserwacji składających się

na dane empiryczne z reguły nie budzi wątpliwości w badaniach prowadzonych na populacjach biologicznych złożonych z osobników. W doświadczeniach rolniczych z reguły jednostkami doświadczalnymi nie są poszczególne rośliny, ale ich gromady rosnące na poletkach doświadczalnych czy wazonach. Przyjęcie poletka doświadczalnego jako podstawowej jednostki sprawia kłopoty z określeniem jej wielkości i kształtu, a także inne wątpliwości wynikające z występującej tu pewnej dowolności. Tych wątpliwości nie będzie, jeżeli wyraźnie określimy, bądź uświadomimy sobie, co stanowi populację generalną, dla której sąformułowane wnioski z danych empirycznych, a właściwie – czego dotyczy hipoteza merytoryczna. Natomiast obserwacje ilościowe uzyskiwane z jednostki doświadczalnej możemy zapisać w postaci ogólnego modelu liniowego o addytywnych składnikach:

i iy m a e= + +

gdzie i jest numerem jednostki doświadczalnej, m — jest średnią ogólną w populacji, poziomem odniesienia badanej wielkości. Składnik a reprezentuje w tym modelu efekty spowodowane zmiennymi czynnikami kontrolowanymi w eksperymencie (odmiany, zabiegi, itp.), zaś ie jest specyficznym efektem przyczyn losowych, nie poddających się kontroli eksperymentatora, nazywanym błędem losowym. Składnik a może być rozdzielony na części, gdy w doświadczeniu bada się równocześnie zmiany kilku czynników, tzn. kontrolowanych źródeł zmienności obserwacji. Również składnik ie może ulec dekompozycji na losowe wprawdzie, ale dające się wyodrębnić źródła zmienności. Wartość oczekiwana obserwacji iyjest równa m a+ , zaś wariancja obserwacji jest równa wariancji błędu losowego, tzn.

( ) ( )2 2 2i i eD y D e σ= = .

Eksperymenty porównawcze stosowano często w różnych dziedzinach nauki już od XIX wieku. Takie badania są obciążone błędami, jeżeli poszczególne grupy jednostek doświadczalnych nie będą równoważne na początku doświadczenia. R. A. Fisher zauważył, żejeśli jednostki doświadczalne (poletka) będą przyporządkowane do grup losowo, to równoważność grup będzie zapewniona przynajmniej co do średniej. Jego schematy doświadczeń przewidują więc zarówno porównania jak i randomizację. Randomizacja oczywiście eliminuje nieuświadomioną stronniczość eksperymentatora. Losowy dobór gwarantuje bezstronność wobec każdego czynnika, nawet takiego, którego znaczenie nie jest znane eksperymentatorowi.

Randomizacja ma także inną zaletę, można nawet powiedzieć, że jeszcze ważniejszą odeliminacji obciążeń. Dzięki niej wyniki doświadczeń są bezpośrednio dostępne dla matematycznych rozważań. Losowe przyporządkowanie obiektów doświadczalnych prowadzi do zjawisk podobnych do tych, jakie występują w grach losowych: chociaż nie możnaprzewidzieć pojedynczego wyniku, to w wielu przypadkach występuje charakterystyczna stabilność układów wyników. Istnienie probabilistycznego opisu procesu zbierania danych poprzez doświadczenie jest podstawą wnioskowania statystycznego. Fisher nie zapoczątkowałzastosowań prawdopodobieństwa do wnioskowania statystycznego, lecz tylko zastosowania te rozwinął, a postulowana przez niego randomizacja dostarcza danych, do których teoria prawdopodobieństwa może być poprawnie stosowana.

Podejście Fishera do wnioskowania statystycznego przez prawdopodobieństwo polega na ocenie istotności zaobserwowanej zmienności obiektowej przez porównanie jej ze zmiennościąspowodowaną niekontrolowanymi czynnikami.

Przypuśćmy więc, że każda z dwu odmian żyta A i B została wysiana na pewnej, jednakowej liczbie poletek przyporządkowanych losowo. Plony na różnych poletkach są różne, ale przyjmijmy, że średni plon odmiany A przewyższa średni plon odmiany B. Zróżnicowanie plonów na poletkach obsianych tą samą odmianą pozwala oszacować nieuniknioną zmienność spowodowaną wszystkimi innymi czynnikami mającymi wpływ na plon roślin. Tak więc

Page 54: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

54

różnicę o jaką średnio odmiana A przewyższa odmianę B (zmienność odmian) porównuję sięz różnicami wewnątrz odmian (zmiennością wewnętrzną). Ponieważ poletka pod zasiew odmian przydzielano losowo, teoria prawdopodobieństwa pozwala obliczyć jaka jest szansa powstania zaobserwowanej wyższości odmiany A jedynie w wyniku przyporządkowania losowego różnympoletkom.

Jeżeli więc średni plon odmiany A przewyższa średni plon odmiany B o wielkość tak dużą (w porównaniu ze zmiennością wewnątrz odmian), że w wyniku przypadku mogłoby to sięzdarzyć, powiedzmy tylko raz na 100 doświadczeń (przy wielokrotnym powtarzaniu eksperymentu), to jest to silny argument za tym, że coś więcej niż przypadek faworyzuje odmianę A. To „coś więcej”, jeśli doświadczenie zostało starannie przeprowadzone, musi byćwłaśnie wynikiem wyższej plenności odmiany A. Technika takiego porównania tych dwóch zmienności zaproponowana przez Fishera znana jest pod nazwą analizy wariancji. Stosunek wariancji uczestniczących w takim porównaniu został później nazwany statystyką F dla uczczenia zasług R. A. Fishera.

Dostępność formalnej dyskusji matematycznej wniosków z doświadczenia przeprowadzonego według schematu Fishera umożliwia badanie sytuacji zbyt skomplikowanych dla niewspomaganej intuicji eksperymentatora. Dobrze dobrany model matematyczny obserwacji doświadczalnych pozwala eksperymentatorowi badać jednocześnie wpływ wielu czynników i interakcji między nimi. Pozwala także wybrać schematy doświadczalne (opisywane modelami matematycznymi) zapewniające efektywne wykorzystanie informacji o działaniu badanych czynników.

W myśl koncepcji Fishera rozważmy najprostsze doświadczenie jakim jest doświadczenie jednoczynnikowe według układu całkowicie losowego, tzn. każda obserwacja z takiego doświadczenia opisywana jest modelem postaci (zob. rozdział analiza wariancji dla klasyfikacji pojedynczej):

ij i ijy m a e= + +

dla 1,2, ,i k= … ; 1,2, , ij n= … ;1

k

ii

n n=

=∑ , zakładamy przy tym, że ( )2;ij i ey N m a σ+∼ ,

( )20;ij ee N σ∼ .

2.1. Metodyka i technika doświadczeń rolniczych Doświadczenie (eksperyment) jest to metoda działań na obiektach materialnych,

pozwalająca obserwować określone reakcje i zjawiska w warunkach kontrolowanych. Eksperymenty wykonuje się w celu potwierdzenia lub negacji określonej teorii, która z jednej strony określa ściśle warunki eksperymentu, zaś z drugiej nadaje sens uzyskanej w wyniku eksperymentu obserwacji. Właśnie weryfikowana przez doświadczenie teoria decyduje, co w danym eksperymencie jest właściwą obserwacją, a co tylko nieistotnym jego zakłóceniem. Nauki przyrodnicze, które należą do obszaru naszych zainteresowań, rozwijają się głównie poprzez świadome eksperymenty realizowane w znanych i kontrolowanych warunkach. Jeżeli za kryterium podziału doświadczeń przyjmiemy warunki ich zakładania i prowadzenia, to można je podzielić na eksperymenty w warunkach sztucznych (laboratoryjnych) oraz eksperymenty w naturalnych warunkach polowych. Spora część wiedzy wszelkich nauk pochodzi też z bezpośrednich obserwacji zjawisk zachodzących w otaczającym nas świecie. Eksperyment bowiem, jest swojego rodzaju pytaniem jakie teoria zadaje naturze. Tak więc np. ankietyzacja w ograniczeniu do pewnego obszaru badań też jest eksperymentem.

Page 55: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

55

Doświadczenia wazonowe, zakładane i prowadzone przede wszystkim w hali wegetacyjnej, jak również w szklarniach, fitotronach i komorach klimatyzacyjnych, stanowią wstępny etap badań rolniczych np. w zakresie nawożenia czy ochrony roślin. Mogą często stanowićuzupełnienie doświadczeń polowych, w których trudno ujednolicić czy kontrolować warunki zewnętrzne.

Doświadczenia szklarniowe, mogą być prowadzone w warunkach całkowicie kontrolowanych lub częściowo zbliżonych do naturalnych. W nowoczesnych szklarniach temperatura, wilgotność i temperatura powietrza są pod ścisłą kontrolą przez cały rok. A więcsą tam warunki dla prowadzenia różnego typu doświadczeń o charakterze poznawczym i aplikacyjnym przez cały rok. Zakładamy je najczęściej w wazonach, specjalnych skrzyniach lub wręcz na naturalnym, odpowiednio przygotowanym podłożu glebowym.

Doświadczenia w namiotach foliowych, najczęściej są to doświadczenia z wczesną uprawąroślin o większych wymaganiach cieplnych i nawozowych. Gleba pod namiotem może stanowićwłaściwe podłoże lub też być całkowicie wymieniona do określonej głębokości lub tylko na powierzchni, na której są rozstawione wazony czy specjalne skrzynie, podobnie jak w szklarni. W doświadczeniach hodowlanych i fizjologicznych namioty są często stosowane, gdyżumożliwiają na izolację roślin czy stworzenie warunków prowokacyjnych (np. suszy) w określonych fazach wzrostu i rozwoju roślin.

Doświadczenia polowe, mają na celu porównawcze badanie ilości i jakości plonu roślin uprawnych. Stanowią podstawową metodę prowadzenia badań naukowych w zakresie uprawy,nawożenia, hodowli i ochrony roślin. Stanową jedną z metod upowszechniania i wdrażania osiągnięć naukowych do praktyki rolniczej. Aby doświadczenia te mogły spełniać te zadania, muszą być zakładane i prowadzone wg właściwej metodyki i techniki.

Podstawową jednostką w tych doświadczeniach jest poletko z którego obserwujemy interesujący nas wynik (najczęściej liczbowy). Kolejnym elementem doświadczenia jest czynnik doświadczalny. Jeden czynnik w doświadczeniu prostym (np. odmiany, nawożenie, terminy, itp.) lub dwa, trzy, itd. czynniki w doświadczeniu wieloczynnikowym. W obrębie badanego czynnika porównywane są obiekty czynnika (poziomy, warianty, kombinacje) w liczbie co najmniej dwóch. Natomiast na ogół w praktyce nie stosuje większej liczby czynników niż trzy (za wyjątkiem bardzo specyficznych, np. doświadczenia o wielu czynnikach i każdy rozpatrywany tylko na dwóch poziomach). W celu zapewnienia odpowiedniej wiarygodności i dokładności wyników oraz właściwej oceny błędu doświadczalnego (miernika wpływu czynników niekontrolowanych na zróżnicowanie wyników obiektowych), każdy z obiektów należy powtórzyć kilkakrotnie (na ogół co najmniej trzykrotnie). Analizowane obiekty w doświadczeniu są rozmieszczane na poletkach wg określonej metody, zwanej układem doświadczalnym.

W doświadczeniach polowych duże znaczenie ma zjawisko nierównomierności glebowej, która może występować na polu i która jest przyczyną nierównomierności w plonowaniu roślin. Taka zmienność glebowa wynika z przyczyn naturalnych i sztucznych. Może ona występowaćlosowo jak i systematycznie. Zmienność losowa (fluktuacyjna), występująca na polu losowo, na ogół tylko nieznacznie wpływa na wypaczenie wyników doświadczenia. Przed tą zmiennościązabezpieczamy się losowym przydziałem obiektów do poletek.

Natomiast występowanie zmienności systematycznej jest bardziej niebezpieczne dla doświadczenia. Ten rodzaj zmienności wyraża się systematyczną zmianą (wzrost lub spadek) urodzajności gleby w jednym kierunku pola. Dlatego też stosuje się blokowanie poletek, tzn. fragmenty pola rozlokowane wzdłuż kierunku zmienności systematycznej, zawierające poletka charakteryzujące się tylko zmiennością losową. Ogólnie można stwierdzić, że podziałdoświadczenia na bloki ma na celu wyodrębnienie źródeł niejednorodności w eksperymencie.

Page 56: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

56

2.1.1. Doświadczenie jednoczynnikowe — układ całkowicie losowy

Model liniowy: ij j ijy m a e= + +

Poziomy Czynnika A w czterech powtórzeniach np. wazony

Plan doświadczenia (nr obiektu, nr powtórzenia)

4,1 3,1 1,2 2,3 3,41,1 2,2 4,3 5,2 3,25,1 2,4 1,4 5,4 4,44,2 5,3 3,3 1,3 2,1

Tabela z danymi Czynnik A – liczba nicieni w 100 ml ziemi

Cecha y – masa korzeni selera (gramy z wazonu) Czynnik_A

1 2 3 4 50 50 100 200 400

6,8 6,4 6,0 5,8 5,5 8,2 6,3 6,1 4,8 4,9 6,9 6,3 6,2 6,0 4,7 7,0 5,6 6,3 5,4 5,2

Tabela danych do obliczeń komputerowych Obiekt Czynnik_A y – cecha

1 0 6,81 0 8,21 0 6,91 0 7,02 50 6,42 50 6,32 50 6,32 50 5,63 100 6,03 100 6,13 100 6,23 100 6,34 200 5,84 200 4,84 200 6,04 200 5,45 400 5,55 400 4,95 400 4,75 400 5,2

Page 57: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

57

2.1.2. Doświadczenie jednoczynnikowe w losowanych blokach

Model liniowy: ij j i ijy m g a e= + + +

Plan doświadczenia dla 5 odmian cykorii

Bloki Czynnik_A 1 4 3 1 2 52 1 2 4 5 3

~~~~ ~~ ~~ ~~ ~~ ~~ 3 5 2 1 3 4

~~~~ ~~ ~~ ~~ ~~ ~~ 4 4 5 3 1 2

Tabela z danymi Odmiany cykorii jako poziomy czynnika A

Czynnik A Bloki 1 2 3 4 5

1 96,2 86,1 97,3 82,1 90,9 2 91,4 78,0 99,9 81,0 86,3 3 97,3 89,3 91,7 84,4 84,0 4 92,3 79,6 90,3 78,7 88,9

Tabela danych do obliczeń komputerowych Bloki Czynnik_A y – cecha

1 1 96,2 1 2 86,1 1 3 97,3 1 4 82,1 1 5 90,9 2 1 91,4 2 2 78,0 2 3 99,9 2 4 81,0 2 5 86,3 3 1 97,3 3 2 89,3 3 3 91,7 3 4 84,4 3 5 84,0 4 1 92,3 4 2 79,6 4 3 90,3 4 4 78,7 4 5 88,9

Page 58: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

58

2.1.3. Dwuczynnikowe doświadczenie w układzie niezależnym

Model liniowy: ijk k i j ij ijky m r a b ab e= + + + + +

Bloki _R (i,j) Kombinacje czynników A&B (3,1) (3,3) (2,2) (1,5) (1,4) (2,4) (3,2) (1,3) (2,1) (3,5) 1(3,4) (1,1) (2,5) (1,2) (2,3) (1,5) (1,2) (2,1) (2,3) (3,4) (2,2) (2,4) (1,1) (3,3) (2,5) 2(1,3) (1,4) (3,5) (3,1) (3,2) (3,2) (2,1) (1,5) (3,4) (2,3) (1,3) (1,2) (2,4) (3,5) (3,1) 3(1,4) (1,1) (2,5) (2,2) (3,3) (1,4) (1,3) (1,2) (2,1) (2,5) (2,3) (3,4) (3,1) (2,2) (1,5) 4(3,5) (3,3) (3,2) (2,4) (1,1)

Wyszczególniamy bloki (tutaj 4), niekoniecznie obok siebie, które następnie dzielimy na poletka w liczbie kombinacji każdego z każdym (tzw. układ krzyżowy) poziomów (3×5=15) dla rozlosowania kombinacji czynników A i B.

ijky — obserwacja cechy z poletka,

m — efekt główny doświadczenia,

kr — efekt k – tego bloku,

ia — efekt i – tego poziomu czynnika A,

jb — efekt j – tego poziomu czynnika B,

ijab — efekt współdziałania poziomu i – tego z j – tym,

ijke — efekt błędu losowego.

2.1.4. Dwuczynnikowe doświadczenie w układzie „split-plot”

Model liniowy: (1) (2)ijk k i ik j ij ijky m r a e b ab e= + + + + + +

Bloki _R Czynnik_A Czynnik_B 3 1 3 2 5 42 4 2 3 1 511 4 1 5 2 31 5 2 1 3 43 2 4 1 3 522 3 4 5 1 23 2 1 5 4 32 3 2 4 5 131 4 1 5 2 32 4 3 2 1 51 3 4 1 2 543 5 3 2 4 1

Page 59: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

59

Wyszczególniamy bloki (4), które dzielimy na podbloki dla rozlosowania poziomów czynnika A (3), a następnie dzielimy je na poletka (5) dla rozlosowania poziomów czynnika B.

ijky – obserwacja cechy z poletka,

m – efekt główny doświadczenia,

kr – efekt k – tego bloku,

ia – efekt i – tego poziomu czynnika A,

(1)ike – efekt błędu pierwszego,

jb – efekt j – tego poziomu czynnika B,

ijab – efekt współdziałania poziomu i – tego z j – tym,

(2)ijke – efekt błędu drugiego.

2.1.5. Dwuczynnikowe doświadczenie w układzie „split-blocks”

Model liniowy: (1) (2) (3)ijk k i ik j jk ij ijky m r a e b e ab e= + + + + + + +

Blok 1 Czynnik B Czynnik A 2 1 4 3

14352

Blok 2 Czynnik B Czynnik A 1 3 2 4

41325

Blok 3 Czynnik B Czynnik A 4 3 1 2

53142

Każdy zdefiniowany blok (tutaj 3) jest dzielony na pasy w kierunku poziomym np. dla rozlosowania obiektów czynnika A (tutaj 5), oraz w kierunku pionowym np. dla rozlosowania poziomów czynnika B (tutaj 4). Na przecięciu pasów otrzymujemy poletko dla kombinacji odpowiednich poziomów badanych czynników i jA B .

W literaturze przedmiotu układ ten często nazywany jest układem pasów prostokątnych lub układem rozszczepionych bloków.

Page 60: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

60

2.1.6. Kwadrat Łaciński

Model liniowy: ( ) ( )m mij i j m ijy w k a e= + + +

kolumna wiersz 1 2 3 41 1 (a) 4 (d) 2 (b) 3 (c)2 2 (b) 3 (c) 4 (d) 1 (a)3 4 (d) 1 (a) 3 (c) 2 (b)4 3 (c) 2 (b) 1 (a) 4 (d)

Wiersz Kolumna Czynnik_A y – cecha1 1 a 82 1 2 d 88 1 3 b 138 1 4 c 74 2 1 b 106 2 2 c 118 2 3 d 65 2 4 a 86 3 1 d 74 3 2 a 91 3 3 c 92 3 4 b 107 4 1 c 115 4 2 b 107 4 3 a 86 4 4 d 105

Badana cecha (y) – plon w dkg/poletko (3,6 m2) 4 biotypów łubinu.

2.1.7. Doświadczenie dwuczynnikowe — współdziałanie czynników Przykład:

Badano plon handlowy w zależności od pięciu preparatów chwastobójczych i dwóch terminów ich stosowania.

Tak więc mamy: czynnik A — preparaty chwastobójcze o 5 poziomach (obiektach), czyli badano p = 5 różnych preparatów; czynnik B — terminy o q = 2 poziomach (obiektach), odpowiednio (1) — po posadzeniu czosnku, (2) — po ukorzenieniu się roślin. Doświadczenie przeprowadzono w polu w sześciu powtórzeniach (blokach). Wielkość poletka wynosiła 7,2 m2.Wyniki doświadczenia zestawione są w poniższej tabeli:

Czynniki Powtórzenia — Bloki

A B 1 2 3 4 5 61 1 2,67 2,86 2,34 2,47 2,52 2,18 1 2 2,92 2,10 2,17 2,08 1,81 1,74 2 1 2,10 2,36 2,29 2,15 1,68 1,63 2 2 2,75 2,25 2,01 2,26 1,71 2,34 3 1 2,48 2,62 2,20 2,28 1,68 1,70 3 2 3,36 2,00 2,82 2,26 1,93 2,54 4 1 2,45 2,47 1,34 2,05 1,65 1,19 4 2 2,26 1,68 3,25 2,77 1,74 2,06 5 1 2,12 1,92 3,25 2,30 1,77 1,40 5 2 1,37 1,90 2,83 1,82 1,27 1,35

Page 61: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

61

Jest to doświadczenie dwuczynnikowe założone w układzie niezależnym, tzn. kombinacje poziomów czynników są przyporządkowywane do poszczególnych poletek (jednostki doświadczalne) w bloku równorzędnie i niezależnie w każdym z bloków, tzn. wtedy m.in. istnieją techniczne możliwości wykonania wszelkich zabiegów niezależnie na poszczególnych poletkach. Dla przeanalizowania przedstawionych danych doświadczalnych zastosować metodęanalizy wariancji.

Model liniowy obserwacji z tego doświadczenia jest postaci:

ijk k i j ij ijky m r a b ab e= + + + + + .

Na podstawie wyników ijky mamy do zweryfikowania trzy hipotezy:

5 20 1

: 0A iiH a=

=∑ ,

2 20 1

: 0B jjH b

==∑ ,

5 2 20 1 1

: 0AB iji jH ab

= ==∑ ∑ .

Hipotezy te mówią o braku addytywnego działania i współdziałania na wynik doświadczenia czynników poddanych badaniu (wszystkie efekty są zerami), wobec hipotez alternatywnych 1 1 1; ;A B ABH H H — nie wszystkie efekty są równe zeru.

Analiza wariancji

Źródło zmienności Stopnie swobody

Suma kwadratów Średni kwadrat Test F P_value

Bloki 5 4,43697 0,887394 5,57 0,0004Preparaty 4 1,29132 0,322831 2,03 0,1065Terminy 1 0,0260417 0,0260417 0,16 0,6878Współdziałanie 4 1,77522 0,443804 2,79 0,0375Błąd 45 7,16315 0,159181 × ×Całkowita 59 14,6927 × × ×

Z powyższej tabeli wynika, że istotny wpływ na końcowe wyniki eksperymentalne ma tylko współdziałanie — wspólne oddziaływanie badanych czynników ( 0,05 0,0375α = > ), natomiast ich samodzielnego oddziaływania nie stwierdzamy (dla preparatów mamy relację:

0,05 0,1065α = < , podobnie dla terminów: 0,05 0,6878α = < ). Istotność dla bloków potwierdza nam, że właściwym wyborem był układ losowanych bloków.

Możemy tutaj zaniechać szczegółowego analizowania średnich dla poszczególnych poziomów badanych czynników, a zająć się tylko średnimi interakcji czynników.

Page 62: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

62

Interpretacji współdziałania (interakcji)

Porównania średnich

(A) Preparaty (B) Terminy 1 2 3 4 5 Średnie

1 2,507 2,035 2,160 1,858 2,127 2,137 2 2,137 2,220 2,485 2,293 1,760 2,179

Średnie 2,322 2,128 2,323 2,076 1,943 2,158

NIRT (0,05)(Terminy) = 0,2075 (liczba terminów 2q = );

NIRT (0,05)(Preparaty) = 0,4628 (liczba preparatów 5p = );

NIRT (0,05)(Terminy/Preparaty) = NIRT (0,05)(T) × p = 0,464;

NIRT (0,05)(Preparaty/Terminy) = NIRT (0,05)(P) × q = 0,655.

Wprowadźmy pojęcie precyzji doświadczenia, której ocena jest równa 1 100%es y −⋅ ⋅ . Dla naszego doświadczenia mamy:

0,159181100% 100% 18,5%2,15817

esy⋅ = ⋅ ≅ ,

co oznacza niewłaściwą precyzję (>15%). Prawdopodobnie niezbyt starannie doświadczenie zostało wykonane.

Można oczywiście graficznie inaczej przedstawić nasze średnie interakcji. Na poniższym rysunku bardziej widoczna jest różna reakcja średnich plonów na zmiany poziomów badanych czynników. Widoczna jest podobna reakcja preparatów nr 1 i 5, oba powodują gorsze plony przy stosowaniu w drugim terminie. Natomiast pozostałe preparaty działają inaczej. Stosowanie ich w drugim terminie powoduje zwyżkę plonów względem pierwszego terminu, chociaż każdy z preparatów w różnym stopniu.

Page 63: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

63

Przykład analizy innego doświadczenia dwuczynnikowego

Dane pochodzą z doświadczenia z kukurydzą, w którym jednym czynnikiem były odmiany (8 odmian), drugim zaś sposób ich traktowania, tzn. występowała ochrona fungicydami przed Kabatiellą— zgorzel podstawy łodygi oraz brak tej ochrony — czyli naturalna infekcja.

Źr. zmienności St. sw. Sum. kwd. Śr. kwd. empF P-stwo Bloki 2 40,786 20,393 0,588

Odmiany (A) 7 3121,358 445,908 12,857 <0,000005 Traktowanie (B) 1 1522,127 1522,127 43,888 <0,000005

Współ. A*B 7 933,022 133,289 3,843 0,00426 Błąd 30 1040,461 34,682

2.1.8. Układy bloków niekompletnych zrównoważonych W doświadczeniach przeprowadzanych w układzie losowanych bloków z różnych przyczyn

może wynikać brak kompletu obiektów w bloku. Braki te mogą być niezamierzone przez eksperymentatora, ale także i celowo przez niego planowane. Planowanie doświadczeńw układzie losowanych bloków niekompletnych wynika z potrzeby przebadania większej liczby obiektów, a zastosowanie układu losowanych bloków kompletnych jest z różnych względówniewskazane lub niemożliwe do wykonania. Czym charakteryzuje się taki układ zrównoważonyo niekompletnych blokach?

Otóż, jeżeli każdy blok zawiera tę samą liczbę badanych obiektów i są one ustawione w ten sposób, że każda para obiektów występuje razem w jednakowej liczbie bloków, to układ taki nazywamy zrównoważonym. Wychodząc z powyższej charakterystyki i oznaczając przez p — ogólną liczbę obiektów, q — liczbę bloków, k — liczbę obiektów w bloku (k < p), r — liczbę powtórzeń (replikacji) każdego obiektu, a przez λ — liczbę bloków w których występuje jednocześnie każda para obiektów, to mamy dwie równości:

p r q k n⋅ = ⋅ = , ( ) ( )1 1p r kλ ⋅ − = ⋅ − ,

przy czym pierwsza określa ogólną liczbę obserwacji, druga — ogólną liczbę spotkańkażdego obiektu z pozostałymi obiektami. Liczby — ( ), , , ,p q r k λ oraz przedstawione powyżej relacje między nimi, charakteryzują układ zrównoważony o blokach niekompletnych.

Page 64: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

64

Jednym ze sposobów takiego grupowania jest żmudne, bezpośrednie przyporządkowanie obiektów do poszczególnych bloków. Są oczywiście łatwiejsze sposoby, np. taki układ możnaotrzymać przez wybór określonej liczby wierszy lub kolumn kwadratu łacińskiego (tzw. układYoudena).

Układ Youdena: 7, 4, 2p q r k λ= = = = =

bl. 1 bl. 2 bl. 3 bl. 4 bl. 5 bl. 6 bl. 7 1 2 3 1 2 1 12 3 4 4 5 3 23 4 5 5 6 6 45 6 7 6 7 7 7

Jeszcze innym sposobem zapewnienia zrównoważenia układu bloków niekompletnych dla testowania 2p k= obiektów może być układ powstały z 1k + krat kwadratowych. Na przykład dla liczby obiektów 2 23 9p k= = = przykładowe ich rozmieszczenie przy zastosowaniu układu kratowego typu 2k jest postaci:

I krata II krata III krata IV krata

bl.1 bl.2 bl.3 bl.4 bl.5 bl.6 bl.7 bl.8 bl.9 bl.10 bl.11 bl.12 1 4 7 1 2 3 1 2 3 1 2 32 5 8 4 5 6 5 6 4 6 4 53 6 9 7 8 9 9 7 8 8 9 7

W ten sposób otrzymaliśmy układ ( )1q k k= ⋅ + bloków o k — obiektach w każdymz bloków. Liczba powtórzeń każdego obiektu wynosi 1r k= + i jest równa liczbie krat, a liczba spotkań pary obiektów jest równa jedności ( )9, 12, 4, 3, 1, 36p q r k nλ= = = = = = . Zauważmy, że jeżeli potraktujemy kraty jako bloki, wtedy mamy układ czterech bloków kompletnych.

Przykład:

Badano wpływ 9 kombinacji nawożenia mineralnego na wielkość plonu bulw pewnej odmiany ziemniaka. Wyniki z doświadczenia, jak w poniższej tabeli:

bl.1 bl.2 bl.3 bl.4 bl.5 bl.6 bl.7 bl.8 bl.9 bl.10 bl.11 bl.12 ob.1 269 — — 249 — — 281 — — 251 — — ob.2 278 — — — 244 — — 290 — — 267 — ob.3 320 — — — — 339 — — 329 — — 304 ob.4 — 248 — 256 — — — — 272 — 276 — ob.5 — 332 — — 359 — 316 — — — — 350 ob.6 — 353 — — — 330 — 332 — 301 — — ob.7 — — 367 311 — — — 353 — — — 339 ob.8 — — 379 — 342 — — — 362 351 — — ob.9 — — 352 — — 342 372 — — — 360 —

Powyższe dane można analizować jako dane w układzie kompletnym (bloki = kraty) lub w układzie 12-stu bloków niekompletnych. Jak lepiej dla konkretnego przypadku?

Page 65: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

65

Efektywność w ocenie różnic między średnimi obiektowymi układu niekompletnego względem kompletnego wynosi:

( ) ( )

2( )

2 100%1

e kompl

e niekompl

p sk k s

⋅⋅

⋅ + ⋅.

Dla naszego przykładu mamy odpowiadającą wartość:

9 287,313 100% 70%12 307,833⋅

⋅ =⋅

,

która wskazuje na małą skuteczność zastosowania układu bloków niekompletnych. Wynika to zapewne z faktu małej zmienności glebowej (dla: krat 0,171P value− = , bloków

0,456P value− = ), natomiast straciliśmy dość dużo stopni swobody dla błędu (24 do 16).

Należy sądzić, że przy większej zmienności glebowej układ bloków niekompletnych byłbyskuteczniejszy w zastosowaniach. Weźmy przykładowe wyniki innego doświadczenia polowego z ziemniakiem, zrealizowanego w identycznym układzie kratowym bloków niekompletnych o analizowanej cesze reprezentowanej także przez plon bulw:

bl.1 bl.2 bl.3 bl.4 bl.5 bl.6 bl.7 bl.8 bl.9 bl.10 bl.11 bl.12

ob.1 43 — — 48 — — 50 — — 45 — — ob.2 44 — — — 52 — — 46 — — 50 — ob.3 42 — — — — 49 — — 46 — — 48 ob.4 — 46 — 40 — — — — 44 — 46 — ob.5 — 45 — — 49 — 41 — — — — 47 ob.6 — 52 — — — 53 — 42 — 42 — — ob.7 — — 57 55 — — — 50 — — — 61 ob.8 — — 56 — 57 — — — 55 47 — — ob.9 — — 56 — — 63 56 — — — 59 —

Wskaźnik efektywności bloków niekompletnych względem kompletnych wynosi tutaj:

9 14,5972 100% 824,3%12 2,36111⋅

⋅ =⋅

.

Zróżnicowanie bloków okazało się tutaj wysoce istotne — dla krat 0,188valueP = , natomiast dla bloków 0,00005valueP < .

Wybór układu niekompletnego tutaj okazał się właściwy.

Page 66: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

66

2.1.9. Układy bloków niekompletnych częściowo zrównoważonych Układ kratowy zrównoważony, realizowany tylko w pewnym fragmencie staje się układem

częściowo zrównoważonym. To znaczy takim układem, w którym część obiektów badanych spotyka się jednocześnie w tym samym bloku niekompletnym, ale będą takie, które nie spotykają się ani razu w którymkolwiek bloku. Na przykład układ opisany schematem:

I krata II krata III krata

bl.1 bl.2 bl.3 bl.4 bl.5 bl.6 bl.7 bl.8 bl.9 bl.10 bl.11 bl.12 1 5 9 13 1 2 3 4 1 2 3 42 6 10 14 5 6 7 8 6 5 8 73 7 11 15 9 10 11 12 11 12 9 104 8 12 16 13 14 15 16 16 15 14 13

Układ ten stanowią trzy wybrane kraty z 5 krat układu zrównoważonego, przy pomocy którego można przeprowadzić eksperyment porównawczy z 16 obiektami. Efektywność tego układu niekompletnego w ocenie różnic między średnimi obiektowymi względem układu kompletnego dla obiektów spotykających się ze sobą (ten większy, lepszy) wyraża się wzorem:

( )

( ) ( )

2( )

2

1100%

1e kompl

e niekompl

p k sk p s⋅ − ⋅

⋅⋅ − ⋅

.

Kolejnym przykładem układów niekompletnych częściowo zrównoważonych są tzw. kraty prostokątne. Liczba porównywanych obiektów jest iloczynem dwóch kolejnych liczb całkowitych, tzn. jest określona wzorem:

( )1p k k= ⋅ + ,

gdzie pierwszy czynnik ( k ) określa liczbę obiektów w bloku, drugi zaś ( 1k + ) — liczbębloków w powtórzeniu.

W kratach prostokątnych nie można uzyskać pełnego zbalansowania (zrównoważenia) obiektów. Możliwe są tylko częściowo zrównoważone, pojedyncze lub wielokrotne kraty prostokątne.

Przykład kraty prostokątnej czterokrotnie powtórzonej z 12 obiektami:

Krata Blok Obiekty Blok Obiekty 1 1 5 9 3 3 7 111 2 2 6 10 4 4 8 125 1 6 11 7 3 8 92 6 2 5 12 8 4 7 109 1 7 12 11 3 5 103 10 2 8 11 12 4 6 913 1 8 10 15 3 6 124 14 2 7 9 16 4 5 11

Nietrudno zauważyć, że w każdym bloku niekompletnym mamy po trzy obiekty a każdakrata (powtórzenie) zawiera cztery bloki. Łącznie więc mamy tutaj 16 bloków, a każdy obiekt jest powtórzony 4 razy.

Przykład analizy doświadczenia z zastosowaniem kraty prostokątnej.

W doświadczeniu z żytem badano 17 rodów na tle 3 odmian. Doświadczenie wykonano w układzie 20 bloków niekompletnych (krata prostokątna czterokrotnie powtórzona, tzn. cztery

Page 67: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

67

obiekty w bloku, pięć bloków w kracie — łącznie ( )1 4 5 20p k k= ⋅ + = ⋅ = obiektów w czterech powtórzeniach, 80 wyników obserwacji). Badaną cechą jest plon z poletka (10m2).

Źródło zmienności St. sw. Suma kwd. Śr. kwd. empF P-stwo Bloki 19 11,6468 0,6130 0,8830

Obiekty 19 17,5452 0,9234 1,3303 0,2175 Reszta 41 28,4613 0,6942

Analiza wariancji nie wykazuje różnic między wartościami średnich plonów z poletka badanych obiektów ( 0,2175α = ). Precyzja (błąd) doświadczenia w ocenie różnić między wartościami średnimi analizowanych obiektów zawierała się w przedziale <8,26% – 9,48%>, tzn. średnia precyzja wynosiła 8,92%. Wartości te wskazują, że doświadczenie byłoprzeprowadzone prawidłowo. Najprawdopodobniej te obiekty ze względu na wartości średnie jednak nie były zróżnicowane.

2.1.10. Doświadczenia wielokrotne Terminem doświadczenia wielokrotne określamy doświadczenia powtarzane w pełnym

układzie w różnych warunkach przyrodniczych. W przypadku doświadczeń rolniczych są to przeważnie doświadczenia z różnymi odmianami roślin uprawnych, tzw. odmianowe,powtarzane w miejscowościach i latach. Zmienne warunki przyrodnicze, reprezentowane przez miejscowości czy laboratoria, czy też zespól warunków klimatycznych, określanych umownie lata, stanowią kierunki klasyfikacji o charakterze losowym danych empirycznych uzyskiwanych z doświadczeń wielokrotnych. Dlatego modele matematyczne stosowane w ich opracowaniach będą z reguły modelami mieszanymi. Nie mniej jednak często czynnik lat lub miejscowości przyjmuje się jako mające charakter stały (ustalone lata, ustalone miejscowości). Obliczenia prowadzące do analizy wariancji wyników doświadczenia wielokrotnego pokażemy na przykładzie eksperymentu w losowanych blokach z pięcioma odmianami truskawek, przeprowadzonego w dwóch kolejnych latach i potraktowanego jako układ split-plot.

Źródło zmienności St. sw. Suma kwd. Śr. kwd. empF P-stwo Bloki 3 27747,6 9249,21 14,95 0,0261 Lata (A) 1 6029,48 6029,48 9,75 0,0524 Błąd I 3 1855,84 618,615 Odmiany(B) 4 1196,36 299,089 2,14 0,1070 Interakcja: A×B 4 1683,75 420,938 3,01 0,0381 Błąd II 24 3355,59 139,816

Na podstawie powyższej analizy stwierdzamy istotnie różną reakcję odmian truskawki na warunki klimatyczne uwzględnionych lat. Dobrze jest tutaj zauważyć, że wzięta tutaj do analiza liczba lat jest stanowczo za mała. Na ogół minimalna liczba analizowanych lat powinna wynosić trzy. Oczywiście, analiza jednorocznego czy dwuletniego doświadczenia może byćzawsze traktowana jako analiza doświadczenia pilotażowego. Tak traktując naszą analizęmożemy zauważyć, że zachodzą duże szanse na to, by badane odmiany podejrzewaćo wzajemne zróżnicowanie w średnich plonach.

Page 68: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

68

3. POJĘCIE KONTRASTU W analizie wariancji danych podlegających klasyfikacji weryfikuje się tzw. globalne

hipotezy zerowe o braku wpływu danego kryterium klasyfikacji na analizowaną cechę.Odrzucenie takiej hipotezy globalnej nie oznacza występowania różnic między wszystkimi średnimi podklas wynikających z przyjętej klasyfikacji. Przeciwnie, często pewne podgrupy średnich (czy efektów) nie są istotnie zróżnicowane, zwłaszcza gdy liczba podklas jest liczna. Badacza zaś często interesują konkretne szczegółowe porównania par średnich lub wybranych podgrup. Temu celowi służą testy porównań wielokrotnych oparte na najmniejszych istotnych różnicach (NIR) między średnimi lub testy istotności tzw. kontrastów. Testy te znajdujązastosowanie zarówno w klasyfikacji pojedynczej jak i wielokrotnej.

Pojęcie kontrastu zdefiniujemy na przykładzie klasyfikacji pojedynczej. Niech ˆi iy y a= +( 1,2, ,i p= … ) będzie zbiorem porównywanych średnich. Kontrastem nazywamy liniowa funkcję tych średnich:

( )1 1 1

ˆ ˆp p p

i i i i i ii i i

L c y c y a c a= = =

= ⋅ = ⋅ + = ⋅∑ ∑ ∑ ,

taką, że1

0pii c

==∑ . Jest to porównanie części średnich opatrzonych współczynnikami

dodatnimi z inną częścią ze współczynnikami ujemnymi. Widzimy też, że kontrast między średnimi jest równoważny kontrastowi między ocenami efektów klasyfikacji.

Szczegółowym przypadkiem kontrastu jest porównanie wybranej pary średnich. Wtedy jeden ze współczynników ic jest (przy jednej średniej) jest równy 1, a inny (przy drugiej średniej) jest równy –1, pozostałe są zerami. Ocena błędu dla takiego kontrastu jest równa:

2 2

1p

e iiL

s cs

r=

⋅= ∑ ,

gdzie jest liczbą składników z których oblicza się średnią iy .

Stąd funkcją testową dla hipotezy, że ustalony kontrast L ma wartość oczekiwaną równązero, tzn. hipotezy ( )0 : 0H E L = , jest statystyka

1 1ˆ

p p

i i i ii i

empL L L

c y c aLts s s

= =⋅ ⋅

= = =∑ ∑

,

o rozkładzie t Studenta. Porównując jej wartość z wartością krytyczną ;vtα , weryfikujemy naszą

hipotezę zerową ( )0 : 0H E L = .

Test t Studenta może tu być zastąpiony testem F, bo statystyka

2

22 2

1

emp emp pe ii

r Lt Fs c

=

⋅= =⋅∑

,

ma rozkład F z 1 i v stopniami swobody.

Page 69: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

69

Test ten możemy stosować do sprawdzenia serii niezależnych kontrastów. Taki układ niezależnych kontrastów stanowią kontrasty wzajemnie ortogonalne, tzn. 1L i 2L są

ortogonalne, gdy 1 210p

i ii c c=⋅ =∑ . Jeśli porównujemy p średnich, to istnieje 1p − kontrastów

ortogonalnych, przy czym

( )2

211 12

1

varp pjipj i

jii

r Lr y y A

c−

= ==

⋅= ⋅ − =∑ ∑

∑.

Wróćmy do wyników doświadczenia z liczbą nicieni. Średnie iy dla poszczególnych poziomów przedstawia poniższa tabela:

L_nicieni 0 50 100 200 400 800 1600

iy 7,225 6,150 6,150 5,500 5,075 5,075 4,400

Jesteśmy zainteresowani kontrastem przypadków o liczbie nicieni do 100 oraz powyżej tej liczby. Wektor naszych współczynników ic spełniający warunek

10p

ii c=

=∑ może być postaci

4 4 4, , , 1, 1, 1, 13 3 3 − − − −

.

Stąd wyliczona wartość 17,953

L = wynika z poniższych obliczeń:

( ) ( )4 7,225 6,15 6,15 1 5,5 5,075 5,075 4,43⋅ + + − ⋅ + + +

natomiast błąd kontrastu:

2 2

1 0,2325 28 0,5458 0,736554 3

pe ii

L

s cs

r=

⋅ ⋅= = = =⋅

∑ ,

wobec tego odpowiednia statystyka jest równa:

17,95 8,1243 0,73655empt = =⋅

,

która to wielkość porównujemy ze statystyką ; 21vtα = , a to oznacza wysoce ( 0,00005valueP < )istotne zróżnicowanie średniej trzech pierwszych poziomów względem średniej pozostałych czterech poziomów badanego czynnika.

Istnieje wiele różnych testów dla porównań wielokrotnych opartych o najmniejszą istotnąróżnicę między średnimi (NIR). We wszystkich przypadkach wartość NIR obliczana jest według tej samej zasady: jest ona iloczynem oceny błędu różnicy średnich rs przez współczynnik ; ;p vTα zapewniający określony poziom istotności α w porównaniach wielokrotnych (α — prawdopodobieństwo udowodnienia we wszystkich porównaniach chociaż raz różnicy, której nie ma). Współczynnik ten zależy nie tylko od α , v — stopni swobody dla błędu, ale i od liczby p porównywanych średnich. Jest zatem:

; ;p v rNIR T sα α= ⋅ .

W zależności od sposobu dokonywanych porównań wybieramy ; ;p vTα otrzymując różnewersje NIR. Gdy 2p = , test NIR pokrywa się ze zwykłym testem t Studenta.

Page 70: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

70

Wyróżniamy m.in. NIR według Tukey’a, Newmana-Keulsa — oparte na stosowaniu studentyzowanego rozstępu, Duncana — oparte na stosowaniu rozkładu zaproponowanego przez autora, Dunnetta — do porównań średnich z których jedna jest traktowana jako kontrola, itd.

Page 71: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

71

4. TRANSFORMACJE DANYCH EMPIRYCZNYCH Test F stosowany w analizie wariancji do sprawdzania hipotez zerowych wymaga założeń

o składnikach losowych modelu liniowego, które formułujemy jako:

— normalność rozkładu składników losowych,

— niezależność błędów losowych od efektów klasyfikacji — stabilność błędów.

Poza tym w modelach z jedną obserwacją w podklasach, gdy interakcja najwyższego rzędujest uwikłana (nierozdzielna) ze składnikiem losowym, zakłada się brak tej interakcji, czyli addytywność pozostałych efektów (np. model doświadczenia jednoczynnikowego w układzie losowanych bloków). Ocenami tych składników losowych są różnice między danymi empirycznymi a ocenami parametrów wyliczanych z tych danych. Na przykład dla klasyfikacji pojedynczej są one równe:

ˆ ˆ ˆij ij i ij ie y m a y y= − − = − .

Modele liniowe (np. dla klasyfikacji pojedynczej: ij i ijy m a e= + + ) są wygodnym narzędziem modelowania matematycznego prowadzącego do analizy statystycznej danych empirycznych. Jednakże w wypadkach wielu cech analiza wariancji według modelu wynikającego z układu doświadczalnego nie może być stosowana ze względu na niespełnienie założeń. Trudność tę można rozwiązać stosując odpowiednio dobrane transformacje danych, przybliżające rozkład zmiennych transformowanych do normalnego, a przynajmniej stabilizujące ich wariancję. Należy pamiętać, że jeżeli stosujemy transformację danych, wtedy wszelkie wnioskowanie ogólne i szczegółowe dotyczy danych transformowanych. Wszelkie oceny średnich według danych początkowych (przed transformacją) może mieć tylko sens opisowy dla analizowanego zjawiska.

Zamiana procentów na stopnie kątowe (transformacja Blissa) jest wykonywania zgodnie ze wzorem:

arcsinz y= ,

gdzie y procent osobników mających (lub nie) badaną cechę.

Jeżeli dane empiryczne dotyczą takich procentów jak np. wilgotność gleby, procent cukru czy białka, wtedy transformacja jest zbędna. Natomiast jeżeli w procentach wyrazimy nie pewną cechę ilościowa, lecz liczbę osobników, które mają daną cechę (lub nie), np. owoc jest zdrowy lub porażony, nasiona uszkodzone lub nieuszkodzone, to mamy do czynienia z rozkładem dwumianowym, a zatem należy zastosować to przekształcenie przed wykonaniem analizy wariancji. Jeżeli liczbę osobników mających (lub nie) badaną cechę obliczono na podstawie dużej liczby przypadków (powyżej 100) a wartości empiryczne mieszczą się między 20 a 80%, to można stosować analizę wariancji bez transformacji danych. Dla wartości procentowych mniejszych niż 20 oraz większych niż 80 należy zawsze stosować transformacjęBlissa.

Przekształcenia pierwiastkowe

Jeżeli dane empiryczne chcemy opracować metodą analizy wariancji, mają rozkład Poissona, to przekształcamy je według wzoru:

z y= lub 0,5z y= + .

Zmienne y oznaczać może np. liczbę bakterii w polu widzenia, liczbę rozgałęzień nakrzewie róży, itp. Przekształcanie danych według wzoru 0,5z y= + stosujemy dla małych

wartości 10y < , natomiast z y= dla wartości 10 50y≤ ≤ . Dla 50y > możnaprzeprowadzać obliczenia analizy wariancji bez przekształceń.

Page 72: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

72

Przekształcenia logarytmiczne

Zamianę danych empirycznych przeprowadzamy według wzoru:

logz y= lub ( )log 1z y= + – gdy występują wartości zerowe.

Stosujemy to przekształcenie najczęściej w doświadczeniach z ochrony roślin, np. gdy liczba szkodników wykazuje znaczne wahania między poletkami, lub gdy występują dane o szerokim rozrzucie, tzn. jedno-, dwu- lub trzycyfrowe. Nie jest zatem spełnione założenie o jednakowych wariancjach porównywanych obiektów. Ponadto, jeżeli stosunek odchylenia standardowego do średniej (czyli współczynnik zmienności) jest stały u porównywanych obiektów, to również należy stosować przekształcenia logarytmiczne.

Page 73: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

73

5. ANALIZA WSPÓŁZALEŻNOŚCI Dotychczas rozpatrywane były zbiorowości statystyczne (populacje) ze względu na jedną

cechę. W rzeczywistości zjawiska nie są izolowane wzajemnie, lecz zachodzą między nimi mniej lub bardziej ścisłe zależności. Celem łącznego badania zjawisk jest, czy między nimi zachodzą jakieś zależności, jaka jest ich siła, kształt i kierunek. Zjawiska opisywane sąw praktyce przez wartości pewnych zmiennych. Współzależność między tymi zmiennymi możebyć dwojakiego rodzaju: funkcyjna i stochastyczna (probabilistyczna).

Zależności funkcyjna: ( )y f x= , np. wartość utargu u z p= ⋅ , gdzie z — liczba sprzedanych

wyrobów po cenie p; pole kwadratu 2S a= , gdzie mamy bezpośrednią zależność pola od wielkości boku kwadratu.

Zajmiemy się szczególnym przypadkiem zależności stochastycznej, mianowicie zależnościąkorelacyjną. W najprostszym przypadku — populacji dwucechowej ( ),x y mamy, że konkretnej wartości jednej zmiennej odpowiada pewna przeciętna (średnia) wartość drugiej zmiennej. Wykrycie związku korelacyjnego i określenie siły tego związku przy pomocy współczynnika korelacji — xyr , pozwala na głębszą analizę przyczynową-skutkową procesów gospodarczych czy zjawisk biologicznych. Tylko takie zjawiska między którymi istnieje więź przyczynowo-skutkowa jest sens rozpatrywać. Związki takie mogą być jednostronne (np. nawożenie a plon, czyli jednostronne oddziaływanie przyczyny na skutek) lub dwustronne — przyczyna i skutek mogą zamieniać się miejscami, np. produkcja w sztukach (x) a cena jednostki (y) — poniższa tabela, ale także związki o korelacji pozornej, np. liczba zarejestrowanych odbiorników telewizyjnych — a liczba chorych umysłowo, liczba gniazd bocianich – a liczba urodzin.

i 1 2 3 4 5 6 7 8 Suma x 800 950 1110 1200 1285 1525 1600 1850 10320 y 18,2 16,8 16,5 15,5 13,8 12,7 12,0 10,8 116,3 Σxx 640000 902500 1232100 1440000 1651225 2325625 2560000 3422500 14173950 Σyy 331,24 282,24 272,25 240,25 190,44 161,29 144,00 116,64 1738,35 Σxy 1450 15960 18315 18600 17733 19367,5 19200 19980 143715,5

Zależność korelacyjna polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się wartość średniej zmiennej Y w zależności od zmiany wartości zmiennej niezależnej X. W praktyce — np. sformułowanie: zwiększone nawożenie powoduje wyższe plony — oznacza to, że zwiększając nawożenie w uprawie pewnej rośliny nie zawsze uzyskamy zwiększone plony. Będą przypadki zwiększonego, takiego samego i niższego plonu, ale uzyskiwane średnie plony przy wyższym nawożeniu będą wyższe od średnich plonów uzyskiwanych przy niższym nawożeniu.

Należy stwierdzić, że jeśli między badanymi zmiennymi nie ma związku stochastycznego, to nie ma również między nimi związku korelacyjnego. Natomiast stwierdzenie odwrotne nie jest prawdziwe. Wynika to z faktu, że określonej liczbie identycznych wariantów zmiennej odpowiada zawsze ta sama średnia, ale daną średnią można uzyskać z różnej kombinacji wariantów zmiennej. Np. wariantom (wartościom) cechy „plon” 62 i 68 odpowiada średnia 65,ale średnią 65 można uzyskać także z wariantów, jak 60 i 70, 10 i 120, itd.

W praktyce więc, badanie związków korelacyjnych ma sens jedynie wtedy, gdy między zmiennymi istnieje więź przyczynowo-skutkowa, dająca się logicznie wytłumaczyć. Badania zależności typu korelacji pozornej (nawet istotnej statystycznie), raczej są pozbawione sensu. Analiza związków między zjawiskami powinna więc być jakościowa i ilościowa. Najpierw na podstawie analizy merytorycznej należy uzasadnić logiczne występowanie związku, a dopiero potem można przystąpić do określania stopnia (siły) kierunku zależności.

Page 74: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

74

W związkach przyczynowo-skutkowych można wyróżnić związki dwustronne (wzajemne oddziaływanie — przyczyny i skutki można zamieniać miejscami) i jednostronne (proste) — w których mamy wyraźnie określoną przyczynę oraz skutek, a badanie związku korelacyjnego jest możliwe tylko wtedy, gdy przynajmniej jedna cecha jest mierzalna. W celu określenia stopnia zależności między zmiennymi można posłużyć się współczynnikiem korelacji

Współczynnik korelacji liniowej (Pearsona) między cechami mierzalnymi – jednostkowym przyrostom jednej zmiennej (przyczyny) towarzyszy, średnio biorąc, stały przyrost wielkości drugiej zmiennej (skutku).

Współczynnik korelacji:

( )cov ,var varxy

x yr

x y=

⋅,

gdzie:

( )( )1

1 1 1

cov

1 ,

ni ii

n n ni i i ii i i

xy x x y y

x y x yn

=

= = =

= − − =

= − ⋅ ⋅

∑ ∑ ∑

( )2 21 1 1

var cov n n ni i ii i ix xx x x x x x

= = == = − = −∑ ∑ ∑ ,

var covy yy= i mamy, że

1 1xyr− ≤ ≤ + .

Dla wartości powtarzających się mamy:

( )( )1

1 1 1

cov

1

ki i ii

k k ni i i i i i ii i i

xy n x x y y

n x y n x n yN

=

= = =

= − − =

= − ⋅ ⋅

∑ ∑ ∑,

gdzie: 1

kiiN n

==∑ , zaś var covx xx= , var covy yy= .

W powyższym przykładzie, mamy:

( )cov 143715,5 10320 116,3 / 8143715,5 150027 6311,5

xy = − ⋅ == − = −

( )var 14173950 10320 10320 / 8 861150x = − ⋅ = , ( )var 1738,35 116,3 116,3 / 8 47,63875y = − ⋅ =

6311,5 6311,5861150 47,63875 41024109,566311,5 0,9854;

6405,0066

xyr − −= = =⋅

−= = − D=97,1%

Możemy mówić o korelacji liniowej ujemnej między cechami — jedna cecha (zmienna) o wartościach rosnących (np. produkcja), druga natomiast o wartościach malejących (np. ceny). Wyrazem ujemnej zależności jest ujemna wartość współczynnika korelacji. Z korelacją liniowądodatnią mamy do czynienia gdy zmianom rosnącym jednej zmiennej towarzyszą rosnące zmiany drugiej (jak w poniższym przykładzie — dane z urzędu stanu cywilnego).

Page 75: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

75

i 1 2 3 4 5 6 7 8 9 10 Suma y – Ona 18 19 20 21 23 24 26 27 27 30 235 x – On 19 21 23 21 20 23 26 25 26 34 238 Σxx 324 361 400 441 529 576 676 729 729 900 5665 Σyy 361 441 529 441 400 529 676 625 676 1156 5834 Σxy 342 399 460 441 460 552 676 675 702 1020 5727

( )var 5665 235 235 /10 142,5y = − ⋅ = ; ( )var 5834 238 238 /10 169,6x = − ⋅ = ;

( )cov 5727 235 238 /10 134,0xy = − ⋅ = ;

134,0 134 134 0,862155,4606142,5 169,6 24168xyr = = = =

⋅.

Mamy tutaj wysoki współczynnik korelacji liniowej.

Stopnie zależności korelacyjnej:— 0,0xyr = — brak (nie występuje),

— 0,0 0,3xyr< < — słaby stopień,

— 0,3 0,5xyr≤ < — średni stopień,

— 0,5 0,7xyr≤ < — znaczny stopień,

— 0,7 0,9xyr≤ < — wysoki stopień,

— 0,9 1,0xyr≤ < — bardzo wysoki stopień,

— 1,0xyr = — zależność funkcyjna.

Współczynnik korelacji z próby w przypadku hipotezy o braku korelacji między cechami (tzn. współczynnik korelacji w populacji jest równy zero — 0 : 0H ρ = ) może byćwykorzystany do konstrukcji testu istotności, tzn. dla 0 : 0H ρ = , gdyż zmienna postaci

2 21

empemp

emp

rt n

r= ⋅ −−

,

ma rozkład t Studenta o liczbie stopni swobody 2n − .

Jeżeli ; 2emp nt tα −≥ , gdzie ; 2ntα − jest wartością krytyczną testu t, to 0H odrzucamy.

Z postaci zmiennej empt można określić wartość krytyczną współczynnika korelacji, której przekroczenie przez wartość empr świadczy o istotności korelacji. Wartość krytyczną ; 2nrα −

znajdujemy ze związku (stąd odpowiednie tablice)

; 2; 2

; 22n

nn

tr

n tα

αα

−−

=− +

.

Kwadrat współczynnika korelacji, wyrażony w procentach, nosi nazwę współczynnika determinacji. Np. determinacja 50% odpowiada korelacji 0,707r = , gdyż 2 0,5r = .

Page 76: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

76

Współczynnik determinacji z ostatniego przykładu wynosi

2 100% 74,3%xyD r= × = ,

tzn. w 74,3% zmiany jednej cechy (y — wiek żon) są uwarunkowane zmianami cechy drugiej (x — wiek mężów).

Współczynnik korelacji kolejnościowej (rang, rzędu wielkości) Spearmana także może służyćdo opisu siły korelacji dwóch cech, zwłaszcza wtedy, gdy mają charakter jakościowy i możnaobserwacje uporządkować, czyli nadać odpowiednie rangi, jak na przykład:

y – Ona 18 19 20 21 23 24 26 27 27 30 235 x – On 19 21 23 21 20 23 26 25 26 34 238

( )yq – rangi 1 2 3 4 5 6 7 8,5 8,5 10 55 ( )xq – rangi 1 3,5 5,5 3,5 2 5,5 8,5 7 8,5 10 55

id 0 1,5 2,5 –0,5 –3 –0,5 1,5 –1,5 0 0 0 2id 0 2,25 6,25 0,25 9 0,25 2,25 2,25 0 0 22,5

gdzie ( ) ( )x yi i id q q= − , zaś współczynnik korelacji Spearmana wyraża się wzorem:

( )2

12

6 6 22,51 1 0,86363610 991

nii

S

dr

n n= ⋅= − = − =

⋅−∑ .

Page 77: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

77

6. FUNKCJA REGRESJI Narzędziem badania mechanizmu powiązań między zmiennymi (cechami) jest funkcja

regresji. Jest to analityczna metoda przyporządkowania średnich wartości zmiennej objaśnianej (zależnej) konkretnym wartościom zmiennych objaśniających (niezależnych). W najprostszym przypadku (dwie zmienne), funkcją regresji I-go rodzaju zmiennej losowej Y względem zmiennej losowej X nazywamy:

( ) ( )1| 1,2, , .i iE Y X x m x dla i n= = = …

Analogicznie mamy dla odwrotnej sytuacji

( ) ( )2| 1,2, , .i iE X Y y m y dla i n= = = …

Analityczne postacie funkcji m1(xi) oraz m2(yi) są zwykle nieznane. Można natomiast wyznaczyć empiryczną linię regresji na podstawie danych, łącząc punkty o współrzędnych

( ),ii xx y . Taki wykres pozwala na postawienie hipotezy na temat typu funkcji matematycznej

(liniowa, wykładnicza, itp.) opisującej mechanizm powiązań między badanymi cechami.

Mówimy wtedy o funkcji regresji II-go rodzaju. Tak, więc jest ona aproksymantą(przybliżeniem) funkcji regresji I-go rodzaju, opisującej zależność korelacyjną zmiennych na podstawie losowej próby.

Wybór analitycznej postaci funkcji regresji II-go rodzaju nie jest sprawą łatwą. Decyzję oklasie funkcji należy podejmować nie tylko na podstawie wstępnej analizy materiałustatystycznego, ale również na podstawie źródeł pozastatystycznych.

6.1. Regresja liniowa dwu zmiennych Dane n par obserwacji (xi, yi) cech X i Y (zmienne losowe).

Regresja I-go rodzaju opisująca zależność liniową zmiennej losowej Y od zmiennej X jest postaci

E(Y|X = xi) = m(xi) = bxi + a.

Model regresji II-go rodzaju (równanie) opisujące powiązanie (tutaj liniowe) między parami obserwacji (xi, yi)

yi = m(xi) + ei = bxi + a + ei, i = 1, 2, …, n,

gdzie m(xi) są wartościami średnimi cechy Y dla wartości „xi” cechy X, zaś „ei = yi – bxi – a” sąodchyleniami (losowymi, czyli statystycznie nieistotnymi). Szukamy takiej prostej by suma kwadratów wartości „ei” była jak najmniejsza (metoda najmniejszych kwadratów).

bxi + a

y = bx + a

yi

xi

e i

Page 78: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

78

Zapiszmy, że ( ) ( )2

1

n

i ii

S S a,b y bx a=

= = − −∑ (xi oraz yi są dane, a więc stałe). S jest funkcją

dwóch zmiennych a i b. Znalezienie minimum tej funkcji sprowadza się do policzenia pochodnych cząstkowych:

( )1

2n

i ii

S y bx aa =

∂ = − − −∂ ∑ , ( )

1

2n

i i ii

S x y bx ab =

∂ = − − −∂ ∑ ,

i przyrównując je do zera, znajdujemy ich jedyne miejsce zerowe – rozwiązania ze względu naa i b, równe:

( )ˆ cov x, yb =

varx— współczynnik, a = y bx− — stała regresji,

gdzie b określa oczekiwany przyrost wartości średniej cechy Y, gdy cecha X wzrośnie o jednostkę.

Gdybyśmy w podobny sposób znaleźli równanie zależności cechy X względem Y (np. ˆˆx c d y= + ⋅ ), wtedy okazałoby się, że współczynnik korelacji między tymi cechami jest równy

średniej geometrycznej współczynników regresji, tzn. ˆ ˆxyr bd= .

6.1.1. Badanie dokładności oszacowanej funkcji regresji Zauważamy w ten sposób, że współczynnik korelacji jest „miernikiem” znalezionego

związku regresyjnego, tzn. jeżeli stwierdzamy istnienie korelacji, to tym samym stwierdzamy także zależność regresyjną.

Zauważmy dalej, że wg naszego modelu danych

yi = m(xi) + ei = bxi + a + ei,

zmienność obserwacji yi jest sumą zmienności wynikającej z wartości „bxi + a” oraz „ei”, tzn. dla wektora próby y mamy, że:

var y = var ( ˆ ˆbx+ a ) + var e = var R + var E,

czyli jest sumą zmienności wyjaśnionej przez równanie regresji oraz zmienności resztowej (nie wyjaśnionej przy pomocy regresji).

Można wykazać, że var R = ( )b cov x, y⋅ , tym samym

var E = var y – var R,

co pozwala zastosować iloraz

( )1 2

2R

emp 2y.x

n 2 varR svarR varEF : =n varE s

−= =

−,

jako funkcję testową dla hipotezy 0 : 0H b = jako, że ma ona rozkład F z 1 – st. swobody licznika i (n–2) st. swobody mianownika. Hipotezę zerową odrzucamy gdy wyliczona wartość Femp przekracza odpowiednią wartość krytyczną Fα,1,n-2. Odrzucenie hipotezy zerowej oznacza istotność regresji cechy Y względem cechy X.

Page 79: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

79

Funkcją testową dla hipotezy 0 : 0H b = może być zmienna postaci:

ˆ

ˆemp

b

bt s= ,

gdzie b

s — błąd współczynnika regresji z próby jest dany wzorem

( )ˆ

2y.x

b

svarEs = =n 2 varx varx−

.

Gdy zachodzi relacja |temp| > tα,n-2, wtedy H0 — odrzucamy.

6.1.2. Krzywe (przedziały) ufności W przypadku stwierdzenia istotności regresji, możemy posługiwać się znalezionym

równaniem w celu prognozowania wartości Y na podstawie pojawiających się pomiarów zmiennej X. Błąd takiej prognozy, będący błędem wartości regresyjnej, jest równy

( )( )2

2.ˆ

1y xm x

x xs s

n varx

− = +

.

Podstawiając do powyższego wzoru x = 0, otrzymujemy błąd stałej regresji. W ten sposób znajomość błędów estymatorów pozwala konstruować przedziały ufności.

Dla stałej regresji: ˆ ˆ, 2 , 2ˆ ˆn a n aa t s a a t sα α− −− ⋅ ≤ ≤ + ⋅ ,

dla współczynnika regresji: ˆ ˆ, 2 , 2ˆ ˆ

n nb bb t s b b+t sα α− −− ⋅ ≤ ≤ ⋅ ,

dla wartości regresyjnej: ( ) ( ) ( ) ( ) ( ), 2 , 2ˆ ˆˆ ˆn nm x m xm x t s m x m x +t sα α− −− ⋅ ≤ ≤ ⋅ ,

gdzie , 2ntα − jest wartością krytyczną rozkładu t Studenta przy stopniach swobody (n–2) i poziomie istotności α.

Prosta regresji z przedziałami ufności i predykcji

Page 80: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

80

6.2. Korelacja i regresja wielu zmiennych Dotychczasowe rozważania dotyczące współzależności zjawisk masowych dotyczyły

badania związku między dwiema cechami. Bardzo często jesteśmy jednak zainteresowani współzależnością wielu zmiennych: Y — zm. zależna i X1, X2, X3,…, Xk — zm. niezależne.

Problem korelacji i regresji można badać:

— wielorako — jeśli uwzględniamy oddziaływanie na zm. zależną Y wszystkich zm. niezależnych X1, X2,…, Xk. Tutaj oblicza się współczynnik korelacji wielorakiej i szacuje się model regresji wielorakiej.

— cząstkowo — jeśli badamy współzależności tylko niektórych zmiennych, eliminując wpływ pozostałych. Tutaj oblicza się współczynniki korelacji cząstkowej i współczynniki regresji cząstkowej.

6.2.1. Korelacja i regresja wieloraka (wielu zmiennych) Funkcją regresji I-go rodzaju zmiennej losowej Y (zmienna objaśniana, endogeniczna)

względem zmiennych niezależnych typu X (zmienne objaśniające, egzogeniczne) nazywamy:

E(Y|X1=x1i, X2=x2i,…, Xk=xki,) = m(x1i, x2i,…, xki,).

Model regresji II-go rodzaju (równanie) opisujące powiązanie (tutaj liniowe) między obserwacji (x1i, x2i,…, xki, yi)

( ) ( ) 1

ki i 1i 2i ki i 0 j ji ij

y m m x ,x ,x e b b x e=

= = + = + +∑x ,

dla i =1, 2,…, n, gdzie m(x1i, x2i,…, xki,) są wartościami średnimi cechy Y dla wartości „x1i,x2i,…, xki” cech typu X, zaś „ei” są odchyleniami (losowymi, czyli statystycznie nieistotnymi).

Szukamy takich b0, b1, b2,…, bk by suma kwadratów wartości „ei” ( 2

1

min!n

ii

e=

=∑ ) była jak

najmniejsza (MNK).

Sformułowanie problemu estymacji współczynników regresji wielokrotnej jest podobne jak dla przypadku dwóch zmiennych, ale z racji większej liczby zmiennych, zagadnieniem jest bardziej złożonym numerycznie jak i w interpretacji wyników.

Z MNK uzyskujemy układ równań normalnych:

ˆ =⋅V b c , 0ˆTb y= − ⋅b x ,

gdzie x jest wektorem średnich zmiennych objaśniających. V jest macierzą sum kwadratów i iloczynów odchyleń zmiennych objaśniających [ ( )cov ,p qx x ], c — wektor kolumnowy sum

iloczynów odchyleń zmiennych objaśniających i zmiennej objaśnianej [ ( )cov ,px y ]. Elementy tej macierzy i tego wektora wyliczamy ze wzorów:

( ) ( )( )cov ,p q pi p qi qix x x x x x= − −∑ , (p, q = 1,2, …, k), ( ) ( )( )cov ,p pi p ii

x y x x y y= − −∑ .

Macierz V ma postać:

( ) ( )( ) ( )

( ) ( )

1 1 2 1

1 2 2 2

1 2

var cov covcov var cov

cov cov var

k

k

k k k

x x x x xx x x x x

x x x x x

=

��

� � � ��

V .

Page 81: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

81

Jak wiadomo, macierz V jest macierzą symetryczną o wyznaczniku nieujemnym, i jeżeli jest nieosobliwa (wyznacznik dodatni), to istnieje macierz do niej odwrotna 1−V . Wtedy estymatory cząstkowych współczynników regresji, czyli wektor b , znajdujemy ze związku:

1ˆ −= ⋅b V c .

Każdy cząstkowy współczynnik regresji interpretujemy następująco: określa on oczekiwany przyrost wartości średniej cechy Y, gdy cecha Xp wzrośnie o jednostkę, a pozostałe będąustalone.

Następnie definiujemy zmienność resztową błędu:

( )( )2

1

ˆvarn

i ii

E y m=

= −∑ x

oraz zmienność regresji

( )( )2

1

ˆˆvarn

Ti

iR m y

=

= − = ⋅∑ x b c .

Zachodzi związek:

var var varR E y+ = .

Ta ostatnia równość pozwala zastosować iloraz

( )11

2R

emp 2y

n k varR svarR varEF : =k n k k varE s ⋅

− −= =

− − ⋅ x

.

Jeżeli hipoteza globalna 0 :H = 0b zostanie odrzucona na poziomie istotności α, co zachodzi wtedy, gdy ; ; 1emp k n kF Fα − −> , to możemy przystąpić do sprawdzania hipotez szczegółowych, że wybrany współczynnik regresji pb jest zerem. Funkcja testowa ma postać:

( )

ˆ

ˆ

p

ppemp

b

bt

s= , gdzie 2

ˆp

ppyb

s s v⋅= ⋅x ,

przy czym ppv jest elementem diagonalnym macierzy 1−V . Hipotezę 0 : 0pH b = odrzucamy,

gdy ( ); 1

pemp n kt tα − −> , gdzie ; 1n ktα − − jest wartością krytyczną rozkładu t Studenta.

Zwykle zmienne, dla których ( ); 1

pemp n kt tα − −< , odrzucamy z modelu regresji jako nieistotne

i powtarzamy analizę wyliczając ponownie wektor współczynników regresji. Jeśli równocześnie kilka różnych zmiennych objaśniających okaże się nieistotnymi, to odrzucamy tylko jednąz nich o najmniejszej wartości funkcji testowej t i powtarzamy analizę. Należy zauważyć, żetest t pozwala na sprawdzenie istotności wprowadzenia danej zmiennej do modelu, przy założeniu, że pozostałe są tam uwzględnione. Stąd też rola innych zmiennych może się znacznie zmienić, gdy usuwamy którąkolwiek ze zmiennych.

Błąd wartości regresyjnej obliczamy ze wzoru:

( ) ( ) ( )2 1ˆ

1 Tyms s

n−

⋅ = + − −

xx x x V x x .

Współczynnik determinacji obliczamy ze wzoru:

2 % 100%var

T

Ry

= ⋅b c ,

Page 82: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

82

natomiast wzór ˆ

var

T

Ry

= b c określa współczynnik korelacji.

Wartości współczynnika korelacji należą do przedziału [ ]0,1 . Interpretacja współczynnika korelacji i determinacji jest podobna jak dla przypadku dwuwymiarowego. Współczynnik determinacji określa część zmienności cechy Y zdeterminowaną, objaśnioną zależnością odzespołu cech objaśniających. Natomiast im współczynnik korelacji jest bliższy jedności, tym zależność Y od 1, , kX X… jest silniejsza.

Obliczenia w regresji wielokrotnej są bardzo pracochłonne, przy czym pracochłonność rośnie bardzo szybko w miarę wzrostu liczby zmiennych objaśniających. Oczywiście w dobie komputerów oraz odpowiednich programów, nie jest to problem. Problemem jest natomiast dopracowanie się „najlepszego modelu” zależności cechy Y względem cech typu X. Dla uzyskania takiego celu proponowane są różne procedury, np. regresję kolejnych kroków (regresja krokowa, etapowa, ang. stepwise).

Zastosowanie standaryzacji postaci p

pi ppi

x

x xz

s−

= względem cechy Xp oraz ii

y

y yvs−

=

względem cechy Y i po opracowaniu poszukiwanego równania zależności regresyjnej Y względem zbioru cech X, pozwala na wzajemne porównywanie uzyskanych cząstkowych współczynników regresji. Powstały one przecież ze standaryzowanych wartości (o średniej zero i wariancji jeden), i są przy tym niemianowane. Ta postać równania regresji jest wykorzystywana w porównawczej ocenie wpływu poszczególnych cech objaśniających na cechę objaśnianą.

6.3. Modele linearyzowalne, regresja krzywoliniowa W wielu dziedzinach, w których matematyka stosowana zajmuje poczesne miejsce, często

w zastosowaniach teorii regresji pojawiają się modele nieliniowe. W tych modelach szczególne miejsce zajmują modele linearyzowalne. Są to modele dające się sprowadzić do modelu liniowego przez odpowiednią transformację zmiennych. Takimi modelami, często stosowanymi w praktyce są np. model potęgowy

by a x= ⋅ dla 0, 0, 0x y a> > > ,

linearyzowalny po transformacji logarytmicznej zmiennych:

ln ln lny a b x= + ⋅ , ( ln , lnz y u x= = ).

Model wykładniczy:

a bxy e += ,

po transformacji postaci:

ln , 0y a bx y= + > .

Model wielomianowy:

20 1 2

kky b b x b x b x= + + + +� ,

sprowadzający się do modelu liniowego regresji wielokrotnej po prostym podstawieniu: 2 3

1 2 3, ,z x z x z x= = = , itd.

Model ten jest najczęściej stosowany w praktycznych zastosowaniach regresji krzywoliniowej ze względu na ogromną różnorodność kształtu krzywych wielomianowych oraz fakt pozostawania zmiennej y bez transformacji w tym modelu.

Page 83: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

83

Modele wielomianowe znajdują liczne zastosowania w zagadnienia biologicznych, np. w modelowaniu związków plonów roślin uprawnych z żyznością gleby wyrażoną zawartościąróżnych składników pokarmowych czy wnoszonych do gleby dawek różnych nawozów. Modele wielomianowe sprawiają kłopoty numeryczne, gdyż kolejne potęgi zmiennych egzogenicznych i ich iloczyny są silnie skorelowane, a ponadto ich wartości różnią się czasami o kilka rzędówwielkości, a kowariancje między nimi różnią się nawet o kilkanaście rzędów wielkości. Na przykład dla modelu nawozowego z 1 2,X N X P= =

2 2 20,0 1,0 0,1 2,0 1,1 0,2 2,1y b b N b P b N b NP b P b N P= + + + + + + +� ,

gdy N i P przyjmują wartości rzędu 102, to 26X N P= jest już rzędu 106, a ich wariancje oraz

odpowiednie kowariancje mogą osiągać wartości rzędu 1012. Może to dać efekt współliniowości kolumn macierzy kowariancji V , a tym samym macierz V będzie niemal osobliwa.

Uzyskana funkcja regresji nieliniowej (np. jak wyżej, tzw. powierzchnia efektywności), może być wykorzystywana do wyznaczania cząstkowych równań regresji opisujących zależność jednego z nawozów przy ustalonym poziomie nawożenia drugim, poszukiwania optymalnych dawek nawozów, optymalizacji efektywności nawożenia mineralnego, optymalizacji stosunku (tutaj N : P) czy ustalenia mineralnego nawożenia, niezbędnego do uzyskania określonej wysokości plonu.

Page 84: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

84

7. REGRESJA W ANALIZIE WARIANCJI Często w układach sklasyfikowanych czynnik klasyfikujący jest typu ilościowego, jak np.

dawki nawozu mineralnego, terminy siewu, poziom pewnego składnika w procesach technologicznych, itp. Wykorzystując wyniki pomiarów cechy badanej przy określonych poziomach czynnika, można dokonać oceny funkcji regresji opisującej zależność oczekiwanej wartości badanej cechy ( im a+ ) od wartości ix poziomu i-tego czynnika. Funkcja ta dla każdego i-tego poziomu ma postać:

( )i im x m a= + .

Jeżeli znany jest a priori kształt funkcji ( )m x , to zamiast szacować efekty ia , i tym samym wartości funkcji regresji w wybranych punktach, można bezpośrednio przystąpić do estymacji parametrów funkcji regresji. W innych przypadkach, co najczęściej występuje, aproksymujemy (przybliżamy) tę funkcję wielomianami. Dla funkcji regresji ( )m x w przypadku badania ppoziomów ix ( )1,2, ,i p= … można użyć, co najwyżej wielomianu stopnia 1p − postaci:

( ) 10 1 2 1

ppm x b b x b b x −−= + + + +… .

W praktycznych zastosowaniach poszukiwania wielomianu opisującego zależność regresyjną średnich względem wartości poziomów czynnika ilościowego, nie przekraczająstopnia 5-tego. Najczęściej poszukiwania kończymy na stopniu 3-cim. Oczywiście, jeżeli liczba poziomów p na to pozwala.

Dla zademonstrowania niniejszego zagadnienia, wykorzystajmy wyniki doświadczenia z liczbą nicieni, które to liczby ( ix ) stanowią kolejne poziomy badanego czynnika. Dla realizacji tego zadania wystarczające są dane przedstawione w poniższej tabeli, tzn. wartości ix ,średnie iy oraz liczby obserwacji in dla poszczególnych poziomów:

Tabela danych

ix 0 50 100 200 400 800 1600

iy 7,225 6,150 6,150 5,500 5,075 5,075 4,400

in 4 4 4 4 4 4 4

Jesteśmy zainteresowani sprawdzeniem istotności regresji liniowej średnich badanej cechy ( iy ) względem liczby nicieni ( ix ). W tym celu może być wystarczające wykonanie obliczeńwynikających ze stosowania metody analizy regresji na średnich obiektowych z wagami równymi liczbie obserwacji, z jakich powstała odpowiednia wartość średnia. W naszym wypadku suma kwadratów dla tak wyznaczonej regresji liniowej wynosi 14,1467, dla regresji kwadratowej – 17,047 oraz dla kubicznej (stopnia 3-go) – 19,9846. Stąd możemy wyznaczyćsumy kwadratów dla testowania poszczególnych hipotez zerowych dotyczących istotności regresji liniowej, kwadratowej (suma kwadratów regresji kwadratowej minus suma kwadratów regresji liniowej), kubicznej (suma kwadratów regresji kubicznej minus suma kwadratów regresji kwadratowej) oraz pozostałych regresji stopni wyższych.

Źródło zmienności St. sw. Suma kwd. Śr. kwd. empF P-stwo Obiekty 6 20,9071 3,4845 14,987 0,00000126W tym efekty: — Liniowy 1 14,1467 14,1467 60,846 0,00000012— Kwadratowy 1 2,9003 2,9003 12,474 0,00197792— Kubiczny 1 2,9376 2,9376 12,635 0,00187455Reszta 3 0,9225 0,3075 1,323 0,26298467Błąd losowy 21 4,8825 0,2325 × ×Całkowita 27 25,7896 × × ×

Page 85: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

85

8. ANALIZA KOWARIANCJI Analiza wariancji pozwala porównać obiekty pod względem pewnej cechy, gdy podlega ona

dla każdego obiektu tylko zmienności przypadkowej (losowej) i nie jest równocześnie uzależniona od innych cech, których wpływ można określić liczbowo. Często bywa tak, żebadana cecha y uwarunkowana jest wpływem innych cech 1 2, , , kx x x… dających się zmierzyć.Mogą one przedstawiać zmienne losowe lub rzeczywiste. Są to zmienne towarzyszące cesze yi zakłócające jej prawidłową ocenę. Chodzi o to, by wyeliminować wpływ tych zmiennych towarzyszących na końcową ocenę obiektów według badanej cechy. Taką metodą oceny jest metoda analizy kowariancji. Wykorzystuje ona między innymi analizę regresji zmiennej ywzględem zmiennych towarzyszących 1 2, , , kx x x… . Zajmiemy się takim przypadkiem o jednej zmiennej towarzyszącej względem której zakładamy zależność liniową naszej badanej cechy.

Przykład:

Porównywano plon nasion wybranych trzech biotypów pewnego gatunku rośliny. Doświadczenie założono metodą losowanych bloków w 4 powtórzeniach. Rozstawa dla wszystkich biotypów była jednakowa, jednak zaobserwowano wypadnięcia roślin, które wpłynęły na wartość plonu.

Blok I Blok II Blok III Blok IV y x y x y x y x

Bio-1 1,59 109 1,18 92 1,62 110 1,45 103Bio-2 1,46 105 1,26 93 1,31 101 1,29 104Bio-3 0,89 32 0,92 34 0,71 24 0,68 21

Model liniowy dla obserwacji z tego doświadczenia jest postaci:

( )ij j i ij ijy m g a x x eβ= + + + ⋅ − + , 1,2,3i = ; 1,2,3,4j = .

Zauważmy, że do modelu obserwacji z układu losowanych bloków został dołączony składnik regresji cechy y względem odchyleń wartości obserwowanych ijx zmiennej towarzyszącej od wartości średniej.

Wykonajmy dla tego doświadczenia analizę wariancji oraz analizę kowariancji – na czym polega różnica w końcowych wnioskach?

Analiza wariancji

Źródło zmienności St. sw. Suma kwd. Śr. kwd. empF P-stwoBloki 3 0,0689333 0,0229778 1,14 0,4056Biotypy 2 0,977867 0,488933 24,27 0,0013Błąd losowy 6 0,120867 0,0201444 × ×Całkowita 11 1,16767 × × ×

Analiza kowariancji

Źródło zmienności St. sw. Suma kwd. Śr. kwd. empF P-stwoRegresja 1 0,100647 0,100647 24,89 0,0041Bloki 3 0,0049802 0,0016601 0,41 0,7528Biotypy 2 0,0560219 0,0280109 6,93 0,0362Błąd losowy 5 0,0202196 0,0040439 × ×Całkowita 11 1,16767 × × ×

Page 86: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

86

Analiza szczegółowa Anova Ancova

iy 0,05TukNIR iy 0,05TukNIR

1y 1,46 × 0,96434 ×

2y 1,33 × 0,88643 ×

3y 0,80 × 1,73923 ×

1 2y y− 0,13 0,308 0,077909 0,3401

1 3y y− 0,66 0,308 –0,774884 0,5960

2 3y y− 0,53 0,308 –0,852793 0,3337

Analiza wariancji pozwala nam stwierdzić, że badane biotypy są ze sobą zróżnicowane istotnie ( 0,0013valueP = ). Podobny wniosek uzyskujemy na podstawie analizy kowariancji ( 0,0362valueP = ), uwzględniającej liczbę roślin na poletku. Dopiero analiza szczegółowa średnich wartości dla biotypów pozwala ocenić, że to nie trzeci biotyp daje najniższy średni plon (anova), ale wprost przeciwnie (ancova). Wartość średniego plonu została tutaj poprawiona przez uwzględnienie jednakowej liczby roślin dla badanych biotypów.

Page 87: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

87

9. TESTY χ2

9.1. Test zgodności χχχχ2

Nieparametryczne testy istotności, w których weryfikowana hipoteza dotycząca rozkładu badanej cechy w populacji generalnej nie precyzuje wartości parametrów tego rozkładu a jedynie zgodność z innymi rozkładami (teoretycznymi lub rozkładami innych populacji).

Jednym z najstarszych testów istotności, mający tutaj zastosowanie jest test zgodności χ2.Nazwa ta pochodzi stąd, że statystyka testowa używana przy weryfikacji hipotezy o zgodności wyników próby z rozkładem populacji, ma asymptotyczny rozkład χ2.

Test zgodności χ2 pozwala na sprawdzenie hipotezy, że populacja ma określony typ rozkładu (tj. określoną postać funkcyjną dystrybuanty). Może to być typ rozkładu skokowego lub ciągłego. Jedynym ograniczeniem w teście zgodności χ2 jest to, że n elementowa próba musi być duża, bo wyniki jej dzielimy na pewne klasy wartości (np. w liczbie k klas).

Dla każdej klasy z rozkładu hipotetycznego oblicza się liczebności teoretyczne ( inp ), które porównuje się z empirycznymi ( in ) za pomocą statystyki:

( )2

2

1

ki i

i i

n npnp

χ=

−=∑ ,

1

k

ii

n n=

=∑ ,1

1k

ii

p=

=∑ .

Gdy rozbieżności między liczebnościami teoretycznymi a empirycznymi są zbyt duże, to hipoteza, że populacja ma ten właśnie rozkład teoretyczny, musi być odrzucona. Na przykład w rzucie monetą uzyskano 40 razy orła oraz 60 razy reszkę. Czy można uznać, że moneta jest symetryczna? NIE z prawdopodobieństwem ryzyka 0,05 odrzucenia prawdziwej hipotezy zerowej, gdyż

( ) ( )2 22 40 50 60 50

2 2 450 50

χ− −

= + = + = .

Mamy tutaj relację, że 2 20,05;14 3,8415empχ χ= > = .

9.1.1. Zgodność z rozkładem normalnym Dla próby losowej o dużej liczności konstruujemy szeregi rozdzielcze — zestawienie

wskazujące na rozkład wartości badanej cechy w próbie, który jest przybliżeniem rozkładu wartości cechy w populacji.

Budowa szeregu rozdzielczego z indywidualnych obserwacji polega na utworzeniu odpowiednich klas (przedziałów), a następnie zliczaniu liczby obserwacji w poszczególnych klasach. Liczbę klas określamy na ogół arbitralnie, kierując się jednak „zdrowym rozsądkiem” i znajomością celu, któremu ma służyć podział zbiorowości na klasy. Należy przy tym pamiętaćaby granice przedziałów klasowych były liczbami „okrągłymi”. Spotyka się również konkretne wzory, za pomocą których można orientacyjnie określić liczbę klas w zależności od liczebności zbiorowości, np. 5logk n≤ .

Rozpatrzmy plony buraka cukrowego w dt/ha pochodzące bezpośrednio z pól gospodarstw produkcyjnych.

Page 88: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

88

Klasy in % ( )empip

x≤150 1 0,524 0,00524150<x≤200 10 5,236 0,05236200<x≤250 5 2,618 0,02618250<x≤300 19 9,948 0,09948300<x≤350 29 15,183 0,15183350<x≤400 35 18,325 0,18325400<x≤450 34 17,801 0,17801450<x≤500 32 16,754 0,16754500<x≤550 15 7,853 0,07853550<x≤600 6 3,141 0,03141

600<x 5 2,618 0,02618Ogółem 191 100,000 1,00000

Dane te posłużą nam do odpowiedzi na pytanie: „czy wartości plonów buraka mają rozkład normalny?”.

Poniższy histogram wielkości plonów buraka sugeruje duże podobieństwo między rozkładem empirycznych wartości plonów a rozkładem normalnym.

Rozkład empiryczny plonów buraka cukrowego

Liczb

aobs

erwa

cji

05

1015202530354045

100 150 200 250 300 350 400 450 500 550 600 650

OczekiwaneNormalne

Dlaczego mamy tutaj 11 klas wielkości plonów? Otóż orientacyjna liczba klas k spełnia warunek

5log 5log191 5 2,281033 11,40517k n≤ = = × =

a liczba klas równa „11” daje nam zakres klasy równy „50” z jednoczesnym umiejscowieniem wartości średniej w środkowym (6) przedziale klasowym.

n x 1g 2g minx maxx R s191 393,7 379,0 408,4 115 650 535 103,9

Page 89: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

89

Odpowiednio 1g i 2g są granicami 95% przedziału ufności dla wartości średniej plonu buraka cukrowego, tzn.

{ }1 2 0,05;190 0,05;190 0,95S SP g m g P X t m X tn n

≤ ≤ = − ≤ ≤ + =

.

Badanie zgodności analizowanej populacji z rozkładem normalnym jest często stosowane w praktyce jako, że szczególnie często zachodzi potrzeba sprawdzania tejże hipotezy przed zastosowaniem innych testów.

Tabela obliczania statystyki testowej 2

empχ

Klasy in ( )empip ( )t

ip ( )tinp ( )t

i in np− ( )( )2ti in np−

( )( )( )

2ti i

ti

n np

np

x≤150 1 0,00524 0,00950 1,815 –0,815 0,6634 0,3656 150<x≤200 10 0,05236 0,02164 4,133 5,867 34,4189 8,3273 200<x≤250 5 0,02618 0,05218 9,967 –4,967 24,6706 2,4752 250<x≤300 19 0,09948 0,10025 19,148 –0,148 0,0219 0,0011 300<x≤350 29 0,15183 0,15345 29,309 –0,309 0,0956 0,0033 350<x≤400 35 0,18325 0,18715 35,746 –0,746 0,5560 0,0156 400<x≤450 34 0,17801 0,18187 34,737 –0,737 0,5424 0,0156 450<x≤500 32 0,16754 0,14083 26,898 5,102 26,0347 0,9679 500<x≤550 15 0,07853 0,08688 16,594 –1,594 2,5423 0,1532 550<x≤600 6 0,03141 0,04271 8,157 –2,157 4,6528 0,5704

600<x 5 0,02618 0,02354 4,496 0,504 0,2537 0,0564

Ogółem n = 191 1,00000 1,00000 191,000 0,000 2empχ = 12,9516

Należy wyznaczyć elementy dla obliczenia wartości funkcji testowej

( )2

2

1

ki i

i i

n npnp

χ=

−=∑ ,

gdzie prawdopodobieństwa { }1i i ip P x X x−= < ≤ , natomiast zmienna standaryzowana X mZσ−= . Więc:

{ } { }1150 393,7150 2,34552

103,9p P X P Z P Z− = ≤ = ≤ = ≤ − =

( )1 2,34552 1 0,99050 0,00950F= − − = − = ,

{ } { }2 150 200 2,34552 1,86429p P X P Z= < ≤ = − < ≤ − =

( ) ( )1,86429 2,34552 0,03114 0,00950 0,02164F F= − − − = − = ,

{ } { }3 200 250 1,86429 1,38306p P X P Z= < ≤ = − < ≤ − =

( ) ( )1,38306 1,86429 0,08332 0,03114 0,05218F F= − − − = − = ,

itd. dla pozostałych przedziałów klasowych.

Page 90: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

90

Dla zweryfikowania hipotezy (zerowej) postaci „populacja plonów buraka cukrowego ma rozkład normalny”, tak obliczoną wartość statystyki 2

empχ porównujemy z wartością krytyczną

testu 2; 1k uαχ − − , gdzie: α — poziom istotności (błąd I-go rodzaju), 1k u− − jest liczbą stopni

swobody ( k — liczba klas, u — liczba parametrów szacowanych z próby), i jeśli zachodzi 2 2

; 1emp k uαχ χ − −≥ , to hipotezę zerową ( 0 :H rozkłady empiryczny i teoretyczny są zgodne) należy

odrzucić. W przeciwnym przypadku, tzn. gdy 2 2; 1emp k uαχ χ − −< , to nie ma podstaw do odrzucenia

hipotezy zerowej. Oczywiście nie oznacza to, że możemy ją przyjąć, lecz test 2χ jest tak zbudowany, że im wartość 2χ jest bliższa zeru, tym hipoteza jest bardziej wiarygodna.

W naszym przykładzie 2 20,05;812,9516 15,5073empχ χ= < = , gdzie 1 11 2 1 8k u− − = − − = .

Tak więc wnioskujemy, że rozkład wartości plonów buraka cukrowego jest rozkładem normalnym. Potwierdzają to także inne testy (Kołmogorowa-Smirnowa i Lillieforsa).

Rozkład empiryczny plonów buraka cukrowegoK-S d=,03539, p> .20;p Lillieforsa> .20

Chi-kwadrat(emp) = 12,9516 < 15,5073 = Chi-kwadrat(0,05;8)

Liczb

aobs

erwa

cji

05

1015202530354045

100 150 200 250 300 350 400 450 500 550 600 650

OczekiwaneNormalne

9.2. Test niezależności χχχχ2

Przy badaniu populacji generalnej jednocześnie ze względu na dwie cechy często interesuje nas sprawdzenie hipotezy, czy cechy te są ze sobą związane (zależne). Gdy obie cechy sąmierzalne, posługujemy się wtedy najczęściej pojęciem korelacji i regresji. Gdy jednak przynajmniej jedna z dwu badanych cech jest niemierzalna (tzn. ma jedynie kategorie jakościowe), to badając związek tych cech posługujemy się pojęciem niezależności stochastycznej odpowiednich dwóch zmiennych losowych. Jak wiadomo z rachunku prawdopodobieństwa, dwa zdarzenia losowe A i B są niezależne, jeżeli zachodzi równość

( ) ( ) ( )P A B P A P B∩ = ⋅ . Podobna jest definicja niezależności dwu zmiennych losowych X i Y.Zmienne te są niezależne, gdy dla dystrybuant zachodzi równość ( ) ( ) ( )1 2,F x y F x F y= ⋅ .

Stosowanym w praktyce test niezależności 2χ jest testem istotności pozwalającym na sprawdzenie, czy dwie badane cechy (niekoniecznie mierzalne) są niezależne. Test ten oparty jest na tej samej statystyce co test zgodności 2χ , z tym że hipotetycznymi prawdopodobieństwami są oszacowane z próby prawdopodobieństwa otrzymania równocześnie określonej wartości (czy kategorii jakościowej) cechy X oraz Y, przy założeniu niezależności tych cech. Wymogiem tego testu jest duża liczebność próby, której wyniki zostały rozdzielone

Page 91: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

91

na odpowiednie grupy wartości (kategorie) ze względu na obie cechy. Sporządza się zatem odpowiednią tablicę, zwaną tablicą kontyngencji (lub asocjacji), która po wypełnieniu daje macierz liczebności empirycznych. Nakłada się na nią macierz liczebności teoretycznych,obliczonych przy założeniu niezależności badanych cech.

Porównanie elementów obu macierzy, czego dokonuje się przez zastosowanie statystyki 2χ , daje odpowiedź, czy można odrzucić hipotezę o niezależności cech na skutek wystąpienia

zbyt dużych różnic liczebności empirycznych i teoretycznych.

Macierz liczebności empirycznych Kategorie \X Y 1Y 2Y … Y in i . ip i

1X 11n 12n … 1n 1n i 1p i… … … … … … …

kX 1kn 2kn … krn kn i kp i

jni 1ni 2ni … ni nii. jp 1pi 2pi … rpi 1

Liczebności brzegowe: 1

ri ijj

n n=

=∑i ,1

kj ijin n

==∑i , przy czym zachodzi

1 1r k

j ij in n n

= == =∑ ∑ii i i , a prawdopodobieństwa brzegowe są równe: i

inpn

= ii

ii, j

jn

pn

= ii

ii.

Z założenia o niezależności cech ( 0H : cechy X i Y są niezależne jest prawdziwa) wynika, że

i ji j ij

n np p p

n n= = i i

i iii ii

, czyli wielkość i jij

n nn p

n= i i

iiii

jest liczebnością teoretyczną podklasy ( ),i j .

Macierz liczebności teoretycznych Kategorie \X Y 1Y 2Y … Y

1X 11n pii 12n pii … 1n pii2X 21n pii 22n pii … 2n pii

… … …kX 1kn pii 2kn pii … kn pii

Z elementów macierzy liczebności empirycznych ijn oraz elementów macierzy liczebności teoretycznych — ijn pii , konstruujemy statystykę:

( )2

21 1

ij ijr kemp j i

ij

n n pn p

χ= =

−=∑ ∑ ii

ii,

gdzie i jij

n nn p

n= i i

iiii

.

Statystyka ta ma przy założeniu prawdziwości hipotezy 0H o niezależności cech,

asymptotyczny rozkład 2χ z (r–1)(k–1) stopniami swobody.

Page 92: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

92

Praktycznie więc, obliczoną wartość 2empχ porównujemy z wartością krytyczną ( )( )

21 1; r kαχ − − ,

i jeżeli zajdzie nierówność

( )( )2 2

1 1emp ; r kαχ χ − −≥ ,

to hipotezę 0H o niezależności badanych cech należy odrzucić — co w praktyce oznacza ich zależność. Gdy natomiast

( )( )2 2

1 1emp ; r kαχ χ − −< ,

wtedy nie ma podstaw do odrzucenia hipotezy o niezależności badanych cech.

Przykład:

W celu stwierdzenia, czy podanie chorym na pewną chorobę nowego leku przynosi poprawęw ich stanie zdrowia, wylosowano dwie grupy pacjentów w jednakowym stopniu chorym. Jednej grupie (120 osób) podawano nowy lek, a drugiej (80 osób) lek tradycyjny.

Leczeni X\Y bez poprawy wyraźna poprawa wyzdrowienie in i ip i

Badanym lekiem 20 (0,195)39

40 (0,180)36

60 (0,225)45 120 0,6

Tradycyjnie 45 (0,130)26

20 (0,120)24

15 (0,150)30 80 0,4

jni 65 60 75 200

jpi 0,325 0,300 0,375 1

Możemy teraz obliczyć wartość statystyki według znanego już wzoru na 2empχ .

Przeprowadzimy niezbędne rachunki w tabeli, a liczebności teoretyczne, wynikające z naszej hipotezy zerowej są równe:

1 111

120 65 39200

n nn pn

⋅= = =i iii

ii, 1 2

12120 60 36

200n nn p

n⋅= = =i i

iiii

,

1 313

120 75 45200

n nn pn

⋅= = =i iii

ii, 2 1

2180 65 26200

n nn pn

⋅= = =i iii

ii,

2 222

80 60 24200

n nn pn

⋅= = =i iii

ii, 2 3

2380 75 30200

n nn pn

⋅= = =i iii

ii.

( ),i j ijn ijn pii ij ijn n p− ii ( )2ij ijn n p− ii ( )2

ij ij ijn n p n p− ii ii

(1,1) 20 39 –19 361 9,26 (1,2) 40 36 4 16 0,44 (1,3) 60 45 15 225 5,00 (2,1) 45 26 19 361 13,88 (2,2) 20 24 –4 16 0,67 (2,3) 15 30 –15 225 7,50

200 200 0 36,75

Page 93: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

93

Obliczona statystyka:

( )2

21 1

36,75ij ijr kemp j i

ij

n n pn p

χ= =

−= =∑ ∑ ii

ii

dla przyjętego poziomu istotności 0,01α = oraz liczby stopni swobody ( )( )1 1 2r k− − =

wyraźnie przewyższa wartość krytyczną (teoretyczną), równą 20,01;29,21 χ= . Zatem na poziomie

istotności 0,01α = hipotezę 0H o niezależności należy odrzucić. Oznacza to, że podawanie pacjentom nowego leku w sposób istotny poprawia ich stan zdrowia.

Miarą oceny ścisłości analizowanego związku może być m.in. współczynnik asocjacji Cramera

( ) ( )2

2

..

36,75 0,183751, 1 200 2,1

emp

n min r k minχ

ϕ = = =⋅ − − ⋅

,

przyjmujący wartości z przedziału [ ]0;1 . Stąd też mamy, że 0,18375 0,4287ϕ = = , a im wartość ϕ jest bliższa jedności, tym zależność jest silniejsza.

9.3. Zgodność rozkładów empirycznych Często zachodzi potrzeba sprawdzenia hipotezy, że dwie próby (lub więcej prób) pochodzą

z jednej populacji, czyli że te populacje mają ten sam rozkład. Tutaj, podobnie jak w poprzednich przypadkach, także ma zastosowanie test 2χ .

Przykład: Została sformułowana hipoteza, że częstości występowania pewnej cechy (np. X)w trzech populacjach generalnych są jednakowe. Na podstawie trzech losowych prób zestawiono wartości obserwowane w macierz liczebności empirycznych.

Liczba przypadków Pop. I Pop. II Pop. III ni. z cechą X 45 89 111 245

bez cechy X 15 25 38 78. jn 60 114 149 323

Uogólniając nasz przykład, możemy zapisać:

Macierz liczebności empirycznych Kategorie X \Populacje Y 1Y 2Y … Y in i ip i

1X 11n 12n 11n 1n i 1p i2X 21n 22n … 11n 2n i 2p i

… … … … … … …kX 1kn 2kn … krn kn i kp i

jni 1ni 2ni … ni nii 1

Page 94: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

94

Liczebności brzegowe: 1

ri ijj

n n=

=∑i ,1

kj ijin n

==∑i , przy czym zachodzi

1 1r k

j ij in n n

= == =∑ ∑ii i i , a prawdopodobieństwa brzegowe równe i

inpn

= ii

ii, wyrażają

hipotetyczny rozkład wartości cechy X w badanych populacjach. Z założenia zgodności

rozkładów wynika, że wielkość j ij i

n nn p

n= i i

i iii

jest liczebnością teoretyczną dla j-tej populacji

Y oraz i-tej dla kategorii X.

Widzimy więc identyczność obliczeń prowadzących do wyznaczenia statystyki

( )2

21 1

ij j ir kemp j i

j i

n n pn p

χ= =

−=∑ ∑ i i

i i, a także techniki testowania, z przypadkiem zastosowania testu

2χ jako testu niezależności.

1 11 1

60 245 45,51323

n nn pn

⋅= = =i ii i

ii, 2 1

2 1114 245 86,47

323n nn pn

⋅= = =i ii i

ii,

3 13 1

149 245 113,02323

n nn pn

⋅= = =i ii i

ii, 1 2

1 260 78 14,49200

n nn pn

⋅= = =i ii i

ii,

2 22 2

114 78 27,53200

n nn pn

⋅= = =i ii i

ii, 3 2

3 2149 78 35,98

200n nn p

n⋅= = =i i

i iii

.

Macierz liczebności empirycznych i teoretycznych L. przypadków Pop. I Pop. II Pop. III in i

z cechą X 45 (45,51) 89 (86,47) 111 (113,02) 245bez cechy X 15 (14,49) 25 (27,53) 38 (35,98) 78

jni 60 114 149 323

Obliczenie wartości statystyki 2empχ nie nastręcza już większych kłopotów. Mianowicie

mamy, że

( ) ( ) ( )2 2 22 45 45,51 89 86,47 111 113,02

45,51 86,47 113,02empχ− − −

= + + +

( ) ( ) ( )2 2 215 14,49 25 27,53 38 35,980,479

14,49 27,53 35,98− − −

+ + + = .

Uzyskana wartość 2 0,479empχ = jest mniejsza od wartości krytycznej (z tablic) 20,05;2χ

( 2 20,05;20,479 5,991empχ χ= < = ). Tym samym nie mamy podstaw do odrzucenia hipotezy

zerowej mówiącej o tym, że częstość występowania cechy X w badanych populacjach jest jednakowa, czyli badane populacje ze względu na występowanie cechy X są jednakowe.

Page 95: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

95

10. KLASYFIKACJA DANYCH STATYSTYCZNYCH Ważnym elementem badań empirycznych jest porównanie między sobą analizowanych

obiektów (roślin, zwierząt, gospodarstw, przedsiębiorstw, itp.) Celem tych porównań jest zwykle odpowiedź na pytanie, czy obiekty badań są do siebie podobne. Poziom oceny stopnia podobieństwa obiektów (cech) pozwala zaliczyć je do tej samej grupy (klasy) obiektów (cech) lub wnioskować o braku podobieństwa między badanymi obiektami (cechami), a więc ich zróżnicowaniu. W matematycznych metodach tak rozumianej klasyfikacji danych, wykorzystuje się zwykle pewne miary określające podobieństwo par obiektów (cech). Taka miara może mieć charakter: miary odległości (distance) lub miary bliskości (proximity). Miary odległości cechują się tym, że jeżeli następuje ich wzrost — wtedy oznacza to zwiększenie zróżnicowania między obiektami (cechami). Miary bliskości — odwrotnie, tzn. gdy ich wartość rośnie, wtedy maleją różnice między porównywalnymi obiektami (cechami).

W praktycznym stosowaniu poszczególnych miar (np. korzystając z pakietów statystycznych) należy pamiętać o charakterze posiadanych danych statystycznych oraz o przedmiocie badań.

10.1. Analiza skupień (Cluster analysis)Analiza skupień (taksonomia numeryczna) jest dziedziną wiedzy o zasadach porządkowania

obiektów, gdy nic nie wiadomo o ich strukturze (klasyfikacji). Należy tę strukturę (podział naklasy) dopiero odkryć, mając w dyspozycji wielocechowe dane statystyczne — opisujące każdyz obiektów. Podział zbioru obiektów na klasy odbywa się w oparciu pewnej miary określającej podobieństwo par obiektów. Miara ta może mieć charakter miary bliskości (proximity) lub miary odległości (distance). W dalszej części przedstawiony jest dość znaczny zbiór tych miar mających zastosowanie w obliczeniach związanych z zastosowaniem omawianej metody i występujący w wielu pakietach statystycznych.

10.2. Miary odległości (Dissimilarity measure)Zmienne ilościowe (interval),

n — liczba obserwacji lub cech.

Euklidesowa (Euclidean distance):

( ) ( )21

, ni ii

d x y x y=

= −∑ ,

Kwadrat Euklidesowej (squared Euclidean distance):

( ) ( )21

, ni iid x y x y

== −∑ ,

Czebyszewa (Chebychev):

( )1

, max i ii nd x y x y

≤ ≤= − ,

Miejska (Block / Manhatan):

( ) 1, n

i iid x y x y=

= −∑ ,

Minkowskiego (Minkowski):

( )1

1 1,

p ppn npi i i ii id x y x y x y

= = = − = − ∑ ∑ ,

Page 96: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

96

Użytkownika (Customized):

( )1

1 1,

p prn nri i i ii id x y x y x y

= = = − = − ∑ ∑ .

Zmienne nominalne (counts),

ixn ,iyn – liczby obserwacji i–tych wartości cechy X oraz Y, gdzie:

i ii ix yx y

N n n= +∑ ∑ ,

( ) ( ) ( )i i i

i

x x yt ix

n n nn

N

⋅ +=∑

, ( ) ( ) ( )i i i

i

y x yt iy

n n nn

N

⋅ +=∑

.

Wartość statystyki chi-kwadrat (Chi-squared):

( )( )( )

( )

( )( )( )

2 2

, i ii i

i ii i

t tx yx y

x yt tx y

n n n nd x y

n n

− −= +∑ ∑ ,

Znormalizowana statystyka chi-kwadrat (Phi-squared):

( )

( )( )( )

( )( )( )

2 2

,

i ii i

i ii i

t tx yx y

t tx yx y

n n n n

n nd x y

N

− −+

=∑ ∑

.

Zmienne zerojedynkowe (binary),

wg tablicy kontyngencji: Y\X 0 1

0 a b1 c d

Euklidesowa (Euclidean):

( ),d x y b c= + ,

Kwadrat Euklidesowej (squared Euclidean):

( ),d x y b c= + ,

Różnica wielkości (size difference):

( ) ( )( )

[ )2

2, 0;b c

d x ya b c d

−= ∈ ∞

+ + +,

Różnica wzorców (pattern difference):

( )( )

[ ]2, 0;1b cd x ya b c d

⋅= ∈+ + +

,

Page 97: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

97

Zmienność (variance):

( ) ( ) [ ), 0;4

b cd x ya b c d

+= ∈ ∞⋅ + + +

,

Kształtu (shape):

( ) ( ) ( ) ( )( )

2

2,a b c d b c b c

d x ya b c d

+ + + ⋅ + − −=

+ + +,

Lance'a i Williamsa (Lance and Williams):

( ) [ ], 0;12

b cd x ya b c

+= ∈⋅ + +

.

10.3. Miary bliskości / podobieństwa (Similarity measure)Zmienne ilościowe (interval),

n — liczba obserwacji lub cech.

Współczynnik korelacji Pearsona (Pearson correlation):

( ) ( )( )( ) ( )2 2

, i ii

i ii i

x x y yp x y

x x y y

− −=

− ⋅ −

∑∑ ∑

.

Odległość kątowa (cosine):

( )2 2

, i ii

i ii i

x yp x y

x y=

∑∑ ∑

.

Zmienne zerojedynkowe (binary),

wg tablicy kontyngencji: Y\X 0 1

0 a b1 c d

Miara Russela i Rao (Russel and Rao):

( ), ap x ya b c d

=+ + +

,

Miara zgodności (simple matching):

( ), a dp x ya b c d

+=+ + +

,

Miara Jaccarda (Jaccard):

( ), ap x ya b c

=+ +

,

Page 98: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

98

Miara Czekanowskiego (Dice):

( ) 2,2

ap x ya b c

=+ +

,

Miara Hamanna (Hamann):

( ) ( ) ( ) [ ], 1;1a d b c

p x ya b c d+ − +

= ∈ −+ + +

,

Współczynnik Y Yule'a (Yule's Y):

( ) [ ], 1;1ad bcp x yad bc−= ∈ −+

,

Współczynnik Q Yule'a (Yule's Q):

( ) [ ], 1;1ad bcp x yad bc−= ∈ −+

,

Miara Ochiai (Ochiai):

( ) [ ], 0;1a ap x ya b a c

= ⋅ ∈+ +

,

Zerojedynkowa wersja współczynnika korelacji Persona (Phi 4-point correlation):

( )( )( )( )( )

[ ], 0;1ad bcp x ya b a c b d c d

−= ∈+ + + +

,

Miara rozproszenia (Dispersion):

( )( )

[ ]2, 1;1ad bcp x ya b c d

−= ∈ −+ + +

.

10.4. Analiza skupień (cd.) Celem stosowania metody analizy skupień w badaniach empirycznych jest przede

wszystkim uzyskanie jednorodnych podgrup obiektów badania. Uzyskany w ten sposób podział,oprócz „odkrycia” nieznanej struktury zjawiska, pozwala także na wyodrębnienie ich zasadniczych cech (właściwości).

Załóżmy więc, że dany jest zbiór n – obiektów:

{ }1 2, , , nQ O O O= � ,

z których każdy opisany jest za pomocą k — cech: 1 2, , , kX X X� . Celem niniejszej metody jest podział zbioru obiektów Q na klasy (skupienia, kategorie) — ( )1,2, ,iQ i m n= ≤… obiektów spełniających warunki:

1) 1 2 mQ Q Q Q+ + + =� — suma tych klas daje całość zbioru obiektów,

2) iQ Q⊆ i iQ ≠ ∅ , dla 1,2, ,i m n= ≤… , gdzie ∅ — zbiór pusty.

Page 99: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

99

Co do typu kategorii (grup) obiektów ( )1,2, ,iQ i m n= ≤… można rozróżnić dwa przypadki:

a) i jQ Q∩ ≠∅ — tzn. niektóre obiekty z badanego zbioru mogą należeć do więcej niż jednego podzbioru jednorodnych obiektów. Z taką sytuacją spotykamy się naprzykład w szczegółowej analizie porównawczej wartości średnich obiektowych w doświadczeniach czynnikowych z zastosowaniem wielokrotnych testów istotności (Tukey'a, Duncana, itp.),

b) i jQ Q∩ =∅ — tzn. otrzymujemy rozłączne podzbiory badanych obiektów.

W ramach przypadku b) można stosować jedną z dwóch technik grupowania:

1. Hierachiczne — w ramach których skupienia tworzą binarne drzewa, tj. skupienia wyższego poziomu zawierają w sobie skupienia z poziomu niższego.

2. Optymalizacyjno–iteracyjne — które dokonują podziału zbioru badanych obiektów na m wzajemnie rozłącznych podzbiorów, przy czym liczba podgrup m jest ustalana przez badacza (np. metoda znana jako k–średnich).

10.4.1. Hierarchiczne metody grupowania Wśród hierarchicznych metod analizy skupień można wyróżnić następujące metody

grupowania:

— aglomeracyjne — polegające na sukcesywnym łączeniu skupień (zakłada się, żepoczątkowo każdy obiekt tworzy skupienie), zob. rys. — od poziomu I-go do poziomu IV-tego. Metody te w praktycznych zastosowaniach są najczęściej wykorzystywane. Typowym rezultatem działania tych metod są dendrogramy — drzewa binarne, których węzły odpowiadają utworzonym skupieniom.

— podziałowe — polegające na sukcesywnym podziale zbioru obiektów (jedno skupienie) na kolejne poziomy skupień (na dwie części, trzy części, itp.), aż domomentu, gdy każdy obiekt będzie stanowił osobne skupienie, zob. rys. — od poziomu IV-go do poziomu I-go.

Powyższy rysunek przedstawia grupę sześciu obiektów: A, B, C, D, E, F — jako poziom I o sześciu skupieniach, które tworzą kolejno: poziom II — o trzech skupieniach (AB, CD, EF), poziom III — o dwóch skupieniach (ABCD, EF) oraz poziom IV — o jednym skupieniu (ABCDEF).

IV

III

II

IA B C E FD

Page 100: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

100

W ramach poszczególnych metod grupowania rozróżniamy wiele sposobów obliczania odległości (podobieństwa) pomiędzy skupieniami. Często w pakietach dostępne są następujące sposoby:

— średniej odległości między skupieniami (Between-groups linkage) — odległość między skupieniami A i B traktowana jest jako średnia arytmetyczna odległości między wszystkimi parami obiektów należących do skupień A i B, tzn.

( )( )1 1

,,

A B

i j

n nA Bi j

A B

d O Od A B

n n= ==

∑ ∑,

— średniej odległości wewnątrz skupień (Within-groups linkage) — odległość między skupieniami A i B traktowana jest jako średnia arytmetyczna odległości między wszystkimi możliwymi parami obiektów należących zarówno do skupienia A jak i skupienia B, tzn.

( )

( ) ( ) ( )( ) ( )

2 1 2 1 1 1, , ,,

1 12 2

A B A B

i p j q i j

n i n j n nA A B B A Bi p j q i j

A A B BA B

d O O d O O d O Od A B

n n n nn n

= = = = = =+ +=

⋅ − ⋅ −+ + ⋅

∑ ∑ ∑ ∑ ∑ ∑ ,

— najbliższego sąsiedztwa, pojedynczego wiązania (Nearest neighbor, single linkage) — odległość między skupieniami A i B traktowana jest jako odległość między najbliższymi obiektami (najbliższymi sąsiadami) należącymi do tych skupień, tzn.

( ) ( ){ },, min ,

i jA Bi jd A B d O O= , 1,2, , Ai n= … , 1,2, , Bj n= … ,

— najdalszego sąsiedztwa, pełnego wiązania (Furthest neighbor, complete linkage)— odległość między skupieniami A oraz B traktowana jest jako odległość między najbardziej odległymi obiektami (najdalszymi sąsiadami) należącymi odpowiednio do skupień A oraz B, tzn.

( ) ( ){ },, max ,

i jA Bi jd A B d O O= , 1,2, , Ai n= … , 1,2, , Bj n= … ,

— środka ciężkości (Centroid clustering) — odległość między skupieniami A oraz Btraktowana jest jako odległość między środkami ciężkości (punktem średnich w przestrzeni wielocechowej, zdefiniowanej przez analizowane cechy) obiektów skupienia A oraz B, tzn.

( ) ( ), ,A Bd A B d x x= ,

gdzie: ,A Bx x są środkami ciężkości skupień A oraz B,

— mediany (Median clustering) — odległość między skupieniami A oraz B to mediana odległości (środkowa odległość) między obiektami należącymi odpowiednio do skupienia A oraz B, tzn.

( ) ( ){ },, mediana ,

i jA Bi jd A B d O O= ,

dla 1,2, , Ai n= … , 1,2, , Bj n= … ,

Page 101: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

101

— Warda (Ward's method) — odległość między skupieniami A oraz B traktowana jest jako kwadraty odległości między środkami ciężkości skupień a obiektami poszczególnych skupień, tzn. metoda ta do oszacowania odległości między skupieniami wykorzystuje podejście analizy wariancji:

( ) ( ) ( )2 21 1

, , ,A B

i j

n nA A B Bi j

d A B d O x d O x= =

= +∑ ∑ ,

gdzie: ,A Bx x są środkami ciężkości dla skupień A i B.

Przy wszystkich wymienionych sposobach obliczania odległości między skupieniami, wykorzystywana jest macierz odległości (podobieństwa) między obiektami (skupieniami) obliczana według miar oraz formuł obliczeniowych przedstawionych wcześniej.

10.4.2. Grupowanie metodą k–średnich (k–means)Metody optymalizacyjno–iteracyjne, polegają na optymalizacji pewnej funkcji jakości

podziału zbioru obiektów na określoną (zadaną) liczbę skupień (podgrup). Poszukiwanie końcowych rozwiązań uzyskuje się poprzez uzyskiwanie kolejnych rozwiązań (iteracji) prowadzących do tego właściwego (końcowego) rozwiązania. Ten proces w praktyce kończy się, gdy w dwóch kolejnych iteracjach nie nastąpi zmiana struktury skupień (ewentualnie uzyskania pewnej wartości progowej zmian jakości podziału) lub po wykonaniu pewnej maksymalnej (ustalanej) liczby iteracji. W całym tym procesie najczęściej chodzi o to, by w uzyskanym podziale zbioru obiektów na podgrupy, zróżnicowanie obiektów w podgrupach wg wybranej miary było jak najmniejsze, zaś między grupami — jak największe, tzn. by skupienia w ustalonej liczbie były tak różne, jak to tylko możliwe.

Rozwiązanie tego typu problemu badawczego można uzyskać przy pomocy algorytmu grupowania metodą k–średnich. Jest to procedura najczęściej wykorzystywana w praktyce. Funkcję kryterium podziału zbioru obiektów na k podzbiorów można zapisać w postaci:

( ) ( )2

1 1ik m

ij ii jf X X

= == −∑ ∑… ,

gdzie: iX — środek ciężkości (wielocechowy) i–tego skupienia (podgrupy), ijX — j–ty obiekt (wielocechowy) w i–tym skupieniu, k — liczba skupień, im — liczba obiektów w i–tym skupieniu. Celem metody k–średnich jest więc znalezienie takiego podziału zbioru obiektów na k skupień, który minimalizuje wartość powyższej funkcji.

Zauważmy tutaj pewne „podobieństwo” do metody jednoczynnikowej analizy wariancji. Mianowicie w teście istotności jednoczynnikowej analizy wariancji dla pojedynczej cechy szacowane są: zmienność między grupami oraz zmienność wewnątrz grup dla weryfikacji hipotezy o równości wartości średnich w grupach i im F — wartość funkcji testowej jest większa, tym jesteśmy bardziej pewni, że wartości średnie analizowanych grup sązróżnicowane. Natomiast w grupowaniu metodą k–średnich chcemy uzyskać taki podział, aby uzyskać najbardziej istotne wyniki analizy wariancji. W sytuacji idealnego podziału na k –skupień otrzymalibyśmy istotnie różne średnie w grupach dla każdej lub prawie każdej z analizowanych cech. Wielkość statystyki F pochodzącej z analizy wariancji każdej cechy jest wskaźnikiem tego, na ile dana cecha bierze udział w dyskryminacji skupienia.

Page 102: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

102

11. ANALIZA CZYNNIKOWA U podstaw analizy czynnikowej leży założenie, że w zespole p cech { }; 1,2, ,iX i p= … są

ukryte czynniki, a w najprostszym przypadku jeden, będące źródłem wspólnej informacji tkwiącej w nich. Celem analizy czynnikowej jest wykrycie tych wspólnych czynników, odpowiedzialnych za zachowanie się poszczególnych cech, czy też poszczególnych grup cech. Tak więc analiza czynnikowa służy także do określania (poszukiwania) grup cech podobnie zachowujących się według ustalonych ocen związków między cechami, na przykład współczynników korelacji. Można więc założyć, że w poszukiwaniu wspólnych czynników najczęściej wykorzystujemy macierz korelacji między poszczególnymi cechami analizowanego zespołu. Najbardziej upowszechnioną metodą wyznaczania czynników jest metoda składowych głównych Hotellinga, polegająca na przypisaniu czynnika jZ wektorowi własnemu dla j — tej wartości własnej macierzy korelacji. Natomiast kryterium Kaisera polega na tym, by do zespołuczynników brać te składowe, dla których wartość własna przekracza 1.

Między czynnikami ( )1,2, ,jZ j q p= ≤… i zmiennymi iX zachodzą związki liniowe dla 1,2, ,i p= … :

1 1 12 2 1q

i i iq q i i ij j i ijX a Z a Z a Z bU a Z bU

== + + + + = +∑� ,

a zapisane w notacji macierzowej jako:

1 1 1p p q q p p p× × × × ×= +X A Z B U , gdzie ( )1 2, , , pdiag b b b=B … .

Współczynniki ija noszą nazwę ładunków czynnikowych czynników jZ na cechę iX .Zmienne iU są składnikami (czynnikami) specyficznymi w każdej zmiennej iX . Czynniki jZ

i iU są wewnętrznie i między sobą nieskorelowane. Natomiast wielkość 2 21

qi ijj

h a=

=∑nazywamy zasobem wspólnej zmienności cechy iX determinowanej czynnikami jZ , zaś

wielkość 2 21i ib h= − nazywamy wariancją specyficzną.

Suma zasobów 2 2

1

q

i ijj

h a=

=∑ daje łączną determinację zmienności wszystkich iX przez

czynniki jZ . Ponieważ suma wariancji zmiennych iX jest równa p , więc współczynnik:

2 2 2

1 1 1

1 1p p q

i iji i j

R h ap p⋅

= = == =∑ ∑∑X Z ,

jest zespołowym współczynnikiem determinacji. Suma kwadratów ładunków może byćrozdzielona na części, przypisane poszczególnym czynnikom jZ , tzn.

( )2

11,2, ,

p

j iji

a j qλ=

= =∑ … ,

określającą jego wagę w determinacji zmienności zbioru { }iX .

Page 103: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

103

11.1. Rotacje czynników, metoda varimax

Niech Σ oznacza macierz korelacji zmiennych { }iX . Oznaczając przez A macierz o elementach ija oraz p wierszach i q kolumnach, możemy zapisać macierz korelacji

T= +Σ AA V , gdzie 2 =B V , czyli ( )2 2 21 2, , , pdiag b b b=V … , zaś ( )TE=Σ XX . Otóż jeżeli

macierz D jest macierzą ortogonalną, to transformacja czynników ′ =Z ZD nie zmienia struktury macierzy korelacji Σ , ponieważ

( )( )T T T T= =AD AD ADD A AA .

Transformacji D geometrycznie odpowiada obrót kierunków głównych określających składowe główne. Można dokonać obrotu tak, aby ładunki przy cechach maksymalnie sięróżnicowały, przez co otrzymuje się ich prostszą interpretację. Stąd warunek by warians ładunków był maksymalny ( var max!a = ), prowadzi do metody varimax, dającej maksymalne zróżnicowanie ładunków w ramach czynnika.

Przykład:

Dane początkowe i oceny wartości czynników głównych Dane początkowe Oceny L

P X1 X2 X3 X4 X5 F1 F2 1 1,53 114,01 0,7512,65 1,96 1,29966 –0,444442 0,18 79,53 0,6713,30 5,28 0,16175 2,240223 1,90 105,63 0,8512,62 1,71 1,54248 –0,700544 0,91 45,62 0,1113,14 6,24 –0,87322 1,702285 1,27 79,48 0,5012,95 3,61 0,37869 0,609406 1,52 52,08 0,3612,57 4,10 –0,18745–0,267397 1,32 83,87 0,5812,77 2,53 0,57096 –0,077968 1,04 33,94 0,2912,85 0,04 –0,53311–0,818059 0,70 72,94 0,5912,61 4,94 0,01145 0,4429810 1,54 34,22 0,3012,99 3,66 –0,34385 0,4242711 0,75 50,39 0,4612,68 6,45 –0,48357 0,9207912 1,22 35,04 0,2112,88 2,42 –0,62866–0,1055013 1,31 65,25 0,7012,76 3,98 0,47475 0,3029314 0,64 0,00 0,1612,77 3,96 –1,52738 0,1588815 0,00 39,65 0,3012,75 4,12 –1,15052 0,5262616 1,93 74,27 0,7112,65 0,00 1,02120 –1,2930117 2,70 96,93 0,7712,87 1,32 1,79728 –0,5607718 1,78 65,29 0,3912,40 1,25 0,18555 –1,5288719 1,71 70,57 0,5212,46 1,36 0,45296 –1,2811720 0,44 75,09 0,6212,91 4,63 0,05342 1,0829821 2,49 124,00 0,7813,14 3,71 2,03699 0,9010422 1,61 101,89 0,6612,92 3,57 1,07240 0,5464423 0,75 15,26 0,2512,46 0,31 –1,09198–1,5519924 0,17 5,05 0,0012,47 1,74 –1,96442–1,0269325 1,13 33,39 0,3612,75 0,46 –0,42248–0,9151226 1,38 81,35 0,5513,10 4,49 0,55698 1,1676027 0,44 34,97 0,2312,80 4,52 –1,08841 0,5966528 0,47 17,89 0,1112,71 3,53 –1,47427–0,0074329 1,40 60,57 0,4812,30 0,92 0,06964 –1,7123730 0,71 56,68 0,6812,89 3,79 0,08317 0,66882

Page 104: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

104

Dane początkowe — macierz korelacji liniowej X1 X2 X3 X4 X5

X1 1 ,631(**) ,555(**) –,030 –,399(*)X2 ,631(**) 1 ,895(**) ,244 ,032 X3 ,555(**) ,895(**) 1 ,163 –,045X4 –,030 ,244 ,163 1 ,533(**)X5 –,399(*) ,032 –,045 ,533(**) 1

Analiza czynnikowa — zasoby zmienności wspólnej, 2 2

1

1 0,82p

ii

R hp⋅

== =∑X Z

Początkowe Po wyodrębnieniu Wariancja specyficznaX1 1,000 ,759 0,241 X2 1,000 ,925 0,075 X3 1,000 ,855 0,145 X4 1,000 ,736 0,264 X5 1,000 ,823 0,177

Metoda wyodrębniania czynników — głównych składowych.

Całkowita wyjaśniona wariancja

Początkowe wartości własne

Sumy kwadratów ładunków po wyodrębnieniu

Sumy kwadratów ładunków po rotacji

Nrs

kład

owej

Ogółe

m

%w

aria

ncji

%sk

umul

owan

y

Ogółe

m

%w

aria

ncji

%sk

umul

owan

y

Ogółe

m

%w

aria

ncji

%sk

umul

owan

y

1 2,449 48,981 48,981 2,449 48,981 48,981 2,449 48,981 48,981 2 1,650 32,993 81,974 1,650 32,993 81,974 1,650 32,994 81,974 3 ,514 10,280 92,254 4 ,303 6,056 98,310 5 ,085 1,690 100,000

54321

Numer składowej

2,5

2,0

1,5

1,0

0,5

0,0

War

tość

wła

sna

Wykres osypiska

Page 105: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

105

Macierz składowych Składowa 1 2

X2 ,946 ,172 X3 ,919 ,100 X1 ,805 –,334X5 –,160 ,893 X4 ,188 ,837

Liczba wyodrębnionych składowych — 2.

Macierz rotowanych składowych Składowa 1 2

X2 ,946 ,174X3 ,919 ,102X1 ,805 –,332X5 –,162 ,893X4 ,186 ,838

Metoda rotacji – Varimax z normalizacją Kaisera.

Rotacja osiągnęła zbieżność w 3 iteracjach.

0,90,60,30,0-0,3-0,6-0,9

Składowa 1

0,9

0,6

0,3

0,0

-0,3

-0,6

-0,9

Skła

dow

a2

X5X4

X3

X2

X1

Wykres składowych w rozwiązaniu rotowanym

Układ współrzędnych dwóch pierwszych składowych (biplot)

Macierz współczynników ocen głównych składowych Składowa 1 2

X1 ,329 –,202X2 ,386 ,105 X3 ,375 ,061 X4 ,076 ,508 X5 –,066 ,541

Page 106: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

106

Macierz kowariancji ocen głównych składowych Składowa 1 2

1 1,000 ,000 2 ,000 1,000

Współczynniki korelacji między cechami a „odkrytymi” czynnikami X1 X2 X3 X4 X5 F1 F2

X1 1 ,631(**) ,555(**) –,030 –,399(*) ,805(**) –,332 X2 ,631(**) 1 ,895(**) ,244 ,032 ,946(**) ,174 X3 ,555(**) ,895(**) 1 ,163 –,045 ,919(**) ,102 X4 –,030 ,244 ,163 1 ,533(**) ,186 ,838(**) X5 –,399(*) ,032 –,045 ,533(**) 1 –,162 ,893(**) F1 ,805(**) ,946(**) ,919(**) ,186 –,162 1 ,000 F2 –,332 ,174 ,102 ,838(**) ,893(**) ,000 1

Page 107: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

107

III. ĆWICZENIA POKAZOWE W ramach praktycznego wykorzystania prezentowanej wiedzy oraz prezentacji

analitycznego oprogramowania statystycznego, przykłady w ramach ćwiczeń pokazowych będąrealizowane z wykorzystaniem Systemu SAS®. Jest to pakiet oprogramowania przeznaczonego do analiz statystycznych. W jego skład wchodzi środowisko programistyczne SAS®, aplikacja graficzna SAS Enterprise Guide® oraz opcjonalnie środowisko JMP®. Szczegółowe informacje odnośnie prezentowanego oprogramowania, oraz pełną dokumentację można znaleźć na stronie: http://www.sas.com/offices/europe/poland/. Dokumentację do modułów BASE SAS i SAS/STAT w wersji elektronicznej dołączono do płyty CD z materiałami z niniejszego szkolenia.

W opisie kodów procedur w języku 4GL przyjęto następującą konwencję:— kolorem czarnym podano właściwą procedurę 4GL; — wielkimi literami podano polecenia składni procedur; — małymi literami i kursywą podano miejsca odwołań do bibliotek/zbiorów lub

zmiennych ze zbiorów danych; — kolorem niebieskim podano procedury uzupełniające, dzięki którym możliwa jest

efektowniejsza prezentacja uzyskanych wyników (procedury te można pominąć); — słowo ‘opcje’ oznacza możliwość modyfikacji poleceń poprzez dodawanie

różnego rodzaju opcji;

Składnie procedur podano w wersji uproszczonej, to znaczy wymieniając tylko omawiane polecenia. Pełna składnia procedur znajduje się w dokumentacji oprogramowania oraz w plikach pomocy.

1. PRAWIDŁOWE PRZYGOTOWANIE DANYCH DO ANALIZ

Zdecydowana większość programów analitycznych wymaga specyficznego przygotowania zbiorów danych do analiz statystycznych. Dane przygotowywane do obliczeń w Systemie SAS®

również powinny być w ten sposób przygotowane.

Dane zestawiane są w formie tabeli ‘płaskiej’, gdzie kolejne kolumny traktuje się jako kolejne zmienne (cechy), a wiersze jako kolejne przypadki (obserwacje). Pierwszy wiersz tabeli zawiera nazwy kolumn. Nazwy kolumn powinny być zapisane alfabetem międzynarodowym (nie zawierającym nazw narodowych, np. ą, ę, ż, …), ani żadnych symboli specjalnych (kropek, myślników, itp.) oraz spacji, wyjątek stanowi tzw. znak podkreślenia ( _ ). Tak więc nazwa ‘plon jęczmienia’ jest nazwą nieprawidłową, forma poprawna powinna mieć postać‘plon_jeczmienia’. Obserwacje wpisujemy jedna pod drugą. Puste komórki tabeli uważane są za braki danych. Niedopuszczalne są następujące formy wprowadzania danych:

Odmiana Rok Plon ZK Grana 2004 36,5 90

2005 32,2 922006 28,7 88

Begra 2004 40,3 942005 38,2 902006 22,1 86

… … … …

Page 108: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

108

Odmiana Plony w dt/ha 2004 2005 2006

Grana 36,5 32,2 28,7Begra 40,3 38,2 22,1

ZK w % 2004 2005 2006

grana 90 92 88begra 94 90 86

Poprawnie wprowadzone dane powinny mieć postać:

Odmiana Rok Plon ZK Grana 2004 36,5 90Grana 2005 32,2 92Grana 2006 28,7 88Begra 2004 40,3 94Begra 2005 38,2 90Begra 2006 22,1 86… … … …

Do przygotowania zbioru źródłowego danych najwygodniej jest użyć arkusza kalkulacyjnego, np. Ms Excel. Jeżeli do przygotowania tabeli z danymi wykorzystuje sięExcela, wiersz z nagłówkiem powinien zaczynać się w komórce A1. W arkuszu po za danymi nie powinno się znajdować nic więcej.

Przed przeniesieniem danych ze zbioru źródłowego do oprogramowania analitycznego, należy upewnić się, czy stosowany pakiet analityczny obsługuje format w jakim dane zostałyzapisane.

System SAS® w pełni obsługuje między innymi następujące formaty zapisu: — Arkusz kalkulacyjny Ms Excel 97, 2000, 2002, XP, 2003; — Arkusz kalkulacyjny Ms Excel 5, 95; — Arkusz kalkulacyjny Ms Excell 4; — Pliki bazy danych Ms Access 2000, 2002, XP, 2003; — Pliki bazy danych Ms Access 97 — Pliki dBase — Pliki JMP — Arkusz kalkulacyjny Lotus 1-2-3 — Bazy danych ORACLE — Bazy danych MySQL — Pliki SPSS — Pliki XML — … itd.

Przed wykonaniem obliczeń należy ostatecznie sprawdzić, czy w zbiorze z danymi nie ma błędów. Najdrobniejszy błąd w danych (źle postawiony przecinek dziesiętny, zła wielkość liter, tzw. „literówka”, itp.) może w znaczący sposób zmienić wyniki analiz i uniemożliwićprawidłowe wnioskowanie.

Page 109: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

109

2. WCZYTYWANIE DANYCH DO SYSTEMU SAS®

2.1. SAS Enterprise Guide®

Program SAS Enterprise Guide® (EG) jest graficznym narzędziem Systemu SAS®

przeznaczonym do wykonywanie podstawowych operacji na danych, tworzeniu wykresów oraz przeprowadzaniu prostych analiz statystycznych. Większość operacji wykonuje sięw środowisku graficznym.

EG wczytuje wszystkie typy plików obsługiwane przez System SAS®. Aby rozpocząć pracęw programie należy zdecydować czy rozpoczynany będzie nowy projekt (zestaw analiz) czy teżbędzie wykorzystywany istniejący już projektu (rys. I.4.1).

Rys. I.4.1. Okno wyboru projektu programu SAS Enterprise Guide®.

Okno robocze EG (rys. I.4.2) zbudowane jest z menu i paska narzędzi (1), eksploratora projektów (2), okna statusu zadań (3), listy zadań (4) oraz okna procesu (5).

Rys. I.4.2. Okno robocze programu SAS Enterprise Guide®.

Następnie można przystąpić doczytania zbioru z danymi. W tym celu z menu ‘Plik’ wybiera się opcję ‘Otwórz’, a następnie ‘Dane’ (‘Plik’ ���� ‘Otwórz’ ���� ‘Dane’). W kolejnym kroku należy wskazać miejsce, z którego dane będą wczytywane (rys. I.4.3).

54

2

1

3

Page 110: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

110

Rys. I.4.3. Okno wyboru źródła danych EG.

Po wybraniu źródła (jeżeli dane znajdują się na komputerze, na którym uruchomiono EG, należy wybrać opcję „Komputer lokalny”) należy wskazać plik z danymi. Jeżeli wczytywany zbiór jest w formacie SAS® (‘.sas7bdat’), to dane zostaną natychmiast wczytane, jeżeli natomiast dane zapisane są w innym formacie, muszą zostać odpowiednio zaimportowane. W przypadku plików arkusz kalkulacyjnego Ms Excel (‘.xls’) program zapyta, który arkusz ma zostać zaimportowany (rys. I.4.4), a następnie zapyta w jaki sposób dane mają zostaćzaimportowane (rys. I.4.5).

Rys. I.4.4. Wybór arkusza przy imporcie danych zapisanych w formacie Ms Excel do EG.

Rys. I.4.5. Okno wyboru sposobu importu danych.

Jeżeli zostanie wybrana opcja „otworzyć plik jako zbiór SAS-owy”, użytkownik w kolejnych krokach będzie musiał ustawić wszystkie właściwości danych i ich formaty, dlatego, jeżeli dane są już prawidłowo przygotowane, najlepiej jest wybrać pierwszą opcję,czyli „wyświetlić plik jako taki”. Wybór pierwszej opcji sprawi, że dane zostanązaimportowane zgodnie, a formatowanie i właściwości danych zostaną ustawione automatycznie.

Następnie dane zostaną wyświetlone w oknie projektu, a na schemacie przebiegu procesów pojawi się ikona symbolizująca dane (rys. I.4.6).

Page 111: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

111

Rys. I.4.6. Fragment schematu przebiegu procesu z ikoną symbolizująca dane.

2.2. Środowisko programistyczne SAS®

Środowisko graficzne EG jakkolwiek łatwe w obsłudze, nie pozwala na wykorzystanie wszystkich możliwości jakie posiada System SAS®. Wszystkie nawet najbardziej skomplikowane analizy można natomiast wykonać korzystając z tak zwanego „środowiska programistycznego” (rys. I.4.7). Wszystkie analizy i procesy wykonuje się za pomocą tzw. procedur (proc-stepów) lub data-stepów zbudowanych w języku 4GL.

Rys. I.4.7. Wygląd środowiska programistycznego Systemu SAS®.

Dane są gromadzone w bibliotekach (‘Library’). Do podglądu bibliotek i danych służy okno eksploratora (rys. I.4.8). W systemie znajdują się biblioteki systemowe (stworzone podczas instalacji oprogramowania) jak i biblioteki założone przez użytkownika.

Rys. I.4.8. Okno eksploratora z widocznymi bibliotekami systemowymi.

Jedna biblioteka systemowa o nazwie ‘Work’ ma wyjątkowe zadanie. Jest to biblioteka tymczasowa. Oznacza to, że wszystkie zbiory danych, jakie zostaną w niej umieszczone będądostępne tylko przez okres pracy programu. Po zamknięciu aplikacji zawartość tej biblioteki jest kasowana. Dodatkowo w procedurach, podczas odwoływania się do zbiorów danych znajdujących się w tej bibliotece nie trzeba podawać jej nazwy.

Page 112: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

112

Zakładanie biblioteki

Istnieje kilka sposobów zakładania bibliotek danych. Najwygodniejsze jest wykorzystanie graficznego kreatora. W tym celu na pasku narzędzi należy kliknąć na przycisku ‘’ (rys. I.4.9).

Rys. I.4.9. Przycisk uruchamiający kreatora zakładania biblioteki.

Wyświetlone zostanie okno kreatora (rys. I.4.10). Należy podać nazwę nowej biblioteki (8 znaków bez cyfr i znaków specjalnych), wskazać lokalizację folderu na dysku twardym przypisanego do tworzonej biblioteki (to tam będą przechowywane zbiory danych). Aby biblioteka została założone na trwałe należy dodatkowo zaznaczyć opcję ‘Włącz przy uruchomieniu’.

Rys. I.4.10. Okno kreatora zakładania biblioteki.

W przypadku usunięcia biblioteki, zostanie usunięty tylko wpis informujący o bibliotece w programie, folder z danymi pozostanie jednak na dysku twardym komputera.

Procedury pisane w języku 4GL najczęściej odwołują się do zbiorów danych. Lokalizacjędanych podaje się w postaci:

nazwa_biblioteki....nazwa_zbioru

np.: ‘kurs.dane1’ — oznacza zbiór dane1 z biblioteki Kurs.

Import danych z pliku Ms Excell

Najczęstszą operacją importu jest wczytanie danych zapisanych w arkuszu kalkulacyjnym Ms Excel. Aby uruchomić kreatora importu (rys. I.4.11) z menu ‘Plik’ należy wybrać opcję‘Importuj dane…’ (‘Plik’ ���� ‘Importuj dane…’).

Page 113: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

113

Rys. I.4.11. Pierwsze okno kreatora importu danych.

W oknie tym wybiera się rodzaj importowanego pliku. Należy zwrócić uwagę, że dowyboru są aż trzy rodzaje plików Excela, zależnie od wersji arkusza kalkulacyjnego. Po wyborze typu źródła danych należy wcisnąć przycisk ‘Dalej’.

W kolejnym oknie należy wskazać lokalizację pliku z danymi, a następnie wybrać, który arkusz ze skoroszytu Excela ma być zaimportowany. Kolejnym krokiem jest wybór biblioteki do której importowane dane mają zostać dołączone i nadanie nazwy tabeli danych (rys. I.4.12).

Rys. I.4.12. Wybór biblioteki i nadanie nazwy tabeli danych.

Po wykonaniu tych operacji należy wcisnąć przycisk ‘Koniec’. Jeżeli dane byłyprzygotowane we właściwy sposób (tak jak podano wcześniej) to we wskazanej bibliotece pojawi się nowa tabela z zaimportowanymi danymi, a w oknie logu pojawi się komunikat: ‘UWAGA: biblioteka.dane utworzono’.

Po dwukrotnym kliknięciu na ikonie reprezentującej w oknie eksploratora zbiór danych, zostanie on otwarty do podglądu.

Page 114: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

114

Dane do ćwiczeń pokazowych

Wszystkie dane prezentowane w niniejszym szkoleniu zostały dołączone do płyty CD z materiałami szkoleniowymi. znajdują się one w folderze ‘Kurs’. Dane zapisane są w formacie SAS’a. Wystarczy przekopiować na dysk twardy komputera cały folder ‘Kurs’, a następnie założyć w Systemie SAS® bibliotekę o nazwie ‘Kurs’ odnoszącą się do tego folderu.

Na płycie CD w folderze ‘Kody SAS 4GL’ zapisano wszystkie prezentowane kody w języku 4GL opatrzone niezbędnym komentarzem.

Page 115: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

115

3. PODSTAWOWE ANALIZY STATYSTYCZNE

3.1. Statystyki opisowe

3.1.1. SAS Enterprise Guide®

Analiza rozkładu

Analiza rozkładu znajduje się w menu ‘Opisz’ (‘Opisz’ ���� ‘Analiza rozkładu…’). Jest odpowiednikiem procedury UNIVARIATE w środowisku programistycznym. Pozwala na wyświetlenie podstawowych statystyk oraz zbadanie zgodności rozkładu cechy losowej z rozkładami teoretycznymi (między innymi z rozkładem normalnym), a także pozwala na wykonanie histogramów, wykresów probabilistycznych, wykresów kwantyli oraz wykresów pudełkowych.

Statystyki agregujące

Statystyki agregujące znajdują się w menu ‘Opisz’ (‘Opisz’ ���� ‘Statystyki agregujące…’). Są odpowiednikiem procedury MEANS w środowisku programistycznym. Służą do wyznaczania parametrów rozkładów cech losowych (np.: wartość średnia, wariancja, odchylenie standardowe, współczynnik zmienności, przedziały ufności dla wartości średniej, itp.) oraz do przygotowywania histogramów i wykresów pudełkowych.

3.1.2. Środowisko programistyczne

PROC UNIVARIATE

Procedura UNIVARIATE jest elementem modułu BASE SAS. Służy ona do: — wyznaczania statystyk opisowych bazujących na estymacji punktowej

parametrów rozkładów cech ciągłych; — wyznaczania statystyk dopasowania rozkładu cechy ciągłej do rozkładów

teoretycznych, w tym do rozkładu normalnego; — wyznaczania frakcji cechy losowej; — przygotowania histogramów z dopasowaniem do rozkładu teoretycznego; — przygotowania wykresów probabilistycznych zgodności cechy losowej

z rozkładem teoretycznym.

Składnia procedury ma postać:

PROC UNIVARIATE <opcje>; BY zmienne_grupujace;VAR lista_zmiennych;HISTOGRAM lista_zmiennych /<opcje>; PROBPLOT lista_zmiennych /<opcje>;

RUN; QUIT;

Page 116: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

116

Przykład:

Wyznaczenie podstawowych statystyk dla zmiennej ‘MTN’ (masa tysiąca nasion) w zbiorze ‘Lubin_zaprawa’ (dane pochodzące z doświadczenia z łubinem żółtym) z biblioteki ‘Kurs’. Testowanie normalności rozkładu cechy, wyznaczenie frakcji, przygotowanie histogramu i wykresu probabilistycznego.

ODS HTML;

PROC UNIVARIATE DATA=kurs.lubin_zaprawa NORMAL FREQ;

VAR mtn; HISTOGRAM mtn /NORMAL (COLOR=RED W=2); PROBPLOT mtn/NORMAL (MU=EST SIGMA=EST

COLOR=RED W=2); RUN; QUIT;

ODS HTML CLOSE;

PROC MEANS

Procedura MEANS jest elementem modułu BASE SAS. Służy do wyznaczania podstawowych statystyk cech ilościowych, np.:

— liczba obserwacji, liczbę braków danych; — wartość średnia; — wariancja i odchylenie standardowe; — standardowy błąd oceny średniej; — przedział ufności dla średniej; — minimum, maksimum, rozstęp; — współczynnik zmienności; — itp.

Składnia procedury ma postać:

PROC MEANS <opcje>; BY zmienne_grupujace;VAR lista_zmiennych;

RUN;

Domyślnie procedura MEANS wyznacza dla analizowanych danych liczbowych: liczbęobserwacji, wartość średnią, odchylenie standardowe, minimum i maksimum. Aby wyznaczyćinne parametry, należy wymienić w opcjach procedury, które parametry mają być wyznaczone. Do wskazywania parametrów wykorzystuje się następujące słowa kluczowe:

CLM przedział ufności dla średniej SKEW skośność CV współczynnik zmienności [%] STD odchylenie standardowe KURT kurtoza STDERR standardowy błąd średniej MAX maksimum SUM suma MEAN wartość średnia VAR wariancja MIN minimum MEDIAN mediana N liczba obserwacji Q1 górny kwartyl NMISS liczba braków danych Q3 dolny kwartyl RANGE rozstęp

Page 117: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

117

Przykłady:

Domyślne statystyki dla zmiennej ‘wschody_polowe’ ze zbioru ‘Lubin_zaprawa’ w bibliotece ‘Kurs’.

ODS HTML;

PROC MEANS DATA = kurs.lubin_zaprawa; VAR wschody_polowe;

RUN; ODS HTML CLOSE;

Domyślne statystyki dla zmiennej ‘wschody_polowe’ i ‘MTN’ ze zbioru ‘Lubin_zaprawa’ oddzielnie dla każdego roku badań (zbiór musi być posortowany po zmiennej ‘rok’).

ODS HTML;

PROC MEANS DATA = kurs.lubin_zaprawa; BY rok; VAR wschody_polowe mtn;

RUN; ODS HTML CLOSE;

Średnia, wariancja, odchylenie standardowe, współczynnik zmienności, przedział ufności (przy α = 0.01) oraz rozstęp dla zmiennych ‘fung_1’, ‘fung_2’, fung_3’ i ‘fung_4’ (od ‘fung_1’ do ‘fung_4’) ze zbioru ‘Jeczmien_grzyby’.

ODS HTML;

PROC MEANS DATA = kurs.jeczmien_grzyby ALPHA = 0.01 MEAN VAR STD CV CLM RANGE;

VAR fung_1 -- fung_4; RUN;

ODS HTML CLOSE;

3.2. Testy t

3.2.1. SAS Enterprise Guide®

Test t

Testy t znajdują się w menu ‘Analizuj’ w grupie ‘ANOVA’ (‘Analizuj’ ���� ‘ANOVA’ ����‘Test t’). Są odpowiednikiem procedury TTEST w środowisku programistycznym. Służą do wykonywania testów t dla porównania wartości średniej z normą, porównania dwóch wartości średnich oraz porównania dwóch wartości średnich dla danych skorelowanych (tzw. „test sparowany”). Ponad to umożliwia wykonanie wykresów pudełkowych i wykresów wartości średnich.

Page 118: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

118

3.2.2. Środowisko programistyczne

PROC TTEST

Procedura TTEST jest elementem modułu SAS/STAT. Pozwala ona na przeprowadzenie test t-Studenta dla:

— porównania wartości średniej z normą:

0emp

x mt ns−= ⋅

— porównania dwóch wartości średnich (przy założeniu równych i nierównych wariancji):

( )1 2 0 2 21 2dlaemp

x x mt

Srσ σ

− −= =

( )

22 21 2

1 2 0 1 2 2 21 22 22 2 2 2

1 2 1 2

1 2 1 2

1 2

' przy dla

1 1

emp

s sx x m n n

t dfs s s sn n n n

n n

σ σ

+ − − = = ≠

+ +− −

— porównania dwóch ‘sparowanych’ (skorelowanych) wartości średnich:

02emp

d

d mtsn

−=

Jednocześnie podczas przeprowadzania testu t dla różnicy dwóch wartości średnich procedura TTEST wykonuje test F porównania dwóch wariancji:

2122

empsFs

=

Składnia procedury ma postać:

PROC TTEST <opcje>; BY zmienne_grupujace;CLASS zmienna_klasyfikujaca;VAR lista_zmiennych;PAIRED lista_par;

RUN;

Page 119: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

119

Przykłady:

Porównanie średniej z wzorcem. Dla zbioru ‘Lubin_zaprawa’ sprawdzić czy średnia ‘MTN’ wynosi 180 g.

0 0:H m m=

ODS HTML; PROC TTEST DATA = kurs.lubin_zaprawa H0 = 180;

VAR mtn; RUN;

ODS HTML CLOSE;

Porównanie dwóch wartości średnich. Dla zbioru ‘Lubin_zaprawa’ sprawdzić czy średnie wartości ‘MTN’ w latach 2004 i 2005 były sobie równe.

0 1 2 0

0 0 1 2

:dla 0 :

H m m mm H m m

− == ⇔ =

ODS HTML; PROC TTEST DATA = kurs.lubin_zaprawa H0 = 0;

CLASS rok; VAR mtn;

RUN; ODS HTML CLOSE;

3.3. Analiza wariancji

3.3.1. SAS Enterprise Guide®

ANOVA jednoczynnikowa

Jednoczynnikowa ANOVA znajduje się w menu ‘Analizuj’ w grupie ‘ANOVA’ (‘Analizuj’ ���� ‘ANOVA’ ���� ‘ANOVA jednoczynnikowa…’). Jest odpowiednikiem procedury ANOVA w środowisku programistycznym. Służy do wykonywania testu F analizy wariancji dla układu jednoczynnikowego, całkowicie losowego. Pozwala również na przeprowadzenie porównańwielokrotnych i na wykonanie testów homogeniczności wariancji (homoskedastyczności zmiennych). Również można wykonać wykresy pudełkowe i wykresy wartości średnich.

3.3.2. Środowisko programistyczne

PROC ANOVA / PROC GLM

W Systemie SAS® do przeprowadzenia testu F analizy wariancji można wykorzystać dwie procedury: ANOVA i GLM.

Procedura ANOVA pozwala na przeprowadzenie prostej analizy wariancji dla układów kompletnych, ortogonalnych (pozbawionych braków danych).

Page 120: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

120

Procedura GLM jest procedurą bardziej zaawansowaną, pozwala na wykonanie analizy wariancji dla dowolnych układów. W literaturze zaleca się stosowanie procedury GLM.

Składnia procedury ma postać:

PROC GLM <opcje>; BY zmienne_grupujace;CLASS zmienne_klasyfikujace;MODEL zmienna_zalezna = zmienne_klasyfikujace;MEANS zmienne_klasyfikujace /opcje;

RUN; QUIT;

Przykład:

Za pomocą analizy wariancji sprawdzić czy istnieją różnice pomiędzy liniami jęczmienia w stopniu porażenia grzybami oznaczonymi jako ‘fung_1’ w zbiorze ‘Jeczmien_grzyby’. Dodatkowo wykonać testy Tukeya, Duncana oraz Dunnetta (obustronny, wzorzec – linia ‘1’).

ODS HTML;

PROC GLM DATA = kurs.jeczmien_grzyby; CLASS linia; MODEL fung_1 = linia; MEANS linia / TUKEY; MEANS linia / DUNCAN; MEANS linia / DUNNETT ('1');

RUN; QUIT; ODS HTML CLOSE;

Page 121: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

121

4. PLANOWANIE EKSPERYMENTU 4.1. Środowisko programistyczne SAS®

PROC PLAN

Procedur PLAN jest elementem modułu SAS/STAT. Pozwala ona na: — przygotowanie listy kombinacji i permutacji liczb; — rozlosowanie i przygotowanie planów doświadczeń;— rozlosowanie między innymi:

o układów całkowicie losowych i układów blokowych, o układów bloków niekompletnych, o układów kwadratu łacińskiego i greko-łacińskiego,

— przygotowanie zbiorów do wprowadzania danych.

Składnia procedury ma postać:

PROC PLAN <opcje>; FACTORS lista_czynników </NOPRINT>; TREATMENTS lista_czynników;OUTPUT OUT = zbiór_sas <opcje czynników>;

RUN; QUIT;

Przykłady:

Rozlosowanie doświadczenia jednoczynnikowego w układzie losowanych bloków (4 bloki, 5 poziomów czynnika A).

PROC PLAN;

FACTORS Bloki = 4 ORDERED Czynnik_a = 5 RANDOM /NOPRINT;

OUTPUT OUT = plan_1; RUN; QUIT; ODS LISTING CLOSE; ODS HTM;

PROC PRINT DATA = plan_1 NOOBS; RUN;

ODS HTML CLOSE; ODS LISTING;

Page 122: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

122

Rozlosowanie doświadczenia jednoczynnikowego w układzie kwadratu łacińskiego(4 wiersze, 4 kolumny, 4 poziomy czynnika A).

PROC PLAN;

FACTORS wiersz = 4 ORDERED kolumna = 4 ORDERED /NOPRINT;

TREATMENTS Czynnik_a = 4 CYCLIC; OUTPUT OUT = plan_2 wiersz ORDERED kolumna

ORDERED Czynnik_a RANDOM; RUN; QUIT; ODS LISTING CLOSE; ODS HTML;

PROC PRINT DATA = plan_2 NOOBS; RUN; PROC TABULATE;

CLASS wiersz kolumna; VAR Czynnik_a; TABLE wiersz, kolumna * (Czynnik_a ="

* f = 6.) * sum=''; RUN;

ODS HTML CLOSE; ODS LISTING;

Doświadczenie jednoczynnikowe w układzie losowanych bloków — niekompletne(12 poziomów czynnika — po 10 w bloku, 5 bloków).

PROC PLAN;

FACTORS Bloki = 5 ORDERED Czynnik_a = 10 OF 12 CYCLIC /NOPRINT;

OUTPUT OUT = plan_3 Bloki ORDERED Czynnik_a RANDOM;

RUN; QUIT; ODS LISTING CLOSE; ODS HTML;

PROC PRINT DATA = plan_3 NOOBS; RUN;

ODS HTML CLOSE; ODS LISTING;

Rozlosowanie doświadczenia dwuczynnikowego w układzie split-plot (4 bloki, 3 poziomy czynnika A, 5 poziomów czynnika B).

ODS LISTING CLOSE; ODS HTML;

PROC PLAN; FACTORS bloki = 4 ORDERED czynnik_a = 3

RANDOM czynnik_b = 5 RANDOM; OUTPUT OUT = plan_4 bloki ORDERED

czynnik_a RANDOM czynnik_b RANDOM;

RUN; QUIT; PROC PRINT DATA = plan_4 NOOBS; RUN;

ODS HTML CLOSE; ODS LISTING;

Page 123: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

123

Doświadczenie dwuczynnikowe w układzie hierarchicznym split-blok (4 pasy — czynnik A, 3 powtórzenia, 7 poziomów czynnika B).

PROC PLAN;

FACTORS pasy = 4 ORDERED powt = 3 ORDERED czynnik_b = 7 RANDOM /NOPRINT;

OUTPUT OUT = plan_5 pasy ORDERED powt ORDERED czynnik_b RANDOM;

RUN; QUIT; ODS LISTING CLOSE; ODS HTML;

PROC PRINT DATA = plan_5 NOOBS; RUN;

ODS HTML CLOSE; ODS LISTING;

4.2. Środowisko JMP 6 / 7 Środowisko JMP zostało opracowane przez SAS Institute Inc. z myślą o dynamicznej

prezentacji danych. Umożliwia dynamiczne połączenie opcji graficznych z analizami statystycznymi. Do poprawnego działania JMP wymaga zainstalowanej prócz Polskiej równieżAngielskiej wersji językowej Systemu SAS®. Więcej informacji o środowisku JMP na stronie http://www.jmp.com/.

Aby uruchomić moduł planowania eksperymentów należy wybrać z okna ‘JMP Starter’ kategorię ‘DOE’ (design of experiment) (rys. II.4.1).

Rys. II.4.1. Opcje kategorii ‘DOE’ w oknie ‘JMP Starter’.

Następnie należy wybrać rodzaj planowanego eksperymentu. Dalsze prezentowane przykłady wykorzystują opcję ‘Custom Design’. W nowo otwartym oknie (rys. II.4.2) możnawprowadzać kolejne czynniki w planowanym doświadczeniu.

Page 124: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

124

Rys. II.4.2. Okno ‘DOE — Custom Design’.

Po wybraniu liczby i rodzajów czynników w planowanym doświadczeniu należy wcisnąć przycisk ‘Continue’, a następnie . Po rozszerzeniu okna (rys. II.4.3) można wskazać ile razy losowanie ma być powtórzone (liczba replikacji).

Rys. II.4.3. Okno ‘DOE — Custom Design’ — opcje replikacji.

Po wciśnięciu przycisku ‘Make Table’ doświadczenie zostanie rozlosowane i zostanie wyświetlona tabela przygotowana według zaplanowanego układu doświadczalnego.

Page 125: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

125

Przykłady:

Doświadczenie jednoczynnikowe w układzie losowanych bloków (4 Bloki, 5 poziomów czynnik A):

Factors:

Bloki — Blocking, 5 runs Czynnik A — Categorical, 5 levels

Number of replictions: 3

Doświadczenie dwuczynnikowe w układzie losowanych bloków (3 Bloki, 4 poziomów czynnik A, 2 poziomy czynnika B):

Factors:

Bloki — Blocking, 8 runs Czynnik A — Categorical, 4 levels Czynnik B — Categorical, 2 levels

Number of replictions: 2

Page 126: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

126

5. STATYSTYCZNE METODY OPRACOWYWANIA WYNIKÓW

5.1. Analiza wariancji

Do przeprowadzenia analizy wariancji na podstawie danych pochodzących z doświadczeńprzeprowadzonych w oparciu o układy doświadczalne, wykorzystuje się procedurę GLM w bardziej zaawansowanej formie.

Składnia procedury

PROC GLM <opcje>; BY zmienne_grupujace;CLASS zmienne_klasyfikujace;MODEL zmienna_zalezna =

zmienne_klasyfikujace /opcje; TEST H = efekt E = efekt;MEANS zmienne_klasyfikujace /opcje; LSMEANS zmienne_klasyfikujace;CONTRAST <etykieta> efekt kontrasty;

RUN; QUIT;

W analizie wariancji wyróżnia się cztery różne sposoby wyznaczania sumy kwadratów odchyleń. Sposoby te zwane są typami sum kwadratów. Ich znaczenie prezentuje poniższa tabela:

TYP I [SS1]

TYP II [SS2]

TYP III [SS3]

TYP IV [SS4]

A ( )|R A m ( )| ,R A m B ( )| , ,R A m B A B× ( )| , ,R A m B A B×B ( )| ,R B m A ( )| ,R B m A ( )| , ,R B m A A B× ( )| , ,R B m A A B×

A×B ( )| , ,R A B m A B× ( )| , ,R A B m A B× ( )| , ,R A B m A B× ( )| , ,R A B m A B×R(.) reprezentuje zmniejszenie sumy kwadratów odchyleń dla błędu losowego, gdy do modelu zostaje dodane

dane źródło zmienności.

Zastosowanie typów sum kwadratów odchyleń:

TYP I [SS1] jedno- i wieloczynnikowe modele dla danych kompletnych

TYP II [SS2]

modele dla danych niekompletnych przy nieistotnej interakcji pomiędzy czynnikami (np. niekompletny układ losowanych bloków)

TYP III [SS3]

modele dla danych niekompletnych przy istotnej interakcji pomiędzy czynnikami

TYP IV [SS4] modele dla danych niekompletnych przy brakach całych podklas

Page 127: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

127

Przykłady:

Doświadczenia jedno- i dwuczynnikowe

Doświadczenie jednoczynnikowe w układzie losowanych bloków badające reakcjęwybranej linii pszenicy ozimej na różne dawki nawożenia azotem.

ODS HTML; PROC GLM DATA= kurs.pszenica_naw_jlb;

CLASS bloki dawka; MODEL plon = bloki dawka; MEANS dawka / DUNCAN;

RUN; QUIT; ODS HTML CLOSE;

Wyznaczanie grup jednorodnych — procedura Duncana:

( )2

; '; 2DSeNIR t k vn

α= ⋅ ⋅

2

0,056

0,227974

v

Sen

α ==

==

Wartości krytyczne wielokrotnego testu Duncana dla 2 i 3 porównywanych obiektów:

k’ ( )0,05; ';6t k DNIR3 2,536 0,8562 2 2,447 0,8261

Krok 1: uszeregowanie średnich w kolejności malejącej:

180 90 04,8250 3,6500 2,7675x x x= = =

Krok 2: porównanie dwóch pierwszych średnich, k’=3 (bo do porównania są 3 obiekty)

180 90 ( ' 3)4,8250 3,6500 1,175 0,8563 D kx x NIR =− = − = > =

Krok 3: porównanie dwóch kolejnych wartości średnich, k’=2 (bo zostały tylko 2 obiekty)

90 0 ( ' 2)3,6500 2,7675 0,8825 0,8261 D kx x NIR =− = − = > =

Wyznaczone grupy jednorodne:

Obiekt ix Grupa 180 4,8250 A 90 3,6500 B 0 2,7675 C

Page 128: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

128

Doświadczenie jednoczynnikowe w układzie kwadratu łacińskiego.

ODS HTML; PROC GLM DATA= kurs.burak_cukr_jls;

CLASS rzad kolumna odmiana; MODEL plon = rzad kolumna odmiana /SS1; MEANS odmiana / TUKEY;

RUN; QUIT; ODS HTML CLOSE;

Wyznaczanie grup jednorodnych — procedura Tukeya:

( )2

; 1;TSeNIR q k vn

α= − ⋅

( )

2

0,056

0,30051 520

0,05;5;20 4,445240,9948T

n

SekvqNIR

α ==

=− ==

==

Grupy jednorodne:

Obiekt ix Grupa 5 19,6667 A 2 18,6167 B 3 18,5167 B 4 18,3500 B 1 18,3000 B 6 18,2000 B

Doświadczenie jednoczynnikowe w układzie losowanych bloków z liniami kukurydzy — dane nieortogonalne.

ODS HTML; PROC GLM DATA= kurs.kukurydza_jlbn;

CLASS bloki odmiana; MODEL plon = bloki odmiana /SS2; MEANS odmiana; LSMEANS odmiana; MEANS odmiana / TUKEY;

RUN; QUIT; ODS HTML CLOSE;

Page 129: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

129

Wyznaczanie grup jednorodnych — procedura Tukeya-Kramera:

( ) ( )1 2

2

1 2

1 1 1, 1,2TNIR q k v Se

n nµ µ α−

= − ⋅ ⋅ ⋅ +

( )2

0,051231 3

35,68060,05;3;123 3,6833

vk

Seq

α ==− =

==

Wartości średnie i liczność obserwacji:

Obiekt in ixO1 27 18,6704 O2 65 16,9123 O3 22 16,6682 O4 17 19,7529

Wyznaczanie grup jednorodnych:

Porównywane obiekty

Różnica wartości średnich

( )1 2TNIR µ µ−

Istotność różnic (*** — oznacza istotną różnicę)

Grupa

O4 – O1 1,112 28,772 A O4 – O2 2,841 25,315 A O4 – O3 3,085 30,009 A O1 – O4 –1,112 28,772 A O1 – O2 1,728 21,277 A O1 – O3 1,973 26,691 A O2 – O4 –2,841 25,315 A O2 – O1 –1,728 21,277 A O2 – O3 0,244 22,922 A O3 – O4 –3,085 30,009 A O3 – O1 –1,973 26,691 A O3 – O2 –0,244 22,922 A

Page 130: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

130

Doświadczenie dwuczynnikowe w układzie całkowicie losowym — analiza interakcji.

ODS HTML; PROC GLM DATA= kurs.pszen_j_dcl;

CLASS f_ojcowska f_mateczna; MODEL plon_f1 = f_ojcowska | f_mateczna /SS1; MEANS f_ojcowska f_mateczna /TUKEY; LSMEANS f_ojcowska * f_mateczna

/SLICE= f_ojcowska; LSMEANS f_ojcowska * f_mateczna

/SLICE= f_mateczna; RUN; QUIT; ODS HTML CLOSE;

Doświadczenie dwuczynnikowe w układzie całkowicie losowym — analiza interakcji, cd. Wykres interakcji.

GOPTIONS RESET= all; PROC GPLOT DATA= kurs.pszen_j_dcl; SYMBOL1 I=std1mtj C=red LINE=1 W=2; SYMBOL2 I=std1mtj C=blue LINE=1 W=2; SYMBOL3 I=std1mtj C=green LINE=1 W=2; SYMBOL4 I=std1mtj C=black LINE=1 W=2; SYMBOL5 I=std1mtj C=pink LINE=1 W=2; PLOT plon_f1 * f_ojcowska = f_mateczna; PLOT plon_f1 * f_mateczna = f_ojcowska; RUN; QUIT;

Doświadczenia wieloczynnikowe

Doświadczenie trójczynnikowe w układzie losowanych bloków — porównanie z wzorcem, kontrasty.

ODS HTML; PROC GLM DATA = kurs.pszen_j_tlb;

CLASS blok odmiana zaprawa zabieg; MODEL zk_st_bliss = blok odmiana zaprawa

zabieg odmiana*zaprawa odmiana*zabieg zaprawa*zabieg odmiana*zaprawa*zabieg /SS1;

MEANS zaprawa / DUNNETT('kontrola'); CONTRAST 'Koksa vs. Korynta'

odmiana 1 -1 0 0; CONTRAST 'Koksa vs. Nawra'

odmiana 1 0 -1 0; CONTRAST 'Koksa vs. Torka'

odmiana 1 0 0 -1; CONTRAST 'Korynta vs. Nawra'

odmiana 0 1 -1 0; CONTRAST 'Korynta vs. Torka'

odmiana 0 1 0 -1; CONTRAST 'Nawra vs. Torka'

odmiana 0 0 1 -1; RUN; QUIT; ODS HTML CLOSE;

Page 131: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

131

Układy hierarchiczne i split-plot

Doświadczenie dwuczynnikowe w układzie split-plot

Źródła zmienności:

1. Bloki

2. Czynnik A

3. Błąd 1 (Interakcja: Bloki × Czynnik A)

4. Czynnik B

5. Interakcja: Czynnik A × Czynnik B

6. Błąd 2 (Błąd losowy)

ODS HTML; PROC GLM DATA = kurs.pszenica_oz_sp;

CLASS bloki odmiany nawozenie; MODEL plon = bloki odmiany nawozenie

bloki*odmiany odmiany*nawozenie /SS1; TEST H = bloki odmiany E = bloki*odmiany; MEANS odmiany / TUKEY E = bloki*odmiany; MEANS nawozenie / TUKEY;

RUN; QUIT; ODS HTML CLOSE;

Doświadczenie dwuczynnikowe w układzie hierarchicznym split-blok.

Źródła zmienności:

1. Bloki

2. Czynnik A

3. Błąd 1 (Interakcja: Bloki × Czynnik A)

4. Czynnik B

5. Błąd 2 (Interakcja: Bloki × Czynnik B)

6. Interakcja: Czynnik A × Czynnik B

7. Błąd 3 (Błąd losowy)

ODS HTML; PROC GLM DATA = kurs.groch_spb;

CLASS bloki ochrona odmiana; MODEL mtn = bloki ochrona odmiana

bloki*ochrona bloki*odmiana ochrona*odmiana /SS1;

TEST H = bloki ochrona E = bloki*ochrona; TEST H = odmiana E = bloki*odmiana; MEANS ochrona / TUKEY E = bloki*ochrona; MEANS odmiana / TUKEY E = bloki*odmiana;

RUN; QUIT; ODS HTML CLOSE;

Page 132: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

132

Układ kratowy

Specjalnie do analizy danych pochodzących z doświadczeń założonych w układach kratowych w Systemie SAS® znajduje się oddzielna procedura – LATTICE.

W zbiorze danych do analizy trzy kolumny muszą mieć z góry ustalone nazwy:

Group — oznacza numer kraty

Block — oznacza numer bloku (w każdej kracie bloki numeruje się od początku)

Treatmnt — oznacza badany czynnik

Rep — zmienna opcjonalna, mówi o liczbie powtórzeń układu

Składnia procedury

PROC LATTICE <opcje>; BY zmienne_grupujace;VAR zmienne_analizowane;

RUN;

Przykład:

Doświadczenie odmianowe założone w układzie kratowym częściowo zrównoważonym.

ODS HTML; PROC LATTICE DATA = kurs.soja_krata;

VAR plon; RUN; ODS HTML CLOSE;

5.2. Analiza korelacji i regresji prostych Pierwszym krokiem w analizie korelacji pomiędzy cechami jest sporządzenie wykresu

rozrzutu obrazującego potencjalną relację pomiędzy analizowanymi cechami. Na wykresie możemy stwierdzić czy są podstawy do podejrzewania, że istnieje zależność pomiędzy cechami i jaki może być charakter tej zależności. Do sporządzania wykresów rozrzutu wykorzystuje sięprocedurę GPLOT.

Składnia procedury

PROC GPLOT PROC GPLOT PROC GPLOT PROC GPLOT <opcje>;;;;PLOT PLOT PLOT PLOT zmienna_x * * ** zmienna_y;;;;

RUN; QUIT;RUN; QUIT;RUN; QUIT;RUN; QUIT;

Przykład:

Wykres rozrzutu dla plonu pszenicy jarej i jego składowych.

PROC GPLOT DATA = kurs.pszenica_j_skladowe; PLOT plon * (liczba_klosow_na_mkw -- mtz);

RUN; QUIT;

W przypadku gdy podejżewa się, że wystepuje liniowa zależność pomiędzy analizownymi cechami, a cechy mają rokłady ciągłe, należy przeprowadzić analizę współczynników korelacji liniowych Pearsona. Do analizy współczynnikówkorelacji służy procedura CORR.

Page 133: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

133

Składnia procedury:

PROC CORR PROC CORR PROC CORR PROC CORR <opcje>;;;;VAR VAR VAR VAR zmienne_var;;;;WITH WITH WITH WITH zmienne_with;;;;

RUN; QUIT;RUN; QUIT;RUN; QUIT;RUN; QUIT;

Przykład:

Analiza współczynników korelacji liniowych Pearsona pomiędzy plonem pszenicy jarej i jego składowymi.

ODS HTML; PROC CORR DATA = kurs.pszenica_j_skladowe;

VAR _numeric_; RUN; ODS HTML CLOSE;

W prypadku stwierdzenia wystepowania istotnej korlecji liniowej pomiędzy dwoma cechami, można tę zależność zapisać matematycznie w postaci funkcji regresji liniowej. analizęfunkcji regresji liniowej przeprowadza się z wykorzystaniem procedury REG.

Składnia procedury:

PROC REG PROC REG PROC REG PROC REG <opcje>;;;;MODEL MODEL MODEL MODEL zmienna_zależna = = ==

zmienna_przyczynowa /<opcje>;;;;RUN; QUIT;RUN; QUIT;RUN; QUIT;RUN; QUIT;

Przykład:

Analiza funkcji regresji liniowej pomiędzy plonem (zmienna zależna, Y) a liczbą kłosów na metrze kwadratowym (zmienna objaśniająca, X).

ODS HTML; ODS GRAPHICS ON; PROC REG DATA = kurs.pszenica_j_skladowe;

MODEL plon = liczba_klosow_na_mkw; RUN; QUIT; ODS GRAPHICS OFF; ODS HTML CLOSE;

Jeżeli stała regresji jest nie istotna statystycznie i nie ma merytorycznych przesłanek by jąpozostawić w modelu, można przeprowadzić analizę funkcji regresji liniowej bez stałej w modelu.

ODS HTML; ODS GRAPHICS ON; PROC REG DATA = kurs.pszenica_j_skladowe;

MODEL plon = liczba_klosow_na_mkw /NOINT; RUN; QUIT; ODS GRAPHICS OFF; ODS HTML CLOSE;

Page 134: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

134

5.3. Analiza regresji wielokrotnej Aalizę funkcji regresji wielokrotnej (jeen Y i wiele X) można przeprowadzić również

z wykorzystaniem procedury REG.

Składnia procedury:

PROC REG PROC REG PROC REG PROC REG <opcje>;;;;MODEL MODEL MODEL MODEL zmienna_zależna = = ==

zmienne_przyczynowe /<opcje>;;;;RUN; QUIT;RUN; QUIT;RUN; QUIT;RUN; QUIT;

Przykłady:

Analiza funkcji regresji liniowej pomiędzy plonem (zmienna zależna, Y) a jego składowymi (zmienne objaśniające, X1, X2 i X3).

ODS HTML; PROC REG DATA = kurs.pszenica_j_skladowe;

MODEL plon = liczba_klosow_na_mkw -- mtz; RUN; QUIT; ODS HTML CLOSE;

Bez stałej w modelu:

ODS HTML; PROC REG DATA = kurs.pszenica_j_skladowe;

MODEL plon = liczba_klosow_na_mkw -- mtz /NOINT;

RUN; QUIT; ODS HTML CLOSE;

W analizie regresji wielokrotnej prócz analizy pełnego modelu ze wszystkimi zmiennymi w modelu, można przeprowadzić analizę połączoną z doborem zmiennych do modelu. Ma to szczególnie duże znaczenie, gdy analizuje się wpływ wielu zmiennych objaśniających na zmienną zależną.

Dobór miennych do modelu można przprowadzic za pomocą szeregu metod: — tzw. metody ‘krokowe’:

o „w przód” (FOREWARD) o „w tył” (BACKWARD) o „obukierunkowo” (STEPWISE)

— metody oparte na wyznaczanych parametrach modeli o R2 (RSQUARE)

2 22

(modelu)

i

SSR ry

= =∑

o poprawiony R2 (ADJRSQ)

( ) ( )

( )

22

1 11

'adj

R nR

n p

− ⋅ −= −

Page 135: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

135

— metody oparte na tzw kryteriach informacyjnych o Cp Mallowsa (CP)

( ) ( )'

' p full

full

MSE MSE n pCp p

MSE− ⋅ −

= +

o Akaike Information Criterion (AIC)

( ) ln 2SSEAIC n pn

= ⋅ + ⋅

o Schwarz Bayesian Criterion (SBC)

( ) ( )ln lnSSESBC n p nn

= ⋅ + ⋅

o itd.

Przykład:

Analiza funkcji regresji liniowej pomiędzy plonem (zmienna zależna, Y) a jego składowymi (zmienne objaśniające, X1, X2 i X3), bez stałej w modelu z zastosowaniem selekcji zmiennych STEPWISE.

ODS HTML; PROC REG DATA = kurs.pszenica_j_skladowe;

MODEL plon = liczba_klosow_na_mkw -- mtz / NOINT SELECTION = stepwise;

RUN; QUIT;RUN; QUIT;RUN; QUIT;RUN; QUIT; ODS HTML CLOSE;

5.4. Analiza kowariancji Prócz analizy wariancji, procedura GLM może być również wykorzystywana do

przeprowadzenia analizy kowariancji.

Składnia procedury:

PROC GLM PROC GLM PROC GLM PROC GLM <opcje>;;;;BY BY BYBY zmienne_grupujace;;;;CLASS CLASS CLASS CLASS zmienne_klasyfikujace;;;;MODEL MODEL MODEL MODEL zmienna_zalezna = = ==

zmienne_klasyfikujace zmienne_towarzyszace /SOLUTION; /SOLUTION; /SOLUTION; /SOLUTION;

LSMEANS LSMEANS LSMEANS LSMEANS zmienne_klasyfikujace /STDERR /STDERR /STDERR /STDERR PDIFF COV;PDIFF COV;PDIFF COV;PDIFF COV;

RUN; QUIT;RUN; QUIT;RUN; QUIT;RUN; QUIT;

Przykład:

Analiza kowariancji dla plonów ziemniaka względem liczby zabiegów fungicydami z nawożeniem NPK jako zmienną towarzyszącą.

ODS HTML; PROC GLM DATA = kurs.ziemniak;

CLASS fungi; MODEL yield = fungi npk / SOLUTION; LSMEANS fungi /STDERR PDIFF COV;

RUN; QUIT; ODS HTML CLOSE;

Page 136: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

136

5.5. Tablice kontyngencji i testy chi-kwadrat Tablice kontyngencji i testy zależności

Do sporządzania tablic kontyngencji i wykonywania testów chi-kwadrat zależności służyprocedura FREQ.

Składnia procedury:

PROC FREQ PROC FREQ PROC FREQ PROC FREQ <opcje>;;;;TABLE TABLE TABLE TABLE zmienna_wierszy * * ** zmienna_kolumn

////<opcje>;;;;RUN;RUN;RUN;RUN;

Przykłady:

Tablica kontyngencji dla danych pochodzących z metryczki ankiety.

ODS HTML; PROC FREQ DATA = kurs.ankieta;

TABLE wiek_kod * wyksztalcenie_kod; RUN; ODS HTML CLOSE;

Tablica kontyngencji I testy chi-kwadrat zależności.

ODS HTML; PROC FREQ DATA = kurs.ankieta ;

TABLE wiek_kod * wyksztalcenie_kod / CHISQ; RUN; ODS HTML CLOSE;

UWAGA ! Test Mantela-Haenszela ma zastosowanie tylko wtedy gdy obie analizowane zmienne mają charakter porządkowy. W pozostałych przypadkach wyniki tego testu ignoruje się.

Test chi-kwadrat zgodności

Do badania zgodności rzeczywistego rozkładu zmiennej (obserwowanej proporcji obserwacji) do rozkładu teoretycznego (teoretycznej proporcji obserwacji) można równieżwykorzystać procedurę FREQ.

Składnia procedury:

PROC FREQ PROC FREQ PROC FREQ PROC FREQ <opcje>;;;;TABLE TABLE TABLE TABLE analizowana_zmienna /NOCUM/NOCUM/NOCUM/NOCUM

TESTP = (TESTP = (TESTP = (TESTP = (proporcja);););); RUN;RUN;RUN;RUN;

Page 137: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

137

Przykład:

Test chi-kwadrat zgodności; sprawdzenie czy stosunek płci ankietowanych osób był jak 30:70.

ODS HTML; PROC FREQ DATA = kurs.ankieta;

TABLE plec_kod /NOCUM TESTP = (30 70); RUN; ODS HTML CLOSE;

5.6. Analiza skupieńAnaliza skupień w Systemie SAS® składa się z kilku procedur, są to między innymi:

— PROC DISTANCE — pozwala na wyznaczenie macierzy odległości pomiędzy obiektami;

— PROC CLUSTER — służy do wykonywania hierarchicznej klasteryzacji; — PROC FASTCLUS — służy do wykonywania klasteryzacji metodą k-średnich; — PROC TREE — służy do sporządzania dendrogramów.

PROC DISTANCE

Składnia procedury:

PROC DISTANCE METHOD = PROC DISTANCE METHOD = PROC DISTANCE METHOD = PROC DISTANCE METHOD = metoda <opcje>;;;;ID ID IDID zmienna_identyfikacyjna;;;;VAR VAR VAR VAR rodzaj_cechy ( ( ((lista_zmiennych););););

RUN;RUN;RUN;RUN;

Rodzaje cech: — ANOMINAL (zmienna jest asymetrycznie nominalna) — NOMINAL (zmienna jest symetrycznie nominalna) — ORDINAL (zmienna ma charakter porządkowy) — INTERVAL (zmienna oznacza przedział liczbowy) — RATIO (zmienna jest dodatnia i jest ilorazem)

Metody (wybrane): — GOWER (dystans Gower’a) — DGOWER (1 – dystans Gower’a) — EUCLID (odległość Euklidesowa) — SQEUCLID (kwadrat odległości Euklidesowej) — COV (kowariancja) — CORR (korelacja) — DCORR (korelacja przekształcona w odległość Euklidesową)— L(p) (odległość Minkowskiego) — CITYBLOCK (odległość miejska) — CHEBYCHEV (odległość Czebyszewa) — HAMMING (odłegłość Hamminga) — JACCARD (dystans genetyczny Jaccarda) — DJACCARD (podobieństwo genetyczne Jaccarda)

Page 138: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

138

PROC CLUSTER

Składnia procedury:

PROC PROC PROC PROC CLUSTERCLUSTERCLUSTERCLUSTER METHOD = METHOD = METHOD = METHOD = metoda <opcje>;;;;ID ID IDID zmienna_identyfikacyjna;;;;VAR VAR VAR VAR lista_zmiennych;;;;

RUN;RUN;RUN;RUN;

Metody (wybrane): — AVERAGE — metoda średniego wiązania, UPGMA — CNENTROID — metoda centroidu, UPGMC — MCQUITTY — metoda podobieństwa McQuitty’ego, WPGMA — MEDIAN — metoda mediany Gower’a, WPGMC — SINGLE — metoda pojedynczego wiązania, najbliższego sąsiedztwa — WARD — metoda Ward’a

Przykłady:

Hierarchiczna analiza skupień dla danych molekularnych.

1) Wyznaczenie macierzy dystansu genetycznego Jaccarda

PROC DISTANCE DATA = kurs.pzyto_pcr METHOD = jaccard OUT = macierz_1;

ID linia; VAR anominal(pcr_1 -- pcr_673);

RUN; ODS HTML; PROC PRINT DATA = macierz_1 NOOBS; RUN; ODS HTML CLOSE;

2) Klasteryzacja hierarchiczna metodą najbliższego sąsiedztwa (pojedynczego wiązania)

ODS HTML; PROC CLUSTER DATA = macierz_1 METHOD = single;

ID linia; RUN; ODS HTML CLOSE;

3) Sporządzenie dendrogramu

PROC TREE SPACES = 2 HORIZONTAL; ID linia;

RUN;

Page 139: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

139

Hierarchiczna analiza skupień dla danych fenotypowych.

1) Wyznaczenie macierzy odległości kwadratowej Euklidesa

PROC DISTANCE DATA = kurs.trawy_ocena METHOD = sqeuclid OUT = macierz_2;

ID odmiana; VAR ordinal(pr -- ps);

RUN; ODS HTML; PROC PRINT DATA = macierz_2 NOOBS; RUN; ODS HTML CLOSE;

2) Klasteryzacja hierarchiczna metodą UPGMA

ODS HTML; PROC CLUSTER DATA = macierz_2 METHOD = average;

ID odmiana; RUN; ODS HTML CLOSE;

3) Sporządzenie dendrogramu

PROC TREE SPACES = 2; ID odmiana;

RUN;

5.7. Wielowymiarowa analiza czynnikowa Składnia procedury:

PROC FACTOR METHOD = PROC FACTOR METHOD = PROC FACTOR METHOD = PROC FACTOR METHOD = metoda NOR NOR NOR NORM = M =M =M = normalizacja ROTATE = ROTATE = ROTATE = ROTATE = rotacja <opcje>;;;;

VAR VAR VAR VAR lista_zmiennych;;;;RUN;RUN;RUN;RUN;

Normalizacje: — COV — opiera się na macierzy kowariancji w miejsce macierzy korelacji — KAISER — normalizacja Kaiser’a — NONE / RAW — bez normalizacji — WEIGHT — normalizacja Cureton’a-Mulaik’a

Metody analizy czynnikowej: — ALPHA — alfa analiza czynnikowa — HARRIS — analiza składowych Harris’a — IMAGE — analiza składowych plonu — ML — analiza czynnikowa maksymalnej wiarygodności — PRINCIPAL — analiza czynnikowa składowych głównych — PRINT — iteracyjna analiza czynnikowa plonów — ULS — analiza czynnikowa nieważonych najmniejszych kwadratów

Page 140: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

140

Rodzaje rotacji: BIQUARTIMAX, EQUAMAX, FACTORPARSIMAX, NONE, ORTHCF(p1,p2), ORTHGENCF(p1,p2,p3,p4), ORTHOMAX, PARSIMAX, QUARTIMAX, VARIMAX, BIQUARTIMIN, COVARIMIN, HK<(p)>, OBBIQUARTIMAX, OBEQUAMAX, OBFACTORPARSIMAX, OBLICF(p1,p2), OBLIGENCF(p1,p2,p3,p4), OBLIMIN, OBPARSIMAX, OBQUARTIMAX, OBVARIMAX, PROCRUSTES, PROMAX, QUARTIMIN.

Przykład:

Analiza czynnikowa metodą składowych głównych z rotacją VARIMAX i normalizacjąKaiser’a.

ODS HTML; PROC FACTOR DATA = kurs.trawy_nas

METHOD = principal NORM = kaiser ROTATE = varimax SCREE;

VAR cecha_1_1 -- cecha_2_7; RUN; ODS HTML CLOSE;

Page 141: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

141

LITERATURA

AGRESTI A. 2002. Categorical Data Analysis. 2nd Edition. New Jersey, USA: John Wiley & Sons Inc.

BOX G. E. P., HUNTER J. S., HUNTER W. G. 2005. Statistics for Experimenters — Design, Innovation, and Discovery. Second Edition. New Jersey, USA: Wiley and Sons Inc.

CALIŃSKI T. 1967. Model analizy wariancji dla doświadczeń wielokrotnych. Rocznik Nauk Rolniczych, Seria A 93, 3: 549—579.

CARPENTER A. 1999. Annotate: Simply the Basics. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

CODY R. P., SMITH J. K. 2005. Applied Statistics and the SAS Programming Language. Fifth Edition. Upper Saddle River, NJ, USA: Pearson Education Inc.

DER G., EVERITT B. S. 2002. A Handbook of Statistical Analyses using SAS. Second Edition. London, UK: Chapman & Hall/CRC.

FISHER R. A. 1925. Statistical methods for research workers. Edynburg and London, Oliver and Boyd.

FISHER R. A. 1935. The design of experiments. Edynburg and London, Oliver and Boyd. FREUND R. J., LITTELL R. C. 2000. SAS System for Regression. Third Edition. New York,

USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc. FRIENDLY M. 1991. SAS System for Statistical Graphics. First Edition. Cary, NC, USA: SAS

Publishing, SAS Institute Inc. KALA R. 1996. Elementy wnioskowania parametrycznego dla przyrodników. Poznań:

Akademia Rolnicza w Poznaniu. KHATTRE R., NAIK D. N. 2000. Multivariate Data Reduction and Discrimination with SAS

Software. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc. LITTEL R. C., STROUP W. W., FREUND R. J. 2002. SAS for linear models. Fourth edition. Cary,

NC, USA: SAS Institute Inc., John Wiley & Sons Inc. ŁUBKOWSKI Z. 1968. Metodyka doświadczalnictwa rolniczego. Warszawa, PWRiL. MĄDRY W. 2003. Doświadczalnictwo - doświadczenia czynnikowe. Warszawa: Fundacja

Rozwój SGGW. MULLER K. E., FETTERMAN B. A. 2003. Regression and ANOVA, an Integrated Approach

Using SAS Software. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc.

NAWROCKI Z. 1967. Teoria i praktyka doświadczenia rolniczego. Warszawa, PWRiL. OKTABA W. 1982 a. Elementy statystyki matematycznej i metodyka doświadczalnictwa.

Warszawa, PWN. OKTABA W. 1982 b. Metody statystyki matematycznej w doświadczalnictwie. Warszawa,

PWN. O'ROURKE N., HATCHER L., STEPANSKI E. J. 2005. A step-by-step approach to using SAS for

univariate & multivariate statistics. Second edition. Cary, NC, USA.: SAS Institute Inc., John Wiley & Sons Inc.

PIELAT H., VISCARDI T. 1987. Tablice wartości krytycznych współczynnika korelacji. Warszawa: Instytut Warzywnictwa.

RAO C. R. 1994. Statystyka i prawda. Warszawa, PWN. RAWLINGS J. O., PANTULA S. G., DICKEY D. A. 2001. Applied Regression Analysis —

a Research Tool. Second Edition. New York, USA: Springer-Verlag Inc. SAS INSTITUTE INC. 2004 a. BASE SAS 9.1.3 Procedures guide. Cary, NC, USA: SAS

Publishing, SAS Institute Inc.

Page 142: planowanie i wnioskowanie statystyczne w badaniach rolniczych

PLANOWANIE I WNIOSKOWANIE STATYSTYCZNE W BADANIACH ROLNICZYCH

Z. Laudański, D. R. Mańkowski

142

SAS INSTITUTE INC. 2004 b. SAS 9.1 Companion for Windows. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

SAS INSTITUTE INC. 2004 c. SAS/GRAPH 9.1 Reference. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

SAS INSTITUTE INC. 2004 d. SAS/STAT 9.1 user's guide. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

SCHLOTZHAUER S. D., LITTELL R. C. 1997. SAS System for Elementary Statistical Analysis. Second Edition. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

STOKES M. E., DAVIS C. S. 2000. Categorical Data Analysis Using the SAS System. 2nd Edition. New York, USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc.

TRĘTOWSKI J., WÓJCIK A. R. 1988. Metodyka doświadczeń rolniczych. Siedlce: WSRP. UBYSZ-BORUCKA L., MĄDRY W., MUSZYŃSKI S. 1985. Podstawy statystyczne genetyki cech

ilościowych w hodowli roślin.. Warszawa: Wydawnictwo SGGW-AR. WALEWSKI R. 1976. Zasady planowania, prowadzenia i dokumentowania pola

doświadczalnego. Słupia Wielka: IMUZ. WESTFALL P. H., TOBIAS R. D., ROM D., WOLFINGER R. D., HOCHBERG Y. 1999. Multiple

Comparisons and Multiple Tests Using SAS. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

WÓJCIK A. R. 1993. Statystyka z elementami rachunku prawdopodobieństwa i statystyki opisowej. Warszawa: SGGW.

WÓJCIK A. R., LAUDAŃSKI Z. 1989. Planowanie i wnioskowanie statystyczne w doświadczalnictwie. Warszawa: PWN.

ZIELIŃSKI W. 1999. Wybrane testy statystyczne. Warszawa: Fundacja Rozwój SGGW. ZIELIŃSKI W. 2000. Tablice statystyczne. Warszawa: Fundacja Rozwój SGGW.