114
INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN SYSTEM SAS ® W BADANIACH ROLNICZYCH MATERIAŁY SZKOLENIOWE Mgr inż. Dariusz R. Mańkowski Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin Zakłada Nasiennictwa i Nasionoznawstwa IHAR Radzików RADZIKÓW, 2008

Mańkowski D. R. 2008. System SAS w badaniach rolniczych

Embed Size (px)

Citation preview

Page 1: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

SYSTEM SAS®

W BADANIACH ROLNICZYCH

MATERIAŁY SZKOLENIOWE

Mgr inż. Dariusz R. Mańkowski Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin

Zakłada Nasiennictwa i Nasionoznawstwa

IHAR — Radzików

RADZIKÓW, 2008

Page 2: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

2 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

SZCZEGÓŁOWY PROGRAM SEMINARIUM: „SYSTEM SAS® W BADANIACH ROLNICZYCH”

(SPS. 11/2008)

Kierownik merytoryczny:

Dr hab. Zbigniew Laudański, prof. nadzw. Katedra Biometrii,

Wydział Zastosowań Informatyki i Matematyki,

SGGW Warszawa

Data i miejsce:

23–24 września 2008

IHAR — Radzików / SGGW — Warszawa*

Szkolenie skierowane jest do pracowników naukowych i hodowców, chcących wykorzystywać do analiz statystycznych w swojej pracy naukowej System SAS® oraz SAS® Enterprise Guide (SAS Institute Inc.).

Szkolenie ma na celu zapoznanie uczestników z podstawami obsługi oprogramowania w zakresie analiz statystycznych, wykonywanych najczęściej w badaniach rolniczych i przyrodniczych. Zajęcia będą się odbywały w formie ćwiczeń przy komputerach.

DATA TEMAT LICZBA

GODZIN

GODZINY

OD – DO PROWADZĄCY

1 2 3 4 5

23

wrzesień

2008 r.

(wtorek)

Otwarcie seminarium; sprawy

organizacyjne; przedstawienie celu;

wprowadzenie merytoryczne.

925–1000

Sekcja Promocji

i Szkoleń Kierownik

merytoryczny

BLOK I

Środowisko graficzne SAS® Enterprise

Guide

1. Zapoznanie z SAS® Enterprise Guide.

Środowisko pracy. Budowa projektów. Wczytywanie danych.

1 1005–1050

Zależnie od grupy:

mgr inż. Dariusz

Mańkowski Pracownia Ekonomiki

Nasiennictwa i Hodowli

Roślin; IHAR — Radzików

dr inż. Monika Janaszek Wydział Inżynierii Produkcji; SGGW — Warszawa

2. Podstawowe analizy statystyczne.

Badania rozkładu cech. Wyznaczanie podstawowych statystyk. Testy t

porównania średniej z normą, porównania dwóch średnich z populacji zależnych i niezależnych.

1 1050–1135

Przerwa kawowa: 1135–1200

3. Analiza wariancji. Doświadczenia jednoczynnikowe w układach całkowicie losowym i losowanych bloków. Doświadczenia dwu-

i wieloczynnikowe w układach całkowicie losowym i losowanych

bloków. Analizy dla danych niekompletnych.

2 1200–1330 jw.

Przerwa: 1330–1345

Page 3: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SYSTEM SAS®

W BADANIACH ROLNICZYCH 3

DARIUSZ R. MAŃKOWSKI

4. Badanie zależności pomiędzy cechami. Analiza współczynników korelacji liniowej Pearsona i rangowej

Spearmana. Analiza funkcji regresji

prostej i wielokrotnej.

1 1345–1430 jw.

Przerwa obiadowa: 1430–1530

5. Analizy nieparametryczne — testy

chi-kwadrat — badanie niezależności cech skokowych.

0,5 1530–1555 jw.

6. Analizy wielowymiarowe. Analiza

składowych głównych (PCA), analiza czynnikowa oraz analiza skupień.

1,5 1555–1700 jw.

Kolacja: 1720

Wyjazd do teatru: 1800

24

wrzesień

2008 r.

(środa)

BLOK II

Środowisko programistyczne Systemu SAS®

1. Środowisko pracy. Biblioteki i wczytywanie danych. Podstawy języka SAS® 4GL. Przykładowe procedury.

1 930–1015

Zależnie od grupy:

mgr inż. Dariusz

Mańkowski Pracownia Ekonomiki

Nasiennictwa i Hodowli

Roślin; IHAR — Radzików

dr inż. Monika Janaszek Wydział Inżynierii Produkcji; SGGW — Warszawa

2. Zaawansowana analiza funkcji regresji

wielokrotnej. Dobór zmiennych do modelu. Badanie funkcji regresji.

1 1015–1100

Przerwa kawowa: 1100–1130

3. Zaawansowane zastosowania analizy

wariancji. Doświadczenia w układach hierarchicznych (split-plot, split-blok).

Doświadczenia w układach kratowych.

2 1130–1300 jw.

Przerwa: 1300–1315

4. Zaawansowana hierarchiczna analiza

skupień. Analiza dla danych

molekularnych i cech ilościowych. 1 1315–1400 jw.

Podsumowanie seminarium połączone z dyskusją uczestników; rozdanie zaświadczeń.

1410–1430

Kierownik

merytoryczny

Sekcja Promocji

i Szkoleń

Obiad: 1440

Odjazd autokaru pod Dworzec Centralny PKP i do Radzikowa: 1510

* — Zajęcia będą odbywały się w budynku Wydziału Rolnictwa i Biologii (nr 37) SGGW w Warszawie, przy ulicy Nowoursynowskiej 159

w laboratoriach komputerowych Katedry Doświadczalnictwa i Bioinformatyki.

Materiały szkoleniowe: Skrypt do zajęć

Płyta CD zawierająca elektroniczną wersję skryptu oraz przykładowe zbiory danych

Page 4: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

4 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Uwagi dotyczące zgodnego z licencją korzystania z oprogramowania firmy SAS Institute Inc.

Poniższy tekst stanowi wyciąg najważniejszych obowiązków wynikających z umowy licencyjnej

na użytkowanie oprogramowania firmy SAS Institute Inc.:

(…)

Oprogramowanie może być wykorzystywane przez Użytkowników jedynie do

niekomercyjnych i niedochodowych badań naukowych oraz do prowadzenia zajęć dydaktycznych. (…) Stanowczo zabrania się wykorzystywania Oprogramowania do celów komercyjnych lub wspomagania procesu administrowania.

(…)

Użytkownicy zobowiązują się zamieszczać nazwę SAS i nawiązać do Oprogramowania

we wszystkich publikowanych pracach naukowych i dyplomowych lub przedsięwzięciach wynikających z niniejszej Umowy i używania Oprogramowania. Użytkownik powiadomi

SAS o wszystkich projektach badawczych, do przeprowadzenia, których w szerokim zakresie wykorzystuje się Oprogramowanie w okresie objętym niniejszą Umową.

(…)

Informacje o dołączonej płycie CD

Do niniejszego skryptu dołączona została płyta CD zawierająca:

— Elektroniczną wersję skryptu (w formacie PDF);

— Elektroniczną wersję instrukcji do wybranych modułów Systemu SAS® (w formacie

PDF);

— Wszystkie pliki wykorzystywane podczas szkolenia (folder ‘Kurs08’); — Kody procedur w języku 4GL wykorzystywane w środowisku programistycznym

systemu SAS® (folder ‘Kody4GL’); — Darmowy program SAS System Viewer służący do przeglądania zawartości zbiorów

zapisanych w formatach wykorzystywanych przez System SAS®

Zawartość dołączonego dysku CD jest chroniona prawem autorskim (Dz. U. 00.80.904 z dnia 4 lutego 1994 roku z późniejszymi zmianami).

Page 5: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SYSTEM SAS®

W BADANIACH ROLNICZYCH 5

DARIUSZ R. MAŃKOWSKI

SPIS TREŚCI: CZĘŚĆ 1

SAS® ENTERPRISE GUIDE — ŚRODOWISKO GRAFICZNE SYSTEMU SAS®

1. ZAPOZNANIE Z SAS® ENTERPRISE GUIDE ............................................................................................ 9

1.1. ŚRODOWISKO PRACY .................................................................................................................................... 9 1.2. BUDOWA PROJEKTÓW (KOLEJNOŚĆ) ............................................................................................................. 9 1.3. WCZYTYWANIE DANYCH ............................................................................................................................ 11

2. PODSTAWOWE ANALIZY STATYSTYCZNE ......................................................................................... 12

2.1. BADANIE ROZKŁADÓW CECH ...................................................................................................................... 12 2.2. WYZNACZANIE PODSTAWOWYCH STATYSTYK ............................................................................................ 15 2.3. TESTY T ...................................................................................................................................................... 18

3. ANALIZA WARIANCJI I KOWARIANCJI ............................................................................................... 21

3.1. JEDNOCZYNNIKOWA ANALIZA WARIANCJI .................................................................................................. 21 3.2. WIELOCZYNNIKOWA ANALIZA WARIANCJI — MODELE LINIOWE ................................................................ 25 3.3. ANALIZA KOWARIANCJI .............................................................................................................................. 38

4. BADANIE ZALEŻNOŚCI POMIĘDZY CECHAMI .................................................................................. 41

4.1. ANALIZA WSPÓŁCZYNNIKA KORELACJI LINIOWEJ PEARSONA ..................................................................... 42 4.2. ANALIZA WSPÓŁCZYNNIKA KORELACJI RANGOWEJ SPEARMANA ............................................................... 43 4.3. ANALIZA FUNKCJI REGRESJI PROSTEJ (REGRESJI LINIOWEJ) ........................................................................ 45 4.4. ANALIZA FUNKCJI REGRESJI WIELOKROTNEJ (WIELORAKIEJ) ...................................................................... 48

5. TESTY NIEPARAMETRYCZNE ................................................................................................................. 52

5.1. TESTY CHI-KWADRAT ................................................................................................................................. 52

6. ANALIZY WIELOWYMIAROWE .............................................................................................................. 58

6.1. ANALIZA CZYNNIKOWA (FACTOR ANALYSIS) ............................................................................................ 58 6.2. ANALIZA SKŁADOWYCH GŁÓWNYCH (PCA) ............................................................................................... 62 6.3. ANALIZA SKUPIEŃ (CLUSTER ANALYSIS) ................................................................................................... 69

CZĘŚĆ 2

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS®

1. ŚRODOWISKO PRACY ................................................................................................................................ 75

1.1. BIBLIOTEKI I WCZYTYWANIE DANYCH ........................................................................................................ 77 1.2. PODSTAWY JĘZYKA SAS

® 4GL .................................................................................................................. 81

1.3. PRZYKŁADOWE PROCEDURY ....................................................................................................................... 82

2. ZAAWANSOWANA ANALIZA FUNKCJI REGRESJI WIELOKROTNEJ .......................................... 87

2.1. DOBÓR ZMIENNYCH DO MODELU ................................................................................................................ 88 2.2. BADANIE FUNKCJI REGRESJI ....................................................................................................................... 92

3. ZAAWANSOWANE ZASTOSOWANIA ANALIZY WARIANCJI .......................................................... 97

3.1. DOŚWIADCZENIA W UKŁADACH HIERARCHICZNYCH................................................................................... 97 3.2. DOŚWIADCZENIA W UKŁADACH KRATOWYCH .......................................................................................... 106

4. ZAAWANSOWANA HIERARCHICZNA ANALIZA SKUPIEŃ ........................................................... 108

4.1. ANALIZA DLA DANYCH MOLEKULARNYCH ............................................................................................... 109 4.2. ANALIZA DLA CECH ILOŚCIOWYCH ........................................................................................................... 111

LITERATURA ...................................................................................................................................... 113

Page 6: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

6 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Page 7: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

Część 1

SAS® ENTERPRISE GUIDE

Środowisko Graficzne

Systemu SAS®

Page 8: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

8 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Page 9: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 9

DARIUSZ R. MAŃKOWSKI

1. Zapoznanie z SAS® Enterprise Guide

SAS® Enterprise Guide (w skrócie EG) jest graficzną nakładką na System SAS®. Umożliwia wykonywanie większości analiz statystycznych, wykresów i obróbki danych bez znajomości języka 4GL. Wszystkie analizy można „wyklikać” a ich wyniki będą prezentowane w formie graficznej. Wyniki mogą być zapisywane w formacie HTML, PDF, RTF lub w formie tekstowej. Wszystkie analizy można zapisywać w formie projektów. Każdy projekt budowany jest modułowo z „klocków” obrazujących kolejne procesy i analizy. W każdej chwili można zmodyfikować lub poprawić wybrany „klocek”.

1.1. Środowisko pracy

Środowisko pracy w EG składa się z modułowo zbudowanego okna. Poszczególne moduły można ukrywać bądź zamykać zależnie od potrzeb użytkownika.

Okno projektu jest głównym obszarem roboczym programu. To w nim budowane są kolejne analizy projektu. W momencie wyświetlenia danych bądź wyników analiz nowe okno otwiera się właśnie w oknie projektu. Wówczas do poruszania się pomiędzy poszczególnymi okienkami

służą zakładki w górnej części okna.

Do najważniejszych opcji analiz użytkownik ma dostęp z okna listy zadań lub z menu programu. W menu „Dane” znajdują się polecenia wykorzystywane do obróbki danych (np.

sortowanie, transpozycja, standaryzacja, itp.). W menu „Opisz” znajdują się polecenia służące do opisu danych (np. listowanie danych, statystyki agregujące, badanie rozkładów, tabele kontyngencji, itp.). W menu „Wykres” znajdują się polecenia służące do sporządzania wykresów obrazujących dane. W części analiz wykresy dostępne są z poziomu okna analiz, jednak może się zdarzyć, że użytkownik będzie chciał sporządzić własne wykresy, dostosowane o jego potrzeb. W menu „Analizuj” znajdują się pozostałe dostępne w EG analizy statystyczne.

1.2. Budowa projektów (kolejność)

Projekt jest odpowiednikiem skoroszytu spinającego różne analizy, które mogą być przeprowadzane na różnych danych. Projekt ma postać schematu blokowego, w którym każdy „klocek” odpowiada za dane, analizy lub wyniki. W podglądzie projektu punktem początkowym każdego elementu projektu jest źródło w postaci zbioru danych. Na podstawie danych przeprowadza się analizy, wykonuje przetwarzanie danych bądź sporządza się wykresy. Wynik

jest zapisywany w formie pliku w postaci graficznej (tabele i wykresy) — tak zwane raporty.

Pasek menu i pasek narzędzi

Lista zadań

Status zadania

Okno projektu Eksplorator projektów

Page 10: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

10 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Przykład 1

Na podstawie danych o postępie odmianowym w Ziemniaku w latach 1986–2003

(Ziemniak-Postęp Odmianowy.xls) sporządzić wykres liniowy obrazujący zmiany PO w latach. Na osi poziomej (X) zaznaczyć lata, a na osi pionowej (Y) PO wyrażony w dt/ha.

Schemat projektu i wykres

Przykład 2

Opierając się na danych z doświadczenia z Irysami przeprowadzonego przez R. A. FISHERA w roku 1936, (Fisher-Irys-średnie.xls) sporządzić wykres słupkowy zmiennej ‘PetalLenght_Mean’ dla odmian. Wykorzystać opcję „Interactive

graphics”.

Schemat projektu i wykres

Page 11: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 11

DARIUSZ R. MAŃKOWSKI

1.3. Wczytywanie danych

W celu wczytania danych do projektu wybieramy z menu „Plik” polecenie „Otwórz” a następnie wskazujemy polecenie „Dane…” (PlikèOtwórzèDane…). Następnie wskazujemy źródło, z którego będą otwierane dane. Do wyboru mamy „Komputer lokalny” i „Serwery SAS’a”. Aby wczytać dane z dysku wybieramy „Komputer lokalny”. Druga opcja jest wykorzystywana

wtedy, gdy w sieci lokalnej znajduje się serwer SAS przechowujący zbiory danych (baza danych).

Po wskazaniu źródła, z którego dane będą wczytywane otworzy się okno wczytywania danych. EG potrafi wczytywać dane zapisane w postaci tabel w różnych formatach plików:

— w formacie zbiorów SAS®; (*.sas7bdat *.sd2)

— w formacie Ms Excel (*.xls)

— w formacie Ms Access (*.mdb)

— w formacie dBASE (*.dbf)

— itp.

1.3.1. Zbiory SAS®

Jeżeli chcemy wczytać dane zapisane w formacie SAS’a wystarczy, że wskażemy folder, w którym znajduje się zbiór, a następnie wskażemy sam zbiór danych i wciśniemy przycisk „Otwórz”. Cały zbiór danych zostanie od razu wczytany do EG. Zachowane zostaną wszystkie formaty, nazwy i etykiety zmiennych.

1.3.2. Zbiory Ms Excel

Jeżeli wczytujemy dane zapisane w zbiorach arkusza kalkulacyjnego Ms Excel, to po wskazaniu pliku na dysku komputera i wciśnięciu przycisku „Otwórz” zbiór zostanie wczytany do programu EG. Jeżeli w skoroszycie Excela znajduje się więcej niż jeden arkusz danych zostaniemy poproszeni o wskazanie arkusza do wczytania. Następnie program zapyta o formę,

w jakiej dane mają zostać wczytane do EG. Do wyboru mamy opcję wczytania danych „takimi

jakie są” lub przekształcenia na zbiór SAS’a.

Ze względu na szybkość pracy zalecane jest wybranie pierwszej opcji. Zbiór zostanie wówczas wczytany tak, jak był przygotowany. W pierwszym wierszu zbioru muszą znajdować się nazwy zmiennych. W nazwach zmiennych nie powinno być spacji i polskich znaków, ponieważ podczas wczytywania zostaną one zastąpione znakami systemowymi („_” lub „#”). Jeżeli w jednej kolumnie w arkuszu Excela znajdują się zarówno dane liczbowe, jak i tekstowe

EG może nie wczytać tych pierwszych. Zaleca się zatem albo zamianę zmiennych numerycznych w tego typu kolumnach na tekstowe (na przykład poprzez dodanie znaku „_” lub „ ’ ” przed liczbą, wówczas cała kolumna będzie traktowana jako tekst) lub zakodowanie danych

tekstowych pod postacią liczb (wtedy kolumna będzie traktowana jako numeryczna). Jeżeli w kolumnie znajduje się spora liczba braków danych (pustych komórek) to najlepiej jest przed wczytaniem zbioru do EG posortować go tak, aby dane liczbowe znajdowały się w górnych wierszach zbioru, a braki danych w dolnych. Podczas wczytywania danych format daty zostanie

zamieniony na format tekstowy lub numeryczny zależnie od tego jak ta data została wcześniej zapisana w zbiorze Excela.

Jeżeli zostanie wybrana opcja przekształcenia zbioru z formatu Excela na format SAS’a, to

użytkownik zostanie poproszony o podanie atrybutów wszystkich kolumn zbioru (między innymi: formatu, liczby znaków, etykiety, informatu, itp.). Niestety ustalanie parametrów przekształcanego zbioru jest bardzo pracochłonne i nie zawsze daje spodziewany efekt, dlatego do szybkiej pracy ten sposób wczytywania danych nie jest zalecany.

Page 12: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

12 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

2. Podstawowe analizy statystyczne

2.1. Badanie rozkładów cech

Podstawowym zagadnieniem, niestety często świadomie bądź nieświadomie pomijanym przez badaczy, jest kwestia badania rozkładów analizowanych cech losowych. Część analiz statystycznych (jak na przykład analiza wariancji, testy t czy też analiza funkcji regresji liniowej)

posiada pewne założenia co do rozkładów analizowanych cech. Tak więc przed rozpoczęciem

właściwych analiz, ważnym krokiem jest dokładne przyjrzenie się samym danym, zbadanie rozkładów cech (najczęściej chodzi o sprawdzenie czy możemy uznać, że analizowana cecha ma rozkład zbliżony do rozkładu normalnego) czy też poznanie podstawowych parametrów tych rozkładów.

Do wykonania powyższych czynności w EG służy „Analiza

rozkładu…” (OpiszèAnaliza rozkładu…). Po uruchomieniu analizy

otworzy się okno dialogowe. W części „Role zadania” przypisujemy odpowiednie cechy do analizy.

W części „Rozkłady — Podsumowanie” Wybieramy rozkład, dla którego ma być przeprowadzone testowanie o zgodności rozkładu empirycznego z rozkładem teoretycznym (np. „Normalny”).

W części z opcjami dla wybranych rozkładów cech (np. „Rozkłady — Normalny”) ustala się opcje rozkładu teoretycznego (jeżeli nie znamy parametrów rozkładu normalnego, możemy pozostawić puste okienka, wówczas użyte zostaną wartości oszacowane). W części „Wykresy —

Wygląd” można wybrać, jakie wykresy mają obrazować charakter rozkładu badanych cech. Poza

tym wyznaczone w trakcie analizy wartości można zapisać do dodatkowego zbioru (część „Tabele”) w celu wykorzystania do dalszych analiz.

Page 13: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 13

DARIUSZ R. MAŃKOWSKI

Przykład 1

Opierając się na danych z doświadczenia z Irysami, przeprowadzonego przez

R. A. FISHERA w roku 1936 (Fisher-Irys.xls), sprawdzić czy cecha ‘SepalWidth’ ma rozkład normalny.

Wyniki:

W pierwszej tabeli wyników zaprezentowane zostały wartości podstawowych miar lokacji i zmienności rozkładu dla analizowanej cechy (średnia, mediana, moda, odchylenie standardowe, wariancja, rozstęp oraz rozstęp międzykwartylowy):

Basic Statistical Measures

Location Variability

Mean 30.57333 Std Deviation 4.35866

Median 30.00000 Variance 18.99794

Mode 30.00000 Range 24.00000

Interquartile Range 5.00000

Następnie prezentowane są wartości i przedziały ufności dla podstawowych parametrów rozkładu cechy losowej:

Basic Confidence Limits Assuming Normality

Parameter Estimate 95% Confidence Limits

Mean 30.57333 29.87010 31.27656

Std Deviation 4.35866 3.91497 4.91668

Variance 18.99794 15.32698 24.17372

W następnej kolejności prezentowane są testy lokacji, weryfikujące hipotezę zerową mówiącą o zerowej wartości średniej ( 0 : 0H : 0: 0 ). Wyznaczane są wartości statystyk dla testu t,

testu znaków oraz dla rangowego testu znaków. Wszystkie testy wskazują na odrzucenie weryfikowanej H0.

Tests for Location: Mu0=0

Test Statistic p Value

Student's t t 85.9083 Pr > |t| <.0001

Sign M 75 Pr >= |M| <.0001

Signed Rank S 5662.5 Pr >= |S| <.0001

Kolejnym elementem analizy (jeśli został wcześniej wybrany) jest histogram obrazujący rozkład cechy empirycznej. Na histogramie linią zaznaczono funkcję gęstości rozkładu teoretycznego:

Następnie prezentowane są oszacowane główne parametry rozkładu teoretycznego,

z którym będzie porównywany rozkład empiryczny badanej cechy (tu rozkład normalny) oraz statystyki dopasowania rozkładów. Weryfikowana hipoteza zerowa jest w postaci: H0: Cecha X

ma rozkład normalny. Wykonywane są trzy testy zgodności rozkładów: test Kołmogorova-

19.5 22.5 25.5 28.5 31.5 34.5 37.5 40.5 43.5

0

5

10

15

20

25

30

35

P

e

r

c

e

n

t

SepalWidth

Page 14: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

14 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Smirnova, test Cramera-von Mises’a oraz test Andersona-Darlinga. W wyniku

przeprowadzonych analiz przy poziomie istotności α=0,05 weryfikowaną hipotezę zerową odrzucamy (potwierdziły to wszystkie trzy testy).

Parameters for Normal Distribution

Parameter Symbol Estimate

Mean Mu 30.57333

Std Dev Sigma 4.358663

Goodness-of-Fit Tests for Normal Distribution

Test Statistic p Value

Kolmogorov-Smirnov D 0.10565879 Pr > D <0.010

Cramer-von Mises W-Sq 0.18065144 Pr > W-Sq 0.009

Anderson-Darling A-Sq 0.90795505 Pr > A-Sq 0.021

W ostatniej tabeli przedstawiono wybrane centyle rozkładu normalnego:

Quantiles for Normal Distribution

Percent

Quantile

Observed Estimated

1.0 22.0000 20.4336

5.0 23.0000 23.4040

10.0 25.0000 24.9875

25.0 28.0000 27.6335

50.0 30.0000 30.5733

75.0 33.0000 33.5132

90.0 36.5000 36.1592

95.0 38.0000 37.7427

99.0 42.0000 40.7131

Jeśli wcześniej wybrano odpowiednie opcje wykresów, to na końcu analiz zostaną zaprezentowane pozostałe wykresy (np. wykres probabilistyczny lub wykres pudełkowy). Wykres probabilistyczny prezentuje dopasowanie centyli rozkładu empirycznego do centyli rozkładu teoretycznego, można więc powiedzieć, że jest alternatywą dla histogramu.

Wykres pudełkowy jest graficzną prezentacją parametrów rozkładu cechy losowej. Kwadracik wewnątrz „pudełka” oznacza wartość średnią, linia wewnątrz „pudełka” oznacza medianę (50 centyl), dolna i górna krawędź „pudełka” definiowane są odpowiednio przez dolny

i górny kwartyl (25 i 75 centyl), zaznaczone na wykresie „wąsy” oznaczają odległość do

0.1 1 5 10 25 50 75 90 95 99 99.9

20

25

30

35

40

45

S

e

p

a

l

W

i

d

t

h

Normal Percentiles

Page 15: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 15

DARIUSZ R. MAŃKOWSKI

1,5 odległości pomiędzy dolnym i górnym kwartylem. Na wykresie dodatkowo oznacza się wszystkie obserwacje wykraczające poza wyznaczone „wąsy” wykresu (obserwacje odstające).

Przykład 2

Wykonać analizę rozkładu dla cechy ‘Skrobia’ ze zbioru ‘Ziemniak_1.xls’, w którym zebrano wyniki z doświadczenia z wybraną odmianą ziemniaka.

2.2. Wyznaczanie podstawowych statystyk

Statystyczną analizę danych najczęściej rozpoczynamy od wyznaczenia podstawowych parametrów statystycznych badanych cech. Wyliczamy średnią, odchylenie standardowe, współczynniki zmienności, itp. Na tym etapie można dokonywać już pewnego podsumowania danych. W EG do wyznaczania statystyk opisowych

służy opcja „Statystyki agregujące…” (OpiszèStatystyki

agregujące…).

Po uruchomieniu Statystyk agregujących zostanie wyświetlone okno dialogowe tej analizy. W części „Role zadania” możemy wybrać zmienne do analiz, wskazać zmienne grupujące, itp. W części „Statystyki” wybieramy parametry, które mają zostać wyznaczone. I tak w części „Statystyki — Podstawowe” możemy wskazać do wyznaczenia: wartość średnią, odchylenie standardowe, standardowy błąd oceny wartości średniej, wariancję, minimum, maksimum, rozstęp (zakres), sumę, ewentualnie sumę wag, liczbę obserwacji oraz liczbę braków danych.

W części „Statystyki — Centyle” możemy wskazać, które centyle i kwartyle mają zostać wyznaczone. Możemy wskazać: 1-wszy, 5-ty, 10-ty, 90-ty, 95-ty oraz 99-ty centyl, kwartyl górny i dolny oraz medianę. W części „Statystyki — Dodatkowe” możemy wskazać do wyznaczenia dodatkowe parametry dla analizowanych cech, takie jak: przedział ufności dla wartości średniej, wartości statystyki rozkładu t-Studenta, współczynnik zmienności, skorygowaną oraz

nieskorygowaną sumę kwadratów.

20

25

30

35

40

45

Page 16: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

16 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

W części „Wykresy” możemy wybrać wykresy, jakie będą tworzone dla analizowanych cech. Do wyboru mamy jedynie histogram (bez funkcji gęstości rozkładu teoretycznego) oraz wykres pudełkowy.

Wyznaczone statystki możemy wyświetlić, a także zapisać do zbioru (w części „Rezultaty”) w celu wykorzystania ich do dalszych analiz.

Przykład 1

Wyznaczyć podstawowe statystyki oraz przedział ufności i współczynnik zmienności, wykonać histogram i wykres pudełkowy dla zmiennych numerycznych

z doświadczenia Fishera z Irysami (Fisher-Irys.xls).

Wyniki:

Wartości wyznaczonych parametrów zostały zebrane w formie tabeli (tabel). Nazwy zmiennych podane są podwójnie. Pierwsza z nich (Variable) to nazwa zmiennej ze zbioru

danych, a druga (Label) to ewentualna etykieta danych. Jeżeli etykieta nie została nadana, to

zarówno nazwa jak i etykieta są jednakowe (więcej o nazwach i etykietach cech w drugiej części niniejszego skryptu).

Variable Label Mean Std Dev Std Error Variance Minimum

SepalLength

SepalWidth PetalLength

PetalWidth

SepalLength

SepalWidth PetalLength

PetalWidth

58.4333333

30.5733333 37.5800000

11.9933333

8.2806613

4.3586628 17.6529823

7.6223767

0.6761132

0.3558833 1.4413600

0.6223645

68.5693512

18.9979418 311.6277852

58.1006264

43.0000000

20.0000000 10.0000000

1.0000000

Variable Label Maximum Range Sum N N Miss Lower 95%

CL for Mean Upper 95%

CL for Mean

SepalLength SepalWidth

PetalLength PetalWidth

SepalLength SepalWidth

PetalLength PetalWidth

79.0000000 44.0000000

69.0000000 25.0000000

36.0000000 24.0000000

59.0000000 24.0000000

8765.00 4586.00

5637.00 1799.00

150 150

150 150

0 0

0 0

57.0973248 29.8701032

34.7318537 10.7635330

59.7693419 31.2765635

40.4281463 13.2231337

Page 17: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 17

DARIUSZ R. MAŃKOWSKI

Variable Label Coeff of Variation

SepalLength SepalWidth

PetalLength PetalWidth

SepalLength SepalWidth

PetalLength PetalWidth

14.1711260 14.2564201

46.9744075 63.5551141

Następnie prezentowane są wcześniej wskazane wykresy. W pierwszej kolejności są to histogramy:

a następnie wykresy pudełkowe:

Przykład 2

Wyznaczyć podstawowe statystyki oraz przedział ufności i współczynnik zmienności, wykonać histogram i wykres pudełkowy dla zmiennych numerycznych

z doświadczenia z ziemniakiem (Ziemniak_1.xls).

42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5

0

5

10

15

20

25

SepalLength

19.5 22.5 25.5 28.5 31.5 34.5 37.5 40.5 43.5

0

5

10

15

20

25

30

35

SepalWidth

12 20 28 36 44 52 60 68

0

5

10

15

20

25

PetalLength

1.5 4.5 7.5 10.5 13.5 16.5 19.5 22.5 25.5

0

5

10

15

20

25

PetalWidth

Page 18: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

18 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

2.3. Testy t

Testy oparte na rozkładzie t-Studenta mają głównie zastosowanie przy weryfikacji hipotez

statystycznych, dotyczących wartości średniej analizowanych cech ilościowych.

Wyróżniamy trzy rodzaje testów t: test porównania wartości średniej z normą

( 0 0 0 0: : 0H H0 0 00 0 0: :0 0 00 0 0 0: : 00 0 0 00 0 0: :: :0 0 00 0 0 ), porównanie

dwóch wartości średnich cech niezależnych

( 0 1 2 0 1 2: : 0H H0 1 20 1 2: :0 1 20 1 2 0 1 2: : 00 1 2 0 1 20 1 2: :: :0 1 2 0 1 20 1 2 ) oraz test

porównania dwóch wartości średnich cech zależnych (skorelowanych, sparowanych) ( 0 : 0

zH : 0

z: 0: 0: 0).

Wszystkie te testy dostępne są w EG w jednym miejscu: AnalizujèANOVAèTest t…. Po

uruchomieniu analizy pojawia się okno dialogowe, w którym w pierwszej kolejności wybieramy rodzaj testu, który chcemy przeprowadzić (część „Typ testu t”). W części „Role zadania” wskazujemy zmienne do analizy.

W części „Analiza” definiujemy podstawowe parametry wykonywanego testu. Natomiast

w części „Wykresy” decydujemy o tym, jakie wykresy mają być sporządzone podczas analizy. Do wyboru mamy wykres pudełkowy i wykres wartości średnich.

Przykład 1

Na podstawie danych z doświadczenia polowego z wybraną odmianą ziemniaka (ziemniak_1.xls) sprawdzić czy średnia zawartość skrobi u tej odmiany wynosi 12% (0,12). [test t jednopróbkowy]

Page 19: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 19

DARIUSZ R. MAŃKOWSKI

Wyniki:

W wynikach przeprowadzonej analizy, w pierwszej tabeli prezentowane są podstawowe statystyki dla analizowanej cechy.

Statistics

Variable N Lower CL

Mean Mean Upper CL

Mean Lower CL

Std Dev Std Dev Upper CL

Std Dev Std Err Minimum Maximum

Skrobia 28 0.1407 0.15 0.1593 0.019 0.024 0.0327 0.0045 0.113 0.198

W drugiej tabeli prezentowane są wyniki testu t porównania wartości średniej z normą.

T-Tests

Variable DF t Value Pr > |t|

Skrobia 27 6.61 <.0001

Weryfikowana hipoteza statystyczna miała postać: 0 : 0,12H : 0: 0,12 , co można wyrazić jako:

średnia zawartość skrobi u badanej odmiany wynosiła 12%. Na podstawie przeprowadzonej

analizy, powyższą hipotezę zerową odrzucamy (w niniejszym opracowaniu przyjęto graniczny poziom istotności jako kryterium do weryfikacji testowanych hipotez statystycznych).

Przykład 2

Na podstawie danych z doświadczenia polowego z wybraną odmianą ziemniaka (ziemniak_1.xls) sprawdzić czy średnie plony uzyskane w roku 2000 i 2001 były jednakowe. [test t dwupróbkowy]

Wyniki:

Podobnie jak w przypadku testu jednopróbkowego, w pierwszej kolejności prezentowane są wyniki statystyk opisowych dla plonów w obu porównywanych latach oraz dla różnicy plonów w obydwu latach.

Statistics

Variable Rok N Lower CL

Mean Mean Upper CL

Mean Lower CL

Std Dev Std Dev Upper CL

Std Dev Std Err Minimum Maximum

Plon 2000 14 164.47 192.61 220.76 35.343 48.752 78.542 13.03 100 250

Plon 2001 14 140.3 167.3 194.3 33.902 46.764 75.338 12.498 100 266.7

Plon Diff (1-2)

-11.8 25.314 62.426 37.618 47.768 65.463 18.055

Następnie prezentowane są wartości testu t porównania dwóch wartości średnich cech niezależnych. Test t został wykonany w dwóch wariantach: zakładającym równe wariancje plonów w obydwóch porównywanych latach (wariant Equal) oraz zakładającym różne

wariancje (wariant Unequal).

T-Tests

Variable Method Variances DF t Value Pr > |t|

Plon Pooled Equal 26 1.40 0.1727

Plon Satterthwaite Unequal 26 1.40 0.1727

Poniżej prezentowane są wyniki testu F porównania wariancji. Wyniki tego testu pozwalają na skorzystanie z wyników prawidłowego testu t.

Equality of Variances

Variable Method Num DF Den DF F Value Pr > F

Plon Folded F 13 13 1.09 0.8829

Hipoteza zerowa weryfikowana testem F porównania wariancji zakłada równość wariancji

plonów w obydwóch latach doświadczenia ( 2 20 1 2:H

2 20 1 2

2 20 1 2 ). Wyniki testowania tej hipotezy

wskazują, iż nie ma podstaw do jej odrzucenia. Tak więc stwierdzamy, że wariancje plonów były

Page 20: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

20 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

sobie równe. Do weryfikacji hipotezy zakładającej równość średnich plonów w obydwóch latach

doświadczenia ( 0 1 2 0 1 2: : 0H H0 1 20 1 2: :0 1 20 1 2 0 1 2: : 00 1 2 0 1 20 1 2: :: :0 1 2 0 1 2 ) stosujemy zatem test t, zakładający równość

wariancji (wariant Equal). Na podstawie przeprowadzonego testowania nie mamy podstaw do

odrzucenia postawionej hipotezy zerowej. stwierdzamy więc, że średnie plony badanej odmiany ziemniaka w obydwóch latach doświadczenia były jednakowe. Na koniec w wynikach prezentowane

są wybrane wykresy (pudełkowy i średnich):

Przykład 3

W doświadczeniu laboratoryjnym badano wpływ czasu przechowywania ziarna

jęczmienia na stopień jego porażenia chorobami przechowalniczymi. Przygotowano 30 próbek zawierających po 100 ziarniaków. Oznaczono liczbę ziarniaków zdrowych na początku doświadczenia (Termin1) i po 3 miesiącach przechowywania (Termin2).

Sprawdzić, czy przez czas doświadczenia zaszły istotne różnice w liczbie zdrowych ziarniaków. Zbiór: Jęczmień-przechowalnia.xls. [test t parzysty]

Wyniki:

Jako pierwsza prezentowana jest tabela z podstawowymi statystykami dla różnicy pomiędzy licznościami ziarniaków oznaczonymi w dwóch terminach:

Statystyki

Różnica N Dolna gr. prz. ufn.

Średnia Średnia Górna gr. przedz. ufn.

Średnia Dolna gr. prz. ufn.

Odch. std. Odch. std.

Termin1 - Termin2 30 1.8507 3.6333 5.416 3.8021 4.7741

Statystyki

Różnica Górna gr. prz. ufn.

Odch. std. Błąd std. Minimum Maksimum

Termin1 - Termin2 6.4179 0.8716 0 18

Następnie prezentowana jest tabela z wartościami statystyki testowej:

Testy T

Różnica St. sw. Wartość t Pr > |t|

Termin1 - Termin2 29 4.17 0.0003

W prezentowanym przykładzie hipoteza zerowa miała postać: różnica pomiędzy średnimi

liczbami ziarniaków zdrowych w dwóch terminach wynosi 0. Na podstawie wyznaczonej

statystyki testowej odrzucamy postawioną hipotezę zerową. Stwierdzamy więc, że w trakcie przechowywania nastąpiło istotne zmniejszenie się średniej liczby zdrowych ziarniaków.

Przykład 4

Sprawdzić, czy średnia zawartość witaminy C w korzeniach marchwi badanych w pewnym doświadczeniu (Marchew-skład.xls) wynosi 2.5%.

Przykład 5

Sprawdzić, czy średnie zawartości β-karotenu w dwóch latach badań są jednakowe (Marchew-skład.xls). Sporządzić wykres średnich.

Page 21: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 21

DARIUSZ R. MAŃKOWSKI

3. Analiza wariancji i kowariancji

Analiza wariancji (ANOVA) jest najczęściej wykonywaną analizą statystyczną w wypadku badań rolniczych. Założenia testu F analizy wariancji opracowane przez R. A. Fishera dały podwaliny pod zasady doświadczalnictwa polowego.

W analizie wariancji badamy czy określone czynniki wpływają w jakiś sposób na obserwowane w doświadczeniu cechy. Hipoteza zerowa może być więc zapisana w dwóch postaciach: pierwsza ( 0 1 2:

kH0 1 20 1 2 k

K ) mówi o równości wartości średnich obserwowanej

cechy dla wszystkich poziomów badanego czynnika, druga z kolei ( 0 1 2: 0k

H a a a0 1 2: 00 1 2 k: 0: 0: 0: 00 1 20 1 2: 0K )

mówi o braku wpływu (wpływ zerowy) badanego czynnika na wartości obserwowanej cechy. W przypadku analizy wieloczynnikowej dochodzi jeszcze efekt interakcji między czynnikami, czyli różnej reakcji obserwowanej cechy na zmiany poziomów jednego czynnika pod wpływem zmian poziomów drugiego czynnika.

Dodatkowo po odrzuceniu hipotezy o braku wpływu badanego czynnika na obserwowaną cechę najczęściej przeprowadza się porównania szczegółowe średnich w celu stwierdzenia istotnych różnic pomiędzy poziomami badanego czynnika.

Analiza kowariancji (ANCOVA) pozwala na weryfikację identycznych hipotez statystycznych jak w przypadku analizy wariancji, z tym, że zakłada się, że na obserwowaną cechę, prócz badanych czynników może dodatkowo wpływać jedna bądź kilka innych cech (tzw. cechy towarzyszące). Analiza to pozwala na eliminację wpływu tych dodatkowych cech i nieobciążoną weryfikację postawionych hipotez.

3.1. Jednoczynnikowa analiza wariancji

Jednoczynnikowa analiza wariancji ma na celu sprawdzenie, czy badany czynnik nie ma

wpływu na obserwowaną cechę. W tej analizie badany jest wpływ tylko jednego czynnika. Tego typu analizy najczęściej przeprowadza się w przypadku analiz wyników doświadczeń pochodzących z w pełni kontrolowanych warunków (np. doświadczenia laboratoryjne, doświadczenia fitotronowe). Analiza ta nie

uwzględnia zmienności systematycznej wywołanej przez warunki otoczenia.

W EG jednoczynnikowa analiza wariancji jest

dostępna jako odrębna analiza w menu: AnalizujèANOVAèANOVA jednoczynnikowa….

Po uruchomieniu analizy zostaje otwarte okno opcji. W części „Role zadania” wskazujemy zmienną zależną (cecha obserwowana, wynik doświadczenia) oraz zmienną niezależną (badany w doświadczeniu czynnik), ewentualnie jeżeli analiza ma być wykonana dla kilku grup danych i dodatkowo w zbiorze danych znajduje się kolumna rozróżniająca te grupy, to tę kolumnę możemy wskazać jako zmienną grupującą („Grupuj analizowane wg”).

Page 22: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

22 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

W części „Testy” możemy zdecydować czy ma być przeprowadzona wariancyjno-ważona analiza wariancji Welcha oraz możemy wybrać czy i jaki ma być przeprowadzony test homogeniczności wariancji (heteroscedastyczności). Do wyboru mamy testy: Bartletta, Browna-

Forsythe’a i Levene’a. W części „Średnie — Porównanie” możemy wybrać rodzaj procedury porównań wielokrotnych, która ma być wykorzystana do grupowania wartości średnich. Do wyboru mamy: Test t Bonferroniego, Studentyzowany test rozstępu Tukeya (procedura Tukeya / procedura Tukeya-Kramera), Wielokrotny test rozstępu Duncana, Test t Dunnetta, Test

najmniejszej znaczącej różnicy Fishera (procedura Studenta), Procedurę wielu porównań Gabriela, Wielokrotny test rozstępu Studenta-Newmana-Keulsa (procedura Newmana-Keulsa),

Test t współczynnika k Wallera-Duncana, Procedurę porównań wielokrotnych Schéffego oraz Wielokrotny test rozstępu Ryana-Einota-Gabriela-Welscha. W części „Średnie — Rozkład” możemy wybrać, jakie statystyki podstawowe mają być wyznaczone dla wartości obserwowanej cechy (zmiennej zależnej) w ramach każdego z poziomów badanego czynnika (zmiennej niezależnej).

W części „Wykresy” możemy zdecydować czy do analizy mają być dołączone wykresy słupkowe i pudełkowe.

Wyniki przeprowadzonej analizy możemy, prócz podglądu w formie tekstowej, zapisać do zbioru (część „Rezultaty”) w celu wykorzystania w dalszych analizach.

Doświadczenia jednoczynnikowe w układzie całkowicie losowym

Jednoczynnikowa analiza wariancji jest wykorzystywana do analizy danych pochodzących z doświadczeń jednoczynnikowych zakładanych w układzie całkowicie losowym. W tego typu doświadczeniach bada się wpływ jednego czynnika na obserwowaną cechę. Aby zachować podstawowe zasady zjawisk losowych doświadczenie takie przeprowadza się w kilku (minimum 3) powtórzeniach. Wszystkie poziomy czynnika rozlosowuje się w ramach całej powierzchni doświadczalnej.

Page 23: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 23

DARIUSZ R. MAŃKOWSKI

Dla przykładu, jeśli chcemy przeprowadzić doświadczenie sprawdzające czy czynnik A (4 poziomy) wpływa na obserwowaną cechę i doświadczenie wykonujemy w 3 powtórzeniach, to przykładowy schemat takiego doświadczenia może wyglądać w sposób następujący:

A2 A1 A3

A4 A2 A2

A1 A4 A3

A3 A1 A4

Model takiej analizy ma następującą postać:

gdzie: — prawdziwa średnia;

— błąd losowy dla j-tej obserwacji i-tego poziomu czynnika A.

W trakcie analizy weryfikowana jest hipoteza zerowa mówiąca o braku wpływu badanego czynnika na obserwowaną cechę (wszystkie średnie dla poziomów badanego czynnika są sobie równe).

Przykład 1

Wykonać analizę wariancji dla danych pochodzących z doświadczenia z pewną odmianą ziemniaka (Ziemniak_1.xls) uprawianą przez dwa lata. Sprawdzić czy lata badań istotnie wpływały na osiągane plony. Wykonać test homogeniczności wariancji Bartletta, wyznaczyć grupy jednorodne procedurą Tukeya i Schéffego oraz wykonać wykres średnich.

Wyniki:

W pierwszej kolejności w wynikach analizy prezentowane jest podsumowanie informacji o analizowanych zmiennych i o liczbie obserwacji w zbiorze oraz o liczbie użytych obserwacji do analizy.

Class Level Information

Class Levels Values

Rok 2 2000 2001

Number of Observations Read 28

Number of Observations Used 28

Kolejnym prezentowanym elementem jest tabela analizy wariancji wraz z wartościami opisującymi analizowany model analizy wariancji:

Source DF Sum of Squares Mean Square F Value Pr > F

Model 1 4485.69143 4485.69143 1.97 0.1727

Error 26 59327.27714 2281.81835

Corrected Total 27 63812.96857

R-Square Coeff Var Root MSE Plon Mean

0.070294 26.54431 47.76838 179.9571

Source DF Anova SS Mean Square F Value Pr > F

Rok 1 4485.691429 4485.691429 1.97 0.1727

Na podstawie przeprowadzonej analizy wariancji możemy stwierdzić, że nie ma podstaw do odrzucenia hipotezy mówiącej o braku różnic w plonach badanej odmiany ziemniaka pomiędzy latami badań.

Kolejne tabele prezentują wartości testu homogeniczności wariancji Bartletta oraz ogólne statystyki dla plonów w badanych latach.

Page 24: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

24 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Bartlett's Test for Homogeneity of Plon Variance

Source DF Chi-Square Pr > ChiSq

Rok 1 0.0217 0.8829

Level of Rok N

Plon

Mean Std Dev

2000 14 192.614286 48.7523389

2001 14 167.300000 46.7637269

Przeprowadzony test Bartletta nie pozwala na odrzucenie hipotezy mówiącej o równości wariancji plonów w obydwu latach badań. Następnie prezentowane są wyniki procedur porównań wielokrotnych. W pierwszej kolejności procedury Tukeya:

Alpha 0.05

Error Degrees of Freedom 26

Error Mean Square 2281.818

Critical Value of Studentized Range 2.90697

Minimum Significant Difference 37.112

Means with the same letter are not significantly different.

Tukey Grouping Mean N Rok

A 192.61 14 2000

A

A 167.30 14 2001

W drugiej kolejności testu Schéffego:

Alpha 0.05

Error Degrees of Freedom 26

Error Mean Square 2281.818

Critical Value of F 4.22520

Minimum Significant Difference 37.112

Means with the same letter are not significantly different.

Scheffe Grouping Mean N Rok

A 192.61 14 2000

A

A 167.30 14 2001

Obydwa testy potwierdzają wnioski wyciągnięte z tabeli analizy wariancji. Nie pozwalają na rozdzielenie lat badań do odrębnych grup jednorodnych.

Na koniec prezentowany jest wykres wartości średnich plonów w latach badań.

Page 25: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 25

DARIUSZ R. MAŃKOWSKI

Przykład 2

Sprawdzić czy odmiany marchwi jadalnej (Marchew-skład.xls) różnią się między sobą zawartością pektyn, cukrów redukujących i karotenoidów w korzeniach. Wykonać grupowanie średnich procedurą Tukeya. Wykonać wykresy wartości średnich.

3.2. Wieloczynnikowa analiza wariancji — modele liniowe

Wieloczynnikowa analiza wariancji pozwala

na zbadanie wpływu więcej niż jednego czynnika na obserwowaną cechę. Dodatkowo pozwala na stwierdzenie występowania interakcji pomiędzy badanymi czynnikami (różnej reakcji obserwowanej cechy na poziomy jednego

czynnika przy zmianie poziomów drugiego czynnika). Zastosowanie modelu

wieloczynnikowej analizy wariancji pozwala również na analizę danych pochodzących z doświadczeń, w których zastosowano układy blokowe.

Aby przeprowadzić wieloczynnikową analizę wariancji w EG, należy posłużyć się analizą modeli liniowych (AnalizujèANOVAèModele liniowe…). Analiza ta pozwala na zbudowanie

modelu zgodnego z układem przeprowadzonego doświadczenia.

Po uruchomieniu analizy zostaje otwarte okno opcji. W części „Role zadania” wskazujemy zmienną zależną (badaną cechę) oraz zmienne klasyfikujące (czynniki). Ewentualnie możemy wskazać zmienną grupującą, jeżeli zbiór danych zawiera dane z kilku doświadczeń (wówczas w pole „Grupuj analizowane wg” przenosimy zmienną oznaczającą doświadczenia). W części „Model” budujemy analizowany model zgodnie z założonym planem doświadczenia. Efekty główne (pojedyncze czynniki) zaznaczamy w oknie po lewej stronie i klikamy przycisk „Główne”. W przypadku interakcji zaznaczamy czynniki budujące interakcję w okienku po lewej

stronie i klikamy przycisk „Krzyżowe”.

W części „Opcje modelu” możemy wybrać według którego typu sumy kwadratów odchyleń mają być wykonane obliczenia (opis typów sum kwadratów odchyleń znajduje się dalszej części tego rozdziału). Oprócz oszacowanych wartości parametrów można również wyznaczyć dla nich

przedziały ufności. W części „Opcje zaawansowane” możemy wskazać by EG wyświetlił funkcje estymowalne dla modelu oraz wybrać sposób ich wyznaczenia. Dodatkowo możemy wskazać by w wynikach wyświetlona została macierz .

Page 26: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

26 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Część „Testy post hoc” zawiera opcje przydatne przy szacowaniu i porównywaniu wartości średnich badanej cechy dla poziomów analizowanych czynników. Część „Testy post hoc —

Najmniejsze kwadraty” pozwala na oszacowanie wartości średnich nieobciążonych licznością próby. Do oszacowanie tych wartości średnich wykorzystywana jest metoda najmniejszych kwadratów, stąd też średnie oszacowane w ten sposób są często określane jako „LSMeans”. Średnie nieobciążone mają duże znaczenie w przypadku danych nieortogonalnych (niekompletnych). Część „Testy post hoc — Średnia arytmetyczna” pozwala na wykonanie porównań wielokrotnych dla wartości średnich badanej cechy dla poziomów analizowanych czynników.

Część „Wykresy” pozwala na zdefiniowanie różnych wykresów, jakie mają być dołączone do wyników analiz. Można sporządzić wykresy dotyczące wartości średnich („Wykresy —

Średnie”), dotyczące wartości przewidywanych („Wykresy — Przewidywane”), dotyczące reszt, czyli błędu losowego („Wykresy — Reszty”) oraz dotyczące obserwacji wpływających („Wykresy — Wpływ”). O ile wykresy wartości średnich mają spore znaczenie przy analizie wariancji, o tyle trzy pozostałe grupy wykresów znajdują zastosowanie głównie w analizie regresji, którą również można przeprowadzić z zastosowaniem modeli liniowych.

Page 27: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 27

DARIUSZ R. MAŃKOWSKI

Część „Prognozy” pozwala na oszacowanie spodziewanych wartości badanej cechy przy znanych wartościach analizowanych czynników.

W analizie wariancji wyróżnia się cztery sposoby wyznaczania sum kwadratów odchyleń dla efektów głównych i interakcji pomiędzy czynnikami. Sposoby te zwane typami sum

kwadratów stosuje się zależnie od układu doświadczalnego i występowania braków danych (doświadczenia nieortogonalne). Poniżej zaprezentowano schemat wyznaczania wartości sum kwadratów:

Źródło zmienności TYP I

[SS1]

TYP II

[SS2]

TYP III

[SS3]

TYP IV

[SS4]

— obrazuje zmniejszenie sumy kwadratów dla błędu losowego, gdy do modelu zostaje dodane dane źródło zmienności.

TYP I — ma zastosowanie w przypadku doświadczeń jednoczynnikowych, oraz doświadczeń wieloczynnikowych dla danych kompletnych.

Page 28: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

28 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

TYP II — ma zastosowanie w przypadku niekompletnych doświadczeń wieloczynnikowych gdy interakcja pomiędzy efektami głównymi nie jest istotna (np. doświadczenie jednoczynnikowe, niekompletne w układzie losowanych bloków).

TYP III — ma zastosowanie w przypadku gdy doświadczenie jest niekompletne

i wieloczynnikowe, a interakcja czynników jest przedmiotem analizy. Braki danych nie powinny być znaczne.

TYP IV — ma zastosowanie w przypadku doświadczeń wieloczynnikowych, gdy braki danych są dość znaczne i brakuje całych podklas (kombinacji czynników w ramach powtórzeń / bloków).

Doświadczenia jednoczynnikowe w układzie losowanych bloków

Doświadczenie jednoczynnikowe w układzie losowanych bloków stosuje się wówczas, gdy

chcemy zbadać wpływ jednego czynnika na obserwowaną cechę, jednak samo doświadczenie przebiega w niejednolitym środowisku (np. doświadczenie polowe). W tym układzie

doświadczalnym, w analizie wariancji uwzględnia się dodatkowo zmienność środowiska. Aby uwzględnić tę zmienność w doświadczeniu, zamiast stosowanych w doświadczeniach całkowicie losowych powtórzeń, wykorzystuje się bloki. W przypadku doświadczeń polowych bloki są prostokątnymi pasami pola ustawionymi dłuższym bokiem prostopadle do kierunku zmienności środowiskowej (tzw. zmienności systematycznej) występującej na polu doświadczalnym.

W ramach bloków rozlosowuje się poziomy analizowanego czynnika. Dla przykładu jeżeli chcemy przeprowadzić doświadczenie, w którym w warunkach polowych chcemy przebadać wpływ czynnika A (4 poziomy) na cechę ilościową i doświadczenie chcemy przeprowadzić w 4 blokach, to schemat układu doświadczalnego może wyglądać w sposób następujący:

BLOK I BLOK II BLOK III BLOK IV

A3 A2 A3 A4

A1 A3 A4 A2

A4 A4 A1 A3

A2 A1 A2 A1

Model analizy wariancji wygląda jak model analizy dwuczynnikowej bez interakcji (dlatego w przypadku układu niekompletnego zastosowanie ma II Typ sumy kwadratów odchyleń):

gdzie: — cecha obserwowana dla j-tego poziomu czynnika A w i-tym bloku; — prawdziwa średnia;

— błąd losowy dla j-tego poziomu czynnika A

w i-tym bloku.

W trakcie analizy weryfikowana jest hipoteza zerowa mówiąca o braku wpływu badanego czynnika na obserwowaną cechę (wszystkie średnie dla poziomów badanego czynnika są sobie równe). Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).

Przykład 1

Sprawdzić czy występują różnice w zdolności kiełkowania (ZK) nasion sześciu odmian życicy pochodzących z doświadczenia polowego założonego w układzie losowanych bloków (zbiór Życica-kiełkowanie.xls). Przeprowadzić analizę wariancji i porównania średnich procedurą Studenta-Newmana-Keulsa. Sporządzić wykres wartości średnich.

Wyniki:

W pierwszej kolejności w wynikach analizy prezentowane jest podsumowanie informacji o analizowanych zmiennych i o liczbie obserwacji w zbiorze oraz o liczbie użytych obserwacji do analizy.

Kierunek zmienności systematycznej

Page 29: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 29

DARIUSZ R. MAŃKOWSKI

Informacje o poziomie klasyfikacji

Klasa Poziomy Wartości

BLOK 3 1 2 3

ODMIANA 6 Zycica-01 Zycyca-02 Zycyca-03 Zycyca-04 Zycyca-05 Zycyca-06

Liczba obserwacji wczytanych 72

Liczba obserwacji użytych 72

Kolejnym prezentowanym elementem jest tabela analizy wariancji wraz z wartościami opisującymi analizowany model:

Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F

Model 7 683.055556 97.579365 5.87 <.0001

Błąd 64 1063.555556 16.618056

Razem skorygowane 71 1746.611111

R-kwadrat Wsp. war. Pierwiastek MSE Średnia ZK

0.391075 4.343146 4.076525 93.86111

Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F

BLOK 2 398.7777778 199.3888889 12.00 <.0001

ODMIANA 5 284.2777778 56.8555556 3.42 0.0084

Na podstawie przeprowadzonej analizy wariancji możemy stwierdzić, że odrzucamy hipotezę mówiącą o braku różnic w zdolności kiełkowania nasion badanych odmiany życicy.

Dodatkowo możemy stwierdzić, że występowały istotne różnice pomiędzy blokami w doświadczeniu polowym (zmienność systematyczna).

Następnie prezentowane są wyniki procedury porównań wielokrotnych Studenta-Newmana-

Keulsa:

Alpha 0.05

Niepoprawne stopnie swobody 64

Kwadrat błędu średniej 16.61806

Liczba średnich 2 3 4 5 6

Zakres krytyczny 3.3248 3.9932156 4.389982 4.671618 4.889212

Średnie z tą samą literą nie różnią się znacząco.

Grupowanie SNK Średnia N ODMIANA

A 96.500 12 Zycica-01

A

A 95.500 12 Zycyca-06

A

B A 94.833 12 Zycyca-03

B A

B A 93.000 12 Zycyca-04

B A

B A 92.833 12 Zycyca-05

B

B 90.500 12 Zycyca-02

Zastosowana procedura pozwoliła na pogrupowanie badanych odmian na dwie grupy jednorodne. Ponieważ grupy te „nachodzą na siebie” możemy powiedzieć, że najwyższą zdolnością kiełkowania cechowały się nasiona odmian 01 i 06, a najniższą nasiona odmiany 02.

Page 30: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

30 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Nasiona pozostałych odmian (03, 04 i 05) cechowały się zdolnością kiełkowania na średnim (pośrednim) poziomie.

Na koniec prezentowany jest wykres wartości średnich zdolności kiełkowania średnio w blokach i dla poszczególnych odmian:

Przykład 2

Sprawdzić czy występują różnice w energii kiełkowania (EK) nasion sześciu odmian życicy pochodzących z doświadczenia polowego założonego w układzie losowanych bloków (zbiór Życica-kiełkowanie.xls). Przeprowadzić analizę wariancji i porównania średnich procedurą Tukeya. Sporządzić wykres wartości średnich.

Doświadczenia dwuczynnikowe w układzie całkowicie losowym

Za pomocą doświadczeń czynnikowych możemy badać wpływ więcej niż jednego czynnika na obserwowaną cechę. W przypadku badania dwóch czynników mamy doświadczenia dwuczynnikowe, trzech – trójczynnikowe, itd.

Jeżeli doświadczenie dwuczynnikowe jest przeprowadzane w warunkach w pełni kontrolowanych i nie występuje zmienność systematyczna (np. doświadczenia laboratoryjne) do jego założenia można wykorzystać układ całkowicie losowy. Jego konstrukcja jest identyczna jak doświadczenia jednoczynnikowego w układzie całkowicie losowym. W kilku (minimum 3) powtórzeniach rozlosowuje się wszystkie możliwe kombinacje badanych czynników.

Dla przykładu jeśli doświadczenie ma na celu zbadanie wpływu czynników A (3 poziomy)

oraz B (4 poziomy) na obserwowaną cechę ilościową i doświadczenie będzie przeprowadzone w 3 powtórzeniach, to przykładowy schemat takiego doświadczenia może wyglądać w sposób następujący:

A1 B1 A1 B4 A1 B4

A2 B1 A2 B3 A2 B4

A3 B1 A1 B1 A1 B2

A3 B4 A2 B4 A2 B2

A1 B2 A3 B4 A3 B1

A3 B3 A3 B3 A3 B2

A1 B3 A3 B2 A3 B3

A2 B2 A3 B2 A2 B2

A2 B1 A1 B2 A1 B3

A3 B4 A2 B1 A2 B3

A1 B1 A1 B3 A3 B1

A2 B3 A2 B4 A1 B4

Model analizy wariancji uwzględnia wpływ obydwu badanych czynników i ich interakcji (dlatego w przypadku układu niekompletnego zastosowanie ma III lub IV Typ sumy kwadratów odchyleń):

gdzie: — cecha obserwowana dla k-tej obserwacji i-tego poziomu czynnika A i j-tego poziomu czynnika B; —

prawdziwa średnia; — efekt i-tego poziomu czynnika A; — efekt j-tego poziomu czynnika B; — efekt

interakcji i-tego poziomu czynnika A i j-tego poziomu czynnika B; — błąd losowy dla k-tej obserwacji i-tego

poziomu czynnika A i j-tego poziomu czynnika B.

Interakcję dwóch czynników możemy tłumaczyć jako różną reakcję obserwowanej cechy na poziomy jednego czynnika pod wpływem zmian poziomów drugiego czynnika.

Page 31: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 31

DARIUSZ R. MAŃKOWSKI

W trakcie analizy weryfikowane są trzy hipotezy zerowe:

— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);

— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);

— mówiąca o braku interakcji pomiędzy czynnikiem A i B.

Przykład 1

Badano wpływ oddziaływania zakładu przemysłowego na okoliczną roślinność

(Przemysł.xls). Oznaczano zawartość metali ciężkich w roślinach zielnych i trawach. Pobrano po trzy losowe próbki z terenów leśnych (lasy iglaste i lasy liściaste) i z łąk. Przeprowadzić analizę wariancji w układzie dwuczynnikowym całkowicie losowym dla zawartości ołowiu (Pb) w roślinach. Grupowanie średnich przeprowadzić procedurą Duncana. Sporządzić wykres dla interakcji.

Wyniki:

Na początku prezentowane są informacje o zbiorze danych i analizowanych zmiennych.

Informacje o poziomie klasyfikacji

Klasa Poziomy Wartości

Rośliny 2 r_zielne trawy

Siedlisko 3 las iglasty las liściasty łąka

Liczba obserwacji wczytanych 18

Liczba obserwacji użytych 18

Następnie prezentowane są wyniki analizy wariancji.

Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F

Model 5 1403.249444 280.649889 1232.12 <.0001

Błąd 12 2.733333 0.227778

Razem skorygowane 17 1405.982778

R-kwadrat Wsp. war. Pierwiastek MSE Średnia Pb

0.998056 2.687111 0.477261 17.76111

Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F

Rośliny 1 1078.027222 1078.027222 4732.80 <.0001

Siedlisko 2 276.991111 138.495556 608.03 <.0001

Rośliny*Siedlisko 2 48.231111 24.115556 105.87 <.0001

Na podstawie przeprowadzonej analizy odrzucono hipotezy zerowe mówiące o: braku zróżnicowania pomiędzy zawartością ołowiu w grupach analizowanych roślin, braku zróżnicowania w zawartości ołowiu w roślinach w badanych siedliskach, braku występowania interakcji pomiędzy grupą roślin a siedliskiem. Na tej podstawie można więc stwierdzić, że grupy badanych roślin cechowały się istotnie różną zawartością ołowiu; w poszczególnych siedliskach zawartość ołowiu była różna; występowała interakcja w zawartości ołowiu pomiędzy grupami roślin i siedliskiem, z którego te rośliny pochodziły.

Następnie prezentowane są wyniki wyodrębniania grup jednorodnych procedurą Duncana.

Alpha 0.05

Niepoprawne stopnie swobody 12

Kwadrat błędu średniej 0.227778

Page 32: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

32 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Liczba średnich 2

Zakres krytyczny .4902

Średnie z tą samą literą nie różnią się znacząco.

Grupowanie Duncan Średnia N Rośliny

A 25.5000 9 r_zielne

B 10.0222 9 trawy

Alpha 0.05

Niepoprawne stopnie swobody 12

Kwadrat błędu średniej 0.227778

Liczba średnich 2 3

Zakres krytyczny .6004 .6284

Średnie z tą samą literą nie różnią się znacząco.

Grupowanie Duncan Średnia N Siedlisko

A 21.9500 6 las iglasty

B 18.8167 6 las liściasty

C 12.5167 6 łąka

Uzyskane grupowanie pozwala na stwierdzenie, iż rośliny zielne cechowały się istotnie wyższą zawartością ołowiu niż trawy. Najwyższe stężenie ołowiu odnotowano w lasach iglastych, nieco mniejsze w lasach liściastych, a najniższe na łąkach.

Na końcu raportu wynikowego znajduje się wykres interakcji.

Na wykresie widać, że rośliny zielne cechowały się znacznie niższą zawartością ołowiu na łąkach niż w terenach zalesionych. W przypadku traw nie obserwowano aż tak dużych różnic.

Przykład 2

Badano wpływ oddziaływania zakładu przemysłowego na okoliczną roślinność (Przemysł.xls). Oznaczano zawartość metali ciężkich w roślinach zielnych i trawach. Pobrano po trzy losowe próbki z terenów leśnych (lasy iglaste i lasy liściaste) i z łąk. Przeprowadzić analizę wariancji w układzie dwuczynnikowym całkowicie losowym dla zawartości kadmu (Cd) w roślinach. Grupowanie średnich przeprowadzić procedurą Tukeya. Sporządzić wykres dla interakcji.

Doświadczenia dwuczynnikowe w układzie losowanych bloków

Podobnie jak w przypadku doświadczeń jednoczynnikowych, tak i w przypadku doświadczeń dwuczynnikowych stosuje się układ losowanych bloków. Ma on na celu

Page 33: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 33

DARIUSZ R. MAŃKOWSKI

wyodrębnienie zmienności systematycznej występującej w obszarze doświadczalnym (np. na

polu doświadczalnym).

Zasada zakładania takiego doświadczenia jest identyczna jak w przypadku doświadczeń jednoczynnikowych. Bloki ustawia się dłuższym bokiem prostopadle do kierunku zmienności systematycznej, a w ramach każdego z bloków rozlosowuje się wszystkie możliwe kombinacje badanych czynników.

Dla przykładu jeżeli w doświadczeniu polowym chcemy zbadać wpływ czynników

A (3 poziomy) oraz B (2 poziomy) na obserwowaną cechę ilościową, a doświadczenie zakładamy w 4 blokach, to przykładowy schemat doświadczenia może mieć następującą postać:

BLOK I BLOK II BLOK III BLOK IV

A1 B1 A2 B1 A1 B2 A3 B2

A3 B2 A1 B2 A2 B1 A1 B2

A1 B2 A3 B1 A3 B1 A1 B1

A2 B1 A2 B2 A1 B1 A2 B2

A2 B2 A3 B2 A2 B2 A3 B1

A3 B1 A1 B1 A3 B2 A2 B1

Model analizy wariancji uwzględnia wpływ obydwu badanych czynników i ich interakcji oraz zróżnicowanie pomiędzy blokami (zmienność systematyczna):

gdzie: — cecha obserwowana dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku;

— prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego poziomu czynnika A; — efekt k-tego poziomu

czynnika B; — efekt interakcji j-tego poziomu czynnika A i k-tego poziomu czynnika B; — błąd losowy dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku.

W trakcie analizy weryfikowane są trzy hipotezy zerowe:

— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla

poziomów czynnika A są sobie równe);

— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);

— mówiąca o braku interakcji pomiędzy czynnikiem A i B.

Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).

Przykład 1

W doświadczeniu polowym postanowiono zbadać zróżnicowanie 5 odmian jęczmienia jarego (Jęczmień jary 1.xls) oraz wpływ trzech zapraw nasiennych (kombinacja) na suchą masę siewek ocenianą w ustalonym okresie. Doświadczenie przeprowadzono w układzie losowanych bloków w 3 blokach. Przeprowadzić analizę wariancji, grupowania średnich wykonać procedurą Tukeya. Sporządzić wykres interakcji.

Wyniki:

W pierwszej kolejności prezentowane są zestawienia dotyczące analizowanych czynników i zbioru danych.

Informacje o poziomie klasyfikacji

Klasa Poziomy Wartości

Blok 3 1 2 3

Odmiana 5 j_1 j_2 j_3 j_4 j_5

Kombinacja 3 k_1 k_2 k_3

Kierunek zmienności systematycznej

Page 34: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

34 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Liczba obserwacji wczytanych 45

Liczba obserwacji użytych 45

Następnie prezentowane są wyniki analizy wariancji.

Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F

Model 16 0.42211716 0.02638232 16.53 <.0001

Błąd 28 0.04468116 0.00159576

Razem skorygowane 44 0.46679831

R-kwadrat Wsp. war. Pierwiastek MSE Średnia sm

0.904282 17.11847 0.039947 0.233356

Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F

Blok 2 0.00415551 0.00207776 1.30 0.2879

Odmiana 4 0.02527298 0.00631824 3.96 0.0114

Kombinacja 2 0.33278418 0.16639209 104.27 <.0001

Odmiana*Kombinacja 8 0.05990449 0.00748806 4.69 0.0010

Na podstawie przeprowadzonej analizy odrzucono hipotezy zerowe mówiące o: braku zróżnicowania pomiędzy odmianami; jednakowym wpływie zastosowanych kombinacji (zapraw nasiennych); o braku interakcji pomiędzy analizowanymi czynnikami. Na tej podstawie stwierdzono, że odmiany różniły się tempem wzrostu (suchą masą siewek po ustalonym czasie); że zastosowane zaprawy nasienne (kombinacje) w różny sposób wpływały na wzrost roślin (siewek); że występowała interakcja pomiędzy zastosowaną zaprawą nasienną a odmianą jęczmienia jarego. Dodatkowo nie stwierdzono zróżnicowania pomiędzy blokami (zmienności systematycznej).

Następnie prezentowane są wyniki wyodrębniania grup jednorodnych procedurą Tukeya.

Alpha 0.05

Niepoprawne stopnie swobody 28

Kwadrat błędu średniej 0.001596

Wartość krytyczna zakresu studentyzowanego 4.12030

Różnica minimalnie znacząca 0.0549

Średnie z tą samą literą nie różnią się znacząco.

Grupowanie Tukey Średnia N Odmiana

A 0.26500 9 j_5

A

A 0.25244 9 j_1

A

B A 0.22956 9 j_2

B A

B A 0.22267 9 j_4

B

B 0.19711 9 j_3

Page 35: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 35

DARIUSZ R. MAŃKOWSKI

Alpha 0.05

Niepoprawne stopnie swobody 28

Kwadrat błędu średniej 0.001596

Wartość krytyczna zakresu studentyzowanego 3.49918

Różnica minimalnie znacząca 0.0361

Średnie z tą samą literą nie różnią się znacząco.

Grupowanie Tukey Średnia N Kombinacja

A 0.33167 15 k_3

B 0.24620 15 k_2

C 0.12220 15 k_1

Na podstawie wyznaczonych grup jednorodnych stwierdzono, że najwyższą suchą masą siewek cechowały się odmiany 5 i 1, średnią suchą masą (część wspólna dwóch grup jednorodnych) odmiany 2 i 4, a najniższą sucha masą siewek odmiana 3. Zastosowanie zaprawy nasiennej oznaczonej jako k_3 pozwoliło na uzyskanie najwyższej suchej masy siewek roślin jęczmienia jarego. Sucha masa siewek dla zaprawy k_2 była na syrenim poziomie, a najniższa była dla zaprawy k_1.

Ostatnią częścią wyników jest wykres interakcji.

Z przedstawionego wykresu można odczytać, iż odmiana j_2 najgorzej reagowała w relacji do innych odmian na zaprawę k_1, odmiana j_3 z kolei najgorzej reagowała w relacji do innych odmian na zaprawę k_3.

Przykład 2

Przeprowadzić analizę wariancji dla plonów fasoli z poletka z doświadczenia w układzie dwuczynnikowym losowanych bloków. Doświadczenie polowe przeprowadzono dla 21 odmian fasoli i prowadzono przez 3 lata (Fasola

3 lata.xls). Ponieważ dane są niekompletne (nieortogonalne) analizę oprzeć na III Typie sum kwadratów odchyleń. Wyznaczyć średnie poprawione i przeprowadzić porównania parami dla tych średnich (wyznaczyć p-value dla różnic) opierając się na teście Tukeya-Kramera.

Doświadczenia wieloczynnikowe

W doświadczeniach wieloczynnikowych bada się wpływ więcej niż dwóch czynników na obserwowaną cechę. W modelach analizy wariancji uwzględnia się zarówno efekty główne czynników jak i interakcje między nimi. Doświadczenia wieloczynnikowe mogą być zakładane w układach całkowicie losowych (bez uwzględnienia zmienności systematycznej) lub w układzie losowanych bloków (uwzględniającym zmienność systematyczną).

Page 36: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

36 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Przykład 1

Przeprowadzono doświadczenie trójczynnikowe w układzie losowanych bloków. W doświadczeniu badano wpływ nawożenia azotem (3 dawki), ochroną chemiczną fungicydami (3 preparaty) oraz użyciem insektycydu (2 poziomy) na plonowanie jęczmienia jarego (Jęczmień jary 2.xls). Przeprowadzić analizę wariancji. Porównania średnich dla efektów głównych wykonać procedurą Gabriela. Sporządzić wykresy interakcji II-ego stopnia.

Wyniki:

W pierwszej kolejności prezentowane są informację o zbiorze danych i o analizowanych czynnikach.

Informacje o poziomie klasyfikacji

Klasa Poziomy Wartości

BLOK 3 Blok_1 Blok_2 Blok_3

DAWKA_N 3 N0 N60 N90

FUNGICYD 3 Z0 Z1 Z2

INSEKTYCYD 2 n t

Liczba obserwacji wczytanych 54

Liczba obserwacji użytych 54

Następnie prezentowane są wyniki analizy wariancji.

Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F

Model 19 189.1740741 9.9565302 3.68 0.0005

Błąd 34 91.9940741 2.7057081

Razem skorygowane 53 281.1681481

R-kwadrat Wsp. war. Pierwiastek MSE Średnia PLON_dt

0.672815 3.728688 1.644904 44.11481

Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F

BLOK 2 26.67259259 13.33629630 4.93 0.0132

DAWKA_N 2 69.53925926 34.76962963 12.85 <.0001

FUNGICYD 2 34.05481481 17.02740741 6.29 0.0047

INSEKTYCYD 1 7.26000000 7.26000000 2.68 0.1106

DAWKA_N*FUNGICYD 4 34.28740741 8.57185185 3.17 0.0257

DAWKA_N*INSEKTYCYD 2 0.59111111 0.29555556 0.11 0.8968

FUNGICYD*INSEKTYCYD 2 11.87111111 5.93555556 2.19 0.1270

DAWKA_*FUNGIC*INSEKT 4 4.89777778 1.22444444 0.45 0.7698

Na podstawie przeprowadzonej analizy odrzucono hipotezy mówiące o: braku wpływu nawożenia azotem na uzyskiwane plony jęczmienia jarego; braku różnic pomiędzy zastosowanymi fungicydami; o nie występowaniu interakcji pomiędzy nawożeniem azotem i zastosowanymi fungicydami. Nie odrzucono natomiast hipotez mówiących o: braku wpływu zastosowania insektycydu na uzyskane plony; niewystępowaniu interakcji pomiędzy nawożeniem azotem i zastosowaniem insektycydu; niewystępowaniu interakcji pomiędzy zastosowanym fungicydem i zastosowaniem insektycydu; niewystępowaniu interakcji III-ego

stopnia pomiędzy dawką nawożenia azotowego, zastosowany fungicydem i użyciem insektycydu. Dodatkowo stwierdzono występowanie istotnych różnic pomiędzy blokami (zmienność systematyczna).

Page 37: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 37

DARIUSZ R. MAŃKOWSKI

Następnie w wynikach prezentowane są podziały na grupy jednorodne procedurą Gabriela.

Alpha 0.05

Niepoprawne stopnie swobody 34

Kwadrat błędu średniej 2.705708

Wartość krytyczna studentyzowanego maksimum modułu 2.50591

Różnica minimalnie znacząca 1.374

Średnie z tą samą literą nie różnią się znacząco.

Grupowanie SMM Średnia N DAWKA_N

A 45.5333 18 N90

B 44.0556 18 N60

B

B 42.7556 18 N0

Alpha 0.05

Niepoprawne stopnie swobody 34

Kwadrat błędu średniej 2.705708

Wartość krytyczna studentyzowanego maksimum modułu 2.50591

Różnica minimalnie znacząca 1.374

Średnie z tą samą literą nie różnią się znacząco.

Grupowanie SMM Średnia N FUNGICYD

A 45.2111 18 Z0

B 43.7778 18 Z2

B

B 43.3556 18 Z1

Alpha 0.05

Niepoprawne stopnie swobody 34

Kwadrat błędu średniej 2.705708

Wartość krytyczna studentyzowanego maksimum modułu 2.03228

Różnica minimalnie znacząca 0.9098

Średnie z tą samą literą nie różnią się znacząco.

Grupowanie SMM Średnia N INSEKTYCYD

A 44.4815 27 n

A

A 43.7481 27 t

Na podstawie prezentowanych wyników można stwierdzić, że:

— najwyższe plony uzyskano przy dawce azotu 90 kg/ha, istotnie niższe przy dawkach 60 i 0 kg/ha;

Page 38: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

38 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

— najwyższe plony osiągnięto przy zabiegach wykonanych fungicydem Z0, istotnie niższe w przypadku użycia fungicydów Z1 i Z2;

— nie stwierdzono różnic w plonach w przypadku użycia bądź nie insektycydu.

Na konie wyników zaprezentowane zostały wykresy interakcji II-ego stopnia.

Analiza wariancji pozwoliła na stwierdzenie występowania jedynie interakcji II-ego stopnia

pomiędzy dawką nawożenia azotowego i zastosowanym fungicydem. Na wykresie przedstawiającym tę interakcję widać, iż fungicyd Z1 powodował spadki w uzyskiwanych

plonach jedynie przy dawkach nawożenia azotowego 0 i 60 kg/ha, przy dawce 90 kg/ha nie obserwowano obniżenia plonów. Fungicyd Z2 powodował wzrost plonów jęczmienia jarego jedynie przy dawce azotu 0 kg/ha, przy dwóch pozostałych dawkach obserwowano spadki

plonowania.

Nie stwierdzono występowania istotnej interakcji III-ego stopnia (patrz tabela analizy

wariancji).

Przykład 2

W doświadczeniu trójczynnikowym (układ całkowicie losowy) badano wpływ dwóch dawek nawożenia azotem na zwartość białka w pięciu odmianach jęczmienia jarego uprawianego w trzech miejscowościach (Jęczmień jary 3.xls).

Przeprowadzić analizę wariancji, średnie grupować procedurą Bonferroniego, wykonać wykresy dla interakcji II-ego stopnia.

3.3. Analiza kowariancji

Analiza wariancji pozwala porównać obiekty pod względem pewnej cechy, gdy podlega ona dla każdego obiektu tylko zmienności przypadkowej (losowej) i nie jest równocześnie uzależniona od innych cech. Zdarza się jednak, że obserwowana cecha ilościowa znajduje się pod wpływem innych cech ilościowych. Takie zmienne nazywamy zmiennymi towarzyszącymi. Zakłócają one prawidłową ocenę obserwowanej cechy. Analiza kowariancji pozwala wyeliminować wpływ zmiennych towarzyszących na końcową ocenę obiektów (wpływu czynników) według badanej cechy. Wykorzystuje ona między innymi analizę regresji obserwowanej cechy względem zmiennej towarzyszącej.

Page 39: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 39

DARIUSZ R. MAŃKOWSKI

Przykład 1

W doświadczeniu porównawczym badano różnice pomiędzy 12 odmianami fasoli (Fasola pogoda.xls). Doświadczenie założono w układzie losowanych bloków. Oceniano między innymi plon z poletka. Dodatkowo odnotowano sumy temperatur i opadów w okresie wegetacji. Przeprowadzić analizę kowariancji z uwzględnieniem danych o temperaturze i opadach (zmienne towarzyszące), wyznaczyć wartości średnie poprawione dla odmian.

Wyniki:

Na początku prezentowane są informacje o analizowanych czynnikach i ich poziomach oraz informacje o liczbie wykorzystanych obserwacji.

Informacje o poziomie klasyfikacji

Klasa Poziomy Wartości

Blok 3 1 2 3

Odmiana 12 ATUT AUGUST AURA BOR JUBILAT MELA NAREW NIDA POLANK PROSNA WARTA WENTA

Liczba obserwacji wczytanych 36

Liczba obserwacji użytych 36

Następnie prezentowane są wyniki analizy wariancji z uwzględnieniem zmiennych towarzyszących (element regresyjny).

Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F

Model 15 5.28635411 0.35242361 9.03 <.0001

Błąd 20 0.78088361 0.03904418

Razem skorygowane 35 6.06723772

R-kwadrat Wsp. war. Pierwiastek MSE Średnia Plon_z_poletka

0.871295 18.01149 0.197596 1.097055

Źródło St. sw. Type I Suma kw. Średnia kwadratów Wartość F Pr > F

Blok 2 0.36018648 0.18009324 4.61 0.0225

Odmiana 11 4.92577267 0.44779752 11.47 <.0001

Suma_temperatur 1 0.00014902 0.00014902 0.00 0.9514

Suma_opadów 1 0.00024594 0.00024594 0.01 0.9375

Na podstawie przeprowadzonej analizy możemy stwierdzić, że pomiędzy odmianami występowały istotne różnice. Istotnie różniły się również bloki. Zmienne towarzysząc nie odznaczały się istotnym wpływem na obserwowane plony fasoli.

Na koniec prezentowane są wartości średnich poprawionych (LSMenas) plonów dla badanych w doświadczeniu odmian.

Odmiana Plon_z_poletka LSMEAN

ATUT 0.95277161

AUGUST 0.57797882

AURA 1.25797118

BOR 0.81429834

JUBILAT 0.60956151

MELA 0.77042158

NAREW 1.25442180

Page 40: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

40 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

NIDA 1.29004122

POLANK 1.74891336

PROSNA 1.48401653

WARTA 1.58811112

WENTA 0.81615342

Przykład 2

W doświadczeniu porównawczym badano różnice pomiędzy 12 odmianami fasoli (Fasola pogoda.xls). Doświadczenie założono w układzie losowanych bloków. Oceniano między innymi zawartość białka w nasionach. Dodatkowo odnotowano sumy temperatur i opadów w okresie wegetacji. Przeprowadzić analizę kowariancji z uwzględnieniem danych o temperaturze i opadach (zmienne towarzyszące),

wyznaczyć wartości średnie poprawione dla odmian.

Page 41: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 41

DARIUSZ R. MAŃKOWSKI

4. Badanie zależności pomiędzy cechami

W badaniach przyrodniczych bardzo często mamy styczność z różnego rodzaju zależnościami pomiędzy obserwowanymi cechami. Wyróżniamy przy tym cztery typy

zależności: brak zależności, współliniowość, interakcje i korelacje. Poniższe rysunki stanowią graficzną interpretację tych zależności:

brak zależności

współliniowość

interakcja

korelacja

Z punktu widzenia statystki najciekawsze i godne uwagi oraz analizy są interakcje i korelacje. Na identyfikację i analizę interakcji pozwala analiza wariancji. Korelacje natomiast identyfikuje się z wykorzystaniem analizy współczynników korelacji, a opisuje się je za pomocą analizy funkcji regresji.

Najczęściej bada się występowanie korelacji o charakterze liniowym (tak jak na powyższym rysunku).

Współczynnik korelacji jest definiowany jako miara siły oddziaływań pomiędzy cechami. Przyjmuje on wartości z zakresu od –1 do 1, przy czym 0 oznacza brak korelacji. Wartości z zakresu oraz świadczą o bardzo silnej zależności (korelacji), wartości z zakresu oraz świadczą o średniej zależności (korelacji), natomiast wartości z zakresu oraz — o słabej zależności (korelacji). Wartości –1 i 1 świadczą o idealnie liniowej zależności pomiędzy cechami. Ujemne wartości współczynnika korelacji mówią o zależności odwrotnie proporcjonalnej (czyli jeżeli wartość jednej cechy rośnie, to wartość drugiej cechy maleje), a wartości dodatnie o zależności wprost proporcjonalnej (czyli jeżeli wartość jednej cechy rośnie, to wartość drugiej cechy również rośnie).

Silna zależność Słaba zależność Brak zależności Słaba zależność Silna zależność

–1 –0,5 0 +0,5 +1

Zależność odwrotnie proporcjonalna Zależność wprost proporcjonalna

0

1

2

3

4

5

6

7

8

9

10

1 2 3

A

B

0

2

4

6

8

10

12

1 2 3

A

B

0

2

4

6

8

10

12

14

1 2 3

A

B

0

1

2

3

4

5

6

7

8

9

10

1 2 3

B

A

Page 42: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

42 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Aby przeprowadzić analizę współczynnika korelacji liniowej w EG, należy wejść do menu „Analizuj:, następnie wybrać opcję „Wielowymiarowe” i opcję „Korelacje…” (AnalizujèWielowymiaroweèKorelacje…).

Po uruchomieniu analizy zostaje otwarte okno opcji.

W części „Role zadania” wskazujemy które zmienne chcemy analizować. Jeżeli chcemy uzyskać tak zwaną „macierz korelacji” czyli współczynniki korelacji pomiędzy wszystkimi analizowanymi cechami, to te cechy przeciągamy do pola „Zmienne analizowane” w okienku po prawej stronie. Jeżeli natomiast chcemy wyznaczyć współczynniki korelacji pomiędzy dwoma cechami lub dwoma grupami cech, to pierwszą z nich przypisujemy do opcji „Zmienne analizowane”, a drugą do opcji „Koreluj z”. W części „Opcje” możemy wybrać, który współczynnik korelacji ma być analizowany. Możemy wybrać również dodatkowe obliczenia, których wyniki będą prezentowane w raporcie.

W części rezultaty możemy wskazać, jakie elementy mają być wyświetlane w wynikach oraz czy mają być prezentowane wykresy rozrzutu obserwacji.

W części „Dane wynikowe” możemy zapisać wyniki analizy do zewnętrznego zbioru w celu ich dalszego wykorzystania.

4.1. Analiza współczynnika korelacji liniowej Pearsona

Jeżeli obie badane cechy, pomiędzy którymi szukamy zależności, są cechami ilościowymi ciągłymi, to do opisu zależności korelacyjnej wykorzystujemy współczynnik korelacji liniowej Pearsona.

Stawiamy hipotezę zerową mówiącą o tym, że nie ma zależności pomiędzy badanymi cechami. Tak postawioną hipotezę zerową weryfikujemy testując współczynnik korelacji liniowej Pearsona statystyką t-Studenta.

Przykład 1

Sprawdzić czy występuje zależność (korelacja) pomiędzy plonem pszenżyta ozimego (zbiór Pszenżyto ozime 1.xls) a liczbą ziarniaków w kłosie. Sporządzić wykres rozrzutu.

Page 43: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 43

DARIUSZ R. MAŃKOWSKI

Wyniki:

W pierwszej kolejności w wynikach prezentowane są informacje dotyczące analizowanych

zmiennych oraz podstawowe statystyki dla tych zmiennych (liczba obserwacji, wartości średnie, odchylenia standardowe, suma, minima i maksima).

1 Z Zmienne: Liczba_ziarniakow_w_klosie

1 Zmienne: Plon

Statystyki proste

Zmienna N Średnia Odch. std. Suma Minimum Maksimum

Liczba_ziarniakow_w_klosie 72 30.91528 2.83582 2226 24.60000 38.50000

Plon 72 7.07806 0.58324 509.62000 5.97000 8.46000

Następnie prezentowana jest tabela z współczynnikami korelacji. Na przecięciu się kolumny i wiersza z analizowanymi cechami znajdują się dwie wartości liczbowe. Górna oznacza

współczynnik korelacji liniowej Pearsona, a dolna — p-value dla tego współczynnika korelacji.

Współczynniki korelacji Pearsona, N = 72 Prob > |r| przy H0: Ro=0

Plon

Liczba_ziarniakow_w_klosie Liczba_ziarniakow_w_klosie

0.35007 0.0026

W wyniku przeprowadzonej analizy współczynnika korelacji liniowej Pearsona pomiędzy plonem pszenżyta ozimego a liczbą ziarniaków w kłosie odrzucamy hipotezę zerową mówiącą o braku zależności (korelacji) pomiędzy tymi cechami. Stwierdzamy zatem występowanie zależności. Jest to zależność wprost proporcjonalna (dodatni współczynnik korelacji) i słaba (współczynnik korelacji < 0,5).

Na koniec prezentowany jest wykres rozrzutu obrazujący zależność pomiędzy analizowanymi cechami.

Przykład 2

Sprawdzić czy występuje zależność (korelacja) pomiędzy plonem pszenżyta ozimego (zbiór Pszenżyto ozime 1.xls) a liczbą kłosów na metrze kwadratowym i MTZ. Sporządzić wykresy rozrzutu.

4.2. Analiza współczynnika korelacji rangowej Spearmana

Jeżeli przynajmniej jedna spośród cech, pomiędzy którymi szukamy zależności, jest cechą skokową porządkową, to do opisu zależności korelacyjnej wykorzystujemy współczynnik korelacji rangowej Spearmana.

Stawiamy hipotezę zerową mówiącą o tym, że nie ma zależności pomiędzy badanymi cechami. Tak postawioną hipotezę zerową weryfikujemy testując współczynnik korelacji rangowej Spearmana statystyką t-Studenta.

Page 44: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

44 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Przykład 1

W badaniach ankietowych gospodarstw indywidualnych zbierano szereg

informacji o uprawianych roślinach rolniczych, w tym pszenicy ozimej (Pszenica ozima-odsiewy.xls). Zbierano między innymi informacje o plonie i rodzaju użytego materiału siewnego (Odsiew: 1 — superelita lub elita, 2 — oryginał, 3 — I odsiew,

4 — dalsze odsiewy, 5 — materiał niekwalifikowany własny bądź z zakupu lub wymiany). Sprawdzić czy istnieje korelacja pomiędzy plonem pszenicy ozimej (zmienna ciągła) i odsiewem (zmienna skokowa, porządkowa). Sporządzić wykres rozrzutu.

Wyniki:

W pierwszej kolejności w wynikach prezentowane są informacje dotyczące analizowanych zmiennych oraz podstawowe statystyki dla tych zmiennych (liczba obserwacji, wartości średnie, odchylenia standardowe, suma, minima i maksima).

1 Z Zmienne: Odsiew

1 Zmienne: Plon

Statystyki proste

Zmienna N Średnia Odch. std. Mediana Minimum Maksimum Etykieta

Odsiew 591 4.08291 1.12817 5.00000 1.00000 5.00000 Odsiew

Plon 595 41.94672 11.58782 40.00000 7.50000 80.00000 Plon

Następnie prezentowana jest tabela z współczynnikami korelacji. Na przecięciu się kolumny i wiersza z analizowanymi cechami znajdują się dwie wartości liczbowe. Górna oznacza

współczynnik korelacji rangowej Spearmana, a dolna — p-value dla tego współczynnika korelacji.

Współczynniki korelacji Spearmana Prob > |r| przy H0: Ro=0

Liczba obserwacji

Plon

Odsiew Odsiew

-0.44320 <.0001

591

Na podstawie przeprowadzonej analizy współczynnika korelacji rangowej Spearmana odrzucono hipotezę zerowa mówiącą o braku zależności pomiędzy analizowanymi cechami. Stwierdzono występowanie zależności (korelacji) pomiędzy plonem a rodzajem użytego materiału siewnego. Zależność ta jest słaba i odwrotnie proporcjonalna. Im lepszy materiał siewny (wyższy numer klasy odsiewu wg przyjętej skali), tym wyższe plony pszenicy ozimej.

Na koniec prezentowany jest wykres rozrzutu obrazujący zależność pomiędzy analizowanymi cechami.

Page 45: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 45

DARIUSZ R. MAŃKOWSKI

Przykład 2

W badaniach ankietowych gospodarstw indywidualnych zbierano szereg

informacji o uprawianych roślinach rolniczych, w tym rzepaku (Rzepak-

odsiewy.xls). Zbierano między innymi informacje o plonie i rodzaju użytego materiału siewnego (Odsiew: 1 — superelita lub elita, 2 — oryginał, 3 — I odsiew,

4 — dalsze odsiewy, 5 — materiał niekwalifikowany własny bądź z zakupu lub wymiany). Sprawdzić czy istnieje korelacja pomiędzy plonem rzepaku (zmienna ciągła) i odsiewem (zmienna skokowa, porządkowa). Sporządzić wykres rozrzutu.

4.3. Analiza funkcji regresji prostej (regresji liniowej)

Zależność liniową dwóch zmiennych losowych można zapisać matematycznie za pomocą funkcji liniowej zwanej funkcją regresji prostej lub funkcją regresji liniowej. Funkcja ta jest zapisywana w postaci:

gdzie: — zmienna zależna (determinowana), — zmienna opisująca (determinująca), — stała regresji;

— współczynnik regresji; — błąd losowy (tak zwana reszta), .

Do oceny wartości parametrów funkcji regresji liniowej (stałej regresji i współczynnika regresji) wykorzystuje się MNK (Metodę Najmniejszych Kwadratów). W trakcie analizy funkcji regresji liniowej przeprowadza się dwa testowania. Pierwszy test statystyczny (tak zwane testowanie łączne) weryfikuje hipotezę zerową mówiącą o tym, że zarówno stała jak i współczynnik regresji są równe 0. Hipotezę tę można zinterpretować jako mówiącą o tym, że wyznaczony model regresji nie opisuje zależności pomiędzy cechami. Do weryfikacji tej hipotezy wykorzystuje się test F analizy wariancji. Drugi test statystyczny (tak zwane testowanie

szczegółowe) weryfikuje dwie hipotezy statystyczne. Pierwsza hipoteza mówi o tym, że stała regresji jest równa 0 (czyli, że punkt przecięcia funkcji z osią Y jest w punkcie 0). Druga hipoteza mówi o tym, że współczynnik regresji jest równy 0 (czyli, że funkcja jest stała i nie zmienia się wraz ze zmianą wartości X). Do weryfikacji obu tych hipotez wykorzystuje się test t-Studenta.

Dodatkowym, bardzo istotnym parametrem wyznaczanym podczas analizy funkcji regresji

liniowej jest współczynnik determinacji (oznaczany jako ). Jest on wyrażany w procentach lub w postaci ułamka dziesiętnego. Mówi o stopniu dopasowania funkcji regresji do rzeczywistych obserwacji. Czasami tłumaczy się go jako stopień wytłumaczenia obserwowanej zmienności wartości cech przez wyznaczoną funkcję regresji liniowej.

Aby przeprowadzić analizę funkcji regresji liniowej w SAS EG należy wybrać z menu „Analizuj” opcję „Regresja”, a następnie „Regresja liniowa…” (AnalizujèRegresjaèRegresja liniowa…).

Otworzy się okno opcji analizy. W części „Role zadania” wskazujemy zmienną zależną oraz zmienną objaśniającą. Część „Model” ma zastosowanie przy regresji wielokrotnej. Podczas omawiania tego typu

regresji zostanie ona szerzej opisana. Część „Statistics” zawiera opcje służące do wyświetlania w wynikach wybranych parametrów i statystyk dla wyznaczonego modelu funkcji regresji (między innymi: standaryzowane współczynniki regresji, macierze korelacji i kowariancji ocen,

Y

X

Page 46: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

46 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

przedziały ufności dla ocen parametrów, statystyki służące do badania funkcji regresji1),

korelacje cząstkowe i korelacje półcząstkowe). W części „Wykresy — Przewidywane” możemy zdecydować, jakie wykresy dla obserwacji przewidywanych będą wykonane („Obserwowane do przewidywanych” i „Obserwowane do niezależnych”). Dodatkowo na wykresie „Obserwowane do niezależnych” można zaznaczyć obszar ufności lub obszar predykcji dla wyznaczonej funkcji regresji liniowej.

W części „Wykresy — Reszta” można wybrać, jakie wykresy dla reszt będą sporządzone („Zwyczajne do przewidywanych Y”, „Standaryzowane do przewidywanych Y”, „Studentyzowane do przewidywanych Y”, („Zwyczajne do niezależnych”, „Standaryzowane do niezależnych” oraz „Studentyzowane do niezależnych”). W części „Wykresy — Wpływ” możemy wskazać, jakie wykresy związane z analizą obserwacji wpływających (influential observation) mają być sporządzane (element badania funkcji regresji).

1)

— Szczegółowy opis badania funkcji regresji liniowej i wielokrotnej będzie zamieszczony przy okazji omawiania zaawansowanych możliwości analizy regresji w środowisku programistycznym SAS®.

Page 47: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 47

DARIUSZ R. MAŃKOWSKI

Część „Prognozy” służy do prognozowania, na podstawie wyznaczonego modelu regresji,

wartości zmiennej opisywanej na podstawie zmiennej opisującej.

Przykład 1

W pewnym gospodarstwie badano w ciągu dziesięciu kolejnych lat przeciętne dzienne spożycie ziemniaków w kilogramach (X) i wielkość spożycia artykułów zbożowych w kilogramach (Y), przypadającą na jednego członka rodziny (Spożycie.xls). Zbadać, jaka jest zależność między cechami X oraz Y. Sporządzić wykres funkcji z wyznaczonym obszarem ufności dla tej funkcji.

Wyniki:

W pierwszej kolejności, w wynikach, prezentowana jest informacja o liczbie danych

w zbiorze i liczbie danych wykorzystanych w obliczeniach.

Liczba obserwacji wczytanych 10

Liczba obserwacji użytych 10

Następnie prezentowana jest tabela analizy wariancji z wynikami z testowania hipotezy łącznej mówiącej o zerowej wartości stałej i współczynnika regresji.

Analiza wariancji

Źródło St. sw. Suma

kwadratów Średnia

kwadratów Wartość F Pr > F

Model 1 0.27273 0.27273 119.43 <.0001

Błąd 8 0.01827 0.00228

Razem skorygowane 9 0.29100

Na podstawie przeprowadzonej analizy wariancji odrzucamy hipotezę zerową mówiącą o zerowych wartościach stałej i współczynnika regresji. Można więc stwierdzić, że wyznaczony model opisuje występującą zależność pomiędzy wielkością spożycia ziemniaków i wielkością spożycia artykułów zbożowych.

Następnie prezentowane są statystyki dopasowania modelu.

Śr. bł. kw. 0.04779 R-Square 0.9372

Średnia zależna 0.52000 Adj R-Sq 0.9294

Wsp. war. 9.18971

Wyznaczony model w 93,72% (R2) opisuje występującą zależność pomiędzy cechami.

Kolejnym elementem wyników jest tabela zawierająca oszacowane wartości stałej regresji (intercept) i współczynnika regresji. W tej samej tabeli znajdują się wyniki testowania szczegółowego dla hipotez, mówiących o zerowej wartości stałej regresji i o zerowej wartości

współczynnika regresji.

Page 48: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

48 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Oceny parametrów

Zmienna Etykieta St. sw. Ocena

parametru Błąd

standardowy Wartość t Pr > |t|

Intercept Intercept 1 1.31320 0.07414 17.71 <.0001

Ziemniaki Ziemniaki 1 -1.08658 0.09943 -10.93 <.0001

Na podstawie prezentowanych wyników odrzucamy obydwie postawione hipotezy zerowe.

Stwierdzamy więc, że stała regresji (intercept) wynosi 1,31 (czyli, że przy zerowym spożyciu ziemniaków, w badanym gospodarstwie spożywano około 1,31 kg artykułów zbożowych dziennie na głowę. Współczynnik regresji wynosi –1,09 (oznacza to, że jeżeli dzienne spożycie ziemniaków na głowę wzrastało o 1 kg to równocześnie spożycie artykułów zbożowych malało o 1,09 kg (zależność odwrotnie proporcjonalna). Tak więc wyznaczona funkcja regresji liniowej ma postać:

Na koniec prezentowany jest wykres funkcji regresji liniowej („Obserwowane do niezależnych”) wraz z wyznaczonym dla niej obszarem ufności.

Przykład 2

Opisać zależność między plonem pszenżyta ozimego (zbiór Pszenżyto ozime 1.xls) a liczbą ziarniaków w kłosie za pomocą funkcji regresji liniowej. Sporządzić wykres tej funkcji.

4.4. Analiza funkcji regresji wielokrotnej (wielorakiej)

Funkcja regresji liniowej opisuje zależność pomiędzy zmienną zależną (Y) a jedną zmienną opisującą (X). tymczasem często zdarza się, że na obserwowaną cechę ciągłą wpływa więcej niż jedna cecha ilościowa. Do opisu takiej zależności stosuje się analizę regresji wielokrotnej zwanej

również analizą regresji wielorakiej. Funkcję tą zapisuje się w postaci:

gdzie: — zmienna zależna (determinowana), — zmienne opisujące (determinujące), — stała regresji; — cząstkowe współczynniki regresji; — błąd losowy (tak zwana reszta), .

W notacji macierzowej model regresji wielokrotnej można zapisać jako:

gdzie: — wektor obserwacji zmiennej zależnej ; — macierz wektorów obserwacji zmiennych

niezależnych ; — wektor estymowanych parametrów; — wektor błędów losowych (reszt); — liczba

zmiennych niezależnych ; .

Page 49: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 49

DARIUSZ R. MAŃKOWSKI

Obrazem graficznym funkcji regresji liniowej dwóch zmiennych była linia prosta w układzie dwóch współrzędnych (na płaszczyźnie). Obrazem graficznym funkcji regresji liniowej

wielokrotnej jest płaszczyzna w p’ wymiarowej przestrzeni.

Dla przykładu jeżeli zmienna zależna Y zależy od dwóch zmiennych niezależnych X1 i X2, to

obrazem graficznym funkcji regresji wielokrotnej, opisującej tę zależność będzie płaszczyzna w przestrzeni trójwymiarowej ( ).

Analizę funkcji regresji wielokrotnej w programie EG wykonuje się identycznie jak w przypadku analizy regresji liniowej dwóch zmiennych (AnalizujèRegresjaèRegresja

liniowa…). Jedynie w części „Role zadania” wskazuje się więcej niż jedną zmienną niezależną. Dodatkowo w części „Model” możemy wybrać sposób, w jaki mają być dobierane zmienne do modelu regresji wielokrotnej („Dopasowanie całego modelu” — domyślne; „Wybór następnych” — selekcja w przód, „Eliminacja poprzednich” — selekcja w tył, „Wybór krokowy” — selekcja

dwukierunkowa („stepwise”) oraz selekcja na podstawie R2 i poprawionego R2).

O ile w regresji liniowej dwóch zmiennych podstawowym parametrem opisującym dopasowanie funkcji był współczynnik determinacji R2, o tyle w przypadku funkcji regresji

liniowej wielokrotnej zaleca się stosowanie poprawionego współczynnika determinacji R2 ze

względu na stopnie swobody. Normalny współczynnik determinacji w przypadku regresji wielu zmiennych charakteryzuje się wzrostem swojej wartości niezależnie czy do modelu regresyjnego dodamy zmienne rzeczywiście (istotnie) wpływające na zmienną zależną, czy też nie. Może to prowadzić do tego, że najwyższy współczynnik determinacji będzie miał model regresji wielokrotnej zawierający zmienne nie wpływające na zmienną zależną. Dlatego też opracowano poprawiony współczynnik determinacji, którego wartość rośnie tylko wtedy gdy do

modelu dodawane są zmienne istotnie wpływające na zmienną zależną. Jeżeli do modelu zostanie dodana zmienna, która nie wpływa na zmienną zależną, to wartość poprawionego współczynnika determinacji zmaleje.

W ocenie współczynników regresji wielokrotnej uzyskanych metodą MNK testowane są: hipoteza łączna mówiącej o zerowej wartości stałej i wszystkich cząstkowych współczynników regresji (analiza wariancji); oraz p’ hipotez szczegółowych mówiących o zerowych wartościach stałej i każdego z cząstkowych współczynników regresji (test t-Studenta).

Przykład 1

W doświadczeniu z jęczmieniem jarym (Jęczmień jary 4.xls) oznaczano plon

ziarna z rośliny oraz cechy mogące decydować o wysokości plonów (składowe plonu). Za pomocą regresji wielokrotnej opisać zależność pomiędzy plonem i jego składowymi. Zbudować pełen model regresji (bez selekcji zmiennych). Wyznaczyć standaryzowane współczynniki regresji.

Page 50: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

50 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Wyniki:

W pierwszej kolejności prezentowane są informacje o liczbie obserwacji w zbiorze danych

oraz o liczbie obserwacji wykorzystanych do obliczeń.

Liczba obserwacji wczytanych 320

Liczba obserwacji użytych 320

Następnie prezentowane są wyniki analizy wariancji, za pomocą której testuje się hipotezę łączną mówiącą o tym, że stała regresji jak i wszystkie cząstkowe współczynniki regresji są równe zero.

Analiza wariancji

Źródło St. sw. Suma

kwadratów Średnia

kwadratów Wartość F Pr > F

Model 6 2621.48215 436.91369 6875.49 <.0001

Błąd 313 19.89008 0.06355

Razem skorygowane 319 2641.37224

Na podstawie wyników analizy wariancji, hipotezę łączną odrzucamy. Tym samym stwierdzamy, że wyznaczony model regresji wielokrotnej opisuje występującą zależność pomiędzy plonem ziarna z rośliny jęczmienia jarego i jego składowymi.

Następną częścią wyników są statystyki dopasowania modelu.

Śr. bł. kw. 0.25208 R-Square 0.9925

Średnia zależna 5.04493 Adj R-Sq 0.9923

Wsp. war. 4.99679

Wyznaczony model regresji wielokrotnej w 99,23% (poprawiony R2) opisuje występującą zależność pomiędzy plonem i jego składowymi.

Następnie prezentowane są oszacowane wartości stałej regresji (intercept) i cząstkowych współczynników regresji oraz wyniki testowania szczegółowego przyrównującego poszczególne wyznaczone wartości parametrów do zera.

Oceny parametrów

Zmienna Etykieta St. sw. Ocena

parametru Błąd

standardowy Wartość t Pr > |t|

Intercept Intercept 1 0.46711 0.22413 2.08 0.0380

Liczba_ziaren_w_klosie Liczba_ziaren_w_klosie 1 -0.36591 0.02104 -17.39 <.0001

Liczba_ziaren_w_roslinie Liczba_ziaren_w_roslinie 1 0.04667 0.00094028 49.64 <.0001

Liczba_klosow_z_rosliny Liczba_klosow_z_rosliny 1 -0.10167 0.01283 -7.92 <.0001

Masa_ ziaren _z_klosa Masa_ziaren_z_klosa 1 7.77858 0.52670 14.77 <.0001

Masa_1_ziarniaka Masa_1_ziarniaka 1 0.01007 0.00594 1.70 0.0909

Liczba_pedow Liczba_pedow 1 -0.00193 0.00295 -0.65 0.5135

Na podstawie przedstawionych wyników hipotezy o zerowych wartościach parametrów nie odrzucono jedynie dla cząstkowych współczynników regresji dla masy jednego ziarniaka i liczby pędów z rośliny. Pozostałe parametry maja wartości niezerowe.

Na podstawie przedstawionych wyników nie możemy jednak jednoznacznie określić znaczenia poszczególnych składowych w budowie plonu. Ocenę taką można przeprowadzić dopiero na podstawie standaryzowanych współczynników regresji.

Page 51: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 51

DARIUSZ R. MAŃKOWSKI

Oceny parametrów

Zmienna Etykieta St. sw. Ocena

standaryzowana

Intercept Intercept 1 0

Liczba_ziaren_w_klosie Liczba_ziaren_w_klosie 1 -0.46832

Liczba_ziaren_w_roslinie Liczba_ziaren_w_roslinie 1 1.13902

Liczba_klosow_z_rosliny Liczba_klosow_z_rosliny 1 -0.15876

Masa_ziarn_z_klosa Masa_ziarn_z_klosa 1 0.47026

Masa_1_ziarniaka Masa_1_ziarniaka 1 0.01811

Liczba_pedow Liczba_pedow 1 -0.00516

Im wyższa wartość standaryzowanego współczynnika regresji tym większe znaczenie w budowaniu plonu ziaren z rośliny jęczmienia jarego.

Przykład 2

W doświadczeniu z jęczmieniem jarym (Jęczmień jary 4.xls) oznaczano plon

ziarna z rośliny oraz cechy mogące decydować o wysokości plonów (składowe plonu). Za pomocą regresji wielokrotnej opisać zależność pomiędzy plonem i jego składowymi. Zbudować pełen model stosując selekcję dwukierunkową „stepwise” („Wybór krokowy”).

Przykład 3

W doświadczeniach z uprawą traw na nasiona zbierano informację o strukturze

plonu (Trawy nasienne-struktura.xls). Zbadać zależności pomiędzy plonem i jego składowymi za pomocą analizy regresji wielokrotnej. Ocenić wagę składowych wyznaczając standaryzowane współczynniki regresji.

Page 52: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

52 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

5. Testy nieparametryczne

Podczas prowadzenia badań obserwujemy zwykle szereg cech. Często stawiamy sobie pytanie, czy badane cechy są ze sobą w jakiś sposób powiązane (zależne). Jeżeli badane cechy są mierzalne (ciągłe bądź skokowe) to do sprawdzenia czy występują zależności pomiędzy tymi

cechami wykorzystujemy analizę współczynników korelacji i analizę funkcji regresji. Jeżeli jednak przynajmniej jedna z dwóch badanych cech nie jest mierzalna (jest wyrażana jako kategoria, tzw. zmienna skategoryzowana), to do zbadania zależności jesteśmy zmuszeni wykorzystać tak zwane analizy nieparametryczne.

5.1. Testy chi-kwadrat

Podstawowym narzędziem statystycznym służącym do weryfikacji hipotezy zerowej w postaci: cechy A i B są niezależne, gdy przynajmniej jedna z tych cech jest cechą skategoryzowaną, jest test chi-kwadrat ( ) niezależności.

Test ten opiera się na danych zebranych w postaci tabel kontyngencji zwanych tabelami krzyżowymi. W tabeli takiej zestawia się w wierszach i w kolumnach liczebności wystąpienia danych kategorii badanych cech.

Cecha B

Ce

cha

A

Liczebności brzegowe: ,

Do weryfikacji wyżej postawionej hipotezy zerowej można wykorzystać trzy testy nieparametryczne:

— Test Pearsona

Obejmuje różnicę pomiędzy obserwowaną częstością wystąpień, a częstością oczekiwaną,

którą wyznacza się dla zachodzącej hipotezy o braku zależności pomiędzy cechami.

gdzie: — liczność oczekiwana, .

— Test ilorazu wiarygodności (likehood ratio)

Obejmuje iloraz częstości obserwowanej i częstości oczekiwanej.

— Test Mantela-Haenszela

Test chi-kwadrat Pearsona i test chi-kwadrat ilorazu wiarygodności nie uwzględniają pewnych informacji użytecznych w ocenie niezależności cech porządkowych. Jeżeli obie cechy (w rzędach i kolumnach tablicy kontyngencji) mają charakter porządkowy (reprezentują wartości zwiększające się bądź zmniejszające) możemy zweryfikować hipotezę zerową o braku zależności liniowej pomiędzy tymi cechami. Do weryfikacji takiej hipotezy zerowej stosujemy test chi-kwadrat Mantela-Haenszela.

gdzie: — współczynnik korelacji liniowej Pearsona pomiędzy badanymi cechami.

Page 53: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 53

DARIUSZ R. MAŃKOWSKI

Powyższe testy służą do weryfikacji postawionej hipotezy zerowej. W przypadku jej odrzucenia stwierdzamy, że występuje zależność pomiędzy badanymi cechami. Nie posiadamy jednak informacji o sile tej zależności. O ile w przypadku zmiennych ilościowych miarą siły oddziaływań między cechami jest współczynnik korelacji, o tyle w przypadku zmiennych skategoryzowanych należy wykorzystać jedną z prezentowanych poniżej miar:

— Współczynnik (FI)

Jest miarą zależności pomiędzy cechami. Wywodzi się on z testu chi-kwadrat Pearsona.

Przyjmuje wartości z zakresu dla tablic kontyngencji o wymiarach , oraz

dla tablic o wymiarach , gdzie .

— Współczynnik wielodzielczy

Jest miarą zależności pomiędzy cechami skokowymi. Podobnie jak współczynnik wywodzi

się on z testu chi-kwadrat Pearsona. Przyjmuje wartości z zakresu , gdzie

.

— Współczynnik V Cramera

Podobnie jak współczynnik i współczynnik wielodzielczy, wywodzi się z testu chi-kwadrat

Pearsona i jest miarą zależności pomiędzy cechami skokowymi. Współczynnik ten przyjmuje wartości z zakresu dla tablic kontyngencji o wymiarach , oraz dla

tablic o wymiarach , gdzie .

Wymienione testy nieparametryczne i miary siły zależności są uważane za klasyczne i podstawowe metody analizy zależności pomiędzy zmiennymi skategoryzowanymi. Istnieje szereg różnych innych testów, które mogą znaleźć zastosowanie w analizie zależności tych cech.

Testy te jednak mają z reguły konkretne zastosowania w konkretnych przypadkach. My jednak skupimy się na wyżej opisanych testach chi-kwadrat niezależności cech skokowych.

Aby w EG wykonać analizę niezależności cech skokowych z menu „Opisz” wybieramy „Analiza kontyngencji…” (OpiszèAnaliza

kontyngencji…).

Po uruchomieniu analizy wyświetlane są okna dialogowe służące do ustawienia parametrów analizy.

W części „Role zadania” wskazujemy dwie cechy, które mają być analizowane. W części „Tabele” za pomocą myszki przenosimy na

obraz prezentujący schemat tabeli wybrane cechy ustawiając jedną jako kolumny, z drugą jako wiersze. W części „Statystyki komórek” zaznaczamy informacje, które mają być wyświetlane w tabeli kontyngencji (zaleca się zaznaczenie opcji: „Procenty wierszy”, „Procenty kolumn”, „Liczebność komórek” oraz „Procenty komórek”). W części „Statystyki tabel — Asocjacja” możemy wskazać testy zależności (asocjacji),

czyli testy chi-kwadrat niezależności (EG wykona wszystkie trzy opisane wyżej testy). W tej

Page 54: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

54 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

części można również zaznaczyć opcję służącą do wyliczenia wszystkich statystyk Cochrana-

Mantela-Haenszela. Są to: statystyka korelacji CMH, punktacje średniej wiersza (ANOVA) oraz skorygowane względne ryzyko i iloraz szans. Można również wybrać testy i miary zgodności dla tabel . Opcje dotyczące miar zgodności dla tabel pozwalają na wyliczenie kilku miar zgodności oraz ich asymptotycznych standardowe błędów (ASE). Są to następujące miary: gamma, tau-b Kendalla, tau-c Stuarta, D Somersa (C|R), D Somersa (R|C), współczynniki korelacji Pearsona i Spearmana, lambda (symetryczny i asymetryczny), a także współczynnik niepewności (symetryczny i asymetryczny). Dla tabel miara ta pozwala na wyznaczenie

stosunku szans, względnego ryzyka kolumny 1, względnego ryzyka kolumny 2 oraz odpowiadających im granic przedziałów ufności.

W części „Statystyki tabel — Zgodność” można wybrać opcje pozwalające na wyliczenie testów i miar klasyfikacji zgodności dla tabel kwadratowych ( ). Opcja umożliwia obliczenie testu McNemara dla tabel oraz testu symetrii Bowkera dla tabel o więcej niż dwóch kategoriach odpowiedzi. Opcja wylicza także prosty współczynnik kappa, ważony współczynnik kappa, asymptotyczne standardowe błędy dla prostego i ważonego współczynnika kappa oraz odpowiadające im granice przedziałów ufności. W przypadku wielu warstw oraz dwóch kategorii odpowiedzi, opcja wylicza również test Q Cochrana. Część „Statystyki tabel — Różnice uporządkowane” służy do wyliczania testu Jonckheerego-Terpstry, będącego nieparametrycznym testem uporządkowanych różnic pomiędzy klasami. W teście sprawdzana jest hipoteza zerowa o tym, że rozkład zmiennych objaśnianych nie różni się w poszczególnych klasach. Część „Statystyki tabel — Test trendu” pozwala na wyliczenie testu Cochrana-

Armitage'a dla trendu, sprawdzającego trendy w ułamkach dwumianowych dla wielu poziomów pojedynczego czynnika (zmiennej towarzyszącej). Test można wykorzystać dla tabeli kontyngencji, gdzie jedna zmienna ma dwa poziomy, a druga jest zmienną porządkową. Dwupoziomowa zmienna reprezentuje odpowiedź, natomiast druga zmienna reprezentuje

zmienną objaśniającą z uporządkowanymi poziomami. Część „Statystyki tabel — Opcje

obliczeniowe” służy do wyboru typu punktacji dla testu asocjacji, zgodności lub trendu. Typ

punktacji określa sposób punktowania wierszy i kolumn w statystykach chi-kwadrat Mantela-

Haenszela, Cochrana-Mantela-Haenszela, korelacji Pearsona, teście trendów Cochrana-

Page 55: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 55

DARIUSZ R. MAŃKOWSKI

Armitage'a oraz ważonego współczynnika kappa. Domyślnie do obliczeń brane są liczności z tabeli kontyngencji. W tej części znajduje się również opcja pozwalająca na uwzględnienie braków danych w obliczeniach procentów i innych statystyk. Można podać poziom ufności do obliczeń.

Część „Rezultaty — Rezultaty statystyki komórek” oraz „Rezultaty — Rezultaty statystyk

tabel” pozwalają na zapisanie uzyskanych wyników do zbiorów wynikowych, które mogą być wykorzystywane przy dalszych obliczeniach.

Przykład 1

Przeprowadzono badania ankietowe wśród 623 rolników uprawiających w roku 2002 pszenicę ozimą (Pszenica ozima-ankieta.xls). Między innymi zbierano informacje o wieku rolnika (zakodowaną według skali: 1 — do 30 lat, 2 — lat,

3 — lat, 4 — powyżej 50 lat) oraz o jakości stosowanego materiału siewnego (Odsiew zakodowany według skali: 1 — superelita lub elita, 2 — oryginał, 3 — I odsiew, 4 — dalsze odsiewy, 5 — materiał niekwalifikowany własny bądź z zakupu lub wymiany). Zbadać czy istnieje zależność pomiędzy tymi cechami.

Wyniki:

Pierwszym elementem wyników jest tabela kontyngencji z wyznaczonymi licznościami i udziałami procentowymi odpowiedzi.

Page 56: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

56 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Tabela Wiek na Odsiew

Wiek(Wiek) Odsiew(Odsiew)

Razem

Liczebn. Procent Proc. wierszy Proc. kolumn 1 2 3 4 5

1 3 0.48

5.77 60.00

0 0.00

0.00 0.00

15 2.41

28.85 11.54

8 1.28

15.38 10.67

26 4.17

50.00 6.84

52 8.35

2 0 0.00

0.00

0.00

9 1.44

5.73

27.27

37 5.94

23.57

28.46

23 3.69

14.65

30.67

88 14.13

56.05

23.16

157 25.20

3 2

0.32 0.74

40.00

17

2.73 6.27

51.52

50

8.03 18.45

38.46

29

4.65 10.70

38.67

173

27.77 63.84

45.53

271

43.50

4 0

0.00 0.00

0.00

7

1.12 4.90

21.21

28

4.49 19.58

21.54

15

2.41 10.49

20.00

93

14.93 65.03

24.47

143

22.95

Razem 5

0.80

33

5.30

130

20.87

75

12.04

380

61.00

623

100.00

Następnie prezentowane są wyniki nieparametrycznych testów niezależności.

Statystyka St. sw. Wartość Prawdop.

Chi-kwadrat 12 29.2152 0.0037

Chi-kw. ilorazu wiarygodn. 12 24.8809 0.0154

Chi-kwadrat Mantela-Haenszela 1 4.2286 0.0397

Współczynnik FI 0.2166

Współczynnik wielodzielczości 0.2116

V Cramera 0.1250

OSTRZEŻENIE: 25% komórek ma teoretyczne liczebności mniejsze niż 5. Chi-kwadrat może nie być właściwym testem.

Na podstawie uzyskanych wyników odrzucamy hipotezę zerową mówiącą o braku zależności między wiekiem rolnika a rodzajem stosowanego materiału siewnego (test chi-kwadrat

i chi-kwadrat ilorazu wiarygodności). Ponieważ obydwie analizowane cechy mają charakter porządkowy można w tym przypadku wykorzystać test Mantela-Haenszela do sprawdzenia czy

występuje liniowa zależność pomiędzy cechami. Wyniki analizy pozwalają na odrzucenie hipotezy zerowej mówiącej, iż pomiędzy badanymi cechami nie występuje zależność liniowa. Tak więc stwierdzamy, że cechy te są zależne (rodzaj stosowanego materiału siewnego zależy od wieku rolnika), co więcej zależność ta ma charakter liniowy. W celu odnalezienia stwierdzonej

zależności należy cofnąć się do tabeli kontyngencji i przeanalizować zawarte tam informacje o strukturze procentowej odpowiedzi. Z tabeli można odczytać, że wraz z wiekiem rośnie odsetek rolników stosujących niekwalifikowany materiał siewny. Patrząc na wartości współczynników mówiących o sile zależności możemy stwierdzić, że występująca zależność pomiędzy badanymi cechami jest raczej słaba.

Pod tabelą zawierającą wyniki testów chi-kwadrat znajduje się komentarz mówiący, iż pewna część komórek ma liczności teoretyczne (spodziewane) mniejsze niż 5 i w związku z tym testy chi-kwadrat mogą nie być właściwe do analizy tych danych. Testy chi-kwadrat są wrażliwe na zbyt małą liczbę danych, jednak w naszym przypadku analizujemy ponad 600 obserwacji,

w związku z czym testy chi-kwadrat dają miarodajne i godne zaufania wyniki.

Page 57: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 57

DARIUSZ R. MAŃKOWSKI

Przykład 2

Przeprowadzono badania ankietowe wśród 623 rolników uprawiających w roku 2002 pszenicę ozimą (Pszenica ozima-ankieta.xls). Między innymi zbierano informacje o wykształceniu rolnika (zakodowane według skali: 0 — niepełne podstawowe, 1 — podstawowe, 2 — zawodowe nierolnicze, 3 — zawodowe rolnicze,

4 — techniczne nierolnicze, 5 — techniczne rolnicze, 6 — średnie ogólnokształcące, 7 — wyższe nierolnicze, 8 — wyższe rolnicze) oraz o jakości stosowanego materiału siewnego (Odsiew zakodowany według skali: 1 — superelita lub elita, 2 — oryginał, 3 — I odsiew, 4 — dalsze odsiewy, 5 — materiał niekwalifikowany własny bądź z zakupu lub wymiany). Zbadać czy istnieje zależność pomiędzy tymi cechami.

Page 58: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

58 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

6. Analizy wielowymiarowe

Najczęściej w badaniach rolniczych analizuje się pojedyncze obserwowane cechy. Jednak czasami zdarza się, że w toku prac badawczych zbieramy szereg informacji, cech opisujących badane obiekty. Zdarza się wówczas, że szereg analiz przeprowadzonych na pojedynczych cechach nie pozwala nam na całościowe podejście do badanego zagadnienia. Wówczas z pomocą przychodzą analizy wielowymiarowe.

Analizy wielowymiarowe wykorzystują wiele cech opisujących badane obiekty jednocześnie. Pozwalają na grupowanie obiektów (np. analiza składowych głównych, analiza skupień), opisanie zmienności obiektów (np. PCA, analiza czynnikowa) czy też pozwalają na redukcję wymiarów (np. analiza czynnikowa, PCA).

6.1. Analiza czynnikowa (Factor Analysis)

Analiza czynnikowa bazuje na założeniu, że w grupie cech opisujących badane obiekty znajduje się jeden bądź kilka czynników opisujących zmienność pomiędzy tymi obiektami. Celem analizy jest wskazanie tych czynników i opisanie ich budowy oraz działania. Najczęściej stosuje się analizę czynnikową do „redukcji wymiarów”, czyli do wskazania tych grup cech, które faktycznie odpowiadają za obserwowaną zmienność pomiędzy obiektami. Pozostałe cechy mogą być pominięte w dalszych analizach.

Jest bardzo wiele rodzajów analizy czynnikowej. Najczęściej stosuje się jednak analizę czynnikową opartą na metodzie składowych głównych Hotellinga (polega ona na przypisaniu

czynnika wektorowi własnemu dla j-tej wartości własnej macierzy kowariancji) z kryterium Kaisera (do zespołu czynników brane są tylko te, dla których wartość własna przekracza 1) i rotacją Varimax (daje maksymalne zróżnicowanie ładunków w ramach czynnika).

W celu przeprowadzenia w programie EG analizy

czynnikowej z menu „Analizuj” wybieramy opcję „Wielowymiarowe”, a następnie opcję „Analiza czynnikowa…” (AnalizujèWielowymiaroweèAnaliza

czynnikowa…).

Po uruchomieniu analizy wyświetli się okno dialogowe. W części „Role zadania” wskazujemy analizowane zmienne (tylko numeryczne). W części „Factoring Method” wybieramy sposób wyznaczania

czynników głównych (zaleca się wybranie „Analiza głównych składowych”. Dodatkowo możemy wskazać aby do obliczeń brana była macierz kowariancji w miejsce macierzy korelacji (macierz korelacji lepiej jest stosować, gdy analizowane zmienne są prezentowane w różnych skalach, gdy wszystkie są wyznaczone w jednej skali zaleca się obliczenia na podstawie macierzy

kowariancji).

W części „Communality” możemy wskazać jaką wartość a priori mają przyjąć wszystkie ładunki. W części „Rotation and Plots” możemy wybrać rodzaj rotacji (zalecane „Ortogonalny

Page 59: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 59

DARIUSZ R. MAŃKOWSKI

Varimax”), metody normalizacji (zalecane „Normalizacja Kaisera”) oraz rodzaje wykreślanych wykresów.

W części „Results” możemy wskazać jakie dodatkowo wyniki mają być wyświetlane. W tej części możemy również wskazać by wyniki były zapisywane do pliku wynikowego w celu wykorzystania w dalszych analizach.

Przykład

Ocenę odmian traw gazonowych prowadzi się w skali (9°), przy czym ocenia się wiele parametrów w kilku momentach okresu wegetacji (Trawy gazonowe.xls).

Częstym problemem jest ocena różnic pomiędzy badanymi odmianami. Zbyt wiele

obserwowanych cech znacznie utrudnia tę ocenę. Przeprowadzić analizę czynnikową metodą składowych głównych z rotacją Varimax i normalizacją Kaisera.

Wyniki:

W pierwszej kolejności prezentowana jest tabela zawierająca wyznaczone czynniki główne, ich wartości własne, ilorazy i ilorazy skumulowane.

Wartości własne macierzy kowariancji: Total = 16.1842333 Average = 1.01151458

Wartość własna Różnica Iloraz Skumulowany

1 5.98964122 2.93760366 0.3701 0.3701

2 3.05203756 1.45551650 0.1886 0.5587

3 1.59652106 0.43800982 0.0986 0.6573

4 1.15851124 0.36775558 0.0716 0.7289

5 0.79075566 0.22168519 0.0489 0.7778

6 0.56907047 0.06667859 0.0352 0.8129

7 0.50239188 0.03517575 0.0310 0.8440

8 0.46721613 0.07487739 0.0289 0.8728

9 0.39233874 0.02054186 0.0242 0.8971

10 0.37179688 0.06275529 0.0230 0.9200

11 0.30904159 0.03452640 0.0191 0.9391

12 0.27451519 0.04822022 0.0170 0.9561

13 0.22629497 0.01206447 0.0140 0.9701

14 0.21423050 0.07079351 0.0132 0.9833

15 0.14343699 0.01700376 0.0089 0.9922

16 0.12643323 0.0078 1.0000

4 factors will be retained by the MINEIGEN criterion.

Pod tabelą znajduje się komentarz mówiący, iż tylko 4 czynniki spełniają kryterium MINEIGEN (wynikające z kryterium Kaisera). I faktycznie tylko pierwsze 4 czynniki mają

Page 60: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

60 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

wartości własne większe niż 1. Pierwszy czynnik tłumaczy 37,01% zmienności badanych odmian, drugi — 18,86%, trzeci — 9,86% a czwarty — 7,16%. Wszystkie cztery pierwsze

czynniki główne tłumaczą łącznie 72,89% obserwowanej zmienności pomiędzy badanymi odmianami.

Następnie prezentowana jest macierz czynników przed rotacją.

Factor Pattern

Factor1 Factor2 Factor3 Factor4

PR_przezimowanie PR_przezimowanie 0.81368 0.16655 0.11881 -0.06133

OAW_ogólny_aspekt_wiosną OAW_ogólny_aspekt_wiosną 0.55113 0.48046 -0.25244 0.11166

ZAW_zadarnienie_wiosną ZAW_zadarnienie_wiosną 0.23445 0.62302 -0.21853 0.37476

ODW_odrost_wiosną ODW_odrost_wiosną 0.15627 0.53501 -0.07595 0.01422

DLW_smukłość_wiosną DLW_smukłość_wiosną -0.13281 0.78802 0.02766 -0.26985

BW_barwa_wiosną BW_barwa_wiosną -0.16339 0.67210 -0.18037 0.52315

OAL_ogólny_aspekt_latem OAL_ogólny_aspekt_latem -0.08928 0.44469 0.24215 0.38803

ZAL_zadarnienie_latem ZAL_zadarnienie_latem -0.00402 0.77363 0.17200 -0.00486

ODL_odrost_latem ODL_odrost_latem 0.17624 0.62555 -0.00423 -0.28328

DLL_smukłość_latem DLL_smukłość_latem -0.03872 0.69954 0.02395 -0.41239

BL_barwa_latem BL_barwa_latem 0.39850 -0.14475 0.78075 0.34759

OAJ_ogólny_aspekt_jesienią OAJ_ogólny_aspekt_jesienią 0.81747 0.16268 0.15487 0.15955

ZAJ_zadarnienie_jesienią ZAJ_zadarnienie_jesienią 0.57291 0.48863 0.23706 -0.10898

ZZ_zimozieloność ZZ_zimozieloność 0.91739 -0.09863 0.09400 -0.23546

PS_pleśń_śniegowa PS_pleśń_śniegowa 0.82360 -0.16266 -0.42248 0.14663

R_rdza R_rdza -0.02779 0.32676 0.19140 -0.27228

Następnie prezentowane są oszacowane wartości (wagi) poszczególnych ładunków przed rotacją.

Final Communality Estimates and Variable Weights

Total Communality: Weighted = 11.796711 Unweighted = 10.298473

Zmienna Wspólna wariancja czynnikowa Waga

PR_przezimowanie 0.70768578 1.38828314

OAW_ogólny_aspekt_wiosną 0.61077818 0.74653859

ZAW_zadarnienie_wiosną 0.63132325 0.64685012

ODW_odrost_wiosną 0.31662397 0.48831776

DLW_smukłość_wiosną 0.71218994 0.72784701

BW_barwa_wiosną 0.78462845 1.07165109

OAL_ogólny_aspekt_latem 0.41492558 0.51185531

ZAL_zadarnienie_latem 0.62812576 0.69955002

ODL_odrost_latem 0.50264111 0.52431637

DLL_smukłość_latem 0.66149149 0.86907234

BL_barwa_latem 0.91014580 1.42289720

OAJ_ogólny_aspekt_jesienią 0.74417309 0.91969540

ZAJ_zadarnienie_jesienią 0.63506016 0.61959155

ZZ_zimozieloność 0.91561375 2.40359986

PS_pleśń_śniegowa 0.90475230 2.45578055

R_rdza 0.21831436 0.68838699

Page 61: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 61

DARIUSZ R. MAŃKOWSKI

Kolejnym elementem wyników jest macierz rotacji Varimax.

Orthogonal Transformation Matrix

1 2 3 4

1 0.99254 -0.04785 -0.03848 0.10536

2 0.06572 0.75820 0.64758 -0.03828

3 -0.09673 0.24016 -0.21571 0.94151

4 -0.03458 -0.60430 0.72982 0.31780

Następnie prezentowana jest macierz czynników po rotacji.

Rotated Factor Pattern

Factor1 Factor2 Factor3 Factor4

PR_przezimowanie PR_przezimowanie 0.80918 0.15293 0.00616 0.17172

OAW_ogólny_aspekt_wiosną OAW_ogólny_aspekt_wiosną 0.59915 0.20981 0.42587 -0.16251

ZAW_zadarnienie_wiosną ZAW_zadarnienie_wiosną 0.28183 0.18221 0.71508 -0.08579

ODW_odrost_wiosną ODW_odrost_wiosną 0.19712 0.37133 0.36721 -0.07100

DLW_smukłość_wiosną DLW_smukłość_wiosną -0.07337 0.77354 0.31250 -0.10387

BW_barwa_wiosną BW_barwa_wiosną -0.11864 0.15795 0.86223 -0.04651

OAL_ogólny_aspekt_latem OAL_ogólny_aspekt_latem -0.09623 0.16511 0.52237 0.32487

ZAL_zadarnienie_latem ZAL_zadarnienie_latem 0.03038 0.63100 0.46049 0.13035

ODL_odrost_latem ODL_odrost_latem 0.22624 0.63603 0.19248 -0.09939

DLL_smukłość_latem DLL_smukłość_latem 0.01949 0.78720 0.14836 -0.13937

BL_barwa_latem BL_barwa_latem 0.29848 -0.15137 -0.02380 0.89307

OAJ_ogólny_aspekt_jesienią OAJ_ogólny_aspekt_jesienią 0.80157 0.02500 0.15693 0.27642

ZAJ_zadarnienie_jesienią ZAJ_zadarnienie_jesienią 0.58159 0.46584 0.16371 0.23022

ZZ_zimozieloność ZZ_zimozieloność 0.90311 0.04618 -0.29129 0.11411

PS_pleśń_śniegowa PS_pleśń_śniegowa 0.84255 -0.35281 0.06113 -0.25816

R_rdza R_rdza -0.01521 0.45958 -0.02733 0.07824

Kółkami zaznaczono te wartości współczynników korelacji, które świadczą o silnym powiązaniu analizowanych cech z wyznaczonymi czynnikami głównymi. Mówi się, że czynniki główne są budowane przez te cechy. I tak na pierwszy czynnik główny (37,01% zmienności pomiędzy badanymi odmianami) składają się: przezimowanie, ogólny aspekt jesienią, zimozieloność i pleśń śniegowa, czyli cechy ewidentnie powiązane z przezimowaniem roślin. Drugi czynnik główny (18,86% zmienności) budują: smukłość roślin wiosną, zadarnienie latem, odrost latem, i smukłość roślin latem, czyli cechy związane z wyglądem roślin w okresie letnim. Trzeci czynnik główny (9,86% zmienności) budują: zadarnienie wiosną i barwa wiosną, czyli cechy mówiące o roślinach na początku sezonu wegetacji. Czwarty czynnik główny (7,16% zmienności) buduje w głównej mierze barwa latem.

Na koniec prezentowane są oszacowane wartości (wagi) poszczególnych ładunków po rotacji.

Final Communality Estimates and Variable Weights

Total Communality: Weighted = 11.796711 Unweighted = 10.298473

Zmienna Wspólna wariancja czynnikowa Waga

PR_przezimowanie 0.70768578 1.38828314

OAW_ogólny_aspekt_wiosną 0.61077818 0.74653859

ZAW_zadarnienie_wiosną 0.63132325 0.64685012

Page 62: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

62 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

ODW_odrost_wiosną 0.31662397 0.48831776

DLW_smukłość_wiosną 0.71218994 0.72784701

BW_barwa_wiosną 0.78462845 1.07165109

OAL_ogólny_aspekt_latem 0.41492558 0.51185531

ZAL_zadarnienie_latem 0.62812576 0.69955002

ODL_odrost_latem 0.50264111 0.52431637

DLL_smukłość_latem 0.66149149 0.86907234

BL_barwa_latem 0.91014580 1.42289720

OAJ_ogólny_aspekt_jesienią 0.74417309 0.91969540

ZAJ_zadarnienie_jesienią 0.63506016 0.61959155

ZZ_zimozieloność 0.91561375 2.40359986

PS_pleśń_śniegowa 0.90475230 2.45578055

R_rdza 0.21831436 0.68838699

6.2. Analiza składowych głównych (PCA)

Analiza składowych głównych (PCA — Principal Component Analysis) jest wielowymiarową techniką badania relacji pomiędzy wieloma zmiennymi numerycznymi. Wykorzystywana jest do grupowania obiektów na podstawie zmienności ich cech, jak również do redukcji wymiarów.

Wyniki analizy PCA są bardzo zbliżone do wyników analizy czynnikowej, nie ma tu jednak rotacji i dostępny jest tylko jeden sposób wyznaczania składowych głównych.

W celu przeprowadzenia w programie EG analizy

składowych głównych z menu „Analizuj” wybieramy opcję „Wielowymiarowe”, a następnie opcję „Główne składowe…” (AnalizujèWielowymiaroweèGłówne

składowe…).

Po uruchomieniu analizy wyświetli się okno dialogowe. W części „Role zadania” wskazujemy analizowane zmienne (tylko numeryczne). W części „Analiza” możemy ustawić parametry prowadzonej analizy (wskazać czy obliczenia mają być wykonane na podstawie macierzy korelacji czy

kowariancji, itp.). W części „Wykresy” możemy zdecydować jakie wykresy będą dodane do wyników (wykres osypiska — piargowy, czy też wykres głównych składowych ze wskazaniem wymiarów i identyfikatora obserwacji). W części „Rezultaty” możemy zdecydować czy wyniki analiz mają być zapisywane w zbiorach wynikowych, które można wykorzystać do dalszych analiz.

Page 63: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 63

DARIUSZ R. MAŃKOWSKI

Przykład

Za pomocą analizy składowych głównych sprawdzić, czy informacje o składzie chemicznym korzeni marchwi jadalnej są wystarczającą przesłanką do identyfikacji odmianowej (Marchew-skład2.xls). Sporządzić wykres osypiska i wykres dwóch pierwszych składowych głównych z identyfikatorem jako etykietą (na podstawie tego wykresu ocenić, czy informacje o składzie chemicznym korzeni marchwi z dwóch lat wystarczą do identyfikacji odmianowej).

Wyniki:

Po uruchomieniu analizy prócz okna z wynikami zostanie otworzone okno logu, czyli okno z

zapisem uwag i komentarzy programu do wykonywanych procesów. Oznacza to, że w trakcie wykonywania analizy nastąpił jakiś błąd. W celu identyfikacji błędu należy przejrzeć okno logu i odszukać wpisy mówiące o błędzie.

W tym przypadku wpis wygląda w sposób następujący:

Okazuje się, że błąd powstał przy generowaniu wykresu składowych głównych. W zbiorze danych (program EG stworzył sobie na czas obliczeń zbiory tymczasowe, których nazwy zaczynają się od: WORK.TEMP…) nie występuje zmienna „Identyfikator” która ma być etykietą

danych na wykresie.

Powyższy błąd jest jeszcze niepoprawionym błędem w programie. Można jednak w miarę prosto samodzielnie go naprawić. W tym celu należy samodzielnie poprawić kod wykonywanych

analiz. W tym celu:

1) W eksploratorze projektów klikamy dwukrotnie na „Ostatnio przekazany kod” w nieudanej analizie PCA. W okienku roboczym zostanie otwarta treść kodu w języku SAS® 4GL (w tle

wszystkich analiz jest generowany kod 4GL, który faktycznie te analizy wykonuje).

2) Odszukujemy miejsce błędu:

Page 64: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

64 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

3) Widzimy, że wykres generowany jest przez procedurę GPLOT, a jako źródłowy zbiór danych do tej procedury (DATA=) wskazany jest zbiór tymczasowy WORK.TMP1TempTableWork

(A).

4) Zbiór ten jest tworzony w (OUT=) powyższej procedurze (B). Procedura PRINCOMP ma za

zadanie przygotować dane do wykresu składowych głównych. Sama procedura bazuje na danych (DATA=) pochodzących ze zbioru tymczasowego WORK.TMP0TempTableWork. We

wcześniejszej części kodu należy więc odszukać gdzie ten zbiór jest tworzony:

5) Widać, że w skład zbioru wchodzą wszystkie wskazane przez nas zmienne (KEEP=) do

analizy, ale nie ma tam zmiennej „Identyfikator” potrzebnej do wykonania wykresu. W tym miejscu musimy poprawić ręcznie kod.

6) Klikamy myszką tuż za znakiem „=” w poleceniu KEEP=, wciskamy <SPACJĘ>. W tym momencie wyświetlony zostanie komunikat:

7) Wciskamy „Tak”. W tym momencie zostanie otwarte nowe okno z tym samym kodem 4GL (w Eksploratorze projektów będzie ono widoczne jako nowa gałąź w drzewie projektów). Ponownie odnajdujemy fragment do poprawki i po znaku „=” polecenia KEEP= wpisujemy

„Identyfikator” i wciskamy <SPACJĘ>.

8) Aby uruchomić tak poprawiony kod wciskamy na górze okna przycisk zielonej strzałki:

B

A

Page 65: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 65

DARIUSZ R. MAŃKOWSKI

9) Wykonane zostaną obliczenia i właściwe wykresy.

W pierwszej kolejności w wynikach zostaną przedstawione informacje o zmiennych oraz o średnich i odchyleniach standardowych analizowanych cech.

Obserwacje 12

Zmienne 17

Statystyki proste

KAR_OG BETA_KAR PEK_WAP ZW_FEN_OG SKROBIA WIT_C

Mean 17.14408333 9.570583333 0.4866666667 0.4828333333 0.6191666667 3.770833333

StD 7.33810953 4.508392305 0.2189368250 0.3324506343 0.1592287282 1.545106400

Statystyki proste

BL_OG LIG CEL POPIOL CUK_OG CUK_RED

Mean 1.486666667 0.1725000000 1.315000000 0.8741666667 6.606666667 2.849166667

StD 0.239557673 0.0992815098 0.223098022 0.1538865186 0.800912359 0.598823974

Statystyki proste

UDZ_RDZ SM EKSTRAKT PH KWAS_OG

Mean 26.66000000 11.55708333 10.47500000 5.913333333 0.4816666667

StD 2.65648435 3.72656584 0.75211822 0.364924235 0.3746958362

Następnie prezentowana jest macierz korelacji liniowych Pearsona dla analizowanych cech. Macierz korelacji

KAR_OG BETA_KAR PEK_WAP ZW_FEN_OG SKROBIA

KAR_OG KAR_OG 1.0000 0.9686 -.5291 -.7120 0.2105

BETA_KAR BETA_KAR 0.9686 1.0000 -.5725 -.6790 0.1050

PEK_WAP PEK_WAP -.5291 -.5725 1.0000 0.7127 -.3706

ZW_FEN_OG ZW_FEN_OG -.7120 -.6790 0.7127 1.0000 -.2376

SKROBIA SKROBIA 0.2105 0.1050 -.3706 -.2376 1.0000

WIT_C WIT_C -.5467 -.4867 0.4514 0.6489 -.1398

BL_OG BL_OG -.0539 -.0140 0.0611 0.1145 0.0624

LIG LIG -.6227 -.5463 0.6784 0.6879 -.2408

CEL CEL 0.2135 0.2238 -.2239 -.1722 0.1680

POPIOL POPIOL 0.1444 0.0823 0.2344 0.3309 0.3266

CUK_OG CUK_OG 0.8065 0.7401 -.7332 -.8633 0.4593

CUK_RED CUK_RED 0.4258 0.3485 0.1386 -.1551 0.2359

UDZ_RDZ UDZ_RDZ -.3435 -.2701 0.0107 0.1927 0.0363

SM SM 0.3613 0.2886 -.3233 -.2824 0.2075

EKSTRAKT EKSTRAKT 0.2272 0.1760 0.1750 0.2998 0.3057

PH PH 0.5118 0.5659 -.5650 -.5363 -.0533

KWAS_OG KWAS_OG -.7831 -.7603 0.7018 0.9260 -.2823

Page 66: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

66 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Macierz korelacji

WIT_C BL_OG LIG CEL POPIOL CUK_OG CUK_RED UDZ_RDZ

KAR_OG -.5467 -.0539 -.6227 0.2135 0.1444 0.8065 0.4258 -.3435

BETA_KAR -.4867 -.0140 -.5463 0.2238 0.0823 0.7401 0.3485 -.2701

PEK_WAP 0.4514 0.0611 0.6784 -.2239 0.2344 -.7332 0.1386 0.0107

ZW_FEN_OG 0.6489 0.1145 0.6879 -.1722 0.3309 -.8633 -.1551 0.1927

SKROBIA -.1398 0.0624 -.2408 0.1680 0.3266 0.4593 0.2359 0.0363

WIT_C 1.0000 -.2297 0.3563 -.3967 -.0861 -.6224 -.3190 0.3423

BL_OG -.2297 1.0000 0.3520 0.9134 0.2251 -.2274 0.4352 0.2020

LIG 0.3563 0.3520 1.0000 -.0589 0.1236 -.7269 -.0454 0.0076

CEL -.3967 0.9134 -.0589 1.0000 0.1892 0.0688 0.4946 0.2163

POPIOL -.0861 0.2251 0.1236 0.1892 1.0000 0.0458 0.2396 -.2834

CUK_OG -.6224 -.2274 -.7269 0.0688 0.0458 1.0000 0.1746 -.3564

CUK_RED -.3190 0.4352 -.0454 0.4946 0.2396 0.1746 1.0000 -.1364

UDZ_RDZ 0.3423 0.2020 0.0076 0.2163 -.2834 -.3564 -.1364 1.0000

SM -.0052 -.3830 -.7439 -.0791 0.0920 0.5054 0.1652 0.0673

EKSTRAKT -.0662 0.2891 0.0983 0.2712 0.8870 0.1144 0.4666 -.2959

PH -.1084 0.2171 -.3744 0.3855 -.2794 0.4260 -.0216 -.1468

KWAS_OG 0.7489 0.0978 0.5641 -.1349 0.0639 -.9176 -.1211 0.3883

Macierz korelacji

SM EKSTRAKT PH KWAS_OG

KAR_OG 0.3613 0.2272 0.5118 -.7831

BETA_KAR 0.2886 0.1760 0.5659 -.7603

PEK_WAP -.3233 0.1750 -.5650 0.7018

ZW_FEN_OG -.2824 0.2998 -.5363 0.9260

SKROBIA 0.2075 0.3057 -.0533 -.2823

WIT_C -.0052 -.0662 -.1084 0.7489

BL_OG -.3830 0.2891 0.2171 0.0978

LIG -.7439 0.0983 -.3744 0.5641

CEL -.0791 0.2712 0.3855 -.1349

POPIOL 0.0920 0.8870 -.2794 0.0639

CUK_OG 0.5054 0.1144 0.4260 -.9176

CUK_RED 0.1652 0.4666 -.0216 -.1211

UDZ_RDZ 0.0673 -.2959 -.1468 0.3883

SM 1.0000 0.2902 0.0960 -.1799

EKSTRAKT 0.2902 1.0000 -.1487 0.0750

PH 0.0960 -.1487 1.0000 -.4679

KWAS_OG -.1799 0.0750 -.4679 1.0000

Kolejnym elementem wyników są wartości własne macierzy korelacji.

Page 67: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 67

DARIUSZ R. MAŃKOWSKI

Wartości własne macierzy korelacji

Wartość własna Różnica Iloraz Skumulowany

1 6.61989436 3.53563994 0.3894 0.3894

2 3.08425441 0.87982764 0.1814 0.5708

3 2.20442677 0.65369529 0.1297 0.7005

4 1.55073148 0.44035062 0.0912 0.7917

5 1.11038087 0.20573221 0.0653 0.8570

6 0.90464866 0.29177164 0.0532 0.9103

7 0.61287703 0.13877217 0.0361 0.9463

8 0.47410486 0.26913128 0.0279 0.9742

9 0.20497358 0.01612093 0.0121 0.9863

10 0.18885265 0.14399732 0.0111 0.9974

11 0.04485533 0.04485533 0.0026 1.0000

12 0.00000000 0.00000000 0.0000 1.0000

13 0.00000000 0.00000000 0.0000 1.0000

14 0.00000000 0.00000000 0.0000 1.0000

15 0.00000000 0.00000000 0.0000 1.0000

16 0.00000000 0.00000000 0.0000 1.0000

17 0.00000000 0.0000 1.0000

Na podstawie wartości własnych można wskazać 5 składowych głównych o wartościach własnych powyżej 1. Tłumaczą one łącznie 85,7% obserwowanej zmienności w składzie chemicznym korzeni marchwi.

Następnie prezentowane są wektory własne.

Wektory własne

PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 PRIN6

KAR_OG KAR_OG 0.347817 0.088790 0.067425 -.096701 0.242005 -.053713

BETA_KAR BETA_KAR 0.332389 0.063964 -.001080 -.105821 0.303222 0.024091

PEK_WAP PEK_WAP -.303023 0.144221 0.121690 -.192676 0.182049 -.311157

ZW_FEN_OG ZW_FEN_OG -.349947 0.143657 0.130525 0.047258 0.119064 0.157987

SKROBIA SKROBIA 0.133139 0.161630 0.164633 0.320139 -.579668 0.192971

WIT_C WIT_C -.262253 -.133751 0.121366 0.254345 0.329768 0.308118

BL_OG BL_OG -.023382 0.413419 -.449444 0.073983 -.024793 0.076251

LIG LIG -.296868 0.164077 -.128660 -.313316 -.101197 0.105584

CEL CEL 0.102855 0.372566 -.420177 0.218719 0.023633 0.023269

POPIOL POPIOL -.006525 0.427034 0.343195 -.033252 -.065981 0.285335

CUK_OG CUK_OG 0.369278 -.035181 0.140915 -.005131 -.140937 0.038467

CUK_RED CUK_RED 0.107248 0.386662 -.014869 0.032826 0.159202 -.572698

UDZ_RDZ UDZ_RDZ -.117680 -.079942 -.242004 0.601840 -.051788 -.160425

SM SM 0.170417 -.053912 0.353861 0.459218 0.272321 -.158681

EKSTRAKT EKSTRAKT 0.025016 0.465851 0.330224 0.046714 0.126574 0.187992

PH PH 0.221728 -.061772 -.307613 0.007841 0.407771 0.477285

KWAS_OG KWAS_OG -.357639 0.051945 0.036793 0.209496 0.193118 -.011833

Page 68: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

68 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Wektory własne

PRIN7 PRIN8 PRIN9 PRIN10 PRIN11 PRIN12 PRIN13

KAR_OG 0.161121 0.334999 0.017759 -.206799 0.347274 -.109811 -.131155

BETA_KAR 0.143089 0.490864 -.200229 -.017415 -.145916 0.007716 -.060917

PEK_WAP 0.123776 -.000782 0.696747 0.033815 0.308810 -.023518 -.031269

ZW_FEN_OG -.077376 0.090409 -.363356 -.168068 0.377060 0.187576 -.021490

SKROBIA 0.520034 -.081633 0.043766 -.169022 0.206768 -.208290 -.039155

WIT_C 0.472306 0.009035 0.131347 0.028443 -.464060 0.206132 -.092101

BL_OG -.079126 -.076406 0.036698 0.116493 -.038480 0.054896 -.763626

LIG 0.260162 0.117374 -.160753 0.608987 0.024102 -.083558 0.196371

CEL -.196483 -.127144 0.095927 -.139963 -.101725 0.111257 0.498065

POPIOL -.243902 0.240727 0.329709 -.192207 -.307520 0.072970 0.065264

CUK_OG 0.031749 -.065619 0.111698 0.318524 0.204000 0.812592 0.000000

CUK_RED 0.419697 -.195513 -.187305 -.069287 -.186006 0.092927 0.128183

UDZ_RDZ -.028964 0.573635 0.135095 0.235211 0.137284 -.003383 0.127548

SM -.218968 -.290693 -.003195 0.334677 -.002167 -.228625 -.136521

EKSTRAKT -.104664 -.023040 -.176529 0.316150 0.130063 -.165200 0.110737

PH 0.172473 -.268310 0.186847 0.023506 0.289190 -.137817 0.173058

KWAS_OG 0.008377 -.097812 -.214357 -.288271 0.244695 0.266580 -.008262

Wektory własne

PRIN14 PRIN15 PRIN16 PRIN17

KAR_OG 0.012532 0.681549 0.000000 0.000000

BETA_KAR 0.155076 -.512788 0.134350 0.387007

PEK_WAP -.042253 -.195837 -.026295 0.256594

ZW_FEN_OG -.594866 -.098936 0.283095 0.049403

SKROBIA 0.046237 -.121369 0.096588 0.178473

WIT_C -.157861 0.226489 -.157432 0.147261

BL_OG 0.000000 0.000000 0.000000 0.000000

LIG 0.201469 0.220769 0.365507 0.040278

CEL -.067375 0.195835 0.042783 0.475448

POPIOL 0.115618 0.006250 0.329336 -.351896

CUK_OG 0.000000 0.000000 0.000000 0.000000

CUK_RED -.120357 -.083273 0.066257 -.380308

UDZ_RDZ -.035510 -.067010 -.080227 -.282454

SM 0.041165 0.074521 0.427609 0.164732

EKSTRAKT 0.007845 -.064754 -.645323 0.000000

PH 0.007825 -.223767 0.114000 -.354050

KWAS_OG 0.719044 0.000000 0.000000 0.000000

Pierwszą składową główną (tłumaczącą 38,94% obserwowanej zmienności w składzie chemicznym badanych korzeni marchwi) budują: karotenoidy ogółem, beta-karoten, pektyny,

związki fenolowe, cukry ogółem i kwasowość ogólna. Drugą składową główną (18,14%) budują: białko ogółem, celulozy, popiół, cukry redukujące oraz ekstrakt. Trzecią składową główną (12,97% zmienności) budują: białko ogółem, celulozy, popiół, sucha masa, ekstrakt i pH.

Page 69: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 69

DARIUSZ R. MAŃKOWSKI

Czwartą składową główną (9,12% zmienności) budują: skrobia, ligniny, udział rdzenia (walca

osiowego) oraz sucha masa. Piątą składową główną (6,53% zmienności) budują: beta-karoten,

skrobia, witamina C i pH.

Następnie prezentowany jest wykres osypiska

oraz wykres prezentujący analizowane obiekty w układzie dwóch pierwszych składowych głównych.

Na wykresie składowych głównych widać wyraźnie, że badane odmiany z dwóch lat ułożyły się w sposób losowy. Nie widać żadnych wyraźnych prawidłowości w rozmieszczeniu poszczególnych obiektów. Może to świadczyć o tym, że informacje o składzie chemicznym korzeni marchwi jadalnej z dwóch lat badań nie wystarczają do przeprowadzenia identyfikacji odmianowej.

6.3. Analiza skupień (Cluster Analysis)

Analiza skupień jest wykorzystywana do klasyfikacji obiektów na podstawie obserwowanych cech tych obiektów. Wskazuje, które obiekty są do siebie bardziej, a które mniej podobne.

Aby przeprowadzić analizę skupień w programie EG z menu „Analizuj” wybieramy opcję „Wielowymiarowe”, a następnie opcję „Analiza skupień…” (Analizujè

WielowymiaroweèAnaliza skupień…).

Po uruchomieniu analizy wyświetli się okno dialogowe. W części „Role zadania” wskazujemy analizowane zmienne (tylko numeryczne) oraz zmienną zawierającą etykiety obserwacji. W części „Cluster”

możemy wybrać metodę klasteryzacji („Łączenie średnich”, „Metoda centroidów”, „Algorytm k-średnich” lub „Metoda minimalnej wariancji Warda”). W części „Plots” możemy wybrać wykresy, które będą prezentowane w wynikach analizy. W części „Results” możemy zdecydować, jakie informacje będą zapisane do pliku wynikowego. Plik ten może być wykorzystywany do dalszych analiz.

Analiza skupień w programie EG bazuje tylko na odległości euklidesowej. Tak więc nie można analizować danych molekularnych, nie można również wybrać innych miar dystansów pomiędzy obiektami.

Page 70: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

70 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Przykład

Przeprowadzić analizę skupień, metodą Warda, pozwalającą na pogrupowanie 8 odmian kostrzewy czerwonej ocenianych pod względem przydatności trawnikowej (Trawy gazonowe2.xls). Sporządzić dendrogram.

Wyniki:

W wynikach w pierwszej kolejności prezentowane są wartości własne macierzy kowariancji oraz inne statystyki zbioru danych.

Wartości własne macierzy kowariancji

Wartość własna Różnica Iloraz Skumulowany

1 8.20824358 5.92105511 0.5427 0.5427

2 2.28718847 0.30796454 0.1512 0.6939

3 1.97922393 0.66360795 0.1309 0.8248

4 1.31561598 0.64311505 0.0870 0.9118

5 0.67250093 0.16261611 0.0445 0.9562

6 0.50988482 0.35754254 0.0337 0.9899

7 0.15234228 0.15234228 0.0101 1.0000

8 0.00000000 0.00000000 0.0000 1.0000

9 0.00000000 0.00000000 0.0000 1.0000

10 0.00000000 0.00000000 0.0000 1.0000

11 0.00000000 0.00000000 0.0000 1.0000

12 0.00000000 0.00000000 0.0000 1.0000

13 -.00000000 0.00000000 -0.0000 1.0000

14 -.00000000 0.00000000 -0.0000 1.0000

15 -.00000000 0.00000000 -0.0000 1.0000

16 -.00000000 0.00000000 -0.0000 1.0000

17 -.00000000 -0.0000 1.0000

Root-Mean-Square Total-Sample Standard Deviation = 0.943242 Root-Mean-Square Distance Between Observations = 5.5

Następnie prezentowane są wyniki klasteryzacji.

Page 71: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

SAS®

ENTERPRISE GUIDE 71

DARIUSZ R. MAŃKOWSKI

Historia skupienia

NCL Skupienia połączone FREQ SPRSQ RSQ ERSQ CCC PSF PST2

T i e

7 F.rubra_1 F.rubra_2 2 0.0331 .967 . . 4.9 .

6 F.rubra_4 F.rubra_5 2 0.0425 .924 . . 4.9 .

5 F.rubra_3 F.rubra_7 2 0.0708 .854 . . 4.4 .

4 CL5 CL6 4 0.0945 .759 . . 4.2 1.7

3 F.rubra_6 F.rubra_8 2 0.1511 .608 . . 3.9 .

2 CL7 CL4 6 0.1606 .447 . . 4.9 2.7

1 CL2 CL3 8 0.4475 .000 .000 0.00 . 4.9

Na końcu wyników umieszczony jest dendrogram obrazujący podobieństwa i różnice pomiędzy badanymi odmianami kostrzewy czerwonej.

Półcząstkowe R kwadrat

0.0

0.1

0.2

0.3

0.4

0.5

ODM

F.rubra_1

F.rubra_2

F.rubra_3

F.rubra_7

F.rubra_4

F.rubra_5

F.rubra_6

F.rubra_8

Page 72: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

72 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Page 73: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

Część 2

Środowisko Programistyczne

Systemu SAS®

Page 74: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

74 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Page 75: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 75

DARIUSZ R. MAŃKOWSKI

1. Środowisko pracy

Właściwym środowiskiem pracy w Systemie SAS® jest tak zwane „środowisko programistyczne”.

Pozwala ono na przeprowadzenie nawet najbardziej skomplikowanych analiz

i przetwarzanie danych. Wszelkie analizy i procesy wykonuje się tu wpisując odpowiednią składnię (zwaną DATA-step’ami lub PROC-step’ami) w języku SAS® 4GL. Środowisko programistyczne zapewnia pełną kontrolę i pełną możliwość modyfikacji przeprowadzanych analiz. Umożliwia tworzenie tak zwanych „makroprogramów” pozwalających na zautomatyzowanie pracy w Systemie SAS®.

Obszar roboczy środowiska programistycznego składa się z kilku okienek. Są to:

— Pasek narzędzi — zawiera przyciski uruchamiające opcje przydatne podczas pracy. Dynamicznie dostosowuje się do aktywnego okna.

Opcje zawarte na pasku:

1. Okno poleceń natychmiastowych — wpisujemy tu polecenia które mają być natychmiastowo wykonane w aktywnym oknie (np. wpisując polecenie „CLEAR” wyczyścimy zawartość aktywnego okna — okna logu, wyników lub edytora; ten sam efekt daje użycie klawiszy <Ctrl>+<E> w aktywnym oknie).

2. Przejście o pozycję (folder/bibliotekę) wyżej — opcja aktywna w oknie

eksploratora.

3. Nowe okno, otwarcie zapisanego pliku, zapis pliku — przydatne np. do

zapisywania i wczytywania zapisanych kodów programów w 4GL.

4. Wydruk i podgląd wydruku — dla okna wyników, okna logu i okna edytora.

5. Opcje schowka.

6. Sposób wyświetlania zawartości — dla okna Rezultatów i Eksploratora.

7. Zakładanie nowej biblioteki z użyciem kreatora (opis w dalszej części skryptu).

1 2 3 4 5 6 7 8 9 10

Page 76: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

76 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

8. Uruchomienie kodu w 4GL znajdującego się w oknie edytora (ten sam efekt daje klawisz <F8>.

9. Zatrzymanie wykonywanych czynności przez System SAS®

10. Pomoc do programu.

— Eksplorator — pozwala na poruszanie się w strukturze bibliotek i zbiorów danych.

— Rezultaty — drugie okno wyświetlane po lewej stronie obszaru roboczego (przełączanie pomiędzy Eksploratorem i Rezultatami jest możliwe dzięki zakładkom umieszonym w dolnej części okna). Pozwala na poruszanie się w strukturze wyników przeprowadzonych analiz.

Page 77: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 77

DARIUSZ R. MAŃKOWSKI

— Okno LOGu — wyświetlane w nim są wszystkie uwagi komentarze, realizowany kod programu oraz komunikaty o błędach.

— Okno Edytora (Enhanced Editor) — w tym oknie wpisuje się składnie poleceń w języku 4GL.

— Okno Wyników — tu wyświetlane są wyniki przeprowadzonych analiz. Przy niektórych poleceniach mogą być otwierane dodatkowe okna z wynikami (np. przy poleceniach graficznych).

1.1. Biblioteki i wczytywanie danych

Biblioteki

Dane w Systemie SAS® gromadzone są w bibliotekach. Biblioteka może być fizycznym katalogiem (folderem) na dysku twardym (wówczas zbiory danych to pliki w tym folderze); może być skoroszytem Ms Excel (wówczas zbiory danych to poszczególne arkusze tego skoroszytu); może być bazą danych (wówczas zbiorami danych są poszczególne tabele bazy danych); itp. Najczęściej jednak biblioteka to folder na dysku. Każda biblioteka ma swoją nazwę. Nazwa ta może składać się maksymalnie z 8 znaków międzynarodowych (bez znaków polskich i specjalnych). W trakcie pracy z programem możemy spotkać biblioteki trwałe i tymczasowe.

Page 78: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

78 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Biblioteki tymczasowe, w przeciwieństwie do bibliotek trwałych znikają po zamknięciu Systemu SAS®. Dodatkowo w programie zdefiniowana jest jedna biblioteka specjalna o nazwie „WORK”. To do tej biblioteki odwoła się program jeśli pisząc składnię 4GL pominiemy nazwę biblioteki (jest to tak zwana „biblioteka domyślna”). Dodatkowo wszystkie zbiory danych umieszczone w tej bibliotece znikną po zamknięciu programu. Samej biblioteki „WORK” nie da się jednak usunąć.

Biblioteki tymczasowe możemy utworzyć za pomocą składni języka 4GL. Jednak prostszym rozwiązaniem jest wykorzystanie do tego celu kreatora bibliotek. Jest on dostępny po wciśnięciu przycisku na pasku narzędzi.

Otworzy się wówczas okno dialogowe zakładania nowej biblioteki:

1. W tym polu wpisujemy nazwę nowej biblioteki;

2. Tu wybieramy rodzaj biblioteki;

3. Jeżeli zaznaczymy to pole, to tworzona biblioteka będzie trwała i nie zniknie po

zamknięciu Systemu SAS®;

4. W tym polu wskazujemy położenie folderu macierzystego dla tworzonej biblioteki (tam będą zapisywane zbiory z danymi).

Wygląd okna dialogowego kreatora tworzenia biblioteki zależy od mechanizmu biblioteki jaki wskażemy. Powyższe okno jest oknem dla mechanizmu domyślnego (V9).

W oknie Eksploratora biblioteki prezentowane są w następujący sposób:

Zbiory danych

Dane w bibliotekach są przechowywane w formie tabel. W oknie Eksploratora tabele prezentowane są w następujący sposób:

1 2 3

4

Page 79: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 79

DARIUSZ R. MAŃKOWSKI

Tabele zbudowane są z kolumn (zmiennych / cech) oraz wierszy (przypadków / obserwacji). Dodatkowo zawierają nagłówki z nazwali i etykietami kolumn. Gdy otworzymy tabelę do podglądu, to domyślnie ujrzymy etykiety kolumn. Jednak w składni języka 4GL będziemy

odwoływać się tylko do nazw zbiorów. Aby wyświetlić nazwy kolumn zamiast etykiet należy w menu „Widok” zaznaczyć opcję „Nazwy kolumn”.

Rozmiar tabeli z danymi na pojedynczej stacji roboczej (komputerze) może wynosić 32k (32 000) kolumn oraz 2G (2 000 000 000) wierszy.

Jeżeli obliczenia wykonujemy jedynie na części danych pochodzących z jednej bardzo dużej tabeli, to wygodnie jest utworzyć dynamiczny skrót do tych danych w postaci pliku zwanego widokiem lub perspektywą (view). Plik taki to jedynie fragment kodu 4GL lub SQL odnoszący się do danych, nie zajmuje więc zbyt wiele miejsca na dysku twardym. W oknie Eksploratora perspektywy wyglądają w następujący sposób:

W składni języka 4GL odwołujemy się do poszczególnych tabel w następujący sposób:

nazwa_biblioteki.nazwa_tabeli

Jeżeli pominiemy nazwę biblioteki, to program będzie szukał tabeli z danymi w bibliotece „WORK”.

Przykład

Założyć stałą bibliotekę o nazwie ‘KURS’ opartą na folderze ‘D:\KURS08\’.

1) Uruchamiamy kreatora zakładania bibliotek.

2) Podajemy nazwę nowej biblioteki, mechanizm biblioteki pozostawiamy jako ‘Domyślny’.

Page 80: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

80 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

3) Wskazujemy lokalizację folderu docelowego

4) Zaznaczmy kratkę włączania biblioteki przy uruchomieniu

5) Klikamy na przycisk ‘OK’.

Wczytywanie danych

System SAS® może importować dane z bardzo różnych formatów. Jednak najczęściej wczytujemy dane zapisane uprzednio za pomocą arkusza kalkulacyjnego Ms Excel. W tym rozdziale zostanie przedstawiony sposób importu danych zapisanych w postaci pliku Excel’a.

Aby wczytać (zaimportować) nowy zbiór danych do Systemu SAS®, należy z menu „Plik” wybrać opcję „Importuj dane…” (PlikèImportuj dane…).

Otworzy się okno dialogowe kreatora importu danych. W oknie „Wybierz typ importu” możemy wskazać rodzaj pliku z danymi, który będzie importowany. Wybieramy „Skoroszyt Microsoft Excela 97, 2000 lub 2002” (jest to opcja domyślna). System SAS® w wersji 9.1.3 nie obsługuje jeszcze formatu Excela 2007. Ten typ pliku ma być uwzględniony w wersji 9.2.

Po wybraniu typu pliku do importu klikamy na przycisku

„Dalej”. Otworzy się okienko w którym wskazujemy lokalizację pliku do importu.

Po wskazaniu lokalizacji pliku źródłowego, wyświetlone zostanie okno, w którym musimy wskazać, który arkusz ma być importowany. Gdy wskażemy odpowiedni arkusz klikamy przycisk „Dalej”. Przechodzimy do okna, w którym w górnym polu musimy wskazać bibliotekę, w której nowo otwarty zbiór ma zostać zapisany (np. „WORK”). W polu dolnym podajemy nazwę pod jaką we wskazanej bibliotece ma zostać zapisana tabela z danymi (pierwszy znak musi być literą, lepiej unikać polskich znaków).

Page 81: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 81

DARIUSZ R. MAŃKOWSKI

Po podaniu nazwy tabeli mamy do wyboru: wcisnąć przycisk „Koniec”, wówczas dane zostaną zaimportowane, a my powrócimy do środowiska roboczego lub wcisnąć przycisk „Dalej”, a przejdziemy do okna umożliwiającego zapisanie kodu 4GL importującego dane.

Po zakończeniu importu danych, w docelowej bibliotece powinna powstać tabela o podanej przez nas nazwie, zawierająca importowane dane. Dodatkowo w oknie LOGu powinien pojawić się komentarz potwierdzający utworzenie nowego zbioru.

Dane do importu powinny być przygotowane w analogiczny sposób jak dane do SAS®

Enterprise Guide (patrz Część I, rozdział 1.3).

1.2. Podstawy języka SAS® 4GL

Wszystkie operacje i polecenia wykonywane w Systemie SAS® muszą być zapisane w postaci kodu programu. Do zapisu tego kodu wykorzystuje się specjalny język programowania zwany

4GL (4th Generation Language). Jest to stosunkowo prosty i intuicyjny język poleceń.

Programy w języku 4GL możemy podzielić na dwie grupy:

— DATA-STEP — program służący do przetwarzania danych (głównie tworzenia i zmiany istniejących zbiorów danych);

— PROC-STEP — program wykonujący pewne zdefiniowane w Systemie SAS®

procedury (służy zarówno do przetwarzania danych, jak i do ich analizy).

Większość procedur (procedury zaczynają się od słowa PROC) posiada pewne stałe elementy:

— DATA=nazwa_biblioteki.nazwa_zbioru — polecenie to mówi o źródle danych, które mają być wykorzystywane w toku działania procedury;

— VAR lista_zmiennych — określa, które zmienne ze zbioru danych mają być wykorzystane do analiz;

Page 82: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

82 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

— BY zmienne_grupujące — jeżeli w jednym zbiorze danych, w tej samej kolumnie,

zapisane są dane z kilku grup, a analizy mają być wykonane w tych grupach oddzielnie oraz jeśli w zbiorze danych występuje jedna bądź kilka kolumn

(zmiennych) określających te grupy, to dodanie do procedury tego polecenia pozwoli

na wykonanie jej w grupach (tzw. przetwarzanie w grupach);

— WHERE warunek_logiczny — jeżeli chcemy wykonać obliczenia tylko na części danych ze zbioru, to możemy wykorzystać to polecenie by wskazać te dane, które mają być wykorzystane. Np. zapis: WHERE odmiana=”Pszenica” — spowoduje, że procedura zostanie wykonana tylko dla tych obserwacji, które w kolumnie „odmiana” mają wpis „Pszenica”. Należy przy tym pamiętać, iż wskazywane w treści procedury wartości zmiennych znakowych muszą być ujęte w cudzysłów (np. „Pszenica”) i zapisane dokładnie w taki sam sposób, jak w zbiorze danych (zapis „Pszenica” i „pszenica” nie są równoznaczne i traktowane są przez procedurę jako dwie różne wartości zmiennej znakowej). W trakcie pracy z programami napisanymi w języku 4GL należy również pamiętać o tym, że znakiem dziesiętnym jest kropka („.”), a nie przecinek. Zapis: WHERE plon>2.5 sprawi, że do obliczeń będą wykorzystane te wiersze, które w kolumnie „plon” wartości liczbowe będą powyżej 2,5. Cudzysłów w poleceniu oznacza tekst, ważna jest też wielkość liter; WHERE plon>2.5 — w tym przypadku do

obliczeń będą wykorzystane te wiersze, gdzie w kolumnie „plon” wartości liczbowe będą powyżej 2,5, kropka („.”) jest domyślnym znakiem dziesiętnym w SASie;

— RUN; — kończy procedurę powodując, że po uruchomieniu kodu będzie ona wykonywana;

— QUIT; — umieszcza się go na końcu kilku procedur, istnienie tego polecenia jest wynikiem zgodności nowszych wersji języka 4GL ze starszymi.

Każdy wiersz procedury w języku 4GL kończy się średnikiem (‘;’).

Składnie wykorzystanych w niniejszym skrypcie procedur zostaną opisane szczegółowo. Jeżeli zaistnieje potrzeba szerszego poznania możliwości opisywanych procedur lub potrzeba wykorzystania innych procedur to szczegółowe ich opisy (w języku angielskim) znajdują się w pomocy dołączonej do programu.

1.3. Przykładowe procedury

Poniżej przedstawione zostaną składnie kilku przydatnych, „uniwersalnych” procedur,

służących do prezentacji i obróbki danych. Na koniec przedstawione zostaną przykłady procedur graficznych dostępnych w Systemie SAS®.

PROC PRINT

Procedura PRINT służy do wyświetlania zawartości zbiorów danych w oknie wyników. Składnia tej procedury jest następująca:

PROC PRINT DATA=zbiór_danych <opcje>;

BY zmienne_grupujące;

VAR lista_zmiennych;

RUN;

Polecenie PROC PRINT rozpoczyna procedurę; polecenia DATA=zbiór_danych wskazuje, do

jakiego zbioru danych procedura ma się odwoływać; opcje:

— NOOBS — powoduje, że na wydruku danych nie będą wyświetlane numery wierszy;

— ROUND — powoduje, że wartości numeryczne będą zaokrąglane do dwóch miejsc po przecinku;

— LABEL — powoduje, że na wydruku danych będą wyświetlane etykiety, a nie nazwy

kolumn.

Polecenie BY zmienne_grupujące pozwala na pogrupowanie wydruków według zmiennych grupujących. Jeżeli polecenie to nie zostanie umieszczone, wyświetlona zostanie cała zawartość

Page 83: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 83

DARIUSZ R. MAŃKOWSKI

zbioru. Polecenie VAR lista_zmiennych pozwala na wskazanie, które zmienne mają być umieszczone na wydruku. Jeżeli polecenie to nie zostanie użyte, wyświetlona zostanie zawartość wszystkich kolumn (zmiennych) zbioru danych. Polecenie RUN kończy procedurę.

Przykład

Wyświetlić zawartość zbioru ‘history’ znajdującego się w bibliotece ‘Kurs’.

PROC PRINT DATA=kurs.history;

RUN;

PROC SORT

Procedura SORT służy do sortowania zawartości zbioru danych według jednej lub kilku

kolumn (zmiennych). Składnia tej procedury jest następująca:

PROC SORT DATA=zbiór_danych <opcje>;

BY <DESCENDING> zmienne_grupujące;

RUN;

Polecenie PROC SORT rozpoczyna procedurę; polecenia DATA=zbiór_danych wskazuje, do

jakiego zbioru danych procedura ma się odwoływać; opcje:

— OUT=nazwa_zbioru — posortowane dane nie zastąpią danych źródłowych, lecz zostaną zapisane do nowego zbioru o podanej nazwie;

— NODUPKEY — w wynikach procedury żadna spośród zmiennych wymienionych w poleceniu BY nie będzie posiadała duplikatów (powtórzeń);

— NODUPRECS — w wynikach procedury nie będą powtarzać się obserwacje, z takimi

samymi wartościami wszystkich zmiennych (duplikujące się całe rekordy).

Polecenie BY służy do wskazywania ‘klucza’ sortowania, czyli zmiennych, według których zbiór ma zostać posortowany. Domyślnie sortowanie przebiega w porządku rosnącym, jeśli jednak

chcemy zmienić porządek sortowania to nazwę zmiennej, według której sortujemy

poprzedzamy w poleceniu BY słowem DESCENDING. Polecenie RUN kończy procedurę.

Przykład

Posortować zawartość zbioru ‘history’ z biblioteki ‘Kurs’ po zmiennej ‘DEST’. Wyniki zapisać do nowego zbioru ‘hist_sort’ w bibliotece ‘WORK’. Z wyników pozbyć się duplikatów zmiennej ‘DEST’. Następnie wyświetlić zawartość nowego zbioru (za pomocą procedury PRINT).

PROC SORT DATA=kurs.history OUT=work.hist_sort NODUPKEY;

BY dest;

RUN;

PROC PRINT DATA=hist_sort;

RUN;

PROC TRANSPOSE

Może zdarzyć się, że zbiór danych przed wykonaniem analiz mysi zostać transponowany (obrócony tak, by wiersze stały się kolumnami, a kolumny wierszami). Do transponowania zbiorów danych w Systemie SAS® służy procedura TRANSPOSE. Jej składnia jest następująca:

Page 84: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

84 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

PROC TRANSPOSE DATA=zbiór_danych OUT=nazwa_zbioru <PREFIX=prefix> <opcje>;

BY zmienne_grupujące;

VAR zmienne_transponowane;

ID zmienna_identyfikująca;

RUN;

Polecenie PROC TRANSPOSE rozpoczyna procedurę. Polecenie DATA=zbiór_danych wskazuje

zbiór źródłowy, z którego będą pobierane dane. Polecenie OUT=nazwa_zbioru wskazuje, pod jaką nazwą ma być zapisany nowy zbiór z danymi po transpozycji, jeśli polecenie to zostanie pominięte, to nowy zbiór zastąpi stary. Polecenie PREFIX=prefix definiuje prefix dodawany na

początku nazw nowo tworzonych zmiennych (jeśli nie ma zmiennej identyfikującej). W przypadku polecenia PROC TRANSPOSE przydatne są dwie dodatkowe opcje:

NAME=nazwa — pozwala zmienić domyślną nazwę kolumny, zawierającej dawne nazwy kolumn (w wyniku działania procedury domyślnie dostaje ona nazwę ‘_NAME_’ oraz etykietę ‘NAME OF FORMER VARIABLE’);

OUT=nazwa_zbioru (DROP=_LABEL_) — ta opcja pozwala na usunięcie z nowo tworzonego zbioru kolumny, zawierającej etykiety dawnych kolumn (w wyniku działania procedury domyślnie dostaje ona nazwę ‘_LABEL_’ oraz etykietę ‘LABEL OF FORMER VARIABLE’).

Polecenie BY zmienne_grupujące pozwala na przeprowadzenie transpozycji w grupach, jeżeli polecenie to zostanie pominięte, to transponowany będzie cały zbiór. Polecenie VAR zmienne_transponowane wskazuje, które zmienne mają być poddane transpozycji (pozostałe zostaną pominięte), jeżeli polecenie to zostanie pominięte, transponowane będą wszystkie zmienne. Polecenie ID zmienna_identyfikująca wskazuje zmienną identyfikującą, czyli zawierającą nazwy przyszłych kolumn. Polecenie RUN kończy działanie procedury.

Przykład

Przeprowadzenie analiz dla danych ze zbioru ‘Pszenica_aflp’ w bibliotece ‘Kurs’ wymaga jego wcześniejszej transpozycji. Zbiór zawiera uprzednio przygotowaną kolumnę z identyfikatorami wierszy (przyszłych kolumn). Należy go przetransponować wykorzystując zmienną z identyfikatorem, a efekt transpozycji zapisać w bibliotece WORK pod nazwą ‘pszen’. Nowy zbiór nie powinien zawierać kolumny z informacją o etykietach poprzednich kolumn,

a zmienna zawierająca nazwy poprzednich kolumn powinna nazywać się ‘linia’, czyli tak jak zmienna z identyfikatorem.

PROC TRANSPOSE DATA=kurs.pszenica_aflp NAME=linia OUT=pszen(drop=_LABEL_);

ID linia;

RUN;

ODS Domyślnie wyniki działania procedur w Systemie SAS® są prezentowane w formie tekstowej

w oknie wyników, a elementy graficzne w specjalnym oknie modułu graficznego. Istnieje jednak możliwość przygotowania wyników dodatkowo w formie pliku HTML (strona internetowa), pliku RTF (dokument otwierany np. przez program Ms Word) lub pliku PDF. Do

przygotowywania wyników w tej formie służy ODS (output delivery system). Aby wyniki działania procedur w języku 4GL były zapisane przez ODS w wybranej formie, należy przed i po procedurze dodać odpowiednie wpisy.

Page 85: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 85

DARIUSZ R. MAŃKOWSKI

Dla dokumentu HTML:

ODS HTML;

ODS HTML CLOSE;

Dla dokumentu RTF:

ODS RTF;

ODS RTF CLOSE;

Dla dokumentu PDF:

ODS PDF;

ODS PDF CLOSE;

Dodatkowo możemy zdecydować o tym, w jaki sposób sformatować prezentowane wyniki. Do nadania formatu wynikom służą wbudowane style. Aby wywołać odpowiedni styl, do polecenia otwierającego ODS dodajemy wpis: STYLE=nazwa_stylu.

Na przykład, jeśli chcemy sformatować dokument RTF tak, aby wyniki nadawały się od razu do przeniesienia do pisanej publikacji (odpowiedni format tabel oraz układ z białym tłem i czarnym tekstem), możemy użyć zapisu:

ODS RTF STYLE=journal;

ODS RTF CLOSE;

Pełna lista stylów dostępnych w Systemie SAS® znajduje się w dokumentacji programu.

Niektóre procedury posiadają dodatki w postaci elementów graficznych (w wersji 9.1.3

elementy te są w fazie eksperymentalnej) w ODS (np. PROC GLM, PROC REG). Aby wywołać te elementy graficzne, należy poszerzyć zapis wywołujący ODS o odpowiednie polecenia. Na przykład dla dokumentu RTF zapis poszerzony wyglądałby następująco:

ODS RTF;

ODS GRAPHICS ON;

ODS GRAPHICS OFF;

ODS RTF CLOSE;

System ODS pozwala dodatkowo na wybieranie tylko określonych tabel z całego zestawu

wyników i zapisywanie ich w postaci nowych zbiorów danych. Szczegółowy opis tych i innych

możliwości ODS znajduje się w dokumentacji oprogramowania.

Page 86: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

86 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Przykłady innych procedur System SAS® może mieć zastosowanie nie tylko w analizach statystycznych, lecz również

w przygotowywaniu zestawień graficznych i różnych wykresów. Poniżej przedstawiono kilka przykładowych procedur graficznych.

Przykład 1

DATA hat;

DO x= –7 TO 5 BY .25;

DO y= –5 TO 5 BY .25;

z= SIN ( SQRT (x * x + y * y ) );

OUTPUT;

END;

END;

RUN;

PROC G3D DATA=hat;

PLOT y * x = z / CTOP= red CBOTTOM= blue;

RUN;

QUIT;

Przykład 2

PROC GPLOT DATA= kurs.trawy_nas;

SYMBOL V = x W = 2 I = rl C = Green;

PLOT plon * Liczba_kwiatostanow_na_1m;

RUN;

QUIT;

GOPTIONS RESET = all;

Komentarz: Litera ‘I’ w drugiej linii procedury oznacza ‘I’ (wielką literę i). Litera ‘l’ po znaku

równości (za ‘r’) oznacza ‘l’ (małą literę L).

Page 87: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 87

DARIUSZ R. MAŃKOWSKI

2. Zaawansowana analiza funkcji regresji wielokrotnej

Podczas prowadzenia badań opartych na analizie funkcji regresji często badacz kończy na wyznaczeniu „istotnego statystycznie” modelu regresji i podaniu podstawowych statystyk tego modelu (współczynnik determinacji, itp.). Najczęściej nie zastanawia się on nad tym czy wyznaczony model liniowy jest rzeczywiście najlepszym modelem dla analizowanych danych oraz czy parametry modelu są prawidłowo wyznaczone i nieobciążone błędem, wynikającym z występowania obserwacji odstających lub „wpływających”, czy też błędem wynikającym z występowania współliniowości zmiennych opisujących w regresji wielokrotnej. Aby dokonać takiej oceny potrzebne jest przeprowadzenie badania wyznaczonej funkcji regresji.

Podobnie gdy badacz posiada informacje o wielu zmiennych mogących wpływać na zmienną zależną, a opracowany model regresji ma spełniać określone założenia (na przykład ma służyć do predykcji wartości zmiennej zależnej), nie wystarczy samo opracowanie „pełnego” modelu. Należy zastanowić się nad właściwym doborem zmiennych do budowy modelu regresji wielokrotnej.

Możliwości przeprowadzenia powyższych analiz w programie EG są niestety znacznie ograniczone. Istnieje jednak możliwość przeprowadzenia szczegółowych analiz tego typu w środowisku programistycznym Systemu SAS®.

Do analizy funkcji regresji liniowej i regresji wielokrotnej w Systemie SAS® służy procedura REG. Jej składnia jest następująca:

PROC REG DATA=nazwa_zbioru;

BY zmienne_grupujące;

MODEL zmienna_zależna = zmienne_opisujące </opcje>;

PLOT zmienna_y * zmienna_x </opcje>;

OUTPUT OUT=nazwa_zbioru <opcje>;

RUN; QUIT;

Polecenie PROC REG rozpoczyna procedurę. Polecenie DATA=nazwa_zbioru wskazuje źródło danych do analizy. Polecenie BY zmienne_grupujące pozwala na przeprowadzenie analiz

w ramach oddzielnych grup danych, oznaczonych za pomocą zmiennej grupującej. W przypadku

pominięcia tego polecenia analiza zostanie przeprowadzona dla całego zbioru danych. Polecenie MODEL zmienna_zależna = zmienne_opisujące definiuje analizowany model regresji, przy czym

polecenie to można rozszerzyć o następujące opcje:

— SELECTION=metoda — pozwala na zastosowanie wybranej metody doboru zmiennych

do modelu:

FOREWARD — selekcja krokowa „w przód”;

BACKWARD — selekcja krokowa „w tył”;

STEPWISE — selekcja krokowa „dwukierunkowa”;

RSQUARE — selekcja oparta na współczynniku determinacji;

ADJRSQ — selekcje oparta na poprawionym współczynniku determinacji;

CP — selekcje oparta na statystyce Cp Mallows’a;

dodatkowo istnieje możliwość rozszerzenia selekcji zmiennych o metody:

o AIC — Akaike Information Criterion;

o SBC — Schwarz-Bayesian Information Criterion;

o BIC — Sawa-Bayesian Infotmation Criterion;

o PC — Amemiya's Prediction Criterion.

— SLE=alpha — definiuje poziom istotności dla wejścia zmiennych do modelu (significance level for entry);

Page 88: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

88 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

— SLS=alpha — definiuje poziom istotności dla pozostania zmiennych w modelu (significance level for stay);

— BEST=n — powoduje wyświetlenie n najlepszych modeli pod względem kryterium doboru;

— R — powoduje wyznaczenie statystyk obserwacji odstających;

— INFLUENCE — powoduje wyznaczenie statystyka obserwacji „wpływających”;

— VIF — wyznacza variance inflation factor;

— COLLIN — wyznacza statystyki współliniowości dla całego modelu regresji wielokrotnej;

— COLLINOINT — wyznacza statystyki współliniowości dla modelu regresji wielokrotnej bez stałej regresji;

Polecenie opcjonalne PLOT zmienna_y * zmienna_x pozwala na wykonanie wykresów dla wybranych parametrów modelu (odpowiednie opcje graficzne). Opcjonalne polecenie OUTPUT

pozwala na zapisanie wybranych parametrów modelu (definiowanych w opcjach polecenia) do zbioru wynikowego, zdefiniowanego w poleceniu OUT=nazwa_zbioru. Polecenia RUN i QUIT

kończą procedurę.

Przykład

Zaawansowane analizy funkcji regresji wielokrotnej zostaną przedstawione na przykładzie danych pochodzących z badań ankietowych gospodarstw uprawiających ziemniaki (zbiór ‘Ziemniak_reg’ w bibliotece ‘Kurs’). Poniżej przedstawiono analizę funkcji regresji liniowej dla pełnego modelu ze wszystkimi zmiennymi opisującymi.

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior;

RUN; QUIT;

ODS HTML CLOSE;

2.1. Dobór zmiennych do modelu

Opracowano wiele metod umożliwiających dobór odpowiednich zmiennych do budowy modelu regresji wielokrotnej. Metody te pozwalają na eliminację tych zmiennych, które nie wnoszą do modelu żadnych korzystnych informacji (tzw. metody krokowe) lub na wybór takiego „zestawu” zmiennych, dla którego model regresji wielokrotnej spełniałby założone kryteria (tzw. metody bazujące na kryteriach).

Metody krokowe polegają na dodawaniu bądź odejmowaniu stopniowo (w krokach) pojedynczych zmiennych. Wyróżniamy trzy metody zaliczane do tej grupy:

— Metoda krokowa „w przód” (foreward selection) — zaczynamy od „pustego” modelu, czyli modelu zawierającego tylko stałą regresji, następnie w każdym kolejnym kroku dodajemy po jednej zmiennej opisującej, najsilniej powiązanej ze zmienną zależną i spełniającej założone kryterium istotności (SLE — significance

level for entry). Zmienne dodawane są do momentu, gdy przy założonym poziomie SLE nie można dodać już żadnej zmiennej lub w modelu znajdują się już wszystkie zmienne.

Page 89: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 89

DARIUSZ R. MAŃKOWSKI

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=FOREWARD SLE=0.01;

RUN; QUIT;

ODS HTML CLOSE;

— Metoda krokowa „w tył” (backward selection) — zaczynamy od modelu

zawierającego wszystkie zmienne i w kolejnych krokach odejmujemy po jednej zmiennej opisującej, która jest najsłabiej powiązana ze zmienną zależną i nie spełnia założonego kryterium istotności (SLS — significance level for stay). Zmienne

usuwane są z modelu do momentu, gdy wszystkie zmienne w modelu spełniają warunek SLS lub gdy w modelu pozostanie już tylko stała regresji.

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=BACKWARD SLS=0.05;

RUN; QUIT;

ODS HTML CLOSE;

— Metoda krokowa „obukierunkowa” (stepwise selection) — metoda ta jest

połączeniem dwóch poprzednich. Zaczynamy od „pustego” modelu zawierającego jedynie stałą regresji, następnie w kolejnych krokach dodajemy po jednej zmiennej opisującej, która jest najsilniej powiązana ze zmienną zależną i spełniaj założone kryterium istotności (SLE) oraz odejmujemy po jednej zmiennej opisującej, która jest najsłabiej powiązana ze zmienną zależną i nie spełnia założonego kryterium istotności (SLS). Dobór zmiennych do modelu jest zakończony, gdy nie możemy

dodać ani usunąć z niego żadnej zmiennej opisującej.

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=STEPWISE SLE=0.1 SLS=0.01;

RUN; QUIT;

ODS HTML CLOSE;

Metody bazujące na kryteriach polegają na wyznaczeniu pewnych parametrów dla wszystkich możliwych kombinacji zmiennych opisujących w modelu regresji wielokrotnej (od modeli z jedną zmienną opisującą do modeli ze wszystkimi zmiennymi opisującymi). Do głównych kryteriów doboru właściwego modelu regresji wielokrotnej można zaliczyć:

— R2 (R-squared) — wybór modeli o najwyższych wartościach współczynnika determinacji (R2), który wyznaczany jest według wzoru:

gdzie: — współczynnik determinacji; — suma kwadratów odchyleń dla modelu regresji; — i-ta wartość zmiennej zależnej; — średnia wartość zmiennej zależnej.

Page 90: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

90 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

W przypadku regresji wielokrotnej współczynnik determinacji ma jedną wadę —

jego wartość rośnie wraz z liczbą zmiennych opisujących w modelu nawet wtedy, gdy zmienne te nie są istotnie związane ze zmienną zależną.

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=RSQUARE BEST=5;

RUN; QUIT;

ODS HTML CLOSE;

— Poprawiony R2 (adjusted R-square) — wybór modeli o najwyższych wartościach poprawionego współczynnika determinacji, który jest wyznaczany według wzoru:

gdzie: — poprawiony współczynnik determinacji; — współczynnik determinacji; — liczba obserwacji;

— liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące).

Poprawiony współczynnik determinacji pozbawiony jest wady, którą posiada zwykły współczynnik determinacji. Jeżeli do modelu regresji dodamy zmienną opisującą, która nie wpływa na zmienną zależną to wartość poprawionego R2 ulegnie

zmniejszeniu.

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=ADJRSQ BEST=10;

RUN; QUIT;

ODS HTML CLOSE;

— Cp Mallowsa (Cp) — wybór najlepszego modelu według wartości statystyki Cp

wyznaczanej według wzoru:

gdzie: — wartość statystyki Cp Mallowsa; — suma kwadratów odchyleń błędu losowego (reszt) dla modelu z zmiennymi; — średni kwadrat odchyleń dla błędu losowego (reszt) w modelu ze wszystkimi zmiennymi; — liczba obserwacji; — liczba wszystkich zmiennych (zmienna zależna + zmienne opisujące);

— liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące).

Stosuje się dwa kryteria doboru modelu:

1) Kryterium Mallowsa — dla modeli służących do predykcji wartości zmiennej zależnej — ;

2) Kryterium Hockinga — dla modeli służących do estymacji parametrów (stałej i współczynników regresji) — .

Page 91: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 91

DARIUSZ R. MAŃKOWSKI

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=CP BEST=10;

PLOT cp. * np. / CMALLOWS = red CHOCKING = blue;

RUN; QUIT;

ODS HTML CLOSE;

— Kryterium Akaike (AIC — Akaike Information Criterion) — wybór modeli o najmniejszej wartości AIC, wyznaczanej według wzoru:

gdzie: — wartość statystyki Akaike; — suma kwadratów odchyleń błędu losowego (reszt) dla modelu z zmiennymi; — liczba obserwacji; — liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące).

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=ADJRSQ AIC BEST=10;

RUN; QUIT;

ODS HTML CLOSE;

— Kryterium Schwarz’a-Bayesa (SBC — Schwarz-Bayesian Information Criterion) —

wybór modeli o najmniejszej wartości SBC, wyznaczanej według wzoru:

gdzie: — wartość statystyki Schwarz’a-Bayesa; — suma kwadratów odchyleń błędu losowego (reszt) dla modelu z zmiennymi; — liczba obserwacji; — liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące).

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=ADJRSQ SBC BEST=10;

RUN; QUIT;

ODS HTML CLOSE;

— Kryterium Informacyjne Sawy-Bayesa (BIC — Sawa-Bayesian Infotmation

Criterion) — wybór modeli o najmniejszej wartości BIC, wyznaczanej według wzoru:

gdzie: — wartość statystyki Sawy-Bayesa; — suma kwadratów odchyleń błędu losowego (reszt) dla modelu z zmiennymi; — liczba obserwacji; — liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna

+ zmienne opisujące); ; — średni kwadrat odchyleń dla błędu losowego (reszt) w modelu ze

wszystkimi zmiennymi.

Page 92: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

92 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=ADJRSQ BIC BEST=10;

RUN; QUIT;

ODS HTML CLOSE;

— Kryterium prognozy (PC — Amemiya's Prediction Criterion) — wybór modeli o najmniejszej wartości PC, wyznaczanej według wzoru:

gdzie: — wartość statystyki PC; — liczba obserwacji; — liczba zmiennych znajdujących się aktualnie w modelu (zmienna zależna + zmienne opisujące); — współczynnik determinacji dla modelu z zmiennymi.

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / SELECTION=ADJRSQ PC BEST=10;

RUN; QUIT;

ODS HTML CLOSE;

2.2. Badanie funkcji regresji

Badanie wyznaczonej funkcji regresji jest często pomijane w trakcie prowadzenia analiz statystycznych. Tymczasem jest to podstawowe narzędzie, pozwalające na stwierdzenie czy model liniowy jest odpowiedni dla analizowanych danych oraz czy w trakcie analizy nie zaszły jakieś nieprawidłowości, które mogą wpłynąć na jakość uzyskanych wyników.

Proces badania funkcji regresji składa się z trzech etapów (w przypadku analizy funkcji regresji liniowej wykonuje się tylko dwa pierwsze etapy, a w przypadku analizy funkcji regresji

wielokrotnej — wszystkie trzy etapy):

1) Badanie reszt;

2) Badanie wpływu obserwacji (influence observation);

3) Badanie współliniowości zmiennych opisujących (colinearity).

Badanie reszt polega na sprawdzeniu poprawności założeń postawionych na początku analizy. W przypadku analizy regresji liniowej i wielokrotnej zakłada się, że reszty powinny mieć rozkład losowy normalny (NID), a wartość średnia reszt powinna wynosić 0.

— Losowość reszt można ocenić na dwa sposoby — za pomocą testu serii (podejście obiektywne) lub za pomocą wykresu reszt względem wartości przewidywanych (podejście subiektywne). System SAS® pozwala na zastosowanie tej drugiej metody.

W celu sporządzenia wykresu reszt należy dodać do składni kodu analizy regresji polecenie PLOT.

Page 93: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 93

DARIUSZ R. MAŃKOWSKI

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior;

PLOT r. * p.;

RUN; QUIT;

ODS HTML CLOSE;

— Badanie normalności rozkładu reszt w Systemie SAS® nie jest elementem składni procedury REG. Dlatego zabieg ten należy podzielić na dwa etapy — najpierw za

pomocą procedury REG wyznaczyć wartości reszt, a następnie przeprowadzić badanie rozkładu tych reszt. Odpowiednikiem analizy rozkładu z programu EG jest procedura UNIVARIATE w środowisku programistycznym. Dodatkowo umożliwia ona weryfikację hipotezy o zerowej wartości średniej reszt.

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior;

OUTPUT OUT=residuals p=pred r=reszty;

RUN; QUIT;

PROC UNIVARIATE DATA=residuals NORMAL;

VAR reszty;

HISTOGRAM reszty / NORMAL (MU=est SIGMA=est W=2 COLOR=blue);

RUN;

ODS HTML CLOSE;

Badanie wpływu obserwacji polega na analizie sposobu, w jaki pojedyncze obserwacje

wpływają na oszacowane wartości modelu regresji. Skrajny przypadek obserwacji wpływającej na szacowanie modelu przedstawia rysunek:

W analizowanym zbiorze danych mogą występować pojedyncze obserwacje, które odstają od pozostałych i dodatkowo silnie oddziałują na szacowanie parametrów modelu regresyjnego. Tego typu obserwacje, jeżeli są na przykład efektem pomyłki, mogą znacznie pogorszyć jakość dopasowanego modelu i zafałszowywać wyniki. Ważne jest więc by tego typu dane

X

Y

Page 94: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

94 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

zidentyfikować. Nie jest zalecane usuwanie tych obserwacji bez zastanowienia, szczególnie gdy nie możemy jednoznacznie stwierdzić, że są one efektem pomyłki człowieka.

Do identyfikacji obserwacji „odstających” i „wpływających” można wykorzystać następujące statystyki: STUDENT, RSTUDENT, D–Cook’a, DFFITS, DFBETAS, COVRATIO.

— STUDENT — reszty studentyzowane – reszty podzielone przez ich odchylenie

standardowe. Jeżeli dla i-tej obserwacji to uznaje się i-tą obserwację za odstającą. Wartość statystyki STUDENT wyznacza się dla każdej obserwacji według wzoru:

gdzie: — studentyzowana reszta dla i-tej obserwacji; — reszta dla i-tej obserwacji; — średni kwadrat odchyleń dla błędu losowego (reszty); ; — i-ty wiersz macierzy .

— RSTUDENT — reszty po usunięciu i-tej obserwacji, podzielone przez ich odchylenie

standardowe. Jeżeli dla i-tej obserwacji to uznaje się i-tą obserwację za odstającą. Wartość statystyki RSTUDENT wyznacza się dla każdej obserwacji według wzoru:

gdzie: — RSTUDENT; — reszta dla i-tej obserwacji; — średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji bez i-tej obserwacji; ; — i-ty wiersz macierzy .

— Statystyka D-Cook’a — jest miarą symulowanych zmian w estymowanych parametrach modelu w przypadku usunięcia i-tej obserwacji. Jeżeli dla i-tej

obserwacji (lub w uogólnieniu ) to uznaje się i-tą

obserwację za odstającą. Wartość statystyki D-Cook’a wyznacza się dla każdej obserwacji według wzoru:

gdzie: — statystyka D-Cook’a; — studentyzowana reszta dla i-tej obserwacji; — liczba zmiennych w modelu

(zmienna zależna + zmienne opisujące); ; — i-ty wiersz macierzy .

— DFFITS — jest miarą oddziaływania i-tej obserwacji na szacowanie parametrów

modelu regresji. Jeżeli dla i-tej obserwacji to przyjmuje się, że i-ta

obserwacja znacząco wpływa na szacowanie parametrów modelu regresji. Wartość statystyki DFFITS wyznacza się według wzoru:

gdzie: — oszacowana wartość zmiennej zależnej dla i-tej obserwacji według modelu regresji wyznaczonego na podstawie wszystkich obserwacji; — oszacowana wartość zmiennej zależnej dla i-tej obserwacji według modelu regresji wyznaczonego na podstawie wszystkich obserwacji, ale bez i-tej obserwacji; — średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji bez i-tej obserwacji; ; — i-ty wiersz

macierzy .

— DFBETAS — jest miarą zmian w estymacji parametrów w przypadku usunięcia i-tej

obserwacji. Jeżeli dla i-tej obserwacji to przyjmuje się, że i-ta

obserwacja znacząco wpływa na szacowanie parametrów modelu regresji. Wartość statystyki DFBETAS wyznacza się według wzoru:

Page 95: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 95

DARIUSZ R. MAŃKOWSKI

gdzie: — oszacowana wartość j-tego parametru modelu regresji wyznaczonego na podstawie wszystkich

obserwacji; — oszacowana wartość j-tego parametru modelu regresji wyznaczonego na podstawie wszystkich

obserwacji, ale bez i-tej obserwacji; — średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji

bez i-tej obserwacji; — (j+1)-ty diagonalny element macierzy .

— COVRATIO — jest miarą zmiany precyzji estymacji parametrów modelu gdy i-ta

obserwacja jest usunięta z modelu. Jeżeli dla i-tej obserwacji

to przyjmuje się, że i-ta obserwacja znacząco

wpływa na szacowanie parametrów modelu regresji. Wartość statystyki COVRATIO wyznacza się według wzoru:

gdzie: — średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji bez i-tej obserwacji;

— średni kwadrat odchyleń dla błędu losowego (reszty) modelu regresji wyznaczonego na podstawie

wszystkich obserwacji.

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / R INFLUENCE;

RUN; QUIT;

ODS HTML CLOSE;

Badanie współliniowości zmiennych opisujących pozwala na identyfikację wewnętrznych zależności pomiędzy zmiennymi opisującymi modelu regresji wielokrotnej. Wystąpienie istotnych zależności w obrębie zmiennych opisujących może doprowadzić do niewłaściwego doboru modelu, mniejszej dokładności szacowania parametrów regresji, obniżenia jakości modelu bądź do zatarcia pewnych istotnych informacji. Należy jednak pamiętać, że współliniowość nie jest błędem ani naruszeniem założeń analizy regresji wielokrotnej.

Analizę współliniowości zmiennych w modelu regresji wielokrotnej można oprzeć na trzech

miarach współliniowości: VIF (variance inflation factor), indeksie warunku (condition index) oraz ilorazie wariancji (variance decomposition proportion).

— VIF jest miarą wzrostu wariancji obserwacji spowodowanego współliniowością zmiennych. Jeżeli to uznaje się, że współliniowość zmiennych w analizowanym modelu regresji wielokrotnej jest znacząca. W tym przypadku obserwowany współczynnik determinacji pomiędzy j-tą zmienną niezależną a pozostałymi zmiennymi niezależnymi z modelu regresji wielokrotnej kształtuje się na poziomie . VIF wyznacza się dla każdej zmiennej niezależnej w modelu według wzoru:

gdzie: — współczynnik determinacji dla funkcji regresji wielokrotnej pomiędzy j-tą zmienną niezależną a pozostałymi zmiennymi niezależnymi z analizowanego modelu.

— Indeks warunku jest miarą siły współliniowości zmiennych w modelu. Jeżeli przyjmuje on wartości z zakresu 0–30 stwierdza się słabą współliniowość zmiennych, dla wartości 30–100 — średnią współliniowość zmiennych, a dla wartości >100 — silną współliniowość zmiennych w modelu regresji wielokrotnej. Indeks warunku wyznacza się dla każdej ze składowych głównych, opisujących zmienność analizowanych zmiennych niezależnych według wzoru:

Page 96: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

96 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

gdzie: — indeks warunku k-tej składowej głównej; — maksymalna wartość własna składowych głównych; — wartość własna k-tej składowej głównej.

— Iloraz wariancji wyznacza się w ramach każdej składowej głównej, oddzielnie dla każdej analizowanej zmiennej niezależnej według wzoru:

gdzie: — j-ty element k-tego wektora własnego macierzy efektów ; — wartość własna k-tej składowej głównej; — j-ty element i-tego wektora własnego macierzy efektów ; — wartość własna i-tej składowej głównej.

Przy wartości powyżej 0,5 iloraz wariancji wskazuje na współliniowość zmiennych niezależnych.

Przykład

ODS HTML;

PROC REG DATA=kurs.ziemniak_reg;

MODEL plon = obornik -- zbior / VIF COLLIN COLLINOINT;

RUN; QUIT;

ODS HTML CLOSE;

Page 97: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 97

DARIUSZ R. MAŃKOWSKI

3. Zaawansowane zastosowania analizy wariancji

Program EG pozwala na przeprowadzenie analizy wariancji dla podstawowych i niezbyt

skomplikowanych układów doświadczalnych. W przypadku układów bardziej skomplikowanych (np. układy hierarchiczne lub układ kratowy), do analizy danych pochodzących z tych doświadczeń, musimy wykorzystać możliwości języka 4GL Systemu SAS®.

3.1. Doświadczenia w układach hierarchicznych

Do przeprowadzenia analizy wariancji dla danych w układach hierarchicznych (jak również w klasycznych układach doświadczalnych) możemy wykorzystać procedurę GLM. Składnia tej procedury jest następująca:

PROC GLM DATA=nazwa_zbioru;

BY zmienne_grupujące;

CLASS zmienne_klasyfikujące;

MODEL zmienna_zależna = efekty_czynników /opcje;

TEST H=efekt E=efekt;

MEANS zmienne_klasyfikujące /opcje;

LSMEANS zmienne_klasyfikujące;

RUN; QUIT;

Polecenie PROC GLM rozpoczyna procedurę; polecenie DATA=nazwa_zbioru wskazuje zbiór danych, do którego odwołuje się procedura. Polecenie BY zmienne_grupujące wskazuje zmienne

definiujące grupy, dla których analizy mają być przeprowadzone oddzielnie. Jeżeli w składni pominie się to polecenie, to analiza zostanie przeprowadzona dla całego zbioru danych. Polecenie CLASS zmienne_klasyfikujące wskazuje zmienne klasyfikujące, czyli badane czynniki w naszym doświadczeniu. Polecenie MODEL zmienna_zależna = efekty_czynników definiuje model,

który ma zostać uwzględniony w analizie wariancji; zmienna zależna to nasza obserwowana cecha ilościowa; efekty czynników to czynniki i interakcje między nimi (czynniki muszą być wymienione w poleceniu CLASS):

Zapis Znaczenie

A B C czynnik A, czynnik B, czynnik C

A*B C interakcja A × B, czynnik C

A B C A*B B*C czynnik A, czynnik B, czynnik C, interakcja A × B, interakcja B × C

A*B*C interakcja A × B × C

A|B C czynnik A, czynnik B, interakcja A × B, czynnik C

A|B|C czynnik A, czynnik B, czynnik C, interakcja A × B, interakcja A × C, interakcja B × C, interakcja A × B × C

A(B*C) efekt czynnika A + efekt interakcji B × C

Opcje dostępne w poleceniu MODEL:

— SS1 — wykonuje obliczenia według I Typu sumy kwadratów odchyleń; — SS2 — wykonuje obliczenia według II Typu sumy kwadratów odchyleń; — SS3 — wykonuje obliczenia według III Typu sumy kwadratów odchyleń; — SS4 — wykonuje obliczenia według IV Typu sumy kwadratów odchyleń.

Polecenie TEST H=efekt E=efekt pozwala na przeprowadzenie innego niż domyślne testowania. Domyślnie wszystkie efekty czynników i interakcji są testowane do błędu losowego, jednak w układach hierarchicznych część efektów testowana jest do innych błędów. Polecenie TEST pozwala na przeprowadzenie takiego testowania. Po formule „H=” wymieniamy efekty

czynników, które mają być testowane, a po formule „E=” podajemy błąd, do którego ma być przeprowadzone testowanie.

Page 98: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

98 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Polecenie MEANS zmienne_klasyfikujące bez podania dodatkowych opcji pozwala na

wyznaczenie wartości średnich dla obserwowanej cechy (zmiennej zależnej) w ramach poziomów badanych czynników (zmiennych klasyfikujących). Opcje:

— BON — przeprowadza test t Bonfferoniego porównania wartości średnich; — DUNCAN — przeprowadza procedurę porównań wielokrotnych opartą na

wielokrotnym teście Duncana; — DUNETT (‘kontrola’) — przeprowadza obustronny (wartości różne) test Dunnetta

porównania wartości średnich z wzorcem. Kontrola to nazwa czynnika reprezentującego wzorzec (wielkość liter ma znaczenie, w przypadku zmiennych tekstowych stosować znaki ‘ ‘);

— DUNNETTL (‘kontrola’) — przeprowadza lewostronny (wartości mniejsze) test Dunnetta porównania wartości średnich z wzorcem. Kontrola to nazwa czynnika reprezentującego wzorzec (wielkość liter ma znaczenie, w przypadku zmiennych tekstowych stosować znaki ‘ ‘)

— DUNETTU (‘kontrola’) — przeprowadza prawostronny (wartości większe) test Dunnetta porównania wartości średnich z wzorcem. Kontrola to nazwa czynnika reprezentującego wzorzec (wielkość liter ma znaczenie, w przypadku zmiennych tekstowych stosować znaki ‘ ‘)

— GABRIEL — przeprowadza procedurę porównań wielokrotnych Gabriela; — LSD — przeprowadza procedurę porównań wielokrotnych opartą na teście

t-Studenta;

— REGWQ — przeprowadza procedurę porównań wielokrotnych Ryana-Eliota-

Gabriela-Welcha;

— SCHEFFE — przeprowadza procedurę porównań wielokrotnych Scheffégo; — SIDAK — przeprowadza procedurę porównań wielokrotnych Sidaka;

— SNK — przeprowadza procedurę porównań wielokrotnych Studenta-Newmana-

Keulsa;

— TUKEY — przeprowadza procedurę porównań wielokrotnych Tukeya (dla danych nieortogonalnych procedurę Tukeya-Kramera);

— ALPHA=n — definiuje poziom istotności dla którego mają być przeprowadzone porównania wielokrotne (domyślnie jest to 0.05, znak dziesiętny to „.”);

— E=efekt — wskazuje, dla jakiej wartości błędu mają być przeprowadzone porównania wielokrotne (powinien być zgodny z poleceniem TEST);

— HOVTEST — wykonuje test homogeniczności wariancji (heteroscedastyczności) z wykorzystaniem testu Levenea;

— HOVTEST=BARTLETT — wykonuje test homogeniczności wariancji (heteroscedastyczności) z wykorzystaniem testu Bartletta;

— HOVTEST=BF — wykonuje test homogeniczności wariancji (heteroscedastyczności) z wykorzystaniem testu Browna-Forsytha.

Polecenie LSMEANS zmienne_klasyfikujące pozwala, w przypadku analizy danych

nieortogonalnych, na wyznaczenie poprawionych wartości średnich cechy obserwowanej dla poziomów badanego czynnika, nieobciążonych efektem liczności próby. Do ‘poprawiania’ średnich wykorzystuje się metodę najmniejszych kwadratów (Least Square Means).

Polecenia RUN; QUIT; kończą procedurę.

Układ Split-plot

Układ Split-plot jest modyfikacją układu losowanych bloków. Wykorzystywany jest on w tych przypadkach, gdy zastosowanie badanego czynnika wymaga dużych powierzchni, co

z kolei może prowadzić do nakładania się poletek. Najczęściej do takich czynników zalicza się zabiegi mechaniczne lub zabiegi ochrony chemicznej.

Page 99: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 99

DARIUSZ R. MAŃKOWSKI

Doświadczenia dwuczynnikowe

Przykładowy schemat doświadczenia dwuczynnikowego w układzie Split-plot:

BLOK I BLOK II BLOK II BLOK IV

A2 A2 A1 A3

A2B1 A2B3 A2B2 A2B1 A2B2 A2B3 A1B3 A1B2 A1B1 A3B2 A3B1 A3B3

A3 A1 A2 A1

A3B2 A3B1 A3B3 A1B2 A1B1 A1B3 A2B1 A2B3 A2B2 A1B1 A1B3 A1B2

A1 A3 A3 A2

A1B1 A1B3 A1B2 A3B1 A3B3 A3B2 A3B2 A3B1 A3B3 A2B3 A2B2 A2B1

Czynnik ‘wymagający’ umieszczany jest losowo jako podblok (czynnik A), a w ramach podbloków rozlosowuje się poziomy drugiego czynnika (czynnik B).

Model liniowy analizy wariancji dla tego modelu ma postać:

gdzie: — cecha obserwowana dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku;

— prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego poziomu czynnika A; — pierwszy błąd dla

j-tego poziomu czynnika A w i-tym bloku.; — efekt k-tego poziomu czynnika B; — efekt interakcji j-tego

poziomu czynnika A i k-tego poziomu czynnika B; — drugi błąd losowy dla j-tego poziomu czynnika A i k-tego

poziomu czynnika B w i-tym bloku.

W trakcie analizy weryfikowane są trzy hipotezy zerowe:

— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);

— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);

— mówiąca o braku interakcji pomiędzy czynnikiem A i B.

Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).

Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)

Bloki Błąd I: interakcja bloki × czynnik A

Czynnik A Błąd I: interakcja bloki × czynnik A

Czynnik B Błąd II: błąd losowy

Interakcja A × B Błąd II: błąd losowy

Przykład 1

Przeprowadzono porównanie reakcji 5 odmian łubinu żółtego na cztery rodzaje zaprawy nasiennej (zbiór ‘Lubin_zaprawa’ w bibliotece ‘Kurs’).

Doświadczenie założono w układzie Split-plot. Oceniano wschody polowe.

Przeprowadzić analizę wariancji, grupy jednorodne wyznaczyć procedurą

Tukeya.

Kierunek zmienności systematycznej

Page 100: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

100 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

ODS HTML;

PROC GLM DATA=kurs.lubin_zaprawa;

CLASS bloki linia zaprawa;

MODEL wschody_polowe = bloki linia zaprawa bloki*linia linia*zaprawa /SS1;

TEST H=bloki linia E=bloki*linia;

MEANS linia / TUKEY E=bloki*linia;

MEANS zaprawa / TUKEY;

RUN; QUIT;

ODS HTML CLOSE;

Przykład 2

Przeprowadzono doświadczenie z 15 odmianami pszenicy ozimej, które uprawiano przy trzech dawkach nawożenia (zbiór ‘Pszenica_oz_sp’ biblioteka ‘Kurs’). Obserwowano plony. Doświadczenie założono w układzie Split-plot.

Przeprowadzić analizę wariancji, grupowanie średnich wykonać procedurą Studenta-Newmana-Keulsa.

ODS HTML;

PROC GLM DATA=kurs.pszenica_oz_sp;

CLASS bloki odmiany nawozenie;

MODEL plon = bloki odmiany nawozenie bloki*odmiany odmiany*nawozenie /SS1;

TEST H=bloki odmiany E=bloki*odmiany;

MEANS odmiany / SNK E=bloki*odmiany;

MEANS nawozenie / SNK;

RUN; QUIT;

ODS HTML CLOSE;

Doświadczenia trójczynnikowe

W układzie doświadczalnym Split-plot, w przypadku doświadczeń trójczynnikowych, wyróżnia się trzy podstawowe warianty doświadczenia: A–B–C, A–BC oraz AB–C.

Wariant A–B–C

Przykładowy schemat doświadczenia trójczynnikowego:

BLOK I BLOK II BLOK III

A2 A1 A4

A2B1 A2B2 A1B2 A1B1 A4B1 A4B2

A2B1C1 A2B1C2 A2B2C2 A2B2C1 A1B2C2 A1B2C1 A1B1C2 A1B1C1 A4B1C1 A4B1C2 A4B2C1 A4B2C2

A4 A2 A3

A4B1 A4B2 A2B1 A2B2 A3B2 A3B1

A4B1C2 A4B1C1 A4B2C2 A4B2C1 A2B1C2 A2B1C1 A2B2C1 A2B2C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1

A1 A3 A1

A1B2 A1B1 A3B2 A3B1 A1B2 A1B1

A1B2C1 A1B2C2 A1B1C1 A1B1C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1 A1B2C1 A1B2C2 A1B1C2 A1B1C1

A3 A4 A2

A3B2 A3B1 A4B1 A4B2 A2B1 A2B2

A3B2C2 A3B2C1 A3B1C1 A3B1C2 A4B1C1 A4B1C2 A4B2C2 A4B2C1 A2B1C1 A2B1C2 A2B2C1 A2B2C2

Kierunek zmienności systematycznej

Page 101: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 101

DARIUSZ R. MAŃKOWSKI

Czynnik ‘wymagający’ umieszczany jest losowo jako podblok (czynnik A). W ramach

podbloków rozlosowuje się poziomy drugiego w kolejności czynnika (czynnik B), a w ramach tych pod-podbloków rozlosowuje się poziomy trzeciego czynnika (czynnik C).

Model liniowy analizy wariancji dla tego modelu ma postać:

gdzie: — cecha obserwowana dla j-tego poziomu czynnika A, k-tego poziomu czynnika Bi l-tego poziomu

czynnika C w i-tym bloku; — prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego poziomu czynnika A;

— pierwszy błąd dla j-tego poziomu czynnika A w i-tym bloku.; — efekt k-tego poziomu czynnika B;

— efekt interakcji j-tego poziomu czynnika A i k-tego poziomu czynnika B; — drugi błąd dla j-tego poziomu

czynnika A i k-tego poziomu czynnika B w i-tym bloku; — efekt l-tego poziomu czynnika C; — efekt interakcji

j-tego poziomu czynnika A i l-tego poziomu czynnika C; — efekt interakcji k-tego poziomu czynnika B i l-tego

poziomu czynnika C; — efekt interakcji j-tego poziomu czynnika A, k-tego poziomu czynnika B i l-tego poziomu

czynnika C; — trzeci błąd losowy dla j-tego poziomu czynnika A, k-tego poziomu czynnika B i l-tego poziomu

czynnika C w i-tym bloku.

W trakcie analizy weryfikowanych jest siedem hipotez zerowych:

— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);

— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);

— mówiąca o braku wpływu czynnika C na obserwowaną cechę (wszystkie średnie dla poziomów czynnika C są sobie równe);

— mówiąca o braku interakcji pomiędzy czynnikiem A i B;

— mówiąca o braku interakcji pomiędzy czynnikiem A i C;

— mówiąca o braku interakcji pomiędzy czynnikiem B i C;

— mówiąca o braku interakcji pomiędzy czynnikiem A, B i C.

Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).

Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)

Bloki Błąd I: interakcja bloki × czynnik A

Czynnik A Błąd I: interakcja bloki × czynnik A

Czynnik B Błąd II: interakcja bloki × czynnik A × czynnik B

Interakcja A × B Błąd II: interakcja bloki × czynnik A × czynnik B

Czynnik C Błąd III: błąd losowy

Interakcja A × C Błąd III: błąd losowy

Interakcja B × C Błąd III: błąd losowy

Interakcja A × B × C Błąd III: błąd losowy

Przykład

Trójczynnikowe doświadczenie z pszenżytem założono w układzie Split-plot w wariancie A–B–C (zbiór ‘Pszenzyto_a_b_c’ w bibliotece ‘Kurs’). W doświadczeniu badano wpływ 3 terminów siewu, 3 dawek nawożenia azotowego i wpływ regulatora wzrostu na plonowanie pewnej linii pszenżyta ozimego. Przeprowadzić analizę danych, do grupowania średnich wykorzystać procedurę Tukeya.

Page 102: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

102 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

ODS HTML;

PROC GLM DATA=kurs.pszenzyto_a_b_c;

CLASS blok termin_siewu dawka_n regulator_wzrostu;

MODEL plon = blok termin_siewu blok*termin_siewu dawka_n

termin_siewu*dawka_n blok*termin_siewu*dawka_n regulator_wzrostu

termin_siewu*regulator_wzrostu dawka_n*regulator_wzrostu

termin_siewu*dawka_n*regulator_wzrostu /SS1;

TEST H=blok termin_siewu E=blok*termin_siewu;

TEST H=dawka_n termin_siewu*dawka_n E=blok*termin_siewu*dawka_n;

MEANS termin_siewu /TUKEY E=blok*termin_siewu;

MEANS dawka_n /TUKEY E=blok*termin_siewu*dawka_n;

MEANS regulator_wzrostu /TUKEY;

RUN; QUIT;

ODS HTML CLOSE;

Wariant A–BC

Przykładowy schemat doświadczenia trójczynnikowego:

BLOK I BLOK II BLOK III

A2 A1 A4

A2B1C1 A2B1C2 A2B2C2 A2B2C1 A1B2C2 A1B2C1 A1B1C2 A1B1C1 A4B1C1 A4B1C2 A4B2C1 A4B2C2

A4 A2 A3

A4B1C2 A4B1C1 A4B2C2 A4B2C1 A2B1C2 A2B1C1 A2B2C1 A2B2C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1

A1 A3 A1

A1B2C1 A1B2C2 A1B1C1 A1B1C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1 A1B2C1 A1B2C2 A1B1C2 A1B1C1

A3 A4 A2

A3B2C2 A3B2C1 A3B1C1 A3B1C2 A4B1C1 A4B1C2 A4B2C2 A4B2C1 A2B1C1 A2B1C2 A2B2C1 A2B2C2

Czynnik ‘wymagający’ umieszczany jest losowo jako podblok (czynnik A), a w ramach podbloków rozlosowuje się poziomy drugiego i trzeciego czynnika (czynnik B i czynnik C).

Model liniowy analizy wariancji dla tego modelu ma postać:

gdzie: — cecha obserwowana dla j-tego poziomu czynnika A, k-tego poziomu czynnika B

i l-tego poziomu czynnika C w i-tym bloku; — prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego

poziomu czynnika A; — pierwszy błąd dla j-tego poziomu czynnika A w i-tym bloku.; — efekt k-tego poziomu

czynnika B; — efekt l-tego poziomu czynnika C; — efekt interakcji j-tego poziomu czynnika A i k-tego poziomu

czynnika B; — efekt interakcji j-tego poziomu czynnika A i l-tego poziomu czynnika C; — efekt interakcji

k-tego poziomu czynnika B i l-tego poziomu czynnika C; — efekt interakcji j-tego poziomu czynnika A, k-tego

poziomu czynnika B i l-tego poziomu czynnika C; — drugi błąd losowy dla j-tego poziomu czynnika A, k-tego

poziomu czynnika B i l-tego poziomu czynnika C w i-tym bloku.

W trakcie analizy weryfikowanych jest siedem hipotez zerowych:

— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);

— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);

Kierunek zmienności systematycznej

Page 103: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 103

DARIUSZ R. MAŃKOWSKI

— mówiąca o braku wpływu czynnika C na obserwowaną cechę (wszystkie średnie dla poziomów czynnika C są sobie równe);

— mówiąca o braku interakcji pomiędzy czynnikiem A i B;

— mówiąca o braku interakcji pomiędzy czynnikiem A i C;

— mówiąca o braku interakcji pomiędzy czynnikiem B i C;

— mówiąca o braku interakcji pomiędzy czynnikiem A, B i C.

Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).

Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)

Bloki Błąd I: interakcja bloki × czynnik A

Czynnik A Błąd I: interakcja bloki × czynnik A

Czynnik B Błąd II: błąd losowy

Interakcja A × B Błąd II: błąd losowy

Czynnik C Błąd II: błąd losowy

Interakcja A × C Błąd II: błąd losowy

Interakcja B × C Błąd II: błąd losowy

Interakcja A × B × C Błąd II: błąd losowy

Przykład

Trójczynnikowe doświadczenie z jęczmieniem ozimym założono w układzie Split-plot w wariancie A–BC (zbiór ‘Jeczmien_a_bc’ w bibliotece ‘Kurs’). W doświadczeniu badano 3 linie jęczmienia, wpływ zaprawy nasiennej i 3 fungicydów na liczbę kłosów na 1 m2. Przeprowadzić analizę danych, do grupowania średnich wykorzystać procedurę Tukeya.

ODS HTML;

PROC GLM DATA=kurs.jeczmien_a_bc;

CLASS blok linia zaprawa fungicyd;

MODEL l_klosow_na_mkw = blok linia blok*linia zaprawa fungicyd

linia*zaprawa linia*fungicyd zaprawa*fungicyd linia*zaprawa*fungicyd /SS1;

TEST H=blok linia E=blok*linia;

MEANS linia /TUKEY E=blok*linia;

MEANS zaprawa fungicyd /TUKEY;

RUN; QUIT;

ODS HTML CLOSE;

Page 104: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

104 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Wariant AB–C

Przykładowy schemat doświadczenia trójczynnikowego:

BLOK I BLOK II BLOK III

A2B1 A2B2 A1B2 A1B1 A4B1 A4B2

A2B1C1 A2B1C2 A2B2C2 A2B2C1 A1B2C2 A1B2C1 A1B1C2 A1B1C1 A4B1C1 A4B1C2 A4B2C1 A4B2C2

A4B1 A4B2 A2B1 A2B2 A3B2 A3B1

A4B1C2 A4B1C1 A4B2C2 A4B2C1 A2B1C2 A2B1C1 A2B2C1 A2B2C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1

A1B2 A1B1 A3B2 A3B1 A1B2 A1B1

A1B2C1 A1B2C2 A1B1C1 A1B1C2 A3B2C2 A3B2C1 A3B1C2 A3B1C1 A1B2C1 A1B2C2 A1B1C2 A1B1C1

A3B2 A3B1 A4B1 A4B2 A2B1 A2B2

A3B2C2 A3B2C1 A3B1C1 A3B1C2 A4B1C1 A4B1C2 A4B2C2 A4B2C1 A2B1C1 A2B1C2 A2B2C1 A2B2C2

Kombinacja czynników ‘wymagających’ umieszczany jest losowo jako podblok (czynnik A i czynnik B), a w ramach podbloków rozlosowuje się poziomy trzeciego czynnika (czynnik C).

Model liniowy analizy wariancji dla tego modelu ma postać:

gdzie: — cecha obserwowana dla j-tego poziomu czynnika A, k-tego poziomu czynnika B

i l-tego poziomu czynnika C w i-tym bloku; — prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego

poziomu czynnika A; — efekt k-tego poziomu czynnika B; — efekt interakcji j-tego poziomu czynnika A

i k-tego poziomu czynnika B; — pierwszy błąd dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym

bloku; — efekt l-tego poziomu czynnika C; — efekt interakcji j-tego poziomu czynnika A i l-tego poziomu

czynnika C; — efekt interakcji k-tego poziomu czynnika B i l-tego poziomu czynnika C; — efekt interakcji

j-tego poziomu czynnika A, k-tego poziomu czynnika B i l-tego poziomu czynnika C; — drugi błąd losowy dla

j-tego poziomu czynnika A, k-tego poziomu czynnika B i l-tego poziomu czynnika C w i-tym bloku.

W trakcie analizy weryfikowanych jest siedem hipotez zerowych:

— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);

— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);

— mówiąca o braku wpływu czynnika C na obserwowaną cechę (wszystkie średnie dla poziomów czynnika C są sobie równe);

— mówiąca o braku interakcji pomiędzy czynnikiem A i B;

— mówiąca o braku interakcji pomiędzy czynnikiem A i C;

— mówiąca o braku interakcji pomiędzy czynnikiem B i C;

— mówiąca o braku interakcji pomiędzy czynnikiem A, B i C.

Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).

Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)

Bloki Błąd I: interakcja bloki × czynnik A × czynnik B

Czynnik A Błąd I: interakcja bloki × czynnik A × czynnik B

Czynnik B Błąd I: interakcja bloki × czynnik A × czynnik B

Interakcja A × B Błąd I: interakcja bloki × czynnik A × czynnik B

Czynnik C Błąd II: błąd losowy

Interakcja A × C Błąd II: błąd losowy

Interakcja B × C Błąd II: błąd losowy

Interakcja A × B × C Błąd II: błąd losowy

Kierunek zmienności systematycznej

Page 105: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 105

DARIUSZ R. MAŃKOWSKI

Przykład

Trójczynnikowe doświadczenie z pszenicą założono w układzie Split-plot w wariancie AB–C (zbiór ‘Pszenica_ab_c’ w bibliotece ‘Kurs’). W doświadczeniu badano reakcję 3 odmian pszenicy ozimej, wpływ zaprawy nasiennej i 3 dawek nawożenia azotowego na masę tysiąca ziaren (MTZ). Przeprowadzić analizę danych, do grupowania średnich wykorzystać procedurę Tukeya.

ODS HTML;

PROC GLM DATA=kurs.pszenica_ab_c;

CLASS blok odmiana zaprawa dawka_n;

MODEL mtz = blok odmiana zaprawa odmiana*zaprawa

blok*odmiana*zaprawa dawka_n odmiana*dawka_n zaprawa*dawka_n

odmiana*zaprawa*dawka_n /SS1;

TEST H=blok odmiana zaprawa odmiana*dawka_n E=blok*odmiana*zaprawa;

MEANS odmiana zaprawa /TUKEY E=blok*odmiana*zaprawa;

MEANS dawka_n /TUKEY;

RUN; QUIT;

ODS HTML CLOSE;

Układ Split-blok

Układ split-blok jest modyfikacją układu split-plot. Czynnik bardziej wymagający nie jest rozlosowywany w ramach bloków, lecz ustawiany w pasy prostopadle do bloków. Czynnik podrzędny jest natomiast rozlosowywany w ramach bloków i poziomów czynnika nadrzędnego.

Przykładowy schemat takiego doświadczenia: BLOK I BLOK II BLOK III BLOK IV

A1B1 A1B3 A1B2 A1B3 A1B2 A1B1 A1B2 A1B1 A1B3 A1B1 A1B2 A1B3 A1

A2B2 A2B1 A2B3 A2B1 A2B3 A2B2 A2B3 A2B2 A2B1 A2B3 A2B1 A2B2 A2

A3B2 A3B3 A3B1 A3B3 A3B1 A3B2 A3B1 A3B2 A3B3 A3B2 A3B3 A3B1 A3

Kierunek zmienności systematycznej

Page 106: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

106 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Model Liniowy analizy wariancji dla tego układu doświadczalnego ma postać:

gdzie: — cecha obserwowana dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku; —

prawdziwa średnia; — efekt i-tego bloku; — efekt j-tego poziomu czynnika A; — pierwszy błąd dla j-tego

poziomu czynnika A w i-tym bloku; — efekt k-tego poziomu czynnika B; — drugi błąd dla k-tego poziomu

czynnika B w i-tym bloku; — efekt interakcji j-tego poziomu czynnika A i k-tego poziomu czynnika B; —

trzeci błąd losowy dla j-tego poziomu czynnika A i k-tego poziomu czynnika B w i-tym bloku.

W trakcie analizy weryfikowane są trzy hipotezy zerowe:

— mówiąca o braku wpływu czynnika A na obserwowaną cechę (wszystkie średnie dla poziomów czynnika A są sobie równe);

— mówiąca o braku wpływu czynnika B na obserwowaną cechę (wszystkie średnie dla poziomów czynnika B są sobie równe);

— mówiąca o braku interakcji pomiędzy czynnikiem A i B.

Dodatkowo weryfikowana jest hipoteza o braku różnic pomiędzy blokami (o braku zmienności systematycznej).

Testowanie efektów głównych i interakcji przebiega w sposób następujący: Efekty główne i interakcje Błąd (do niego testujemy efekty czynników)

Bloki Błąd I: interakcja bloki × czynnik A

Czynnik A Błąd I: interakcja bloki × czynnik A

Czynnik B Błąd II: interakcja bloki × czynnik B

Interakcja A × B Błąd III: błąd losowy

Przykład

Doświadczenie badające wpływ 4 zabiegów ochrony chemicznej (fungicydy) na masę tysiąca nasion (MTN) 10 linii grochu założono w układzie Split-blok (zbiór ‘Groch_spb’ w bibliotece ‘Kurs’). Przeprowadzić analizę danych, do grupowania średnich wykorzystać procedurę Duncana.

ODS HTML;

PROC GLM DATA=kurs.groch_spb;

CLASS bloki ochrona odmiana;

MODEL mtn = bloki ochrona bloki*ochrona odmiana bloki*odmiana

ochrona*odmiana /SS1;

TEST H=bloki ochrona E=bloki*ochrona;

TEST H=odmiana E=bloki*odmiana;

MEANS ochrona / DUNCAN E=bloki*ochrona;

MEANS odmiana / DUNCAN E=bloki*odmiana;

RUN; QUIT;

ODS HTML CLOSE;

3.2. Doświadczenia w układach kratowych

Układy kratowe zalicza się do układów bloków niekompletnych częściowo zrównoważonych. Zakłada się, że część obiektów badanych spotka się jednocześnie w tym samym bloku niekompletnym, ale będą takie, które nie spotkają się ani razu w żadnym bloku.

Przykład takiego doświadczenia przedstawia schemat:

Page 107: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 107

DARIUSZ R. MAŃKOWSKI

Krata 1 Krata 2

Blok I Blok II Blok III Blok IV Blok I Blok II Blok III Blok IV

A1 A5 A9 A13 A1 A2 A3 A4

A2 A6 A10 A14 A5 A6 A7 A8

A3 A7 A11 A15 A9 A10 A11 A12

A4 A8 A12 A16 A13 A14 A15 A16

Do analizy danych pochodzących z układów kratowych służy procedura LATTICE. Na

potrzeby tej procedury, zbiór danych musi być skonstruowany w odpowiedni sposób. Oprócz obserwowanych cech ilościowych (np. plon, MTZ, itp.) musi on zawierać cztery specjalne

kolumny:

— Group — oznacza numer kraty;

— Block — oznacza numer bloku (w każdej kracie numerację zaczynamy od 1); — Treatmnt — oznacza poziomy badanego czynnika (w zapisie nie ma błędu!);

— Rep — oznacza liczbę powtórzeń układu (zmienna nieobowiązkowa). Składnia procedury LATTICE jest następująca:

PROC LATTICE DATA=zbiór_danych;

VAR lista_zmiennych;

RUN;

Polecenie PROC LATTICE rozpoczyna procedurę; polecenie DATA=zbiór_danych definiuje zbiór,

z którego procedura będzie korzystać. Po poleceniu VAR podajemy nazwę (bądź nazwy) zmiennej analizowanej (obserwowanej cechy ilościowej). Polecenie RUN kończy procedurę.

Wyniki działania tej procedury zawierają tabelę analizy wariancji z poszczególnymi źródłami zmienności, stopniami swobody, sumą kwadratów odchyleń i średnimi kwadratami odchyleń. Nie ma wyznaczonych wartości statystyki F i p-value. Tę czynność pozostawiono użytkownikom do samodzielnego wykonania. Następnym elementem są dodatkowe statystyki, takie jak:

wariancja średnich wewnątrz bloku, wariancja średnich pomiędzy blokami, średnia wariancja, NIR’y (bazujące na średniej wariancji) dla poziomu istotności 0.01 i 0.05 do porównań średnich oraz efektywność doświadczenia w stosunku do kompletnych doświadczeń losowanych bloków (RCBD — random complete block design).

Przykład

W doświadczeniu kratowym badano plonowanie 25 odmian soi (zbiór ‘Soja_krata’ w bibliotece ‘Kurs’). Przeprowadzić analizę danych pochodzących z tego doświadczenia.

ODS HTML;

PROC LATTICE DATA=kurs.soja_krata;

VAR plon;

RUN;

ODS HTML CLOSE;

Kierunek zmienności systematycznej

Page 108: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

108 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

4. Zaawansowana hierarchiczna analiza skupień

Na hierarchiczną analizę skupień w języku 4GL składa się szereg procedur. Najważniejsze z nich to procedury: DISTANCE, CLUSTER i TREE.

PROC DISTACE

Procedura DISTANCE służy do wyznaczania dystansów pomiędzy analizowanymi obiektami. W wyniku jej działania uzyskujemy macierz dystansów pomiędzy obiektami. Składnia tej procedury jest następująca:

PROC DISTANCE DATA=zbiór_danych METHOD=metoda OUT=nazwa_zbioru;

ID zmienna_identyfikująca;

VAR typ_zmiennych (lista_zmiennych);

RUN;

Polecenie PROC DISTANCE rozpoczyna procedurę. Polecenia DATA=zbiór_danych wskazuje

zbiór danych, do którego odwołuje się procedura. Polecenie METHOD=metoda służy do wskazania metody wyznaczania dystansu:

— METHOD=GOWER — miara podobieństwa Gower’a; — METHOD=DGOWER — miara zróżnicowania Gower’a; — METHOD=EUCLID — miara odległości Euklidesa; — METHOD=SQEUCLID — kwadrat miary odległości Euklidesa; — METHOD=COV — kowariancja;

— METHOD=CORR — korelacjia Pearsona;

— METHOD=SQCORR — kwadrat korelacji Pearsona;

— METHOD=CITYBLOCK — miara odległości miejska; — METHOD=CHEBYCHEW — miara odległości Chebychewa; — METHOD=CHISQ — chi-kwadrat ( );

— METHOD=HAMMING — miara odległości Hamminga; — METHOD=HAMANN — miara odległości Hamanna; — METHOD=RR — miara Russella i Rao;

— METHOD=JACCARD — współczynnik podobieństwa genetycznego Jaccarda; — METHOD=DJACCARD — współczynnik dystansu genetycznego Jaccarda.

Polecenie OUT=nazwa_zbioru pozwala na zapisanie uzyskanej macierzy dystansów do nowego zbioru w celu wykorzystania jej w dalszych etapach analizy skupień. Za pomocą polecenia ID zmienna_identyfikująca wskazujemy kolumnę (zmienną) zawierającą identyfikatory badanych

obiektów. Polecenie VAR pozwala na wskazanie zmiennych, które mają być uwzględnione w analizie. W poleceniu tym należy zdefiniować typ zmiennych (ANOMINAL, NOMINAL, ORDINAL,

INTERVAL, RATIO), a następnie w nawiasie wskazać ich zakres. Polecenie RUN kończy procedurę.

Procedura CLUSTER Przeprowadza proces hierarchicznej klasteryzacji obiektów na podstawie macierzy dystansów pomiędzy nimi. Składnia tej procedury jest następująca:

PROC CLUSTER DATA=zbiór_danych METHOD=metoda;

ID zmienna_identyfikująca;

RUN;

Polecenie PROC DISTANCE rozpoczyna procedurę. Polecenie DATA=zbiór_danych wskazuje

zbiór, do którego odwołuje się procedura, przy czym powinien on mieć formę macierzy

dystansów pomiędzy obiektami. Polecenie METHOD=metoda służy do wskazania metody klasteryzacji:

— METHOD=AVERAGE — metoda średniego wiązania (UPGMA)

— METHOD=CENTROID — metoda centroidu;

— METHOD=COMPLETE — metoda kompletnego wiązania (najdalszego sąsiedztwa);

— METHOD=MCQUITTY — metoda McQuittiego (WPGMA);

Page 109: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 109

DARIUSZ R. MAŃKOWSKI

— METHOD=MEDIAN — metoda mediany;

— METHOD=SINGLE — metoda pojedynczego wiązania (najbliższego sąsiedztwa); — METHOD=WARD — metoda Warda.

Za pomocą polecenia ID zmienna_identyfikująca wskazujemy kolumnę (zmienną) zawierającą

identyfikatory badanych obiektów. Polecenie RUN kończy procedurę.

Procedura TREE jest procedurą graficzną i służy do sporządzania dendrogramów. Jej składnia jest następująca:

PROC TREE <HORIZONTAL> SPACES=n;

ID zmienna_identyfikująca;

RUN;

Polecenie PROC TREE rozpoczyna procedurę, przy czym nie wskazuje się tu zbioru danych, gdyż procedura ta odwołuje się bezpośrednio do wyników poprzedzającej ją w analizie skupień procedury CLUSTER. Domyślnie wykres ustawiony jest pionowo, jeśli chcemy zmienić jego orientację używamy opcji HORIZONTAL. Poleceniem SPACES=n definiujemy odstępy pomiędzy obiektami na wykresie (zaleca się SPACES=2). Za pomocą polecenia ID zmienna_identyfikująca

wskazujemy kolumnę (zmienną), która zawiera identyfikatory badanych obiektów. Polecenie RUN kończy procedurę.

4.1. Analiza dla danych molekularnych

Dane molekularne (czyli pochodzące z analiz molekularnych), zapisywane w postaci 0-1

(binarnych) macierzy, pochodzących z obrazów elektroforetycznych, często są wykorzystywane do oceny podobieństwa bądź zróżnicowania obiektów z wykorzystaniem hierarchicznej analizy skupień. Ta grupa danych jest dość charakterystyczna, gdyż 0 i 1 nie mają tu swoich wartości nominalnych, lecz stanową o dwóch różnych stanach (dane skategoryzowane). Nie można więc w ich przypadku stosować klasycznych miar odległości. Specjalnie dla danych molekularnych opracowano szereg współczynników podobieństwa i dystansu genetycznego (np. Jaccarda,

Nei’a). W Systemie SAS® procedura DISTANCE pozwala na wyznaczenie macierzy

współczynników podobieństwa bądź zróżnicowania genetycznego Jaccarda.

Dodatkowo należy pamiętać o specyficznym ustawieniu danych do tego typu analizy. W pierwszej kolumnie zbioru powinny znajdować się identyfikatory obiektów, natomiast poszczególne pasma powinny być ustawione jako kolejne kolumny. Najczęściej dane z analiz molekularnych zapisuje się w arkuszu kalkulacyjnym (np. Ms Excel) mają one porządek odwrotny co oznacza, że poszczególne obiekty to kolumny, a pasma zapisane są w wierszach. Tak zapisane dane wymagają transpozycji przed rozpoczęciem właściwej analizy. W tym celu

najlepiej dodać przed danymi jeszcze jedną kolumnę. W wierszu z identyfikatorami obiektów, wpisać w tej kolumnie nazwę identyfikatora (np. ‘linia’, ‘odmiana’, itp.). W pozostałych wierszach wpisać nazwy pasm. Tak przygotowany zbiór danych można transponować za

pomocą procedury TRANSPOSE.

Przykład 1

Na podstawie danych pochodzących z analizy PCR 13 odmian marchwi

z wykorzystaniem starterów semi-specyficznych (zbiór ‘Marchew_pcr’ w bibliotece ‘Kurs’) przeprowadzić hierarchiczną analizę skupień z wykorzystaniem miary podobieństwa genetycznego Jaccarda i klasteryzacji UPGMA.

Page 110: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

110 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

ODS HTML;

PROC DISTANCE DATA=kurs.marchew_pcr METHOD=JACCARD OUT=marchew_macierz;

ID odm;

VAR ANOMINAL (pcr_1 -- pcr_673);

RUN;

PROC PRINT DATA=marchew_macierz NOOBS;

RUN;

PROC CLUSTER DATA=marchew_macierz METHOD=AVERAGE;

ID odm;

RUN;

PROC TREE HORIZONTAL SPACES=2;

ID odm;

RUN;

ODS HTML CLOSE;

Przykład 2

Wykonano analizę AFLP 10 linii pszenicy (zbiór ‘Pszenica_aflp’ w bibliotece

‘Kurs’). Przeprowadzić analizę skupień z wykorzystaniem współczynnika podobieństwa genetycznego Jaccarda i klasteryzacji UPGMA. Przed analizą dokonać transpozycji danych.

ODS HTML;

PROC TRANSPOSE DATA=kurs.pszenica_aflp NAME=Linia OUT=pszen1(drop=_LABEL_);

ID linia;

RUN;

PROC DISTANCE DATA=pszen1 METHOD=JACCARD OUT=pszen2;

ID linia;

VAR ANOMINAL (pasmo_1 -- pasmo_763);

RUN;

PROC PRINT DATA=pszen2 NOOBS;

RUN;

PROC CLUSTER DATA=pszen2 METHOD=AVERAGE;

ID linia;

RUN;

PROC TREE HORIZONTAL SPACES=2;

ID linia;

RUN;

ODS HTML CLOSE;

Page 111: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 111

DARIUSZ R. MAŃKOWSKI

4.2. Analiza dla cech ilościowych

W przypadku analizy skupień, przeprowadzanej dla cech ilościowych, należy jedynie pamiętać o prawidłowym przygotowaniu danych. W zbiorze danych pierwsza kolumna powinna zawierać identyfikatory obiektów, a następne kolumny powinny zawierać kolejne cechy ilościowe opisujące te obiekty.

Przykład

Na podstawie wyników obserwacji cech trawnikowych 8 odmian kostrzewy czerwonej (zbiór ‘Trawy_gaz’ w bibliotece ‘Kurs’) przeprowadzić hierarchiczną analizę skupień w oparciu o kwadrat odległości Euklidesa

i klasteryzację metodą najbliższego sąsiedztwa.

ODS HTML;

PROC DISTANCE DATA=kurs.trawy_gaz METHOD=SQEUCLID OUT=trawy;

ID odm;

VAR ORDINAL (pr -- r);

RUN;

PROC PRINT DATA=trawy NOOBS;

RUN;

PROC CLUSTER DATA=trawy METHOD=SINGLE;

ID odm;

RUN;

PROC TREE HORIZONTAL SPACES=2;

ID odm;

RUN;

ODS HTML CLOSE;

Page 112: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

112 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

Page 113: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

ŚRODOWISKO PROGRAMISTYCZNE SYSTEMU SAS® 113

DARIUSZ R. MAŃKOWSKI

LITERATURA

Agresti A. 2002. Categorical Data Analysis. 2nd Edition. New Jersey, USA: John Wiley & Sons Inc.

Box G. E. P., Hunter J. S., Hunter W. G. 2005. Statistics for Experimenters — Design, Innovation, and Discovery. Second

Edition. New Jersey, USA: Wiley and Sons Inc.

Carpenter A. 1999. Annotate: Simply the Basics. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

Cody R. P., Smith J. K. 2005. Applied Statistics and the SAS Programming Language. Fifth Edition. Upper Saddle River,

NJ, USA: Pearson Education Inc.

Der G., Everitt B. S. 2002. A Handbook of Statistical Analyses using SAS. Second Edition. London, UK: Chapman

& Hall/CRC.

Freund R. J., Littell R. C. 2000. SAS System for Regression. Third Edition. New York, USA: SAS Publishing, SAS Institute

Inc., John Wiley & Sons Inc.

Friendly M. 1991. SAS System for Statistical Graphics. First Edition. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

Kala R. 1996. Elementy wnioskowania parametrycznego dla przyrodników. Poznań: Akademia Rolnicza w Poznaniu.

Khattre R., Naik D. N. 2000. Multivariate Data Reduction and Discrimination with SAS Software. New York, USA: SAS

Publishing, SAS Institute Inc., John Wiley & Sons Inc.

Khattree R., Naik D. N. 1999. Applied Multivariate Statistics with SAS Software. Second Edition. New York, USA: SAS

Publishing, SAS Institute Inc., John Wiley & Sons Inc.

Littel R. C., Stroup W. W., Freund R. J. 2002. SAS for linear models. Fourth edition. Cary, NC, USA: SAS Institute Inc.,

John Wiley & Sons Inc.

Mądry W. 2003. Doświadczalnictwo — doświadczenia czynnikowe. Warszawa: Fundacja Rozwój SGGW.

Muller K. E., Fetterman B. A. 2003. Regression and ANOVA, an Integrated Approach Using SAS Software. New York,

USA: SAS Publishing, SAS Institute Inc., John Wiley & Sons Inc.

O'Rourke N., Hatcher L., Stepanski E. J. 2005. A step-by-step approach to using SAS for univariate & multivariate

statistics. Second edition. Cary, NC, USA.: SAS Institute Inc., John Wiley & Sons Inc.

Rawlings J. O., Pantula S. G., Dickey D. A. 2001. Applied Regression Analysis - a Research Tool. Second Edition. New

York, USA: Springer-Verlag Inc.

SAS Institute Inc. 2004. BASE SAS 9.1.3 Procedures guide. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

SAS Institute Inc. 2004. SAS 9.1 Companion for Windows. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

SAS Institute Inc. 2004. SAS/GRAPH 9.1 Reference. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

SAS Institute Inc. 2004. SAS/STAT 9.1 user's guide. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

Schlotzhauer S. D., Littell R. C. 1997. SAS System for Elementary Statistical Analysis. Second Edition. Cary, NC, USA: SAS

Publishing, SAS Institute Inc.

Stokes M. E., Davis C. S. 2000. Categorical Data Analysis Using the SAS System. 2nd Edition. New York, USA: SAS

Publishing, SAS Institute Inc., John Wiley & Sons Inc.

Timm N. H., Mieczkowski T. A. 1997. Univariate & Multivariate General Linear Models: Theory and Applications Using

SAS Software. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

Trętowski J., Wójcik A. R. 1988. Metodyka doświadczeń rolniczych. Siedlce: WSRP.

Westfall P. H., Tobias R. D., Rom D., Wolfinger R. D., Hochberg Y. 1999. Multiple Comparisons and Multiple Tests Using

SAS. Cary, NC, USA: SAS Publishing, SAS Institute Inc.

Wójcik A. R. 1993. Statystyka z elementami rachunku prawdopodobieństwa i statystyki opisowej. Warszawa: SGGW.

Wójcik A. R., Laudański Z. 1989. Planowanie i wnioskowanie statystyczne w doświadczalnictwie. Warszawa: PWN.

Zieliński W. 1999. Wybrane testy statystyczne. Warszawa: Fundacja Rozwój SGGW.

Zieliński W. 2000. Tablice statystyczne. Warszawa: Fundacja Rozwój SGGW.

LITERATURA

Page 114: Mańkowski D. R. 2008. System SAS w badaniach rolniczych

114 SYSTEM SAS®

W BADANIACH ROLNICZYCH

INSTYTUT HODOWLI I AKLIMATYZACJI ROŚLIN

NOTATKI