Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór

Metody predykcji → analiza regresjiwielokrotnej, nieliniowej i wybór zmiennych

JERZY STEFANOWSKI

Instytut InformatykiPolitechnika Poznańska

TPD – 2009/2010Aktualizacja w 2010

Przebieg wykładu

1. Predykcja z wykorzystaniem analizy regresji

2. Ocena poprawności modelu regresji liniowej

3. Regresja wielowymiarowa4. Ocena modeli predykcyjnych5. Regresja nieliniowa6. Selekcja zmiennych.7. Inne podejścia do predykcji

Pop

rzed

nie

wykła

dy

Przypomnijmy ….• Spróbujmy wspólnie powtórzyć co wiemy na

temat tworzenia i diagnostyki modelu regresji!

• Także dla regresji wielowymiarowej

• Patrz klasyczne środki prezentacji

Ogólny schemat postępowania

Ustalenie założeń i postaci modelu

Szacowanie parametrów strukturalnych modelu na podstawie wyników próby

Weryfikacja modelu:• czy parametry są istotne?• ocena założeń modelu (reszty)• czy zależność jest liniowa?

Wykorzystanie modelu:1. Predykcja zmiennej Y2. Opis zależności między

zmiennymi

NIE

TAK

Trudne przypadki w modelach regresji

Prognoza punktowa w regresji

• Łatwa na podstawie równania regresji.

• Np. oceń obciążenie kart wśród posiadaczy kart, których trasa podróży osiągnie 4000 mil, w okresie o takiej długości jak okresbadany: 05,529640002663,185,2742663,185,274ˆ =⋅+=⋅+= xy

Przedziały predykcji

• (1-α)⋅100% przedział predykcji zmiennej Y

• Rozpiętość przedziału predykcji zależy od odległości wartości x od średniej !

Przykład: posiadacz, który przebył 4000 mil i 95% przedział ufności.• Z analizy danych historycznych:

= 79448/25=3177,92; SSx = 40947557,84 a s = 318,16Ponadto t przy 23 stopniach swobody wynosi 2,069

Stąd przedział 5296,05±676,62 = [4619,43; 5972,67]

• Oznacza to, że w oparciu o wyniki badań można mieć 95% zaufania do prognozy, że posiadacz karty, który przebył trasę 4000 mil w okresie o danej długości obciąży swoją kartę kredytową sumą od 4619.43 do 5972,67$.

( )( )∑ = −

−++⋅⋅± n

i i xxxx

nsty

12

2

2/11ˆ α

x

x

Niepewność w predykcji

• Ograniczenie prognoz punktowych → błędu pochodzące zarówno z niepewności szacunków, jak i losowej zmienności położenia punktów w stosunku do linii regresji.

• Stosuj wtedy tzw. przedziały predykcji (tzw. prognozy przedziałowe).

Zakres przewidywania

• Wartości prognozowane nie powinny zbyt wykraczać poza zakres wartości wykorzystywanych w procedurze szacowania parametrów równania regresji.

Inne spojrzenie na ocenę predykcji

• Przypomnijmy metody oceny klasyfikatorów

• Podejście „empiryczne”

• Podział danych na części ucząca vs. testowa

Training Set – zbiór uczący

Testing SetSkonstruuj model regresji

Oszacuj zdolnośćpredykcji

Podobne schematy podziału danych

Data

PredictionsY N

Results Known

Training set

Testing set

++--+

Model BuilderEvaluate

+-+-

W odróżnieniu od klasyfikacji nie ma etykiet dyskretnych klas, lecz wynik - wartość liczbową zmiennej zależnej

1-1.20.30.7

Ocena predykcji → „Predictor Error Measures”• Pomiar wielkości różnicy między wartością rzeczywistą a przewidywaną• Loss function: measures the error betw. yi and the predicted value yi^

• Absolute error: | yi – yi^| • Squared error: (yi – yi^)2

• Test error (generalization error): the average loss over the test set (n)

• Mean absolute error: Mean squared error:

• Relative absolute error: Relative squared error:

The mean squared-error exaggerates the presence of outliersPopularly use (square) root mean-square error, similarly, root relative

squared error

n

yyn

iii∑

=−

1|ˆ|

n

yyn

iii∑

=−

1

2)ˆ(

∑

∑

=

=

−

−

n

ii

n

iii

yy

yy

1

1

||

|ˆ|

∑

∑

=

=

−

−

n

ii

n

iii

yy

yy

1

2

1

2

)(

)ˆ(

Predykcja w danych zmiennych czasowo – szeregi czasowe

Co to jest szereg czasowy?

• Ciąg obserwacji pewnego zjawiska w kolejnych jednostkach czasu.

• Tzw. funkcja trendu

• Predykcja

• Przesuwane okna

Wykr. zmiennej: SZEREG_GMiesięczna liczba pasażerów (w tysiącach)

Nazwy obs.

SZE

RE

G_G

0

100

200

300

400

500

600

700

0

100

200

300

400

500

600

700

Sty

-194

9K

wi-1

949

Lip-

1949

Paź

-194

9S

ty-1

950

Kw

i-195

0Li

p-19

50P

aź-1

950

Sty

-195

1K

wi-1

951

Lip-

1951

Paź

-195

1S

ty-1

952

Kw

i-195

2Li

p-19

52P

aź-1

952

Sty

-195

3K

wi-1

953

Lip-

1953

Paź

-195

3S

ty-1

954

Kw

i-195

4Li

p-19

54P

aź-1

954

Sty

-195

5K

wi-1

955

Lip-

1955

Paź

-195

5S

ty-1

956

Kw

i-195

6Li

p-19

56P

aź-1

956

Sty

-195

7K

wi-1

957

Lip-

1957

Paź

-195

7S

ty-1

958

Kw

i-195

8Li

p-19

58P

aź-1

958

Sty

-195

9K

wi-1

959

Lip-

1959

Paź

-195

9S

ty-1

960

Kw

i-196

0Li

p-19

60P

aź-1

960

Inne przykłady regresji wielokrotnej

• Warto przeanalizować przykład 4.3. analizy samochodów podany przez Koronacki, Mielniczuk„Statystyka” rozdział 4.3.4

• Przedstawiony opis obejmuje: • Tworzenie modelu regresji liniowej,• Diagnostykę modelu• Identyfikację obserwacji samotnicznych• Selekcje zmiennych

Założenia poprawności stosowania modelu regresji

• Zmienne niezależne x nie są ze sobą silnie skorelowane.• Żadna ze zmiennych niezależnych nie powinna być

kombinacją liniową innych zmiennych niezależnych.• Liczba obserwacji n musi być większa od liczby

parametrów do oszacowania• Zakłada się istnienie modelu liniowego względem

parametrów.

• Jeśli wiele z założeń jest niespełniony nie korzystaj z przedstawionych metod weryfikacji

• Bardziej adekwatny skorygowany współczynnik determinacji (także stosowalny gdy nie ma wyrazu wolnego).

Regresja nieliniowa

Regresja nieliniowa i transformacje do modelu liniowego

• Między zmienną objaśnianą a zmiennymi objaśniającymi mogą zachodzić związki nieliniowe.

• W wielu przypadkach można dokonać transformacji do modelu liniowego poprzez odpowiednie przekształcenia zmiennych.

• Model Y = f(X,b) jest liniowy względem parametrów, jeśli można go przedstawić jako liniową funkcję jednoznacznych przekształceń X, przy czym współczynniki tych przekształceń musza być znane.

∑ == ki kk zbY 1

)(XhZ kk =

Przykłady prostej transformacji

Przykład regresji nieliniowej

• Punkty żywieniowe w latach 1981-1995

151751995

141801994

131961993

121971992

112081991

102151990

92261989

82261988

72271987

62261986

52241985

42201984

32101983

22051982

12001981

tPunktyRok

Punkty żywieniowe c.d

• Zakładamy, że kształt równania jest

• Wprowadzamy zmienne zastępcze

• Rozwiązanie

• a0=188

• a1=11,031

• a2=-0,814

• Weryfikacja

• R2=0.996 s=3,37

• Obie wartości statystyk t < 0.05

2210 tataay ⋅+⋅+=

tz =12

2 tz =

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

Z1

2251751995

1961801994

1691961993

1441971992

1212081991

1002151990

812261989

642261988

492271987

362261986

252241985

162201984

92101983

42051982

12001981

Z2yRok

2814.0031.11188 tty ⋅−⋅+=

Przykład regresji nieliniowej – cz.2a

• Opisać kształtowania się depozytów złotowych w oddziale banku w kolejnych kwartałach lat 1994-1996

11370III 96

10320II 96

9303I 96

8240IV 95

7238III 95

6198II 95

5190I 95

4169IV 94

3145III 94

2131II 94

1124I 94

tDEPKwartałDEP / t

100125150175200225250275300325350375400

0 1 2 3 4 5 6 7 8 9 10 11 12

Hipoteza – wykładniczy przebieg tbeaDEP ⋅⋅=

Przykład regresji nieliniowej – cz.2b

• Opisać kształtowania się depozytów złotowych w oddziale banku w kolejnych kwartałach lat 1994-1996

• Rozpatrujemy formę

370

320

303

240

238

198

190

169

145

131

124

DEP

11

10

9

8

7

6

5

4

3

2

1

t

5,914

5,768

5,714

5,481

5,472

5,288

5,247

5,130

4,977

4,875

4.820

Ln(DEP)

ln(DEP) / t

4,6

5

5,4

5,8

0 1 2 3 4 5 6 7 8 9 10 11 12

tbaDEP ⋅+= )(ln)ln(

Depozyty - rozwiązanie

• Rozwiązanie modelu przekształconego

ln(DEP)=4.671+0.111⋅t, R2=0.989, współczynniki istotne.• Przekształcenie odwrotne

tt eeDEP ⋅⋅+ ⋅== 111.0111.0671.4 6.106

Inny przykład dla Statistica – patrz ćwiczenia laboratoryjne

• Dane nt. polskiego rybołówstwa dalekomorskiego (lata 90te).

Statistica – poszukaj modeli nieliniowych• Dwie opcje → na laboratorium sprawdź to?

Możliwości interakcji z użytkownikiem

• „User defined quadratic function”

Regresja nieliniowa cd.

• Model funkcji kwadratowej (a co z innymi?)

49,5817079,3025071,0 2 −⋅+⋅−= xxy

Statistica – inna opcja• „Fitting fixed nonlinear basic functions”

Różne wskazówki co do transformacjiJ.Koronacki, J.Mielniczuk: Statystyka rozdział 4.2

• Spójrz ogólne zasady doboru transformacji dla różnych typów zależności między zmiennymi.

Także inne pozycje:

• M.Walesiak: Metody analizy danych marketingowych

• Rozdział 3.5 ogólne zasady transformacji liniowej dla typowych funkcji nieliniowych (dla kontekstu badań marketingowych)

Inne spojrzenie na nieliniowość

• Nie wszystkie modele są tak proste; funkcje nieliniowe mogą być bardziej złożone → nie nadają się do omówionych linearyzacji

• Regresja nieparametryczna → przybliżona postać nie jest znana badaczowi z dokładnością do wybranych parametrów

• Przeczytaj więcej w rozdziale 5tym książki Koronacki, Ćwiek „Statystyczne systemy uczące się” wyd. 2

przykład funkcji nieliniowej

-1,5

-1

-0,5

0

0,5

1

1,5

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31

x

t

Produkcja cementu (tysiące ton)

0

500

1000

1500

2000

lis-94 maj-95 gru-95 lip-96 sty-97 sie-97 lut-98

Różne funkcje

• Przykład trudniejszych funkcje – regresja nieparametryczna

Funkcje składane / sklejane

• Estymując funkcję regresji staramy się uwzględnić w modelu własności lokalne

• Składanie funkcji bazowych zdolnych lokalnie przybliżyć własności pewnych podobszarów dziedziny

• Regresyjne funkcje sklejane z węzłami

∑ =+= pj jfy 1 ),( βα x

Locally weighted regression

Zajrzyj do prac nt. zaawansowanych modeli• Rozdział przeglądowy w

„The Data Mining andKnowledge DiscoveryHandbook” O.Maimon, L. Rokach (eds), Springer2005.

• Także J.Koronacki, Ćwik „Statystyczne systemy uczące” 2 wydanie rozdział 5ty.

Aproksymacja radialnymi funkcjami kołowymi RBF

• Zadanie aproksymacji • Przyjmijmy funkcje liniową względem parametrów w

wykorzystującą funkcje o symetrii kołowej RBF

• Radialna funkcja bazowa → funkcja ϕ o postaci ϕ(x,c)= ϕ(r(x,c)) , gdzie r jest odległością między punktami x i c. Punkt c nazywamy centrum

• Związek funkcji radialnym z funkcjami jądrowymi (kernals), z parametrem σ szerokością jądra

Nidf ii ,,1)( K=∀=x

∑ = −⋅= mi ii cwf 1 )()( xx ϕ

Przykład aproksymacji funkcji sinsus• Za wykład prof. A.Bartkowiak Uniw. Wrocławski

Metody doboru zmiennych do modelu

• Zmienne wybiera się na podstawie wiedzy dziedzinowej.

• Wymagania nt. własności zmiennych niezależnych:

• Są silnie skorelowanych ze zmienną, którą objaśniają.

• Są nieskorelowane lub co najwyżej słabo skorelowane ze sobą.

• Charakteryzują się dużą zmiennością.

• Jak wykorzystać współczynniki korelacji?

22,

22,

2 −

−∗

+−=

n

n

tn

tr

α

α

Ocena zmiennych objaśniających• Przykład doboru zmiennych do modelu opisującego miesięczne spożycie ryb

(w kg na osobę) w zależności od: spożycia mięsa x1, warzyw x2, owoców x3, tłuszczów x4 oraz wydatków na lekarstwa x5.

560,050,190,42315

390,050,130,311214

300,261,221,225513

300.241,221,225512

230,341,461,467711

30,050,110,112310

30,190,560,56249

600,030,090,09458

530,010,010,02007

660,00,010,02006

600,00,00,01005

440,040,260,26234

110,10,440,44333

12,770,141,071,07332

14,10,120,630,63331

x5X4X3X2X1ynr

Dobór zmiennych do modelu

• Współczynniki zmienności

• Macierz współczynników korelacji

0,6320,9441,00,9170,7540,635

X5x4x3x2x1y

x5x4x3x2x1y

X5x4x3x2x1y

1-0,539-0,503-0,477-0,395-0,442

10,9510,9460,8600,813

10,9910,8510,748

10,8430,750

10,950

1

Trochę obliczeń

• Wartość krytyczna

• Słaba korelacja?

r(y,x5) =-0.442 → odrzucamy x5

• Wybieramy najsilniejszą zmienną

r(y,x1)=r1=0.950 → wybieramy x1

Co z pozostałymi zmiennymi?

5139.0264107.06656,413

6656,4==

+=∗r

Regresja krokowa• Postępująca (forward)

• Zakłada kolejne dołączanie do listy zmiennych objaśniających tych zmiennych, które mają najistotniejszy wpływ na zmienną zależną.

• Wsteczna (backward)

• Usuwamy ze zbioru zmiennych, ta które mają najmniejszy wpływ na zmienną zależną.

• Stosując R2 lub testy istotności współczynników modelu (F).

Regresja wielokrotna - Statistica

Regresja krokowa

• Generalized linear model:

• Foundation on which linear regression can be applied to modelingcategorical response variables

• Variance of y is a function of the mean value of y, not a constant

• Logistic regression: models the prob. of some event occurring as a linear function of a set of predictor variables

• Poisson regression: models the data that exhibit a Poisson distribution

• Log-linear models: (for categorical data)

• Approximate discrete multidimensional prob. distributions

• Also useful for data compression and smoothing

• Regression trees and model trees

• Trees to predict continuous values rather than class labels

Inne zaawansowane modele regresji

Regression Trees and Model Trees

• Regression tree: proposed in CART system (Breiman et al. 1984)

• CART: Classification And Regression Trees

• Each leaf stores a continuous-valued prediction

• It is the average value of the predicted attribute for the training tuples that reach the leaf

• Model tree: proposed by Quinlan (1992)

• Each leaf holds a regression model—a multivariate linear equation for the predicted attribute

• A more general case than regression tree

• Regression and model trees tend to be more accurate than linear regression when the data are not represented well by a simple linear model

An example regression tree

A3

A7

A2 A4

17.5

11.5 -5.5A1+30.23A6-4.22.1A4-0.1A6+6.7

{V1,V3} {V2,V4}

≥0.5<0.5

{V1,V3}V2 ≥3.4

Sztuczne sieci neuronowe - predykcja

Training ANN means learning the weights of the neurons

Stosowanie sieci neuronowych do predykcji

• Wybór rodzaju sieci: warstwowa MLP albo RBF

• MLP

• Topologia sieci (ile neuronów w warstwie ukrytej)

• Rodzaj neuronów (dobór funkcji aktywacji i parametrów)

• Algorytm uczenia (BP) i warunki zatrzymania

• Unikaj przeuczenia!

• Konieczność posiadania właściwego i odpowiednio licznego zbioru uczącego. y

x

y

x

Logistic regression

• Problem: some assumptions violated when linear regression is applied to classification problems

• Logistic regression: alternative to linear regression

• Designed for classification problems

• Tries to estimate class probabilities directly• Does this using the maximum likelihood method

• Uses this linear model:

P= Class probability

kkawawawawP

P++++=⎟

⎠⎞

⎜⎝⎛−

K2211001log

witten&eibe

Modele predykcji zmiennej liczbowej w WEKA

Wczytywanie danych

Regresja wielokrotna liniowa

Inne metody

Zastosowania – bardzo dużo …• Finance

• Marketing

• Economical sciences

• Biology and Medical Science

• Behavioral and social sciences

• Psychology

• Environmental science

• Agriculture

• …

Applications – few words more …• Finance:

• The capital asset pricing model uses linear regression as well as the other predictive models for analyzing and quantifying thesystematic risk of an investment.

• Marketing• Analysis of sales, demands for products, …

• Economical sciences• Macro-economical models for countries, etc.

• Biology and Medical Science• The scale of illness depeneding on epidemiology indicaters

• Behavioral and social sciences • Psychology• Environmental science

• E.g. to measure the effects of pulp mill or metal mine effluent on the aquatic ecosystem

Literatura

• Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001.

• Statystyczne systemy uczące się, Koronacki, Ćwik, WNT 2009 (2 wydanie)

• Statystyka w zarządzaniu, A.Aczel, PWN 2000.• Metody i modele eksploracji danych. D. Larose, PWN 2008.• Przystępny kurs statystyki, Stanisz A., 1997 (kol. wyd.)

• Tom 2 → poświęcony wyłącznie analizie regresji!• Statystyka. Ekonometria. Prognozowanie. Ćwiczenia z Excelem. A.

Snarska, Wydawnictwo Placet 2005.

• I wiele innych …• Przykłady zastosowań → także czytelnia firmy Statsoft

Documents

Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór