Upload
buikhanh
View
221
Download
0
Embed Size (px)
Citation preview
Metody predykcji → analiza regresjiwielokrotnej, nieliniowej i wybór zmiennych
JERZY STEFANOWSKI
Instytut InformatykiPolitechnika Poznańska
TPD – 2009/2010Aktualizacja w 2010
Przebieg wykładu
1. Predykcja z wykorzystaniem analizy regresji
2. Ocena poprawności modelu regresji liniowej
3. Regresja wielowymiarowa4. Ocena modeli predykcyjnych5. Regresja nieliniowa6. Selekcja zmiennych.7. Inne podejścia do predykcji
Pop
rzed
nie
wykła
dy
Przypomnijmy ….• Spróbujmy wspólnie powtórzyć co wiemy na
temat tworzenia i diagnostyki modelu regresji!
• Także dla regresji wielowymiarowej
• Patrz klasyczne środki prezentacji
Ogólny schemat postępowania
Ustalenie założeń i postaci modelu
Szacowanie parametrów strukturalnych modelu na podstawie wyników próby
Weryfikacja modelu:• czy parametry są istotne?• ocena założeń modelu (reszty)• czy zależność jest liniowa?
Wykorzystanie modelu:1. Predykcja zmiennej Y2. Opis zależności między
zmiennymi
NIE
TAK
Trudne przypadki w modelach regresji
Prognoza punktowa w regresji
• Łatwa na podstawie równania regresji.
• Np. oceń obciążenie kart wśród posiadaczy kart, których trasa podróży osiągnie 4000 mil, w okresie o takiej długości jak okresbadany: 05,529640002663,185,2742663,185,274ˆ =⋅+=⋅+= xy
Przedziały predykcji
• (1-α)⋅100% przedział predykcji zmiennej Y
• Rozpiętość przedziału predykcji zależy od odległości wartości x od średniej !
Przykład: posiadacz, który przebył 4000 mil i 95% przedział ufności.• Z analizy danych historycznych:
= 79448/25=3177,92; SSx = 40947557,84 a s = 318,16Ponadto t przy 23 stopniach swobody wynosi 2,069
Stąd przedział 5296,05±676,62 = [4619,43; 5972,67]
• Oznacza to, że w oparciu o wyniki badań można mieć 95% zaufania do prognozy, że posiadacz karty, który przebył trasę 4000 mil w okresie o danej długości obciąży swoją kartę kredytową sumą od 4619.43 do 5972,67$.
( )( )∑ = −
−++⋅⋅± n
i i xxxx
nsty
12
2
2/11ˆ α
x
x
Niepewność w predykcji
• Ograniczenie prognoz punktowych → błędu pochodzące zarówno z niepewności szacunków, jak i losowej zmienności położenia punktów w stosunku do linii regresji.
• Stosuj wtedy tzw. przedziały predykcji (tzw. prognozy przedziałowe).
Zakres przewidywania
• Wartości prognozowane nie powinny zbyt wykraczać poza zakres wartości wykorzystywanych w procedurze szacowania parametrów równania regresji.
Inne spojrzenie na ocenę predykcji
• Przypomnijmy metody oceny klasyfikatorów
• Podejście „empiryczne”
• Podział danych na części ucząca vs. testowa
Training Set – zbiór uczący
Testing SetSkonstruuj model regresji
Oszacuj zdolnośćpredykcji
Podobne schematy podziału danych
Data
PredictionsY N
Results Known
Training set
Testing set
++--+
Model BuilderEvaluate
+-+-
W odróżnieniu od klasyfikacji nie ma etykiet dyskretnych klas, lecz wynik - wartość liczbową zmiennej zależnej
1-1.20.30.7
Ocena predykcji → „Predictor Error Measures”• Pomiar wielkości różnicy między wartością rzeczywistą a przewidywaną• Loss function: measures the error betw. yi and the predicted value yi^
• Absolute error: | yi – yi^| • Squared error: (yi – yi^)2
• Test error (generalization error): the average loss over the test set (n)
• Mean absolute error: Mean squared error:
• Relative absolute error: Relative squared error:
The mean squared-error exaggerates the presence of outliersPopularly use (square) root mean-square error, similarly, root relative
squared error
n
yyn
iii∑
=−
1|ˆ|
n
yyn
iii∑
=−
1
2)ˆ(
∑
∑
=
=
−
−
n
ii
n
iii
yy
yy
1
1
||
|ˆ|
∑
∑
=
=
−
−
n
ii
n
iii
yy
yy
1
2
1
2
)(
)ˆ(
Predykcja w danych zmiennych czasowo – szeregi czasowe
Co to jest szereg czasowy?
• Ciąg obserwacji pewnego zjawiska w kolejnych jednostkach czasu.
• Tzw. funkcja trendu
• Predykcja
• Przesuwane okna
Wykr. zmiennej: SZEREG_GMiesięczna liczba pasażerów (w tysiącach)
Nazwy obs.
SZE
RE
G_G
0
100
200
300
400
500
600
700
0
100
200
300
400
500
600
700
Sty
-194
9K
wi-1
949
Lip-
1949
Paź
-194
9S
ty-1
950
Kw
i-195
0Li
p-19
50P
aź-1
950
Sty
-195
1K
wi-1
951
Lip-
1951
Paź
-195
1S
ty-1
952
Kw
i-195
2Li
p-19
52P
aź-1
952
Sty
-195
3K
wi-1
953
Lip-
1953
Paź
-195
3S
ty-1
954
Kw
i-195
4Li
p-19
54P
aź-1
954
Sty
-195
5K
wi-1
955
Lip-
1955
Paź
-195
5S
ty-1
956
Kw
i-195
6Li
p-19
56P
aź-1
956
Sty
-195
7K
wi-1
957
Lip-
1957
Paź
-195
7S
ty-1
958
Kw
i-195
8Li
p-19
58P
aź-1
958
Sty
-195
9K
wi-1
959
Lip-
1959
Paź
-195
9S
ty-1
960
Kw
i-196
0Li
p-19
60P
aź-1
960
Inne przykłady regresji wielokrotnej
• Warto przeanalizować przykład 4.3. analizy samochodów podany przez Koronacki, Mielniczuk„Statystyka” rozdział 4.3.4
• Przedstawiony opis obejmuje: • Tworzenie modelu regresji liniowej,• Diagnostykę modelu• Identyfikację obserwacji samotnicznych• Selekcje zmiennych
Założenia poprawności stosowania modelu regresji
• Zmienne niezależne x nie są ze sobą silnie skorelowane.• Żadna ze zmiennych niezależnych nie powinna być
kombinacją liniową innych zmiennych niezależnych.• Liczba obserwacji n musi być większa od liczby
parametrów do oszacowania• Zakłada się istnienie modelu liniowego względem
parametrów.
• Jeśli wiele z założeń jest niespełniony nie korzystaj z przedstawionych metod weryfikacji
• Bardziej adekwatny skorygowany współczynnik determinacji (także stosowalny gdy nie ma wyrazu wolnego).
Regresja nieliniowa
Regresja nieliniowa i transformacje do modelu liniowego
• Między zmienną objaśnianą a zmiennymi objaśniającymi mogą zachodzić związki nieliniowe.
• W wielu przypadkach można dokonać transformacji do modelu liniowego poprzez odpowiednie przekształcenia zmiennych.
• Model Y = f(X,b) jest liniowy względem parametrów, jeśli można go przedstawić jako liniową funkcję jednoznacznych przekształceń X, przy czym współczynniki tych przekształceń musza być znane.
∑ == ki kk zbY 1
)(XhZ kk =
Przykłady prostej transformacji
Przykład regresji nieliniowej
• Punkty żywieniowe w latach 1981-1995
151751995
141801994
131961993
121971992
112081991
102151990
92261989
82261988
72271987
62261986
52241985
42201984
32101983
22051982
12001981
tPunktyRok
Punkty żywieniowe c.d
• Zakładamy, że kształt równania jest
• Wprowadzamy zmienne zastępcze
• Rozwiązanie
• a0=188
• a1=11,031
• a2=-0,814
• Weryfikacja
• R2=0.996 s=3,37
• Obie wartości statystyk t < 0.05
2210 tataay ⋅+⋅+=
tz =12
2 tz =
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Z1
2251751995
1961801994
1691961993
1441971992
1212081991
1002151990
812261989
642261988
492271987
362261986
252241985
162201984
92101983
42051982
12001981
Z2yRok
2814.0031.11188 tty ⋅−⋅+=
Przykład regresji nieliniowej – cz.2a
• Opisać kształtowania się depozytów złotowych w oddziale banku w kolejnych kwartałach lat 1994-1996
11370III 96
10320II 96
9303I 96
8240IV 95
7238III 95
6198II 95
5190I 95
4169IV 94
3145III 94
2131II 94
1124I 94
tDEPKwartałDEP / t
100125150175200225250275300325350375400
0 1 2 3 4 5 6 7 8 9 10 11 12
Hipoteza – wykładniczy przebieg tbeaDEP ⋅⋅=
Przykład regresji nieliniowej – cz.2b
• Opisać kształtowania się depozytów złotowych w oddziale banku w kolejnych kwartałach lat 1994-1996
• Rozpatrujemy formę
370
320
303
240
238
198
190
169
145
131
124
DEP
11
10
9
8
7
6
5
4
3
2
1
t
5,914
5,768
5,714
5,481
5,472
5,288
5,247
5,130
4,977
4,875
4.820
Ln(DEP)
ln(DEP) / t
4,6
5
5,4
5,8
0 1 2 3 4 5 6 7 8 9 10 11 12
tbaDEP ⋅+= )(ln)ln(
Depozyty - rozwiązanie
• Rozwiązanie modelu przekształconego
ln(DEP)=4.671+0.111⋅t, R2=0.989, współczynniki istotne.• Przekształcenie odwrotne
tt eeDEP ⋅⋅+ ⋅== 111.0111.0671.4 6.106
Inny przykład dla Statistica – patrz ćwiczenia laboratoryjne
• Dane nt. polskiego rybołówstwa dalekomorskiego (lata 90te).
Statistica – poszukaj modeli nieliniowych• Dwie opcje → na laboratorium sprawdź to?
Możliwości interakcji z użytkownikiem
• „User defined quadratic function”
Regresja nieliniowa cd.
• Model funkcji kwadratowej (a co z innymi?)
49,5817079,3025071,0 2 −⋅+⋅−= xxy
Statistica – inna opcja• „Fitting fixed nonlinear basic functions”
Różne wskazówki co do transformacjiJ.Koronacki, J.Mielniczuk: Statystyka rozdział 4.2
• Spójrz ogólne zasady doboru transformacji dla różnych typów zależności między zmiennymi.
Także inne pozycje:
• M.Walesiak: Metody analizy danych marketingowych
• Rozdział 3.5 ogólne zasady transformacji liniowej dla typowych funkcji nieliniowych (dla kontekstu badań marketingowych)
Inne spojrzenie na nieliniowość
• Nie wszystkie modele są tak proste; funkcje nieliniowe mogą być bardziej złożone → nie nadają się do omówionych linearyzacji
• Regresja nieparametryczna → przybliżona postać nie jest znana badaczowi z dokładnością do wybranych parametrów
• Przeczytaj więcej w rozdziale 5tym książki Koronacki, Ćwiek „Statystyczne systemy uczące się” wyd. 2
przykład funkcji nieliniowej
-1,5
-1
-0,5
0
0,5
1
1,5
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
x
t
Produkcja cementu (tysiące ton)
0
500
1000
1500
2000
lis-94 maj-95 gru-95 lip-96 sty-97 sie-97 lut-98
Różne funkcje
• Przykład trudniejszych funkcje – regresja nieparametryczna
Funkcje składane / sklejane
• Estymując funkcję regresji staramy się uwzględnić w modelu własności lokalne
• Składanie funkcji bazowych zdolnych lokalnie przybliżyć własności pewnych podobszarów dziedziny
• Regresyjne funkcje sklejane z węzłami
∑ =+= pj jfy 1 ),( βα x
Locally weighted regression
Zajrzyj do prac nt. zaawansowanych modeli• Rozdział przeglądowy w
„The Data Mining andKnowledge DiscoveryHandbook” O.Maimon, L. Rokach (eds), Springer2005.
• Także J.Koronacki, Ćwik „Statystyczne systemy uczące” 2 wydanie rozdział 5ty.
Aproksymacja radialnymi funkcjami kołowymi RBF
• Zadanie aproksymacji • Przyjmijmy funkcje liniową względem parametrów w
wykorzystującą funkcje o symetrii kołowej RBF
• Radialna funkcja bazowa → funkcja ϕ o postaci ϕ(x,c)= ϕ(r(x,c)) , gdzie r jest odległością między punktami x i c. Punkt c nazywamy centrum
• Związek funkcji radialnym z funkcjami jądrowymi (kernals), z parametrem σ szerokością jądra
Nidf ii ,,1)( K=∀=x
∑ = −⋅= mi ii cwf 1 )()( xx ϕ
Przykład aproksymacji funkcji sinsus• Za wykład prof. A.Bartkowiak Uniw. Wrocławski
Metody doboru zmiennych do modelu
• Zmienne wybiera się na podstawie wiedzy dziedzinowej.
• Wymagania nt. własności zmiennych niezależnych:
• Są silnie skorelowanych ze zmienną, którą objaśniają.
• Są nieskorelowane lub co najwyżej słabo skorelowane ze sobą.
• Charakteryzują się dużą zmiennością.
• Jak wykorzystać współczynniki korelacji?
22,
22,
2 −
−∗
+−=
n
n
tn
tr
α
α
Ocena zmiennych objaśniających• Przykład doboru zmiennych do modelu opisującego miesięczne spożycie ryb
(w kg na osobę) w zależności od: spożycia mięsa x1, warzyw x2, owoców x3, tłuszczów x4 oraz wydatków na lekarstwa x5.
560,050,190,42315
390,050,130,311214
300,261,221,225513
300.241,221,225512
230,341,461,467711
30,050,110,112310
30,190,560,56249
600,030,090,09458
530,010,010,02007
660,00,010,02006
600,00,00,01005
440,040,260,26234
110,10,440,44333
12,770,141,071,07332
14,10,120,630,63331
x5X4X3X2X1ynr
Dobór zmiennych do modelu
• Współczynniki zmienności
• Macierz współczynników korelacji
0,6320,9441,00,9170,7540,635
X5x4x3x2x1y
x5x4x3x2x1y
X5x4x3x2x1y
1-0,539-0,503-0,477-0,395-0,442
10,9510,9460,8600,813
10,9910,8510,748
10,8430,750
10,950
1
Trochę obliczeń
• Wartość krytyczna
• Słaba korelacja?
r(y,x5) =-0.442 → odrzucamy x5
• Wybieramy najsilniejszą zmienną
r(y,x1)=r1=0.950 → wybieramy x1
Co z pozostałymi zmiennymi?
5139.0264107.06656,413
6656,4==
+=∗r
Regresja krokowa• Postępująca (forward)
• Zakłada kolejne dołączanie do listy zmiennych objaśniających tych zmiennych, które mają najistotniejszy wpływ na zmienną zależną.
• Wsteczna (backward)
• Usuwamy ze zbioru zmiennych, ta które mają najmniejszy wpływ na zmienną zależną.
• Stosując R2 lub testy istotności współczynników modelu (F).
Regresja wielokrotna - Statistica
Regresja krokowa
• Generalized linear model:
• Foundation on which linear regression can be applied to modelingcategorical response variables
• Variance of y is a function of the mean value of y, not a constant
• Logistic regression: models the prob. of some event occurring as a linear function of a set of predictor variables
• Poisson regression: models the data that exhibit a Poisson distribution
• Log-linear models: (for categorical data)
• Approximate discrete multidimensional prob. distributions
• Also useful for data compression and smoothing
• Regression trees and model trees
• Trees to predict continuous values rather than class labels
Inne zaawansowane modele regresji
Regression Trees and Model Trees
• Regression tree: proposed in CART system (Breiman et al. 1984)
• CART: Classification And Regression Trees
• Each leaf stores a continuous-valued prediction
• It is the average value of the predicted attribute for the training tuples that reach the leaf
• Model tree: proposed by Quinlan (1992)
• Each leaf holds a regression model—a multivariate linear equation for the predicted attribute
• A more general case than regression tree
• Regression and model trees tend to be more accurate than linear regression when the data are not represented well by a simple linear model
An example regression tree
A3
A7
A2 A4
17.5
11.5 -5.5A1+30.23A6-4.22.1A4-0.1A6+6.7
{V1,V3} {V2,V4}
≥0.5<0.5
{V1,V3}V2 ≥3.4
Sztuczne sieci neuronowe - predykcja
Training ANN means learning the weights of the neurons
Stosowanie sieci neuronowych do predykcji
• Wybór rodzaju sieci: warstwowa MLP albo RBF
• MLP
• Topologia sieci (ile neuronów w warstwie ukrytej)
• Rodzaj neuronów (dobór funkcji aktywacji i parametrów)
• Algorytm uczenia (BP) i warunki zatrzymania
• Unikaj przeuczenia!
• Konieczność posiadania właściwego i odpowiednio licznego zbioru uczącego. y
x
y
x
Logistic regression
• Problem: some assumptions violated when linear regression is applied to classification problems
• Logistic regression: alternative to linear regression
• Designed for classification problems
• Tries to estimate class probabilities directly• Does this using the maximum likelihood method
• Uses this linear model:
P= Class probability
kkawawawawP
P++++=⎟
⎠⎞
⎜⎝⎛−
K2211001log
witten&eibe
Modele predykcji zmiennej liczbowej w WEKA
Wczytywanie danych
Regresja wielokrotna liniowa
Inne metody
Zastosowania – bardzo dużo …• Finance
• Marketing
• Economical sciences
• Biology and Medical Science
• Behavioral and social sciences
• Psychology
• Environmental science
• Agriculture
• …
Applications – few words more …• Finance:
• The capital asset pricing model uses linear regression as well as the other predictive models for analyzing and quantifying thesystematic risk of an investment.
• Marketing• Analysis of sales, demands for products, …
• Economical sciences• Macro-economical models for countries, etc.
• Biology and Medical Science• The scale of illness depeneding on epidemiology indicaters
• Behavioral and social sciences • Psychology• Environmental science
• E.g. to measure the effects of pulp mill or metal mine effluent on the aquatic ecosystem
Literatura
• Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001.
• Statystyczne systemy uczące się, Koronacki, Ćwik, WNT 2009 (2 wydanie)
• Statystyka w zarządzaniu, A.Aczel, PWN 2000.• Metody i modele eksploracji danych. D. Larose, PWN 2008.• Przystępny kurs statystyki, Stanisz A., 1997 (kol. wyd.)
• Tom 2 → poświęcony wyłącznie analizie regresji!• Statystyka. Ekonometria. Prognozowanie. Ćwiczenia z Excelem. A.
Snarska, Wydawnictwo Placet 2005.
• I wiele innych …• Przykłady zastosowań → także czytelnia firmy Statsoft