Transcript
Page 1: Wprowadzenie do analizy regresji

Wprowadzenie do analizy regresji

Wykład 10

Page 2: Wprowadzenie do analizy regresji

Model kategoryczny (categorical model)

• W 1993 r. inwestor zastanawia się jak sklasyfikować Amazon:– Część ekonomii

informacji– Dostawca książek

• W zależności od sklasyfikowania, podejmie różne decyzje– Stąd sposób

klasyfikacji jest istotny

Page 3: Wprowadzenie do analizy regresji

KategorieNIEZIELONE ZIELONE

Page 4: Wprowadzenie do analizy regresji

ZmiennośćKalorie Odchylenie Zmienność

Gruszka 100 100-180 6400

Ciasto 250 250-180 4900

Jabłko 90 90-180 8100

Banan 110 110-180 4900

Tort 350 350-180 28900

Średnia: 900/5=180 Suma: 0 Cała zmienność : 53200

Owoce Kalorie

Gruszka 100

Jabłko 90

Banan 110

Średnia 100

Zmienność 200

Desery Kalorie

Ciasto 250

Tort 350

Średnia 300

Zmienność 5000

R2 = (53200-5200)/53200 = 90,2%

Page 5: Wprowadzenie do analizy regresji

• Poprzez sklasyfikowanie na deser i owoce wyjaśniliśmy ponad 90% zmienności liczby kalorii obiektów

Page 6: Wprowadzenie do analizy regresji

Regresja

• Korelacja vs przyczynowość– Obecność sekcji golfa i prestiż szkoły

• W modelu regresji zakładamy, że Y zależy od X Y = F(X)

• W modelu regresji liniowej zakładamy, że zależność jest liniowa

Y = mX +b

Na przykład X – długość przekątnej odbiornika, Y cena telewizora: Cena = 15X + $100

• 30 calowy: Cena = 15(30)+100 = 550?• 100 calowy: Cena = 15(100)+100 = 1600?

Page 7: Wprowadzenie do analizy regresji

Intuicja

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

X Y

1 1

2 5

4 9

Page 8: Wprowadzenie do analizy regresji

Regresja liniowaX Y Zmienność

jeśli Y = E(Y)Zmienność jeśli Y = 2X

Zmienność jeśli Y = mX + b

1 1 (5-1)2 = 16 (2*1-1) 2 = 1 (m+b-1) 2 = m2 + 2m(b-1) + (b-1) 2

2 5 (5-5) 2 = 0 (2*2-5) 2 = 1 (2m+b-5) 2 = 4m2 + 4m(b-5) + (b-5) 2

4 9 (5-9) 2 = 16 (2*4-9) 2 = 1 (4m+b-9) 2 = 16m2 + 8m(b-9) + (b-9) 2

=(1+5+9)/3=5

SUMA = 32 SUMA = 3 SUMA = 21m2 + 14mb + 3b2 – 94m – 30b + 107

Minimalizujemy:Warunki pierwszego rzędu: 42m + 14b -94 = 014m + 6b -30 = 0 |*3

- (42m + 14b -94 = 0)+(42m + 18b -90 = 0)---------------------------- 4b + 4 = 0b = -1m = 18/7

SUMA = 21m2 + 14mb + 3b2 – 94m – 30b + 107 = 8/7

R2 = (32-8/7)/32 = 96,4%

Page 9: Wprowadzenie do analizy regresji

Ilustracja

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

X Y Y’ = E(Y) Y’ = 2X Y’ = 18/7*X - 1

1 1 5 2 1,62 5 5 4 4,14 9 5 8 9,3

Y’ = 18/7*X-1

Y’ = 2X

Y’ = E(Y)

Page 10: Wprowadzenie do analizy regresji

Liczba obserwacji

0.5 1 1.5 2 2.5 3 3.5 4 4.50

2

4

6

8

10

12

f(x) = 2.57142857142857 x − 1

1 12 54 93 10

0.5 1 1.5 2 2.5 3 3.5 4 4.50

2

4

6

8

10

12

f(x) = 2.9 x − 1

Page 11: Wprowadzenie do analizy regresji

Dopasowanie vs przeuczenie

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

f(x) = 2.57142857142857 x − 1R² = 0.964285714285714

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

f(x) = − 0.666666666666667 x² + 6 x − 4.33333333333334R² = 1

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

f(x) = − 0.666666666666667 x² + 6 x − 4.33333333333334R2=0,7942

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

f(x) = − 0.024999999999999 x² + 2.53499999999999 x − 1.12499999999999R² = 0.907381082558775

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

f(x) = 2.41 x − 0.999999999999999R² = 0.907302975865032

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

f(x) = 1.28333333 x³ − 9.65 x² + 23.9666667 x − 14.6R² = 1

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

f(x) = 1.28333333 x³ − 9.65 x² + 23.9666667 x − 14.6R² = 1

1 12 54 93 5,1

1,5 2,53,5 8

0.5 1 1.5 2 2.5 3 3.5 4 4.50

1

2

3

4

5

6

7

8

9

10

f(x) = 2.50714285714286 x − 1.16785714285714R² = 0.932210956416465

Page 12: Wprowadzenie do analizy regresji

Przykład – wzrost i wagaWzrost Waga

1 162 572 179 693 180 744 192 855 179 706 167 697 170 658 176 689 176 64

10 179 7811 158 5312 156 6213 183 7714 175 7115 167 6616 190 7117 164 5718 167 6119 187 7920 180 7621 185 7722 180 7823 162 6224 178 8025 153 5326 172 7127 171 62

Średnia 68,7037

150 155 160 165 170 175 180 185 190 19550

55

60

65

70

75

80

85

90

f(x) = 0.72730713088609 x − 57.5783640590366

Zależność wzrostu od wagi [N=27]

Wzrost [w cm]

Waga [w kg]

y = 68,7037-6,7

+6,1

+8,1

+11,3

Page 13: Wprowadzenie do analizy regresji

H W E(W)Y=0,73H-

57,58 W-E(W) W-Y [W-E(W)]2 [W-Y]2

1 162 57 68,7 60,24 -11,70 -3,24 136,89 10,532 179 69 68,7 72,61 0,30 -3,61 0,09 13,023 180 74 68,7 73,34 5,30 0,66 28,09 0,444 192 85 68,7 82,06 16,30 2,94 265,69 8,625 179 70 68,7 72,61 1,30 -2,61 1,69 6,816 167 69 68,7 63,88 0,30 5,12 0,09 26,207 170 65 68,7 66,06 -3,70 -1,06 13,69 1,138 176 68 68,7 70,43 -0,70 -2,43 0,49 5,899 176 64 68,7 70,43 -4,70 -6,43 22,09 41,30

10 179 78 68,7 72,61 9,30 5,39 86,49 29,0711 158 53 68,7 57,34 -15,70 -4,34 246,49 18,8012 156 62 68,7 55,88 -6,70 6,12 44,89 37,4413 183 77 68,7 75,52 8,30 1,48 68,89 2,2014 175 71 68,7 69,70 2,30 1,30 5,29 1,6915 167 66 68,7 63,88 -2,70 2,12 7,29 4,4916 190 71 68,7 80,61 2,30 -9,61 5,29 92,3317 164 57 68,7 61,70 -11,70 -4,70 136,89 22,0818 167 61 68,7 63,88 -7,70 -2,88 59,29 8,3019 187 79 68,7 78,43 10,30 0,57 106,09 0,3320 180 76 68,7 73,34 7,30 2,66 53,29 7,1021 185 77 68,7 76,97 8,30 0,03 68,89 0,0022 180 78 68,7 73,34 9,30 4,66 86,49 21,7523 162 62 68,7 60,24 -6,70 1,76 44,89 3,0824 178 80 68,7 71,88 11,30 8,12 127,69 65,9125 153 53 68,7 53,70 -15,70 -0,70 246,49 0,4926 172 71 68,7 67,52 2,30 3,48 5,29 12,1327 171 62 68,7 66,79 -6,70 -4,79 44,89 22,95

Średnia 68,7037Zmienność 1913,63 464,08

R2 0,76

Page 14: Wprowadzenie do analizy regresji

Studium przypadku – Łorsoł Flaj• Firmy lotnicza, która obsługuje trasę

Warszawa-Kraków– Na razie interesuje nas tylko klasa

ekonomiczna– Sprzedajemy miejsca w klasie biznes, ale

mało• Funkcja popytu wynosi

Q = f (P, Pk, Y)– Liczba sprzedanych biletów na jeden

przelot w zależy od ceny biletu (P), ceny biletu konkurenta (Pk), oraz poziomu dochodu w danym regionie

• Dział prognoz udostępnił nam równanie: Q = 25 + 3Y + Pk – 2P

ŁORSOŁ FLAJ

Page 15: Wprowadzenie do analizy regresji

Łorsoł Flaj

• Załóżmy, że P = Pk = 240 PLN. Obecny wskaźnik zagregowanego dochodu* jest równy 105.

• Zatem Q = 25 + 3(105) + 1(240) – 2(240) = 100 miejsc

• I rzeczywiście w ciągu ostatnich 3 miesięcy przeciętna liczba sprzedanych biletów była w przedziale (90,105)

• Całkowita liczba miejsc wynosi 180, czyli obłożenie wynosiło 55,5%

ŁORSOŁ FLAJ

* zysków z działalności gospodarczej oraz dochodów osobistych w Warszawie oraz Krakowie w ujęciu realnym, rok bazowy 2010 = 100

Page 16: Wprowadzenie do analizy regresji

Łorsoł Flaj – krzywa popytu• Załóżmy, że w najbliższej

przyszłości Y i Pk pozostaną niezmienione.

• Wówczas Q = 25 + 3(105) + 1(240) – 2P = 580 - 2P, czyli P = 290 – Q/2

• Gdy Y lub Pk się zmieni, ta krzywa popytu się przesunie, np. załóżmy, że Y=105 Y=119

• Wtedy Q = 622 – 2P, czyli P = 311 – Q/2

ŁORSOŁ FLAJ

Page 17: Wprowadzenie do analizy regresji

Łorsoł Flaj (max zysku)

• Jeśli pominiemy dodatkowy koszt dodatkowego pasażera (bardzo mały), to firma będzie chciała zmaksymalizować utargP = 290 – Q/2R = P*Q = 290Q – Q2/2MR = 290 – Q

• Czyli nawet przy pełnym obłożeniu utarg krańcowy jest dodatni MR = 290 – 180 = 110

• Czyli firma powinna zmniejszyć cenę z 240 na 200, co spowoduje wzrost utargu za jeden rejs z 24000 (240*100) na 36000 (200*180) ŁORSOŁ FLAJ

Page 18: Wprowadzenie do analizy regresji

Zróżnicowanie cenowe• Załóżmy, że są dwie grupy pasażerów

– Biznesmeni– Turyści

• Popyt dla nich się różni– Biznesmeni QB = 330 – PB

– Turyści QT = 250 – PT

• Zatem Q = QB + QT = 580 – 2P• Aby utarg był zmaksymalizowany, krańcowy utarg z miejsc biznesowych i krańcowy

utarg z miejsc ekonomicznych musi się równać330 – 2QB = 250 – 2QT

• Po uproszczeniu: QB = 40 + QT.

• Dodatkowo jesteśmy ograniczeni równaniem QB + QT = 180

• Zatem optymalne wielkości to: QB = 110, QT = 70, PB = 220 zł, PT = 180 zł• Utarg z jednego lotu wynosi 220*110 + 180*70 = 36800 zł, czyli więcej o 800 zł niż bez

zróżnicowania cen.

ŁORSOŁ FLAJ

Page 19: Wprowadzenie do analizy regresji

Ocena popytu

• Aby dokonywać analiz takich, jak na poprzednich slajdach, trzeba wyznaczyć krzywą popytu

• Źródła informacji:– Wywiady i badania ankietowe– Kontrolowane badania rynku

• Wytypowanie kilku podobnych rynków i sprzedawanie na nich danego wyrobu przy różnych wartościach kluczowych zmiennych– Badania porównawcze różnych rynków dostarczają danych przekrojowych– Badania w czasie jednego rynku dostarczają szeregu czasowego– Połączenie obu rodzajów danych daje dane panelowe

– Nie kontrolowane dane rynkowe• Techniki drążenia danych

Page 20: Wprowadzenie do analizy regresji

Łorsoł flajRok Kwartał

Przeciętna liczba sprzedanych

biletów na jeden lot

Przeciętna cena

(w PLN)

Rok 1 Kw. I 64,8 250Kw. II 33,6 265Kw. III 37,8 265Kw. IV 83,3 240

Rok 2 Kw. I 111,7 230Kw. II 137,5 225Kw. III 109,5 225Kw. IV 96,8 220

Rok 3 Kw. I 59,5 230Kw. II 83,2 235Kw. III 90,5 245Kw. IV 105,5 240

Rok 4 Kw. I 75,7 250Kw. II 91,6 240Kw. III 112,7 240Kw. IV 102,2 235

Średnia 87,2 239,7Odchylenie standardowe 27,0 12,7

ŁORSOŁ FLAJ

Page 21: Wprowadzenie do analizy regresji

Zmienność sprzedażyRok Kwartał Średnia sprzedaż (Qs)

Sprzedaż rzeczywista (Q)

Qs-Q (Qs-Q)2

Rok 1 Kw. I 87,2 64,8 22,44375 503,7219

Kw. II 87,2 33,6 53,64375 2877,652

Kw. III 87,2 37,8 49,44375 2444,684

Kw. IV 87,2 83,3 3,94375 15,55316

Rok 2 Kw. I 87,2 111,7 -24,4563 598,1082

Kw. II 87,2 137,5 -50,2563 2525,691

Kw. III 87,2 109,5 -22,2563 495,3407

Kw. IV 87,2 96,8 -9,55625 91,32191

Rok 3 Kw. I 87,2 59,5 27,74375 769,7157

Kw. II 87,2 83,2 4,04375 16,35191

Kw. III 87,2 90,5 -3,25625 10,60316

Kw. IV 87,2 105,5 -18,2563 333,2907

Rok 4 Kw. I 87,2 75,7 11,54375 133,2582

Kw. II 87,2 91,6 -4,35625 18,97691

Kw. III 87,2 112,7 -25,4563 648,0207

Kw. IV 87,2 102,2 -14,9563 223,6894

Średnia 87,2 731,6Suma kwadratów odchyleń       11706,0

Page 22: Wprowadzenie do analizy regresji

Wykresy

Kw. I

Kw. II

Kw. III

Kw. IV

Kw. I

Kw. II

Kw. III

Kw. IV

Kw. I

Kw. II

Kw. III

Kw. IV

Kw. I

Kw. II

Kw. III

Kw. IV

Rok 1 Rok 2 Rok 3 Rok 4

0

20

40

60

80

100

120

140

160

200

210

220

230

240

250

260

270

280

Przeciętna liczba sprzedanych biletów na jeden lotPrzeciętna cena (w PLN)

0 20 40 60 80 100 120 140210

220

230

240

250

260

270

Liczba sprzedanych miejsc na jeden lot

Prze

ciętn

a lic

zba

sprz

edan

ych

bile

tów

na

jede

n lo

t

Krzywa popytu Q = 330 - P

Page 23: Wprowadzenie do analizy regresji

Krzywa popytu Q = 330 - P Rok Kwartał

Sprzedaż prognozowana (Q*)

Sprzedaż rzeczywista (Q)

Q*-Q (Q*-Q)2

Rok 1 Kw. I 80 64,8 15,2 231,04Kw. II 65 33,6 31,4 985,96Kw. III 65 37,8 27,2 739,84Kw. IV 90 83,3 6,7 44,89

Rok 2 Kw. I 100 111,7 -11,7 136,89Kw. II 105 137,5 -32,5 1056,25Kw. III 105 109,5 -4,5 20,25Kw. IV 110 96,8 13,2 174,24

Rok 3 Kw. I 100 59,5 40,5 1640,25Kw. II 95 83,2 11,8 139,24Kw. III 85 90,5 -5,5 30,25Kw. IV 90 105,5 -15,5 240,25

Rok 4 Kw. I 80 75,7 4,3 18,49Kw. II 90 91,6 -1,6 2,56Kw. III 90 112,7 -22,7 515,29Kw. IV 95 102,2 -7,2 51,84

Średnia 90,3 87,2 3,1 376,7

Suma kwadratów odchyleń       6027,5

Page 24: Wprowadzenie do analizy regresji

Metoda najmniejszych kwadratów• Tworzymy macierz X złożonej z:

– Wektora jedynek– Wektora przeciętnych cen

• Wektor y to wektor przeciętnej liczby sprzedanych biletów• Liczymy współczynniki równania Y = a + bX

Page 25: Wprowadzenie do analizy regresji

Krzywa popytu Q = 478,6 - 1,63 PRok Kwartał Sprzedaż

prognozowana (Q*)Sprzedaż

rzeczywista (Q) Q*-Q (Q*-Q)2

Rok 1 Kw. I 70,4 64,8 5,6 31,4Kw. II 45,9 33,6 12,3 151,8Kw. III 45,9 37,8 8,1 65,9Kw. IV 86,7 83,3 3,4 11,8

Rok 2 Kw. I 103,1 111,7 -8,6 74,7Kw. II 111,2 137,5 -26,3 690,5Kw. III 111,2 109,5 1,7 3,0Kw. IV 119,4 96,8 22,6 510,1

Rok 3 Kw. I 103,1 59,5 43,6 1897,4Kw. II 94,9 83,2 11,7 136,8Kw. III 78,6 90,5 -11,9 142,3Kw. IV 86,7 105,5 -18,8 352,2

Rok 4 Kw. I 70,4 75,7 -5,3 28,0Kw. II 86,7 91,6 -4,9 23,7Kw. III 86,7 112,7 -26,0 674,3Kw. IV 94,9 102,2 -7,3 53,3

Średnia 87,2 0,0 302,9Suma kwadratów odchyleń       4847,2

Page 26: Wprowadzenie do analizy regresji

Krzywe popytu porównanie

• Suma kwadratów odchyleń dla Q = 330 – P równa się 6027,5

• Suma kwadratów odchyleń dla Q = 478,6 – 1,63P równa się 4847,2

20 40 60 80 100 120 140 160210

220

230

240

250

260

270

Liczba sprzedanych miejsc na jeden lot

Prze

ciętn

a op

łata

za p

rzel

ot

Krzywa popytu Q = 330 – PR2=0,485

Krzywa popytu Q = 478,6 – 1,63PR2=0,586

Page 27: Wprowadzenie do analizy regresji

Regresja wieloraka

• Cena nie jest jedynym czynnikiem określającym wielkość sprzedaży

• Przypuśćmy, że mamy również dane o przeciętnej cenie biletów linii konkurencyjnej oraz o wysokości dochodu w danym regionie

• Należy wykorzystać te dane do oszacowania równania regresji wielorakiej o postaci

Q = a + bP +cPk + dY

Page 28: Wprowadzenie do analizy regresji

DaneRok Kwartał

Przeciętna liczba sprzedanych biletów na

jeden lot

Przeciętna cena (w PLN)

Przeciętna cena

konkurenta

Przeciętny dochód

(wskaźnik)

Rok 1 Kw. I 64,8 250 250 104,0Kw. II 33,6 265 250 101,5Kw. III 37,8 265 240 103,0Kw. IV 83,3 240 240 105,0

Rok 2 Kw. I 111,7 230 240 100,0Kw. II 137,5 225 260 96,5Kw. III 109,5 225 250 93,3Kw. IV 96,8 220 240 95,0

Rok 3 Kw. I 59,5 230 240 97,0Kw. II 83,2 235 250 99,0Kw. III 90,5 245 250 102,5Kw. IV 105,5 240 240 105,0

Rok 4 Kw. I 75,7 250 220 108,5Kw. II 91,6 240 230 108,5Kw. III 112,7 240 250 108,0

  Kw. IV 102,2 235 240 109,0

Page 29: Wprowadzenie do analizy regresji

Obliczanie współczynników

• Tworzymy macierz X oraz wektor y1 250 250 104,01 265 250 101,51 265 240 103,01 240 240 105,01 230 240 100,01 225 260 96,51 225 250 93,31 220 240 95,01 230 240 97,01 235 250 99,01 245 250 102,51 240 240 105,01 250 220 108,51 240 230 108,51 240 250 108,01 235 240 109,0

64,833,637,883,3

111,7137,5109,5

96,859,583,290,5

105,575,791,6

112,7102,2

I otrzymujemy wektor współczynników regresji

28,843,0891,035-2,12

Q = 28,84 - 2,12P + 1,03Pk + 3,09Y

Page 30: Wprowadzenie do analizy regresji

Rok KwartałSprzedaż

prognozowana (Q*)Sprzedaż

rzcezywista (Q)Q*-Q (Q*-Q)2

Rok 1 Kw. I 77,9 64,8 13,1 171,6Kw. II 38,3 33,6 4,7 22,3Kw. III 32,6 37,8 -5,2 26,9Kw. IV 91,9 83,3 8,6 73,6

Rok 2 Kw. I 97,7 111,7 -14,0 196,8Kw. II 118,2 137,5 -19,3 373,9Kw. III 97,9 109,5 -11,6 133,7Kw. IV 103,5 96,8 6,7 44,4

Rok 3 Kw. I 88,4 59,5 28,9 835,6Kw. II 94,3 83,2 11,1 123,4Kw. III 83,9 90,5 -6,6 43,8Kw. IV 91,9 105,5 -13,6 185,5

Rok 4 Kw. I 60,8 75,7 -14,9 222,8Kw. II 92,3 91,6 0,7 0,6Kw. III 111,5 112,7 -1,2 1,5Kw. IV 114,9 102,2 12,7 160,1

Suma kwadratów odchyleń       2616,4

R2 = (11706-2616,4)/11706 = 0,7764


Recommended