Download ppt - Линейные модели по переменным и параметрам :

1

Линейные модели по переменным и параметрам:

НЕЛИНЕЙНЫЕ МОДЕЛИ

uXXXY 4433221

Линейные модели и по переменным и по параметрам.

Способы сведения нелинейных моделей к линейным.

2

Модели линейные по переменным и параметрам:

Модели линейные по параметрам и нелинейные по переменным:


uXXXY 4433221

uXXXY 44332221 log

Модели нелинейные по переменным. Замена переменных приводит к модели линейной и по параметрам и по переменным.

4433222 log,, XZXZXZ

uZZZY 4433221

3

Модели линейные по переменным и параметрам :

Модели линейные по параметрам и нелинейные по переменным :

Модели нелинейные по параметрам:

ЛИНЕАРИЗАЦИЯ МОДЕЛЕЙ

uXXXY 4433221

uXXXY 44332221 log

4433222 log,, XZXZXZ

uZZZY 4433221

uXXXY 43233221

Некоторые модели нелинейные по параметрам могут быть линеаризованы.

4

бананы доход (фунт) ($10,000) хозяйство Y X

1 1.71 1

2 6.88 2

3 8.25 3

4 9.52 4

5 9.81 5

6 11.43 6

7 11.09 7

8 10.87 8

9 12.15 9

10 10.94 10


Пример: зависимость потребления бананов от дохода для 10 хозяйств.

5


Точечная диаграмма.

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11X

Y

6

. reg Y X

Source | SS df MS Number of obs = 10---------+------------------------------ F( 1, 8) = 17.44 Model | 58.8774834 1 58.8774834 Prob > F = 0.0031Residual | 27.003764 8 3.3754705 R-squared = 0.6856---------+------------------------------ Adj R-squared = 0.6463 Total | 85.8812475 9 9.54236083 Root MSE = 1.8372

------------------------------------------------------------------------------ Y | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- X | .8447878 .2022741 4.176 0.003 .378343 1.311233 _cons | 4.618667 1.255078 3.680 0.006 1.724453 7.512881------------------------------------------------------------------------------


Построение регрессионной модели. Коэффициент при X значим, коэффициент детерминации R2 высок. Хорошая ли это модель?

Y=4,6+0,84*X

7


Поведение отклонений от линии регрессии не похожа на случайную величину, что свидетельствует о некорректности модели.

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11X

Y

8

Измененная модель:


Обратно пропорциональная модель. Y увеличивается вместе с X если 2 < 0. Функция

имеет верхним пределом 1. Невозможно питаться одними бананами.

Модель линеаризуется заменой переменных

uX

Y 21

XZ

1

uZY 21

9

бананы доход (фунтов) ($10,000) хозяйства Y X Z

1 1.71 1 1.00

2 6.88 2 0.50

3 8.25 3 0.33

4 9.52 4 0.25

5 9.81 5 0.20

6 11.43 6 0.17

7 11.09 7 0.14

8 10.87 8 0.13

9 12.15 9 0.11

10 10.94 10 0.10


.

10


Зависимость Y от Z.

0

2

4

6

8

10

12

14

0 0.2 0.4 0.6 0.8 1 1.2

Y

Z

11

. g Z=1/X

. reg Y Z

Source | SS df MS Number of obs = 10---------+------------------------------ F( 1, 8) = 286.10 Model | 83.5451508 1 83.5451508 Prob > F = 0.0000Residual | 2.33609666 8 .292012083 R-squared = 0.9728---------+------------------------------ Adj R-squared = 0.9694 Total | 85.8812475 9 9.54236083 Root MSE = .54038

------------------------------------------------------------------------------ Y | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- Z | -10.98865 .6496573 -16.915 0.000 -12.48677 -9.490543 _cons | 12.48354 .2557512 48.811 0.000 11.89378 13.07331------------------------------------------------------------------------------


Вычисление регрессионных коэффициентов регрессионной модели. Высокая объяснительная способность модели.

ZY 99.1048.12ˆ

12


График зависимости Y от Z.

0

2

4

6

8

10

12

14

0 0.2 0.4 0.6 0.8 1 1.2Z

Y

ZY 99.1048.12ˆ

13

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11 12


График зависимости Y от Z показывает лучшую зависимость и большую случайность отклонений.

XY

99.1048.12ˆ

X

Y

14

ЭластичностьY по X есть пропорциональное изменение Y относительно пропорционального изменения X:

ЭЛАСТИЧНОСТЬ И ЛОГАРИФМИЧЕСКИЕ МОДЕЛИ

XY

dXdY

XdX

YdY

тьэластичнос

OA

A

наклон

йкасательно наклон

Y

Эластичность в любой точке – это отношение тангенса угла наклона касательной к тангенсу угла наклона радиус вектора. Значение эластичности для данного рисунка < 1.

0 52X

A

Ox

y

1тьэластичнос

15


Пример функции с эластичность > 1.

0 52

A

O

1тьэластичнос

Y

X

16


Эластичность для прямой непостоянна.

xO

A

XY 21

OA

A

наклон

в йкасательно наклон

21

2

21

2

)/(

/)(

X

XX

Y

X

17


Функция с одинаковой эластичностью для всех X.

.

21

XY

121

2 XdXdY

11

1 2

2

X

XX

XY

211

121

2

2

тьэластичнос

X

X

XY

dXdY

18


Пример функции с эластичностью 0.25.

Y

X

21

XY 25.02

19


21

XY 75.02

Y

X

75.02

20


2 = 1, прямая линия. Линейная модель может быть частным случаем модели с постоянной эластичностью

21

XY 00.12

Y

X

21


.

21

XY 00.22

Y

X

00.22

22


Линеаризация модели.

21

XY

X

X

XY

loglog

loglog

loglog

22

1

1

2

2

'' 2'1 XY

1'1 log

log'

,log' где

XX

YY

23


Точечная диаграмма зависимости FDHO, трат на еду дома, от EXP, общего годового дохода. (в $, 1995г. для 869 хозяйств США).

0

2000

4000

6000

8000

10000

12000

14000

16000

0 20000 40000 60000 80000 100000 120000 140000 160000

FDHO

EXP

24

. reg FDHO EXP

Source | SS df MS Number of obs = 869---------+------------------------------ F( 1, 867) = 381.47 Model | 915843574 1 915843574 Prob > F = 0.0000Residual | 2.0815e+09 867 2400831.16 R-squared = 0.3055---------+------------------------------ Adj R-squared = 0.3047 Total | 2.9974e+09 868 3453184.55 Root MSE = 1549.5

------------------------------------------------------------------------------ FDHO | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- EXP | .0528427 .0027055 19.531 0.000 .0475325 .0581529 _cons | 1916.143 96.54591 19.847 0.000 1726.652 2105.634------------------------------------------------------------------------------


Построение регрессии FDHO от EXP. На еду тратится около 5% годового дохода. Константа смысла не имеет.

FDHO=1916,1+0,05*EXP

25


Регрессионная линия.

0

2000

4000

6000

8000

10000

12000

14000

16000

0 20000 40000 60000 80000 100000 120000 140000 160000EXP

FDHO

26


Подбор логарифмической модели. Точечная диаграмма логарифма FDHO в зависимости от логарифма EXP.

5.00

6.00

7.00

8.00

9.00

10.00

7.00 8.00 9.00 10.00 11.00 12.00 13.00

LGFDHO

LGEXP

27

. g LGFDHO = ln(FDHO)

. g LGEXP = ln(EXP)

. reg LGFDHO LGEXP

Source | SS df MS Number of obs = 868---------+------------------------------ F( 1, 866) = 396.06 Model | 84.4161692 1 84.4161692 Prob > F = 0.0000Residual | 184.579612 866 .213140429 R-squared = 0.3138---------+------------------------------ Adj R-squared = 0.3130 Total | 268.995781 867 .310260416 Root MSE = .46167

------------------------------------------------------------------------------ LGFDHO | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- LGEXP | .4800417 .0241212 19.901 0.000 .4326988 .5273846 _cons | 3.166271 .244297 12.961 0.000 2.686787 3.645754------------------------------------------------------------------------------


Регресссионная логарифмическая модель LGFDHO от LGEXP.

28

. g LGFDHO = ln(FDHO)

. g LGEXP = ln(EXP)

. reg LGFDHO LGEXP


------------------------------------------------------------------------------ LGFDHO | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- LGEXP | .4800417 .0241212 19.901 0.000 .4326988 .5273846 _cons | 3.166271 .244297 12.961 0.000 2.686787 3.645754------------------------------------------------------------------------------


Коэффициент эластичности 0.48.Является ли он правдоподобным? Поскольку еда – предмет первой необходимости, то коэффициент эластичности функции спроса

должен быть меньше 1. Расходы на еду растут медленнее, чем рост дохода. (e3.17 = 23.8)

48.08.23ˆ48.017.3ˆ EXPOHFDLGEXPHODLGF

29


Точечная диаграмма и логарифмическая модель.

5.00

6.00

7.00

8.00

9.00

10.00

7.00 8.00 9.00 10.00 11.00 12.00 13.00

LGFDHO

LGEXP

30


Сравнение линейной и логарифмической модели. В середине близки, а по краям сильное расхождение. В нуле значение равно нулю, что соответствует здравому смыслу. Для больших доходов доля, расходуемая на продовольствие должна падать.

0

2000

4000

6000

8000

10000

12000

14000

16000

0 20000 40000 60000 80000 100000 120000 140000 160000EXP

FDHO

31

ПОЛУЛОГАРИФМИЧЕСКИЕ МОДЕЛИ

XeY 21

YedXdY X

2212

2Y

dXdY

Относительное изменение Y в расчете на единицу абсолютного изменения X равны

2.

32


Оценка зависимости ПЛАТЫ (Earnings) от продолжительности обучения (S).

SeEARNINGS 21

33


SeEARNINGS 21

'1

2' SeEARNINGS

1' SS

...)!2

1(

'

22

2

1

)1(1

'1

2

22

22

EARNINGS

eEARNINGS

ee

eeEARNINGSS

SS

Интерпретация 2.. Если 2 мало (<0,1), то EARNINGS (1 + 2). Это позволяет

интерпретировать 2 как процент повышения платы при увеличении аргумента на 1.

Если 2 велико, то интерпретация более сложна.

34


1 - это значение Y при X =0

10

10 eYX

XeY 21

35


X

eX

e

eYX

X

2'2

2'2

1

1

ln

lnln

lnln2

2

Линеаризация модели.

XeY 21

36

. reg LGEARN S


------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .0792256 .0082061 9.655 0.000 .0631077 .0953435 _cons | 1.358919 .1127785 12.049 0.000 1.137406 1.580433------------------------------------------------------------------------------

Регрессионная полулогарифмическая модель.


LNEARN = 1,36+0,079*S EARN = e1,36e0,079*S

37


Приблизительная оценка. β2 = 0.079, то есть каждый год обучения приблизительно ведет к

увеличению зарплаты на 7.9%. Более точная оценка дает значение e0,079 = 1,082, то есть увеличение на 8.2%.

SeEARNINGS 079.01

'079.01' SeEARNINGS

1' SS

...)003.0079.01(

'

079.0

079.0079.01

)1(079.01

'079.01

EARNINGS

eEARNINGS

ee

eeEARNINGSS

SS

38

. reg LGEARN S


------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .0792256 .0082061 9.655 0.000 .0631077 .0953435 _cons | 1.358919 .1127785 12.049 0.000 1.137406 1.580433------------------------------------------------------------------------------

log 1=1,36. Отсюда 1 = e1.36= 3.90. Буквально, человек без образования получает 3,9$ в час. Но такая интерпретация не вполне правомочна, поскольку это значение находится за пределами интервала значений выборки.


39

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

S в годах

LN

(пл

ата)


Точечная диаграмма значений и полулогарифмическая модель.

40

-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

S

Ho

url

y ea

rnin

gs

($)


Сравнение полулогарифмической модели с линейной моделью. Полулогарифмическая модель предпочтительнее, так как более точно предсказывает плату для высоких и низких уровней обучения. Нет отрицательных значений константы.

41

ВОЗМУЩЕНИЕ В НЕЛИНЕЙНЫХ МОДЕЛЯХ

При линеаризации не учитывался случайный член. В ряде нелинейных моделей случайный член аддитивен. То же возмущение будет и для преобразованного уравнения.

uX

Y 21

XZ

1

uZY 21

42


vXeXY u 2211

uXY lnlnln 21

С логарифмическими моделями дело обстоит сложнее. В них после линеаризации добавляется мультипликативный член v = eu. Положительные значения u приводят к увеличению значения Y, отрицательные – к уменьшению.

43


0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16v

f(v)

vXeXY u 2211

uXY logloglog 21

Кроме условий Гаусса-Маркова, необходимо, чтобы величина u была нормально распределена. Иначе невозможно использовать t и F тесты. Нормальное распределение показывает, что случайное возмущение – это сумма многих малых неучтенных возмущений.

44


0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16v

f(v)

vXeXY u 2211

uXY logloglog 21

Нормальное возмущение u будет в том случае, если v имеет логнормальное распределение, плотность которого приведена на графике. Его среднее равно v =1, тогда u = 0.

45


Такое же мультипликативное распределение характерно и для полулогарифмических моделей.

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16v

f(v)

veeeY XuX 2211

uXY 21loglog

46


Точечная диаграмма для регрессионной модели зависимости выплат от обучения. Можно видеть несколько точек существенно отклоняющихся от регрессионной прямой.

-10

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Время обучения

Ча

со

ва

я п

ла

та (

$)

47


Такая же диаграмма для полулогарифмической модели демонстрирует отсутствие резкого отклонения от модели.

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Продолжительность обучения

LN

(час

ов

ая п

лат

а)

48


Сравнение нормированных гистограмм распределений случайных остатков для линейной и полулогарифмической моделей. Нормировка – приведение стандартных отклонений к 1 для сравнения. Для обеих моделей распределение близко к нормальному, но для полулогарифмической модели оно более симметрично.

0

20

40

60

80

100

120

140

-2 0 2

Linear Semi-Logarithmic

49

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11 12

НЕЛИНЕЙНАЯ РЕГРЕССИЯ: ЧИСЛЕННЫЕ МЕТОДЫ

Численные методы поиска регрессионных коэффициентов для нелинеаризуемых задач на примере модели потребления бананов. Метод нелинейной оптимизации.

uZuX

Y 212

1

X

Y

XZY

99.1048.1299.1048.12ˆ

50

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11 12


Предположим нам известно, что 1 = 12. Поиск 2 на основе критерия минимизации

суммы квадратов остатков. Предположим, что 2 = 6.

Xb

Y 212ˆ

XY 212

Y

X

51

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11 12


Строим модели и ищем сумму квадратов остатков.

XY 212

XY

612ˆ

Y

X

52

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11 12


Строим модели и ищем сумму квадратов остатков .

XY 212

XY

612ˆ

Y

X

53


RSS=29,17.

b2 = -6 b2 = -7

X Y Y e e2

1 1.93 6.00 -4.30 18.45

2 7.13 9.00 -2.12 4.49

3 8.78 10.00 -1.75 3.06

4 9.69 10.50 -0.98 0.97

5 10.09 10.80 -0.99 0.98

6 10.42 11.00 0.43 0.18

7 10.62 11.14 -0.06 0.00

8 10.71 11.25 -0.38 0.14

9 10.79 11.33 0.82 0.67

10 11.13 11.40 -0.47 0.22

Total 29.17

^

54

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11 12


Повторим процедуру, модифицировав значение коэффициента на -7.

XY 212

XY

712ˆ

Y

X

55

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10 11 12


На графике видно, что это приближение лучше.

XY 212

XY

712ˆ

Y

X

56

b2 = -6 b2 = -7

X Y Y e e2 Y e e2

1 1.93 6.00 -4.30 18.45 5.00 -3.30 10.86

2 7.13 9.00 -2.12 4.49 8.50 -1.62 2.62

3 8.78 10.00 -1.75 3.06 9.67 -1.42 2.00

4 9.69 10.50 -0.98 0.97 10.25 -0.73 0.54

5 10.09 10.80 -0.99 0.98 10.60 -0.79 0.62

6 10.42 11.00 0.43 0.18 10.83 0.60 0.35

7 10.62 11.14 -0.06 0.00 11.00 0.09 0.01

8 10.71 11.25 -0.38 0.14 11.13 -0.26 0.07

9 10.79 11.33 0.82 0.67 11.22 0.93 0.87

10 11.13 11.40 -0.47 0.22 11.30 -0.37 0.13

Total 29.17 18.08


Вычисленное значение RSS свидетельствует о том же.

^ ^

57


Повторяя процедуру далее можно увидеть, что оптимальное решение лежит между -10 и -11.

b2 RSS

-6 29.17

-7 18.08

-8 10.08

-9 5.19

-10 3.39

-11 4.70

0

5

10

15

20

25

30

-12 -11 -10 -9 -8 -7 -6 -5

58


Уменьшая интервал и шаг можно получить новое приближение на интервале -10.0 и -10.1. С точностью до 0,01 получаем приближение 10,08. Повторяя эту же процедуру по двум параметрам можно получить решение с заданной точностью.

b2 RSS

-11 4.70

-10.9 4.43

-10.8 4.19

-10.7 3.98

-10.6 3.80

-10.5 3.66

-10.4 3.54

-10.3 3.46

-10.2 3.41

-10.1 3.38

-10.0 3.39

0

1

2

3

4

5

6

7

-12 -11 -10 -9 -8 -7 -6 -5

XY

08.1012ˆ

59

ТЕСТЫ КОКСА-БОКСА

Проблема сравнения качества альтернативных регрессионных моделей. Когда альтернативные регрессионные модели имеют одинаковые переменные, то лучшая выбирается по критерию максимума R2. Что делать, когда переменные различны, как например в линейной и логарифмической моделях.

uXY 21

uXY 21log

60


Среднее арифметическое логарифма Y сводится к среднему геометрическому Y. Среднее в одной модели связано со средним в другой. Усреднение позволяет сравнивать модели между собой по остаткам.

nn

YYY

YYYn

Yn

YYYe

ee

nn

ni

1

21)...log(

)...log(1

log1

)...(1

21

21

61


Нормировка значений зависимых переменных в полулогарифмической модели по методу Зарембки.

uXY 21log

YскоегеометричесреднееYY /*

uXY 21

62


uXY 21log

uXY '2

'1*

uXY '2

'1*log

Сравнение нормированных моделей Y* and logeY по среднеквадратичным

отклонениям (RSS). Логарифм отношения остатков имеет χ2-распределение. Если χ>χ2 – критическое при заданном пороге вероятности , то модель с меньшим RSS будет лучше.

uXY 21

YскоегеометричесреднееYY /*

RSS

RSSn

меньшее

большее ln

2 )1(2

63

. sum LGEARN

Variable | Obs Mean Std. Dev. Min Max---------+----------------------------------------------------- LGEARN | 570 2.430133 .5199059 1.163151 4.417514

EARNSTAR=EARNINGS/exp(2.430133) LGEARNST=ln(EARNSTAR)


nn

YYY

YYYn

Yn

YYYe

ee

nn

ni

1

21)...log(

)...log(1

log1

)...(1

21

21

Найдем среднее для LGEARN и обозначим LGEARNST=ln( EARNSTAR).

64

. reg EARNSTAR S


------------------------------------------------------------------------------EARNSTAR | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .0944558 .0116589 8.102 0.000 .0715559 .1173557 _cons | -.1224433 .1602326 -0.764 0.445 -.437164 .1922774------------------------------------------------------------------------------


Найдем регрессионную зависимость нормированного значения EARNSTAR от S и определим RSS.

65

. reg LGEARNST S


------------------------------------------------------------------------------LGEARNST | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- S | .0792256 .0082061 9.655 0.000 .0631077 .0953435 _cons | -1.071214 .1127785 -9.498 0.000 -1.292727 -.8496999------------------------------------------------------------------------------


То же сделаем для нормированной переменной LGEARNST.

66


Значение статистики 200.2. Оно существенно выше 2 с 1 степенью свободы на 0.1% уровне, исходя из чего можно утверждать о значимости предпочтения полулогарифмической модели линейной.

2.2001.132

7.266ln

2

570

0.1%уровнена ст.св, 1 ,83.10 2crit