TIESINĖ REGRESIJA

Preview:

DESCRIPTION

TIESINĖ REGRESIJA. Pavyzdžiai. Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros? Kaip sistolinis kraujo spaudimas priklauso nuo KMI? Kaip išlaidos priklauso nuo pajamų? Ar gimstamumas priklauso nuo šeimos pajamų? - PowerPoint PPT Presentation

Citation preview

TIESINĖ REGRESIJA

Pavyzdžiai

• Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros?

• Kaip sistolinis kraujo spaudimas priklauso nuo KMI?

• Kaip išlaidos priklauso nuo pajamų?• Ar gimstamumas priklauso nuo šeimos pajamų?• Išmatavome IQ pirmame kurse. Ar galima

prognozuoti koks bus studento diplomo pažymių vidurkis?

• Kokį vidutinį VS studento baigiamojo darbo balą galima prognozuoti, jei visas studijų balų vidurkis 8,7?

Tiesinė regresija ir koreliacija

• Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybę (stipri, silpna, teigiama, neigiama)

• Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiu

• Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu asimetriški.

Skirtingos koreliacijos pavyzdys

• Koreliacija tarp išlaidų reklamai ir pajamų yra 0,99 – stiprus teigiamas ryšys.

• Ar naudinga firmai padidinti išlaidas reklamai?

• Atrodytu, kad taip!

• Tačiau tokį rezultatą gali duoti tiek įdėtas 1 Lt ir gautas kelių Lt pelnas, tiek kelių cnt. pelnas.

Kintamieji

• Kintamasis, kurio reikšmes norima prognozuoti, vadinamas priklausomu kintamuoju (dependent variable).

• Kintamasis, pagal kurio reikšmes norima prognozuoti priklausomo kintamojo reikšmes, vadinamas nepriklausomu kintamuoju (independent variable).

Regresijosmodeliai

Paprasta Daugialypė(multiple)

Tiesinė(linear)

Netiesinė(non-linear)

Tiesinė(linear)

Netiesinė(non-linear)

Vienas nepriklausomas kintamasis

Du ir daugiau nepriklausomų kintamųjų

Paprastos tiesinės regresijos modelis

y=a+bx+ey ir x kintamieji

a ir b konstantos (a- laisvasis narys (angl. intercept), b-tiesės krypties koeficientas (angl. slope))

e atsitiktinė paklaida

Regresijos grafinis vaizdas

Tiesinės regresijos žingsniai

1. Priklausomo ir nepriklausomo kintamojo nustatymas.

2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp

nepriklausomų kintamųjų.

3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų

grafikai).4. Galutinės lygties užrašymas, jos interpretacija.

Pavyzdys excel –Automobilio taisymo kainos

priklausomybė nuo ridos

Priklausomas kintamasis – remonto kainaNepriklausomas kintamasis – ridaDuomenys:

KORELIACIJA

Lygtis ir hipotezė

y=a+bx

Tikrinama H0: b=0

HA: b≠0

Excel – “Data analysis” → “Regression”

Analizės išklotinė

Grafiškai pagal duomenis(Automobilio taisymo kainos priklausomybė nuo ridos)

Išklotinės rezultatai – ką vertinti?

Determinacijos koeficientas,ANOVA,regresijos koeficientai

Paklaidų analizė

• Išskirtys (iš grafiko arba standartizuotų paklaidų)

• Vidurkiai lygūs nuliui

• Paklaidų skirstiniai normalūs

• Dispersija tolygi (homoskedatiška)

• Paklaidos atsitiktinės

(aiškinimas youtube: http://www.youtube.com/watch?v=vM13uarpcuQ)

Paklaidų vidurkiai lygūs nuliui

Paklaidų skirstiniai normalūs

Paklaidų dispersija tolygi (homoskedatiška)

Galutinės lygties užrašymas(Automobilio taisymo kainos priklausomybė nuo ridos)

Remonto kaina=-197,3+0,01*rida(km)

Jei nepriklausomas kintamasis (rida) padidėja vienu vienetu (1 km), priklausomas kintamasis (remonto kaina) padidės dydžiu, lygiu b įverčiui (0,01 USD).

Grafiškai(Automobilio taisymo kainos priklausomybė nuo ridos)

Tiesinė daugialypė regresija

Pavyzdžiai

• Ar poegzamininis dirglumas priklauso nuo gauto pažymio, nuo egzamino trukmės ir nuo ko labiau?

• Kaip antikvarinės keramikos kaina priklauso nuo jos senumo ir aukciono dalyvių skaičiaus?

• Ar diplomo pažymių vidurkis ir komunikabilumas gali padėti prognozuoti būsimą atlyginimą?

Tiesinė daugialypė regresija

y=a+b1x1+b2x2+b3x3+ …+ bjxj+e

Tikrinama H0: b=0

HA: bent vienas b≠0

Tiesinė daugialypė regresija

Prieš pradedant įvertinama:• Koreliacija• Multikolinearumas (nepriklausomų kintamųjų

priklausomybė vienas nuo kito)– Ryšys paprastai žinomas iš praktikos– Ryšio stiprumui nustatyti skaičiuojame koreliacijos

koeficientą• Stat. paketuose skaičiuojame VIF ir tolerance.

Kintamasis “perdaug multikolinearus”:– Jeigu VIF>4– Jei tolerance artėja prie nulio

Tiesinė daugialypė regresija

Tiesinė daugialypė regresija

Tiesinė daugialypė regresija

kaina=85,71+0,01*rida(km)-92,74*išsilavinimas

Tiesinės regresijos (paprastos ir daugialypės) atlikimo reziumė

1. Priklausomo ir nepriklausomo kintamojo nustatymas.

2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp

nepriklausomų kintamųjų.

3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų

grafikai).4. Galutinės lygties užrašymas, jos interpretacija.

Tiesinės regresijos prielaidos

– Stebėjimai:• Tiesinis ryšys• Normalūs skirstiniai (bet nebūtinai)• Dipersijos panašios

– Paklaidos• e normaliai pasiskirstę atsitiktiniai dydžiai;• visų e vidurkiai lygūs nuliui;• visų e dispersijos tolygios (homoskedatiškos);• visi e nepriklausomi.

Pagrindinės priežastys, dėl kurių tiesinė regresija gali netikti

1. Kintamųjų priklausomybė nėra tiesinė

2. Stebėjimai heteroskedatiški

3. Paklaidų skirstiniai nėra normalieji

4. Paklaidos nėra atsitiktinės

5. Duomenyse yra išskirčių

Recommended