Prosta Linearna Regresiona Analiza

Embed Size (px)

DESCRIPTION

statistika

Citation preview

Regresija

1Regresiona i korelaciona analiza2Relacije izmeu varijabliReprezentuju neke fenomeneMatematiki modeli su matematiki izrazi tih fenomena

Gauss-Markoff pretpostavka za linearnu regresijuFormula za izraunavanje koeficijenata u regresiji je BLUE (Best Linear Unbiased Estimators)Best Linear najefikasniji model sa najmanjom varijansomUnbiased Estimators oekivane vrednosti zavisne varijable iste ili vrlo bliske populacionim vrednostima

3Regresiona analizaRegresiona analiza se koristi da:objasni kakav efekat ima promena nezavisne varijable na zavisnu varijablupredvidi vrednost zavisne varijable na osnovu najmanje jedne nezavisne varijable

Zavisna varijabla: varijabla koju elimo da objasnimo ili predvidimoNezavisna varijabla: varijabla koju koristimo da objasnimo zavisnu varijablu4Regresioni modeliIzraavaju se jednainom u kojoj je:1 numerika zavisna (odgovor) varijabla 1 ili vie numerikih ili kategorikih nezavisnih varijabli

Prosta linearna regresijasamo jedna nezavisna varijabla xrelacija izmeu x i y izraena je linearnom funkcijom5Prost linearni regresioni modelRelacija izmeu varijabli je linearna funkcijaPrava linija najbolje fituje podatke

y intercept (konstanta)nagibsluajna grekazavisna varijabla (odgovor)nezavisna varijabla (eksplanatorna)56Populacioni linearni regresioni modeli = sluajna grekayx

dobijena vrednostdobijena vrednost

67Prost linearni regresioni model

yi - predviena vrednost za zapaanje ixi - vrednost x za zapaanje ia - intercept za uzorak, koristi se za procenu populacionog 0b - nagib za uzorak, koristi se za procenu populacionog 178Linearna jednaina 1984-1994 T/Maker Co.yy = a + bxa = y-interceptxpromena u ypromena u xb = nagib8289Metoda najmanjih kvadrataKako povlaimo liniju izmeu taaka?Kako procenjujemo koja linija najbolje obuhvata podatke?

Metoda najmanjih kvadrataNajbolje slaganje (fitovanje) znai da je razlika izmeu stvarne vrednosti y i izraunate vrednosti y najmanjaIz srednje vrednosti x moemo da izraunamo srednju vrednost ykada x odstupa od srednje vrednosti, moemo da oekujemo i da y odstupa od svoje srednje vrednostix objanjava odstupanje y od srednje vrednosti10Metoda najmanjih kvadrata grafiki prikaz

Metoda najmanjih kvadrata minimizuje sumu kvadriranih razlika (greaka = e) izmeu stvarnih i pretpostavljenih vrednosti ye2yxe1e3e4

11Koeficijenti u jednaini prave

Regresiona jednainaNagib praveOdseak na y-osi12Interpretacija koeficijenatab - nagibDaje promenu y (kao umnoak) za 1 jedinicu poveanja xPrimer: Ako je b = 2, onda je oekivano y dva puta vee za svaku 1 jedinicu poveanja u x

a - odseak na y-osiProsena vrednost y kada je x = 013Primer 1

14Primer 1 grafiki prikaz

15Primer 1

16Primer 1

y = - 1528,03 + 79,52xmL = - 1528,03 + 79,52 t17Evaluacija modelaU kojoj meri model izraava relaciju izmeu varijabli?Priblinost najboljem slaganjuto su take blie liniji to je slaganje boljeIspitivanje veliine varijacijeZnaajnost izraunatih parametaraRezidualna analiza

18Mere varijacije u regresijiSST = Ukupna varijacija (ukupna suma kvadrata)

mera za varijaciju vrednosti y oko njihove srednje vrednostiukupna varijacija oko regresione prave jednaka je sumi kvadrata razlika izmeu vrednosti y u svakom paru i srednje vrednosti yodgovara ukupnoj sumi kvadrata u ANOVI

19Mere varijacije u regresijiSSR = Varijacija za koju postoji objanjenje (regresiona suma kvadrata)

mera za varijaciju vezanu za relaciju izmeu x i yobjanjiva varijacija jednaka je sumi kvadrata razlika izmeu svake izraunate (iz jednaine) vrednosti y i srednje vrednosti yodgovara sumi kvadrata izmeu grupa u ANOVI

20Mere varijacije u regresijiSSE = Varijacija za koju ne postoji objanjenje (suma kvadrata greke)

mera za varijaciju koja potie od drugih faktoravarijacija za koju ne postoji objanjenjeNeobjanjiva varijacija jednaka je sumi kvadrata razlika izmeu vrednosti y u svakom paru i odgovarajue izraunate (iz jednaine) vrednosti yodgovara sumi kvadrata unutar grupa u ANOVI

21Mere varijacije u regresiji

yxxi

yi

22Koeficijent determinacije

0 r 2 1

procenat varijacije u y koji je posledica varijacije u x23r2 - primerir2 = 0,81r2 = 0,77r2 = 0,42r2 = 0,05xyxyxyxy2324Primer 1

94% varijacije u y (mL vode) potie od varijacije u x (temperatura)25Standardna greka regresione praveMera za odstupanje dobijene vrednosti y od izraunate (iz jednaine) vrednosti y Veliina greke utie na:tanost predvianjaznaajnost parametara

26Primer 1

27Testiranje nagiba bDa li postoji linearna relacija izmeu x i y ?HipotezeH0: 1 = 0 (nema linearne relacije) H1: 1 0 (postoji linearna relacija)

H0 se prihvata ako je tb < t, N-2zakljuak: b = 0 (ne postoji linearna relacija)28Primer 1Sb = 8,8787 tb = 8, 956 t0,05; 5 = 2,571 tb > t0,05; 5

H0 se ne prihvata

Zakljuak: postoji linearna relacija izmeu spoljanje temperature i zapremine vode koju ovek popije29Testiranje odseka aTestira se ako postoji linearna relacija izmedju x i y HipotezeH0: 0 = 0H1: 0 0

H0 se prihvata ako je ta < t, N-2zakljuak: a = 0 (nema sistematske greke)30Primer 1Sa = 277,008 ta = 5,516 t0,05; 5 = 2,571ta > t0,05; 5

H0 se ne prihvata

Zakljuak: odseak na y-osi je znaajno razliit od 031Intervali pouzdanosti za regresione koeficijente Interval pouzdanosti za odseak aza nivo znaajnosti 95%: a t0,05; n-2(Sa) za nivo znaajnosti 99%: a t0,01; n-2(Sa)

Primer 1: 95% IP za odseak a a = 1528,04 t0,05; 5 = 2,571 Sa = 277,0081528,04 2,571 (277,008) = 1528,04 712,1995% IP: 2240,23 do 815,85

Primer 1: 99% IP za odseak aa = 1528,04 t0,01; 5 = 4,032 Sa = 277,0081528,04 4,032 (277,008) = 1528,04 1116,9099% IP: 2644,94 do 411,1432Intervali pouzdanosti za regresione koeficijente Interval pouzdanosti za nagib bza nivo znaajnosti 95%: b t0,05; n-2(Sb)za nivo znaajnosti 99%: b t0,01; n-2 (Sb)

Primer 1: 95% IP za nagib b b = 79,52 t0,05; 5 = 2,571 Sb = 8,890379,52 2,571 (8,8903) = 79,52 22,8695% IP: 56,66 do 102,38

Primer 1: 99% IP za nagib bb = 79,52 t0,01; 5 = 4,032 Sb = 8,890379,52 4,032 (8,8903) = 79,52 35,8599% IP: 43,67 do 115,3733Rezidualna analizaUslovi za regresionu analizu:normalna raspodela grekekonstantna varijansa greke za sve vrednosti x (homosedastinost)greke su nezavisne jedna od druge

Odstupanje od ovih uslova se ispituje rezidualnom analizomRezidualna analiza: izraunavanje razlike izmeu dobijenih vrednosti y i izraunatih (iz jednaine) vrednosti y34Uslovi za regresionu analizu normalna raspodela greke konstantna varijansa greke za sve vrednosti x (homosedastinost)35Primer 1 - reziduali

36Primer 1 - reziduali

37Rezidualna analiza za homosedastinostreziduali

Nekonstantna varijansaKonstantna varijansaxxYxxYreziduali38Predvianja uz pomo regresione analizeVrste predvianjaPredvianje jedne vrednosti (u jednoj taki)Predvianje intervala

ta se predviaPopulacioni proseni odgovor (yx) za dato xTaka na populacionoj regresionoj linijiIndividualni odgovor (y) za dato x

39Primer 1 predvianje yy = - 1528,03 + 79,52x, r = 0,970 mL = - 1528,03 + 79,52 t0CmL = - 1528,03 + 79,52 x 400C = 1652,8mL = - 1528,03 + 79,52 x 200C= 62,4 (??)mL = - 1528,03 + 79,52 x 100C = -732,8 (??)

Predvianje samo za raspon vrednosti x iz kojih je izraunata regresiona jednaina!

40Predvianje y

Interval predikcijeInterval pouzdanostiZa predvianje jedne vrednosti y za dato xZa predvianje populacione prosene vrednosti y za dato xInterval pouzdanosti za y je ui od intervala predikcije za y za istu datu vrednost x, jer je manja greka u predvianju prosene vrednosti od greke u predvianju jedne vrednosti

41Interval pouzdanosti za yt - 290C y = 778 mL (izraunato)95% Interval pouzdanosti t0,05, 5 = 2,571

t - 290C y = 778 mL (izraunato)99% Interval pouzdanosti t0,01, 5 = 4,03242Interval predikcije za yt - 290C y = 778 mL (izraunato)95% Interval predikcije t0,05, 5 = 2,571

t - 290C y = 778 mL (izraunato)99% Interval predikcije t0,01, 5 = 4,03243Interval pouzdanosti vs. interval predikcijeyxInterval predikcije za jedno y, za dato xp xpy = b0 + b1xxInterval pouzdanosti za proseno y, za dato xp44Korelacioni modeliDaju odgovor na pitanje Koliko je jaka linearna relacija izmeu dve varijable?

Izraavaju se koeficijentom korelacijePopulacioni koeficijent korelacije se oznaava sa (rho)Vrednosti se kreu od -1 to +1Izraava stepen asocijacije

Koriste se uglavnom za razumevanje relacija45Koeficijent korelacijePearson ov koeficijent korelacije:

46Vrednosti koeficijenta korelacijepotpuna negativna korelacija-1.0+1.00potpuna pozitivna korelacijapoveanje stepena negativne korelacije-0.5+0.5nema korelacijepoveanje stepena pozitivne korelacije47Koeficijent korelacijer = 0,8r = 0,4r = -0,8r = -0,4r = 1,0r = 0,048Tumaenje veliine koeficijenata korelacijedo 0,20neznatna korelacija, gotovo ne postoji povezanost izmeu varijabliod 0,20 do 0,40niska korelacija, postoji mala povezanost izmeu varijabliod 0,40 do 0,70umjerena korelacija, bitna povezanost izmeu varijabliod 0,70 do 0,90visoka korelacija, izrazita povezanost izmeu varijabliod 0,90 do 1,00veoma visoka korelacija, veoma uska povezanost izmeu varijabli49Testiranje koeficijenta korelacijeTestira se da li postoji linearna korelacija izmeu dve varijableHipoteze H0: = 0 (nema korelacije) H1: 0 (postoji korelacija)

Izraz za izraunavanje

H0 se prihvata ako je t < t, N-2zakljuak: nema korelacije50Primer 1r2 = 0,9412r = 0,9702

t = 8,95t0,05; 5 = 2,571t > t0,05; 5

H0 se ne prihvataZakljuak: postoji znaajna korelacija

51Linearna regresija u MS-Excel-uTools, Data Analysis, RegressionInput Y-range: obeleiti zavisnu promenljivuInput X-range: obeleiti nezavisnu promenljivuLabels: oznaitiConfidence Level: 95% (ili 99%)oznaiti polje Output range i postaviti kursor na polje u Worksheetu gde treba da se pojavi izvetajResiduals: oznaitiResiduals Plots: oznaitiLine Fit Plots: oznaitiOK52Primer 1 - u MS-Excel-u

53Interpretacija ANOVA rezultataF test testira nultu hipotezu da regresija ne objanjava znaajnu proporciju varijacije u yStepeni slobode za F-test su 1 i n-2U ovom primeru F = 80,1 sa 1 i 5 stepena slobode

t-test za b=0 je identian F-testu za r2 = 0vrednost t za b = 0 je jednaka kvadratnom korenu iz F

54Linearna regresija u SPSS-uPodaci se unose u dve kolone (nezavisna i zavisna promenljiva)Analyze, Regression, LinearDependent : mLIndependent: tStatistics: Regression coefficients: oznaiti Estimates i Confidence intervalsoznaiti Model FitContinueOK55Primer 1 - u SPSS-u

56Primer 1 - u SPSS-u

y = - 1528,03 + 79,52x, r = 0,970 57Primer 1 - u SPSS-u

58Primer 1 - Grafik u SPSSGraphsScatter Simple DefineY-axis: mLX-axis: tOKKliknuti na sliku 2 puta, da se otvori Chart EditorU Chart Editoru otvoriti Chart Options oznaiti Fit Line: Total, OKZatvoriti Chart Editor59Primer 1 - Grafik u SPSS

60Primer 2 veba na asuThis dataset stems from a study concerning the preservation of ascorbic acid in vegetables during drying and storing. The amount of acid preserved is the response (dependent) variable, while the percentage dry matter is the explanatory (independent) variable.

61Primer 2 Izvetaj u MS Excelu

62Primer 2 Grafiki prikaz

63Reziduali

64Primer 2 - Reziduali

65Primena regresione analize u analiticiRegresiona analiza se u analitici primenjuje u sledeim sluajevimaZa izraunavanje jednaine standardne kriveZa procenu tanosti metoda i poreenje metodaZa procenu tanosti metoda na osnovu metode standardnog dodatka (recovery)

66Primena regresione analize u analiticiStupnjevi u primeni regresione i korelacione analize:

Izraunavanje koeficijenta korelacije rza standardnu krivu r 0,99 r2 = 0,98 = 98%za tanost i poredjenje metoda r 0,9 r2 = 0,81 = 81%67Primena regresione analize u analiticiIzraunavanje jednaine praveOdseak a sistematska grekaNagib b sistematska (% greka)

Testiranje koeficijenataZa standardnu krivu: testiranje odseka aZa poredjenje metoda: testiranje odseka a i nagiba bZa recovery test: testiranje nagiba b68Tanost metode primer 3

r = 0,99995b = 1,037a = -4,221Syx = 1,0486

69Tanost metode testiranje greakaTestiranje znaajnosti odseka a (sistematske greke)H0: a = 0H1: a 0Sa = 0,976 ta = 4,324t0,05, 4 = 2,776 ta > t0,05

Znaajnost odseka a: Prihvata se H1: a 0Zakljuak: postoji negativna sistematska greka od 4,22 mmol/L

70Tanost metode testiranje greakaTestiranje znaajnosti nagiba b (proporcionalne greke)H0: b = 1 H1: b 1Sb = 0,005 tb = 7,43t0,05, 4 = 2,776 tb> t0,05

Znaajnost nagiba b: Prihvata se H1: b 1Zakljuak: postoji procentualna greka od 3,7% (b =1 ,037 = 103,7%)standardi:50100150200250300

metoda A:48,599,5150,8202,4254,2308,4