57
Regresia neliniar ă Modul: Biostatistică în cercetare a medicală Cod disciplină: M.D. 1.1.3 Semestrul al II-lea, anul universitar

Regresia neliniara (1)

Embed Size (px)

Citation preview

Regresia neliniar Modul: Biostatistic n cercetarea medical Cod disciplin: M.D. 1.1.3 Semestrul al II-lea, anul universitar 2010-2011Introducere In tiinele experimentale, n special n medicin i biologie, sunt studiate variaiile a doi parametri, adic a dou mrimi cantitative n cadrul aceleai populaii statistice. De exemplu, se pune ntrebarea dac n cadrul unui grup de subieci exist o legtur ntre greutate i nlime sau ntre tensiunea arterial i concentraia unei substane n corp. Din punct de vedere matematic aceast relaie este exprimat de noiunea de funcie. In cel mai simplu caz, cel al unei variabile care depinde de alta, notaia este: y=f(x) Cunoscnd expresia funciei, este de ajuns s tim valoarea parametrului x pentru a determina valoarea parametrului y. Funcia f determin astfel un model matematic care poate fi folosit n predicia parametrului y, fr a fi necesar o observaie efectiv asupra lui y. In situaii reale apar ns complicaii deoarece mrimile studiate sunt afectate de fluctuaii statistice. Din cauza acestora, unei valori a unui parametru i corespund n mod real o serie de valori ale parametrului aflat n relaie cu acesta i invers. Acest serie de valori constituie o distribuie. Intre cei doi parametri exist aadar o legtur dar aceasta trebuie privit nu strict ca relaie funcional y=f(x), ci mai relaxat, n sens statistic. Spunem c cele dou variabile sunt corelate. Cu toate c o mare parte din studiile tiinifice se bazeaz pe corelaii, trebuie s precizm c simpla existen a unei legturi de tipul corelaiei nu implic n mod necesar cauzalitate. Afirmaia c A este cauza lui B pe baza unei corelaii ntre A i B nu este susinut n mod logic. Uneori se comite greeala invers, de a respinge analiza unei posibile corelaii, ceea ce poate duce la pierderea unor probe tiinifice.De exemplu industria tutunului, abuznd de aceast limitare, afirm c doar pentru c exist o corelaie ntre fumat i cancerul pulmonar, nu este suficient pentru a concluziona c fumatul cauzeaz acest afeciune. Totui corelaii multiple care arat acelai lucru, mpreun cu plauzibilitatea biologic, pot demonstra aceast legtur de cauzalitate. Relaia de dependen care exist ntre mai multe variabile, cnd cel puin una din ele este independent, aleatoare i cel puin una dependent, predicia (rspunsul). x1, x2, ... xk -variabilele independente y- variabila dependent Utiliznd funcia f putem prezice valoarea lui y pentru un set dat de valori x.Uneori forma matematic a dependenei f este cunoscut, mai puin parametrii (asamblai ntr-un vector): Aceti parametri trebuie determinai pentru ca relaia de dependen s fie complet determinat. Relaia devine:) ,..., , (2 1 kx x x f y ~) ,..., , (2 1 p| | | = B[1] [2] ) ; ,..., , (2 1B ~kx x x f y[3] ) ; ,..., , (2 1B =kx x x f y[3] Determinarea formei acestei relaii este analiza de regresie. Un prim pas n explorarea unei posibile relaii de dependen ntre dou variabile este reprezentarea grafic n coordonate X-Y (engl.: scatterplot) a valorilor observaiei: x1,x2,...,xi,...xnrespectiv y1,y2,...,yi,...yn. Diagrama de dispersie. Legtura dintre variabile poate fi cuantificat folosind coeficientul de corelaie (Pearson) care msoar intensitatea i sensul acestei dependene. Este o mrime adimensional cu valori n intervalul [-1,1]. 0204060801001201401600 10 20 30 40 50 60 70XYnor de puncte (x1,y1) (xi,yi) . , ; , ,) 1 () )( (1std abateri s s aritmetice medii y xs s ny y x xry xy xnii ixy ==(x,y) rxy = +1corelaie liniar perfect direct rxy = -1corelaie liniar perfect invers rxy 0 absena unei dependene liniare Tipuri de regresie regresia liniar simpl - relaia de dependen este una liniar iexista o variabil independent i una dependent: regresia neliniar - relaia de dependen este una neliniar, de ex.: regresia multipl o variabil este dependent de mai multe variabile, de ex.; regresie multivariat mai multe variabile dependente: x y + ~1 0| |[4] 22 1 0x x y + + ~ | | |[5] 2 2 1 1 0x x y + + ~ | | | [6] ) ; ,..., , ( ) ,..., , (2 1 2 1B ~k mx x x f y y y[7] Utilizarea regresiei In scop predictiv atunci cnd funcia de dependen este este dictat de factorii fizici i fiziologici care stau la baza acestei dependene. In acest caz regresia ne permite s facem o predicie asupra valorii rezultate dintr-o observaie a unui parametru clinic independent. In scop exploratoriu n absena unei nelegeri a substratului cauzal dintre cele dou variabile. Regresia poate fi utilizat n acest situaie pentru detecia unei relaii de dependen i aflarea naturii acestei relaii. Regresia neliniar Regresie liniar numrul leucocitelor n funcie de nivelul unei infecii (nr. bacterii) Regresie neliniar rata de supravieuire la obolani infectai cu malarie Forma norului de puncte poate sugera tipul de dependen dintre cele dou variabile. Regresia neliniara se va pune in discutie atunci norul de puncte sugereaza o curba. X Y ei = diferena dintre valoarea observat i predicie: eroare sau valoare reziduala ei ei+1 i i iy y e =) , (i iy x) , (i iy xSe caut curba care minimizeaz SSE metoda celor mai mici ptrate Erori i minimizarea lor ==nii erre SS12= =nii toty y SS12) (= =nii i erry y SS12) (toterrSSSSR =12Coeficient de determinare proporia de variabilitate din setul de observaii care este explicat de modelul de regresie propus. 0,8-0,9coeficient mare (model f. bun) 0,7 model bun 0,3-0,7model insuficient elaborat 0-0,3model incorect suma patratelor valorilor reziduale suma patratelor abaterilor individuale fata de media artimetica suma patratelor abaterilor de regresie err reg totSS SS SS + =totregSSSSR =2= =nii regy y SS12) (Coeficientul de determinare R2 constituie o masura a calitatii predictiilor referitoare la valori dependente viitoare; arata cat de bine functioneaza modelul. In cazul regresiei liniare, R2 este egal cu patratul coeficientului de corelatie. R2 ajustat - se obtine din R2 diminuandu-l in functie de numarul de variabile din model. 11) 1 ( 12 2 =p nnR Rajustatunde p este nr. de parametri independenti, iar n nr. de valori ale esantionului R2 ajustat ofera independenta de nr. de variabile utilizat. Dezavantajele metodei celor mai mici patrate Solutionarea m.c.m.m.p. pentru cazul neliniar presupune folosirea unor metode iterative. In cazul liniar, parametrii functiei pot fi determinati prin metode analitice. Metodele iterative necesita furnizarea unor valori de start pt. inceperea procesului de optimizare. Acestea trebuie sa fie relativ apropiate de solutia finala, altfel s-ar putea ca procesul iterativ sa nu convearga. Valori de start gresit alese pot face ca iteratiile sa convearga catre un minim local si nu catre cel global. Alt dezavantaj este slaba toleranta la valori aberante. Astfel de valori pot influenta puternic rezultatele analizei neliniare. Regresia neliniar Exponenial: Putere: Logaritmic: Cu toate c sunt neliniare, primele dou funcii sunt liniarizabile prin logaritmare: Exponenial: Putere: Logaritmic:deja liniar n lnx Substituii:Exponenial: Putere: Logaritmic:

x ae b y =ax b y =b x a y + = lnx a b y + = ln lnx a b y ln ln ln + =b b x x y y ln ' ; ln ' ; ln ' = = =ax b y + = ' '' ' ' ax b y + =' ax b y + =Funcia exponenial n analiza de regresie 0500100015002000250030003500400045000 2 4 6 8 10 12 1400,10,20,30,40,50,60 2 4 6 8 10 12 14Acest tip de funcie poate fi utilizat atunci cnd creterea variabilei dependente y este accelerat o dat cu creterea variabilei independente x sau descreterea lui y se atenueaz o dat cu creterea variabilei x.a, b parametri In lumea real exist fenomene care urmeaz o lege exponenial: creterea populaiei n raport cu timpul, descreterea presiunii atmosferice o dat cu creterea nalimii fa de nivelul mrii, descreterea intensitii radiaiei electromagnetice n raport cu distana parcurs ntr-un mediu, etc. x ae b y =Pai 1. se reprezint grafic n coordonate X-Y valorile observaiilor i se examineaz forma norului de puncte (dac indic o variaie exponenial) 2. dac dependena indic o lege exponenial, calculm valorile yi=lnyi 3. se determin b i a pe baza regresiei liniare 4. se calculeaz parametrul x a b y + = ln lnx ae b y =ax b y + = ' '' be b =0501001502002503003504004500 0,5 1 1,5 2 2,50123456789100 0,5 1 1,5 2 2,5Modelul Malthus Este un model de cretere descris de relaie urmtoare dN/dt=rN unde N(t) este marimea populatiei la momentul de timp t iar r (r>0) este rata de crestere. Prin integrare se obine expresia N(t)=N0ert unde No este mrimea populaiei la momentul t=0 Modelul logistic Modelul este descris de ecuaia diferenial dN/dt=rN(1-N/K) Prin integrare se obtine N(t)=K/[1+(K/N0-1)e-rt] Modelul Gompertz Ecuaia diferenial (utilizata in modelarea cresterii tumorilor) dN/dt=rN ln(K/N) Prin integrare se obtine N(t)=K e[ln (N0/K)exp(-rt)] Modelul Clapeyron Descrie variatia punctului de fierbere a apei in functie de presiune. temperatura=b/log(presiune/a)-459,7 Funcii polinomiale Regresia neliniar are la baz funcii neliniare care nu pot fi liniarizate. Cele mai simple sunt funciile polinomiale c bx ax y + + =2d cx bx ax y + + + =2 3e dx cx bx ax y + + + + =2 3 4gradul 2gradul 3gradul 4 Forma general pt. regresia polinomial: k ordinul polinomului; eroarea datorat fluctuaiilor aleatoare. Nu se recomand utilizarea polinoamelor de grad mai mare de 4 deoarece: interpretarea este dificil se poate produce fenomenul de overfitting (vezi fig.) c | | | | | + + + + + + =kkx x x x y ...3322 1 0Pai n analiza de regresie folosind funcii polinomiale 1) se realizeaz reprezentarea grafic X-Y (scatterplot) pentru setul de date; 2) dac graficul indic o linie dreapt, ncercai un polinom de gradul I 3) dac graficul are forma apropiat de cea a unei parabole, ncercai s folosii un polinom de gradul al II-lea 4) dac forma graficului este mai complex dect o parabol, ncercai un polinom de gradul al III-lea 5) ncercai un polinom de gradul al IV-lea dac polinoamele de grad mai mic nu au dat rezultate satisfctoare x y1 0| | + =22 1 0x x y | | | + + =3322 1 0x x x y | | | | + + + =443322 1 0x x x x y | | | | | + + + + =Determinarea calitii modelului de regresie In afar de o verificare vizual a potrivirii curbei de regresie cu punctele din graficul X-Y, pentru aprecierea calitaii modelului ales trebuie luate n considerare: valoarea R2 graficul valorilor reziduale Valoarea R2 (coeficient de determinare, R-square,R-Sq) R2 reprezint proporia de variabilitate din setul de observaii care este explicat de modelul de regresie propus. 0,8 - 0,9coeficient mare (model f. bun) 0,7 model bun 0,3 - 0,7model insuficient elaborat 0 - 0,3model incorect Valoarea R2 ajustat p nr. variabile independente, n mrimea eantionului 11) 1 ( 12 2 =p nnR RGraficul valorilor reziduale Din graficul valorilor reziduale trebuie s rezulte respectarea a dou condiii: valorile reziduale sunt independente (nu exist un pattern special al acestora, ele sunt dispuse la ntmplare); valorile reziduale sunt repartizate normal (Gauss) cu media 0 (nr. de valori0). Valori reziduale care indica un model corect Valori reziduale in forma de U ntors Cazul a) nu arat nici o abatere de la normalitate i nici o violare a ipotezei c erorile au aceeai dispersie constant. n cazul b), se constat o cretere a dispersiei, deci este invalidat ipoteza constanei dispersiei erorilor. Practic, n aceast situaie se consider c modelul nu conine o variabil esenial, cum ar fi timpul, sau c metoda de calcul adecvat este metoda celor mai mici ptrate ponderate. Uneori, situaia poate fi rezolvat i printr-o transformare prealabil a datelor (de exemplu, prin logaritmare). Cazul c) arat practic o eroare de calcul, deoarece este ca i cum nu s-ar fi reuit explicarea unei componente liniare a variaiei variabilei dependente. Cazul al patrulea, d), arat c modelul nu este adecvat datelor observate. Se ncearc un nou model care s includ variabile de ordin superior, de genul x2, care s preia variaia curbilinie, sau se transform n prealabil variabila y. Utilizarea modelului pentru predicii Dup ce calitatea modelului creat a fost dovedit, putem ncepe s folosim modelul pentru a face predicii. Pentru aceasta, se introduce valoarea variabilei independente n funcia f a modelului i se calculeaz valoarea prezis y. Valorile de intrare x pentru care se fac predicii trebuie s fie din acelai domeniu cu observaiile x1,x2,...,xi,...xn care au fost utilizate pt. determinarea modelului. In caz contrar nu putem garanta valabilitatea modelului prin extrapolare.Regresia multipl Anumite fenomene pot pune n legtur un numr de variabile mai mare ca 2. De exemplu, greutatea unei persoane se poate afla n relaie cu nlimea dar i cu vrsta. Analiza acestei dependene se face prin regresie multipl. Notnd cele 3 variabile cu x,y,z, valorile parametrilor corespunzatori unui subiect pot fi reprezentate sub forma unui punct n spaiul tridimensional. Diagrama de dispersie ia forma unui nor tridimensional. X Y Z Regresia multipl In cazul unei relatii liniare (de gradul I) intre cele 3 variabile z=ax+by+c reprezentarea grafica este cea a unui plan in spatiul 3D. Y Z X Regresia multipl ln(Y) = ln(X) + bY + ln(u) Z=aX2+bY2+c Regresia logistica De multe ori dorim sa facem predictii daca un anumit eveniment se va produce sau nu, in situatia in care el este influentat de o serie de factori. De ex. dorim sa stim care este sansa de ploaie in acest sfarsit de saptamana sau care este probabilitatea ca o persoana sa contracteze o anumita afectiune. Aceste predictii se bazeaza pe probabilitatea p. Variabila dependenta este o variabila binara, adica o variabila cu valori posibil: DA, NU sau ADEVARAT, FALS. Pentru a modela astfel legaturi intre variabile numerice si astfel de variabile binare, recurgem la regresia logistica. Exemplu: utilizarea presiunii atmosferice pentru a prognoza daca va ploua sau nu. In esenta trebuie sa determinam p, probabilitatea evenimentului, in functie de variabila independenta. Probabilitatea neproducerii evenimentului in cauza este 1-p.La modul general, pot fi folosite mai multe variabile independente (presiune, umiditate, viteza vantului, nebulozitate, etc.) pentru predictia asupra sanselor de ploaie. Alt exemplu: estimarea riscului de afectiune cardiaca in functie de trei parametri: varsta, sex, nivelul colesterolului in sange.) (x f p =Modelul: Forma generala a unui model de regresie logistica este (curba in S): Regresia - Software Majoritatea pachetelor software comerciale pentru statistica au suport pentru analiza de regresie liniara si neliniara. SPSS (http://www.spss.com/) Statistica (http://www.statsoft.com/) Matlab (http://www.mathworks.com/) Minitab (http://www.minitab.com) Microsoft Excel Numai regresie liniara Microsoft Excel Microsoft Excel regresie liniara X Variable 1 Line FitPlot024680 5 10 15X Variable 1YYPredicted YMicrosoft Excel regresie liniara X Variable 1Residual Plot-1-0,500,511,50 5 10 15X Variable 1ResidualsMicrosoft Excel regresie liniara Microsoft Excel regresie liniara SPSS regresie neliniara SPSS regresie neliniara Caz: sobolani infectati cu malarie Introducerea datelor Parazitul malariei afecteaza capacitatea transportului de oxigen catre creier. Aportul de hematii in organismul afectat de malarie incetineste deteriorarea starii de sanatate castigand timp pentru ca medicatia sa-si faca efectul.Grupuri diferite de sobolani au primit: hemoglobina, hematii, un flui proteic administrat intravenos. Datele din imagine indica rata de supravietuire (zile) in cazul acestor grupuri SPSS regresie neliniara Caz: sobolani infectati cu malarie Diagrama dispersionala SPSS regresie neliniara Caz: sobolani infectati cu malarie Din diagrama de dispersie X-Y, se observa ca nr. de sobolani care supravietuiesc scade in timp, dar rata de supravietuire se diminueaza odata cu trecerea timpului. SPSS regresie neliniara Caz: sobolani infectati cu malarie Modul de analiza de regresie Curve Estimation Analiza folosind: Curve estimation Nonlinear SPSS regresie neliniara Caz: sobolani infectati cu malarie Modul de analiza de regresie Curve Estimation 22 1 0x x y | | | + + =Datorita formei norului de puncte anticipam un polinom de gradul 2: parabola SPSS regresie neliniara Caz: sobolani infectati cu malarie Rezultate Parametri model Coef. dedeterminare SPSS regresie neliniara Caz: sobolani infectati cu malarie Rezultate SPSS regresie neliniara Caz: sobolani infectati cu malarie Rezultate SPSS regresie neliniara Caz: sobolani infectati cu malarie Rezultate SPSS regresie neliniara Caz: sobolani infectati cu malarie Rezultate SPSS regresie neliniara Caz: temperatura la copii cu infectii pulmonare in functie de varsta Introducerea datelor si diagrama de dispersie SPSS regresie neliniara Caz: temperatura la copii cu infectii pulmonare in functie de varsta Introducerea datelor si diagrama de dispersie ) ln(1 0x y | | + =SPSS regresie neliniara Caz: temperatura la copii cu infectii pulmonare in functie de varsta Rezultate SPSS regresie neliniara Caz: temperatura la copii cu infectii pulmonare in functie de varsta Rezultate SPSS regresie neliniara Caz: temperatura la copii cu infectii pulmonare in functie de varsta Analiza de regresie - NonlinearSPSS regresie neliniara Caz: temperatura la copii cu infectii pulmonare in functie de varsta Analiza de regresie - NonlinearSPSS regresie neliniara Caz: temperatura la copii cu infectii pulmonare in functie de varsta Analiza de regresie - Nonlinear - Rezultate Bibliografie 1) Robert H. Riffenburgh, Statistics in Medicine, Second Edition, Elsevier, 2006 2) Rand R. Wilcox, Basic Statistics, Oxford University Press, 20093) Sarah Boslaugh, Paul Andrew Watters, Statistics in a Nutshell, OReilly, 2008 4) Prajneshu - Non Linear Regression Models And Their Applications (http://www.iasri.res.in/ebook/EB_SMAR/e-book_pdf%20files/Manual%20IV/1-Nonlinear%20Regression.pdf) 5) NLREG Example Analyses (http://www.nlreg.com/examples.htm) 6) Regresie si corelatie (http://www.capisci.ro/articole/Regresie_%C5%9Fi_corela%C5%A3ie#Regresie_liniar.C4.83) 7) Regression analysis (http://en.wikipedia.org/wiki/Regression_analysis) 8) SPSS (www.spss.com)