25
Cursul Nr. 14 Cursul Nr. 14 Regresia liniara Regresia liniara

Curs Nr. 14 Regresia Liniara

  • Upload
    andrei

  • View
    35

  • Download
    7

Embed Size (px)

DESCRIPTION

Curs

Citation preview

Page 1: Curs Nr. 14 Regresia Liniara

Cursul Nr. 14Cursul Nr. 14

Regresia liniaraRegresia liniara

Page 2: Curs Nr. 14 Regresia Liniara

BackgroundBackground• O mare parte a analizelor statistice uzuale se O mare parte a analizelor statistice uzuale se

ocupă cu analiza relaţiei între două variabile ocupă cu analiza relaţiei între două variabile statistice (atribute) ce corespund aceluiaşi grup statistice (atribute) ce corespund aceluiaşi grup de obiecte/instanţe. de obiecte/instanţe.

• Pentru a o identifica, se studiază relaţia dintre Pentru a o identifica, se studiază relaţia dintre cele două caracteristici/atribute măsurate pe cele două caracteristici/atribute măsurate pe obiectele dintr-un anumit set. obiectele dintr-un anumit set.

• Cu alte cuvinte, este vorba de două serii Cu alte cuvinte, este vorba de două serii statistice în care cuplurile de valori (statistice în care cuplurile de valori (xxii, , yyii), ), corespunzând cuplului de variabile statistice corespunzând cuplului de variabile statistice ((XX, , YY) sunt măsurate pe acelaşi obiect.) sunt măsurate pe acelaşi obiect.

Page 3: Curs Nr. 14 Regresia Liniara

BackgroundBackground• Există două mari motive pentru care se Există două mari motive pentru care se

efectuează un asemenea studiu:efectuează un asemenea studiu:– Descrierea relaţiei care ar putea exista între cele Descrierea relaţiei care ar putea exista între cele

două variabiledouă variabile, analizând legătura între cele , analizând legătura între cele două serii de observaţii. Concret, se analizează două serii de observaţii. Concret, se analizează dacă tendinţa ascendentă a uneia implică o dacă tendinţa ascendentă a uneia implică o tendinţă ascendentă, descendentă sau nici o tendinţă ascendentă, descendentă sau nici o tendinţă a celeilalte;tendinţă a celeilalte;

– În ipoteza existenţei unei legături reale între ele, În ipoteza existenţei unei legături reale între ele, identificată în prima instanţă, să se poată identificată în prima instanţă, să se poată prognostica valorile uneia în raport cu valorile prognostica valorile uneia în raport cu valorile celeilalteceleilalte pe baza ecuaţiei de regresie. pe baza ecuaţiei de regresie.

Page 4: Curs Nr. 14 Regresia Liniara

BackgroundBackground

• SScopul final este copul final este prognozaprognoza, în condiţia că , în condiţia că este posibilă, cele două variabile fiind într-este posibilă, cele două variabile fiind într-adevăr corelate.adevăr corelate.

• Metoda prin care analizăm posibilele Metoda prin care analizăm posibilele asociaţii între valorile a două variabile asociaţii între valorile a două variabile statistice, prelevate de la acelaşi grup de statistice, prelevate de la acelaşi grup de obiecte, este cunoscută ca metoda obiecte, este cunoscută ca metoda corelaţieicorelaţiei şi are ca indice şi are ca indice coeficientul de coeficientul de corelaţiecorelaţie (Pearson’s (Pearson’s rr))..

Page 5: Curs Nr. 14 Regresia Liniara

BackgroundBackground

• Coeficientul de corelaţie poate fi calculat pentru Coeficientul de corelaţie poate fi calculat pentru orice set de date, dar, pentru ca el să aibă orice set de date, dar, pentru ca el să aibă relevanţă statistică, trebuie îndeplinite două relevanţă statistică, trebuie îndeplinite două condiţii majore:condiţii majore:– ((aa) cele două variabile să fie definite de ) cele două variabile să fie definite de acelaşi lot acelaşi lot

de obiectede obiecte, cuplurile de date corespunzând , cuplurile de date corespunzând aceluiaşi obiect;aceluiaşi obiect;

– ((bb) cel puţin una din variabile să aibă o ) cel puţin una din variabile să aibă o repartiţie repartiţie aproximativ normalăaproximativ normală, ideal fiind ca ambele să fie , ideal fiind ca ambele să fie normal repartizate.normal repartizate.

Page 6: Curs Nr. 14 Regresia Liniara

BackgroundBackground

• Presupunând că legătura dintre cele două Presupunând că legătura dintre cele două variabile variabile XX şi şi Y Y, reliefată de coeficientul de , reliefată de coeficientul de corelaţie corelaţie rr, nu este întâmplătoare, există trei , nu este întâmplătoare, există trei posibile explicaţii:posibile explicaţii:

• Variabila Variabila XX influenţeazăinfluenţează ( (cauzeazăcauzează) variabila ) variabila YY;;

• Variabila Variabila YY influenţeazăinfluenţează variabila variabila XX;;• Ambele variabile Ambele variabile XX şi şi YY sunt influenţatesunt influenţate de de

acelaşi fenomenacelaşi fenomen din fundal. din fundal.

Page 7: Curs Nr. 14 Regresia Liniara

Regresia liniaraRegresia liniara• Pasul următor în analiza legăturii dintre două Pasul următor în analiza legăturii dintre două

variabile statistice, atunci când acestea sunt variabile statistice, atunci când acestea sunt corelate, este să se stabilească concret natura corelate, este să se stabilească concret natura legăturii liniare dintre ele, descriind-o printr-o legăturii liniare dintre ele, descriind-o printr-o ecuaţie matematică.ecuaţie matematică.

• Scopul final al acestei abordări este Scopul final al acestei abordări este prognoza prognoza valorilor uneia dintre variabile pe baza valorilor valorilor uneia dintre variabile pe baza valorilor celeilalteceleilalte, prognoză efectuată pe baza ecuaţiei , prognoză efectuată pe baza ecuaţiei ce descrie legătura dintre cele două seturi de ce descrie legătura dintre cele două seturi de date.date.

Page 8: Curs Nr. 14 Regresia Liniara

Regresia liniaraRegresia liniara• Modul de prezentare a legăturii liniare dintre două Modul de prezentare a legăturii liniare dintre două

variabile, atunci când aceasta există, se numeşte variabile, atunci când aceasta există, se numeşte metoda regresiei liniaremetoda regresiei liniare ( (linear regressionlinear regression).).

• Pentru aceasta se consideră una dintre variabile ca Pentru aceasta se consideră una dintre variabile ca variabilă independentăvariabilă independentă sau sau variabilă predictorvariabilă predictor, iar , iar cealaltă variabilă ca cealaltă variabilă ca variabilă dependentăvariabilă dependentă sau sau variabilă răspunsvariabilă răspuns ((outcomeoutcome).).

• Legătura liniară dintre cele două variabile este Legătura liniară dintre cele două variabile este descrisă de o ecuaţie liniară, descrisă de o ecuaţie liniară, ecuaţia de regresieecuaţia de regresie ((regression equationregression equation) căreia îi corespunde geometric ) căreia îi corespunde geometric dreapta de regresiedreapta de regresie ((regression lineregression line).).

Page 9: Curs Nr. 14 Regresia Liniara

Regresia liniaraRegresia liniara• Ca metodologie, variabila dependentă se Ca metodologie, variabila dependentă se

distribuie pe axa ordonatelor, în timp ce distribuie pe axa ordonatelor, în timp ce variabila independentă se distribuie pe axa variabila independentă se distribuie pe axa absciselor. Ecuaţia dreptei de regresie se absciselor. Ecuaţia dreptei de regresie se stabileşte pe baza metodei “stabileşte pe baza metodei “celor mai mici celor mai mici pătratepătrate”” ((least squares methodleast squares method) care, intuitiv, ) care, intuitiv, minimizează distanţa între punctele minimizează distanţa între punctele reprezentate de perechile de date/reprezentate de perechile de date/observed observed valuesvalues şi punctele corespunzătoare de pe şi punctele corespunzătoare de pe dreaptă/dreaptă/fitted valuesfitted values (obţinute pe verticalele (obţinute pe verticalele corespunzătoare). Aceasta distanţă se numeşte corespunzătoare). Aceasta distanţă se numeşte reziduureziduu ((residualresidual). ).

Page 10: Curs Nr. 14 Regresia Liniara
Page 11: Curs Nr. 14 Regresia Liniara

Regresia liniaraRegresia liniara

• În final, obţinem ecuaţia de regresie sub forma:În final, obţinem ecuaţia de regresie sub forma:

Y = a +Y = a + bbXX,,

unde unde aa se numeşte se numeşte interceptorinterceptor iar iar bb coeficient coeficient dede regresieregresie, cei doi parametri fiind obţinuţi cu , cei doi parametri fiind obţinuţi cu ajutorul formulelor:ajutorul formulelor:

1

2

1

( )( )

( )

n

i ii

n

ii

x x y yb

x x

a y b x

Page 12: Curs Nr. 14 Regresia Liniara

ExempluExemplu

• Să considerăm datele culese de la un lot de 24 Să considerăm datele culese de la un lot de 24 de pacienţi având diabet de tip I, privind de pacienţi având diabet de tip I, privind următoarele două variabile:următoarele două variabile:

– glucozaglucoza ( (GG) în sânge pe stomacul gol ) în sânge pe stomacul gol (mmol/l);(mmol/l);

– viteza medie de contracţieviteza medie de contracţie VcfVcf (%/sec) a (%/sec) a ventriculului stâng, obţinută prin eco-ventriculului stâng, obţinută prin eco-cardiografie.cardiografie.

Page 13: Curs Nr. 14 Regresia Liniara

ExempluExemplu

• Tabelul de mai jos prezintă principalele Tabelul de mai jos prezintă principalele caracteristici numerice ale regresiei liniare aplicate caracteristici numerice ale regresiei liniare aplicate în acest caz.în acest caz.

Page 14: Curs Nr. 14 Regresia Liniara

ExempluExemplu

• Aşa după cum se observă, în ciuda faptului că Aşa după cum se observă, în ciuda faptului că valoarea coeficientului de corelaţie valoarea coeficientului de corelaţie rr nu pare nu pare prea importantă, totuşi nivelul de semnificaţie prea importantă, totuşi nivelul de semnificaţie p = p = 0,041 atestă o corelaţie semnificativă. 0,041 atestă o corelaţie semnificativă. Ecuaţia de regresie liniară este dată de:Ecuaţia de regresie liniară este dată de:

Vcf = 1,10 + 0.02Vcf = 1,10 + 0.02GG , , de unde deducem că valoarea estimată de unde deducem că valoarea estimată

(prognozată pe baza regresiei liniare) a (prognozată pe baza regresiei liniare) a variabilei Vcf pentru pacientul No. variabilei Vcf pentru pacientul No. XX este de este de 1,27%.1,27%.

Page 15: Curs Nr. 14 Regresia Liniara
Page 16: Curs Nr. 14 Regresia Liniara

Regresia liniara multiplaRegresia liniara multipla

• Spre deosebire de cazul regresiei liniare Spre deosebire de cazul regresiei liniare simple, în care am încercat ssimple, în care am încercat saa exprim exprimaam o m o variabilvariabilaa (dependent (dependentaa) în funcţie de o alt) în funcţie de o altaa variabilvariabilaa (independent (independentaa, explicativ, explicativaa, predictor), , predictor), acum ne punem problema situaacum ne punem problema situattiei în care iei în care avem de-a face cu cel puţin trei variabile, dintre avem de-a face cu cel puţin trei variabile, dintre care una este care una este dependentdependentaa iar celelalte sunt iar celelalte sunt independenteindependente, , predictoarepredictoare..

Page 17: Curs Nr. 14 Regresia Liniara

Regresia liniara multiplaRegresia liniara multipla• Vom prezenta, astfel, un model de Vom prezenta, astfel, un model de regresie regresie

liniară multiplăliniară multiplă în care variabila în care variabila dependentdependentaa este exprimateste exprimataa ca o combina ca o combinattie liniară de ie liniară de variabile independente sau variabile variabile independente sau variabile predictor/predictor/ covariatecovariate..

• Matematic vorbind, acest fapt se exprimMatematic vorbind, acest fapt se exprimaa prin prin ecuaţia de regresie multiplăecuaţia de regresie multiplă::

Y = a + bY = a + b11 X X11 + b + b22 XX22 +…+ b +…+ bkk X Xkk,,

undeunde Y Y reprezintreprezint variabila dependentvariabila dependentaa iar iar variabilelevariabilele X X11,…, X,…, Xkk suntsunt variabilele explicativevariabilele explicative, , predictoarepredictoare. . ConstanteleConstantele bb11,…, b,…, bkk reprezintăreprezintă coeficientii de regresiecoeficientii de regresie, iar , iar aa este constanta de este constanta de regresie sauregresie sau interceptorulinterceptorul..

Page 18: Curs Nr. 14 Regresia Liniara

Regresia liniara multiplaRegresia liniara multipla• AAtunci când tunci când ştim dinainteştim dinainte care variabile vor fi care variabile vor fi

incluse în analiza regresivă multiplă, modelul se incluse în analiza regresivă multiplă, modelul se poate construi fără dificultate, singura problemă poate construi fără dificultate, singura problemă rămânând identificarea concretă a ecuaţiei de rămânând identificarea concretă a ecuaţiei de regresie. regresie.

• Dacă scopul propus este şi Dacă scopul propus este şi stabilirea stabilirea importanţei predictorilorimportanţei predictorilor, atunci va trebui să , atunci va trebui să alegem dintre toate variabilele modelului pe alegem dintre toate variabilele modelului pe cele esenţiale, pentru obţinerea unui model clar cele esenţiale, pentru obţinerea unui model clar şi simplu. şi simplu.

• În acest caz va trebui să facem apel la În acest caz va trebui să facem apel la nivelul nivelul p p de semnificaţie statisticăde semnificaţie statistică a fiecărei variabile a fiecărei variabile pentru a decide ierarhia importanţei lor. pentru a decide ierarhia importanţei lor.

Page 19: Curs Nr. 14 Regresia Liniara

Regresia liniara multiplaRegresia liniara multipla

• IIn cazul în care nu cunoaştem dinainte care n cazul în care nu cunoaştem dinainte care variabile predictive trebuie introduse în model, variabile predictive trebuie introduse în model, vom indica pe scurt cei doi algoritmi principali vom indica pe scurt cei doi algoritmi principali utilizaţi standard:utilizaţi standard:

– (1) (1) regresia pas cu pas anterioarăregresia pas cu pas anterioară ( (forward forward stepwise regressionstepwise regression););

– (2) (2) regresia pas cu pas posterioarăregresia pas cu pas posterioară ((backwardbackward stepwise regressionstepwise regression).).

Page 20: Curs Nr. 14 Regresia Liniara

Regresia liniara multiplaRegresia liniara multiplaAlgoritmAlgoritm pentru regresia pas cu pas anterioarăpentru regresia pas cu pas anterioară.• (a) S(a) Se identifică variabila cu e identifică variabila cu cel mai mare impactcel mai mare impact

asupra variabilei dependente, i.e. asupra variabilei dependente, i.e. variabila cea mai variabila cea mai corelatăcorelată cu variabila dependentă şi se introduce în cu variabila dependentă şi se introduce în modelmodel;;

• (b) S(b) Se găseşte variabila din cele rămase care are cea e găseşte variabila din cele rămase care are cea mai mare corelaţie (ignorând semnul) cu reziduurile mai mare corelaţie (ignorând semnul) cu reziduurile modelului de mai sus;modelului de mai sus;

• (c) S(c) Se repetă pasul (b) până când se ajunge la nivelul e repetă pasul (b) până când se ajunge la nivelul de semnificaţie de semnificaţie pp = 0.05 = 0.05, corespunzător variabilei , corespunzător variabilei curente introdusă în model.curente introdusă în model.

• CCând nivelul de semnificaţie ând nivelul de semnificaţie pp depăşeşte valoarea de depăşeşte valoarea de 0.05 se opreşte procesul de introducere a predictorilor 0.05 se opreşte procesul de introducere a predictorilor în model (condiţia de în model (condiţia de stopstop).).

Page 21: Curs Nr. 14 Regresia Liniara

Regresia liniara multiplaRegresia liniara multipla

• În ceea ce priveşte algoritmul pentru cealaltă În ceea ce priveşte algoritmul pentru cealaltă metodă (metodă (regresia pas cu pas posterioarăregresia pas cu pas posterioară), vom ), vom aborda problema din direcţia opusă, adicăaborda problema din direcţia opusă, adică::– (a) L(a) Luăm în consideraţie iniţial uăm în consideraţie iniţial toate variabileletoate variabilele şi le şi le

excludem pas cu pas pe cele care au semnificaţia excludem pas cu pas pe cele care au semnificaţia cea mai mică. Aici modelul iniţial include toate cea mai mică. Aici modelul iniţial include toate variabilele, considerând că, cel puţin teoretic, toate variabilele, considerând că, cel puţin teoretic, toate variabilele pot fi importante. variabilele pot fi importante.

– (b) S(b) Se exclude apoi variabila cu cea mai mică e exclude apoi variabila cu cea mai mică influenţă asupra modelului, adică cu cel mai mare influenţă asupra modelului, adică cu cel mai mare nivel de semnificaţie nivel de semnificaţie pp privind corelaţia. Nivelul privind corelaţia. Nivelul pp de de stopstop este tot 0.05. este tot 0.05.

Page 22: Curs Nr. 14 Regresia Liniara

Regresia logisticăRegresia logistică • Sunt multe domenii de cercetare dinSunt multe domenii de cercetare din:: medicină, medicină,

economie, fizică, meteorologie, astronomie, economie, fizică, meteorologie, astronomie, biologie etc., în care biologie etc., în care variabila dependentvariabila dependentaa nu nu mai este o variabilă continuă ci una mai este o variabilă continuă ci una binarăbinară, , categorialăcategorială..

• În acest caz, când variabila dependentÎn acest caz, când variabila dependentaa se se referreferaa la două valori (categorii), nu mai este de la două valori (categorii), nu mai este de folos regresia multiplă, ci se utilizează o folos regresia multiplă, ci se utilizează o abordare similară -abordare similară -regresia logisticregresia logisticaa. .

• În acest caz, în loc sÎn acest caz, în loc saa se prognozeze valoarea se prognozeze valoarea variabilei dependente în raport cu valorile variabilei dependente în raport cu valorile variabilelor explicative, se va prognoza o variabilelor explicative, se va prognoza o transformaretransformare a variabilei dependentea variabilei dependente..

Page 23: Curs Nr. 14 Regresia Liniara

Regresia logisticăRegresia logistică• TTransformare se numeşte ransformare se numeşte transformarea transformarea logitlogit, ,

desemnată ca desemnată ca logit logit ((pp)), unde , unde pp este proporţia este proporţia de obiecte cu o anumitde obiecte cu o anumitaa caracteristic caracteristicaa ( (pp reprezintreprezintaa probabilitate probabilitateaa ca un individ s ca un individ saa aibă aibă infarct miocardic, sau infarct miocardic, sau pp reprezintă reprezintă probabilitatea ca un client să rămână fidel unui probabilitatea ca un client să rămână fidel unui anumit supermarket sau produs).anumit supermarket sau produs).

• FFormula dupormula dupaa care se calculează care se calculează logit logit ((pp)) esteeste::

logit logit ((pp) =) = ln1

p

p

Page 24: Curs Nr. 14 Regresia Liniara

Regresia logisticăRegresia logistică

• Atunci când utilizăm metoda regresiei Atunci când utilizăm metoda regresiei logistice, la sfârşitul calculelor vom obţine logistice, la sfârşitul calculelor vom obţine valoarea valoarea logit logit ((pp) = ) = sub forma unei sub forma unei combinacombinattii liniare a variabilelor explicative. ii liniare a variabilelor explicative. În aceste condiţii, putem calcula valoarea În aceste condiţii, putem calcula valoarea efectivefectivaa a probabilităţii a probabilităţii pp, utilizând formula:, utilizând formula: p = ep = e / (1 + / (1 + ee).).

Page 25: Curs Nr. 14 Regresia Liniara

ExempluExemplu• Scopul studiului este reprezentat de Scopul studiului este reprezentat de stabilirea stabilirea

influenţei fumatului, obezităţii influenţei fumatului, obezităţii i sforăitului asupra i sforăitului asupra hipertensiunii arterialehipertensiunii arteriale, în sensul prognozei apariţiei , în sensul prognozei apariţiei acesteia pe baza variabilelor explicative mai sus acesteia pe baza variabilelor explicative mai sus amintite, privite ca factori de risc pentru această amintite, privite ca factori de risc pentru această maladie. Utilizând metoda regresiei logistice, obţinem maladie. Utilizând metoda regresiei logistice, obţinem ecuaţiaecuaţia::

logitlogit ( (pp) = -2,378 – 0,068 x ) = -2,378 – 0,068 x fumatfumat + 0,695 x + 0,695 x obezitate obezitate + 0,872 x + 0,872 x sforăitsforăit,,

ecuaţie din care putem obţine probabilitatea ca un ecuaţie din care putem obţine probabilitatea ca un subiect ssubiect saa dezvolte dezvolte hipertensiune arterialăhipertensiune arterială, pe baza , pe baza valorilor individuale ale celor trei variabile explicative – valorilor individuale ale celor trei variabile explicative – factori de risc pentru hipertensiune – codate astfel: factori de risc pentru hipertensiune – codate astfel: 0 = nefumător, 1 = fum0 = nefumător, 1 = fumaator; 0 = ponderal, tor; 0 = ponderal, 1 = supraponderal; 0 = nu sfor1 = supraponderal; 0 = nu sforaaie, 1 = sforie, 1 = sforaaie.ie.