40
11 11 - - 1 1 Analiza e regresionit të thjeshtë linear

Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

  • Upload
    others

  • View
    33

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--11

Analiza e regresionit të thjeshtëlinear

Page 2: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--22

Kapitulli 11

Analiza e regresionittë thjeshtë linear

Page 3: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--33

Regresioni i thjeshtë linear

11.1 Modeli i regresionit të thjeshtë linear11.2 Vlerësimet pikësore të katrorëve më të vegjël11.3 Supozimet e modeleve dhe gabimi standard11.4 Testimi i rëndësisë së pjerrtësisë

dhe y-pikëprerjes11.5 Intervalet e besueshmërisë dhe intervalet e

parashikimit11.6 Koeficienti i përcaktueshmërisë dhe

korrelacionit11.7 Testimi i rëndësisë së koeficientit të

korelacionit të popullimit

Page 4: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--44

11.1 Modeli i regresionit të thjeshtë linear

• Variabla e varur, (ose reaguese)është variabël me interes të cilën dëshirojmëta kuptojmë ose parashikojmë.

• Variabla e pavarur, (ose parashikuese)është variabla të cilën do ta shfrytëzojmëpër ta kuptuar ose parashikuar variablën e varur.

• Analiza e regresionit është një teknikë statistikoree cila shfrytëzon të dhëna të observuarapër të vënë në relacion variablën e varurme një ose më tepër variabla të pavarura.

Page 5: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--55

Modeli i regresionit të thjeshtë linear. (Vazhdim)

• Objektiva e analizës së regresionit ështëndërtimi i një modeli regresioni(ose ekuacioni parashikues) i cilimund të shfrytëzohet për të përshkruar, parashikuar ose kontrolluar variablën e varur mbështetur në variablën e pavarur.

• Modeli i regresioni të thjeshtë linear supozonse relacioni ndërmjet variablës së varur ydhe variablës së pavarur x mund të përafrohetme anë të një drejtëze.– Më saktësisht, relacioni ndërmjet vlerës mesatare μy|x

të variablës së varur y dhe variablës së pavarur xështë linear.

Page 6: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--66

Forma e modelit të regresionit të thjeshtëlinear

εxββ=εμy= y|x +++ 10

μy|x = β0 + β1x është vlera mesatare e variablës së varur ykur vlera e variablës së pavarur është x.

β0 është y-pikëprerja, mesatarja e y kur x është 0.β1 është pjerrtësia, mesatarja e ndryshimit të y për njësi ndryshimi të x.ε është term gabimi që përshkruan efektin në y

të të gjithë faktorëve të tjerë përveç x.

Temperatura Kosnumimesatare javorpër orë i karburantit

Java x (ºF) y (MMcf)1 28.0 12.42 28.0 11.73 32.5 12.44 39.0 10.85 45.9 9.46 57.8 9.57 58.1 8.08 62.5 7.5

Page 7: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--77

Termat e regresionit

• β0 dhe β1 quhen parametrat e regresionit• β0 është y-pikëprerja dhe β1 është pjerrtësia• Nuk janë të njohura vlerat e sakta të tyre• Prandaj, duhet përdorur të dhëna mostre

për ta përafruar vlerën e tyre(në pikën e ardhshme)

Page 8: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--88

Ilustrimi i modelit të regresionit të thjeshtëlinear

Page 9: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--99

11.2 Vlerësimet pikësore të katrorëvemë të vegjël

( )( )

( )∑ ∑∑

∑ ∑∑∑

−=−=

−=−−==

nx

xxxSS

nyx

yxyyxxSSSSSS

b

iiixx

iiiiiixy

xx

xy

222

1

)(

))((

xbby 10 +=ˆ

nx

xn

yyxbyb ii ∑∑ ==−= 10

Ekuacioni parashikues:

Vlerësimi i katrorëve më të vegjël për pjerrtësinë β1:

Vlerësimi i katrorëve më të vegjël për y-pikëprerjen β0 :

Page 10: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1010

Shembull 11.3: Konsumi i karburantitFutja vizuele e një drejtëze në të dhënat mbi konsumin e karburantit

Page 11: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1111

Shembull 11.3: Konsumi i karburantit. (Vazhdim)Shfrytëzimi i drejtëzës së futur në mënyrë vizuele për të parashikuar kur x = 28

Page 12: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1212

Shembull 11.4: Konsumi i karburantit

y x x2 xy12.4 28.0 784.00 347.2011.7 28.0 784.00 327.6012.4 32.5 1056.25 403.0010.8 39.0 1521.00 421.209.4 45.9 2106.81 431.469.5 57.8 3340.84 549.108.0 58.1 3375.61 464.807.5 62.5 3906.25 468.75

81.7 351.8 16874.76 3413.11

Page 13: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1313

Shembull 11.4: Konsumi i karburantit. (Vazhdim)

• Nga slajdi i fundit– Σyi = 81.7– Σxi = 351.8– Σx2

i = 16,874.76– Σxiyi = 3,413.11

• Pasi të kemi llogaritur një herë këto vlera,nuk kemi më tutje nevojë për të dhënate papërpunuara

• Llogaritjet e b0 dhe b1 shfrytëzojnëkëto totale

Page 14: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1414

Shembull 11.4: Konsumi i karburantit. (Vazhdim)

• Pjerrtësia b1

( )( )

( )

1279.0355.14046475.179

355.14048

)8.351(76.16874

6475.1798

)7.81)(8.351(11.3413

1

2

22

−=−

==

=−=

−=

−=−=

−=

∑ ∑

∑ ∑∑

xx

xy

iixx

iiiixy

SSSS

b

nx

xSS

nyx

yxSS

Page 15: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1515

Shembull 11.4: Konsumi i karburantit. (Vazhdim)

• y-pikëprerja b0

84.15)98.43)(1279.0(2125.10

98.438

8.351

2125.108

7.81

10

=−−=

−=

===

===

xbyb

nx

x

ny

y

i

i

Page 16: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1616

Shembull 11.4: Konsumi i karburantit. (Vazhdim)

• Parashikimi (x = 40)

karburant MMcf7210)40(127908415

ˆ 10

...

xbby

=−=

+=

Page 17: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1717

Shembull 11.4: Konsumi i karburantit. (Vazhdim)

Page 18: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1818

Shembujt e konsumit të karburantit

( )( )

( )

0.1279−=−

==

=−=−=

−=−=−=

∑ ∑∑ ∑∑

355.14046475.179

355.14048

)8.351(76.16874

6475.1798

)7.81)(8.351(11.3413

1

222

xx

xy

iixx

iiiixy

SSSS

b

nx

xSS

nyx

yxSS

15.84=−−=

−=

===

===

)98.43)(1279.0(2125.10

98.438

8.351

2125.108

7.81

10 xbyb

nx

x

ny

y

i

i

Pjerrtësia b1 y-pikëprerja b0

y x x2 xy12.4 28.0 784.00 347.2011.7 28.0 784.00 327.6012.4 32.5 1056.25 403.0010.8 39.0 1521.00 421.209.4 45.9 2106.81 431.469.5 57.8 3340.84 549.108.0 58.1 3375.61 464.807.5 62.5 3906.25 468.75

81.7 351.8 16874.76 3413.11

karburanti MMcf721040127908415ˆ 10 .)(.-. xbby ==+=Parashikimi (x = 40)

Page 19: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--1919

11.3 Supozimet e modelit të regresionit

Supozimet mbi termat e gabimit të modelit, ε-ët

1. Mesatarja zero: Për çdo vlerë të dhënë x,popullimi i vlerave potenciale të termave të gabimitka mesataren 0.

2. Varianca konstante: Për çdo vlerë të dhënë x,popullimi i vlerave potenciale të termave të gabimit ka variancë e cila nuk varet nga vlera e x.

3. Normaliteti: Për çdo vlerë të dhënë x,popullimi i vlerave potenciale të termave të gabimitka shpërndarje normale.

4. Pavarësia: Vlerat e termave të gabimit janë statistikishttë pavarur nga njëri tjetri.

εxββ=εμy= y|x +++ 10Modeli

Page 20: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2020

Supozimet e modelit të regresionit të ilustruara

Page 21: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2121

Shuma e katrorëve të gabimeve

∑ ∑ −== 22 )ˆ( iii yyeSSE

Page 22: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2222

Katrori mesatar i gabimit

• Është vlerësim pikësor i variancëssë gabimit (së mbetjeve)

• SSE është nga slajdi paraprak

22

−==

nSSEMSEs

Page 23: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2323

Gabimi standard

• Është vlerësim pikësor i devijimit standard të gabimit (të mbetjeve)

• MSE është nga slajdi paraprak

2−==

nSSEMSEs

Page 24: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2424

Katrori mesatar i gabimit dhegabimi standard

22

−==

nSSEMSEs

2−==

nSSEMSEs

y x parash y - parash (y - parash)212.4 28.0 12.2588 0.1412 0.01993711.7 28.0 12.2588 -0.5588 0.31225712.4 32.5 11.6833 0.7168 0.51373110.8 39.0 10.8519 -0.0519 0.0026949.4 45.9 9.9694 -0.5694 0.3242059.5 57.8 8.4474 1.0526 1.1080098.0 58.1 8.4090 -0.4090 0.1672897.5 62.5 7.8463 -0.3462 0.119889

SSE 2.568011

Shembull 11.6 Rasti i konsumit të karburantit

0.428==

==

6568.2

22

n-SSEMSEs

0.6542=== 428.02ss

∑ ∑ −== 22 )ˆ( iii yyeSSE

Page 25: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2525

11.4 Testi i rëndësisë dhe vlerësimipër pjerrtësinë

• Një model regresioni nuk ka të ngjarëtë jetë i dobishëm përveç në qoftë se ekziston relacion i rëndësishëmndërmjet x dhe y

• Për të testuar rëndësinë, shfrytëzojmëzero hipotezën:H0: β1 = 0

• Kundrejt hipotezës alternative:Ha: β1 ≠ 0

Page 26: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2626

11.4 Testi i rëndësisë dhe vlerësimipër pjerrtësinë

xxb

b SSss

sbt= =

1

1

ku 1

Statistika e testit

0:0:0:

1

1

1

≠<>

ββ

Në qoftë se vlejnë supozimet e regresionit, mund hedhim poshtëH0: β1 = 0 me nivel rëndësie α atëherë dhe vetëm atëherë kurvlen rregulla e hedhjes poshtë përkatëse ose, ekuivalente me të,në qoftë se p-vlera përkatëse është më e vogël se α.

β

a

a

a

HHH

2/2/

2/

oristhat,

αα

α

α

α

tttttttt

tt

−<>

>

−<>

tα, tα/2 dhe p-vlerat mbështetën në n – 2 shkallë lirie.

Alternative Hedh poshtë H0 nëse: p-vlera

100(1-α)% intervali i besueshmërisë për β1

][12/1 bstb α±

Bishti i djathtë nën t-shpërndarjen i dhënë me t

Bishti i majtë nën t-shpërndarjen i dhënë me t

Bishti i dyfishtë nën t-shpërndarjen i dhënë me |t|

Page 27: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2727

11.4 Testi i rëndësisë dhe vlerësimipër y-pikëprerjen

xxb

b SSx

nss

sbt=

20 1ku

0

0

+=

Statistika e testit

0:0:0:

0

0

0

≠<>

ββ

Në qoftë se vlejnë supozimet e regresionit, mund hedhim poshtëH0: β0 = 0 me nivel rëndësie α atëherë dhe vetëm atëherë kurvlen rregulla e hedhjes poshtë përkatëse ose, ekuivalente me të,në qoftë se p-vlera përkatëse është më e vogël se α.

β

a

a

a

HHH

2/2/

2/

oristhat,

αα

α

α

α

tttttttt

tt

−<>

>

−<>

tα, tα/2 dhe p-vlerat mbështetën në n – 2 shkallë lirie.

Alternative Hedh poshtë H0 nëse: p-vlera

100(1-α)% intervali i besueshmërisë për β0

][02/0 bstb α±

Bishti i djathtë nën t-shpërndarjen i dhënë me t

Bishti i majtë nën t-shpërndarjen i dhënë me t

Bishti i dyfishtë nën t-shpërndarjen i dhënë me |t|

Page 28: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2828

11.5 Intervalet e besueshmërisëdhe të parashikimit

• Pika në drejtëzën e regresionit e cila i korrespondonnjë vlere të veçantë x0 të variablës së pavarur x është

• Nuk ka të ngjarë që kjo vlerë të jetë e barabartëme vlerën mesatare të y kur x = x0

• Prandaj na duhen kufij mbi distancëne vlerës së parashikuar nga vlera aktuale

• Llogarisim një interval besueshmëriepër vlerën mesatare të y dhenjë interval parashikimi për një vlerë individuale të y

010ˆ xbby +=

Page 29: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--2929

Vlera e distancës

• Që të dytë: intervali i besueshmërisë për vlerën mesatare të y dhe intervali i parashikimitpër një vlerë individuale të ykanë të bëjnë me vlerën e distancës

• Vlera e distancës për një vlerë të caktuar të x0 tëx është

• Vlera e distancës është masë për distancën ndërmjet vlërës x0 të x dhe

• Sa më e madhe të jetë distanca e x0 nga x, aq mëe madhe është vlera e distancës

xxSSxx

n

20 )(1 −

+

Page 30: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3030

Intervali i besueshmërisëpër vlerën mesatare të y

• Supozojmë se vlejnë supozimet e regresionit• Formula për 100(1 – α)% intervalin

e besueshmërisë për vlerën mesatare të yështë

• Mbështetet në n – 2 shkallë lirie

]distancës e Vleraˆ[ 2sty α/±

Page 31: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3131

Intervali i besueshmërisëpër një vlerë individuale të y

• Supozojmë se vlejnë supozimet e regresionit• Formula për 100(1 – α)% intervalin

e besueshmërisë për vlerën mesatare të yështë

• Mbështetet në n – 2 shkallë lirie

]distancës e Vlera1ˆ[ 2 +± sty α/

Page 32: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3232

Cili të përdoret?

• Intervali i parashikimit është i dobishëm në qoftë se është me rëndësi të prashikohet një vlerë individuale e variablës së varur.

• Intervali i besueshmërisë është i dobishëm në qoftë se është me rëndësi të vlerësohet mesatarja.

• Intervali i parashikimit është gjithmonë mëi gjerë sesa intervali i besueshmërisë.

Page 33: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3333

Shembuj 11.10-11: Rasti i konsumit të karburantit

Page 34: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3434

11.6 Koeficienti i thjeshtë i përcaktueshmërisëdhe korrelacionit

• Sa i dobishëm është një model i caktuar regresioni?

• Një masë dobishmërie është koeficientii thjeshtë i përcaktueshmërisë

• Shënohet me simbolin r2

Page 35: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3535

Llogaritja e koeficientit të thjeshtëtë përcaktueshmërisë

1. Variacioni total:

2. Variacioni i shpjeguar:

3. Variacioni i pashpjeguar:

4. Variacioni total:

5. Koeficienti i thjeshtë i përcaktueshmërisë

∑ − 2ˆ )yy( i

2)y(yi −∑

∑ − 2ˆ )y(y ii

rpashpjegua i Variacioni shpjeguar i Variacioni totalVariacioni +=

totalVariacionishpjeguar i Variacioni2 =r

Page 36: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3636

Koeficienti i thjeshtë i korrelacionit

• Koeficienti i thjeshtë i korrelacionit mat fuqinë e relacionit linear ndërmjet y dhe x,dhe shënohet me r

negativ është se qoftë në

dhe pozitiv, është se qoftë në

12

12

brr=

brr=

+

Page 37: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3737

Vlera të ndryshme të koeficientit të korrelacionit

Page 38: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3838

Testimi i rëndësisë së koeficientit të korrelacionit të popullimit

• Koeficienti i thjeshtë i korrelacionit (r) mat relacionin linear ndërmjet vleravetë observuara të x dhe vleravetë observuara të y nga mostra

• Koeficienti i korrelacionit të popullimit (ρ) mat relacionin linear ndërmjet të gjitha kombinimeve të mundura të vleravetë observuara të x dhe y

• r është përafrim i ρ

Page 39: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--3939

Testimi i ρ

• Testimi se a është korrelacioni i rëndësishëmH0: ρ = 0Ha: ρ ≠ 0

• Statistika e testit

• Rezultat të njëjtë sikur testi për β1

212

rnrt−

−⋅=

Page 40: Analiza e regresionit të thjeshtë linear · • Analiza e regresionit është një teknikë statistikore e cila shfrytëzon të dhëna të observuara për të vënë në relacion

1111--4040

Regresioni i thjeshtë linearPërfundim:

11.1 Modeli i regresionit të thjeshtë linear11.2 Vlerësimet pikësore të katrorëve më të vegjël11.3 Supozimet e modeleve dhe gabimi standard11.4 Testimi i rëndësisë së pjerrtësisë

dhe y-pikëprerjes11.5 Intervalet e besueshmërisë dhe intervalet e

parashikimit11.6 Koeficienti i përcaktueshmërisë dhe

korrelacionit11.7 Testimi i rëndësisë së koeficientit të

korelacionit të popullimit