34
Sveučilište u Rijeci Fakultet za menadžment u turizmu i ugostiteljstvu Sveučilišni preddiplomski studij “Poslovna ekonomija u turizmu i hotelijerstvu” Temeljni predmet S T A T I S T I K A PREDAVANJE 8: KORELACIJSKA I REGRESIJSKA ANALIZA

PREDAVANJE 8: KORELACIJSKA I REGRESIJSKA ANALIZA...PREDAVANJE 8: KORELACIJSKA I REGRESIJSKA ANALIZA. Ciljevi predavanja • Objasniti razliku između funkcionalnih i statističkih

  • Upload
    others

  • View
    26

  • Download
    2

Embed Size (px)

Citation preview

Sveučilište u RijeciFakultet za menadžment u turizmu i ugostiteljstvu

Sveučilišni preddiplomski studij“Poslovna ekonomija u turizmu i hotelijerstvu”

Temeljni predmet S T A T I S T I K A

PREDAVANJE 8:

KORELACIJSKA I REGRESIJSKA ANALIZA

Ciljevi predavanja

• Objasniti razliku između funkcionalnih i statističkih veza među pojavama

• Definirati pojam regresijske analize• Objasniti postupak izračunavanja modela jednostavne linearne

regresije (izračunavanje pravaca regresije)• Definirati pojam korelacijske analize• Definirati pojam dijagrama rasipanja• Definirati pojam koeficijenta linearne korelacije (naglasak na

Pearsonovom koeficijentu)• Definirati pojam koeficijenta korelacije ranga (naglasak na

Spearmanovom koeficijentu)• Objasniti postupak izračunavanja spomenutih koeficijenata• Objasniti značenje izračunatih parametara.

Uvod

• Mnoge pojave u poslovanju, gospodarstvu i drugim područjima djelatnosti su međusobno povezane i uvjetovane. Npr. povećanje opsega proizvodnje povećava ukupne troškove; osobna potrošnja stanovništva ovisi o raspoloživom dohotku; težina osoba ovisi o njihovoj visini, spolu;... Stoga je važno poznavati njihovu uzročno-posljedičnu vezu.

• Primjena: ispitivanje međusobnih odnosa pojava važno je u gospodarskoj analizi, poslovnom odlučivanju i sl.

• Cilj istraživanja odnosa među pojavama je utvrditi statističku ovisnost i pokazatelje jakosti takve ovisnosti. U tu svrhu se koriste metode regresijske i korelacijske analize (regresija = statistički odnos među pojavama; korelacija = uzajamna ovisnost).

Funkcionalne i statističke veze

• Odnosi (veze) među pojavama mogu biti funkcionalni i statistički (stohastički).

• Funkcionalni odnosi (veze) su postojani, izražavaju zakonitosti koje se iskazuju analitički (formulom, jednadžbom). Svakoj vrijednosti jedne pojave odgovara točno određena vrijednost druge pojave. Primjer: površina kvadrata ovisi o njegovoj stranici. Odnos je funkcionalan, jer se izražava jednadžbom (P=a2).

• Statistički ili stohastički odnosi (veze) su slabiji od funkcionalnih. Svakoj vrijednosti jedne pojave odgovara više različitih vrijednosti druge pojave. Takva odstupanja su u praksi češća. Primjer: zaposlenici iste stručne spreme imaju različite (a ne iste) plaće; kućanstva s istim dohotkom imaju različitu (ane istu) razinu potrošnje; sve osobe iste visine nemaju jednaku težinu;...

Regresijska analiza

• Regresijska analiza se sastoji u primjeni metoda kojima se analitički (jednadžbom) objašnjava statistička veza između promatranih pojava.

• U okviru regresijske analize istražuje se uzročno-posljedični karakter veze. Jedna varijabla je uzrok (nezavisna varijabla), a druga je posljedica (zavisna varijabla).

• Regresijska analiza se temelji na regresijskom modelu. To je jednadžba s parametrima i varijablama, kojima se objašnjava povezanost promatranih pojava, te se predviđaju vrijednosti zavisne varijable za određene vrijednosti nezavisne varijable.

• Uz zavisnu varijablu može biti samo jedna nezavisna varijabla (jednostavni regresijski model) ili veći broj nezavisnih varijabli (model multiple ili višestruke regresije).

Model jednostavne linearne regresije

• Modelom jednostavne linearne regresije analitički se izražava odnos između dviju pojava (zavisna i nezavisna varijabla).Karakteristika ovog modela je, da promjenu jedne pojave prati približno jednaka linearna promjena druge pojave.

• Analiza jednostavne linearne regresije sastoji se u utvrđivanju jednadžbe regresijskog pravca i pripadajućih mu parametara (određuju se dva pravca, jedan za zavisnu, drugi za nezavisnu varijablu).

• Jednadžba prvog pravca regresije:

xbaYc ⋅+=

Model jednostavne linearne regresije

• Izračunavanje parametara:

∑∑∑ ∑

−=

XXXYXXY

b2

XbYa ⋅−=

NY

Y i∑=NX

X i∑=

Model jednostavne linearne regresije

• Jednadžba drugog pravca regresije:

• Izračunavanje parametara:

ybaXc ⋅+= ''

∑ ∑∑ ∑

−=

YYYXYXY

b2

'

YbXa '' −=

Model jednostavne linearne regresije

• Značenje koeficijenta a (a’):Parametar a u regresijskoj jednadžbi predstavlja konstantni član.

To je regresijska (očekivana) vrijednost zavisne varijable Y kada je nezavisna varijabla X jednaka nuli. Obično nema posebno značenje te se često ne može smisleno interpretirati.

Primjer 1: utvrđivanjem odnosa između ostvarenog prometa (varijabla X) i dobiti (varijabla Y), parametar a iznosi -1,55 mil. kn. Interpretacija izračunatog parametra: očekuje se gubitak od 1,55 mil. kn ako poduzeće ne radi (ne ostvari promet).

Primjer 2: u modelu gdje je “ostvareni promet” zavisna, a “broj zaposlenih” nezavisna varijabla, parametar a iznosi 11.300 kn. Interpretacija izračunatog parametra: očekuje se ostvarenje prometa od 11.300 kn, ako broj zaposlenih iznosi nula (ovdje se vidi da parametar a nema uvijek logično značenje).

Model jednostavne linearne regresije

• Značenje koeficijenta b (b’):Parametar b zove se regresijski koeficijent. To je najvažniji

pokazatelj u regresijskoj analizi. Pokazuje prosječnu linearnu promjenu zavisne varijable Y ako se nezavisna varijabla X promijeni za jedinicu mjere.

Primjer 1: utvrđivanjem odnosa između ostvarenog prometa (varijabla X) i dobiti (varijabla Y), parametar b iznosi 0,13 mil. kn. Interpretacija izračunatog parametra: ako promet poraste za 1 mil. kn, dobit će u prosjeku porasti za 0,13 mil. kn.

Primjer 2: u modelu gdje je “ostvareni promet” zavisna, a “broj zaposlenih” nezavisna varijabla, parametar b iznosi 5.660kn. Interpretacija izračunatog parametra: u slučaju povećanja broja zaposlenih za jedan, očekuje se povećanje prometa u prosjeku za 5.660kn.

Model jednostavne linearne regresije

PRIMJER 1.

Na prvom i drugom kolokviju iz kolegija «Statistika» šest studenata dobilo je bodove prikazane u tablici.

Odredite prvi i drugi pravac regresije.

I. kolokvij 88 62 55 96 78 49II. kolokvij 47 63 70 80 70 40

Model jednostavne linearne regresije

PRIMJER 1. - Rješenje:

I. kolokvijX

II. KolokvijY XY X2 Y2

88 47 4 136 7 744 2 20962 63 3 906 3 844 3 96955 70 3 850 3 025 4 90096 80 7 680 9 216 6 40078 70 5 460 6 084 4 90049 40 1 960 2 401 1 600

∑ 428 370 26 992 32 314 23 978

Model jednostavne linearne regresije

• Izračunavanje jednadžbe prvog pravca regresije:

bxaYc +=

34,076,784.1

90,59942833,71314.3237033,71992.26

2 ==⋅−⋅−

=−−⋅

=∑ ∑∑ ∑

xxxyxyx

b

33,716

428===∑

Nx

x 67,616

370===∑

Ny

y

Model jednostavne linearne regresije

(nastavak)

42,3733,7134,067,61 =⋅−=⋅−= xbya

xYc ⋅+= 34,042,37

Model jednostavne linearne regresije

• Izračunavanje jednadžbe drugog pravca regresije:

ybaXc ,, +=

51,010,160.124,597

37067,61978.2342867,61992.26

2, ==

⋅−⋅−

=−

−⋅=∑ ∑∑ ∑

yyyxyyx

b

88,3967,6151,033,71,, =⋅−=⋅−= ybxa

yXc ⋅+= 51,088,39

Korelacijska analiza

• Korelacijska analiza sastoji se u primjeni metoda kojima se utvrđuje stupanj (jakosti i smjer) povezanosti između promatranih pojava.

• Prema smjeru veze razlikujemo pozitivnu i negativnu korelaciju.• Pozitivna korelacija: porast jedne pojave prati porast druge

pojave, tj. pad jedne pojave prati pad druge pojave (npr. opseg proizvodnje i ukupni troškovi; dohodak po stanovniku i standard stanovništva).

• Negativna korelacija: porast jedne pojave prati pad druge pojave, tj. pad jedne pojave prati porast druge pojave (npr. standard stanovništva i mortalitet).

• Korelacijska analiza uključuje grafički prikaz (dijagram rasipanja) i utvrđivanje brojčanog pokazatelja jakosti i smjera veze između varijabli (koeficijent korelacije)

Korelacijska analiza – dijagram rasipanja

• Dijagram rasipanja ili oblak raspršenosti je grafički prikaz pomoću kojeg se uočava priroda odnosa između promatranih pojava. Sastoji se od točaka, koje su određene parovima vrijednosti varijabli X i Y.

• Iz rasporeda točaka u dijagramu rasipanja zaključuje se o obliku, smjeru i jakosti veze.

• Što su točke bliže zamišljenom pravcu, veza je jača, odnosno, što su točke udaljenije (raspršenije) od zamišljenog pravca, veza je slabija. Ako točke čine pravac, veza je funkcionalna ili potpuna. Veza je pozitivna, ako oblak točaka ima smjer od lijevog donjeg prema desnom gornjem kutu grafikona, tj. veza je negativna ako oblak točaka ima smjer od lijevog gornjeg prema desnom donjem kutu grafikona. Ako se iz rasporeda točaka ne može definirati ni jedna spomenuta vrsta veze, veze između pojava nema.

Korelacijska analiza – dijagram rasipanja

• Slika 1: Jaka i pozitivna veza

X

Y

Korelacijska analiza – dijagram rasipanja

• Slika 2: Slaba veza

X

Y

Korelacijska analiza – dijagram rasipanja

• Slika 3: Funkcionalna ili potpuna i negativna veza

X

Y

Korelacijska analiza – dijagram rasipanja

• Slika 4: Odsustvo veze (veze nema)

X

Y

Korelacijska analiza – koeficijent korelacije

• Koeficijent korelacije je brojčani pokazatelj stupnja statističke povezanosti među pojavama.

• Koeficijent korelacije može poprimiti vrijednosti iz intervala od -1 do +1. Predznak pokazuje smjer (pozitivna ili negativna veza), a veličina koeficijenta pokazuje jakost veze (jaka, slaba, srednja, potpuna):

Potpuna Odsustvo Potpunanegativna veze pozitivna

veza vezajaka srednje jaka slaba slaba srednje jaka jaka

negativna negativna negativna pozitivna pozitivna pozitivnaveza veza veza veza veza veza

-1 -0,6 -0,3 0 0,3 0,6 1

Korelacijska analiza – koeficijent korelacije

• Vrste koeficijenata korelacije:- koeficijent linearne korelacije,- koeficijent multiple ili višestruke linearne

korelacije,- koeficijent krivolinijske korelacije,- koeficijent korelacije ranga.

Koeficijent linearne korelacije

• Koeficijent linearne korelacije (Pearsonov koeficijent linearne korelacije) je brojčana mjera kojom se mjeri jakost i smjer povezanosti dviju pojava koje su u linearnom statističkom odnosu. Oznaka: r.

• Formule:

(1)

ili

(2)

∑ ∑∑

−⋅−

−⋅−=

22 )()(

)()(

YYXX

YYXXr

ii

ii

'bbr ⋅=

Koeficijent linearne korelacije

PRIMJER 2.

Na prvom i drugom kolokviju iz kolegija “Statistika” šest studenata dobilo je bodove prikazane u tablici.

Izračunajte koeficijent linearne korelacije, te objasnite njegovo značenje.

I. kolokvij 88 62 55 96 78 49

II. kolokvij 47 63 70 80 70 40

Koeficijent linearne korelacije

RJEŠENJE:

U Primjeru 1 su izračunati parametri b i b’, te će se traženi koeficijent izračunati pomoću formule (2).

Zaključak:Vrijednost koeficijenta linearne korelacije (r=0,42) pokazuje, da je veza između bodova ostvarenih na prvom i drugom kolokviju srednje jaka i pozitivna.

42,051,034,0, =⋅=⋅= bbr

Koeficijent korelacije ranga

• Stupanj povezanosti između pojava koje su izražene modalitetima redoslijednog obilježja (npr. ocjena, broj bodova,...) mjeri se koeficijentom korelacije ranga.

• Razlikujemo dvije vrste koeficijenta korelacije ranga:1. Spearmanov koeficijent korelacije ranga2. Kendallov koeficijent korelacije ranga

• Postupak pridruživanja rangova: elementu s najmanjim stupnjem svojstva pridružuje se rang jedan, sljedećemu rang dva, a posljednjemu rang N, koji ujedno označava najveći stupanj promatranog svojstva. Kod jednakih vrijednosti dodjeljuje se prosječni rang.

Koeficijent korelacije ranga

• Spearmanov koeficijent korelacije ranga izračunava se kod ispitivanja korelacije dviju varijabli ranga.

• Oznaka: rs• Formula:

nn

dr

n

ii

s −

⋅−=

∑=

31

261

yxi rrd −=

Koeficijent korelacije ranga

PRIMJER 3.

Na prvom i drugom kolokviju iz kolegija “Statistika” šest studenata dobilo je bodove prikazane u tablici.

Izračunajte Spearmanov koeficijent korelacije ranga i objasnite njegovo značenje.Nacrtajte dijagram rasipanja.

I. kolokvij 88 62 55 96 78 49

II. kolokvij 47 63 70 80 70 40

Koeficijent korelacije ranga

RJEŠENJE:

I. kolokvij

X

II. Kolokvij

Yrx ry di di

2

88 47 5 2 3 962 63 3 3 0 055 70 2 4,5 -2,5 6,2596 80 6 6 0 078 70 4 4,5 -0,5 0,2549 40 1 1 0 0- - - - - ∑ 15,50

Koeficijent korelacije ranga

Postupak određivanja rangova:

• Stupac rx: najmanji broj ostvarenih bodova na 1. kolokviju (stupac X) je 49 rang 1; sljedeći veći broj bodova je 55rang 2, ..., najveći broj bodova na 1. kolokviju je 96 rang 6.

• Stupac ry: najmanji broj ostvarenih bodova na 2. kolokviju (stupac Y) je 40 rang 1,... Dva studenta ostvarila su jednak broj bodova (70), kojima po veličini pripadaju rangovi 4 i 5. Kako se radi o jednakim vrijednostima, potrebno je izračunati prosječni rang:

Svakom bodu 70 dodjeli se rang 4,5.

5,42

54)70( =+

=r

Koeficijent korelacije ranga

Izračunavanje rs:

Zaključak:Na temelju dobivene vrijednosti koeficijenta korelacije ranga može se zaključiti da postoji srednje jaka i pozitivna veza između bodova ostvarenih na prvom i drugom kolokviju.

56,044,01210931

621650,1561

61 3

2

=−=−=−

⋅−=

⋅−= ∑

nnd

r is

Koeficijent korelacije ranga

Dijagram rasipanja

0102030405060708090

0 20 40 60 80 100 120

X

Y

Literatura

Šošić, I., Serdar, V., Uvod u statistiku, Školska knjiga, Zagreb, 2000., str. 79-133.Šošić, I., Statistika – udžbenik za srednje škole sa zbirkom zadataka, Školska knjiga, Zagreb, 2006., str. 196-228.Papić, M., Primijenjena statistika u MS Excelu, Zoro, Zagreb, 2005., str. 133-154.Gogala, Z., Osnove statistike, Sinergija, Zagreb, 2001., str. 131-154.Rozga, A., i Grčić, B., Poslovna statistika, Veleučilište u Splitu, Split, 2000., str. 121-136.