Klaster analiza i njena primjena u bankarstvumdjumic/uploads/diplomski/KIš04.pdf · Klaster analizom je mogu ce posti ci bilo koji od sljede ca tri cilja ili njihovu kombinaciju:

Sveučilǐste J. J. Strossmayera u OsijekuOdjel za matematiku

Diplomski studij financijske i poslovne matematike

Željka Kǐs

Klaster analiza i njena primjenau bankarstvu

Diplomski rad

Osijek, 2012.

Sveučilǐste J. J. Strossmayera u OsijekuOdjel za matematiku

Diplomski studij financijske i poslovne matematike

Željka Kǐs

Klaster analiza i njena primjenau bankarstvu

Diplomski rad

Mentor: prof. dr. sc. Nataša ŠarlijaKomentor: prof. dr. sc. Mirta Benšić

Osijek, 2012.

Sažetak: U radu je promotren problem grupiranja podataka u relativno homogene

grupe. Tehnika koja se najčešće koristi za ovu namjenu je klaster analiza. Klaster ana-

liza je opisana s teorijskog i praktičnog aspekta. Dani su koraci za provodenje klaster

analize u praksi i provedeno je empirijsko istraživanje. Analiza je provedena na stvarnim

podacima jedne hrvatske banke za segmentaciju klijenata. Dva konačna rješenja su

opisana i interpretirana.

Ključne riječi: klaster analiza, k-means algoritam, Wardova metoda, kriterij najma-

njih kvadrata.

Abstract: Problem of grouping data into relatively homogenous groups is presented.

Cluster analysis is the most used technique for this purpose. Cluster analysis is de-

scribed from theoretical and practical aspect. Steps for analysis in practice are given

and empirical research is done. Analysis is performed on real data set from one of the

Croatian banks for client segmentation. Two final solutions are described and inter-

preted.

Key words: cluster analysis, k-means algorithm, Ward’s method, Least squares cri-

teria.

Sadržaj

1 UVOD 1

2 POJAM KLASTER ANALIZE 2

2.1 Nedostaci klaster analize . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3 KORACI PRI PROVODENJU KLASTER ANALIZE 4

3.1 Postavljanje ciljeva klaster analize . . . . . . . . . . . . . . . . . . . . . 4

3.1.1 Cilj istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.1.2 Odabir varijabli za klasteriranje . . . . . . . . . . . . . . . . . . 5

3.2 Dizajniranje istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.2.1 Veličina i reprezentativnost uzorka . . . . . . . . . . . . . . . . 6

3.2.2 Otkrivanje stršećih vrijednosti (outliera) . . . . . . . . . . . . . 6

3.2.3 Standardizacija podataka . . . . . . . . . . . . . . . . . . . . . . 7

3.2.4 Odabir mjere sličnosti objekata . . . . . . . . . . . . . . . . . . 8

3.3 Kreiranje klastera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.4 Interpretacija klastera . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.5 Validacija i profiliranje klastera . . . . . . . . . . . . . . . . . . . . . . 10

3.5.1 Cross-validacija . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.5.2 Profiliranje klastera . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 METODE KLASTERIRANJA 12

4.1 Hijerarhijske metode klasteriranja . . . . . . . . . . . . . . . . . . . . . 12

4.1.1 Metode povezivanja . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.1.2 Centroidna metoda . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.1.3 Wardova metoda . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.1.4 Prednosti i nedostaci hijerarhijskog klasteriranja . . . . . . . . . 19

4.2 Nehijerarhijske metode klasteriranja . . . . . . . . . . . . . . . . . . . . 20

4.2.1 Prednosti i nedostaci nehijerarhijskog klasteriranja . . . . . . . 21

4.3 Odluka o broju klastera . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5 MATEMATIČKO ZNAČENJE KLASTER

ANALIZE 23

5.1 Grupiranje objekata s jednim obilježjem . . . . . . . . . . . . . . . . . 24

5.2 Grupiranje objekata s dva obilježja . . . . . . . . . . . . . . . . . . . . 28

5.3 k-means algoritam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.4 Odabir optimalnog broja klastera . . . . . . . . . . . . . . . . . . . . . 32

6 EMPIRIJSKI DIO: Segmentacija klijenata banke klaster analizom 34

6.1 Prethodna istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

6.2 Opis uzorka i varijabli za modeliranje . . . . . . . . . . . . . . . . . . . 36

6.3 Provodenje klaster analize po koracima . . . . . . . . . . . . . . . . . . 38

6.3.1 Postavljanje ciljeva i odabir varijabli za klasteriranje . . . . . . 38

6.3.2 Dizajniranje istraživanja . . . . . . . . . . . . . . . . . . . . . . 38

6.3.3 Kreiranje klastera: Rješenje 1 . . . . . . . . . . . . . . . . . . . 39

6.3.4 Interpretacija i profiliranje klastera iz Rješenja 1 . . . . . . . . . 41

6.3.5 Validacija klastera iz Rješenja 1 . . . . . . . . . . . . . . . . . . 48

6.3.6 Kreiranje klastera: Rješenje 2 . . . . . . . . . . . . . . . . . . . 49

6.3.7 Interpretacija i profiliranje klastera iz Rješenja 2 . . . . . . . . . 51

6.3.8 Validacija klastera iz Rješenja 2 . . . . . . . . . . . . . . . . . . 54

6.4 Zaključak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

7 PRIMJENA KLASTER ANALIZE U BANKARSTVU 55

8 ZAKLJUČAK 56

1

1 UVOD

Klaster analiza (engl. cluster analysis) je jedna od metoda multivarijantne analize.

Multivarijantna analiza se temelji na principima multivarijantne statistike, koja uklju-

čuje promatranje i analizu dviju ili vǐse varijabli istovremeno. Multivarijantna ana-

liza se može provoditi u smislu istraživanja ili potvrdivanja veza medu varijablama.

Istraživačke metode su vrlo korisne za razumijevanje, često vrlo kompleksnih, multi-

varijantnih veza medu varijablama.

Znanstvenici i istraživači se često susreću s problemima koji zahtijevaju podjelu

podataka u grupe, bilo da je riječ o proizvodima, tvrtkama ili ljudima, te njihovim

osobinama i sklonostima. Razlozi za to mogu biti različiti, od činjenice da je lakše

obradivati manje grupe podataka, do potrebe za pronalaskom smislenih grupa unutar

populacije. Najčešće korǐstena tehnika za ovu namjenu je klaster analiza i ona je jedan

od prvih koraka prilikom rudarenja podataka (engl. data mining).

Koristi se u prirodnim i društvenim znanostima, u biologiji za grupiranje svih živih

organizama, u psihologiji za klasifikaciju zasnovanu na osobnosti i drugim osobnim

značajkama, u ekonomiji i poslovanju za segmentacijsku analizu tržǐsta i ciljani mar-

keting (engl. target marketing), sociologiji, te mnogim drugim područjima istraživanja.

Cilj ovog rada je opisati klaster analizu s teorijskog aspekta, te u empirijskom dijelu

prikazati moguću primjenu u kreditnom skoringu.

U drugom poglavlju je opisan pojam klaster analize i njezini nedostaci.

U trećem poglavlju je opisano provodenje klaster analize u pet koraka. Opisani

su ciljevi koji se mogu postići klaster analizom. Objašnjeno je na što treba paziti

prilikom odabira varijabli za klasteriranje, te kako dizajnirati istraživanje i odabrati

mjeru sličnosti. Ukratko su opisane metode klasteriranja i nakon toga interpretacija

klastera, ta kao završni korak, validacija i profiliranje klastera.

U četvrtom poglavlju su detaljno opisane metode klasteriranja. Opisane su najčešće

korǐstene metode hijerarhijskog i nehijerarhijskog klasteriranja, te njihove prednosti i

nedostaci.

Peto poglavlje je posvećeno matematičkoj osnovi klaster analize. Opisano je grupi-

ranje objekata na temelju jednog i dva obilježja, te k-means algoritam.

Šesto poglavlje je posvećeno empirijskom dijelu rada. Klaster analiza je provedena

na stvarnim podacima jedne hrvatske banke za segmentaciju klijenata. Odabrana su

dva konačna rješenja.

U sedmom poglavlju je opisana primjena klaster analize u bankarstvu, te problemi

do kojih može doći prilikom primjene.

2

2 POJAM KLASTER ANALIZE

Pojam klaster analize se prvi puta spominje 1939. godine [1]. Klaster analiza je is-

traživačka metoda, čija je osnovna namjena grupiranje objekata na temelju karakteris-

tika koje posjeduju. Grupe koje pri tome nastaju i koje posjeduju zajedničke osobine,

nazivaju se klasteri (engl. cluster). Cilj klaster analize je pronalaženje optimalnog grupi-

ranja, takvog da je sličnost medu objektima unutar svake grupe maksimalna, a sličnost

izmedu grupa minimalna. Objekti u istom klasteru su sličniji jedni drugima, nego što

su objektima u drugim klasterima.

Klaster analiza se razlikuje od klasifikacije. Kod klasifikacije je unaprijed poznat

broj i struktura grupa, a cilj je rasporediti podatke u odgovarajuće grupe. Nasuprot

tome, klaster analiza ne zahtjeva nikakve pretpostavke o broju i strukturi grupa u koje

će podaci biti rasporedeni, nego se grupiranje vrši na osnovi sličnosti medu podacima.

Ovdje se pojavljuje problem definiranja sličnosti, jer to uključuje veliku dozu subjek-

tivnosti. Različiti odabiri mjere sličnosti, odnosno udaljenosti medu podacima, dovest

će do formiranja različitih grupa.

Klaster analiza je prvenstveno namijenjena grupiranju objekata (osoba, proizvoda,

ponašanja ili bilo kakvih entiteta), ali može se koristiti i za grupiranje varijabli, uz

primjenu odgovarajuće mjere sličnosti. Za grupiranje varijabli je pogodnija faktorska

analiza (vidi [4]). U ovom radu je naglasak stavljen na grupiranje objekata i pojam

”objekt” u daljnjem tekstu označava slučajeve nad kojima se provodi klaster analiza.

Objekti mogu imati jednu ili vǐse karakteristika, predstavljenih varijablama, prema ko-

jima se grupiraju u klastere. Dakle, u matrici podataka se u stupcima nalaze varijable,

a u redovima objekti i klasteriranje se provodi po redovima.

Prilikom provodenja klaster analize, istraživači se susreću sa sljedećim pitanjima:

• Kako mjeriti sličnost izmedu objekata?

• Kako formirati klastere?

• Koliko klastera formirati?

Odgovori na ova pitanja dani su u radu.

Istraživači moraju dobro poznavati problem, kao i teoriju koja stoji iza proma-

tranog problema, kako bi mogli razlikovati ”dobra” grupiranja od ”loših”, te pronaći

prirodan način grupiranja koji je smislen za promatrani problem. Takoder, moraju biti

u mogućnosti objasniti nastanak klastera i protumačiti koje varijable i zašto utječu na

to da pojedini objekt završi u svom klasteru. Konačno rješenje mora biti takvo da je

moguće karakterizirati svaki klaster i dati mu ime ili oznaku koja ga najbolje opisuje.

Klaster analizi treba pristupati s velikim oprezom, jer će ona rezultirati rješenjem i

u slučaju da logička osnova za postojanje klastera ne postoji i to je jedan od njezinih

najvećih nedostataka.

3

2.1 Nedostaci klaster analize

1. Klaster analiza nema čvrstu statističku osnovu, prema kojoj bi se mogli izvesti

jasni statistički zaključci o populaciji na osnovi uzorka. Mnogi je smatraju samo

istraživačkom i opisnom tehnikom. Nǐsta ne garantira jedinstveno rješenje, jer

formiranje klastera ovisi o svim koracima klaster analize i promjena samo jednog

elementa mijenja rješenje.

2. Klaster analiza će uvijek kreirati klastere, bez obzira na stvarno postojanje bilo

kakve strukture podataka. Dakle, treba imati na umu da pronalazak klastera ne

garantira njihovo stvarno postojanje. U obzir se trebaju uzeti jedino rješenja koja

se mogu objasniti.

3. Rješenja klaster analize se ne mogu generalizirati jer u potpunosti ovise o var-

ijablama i podacima koji se koriste pri analizi. Dodavanje varijabli može imati

značajan utjecaj na konačno rješenje.

Dakle, klaster analiza u potpunosti ovisi o odlukama istraživača i svaka njegova odluka

treba biti potkrijepljena teorijskom osnovom.

4

3 KORACI PRI PROVODENJUKLASTER ANAL-

IZE

Provodenje klaster analize se može promatrati kroz sljedećih 5 koraka [4]:

1. Postavljanje ciljeva klaster analize

2. Dizajniranje istraživanja

3. Kreiranje klastera

4. Interpretacija klastera

5. Validacija i profiliranje klastera.

3.1 Postavljanje ciljeva klaster analize

Primarni cilj klaster analize je podijeliti skup objekata u dvije ili vǐse grupa na temelju

sličnosti objekata za odabrane karakteristike. Kako bi ostvario taj cilj, istraživač prvo

mora odrediti cilj istraživanja i varijable koje najbolje karakteriziraju objekte i koje su

izravno povezane s ciljem istraživanja.

3.1.1 Cilj istraživanja

Klaster analizom je moguće postići bilo koji od sljedeća tri cilja ili njihovu kombinaciju:

Opisivanje taksonomije – klaster analiza se najčešće koristi kao istraživačka tehnika

u svrhu otkrivanja prirodnih grupa unutar podataka. Taksonomija (grč. tassein

- svrstati; nomos - zakon, znanost) je znanstvena disciplina koja na temelju

sličnosti i razlika taksonomske jedinice kategorizira i razvrstava u skupine. U

početku se termin ”taksonomija” odnosio samo na znanost o klasifikaciji živih

organizama. Sada se taj termin koristi u mnogo širem smislu i odnosi se na

klasifikaciju stvari (živa i neživa bića, mjesta, pojmovi, dogadaji, itd.), kao i

na principe te klasifikacije [20]. Taksonomija je empirijski zasnovana klasifikacija

objekata.

Klaster analiza se takoder može koristiti za potvrdivanje ili odbacivanje prethodno

postavljenih hipoteza o strukturi podataka. Tada kažemo da se koristi u svrhu

potvrdivanja i empirijski dobiveni rezultati se mogu usporediti s teorijski do-

bivenim rezultatima.

Pojednostavljenje podataka – istraživač se može susresti s velikom količinom po-

dataka, koje je teško obraditi i koji nemaju smisla dok se ne podjele u manje

grupe. Definiranjem strukture podataka, klaster analiza ujedno pruža pojednos-

tavljeni prikaz podataka. Tako da je moguće analizirati grupe sličnih podataka,

5

umjesto pojedinačnih podataka. Svaki podatak je tada karakteriziran osobinama

klastera kojemu pripada.

Otkrivanje veza medu podacima – pronalaženjem klastera se otkrivaju veze medu

podacima koje u većini slučajeva nije moguće otkriti promatranjem pojedinačnih

podataka.

3.1.2 Odabir varijabli za klasteriranje

Ovo je jedna od najvažnijih odluka pri provodenju klaster analize jer istraživač odabi-

rom varijabli izravno utječe na moguća rješenja klaster analize. Odabir varijabli treba

provesti u skladu s teorijskim i praktičnim načelima. Treba odabrati one varijable

koje najbolje karakteriziraju objekte nad kojima se provodi analiza i koje su povezane

s ciljem klaster analize koji se želi postići. Istraživač treba biti svjestan utjecaja koji

svaka varijabla ima na rješenje, kao i činjenice da klaster analiza ne razlikuje irelevantne

varijable od relevantnih.

Problem koji može značajno utjecati na rješenje je multikolinearnost varijabli. Mul-

tikolinearnost se odnosi na medusobnu povezanost vǐse varijabli, odnosno veliku ko-

relaciju izmedu njih. Multikolinearnost predstavlja problem i kod drugih multivarijant-

nih tehnika jer je teško odrediti pravi utjecaj koreliranih varijabli. U klaster analizi,

multikolinearnost djeluje kao proces dodjeljivanja težina koreliranim varijablama i one

tada imaju dominantan utjecaj na mjeru sličnosti, a time i na konačno rješenje.

Promotrimo jednostavan primjer. Pretpostavimo da želimo grupirati klijente na

temelju 10 karakteristika, odnosno varijabli i da smo izračunavanjem koeficijenta ko-

relacije utvrdili da je od toga 8 varijabli visoko korelirano. Dakle, dobili smo dva skupa

varijabli, jedan od 8 varijabli i drugi od preostale 2 varijable. Ako bi u analizu uključili

svih 10 varijabli, 8 koreliranih varijabli bi imalo 4 puta veću šansu za utjecanje na

mjeru sličnosti. Rezultat bi bio dominiran koreliranim varijablama. U ovom slučaju bi

trebalo iz skupa koreliranih varijabli odabrati samo dvije, kako bi imale ravnopravan

utjecaj na rješenje u odnosu na nekorelirane varijable.

Postoji nekoliko pristupa rješavanju problema multikolinearnosti. Jedan od načina

je odrediti skupove varijabli s približno jednakim koeficijentom korelacije i iz svakog

skupa odabrati jednak broj varijabli, kao u prethodnom primjeru. Drugi način je

uključiti u analizu samo one varijable koje imaju najmanju korelaciju s ostalim var-

ijablama, ukoliko je to moguće. Treća mogućnost je od nekoliko koreliranih varijabli

definirati jednu.

Takoder, poželjno je u analizu uključiti samo one varijable s kojima se postižu

najveće razlike izmedu klastera. Istraživač treba proučiti dobivene rezultate i isključiti

iz analize one varijable kod kojih se ne postižu razlike izmedu klastera, jer je jedino

na taj način moguće dobiti klastere koji se maksimalno razlikuju i koje je moguće

profilirati.

6

3.2 Dizajniranje istraživanja

Nakon postavljanja cilja klaster analize i odabranih varijabli, a prije samog izvodenja

analize, potrebno je pronaći odgovore na još neka pitanja, kao što su reprezentativnost

uzorka i otkrivanje stršećih vrijednosti, trebaju li podaci biti standardizirani, te koju

mjeru sličnosti odabrati.

3.2.1 Veličina i reprezentativnost uzorka

Veličina uzorka nije uvjetovana nikakvim statističkim zahtjevima, kao što je to slučaj

kod nekih drugih statističkih metoda. Uzorak treba biti dovoljno velik da adekvatno

predstavlja populaciju i njezinu strukturu, odnosno sve relevantne grupe, posebno male.

Što je uzorak manji, teže je uočiti razliku izmedu stršećih podataka (engl. outliers)

i relevantnih malih grupa podataka. Veći uzorci osiguravaju veći broj podataka i u

malim grupama i olakšavaju njihovu identifikaciju. Veličina uzorka je povezana i s

ciljem analize. Ukoliko je cilj analize otkrivanje malih grupa unutar populacije, tada je

bitno da uzorak bude veći. Ako je cilj podijeliti podatke u nekoliko većih grupa, tada

nije toliko bitna razlika izmedu stršećih podataka i relevantnih podataka.

Klaster analiza je dobra onoliko koliko je dobra reprezentativnost uzorka.

3.2.2 Otkrivanje stršećih vrijednosti (outliera)

Klaster analiza je osjetljiva na postojanje stršećih vrijednosti. Stršeće vrijednosti su

objekti koji su drugačiji od svih ostalih. Oni mogu predstavljati:

1. Neprirodne objekte, koji nisu dobri predstavnici populacije i u tom slučaju oz-

biljno narušavaju reprezentativnost uzorka i rješenja, te trebaju biti uklonjeni.

2. Reprezentativne objekte, ali koji čine male i beznačajne segmente unutar popu-

lacije i koji nisu povezani s ciljem analize. Njih takoder treba ukloniti, kako bi

rješenje sadržavalo klastere koji predstavljaju relevantne segmente populacije.

3. Reprezentativne objekte koji predstavljaju bitne segmente populacije, ali su slabo

zastupljeni u uzorku. Njih treba zadržati u uzorku.

Stršeće vrijednosti je moguće otkriti:

1. Grafičkim prikazivanjem podataka.

2. Primjenom neke od mjera sličnosti ili udaljenosti i izračunavanjem sličnosti/uda-

ljenosti izmedu svih objekata. Objekti najrazličitiji/ najudaljeniji od svih ostalih

predstavljaju stršeće vrijednosti.

3. Njihovim pojavljivanjem u konačnom rješenju klaster analize kao klastera s jed-

nim ili nekoliko članova.

7

3.2.3 Standardizacija podataka

Istraživač treba razmotriti mogućnost standardizacije podataka ukoliko varijable koje

su uključene u analizu imaju različite mjerne jedinice ili veliku disperziju podataka.

Mjere udaljenosti su osjetljive na različite mjerne jedinice i magnitude podataka, a

varijable s velikom disperzijom podataka, odnosno velikom standardnom devijacijom,

imaju veći utjecaj na konačno rješenje nego što bi trebale imati. Ne postoji jasno pravilo

o tome da li podatke treba standardizirati ili ne. Neki istraživači sugeriraju standard-

izaciju, dok drugi tvrde da ona nema značajan utjecaj. Ono što je sigurno je to da

ju ne treba primjenjivati bez razmatranja mogućih posljedica, kao što je uklanjanje

prirodnih veza medu podacima.

Standardizacija varijabli

Najčešće korǐsten oblik standardizacije je standardizacija varijabli. Ona se provodi

oduzimanjem srednje vrijednosti varijable od stvarnih vrijednosti varijable i podjelom

dobivene razlike sa standardnom devijacijom za svaku varijablu. Varijable u standard-

iziranom obliku imaju srednju vrijednost 0 i standardnu devijaciju 1. Tako se elimini-

raju razlike u standardnoj devijaciji, kako izmedu varijabli, tako i za svaku varijablu

posebno. Takoder, sve varijable imaju jednaku mjernu skalu i lakše ih je usporediti, te

je lakše usporediti i interpretirati rješenja dobivena klaster analizom.

Standardizacija objekata (slučajeva)

Ponekad standardizacija varijabli nije prikladna za promatrani problem, posebno

ako se radi o osobama (klijentima, kupcima i sl.) koje želimo grupirati prema njihovim

navikama i preferencijama. Naime, može se pojaviti utjecaj ”stila odgovaranja”.

Pretpostavimo da želimo grupirati kupce supermarketa prema važnosti koju daju

pojedinom čimbeniku na njihovu odluku o kupnji odredenog proizvoda i da provodimo

anketu koja se sastoji od pitanja rangiranih ljestvicom od 1 do 10. Nekim kupcima će

svi čimbenici biti važni i na sva pitanja će odgovoriti velikom ocjenom, dok će neki

smatrati da im nǐsta nije važno i na sve će odgovoriti lošom ocjenom. Tako će nastati

klasteri ljudi koji odgovaraju pozitivno na sve, negativno na sve i neki klasteri izmedu.

Dakle, nastanak klastera je uvjetovan specifičnim stilom odgovaranja i to nije ono

što smo željeli postići. Ono što želimo otkriti je utjecaj pojedine varijable, odnosno

čimbenika na svakog kupca i pronaći klastere kupaca sa sličnim preferencijama.

U ovom slučaju, standardizacijom po varijablama se ne bi nǐsta postiglo. Prikladnije

je provesti standardizaciju ”po redovima”, odnosno po slučajevima (kupcima). Tako

kupci neće biti standardizirani prema prosječnom odgovoru svih kupaca za pojedino

pitanje (varijablu), nego prema individualnom prosjeku. Ovakav način standardizacije

je prikladan i za druge podatke koji reprezentiraju osobne stavove.

8

3.2.4 Odabir mjere sličnosti objekata

Sličnost predstavlja stupanj podudaranja svih objekata u zadanim karakteristikama i

izražava se matematički formuliranim mjerama sličnosti. Najčešće se sličnost tumači

kao udaljenost izmedu objekata. Što je udaljenost manja, objekti su sličniji. Sličnost

se računa za sve parove objekata i tako se bilo koji objekt može usporediti sa svim

ostalim objektima, a najsličniji objekti grupirati u klastere. Takoder, ako su prikazani

grafički, objekti unutar klastera trebaju biti blizu jedan drugome, a različiti klasteri

trebaju biti udaljeni.

Sličnost izmedu objekata se može mjeriti na različite načine, ali sljedeća tri načina

se najčešće koriste:

• mjere udaljenosti,

• mjere korelacije,

• mjere asocijacije.

Odabir mjere sličnosti ovisi prvenstveno o tipu podataka. Podaci mogu biti kvan-

titativni ili kvalitativni. Kvantitativni podaci se nazivaju i metričkim podacima, jer

se njihov odnos može prikazati metrikom, odnosno nekom funkcijom udaljenosti. Oni

opisuju objekte ne samo prema posjedovanju odredenog atributa, nego i po količini ili

stupnju atributa kojeg posjeduju (npr. dob, neto plaća). Za ovakve podatke su prik-

ladne mjere udaljenosti i mjere korelacije.

Za razliku od kvantitativnih podataka, kvalitativni podaci opisuju objekte samo

prema prisutnosti ili odsutnosti odredenog atributa (npr. spol, bračno stanje). Njihov

odnos se ne može prikazati metrikom, stoga su za ovakve podatke prikladne mjere

asocijacije.

U slučaju provodenja klaster analize po varijablama, a ne po objektima (slučajevima),

kao mjera sličnosti se najčešće koristi korelacija izmedu varijabli.

Mjere udaljenosti

Mjere sličnosti koje se najčešće koriste u klaster analizi su mjere udaljenosti. One

predstavljaju sličnost kao blizinu objekata jednih drugima po varijablama koje su

uključene u analizu. Mjere udaljenosti su zapravo mjere različitosti, jer veća vrijed-

nost predstavlja manju sličnost.

Postoji nekoliko mjera udaljenosti koje se koriste. Najčešće se koristi Euklidska

udaljenost, kvadrirana Euklidska udaljenost i Manhattan udaljenost. Definicije ovih

udaljenosti su dane u Poglavlju 5. Upotreba različitih mjera udaljenosti rezultira ra-

zličitim rješenjima. Istraživač treba provesti analizu s različitim mjerama udaljenosti i

usporediti rezultate.

9

Mjere korelacije

Upotreba mjera korelacije se preporučuje ukoliko je cilj klaster analize pronalazak

uzoraka koji se pojavljuju u profilima objekata. Slično izračunavanju koeficijenta ko-

relacije varijabli, ovdje se računa koeficijent korelacije izmedu objekata. Matricu po-

dataka je potrebno invertirati kako bi stupci predstavljali objekte, a redovi varijable.

Koeficijent korelacije izmedu dvaju stupaca tada predstavlja sličnost profila dvaju ob-

jekata. Visoka korelacija upućuje na veliku sličnost, a niska na malu sličnost u profilima.

Iako je ovo intuitivno najlogičnija mjera sličnosti, rijetko se koristi. U većini slučajeva

je naglasak na pronalasku objekata sa sličnim vrijednostima karakteristika (varijabli),

iako možda imaju različit profil po ostalim karakteristikama, što se postiže mjerama

udaljenosti. Mjere korelacije pronalaze slične profile po svim karakteristikama i ne uzi-

maju u obzir veličinu razlike u karakteristikama.

Mjere asocijacije

Mjere asocijacije se koriste za usporedivanje kvalitativnih podataka. Pomoću njih

se odreduje stupanj slaganja izmedu svakog para objekata po svim atributima željenih

karakteristika. Mnogi računalni programi imaju ograničenu podršku za mjere asoci-

jacije, te ih je istraživač prinuden prvo sam izračunati i zatim uvrstiti u program za

provodenje klaster analize.

3.3 Kreiranje klastera

Nakon postavljenog cilja klaster analize, odabranih varijabli koje će biti uključene u

analizu i odabrane mjere sličnosti na temelju koje će objekti biti usporedeni, preostaje

odabrati sljedeće:

• metodu grupiranja objekata u klastere,

• broj klastera koji će biti formirani.

Postoje različite metode klasteriranja, ali u načelu se dijele na hijerarhijske i nehije-

rarhijske ili partitivne. Od hijerarhijskih metoda se najčešće koriste metode povezivanja

i Wardova metoda, a od nehijerarhijskih k-means metoda. U praksi je najčešći slučaj

kombiniranja obiju metoda.

Prilikom odluke o broju klastera koji će se formirati, istraživač treba odlučiti izmedu

manjeg broj klastera uz manju homogenost unutar klastera i većeg broja klastera i

veće homogenosti unutar klastera. Kako se broj klastera smanjuje, tako se povećava

heterogenost unutar klastera. Treba odabrati najjednostavnije rješenje uz prihvatljivu

razinu heterogenosti unutar klastera.

Metode klasteriranja su detaljno opisane u Poglavlju 4.

10

3.4 Interpretacija klastera

Nakon pronalaska jednog ili vǐse zadovoljavajućih rješenja klaster analize, dobivena

rješenja je potrebno interpretirati. U slučaju vǐse rješenja, odabire se ono koje se može

najbolje interpretirati u skladu s teorijskom i empirijskom osnovom.

Interpretacija klastera predstavlja detaljno proučavanje svakog klastera s ciljem

otkrivanja karakteristika svojstvenih samo njemu i dodjeljivanje imena ili oznake koja

najbolje opisuje otkrivene karakteristike i strukturu klastera.

Mjera koja se najčešće koristi prilikom interpretacije je centroid klastera, odnosno

srednja vrijednost objekata u klasteru po svim varijablama. Ukoliko su varijable bile

standardizirane prije provodenja analize, mogu se uzeti originalne vrijednosti varijabli.

Kako bi se pronašle karakteristike koje najbolje opisuju svaki klaster, treba pronaći i

proučiti one varijable čije se srednje vrijednosti najvǐse razlikuju po klasterima. Tehnika

koje se ovdje može koristiti je analiza varijance (ANOVA). Za nezavisnu (kategorijalnu)

varijablu se uzima varijabla s brojevima klastera kojima objekti pripadaju, dok se za

zavisne varijable uzimaju one za koje se želi testirati da li postoji značajna razlika u

srednjim vrijednostima po klasterima.

Interpretacija klastera je ključni element u odabiru konačnog rješenja klaster ana-

lize.

3.5 Validacija i profiliranje klastera

Validacijom konačnog rješenja se želi osigurati reprezentativnost rješenja, mogućnost

generalizacije na druge objekte, te stabilnost rješenja. Takoder se želi ispitati praktično

značenje dobivenog rješenja. Ne postoji metoda koja provjerava sve navedene zahtjeve,

ali sljedeće metode mogu poslužiti kao osnova i pomoć pri donošenju zaključaka.

3.5.1 Cross-validacija

Cross-validacija predstavlja direktan pristup provjeravanju reprezentativnosti rješenja.

Poželjno bi bilo provesti klaster analizu na drugom uzorku i tada usporediti dobivena

rješenja, ali to često nije moguće zbog vremenskih i troškovnih ograničenja ili nedo-

stupnosti drugih uzoraka (posebno ako se radi o klijentima, potrošačima i sl.). Iz tog

razloga, uzorak se može podijeliti na dva dijela slučajnim odabirom i na svakom dijelu

provesti klaster analizu. Svaki dio se analizira posebno i rezultati se usporede.

Druga mogućnost je da se centri klastera dobiveni jednim rješenjem koriste kao

početni centri drugog rješenja i rješenja se usporede.

Takoder, uzorak treba izmiješati slučajnim odabirom i ponovno provesti analizu,

kako bi se provjerilo da rješenje ne ovisi o poretku podataka.

Za svaku od navedenih metoda, stabilnost rješenja se može procijeniti brojem ob-

jekata svrstanih u isti klaster za različita rješenja. Vrlo stabilno rješenje će rezultirati

11

s manje od 10% objekata različito svrstanih, stabilno s 10 do 20%, a donekle stabilno

s 20 do 25% različito svrstanih objekata.

3.5.2 Profiliranje klastera

Posljednji korak koji se provodi u klaster analizi i koji takoder služi kao sredstvo vali-

dacije konačnog rješenja je profiliranje klastera. Prilikom profiliranja klastera, uključuju

se u razmatranje i varijable koje nisu bile uključene u samu analizu (ukoliko takve pos-

toje), kako bi se vidjelo da li postoje razlike izmedu klastera i kod tih varijabli, te

kako bi se klasteri što bolje opisali. Ukoliko je konačno rješenje uistinu dobro, razlike

bi trebale postojati. Ovdje se takoder može koristiti ANOVA.

12

4 METODE KLASTERIRANJA

Pronalaženje svih mogućih grupa je vremenski i računski vrlo zahtjevan posao. Za veliki

broj podataka, ni vrlo jaka računala nisu u stanju riješiti ovaj problem. Iz tog razloga

su razvijene različite metode i algoritmi koji rješavaju ovaj problem na način koji je

najbliži optimalnom. U načelu, razlikujemo hijerarhijske i nehijerarhijske metode klas-

teriranja, koje se dalje mogu podijeliti prema načinu grupiranja podataka u klastere.

4.1 Hijerarhijske metode klasteriranja

Hijerarhijske metode se izvode nizom od n − 1 uzastopnih spajanja ili dijeljenja po-dataka, gdje je n broj podataka, te se s obzirom na to mogu podijeliti na aglomerativne

(engl. agglomerative) ili gomilajuće i divizivne (engl. divisive) ili dijeleće.

Aglomerativne metode polaze od pojedinog objekta, odnosno u prvom koraku svaki

objekt čini jedan klaster. Nakon toga se dva najsličnija objekta grupiraju u jedan

klaster. Zatim se tom klasteru dodaje novi objekt ili se druga dva pojedina objekta

grupiraju u novi klaster. Ove početne grupe se tada dalje spajaju prema medusobnim

sličnostima toliko dugo dok se sve podgrupe ne sjedine u jedan klaster.

Divizivne metode djeluju u suprotnom smjeru. One polaze od svih objekata udruženih

u jedan klaster, te ih zatim dijele u dvije podgrupe, tako da su objekti u jednoj grupi

što udaljeniji, odnosno različitiji od objekata u drugoj grupi. Ove podgrupe se dalje

dijele u različite podgrupe toliko dugo dok svaki pojedini objekt ne čini zaseban klaster,

odnosno dok broj klastera ne bude jednak broju objekata. Aglomerativna i divizivna

metoda su ilustrirane na Slici 1.

Slika 1: Hijerarhijsko klasteriranje

13

Osnova za obje metode je matrica sličnosti (udaljenosti) izmedu svih objekata

(x1, x2, . . . , xn), koja je simetrična, dimenzije n× n i prikazuje se na sljedeći način:

x1 x2 x3 . . . xn

D =

x1x2x3

...

xn

0d(x2, x1) 0d(x3, x1) d(x3, x2) 0

......

. . .

d(xn, x1) d(xn, x2) d(xn, x3) . . . 0

.

U nastavku se kao mjera sličnosti koristi mjera udaljenosti, ali mogu se takoder

koristiti i ostale mjere sličnosti.

Rezultati aglomerativne i divizivne metode se mogu grafički prikazati u obliku

dvodimenzionalnog hijerarhijskog dijagrama, nalik stablu, poznatog pod nazivom den-

drogram. Uobičajeno je na osi apscisa prikazati objekte, a na osi ordinata udaljenosti

izmedu njih. No, zbog preglednosti rješenja, osi se mogu i zamijeniti. Grane stabla pred-

stavljaju klastere i one se spajaju u čvorovima, čije pozicije duž ordinate označavaju

udaljenosti na kojima su se spajanja dogodila.

U praksi se vǐse koristi aglomerativna metoda, koja je takoder češće implementirana

u računalne programe, nego divizivna metoda. Stoga je u ovom radu detaljnije obradena

aglomerativna metoda. Ona se može podijeliti u tri grupe prema načinu na koji se

odreduje sličnost medu klasterima, a to su metode povezivanja, metoda varijance ili

Wardova metoda i centroidna metoda.

4.1.1 Metode povezivanja

Metode povezivanja (engl. linkage methods) se dijele na tri različite metode prema

načinu odredivanja reprezentanta klastera:

1. jednostruko povezivanje (engl. single-linkage method ili nearest-neighbor method)

- metoda minimalne udaljenosti ili najbližeg susjeda,

2. potpuno povezivanje (engl. complete-linkage method ili farthest-neighbor method)

- metoda maksimalne udaljenosti ili najdaljeg susjeda,

3. prosječno povezivanje (engl. average linkage) - metoda prosječne udaljenosti.

Spajanje klastera pod ovim kriterijima ilustrirano je na Slici 2. Na slici je vidljivo

da je jednostruko povezivanje rezultat spajanja klastera prema udaljenosti najbližih

14

objekata dvaju klastera. Potpuno povezivanje za kriterij spajanja klastera uzima udalje-

nost njihovih najdaljih objekata, dok je prosječno povezivanje rezultat spajanja klastera

prema prosječnoj udaljenosti izmedu parova svih objekata klastera.

Slika 2: Udaljenost izmedu klastera: a)jednostruko povezivanje, b)potpuno povezi-vanje, c)prosječno povezivanje

Algoritam 4.1.1 Osnovni aglomerativni hijerarhijski algoritam za grupi-

ranje n objekata

Korak 1 Učitati n klastera (objekata) i n×n simetričnu matricu udaljenosti (sličnosti)D = {dik}.

Korak 2 Pretražiti matricu udaljenosti i pronaći najblǐzi (najsličniji) par klastera.

Neka je dUV udaljenost izmedu ”najsličnijih ” klastera U i V .

Korak 3 Spojiti klastere U i V . Označiti novi klaster (UV ). Obrisati retke i stupce u

matrici udaljenosti koji odgovaraju klasterima U i V . Dodati novi redak i stupac

u matricu udaljenosti, formiran prema udaljenostima izmedu klastera (UV ) i

preostalih klastera.

Korak 4 Ponoviti Korak 2 i Korak 3 n− 1 puta. Zabilježiti klastere koji su se spojilii razine (udaljenosti) na kojima se to dogodilo. (Izvor: [9])

Algoritam završava kada su svi klasteri spojeni u jedan, odnosno nakon n − 1koraka. Ovaj algoritam se koristi za sve tri metode povezivanja, samo što se u Koraku

3 udaljenost izmedu klastera različito definira.

Prilikom primjene hijerarhijskog klasteriranja, bitni su zapravo rezultati koji nas-

taju spajanjem klastera na odredenim razinama, odnosno grupiranje objekata u željeni

broj klastera.

15

Jednostruko povezivanje

Metoda jednostrukog povezivanja definira sličnost izmedu dvaju klastera kao naj-

manju udaljenost izmedu bilo kojeg objekta iz jednog klastera i bilo kojeg objekta iz

drugog klastera.

Klasteri se formiraju od individualnih objekata povezivanjem najbližih susjeda, gdje

izraz ”najbliži susjed” označava najmanju udaljenost ili najveću sličnost. Prva dva ob-

jekta koja se spajaju u klaster su ona dva koja imaju najmanju medusobnu udaljenost.

Drugi objekti se spajaju s prvim klasterom na temelju najmanje udaljenosti izmedu

njih i objekata već formiranog klastera. U svakom sljedećem koraku, udaljenost izmedu

dva klastera se odreduje na temelju udaljenosti njihova dva najbliža objekta.

Budući da metoda jednostrukog povezivanja povezuje klastere prema najkraćoj vezi

izmedu njih, metoda ne može razlikovati loše razdvojene klastere. To može dovesti do

formiranja ulančanih klastera, gdje su objekti na suprotnim krajevima lanca različiti

i može dovesti do pogrešnih zaključaka. Stoga, istraživač treba provjeriti da li uistinu

postoji takva struktura podataka ili je to rezultat lošeg odabira metode.

Za provodenje metode, u skladu s Algoritmom 4.1.1, prvo je potrebno pronaći

najmanju udaljenost u matrici udaljenosti D = {dik} i spojiti odgovarajuće objekte,nazovimo ih U i V , kako bi dobili klaster (UV ). U Koraku 3 udaljenost izmedu klastera

(UV ) i bilo kojeg drugog klastera W računa se na sljedeći način:

d(UV )W = min{dUW , dVW}, (1)

gdje su dUW i dVW udaljenosti izmedu najbližih susjeda klastera U i W i klastera

V i W , respektivno [9].

Primjer 4.1.1 S ciljem ilustriranja metode jednostrukog povezivanja promotrimo sljedeću

matricu udaljenosti izmedu 5 objekata:

1 2 3 4 5

D = {dik} =

12345

04 09 5 01 3 6 07 2 10 5 0

Odredimo klastere i rezultat prikažimo grafički.

Svaki od pet objekata predstavlja jedan klaster. Pretraživanjem matrice D, utvrdeno

je da su najblǐzi objekti 4 i 1, a njihova udaljenost iznosi 1:

minik

(dik) = d41 = 1.

16

Objekti 4 i 1 se spajaju u prvi klaster (41).

Udaljenost izmedu klastera (41) i preostalih objekata 2, 3 i 5:

d(41)2 = min{d42, d12} = min{3, 4} = 3d(41)3 = min{d43, d13} = min{6, 9} = 6d(41)5 = min{d45, d15} = min{5, 7} = 5.

Brisanjem redaka i stupaca matrice D koji odgovaraju objektima 4 i 1 i dodavanjem

novog prvog retka i prvog stupca koji odgovaraju klasteru (41), te uvrštavanjem do-

bivenih udaljenosti, dobiva se nova matrica udaljenosti:

(41) 2 3 5

(41)235

03 06 5 05 2 10 0

Ponovnim pretraživanjem matrice udaljenosti, utvrdeno je da su najblǐzi objekti 5 i 2,

a njihova udaljenost iznosi 2:

minik

(dik) = d52 = 2.

Objekti 5 i 2 se spajaju u drugi klaster (52).

Udaljenost izmedu klastera (52) i klastera (41):

d(52)(41) = min{d5(41), d2(41)} = min{5, 3} = 3.

Udaljenost izmedu klastera (52) i preostalog objekta 3:

d(52)3 = min{d53, d23} = min{10, 5} = 5.

Matrica udaljenosti sada izgleda:

(41) (52) 3

(41)(52)3

03 06 5 0

Matrica udaljenosti se ponovno pretražuje s ciljem pronalaska minimalne udaljenosti.

Utvrdeno je da je minimalna udaljenost ona izmedu klastera (41) i (52) i iznosi 3:

minik

(dik) = d(41)(52) = 3.

17

Klasteri (41) i (52) se spajaju u jedan klaster (4152). Udaljenost izmedu tog klastera i

preostalog objekta 3 iznosi 5:

d(4152)3 = min{d(41)3, d(52)3} = min{6, 5} = 5.

Konačna matrica udaljenosti postaje:

(4152) 3

(4152)3

[05 0

]

Konačno, na udaljenosti 5, klaster (4152) se spaja s objektom 3 u jedan klaster (41523)

sastavljen od svih pet objekata.

Grafički, dobiveni rezultati se mogu prikazati sljedećim dendrogramom, na kome su

jasno vidljive udaljenosti na kojima su se spajanja klastera dogodila.

Potpuno povezivanje

Metoda potpunog povezivanja se izvodi na sličan način kao metoda jednostrukog

povezivanja, ali s jednom bitnom razlikom. U svakom koraku, sličnost izmedu dvaju

klastera je odredena udaljenošću njihovih najudaljenijih elemenata. Potpuno povezi-

vanje osigurava da je udaljenost izmedu svih objekata u klasteru maksimalna.

Korak 1 i 2 Algoritma 4.1.1 se provode analogno, pronalaskom minimalne udal-

jenosti u matrici udaljenosti D = {dik} i spajanjem odgovarajućih objekata (nazovimo

18

ih U i V ) u prvi klaster (UV ). U Koraku 3, udaljenost izmedu klastera (UV ) i bilo

kojeg drugog klastera W računa se na sljedeći način:

d(UV )W = max{dUW , dVW}, (2)

gdje su dUW i dVW udaljenosti izmedu najdaljih elemenata klastera U i W i klastera

V i W , respektivno [9].

Prosječno povezivanje

Prosječno povezivanje definira udaljenost izmedu dva klastera kao prosječnu uda-

ljenost izmedu svih parova objekata, gdje jedan član para pripada jednom, a drugi

drugom klasteru.

Korak 1 i 2 Algoritma 4.1.1 se takoder provode analogno, pronalaskom minimalne

udaljenosti u matrici udaljenosti D = {dik} i spajanjem odgovarajućih objekata (na-zovimo ih U i V ) u prvi klaster (UV ). U Koraku 3, udaljenost izmedu klastera (UV ) i

bilo kojeg drugog klastera W računa se na sljedeći način:

d(UV )W =

∑i

∑k

dik

N(UV )NW, (3)

gdje je dik udaljenost izmedu objekta i u klasteru (UV ) i objekta k u klasteru W , a

N(UV ) i NW je ukupan broj elemenata klastera (UV ) i klastera W , respektivno [9].

Metoda potpunog povezivanja uzima u obzir sve informacije o svim parovima ele-

menata dvaju klastera, zbog čega se preferira u odnosu na dvije prethodne metode.

4.1.2 Centroidna metoda

U ovoj metodi se sličnost izmedu klastera definira kao udaljenost izmedu centroida

klastera. Centroid klastera je srednja vrijednost objekata u klasteru po svim vari-

jablama uključenim u klaster analizu. Vrijednost centroida se mijenja kako se dodaju

novi objekti u klaster. Ova metoda se najvǐse koristi u prirodnim znanostima (biologiji),

ali može rezultirati zbunjujućim rezultatima i ovdje neće biti detaljnije obradena.

4.1.3 Wardova metoda

Wardova metoda se razlikuje od prethodnih metoda po tome što prilikom spajanja

klastera analizira varijancu izmedu objekata i zove se još metoda minimalne varijance.

Ova metoda minimizira sumu kvadrata izmedu bilo koja dva klastera koja bi se mogla

formirati. U svakom koraku se spajaju ona dva klastera za koja je porast ukupne sume

kvadrata po svim varijablama u svim klasterima minimalna. Preporučena udaljenost

za ovu metodu je kvadrirana Euklidska udaljenost.

19

Ova metoda se smatra dosta efikasnom i teži kreiranju klastera s malim brojem

objekata i s približno jednakim brojem objekata u svakom klasteru. Na ovu metodu

utječu outlieri, jer oni utječu na sumu kvadrata.

4.1.4 Prednosti i nedostaci hijerarhijskog klasteriranja

Hijerarhijske metode su prve metode za klasteriranje koje su razvijene i dugo su bile

najpopularnije metode. One nude nekoliko prednosti, ali takoder imaju i nekoliko ne-

dostataka u odnosu na nehijerarhijske metode.

Prednosti hijerarhijskog klasteriranja:

• Jednostavnost i brzina – hijerarhijske metode jednim provodenjem rezultirajucijelim skupom mogućih rješenja i istraživač tako može odjednom analizirati sva

moguća rješenja.

• Mjere sličnosti – široka upotreba hijerarhijskih metoda je dovela do razvoja mjerasličnosti za gotovo svaki tip varijabli i vrstu istraživanja.

Nedostaci hijerarhijskog klasteriranja:

• Hijerarhijske metode mogu ponekad dovesti do pogrešnih zaključaka, ako supočetni objekti pogrešno svrstani, jer ove metode ne omogućuju preraspodjelu

početno ”pogrešno” svrstanih objekata. Iz tog razloga, konačna raspodjela klastera

treba uvijek biti pažljivo ispitana. Poželjno je isprobati nekoliko metoda i unutar

svake metode nekoliko različitih načina definiranja udaljenosti (sličnosti). Ako

su klasteri dobiveni različitim metodama približno konzistentni, onda su objekti

ispravno grupirani.

• Kao i većina ostalih metoda za klasteriranje, hijerarhijske metode su osjetljivena postojanje stršećih vrijednosti, posebno metoda potpunog povezivanja. Kako

bi smanjio utjecaj outliera, istraživač može provesti analizu nekoliko puta uz

brisanje potencijalnih outliera. Svaki podatak treba biti obrisan s posebnim opre-

zom, kako ne bi došlo do gubitka vrijednih informacija.

• Premda se ove metode smatraju brzima, njihova upotreba na velikim uzorcimaje ograničena računalnim resursima, jer matrica udaljenosti mora biti spremljena

u memoriju računala. Za uzorak od npr. 500 podataka, u memoriju mora biti

spremljeno 125000 udaljenosti. U slučaju jako velikih uzoraka, istraživač može

slučajnim odabirom odabrati manju podgrupu i na njoj provesti analizu, ali treba

paziti na reprezentativnost te podgrupe.

20

4.2 Nehijerarhijske metode klasteriranja

Nehijerarhijske metode klasteriranja su namijenjene grupiranju objekata u unaprijed

odreden broj klastera. Provode se u dva osnovna koraka:

1. Odredivanje početnih točaka klastera (engl. cluster seeds).

Početne točke (centri) svakog klastera se mogu odabrati na dva načina:

Odabirom istraživača – istraživač može odabrati početne točke prema nekom

prethodnom istraživanju provedenom nad podacima, iz iskustva ili cilja koji

želi postići, ukoliko zna kakvi su profili klastera koje želi dobiti. Takoder,

mogući broj klastera se može otkriti hijerarhijskim metodama i zatim oda-

brati početne točke prema rješenju hijerarhijske metode.

Slučajnim odabirom – ukoliko ne postoji predznanje o profilima klastera koji

trebaju nastati, početne točke se odabiru slučajnim odabirom. Slučajan od-

abir se može provesti odabirom bilo kojeg objekta ili prema nekim zakoni-

tostima koje želimo da objekti zadovoljavaju (npr. maksimalna udaljenost

ili prvi objekt koji nema nedostajuće vrijednosti).

Računalni programi općenito podržavaju obje metode. Istraživač treba biti svjes-

tan utjecaja koji odabir početnih točaka ima na konačno rješenje, jer će odabir

drugih točaka rezultirati drugačijim rješenjem. Ukoliko su odabrane slučajnim o-

dabirom, analizu svakako treba provesti vǐse puta uz drugi odabir početnih točaka

i usporediti rezultate.

2. Dodjeljivanje objekata klasteru koji je najprikladniji prema zadanom

kriteriju.

Nakon odabranih početnih točaka, slijedi dodjeljivanje svakog objekta nekoj od

točaka na temelju sličnosti. Postoje različite metode provodenja ovog procesa, ali

njihov osnovni cilj je dodijeliti objekt onoj točki koja mu je najsličnija. Neke

metode dozvoljavaju prerasporedivanje objekata u druge klastere, ako su im

sličniji od njihovih početnih klastera.

Nehijerarhijski algoritmi se mogu podijeliti na serijske (sekvencijalne), paralelne i

optimizacijske.

Serijski algoritmi odabiru jednu početnu točku i pridružuju joj sve objekte koji se

nalaze unutar definirane udaljenosti. Zatim odabiru drugu točku i dodjeljuju joj sve

objekte unutar definirane udaljenosti, itd. Nedostatak ove metode je u tome što se

jednom dodijeljeni objekti ne mogu premještati u druge klastere, čak i ako su njihove

početne točke bliže.

Paralelni algoritmi odabiru sve početne točke odjednom i dodjeljuju im objekte

unutar definirane udaljenosti. Takoder ne omogućuju preraspodjelu objekata.

21

Optimizacijski algoritmi omogućuju preraspodjelu objekata. Najpoznatiji algoritam

koji se koristi je k-means algoritam. Njegova upotreba je postala toliko proširena

da se naziv ”k-means” ponekad odnosi na sve optimizacijske metode klasteriranja. k-

means metoda, kako sam naziv govori, je metoda k-srednjih vrijednosti. Ova metoda

rasporeduje objekte u unaprijed odredeni broj klastera k, te zatim iterativno pre-

rasporeduje objekte po klasterima, dok se ne postigne neki zadani numerički kriterij.

Postizanje kriterija je povezano s postizanjem cilja klaster analize, a to je pronalazak

što kompaktnijih i bolje separiranih klastera. Stoga se teži minimizaciji udaljenosti ob-

jekata unutar klastera i maksimizaciji udaljenosti izmedu klastera. k-means algoritam

je naveden u Poglavlju 5.

4.2.1 Prednosti i nedostaci nehijerarhijskog klasteriranja

Nehijerahijske metode su široko prihvaćene, ali svaka dobra primjena ovisi o sposob-

nosti istraživača da odabere najbolje rješenje.

Prednosti nehijerarhijskog klasteriranja:

• U odnosu na hijerarhijske metode, rezultati su manje osjetljivi na postojanjeoutliera, na upotrebu mjere sličnosti i na uključivanje neodgovarajućih varijabli

u analizu.

• Prikladne su za puno veći broj podataka nego hijerarhijske, jer ne zahtijevajuračunanje i spremanje u memoriju računala matrice udaljenosti izmedu svih ob-

jekata, nego samo udaljenosti svakog objekta do centroida klastera.

Nedostaci nehijerarhijskog klasteriranja:

• Konačno rješenje ovisi o odabiru početnih točaka i odabir različitih početnihtočaka će dovesti do različitih rješenja. Preporučuje se odabir početnih točaka

u skladu s teorijskom osnovom ili prethodnom analizom podataka, te izvodenje

analize uz različit odabir početnih točaka. Svako rješenje treba analizirati kako

bi se pronašlo ono koje najbolje predstavlja strukturu podataka.

• Nehijerarhijske metode nisu efikasne ukoliko se želi analizirati veliki broj različitihmogućih rješenja, jer pronalazak svakog rješenja predstavlja posebnu analizu,

za razliku od hijerarhijskih metoda gdje se sva rješenja dobiju samo jednom

analizom.

4.3 Odluka o broju klastera

Odluka o broju klastera je možda najteža odluka pri provodenju klaster analize, bilo

da se radi o hijerarhijskim ili nehijerarhijskim metodama, jer treba odabrati onaj

broj klastera koji najbolje reprezentira strukturu podataka. Ne postoji jedinstvena

22

procedura za odredivanje broja klastera. Istraživač mora sam odlučiti koji je broj

klastera najprikladniji za promatrani problem, što zahtjeva analizu nekoliko potencijal-

nih rješenja. Svi klasteri moraju biti različiti po varijablama nad kojima je provedena

analiza. Klasteri s jednim članom ili malim brojem članova općenito nisu prihvatljivi i

treba ih posebno proučiti, jer oni mogu predstavljati outliere koji nisu otkriveni ranijim

istraživanjem. Stoga, ako je moguće, treba ih eliminirati i ponovno provesti analizu.

U praksi se najčešće koristi kombinacija hijerarhijskih i nehijerarhijskih metoda,

jer se nedostaci jedne metode mogu nadopuniti drugom metodom. Prvo se pomoću

hijerarhijskih metoda odredi skup svih mogućih rješenja, zatim se odrede potencijalno

prihvatljiva rješenja i broj klastera. Nakon toga se nehijerarhijskom metodom podaci

rasporede u odgovarajući broj klastera.

U hijerarhijskim metodama se kao kriterij za odabir broja klastera (poznat pod

nazivom ”pravilo zaustavljanja”, engl. stopping rule) koristi mjera heterogenosti. He-

terogenost se odnosi na različitost objekata unutar klastera za svaki uzastopni korak u

hijerarhijskoj metodi. Ako se dogodi veliki porast u mjeri heterogenosti, to znači da su

se spojila dva prilično različita klastera i tada se odabire prethodno rješenje.

Heterogenost se može mjeriti na različite načine, a to uvelike ovisi i o računalnom

programu koji se koristi. Većina programa pruža mogućnost izračunavanja aglomera-

cijskog koeficijenta, koji mjeri heterogenost kao udaljenost objekata unutar klastera

od centroida klastera (ako se koristi mjera udaljenosti) ili sumu kvadrata odstupanja

objekata unutar klastera od centroida (ako se koristi Wardova metoda). Aglomeracijski

koeficijent se računa za sva moguća rješenja, odnosno pri svakom koraku provodenja

hijerarhijske metode. Ukoliko je postotak promjene aglomeracijskog koeficijenta velik

za dva uzastopna rješenja, uzima se prethodno rješenje u kojemu se kritično spajanje

klastera još nije dogodilo. Takoder se može proučavati i promjena u standardnoj devi-

jaciji za svaki novonastali klaster.

Iz praktičnih razloga i u skladu s ciljem klaster analize, istraživač može unaprijed

sam odrediti koliki mu broj klastera odgovara, npr. može reći da u obzir dolaze samo

rješenja od 3 do 6 klastera i proučavati samo takva rješenja.

Kod nehijerarhijskih metoda se obično koriste matematički definirani kriteriji za

odabir broja klastera. Većina ih se zasniva na minimiziranju sume kvadrata udaljenosti

objekata unutar klastera, te maksimiziranju sume kvadrata udaljenosti izmedu klastera.

Vǐse riječi o tome će biti u Poglavlju 5.

23

5 MATEMATIČKO ZNAČENJE KLASTER

ANALIZE

Matematički, problem grupiranja podataka u homogene grupe promatramo kao pro-

blem grupiranja elemenata nekog skupa A s n ≥ 2 elemenata u disjunktne podskupoveπ1, ..., πk, 1 ≤ k ≤ n, takve da vrijedi:

k∪i=1

πi = A, πi∩

πj = ∅, i ̸= j, nj := |πj| ≥ 1, j = 1, .., k, (4)

na osnovi jednog ili vǐse obilježja uz korǐstenje raznih kriterijskih funkcija cilja. Ovako

definirane rastave skupa A na podskupove π1, ..., πk, koji zadovoljavaju (4), zvat ćemo

particija skupa A i označavati Π = {π1, ..., πk}. Elemente particije, odnosno skupoveπ1, ..., πk zvat ćemo klasteri. Skup svih particija skupa A sastavljenih od k klastera,

koje zadovoljavaju (4) označavat ćemo P(A, k) [14].

U većini slučajeva, zbog velikog broja podataka, nije moguće odrediti sva moguća

grupiranja i onda odrediti najbolje. Broj načina grupiranja n podataka u k nepraznih

skupova se naziva Stirlingov broj druge vrste1 i označava se S(n, k), a njegova ekspli-

citna formula glasi:

S(n, k) =1

k!

k∑j=0

(−1)k−j(k

j

)jn. (5)

Stirlingov broj druge vrste zapravo predstavlja skup svih particija skupa A sastavljenih

od k klastera.

Primjer 5.0.1 Provjerimo koliko iznosi Stirlingov broj druge vrste za 20 objekata koje

želimo grupirati u 5 nepraznih skupova:

S(20, 5) =1

5!

5∑j=0

(−1)5−j(5

j

)j20 =

=1

5!

((−1)4

(5

1

)120 + (−1)3

(5

2

)220 + (−1)2

(5

3

)320 + (−1)1

(5

4

)420 +

+(−1)0(5

5

)520

)=

=1

120

(5− 10 · 1048576 + 10 · 3486784401− 5 · 1, 1 · 1012 + 9, 5 · 1013

)=

= 7, 46 · 1011

Zaključujemo da je broj svih mogućih načina grupiranja 20 objekata u 5 nepraznih

skupova vrlo velik broj.

1Stirlingovi brojevi su dobili naziv po Jamesu Stirlingu, koji ih je uveo u 18. stoljeću. PostojeStirlingovi brojevi prve i druge vrste. Stirlingovi brojevi prve vrste predstavljaju broj permutacija nelemenata sa k disjunktnih ciklusa. Stirlingovi brojevi druge vrste predstavljaju broj načina grupiranjan elemenata u k disjunktnih skupova. Obje vrste brojeva imaju veliko značenje u kombinatorici [16].

24

Cilj klaster analize u matematičkom smislu je pronalazak optimalne particije. Op-

timalna particija je ona koja ima svojstvo da je udaljenost objekata unutar klastera

minimalna, a izmedu klastera maksimalna, te koja zadovoljava (4). Problem traženja

optimalne particije spada u NP-teške probleme2 nekonveksne optimizacije općenito

nediferencijabilne funkcije vǐse varijabli, koja najčešće posjeduje značajan broj sta-

cionarnih točaka [14].

Kako bi mogli primjeniti odredene kriterije za pronalazak optimalne particije, po-

daci moraju biti prikazani skupom realnih brojeva (u slučaju objekata s jednim obilje-

žjem) ili skupom vektora (u slučaju objekata s vǐse obilježja). U empirijskom dijelu ovog

rada se koristi kriterij najmanjih kvadrata, stoga je taj kriterij u nastavku detaljnije

objašnjen (za LAD kriterij optimalnosti vidi [14]).

5.1 Grupiranje objekata s jednim obilježjem

Pretpostavimo da je zadan skup realnih brojeva A = {a1, . . . , an}, medu kojima možebiti jednakih. Neka ovaj skup predstavlja skup objekata koji imaju samo jedno obilježje

i na osnovi tog obilježja ih treba grupirati u k klastera koji zadovoljavaju (4) (npr.

klijente banke želimo grupirati samo prema neto plaći). Kao mjeru sličnosti koristit

ćemo neku od funkcija udaljenosti.

Definicija 5.1.1 Funkciju d : R× R −→ R+, za koju vrijedi:

1) d(x, y) ≥ 0, ∀x, y ∈ R (pozitivnost),

2) d(x, y) = 0 ⇐⇒ x = y (strogost),

3) d(x, y) = d(y, x), ∀x, y ∈ R (simetričnost),

4) d(x, y) ≤ d(x, z) + d(z, y),∀x, y, z ∈ R (nejednakost trokuta).

zovemo funkcija udaljenosti ili razdaljinska funkcija, odnosno metrika na skupu R.

Napomena 5.1.1 Funkciju d : R × R −→ R+ koja zadovoljava uvjete 1) i 2), aline zadovoljava nejednakost trokuta, a u nekim slučajevima ni svojstvo simetričnosti

zovemo kvazimetrička funkcija.

Za vektore x = [x1, x2, ..., xn]T ,y = [y1, y2, ..., yn]

T , xi, yi ∈ R, i = 1, . . . , n, mogu sedefinirati sljedeće funkcije:

2Polinomijalni problemi (P-problemi) – problemi koji su rješivi u polinomijalnom vremenu.Nepolinomijalni problemi (NP-problemi) – nisu poznati algoritmi koji rješavaju ove probleme u poli-nomijalnom vremenu. Za njih se u polinomijalnom vremenu može samo provjeriti da li je odredenainstanca problema ujedno i njegovo rješenje.Nepolinomijalno teški problemi (NP-teški problemi) – problemi za koje nismo sigurni da su u NPklasi, tj. ne možemo u polinomijalnom vremenu provjeriti da li je odredena instanca problema ujednoi njegovo rješenje [8].

25

• d1(x,y) =n∑

i=1

|xi − yi| – l1 metrička funkcija (Manhattan udaljenost)

• d2(x,y) =

√√√√ n∑i=1

(xi − yi)2 – l2 metrička funkcija (Euklidska udaljenost)

• dLS(x,y) =n∑

i=1

(xi − yi)2 – Least Squares (LS) kvazimetrička funkcija

• dp(x,y) =( n∑

i=1

|xi − yi|p) 1

p, p > 1 – lp metrička funkcija (metrika Minkowskog)

• d∞(x,y) = max{|xi − yi|, i = 1, . . . , n} – l∞ metrička funkcija (Čebǐsevljeva uda-ljenost)

Napomena 5.1.2 Primjetimo da u skupu R vrijedi:d1(x, y) = d2(x, y) = d∞(x, y) = dp(x, y), p ≥ 1, ∀x, y ∈ R.

Treba odrediti reprezentant (aproksimaciju) skupa A = {a1, . . . , an}, odnosno re-alan broj takav da svi elementi skupa A budu ”što bliže” tom broju. Pri tome pojam

”što bliže” shvaćamo kao najbolju l1, l2, lp ili l∞ aproksimaciju, ovisno o funkciji uda-

ljenosti koja se koristi. U ovom radu se koristi LS kvazimetrička funkcija i Euklidska

udaljenost.

Zapǐsimo skup A pomoću vektora a = [a1, . . . , an]T ∈ Rn. Tražimo vektor α =

[α, . . . , α]T ∈ Rn tako da d(a,α) bude minimalno, odnosno tražimo rješenje sljedećegproblema:

d2(a,α) =

√√√√ n∑i=1

(ai − α)2 =: G(α) → minα

. (6)

Ako je G(α∗) ≤ G(α), za svaki α ∈ R, onda je G2(α∗) ≤ G2(α), za svaki α ∈ R.Zato u cilju traženja α∗ ∈ R, koji je rješenje problema (6), možemo minimizirati

d22(a,α) =n∑

i=1

(ai − α)2 → minα

. (7)

26

Pokažimo da je rješenje problema (7) aritmetička sredina brojeva a1, . . . , an:

∂( n∑

i=1

(ai − α)2)

∂α= 0

n∑i=1

2(ai − α)(−1) = 0

n∑i=1

(ai − α) = 0

n∑i=1

ai − nα = 0

α =1

n

n∑i=1

ai

⇒ α∗ = 1n

n∑i=1

ai =: a. (8)

Aritmetička sredina realnih brojeva a1, . . . , an je jedinstveni broj koji ima svo-

jstvo da je suma kvadrata odstupanja brojeva ai do nekog čvrstog realnog broja naj-

manja onda ako je taj čvrsti broj upravo aritmetička sredina a. Što se može sažeti u

sljedeća dva svojstva [14]:

n∑i=1

(ai − λ)2 ≥n∑

i=1

(ai − a)2, ∀λ ∈ R, (9)

n∑i=1

(ai − a) = 0. (10)

Problem najbolje l2 aproksimacije funkcije koja je zadana na konačnom skupu

točaka obično se u literaturi naziva problem najmanjih kvadrata. Dok se prin-

cip odredivanja aproksimacije tako da suma kvadrata odstupanja svih mjerenja od

aproksimacije α bude minimalna, naziva princip najmanjih kvadrata3 ili češće metoda

najmanjih kvadrata [15].

Uvedimo sada oznaku argminx∈D

h(x) za skup svih točaka u kojima funkcija h : D →

R, D ⊂ R, postiže globalni minimum. Ovaj skup može biti i jednočlan. Prema [14]svakom klasteru πj ∈ Π, j = 1, . . . , k, možemo pridružiti njegov centar cj, uz zadanukvazimetričku funkciju d : R× R → R+, na sljedeći način

cj = c(πj) := argminx∈R

∑ai∈πj

d(x, ai). (11)

3Princip najmanjih kvadrata postavio je Carl Friedrich Gauss 1795. godine [15]

27

Ako na skupu svih particija P(A, k) skupa A sastavljenih od k klastera, koje zadovo-ljavaju (4) definiramo kriterijsku funkciju cilja F : P(A, k) → R+

F(Π) =k∑

j=1

∑ai∈πj

d(cj, ai), (12)

onda d-optimalnu particiju Π∗ tražimo rješavanjem sljedećeg optimizacijskog problema

F(Π∗) = minΠ∈P(A,k)

F(Π). (13)

Ovime se postiže da optimalna particija Π∗ ima minimalnu sumu odstupanja (”rasi-

panja”) elemenata klastera oko svog centra, odnosno nastoji se postići što bolja unu-

trašnja kompaktnost i separiranost klastera.

Definicija 5.1.2 Kažemo da je particija Π∗ optimalna u smislu najmanjih kvadrata

(LS-optimalna) ako je Π∗ rješenje optimizacijskog problema (12)-(13), a kvazimetrička

funkcija d : R× R → R+ definirana s

d(a, b) = (a− b)2. (14)

Kako je ranije navedeno, rješenje problema minimizacije u smislu najmanjih kvadrata

je aritmetička sredina podataka. Dakle, prema (8), centri c1, . . . , ck klastera π1, . . . , πk

odredeni su s

cj = argminx∈R

∑ai∈πj

(ai − x)2 =1

|πj|∑ai∈πj

ai, j = 1, . . . , k. (15)

Funkcija cilja (12) odredena je s

F(Π) =k∑

j=1

∑ai∈πj

(cj − ai)2. (16)

Primjer 5.1.1 Neka je zadan skup A = {0, 4, 8, 12}. Odrediti sve dvočlane particijeskupa A koje zadovoljavaju (4) i pronaći LS-optimalnu particiju, te odrediti vrijednosti

kriterijske funkcije cilja F , definirane s (16).

Sve dvočlane particije skupa A prikazane su u Tablici 1, ima ih 7. LS-optimalna par-

ticija je Π = {{0, 4}, {8, 12}}, jer na njoj kriterijska funkcija cilja F postǐze najmanjuvrijednost.

28

π1 π2 c1 c2 F(Π){0} {4, 8, 12} 0 8 32{4} {0, 8, 12} 4 20

374.67

{8} {0, 4, 12} 8 163

74.67{12} {0, 4, 8} 12 4 32{0,4} {8,12} 2 10 16{0, 8} {4, 12} 4 8 64{0, 12} {4, 8} 6 6 80

Tablica 1: Particije, centri i vrijednosti funkcije F

5.2 Grupiranje objekata s dva obilježja

Pretpostavimo sada da želimo objekte grupirati na osnovi dva obilježja (npr. klijente

u banci želimo grupirati prema neto plaći i ukupnim godinama radnog staža). Neka je

zadan konačan skup A = {a1, . . . , an} vektora iz R2, medu kojima može biti jed-nakih, gdje su ai = (xi, yi) ∈ R2, i = 1, . . . , n, n ≥ 2, koje želimo grupirati uk klastera koji zadovoljavaju (4). Analogno jednodimenzionalnom slučaju, možemo

definirati reprezentante skupa vektora, ovisno o funkciji udaljenosti.

Definicija 5.2.1 Funkciju d : R2×R2 −→ R+, koja ima svojstvo pozitivne definitnosti

d(x,y) ≥ 0, ∀x,y ∈ R2 & d(x,y) = 0 ⇔ x = y

zovemo kvazimetrička funkcija na R2.

Koristit ćemo dva tipa funkcija:

• dLS(x,y) = ∥x− y∥22 = (x− y)T (x− y) – LS kvazimetrička funkcija

• d2(x,y) = ∥x− y∥2 =√(x− y)T (x− y) – l2 metrička funkcija (Euklidska uda-

ljenost)

Odredimo reprezentant skupa vektora iz R2 u smislu najmanjih kvadrata. Analognojednodimenzionalnom slučaju, treba pronaći rješenje sljedećeg problema:

∥ai − u∥22 → minu∈R2

, u = (u1, u2) ∈ R2. (17)

Možemo ga zapisati na sljedeći način:

∥ai − u∥22 = (ai − u)T (ai − u) =n∑

i=1

((xi − u1)2 + (yi − u2)2) → minu1,u2

. (18)

29

Odredimo parcijalne derivacije:

∂

∂u1

n∑i=1

((xi − u1)2 + (yi − u2)2) = 0

n∑i=1

((xi − u1) = 0

n∑i=1

xi − nu1 = 0

⇒ u1 =1

n

n∑i=1

xi. (19)

Analogno,

∂

∂u2

n∑i=1

((xi − u1)2 + (yi − u2)2) = 0

⇒ u2 =1

n

n∑i=1

yi. (20)

Dakle, dobiveni vektor u =( 1n

n∑i=1

xi,1

n

n∑i=1

yi

)je reprezentant skupa vektora iz R2 i

naziva se centroid.

Centroid skupa vektora

c(A) = (x, y) ∈ R2, x = 1n

n∑i=1

xi, y =1

n

n∑i=1

yi, (21)

jedinstveni je vektor koji ima svojstvo da je suma kvadrata odstupanja točaka (xi, yi)

do neke čvrste točke iz R2 najmanja onda ako je ta čvrsta točka upravo centroid (x, y).Ističu se sljedeća dva svojstva [14]:

n∑i=1

∥ai − u∥22 ≥n∑

i=1

∥ai − c(A)∥22, ∀u ∈ R2, (22)

n∑i=1

(ai − c(A)) = 0. (23)

Napomena 5.2.1 Analogno se može definirati centroid skupa vektora iz Rn.

Svakom klasteru πj ∈ Π, j = 1, . . . , k, možemo pridružiti njegov centar cj, uzzadanu kvazimetričku funkciju d : R2 × R2 → R+, na sljedeći način

cj = c(πj) := argminx∈R2

∑ai∈πj

d(x, ai). (24)

30

Analogno jednodimenzionalnom slučaju, na skupu svih particija P(A, k) skupa A sas-tavljenih od k klastera, koje zadovoljavaju (4) definiramo kriterijsku funkciju cilja

F : P(A, k) → R+ na sljedeći način

F(Π) =k∑

j=1

∑ai∈πj

d(cj, ai), (25)

a d-optimalnu particiju Π∗ tražimo rješavanjem sljedećeg optimizacijskog problema

F(Π∗) = minΠ∈P(A,k)

F(Π). (26)

Definicija 5.2.2 Neka je A = {ai = (xi, yi) ∈ R2, i = 1, . . . ,m} skup vektora izR2. Kažemo da je particija Π∗ optimalna u smislu najmanjih kvadrata (LS-optimalna)ako je Π∗ rješenje optimizacijskog problema (25)-(26), a kvazimetrička funkcija d :

R2 × R2 → R+ definirana sd(a, b) = ∥a− b∥22 (27)

Kako je ranije navedeno, rješenje optimizacijskog problema u slučaju skupa vektora,

u smislu najmanjih kvadrata, je centroid skupa vektora. Dakle, prema (21), centri

c1, . . . , ck klastera π1, . . . , πk odredeni su s

cj = argminu∈R2

∑ai∈πj

∥ai − u∥22 =1

|πj|∑ai∈πj

ai, j = 1, . . . , k. (28)

Funkcija cilja (25) odredena je s

F(Π) =k∑

j=1

∑ai∈πj

∥cj − ai∥22. (29)

5.3 k-means algoritam

Problem traženja optimalne particije je problem globalne optimizacije, što je vrlo složen

problem. Najčešće korǐsten algoritam za pronalaženje particije dosta bliske optimalnoj

je k-means algoritam4.

Intuitivno:

• Treba odrediti najbolje grupiranje objekata u k klastera.

• Najbolje grupiranje je ono u kojemu su elementi klastera što bliži jedni drugima.

• Pretpostavimo da u svakom klasteru postoji jedna točka kojoj su svi elementiklastera bliži nego elementi drugog klastera. Nazovimo ju ”centar” klastera.

31

Slika 3: Ilustracija centara klastera

Algoritam se može primjeniti uz pretpostavku da smo na neki način dobro procjenili

početne centre klastera ili početnu particiju.

Algoritam 5.3.1 Standardni k-means algoritam

Korak 0 Učitati n, k, skup A i izabrati početne centre c01, . . . , c0k.

Korak 1 Primjenom principa minimalnih udaljenosti odrediti početnu particiju Π =

{π1, . . . , πk} tako da neki a ∈ A pripadne onom klasteru čiji je centar najblǐzielementu a. Izračunati centre c1, . . . , ck klastera π1, . . . , πk i početnu vrijednost

funkcije cilja F0 = F(Π).

Korak 2 Formirati novu particiju Λ = λ1, . . . , λk tako da neki a ∈ A pripadne onomklasteru čiji je centar najblǐzi elementu a. Izračunati njihove centroide l1, . . . , lk

i novu vrijednost funkcije cilja F1 = F(Λ)

Korak 3 Ako je F1 < F0, staviti cj = lj, j = 1, . . . , k; F0 = F1 i prijeći na Korak 2.

U protivnom, STOP [14].

Konačna raspodjela objekata u klastere, bit će zavisna od početne particije ili

početnog odabira centara. Prilikom traženja LS-optimalne particije skupa podataka

s jednim obilježjem, početni centri c1, . . . , ck klastera π1, . . . , πk u Koraku 0 Algoritma

5.3.1 mogu se odrediti na sljedeći način:

• sortirati skup podataka A = {a1, . . . , an} prema veličini od najmanjeg premanajvećem;

4Izraz ”k-means” je prvi puta upotrijebio James MacQueen 1967. g., dok je standardni algoritamprvi puta predložio Stuart Lloyd 1957. g. Algoritam kakvog danas poznajemo su objavili Hartigan iWong 1979. g. [1]

32

• razdijeliti skup A na k približno jednakih podskupova π1, . . . , πk, zadržavajućipri tome sortirani redosljed elemenata;

• za c0j , j = 1, . . . , k, uzeti aritmetičku sredinu skupa πj.

Primjedba 5.3.1 Aritmetička sredina ā skupa podataka A = {a1, . . . , an} je veličinakoja podjednako ovisi o svim podacima. Ako medu podacima postoje ekstremne vri-

jednosti, tada će upravo te vrijednosti značajno utjecati na aritmetičku sredinu i na

formiranje klastera.

Primjer 5.3.1 Neka je zadan skup A = {2, 3, 5, 10, 11, 12, 30}. Primjenom k-meansalgoritma pronaći dvočlanu particiju što blǐzu LS-optimalnoj.

Iteracija π1 π2 c1 c2 F(Π)1 {2, 3, 5, 10} {11, 12, 30} 5 17.67 266.672 {2, 3, 5, 10, 11} {12, 30} 6.2 21 228.83 {2,3,5,10,11,12} {30} 7.17 30 94.84

Tablica 2: Iterativan postupak pronalaženja LS-optimalne particije

U Tablici 2 je prikazan iterativan tijek pronalaženja LS-optimalne particije prim-

jenom Algoritma 5.3.1, uz početne centre c1 = 5 i c2 = 16. LS-optimalna particija je

Π = {{2, 3, 5, 10, 11, 12}, {30}}. Broj 30 predstavlja stršeću vrijednost u skupu A i uskladu s Primjedbom 5.3.1 čini zaseban klaster.

5.4 Odabir optimalnog broja klastera

Ukoliko broj klastera nije moguće odrediti iz prirode problema ili ukoliko nije zadan

unaprijed, potrebno je pronaći optimalan broj klastera.

Jedan od načina je promatranje kriterijske funkcije cilja. Naime, porastom broja

klastera, optimalna vrijednost funkcije cilja opada. Stoga za optimalan broj klastera

se može uzeti onaj za koji je vrijednost funkcije cilja naglo pala. Postoji i nekoliko

matematički definiranih indeksa čije se vrijednosti takoder mogu promatrati, npr.

Davis-Bouldinov indeks, Dunnov indeks (vidi [14]) i Calinski-Harabaszev indeks.

Calinski-Harabaszev indeks se može primjeniti prilikom traženja LS-optimalne par-

ticije i korǐsten je u empirijskom dijelu rada, a njegova formula za jednodimenzionalan

slučaj glasi:

VCH =

(n− k)k∑

j=1

nj(cj − c)2

(k − 1)k∑

j=1

∑ai∈πj

(cj − ai)2, (30)

33

uz oznake definirane u (4) i (11), pri čemu je c =1

n

n∑i=1

ai, centar (aritmetička sredina)

skupa A. Indeks se analogno može primjeniti i na vǐse dimenzija. Poželjna je što veća

vrijednost navedenog indeksa, jer će kompaktniji i bolje separirani klasteri rezultirati

većom vrijednosti indeksa.

34

6 EMPIRIJSKI DIO: Segmentacija klijenata banke

klaster analizom

Kako je ranije navedeno, klaster analiza ima vrlo široko područje primjene. U nastavku

će biti prikazana moguća primjena u bankarstvu i kreditnom skoringu.

S razvojem kreditne industrije i sve složenije bankarske prakse dolazi do razvoja

statističkih modela koji služe za donošenje kreditnih odluka. Kreditni skoring je postao

najvažniji alat kojeg koriste financijske i kreditne institucije s ciljem predvidanja kred-

itnih sposobnosti zajmotražitelja.

Kreditni skoring (engl. credit scoring) je sistem dodjeljivanja bodova zajmotražitelju

čiji zbroj predstavlja numeričku vrijednost koja pokazuje koliko je vjerojatno da za-

jmotražitelj kasni u otplati kredita. Kredit skoring sistem dodjeljuje jednu kvantita-

tivnu mjeru, nazvanu skor, potencijalnom komitentu predstavljajući buduće ponašanje

u otplati kredita. Kreditni skor se izračunava na temelju skor-kartice, koja obuhvaća

skupinu karakteristika koje su raspodijeljene prema atributima, od kojih svaki ima

statistički izveden skor ili ”težinu”. Koriste se samo one karakteristike za koje je

statistički provjereno da su prediktori budućeg ponašanja pri otplati kredita. Dobiveni

kreditni skor predstavlja rang listu rizika, što je veći skor, manji je rizik i obratno. Fi-

nancijska institucija odreduje graničnu vrijednost skora koja dijeli ”dobre” komitente

od ”loših”, te s obzirom na vrijednost skora odobrava ili ne odobrava kredit [19].

Diskriminantna analiza i linearna regresija su bile najčešće korǐstene metode za

izgradnju skor-kartica u prošlosti. Novije metode uključuju logističku regresiju, probit

analizu, matematičko programiranje, Markovljeve lance, ekspertne sustave, genetičke

algoritme, neuronske mreže, itd. [5].

Neovisno o tome koja se metoda koristi za izgradnju kredit skoring modela, cilj

je izgraditi takav model koji sa što većom točnošću razlikuje dobre klijente od loših.

Klaster analiza se pri tome pokazala vrlo korisnom i koristi se za grupiranje klijenata

prema zajedničkim karakteristikama, kako bi se smanjio postotak pogrešno klasifici-

ranih klijenata.

6.1 Prethodna istraživanja

Sljedeća istraživanja prikazuju moguću primjenu klaster analize u kreditnom skoringu

u kombinaciji s drugim metodama.

Punj i Steward [13] predlažu metodu koja kombinira Wardovu metodu s k-means

metodom. Smisao ove metode je u tome što hijerarhijske metode mogu odrediti broj

klastera i početne centre klastera, dok nehijerarhijske metode, kao što je k-means

metoda, mogu dati bolje konačno rješenje. Gopalakrishnan, Sridhar i Krishnamurthy

[2], te Sung [17] predlažu hibridni model koji koristi neuronske mreže i algoritme klaster

metode. Kuo, Ho, i Hu [10] su izgradili metodu od dvije faze, koja koristi samoorga-

35

nizirajuće mape5 za odredivanje broja klastera, a zatim pomoću k-means algoritma

rasporeduje podatke u klastere.

Na osnovi navedenih studija, Nan-Chen Hsieh [6] predstavlja hibridni pristup u

dizajniranju efektivnog modela kreditnog skoringa koji se temelji na tehnikama klas-

teriranja i neuronskih mreža. Hibridni skoring model ima dvije faze. Cilj prve faze

je pomoću klaster analize odrediti pripadnost klijenata skupini ”dobrih” ili ”loših”, te

otkriti nereprezentativne podatke u uzorku. Cilj druge faze je pronaći najbolju arhitek-

turu neuronske mreže, trenirati ju na podacima procesiranima klaster analizom, te iz-

graditi kredit skoring model. Model je primijenjen i testiran na stvarnim njemačkim i

australskim kreditnim podacima. Njemački uzorak se sastojao od 1000 aplikanata, 700

dobrih i 300 loših, a australski od 690 aplikanata, 468 dobrih i 222 loša. Klaster anal-

iza je provedena u dva koraka, prvo je uz pomoć samoorganizirajućih mapa odreden

broj klastera i centar svakog klastera. Utvrdeno je da se najbolja segmentacija uzoraka

postiže podjelom svakog uzorka u četiri klastera, od kojih dva predstavljaju tendenciju

prema dobrom, a dva prema lošem kreditnom statusu. Zatim je upotrebljen k-means

algoritam za rasporedivanje aplikanata u klastere i eliminiranje nereprezentativnih uzo-

raka iz svakog klastera. Niti jedan uzorak nije sadržavao izolirane klastere (klastere s

malim brojem podataka), ali je njemački uzorak imao nekonzistentan klaster (klaster

koji sadrži i dobre i loše aplikante). Taj klaster je podijeljen u dva dijela prema origi-

nalnom kreditnom statusu aplikanata (engl. class-wise classification), kako bi se moglo

pratiti njihovo buduće ponašanje. Svakom aplikantu je dodana oznaka klastera ko-

jemu pripada, utvrdena je najbolja arhitektura neuronske mreže i napravljen je model.

Pokazano je da se ovakav hibridni model može koristiti u izgradnji efektivnog kredit

skoring modela, jer su greške manje, a preciznost modela značajno veća.

Nan-Chen Hsieh i Lun-Ping Hung [7] su istraživali mogućnosti multi-klasifikacijskog

pristupa u kreditnom skoringu. Ovaj pristup uključuje tri različite metode izgradnje

modela na podacima procesiranima klaster analizom. Metode koje se koriste su neu-

ronske mreže, Bayesove mreže i SVM6. Klaster analiza je provedena u dva koraka, prvo

je pomoću Bayesovog informacijskog kriterija odreden broj klastera, zatim je primi-

jenjen k-means algoritam. Model je primijenjen i testiran na istim njemačkim kredit-

nim podacima, kao i prethodno opisani hibridni model. Primjenom Bayesovog kriterija

utvrdeno je da je optimalan broj klastera tri. Nakon primjene k-means algoritma za-

ključeno je da su sva tri klastera nekonzistentna, stoga je svaki klaster podijeljen na

dva dijela prema originalnom kreditnom statusu aplikanata. Testiranjem krajnjeg mod-

ela je zaključeno da model koji koristi multi-klasifikacijski pristup daje bolje rezultate,

5Samoorganizirajuća mapa (engl. self-organizing map) je vrsta neuronske mreže, trenirana nenad-gledanim učenjem s ciljem reprezentiranja vǐse-dimenzionalnih podataka u dvije dimenzije. Omogućujekontinuirano dodavanje podataka klasteru s najbližim centrom, bez obzira na početno zadane uvjetei tako odreduje optimalan broj klastera i njihove centre [6].

6SVM (engl. support vector machine) – metoda potpornih vektora je metoda nadgledanog učenjakoja analizira podatke i prepoznaje uzorke, te se koristi za klasifikaciju i regresijsku analizu [18].

36

nego svaka metoda primijenjena posebno.

Usporedujući ova dva kredit-skoring modela izgradena na istom uzorku može se

zaključiti da broj klastera ovisi o kriteriju koji se koristi.

Danuta Zakrzewska [21] je istražila mogućnost kombiniranja klaster analize sa sta-

blima odlučivanja. Modeli su izgradeni na stvarnim njemačkim i japanskim kreditnim

podacima. Prvo su pomoću klaster analize uzorci podijeljeni u klastere, zatim je pomoću

stabla odlučivanja izgraden model za svaki klaster posebno. Pokazano je da su rezul-

tati modela bolji ukoliko je uzorak podijeljen u klastere, u odnosu na rezultate modela

izgradenog na cijelom uzorku.

Upotrebu klaster analize u bihevioralnom skoringu istražili su Michael K. Lim i So

Young Sohn [11]. Oni predlažu dinamični skoring model u kojem su klijenti kojima je

odobren kredit podijeljeni u klastere, a period vraćanja kredita je podijeljen u segmente.

Pokazano je da ovakav model omogućuje ranije predvidanje statusa klijenta. Model

je testiran na stvarnim podacima jedne vodeće korejske banke na uzorku od 1040

klijenata kojima je odobren kredit uz vrijeme otplate 18 mjeseci. K-means algoritmom

je uzorak podijeljen u tri klastera, a vrijeme promatranja od 12 mjeseci je podijeljeno

na kvartale. Neuronske mreže su trenirane posebno za svaki klaster i svaki kvartal, te

je izgradeno 12 skoring modela. Usporedujući rezultate modela izgradenog na cijelom

uzorku i dinamičnog modela, utvrdeno je da se jednaki postotak pogrešne klasifikacije

postiže puno ranije s dinamičnim modelom. Za klaster u kojemu su ekonomski bolje

stojeći klijenti potrebno je 6 mjeseci, a za klaster s loše stojećim klijentima samo 3

mjeseca. Za klaster sa ”srednjim slojem” potrebno je 9 mjeseci (uz razinu značajnosti

0.10). Zaključeno je da je 9 mjeseci dovoljno za predvidanje kreditnog statusa svih

klijenata.

6.2 Opis uzorka i varijabli za modeliranje

Klaster analiza je provedena na stvarnim podacima jedne hrvatske banke. Uzorak se

sastojao od 1956 klijenata banke kojima je odobren kredit, opisanih sa sljedećih 13

varijabli.

Naziv i opis varijabli:

Spol – spol klijenta – kategorijalna varijabla.

Kategorije: 101 - žene; 102 - muškarci; 100 - bez odgovora.

Dobar/Loš – izlazna varijabla koja pokazuje kako je klijent vraćao kredit, je li klijent

dobar ili loš. Loš je ako je u promatranom periodu kasnio u plaćanju barem 1

rate kredita 3 mjeseca ili vǐse – kategorijalna varijabla.

Kategorije: 101 - loš; 102 - dobar; 100 - bez odgovora.

Stručna sprema – stručna sprema klijenta – kategorijalna varijabla.

37

Kategorije: 101 - nkv; 102 - pkv; 103 - nss; 104 - kv; 105 - sss; 106 - všs; 107 -

vss, mr, dr; 100 - bez odgovora.

Radni staž – ukupni radni staž koji uključuje i godine i mjesece, npr. ako klijent

ima 10 godina i 3 mjeseca radnog staža, tada je u ovoj koloni upisan broj 10,25

(10+(3/12)) – kontinuirana varijabla koja je kategorizirana.

Kategorije: 101 - ≤ 5; 102 - 5,01 – 10,00; 103 - 10,01 – 15,00; 104 - 15,01 – 19,00;105 - 19,01 – 24,00; 106 - 24,01 – 50,00; 100 - bez odgovora.

Bračno stanje – bračno stanje klijenta – kategorijalna varijabla.

Kategorije: 101 - samac; 102 - u braku; 103 - rastavljen; 104 - udovac; 105 -

izvanbračna zajednica; 100 - bez odgovora.

Broj članova kućanstva – broj članova kućanstva klijenta – diskretna numerička

varijabla.

Kategorije: 101 - 1; 102 - 2, 3; 103 - 4, 5; 104 - 6, 7, 8, 9, 12; 100 - bez odgovora.

Stanovanje – stambeni status klijenta – kategorijalna varijabla.

Kategorije: 101 - vlastiti stambeni prostor; 102 - unajmljeni; 103 - kod roditelja;

104 - ostalo; 100 - bez odgovora.

Neto plaća – neto plaća klijenta u kn – kontinuirana varijabla koja je kategorizirana.

Kategorije: 101 - do 2500; 102 - do 3500; 103 - do 5000; 104 - do 9000; 105 - vǐse

od 9000; 100 - bez odgovora.

Mjesečne obustave – mjesečne obustave na plaću u kn – kontinuirana varijabla koja

je kategorizirana.

Kategorije: 101 - nema; 102 - ima; 100 - bez odgovora.

Administrativne obustave – mjesečne obustave na plaću u kn – kontinuirana vari-

jabla koja je kategorizirana.

Kategorije: 101 - 0; 102 - 1 – 700; 103 - 701 – 1500; 104 - 1501 – 2000; 105 - vǐse

– 2000; 100 - bez odgovora.

Sudužnik – ima li klijent po tom kreditu sudužnika ili nema – kategorijalna varijabla.

Kategorije: 101 - nema sudužnika; 102 - ima sudužnika.

Poslodavac – tip poslodavca gdje je dužnik zaposlen – kategorijalna varijabla.

Kategorije: 101 - trgovačko društvo; 102 - obrt; 103 - slobodna zanimanja; 104 -

javna uprava; 105 - javne ustanove; 106 - financijske institucije; 107 - umirovlje-

nik; 108 - ostalo; 100 - bez odgovora.

38

6.3 Provodenje klaster analize po koracima

6.3.1 Postavljanje ciljeva i odabir varijabli za klasteriranje

Postavljanje ciljeva – cilj istraživanja je otkrivanje prirodnog grupiranja podataka

(taksonomije), te otkrivanje veza medu podacima, u ovom slučaju klijentima

banke. Treba pronaći klijente koji posjeduju zajedničke karakteristike vezane uz

plaću, radni staž i stručnu spremu, poslodavca kod kojeg su zaposleni, te bračni i

stambeni status. Osim istraživanja strukture podataka, cilj je i pronalazak takvog

rješenja s kojim je moguće izgraditi kredit skoring model za svaki klaster.

Odabir varijabli – varijable su odabrane u skladu sa željenim ciljem.

U analizu su uključene sljedeće varijable: Korisnik mastera, Stručna sprema,

Radni staž, Bračno stanje, Broj članova kućanstva, Stanovanje, Neto

plaća, Mjesečne obustave, Sudužnik i Poslodavac.

Iz anali

Documents

Klaster analiza i njena primjena u bankarstvumdjumic/uploads/diplomski/KIš04.pdf · Klaster analizom je mogu ce posti ci bilo koji od sljede ca tri cilja ili njihovu kombinaciju: