Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Sveučilǐste J. J. Strossmayera u OsijekuOdjel za matematiku
Diplomski studij financijske i poslovne matematike
Željka Kǐs
Klaster analiza i njena primjenau bankarstvu
Diplomski rad
Osijek, 2012.
Sveučilǐste J. J. Strossmayera u OsijekuOdjel za matematiku
Diplomski studij financijske i poslovne matematike
Željka Kǐs
Klaster analiza i njena primjenau bankarstvu
Diplomski rad
Mentor: prof. dr. sc. Nataša ŠarlijaKomentor: prof. dr. sc. Mirta Benšić
Osijek, 2012.
Sažetak: U radu je promotren problem grupiranja podataka u relativno homogene
grupe. Tehnika koja se najčešće koristi za ovu namjenu je klaster analiza. Klaster ana-
liza je opisana s teorijskog i praktičnog aspekta. Dani su koraci za provodenje klaster
analize u praksi i provedeno je empirijsko istraživanje. Analiza je provedena na stvarnim
podacima jedne hrvatske banke za segmentaciju klijenata. Dva konačna rješenja su
opisana i interpretirana.
Ključne riječi: klaster analiza, k-means algoritam, Wardova metoda, kriterij najma-
njih kvadrata.
Abstract: Problem of grouping data into relatively homogenous groups is presented.
Cluster analysis is the most used technique for this purpose. Cluster analysis is de-
scribed from theoretical and practical aspect. Steps for analysis in practice are given
and empirical research is done. Analysis is performed on real data set from one of the
Croatian banks for client segmentation. Two final solutions are described and inter-
preted.
Key words: cluster analysis, k-means algorithm, Ward’s method, Least squares cri-
teria.
Sadržaj
1 UVOD 1
2 POJAM KLASTER ANALIZE 2
2.1 Nedostaci klaster analize . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 KORACI PRI PROVODENJU KLASTER ANALIZE 4
3.1 Postavljanje ciljeva klaster analize . . . . . . . . . . . . . . . . . . . . . 4
3.1.1 Cilj istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.2 Odabir varijabli za klasteriranje . . . . . . . . . . . . . . . . . . 5
3.2 Dizajniranje istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2.1 Veličina i reprezentativnost uzorka . . . . . . . . . . . . . . . . 6
3.2.2 Otkrivanje stršećih vrijednosti (outliera) . . . . . . . . . . . . . 6
3.2.3 Standardizacija podataka . . . . . . . . . . . . . . . . . . . . . . 7
3.2.4 Odabir mjere sličnosti objekata . . . . . . . . . . . . . . . . . . 8
3.3 Kreiranje klastera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.4 Interpretacija klastera . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.5 Validacija i profiliranje klastera . . . . . . . . . . . . . . . . . . . . . . 10
3.5.1 Cross-validacija . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.5.2 Profiliranje klastera . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 METODE KLASTERIRANJA 12
4.1 Hijerarhijske metode klasteriranja . . . . . . . . . . . . . . . . . . . . . 12
4.1.1 Metode povezivanja . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.2 Centroidna metoda . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.3 Wardova metoda . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.4 Prednosti i nedostaci hijerarhijskog klasteriranja . . . . . . . . . 19
4.2 Nehijerarhijske metode klasteriranja . . . . . . . . . . . . . . . . . . . . 20
4.2.1 Prednosti i nedostaci nehijerarhijskog klasteriranja . . . . . . . 21
4.3 Odluka o broju klastera . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 MATEMATIČKO ZNAČENJE KLASTER
ANALIZE 23
5.1 Grupiranje objekata s jednim obilježjem . . . . . . . . . . . . . . . . . 24
5.2 Grupiranje objekata s dva obilježja . . . . . . . . . . . . . . . . . . . . 28
5.3 k-means algoritam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.4 Odabir optimalnog broja klastera . . . . . . . . . . . . . . . . . . . . . 32
6 EMPIRIJSKI DIO: Segmentacija klijenata banke klaster analizom 34
6.1 Prethodna istraživanja . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.2 Opis uzorka i varijabli za modeliranje . . . . . . . . . . . . . . . . . . . 36
6.3 Provodenje klaster analize po koracima . . . . . . . . . . . . . . . . . . 38
6.3.1 Postavljanje ciljeva i odabir varijabli za klasteriranje . . . . . . 38
6.3.2 Dizajniranje istraživanja . . . . . . . . . . . . . . . . . . . . . . 38
6.3.3 Kreiranje klastera: Rješenje 1 . . . . . . . . . . . . . . . . . . . 39
6.3.4 Interpretacija i profiliranje klastera iz Rješenja 1 . . . . . . . . . 41
6.3.5 Validacija klastera iz Rješenja 1 . . . . . . . . . . . . . . . . . . 48
6.3.6 Kreiranje klastera: Rješenje 2 . . . . . . . . . . . . . . . . . . . 49
6.3.7 Interpretacija i profiliranje klastera iz Rješenja 2 . . . . . . . . . 51
6.3.8 Validacija klastera iz Rješenja 2 . . . . . . . . . . . . . . . . . . 54
6.4 Zaključak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7 PRIMJENA KLASTER ANALIZE U BANKARSTVU 55
8 ZAKLJUČAK 56
1
1 UVOD
Klaster analiza (engl. cluster analysis) je jedna od metoda multivarijantne analize.
Multivarijantna analiza se temelji na principima multivarijantne statistike, koja uklju-
čuje promatranje i analizu dviju ili vǐse varijabli istovremeno. Multivarijantna ana-
liza se može provoditi u smislu istraživanja ili potvrdivanja veza medu varijablama.
Istraživačke metode su vrlo korisne za razumijevanje, često vrlo kompleksnih, multi-
varijantnih veza medu varijablama.
Znanstvenici i istraživači se često susreću s problemima koji zahtijevaju podjelu
podataka u grupe, bilo da je riječ o proizvodima, tvrtkama ili ljudima, te njihovim
osobinama i sklonostima. Razlozi za to mogu biti različiti, od činjenice da je lakše
obradivati manje grupe podataka, do potrebe za pronalaskom smislenih grupa unutar
populacije. Najčešće korǐstena tehnika za ovu namjenu je klaster analiza i ona je jedan
od prvih koraka prilikom rudarenja podataka (engl. data mining).
Koristi se u prirodnim i društvenim znanostima, u biologiji za grupiranje svih živih
organizama, u psihologiji za klasifikaciju zasnovanu na osobnosti i drugim osobnim
značajkama, u ekonomiji i poslovanju za segmentacijsku analizu tržǐsta i ciljani mar-
keting (engl. target marketing), sociologiji, te mnogim drugim područjima istraživanja.
Cilj ovog rada je opisati klaster analizu s teorijskog aspekta, te u empirijskom dijelu
prikazati moguću primjenu u kreditnom skoringu.
U drugom poglavlju je opisan pojam klaster analize i njezini nedostaci.
U trećem poglavlju je opisano provodenje klaster analize u pet koraka. Opisani
su ciljevi koji se mogu postići klaster analizom. Objašnjeno je na što treba paziti
prilikom odabira varijabli za klasteriranje, te kako dizajnirati istraživanje i odabrati
mjeru sličnosti. Ukratko su opisane metode klasteriranja i nakon toga interpretacija
klastera, ta kao završni korak, validacija i profiliranje klastera.
U četvrtom poglavlju su detaljno opisane metode klasteriranja. Opisane su najčešće
korǐstene metode hijerarhijskog i nehijerarhijskog klasteriranja, te njihove prednosti i
nedostaci.
Peto poglavlje je posvećeno matematičkoj osnovi klaster analize. Opisano je grupi-
ranje objekata na temelju jednog i dva obilježja, te k-means algoritam.
Šesto poglavlje je posvećeno empirijskom dijelu rada. Klaster analiza je provedena
na stvarnim podacima jedne hrvatske banke za segmentaciju klijenata. Odabrana su
dva konačna rješenja.
U sedmom poglavlju je opisana primjena klaster analize u bankarstvu, te problemi
do kojih može doći prilikom primjene.
2
2 POJAM KLASTER ANALIZE
Pojam klaster analize se prvi puta spominje 1939. godine [1]. Klaster analiza je is-
traživačka metoda, čija je osnovna namjena grupiranje objekata na temelju karakteris-
tika koje posjeduju. Grupe koje pri tome nastaju i koje posjeduju zajedničke osobine,
nazivaju se klasteri (engl. cluster). Cilj klaster analize je pronalaženje optimalnog grupi-
ranja, takvog da je sličnost medu objektima unutar svake grupe maksimalna, a sličnost
izmedu grupa minimalna. Objekti u istom klasteru su sličniji jedni drugima, nego što
su objektima u drugim klasterima.
Klaster analiza se razlikuje od klasifikacije. Kod klasifikacije je unaprijed poznat
broj i struktura grupa, a cilj je rasporediti podatke u odgovarajuće grupe. Nasuprot
tome, klaster analiza ne zahtjeva nikakve pretpostavke o broju i strukturi grupa u koje
će podaci biti rasporedeni, nego se grupiranje vrši na osnovi sličnosti medu podacima.
Ovdje se pojavljuje problem definiranja sličnosti, jer to uključuje veliku dozu subjek-
tivnosti. Različiti odabiri mjere sličnosti, odnosno udaljenosti medu podacima, dovest
će do formiranja različitih grupa.
Klaster analiza je prvenstveno namijenjena grupiranju objekata (osoba, proizvoda,
ponašanja ili bilo kakvih entiteta), ali može se koristiti i za grupiranje varijabli, uz
primjenu odgovarajuće mjere sličnosti. Za grupiranje varijabli je pogodnija faktorska
analiza (vidi [4]). U ovom radu je naglasak stavljen na grupiranje objekata i pojam
”objekt” u daljnjem tekstu označava slučajeve nad kojima se provodi klaster analiza.
Objekti mogu imati jednu ili vǐse karakteristika, predstavljenih varijablama, prema ko-
jima se grupiraju u klastere. Dakle, u matrici podataka se u stupcima nalaze varijable,
a u redovima objekti i klasteriranje se provodi po redovima.
Prilikom provodenja klaster analize, istraživači se susreću sa sljedećim pitanjima:
• Kako mjeriti sličnost izmedu objekata?
• Kako formirati klastere?
• Koliko klastera formirati?
Odgovori na ova pitanja dani su u radu.
Istraživači moraju dobro poznavati problem, kao i teoriju koja stoji iza proma-
tranog problema, kako bi mogli razlikovati ”dobra” grupiranja od ”loših”, te pronaći
prirodan način grupiranja koji je smislen za promatrani problem. Takoder, moraju biti
u mogućnosti objasniti nastanak klastera i protumačiti koje varijable i zašto utječu na
to da pojedini objekt završi u svom klasteru. Konačno rješenje mora biti takvo da je
moguće karakterizirati svaki klaster i dati mu ime ili oznaku koja ga najbolje opisuje.
Klaster analizi treba pristupati s velikim oprezom, jer će ona rezultirati rješenjem i
u slučaju da logička osnova za postojanje klastera ne postoji i to je jedan od njezinih
najvećih nedostataka.
3
2.1 Nedostaci klaster analize
1. Klaster analiza nema čvrstu statističku osnovu, prema kojoj bi se mogli izvesti
jasni statistički zaključci o populaciji na osnovi uzorka. Mnogi je smatraju samo
istraživačkom i opisnom tehnikom. Nǐsta ne garantira jedinstveno rješenje, jer
formiranje klastera ovisi o svim koracima klaster analize i promjena samo jednog
elementa mijenja rješenje.
2. Klaster analiza će uvijek kreirati klastere, bez obzira na stvarno postojanje bilo
kakve strukture podataka. Dakle, treba imati na umu da pronalazak klastera ne
garantira njihovo stvarno postojanje. U obzir se trebaju uzeti jedino rješenja koja
se mogu objasniti.
3. Rješenja klaster analize se ne mogu generalizirati jer u potpunosti ovise o var-
ijablama i podacima koji se koriste pri analizi. Dodavanje varijabli može imati
značajan utjecaj na konačno rješenje.
Dakle, klaster analiza u potpunosti ovisi o odlukama istraživača i svaka njegova odluka
treba biti potkrijepljena teorijskom osnovom.
4
3 KORACI PRI PROVODENJUKLASTER ANAL-
IZE
Provodenje klaster analize se može promatrati kroz sljedećih 5 koraka [4]:
1. Postavljanje ciljeva klaster analize
2. Dizajniranje istraživanja
3. Kreiranje klastera
4. Interpretacija klastera
5. Validacija i profiliranje klastera.
3.1 Postavljanje ciljeva klaster analize
Primarni cilj klaster analize je podijeliti skup objekata u dvije ili vǐse grupa na temelju
sličnosti objekata za odabrane karakteristike. Kako bi ostvario taj cilj, istraživač prvo
mora odrediti cilj istraživanja i varijable koje najbolje karakteriziraju objekte i koje su
izravno povezane s ciljem istraživanja.
3.1.1 Cilj istraživanja
Klaster analizom je moguće postići bilo koji od sljedeća tri cilja ili njihovu kombinaciju:
Opisivanje taksonomije – klaster analiza se najčešće koristi kao istraživačka tehnika
u svrhu otkrivanja prirodnih grupa unutar podataka. Taksonomija (grč. tassein
- svrstati; nomos - zakon, znanost) je znanstvena disciplina koja na temelju
sličnosti i razlika taksonomske jedinice kategorizira i razvrstava u skupine. U
početku se termin ”taksonomija” odnosio samo na znanost o klasifikaciji živih
organizama. Sada se taj termin koristi u mnogo širem smislu i odnosi se na
klasifikaciju stvari (živa i neživa bića, mjesta, pojmovi, dogadaji, itd.), kao i
na principe te klasifikacije [20]. Taksonomija je empirijski zasnovana klasifikacija
objekata.
Klaster analiza se takoder može koristiti za potvrdivanje ili odbacivanje prethodno
postavljenih hipoteza o strukturi podataka. Tada kažemo da se koristi u svrhu
potvrdivanja i empirijski dobiveni rezultati se mogu usporediti s teorijski do-
bivenim rezultatima.
Pojednostavljenje podataka – istraživač se može susresti s velikom količinom po-
dataka, koje je teško obraditi i koji nemaju smisla dok se ne podjele u manje
grupe. Definiranjem strukture podataka, klaster analiza ujedno pruža pojednos-
tavljeni prikaz podataka. Tako da je moguće analizirati grupe sličnih podataka,
5
umjesto pojedinačnih podataka. Svaki podatak je tada karakteriziran osobinama
klastera kojemu pripada.
Otkrivanje veza medu podacima – pronalaženjem klastera se otkrivaju veze medu
podacima koje u većini slučajeva nije moguće otkriti promatranjem pojedinačnih
podataka.
3.1.2 Odabir varijabli za klasteriranje
Ovo je jedna od najvažnijih odluka pri provodenju klaster analize jer istraživač odabi-
rom varijabli izravno utječe na moguća rješenja klaster analize. Odabir varijabli treba
provesti u skladu s teorijskim i praktičnim načelima. Treba odabrati one varijable
koje najbolje karakteriziraju objekte nad kojima se provodi analiza i koje su povezane
s ciljem klaster analize koji se želi postići. Istraživač treba biti svjestan utjecaja koji
svaka varijabla ima na rješenje, kao i činjenice da klaster analiza ne razlikuje irelevantne
varijable od relevantnih.
Problem koji može značajno utjecati na rješenje je multikolinearnost varijabli. Mul-
tikolinearnost se odnosi na medusobnu povezanost vǐse varijabli, odnosno veliku ko-
relaciju izmedu njih. Multikolinearnost predstavlja problem i kod drugih multivarijant-
nih tehnika jer je teško odrediti pravi utjecaj koreliranih varijabli. U klaster analizi,
multikolinearnost djeluje kao proces dodjeljivanja težina koreliranim varijablama i one
tada imaju dominantan utjecaj na mjeru sličnosti, a time i na konačno rješenje.
Promotrimo jednostavan primjer. Pretpostavimo da želimo grupirati klijente na
temelju 10 karakteristika, odnosno varijabli i da smo izračunavanjem koeficijenta ko-
relacije utvrdili da je od toga 8 varijabli visoko korelirano. Dakle, dobili smo dva skupa
varijabli, jedan od 8 varijabli i drugi od preostale 2 varijable. Ako bi u analizu uključili
svih 10 varijabli, 8 koreliranih varijabli bi imalo 4 puta veću šansu za utjecanje na
mjeru sličnosti. Rezultat bi bio dominiran koreliranim varijablama. U ovom slučaju bi
trebalo iz skupa koreliranih varijabli odabrati samo dvije, kako bi imale ravnopravan
utjecaj na rješenje u odnosu na nekorelirane varijable.
Postoji nekoliko pristupa rješavanju problema multikolinearnosti. Jedan od načina
je odrediti skupove varijabli s približno jednakim koeficijentom korelacije i iz svakog
skupa odabrati jednak broj varijabli, kao u prethodnom primjeru. Drugi način je
uključiti u analizu samo one varijable koje imaju najmanju korelaciju s ostalim var-
ijablama, ukoliko je to moguće. Treća mogućnost je od nekoliko koreliranih varijabli
definirati jednu.
Takoder, poželjno je u analizu uključiti samo one varijable s kojima se postižu
najveće razlike izmedu klastera. Istraživač treba proučiti dobivene rezultate i isključiti
iz analize one varijable kod kojih se ne postižu razlike izmedu klastera, jer je jedino
na taj način moguće dobiti klastere koji se maksimalno razlikuju i koje je moguće
profilirati.
6
3.2 Dizajniranje istraživanja
Nakon postavljanja cilja klaster analize i odabranih varijabli, a prije samog izvodenja
analize, potrebno je pronaći odgovore na još neka pitanja, kao što su reprezentativnost
uzorka i otkrivanje stršećih vrijednosti, trebaju li podaci biti standardizirani, te koju
mjeru sličnosti odabrati.
3.2.1 Veličina i reprezentativnost uzorka
Veličina uzorka nije uvjetovana nikakvim statističkim zahtjevima, kao što je to slučaj
kod nekih drugih statističkih metoda. Uzorak treba biti dovoljno velik da adekvatno
predstavlja populaciju i njezinu strukturu, odnosno sve relevantne grupe, posebno male.
Što je uzorak manji, teže je uočiti razliku izmedu stršećih podataka (engl. outliers)
i relevantnih malih grupa podataka. Veći uzorci osiguravaju veći broj podataka i u
malim grupama i olakšavaju njihovu identifikaciju. Veličina uzorka je povezana i s
ciljem analize. Ukoliko je cilj analize otkrivanje malih grupa unutar populacije, tada je
bitno da uzorak bude veći. Ako je cilj podijeliti podatke u nekoliko većih grupa, tada
nije toliko bitna razlika izmedu stršećih podataka i relevantnih podataka.
Klaster analiza je dobra onoliko koliko je dobra reprezentativnost uzorka.
3.2.2 Otkrivanje stršećih vrijednosti (outliera)
Klaster analiza je osjetljiva na postojanje stršećih vrijednosti. Stršeće vrijednosti su
objekti koji su drugačiji od svih ostalih. Oni mogu predstavljati:
1. Neprirodne objekte, koji nisu dobri predstavnici populacije i u tom slučaju oz-
biljno narušavaju reprezentativnost uzorka i rješenja, te trebaju biti uklonjeni.
2. Reprezentativne objekte, ali koji čine male i beznačajne segmente unutar popu-
lacije i koji nisu povezani s ciljem analize. Njih takoder treba ukloniti, kako bi
rješenje sadržavalo klastere koji predstavljaju relevantne segmente populacije.
3. Reprezentativne objekte koji predstavljaju bitne segmente populacije, ali su slabo
zastupljeni u uzorku. Njih treba zadržati u uzorku.
Stršeće vrijednosti je moguće otkriti:
1. Grafičkim prikazivanjem podataka.
2. Primjenom neke od mjera sličnosti ili udaljenosti i izračunavanjem sličnosti/uda-
ljenosti izmedu svih objekata. Objekti najrazličitiji/ najudaljeniji od svih ostalih
predstavljaju stršeće vrijednosti.
3. Njihovim pojavljivanjem u konačnom rješenju klaster analize kao klastera s jed-
nim ili nekoliko članova.
7
3.2.3 Standardizacija podataka
Istraživač treba razmotriti mogućnost standardizacije podataka ukoliko varijable koje
su uključene u analizu imaju različite mjerne jedinice ili veliku disperziju podataka.
Mjere udaljenosti su osjetljive na različite mjerne jedinice i magnitude podataka, a
varijable s velikom disperzijom podataka, odnosno velikom standardnom devijacijom,
imaju veći utjecaj na konačno rješenje nego što bi trebale imati. Ne postoji jasno pravilo
o tome da li podatke treba standardizirati ili ne. Neki istraživači sugeriraju standard-
izaciju, dok drugi tvrde da ona nema značajan utjecaj. Ono što je sigurno je to da
ju ne treba primjenjivati bez razmatranja mogućih posljedica, kao što je uklanjanje
prirodnih veza medu podacima.
Standardizacija varijabli
Najčešće korǐsten oblik standardizacije je standardizacija varijabli. Ona se provodi
oduzimanjem srednje vrijednosti varijable od stvarnih vrijednosti varijable i podjelom
dobivene razlike sa standardnom devijacijom za svaku varijablu. Varijable u standard-
iziranom obliku imaju srednju vrijednost 0 i standardnu devijaciju 1. Tako se elimini-
raju razlike u standardnoj devijaciji, kako izmedu varijabli, tako i za svaku varijablu
posebno. Takoder, sve varijable imaju jednaku mjernu skalu i lakše ih je usporediti, te
je lakše usporediti i interpretirati rješenja dobivena klaster analizom.
Standardizacija objekata (slučajeva)
Ponekad standardizacija varijabli nije prikladna za promatrani problem, posebno
ako se radi o osobama (klijentima, kupcima i sl.) koje želimo grupirati prema njihovim
navikama i preferencijama. Naime, može se pojaviti utjecaj ”stila odgovaranja”.
Pretpostavimo da želimo grupirati kupce supermarketa prema važnosti koju daju
pojedinom čimbeniku na njihovu odluku o kupnji odredenog proizvoda i da provodimo
anketu koja se sastoji od pitanja rangiranih ljestvicom od 1 do 10. Nekim kupcima će
svi čimbenici biti važni i na sva pitanja će odgovoriti velikom ocjenom, dok će neki
smatrati da im nǐsta nije važno i na sve će odgovoriti lošom ocjenom. Tako će nastati
klasteri ljudi koji odgovaraju pozitivno na sve, negativno na sve i neki klasteri izmedu.
Dakle, nastanak klastera je uvjetovan specifičnim stilom odgovaranja i to nije ono
što smo željeli postići. Ono što želimo otkriti je utjecaj pojedine varijable, odnosno
čimbenika na svakog kupca i pronaći klastere kupaca sa sličnim preferencijama.
U ovom slučaju, standardizacijom po varijablama se ne bi nǐsta postiglo. Prikladnije
je provesti standardizaciju ”po redovima”, odnosno po slučajevima (kupcima). Tako
kupci neće biti standardizirani prema prosječnom odgovoru svih kupaca za pojedino
pitanje (varijablu), nego prema individualnom prosjeku. Ovakav način standardizacije
je prikladan i za druge podatke koji reprezentiraju osobne stavove.
8
3.2.4 Odabir mjere sličnosti objekata
Sličnost predstavlja stupanj podudaranja svih objekata u zadanim karakteristikama i
izražava se matematički formuliranim mjerama sličnosti. Najčešće se sličnost tumači
kao udaljenost izmedu objekata. Što je udaljenost manja, objekti su sličniji. Sličnost
se računa za sve parove objekata i tako se bilo koji objekt može usporediti sa svim
ostalim objektima, a najsličniji objekti grupirati u klastere. Takoder, ako su prikazani
grafički, objekti unutar klastera trebaju biti blizu jedan drugome, a različiti klasteri
trebaju biti udaljeni.
Sličnost izmedu objekata se može mjeriti na različite načine, ali sljedeća tri načina
se najčešće koriste:
• mjere udaljenosti,
• mjere korelacije,
• mjere asocijacije.
Odabir mjere sličnosti ovisi prvenstveno o tipu podataka. Podaci mogu biti kvan-
titativni ili kvalitativni. Kvantitativni podaci se nazivaju i metričkim podacima, jer
se njihov odnos može prikazati metrikom, odnosno nekom funkcijom udaljenosti. Oni
opisuju objekte ne samo prema posjedovanju odredenog atributa, nego i po količini ili
stupnju atributa kojeg posjeduju (npr. dob, neto plaća). Za ovakve podatke su prik-
ladne mjere udaljenosti i mjere korelacije.
Za razliku od kvantitativnih podataka, kvalitativni podaci opisuju objekte samo
prema prisutnosti ili odsutnosti odredenog atributa (npr. spol, bračno stanje). Njihov
odnos se ne može prikazati metrikom, stoga su za ovakve podatke prikladne mjere
asocijacije.
U slučaju provodenja klaster analize po varijablama, a ne po objektima (slučajevima),
kao mjera sličnosti se najčešće koristi korelacija izmedu varijabli.
Mjere udaljenosti
Mjere sličnosti koje se najčešće koriste u klaster analizi su mjere udaljenosti. One
predstavljaju sličnost kao blizinu objekata jednih drugima po varijablama koje su
uključene u analizu. Mjere udaljenosti su zapravo mjere različitosti, jer veća vrijed-
nost predstavlja manju sličnost.
Postoji nekoliko mjera udaljenosti koje se koriste. Najčešće se koristi Euklidska
udaljenost, kvadrirana Euklidska udaljenost i Manhattan udaljenost. Definicije ovih
udaljenosti su dane u Poglavlju 5. Upotreba različitih mjera udaljenosti rezultira ra-
zličitim rješenjima. Istraživač treba provesti analizu s različitim mjerama udaljenosti i
usporediti rezultate.
9
Mjere korelacije
Upotreba mjera korelacije se preporučuje ukoliko je cilj klaster analize pronalazak
uzoraka koji se pojavljuju u profilima objekata. Slično izračunavanju koeficijenta ko-
relacije varijabli, ovdje se računa koeficijent korelacije izmedu objekata. Matricu po-
dataka je potrebno invertirati kako bi stupci predstavljali objekte, a redovi varijable.
Koeficijent korelacije izmedu dvaju stupaca tada predstavlja sličnost profila dvaju ob-
jekata. Visoka korelacija upućuje na veliku sličnost, a niska na malu sličnost u profilima.
Iako je ovo intuitivno najlogičnija mjera sličnosti, rijetko se koristi. U većini slučajeva
je naglasak na pronalasku objekata sa sličnim vrijednostima karakteristika (varijabli),
iako možda imaju različit profil po ostalim karakteristikama, što se postiže mjerama
udaljenosti. Mjere korelacije pronalaze slične profile po svim karakteristikama i ne uzi-
maju u obzir veličinu razlike u karakteristikama.
Mjere asocijacije
Mjere asocijacije se koriste za usporedivanje kvalitativnih podataka. Pomoću njih
se odreduje stupanj slaganja izmedu svakog para objekata po svim atributima željenih
karakteristika. Mnogi računalni programi imaju ograničenu podršku za mjere asoci-
jacije, te ih je istraživač prinuden prvo sam izračunati i zatim uvrstiti u program za
provodenje klaster analize.
3.3 Kreiranje klastera
Nakon postavljenog cilja klaster analize, odabranih varijabli koje će biti uključene u
analizu i odabrane mjere sličnosti na temelju koje će objekti biti usporedeni, preostaje
odabrati sljedeće:
• metodu grupiranja objekata u klastere,
• broj klastera koji će biti formirani.
Postoje različite metode klasteriranja, ali u načelu se dijele na hijerarhijske i nehije-
rarhijske ili partitivne. Od hijerarhijskih metoda se najčešće koriste metode povezivanja
i Wardova metoda, a od nehijerarhijskih k-means metoda. U praksi je najčešći slučaj
kombiniranja obiju metoda.
Prilikom odluke o broju klastera koji će se formirati, istraživač treba odlučiti izmedu
manjeg broj klastera uz manju homogenost unutar klastera i većeg broja klastera i
veće homogenosti unutar klastera. Kako se broj klastera smanjuje, tako se povećava
heterogenost unutar klastera. Treba odabrati najjednostavnije rješenje uz prihvatljivu
razinu heterogenosti unutar klastera.
Metode klasteriranja su detaljno opisane u Poglavlju 4.
10
3.4 Interpretacija klastera
Nakon pronalaska jednog ili vǐse zadovoljavajućih rješenja klaster analize, dobivena
rješenja je potrebno interpretirati. U slučaju vǐse rješenja, odabire se ono koje se može
najbolje interpretirati u skladu s teorijskom i empirijskom osnovom.
Interpretacija klastera predstavlja detaljno proučavanje svakog klastera s ciljem
otkrivanja karakteristika svojstvenih samo njemu i dodjeljivanje imena ili oznake koja
najbolje opisuje otkrivene karakteristike i strukturu klastera.
Mjera koja se najčešće koristi prilikom interpretacije je centroid klastera, odnosno
srednja vrijednost objekata u klasteru po svim varijablama. Ukoliko su varijable bile
standardizirane prije provodenja analize, mogu se uzeti originalne vrijednosti varijabli.
Kako bi se pronašle karakteristike koje najbolje opisuju svaki klaster, treba pronaći i
proučiti one varijable čije se srednje vrijednosti najvǐse razlikuju po klasterima. Tehnika
koje se ovdje može koristiti je analiza varijance (ANOVA). Za nezavisnu (kategorijalnu)
varijablu se uzima varijabla s brojevima klastera kojima objekti pripadaju, dok se za
zavisne varijable uzimaju one za koje se želi testirati da li postoji značajna razlika u
srednjim vrijednostima po klasterima.
Interpretacija klastera je ključni element u odabiru konačnog rješenja klaster ana-
lize.
3.5 Validacija i profiliranje klastera
Validacijom konačnog rješenja se želi osigurati reprezentativnost rješenja, mogućnost
generalizacije na druge objekte, te stabilnost rješenja. Takoder se želi ispitati praktično
značenje dobivenog rješenja. Ne postoji metoda koja provjerava sve navedene zahtjeve,
ali sljedeće metode mogu poslužiti kao osnova i pomoć pri donošenju zaključaka.
3.5.1 Cross-validacija
Cross-validacija predstavlja direktan pristup provjeravanju reprezentativnosti rješenja.
Poželjno bi bilo provesti klaster analizu na drugom uzorku i tada usporediti dobivena
rješenja, ali to često nije moguće zbog vremenskih i troškovnih ograničenja ili nedo-
stupnosti drugih uzoraka (posebno ako se radi o klijentima, potrošačima i sl.). Iz tog
razloga, uzorak se može podijeliti na dva dijela slučajnim odabirom i na svakom dijelu
provesti klaster analizu. Svaki dio se analizira posebno i rezultati se usporede.
Druga mogućnost je da se centri klastera dobiveni jednim rješenjem koriste kao
početni centri drugog rješenja i rješenja se usporede.
Takoder, uzorak treba izmiješati slučajnim odabirom i ponovno provesti analizu,
kako bi se provjerilo da rješenje ne ovisi o poretku podataka.
Za svaku od navedenih metoda, stabilnost rješenja se može procijeniti brojem ob-
jekata svrstanih u isti klaster za različita rješenja. Vrlo stabilno rješenje će rezultirati
11
s manje od 10% objekata različito svrstanih, stabilno s 10 do 20%, a donekle stabilno
s 20 do 25% različito svrstanih objekata.
3.5.2 Profiliranje klastera
Posljednji korak koji se provodi u klaster analizi i koji takoder služi kao sredstvo vali-
dacije konačnog rješenja je profiliranje klastera. Prilikom profiliranja klastera, uključuju
se u razmatranje i varijable koje nisu bile uključene u samu analizu (ukoliko takve pos-
toje), kako bi se vidjelo da li postoje razlike izmedu klastera i kod tih varijabli, te
kako bi se klasteri što bolje opisali. Ukoliko je konačno rješenje uistinu dobro, razlike
bi trebale postojati. Ovdje se takoder može koristiti ANOVA.
12
4 METODE KLASTERIRANJA
Pronalaženje svih mogućih grupa je vremenski i računski vrlo zahtjevan posao. Za veliki
broj podataka, ni vrlo jaka računala nisu u stanju riješiti ovaj problem. Iz tog razloga
su razvijene različite metode i algoritmi koji rješavaju ovaj problem na način koji je
najbliži optimalnom. U načelu, razlikujemo hijerarhijske i nehijerarhijske metode klas-
teriranja, koje se dalje mogu podijeliti prema načinu grupiranja podataka u klastere.
4.1 Hijerarhijske metode klasteriranja
Hijerarhijske metode se izvode nizom od n − 1 uzastopnih spajanja ili dijeljenja po-dataka, gdje je n broj podataka, te se s obzirom na to mogu podijeliti na aglomerativne
(engl. agglomerative) ili gomilajuće i divizivne (engl. divisive) ili dijeleće.
Aglomerativne metode polaze od pojedinog objekta, odnosno u prvom koraku svaki
objekt čini jedan klaster. Nakon toga se dva najsličnija objekta grupiraju u jedan
klaster. Zatim se tom klasteru dodaje novi objekt ili se druga dva pojedina objekta
grupiraju u novi klaster. Ove početne grupe se tada dalje spajaju prema medusobnim
sličnostima toliko dugo dok se sve podgrupe ne sjedine u jedan klaster.
Divizivne metode djeluju u suprotnom smjeru. One polaze od svih objekata udruženih
u jedan klaster, te ih zatim dijele u dvije podgrupe, tako da su objekti u jednoj grupi
što udaljeniji, odnosno različitiji od objekata u drugoj grupi. Ove podgrupe se dalje
dijele u različite podgrupe toliko dugo dok svaki pojedini objekt ne čini zaseban klaster,
odnosno dok broj klastera ne bude jednak broju objekata. Aglomerativna i divizivna
metoda su ilustrirane na Slici 1.
Slika 1: Hijerarhijsko klasteriranje
13
Osnova za obje metode je matrica sličnosti (udaljenosti) izmedu svih objekata
(x1, x2, . . . , xn), koja je simetrična, dimenzije n× n i prikazuje se na sljedeći način:
x1 x2 x3 . . . xn
D =
x1x2x3
...
xn
0d(x2, x1) 0d(x3, x1) d(x3, x2) 0
......
. . .
d(xn, x1) d(xn, x2) d(xn, x3) . . . 0
.
U nastavku se kao mjera sličnosti koristi mjera udaljenosti, ali mogu se takoder
koristiti i ostale mjere sličnosti.
Rezultati aglomerativne i divizivne metode se mogu grafički prikazati u obliku
dvodimenzionalnog hijerarhijskog dijagrama, nalik stablu, poznatog pod nazivom den-
drogram. Uobičajeno je na osi apscisa prikazati objekte, a na osi ordinata udaljenosti
izmedu njih. No, zbog preglednosti rješenja, osi se mogu i zamijeniti. Grane stabla pred-
stavljaju klastere i one se spajaju u čvorovima, čije pozicije duž ordinate označavaju
udaljenosti na kojima su se spajanja dogodila.
U praksi se vǐse koristi aglomerativna metoda, koja je takoder češće implementirana
u računalne programe, nego divizivna metoda. Stoga je u ovom radu detaljnije obradena
aglomerativna metoda. Ona se može podijeliti u tri grupe prema načinu na koji se
odreduje sličnost medu klasterima, a to su metode povezivanja, metoda varijance ili
Wardova metoda i centroidna metoda.
4.1.1 Metode povezivanja
Metode povezivanja (engl. linkage methods) se dijele na tri različite metode prema
načinu odredivanja reprezentanta klastera:
1. jednostruko povezivanje (engl. single-linkage method ili nearest-neighbor method)
- metoda minimalne udaljenosti ili najbližeg susjeda,
2. potpuno povezivanje (engl. complete-linkage method ili farthest-neighbor method)
- metoda maksimalne udaljenosti ili najdaljeg susjeda,
3. prosječno povezivanje (engl. average linkage) - metoda prosječne udaljenosti.
Spajanje klastera pod ovim kriterijima ilustrirano je na Slici 2. Na slici je vidljivo
da je jednostruko povezivanje rezultat spajanja klastera prema udaljenosti najbližih
14
objekata dvaju klastera. Potpuno povezivanje za kriterij spajanja klastera uzima udalje-
nost njihovih najdaljih objekata, dok je prosječno povezivanje rezultat spajanja klastera
prema prosječnoj udaljenosti izmedu parova svih objekata klastera.
Slika 2: Udaljenost izmedu klastera: a)jednostruko povezivanje, b)potpuno povezi-vanje, c)prosječno povezivanje
Algoritam 4.1.1 Osnovni aglomerativni hijerarhijski algoritam za grupi-
ranje n objekata
Korak 1 Učitati n klastera (objekata) i n×n simetričnu matricu udaljenosti (sličnosti)D = {dik}.
Korak 2 Pretražiti matricu udaljenosti i pronaći najblǐzi (najsličniji) par klastera.
Neka je dUV udaljenost izmedu ”najsličnijih ” klastera U i V .
Korak 3 Spojiti klastere U i V . Označiti novi klaster (UV ). Obrisati retke i stupce u
matrici udaljenosti koji odgovaraju klasterima U i V . Dodati novi redak i stupac
u matricu udaljenosti, formiran prema udaljenostima izmedu klastera (UV ) i
preostalih klastera.
Korak 4 Ponoviti Korak 2 i Korak 3 n− 1 puta. Zabilježiti klastere koji su se spojilii razine (udaljenosti) na kojima se to dogodilo. (Izvor: [9])
Algoritam završava kada su svi klasteri spojeni u jedan, odnosno nakon n − 1koraka. Ovaj algoritam se koristi za sve tri metode povezivanja, samo što se u Koraku
3 udaljenost izmedu klastera različito definira.
Prilikom primjene hijerarhijskog klasteriranja, bitni su zapravo rezultati koji nas-
taju spajanjem klastera na odredenim razinama, odnosno grupiranje objekata u željeni
broj klastera.
15
Jednostruko povezivanje
Metoda jednostrukog povezivanja definira sličnost izmedu dvaju klastera kao naj-
manju udaljenost izmedu bilo kojeg objekta iz jednog klastera i bilo kojeg objekta iz
drugog klastera.
Klasteri se formiraju od individualnih objekata povezivanjem najbližih susjeda, gdje
izraz ”najbliži susjed” označava najmanju udaljenost ili najveću sličnost. Prva dva ob-
jekta koja se spajaju u klaster su ona dva koja imaju najmanju medusobnu udaljenost.
Drugi objekti se spajaju s prvim klasterom na temelju najmanje udaljenosti izmedu
njih i objekata već formiranog klastera. U svakom sljedećem koraku, udaljenost izmedu
dva klastera se odreduje na temelju udaljenosti njihova dva najbliža objekta.
Budući da metoda jednostrukog povezivanja povezuje klastere prema najkraćoj vezi
izmedu njih, metoda ne može razlikovati loše razdvojene klastere. To može dovesti do
formiranja ulančanih klastera, gdje su objekti na suprotnim krajevima lanca različiti
i može dovesti do pogrešnih zaključaka. Stoga, istraživač treba provjeriti da li uistinu
postoji takva struktura podataka ili je to rezultat lošeg odabira metode.
Za provodenje metode, u skladu s Algoritmom 4.1.1, prvo je potrebno pronaći
najmanju udaljenost u matrici udaljenosti D = {dik} i spojiti odgovarajuće objekte,nazovimo ih U i V , kako bi dobili klaster (UV ). U Koraku 3 udaljenost izmedu klastera
(UV ) i bilo kojeg drugog klastera W računa se na sljedeći način:
d(UV )W = min{dUW , dVW}, (1)
gdje su dUW i dVW udaljenosti izmedu najbližih susjeda klastera U i W i klastera
V i W , respektivno [9].
Primjer 4.1.1 S ciljem ilustriranja metode jednostrukog povezivanja promotrimo sljedeću
matricu udaljenosti izmedu 5 objekata:
1 2 3 4 5
D = {dik} =
12345
04 09 5 01 3 6 07 2 10 5 0
Odredimo klastere i rezultat prikažimo grafički.
Svaki od pet objekata predstavlja jedan klaster. Pretraživanjem matrice D, utvrdeno
je da su najblǐzi objekti 4 i 1, a njihova udaljenost iznosi 1:
minik
(dik) = d41 = 1.
16
Objekti 4 i 1 se spajaju u prvi klaster (41).
Udaljenost izmedu klastera (41) i preostalih objekata 2, 3 i 5:
d(41)2 = min{d42, d12} = min{3, 4} = 3d(41)3 = min{d43, d13} = min{6, 9} = 6d(41)5 = min{d45, d15} = min{5, 7} = 5.
Brisanjem redaka i stupaca matrice D koji odgovaraju objektima 4 i 1 i dodavanjem
novog prvog retka i prvog stupca koji odgovaraju klasteru (41), te uvrštavanjem do-
bivenih udaljenosti, dobiva se nova matrica udaljenosti:
(41) 2 3 5
(41)235
03 06 5 05 2 10 0
Ponovnim pretraživanjem matrice udaljenosti, utvrdeno je da su najblǐzi objekti 5 i 2,
a njihova udaljenost iznosi 2:
minik
(dik) = d52 = 2.
Objekti 5 i 2 se spajaju u drugi klaster (52).
Udaljenost izmedu klastera (52) i klastera (41):
d(52)(41) = min{d5(41), d2(41)} = min{5, 3} = 3.
Udaljenost izmedu klastera (52) i preostalog objekta 3:
d(52)3 = min{d53, d23} = min{10, 5} = 5.
Matrica udaljenosti sada izgleda:
(41) (52) 3
(41)(52)3
03 06 5 0
Matrica udaljenosti se ponovno pretražuje s ciljem pronalaska minimalne udaljenosti.
Utvrdeno je da je minimalna udaljenost ona izmedu klastera (41) i (52) i iznosi 3:
minik
(dik) = d(41)(52) = 3.
17
Klasteri (41) i (52) se spajaju u jedan klaster (4152). Udaljenost izmedu tog klastera i
preostalog objekta 3 iznosi 5:
d(4152)3 = min{d(41)3, d(52)3} = min{6, 5} = 5.
Konačna matrica udaljenosti postaje:
(4152) 3
(4152)3
[05 0
]
Konačno, na udaljenosti 5, klaster (4152) se spaja s objektom 3 u jedan klaster (41523)
sastavljen od svih pet objekata.
Grafički, dobiveni rezultati se mogu prikazati sljedećim dendrogramom, na kome su
jasno vidljive udaljenosti na kojima su se spajanja klastera dogodila.
Potpuno povezivanje
Metoda potpunog povezivanja se izvodi na sličan način kao metoda jednostrukog
povezivanja, ali s jednom bitnom razlikom. U svakom koraku, sličnost izmedu dvaju
klastera je odredena udaljenošću njihovih najudaljenijih elemenata. Potpuno povezi-
vanje osigurava da je udaljenost izmedu svih objekata u klasteru maksimalna.
Korak 1 i 2 Algoritma 4.1.1 se provode analogno, pronalaskom minimalne udal-
jenosti u matrici udaljenosti D = {dik} i spajanjem odgovarajućih objekata (nazovimo
18
ih U i V ) u prvi klaster (UV ). U Koraku 3, udaljenost izmedu klastera (UV ) i bilo
kojeg drugog klastera W računa se na sljedeći način:
d(UV )W = max{dUW , dVW}, (2)
gdje su dUW i dVW udaljenosti izmedu najdaljih elemenata klastera U i W i klastera
V i W , respektivno [9].
Prosječno povezivanje
Prosječno povezivanje definira udaljenost izmedu dva klastera kao prosječnu uda-
ljenost izmedu svih parova objekata, gdje jedan član para pripada jednom, a drugi
drugom klasteru.
Korak 1 i 2 Algoritma 4.1.1 se takoder provode analogno, pronalaskom minimalne
udaljenosti u matrici udaljenosti D = {dik} i spajanjem odgovarajućih objekata (na-zovimo ih U i V ) u prvi klaster (UV ). U Koraku 3, udaljenost izmedu klastera (UV ) i
bilo kojeg drugog klastera W računa se na sljedeći način:
d(UV )W =
∑i
∑k
dik
N(UV )NW, (3)
gdje je dik udaljenost izmedu objekta i u klasteru (UV ) i objekta k u klasteru W , a
N(UV ) i NW je ukupan broj elemenata klastera (UV ) i klastera W , respektivno [9].
Metoda potpunog povezivanja uzima u obzir sve informacije o svim parovima ele-
menata dvaju klastera, zbog čega se preferira u odnosu na dvije prethodne metode.
4.1.2 Centroidna metoda
U ovoj metodi se sličnost izmedu klastera definira kao udaljenost izmedu centroida
klastera. Centroid klastera je srednja vrijednost objekata u klasteru po svim vari-
jablama uključenim u klaster analizu. Vrijednost centroida se mijenja kako se dodaju
novi objekti u klaster. Ova metoda se najvǐse koristi u prirodnim znanostima (biologiji),
ali može rezultirati zbunjujućim rezultatima i ovdje neće biti detaljnije obradena.
4.1.3 Wardova metoda
Wardova metoda se razlikuje od prethodnih metoda po tome što prilikom spajanja
klastera analizira varijancu izmedu objekata i zove se još metoda minimalne varijance.
Ova metoda minimizira sumu kvadrata izmedu bilo koja dva klastera koja bi se mogla
formirati. U svakom koraku se spajaju ona dva klastera za koja je porast ukupne sume
kvadrata po svim varijablama u svim klasterima minimalna. Preporučena udaljenost
za ovu metodu je kvadrirana Euklidska udaljenost.
19
Ova metoda se smatra dosta efikasnom i teži kreiranju klastera s malim brojem
objekata i s približno jednakim brojem objekata u svakom klasteru. Na ovu metodu
utječu outlieri, jer oni utječu na sumu kvadrata.
4.1.4 Prednosti i nedostaci hijerarhijskog klasteriranja
Hijerarhijske metode su prve metode za klasteriranje koje su razvijene i dugo su bile
najpopularnije metode. One nude nekoliko prednosti, ali takoder imaju i nekoliko ne-
dostataka u odnosu na nehijerarhijske metode.
Prednosti hijerarhijskog klasteriranja:
• Jednostavnost i brzina – hijerarhijske metode jednim provodenjem rezultirajucijelim skupom mogućih rješenja i istraživač tako može odjednom analizirati sva
moguća rješenja.
• Mjere sličnosti – široka upotreba hijerarhijskih metoda je dovela do razvoja mjerasličnosti za gotovo svaki tip varijabli i vrstu istraživanja.
Nedostaci hijerarhijskog klasteriranja:
• Hijerarhijske metode mogu ponekad dovesti do pogrešnih zaključaka, ako supočetni objekti pogrešno svrstani, jer ove metode ne omogućuju preraspodjelu
početno ”pogrešno” svrstanih objekata. Iz tog razloga, konačna raspodjela klastera
treba uvijek biti pažljivo ispitana. Poželjno je isprobati nekoliko metoda i unutar
svake metode nekoliko različitih načina definiranja udaljenosti (sličnosti). Ako
su klasteri dobiveni različitim metodama približno konzistentni, onda su objekti
ispravno grupirani.
• Kao i većina ostalih metoda za klasteriranje, hijerarhijske metode su osjetljivena postojanje stršećih vrijednosti, posebno metoda potpunog povezivanja. Kako
bi smanjio utjecaj outliera, istraživač može provesti analizu nekoliko puta uz
brisanje potencijalnih outliera. Svaki podatak treba biti obrisan s posebnim opre-
zom, kako ne bi došlo do gubitka vrijednih informacija.
• Premda se ove metode smatraju brzima, njihova upotreba na velikim uzorcimaje ograničena računalnim resursima, jer matrica udaljenosti mora biti spremljena
u memoriju računala. Za uzorak od npr. 500 podataka, u memoriju mora biti
spremljeno 125000 udaljenosti. U slučaju jako velikih uzoraka, istraživač može
slučajnim odabirom odabrati manju podgrupu i na njoj provesti analizu, ali treba
paziti na reprezentativnost te podgrupe.
20
4.2 Nehijerarhijske metode klasteriranja
Nehijerarhijske metode klasteriranja su namijenjene grupiranju objekata u unaprijed
odreden broj klastera. Provode se u dva osnovna koraka:
1. Odredivanje početnih točaka klastera (engl. cluster seeds).
Početne točke (centri) svakog klastera se mogu odabrati na dva načina:
Odabirom istraživača – istraživač može odabrati početne točke prema nekom
prethodnom istraživanju provedenom nad podacima, iz iskustva ili cilja koji
želi postići, ukoliko zna kakvi su profili klastera koje želi dobiti. Takoder,
mogući broj klastera se može otkriti hijerarhijskim metodama i zatim oda-
brati početne točke prema rješenju hijerarhijske metode.
Slučajnim odabirom – ukoliko ne postoji predznanje o profilima klastera koji
trebaju nastati, početne točke se odabiru slučajnim odabirom. Slučajan od-
abir se može provesti odabirom bilo kojeg objekta ili prema nekim zakoni-
tostima koje želimo da objekti zadovoljavaju (npr. maksimalna udaljenost
ili prvi objekt koji nema nedostajuće vrijednosti).
Računalni programi općenito podržavaju obje metode. Istraživač treba biti svjes-
tan utjecaja koji odabir početnih točaka ima na konačno rješenje, jer će odabir
drugih točaka rezultirati drugačijim rješenjem. Ukoliko su odabrane slučajnim o-
dabirom, analizu svakako treba provesti vǐse puta uz drugi odabir početnih točaka
i usporediti rezultate.
2. Dodjeljivanje objekata klasteru koji je najprikladniji prema zadanom
kriteriju.
Nakon odabranih početnih točaka, slijedi dodjeljivanje svakog objekta nekoj od
točaka na temelju sličnosti. Postoje različite metode provodenja ovog procesa, ali
njihov osnovni cilj je dodijeliti objekt onoj točki koja mu je najsličnija. Neke
metode dozvoljavaju prerasporedivanje objekata u druge klastere, ako su im
sličniji od njihovih početnih klastera.
Nehijerarhijski algoritmi se mogu podijeliti na serijske (sekvencijalne), paralelne i
optimizacijske.
Serijski algoritmi odabiru jednu početnu točku i pridružuju joj sve objekte koji se
nalaze unutar definirane udaljenosti. Zatim odabiru drugu točku i dodjeljuju joj sve
objekte unutar definirane udaljenosti, itd. Nedostatak ove metode je u tome što se
jednom dodijeljeni objekti ne mogu premještati u druge klastere, čak i ako su njihove
početne točke bliže.
Paralelni algoritmi odabiru sve početne točke odjednom i dodjeljuju im objekte
unutar definirane udaljenosti. Takoder ne omogućuju preraspodjelu objekata.
21
Optimizacijski algoritmi omogućuju preraspodjelu objekata. Najpoznatiji algoritam
koji se koristi je k-means algoritam. Njegova upotreba je postala toliko proširena
da se naziv ”k-means” ponekad odnosi na sve optimizacijske metode klasteriranja. k-
means metoda, kako sam naziv govori, je metoda k-srednjih vrijednosti. Ova metoda
rasporeduje objekte u unaprijed odredeni broj klastera k, te zatim iterativno pre-
rasporeduje objekte po klasterima, dok se ne postigne neki zadani numerički kriterij.
Postizanje kriterija je povezano s postizanjem cilja klaster analize, a to je pronalazak
što kompaktnijih i bolje separiranih klastera. Stoga se teži minimizaciji udaljenosti ob-
jekata unutar klastera i maksimizaciji udaljenosti izmedu klastera. k-means algoritam
je naveden u Poglavlju 5.
4.2.1 Prednosti i nedostaci nehijerarhijskog klasteriranja
Nehijerahijske metode su široko prihvaćene, ali svaka dobra primjena ovisi o sposob-
nosti istraživača da odabere najbolje rješenje.
Prednosti nehijerarhijskog klasteriranja:
• U odnosu na hijerarhijske metode, rezultati su manje osjetljivi na postojanjeoutliera, na upotrebu mjere sličnosti i na uključivanje neodgovarajućih varijabli
u analizu.
• Prikladne su za puno veći broj podataka nego hijerarhijske, jer ne zahtijevajuračunanje i spremanje u memoriju računala matrice udaljenosti izmedu svih ob-
jekata, nego samo udaljenosti svakog objekta do centroida klastera.
Nedostaci nehijerarhijskog klasteriranja:
• Konačno rješenje ovisi o odabiru početnih točaka i odabir različitih početnihtočaka će dovesti do različitih rješenja. Preporučuje se odabir početnih točaka
u skladu s teorijskom osnovom ili prethodnom analizom podataka, te izvodenje
analize uz različit odabir početnih točaka. Svako rješenje treba analizirati kako
bi se pronašlo ono koje najbolje predstavlja strukturu podataka.
• Nehijerarhijske metode nisu efikasne ukoliko se želi analizirati veliki broj različitihmogućih rješenja, jer pronalazak svakog rješenja predstavlja posebnu analizu,
za razliku od hijerarhijskih metoda gdje se sva rješenja dobiju samo jednom
analizom.
4.3 Odluka o broju klastera
Odluka o broju klastera je možda najteža odluka pri provodenju klaster analize, bilo
da se radi o hijerarhijskim ili nehijerarhijskim metodama, jer treba odabrati onaj
broj klastera koji najbolje reprezentira strukturu podataka. Ne postoji jedinstvena
22
procedura za odredivanje broja klastera. Istraživač mora sam odlučiti koji je broj
klastera najprikladniji za promatrani problem, što zahtjeva analizu nekoliko potencijal-
nih rješenja. Svi klasteri moraju biti različiti po varijablama nad kojima je provedena
analiza. Klasteri s jednim članom ili malim brojem članova općenito nisu prihvatljivi i
treba ih posebno proučiti, jer oni mogu predstavljati outliere koji nisu otkriveni ranijim
istraživanjem. Stoga, ako je moguće, treba ih eliminirati i ponovno provesti analizu.
U praksi se najčešće koristi kombinacija hijerarhijskih i nehijerarhijskih metoda,
jer se nedostaci jedne metode mogu nadopuniti drugom metodom. Prvo se pomoću
hijerarhijskih metoda odredi skup svih mogućih rješenja, zatim se odrede potencijalno
prihvatljiva rješenja i broj klastera. Nakon toga se nehijerarhijskom metodom podaci
rasporede u odgovarajući broj klastera.
U hijerarhijskim metodama se kao kriterij za odabir broja klastera (poznat pod
nazivom ”pravilo zaustavljanja”, engl. stopping rule) koristi mjera heterogenosti. He-
terogenost se odnosi na različitost objekata unutar klastera za svaki uzastopni korak u
hijerarhijskoj metodi. Ako se dogodi veliki porast u mjeri heterogenosti, to znači da su
se spojila dva prilično različita klastera i tada se odabire prethodno rješenje.
Heterogenost se može mjeriti na različite načine, a to uvelike ovisi i o računalnom
programu koji se koristi. Većina programa pruža mogućnost izračunavanja aglomera-
cijskog koeficijenta, koji mjeri heterogenost kao udaljenost objekata unutar klastera
od centroida klastera (ako se koristi mjera udaljenosti) ili sumu kvadrata odstupanja
objekata unutar klastera od centroida (ako se koristi Wardova metoda). Aglomeracijski
koeficijent se računa za sva moguća rješenja, odnosno pri svakom koraku provodenja
hijerarhijske metode. Ukoliko je postotak promjene aglomeracijskog koeficijenta velik
za dva uzastopna rješenja, uzima se prethodno rješenje u kojemu se kritično spajanje
klastera još nije dogodilo. Takoder se može proučavati i promjena u standardnoj devi-
jaciji za svaki novonastali klaster.
Iz praktičnih razloga i u skladu s ciljem klaster analize, istraživač može unaprijed
sam odrediti koliki mu broj klastera odgovara, npr. može reći da u obzir dolaze samo
rješenja od 3 do 6 klastera i proučavati samo takva rješenja.
Kod nehijerarhijskih metoda se obično koriste matematički definirani kriteriji za
odabir broja klastera. Većina ih se zasniva na minimiziranju sume kvadrata udaljenosti
objekata unutar klastera, te maksimiziranju sume kvadrata udaljenosti izmedu klastera.
Vǐse riječi o tome će biti u Poglavlju 5.
23
5 MATEMATIČKO ZNAČENJE KLASTER
ANALIZE
Matematički, problem grupiranja podataka u homogene grupe promatramo kao pro-
blem grupiranja elemenata nekog skupa A s n ≥ 2 elemenata u disjunktne podskupoveπ1, ..., πk, 1 ≤ k ≤ n, takve da vrijedi:
k∪i=1
πi = A, πi∩
πj = ∅, i ̸= j, nj := |πj| ≥ 1, j = 1, .., k, (4)
na osnovi jednog ili vǐse obilježja uz korǐstenje raznih kriterijskih funkcija cilja. Ovako
definirane rastave skupa A na podskupove π1, ..., πk, koji zadovoljavaju (4), zvat ćemo
particija skupa A i označavati Π = {π1, ..., πk}. Elemente particije, odnosno skupoveπ1, ..., πk zvat ćemo klasteri. Skup svih particija skupa A sastavljenih od k klastera,
koje zadovoljavaju (4) označavat ćemo P(A, k) [14].
U većini slučajeva, zbog velikog broja podataka, nije moguće odrediti sva moguća
grupiranja i onda odrediti najbolje. Broj načina grupiranja n podataka u k nepraznih
skupova se naziva Stirlingov broj druge vrste1 i označava se S(n, k), a njegova ekspli-
citna formula glasi:
S(n, k) =1
k!
k∑j=0
(−1)k−j(k
j
)jn. (5)
Stirlingov broj druge vrste zapravo predstavlja skup svih particija skupa A sastavljenih
od k klastera.
Primjer 5.0.1 Provjerimo koliko iznosi Stirlingov broj druge vrste za 20 objekata koje
želimo grupirati u 5 nepraznih skupova:
S(20, 5) =1
5!
5∑j=0
(−1)5−j(5
j
)j20 =
=1
5!
((−1)4
(5
1
)120 + (−1)3
(5
2
)220 + (−1)2
(5
3
)320 + (−1)1
(5
4
)420 +
+(−1)0(5
5
)520
)=
=1
120
(5− 10 · 1048576 + 10 · 3486784401− 5 · 1, 1 · 1012 + 9, 5 · 1013
)=
= 7, 46 · 1011
Zaključujemo da je broj svih mogućih načina grupiranja 20 objekata u 5 nepraznih
skupova vrlo velik broj.
1Stirlingovi brojevi su dobili naziv po Jamesu Stirlingu, koji ih je uveo u 18. stoljeću. PostojeStirlingovi brojevi prve i druge vrste. Stirlingovi brojevi prve vrste predstavljaju broj permutacija nelemenata sa k disjunktnih ciklusa. Stirlingovi brojevi druge vrste predstavljaju broj načina grupiranjan elemenata u k disjunktnih skupova. Obje vrste brojeva imaju veliko značenje u kombinatorici [16].
24
Cilj klaster analize u matematičkom smislu je pronalazak optimalne particije. Op-
timalna particija je ona koja ima svojstvo da je udaljenost objekata unutar klastera
minimalna, a izmedu klastera maksimalna, te koja zadovoljava (4). Problem traženja
optimalne particije spada u NP-teške probleme2 nekonveksne optimizacije općenito
nediferencijabilne funkcije vǐse varijabli, koja najčešće posjeduje značajan broj sta-
cionarnih točaka [14].
Kako bi mogli primjeniti odredene kriterije za pronalazak optimalne particije, po-
daci moraju biti prikazani skupom realnih brojeva (u slučaju objekata s jednim obilje-
žjem) ili skupom vektora (u slučaju objekata s vǐse obilježja). U empirijskom dijelu ovog
rada se koristi kriterij najmanjih kvadrata, stoga je taj kriterij u nastavku detaljnije
objašnjen (za LAD kriterij optimalnosti vidi [14]).
5.1 Grupiranje objekata s jednim obilježjem
Pretpostavimo da je zadan skup realnih brojeva A = {a1, . . . , an}, medu kojima možebiti jednakih. Neka ovaj skup predstavlja skup objekata koji imaju samo jedno obilježje
i na osnovi tog obilježja ih treba grupirati u k klastera koji zadovoljavaju (4) (npr.
klijente banke želimo grupirati samo prema neto plaći). Kao mjeru sličnosti koristit
ćemo neku od funkcija udaljenosti.
Definicija 5.1.1 Funkciju d : R× R −→ R+, za koju vrijedi:
1) d(x, y) ≥ 0, ∀x, y ∈ R (pozitivnost),
2) d(x, y) = 0 ⇐⇒ x = y (strogost),
3) d(x, y) = d(y, x), ∀x, y ∈ R (simetričnost),
4) d(x, y) ≤ d(x, z) + d(z, y),∀x, y, z ∈ R (nejednakost trokuta).
zovemo funkcija udaljenosti ili razdaljinska funkcija, odnosno metrika na skupu R.
Napomena 5.1.1 Funkciju d : R × R −→ R+ koja zadovoljava uvjete 1) i 2), aline zadovoljava nejednakost trokuta, a u nekim slučajevima ni svojstvo simetričnosti
zovemo kvazimetrička funkcija.
Za vektore x = [x1, x2, ..., xn]T ,y = [y1, y2, ..., yn]
T , xi, yi ∈ R, i = 1, . . . , n, mogu sedefinirati sljedeće funkcije:
2Polinomijalni problemi (P-problemi) – problemi koji su rješivi u polinomijalnom vremenu.Nepolinomijalni problemi (NP-problemi) – nisu poznati algoritmi koji rješavaju ove probleme u poli-nomijalnom vremenu. Za njih se u polinomijalnom vremenu može samo provjeriti da li je odredenainstanca problema ujedno i njegovo rješenje.Nepolinomijalno teški problemi (NP-teški problemi) – problemi za koje nismo sigurni da su u NPklasi, tj. ne možemo u polinomijalnom vremenu provjeriti da li je odredena instanca problema ujednoi njegovo rješenje [8].
25
• d1(x,y) =n∑
i=1
|xi − yi| – l1 metrička funkcija (Manhattan udaljenost)
• d2(x,y) =
√√√√ n∑i=1
(xi − yi)2 – l2 metrička funkcija (Euklidska udaljenost)
• dLS(x,y) =n∑
i=1
(xi − yi)2 – Least Squares (LS) kvazimetrička funkcija
• dp(x,y) =( n∑
i=1
|xi − yi|p) 1
p, p > 1 – lp metrička funkcija (metrika Minkowskog)
• d∞(x,y) = max{|xi − yi|, i = 1, . . . , n} – l∞ metrička funkcija (Čebǐsevljeva uda-ljenost)
Napomena 5.1.2 Primjetimo da u skupu R vrijedi:d1(x, y) = d2(x, y) = d∞(x, y) = dp(x, y), p ≥ 1, ∀x, y ∈ R.
Treba odrediti reprezentant (aproksimaciju) skupa A = {a1, . . . , an}, odnosno re-alan broj takav da svi elementi skupa A budu ”što bliže” tom broju. Pri tome pojam
”što bliže” shvaćamo kao najbolju l1, l2, lp ili l∞ aproksimaciju, ovisno o funkciji uda-
ljenosti koja se koristi. U ovom radu se koristi LS kvazimetrička funkcija i Euklidska
udaljenost.
Zapǐsimo skup A pomoću vektora a = [a1, . . . , an]T ∈ Rn. Tražimo vektor α =
[α, . . . , α]T ∈ Rn tako da d(a,α) bude minimalno, odnosno tražimo rješenje sljedećegproblema:
d2(a,α) =
√√√√ n∑i=1
(ai − α)2 =: G(α) → minα
. (6)
Ako je G(α∗) ≤ G(α), za svaki α ∈ R, onda je G2(α∗) ≤ G2(α), za svaki α ∈ R.Zato u cilju traženja α∗ ∈ R, koji je rješenje problema (6), možemo minimizirati
d22(a,α) =n∑
i=1
(ai − α)2 → minα
. (7)
26
Pokažimo da je rješenje problema (7) aritmetička sredina brojeva a1, . . . , an:
∂( n∑
i=1
(ai − α)2)
∂α= 0
n∑i=1
2(ai − α)(−1) = 0
n∑i=1
(ai − α) = 0
n∑i=1
ai − nα = 0
α =1
n
n∑i=1
ai
⇒ α∗ = 1n
n∑i=1
ai =: a. (8)
Aritmetička sredina realnih brojeva a1, . . . , an je jedinstveni broj koji ima svo-
jstvo da je suma kvadrata odstupanja brojeva ai do nekog čvrstog realnog broja naj-
manja onda ako je taj čvrsti broj upravo aritmetička sredina a. Što se može sažeti u
sljedeća dva svojstva [14]:
n∑i=1
(ai − λ)2 ≥n∑
i=1
(ai − a)2, ∀λ ∈ R, (9)
n∑i=1
(ai − a) = 0. (10)
Problem najbolje l2 aproksimacije funkcije koja je zadana na konačnom skupu
točaka obično se u literaturi naziva problem najmanjih kvadrata. Dok se prin-
cip odredivanja aproksimacije tako da suma kvadrata odstupanja svih mjerenja od
aproksimacije α bude minimalna, naziva princip najmanjih kvadrata3 ili češće metoda
najmanjih kvadrata [15].
Uvedimo sada oznaku argminx∈D
h(x) za skup svih točaka u kojima funkcija h : D →
R, D ⊂ R, postiže globalni minimum. Ovaj skup može biti i jednočlan. Prema [14]svakom klasteru πj ∈ Π, j = 1, . . . , k, možemo pridružiti njegov centar cj, uz zadanukvazimetričku funkciju d : R× R → R+, na sljedeći način
cj = c(πj) := argminx∈R
∑ai∈πj
d(x, ai). (11)
3Princip najmanjih kvadrata postavio je Carl Friedrich Gauss 1795. godine [15]
27
Ako na skupu svih particija P(A, k) skupa A sastavljenih od k klastera, koje zadovo-ljavaju (4) definiramo kriterijsku funkciju cilja F : P(A, k) → R+
F(Π) =k∑
j=1
∑ai∈πj
d(cj, ai), (12)
onda d-optimalnu particiju Π∗ tražimo rješavanjem sljedećeg optimizacijskog problema
F(Π∗) = minΠ∈P(A,k)
F(Π). (13)
Ovime se postiže da optimalna particija Π∗ ima minimalnu sumu odstupanja (”rasi-
panja”) elemenata klastera oko svog centra, odnosno nastoji se postići što bolja unu-
trašnja kompaktnost i separiranost klastera.
Definicija 5.1.2 Kažemo da je particija Π∗ optimalna u smislu najmanjih kvadrata
(LS-optimalna) ako je Π∗ rješenje optimizacijskog problema (12)-(13), a kvazimetrička
funkcija d : R× R → R+ definirana s
d(a, b) = (a− b)2. (14)
Kako je ranije navedeno, rješenje problema minimizacije u smislu najmanjih kvadrata
je aritmetička sredina podataka. Dakle, prema (8), centri c1, . . . , ck klastera π1, . . . , πk
odredeni su s
cj = argminx∈R
∑ai∈πj
(ai − x)2 =1
|πj|∑ai∈πj
ai, j = 1, . . . , k. (15)
Funkcija cilja (12) odredena je s
F(Π) =k∑
j=1
∑ai∈πj
(cj − ai)2. (16)
Primjer 5.1.1 Neka je zadan skup A = {0, 4, 8, 12}. Odrediti sve dvočlane particijeskupa A koje zadovoljavaju (4) i pronaći LS-optimalnu particiju, te odrediti vrijednosti
kriterijske funkcije cilja F , definirane s (16).
Sve dvočlane particije skupa A prikazane su u Tablici 1, ima ih 7. LS-optimalna par-
ticija je Π = {{0, 4}, {8, 12}}, jer na njoj kriterijska funkcija cilja F postǐze najmanjuvrijednost.
28
π1 π2 c1 c2 F(Π){0} {4, 8, 12} 0 8 32{4} {0, 8, 12} 4 20
374.67
{8} {0, 4, 12} 8 163
74.67{12} {0, 4, 8} 12 4 32{0,4} {8,12} 2 10 16{0, 8} {4, 12} 4 8 64{0, 12} {4, 8} 6 6 80
Tablica 1: Particije, centri i vrijednosti funkcije F
5.2 Grupiranje objekata s dva obilježja
Pretpostavimo sada da želimo objekte grupirati na osnovi dva obilježja (npr. klijente
u banci želimo grupirati prema neto plaći i ukupnim godinama radnog staža). Neka je
zadan konačan skup A = {a1, . . . , an} vektora iz R2, medu kojima može biti jed-nakih, gdje su ai = (xi, yi) ∈ R2, i = 1, . . . , n, n ≥ 2, koje želimo grupirati uk klastera koji zadovoljavaju (4). Analogno jednodimenzionalnom slučaju, možemo
definirati reprezentante skupa vektora, ovisno o funkciji udaljenosti.
Definicija 5.2.1 Funkciju d : R2×R2 −→ R+, koja ima svojstvo pozitivne definitnosti
d(x,y) ≥ 0, ∀x,y ∈ R2 & d(x,y) = 0 ⇔ x = y
zovemo kvazimetrička funkcija na R2.
Koristit ćemo dva tipa funkcija:
• dLS(x,y) = ∥x− y∥22 = (x− y)T (x− y) – LS kvazimetrička funkcija
• d2(x,y) = ∥x− y∥2 =√(x− y)T (x− y) – l2 metrička funkcija (Euklidska uda-
ljenost)
Odredimo reprezentant skupa vektora iz R2 u smislu najmanjih kvadrata. Analognojednodimenzionalnom slučaju, treba pronaći rješenje sljedećeg problema:
∥ai − u∥22 → minu∈R2
, u = (u1, u2) ∈ R2. (17)
Možemo ga zapisati na sljedeći način:
∥ai − u∥22 = (ai − u)T (ai − u) =n∑
i=1
((xi − u1)2 + (yi − u2)2) → minu1,u2
. (18)
29
Odredimo parcijalne derivacije:
∂
∂u1
n∑i=1
((xi − u1)2 + (yi − u2)2) = 0
n∑i=1
((xi − u1) = 0
n∑i=1
xi − nu1 = 0
⇒ u1 =1
n
n∑i=1
xi. (19)
Analogno,
∂
∂u2
n∑i=1
((xi − u1)2 + (yi − u2)2) = 0
⇒ u2 =1
n
n∑i=1
yi. (20)
Dakle, dobiveni vektor u =( 1n
n∑i=1
xi,1
n
n∑i=1
yi
)je reprezentant skupa vektora iz R2 i
naziva se centroid.
Centroid skupa vektora
c(A) = (x, y) ∈ R2, x = 1n
n∑i=1
xi, y =1
n
n∑i=1
yi, (21)
jedinstveni je vektor koji ima svojstvo da je suma kvadrata odstupanja točaka (xi, yi)
do neke čvrste točke iz R2 najmanja onda ako je ta čvrsta točka upravo centroid (x, y).Ističu se sljedeća dva svojstva [14]:
n∑i=1
∥ai − u∥22 ≥n∑
i=1
∥ai − c(A)∥22, ∀u ∈ R2, (22)
n∑i=1
(ai − c(A)) = 0. (23)
Napomena 5.2.1 Analogno se može definirati centroid skupa vektora iz Rn.
Svakom klasteru πj ∈ Π, j = 1, . . . , k, možemo pridružiti njegov centar cj, uzzadanu kvazimetričku funkciju d : R2 × R2 → R+, na sljedeći način
cj = c(πj) := argminx∈R2
∑ai∈πj
d(x, ai). (24)
30
Analogno jednodimenzionalnom slučaju, na skupu svih particija P(A, k) skupa A sas-tavljenih od k klastera, koje zadovoljavaju (4) definiramo kriterijsku funkciju cilja
F : P(A, k) → R+ na sljedeći način
F(Π) =k∑
j=1
∑ai∈πj
d(cj, ai), (25)
a d-optimalnu particiju Π∗ tražimo rješavanjem sljedećeg optimizacijskog problema
F(Π∗) = minΠ∈P(A,k)
F(Π). (26)
Definicija 5.2.2 Neka je A = {ai = (xi, yi) ∈ R2, i = 1, . . . ,m} skup vektora izR2. Kažemo da je particija Π∗ optimalna u smislu najmanjih kvadrata (LS-optimalna)ako je Π∗ rješenje optimizacijskog problema (25)-(26), a kvazimetrička funkcija d :
R2 × R2 → R+ definirana sd(a, b) = ∥a− b∥22 (27)
Kako je ranije navedeno, rješenje optimizacijskog problema u slučaju skupa vektora,
u smislu najmanjih kvadrata, je centroid skupa vektora. Dakle, prema (21), centri
c1, . . . , ck klastera π1, . . . , πk odredeni su s
cj = argminu∈R2
∑ai∈πj
∥ai − u∥22 =1
|πj|∑ai∈πj
ai, j = 1, . . . , k. (28)
Funkcija cilja (25) odredena je s
F(Π) =k∑
j=1
∑ai∈πj
∥cj − ai∥22. (29)
5.3 k-means algoritam
Problem traženja optimalne particije je problem globalne optimizacije, što je vrlo složen
problem. Najčešće korǐsten algoritam za pronalaženje particije dosta bliske optimalnoj
je k-means algoritam4.
Intuitivno:
• Treba odrediti najbolje grupiranje objekata u k klastera.
• Najbolje grupiranje je ono u kojemu su elementi klastera što bliži jedni drugima.
• Pretpostavimo da u svakom klasteru postoji jedna točka kojoj su svi elementiklastera bliži nego elementi drugog klastera. Nazovimo ju ”centar” klastera.
31
Slika 3: Ilustracija centara klastera
Algoritam se može primjeniti uz pretpostavku da smo na neki način dobro procjenili
početne centre klastera ili početnu particiju.
Algoritam 5.3.1 Standardni k-means algoritam
Korak 0 Učitati n, k, skup A i izabrati početne centre c01, . . . , c0k.
Korak 1 Primjenom principa minimalnih udaljenosti odrediti početnu particiju Π =
{π1, . . . , πk} tako da neki a ∈ A pripadne onom klasteru čiji je centar najblǐzielementu a. Izračunati centre c1, . . . , ck klastera π1, . . . , πk i početnu vrijednost
funkcije cilja F0 = F(Π).
Korak 2 Formirati novu particiju Λ = λ1, . . . , λk tako da neki a ∈ A pripadne onomklasteru čiji je centar najblǐzi elementu a. Izračunati njihove centroide l1, . . . , lk
i novu vrijednost funkcije cilja F1 = F(Λ)
Korak 3 Ako je F1 < F0, staviti cj = lj, j = 1, . . . , k; F0 = F1 i prijeći na Korak 2.
U protivnom, STOP [14].
Konačna raspodjela objekata u klastere, bit će zavisna od početne particije ili
početnog odabira centara. Prilikom traženja LS-optimalne particije skupa podataka
s jednim obilježjem, početni centri c1, . . . , ck klastera π1, . . . , πk u Koraku 0 Algoritma
5.3.1 mogu se odrediti na sljedeći način:
• sortirati skup podataka A = {a1, . . . , an} prema veličini od najmanjeg premanajvećem;
4Izraz ”k-means” je prvi puta upotrijebio James MacQueen 1967. g., dok je standardni algoritamprvi puta predložio Stuart Lloyd 1957. g. Algoritam kakvog danas poznajemo su objavili Hartigan iWong 1979. g. [1]
32
• razdijeliti skup A na k približno jednakih podskupova π1, . . . , πk, zadržavajućipri tome sortirani redosljed elemenata;
• za c0j , j = 1, . . . , k, uzeti aritmetičku sredinu skupa πj.
Primjedba 5.3.1 Aritmetička sredina ā skupa podataka A = {a1, . . . , an} je veličinakoja podjednako ovisi o svim podacima. Ako medu podacima postoje ekstremne vri-
jednosti, tada će upravo te vrijednosti značajno utjecati na aritmetičku sredinu i na
formiranje klastera.
Primjer 5.3.1 Neka je zadan skup A = {2, 3, 5, 10, 11, 12, 30}. Primjenom k-meansalgoritma pronaći dvočlanu particiju što blǐzu LS-optimalnoj.
Iteracija π1 π2 c1 c2 F(Π)1 {2, 3, 5, 10} {11, 12, 30} 5 17.67 266.672 {2, 3, 5, 10, 11} {12, 30} 6.2 21 228.83 {2,3,5,10,11,12} {30} 7.17 30 94.84
Tablica 2: Iterativan postupak pronalaženja LS-optimalne particije
U Tablici 2 je prikazan iterativan tijek pronalaženja LS-optimalne particije prim-
jenom Algoritma 5.3.1, uz početne centre c1 = 5 i c2 = 16. LS-optimalna particija je
Π = {{2, 3, 5, 10, 11, 12}, {30}}. Broj 30 predstavlja stršeću vrijednost u skupu A i uskladu s Primjedbom 5.3.1 čini zaseban klaster.
5.4 Odabir optimalnog broja klastera
Ukoliko broj klastera nije moguće odrediti iz prirode problema ili ukoliko nije zadan
unaprijed, potrebno je pronaći optimalan broj klastera.
Jedan od načina je promatranje kriterijske funkcije cilja. Naime, porastom broja
klastera, optimalna vrijednost funkcije cilja opada. Stoga za optimalan broj klastera
se može uzeti onaj za koji je vrijednost funkcije cilja naglo pala. Postoji i nekoliko
matematički definiranih indeksa čije se vrijednosti takoder mogu promatrati, npr.
Davis-Bouldinov indeks, Dunnov indeks (vidi [14]) i Calinski-Harabaszev indeks.
Calinski-Harabaszev indeks se može primjeniti prilikom traženja LS-optimalne par-
ticije i korǐsten je u empirijskom dijelu rada, a njegova formula za jednodimenzionalan
slučaj glasi:
VCH =
(n− k)k∑
j=1
nj(cj − c)2
(k − 1)k∑
j=1
∑ai∈πj
(cj − ai)2, (30)
33
uz oznake definirane u (4) i (11), pri čemu je c =1
n
n∑i=1
ai, centar (aritmetička sredina)
skupa A. Indeks se analogno može primjeniti i na vǐse dimenzija. Poželjna je što veća
vrijednost navedenog indeksa, jer će kompaktniji i bolje separirani klasteri rezultirati
većom vrijednosti indeksa.
34
6 EMPIRIJSKI DIO: Segmentacija klijenata banke
klaster analizom
Kako je ranije navedeno, klaster analiza ima vrlo široko područje primjene. U nastavku
će biti prikazana moguća primjena u bankarstvu i kreditnom skoringu.
S razvojem kreditne industrije i sve složenije bankarske prakse dolazi do razvoja
statističkih modela koji služe za donošenje kreditnih odluka. Kreditni skoring je postao
najvažniji alat kojeg koriste financijske i kreditne institucije s ciljem predvidanja kred-
itnih sposobnosti zajmotražitelja.
Kreditni skoring (engl. credit scoring) je sistem dodjeljivanja bodova zajmotražitelju
čiji zbroj predstavlja numeričku vrijednost koja pokazuje koliko je vjerojatno da za-
jmotražitelj kasni u otplati kredita. Kredit skoring sistem dodjeljuje jednu kvantita-
tivnu mjeru, nazvanu skor, potencijalnom komitentu predstavljajući buduće ponašanje
u otplati kredita. Kreditni skor se izračunava na temelju skor-kartice, koja obuhvaća
skupinu karakteristika koje su raspodijeljene prema atributima, od kojih svaki ima
statistički izveden skor ili ”težinu”. Koriste se samo one karakteristike za koje je
statistički provjereno da su prediktori budućeg ponašanja pri otplati kredita. Dobiveni
kreditni skor predstavlja rang listu rizika, što je veći skor, manji je rizik i obratno. Fi-
nancijska institucija odreduje graničnu vrijednost skora koja dijeli ”dobre” komitente
od ”loših”, te s obzirom na vrijednost skora odobrava ili ne odobrava kredit [19].
Diskriminantna analiza i linearna regresija su bile najčešće korǐstene metode za
izgradnju skor-kartica u prošlosti. Novije metode uključuju logističku regresiju, probit
analizu, matematičko programiranje, Markovljeve lance, ekspertne sustave, genetičke
algoritme, neuronske mreže, itd. [5].
Neovisno o tome koja se metoda koristi za izgradnju kredit skoring modela, cilj
je izgraditi takav model koji sa što većom točnošću razlikuje dobre klijente od loših.
Klaster analiza se pri tome pokazala vrlo korisnom i koristi se za grupiranje klijenata
prema zajedničkim karakteristikama, kako bi se smanjio postotak pogrešno klasifici-
ranih klijenata.
6.1 Prethodna istraživanja
Sljedeća istraživanja prikazuju moguću primjenu klaster analize u kreditnom skoringu
u kombinaciji s drugim metodama.
Punj i Steward [13] predlažu metodu koja kombinira Wardovu metodu s k-means
metodom. Smisao ove metode je u tome što hijerarhijske metode mogu odrediti broj
klastera i početne centre klastera, dok nehijerarhijske metode, kao što je k-means
metoda, mogu dati bolje konačno rješenje. Gopalakrishnan, Sridhar i Krishnamurthy
[2], te Sung [17] predlažu hibridni model koji koristi neuronske mreže i algoritme klaster
metode. Kuo, Ho, i Hu [10] su izgradili metodu od dvije faze, koja koristi samoorga-
35
nizirajuće mape5 za odredivanje broja klastera, a zatim pomoću k-means algoritma
rasporeduje podatke u klastere.
Na osnovi navedenih studija, Nan-Chen Hsieh [6] predstavlja hibridni pristup u
dizajniranju efektivnog modela kreditnog skoringa koji se temelji na tehnikama klas-
teriranja i neuronskih mreža. Hibridni skoring model ima dvije faze. Cilj prve faze
je pomoću klaster analize odrediti pripadnost klijenata skupini ”dobrih” ili ”loših”, te
otkriti nereprezentativne podatke u uzorku. Cilj druge faze je pronaći najbolju arhitek-
turu neuronske mreže, trenirati ju na podacima procesiranima klaster analizom, te iz-
graditi kredit skoring model. Model je primijenjen i testiran na stvarnim njemačkim i
australskim kreditnim podacima. Njemački uzorak se sastojao od 1000 aplikanata, 700
dobrih i 300 loših, a australski od 690 aplikanata, 468 dobrih i 222 loša. Klaster anal-
iza je provedena u dva koraka, prvo je uz pomoć samoorganizirajućih mapa odreden
broj klastera i centar svakog klastera. Utvrdeno je da se najbolja segmentacija uzoraka
postiže podjelom svakog uzorka u četiri klastera, od kojih dva predstavljaju tendenciju
prema dobrom, a dva prema lošem kreditnom statusu. Zatim je upotrebljen k-means
algoritam za rasporedivanje aplikanata u klastere i eliminiranje nereprezentativnih uzo-
raka iz svakog klastera. Niti jedan uzorak nije sadržavao izolirane klastere (klastere s
malim brojem podataka), ali je njemački uzorak imao nekonzistentan klaster (klaster
koji sadrži i dobre i loše aplikante). Taj klaster je podijeljen u dva dijela prema origi-
nalnom kreditnom statusu aplikanata (engl. class-wise classification), kako bi se moglo
pratiti njihovo buduće ponašanje. Svakom aplikantu je dodana oznaka klastera ko-
jemu pripada, utvrdena je najbolja arhitektura neuronske mreže i napravljen je model.
Pokazano je da se ovakav hibridni model može koristiti u izgradnji efektivnog kredit
skoring modela, jer su greške manje, a preciznost modela značajno veća.
Nan-Chen Hsieh i Lun-Ping Hung [7] su istraživali mogućnosti multi-klasifikacijskog
pristupa u kreditnom skoringu. Ovaj pristup uključuje tri različite metode izgradnje
modela na podacima procesiranima klaster analizom. Metode koje se koriste su neu-
ronske mreže, Bayesove mreže i SVM6. Klaster analiza je provedena u dva koraka, prvo
je pomoću Bayesovog informacijskog kriterija odreden broj klastera, zatim je primi-
jenjen k-means algoritam. Model je primijenjen i testiran na istim njemačkim kredit-
nim podacima, kao i prethodno opisani hibridni model. Primjenom Bayesovog kriterija
utvrdeno je da je optimalan broj klastera tri. Nakon primjene k-means algoritma za-
ključeno je da su sva tri klastera nekonzistentna, stoga je svaki klaster podijeljen na
dva dijela prema originalnom kreditnom statusu aplikanata. Testiranjem krajnjeg mod-
ela je zaključeno da model koji koristi multi-klasifikacijski pristup daje bolje rezultate,
5Samoorganizirajuća mapa (engl. self-organizing map) je vrsta neuronske mreže, trenirana nenad-gledanim učenjem s ciljem reprezentiranja vǐse-dimenzionalnih podataka u dvije dimenzije. Omogućujekontinuirano dodavanje podataka klasteru s najbližim centrom, bez obzira na početno zadane uvjetei tako odreduje optimalan broj klastera i njihove centre [6].
6SVM (engl. support vector machine) – metoda potpornih vektora je metoda nadgledanog učenjakoja analizira podatke i prepoznaje uzorke, te se koristi za klasifikaciju i regresijsku analizu [18].
36
nego svaka metoda primijenjena posebno.
Usporedujući ova dva kredit-skoring modela izgradena na istom uzorku može se
zaključiti da broj klastera ovisi o kriteriju koji se koristi.
Danuta Zakrzewska [21] je istražila mogućnost kombiniranja klaster analize sa sta-
blima odlučivanja. Modeli su izgradeni na stvarnim njemačkim i japanskim kreditnim
podacima. Prvo su pomoću klaster analize uzorci podijeljeni u klastere, zatim je pomoću
stabla odlučivanja izgraden model za svaki klaster posebno. Pokazano je da su rezul-
tati modela bolji ukoliko je uzorak podijeljen u klastere, u odnosu na rezultate modela
izgradenog na cijelom uzorku.
Upotrebu klaster analize u bihevioralnom skoringu istražili su Michael K. Lim i So
Young Sohn [11]. Oni predlažu dinamični skoring model u kojem su klijenti kojima je
odobren kredit podijeljeni u klastere, a period vraćanja kredita je podijeljen u segmente.
Pokazano je da ovakav model omogućuje ranije predvidanje statusa klijenta. Model
je testiran na stvarnim podacima jedne vodeće korejske banke na uzorku od 1040
klijenata kojima je odobren kredit uz vrijeme otplate 18 mjeseci. K-means algoritmom
je uzorak podijeljen u tri klastera, a vrijeme promatranja od 12 mjeseci je podijeljeno
na kvartale. Neuronske mreže su trenirane posebno za svaki klaster i svaki kvartal, te
je izgradeno 12 skoring modela. Usporedujući rezultate modela izgradenog na cijelom
uzorku i dinamičnog modela, utvrdeno je da se jednaki postotak pogrešne klasifikacije
postiže puno ranije s dinamičnim modelom. Za klaster u kojemu su ekonomski bolje
stojeći klijenti potrebno je 6 mjeseci, a za klaster s loše stojećim klijentima samo 3
mjeseca. Za klaster sa ”srednjim slojem” potrebno je 9 mjeseci (uz razinu značajnosti
0.10). Zaključeno je da je 9 mjeseci dovoljno za predvidanje kreditnog statusa svih
klijenata.
6.2 Opis uzorka i varijabli za modeliranje
Klaster analiza je provedena na stvarnim podacima jedne hrvatske banke. Uzorak se
sastojao od 1956 klijenata banke kojima je odobren kredit, opisanih sa sljedećih 13
varijabli.
Naziv i opis varijabli:
Spol – spol klijenta – kategorijalna varijabla.
Kategorije: 101 - žene; 102 - muškarci; 100 - bez odgovora.
Dobar/Loš – izlazna varijabla koja pokazuje kako je klijent vraćao kredit, je li klijent
dobar ili loš. Loš je ako je u promatranom periodu kasnio u plaćanju barem 1
rate kredita 3 mjeseca ili vǐse – kategorijalna varijabla.
Kategorije: 101 - loš; 102 - dobar; 100 - bez odgovora.
Stručna sprema – stručna sprema klijenta – kategorijalna varijabla.
37
Kategorije: 101 - nkv; 102 - pkv; 103 - nss; 104 - kv; 105 - sss; 106 - všs; 107 -
vss, mr, dr; 100 - bez odgovora.
Radni staž – ukupni radni staž koji uključuje i godine i mjesece, npr. ako klijent
ima 10 godina i 3 mjeseca radnog staža, tada je u ovoj koloni upisan broj 10,25
(10+(3/12)) – kontinuirana varijabla koja je kategorizirana.
Kategorije: 101 - ≤ 5; 102 - 5,01 – 10,00; 103 - 10,01 – 15,00; 104 - 15,01 – 19,00;105 - 19,01 – 24,00; 106 - 24,01 – 50,00; 100 - bez odgovora.
Bračno stanje – bračno stanje klijenta – kategorijalna varijabla.
Kategorije: 101 - samac; 102 - u braku; 103 - rastavljen; 104 - udovac; 105 -
izvanbračna zajednica; 100 - bez odgovora.
Broj članova kućanstva – broj članova kućanstva klijenta – diskretna numerička
varijabla.
Kategorije: 101 - 1; 102 - 2, 3; 103 - 4, 5; 104 - 6, 7, 8, 9, 12; 100 - bez odgovora.
Stanovanje – stambeni status klijenta – kategorijalna varijabla.
Kategorije: 101 - vlastiti stambeni prostor; 102 - unajmljeni; 103 - kod roditelja;
104 - ostalo; 100 - bez odgovora.
Neto plaća – neto plaća klijenta u kn – kontinuirana varijabla koja je kategorizirana.
Kategorije: 101 - do 2500; 102 - do 3500; 103 - do 5000; 104 - do 9000; 105 - vǐse
od 9000; 100 - bez odgovora.
Mjesečne obustave – mjesečne obustave na plaću u kn – kontinuirana varijabla koja
je kategorizirana.
Kategorije: 101 - nema; 102 - ima; 100 - bez odgovora.
Administrativne obustave – mjesečne obustave na plaću u kn – kontinuirana vari-
jabla koja je kategorizirana.
Kategorije: 101 - 0; 102 - 1 – 700; 103 - 701 – 1500; 104 - 1501 – 2000; 105 - vǐse
– 2000; 100 - bez odgovora.
Sudužnik – ima li klijent po tom kreditu sudužnika ili nema – kategorijalna varijabla.
Kategorije: 101 - nema sudužnika; 102 - ima sudužnika.
Poslodavac – tip poslodavca gdje je dužnik zaposlen – kategorijalna varijabla.
Kategorije: 101 - trgovačko društvo; 102 - obrt; 103 - slobodna zanimanja; 104 -
javna uprava; 105 - javne ustanove; 106 - financijske institucije; 107 - umirovlje-
nik; 108 - ostalo; 100 - bez odgovora.
38
6.3 Provodenje klaster analize po koracima
6.3.1 Postavljanje ciljeva i odabir varijabli za klasteriranje
Postavljanje ciljeva – cilj istraživanja je otkrivanje prirodnog grupiranja podataka
(taksonomije), te otkrivanje veza medu podacima, u ovom slučaju klijentima
banke. Treba pronaći klijente koji posjeduju zajedničke karakteristike vezane uz
plaću, radni staž i stručnu spremu, poslodavca kod kojeg su zaposleni, te bračni i
stambeni status. Osim istraživanja strukture podataka, cilj je i pronalazak takvog
rješenja s kojim je moguće izgraditi kredit skoring model za svaki klaster.
Odabir varijabli – varijable su odabrane u skladu sa željenim ciljem.
U analizu su uključene sljedeće varijable: Korisnik mastera, Stručna sprema,
Radni staž, Bračno stanje, Broj članova kućanstva, Stanovanje, Neto
plaća, Mjesečne obustave, Sudužnik i Poslodavac.
Iz anali