Klaszterezés

Klaszterezés

2014. ápr. 3.

Cluster Analysis: Basic Concepts and Algorithms

Lecture Notes for Chapter 8

Introduction to Data Miningby

Tan, Steinbach, Kumar

KlaszterelemzésAz objektumok olyan csoportjainak megtalálása felügyelet nélküli tanulási keretben, hogy az egy csoportban levő objektumok hasonlóbbak lesznek egymáshoz, mint a más csoportban levőkhöz.

Klaszterek közötti

távolságok maximalizáltak

Klaszteren belüli távolságok

minimalizáltak

Klaszterezés alkalmazásai

Megértés– Csoportosítsuk a letöltött dokumentumokat, a hasonló

tulajdonságú fehérjéket, a hasonló változásokat mutató tőzsdei papírokat

Tömörítés– Nagy adathalmazok méretének csökkentése

• egyes egyedek helyett klaszterreprezentánsok vagy

• meta-jellemzők

Klaszterezés alkalmazásai

A klaszterezés nem egyértelmű

Hány klaszter?

Négy klaszter Két klaszter

Hat klaszter

A klaszterezés típusai

• A klaszterezés klaszterek halmazát adja

• Partícionáló klaszterezésAz adatok besorolása nem-átfedő részhalmazokba

(klaszterekbe), minden elem pontosan egy részhalmazban

• Hierarchikus klaszterezésEgymásba ágyazott klaszterek, hierarchikus rendszerbe

szervezve

Particionáló klaszterezés

Kiindulási pontok Particionáló klaszterezés

Hierarchikus klaszterezés

p4p1

p3

p2

p4 p1

p3

p2

p4p1 p2 p3

p4p1 p2 p3

Hierarchikus Klaszterek Dendrogram

Klaszterezés fajtái

• Kizárólagos – nem kizárólagos– Nem kizárólagosnál egy tárgy több osztályba is tartozhat

• Fuzzy, nem-fuzzy– A fuzzy klaszterezésnél minden pont valamilyen 0 és 1

közötti súllyal tartozik minden klaszterhez – A súlyok összege 1

• Részleges, teljes– Néha nem minden pontot akarunk klaszterezni

• Heterogén, homogén– A klaszterek különböző méretűek, alakúak, sűrűségűek

lehetnek

Mitől jó egy klaszterezés?

• Jól elválasztott klaszterek• Középpont alapú klaszterek• Folytonos klaszterek• Sűrűség alapú klaszterek• Általános eset: célfüggvény

Jól elválasztott klaszterek

– Egy klaszter olyan pontokból áll, amelyek közelebb vannak (hasonlóbbak) a saját klaszteren belüli összes ponthoz, mint a többi klaszterben levőkhöz

3 jól elválasztott klaszter

Középpont alapú klaszterek

– Egy klaszterben levő pontok közelebb vannak saját klaszterük középpontjához, mint bármely más klaszter középpontjához

– A klaszterek középpontja gyakran a centroid, vagyis a klaszterbeli pontok átlaga, vagy a medoid, a klaszter egy reprezentatív pontja

4 középpont alapú klaszter

• legközelebbi szomszéd, tranzitív– Egy klaszterbeli pont közelebb van a saját klaszterének

valamely pontjához, mint a nem klaszterbeli más pontokhoz

8 folytonos klaszter

Folytonosság

Sűrűség alapú

– A klaszterek pontok nagy sűrűségű halmazai, amelyek kis sűrűségű pontokkal vannak elválasztva

– Szabálytalan alakú, egymásba fonódó esetekben használhatjuk, zaj és kiugró értékek mellett

6 sűrűség alapú klaszter

Általános eset:Célfüggvény alapú klaszterezés

– Valamilyen célfüggvény minimalizálnak vagy maximalizálnak• pl: modularitás

– Általában az összes lehetőséget számba kellene venniük és mindegyik jóságát meg kellene határozni a célfüggvény segítségével (NP nehéz)

– Lokális és globális optimum lehet• A hierarchikus módszereknél általában lokális optimum

• Particionálóknál általában globális

– Nagyon sok esetben parametrizált modellt próbálunk az adatokhoz illeszteni

• A paramétereket az adatokból határozzuk meg

Az input adatok jellemzői fontosak

• A hasonlóság vagy sűrűség függvény– Leszármaztatott, de alapvető fontosságú

• Ritkaság– A hasonlósági mértéket meghatározhatja– Segítheti a hatékonyságot

• Attribútum típus– Meghatározhatja a hasonlóságot

• Dimenzionalitás• Zaj és kiugró értékek• Eloszlás típusa

k-közép klaszterező

K-közép klaszterezés

• Particionáló eljárás • centroid : klaszter közepe• Egy pontot ahhoz a klaszterhez csatolunk, amely centroidja a legközelebb van hozzá • A klaszterek száma, K, előre definiálandó

K-közép algoritmus - részletek• A kezdőpontokat gyakran véletlenszerűen választjuk

– Újabb futtatásnál más eredményt kaphatunk

• A centroid általában a klaszterekhez tartozó pontok átlaga • A közelséget mérhetjük euklideszi távolsággal, koszinusz távolsággal, korrelációval, …• A K-közép eljárás a fenti mértékeknél konvergálni fog egy megoldáshoz • A legtöbb esetben az első néhány lépésben megtörténik a konvergencia

– A megállási kritériumot gyakran: amikor már csak kevés pont helyzete változik-ra cserélik

Két különböző K-közép klaszterezés

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

xy

Sub-optimális klaszterezés

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Optimális klaszterezés

Kezdeti középpontok jó választása

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 6

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

Kezdeti középpontok rossz választása

A kezdőpontok választásának problémái

• Ha a „valódi” klaszterek száma K nagy, úgy nagyon kicsi az esélye annak, hogy mindegyikből egy kezdőpontot választunk – tfh a klaszterekben azonos számú elem van (n):

– Pl. K = 10 mellett a valószínűség = 10!/1010 = 0.00036– Néha a kezdő középpontok korrigálni tudják magukat, néha nem

Az „5 pár klaszter” példa

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 1

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 2

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 3

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 4

Minden pár egyik elemében választott kezdőpontok

Néhány párban 3 kezdőérték, néhánynál csak egy

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 1

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 2

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 3

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 4

Az „5 pár klaszter” példa

Megoldások az előző problémára

• Többszörös futtatás– Hogyan átlagoljuk őket?– Segíthet néha– Használjunk hierarchikus klaszterezést a

kezdőpontok meghatározására

• Több, mint k kezdőpont választása, majd azokból további választás – Pl. a legközelebbi kezdőpontpárok

összevonása

Klaszterezések összevetése• Négyzetes távolság (Sum of Squared Error,

SSE)– minden pontra a legközelebbi középponttól való

távolság – SSE definíciója:

– x a Ci klaszterben van, mi a Ci klasztert reprezentáló pont

• Ha adott két klaszterezésünk, a kisebb hibájút választjuk

• Az SSE általában csökken K növelésével…

K

i Cxi

i

xmdistSSE1

2 ),(

Üres klaszterek kezelése

• A K-közép algoritmus pont nélküli centroidokat („üres klaszter”) adhat…

Üres klaszterek kezelése

• Lehetséges stratégiák:– Az SSE-hez a legjobban hozzájáruló

pontba tesszük a pontnélküli centroidot

– Abból a klaszterből válasszunk pontot centroidnak, amelyiknek a legnagyobb az SSE-je

– Ha több üres klaszter van, ismételjük meg az előzőeket többször

A középpontok lépésenkénti aktualizálása

• A K-közép algoritmusnál a középpontokat akkor aktualizáljuk, ha az összes pont hozzárendelése megtörtént

• Alternatív módszer, ha minden egyes lépés (hozzárendelés) után aktualizáljuk a középpontokat– Minden hozzárendelés nulla vagy két középpontot

érint – Költségesebb – Sorrendtől függőséget vezet be – Sosem ad üres klasztert

A K-közép korlátai

• K-középnek akkor vannak problémái, ha a klaszterek nagyon különböznek – Méretben– Sűrűségben– Nem gömbszerű alakúak vagy ha sok

kiugró érték van

A K-közép korlátai : különböző méretek

Eredeti pontok K-közép (3 klaszter)

A K-közép korlátai : különböző sűrűség


A K-közép korlátai : Nem gömbszerű


Elő- és utófeldolgozás

• Előfeldolgozás– Normalizálás– Kiugró értékek kiszűrése

• Utófeldolgozás– Kis klaszterek kiszűrése (kiugró értékek?) – A laza klaszterek felosztása (nagy SSE

értékek mellettiek)– Fésüljük össze a közeli, kis SSE-vel

rendelkező klasztereket

A K-közép korlátainak feloldása

Eredeti pontok K-közép klaszterek

Egy megoldás: sok klaszter keresése, majd a végén össze kell vonni őket.







• Egymásba ágyazott klasztereket állít elő, ezek fába rendezhetők

• Vizualizációs módszer: dendrogram– Egy olyan fa, amely az egyesítések

sorrendjét adja meg

1 3 2 5 4 60

0.05

0.1

0.15

0.2

1

2

3

4

5

6

1

23 4

5

Hierarchikus klaszterezés erősségei

• Nem kell előzetesen feltételezni egy klaszterszámot

• Tetszőleges számú klaszter kapható a dendogram megfelelő helyen történő vágásával

• Értelmes jelentést adhatunk neki – Pl. biológiában a filogenetikus fa:

Hierarchikus klaszterezés erősségei


• Két alaptípus– Agglomeratív (összevonó):

• Kezdetben minden elem egy klaszter

• Minden lépésben a két legközelebbi klasztert vonjuk össze

– Divizív (felosztó): • Minden elem egy klaszterben van

• Minden lépésnél valamelyik klasztert felbontjuk

• A hagyományos hierarchikus módszerek hasonlósági vagy távolsági mátrixot használnak

Összevonó klaszterezési eljárás

• Az alapalgoritmus:1. Compute the proximity matrix2. Let each data point be a cluster3. Repeat4. Merge the two closest clusters5. Update the proximity matrix6. Until only a single cluster remains

• A kulcsművelet két klaszter hasonlóságának számítása

– Ezt különbözőképpen tehetjük meg, és ettől függően többféle változat van

Kiindulási helyzet

• Minden pont egy-egy külön klaszter, és adott a hasonlósági mátrix

p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

. Proximity Matrix

...p1 p2 p3 p4 p9 p10 p11 p12

Közbülső helyzet• Néhány lépés után vannak klasztereink

C1

C4

C2 C5

C3

C2C1

C1

C3

C5

C4

C2

C3 C4 C5

Proximity Matrix

...p1 p2 p3 p4 p9 p10 p11 p12

Közbülső állapot• A két legközelebbi (C2 és C5) klasztert szeretnénk

összefésülni, és a mátrixot megfelelően módosítani

C1

C4

C2 C5

C3

C2C1

C1

C3

C5

C4

C2

C3 C4 C5

Proximity Matrix

...p1 p2 p3 p4 p9 p10 p11 p12

Összefésülés után

C1

C4

C2 U C5

C3? ? ? ?

?

?

?

C2 U C5C1

C1

C3

C4

C2 U C5

C3 C4

Proximity Matrix

...p1 p2 p3 p4 p9 p10 p11 p12

Klaszterek közötti hasonlóság?

p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

.

Similarity?

MIN MAX Csoport átlag Közepek közötti távolság Célfüggvény által vezérelt módszerek

– Ward módszere négyzetes hibával

Proximity Matrix


p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

.Proximity Matrix




p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

.Proximity Matrix




p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

.Proximity Matrix




p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

.Proximity Matrix



Klaszter hasonlóság: MIN (Single Link)

• Két klaszter hasonlósága a legközelebbi pontjának távolsága – Egyetlen pontpár határozza meg, a

hasonlósági gráfban egyetlen él

I1 I2 I3 I4 I5I1 1.00 0.90 0.10 0.65 0.20I2 0.90 1.00 0.70 0.60 0.50I3 0.10 0.70 1.00 0.40 0.30I4 0.65 0.60 0.40 1.00 0.80I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Hierarchikus klaszterezés: MIN

Dendrogram

1

2

3

4

5

6

1

2

3

4

5

3 6 2 5 4 10

0.05

0.1

0.15

0.2

Egymásba ágyazott klaszterek

MIN előnye

Eredeti pontok Két klaszter

Nem elliptikus alakokat is jól kezel

MIN korlátai


Érzékeny a zajra és a kiugró pontokra

Klaszter hasonlóság: MAX(Complete Linkage)

• Két klaszter távolsága a bennük levő legtávolabbi pontok távolsága – A két klaszter összes pontjának

segítségével határozhatjuk meg I1 I2 I3 I4 I5

I1 1.00 0.90 0.10 0.65 0.20I2 0.90 1.00 0.70 0.60 0.50I3 0.10 0.70 1.00 0.40 0.30I4 0.65 0.60 0.40 1.00 0.80I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Hierarchikus klaszterezés: MAX

Beágyazott klaszterek Dendrogram

3 6 4 1 2 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

1

2

3

4

5

6

1

2 5

3

4

MAX erőssége


Kevésbé érzékeny zajokra és kiugró értékekre

MAX korlátai


Nagy klasztereket hajlamos felbontani

Kör alakúakat előnyben részesit

Klaszter hasonlóság: csoport átlag(UPGMA)

• Két klaszter hasonlósága a bennük levő pontok átlagos távolsága

||Cluster||Cluster

)p,pproximity(

)Cluster,Clusterproximity(ji

ClusterpClusterp

ji

jijjii

I1 I2 I3 I4 I5I1 1.00 0.90 0.10 0.65 0.20I2 0.90 1.00 0.70 0.60 0.50I3 0.10 0.70 1.00 0.40 0.30I4 0.65 0.60 0.40 1.00 0.80I5 0.20 0.50 0.30 0.80 1.00

1 2 3 4 5

Klaszter hasonlóság: csoport átlag

Egymásba ágyazott klaszterek Dendrogram

3 6 4 1 2 50

0.05

0.1

0.15

0.2

0.25

1

2

3

4

5

6

1

2

5

3

4

Klaszter hasonlóság: csoport átlag

• Kompromisszum a Single és Complete Link között

• Erősség– Kevéssé érzékeny kiugró értékekre és

zajra

• Korlát– Köralakú klaszterek irányába torzít

Ward módszere

• A hasonlóság két klaszter összefésülésénél: a négyzetes hiba növekedése (változása)– Hasonló a csoportátlaghoz, ha ott a

távolságok négyzeteit vennénk

• Kevéssé érzékeny zajra és kiugró értékekre

• Torzít köralakú klasztereknél • Hierarchikus megfelelője a K-középnek

– Használható a K-közép inicializálására

Hierarchikus klaszterezés: Idő- és tárigény

• O(N2) tárigény (hasonlósági mátrix) – N a pontok száma

• O(N3) idő – N lépés van, és minden lépésben a

mátrixmérettel arányos számolás

Hierarchikus klaszterezés: problémák és határok

• Ha egyszer két klasztert összefésültünk, nem lehet visszacsinálni

• Nincs közvetlen minimalizálandó célfüggvény

• A különböző módszereknek problémái lehetnek az alábbiakkal – Zajra és kiugró értékekre való érzékenység – Különböző méretű klaszterek, konkáv

alakzatok kezelése – Nagyméretű klaszterek

MST:Felosztó Hierarchikus Klaszterezés

MST (Minimum Spanning Tree) építése– Prim algoritmusa, O(N2)

MST:Felosztó Hierarchikus Klaszterezés

• MSTt használ klaszterek hierarchiájának építésére

Sűrűség alapú klaszterezés

DBSCAN

– Sűrűség = pontok száma vizsgált pont ε környezetében

– Egy pont mag-pont (core point) ha egy konstansnál (MinPts) több pont van az ε környezetében

• Ezek a pontok vannak a klaszter belsejében

– Egy határpontnak (border point) a MinPts-nél kevesebb pont van az ε környezetében, de egy mag-pont környezetében van

– A zajos pontok (noise point) a többi pont

DBSCAN: Mag, határ, zajos pontok

DBSCAN: Mag, határ, zajos pontok

Eredeti pontok Pontok: core, border és noise

Eps = 10, MinPts = 4

DBSCAN Algoritmus

Mikor működik a DBSCAN jól

Eredeti pontok Klaszterek

Nem érzékeny a zajra

Különböző alakú és méretű klasztereket kezel

Mikor nem jó a DBSCAN?

Eredeti pontok

(MinPts=4, Eps=9.75).

(MinPts=4, Eps=9.92)

Változó sűrűség

DBSCAN: ε és MinPts meghatározása

• Alapötlet: a klaszterek k-dik legközelebbi pontjai közel azonos távolságra vannak

• A zajos pontoknál a k-dik legközelebbi pont messze van

• Rajzoljuk fel minden pontnál a k-dik legközelebbi pont távolságát

Klaszterek validitása

Klaszterek validitása (validity)

• Mennyire jók az eredményül kapott klaszterek?

• A klaszterek a szemlélőtől is függenek! • Akkor miért akarjuk kiértékelni őket?

– „Szemrevételezés”: létezik-e egyáltalán valamilyen struktúra az adatokban (klaszter tendencia) pl zajban ne találjunk mintát

– A klaszter elemzés eredményeinek összevetése előzetesen adott osztálycímkékkel (!?)

– Két különböző klaszterhalmaz összevetése, a jobb illeszkedés megállapítása

– A klaszterek valódi számának meghatározása

Klaszterek véletlen adatokban

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Véletlen pontok

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

K-közép

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

DBSCAN

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Complete Link

– Külső mérték: azt mérjük, hogy az klaszterek mennyire illeszkednek előre adott osztálycímkékhez vagy páros megkötésekhez

– Belső mérték: a jóságot a struktúrán mérjük, külső információ felhasználása nélkül → célfüggvény

• pl. össz négyzetes hiba (SSE)

– Relatív Index: Két különböző klaszterezés eredményeinek összehasonlítása

Klaszterek validitásának mérőszámai

– Hasonlóság mátrix– Szomszédsági mátrix

• Minden pontnak egy sor és egy oszlop felel meg• Egy elem a mátrixban 1, ha az adott pontok egy klaszterben

vannak, különben 0

• Határozzuk meg a két mátrix közötti korrelációt

– Mivel a mátrixok szimmetrikusak, csak n(n-1) / 2 elem között kell a korrelációt számolni

• Magas korreláció esetén az egy klaszterbe tartozó pontok közel vannak egymáshoz

Korreláció, mint belső mérték

• A szomszédsági és a hasonlóság mátrix korrelációja két példán (K-közép klaszterezés)

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Corr = -0.9235 Corr = -0.5810

Korreláció, mint belső index

Rendezzük a hasonlósági mátrix sorait és oszlopait a klasztereknek megfelelően, és „figyeljük meg”

Klaszter validáció: hasonlósági mátrix

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Points

Po

ints

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


Points

Po

ints

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

DBSCAN

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Points

Po

ints

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

K-közép

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y


0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Points

Po

ints

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Complete Link


1 2

3

5

6

4

7

DBSCAN

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

500 1000 1500 2000 2500 3000

500

1000

1500

2000

2500

3000


• Bonyolultabb alakzatok klaszterei kevéssé szeparáltak• Átlagos SSE nagyon jó két klaszterezés

összehasonlítására• Klaszterek számának becslésére is használható

Belső mérték: SSE

2 5 10 15 20 25 300

1

2

3

4

5

6

7

8

9

10

K

SS

E

5 10 15

-6

-4

-2

0

2

4

6

• Klaszter kohézió: Milyen közeliek az elemek egy klaszteren belül – pl: klaszteren belüli négyzetösszeg

• Klaszter elválasztás: Milyen különbözőek, jól elválasztottak a klaszterek egymástól - Elválasztás: a klaszterek közötti négyzetösszeg

– Ahol |Ci| az i.dik klaszter mérete

Általánosságban a belső mértékek

i Cx

ii

mxWSS 2)(

i

ii mmCBSS 2)(

Belső mértékek: kohézió és elválasztás

• Példa: négyzetes hiba

1 2 3 4 5 m1 m2

m

1091

9)35.4(2)5.13(2

1)5.45()5.44()5.12()5.11(22

2222

Total

BSS

WSSK=2 klaszter:

10010

0)33(4

10)35()34()32()31(2

2222

Total

BSS

WSSK=1 klaszter:

• Hasonlósági gráf alapú megközelítés kohézióra és elválasztásra:– Kohézió a klaszteren belüli kapcsolatok össz-súlya

– Elválasztás a két klaszter közötti kapcsolatok össz-súlya

Belső mértékek: kohézió és elválasztás

kohézió szeparáció

• A sziluett együttható a kohézió és az elválasztás keveréke • Az i pontra

– Legyen a = az i átlagos távolsága a klaszterén belüli pontoktól – Legyen b = a többi klaszterhez tartozó pontok átlagos távolsága – A sziluett együttható

s = 1 – a/b ha a < b, (vagy s = b/a - 1 ha a b, nem tipikus eset)

– Általában 0 és 1 között. – Minél közelebb 1-hez, annál jobb

• Átlagos sziluett számolható egy klaszterre vagy egy teljes klaszterezésre is.

Belső mérték: sziluett együttható

ab

“The validation of clustering structures is the most difficult and frustrating part of cluster analysis.

Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage.”

Algorithms for Clustering Data, Jain and Dubes

Documents

Klaszterezés