Download ppt - 1) klāsteru analīze

Transcript
Page 1: 1) klāsteru analīze

1) klāsteru analīze

Praktiskā ekoloģija, Līga Strazdiņa Botānikas un ekoloģijas katedra

DATU GRUPĒŠANA

Page 2: 1) klāsteru analīze

MĒRĶISklasificēt datu kopu apakšgrupās jeb klāsteros. Katrā klāsterī tiek apvienoti savstarpēji visciešāk saistītie objekti.

JĒGAsaprast, cik līdzīgi (jeb atšķirīgi) ir objekti, kas tiek grupēti.

REZULTĀTS

dendrogramma.

Page 3: 1) klāsteru analīze

HIERARHISKA klasifikācija

no apakšgrupām pakāpeniski vairākos soļos tiek veidotas lielākas grupas.

Ethem Alpaydin http://www.cmpe.boun.edu.tr/~ethem/i2ml/

NEHIERARHISKA klasifikācija

datu kopai tiek meklēta optimālā struktūra, kurā grupas var arī nebūt savstarpēji saistītas un nesastāv no apakšgrupām.

PIEMĒRS.ar vidējā k (k-mean) metodi

datu kopu atkārtoti grupē klāsteros pēc objektu tuvākas

atrašanās klāstera centram

Page 4: 1) klāsteru analīze

A B C D E

D , E

A , B

C , D , E

A , B , C , D , Egrupu apvienoša

na

klāsteru sadalīša

na

Kuras grupas

?

AGLOMERATĪVĀ (APVIENOŠANAS) metode

apakšgrupas hierarhiski apvieno lielākās, līdz iegūst tikai vienu grupu ar visiem objektiem.

DALĪŠANAS metode

datu kopu dala divās grupās, tās dala atkārtoti, ...

Page 5: 1) klāsteru analīze

DISTANCE MEASURE(detalizētāks apraksts iepriekšējās lekcijās).

Visbiežāk tiek izmantoti:+ Sorensen (Bray-Curtis vai Relative)+ Euclidean (Pythagorean vai Relative)

Mazāk piemēroti:- Jaccard- Correlation- Chi-squared

PARAMETRIizvēloties grupu savienošanas metodi (Group linkage method), jāņem vērā, kā tiks mērīts līdzīgums/atšķirīgums starp pētāmajiem objektiem (Distance measure).

Page 6: 1) klāsteru analīze

GROUP LINKAGE METHODgrupu savienošanas metodes tiek vērtētas pēc parametriem:

KOMBINATORISKA STRATĒĢIJA – atšķirības starp grupām aprēķina ar kombināciju vienādojumu.

NEKOMBINATORISKA STRATĒĢIJA – grupu atšķirības aprēķina pēc katra soļa, tādēļ metode ir lēnāka un aizņem vairāk datoratmiņas.

SAVIENOJAMAS ar attāluma jeb atšķirības mērīšanas metodi – vairākām grupu savienošanas metodēm neder Sorensen metode.

NEMAINĪGS LAUKS – apvienojot grupas, to sākotnējais attālums paliek konstants (pozitīva īpašība).

MAINĪGS LAUKS – apvienotās grupas pietuvojas (lauku saspiež) vai attālinās (lauku izpleš) vēl atlikušajiem objektiem un izmaina to sākotnējo attālumu. Rezultātā veidojas kļūdainas dendrogrammas.

Page 7: 1) klāsteru analīze

GROUP LINKAGE METHODNEAREST NEIGHBOR

attālums starp divām grupām =attālums starp diviem tuvākajiem objektiem no pretējām grupām

+

+G1

G2

- atšķirību starp grupām nosaka tikai pēc diviem objektiem

- nespēj apstrādāt lielu populāciju datus

- saspiež lauku

- dendrogrammai gari ‘zari’

Page 8: 1) klāsteru analīze

+

+G1

G2

GROUP LINKAGE METHOD

FARTHEST NEIGHBOR

attālums starp divām grupām =attālums starp diviem tālākajiem objektiem no pretējām grupām

+ veido daudz blīvus klāsterus

- atšķirību starp grupām nosaka tikai pēc diviem objektiem

- izpleš lauku, tādejādi veido grupas, pat ja nevajadzētu – uzsver outlier jeb nepiederošos datus

Page 9: 1) klāsteru analīze

GROUP LINKAGE METHODMEDIAN & CENTROIDTikai ar Euclidean distance measure!!

attālums starp divām grupām =

attālums starp grupu centroīdām, ko mēra ar Eiklīda metodi

G1G2

- abas metodes saspiež lauku, tiek pievienotas grupas, kas varētu veidot atsevišķus klāsterus- nav savienojamas ar Sorensen metodi

Page 10: 1) klāsteru analīze

GROUP LINKAGE METHOD

GROUP AVERAGE

+

+G1

G2

attālums starp divām grupām =vidējā vērtība no attāluma starp visiem vienas grupas objektiem ar visiem otras grupas objektiem

+ nemaina lauku- dendrogrammai gari ‘zari’

Page 11: 1) klāsteru analīze

GROUP LINKAGE METHODWARD’S METHODTikai ar Euclidean distance measure!!

+ nemaina lauku+ veido līdzīga izmēra klāsterus- nav savienojama ar Sorensen metodi

Page 12: 1) klāsteru analīze

GROUP LINKAGE METHODFLEXIBLE BETAß = -0.25 - līdzīga dendrogramma kā Ward’s metodeiß = 0 - līdzīga dendrogramma kā McQuitty’s metodei

+ nemaina lauku

Page 13: 1) klāsteru analīze

GROUP LINKAGE METHOD

MCQUITTY’S METHODTikai ar Euclidean distance measure!!

- saspiež lauku- nav savienojamas ar Sorensen metodi- lieliem populāciju datiem dendrogrammai gari ‘zari’

Page 14: 1) klāsteru analīze

SECINĀJUMI

par piemērotākajām metodēm uzskatāmas:

DISTANCE MEASURE GROUP LINKAGE METHOD

Sorensen & Euclidean Group averageEuclidean Ward’s methodSorensen & Euclidean Flexible beta (ß = -0.25)

Page 15: 1) klāsteru analīze

PAPILDUS FUNKCIJAsadala parauglaukumus vairākos grupu līmeņos

Page 16: 1) klāsteru analīze

PAPILDUS FUNKCIJA

izvērtē, cik grupu līmeņi ir piemēroti esošai datu kopai. Mazākā iespēja ir divas grupas.

Page 17: 1) klāsteru analīze

KĀ INTERPRETĒT KLĀSTERANALĪZES REZULTĀTUS?

Distance (Objective function) – norāda informācijas zudumus aglomerācijas (grupu apvienošanas) procesā

Information Remaining (%) – norāda %, cik informācijas vēl nav apstrādātas

A1; A55; ... Parauglaukumu numuri

atsevišķi klāsteri

Page 18: 1) klāsteru analīze

KĀ INTERPRETĒT KLĀSTERANALĪZES REZULTĀTUS?

grupu savienošanas metode

attāluma jeb līdzīguma/atšķirīguma mērīšanas metode

‘chaining’ jeb virknēšana ir secīga mazu grupu pievienošana lielai. Jo lielāks rādītājs, jo grūtāk interpretējama dendrogramma


Recommended