15
Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS A. Noţiuni teoretice Clasificare Prin clasificare se înţelege gruparea unor entităţi (observaţii, obiecte etc.) în clase (grupuri) de entităţi similare. Atunci când gruparea este efectuată manual, cel care o efectuează operează cu judecăţi de similaritate, asemănare, apropiere. Acest tip de raţionament este formalizat şi în metodele automate. Există, în esenţă, două tipuri de clasificare automată: 1. predictivă, de exemplu analiza discriminantă; se asignează o observaţie la un grup pornind de la reguli de clasificare derivate din observaţii clasificate în prealabil. Se poate ca schema de clasificare existentă să fie subiectivă, neutilizabilă efectiv, astfel încât metoda descoperă aspectele esenţiale ale schemei şi le transformă în reguli practice. 2. descriptivă, de exemplu analiza cluster; se grupează obiectele pe baza similarităţii lor, nu este cunoscută o grupare prealabilă. Clasificare predictivă Considerăm cazul a două populaţii multivariate, Π 1 şi Π 2 , fiecare caracterizată de repartiţiile diferitelor variabile măsurate. Problema clasificării revine la a stabili populaţia la care aparţine o observaţie u (caracterizată de valorile variabilelor considerate). Notând cu S spaţiul de eşantionare (care cuprinde observaţii din Π 1 şi din Π 2 ), o regulă de clasificare revine la a partiţiona S în A 1 şi A 2 , astfel încât pentru o observaţie u se poate dezvolta o procedură care decide dacă u A 1 , atunci u Π 1 dacă u A 2 , atunci u Π 2 Clasificare predictivă - Fisher Regula de clasificare a lui Fisher este bazată pe maximizarea separaţiei dintre cele două populaţii, în spiritul analizei varianţei. Presupunem că populaţiile univariate au, respectiv, mediile µ 1 , µ 2 şi dispersia comună σ 2 . Este evident (intuitiv) că o observaţie u va fi clasată în Π 1 dacă u este mai apropiată de µ 1 şi în Π 2 daca este mai apropiată de µ 2 . In cazul a două populaţii m-dimensionale, ideea lui Fisher a fost să transforme observaţia multidimensională u într-o observaţie univariată y = a'u. Problema devine atunci aceea de a determina combinaţia liniară, definită de vectorul a, astfel încât cele două populaţii să fie separate (diferenţiate) cât mai mult posibil. Se ajunge astfel, în cazul general, la problema studiată în analiza discriminantă. Această analiză oferă ca rezultat şi funcţiile de clasificare: Fiecare subpopulaţie, Π i , are asociată o funcţie de clasificare f i astfel încât observaţia u este clasată în populaţia Π j determinată prin ) ( max ) ( u u i i j f f =

Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Embed Size (px)

Citation preview

Page 1: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Statistică multivariată

Lucrarea nr. 12 — Clasificare - SPSS

A. Noţiuni teoretice

Clasificare Prin clasificare se înţelege gruparea unor entităţi (observaţii, obiecte etc.) în

clase (grupuri) de entităţi similare. Atunci când gruparea este efectuată manual, cel care o efectuează operează cu judecăţi de similaritate, asemănare, apropiere. Acest tip de raţionament este formalizat şi în metodele automate.

Există, în esenţă, două tipuri de clasificare automată: 1. predictivă, de exemplu analiza discriminantă; se asignează o observaţie la

un grup pornind de la reguli de clasificare derivate din observaţii clasificate în prealabil. Se poate ca schema de clasificare existentă să fie subiectivă, neutilizabilă efectiv, astfel încât metoda descoperă aspectele esenţiale ale schemei şi le transformă în reguli practice.

2. descriptivă, de exemplu analiza cluster; se grupează obiectele pe baza similarităţii lor, nu este cunoscută o grupare prealabilă.

Clasificare predictivă Considerăm cazul a două populaţii multivariate, Π1 şi Π2, fiecare caracterizată

de repartiţiile diferitelor variabile măsurate. Problema clasificării revine la a stabili populaţia la care aparţine o observaţie u (caracterizată de valorile variabilelor considerate).

Notând cu S spaţiul de eşantionare (care cuprinde observaţii din Π1 şi din Π2), o regulă de clasificare revine la a partiţiona S în A1 şi A2, astfel încât pentru o observaţie u se poate dezvolta o procedură care decide

• dacă u ∈ A1, atunci u ∈ Π1

• dacă u ∈ A2, atunci u ∈ Π2

Clasificare predictivă - Fisher Regula de clasificare a lui Fisher este bazată pe maximizarea separaţiei dintre

cele două populaţii, în spiritul analizei varianţei. Presupunem că populaţiile univariate au, respectiv, mediile µ1, µ2 şi dispersia comună σ2.

Este evident (intuitiv) că o observaţie u va fi clasată în Π1 dacă u este mai apropiată de µ1 şi în Π2 daca este mai apropiată de µ2.

In cazul a două populaţii m-dimensionale, ideea lui Fisher a fost să transforme observaţia multidimensională u într-o observaţie univariată y = a'u. Problema devine atunci aceea de a determina combinaţia liniară, definită de vectorul a, astfel încât cele două populaţii să fie separate (diferenţiate) cât mai mult posibil. Se ajunge astfel, în cazul general, la problema studiată în analiza discriminantă. Această analiză oferă ca rezultat şi funcţiile de clasificare:

Fiecare subpopulaţie, Πi, are asociată o funcţie de clasificare fi astfel încât observaţia u este clasată în populaţia Πj determinată prin

)(max)( uu ii

j ff =

Page 2: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Definim centrul unei clase (sau centroidul clasei) în mod uzual, ca punctul având drept componente mediile aritmetice ale componentelor corespunzătoare din punctele clasei. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o observaţie (valorile celor m variabile determină un punct în spaţiul R m) şi punctele centrale, centroizii claselor. Distanţele se pot calcula ca distanţe euclidiene, dar, din păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor: variabile măsurate pe scale diferite, de ordine de mărime diferite, pot afecta foarte mult distanţele euclidiene. Componentele cu variabilitate mare ar trebui să contribuie cu ponderi mai mici decât cele cu variabilitate mică.

Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi, cea mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m variabile, adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x))′] atunci distanţa Mahalanobis între punctele x = (x1, …, xm)′ şi y = (y1, …, ym) ′, este definită prin

y)(xΣ)y(xyx, 1Σ −′−= −)(d

şi, corespunzător, se defineşte norma unui vector prin xΣx'xx 1−

ΣΣ == )0,(d .

Clasificare predictivă – k vecini Considerăm situaţia clasificării propriu-zise, adică sunt cunoscute n obiecte

prin atributele lor, inclusiv apartenenţa la clasele π1, π2, …, πk, şi se doreşte clasarea unei noi observaţii.

Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k - nearest neighbours).

1. Se determină k obiecte cele mai apropiate de noua observaţie. 2. Aceste k obiecte stabilesc clasa noului obiect prin

• Vot majoritar – noul obiect este clasat în clasa la care aparţin cei mai mulţi dintre cei k vecini (care dispun fiecare de un vot întreg).

• Vot invers proporţional distanţei – similar votului majoritar, dar fiecare dintre cei k vecini apropiaţi dispune de o fracţiune de vot, egală cu inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie).

Clasificare descriptivă In analiza multivariată, clasificarea descriptivă (cluster analysis) se referă la

metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte similare. Cazurile de aplicare ale acestor metode sunt similare celor în care se utilizează analiza factorială.

Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii, obiecte, coloanele sunt variabile, atribute). In plus,

• datele sunt omogene în sensul că are sens calculul distanţelor dintre elemente

• există suficient de multe date încât simpla inspecţie vizuală sau prelucrările statistice elementare nu oferă o imagine satisfăcătoare a structurii datelor

• tabloul de date este amorf: nu există o structurare a priori (dependenţe funcţionale, relaţii, clasificări cunoscute).

Page 3: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

De remarcat că ultima caracteristică este cea care ne depărtează de descrierea predictivă (unde se presupunea existenţa unei structurări necesare în etapa de training).

Drept rezultat al clasificării descriptive se obţin grupurile de elemente, clasele identificate. Deoarece se pot aplica pe aceleaşi structuri de date, metodele clasificării descriptive sunt complementare metodelor analizei factoriale. De regulă, atunci când se utilizează împreună, analiza factorială este efectuată mai întâi, clasele evidenţiate de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptivă.

Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca urmare a unei suite de operaţii efectuate recursiv sau repetitiv; matematica implicată este relativ elementară.

Numim clasă (grup, cluster) o mulţime de obiecte (elemente) similare între ele şi nesimilare obiectelor din alte clase. Un cluster poate fi gândit (reprezentările grafice reflectă aceste interpretări)

• Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi depărtate de punctele din alte clase, sau

• Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate mare (relativ) de puncte, clusterele fiind separate între ele de regiuni cu o densitate scăzută (relativ) de puncte.

Rezultă că problema esenţială în determinarea (identificarea) clusterelor este cea a specificării proximităţii (apropierii, similarităţii) şi cum se determină aceasta. Este evident că proximitatea este o noţiune dependentă de problema reală cercetată.

Structurile uzuale de date privind obiectele supuse analizei cluster sunt: • Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin

atributele lor – n obiecte şi p atribute vor furniza o matrice de tip n×p. Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).

• Matricea de proximitate. Elementele d(i,j) reprezintă proximităţile dintre obiectele i şi j. Proximitatea poate fi

o similaritate (asemănare), cum ar fi coeficientul de corelaţie, sau o disociere (depărtare, diferenţiere), cum ar fi distanţa euclidiană.

Atunci când atributele sunt de tipuri diferite (atât discrete, cât şi continue), se poate calcula proximitatea dintre obiectele i şi j prin

]1,0[),(

1

)(

1

)()(

∈=

=

=f

i

fij

p

f

fij

fij d

jidδ

δ

unde )( fijδ este ponderea variabilei f

===

restin 1binara ,asimetrica este si 00

lipsa sau pentru 0)( fxx

xx

jfif

jfiff

ijδ

Menţionăm că )( fijd este contribuţia variabilei f la d(i,j) şi anume:

- dacă f este binară sau nominală, atunci =

= altfel 1

pentru 0)( jfiffij

xxd

(Hamming) - dacă f este continuă, atunci (normalizare prin amplitudine)

hfhhfh

jfiffij xx

xxd

minmax)(

−=

Page 4: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

- dacă f este ordinală, se atribuie rangul rif, se calculează 1max

1−

−=

hfh

ifif r

rz şi se

consideră că f este continuă, având valorile zif. Există mai multe tipuri de algoritmi de clasificare: - Algoritmi ascendenţi (de agregare, de sinteză) – clasele sunt construite

prin agregarea succesivă a elementelor, se obţine astfel o ierarhie de partiţii, de clase.

- Algoritmi descendenţi (de divizare) – mulţimea obiectelor este divizată succesiv în submulţimi de obiecte din ce în ce mai omogene; se poate obţine şi aici o ierarhie a partiţiilor.

- Algoritmi de partiţionare – se pleacă de la o partiţie (structură de clase) care se modifică pentru a maximiza omogenitatea fiecărei clase.

Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical cluster analysis).

Clasificare descriptivă - agregare Algoritmul fundamental de clasificare ascendentă ierarhică este: 1. Etapa 0 – există cele n elemente care se clasifică; 2. Etapa 1 – se determină perechea de elemente cele mai apropiate între ele şi

se produce, prin agregarea lor, un nou element; 3. Etapa 2 – există acum n-1 elemente care se clasifică; 4. Se repetă Etapa 1 şi Etapa 2 până când mulţimea elementelor care se

clasifică are un singur element.

Clasificare descriptivă - divizare Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă: 1. Se pleacă de la mulţimea totală a elementelor 2. La fiecare pas următor, cea mai “mare” (cea mai eterogenă) grupare este

divizată în două subgrupări. 3. Algoritmul se opreşte atunci când toate grupurile constituite au câte un

singur element. Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului,

definit ca distanţa maximă dintre două elemente din grup. Evident că se pot utiliza şi alte metode în acest scop.

Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis): 1. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte

obiecte (cea mai mare disociere). Este obiectul care iniţiază un nou cluster, S (splinter group).

2. Pentru fiecare obiect i din afara grupului S a. se calculează

),(),( jidjidDjj

i mediamediaSS ∈∉

−=

b. Se determină un obiect h cu Dh = max Di. c. Dacă Dh este pozitiv, atunci obiectul h se adaugă grupului splinter

(este mai apropiat, în medie, de elementele din S). d. Se repetă a) – c) până ce Dh este negativ. Mulţimea iniţială este

acum divizată în două clustere.

Page 5: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

3. Se selectează clusterul cu cel mai mare diametru. Acesta este divizat prin paşii 1 – 2.

4. Se repetă 3) până când toate grupurile constituite au un singur element. Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent,

în care pe axa verticală sunt obiectele, pe axa orizontală se trec diametrele clusterelor.

Clasificare descriptivă - partiţionare Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se

poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge, prin migrarea obiectelor între clase, la o partiţie care îndeplineşte un criteriu de optim. Partiţia finală constituie structura de clustere căutată. De reţinut, totuşi, faptul că nu există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte.

Metodele de partiţionare sunt utile atunci când există un mare număr de obiecte, caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte produc o dendrogramă de neînţeles).

Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care minimizează suma pătratelor erorilor (apare la distanţa Ward). Eroarea este distanţa de la un obiect la centrul clusterului său.

Un algoritm general de partiţionare este: 1. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele

clusterelor. 2. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu

centrul cel mai apropiat. 3. Se calculează noile centre ale clusterelor. 4. Se repetă paşii 2-3 până se stabilizează clusterele sau nu se

îmbunătăţeşte criteriul ales. 5. Se ajustează numărul de clustere prin reunirea sau divizarea unor

clustere sau prin eliminarea clusterelor aberante (cu un număr mic de elemente).

6. Se repetă paşii 2-5 până se stabilizează clusterele sau nu se îmbunătăţeşte funcţia criteriu.

Elementele importante ale algoritmului sunt comentate în continuare. Partiţia iniţială O partiţie iniţială se poate obţine selectând k obiecte, considerându-le centre şi

grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). Nu se recalculează centrele după fiecare clasificare a unui element.

Centroizii fiecărui cluster astfel format constituie centrele pentru pasul următor.

Page 6: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o analiză prealabilă (clasificare ascendentă, analiză în componente principale etc.). Clusterele iniţiale pot fi date de o clasificare ascendentă, de exemplu. De reţinut, totuşi, că partiţii iniţiale diferite conduc la clustere finale diferite.

Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor conduc la atingerea unui optim local, cel puţin dacă grupurile nu sunt bine diferenţiate. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale diferite.

• Dacă se ajunge la o aceeaşi partiţie, atunci se măreşte încrederea că s-a atins un optim global.

• In caz că nu, se pot analiza subgrupurile stabile (elemente care sunt mereu împreună), care pot oferi informaţii despre numărul de clustere.

Actualizarea partiţiei Există mai multe moduri de abordare a pasului 2 din metoda generală: • Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat.

o Centrele se recalculează după fiecare atribuire, sau o Centrele se recalculează după ce au fost procesate toate obiectele.

• Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu. Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Se încearcă astfel evitarea unui optim local.

Ajustarea partiţiei Se pot defini condiţii pentru reducerea, sau extinderea numărului de clustere.

Se încearcă astfel atingerea unui număr “natural” de clustere, apropiat de gruparea reală, neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor sau din alte cauze exterioare.

Algoritmul cel mai cunoscut este, în acest sens, ISODATA (Ball & Hall, Jensen):

• Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau dacă distanţa dintre centrele lor este mică (sub un prag fixat).

• Un cluster este divizat dacă dispersia elementelor (după atributul cel mai dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de elemente (de exemplu, de două ori mai multe decât numărul minim).

Este de remarcat că existenţa valorilor aberante poate denatura procesul de clusterizare. Din acest motiv, anumiţi autori recomandă excluderea obiectelor aberante (şi chiar a celor din clusterele cu puţine elemente).

Convergenţa Deşi nu se garantează atingerea unui optim global, algoritmul se opreşte atunci

când funcţia criteriu nu mai poate fi îmbunătăţită, sau – în anumite variante – când partiţia nu se modifică în două iteraţii succesive.

Demonstraţii matematice ale convergenţei au fost bazate • fie pe formularea problemei ca o problemă de programare matematică, • fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa

interclase şi se micşorează varianţa intraclase, ceea ce – dată fiind finitudinea mulţimii de obiecte – produce oprirea procesului.

Clasificare descriptivă – metode fuzzy In afară de metodele deterministe, au fost dezvoltate şi metode de clasificare

fuzzy. Intr-o metodă fuzzy se obţin, pentru fiecare obiect, probabilităţile ca obiectul să aparţină la fiecare dintre clustere.

Page 7: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

De exemplu, o metodă fuzzy, similară metodei de partiţionare, este metoda celor c medii (fuzzy c-means), bazată pe minimizarea funcţiei obiectiv

∑∑= =

=n

i

c

jji

mijm cxduJ

1 1

2 ),(

unde n - numărul de obiecte, c – numărul de clustere, m ∈ R , m > 1 este parametru (uzual este 2), cj, j = 1…c sunt centrele clusterelor, d este o distanţă de similaritate, uij este

gradul de apartenenţă al lui i la clusterul j. Rezultatul este conţinut în matricea de apartenenţă (uij) care oferă

probabilităţile apartenenţei elementelor la clase. Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv)

prin actualizarea la fiecare pas a matricei de apartenenţă (uij) şi a centrelor clusterelor (cj)

∑=

=

c

l

m

li

ji

ij

cxdcxd

u

1

11

2

2

),(),(

1

=

== n

i

mij

n

ii

mij

j

u

xuc

1

1

Procesul se opreşte atunci când matricea de apartenenţă se stabilizează: ε<−+ )()1(

,max k

ijk

ijji

uu

unde ε ∈ (0, 1) are semnificaţia uzuală în procese iterative similare.

Distanţe între obiecte În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre

obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distanţe modifică grupările care se constituie.

Metoda celui mai apropiat vecin (nearest neighbor method) Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale

grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite) ( ) ),(min,

21,21 yxdyx ππ

ππ∈∈

=d

În imaginea următoare se exemplifică, prin numerotarea 1 … 6 ordinea de atribuire a elementelor respective la grupurile figurate în extremităţi. Astfel, un lanţ de obiecte apropiate două câte două este atribuit, de regulă, la un singur grup, ceea ce nu produce o grupare acceptabilă.

Page 8: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Metoda celui mai depărtat vecin (farthest neighbor method) Această metodă utilizează calcularea distanţei dintre două grupuri drept

distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai depărtate elemente din clase diferite)

( ) ),(max,21,

21 yxdyx ππ

ππ∈∈

=d

Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. În imaginea alăturată se poate vedea ordinea de atribuire 1 … 6 a elementelor corespunzătoare la cele două grupuri extreme. Gruparea obţinută corespunde mai bine şi grupării intuitive (efectuată de un operator uman).

Metoda legăturii medii Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente

ale grupurilor

( ) ∑ ∑∈ ∈

=1 2

),(1,21

21π π

ππx y

yxdnn

d

Metoda distanţei centrelor (average group linkage) Se consideră, ca distanţă dintre două grupuri π1 şi π2, distanţa dintre centrele

grupurilor ( ) ),(,

2121 ππππ GGd=d

unde centrele Gπ1 şi Gπ2 au drept componente mediile aritmetice ale componentelor elementelor din cele două grupuri, respectiv.

De remarcat că centrul unui grup este dinamic, fiecare nou element putând produce deplasarea lui. Centrul unui grup format dintr-un singur element este chiar acel element.

Metoda distanţei Ward (Ward's linkage) Distanţa Ward este bazată pe creşterea “suma de pătrate a erorilor” după

contopirea grupurilor într-unul singur. Metoda Ward selectează grupările care minimizează creşterea sumei de pătrate a erorilor.

( ) ( ))()()(,

)(

212121

2

ππππππ

ππ

π

SPSPSP

xxSPx

+−∪=

−= ∑∈

d

Page 9: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Dendrograma Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma). Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii

elementelor clasificate. Componentele partiţiei sunt clasele căutate. În figura alăturată este prezentată o dendogramă. Pe axa orizontală sunt

elementele iniţiale (ordinea este cea care permite desenarea arborelui). Pe axa verticală sunt distanţele dintre obiecte, de exemplu, între obiectele 4 şi 6 este o distanţă egală cu 4.

Calitatea clasificării Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori

(numărul de clase în special), evaluarea calităţii partiţiei obţinute este o etapă foarte importantă. Evaluarea trebuie să ia în considerare atât faptul că, poate, mulţimea iniţială nu are o structură bine determinată de clase, cât şi faptul că diferite metode conduc la clase diferite.

Procedurile uzuale de evaluare: • Vizualizarea partiţiei (dendrograme, profiluri, proiecţii). • Indicatori de calitate

o Coeficienţii de divizare (divisive coefficient – DC) şi de aglomerare (agglomerative coefficient – AC) care oferă indicatori (medii) globali.

o Indici de siluetă (Silhouette) care se pot defini atât global, cât şi local pentru fiecare cluster.

Divisive Coefficient (DC): Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare) la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii totale de obiecte (clusterul iniţial). Atunci

∑= )(1 idn

DC

Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendentă: Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi diametrul mulţimii totale de obiecte (clusterul final).

[ ]∑ −= )(11 idn

AC

Page 10: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

AC tinde să crească o dată cu numărul de obiecte. Silueta se calculează (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a

unui cluster, silueta medie globală. Acest indice vrea să reprezinte cât de bine este separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster – distanţa intra-cluster – şi cât de depărtate sunt de celelalte clustere – distanţa inter-clustere).

Prin calculul siluetei se poate decide asupra validităţii unui cluster, ca şi asupra numărului corect de clustere.

Notând cu S (i) silueta obiectului i, formula de calcul este

},max{)(

ii

iiba

abiS −=

unde ai – disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster; bi – disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al doilea candidat pentru includerea obiectului i).

Dacă obiectul i este singurul element al unui cluster, atunci S (i) = 0.

Rezultă că -1 ≤ S (i) ≤ 1 şi S (i) poate fi considerat ca un indice adimensional, cu putere de comparare. Interpretarea este

• Dacă S (i) este apropiat de 1, atunci obiectul este bine clasificat (este asociat cu clusterul adecvat).

• Dacă S (i) este aproape nul, atunci obiectul poate fi clasificat şi în următorul cluster apropiat (obiectul este situat similar în raport cu ambele clustere)

• Dacă S (i) este apropiat de –1, atunci obiectul este clasificat eronat (el este separat faţă de celelalte clustere).

Fiecare cluster este caracterizat de silueta medie, obţinută ca media siluetelor elementelor din cluster.

Intreaga structură de clustere este caracterizată de silueta medie globală, obţinută ca media siluetelor S(i) după toate obiectele i. Dacă structura conţine un număr k de clustere, se notează silueta medie globală cu Sk. Silueta medie globală se poate utiliza pentru a decide asupra “celui mai bun” număr de clustere: se va alege acel k pentru care Sk este maxim.

Se introduce coeficientul siluetă prin k

kSSC max=

Este propusă (Rousseeuw - 1987) următoarea interpretare a coeficientului siluetă după valoarea sa:

• 0.71 - 1.00 s-a determinat o structură puternică (bine definită) de clustere;

• 0.51 - 0.70 s-a determinat o structură acceptabilă • 0.26 - 0.50 structura determinată este slabă, poate fi artificială • ≤ 0.25 structura determinată este artificială.

B. Instrumente SPSS Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze –

Classify. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. De menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de

Page 11: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

calcule, el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor este importantă. Pentru considerarea altor distanţe se va apela procedura Hierarchical Cluster.

K-Means Cluster Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de

clase este cunoscut) şi apoi se repetă etapele: • atribuirea fiecărui caz la centrul cel mai apropiat, • actualizarea centrelor ca valori medii ale elementelor aparţinând clasei

respective. Ca interpretare se poate considera că centrul unei clase finale reflectă

caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru. Prin Analize – Classify – K-Means Cluster se deschide dialogul

În lista Variables se vor trece variabilele în funcţie de care se face clasificarea.

Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label Cases by. Numărul de clustere se poate fixa în Number of Clusters. O ghicire a numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind diagramele proiecţiilor pe planele factoriale. Ca metodă se poate alege • Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin

recalcularea centrelor după fiecare iteraţie. Dacă se doreşte utilizarea rezultatelor şi pentru clasificarea altor cazurii, informaţiile se vor salva într-un fişier prin selectarea opţiunii Write final as din grupul Cluster Centers.

• Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un fişier centrele claselor, calculate în prealabil şi salvate. În acest caz se va selecta, din zona Cluster Centers, Read initial from şi se va preciza File, fişierul salvat într-o prelucrare anterioară.

Prin acţionarea butonului Iterate din dialogul principal, buton permis doar pentru metoda Iterate and classify, se deschide dialogul sinonim.

În Maximum Iterations se fixează limita numărului de iteraţii, cel mult 999. Valoarea dată în Convergence Criterion reprezintă o proporţie p din distanţa minimă dintre centrele iniţiale, deci poate fi între 0 şi 1. Procesul iterativ se opreşte dacă niciun centru recalculat nu este deplasat cu mai

mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei. Prin selectarea opţiunii Use running means se cere

recalcularea centrelor la fiecare clasare a unui caz şi nu după clasarea tuturor cazurilor.

Acţionarea butonului Save din dialogul principal deschide dialogul prin care se poate cere salvarea unor

Page 12: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

informaţii ca noi variabile. Cluster membership – se salvează ca valori 1 … k apartenenţa la clusterele

finale. Distance from cluster center – salvează distanţa euclidiană dintre caz şi centrul clasei la care aparţine.

Prin dialogul Options, afişat la acţionarea butonului Options din dialogul principal, se pot preciza statisticile calculate şi modul de tratare a datelor lipsă.

În grupul Statistics: • Initial cluster centers – prima estimare a centrelor,

obţinută prin alegerea unui număr de cazuri egal cu numărul de clustere.

• ANOVA table – se afişează tabelul ANOVA pentru fiecare variabilă, considerând clusterele drept factor. Valorile F mari vor arăta variabilele care

contribuie cel mai mult la structura clusterelor. • Cluster information for each case – afişează asignările finale la clase, distanţa la

centrul clasei ca şi distanţele euclidiene dintre centrele finale.

Rezultatele SPSS în cazul K-Means Cluster Ieşirea depinde de opţiunile selectate în dialogurile procedurii, tabelele listate

în cazul (aproape) complet sunt prezentate în continuare. S-a realizat o clasificare ilustrativă utilizând fişierul SPSS de test Employee Data.

Centrele iniţiale ale claselor sunt alese aleatoriu, atâtea câte clustere sunt indicate în dialogul principal. Se prezintă coordonatele centrelor în spaţiul variabilelor.

Modificările survenite în timpul procesului iterativ sunt sistematizate în

tabloul următor, prezentându-se modificările apărute în coordonatele centrelor.

Centrele claselor finale sunt afişate într-un tabel similar celui care arată

centrele iniţiale:

O verificare mai mult orientativă asupra separării clusterelor după fiecare

variabilă considerată este conţinută în tabelul ANOVA:

Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a

clusterelor, toate testele F duc la respingerea ipotezei de egalitate a mediilor

Page 13: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

clusterelor. Se poate însă interpreta comparativ valoarea statisticii F în sensul că variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată.

Un tabel final arată câte elemente sunt clasificate în fiecare cluster.

Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul

clasei sunt create ca noi variabile cu denumiri implicite, după modelul

Informaţiile salvate pot fi utilizate, în afara scopului propus de a cunoaşte

unde aparţine fiecare observaţie, şi pentru ilustrarea clasificării prin diagrama de forma următoare, în care se poate observa modul de diferenţiere a claselor după diverse variabile (comanda a fost Graph - Scatter - Simple Scatter şi s-a precizat noua variabilă Cluster Number în Set Markers by).

Hierarchical Cluster Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi

reuneşte clustere până când se obţine un singur cluster. Se pot selecta mai multe distanţe, se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului optim de clustere.

Comanda este Analyze – Classify – Hierarchical Cluster care produce afişarea dialogului principal.

Page 14: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opţiunii selectate în grupul Cluster. Variabilele reprezentând caracteristicile după care are loc clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice. Grupul Display controlează ce se afişează, deci accesibilitatea la butoanele Statistics, Plots. Dialogurile secundare sunt explicate în continuare.

Statistics Agglomeration schedule – se afişează

combinaţiile din fiecare iteraţie, distanţe etc. Proximity matrix – se afişează distanţele sau similarităţile dintre elemente. Cluster Membership – produce afişarea apartenenţei la clustere în una sau mai multe iteraţii.

Plots Diagramele de aglomerare sunt disponibile în

formatul • Dendrogram (dendrograma explicată in curs,

orientată spre vizualizarea clusterelor) sau • Icicle (similară diagramei steag, orientată spre

vizualizarea cazurilor). Orientarea diagramei poate fi verticală sau

orizontală. În reprezentarea dendrogramei, distanţele dintre elementele care se unesc sunt transformate pe o scală 0 – 25, cu păstrarea raportului distanţelor.

Method În lista Cluster Method se poate alege una dintre metodele explicate în curs ca

metode de agregare, de calculare a distanţelor dintre clustere: cel mai apropiat vecin (nearest neighbor), cel mai depărtat vecin (furthest neighbor), distanţa faţă de centru (centroid clustering), Ward etc.

În grupul Measure se poate specifica distanţa sau similaritatea utilizată în grupare potrivit tipului de date: • Interval – pentru datele continue sunt

disponibile distanţele: euclidiană, cosinus (cosinusul unghiului dintre vectorii punctelor), corelaţia Pearson, Chebychev (diferenţa absolută maximă dintre valorile elementelor), block (suma diferenţelor absolute dintre componente, distanţa Manhattan), Minkowski (rădăcina de ordin p din suma diferenţelor absolute la puterea p), Customized (similară cu distanţa Minkowski, dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de coordonate)

• Count – pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere χ2 şi φ2 (a se vedea secţiunea privind asocierea datelor nominale).

Page 15: Statistică multivariată Lucrarea nr. 12 — Clasificare - SPSS Clasificare

• Binary – pentru datele dihotomice există o mulţime de distanţe propuse, bazate pe tabelul de frecvenţe încrucişate a celor două variabile. Se pot preciza valorile interpretate ca 0 sau 1.

În grupurile Transform Values şi Transform Measures se pot selecta metode de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen măsurate.

Save Se poate salva, sau nu, ca variabile noi,

apartenenţa la clustere. Selectarea opţiunii Single solution şi precizarea numărului de clustere considerat ca soluţie finală va salva apartenenţa la acel stadiu.

Dacă se selectează Range of solutions, se va salva apartenenţa la fiecare stadiu dintre cele menţionate.

C. Lucrarea practică 1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt

conţine consumul de proteine în 25 de ţări europene. Datele se referă la anul 1973. Sunt măsurate următoarele variabile: Country - numele ţării, RdMeat - carne roşie, WhMeat - carne albă, Eggs - ouă, Milk - lapte, Fish - peşte, Cereal - cereale, Starch - grăsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.

a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot fi grupate cele 25 de ţări

b) să se realizeze o clasificare a celor 25 de ţări; să se studieze concordanţa cu situaţia observată la punctul a).

2) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11, www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country – numele ţării, Agr – procentajul de muncitori din agrucultură, Min – procentajul de muncitori din minerit, Man – procentajul de muncitori din industria prelucrătoare, PS – procentajul de muncitori din industria energetică, Con – procentajul de muncitori din construcţii, SI – procentajul de muncitori din servicii, Fin – procentajul de muncitori din finanţe, SPS – procentajul de muncitori din servicii sociale, TC – procentajul de muncitori din transporturi şi comunicaţii.

a) să se aplice un algoritm de clasificare ierarhică

b) să se aplice algoritmul k-means pentru k = 4; să se compare cu rezultatul clasificării realizate la a).