Upload
zeta-angeli
View
227
Download
10
Embed Size (px)
Citation preview
1/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Capitolo 3 e par. 5.1
La matrice dei dati e le analisi preliminari
I metodi di classificazione
La matrice dei dati
Qualità dei dati e mancate risposte parziali
Analisi sui profili di colonna
Analisi sui profili di riga
Analisi dei gruppi
2/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
La matrice dei dati
TabellaTabella contenente le informazioni disponibili relativamente ad un insieme di unità statistiche
Ciascuna riga della matrice contiene le informazioni relative ad una determinata unità Ciascuna colonna contiene le modalità assunte da un determinato carattere nelle diverse unità
3/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
La matrice dei dati
npnjnhnn
rprjrhrr
ipijihii
pjh
pjh
xxxxx
xxxxx
xxxxx
xxxxx
xxxxx
.........
...
.........
...
.........
...
.........
.........
21
21
21
2222221
1111211
X
4/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
La matrice dei dati
I carattericaratteri che figurano nella matrice possono essere: - qualitativi (in scala nominale o in scala ordinale) - quantitativi (in scala ad intervalli o in scala di
rapporti) Spesso la matrice contiene variabili miste, alcunequalitative e altre quantitative
Le unitàunità possono pure essere di varia natura. Esempi: - le singole imprese di un campione (caso di studio) - i singoli consumatori di un prodotto - i singoli prodotti o stabilimenti di una azienda
5/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
La matrice dei dati
La matrice dei dati può derivare da:- rilevazioni primarie (indagini campionarie)- fonti secondarie - interne (dati aziendali) - esterne (fonti statistiche ufficiali o non ufficiali)
Principali problemi di qualità: - presenza di valori erratierrati - valori mancantimancanti
6/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
I valori errati
Possono essere segnalatisegnalati da:
- valori fuori dominio (non appartenenti all’insieme dei valori ammissibili) - valori anomali o outliers (valori che si discostano molto da quelli assunti nella maggior parte delle altre unità) - valori incompatibili (contraddittori con altre risposte)
Possono essere individuatiindividuati, rispettivamente, attraverso: - controlli di validità o di range - controlli per gli outlier - controlli di consistenza
Una volta individuati, i valori errati possono essere - corretti attraverso una nuova rilevazione - considerati come valori mancanti
7/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Le mancate risposte parziali
Mancanza di uno o più dati: - nelle indagini campionarie mancate risposte ad uno o più quesiti
Le possibili soluzioni:possibili soluzioni:1. Utilizzare soltanto il sottoinsieme di unità senza dati
mancanti riduzione numerosità; possibili distorsioni
2. Utilizzare diversi sottoinsiemi (completi) di unità per le diverse analisi (univariate, bivariate, multivariate)
numerosità diverse per le diverse analisi Assegnare al dato mancante un valore plausibile
(imputazione)
8/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Tecniche di imputazione
Diverse tecniche di imputazione 1. Imputazione di un valore medio:valore medio: media aritmetica o mediana (per i caratteri quantitativi o qualitativi ordinali),
moda (per i caratteri qualitativi sconnessi) calcolate: a - sul complesso delle unità b - o su un sottoinsieme più omogeneo
Conseguenza indesiderata: riduce la variabilità (in particolare nel caso a)
2. Imputazione con prelievo da donatoreprelievo da donatore: invece del valore medio si imputa un valore individuale, “donato” da una unità il più possibile simile in base alle altre caratteristiche (indici di similarità o distanza: vedi oltre)
9/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Tecniche di imputazione
3. Imputazione da modelloda modello In base alla relazione empirica tra la variabile con dati mancanti e una o più variabili esplicative (con dati presenti) Passi: - scelta variabili esplicative di quella con dati mancanti - stima dei parametri di un modello di regressione sui dati presenti nella matrice Regressione (semplice): Modello teorico Modello stimato
- assegnazione del valore predetto dal modello in base ai valori assunti dalla variabile esplicativa nella unità i con dato mancante:
( 1,..., )i i iY X u i n Y a bX
i iY a bX
10/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Tecniche di imputazione
4. Imputazione stocasticastocastica assegnazione al dato mancante di un valore estratto casualmente da una distribuzione ritenuta plausibile
Limite: distribuzioni teoriche diverse per diverse variabili, da identificare di volta in volta
Semplificazione: estrazione casuale di una unità per ogni dato mancante dalla distribuzione empirica della caratteristica
11/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Le analisi sui profili di colonna
Analisi bivariatebivariate: studio dell’associazione esistente tra le diverse coppie di variabiliSi ottiene una matrice di associazione (p x p):
pppjphpp
jpjjjhjj
hphjhhhh
pjh
pjh
aaaaa
aaaaa
aaaaa
aaaaa
aaaaa
A
.........
...
.........
...
.........
...
.........
.........
21
21
21
2222221
1111211
L’indice con cui misurare l’associazione dipende dal tipo di variabili presenti nella matrice dei dati
Analisi univariate (es: medie, varianze), bivariate (es: correlazione), multivariate (es: regressione multipla)
12/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili quantitative
La covarianza:covarianza:
n
xxxxs
n
ijijhhi
hj
1
))((
Indica se tra le due variabili esiste: concordanza (segno positivo: se prevalgono prodotti di segno +)
discordanza (segno negativo: se prevalgono prodotti di segno -)
Indipendenza lineare (valore nullo)Limite: i valori assunti dalle covarianze dipendono dalle scale di misura dei caratteri non sono direttamente confrontabili
13/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Le variabili quantitative
Per ovviare al problema della confrontabilità
Coefficiente di correlazione lineare di Bravais-Pearson:Coefficiente di correlazione lineare di Bravais-Pearson:(covarianza diviso il prodotto delle due deviazioni standard)
Il coefficiente di correlazione lineare: • assume lo stesso segno della covarianza• è compreso tra –1 e 1
;hjhj
h j
sr
1
2 2
1 1
1( )( )
1 1( ) ( )
n
ih h ij ji
hj n n
ih h ij ji i
x x x xn
r
x x x xn n
14/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Le variabili quantitative
Esempio
Unità Xh Xj scarti Xh scarti Xj prodotti scarti2 Xh scarti2 Xj
1 1.3 0.7 -0.3 -0.1 0.03 0.09 0.01
2 1.6 0.9 0 0.1 0 0 0.01
3 1.8 0.8 0.2 0 0 0.04 0
4 1.4 0.7 -0.2 -0.1 0.02 0.04 0.01
5 1.9 0.9 0.3 0.1 0.03 0.09 0.01
somme 8 4 0 0 0.08 0.26 0.04
medie 1.6 0.8 0.052 0.008
Cov = 0.016
dev. st. 0.228 0.089
Cor = 0.784
15/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Le variabili quantitative
MatriceMatrice (p x p) delle correlazionidelle correlazioni
simmetrica
sulla diagonale valori unitari:
pppjphpp
jpjjjhjj
hphjhhhh
pjh
pjh
rrrrr
rrrrr
rrrrr
rrrrr
rrrrr
R
.........
...
.........
...
.........
...
.........
.........
21
21
21
2222221
1111211
1hh
hhhh
sr
16/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Le analisi sui profili di riga
Obiettivo: misurare la distanzadistanza (differenza) o la similaritàsimilarità tra coppie di unità, in relazione alle caratteristiche osservate
Si ottiene una matrice delle distanzematrice delle distanze D (n x n)
nnnrninn
rnrrrirr
iniriiii
nri
nri
ddddd
ddddd
ddddd
ddddd
ddddd
D
.........
...
.........
...
.........
...
.........
.........
21
21
21
2222221
1111211
L’indice con cui misurare la distanza dipende dal tipo di variabili presenti nella matrice dei dati
17/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Le analisi sui profili di riga
Valori non negativi: dir ≥ 0
Valori sulla diagonale pari a zero: dii = 0
Simmetria: dir = dri
Diseguaglianza triangolare: dir ≤ dis + dsr
Misura di distanza definita in uno spazio metrico
In corrispondenza a ogni indice di distanzaindice di distanza può essere definito un indice diindice di similaritàsimilarità:
cir = 1- dir
18/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Indici di distanza
Indici specifici per ogni tipologia di variabili:
- qualitative (sconnesse politomiche o dicotomiche)
- quantitative (o qualitative ordinali)
Un indice generale per variabili miste
La presenza di variabili miste è la norma, in particolare nelle matrici di dati derivanti da indagini campionarie
19/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Indici di distanza
Esempi dall’indagine Efige: - qualitative dicotomiche: export (si, no); ide; innovazione - qualitative sconnesse: destinazione export (UE, Asia, USA, …) finanziamento investimenti (autofin, venture cap, cred. banc.…)- qualitative ordinali: export prima 2008 (regolarmente, qualche volta, mai) dipendenza da finanziamenti esterni (1 non dip -> 5 molto dip) - quantitative: n. dipendenti; valori e indici di bilancio; % fatturato esportato
20/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili qualitative sconnesse politomiche
Indice di distanza di SneathIndice di distanza di SneathDistanza misurata sulla base di p caratteri qualitativi
sconnessiPer il generico carattere k si pone:
dir,k = 1 se xik xrk
dir,k = 0 se xik = xrk,
1
p
ir kk
ir
dd
p
- E’ dato dalla frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse - Di conseguenza: compreso tra 0 e 1
Misurazione su scala nominaleConfronto ammissibile tra due unità: se sono uguali o diverse rispetto al carattere considerato
21/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili qualitative sconnesse politomiche - EsempioDistanza o similarità tra coppie di aziende esportatrici in relazione ai caratteri: forma giuridica; settore di attività; area di esportazione
Aziende Forma giuridica
Settore Area export
1 SPA Meccanica
Asia
2 SPA Tessile Europa
3 SNC Tessile Europa
4 SRL Meccanica
USA
Indice di distanza tra le aziende 1 e 2:
d12,1=0; d12,2=1; d12,3=1 d12= (0+1+1)/3 =0.66 [c12 = 1-d12=0.33]
Indice di distanza tra le aziende 2 e 3:
d23,1=1; d23,2=0; d23,3=0 d23=(1+0+0)/3 =0.33 [c23 = 1-d23 =0.66]
22/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili dicotomiche
Misurazione su scala nominaleConfronto ammissibile: come nel caso di caratteri sconnessi politomici (se le modalità sono uguali o diverse nelle due unità) si può utilizzare lo stesso indice (di Sneat)
Aziende
Deloc. Invest. Innov. Assunz.
1 No Sì No No
2 Sì No Sì Sì
3 Sì No No Sì
4 No Sì No No
Esempio:Distanza tra coppie di aziende per le quali è stato rilevato:- se hanno delocalizzato oppure no- se hanno fatto investimenti oppure no- se hanno apportato innovazioni oppure no- se hanno fatto assunzioni oppure no
d12 = (1+1+1+1)/4 = 1
d23 = (0+0+1+0)/4 = 0.25
23/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili politomiche e dicotomiche
Esempio: Politomiche Dicotomiche
Az.
Forma giur. Sett.
Areaexport Del Inv Inn Ass
1 SpA Mec Asia NO SI NO NO
2 SpA Tes Europa SI NO SI SI
Indice di distanza (di Sneat) tra le aziende 1 e 2:d12= (0+1+1+1+1+1+1)/7 = 0.86 [c12 = 1-d12=0.14]
L’indice di SneatSneat consente di misurare la distanza anche quando tra le p variabili qualitative considerate ve ne sono alcune sconnesse politomiche e altre dicotomiche
24/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili qualitative dicotomiche
Nel caso di sole variabili dicotomiche si possono calcolare diversi indici di distanza:
Simple matching
Jaccard
(Altri)
25/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili qualitative dicotomiche
Nella matrice dei dati, per ognuno dei p caratteri dicotomici:
valore 1 (presenza) valore 0 (assenza)
Aziende
Deloc. Invest. Innov. Assunz.
1 No (0) Sì (1) No (0) No (0)
2 Sì (1) No (0) Sì (1) Sì (1)
3 Sì (1) No (0) No (0) Sì (1)
4 No (0) Sì (1) No (0) No (0)I diversi indici derivano dalla classificazione dei p caratteri nella seguente tabella di contingenza (per la coppia di unità i ed r): unità i
1 0unità r 1 a b
0 c d
a = numero di caratteri presenti in entrambe le unitàb = numero di caratteri presenti in r ma assenti in ic = numero di caratteri assenti in r ma presenti in id = numero di caratteri assenti in entrambe le unità(a + b + c + d = p)
26/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili qualitative dicotomiche
Az. 2Az.3
1 0
1 2 0
0 1 1
Aziende
Deloc. Invest. Innov. Assunz.
1 No (0) Sì (1) No (0) No (0)
2 Sì (1) No (0) Sì (1) Sì (1)
3 Sì (1) No (0) No (0) Sì (1)
4 No (0) Sì (1) No (0) No (0)
Esempio
27/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili qualitative dicotomiche
Indice Simple matchingIndice Simple matching ::
p
cbdir
Frequenza relativa degli attributi presenti in una unità e assenti nell’altra
Come indice di Sneath: frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse
Az. 2Az.3
1 0
1 2 0
0 1 1
unità i 1 0
unità r 1 a b0 c d
Simple matching:
d23 = 1/4 = 0.25
Esempio:
28/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili qualitative dicotomiche
cba
cbdir
Indice di Indice di Jaccard:Jaccard:
Esclude d dal denominatore: si assume che l’assenza in entrambe le unità non indichi similarità
unità i 1 0
unità r 1 a b0 c d
Az. 2Az.3
1 0
1 2 0
0 1 1
Jaccard:
d23 = 1/3 = 0.33
Esempio:
29/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili qualitative ordinali
Due possibilità:a) Trasformare le variabili in quantitative Si attribuisce un punteggio crescente (1, 2, 3, …) al
crescere della misurazione ordinale e si utilizza un indice di distanza per dati quantitativi (vedi oltre) LimiteLimite:: si introducono elementi di arbitrarietà (si assume costante la differenza tra due modalità contigue) b) Considerare la misurazione su scala nominale Si considerano le variabili come qualitative politomiche e si utilizza l’indice di Sneath LimiteLimite:: notevole perdita di informazione Meglio soluzione a)
Misurazione su scala ordinaleConfronto ammissibile tra due unità: se l’una presenta modalità maggiore o minore dell’altra secondo il carattere considerato
30/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili quantitative
Misure di distanza fondate sulle differenze tra i valori assuntidalle modalità di tutti i caratteri nelle due unità
Misurazione su scala di rapporti o di intervalli Confronto ammissibile: rapporto o differenza tra i valori assunti dal carattere in due diverse unità
1
1
p
krkikir xxd
Diversi indici derivanti da un indice generale: la distanza di Minkoskidistanza di Minkoski
dove il parametro λ è una sorta di peso assegnato alledifferenze maggiori
31/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili quantitative
Per λ = 2Distanza euclidea:Distanza euclidea:
1
1
p
krkikir xxd
2/1
1
2
p
krkikir xxd
Distanza di Distanza di Minkoski:Minkoski:
Per λ = 1 Distanza di Distanza di Manhattam:Manhattam: (o della città a blocchi)
1
p
ir ik rkk
d x x
Per λ -> Distanza di Lagrange-Distanza di Lagrange-Tchebychev:Tchebychev:
maxir ik rkd x x
32/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili quantitative
Esempio: distanze tra due aziende in relazione ad alcuni indici di bilancio
Aziende ROI ROS ROE Indeb
1 7.2 5.7 8.2 25.3
2 5.2 1.2 2.0 11.7
|xik – xrk| 2.0 4.5 6.2 13.6
(xik – xrk)2 4.0 20.2 38.4 185.0
max |xik – xrk| 13.6
33/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili quantitative
Problemi degli indici di distanza per variabili quantitative:
1. Problema della scala – sommate differenze relative a caratteri misurati in unità di misura diverse
Una soluzione è trasformare le variabili originarie in variabili standardizzate
Per la generica variabile Xk :
ik kik
k
x xz
(numeri puri, media 0 e varianza unitaria)
34/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili quantitative
max( )ik
ikk
xz
x
Un’altra possibilità è rapportare i valori assunti nelle diverse unità al valore massimo della distribuzione:
Un’altra soluzione nell’indice di distanza per variabili miste (vedi oltre)
Az ROI Eta’ Prod. % Exp
ROI Età Prod. % Exp
1 7.2 65 48.2 65.3 0.387 0.722 0.230 0.653
2 5.2 20 91.5 42.7 0.280 0.222 0.436 0.427
… …. … … …
n 2.0 42 42.1 28.5
Val. max
18.6 90 210 100
Variabili standardizzate Esempio: Variabili originarie (rapportare al max)
35/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili quantitative
2. Correlazione tra le variabili – uno stesso fenomeno misurato tramite più variabili viene implicitamente pesato di più nella misura della distanza
Aziende ROI ROE ROS Indeb.
1 7.2 8.2 5.7 25.3
2 5.2 2.0 1.2 11.7
(xik – xrk)2 4.0 38.4 20.2 185.0Distanza Euclidea:
d12 = 15.7
Esempio:
Ma:- redditività misurata con tre indici, forse correlati tra loro- situazione finanziaria misurata con un solo indice
36/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili quantitative
Una soluzione al problema della correlazione tra variabili:
Distanza euclidea ponderata:Distanza euclidea ponderata:
dove wk : coefficiente di ponderazione della k-esima variabile (tanto minore quanto più la variabile è correlata con le altre p-1)
2/1
1
2)(
p
kkrkikir wxxd
Ad esempio 1/R2 da regressioni multiple (Cap 4)
37/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili miste
dir,k : misura di distanza tra le unità i e r in relazione al k-esimo attributo (misura diversa a seconda della tipologia di carattere, ma sempre compresa tra 0 e 1)
p
kkir
p
kkir
ir
dd
1,
1,
,
,
0
1 ir k
ir k
confronto non ammissibile (principalmente dati mancanti)
tutti gli altri casi
Misurazione su scale diverseConfronti ammissibili a seconda della scala di misurazione
Media di indici di distanza relativi alle diverse variabili qualitative e quantitative
Indice di distanza di GowerIndice di distanza di Gower
38/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili miste
Caratteri qualitativi ordinali:
si trasformano le variabili in quantitative attribuendopunteggi crescenti al crescere delle modalità del
carattere e ci si riconduce al caso dei caratteri quantitativi
)(, kRange
xxd rkik
kir
Caratteri quantitativi:
Dividere per il range è un modo per eliminare l’effetto delle diverse unità di misura delle variabili: - il rapporto che definisce dir,k (differenza su massimo della differenza) sarà sempre compreso tra zero e uno- corrisponde alla standardizzazione dividendo per il massimo, se si assume il minimo pari a zero [Range (k) = max xk – min xk]
Range(k): campo di variazione della variabile k
39/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili miste
Caratteri qualitativi sconnessi politomici:
Indice di distanza di Sneathdir,k = 1 se i e r presentano modalità diverse del carattere kdir,k = 0 se presentano modalità uguale Caratteri qualitativi sconnessi dicotomici:
Indice di Jaccarddir,k = 1 se i e r presentano modalità diverse del carattere kdir,k = 0 se presentano modalità uguale
,
,
0
1 ir k
ir k
confronto non ammissibile (dati mancanti, assenza-assenza)
tutti gli altri casi
40/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili miste - Esempio
Aziende ROI Indeb. Aspettative produzione
Settore Export
1 7.1 25.3 Stazionaria (0) Mecc. Si (1)
2 5.1 11.7 Aumento (1) Alim. No (0)
3 7.6 10.3 Forte aumento (2)
Alim. Si (1)
4 2.6 18.9 Forte diminuz. (-2)
Tess. No (0)
13
7.1 7.6 25.3 10.3 0 21 0 / 5 2.6 / 5 0.52
5 15 4d
41/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Variabili miste
Indice di Gower modificato:
Per i casi in cui nei caratteri dicotomici l’assenza del fenomeno in entrambe le unità è interpretabile come similitudine Caratteri qualitativi sconnessi dicotomici:
Indice Simple matching (Sneath)dir,k = 1 se i e r presentano modalità diverse del carattere kdir,k = 0 se presentano modalità uguale
,
,
0
1 ir k
ir k
confronto non ammissibile in caso di dati mancanti
tutti gli altri casi
42/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Analisi dei gruppi
Obiettivi:Obiettivi: - raggruppare un insieme di unità in un certo numero di gruppi sulla base delle loro similarità
Possibili applicazioni nelle analisi aziendali:
- segmentazione del mercato, segmentazione per omogeneità dei consumatori offerta di prodotti differenziati o strategie di marketing specifiche per le diverse tipologie di consumatori
- ridurre la dimensionalità di una matrice dei dati X nel senso delle righe attraverso l’individuazione di righe (unità) simili
- classificazione di un insieme di aziende concorrenti in un numero ridotto di tipologie ai fini di una analisi di posizionamento sulla base di una pluralità di indicatori
43/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Analisi dei gruppi
I dati di partenza:I dati di partenza: - la matrice delle distanze D (n x n) - in alcuni casi la matrice dei dati X (n x p)
- gerarchici (MG):gerarchici (MG): raggruppamento ottenuto per passaggi successivi - agglomerativi (MGA): aggregazioni successive (in un numero sempre minore di gruppi)
- divisivi (MGD): divisioni successive (in un numero sempre maggiore di gruppi) - non gerarchici (MNG):non gerarchici (MNG):
raggruppamento direttamente in un numero prefissato di gruppi
Di norma: qualitative, quantitative, miste
Per alcuni metodi:solo quantitative
Le tipologie di variabili:
solo quantitative
I metodi di raggruppamento:I metodi di raggruppamento:
44/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Procedono per agglomerazioni successive delle unità Prendono come input la matrice delle distanze D (n x n)
Step:
Punto di partenza: n gruppi, ognuno formato da una unità
Si identificano le due unità più simili (minimo valore nella matrice delle distanze, esclusa la diagonale)
0
0
.........
...0
...0
,1
223
11312
nn
n
n
d
dd
ddd
D
45/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
3. Si fondono le due unità in un gruppo, eliminandole dalla matrice delle distanze, che diventa: Dn-2,n-2
4. Si aggiunge una nuova riga e una nuova colonna con le distanze tra il nuovo gruppo e tutte le altre unità, ottenendo Dn-1,n-1
Si torna ad eseguire lo step 2 e i seguenti in modo iterativo, riducendo la matrice D di una unità ad ogni iterazione
(fermandosi prima della soluzione - finale e inutile - costituita da un solo gruppo composto da tutte le unità)
Due questioni aperte:- Come eseguire lo step 4: come calcolare le distanze tra il nuovo gruppo e tutte le altre unità dalla scelta derivano i diversi metodi -- Come decidere quando fermarsi: in quanti gruppi realizzare la classificazione
46/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodi Metodi per eseguire lo step 4
Esempio
A B C D E
A 0 0.26
0.68
0.45
0.44
B 0 0.11
0.39
0.68
C 0 0.52
0.19
D 0 0.82
E 0
A D E (B,C)
A 0 0.45 0.44
?
D 0 0.82
?
E 0 ?
(B,C) 00.11 distanza minore: si forma il gruppo (B,C)
distanza di A da (B,C)? di D da (BC)? di E da (B,C)?
47/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodi Metodi per eseguire lo step 4
Notazioni: CK : K-esimo gruppo (inizialmente, k-esima unità)
CL : L-esimo gruppo (inizialmente, l-esima unità)
DKL : distanza tra i gruppi CK e CL (inizialmente, tra le unità k e l)CM : gruppo derivante dalla fusione dei gruppi CK e CL
(inizialmente k-esima e l-esima unità)
DjM : distanza di un generico gruppo (o unità) preesistente Cj dal gruppo CM derivante dalla fusione dei gruppi CK e CL
(inizialmente distanza della generica unità preesistente j dal gruppo formato dalle unità k e l)
48/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodo del legame singololegame singolo DJM = min(DJK,DJL)
A B C D E
A 0 0.26 0.68 0.45 0.44
B 0 0.11 0.39 0.68
C 0 0.52 0.19
D 0 0.82
E 0distanza di A da BC: min (dAB; dAC) min (0,26; 0,68)
distanza di A da BCE: min (dA(BC); dAE) min (0,26; 0,44)
A D E (B,C)
A 0 0.45 0.44
0.26
D 0 0.82
0.39
E 0 0.19
(B,C) 0
A D BCE
A 0 0.45
0.26
D 0 0.39
BCE 0
D BCEA
D 0 0.39
BCEA 0
distanza di D da BCEA: min (dD(BCE) dDA) min (0,39; 0,45)
49/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Rappresentazione grafica della classificazione
Dendrogramma:Dendrogramma:- Asse delle ascisse (non quantitativo): le unità- Asse delle ordinate: livelli di distanza a cui sono avvenute le successive fusioni
d
B C E A Dunità
legame singolo
Pro e contro il metodo del legame singolo:- tende a produrre gruppi allungati e quindi poco omogenei (contro)- ma isola i valori anomali (pro)
0.39
0.260.190.11
50/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodo del legame completolegame completo DJM = max(DJK,DJL)
A B C D E
A 0 0.26 0.68 0.45 0.44
B 0 0.11 0.39 0.68
C 0 0.52 0.19
D 0 0.82
E 0 distanza di A da BC: max (dAB; dAC) max (0,26; 0,68)
distanza di D da AE: max (dDA; dDE) max (0,45; 0,82)
A D E (BC)
A 0 0.45 0.44
0.68
D 0 0.82
0.52
E 0 0.68
(BC) 0
D (BC) (AE)
D 0 0.52 0.82
(BC) 0 0.68
(AE) 0
(AE) (BCD)
(AE) 0 0.82
(BCD) 0
distanza di BC da AE: max (d(BC)A; d(BC)E ) max (0,68; 0,68)
distanza di AE da BCD: max (d(AE)(BC); d(AE)D) max (0,68; 0,82)
51/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Dendrogramma Dendrogramma
Pro e contro il metodo del legame completo:- tende a produrre gruppi di dimensioni simili (pro)- ma è influenzato dai valori anomali (contro)
0.68
0.520.44
0.11
A E B C D
52/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodo di McQuittyMcQuitty (dist. media) DJM = (DJK + DJL)/ 2
A B C D E
A 0 0.26 0.68 0.45 0.44
B 0 0.11 0.39 0.68
C 0 0.52 0.19
D 0 0.82
E 0distanza di A da BC: (dAB + dAC)/2 (0,26 + 0,68)/2
distanza di A da BCE: (dA(BC) + dAE)/2 (0,47 + 0,44)/2
A D E (BC)
A 0 0.45 0.44
0.47
D 0 0.82
0.455
E 0 0.435
(BC) 0
A D (BCE)
A 0 0.45
0.455
D 0 0.6375
(BCE) 0
(BCE)
(AD)
(BCE) 0 0.54625
(AD) 0
distanza di BCE da AD: (d(BCE)A+ d(BCE)D)/2 (0,455+ 0,6375)/2
53/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
DendrogrammaDendrogramma
Pro e contro il metodo di McQuitty:produce soluzioni intermedie tra legame singolo e legame completo: ne contempera vantaggi e svantaggi
d
B C E A Dunità
McQuitty
0.550.45
0.11
54/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodo del legame mediolegame medio (media aritmetica ponderata) DJM = (DJK Nk+ DJLNL)/ NM [NK , NL , NM : n. unità in CK, CL, CM]
A B C D E
A 0 0.26 0.68 0.45 0.44
B 0 0.11 0.39 0.68
C 0 0.52 0.19
D 0 0.82
E 0
distanza di A da BC: (dA B+ dAC)/N(BC) (0,26 + 0,68)/2
distanza di A da BCE: (dA(BC) N(BC)+ dAE NE)/N(BCE) (0,47 x 2 + 0,44 x 1)/3
A D E (BC)
A 0 0.45 0.44
0.47
D 0 0.82
0.455
E 0 0.435
(B,C) 0
A D (BCE)
A 0 0.45
0.46
D 0 0.577
(BCE)
0
(BCE)
(AD)
(BCE)
0 0.518
(AD) 0
distanza di BCE da AD: (d(BCE)A NA+ d(BCE)D ND)/N(AD) (0,46 + 0,577)/2
55/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
1 1
1 J MN N
JM iri rJ M
D dN N
1 1
1 J MN N
JM iri rJ M
D dN N
Distanza di A da BCE: dA(BCE) = (dA(BC) N(BC)+ dAE NE)/N(BCE) = (dAB + dAC + dAE)/N(BCE)
(0,47 x 2 + 0,44 x 1)/3 = (0,26 + 0,68 + 0,44)/3 = 0,46
La distanza di una unità da un gruppo è la media delle distanze da tutte le unità del gruppo
Distanza di BCE da AD: d(BCE)(AD) = (d(BCE)A N(A)+ d(BCE)D NAD)/N(AD) = = (dAB + dAC + dAE + dDB + dDC + dDE)/N(BCE) N(AD)
(0,26 + 0,68 + 0,44 + 0,39 + 0,52 + 0,82)/6 = 0,518
La distanza tra due gruppi è la media delle distanze di ogni unità di un gruppo da tutte le unità dell’altro gruppo:
( ; )i J r M
56/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
DendrogrammaDendrogramma
Pro e contro il metodo del legame medio:come il metodo di McQuitty, produce soluzioni intermedie tra legame singolo e legame completo
d
B C E A Dunità
Legame medio
0.520.45
0.11
57/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodo del centroidecentroide
- si applica solo in caso di variabili quantitative
- prende come input la matrice dei dati X (n x p)
- centroide (o baricentro) di un gruppo: valori medi delle
p variabili calcolati sulle unità appartenenti al gruppo
- si aggregano i gruppi per i quali risulta minima la distanza
euclidea tra i centroidi dei gruppi (inizialmente si aggregano le due unità che
presentano la minima distanza euclidea)
58/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
- Esempio- Esempio
Unità X1 X2
ABCD
1012814
26302436
2/1
1
2
p
krkikir xxd
2 2 1/2[(12 10) (30 26) ] 4.47ABd
A B C D
A 0 4.47
2.83
10.8
B 0 7.21
6.32
C 0 13.4
D 0Unità X1 X2
BD(A,C)
12149
303625
2 2 1/2( , ) [(12 9) (30 25) ] 5.83B A Cd
B D (A,C)
B 0 6.32 5.83
D 0 12.1
(A,C)
0
Matrice dei dati:
Distanza euclidea:
Passo 2:
59/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodo poco sensibile ai valori anomali: i dati anomali (molto diversi da tutti gli altri) producono elevate distanze euclidee con le altre unità (e con i gruppi che si formano) e quindi tendono a restare isolati (a non aggregarsi)
60/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodo di WardWard
- si applica solo in caso di variabili quantitative - prende come input la matrice dei dati X (n x p)
- è fondato sulla scomposizione della devianza totale in devianza entro i gruppi e devianza tra i gruppi
2 2 2, , ,
1 1 1 1 1 1 1
( ) ( ) ( ) ( )gnp p pn G G
ik k ik g k g k g k gk i g k i g k
Dev T x x x x x x n
Dev (T) = Dev (W) + Dev (B)
61/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
A ogni passo uniti i gruppi che danno luogo alla minore devianza entro i gruppi rispetto a tutte le altre possibili unioni
Ovvero, poiché passando da g a g-1 gruppi aumenta Dev (W), a ogni passo si aggregano i gruppi che danno luogo al minore incremento di Dev (W)
62/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Unità X1 X2
ABCD
10128
14
26302436
Coppie di unità
Dev
A,BA,CA,DB,CB,DC,D
10458262090
2 2 2 2Dev( , ) (10 11) (12 11) (26 28) (30 28) 10A B Esempio:Esempio:
Unità X1 X2
BDA,C
1214
10;8
3036
26;24
2 2 2 2Dev(W) = Dev( , , ) (12 10) (10 10) (8 10) (30 26.6) ... 18.6B A C 2 2Dev(W) = Dev( , , ) (14 10.6) (10 10.6) ... 102.3D A C
Dev(W)=Dev( , ) ( , ) 20 4 24B D Dev A C
Passo successivo (tre possibilità: (B,D); (B,A,C); (D,A,C)
Δ Dev (W) = 14.6
63/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Metodo di Ward:
- Poco sensibile ai valori anomali, che tende a isolare (come metodo del centroide e per le stesse ragioni)- Tende a produrre gruppi di dimensioni similiMolto utilizzato per la classificazione gerarchica in caso di variabili quantitative
64/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Quanti gruppi considerareQuanti gruppi considerare Criterio: il livello di distanza a cui avvengono le aggregazioni
successive
Osservazione del dendrogramma: aggregazioni che avvengono “molto in alto” (dopo un “salto” nell’indice di distanza) indicano fusione di gruppi eterogenei fermarsi prima
1( ) /g g g gd d d
d
B C E A Dunità
Legame medio
maxg n. gruppi = g
Incremento relativo della distanza di fusione da g a g-1 gruppi:
0.520.45
0.11
65/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici agglomerativi
Analisi dello scree plot (descrive la relazione tra il n. gruppi e la distanza di fusione):
4 2d
Fino a 10 gruppi: distanza di fusione vicina a zero;Da 8 a 7 gruppi: primo incremento sensibile della distanza di fusione;Da 4 a 3 gruppi: massimo incremento relativo (da a ) fermarsi a 4.
3 6d
66/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici divisivi
Metodo basato sui punti nodali punti nodaliPrimo passo: - sulla matrice delle distanze si individuano le due unità più distanti tra loro: i nodi- le altre unità vengono assegnate ai due nodi sulla base della distanza minima
Passi successivi: l’operazione si ripete su ognuno dei due gruppi, e così via
Percorso inverso rispetto agli agglomerativi
- Punto di partenza: un unico gruppo formato da tutte le unità
- Si procede per divisioni successive, prima in due gruppi, poi il più eterogeneo dei due viene a sua volta diviso in due…
67/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi gerarchici divisivi
Metodi basati sui punti nodali punti nodali -- EsempioEsempio
A B C D E
A 0 0.26
0.68
0.45
0.44
B 0 0.11
0.39
0.68
C 0 0.52
0.19
D 0 0.82
E 0
A con E: dAE < dAD (0.44 < 0.45)
Idem per C(0.19 < 0.52)
E con C: dEC < dEA (0.19 < 0.44)
E A C
E 0 0.44 0.19
A 0 0.68
C 0
C E
C 0 0.19
E 0
B D
B 0 0.39
D 0
Passo 1Punti nodali: D, E
Passo 2Punti nodali: A, C
B D A C E
B con D: dBD < dBE (0.39 < 0.68)
68/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi non gerarchici
Effettuano il raggruppamento direttamente nel numero di gruppi prefissato Si applicano a sole variabili quantitative
Prendono come input la matrice di dati X (n x p)
Preventiva standardizzazione delle variabili (per neutralizzare gli effetti di diverse unità di misura e/o diverse variabilità)
Procedura iterativa che a ogni passo modifica la classificazione nei k gruppi in modo da ottenere il raggruppamento finale caratterizzato dalla massima omogeneità interna
69/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi non gerarchici
Algoritmo KK-means-means
1. Raggruppamento iniziale: si specificano k punti iniziali (seeds) nello spazio delle p variabili quantitative: uno per ciascun gruppo da costruire (centroidi provvisori)
Dati di partenza
0
7
0 10
Caso semplificato di due sole variabili rappresentato nel grafico: per costruire due gruppi, nel diagramma vanno individuati due punti iniziali (casualmente o con altro criterio) da cui far partire il processo iterativo di classificazione
■
■
70/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi non gerarchici
2. Ciascuna unità viene assegnata a un punto iniziale sulla base della distanza (euclidea) minima, formando gruppi provvisori
Si inseriscono i due seed e si assegnano le unità
0
7
0 10
71/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi non gerarchici
3. Vengono calcolati i baricentri(o centroidi) dei gruppi provvisori (valori medi delle p variabili nei gruppi)
Si calcolano i centroidi dei gruppi provvisori e si riassegnano le unità
0
7
0 10
Si inseriscono i due seed e si assegnano le unità
0
7
0 10
■
■
4. Si riallocano tutte le unità sulla base del baricentro più vicino (distanza euclidea), formando nuovi gruppi provvisori
72/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi non gerarchici
5. Si rieseguono in modo iterativo gli step 3 (calcolo centroidi) …
Si ricalcolano i centroidi e si riassegnano le unità; non essendoci modif iche nel raggruppamento il processo termina
0
7
0 10
Si calcolano i centroidi dei gruppi provvisori e si riassegnano le unità
0
7
0 10
… e 4 (riallocazione unità) fino ad ottenere una soluzione stabile: raggruppamento finale
■
■
73/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi non gerarchici
Pro e contro il metodo K-meansK-means
Pro: Pro: tende a produrre gruppi internamente più omogenei
rispetto ai metodi non gerarchiciContro:Contro: - problema della prefissazione del numero di gruppi (consigliabile provarne diversi)
- problema della scelta dei punti iniziali: se nell’insieme di unità i gruppi non sono ben distinti, i punti iniziali possono condizionare la classificazione
74/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi non gerarchici
Dati di partenza
0
7
0 10
Punti iniziali diversi …
■
■
Dati di partenza
0
7
0 10
■
■
… diversa soluzione finale
75/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Metodi non gerarchici
Soluzioni al problema della scelta dei punti iniziali:
- se possibile utilizzare informazioni a priori sui baricentri dei gruppi (vedi strategie complesse di classificazione)
- in particolare in caso di scelta casuale, ripetere più volte l’analisi (e valutare la stabilità della classificazione ottenuta)
76/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Scelta metodo di raggruppamento
In base al tipo di variabili a disposizione e alle caratteristiche dei
diversi metodi
Variabili qualitative o miste solo metodi gerarchici (non tutti)
- vantaggio di poter scegliere il n. di gruppi a posteriori
- ma sono più rigidi: non consentono di modificare aggregazioni fatte a livello inferiore; tendono quindi a produrre gruppi meno omogenei rispetto ai metodi non gerarchici
77/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Scelta metodo di raggruppamento
Variabili solo quantitative metodi gerarchici (anche Ward e Centroide) e non gerarchici:
più flessibili e quindi gruppi più omogenei (classificazione modificata a ogni iterazione con l’obiettivo di massimizzare l’omogeneità interna ai gruppi)
78/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Strategie complesse di classificazione
1. Nell’ambito dei metodi gerarchici (per tutte le tipologie di variabili)
a) In caso di variabili qualitative o miste: - primaprima metodo del legame singolo per identificare (ed eliminare) i casi anomali
- poipoi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali
Utilizzazione di più metodi in sequenza in modo da sfruttare i vantaggi di ognuno
79/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Strategie complesse di classificazione 1. Nell’ambito dei metodi gerarchici (per tutte le tipologie di variabili)
a) In caso di variabili qualitative o miste: - primaprima metodo del legame singolo per identificare (ed eliminare) i casi anomali
- poipoi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali
b) In caso di variabili quantitative:
- primaprima metodo di Ward (o del centroide) per identificare (ed eliminare) i casi anomali
- poipoi stesso metodo per ottenere la classificazione al netto dei casi anomali
80/80Copyright © 2009 – The McGraw-Hill Companies srl
Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas
Strategie complesse di classificazione 2. Tra metodi gerarchici e non gerarchici (per variabili quantitative)
- primaprima metodo gerarchico al fine di individuare: - il numero ottimo di gruppi - gli eventuali casi anomali - i punti iniziali per classificazione non gerarchica (centroidi dei gruppi)
Preferibili quelli di Ward e del Centroide: robusti rispetto ai casi anomali, che vengono isolati) - poipoi metodo non gerarchico (dopo eliminazione delle
unità anomale) per ottenere la classificazione finale
(più omogenea di quella ottenuta dal metodo gerarchico: effetto della riclassificazione delle unità tra i gruppi)