Upload
amine-bentalleb
View
344
Download
1
Embed Size (px)
Citation preview
1
ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPOLES :
A.F.C.M. Objectifs de l’A.F.C.M Objectifs de l’A.F.C.M est de mettre en évidence :
‐ Les similitudes entre les modalités des variables : carte des variables. ‐ Les proximités entre les individus : carte des individus. ‐ Les liens entre les individus et les modalités des variables.
Intérêt de l’A.F.C.M Son Intérêt est de :
‐ Tenir compte de l’aspect multidimensionnel des données ‐ Très adaptées au dépouillement des questionnaires. ‐ Analyse de plusieurs variables nominales.
Mise en relation des thèmes d’un questionnaire
Les données Tableau : Individus X Variables Qualitatives
Avec - xijl= 1 si l’individu i choisi la modalit l de la variable Xj = 0 sinon,
2
- m nombre de variables observées - n nombre d’individus. La variable Xj possède pj modalités et p=Σ pj est le nombre total de modalités.. Principe :
‐ Réduction de l’espace de représentation des individus ‐ Réduction de l’espace de représentation des modalités des variables.
Algorithme : ‐ Réaliser une ACP sur les profils lignes du tableau disjonctif complet (individus) ‐ Réaliser une ACP sur les profils colonnes du tableau disjonctif complet (modalités) ‐ Étudier le lien entre les deux ACP.
En utilisant les mêmes notations que l’AFC il vient que Profils lignes associés à l’individu i : Profils colonnes associés à la modalité l de la variable Xj : Profils lignes marginaux : Profils colonnes marginaux :
nmn
ff
nnmx
f
nmx
f
nmk
jln
iijljl
m
j
p
l
ijli
ijlijl
j
==
==
=
=
∑
∑∑
=
= =
1.
1 1.
1
{ }{ }
2
..1 .
2
2.
)(1),(
dansdu métrique la deet ,......,
poids des munis ,......, colonnes profils des nuage )(
st
ist
jl
ijln
i i
stI
jlI
njl
jlI
ff
ff
fffd
Rf
fJN
−=
=
∑=
χ
,...)(..., ,...)(...,. m
xff
f ijl
i
ijliJ ==
,...)(..., ,...)(...,. jl
ijl
jl
ijljlI n
xff
f ==
,...)(...,,...)(..., . nmn
ff jljlJ ==
,...)1
(...,,...)(..., . nff iI ==
{ }{ }
2
..1 .1
2
2.
)(1),(
dansdu métrique la deet ,......,
poids des munis ,......, lignes profils des nuage )(
k
kjl
i
ijlp
l jl
m
j
kJ
iJ
pi
iJ
ff
ff
fffd
Rf
fIN
j
−=
=
∑∑==
χ
3
Propriétés du nuage N(I) Distance du profil-ligne au centre de gravité Ainsi plus un individu possède des modalités rares, plus il est loin du centre de gravité du nuage N(I). L’inertie totale du nuage s’écrit Propriétés du nuage N(J) La distance du profil-colonne au centre de gravité s’écrit Ainsi un profil-colonne est d’autant plus éloigné du centre de gravité que son effectif est faible. La contribution de Xj à l’inertie totale vaut (pj -1)/m. Elle est d’autant plus élevée que le nombre de modalités de la variable Xj est élevé. Il est préférable en AFCM d’utiliser des variables ayant le même nombre de modalités. L’inertie totale du nuage s’écrit ACP des nuages N(I) et N(J) Les axes principaux du nuage N(I) (respectivement N(J)) Les axes principaux Δ1,..., Δρ (resp. Φ1,..., Φρ) passent par le centre de gravité fJ ( resp. fI) et sont portés par les vecteurs propres u1,…,ur (resp.v1,…,vr ) de la matrice A (resp.B ) associé aux valeurs propres λ1,..., λρ rangées par ordre décroissant. Remarque : r est au plus égal à p-m. On ne retient donc un axe factoriel que si la valeur propre associée est supérieure à 1/m (moyenne des p-m valeurs propres). La matrice A est de terme général (Resp. la matrice B est de terme général ) Les composantes principales Les composantes F1,…,Fr (resp. G1,…,Gr ) sont les coordonnées des projections des profils lignes (resp. colonnes ) sur les axes Δ1,..., Δρ(resp. Φ1,..., Φρ)..
.11
' .'.
'
i
p
lffff
m
jii fb
j
jli
jliijl −= ∑∑==
iJf Jf
1),(11
2 −= ∑∑== jl
ijlp
l
m
jJ
iJ n
xmnffd
j
1)),(( −=mpfINI J
jlIf If
1),(2 −=jl
Ijl
I nnffd
1)),(( −=mpfINI J
jl
n
iffff
ljlj falji
lijijl
.1
'' ''..
'' −= ∑=
4
Propriétés Les composantes principales sont centrées de variance λh et sont non corrélées entres elles. Taux d’inertie Le taux d’inertie associé à l’axe h définie par est majoré par . On remarque que plus le nombre de modalités des questions est important plus le taux d’inertie associé aux axes est faible. On ne peut donc ici appliquer les résultats de l’AFC sur tableau de contingence. Deux attitudes peuvent être adoptées :
- Concentrer l’analyse sur le premier plan principale. - Retenir les axes pour lesquels il est possible d’établir une interprétation claire et
constructive.
Interprétation des axes factoriels Elle se base sur les modalités à forte contribution selon les règles suivantes :
- On classe les modalités par contribution décroissante et partant des premières on extrait assez de modalités de rangs consécutifs pour que la somme des contributions soit comprise entre 50% et 80%.
- On prend en compte que les modalités dont la contribution est supérieure à 1/p.
La contribution de la modalité jl à la composante Gh vaut On en déduit la contribution de la variable Xj à la composante Gh qui vaut Distance entre modalités La distance entre les modalités jl et ts s’écrit : On en déduit :
- 2 modalités sont confondues lorsque tous les individus qui ont choisi une modalité ont choisi l’autre.
- 2 modalités sont proches lorsqu’ elles ont été fortement associées. Cette proximité est renforcée lorsque ces modalités ont été choisies par un grand nombre d’individus.
- 2 modalités sont éloignées lorsqu’elles ont été très peu associées. Cette distance est renforcée lorsque ces modalités sont rares.
mmp
h−
λmp
m−
h
hjlh nm
jlGnjlCTR
λ)(
)(2
=
)()(1
jlCTRjCTRjp
lhh ∑
=
=
2
1
2 )(),(ts
itsn
i jl
ijltsI
jlI n
xnx
nffd −= ∑=
5
Distance entre profils colonnes exprimé en fonction des composantes La distance entre deux modalités jl et ts s’écrit aussi La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils exprimée en fonction des composantes. Distance entre individus La distance entre deux individus i et k s’écrit On en déduit
- 2 individus sont d’autant plus éloignés que sont nombreuses les modalités pour lesquelles ils ont fait des choix opposés. Un individu est d’autant plus éloigné des autres individus qu’il a opté pour des modalités rares
- 2 individus sont d’autant plus proches que sont nombreuses les modalités pour lesquelles ils ont fait les mêmes choix. Leur proximité est renforcée lorsque les modalités pour lesquelles ils ont fait des choix opposés ont des fréquences élevées
Distance entre profils lignes exprimé en fonction des composantes La distance entre deux individus i et l s’écrit aussi La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils exprimée en fonction des composantes. Relations de transition On a les deux relations de transition suivantes :
scomposante de nombre
))()((),( 2
1
2
=
−= ∑=
r
tsGjlGffd hh
r
h
tsI
jlI
2
11
2 )(),( kjlijl
p
l jl
m
j
kJ
iJ xx
nnffd
j
−= ∑∑==
scomposante de nombre
))()((),( 2
1
2
=
−= ∑=
r
lFiFffd hh
r
h
lJ
iJ
)(
)()(
1 1
11
1 1
1.
jlGx
jlGiF
m
jhijl
p
lm
m
jhf
fp
lh
j
h
i
ijlj
h
∑∑
∑∑
= =
= =
=
=
λ
λ
)(
)()(
1
11
1
1.
iFx
iFjlG
n
ihijln
n
ihf
fh
jlh
jl
ijl
h
∑
∑
=
=
=
=
λ
λ
6
A près - Fh(i) est au barycentre des Gh(jl) pour l’ensemble des modalités jl caractérisant l’individu
i. - Gh(jl) est au barycentre des Fh(i) pour l’ensemble des individus i possédant la modalité jl.
Indice d’attraction répulsion Il s’écrit Il est d’autant plus élevé que l’individu i possède une modalité jl rare. Représentation graphique L’individu i est représenté par le point profil-ligne La modalité l de la de la variable j est représentée par le point profil-colonne La représentation graphique suivante résume les différentes situations rencontrées en AFCM
1 hλ
nnx
fff
djl
ijl
ji
ijij ==
..
))(),(( 21 iFiFAi =
))(),(( 21 jlGjlGBjl =
7
8
Analyse des correspondances multiples sous SPSS
On souhaite faire l’AFCM de plusieurs variables qualitatives X1, . . . , Xm. Les modalités de chaque variables Xj sont numérotées de 1 à pj et p représente le nombre total de modalités. Chaque variable est observée sur n individus.
• Les données en entrée dans SPSS ont donc la forme standard :
Individu X1 ... Xm Nom 2 … 3 Nom 1 … 4 Nom 3 … 1
Si les variables d’origine sont nominales, on les transforme en variables numériques à valeurs entières (1, 2, 3,. . .) via la commande Transformer > Recoder automatiquement...
Instruction : Analyse > Factorisation > Codage optimal...
9
Dans la fenêtre Codage optimal (Positionnement multidimensionnel), cocher - Niveau du codage optimal : Toutes les variables nominales multiples - Nombre de groupes de variables : Un seul afin de sélectionner l’analyse d’homogénéité
(HOMALS).
Faire passer les variables Xj et définir les intervalles de valeurs (1 à pj). Définir dans Dimension de la solution le nombre d’axes à retenir. Le nombre maximal étant p - m.
Option
-
- V- - - V
d- C
Option- - C-
d
Option Pnouvelle
ns - AffichFréquencesles quantifiValeurs proHistorique Mesures deValeurs affedes modalitCoordonnéPeu d’intérê(voir ci‐dess
ns - DiagrValeurs affCoordonnéMesures ddécrites ci‐d
ns - EnregPermet d’enes variables
her : s : affiche lecations. opres : afficdes itératioe discriminaectées aux tés de chaqées principaêt. Se limitesous).
ramme fectées auxées principae discrimindessus.
gistrer lesnregistrer les hom x_y o
es effectifs m
he la valeurons : peu d’ation : afficmodalités ue variableales : afficheer au diagra
x modalités ales : affichenation : repr
s coordones coordonnoù x est le n
marginaux.
r propre (inintérêt. Ignhe la discrim: affiche le te dans les axe les coordoamme ou le
: graphiquee le diagramrésente gra
nnées prinnées des indinuméro de l’
Peu d’intér
ertie) assocorer. mination detableau desxes factorieonnées des s enregistre
e des modamme synthéphiquemen
ncipales ividus sur le’axe et y le
rêt car ils ap
ciée à chaqu
e chaque vas quantificatls. individus daer dans des
lités dans letique des innt les mesur
es axes factnuméro de
pparaissent
ue axe.
ariable par ltions, coord
ans les axesvariables h
e plan factondividus. res de discr
toriels dans l’analyse.
10
aussi dans
es axes. données
s factoriels. om x_y
oriel.
imination
de
0
11
Résultats
- Fréquences marginales Tableau des fréquences marginales des modalités des variables. Permet de détecter des modalités ayant des effectifs trop faibles ou des variables ayant trop/pas assez de modalités.
- Historique des itérations • L’algorithme HOMALS utilisé par SPSS pour l’AFCM procède par minimisation d’une
fonction de perte (Loss function) représentant la dispersion intra-individuelle. • L’ajustement LDN (Fit) correspond à la somme des valeurs propres calculées.
- Valeurs propres • Valeurs propres calculées. SPSS ne renvoie que le nombre de valeurs propres demandé et
non l’ensemble de la solution.
couleur
446
0
coulouicoulnonManquant
Effectifmarginal
design
29210
designouidesignnonManquant
Effectifmarginal
12
• Rappelons que la somme de toutes les valeurs propres est p/m - 1 et que le nombre maximal d’axes est p – m (nombre total de modalités moins nombre de variables).
- Mesure de discrimination • La discrimination de Xj par l’axe correspond à la variance de la variable quantifiée
(par ses coordonnées sur les axes). Plus précisément
• La somme des discriminations des variables sur l’axe est égale à . • Elles permettent de déterminer quelles variables sont discriminées par quels axes. Cela
permet d’interpréter les axes.
Historique des itérations
,451673 ,000003Itération10a
AjustementLDN
Différencepar rapportà l'itérationprécédente
Le processus d'itération s'est interrompu carla valeur test de la convergence a été atteinte.
a.
Valeurs propres
,244,208
Dimension12
Valeur propre
Mesures de discrimination
,221 ,037,010 ,360,248 ,043,125 ,284,119 ,039,177 ,523,374 ,044,346 ,050,315 ,232,439 ,034,085 ,336,027 ,001,680 ,721
couleurdesigndynamiqueélégantespacefonctionnellefraicheurjeunemodeoriginalpauvresalariéprojet
1 2Dimension
()(),( ×==∑ jkj XCTRmnkGnXdiscr λλ λλ
13
Quantifications
Ce sont les coordonnées des projections de modalités de chaque variable sur le plan factoriel. On retrouve ces informations sur le graphique. Permet aussi de calculer les contributions des modalités sur les axes. La contribution d’une modalité k d’une variable Xj sur l’axe est où k représente une modalité de Xj, représente la coordonnée de la modalité k sur l’axe et nk l’effectif marginal de cette modalité.
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7
Dimension 1
0,0
0,2
0,4
0,6
0,8
Dim
ensi
on 2
couleur
design
dynamique
élégant
espace
fonctionnelle
fraicheurjeune
mode
original
pauvre
salarié
projet
Mesures de discrimination
couleur
4 1,593 -,65246 -,139 ,0570
coulouicoulnonManquant
Effectifmarginal 1 2
Dimension
Valeurs affectées auxmodalités
projet
8 1,465 1,49416 ,445 -1,04226 -,724 ,1810
écoles-hopitauxbureauxmaisons individuellesManquant
Effectifmarginal 1 2
Dimension
Valeurs affectées auxmodalités
14
Coordonnées principales
C’est le diagramme synthétique des individus. Chaque étoile/cercle représente un groupe d’individus. Le nombre de branches de chaque étoile est proportionnel au nombre d’individus représentés par le groupe.
-1 0 1 2
Dimension 1
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
Dim
ensi
on 2
couloui
coulnon
designoui
designnon
dynamiqoui
dynamiqnon
élégantoui
élégantnon
espaceoui
fonctoui
fonctnon
fraichoui
jeuneoui
jeunenon
modeoui
modenon
originaloui
pauvreoui
pauvrenon
non salarié
écoles-hopitaux
bureaux
couleurdesigndynamiqueélégantespacefonctionnellefraicheurjeunemodeoriginalpauvresalariéprojet
Quantifications
15
Ce diagramme est suffisant lorsque les individus sont anonymes. Sinon, il peut être complété par un diagramme de diffusion des variables hom x_y (en ayant coché Options - Enregistrer les coordonnées principales).
-2 -1 0 1 2 3 4
Dimension 1
-2
-1
0
1
2
Dim
ensi
on 2
Observations pondérées par le nombre d'objets.
Coordonées principales
-2,00 -1,00 0,00 1,00 2,00 3,00 4,00
Dimension 1
-2,00
-1,00
0,00
1,00
2,00
Dim
ensio
n 2
1
23
4
5
6
7
8
9
10
11
12
13
14
1516
17
18
19
20
21
22
23 24
25
2627
28
29
30
31
32
3334
35 36
37
38
39
40
41
42
43
44
45
46
47
4849
50
16
Analyse de l’AFCM
- Axes et valeurs propres • Le nombre maximal d’axes est p - m (nombre total de modalités moins nombre de
variables), les valeurs propres (non triviales) sont inférieures à 1, la somme de toutes les valeurs propres est p/m - 1.
• À la différence de l’ACP et de l’AFC, les (parts d’) inerties expliquées ne sont plus interprétables et ne mesurent plus une qualité globale de représentation. On convient de conserver les axes correspondants aux valeurs propres supérieures à 1/m (1 sur le nombre de variables).
- Interprétation des axes Chaque variable ayant un taux de discrimination par un axe suffisamment important (> 50 %) permet d’interpréter l’axe, les oppositions ou les progressions étant établies en fonction des coordonnées des modalités de ces variables sur l’axe.
- Interprétation des modalités On interprète les proximités des modalités intra ou inter variables comme en AFC (en prenant donc garde à l’interprétation des proximités entre les modalités de différentes variables). Les positions des modalités en fonction du sens donné aux axes doivent aussi être interprétées. L’origine des axes (du nuage des modalités) représente le point correspondant au profil uniforme (sur les individus) (1/n, . . . , 1/n). C’est aussi le barycentre des modalités (pondérées) de chaque variable Xi. On peut donc interpréter l’origine des axes comme la « modalité moyenne » de chacune des variables.
- Cas des variables ordinales Lorsqu’une variable est ordinale, il est souvent utile de joindre les points modalités. Lorsque plusieurs variables proviennent de la discrétisation de variables quantitatives, des «courbes » parallèles signifient une forte corrélation entre les variables alors que des courbes orthogonales révèlent une indépendance linéaire.
- Interprétation des individus Finalement, on interprète la disposition des points individus par rapport au sens donné aux axes.
- Qualité de représentation des individus Pour les individus, il existe une solution un peu lourde semblable à celle utilisée en ACP : Faire une AFCM en demandant le nombre maximal d’axes (q = p - m) et en enregistrant les variables. Calculer la norme des individus à l’aide de ces variables : norm² = (hom 1_1)² + (hom 2_1)² + · · · + (hom q_1)² Puis calculer les COS² et les QLT via les formules : COS²_ i = (hom i _1)² /norm² QLT = COS²_1 + COS²_2
iλ
17
AFCM via l’analyse des correspondances
Il est possible de faire une AFCM en effectuant une AFC du tableau disjonctif. Toutefois, SPSS ne gère pas directement de tels tableaux. Il faut donc transformer le tableau initial (plusieurs variables qualitatives) en un nouveau tableau ne contenant qu’une seule variable dont les modalités sont la réunion des modalités des variables initiales.
- Transformation des données On suppose qu’on possède un tableau statistique sous la forme présentée précédemment et que les variables ont été recodées (en variables entières correspondant au numéro de la modalité). Utiliser la commande Données > Restructurer avec les options : – Restructurer les variables sélectionnées en observations – Un seul groupe de variables – Identification de groupes d’observations : Utiliser une variable sélectionnée en faisant passer la variable contenant le nom des individus (si individus anonymes, laisser utiliser un numéro d’observation) – Variables à transposer : faire passer toutes les variables qualitatives. (Conserver trans1 comme nom de variable cible.) – Créer Une variable d’index – Utiliser les noms de variable comme valeurs d’index.
Il faut ensuite regrouper les deux variables index1 et trans1 en une seule variable mod via la commande Transformer > Calculer... avec une formule du type : CONCAT( SUBSTR(index1,1,2) , STRING(trans1,F1.0) )
18
qui retourne la concaténation des 2 premiers caractères de la variable index1 et de la variable trans1 transformée en chaîne de caractères.
Avant de valider, mettre le type de la variable de destination à chaîne.
19
• Finalement, il reste à recoder la variable mod en une variable numérique mod_id via la commande Transformer > Recoder automatiquement...
20
Analyse des correspondances
Il est à présent possible de faire une analyse des correspondances des variables individus et mod_id via la commande Analyse > Factorisation > Analyse des correspondances. Demander l’affichage du Tableau des correspondances pour obtenir le tableau disjonctif. Utiliser une normalisation principale ou symétrique (pour un biplot). La méthodologie d’interprétation est identique à celle de l’AFC. La différence principale concerne les taux d’inertie expliquée qui sont largement sous-estimés en AFCM. On peut soit utiliser la règle des valeurs propres supérieures à 1/m ou utiliser les QLT des modalités pour estimer la qualité de l’analyse.
Comparaison avec l’AFCM directe Au signe près (orientation des axes), cette méthode doit amener des résultats proches de ceux obtenus via une AFCM directe (codage optimal), à condition d’utiliser une normalisation principale.
Limitations et avantages Lorsque les variables initiales ne sont pas ordinales numériques (i.e., les modalités des variables ne sont pas naturellement numérotées), la restructuration du tableau des données fait perdre les labels (étiquettes) associés aux modalités. Il faudra les recréer à la main. Les avantages sont évidents : d’une part la sortie de SPSS est complète (CTR, CO2, QLT), d’autre part il est possible de mettre des modalités ou des variables en points supplémentaires, permettant une analyse plus fine.
Nom du document : Document1 Répertoire : Modèle :
C:\Users\jahidi\AppData\Roaming\Microsoft\Templates\Normal.dotm
Titre : Sujet : Auteur : Utilisateur Windows Mots clés : Commentaires : Date de création : 11/01/2011 16:56:00 N° de révision : 1 Dernier enregistr. le : Dernier enregistrement par : Temps total d'édition : 0 Minutes Dernière impression sur : 11/01/2011 16:58:00 Tel qu'à la dernière impression Nombre de pages : 20 Nombre de mots : 2 669 (approx.) Nombre de caractères : 14 683 (approx.)