Ingénierie de l'analyse des données
Jean-Louis Girard
http://www.u-picardie.frTOUS/Documentation/Master1/IAD
Plan de cours 1. Introduction générale.......................................................................................................... 2
1.1. Les Egyptiens antiques savaient-ils peindre ?............................................................ 2 1.2. Une autre illustration.................................................................................................. 3 1.3. Plan............................................................................................................................. 6 1.4. Lexique....................................................................................................................... 7 1.5. Principe de représentation géométrique ..................................................................... 9
2. L'inertie comme somme des distances des points d'un nuage..........................................10 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…................................................................................... 15
3.1. Quelques rappels sur les matrices et le calcul matriciel........................................... 15 3.2. Pour préparer une "bonne" matrice, il faut…........................................................... 15 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage….............................................................................. 17 3.4. Quelles sont les coordonnées des points projetés ?.................................................. 19 3.5. Comment représenter les variables (relations de transition) ? ................................. 20 3.6. Compléments et interprétations................................................................................ 22 3.7. Résumé..................................................................................................................... 26 3.8. Exemples .................................................................................................................. 29
4. Passons maintenant à l'analyse de tableaux de variables qualitatives….......................... 37 4.1. L'analyse des correspondances (croisement de deux variables qualitatives) ........... 37 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives) .......................................................................................................................... 48
5. Mais dans les ordinateurs, comment ça marche ? Approche algorithmique de l'analyse factorielle.........................................................................................Erreur ! Signet non défini.
5.1. Quelques algorithmes de diagonalisation................................................................. 53 5.2. Et les autres directions d'allongement ? ................................................................... 53
Ingénierie de l'analyse des données - Introduction générale
Jean-Louis Girard - 2 -
1. Introduction générale "Il avait appris sans effort l'anglais, le français, le portugais, le latin. Je soupçonne cependant qu'il n'était pas très capable de penser. Penser, c'est oublier des différences, c'est généraliser, abstraire. Dans le monde surchargé de Funes il n'y avait que des détails, presque immédiats." Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956)
1.1. Les Egyptiens antiques savaient-ils peindre ? Pourquoi les Egyptiens antiques peignaient les personnages dans une position peu naturelle alors que par ailleurs ils savaient depuis très longtemps représenter un corps en 3D ?
Le roi Amenemhat III XIX° siècle avant J.-C.
Stèle de la dame Tapéret (Détail) Xe ou IXe siècle avant J.-C.
Ingénierie de l'analyse des données - Introduction générale
Jean-Louis Girard - 3 -
1.2. Une autre illustration On dispose d'un tableau donnant les coordonnées de points dans un espace tridimensionnel :
IND X Y Z 1 52,58 -25,13 -101,93 2 51,5 -24,86 -101,77 3 52,49 -23,58 -101,61 4 52,03 -26,22 -101,55 5 54,32 -23,64 -101,44 6 53,63 -26,4 -101,4 7 50,47 -25,56 -101,36
… … … … 21488 -49,21 79,23 60,14 21489 -47,28 86,02 60,15 21490 -46,34 87,09 60,16 21491 -48,21 81,83 60,19 21492 -46,91 79,37 60,19 21493 -43,92 87,68 60,2 21494 -47,29 84,45 60,23 21495 -45,55 81,08 60,23 21496 -44,41 83,48 60,25 21497 -43,46 85,53 60,26 21498 -45,39 85,67 60,3 21499 -45,39 85,67 60,3
Quelle forme a ce nuage de point ( reconnaissance de forme) ? Représentation des différents plans : Plan X-Y
Ingénierie de l'analyse des données - Introduction générale
Jean-Louis Girard - 4 -
Plan Y-Z
Plan X-Z
Quel est le meilleur plan de représentation ? Est-ce l'un des précédents ?
Ingénierie de l'analyse des données - Introduction générale
Jean-Louis Girard - 5 -
Graphique factoriel
Ingénierie de l'analyse des données - Introduction générale
Jean-Louis Girard - 6 -
1.3. Plan 1. Introduction générale
1.1. Les Egyptiens antiques savaient-ils peindre ? 1.2. Une autre illustration 1.3. Plan 1.4. Lexique 1.5. Principe de représentation géométrique
2. L'inertie comme somme des distances des points d'un nuage 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
3.1. Quelques rappels sur les matrices et le calcul matriciel 3.2. Pour préparer une "bonne" matrice, il faut… 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage… 3.4. Quelles sont les coordonnées des points projetés ? 3.5. Comment représenter les variables (relations de transition) ? 3.6. Compléments et interprétations 3.7. Résumé 3.8. Exemples
4. Passons maintenant à l'analyse de tableaux de variables qualitatives… 4.1. L'analyse des correspondances (croisement de deux variables qualitatives) 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives)
5. Compléments 5.1. Quelques algorithmes de diagonalisation 5.2. Et les autres directions d'allongement ?
Ingénierie de l'analyse des données - Introduction générale
Jean-Louis Girard - 7 -
1.4. Lexique
Population (ou population statistique)
Ω Ensemble (au sens mathématique du terme) concerné par une étude statistique. On parle parfois du champ de l'étude
Individu (ou unité statistique) x∈Ω
Tout élément de la population Ω
Echantillon Sous-ensemble de la population sur lequel sont effectivement réalisées les observations
Taille de l'échantillon Cardinal du sous-ensemble correspondant
Enquête (statistique) Opération consistant à observer (ou mesurer, ou questionner…) l'ensemble des individus d'un échantillon
Recensement Enquête dans laquelle l'échantillon observé est la population tout entière (enquête exhaustive)
Sondage Enquête dans laquelle l'échantillon observé est un sous-ensemble strict de la population (enquête non exhaustive)
Variable (statistique)
→Ωvequantitatisi
equalitativsix ε
Caractéristique (âge, salaire, sexe…) définie sur une population et observée sur l'échantillon ; mathématiquement, il s'agit d'une application définie sur l'échantillon. Si la variable est à valeurs dans (ou une partie de , ou un ensemble de parties de ), elle est dite quantitative (âge, salaire, taille…) ; sinon, elle est dite qualitative (sexe, CSP…) et les valeurs que peut prendre cette variable sont appelées modalités.
Données (statistiques)
Ensemble des individus observés (échantillon), des variables considérées, et des observations de ces variables sur ces individus. Elles sont généralement présentées sous forme de tableaux (individus en lignes et variables en colonnes) et stockées dans un fichier informatique. Lorsqu'un tableau ne comporte que des nombres (valeurs des variables quantitatives ou codées associées aux variables qualitatives), il correspond à la notion mathématique de matrice.
| R
| R| R | R
Ingénierie de l'analyse des données - Introduction générale
Jean-Louis Girard - 8 -
∇∇∇∇ : chaque individu est doté d'un "poids" (ou masse) différent. Par exemple, il n'y a aucune raison a priori de traiter différemment les personnes qui constituent une population (une personne = une personne) ; mais les régions ou les département ont des importances différentes, dont il faut parfois tenir compte (notion à rapprocher de celle de moyenne pondérée).
∇∇∇∇ : une variable quantitative peut être "classée" ou ordonnée, en effectuant par exemple des découpages sur les valeurs que peut prendre cette variable Exemple : [moins de 20 ans ; de 20 ans à 39 ans; de 40 ans à 59 ans, 60 ans et plus]. Dans ce cas, cette variable peut être traitée comme une variable qualitative, identique à [jeune, adulte, mûr, âgé]
∇∇∇∇ : les modalités d'une variable peuvent être :
• Exhaustives : o modalités non-exhaustives [adulte, âgé] les jeunes n'y figurent pas o êtes-vous venu à la Préfecture pour :
retirer votre permis de conduire ? retirer votre passeport ?
d'autres réponses sont possibles.
• Exclusives : o modalités non exclusives [moins de 30 ans ; de 20 ans à 39 ans; de 40
ans à 59 ans, 60 ans et plus] si l'on a de 20 à 30 ans, on figure dans deux modalités
o êtes-vous venu à la Préfecture pour : retirer votre permis de conduire ? retirer votre passeport ?
les deux réponses sont possibles.
∇∇∇∇ : On peut rendre les modalités exhaustives en proposant, par exemple, une modalité autre On peut rendre les modalités exclusives en demandant, par exemple, "quelle est la principale raison qui vous a fait venir à la préfecture ?"
Ingénierie de l'analyse des données - Introduction générale
Jean-Louis Girard - 9 -
1.5. Principe de représentation géométrique Les tableaux peuvent être vus comme un ensemble de lignes ou de colonnes. Par convention,
• En lignes figurent les individus • En colonnes figurent les variables
Deux nuages de points peuvent alors être construits :
• Le nuage des individus (les points-lignes) qui opère dans un espace dont le nombre de dimensions (le nombre d'axes) est égal au nombre de variables
• Le nuage des variables (les points-colonnes) qui opère dans un espace dont le nombre de dimensions (le nombre d'axes) est égal au nombre d'individus
1 j p 1 , , , , , , , i , , , xij , , , , , , n , Vecteurs lignes Vecteurs colonnes 1 j p
j j' 1 i i i' n
n points p points dans un espace à dans un espace à p dimensions (axes) n dimensions (axes)
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage
Jean-Louis Girard - 10 -
2. L'inertie comme somme des distances des points d 'un nuage
On considère ici un nuage de points dont les coordonnées sont présentées dans un tableau du type :
Variable 1 Variable 2 … Variable j … Variable p Individu 1 … Individu 2 … … … Individu i … … … tij … … … … Individu n … Les tij sont donc numériques. Définition 1 : l'inertie est la somme des carrés des distances qui relient chaque point du nuage à un point quelconque de l'espace.
=In
O x
x
x
x
x
x
x
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage
Jean-Louis Girard - 11 -
Comment mesurer la distance (métrique) ?
Équation 1
• Distance euclidienne (usuelle) : 22 )()( yAyBxAxB −+−
• Distance quadratique : 22 )()( yAyBxAxB −+−
• Distance de Manhattan : yAyBxAxB −+−
• Distance entre ensembles : cf. TD • …
Définition 2 : l'inertie projetée est la somme des carrés des longueurs des projections de chaque point du nuage sur une direction quelconque.
.A
.B
y
x
xB
yA
yB
xA
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage
Jean-Louis Girard - 12 -
Qu'est-ce qu'une projection (orthogonale) ?
=In Fin 1ère séance (2 h)
O x
x
x
x
x
x
x
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage
Jean-Louis Girard - 13 -
Quelles directions peuvent être intéressantes ? a)
=In 0 b)
=In c)
=In
In c) > In b)
x x x x x
x x x x x
x x x | x x
x |
x x x x x | | | | |
x x x | x x
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage
Jean-Louis Girard - 14 -
l'inertie projetée croît lorsque la projection se fait sur l'axe d'étirement maximal du
nuage de points.
l'intérêt d'utiliser cette direction est qu'elle permet de voir plus de choses Voir au mieux le nuage de points (c'est-à-dire de maximiser l'inertie projetée) implique de connaître les directions maximales d'étirement du nuage de points.
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 15 -
3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
On reprend le tableau précédent (cf. 2).
3.1. Quelques rappels sur les matrices et le calcul matriciel
Qu’est-ce qu’une matrice ? relatif à une application linéaire codage d’un tableau
Propriétés des matrices Qu’est-ce qu’un produit scalaire ?
• <x, x> = 0 ssi x = 0, • <x, y> = <y, x> (symétrie), • <ax + by, z> = a<x, z> + b<y, z> (bilinéarité 1), • <z, ax + by> = a<z, x> + b<z, y> (bilinéarité 2), • induit une norme par la relation : ||x||² = <x, x>, • produit scalaire canonique (usuel) de R² : <x, y> = x1y1 + x2y2
• produit scalaire canonique (usuel) de Rn : <x, y> = , • <x, y> = 0 ⇔ x ⊥ y
Qu'est-ce que le produit d'une matrice par un vecteur ? Qu'est-ce que la diagonalisation d'une matrice ?
3.2. Pour préparer une "bonne" matrice, il faut…
Centrer et réduire les variables… Au préalable, afin d'éliminer les effets dus aux différences entre moyennes et unités, on centre et on réduit chaque variable : la moyenne de chaque variable est nulle (on se situe au centre du nuage), l'écart-type de chaque variable est unitaire (le choix des unités n'importe pas).
Équation 2
ns
ttx
j
jijij
−=
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 16 -
∇∇∇∇ : en fait, la distance entre deux individus est mesurée par :
2
1
''2 )',( ∑=
−=
p
j j
jiij
ns
ttiid , avec l'écart-type de j qui est égal à : ( )∑
=
−=n
ijij
ij tt
ns
1
21
Comme les variables sont centrées-réduites, elles se situent sur le bord d'une hypersphère de rayon 1.
Pondérer les individus
Il est possible que les individus statistiques n'aient pas la même importance : si les individus statistiques sont par exemple les régions de France, il faut accorder plus d'importance aux grandes régions (Île-de-France, PACA, Nord-Pas-de-Calais entre autres). On va donc mettre en place une pondération non uniforme des individus. Les individus ont toujours un poids ; lorsque les individus ont la même importance, leurs poids sont identiques (uniformes) et cette étape peut être négligée. Fin cours 2 (3h)
j
j'
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 17 -
3.3. Maximiser l'inertie projetée, c'est rendre max imale la somme des distances entre les projections de chaque point du nuage…
On cherche un sous-espace vectoriel (un ensemble de vecteurs, c'est-à-dire un ensemble de directions) qui permette de rendre maximale l'inertie projetée dans ce sous-espace. Ces axes doivent être les directions d'étirement maximal du nuage de points.
données du problème Pour l'ensemble des vecteurs x du nuage de point, on cherche la direction v qui permette de rendre maximale la somme des projections carrées z². Comme le nuage est désormais centré, les coordonnées de l'origine sont nulles.
z = xu ||z||² = (xu)² = (xu)' (xu) = u'x'xu A l'échelle du nuage de points (pour l'ensemble des x), on a donc l'inertie qui est égale à :
DXuXuuDXXumIni iiiu '''' ==∑
En posant Ci = Xi'DXi, on a :
∑ ==i iiu CuuuCumIn ''
∇∇∇∇ : C est la matrice des corrélations entre variables. En effet, d'après Équation 2, elle est de terme général :
( )( ))'(
1
'
'''' jjcor
ss
ttttm
nxxmc
n
i jj
jijjijin
iijijijj =
−−== ∑∑
En conséquence, Tr C = p, le nombre de variables. D'une autre manière, avec la distance
euclidienne (cf. Équation 2), ( ) CTrxmxmInn
iiji
n
iii === ∑∑ 22
.
u
0
x
z
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 18 -
Le programme de maximisation s'écrit alors :
( )
==
=−=∂∂
=−=∂∂
−−=
=
1
01'
02
)1'('
1'..
'
u
uCu
uuL
uCuu
L
uuCuuL
uucs
CuuMax
λλ
λ
λ
L'inertie projetée sera maximale lorsque les axes (le sous-espace vectoriel) sur lesquels s'effectue la projection sur les vecteurs propres de la matrice d'inertie C.
L'inertie expliquée par l'axe porté par le vecteur propre uαααα est
∑=
=p
In
1αα
αα
λ
λ.
Les axes conservant le maximum d'inertie seront ceux portés par les vecteurs propres associés aux plus grandes valeurs propres. Soit U = ( )nuu ...1 , avec ui les vecteurs propres colonnes.
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 19 -
3.4. Quelles sont les coordonnées des points projet és ? Les vecteurs propres étant orthogonaux deux à deux (cf. TD), ils constituent une base orthonormée dans laquelle on peut représenter les vecteurs initiaux. Les coordonnées des vecteurs initiaux dans la nouvelle base sont données par leurs projections sur les vecteurs propres.
Fαi = Xiuα ou F = XU
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 20 -
3.5. Comment représenter les variables (relations d e transition) ?
Faut-il refaire une analyse similaire pour les variables, et quels liens y a-t-il entre les variables et les individus ? Individus et variables opèrent dans des espaces vectoriels différents, mais sont intimement liés On montre (cf. TD) que :
Xuvλ1= est un vecteur propre de la matrice XX'
Alors,
ii
ii
ii FX
m
mG α
αα λ
'∑
=
Inversement,
iii GXF αα
α λ1=
On ne doit procéder qu'à la diagonalisation la plus rapide, et déduire les résultats de la seconde diagonalisation de ceux de la première. Dans la majeure partie des cas, comme le nombre de lignes est fréquemment plus élevé que celui des colonnes, on étudie d'abord les individus (C = X'DX de dimension (p,p)) et ensuite les variables (Z = XDX' de dimension (n,n)). corrélation variables/axes
),('1
1i
in
i j
jijiii Fjcor
F
ns
ttFXG α
α
αα
αα λλ
=
−== ∑
=
Donc, la coordonnée d'une variable sur un axe est le coefficient de corrélation de cette variable avec cet axe. Cette représentation est ainsi appelée "cercle des corrélations".
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 21 -
Fin cours 3 (2 h) Lien vers application
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 22 -
3.6. Compléments et interprétations Individus supplémentaires et variables illustratives
X
XVI+
XIS+ Individus supplémentaires Il est possible d'ajouter des individus dans la représentation graphique (par exemple des femmes si l'analyse initiale traitait des hommes, les régions si l'on traitait des départements, etc.). Pour ce faire, il faut positionner l'individu supplémentaire par rapport au centre de gravité du nuage et diviser les coordonnées par les écarts-types :
j
jISijIS
ij s
ttx
−=
++
Les coordonnées des individus supplémentaires (regroupés dans la matrice XIS+) sont alors trouvées par projection sur les vecteurs propres :
αα uXF ISIS ++ =
Variables illustratives continues Il peut s'agir alors d'enrichir l'analyse par des indicateurs qui vont venir expliquer davantage les résultats obtenus. On procède alors de manière similaire:
+
+++ −
=VIj
VIj
VIijVI
ijs
ttx
Les coordonnées des variables illustratives (regroupés dans la matrice XVI+) sont alors trouvées par projection sur les vecteurs propres :
αα uXG VIVIS )'( ++ =
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 23 -
Variables illustratives nominales Il est également possible de faire figurer des variables illustratives nominales (hors programme du Master). Règles d'interprétation Pour les individus (dans un espace à p dimensions) : "La représentation des individus sur les axes factoriels fournit la meilleure visualisation approchée des distances entre les individus. […]Les proximités entre individus s'interprètent en termes de similitudes de comportement vis-à-vis des variables. " Par construction, le centre du graphique des individus représente les valeurs moyennes de chaque variable, c'est-à-dire le profil de l'individu moyen (ou profil moyen) En conséquence, plus un individu est éloigné du centre, plus il va présenter un profil différent du profil moyen : on parle alors de profils marginaux. Pour les variables (dans un espace à n dimensions) : "La représentation des variables sur les axes factoriels fournit une synthèse graphique de la matrice des corrélations. […] Les proximités entre variables [s'interprètent] en termes de corrélations. Il faut bien se garder d'interpréter la distance séparant un point-variable d'un point-individu car ces deux points ne font pas partie d'un même nuage dans un même espace : la superposition de ces deux plans factoriels est dénuée de sens1." Pour les individus et les variables Si la superposition des deux graphiques initiaux est dénuée de sens (cf. supra), elle devient possible si l'on ne s'intéresse plus aux points-variables mais aux directions des variables. Pour ce faire, on représente les anciens axes unitaires (les p variables du début de l'analyse) qui, pour la variable j, s'écrivent :
1 2 … j … p ej' = (0 0 … 1 … 0)
On traite alors la matrice EAAU+ des anciens axes unitaires comme individus supplémentaires. Les coordonnées de ces anciens axes unitaires dans l'espace à n dimensions sont données par :
αα uEF AAUAAU ++ =
1 Souligné par moi.
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 24 -
∇∇∇∇ : Ces vecteurs sont, par définition, orthogonaux deux à deux ce qui distingue le graphique obtenu du précédent graphique des variables.
∇∇∇∇ : Les deux nuages ne coïncident pas : ils diffèrent par une dilatation de αλ . Ils
néanmoins des allures très voisines.
∇∇∇∇ : Les individus situés dans le voisinage de la direction d'une variable prennent des valeurs supérieures à la moyenne de cette variable ; les individus situés dans le voisinage de la direction opposée prennent des valeurs inférieures à la moyenne de cette variable. Les CONT décrivent les contributions des individus à l'inertie des axes
11
2
=
=
∑=
n
ii
ii
i
CONTavec
Fm
CONT
α
αα
α λ
Par construction, les individus les plus contributeurs sont excentrés. Les cosinus carrés (cos²) décrivent les qualités de représentation des individus
2
22
i
ii
X
FCOS α
α =
Un COS² proche de 0 implique une mauvaise représentation de l'individu. Un COS² proche de 1 implique une bonne représentation de l'individu. Les deux individus i et j suivant ont la même projection ; mais i est loin du plan (sa projection est éloignée de sa position réelle), alors que i est proche du plan (sa projection est donc représentative de sa position réelle).
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 25 -
En conséquence, un individu dont la projection est loin du centre sera bien représenté, alors qu'un individu dont la projection est proche du centre est soit un individu moyen bien représenté, soit un individu marginal mal représenté. "Effet taille" Il arrive parfois que toutes les variables soient situées d'un même côté du cercle des corrélations. Cela fait état d'une corrélation entre toutes les variables, i.e. elles prennent toutes des valeurs plus élevées (respect. faibles) que la moyenne en même temps. Nous sommes alors en présence de "grands" individus et de "petits" individus, d'où l'expression "effet taille". Pour annihiler cet effet, on peut :
- faire la lecture sur le plan suivant (axe2-axe3 et non plus axe1-axe2) : mais alors les corrélations seront beaucoup plus faibles ;
- refaire l'analyse en s'intéressant par exemple à la structure du profil des individus (lorsque cela est possible), notamment en exprimant la structure en pourcentage. Il convient alors de pondérer les individus pour respecter la structure du profil moyen.
i
j
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 26 -
3.7. Résumé Toutes les analyses factorielles contiennent une étape de diagonalisation de matrice. En fonction du type de tableaux que l'on doit analyser et de la façon dont on veut l'analyser, la matrice à diagonaliser est différente. Son élaboration est intimement liée à la manière dont on mesure les distances dans les espaces concernés (i.e. la métrique utilisée). Dans l'analyse en composantes principales, cette métrique est la distance euclidienne entre les individus pris deux à deux.
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 27 -
Etape Formalisation
Matrice initiale M
Variable 1 … Variable j … Variable p Individu 1 … Individu i tij … Individu n
Réduction et centrage de M : matrice centrée réduite X
Variable 1 … Variable j … Variable p Individu 1 … Individu i xij … Individu n
Calcul de X'DX (généralement, n>p)
Diagonalisation de la matrice d'inertie
X'DX u = λu
Relations de transition
Fαi = Xiuα et
ii
ii
ii FX
m
mG α
αα λ
'∑
=
Représentation graphique
Individus supplémentaires et variables illustratives
X
XVI+
XIS+
αα uXF ISIS ++ = et αα uXG VIVIS )'( ++ =
X' X'D X'DX
D X
x x x x x x x x x x x
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 28 -
Représentation simultanée
αα uEF AAUAAU ++ =
Interprétation
11
2
=
=
∑=
n
ii
ii
i
CONTavec
Fm
CONT
α
αα
α λ 2
22
i
ii X
FCOS α
α =
x x x x x x x x x x x
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 29 -
3.8. Exemples Une analyse factorielle a été réalisée sur un tableau du fichier SINE qui donne la répartition géographique et sexuée de la part de chaque principal mobile de création d’entreprise.
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 30 -
ANALYSE EN COMPOSANTES PRINCIPALES STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES EFFECTIF TOTAL : 22 POIDS TOTAL : 124713.00 +-------------------------------------------------- -----+----------------------+---------------------- + | NUM . IDEN - LIBELLE EFFECTIF PO IDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM | +-------------------------------------------------- -----+----------------------+---------------------- + | 2 . idée - idée nouvelle 22 124713 .00 | 0.11 0.01 | 0.08 0.16 | | 3 . goût - goût d'entreprendre 22 124713 .00 | 0.39 0.02 | 0.34 0.44 | | 4 . oppo - opportunité 22 124713 .00 | 0.22 0.01 | 0.19 0.24 | | 5 . exem - exemple de l'entoura 22 124713 .00 | 0.07 0.01 | 0.05 0.09 | | 6 . sans - sans emploi, a chois 22 124713 .00 | 0.16 0.01 | 0.13 0.20 | | 7 . sans - sans emploi, a été c 22 124713 .00 | 0.05 0.01 | 0.03 0.06 |
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 31 -
D'après un sondage IPSOS, Télérama, mai 2002. Le sondage suivant donne en pourcentage les intentions de votes des lecteurs de différents journaux.
LAG
UIL
LER
BE
SA
NÇ
EN
OT
HU
E
JOS
PIN
TA
UB
IRA
CH
EN
EN
EM
EN
T
MA
ME
RE
LEP
AG
E
SA
INT
-JO
SS
E
BA
YR
OU
MA
DE
LIN
CH
IRA
C
BO
UT
IN
ME
GR
ET
LE P
EN
BLA
NC
S/N
ULS
TO
TA
L
La Croix 0 2 2 3 2 2 4 5 3 20 2 29 8 2 14 2 100
La Figaro 2 2 0 7 1 2 1 3 1 8 9 35 3 3 22 1 100
Libération 6 8 3 40 5 5 10 0 1 2 2 9 0 0 7 2 100
Le Monde 5 6 2 25 3 5 7 2 1 5 4 18 1 2 12 2 100
Le Parisien 4 3 4 12 2 4 6 1 1 6 2 23 2 2 26 2 100
Le Canard Enchaîné 8 7 5 26 2 7 9 2 4 4 4 8 0 2 10 2 100
L'Express 4 2 1 15 2 4 5 2 3 8 9 21 1 5 16 2 100
Marianne 6 6 2 19 3 14 4 2 3 10 5 9 1 3 10 3 100
Le Nouvel Observateur 4 7 2 35 3 5 8 1 1 6 3 14 1 0 9 1 100
Paris Match 4 2 1 15 0 2 2 2 3 7 4 29 2 2 22 3 100
Télérama 4 8 5 28 4 7 13 2 0 10 3 9 2 0 3 2 100
Le Point 2 2 1 7 3 2 1 2 1 8 9 41 2 1 16 2 100
Une ACP effectuée sur ce tableau donne les graphiques suivants :
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 32 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 33 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 34 -
Du fichier SINE a été extrait un tableau donnant par région et par motif le pourcentage de nouvelles entreprises de l'industrie créées en 1994 ayant en 1997 des liens de coopération avec d'autres entreprises. Plusieurs motifs pouvant être invoqués, le pourcentage total est supérieur à 100 %. Du reste, le total est traité en variable supplémentaire.
Graphique des individus
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 35 -
Cercle des corrélations
Statistiques sommaires des variables continues Libellé de la variable Moyenne
achat 7,762
aucun lien de coopération étroit avec des entreprises 76,619
conception de biens ou de services 7,381
finance 1,762
gestion 2,571
production de biens ou de services 3,857
publicité 2,524
vente 5,762
Total 108,238
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…
Jean-Louis Girard - 36 -
Matrice des corrélations
achat
aucun lien de
coopération étroit avec
des entreprises
conception de biens
ou de services
finance gestion
production de biens
ou de services
publicité vente
achat 1,00
aucun lien de coopération étroit avec des entreprises
-0,36 1,00
conception de biens ou de services
-0,15 -0,51 1,00
finance 0,11 -0,43 0,32 1,00
gestion 0,02 -0,59 0,13 0,07 1,00
production de biens ou de services
0,33 -0,52 0,17 0,45 0,01 1,00
publicité 0,37 -0,27 -0,07 0,51 -0,27 0,51 1,00
vente -0,36 -0,31 0,12 0,14 0,28 0,23 0,15 1,00
Tableau des valeurs propres
Numéro Valeur propre
1 2,7779 2 1,7617 3 1,2215 4 0,9773 5 0,5745 6 0,4009 7 0,2067 8 0,0796
Somme 8,0000
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 37 -
4. Passons maintenant à l'analyse de tableaux de va riables qualitatives…
4.1. L'analyse des correspondances (croisement de d eux variables qualitatives)
Analyse dédiée à des tableaux croisant 2 variables qualitatives (couleur des cheveux x couleur des yeux) Tableau de contingence
Variable 2 Modalité 1 Modalité 2 Modalité 3
Profil moyen
Modalité 1 k11 k12 k13 k1. Modalité 2 k21 k22 k23 k2. Modalité 3 k31 k32 k33 k3.
Variable 1
Modalité 4 k41 k42 k43 k4. Profil moyen k.1 k.2 k.3 n
L’analyse des correspondances va consister à étudier la répartition de chaque classe de la variable 1 suivant les modalités de la variable 2 (et inversement). On parle alors de profils lignes (lorsqu’on étudie les classes de la variable 1) et de profils colonnes (lorsqu’on étudie les classes de la variable 2). Tableau des fréquences tel que fij = kij/n
Variable 2 Modalité 1 Modalité 2 Modalité 3
Profil moyen
Modalité 1 f11 f12 f13 f1. Modalité 2 f21 f22 f23 f2. Modalité 3 f31 f32 f33 f3.
Variable 1
Modalité 4 f41 f42 f43 f4. Profil moyen f.1 f.2 f.3 1
Tableau des contributions
Variable 2 Modalité 1 Modalité 2 Modalité 3
Modalité 1 Modalité 2
Modalité 3 ( )
ji
jiijij ff
fffc
−=
Variable 1
Modalité 4
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 38 -
Les fortes valeurs sont intéressantes, puisqu'elles dénotent une valeur "inattendue" par rapport à la structure générale du tableau ; en lecture rapide de tableaux, les raisons de ces fortes valeurs sont à étudier. Profils lignes tel que fij/fi. = kij/ki.
Variable 2 Modalité 1 Modalité 2 Modalité 3
Masse
Modalité 1 f11/f1. f12/f1. f13/f1. 1 Modalité 2 f21/f2. f22/f2. f23/f2. 1 Modalité 3 f31/f3. f32/f3. f33/f3. 1
Variable 1
Modalité 4 f41/f4. f42/f4. f43/f4. 1 Les profils-lignes donnent, pour chaque modalité de la variable 1, la répartition des modalités de la variable 2. Profils colonnes f.j/f.j = k.j/k.j
Variable 2 Modalité 1 Modalité 2 Modalité 3
Modalité 1 f11/f.1 f12/f.2 f13/f.3 Modalité 2 f21/f.1 f22/f.2 f23/f.3 Modalité 3 f31/f.1 f32/f.2 f33/f.3
Variable 1
Modalité 4 f41/f.1 f42/f.2 f43/f.3 Masse 1 1 1
Les profils-colonnes donnent, pour chaque modalité de la variable 2, la répartition des modalités de la variable 1.
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 39 -
La représentation des profils-lignes et des profils colonnes est intéressante Ils donnent la structure de répartition des lignes (respectivement des colonnes)
Cas d'une variable continue classée
Cas d'une variable nominale ordonnée
Cas d'une variable nominale quelconque
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 40 -
Tableau des fréquences théoriques Les deux variables sont indépendantes si :
fij = fi. f.j Alors, pour chaque modalité de la variable 1, le produit de la fréquence de chaque modalité de la variable 2 par la fréquence de la variable 1 est constant. Réciproquement, pour chaque modalité de la variable 2, le produit de la fréquence de chaque modalité de la variable 1 par la fréquence de la variable 2 est constant.
Variable 2 Modalité 1 Modalité 2 Modalité 3
Profil moyen
Modalité 1 f1. f.1 f1. f.2 f1. f.3 f1. Modalité 2 f2. f.1 f2. f.1 f2. f.3 f2. Modalité 3 f3. f.1 f3. f.1 f3. f.3 f3.
Variable 1
Modalité 4 f4. f.1 f4. f.1 f4. f.3 f4. Profil moyen f.1 f.2 f.3 1
Le cœur de l'AFC est de représenter les similitudes entre les différentes modalités d'une même variable, c'est-à-dire à représenter les proximités entre les profils et le profil moyen. Il faut donc considérer le nuage centré sur son centre de gravité. Le nuage des n lignes dans l'espace des p colonnes
• Comme 11 .
=∑=
p
j i
ij
f
f, le nuage est même situé dans un sous-espace à p-1 dimensions
• Le centre (de gravité) du nuage de points composé des f.j Le nuage des p colonnes dans l'espace des n lignes
• Comme 11 .
=∑=
n
i j
ij
f
f, le nuage est même situé dans un sous-espace à n-1 dimensions
• Le centre (de gravité) du nuage de points composé des fi.. Exemple avec 3 variables initiales : le nuage de points est contenu dans un espace à 2 dimensions, centré sur le centre de gravité G.
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 41 -
Le vecteur propre associé à la plus grande valeur propre (1 par construction) concerne la direction qui sépare l'origine du centre de gravité (information qui peut être négligée) ; les vecteurs propres associés aux valeurs propres suivantes sont les seuls qui apportent une information relative aux positions relatives des points entre-eux.
G
V3
V2 V1
u2
u3
1
1
1V1
V2
V3
G u1
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 42 -
Quelle distance utiliser ?
• La distance euclidienne entre des points-lignes (respectivement colonnes) réalisée dans un tableau de données brutes traduirait la différence d'effectif entre deux modalités de la variable 1 (respectivement variable 2).
• La distance euclidienne entre profils-lignes (respectivement colonnes) traduirait bien la
ressemblance entre deux modalités de la variable 1 (respectivement variable 2) sans tenir compte des effectifs totaux de ces deux modalités. Mais cette distance favorise les colonnes qui ont une fréquence élevée.
Pour palier cela, on pondère chaque écart par l'inverse de l'effectif de la colonne (profils-lignes) ou de la ligne (profils-colonnes). Cette distance est appelée distance du χ² :
( ) ∑=
−=
p
j i
ji
i
ij
j f
f
f
f
fiid
1
2
'.
'
..
2 1',2χ pour les profils-lignes
( ) ∑=
−=
n
i j
ij
j
ij
i f
f
f
f
fjjd
1
2
'.
'
..
2 1',2χ pour les profils-colonnes
Propriétés de la distance du χ²
• Equivalence distributionnelle : on peut agréger deux modalités d'une même variable sans changer les distances entre modalités de cette variable, ni aux distances entre modalité de l'autre variable (on peut par exemple agréger les départements d'une même région)
• Relations quasi-barycentriques : les modalités de la variable 1 sont des centres de
gravité pour les modalités de la variable 2 prises ensemble, et réciproquement. En d'autres termes, l'ensemble des modalités de la variable 2 est contenu dans "l'enveloppe" des modalités de la variable 1, et réciproquement
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 43 -
Notations
nD matrice des marges-lignes
0 f i. 0
1−nD inverse de nD
0 1/fi. 0
pD matrice des marges-colonnes
0 f.j 0
1−pD inverse de pD
0 1/f.j 0
F matrice des fréquences
fij fi. f.j 1
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 44 -
Analyse du nuage des points-lignes
−
∑
321
876
utiliséemétriquelapourunitairevecteur
p
i
lignesdesfréquences
lesparpondérée
originelàrapportpar
uaxelsursprojectiondes
dudistance
iu
uDucs
OidfMax
1
'
'
2.
'..
),(
2
2
χ
χ
∇∇∇∇ : On pondère les modalités par leurs fréquences afin de ne pas privilégier les classes de faible effectif. Cela revient à résoudre le programme :
( ) ( )
( ) ( ) ( )
==
−
−−−−−−
−
−−
−
−
321
43421321
utiliséemétriquelapourunitairevecteur
p
pnppnp
colonnesprofilsdesTransposée
p
Métrique
n
colonnesofils
p
uDucs
uFDDFDuuFDDFDuuFDDFDuMax
1
11111111
Pr
1
'..
''''''''
En excluant la valeur propre triviale unitaire (analyse par rapport au barycentre), cela revient à diagonaliser la matrice :
11' −−= pn FDDFS
de terme général :
∑=
=n
i ji
ijijjj ff
ffs
1 '..
''
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 45 -
Analyse du nuage des points-colonnes
−
∑
321
876
utiliséemétriquelapourunitairevecteur
n
j
colonnesdesfréquences
lesparpondérée
originelàrapportpar
uaxelsursprojectiondes
dudistance
jv
vDvcs
OjdfMaxMa
1
'
'
2.
'..
),(
2
2
χ
χ
Cela revient à résoudre le programme :
( ) ( )
( ) ( ) ( )
==
−
−−−−−−
−
−−
−
−
321
321321
utiliséemétriquelapourunitairevecteur
p
npnnpn
lignesprofilsdesTransposée
n
Métrique
p
lignesofils
n
vDvcs
vDFFDDvvDFDFDvvFDDFDvMax
1
11111111
Pr
1
'..
''''''
En excluant la valeur propre triviale unitaire (analyse par rapport au barycentre), cela revient à diagonaliser la matrice :
11 ' −−= np DFFDT
de terme général :
∑=
=p
j ij
jiijii ff
fft
1 '..
''
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 46 -
Résumé
Dans Rp Dans Rn 11' −−= pn FDDFS Matrice à
diagonaliser 11 ' −−= np DFFDT
Suα = λαuα Axes factoriels Tvα= λαvα
∑=
−−
=
=p
jj
ji
iji
pn
uff
f
uFDD
1 ..
11
αα
αα
ψ
ψ Coordonnées
factorielles ∑=
−−
=
=n
ii
ji
ijj
np
vff
f
vDFD
1 ..
11 '
αα
αα
ϕ
ϕ
ii
i
n
n
vf
vD
vDFu
αα
α
ααα
αα
α
λψ
λψ
λ
.
1
1'1
=
=
=
−
−
Relations de transition
jj
j
p
p
uf
uD
uFDv
αα
α
ααα
αα
α
λϕ
λϕ
λ
.
1
11
=
=
=
−
−
∑=
=p
jj
i
iji f
f
1 .
1α
αα ϕ
λψ Relations quasi-
barycentriques ∑=
=n
ii
j
ijj f
f
1 .
1α
αα ψ
λϕ
∑=
+
++ =
p
jj
i
iji k
k
1 .
1α
αα ϕ
λψ Eléments
supplémentaires ∑=
+
++ =
n
ii
j
ijj k
k
1 .
1α
αα ψ
λϕ
α
αα λ
ψ 2.)( iifiCr = Contributions
α
αα λ
ϕ 2.)( jjf
iCr =
),()(
2
22
2 GidiCos i
χ
αα
ψ= Cosinus carrés
),()(
2
22
2 GjdjCos i
χ
αα
ϕ=
Généralement, les matrices S et T ne sont pas symétriques : il faut donc les "symétriser" A la place de S, on diagonalise 2/112/1 ' −−−= pnp DDFDA , c'est-à-dire on calcule Aw=λw. Ces
matrices ont les mêmes valeurs propres ; on montre que wDu p2/1−= .
De même, on ne diagonalise par T mais 2/112/1 −−−= npn DFDDB c'est-à-dire on calcule Bz=λz.
Ces matrices ont les mêmes valeurs propres ; on montre que zDv n2/1−= .
Les relations barycentriques nous indiquent que les projections des points d'un nuage sont les barycentres des projections des points de l'autre nuage : les coordonnées d'une modalité i d'une variable sont les moyennes des coordonnées des modalités j de l'autre variable pondérées par les fréquences conditionnelles du profil de la modalité i. On peut donc trouver les positions des points d'un nuage à partir des positions des points de l'autre nuage
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 47 -
Ce sont ces relations qui permettent de trouver les positions des éléments (colonnes ou lignes) supplémentaires. Bien souvent, lorsque les variables sont ordonnées, un effet "Guttman" apparaît Il désigne une certaine redondance entre les variables impliquées : un axe (souvent le premier), oppose alors les valeurs extrêmes de ces variables
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 48 -
4.2. L'analyse des correspondances multiples (crois ement de nombreuses variables qualitatives)
On considère ici un nuage de points dont les coordonnées sont présentées dans un tableau R du type : Tableau de données condensées R
Variable 1 Variable 2 … Variable q … Variable s Individu 1 … Individu 2 … … … Individu i … … … riq … … … … Individu n … Le terme riq désigne la modalité de la question q choisie par l'individu i. Un tel tableau est inexploitable tel quel (les sommes des lignes ou des colonnes n'ont pas de sens) ; il faut recoder les variables pour former le tableau disjonctif complet Z (ou tableau logique). Tableau disjonctif complet Z
Var 1 … Var q ... Var y
Mod 11 … Mod
1r … Mod
1a
Mod q1 … Mod qr … Mod
qb
Mod y1 … Mod
yr … Mod
yc Individu 1 … Individu 2 … … …
Individu i …
… … … … …
…
… = 1 si cette
modalité est
choisie, 0 sinon
…
.… …
…
… …
… …
… … Individu n …
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 49 -
Pour un individu et une variable donnés, la ligne ne contient que des 0 sauf pour la modalité choisie :
ΣΣΣΣ … Variable q Modalité r de la variable q …
Individu i …
==
sinon
choisieestmodalitélasi
0
1 …
Nombre de
variables …
ΣΣΣΣ Nombre d'individus ayant
choisi cette modalité
Faire une analyse des correspondances multiples revient à faire une analyse des correspondances sur un tableau disjonctif complet. Tableau de Burt B Le tableau de Burt associé au tableau disjonctif complet Z est défini par :
B = Z'Z, de taille (p,p)
de terme général ∑=
=n
iijijjj zzb
1''
Modalités
de la variable 1
Modalités de la
variable 2
Modalités de la
variable 3 0 0 0 0
Modalités de la
variable 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Modalités de la
variable 2
0 0 0 0 0 0 0 0
Modalités de la
variable 3 0 0 Ce tableau croise deux à deux toutes les modalités ; chaque cellule donne le nombre d'individus présentant à la fois la modalité j et la modalité j' :
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 50 -
• La diagonale donne le nombre d'individu présentant la modalité j (ou j' puisque j = j') ;
• Les sous-matrices diagonales ne sont donc composées que de zéros, sauf sur leur première diagonale.
A partir du tableau de Burt, on construit la matrice diagonale D, qui ne comporte que des zéros sauf sur sa première diagonale où figurent les éléments diagonaux de B :
Modalités
de la variable 1
Modalités de la
variable 2
Modalités de la
variable 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Modalités de la
variable 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Modalités de la
variable 2
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Modalités de la
variable 3 0 0 0 0 0 0 0 0 0 0 On conserve la distance du χ² qui a ici encore du sens
• La distance entre deux modalités s'écrit :
2
1 .
'
.
2
')',(2 ∑
=
−=
n
i j
ij
j
ij
z
z
z
znjjdχ
Si chaque individu a choisi les modalités j et j' ensemble, alors zij = zij' et 0)',(22 =jjdχ .
D'autre part, les modalités avec des effectifs faibles sont éloignées les unes des autres.
• La distance entre deux individus s'écrit : ( )2
1'
.
2 1)',(2 ∑
=
−=p
jjiij
j
zzz
n
siidχ
avec s le nombre de variables. Si les individus i et i' ont choisi les mêmes modalités, alors zij = zi'j et .0)',(2
2 =iidχ
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 51 -
Notations
nD nIn
1
nf ij
i
δ=.
1−nD
inverse de nD
(métrique de la distance du χ²)
iji
nf
δ=. si i =j
0 sinon
pD Dns
1
ns
zf j
ijj.
. δ=
1−pD inverse de pD
jijj z
nsf
.. δ
= si i=j
0 sinon
F Zns
1
ns
zf ij
ij =
avec δij = 1 si i=j, 0 sinon. Résumé
Dans Rp Dans Rn 111 '
1' −−− == ZDZ
sFDDFS pn Matrice à
diagonaliser '
1' 111 ZZD
sDFFDT np
−−− ==
1'1 −ZDZs
uα = λαuα Axes factoriels '1 1ZZDs
− vα = λαvα
ααα ψλψ =− ZZDs
'1 1 Coordonnées
factorielles ααα ϕλϕ =− '1 1ZZDs
αα
α ϕλ
ψ '1 1ZDn
−= Relations de transition
αα
α ψλ
ϕ Zs
1=
∑=
=p
jj
i
iji z
z
1 .
1α
αα ϕ
λψ Relations quasi-
barycentriques ∑=
=n
ii
j
ijj z
z
1 .
1α
αα ψ
λϕ
∑=
+
++ =
p
jj
i
iji k
k
1 .
1α
αα ϕ
λψ Eléments
supplémentaires ∑=
+
++ =
n
ii
j
ijj k
k
1 .
1α
αα ψ
λϕ
α
αα λ
ψ 2.)( iifiCr = Contributions
α
αα λ
ϕ 2.)( jjf
iCr =
),()(
2
22
2 GidiCos i
χ
αα
ψ= Cosinus carrés
),()(
2
22
2 GjdjCos i
χ
αα
ϕ=
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…
Jean-Louis Girard - 52 -
∇∇∇∇ : Notons qu'il est également possible d'introduire des variables illustratives continues sans les découper en classes, en calculant le coefficient de corrélation entre des variables et les axes.
∇∇∇∇ : l'inertie d'une modalité est égale à
−=
n
z
sjI j.1
1)( ; elle est d'autant plus grande que
l'effectif dans cette modalité est faible, d'où l'attention à porter lors du codage à ne pas construire des classes de faibles effectifs qui troubleraient le calcul des axes : on s'arrange souvent pour faire des classes d'effectifs proches (par équivalence distributionnelle).
L'inertie d'une question est donc ( )∑=
−==qp
jqp
sjIqI
1
11
)()( ; elle est d'autant plus grande que le
nombre de modalités est élevé, d'où l'attention à porter dans le système de questions à l'équilibre du questionnaire. Règles d'interprétation
• Proximité entre individus en termes de ressemblances : les individus ayant choisi globalement les mêmes modalités seront situés à proximité les uns des autres ;
• Proximité entre modalités de variables différentes : les modalités choisies globalement
ensemble par les mêmes individus seront situées à proximité les unes des autres ;
• Proximités entre modalités d'une même variable : par construction, les modalités d'une même variable s'excluent les unes des autres : si elles apparaissent proches, cela signifie une certaine ressemblances des profils des individus qui les ont choisies.
• Il est intéressant de calculer la contribution d'une variable afin d'obtenir un indicateur
de liaison entre les variables et les axes.
Ingénierie de l'analyse des données - Compléments
Jean-Louis Girard - 53 -
5. Compléments
5.1. Quelques algorithmes de diagonalisation Cf. TD
5.2. Et les autres directions d'allongement ? Généralement (!) le nuage s'étire dans plusieurs directions. Comment les traiter ? On procède à la déflation de la matrice, c'est-à-dire qu'on lui ôte sa plus grande dimension (cela revient à "enrouler" le nuage de points sur sa plus grande dimension). Pour cela, on appelle "matrice déflatée" la matrice Vd = V - λuu'. On réitère le processus (maximisation de l'inertie + déflation de la matrice) autant de fois que nécessaire pour trouver l'ensemble des valeurs et vecteurs propres.