53
Ingénierie de l'analyse des données Jean-Louis Girard http://www.u-picardie.frTOUS/Documentation/Master1/IAD Plan de cours 1. Introduction générale.......................................................................................................... 2 1.1. Les Egyptiens antiques savaient-ils peindre ? ............................................................ 2 1.2. Une autre illustration .................................................................................................. 3 1.3. Plan ............................................................................................................................. 6 1.4. Lexique ....................................................................................................................... 7 1.5. Principe de représentation géométrique ..................................................................... 9 2. L'inertie comme somme des distances des points d'un nuage .......................................... 10 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales… ................................................................................... 15 3.1. Quelques rappels sur les matrices et le calcul matriciel ........................................... 15 3.2. Pour préparer une "bonne" matrice, il faut…........................................................... 15 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage… .............................................................................. 17 3.4. Quelles sont les coordonnées des points projetés ? .................................................. 19 3.5. Comment représenter les variables (relations de transition) ? ................................. 20 3.6. Compléments et interprétations................................................................................ 22 3.7. Résumé ..................................................................................................................... 26 3.8. Exemples .................................................................................................................. 29 4. Passons maintenant à l'analyse de tableaux de variables qualitatives….......................... 37 4.1. L'analyse des correspondances (croisement de deux variables qualitatives) ........... 37 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives) .......................................................................................................................... 48 5. Mais dans les ordinateurs, comment ça marche ? Approche algorithmique de l'analyse factorielle......................................................................................... Erreur ! Signet non défini. 5.1. Quelques algorithmes de diagonalisation................................................................. 53 5.2. Et les autres directions d'allongement ? ................................................................... 53

Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données

Jean-Louis Girard

http://www.u-picardie.frTOUS/Documentation/Master1/IAD

Plan de cours 1. Introduction générale.......................................................................................................... 2

1.1. Les Egyptiens antiques savaient-ils peindre ?............................................................ 2 1.2. Une autre illustration.................................................................................................. 3 1.3. Plan............................................................................................................................. 6 1.4. Lexique....................................................................................................................... 7 1.5. Principe de représentation géométrique ..................................................................... 9

2. L'inertie comme somme des distances des points d'un nuage..........................................10 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…................................................................................... 15

3.1. Quelques rappels sur les matrices et le calcul matriciel........................................... 15 3.2. Pour préparer une "bonne" matrice, il faut…........................................................... 15 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage….............................................................................. 17 3.4. Quelles sont les coordonnées des points projetés ?.................................................. 19 3.5. Comment représenter les variables (relations de transition) ? ................................. 20 3.6. Compléments et interprétations................................................................................ 22 3.7. Résumé..................................................................................................................... 26 3.8. Exemples .................................................................................................................. 29

4. Passons maintenant à l'analyse de tableaux de variables qualitatives….......................... 37 4.1. L'analyse des correspondances (croisement de deux variables qualitatives) ........... 37 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives) .......................................................................................................................... 48

5. Mais dans les ordinateurs, comment ça marche ? Approche algorithmique de l'analyse factorielle.........................................................................................Erreur ! Signet non défini.

5.1. Quelques algorithmes de diagonalisation................................................................. 53 5.2. Et les autres directions d'allongement ? ................................................................... 53

Page 2: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Introduction générale

Jean-Louis Girard - 2 -

1. Introduction générale "Il avait appris sans effort l'anglais, le français, le portugais, le latin. Je soupçonne cependant qu'il n'était pas très capable de penser. Penser, c'est oublier des différences, c'est généraliser, abstraire. Dans le monde surchargé de Funes il n'y avait que des détails, presque immédiats." Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956)

1.1. Les Egyptiens antiques savaient-ils peindre ? Pourquoi les Egyptiens antiques peignaient les personnages dans une position peu naturelle alors que par ailleurs ils savaient depuis très longtemps représenter un corps en 3D ?

Le roi Amenemhat III XIX° siècle avant J.-C.

Stèle de la dame Tapéret (Détail) Xe ou IXe siècle avant J.-C.

Page 3: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Introduction générale

Jean-Louis Girard - 3 -

1.2. Une autre illustration On dispose d'un tableau donnant les coordonnées de points dans un espace tridimensionnel :

IND X Y Z 1 52,58 -25,13 -101,93 2 51,5 -24,86 -101,77 3 52,49 -23,58 -101,61 4 52,03 -26,22 -101,55 5 54,32 -23,64 -101,44 6 53,63 -26,4 -101,4 7 50,47 -25,56 -101,36

… … … … 21488 -49,21 79,23 60,14 21489 -47,28 86,02 60,15 21490 -46,34 87,09 60,16 21491 -48,21 81,83 60,19 21492 -46,91 79,37 60,19 21493 -43,92 87,68 60,2 21494 -47,29 84,45 60,23 21495 -45,55 81,08 60,23 21496 -44,41 83,48 60,25 21497 -43,46 85,53 60,26 21498 -45,39 85,67 60,3 21499 -45,39 85,67 60,3

Quelle forme a ce nuage de point ( reconnaissance de forme) ? Représentation des différents plans : Plan X-Y

Page 4: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Introduction générale

Jean-Louis Girard - 4 -

Plan Y-Z

Plan X-Z

Quel est le meilleur plan de représentation ? Est-ce l'un des précédents ?

Page 5: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Introduction générale

Jean-Louis Girard - 5 -

Graphique factoriel

Page 6: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Introduction générale

Jean-Louis Girard - 6 -

1.3. Plan 1. Introduction générale

1.1. Les Egyptiens antiques savaient-ils peindre ? 1.2. Une autre illustration 1.3. Plan 1.4. Lexique 1.5. Principe de représentation géométrique

2. L'inertie comme somme des distances des points d'un nuage 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

3.1. Quelques rappels sur les matrices et le calcul matriciel 3.2. Pour préparer une "bonne" matrice, il faut… 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage… 3.4. Quelles sont les coordonnées des points projetés ? 3.5. Comment représenter les variables (relations de transition) ? 3.6. Compléments et interprétations 3.7. Résumé 3.8. Exemples

4. Passons maintenant à l'analyse de tableaux de variables qualitatives… 4.1. L'analyse des correspondances (croisement de deux variables qualitatives) 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives)

5. Compléments 5.1. Quelques algorithmes de diagonalisation 5.2. Et les autres directions d'allongement ?

Page 7: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Introduction générale

Jean-Louis Girard - 7 -

1.4. Lexique

Population (ou population statistique)

Ω Ensemble (au sens mathématique du terme) concerné par une étude statistique. On parle parfois du champ de l'étude

Individu (ou unité statistique) x∈Ω

Tout élément de la population Ω

Echantillon Sous-ensemble de la population sur lequel sont effectivement réalisées les observations

Taille de l'échantillon Cardinal du sous-ensemble correspondant

Enquête (statistique) Opération consistant à observer (ou mesurer, ou questionner…) l'ensemble des individus d'un échantillon

Recensement Enquête dans laquelle l'échantillon observé est la population tout entière (enquête exhaustive)

Sondage Enquête dans laquelle l'échantillon observé est un sous-ensemble strict de la population (enquête non exhaustive)

Variable (statistique)

→Ωvequantitatisi

equalitativsix ε

Caractéristique (âge, salaire, sexe…) définie sur une population et observée sur l'échantillon ; mathématiquement, il s'agit d'une application définie sur l'échantillon. Si la variable est à valeurs dans (ou une partie de , ou un ensemble de parties de ), elle est dite quantitative (âge, salaire, taille…) ; sinon, elle est dite qualitative (sexe, CSP…) et les valeurs que peut prendre cette variable sont appelées modalités.

Données (statistiques)

Ensemble des individus observés (échantillon), des variables considérées, et des observations de ces variables sur ces individus. Elles sont généralement présentées sous forme de tableaux (individus en lignes et variables en colonnes) et stockées dans un fichier informatique. Lorsqu'un tableau ne comporte que des nombres (valeurs des variables quantitatives ou codées associées aux variables qualitatives), il correspond à la notion mathématique de matrice.

| R

| R| R | R

Page 8: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Introduction générale

Jean-Louis Girard - 8 -

∇∇∇∇ : chaque individu est doté d'un "poids" (ou masse) différent. Par exemple, il n'y a aucune raison a priori de traiter différemment les personnes qui constituent une population (une personne = une personne) ; mais les régions ou les département ont des importances différentes, dont il faut parfois tenir compte (notion à rapprocher de celle de moyenne pondérée).

∇∇∇∇ : une variable quantitative peut être "classée" ou ordonnée, en effectuant par exemple des découpages sur les valeurs que peut prendre cette variable Exemple : [moins de 20 ans ; de 20 ans à 39 ans; de 40 ans à 59 ans, 60 ans et plus]. Dans ce cas, cette variable peut être traitée comme une variable qualitative, identique à [jeune, adulte, mûr, âgé]

∇∇∇∇ : les modalités d'une variable peuvent être :

• Exhaustives : o modalités non-exhaustives [adulte, âgé] les jeunes n'y figurent pas o êtes-vous venu à la Préfecture pour :

retirer votre permis de conduire ? retirer votre passeport ?

d'autres réponses sont possibles.

• Exclusives : o modalités non exclusives [moins de 30 ans ; de 20 ans à 39 ans; de 40

ans à 59 ans, 60 ans et plus] si l'on a de 20 à 30 ans, on figure dans deux modalités

o êtes-vous venu à la Préfecture pour : retirer votre permis de conduire ? retirer votre passeport ?

les deux réponses sont possibles.

∇∇∇∇ : On peut rendre les modalités exhaustives en proposant, par exemple, une modalité autre On peut rendre les modalités exclusives en demandant, par exemple, "quelle est la principale raison qui vous a fait venir à la préfecture ?"

Page 9: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Introduction générale

Jean-Louis Girard - 9 -

1.5. Principe de représentation géométrique Les tableaux peuvent être vus comme un ensemble de lignes ou de colonnes. Par convention,

• En lignes figurent les individus • En colonnes figurent les variables

Deux nuages de points peuvent alors être construits :

• Le nuage des individus (les points-lignes) qui opère dans un espace dont le nombre de dimensions (le nombre d'axes) est égal au nombre de variables

• Le nuage des variables (les points-colonnes) qui opère dans un espace dont le nombre de dimensions (le nombre d'axes) est égal au nombre d'individus

1 j p 1 , , , , , , , i , , , xij , , , , , , n , Vecteurs lignes Vecteurs colonnes 1 j p

j j' 1 i i i' n

n points p points dans un espace à dans un espace à p dimensions (axes) n dimensions (axes)

Page 10: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage

Jean-Louis Girard - 10 -

2. L'inertie comme somme des distances des points d 'un nuage

On considère ici un nuage de points dont les coordonnées sont présentées dans un tableau du type :

Variable 1 Variable 2 … Variable j … Variable p Individu 1 … Individu 2 … … … Individu i … … … tij … … … … Individu n … Les tij sont donc numériques. Définition 1 : l'inertie est la somme des carrés des distances qui relient chaque point du nuage à un point quelconque de l'espace.

=In

O x

x

x

x

x

x

x

Page 11: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage

Jean-Louis Girard - 11 -

Comment mesurer la distance (métrique) ?

Équation 1

• Distance euclidienne (usuelle) : 22 )()( yAyBxAxB −+−

• Distance quadratique : 22 )()( yAyBxAxB −+−

• Distance de Manhattan : yAyBxAxB −+−

• Distance entre ensembles : cf. TD • …

Définition 2 : l'inertie projetée est la somme des carrés des longueurs des projections de chaque point du nuage sur une direction quelconque.

.A

.B

y

x

xB

yA

yB

xA

Page 12: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage

Jean-Louis Girard - 12 -

Qu'est-ce qu'une projection (orthogonale) ?

=In Fin 1ère séance (2 h)

O x

x

x

x

x

x

x

Page 13: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage

Jean-Louis Girard - 13 -

Quelles directions peuvent être intéressantes ? a)

=In 0 b)

=In c)

=In

In c) > In b)

x x x x x

x x x x x

x x x | x x

x |

x x x x x | | | | |

x x x | x x

Page 14: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage

Jean-Louis Girard - 14 -

l'inertie projetée croît lorsque la projection se fait sur l'axe d'étirement maximal du

nuage de points.

l'intérêt d'utiliser cette direction est qu'elle permet de voir plus de choses Voir au mieux le nuage de points (c'est-à-dire de maximiser l'inertie projetée) implique de connaître les directions maximales d'étirement du nuage de points.

Page 15: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 15 -

3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

On reprend le tableau précédent (cf. 2).

3.1. Quelques rappels sur les matrices et le calcul matriciel

Qu’est-ce qu’une matrice ? relatif à une application linéaire codage d’un tableau

Propriétés des matrices Qu’est-ce qu’un produit scalaire ?

• <x, x> = 0 ssi x = 0, • <x, y> = <y, x> (symétrie), • <ax + by, z> = a<x, z> + b<y, z> (bilinéarité 1), • <z, ax + by> = a<z, x> + b<z, y> (bilinéarité 2), • induit une norme par la relation : ||x||² = <x, x>, • produit scalaire canonique (usuel) de R² : <x, y> = x1y1 + x2y2

• produit scalaire canonique (usuel) de Rn : <x, y> = , • <x, y> = 0 ⇔ x ⊥ y

Qu'est-ce que le produit d'une matrice par un vecteur ? Qu'est-ce que la diagonalisation d'une matrice ?

3.2. Pour préparer une "bonne" matrice, il faut…

Centrer et réduire les variables… Au préalable, afin d'éliminer les effets dus aux différences entre moyennes et unités, on centre et on réduit chaque variable : la moyenne de chaque variable est nulle (on se situe au centre du nuage), l'écart-type de chaque variable est unitaire (le choix des unités n'importe pas).

Équation 2

ns

ttx

j

jijij

−=

Page 16: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 16 -

∇∇∇∇ : en fait, la distance entre deux individus est mesurée par :

2

1

''2 )',( ∑=

−=

p

j j

jiij

ns

ttiid , avec l'écart-type de j qui est égal à : ( )∑

=

−=n

ijij

ij tt

ns

1

21

Comme les variables sont centrées-réduites, elles se situent sur le bord d'une hypersphère de rayon 1.

Pondérer les individus

Il est possible que les individus statistiques n'aient pas la même importance : si les individus statistiques sont par exemple les régions de France, il faut accorder plus d'importance aux grandes régions (Île-de-France, PACA, Nord-Pas-de-Calais entre autres). On va donc mettre en place une pondération non uniforme des individus. Les individus ont toujours un poids ; lorsque les individus ont la même importance, leurs poids sont identiques (uniformes) et cette étape peut être négligée. Fin cours 2 (3h)

j

j'

Page 17: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 17 -

3.3. Maximiser l'inertie projetée, c'est rendre max imale la somme des distances entre les projections de chaque point du nuage…

On cherche un sous-espace vectoriel (un ensemble de vecteurs, c'est-à-dire un ensemble de directions) qui permette de rendre maximale l'inertie projetée dans ce sous-espace. Ces axes doivent être les directions d'étirement maximal du nuage de points.

données du problème Pour l'ensemble des vecteurs x du nuage de point, on cherche la direction v qui permette de rendre maximale la somme des projections carrées z². Comme le nuage est désormais centré, les coordonnées de l'origine sont nulles.

z = xu ||z||² = (xu)² = (xu)' (xu) = u'x'xu A l'échelle du nuage de points (pour l'ensemble des x), on a donc l'inertie qui est égale à :

DXuXuuDXXumIni iiiu '''' ==∑

En posant Ci = Xi'DXi, on a :

∑ ==i iiu CuuuCumIn ''

∇∇∇∇ : C est la matrice des corrélations entre variables. En effet, d'après Équation 2, elle est de terme général :

( )( ))'(

1

'

'''' jjcor

ss

ttttm

nxxmc

n

i jj

jijjijin

iijijijj =

−−== ∑∑

En conséquence, Tr C = p, le nombre de variables. D'une autre manière, avec la distance

euclidienne (cf. Équation 2), ( ) CTrxmxmInn

iiji

n

iii === ∑∑ 22

.

u

0

x

z

Page 18: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 18 -

Le programme de maximisation s'écrit alors :

( )

==

=−=∂∂

=−=∂∂

−−=

=

1

01'

02

)1'('

1'..

'

u

uCu

uuL

uCuu

L

uuCuuL

uucs

CuuMax

λλ

λ

λ

L'inertie projetée sera maximale lorsque les axes (le sous-espace vectoriel) sur lesquels s'effectue la projection sur les vecteurs propres de la matrice d'inertie C.

L'inertie expliquée par l'axe porté par le vecteur propre uαααα est

∑=

=p

In

1αα

αα

λ

λ.

Les axes conservant le maximum d'inertie seront ceux portés par les vecteurs propres associés aux plus grandes valeurs propres. Soit U = ( )nuu ...1 , avec ui les vecteurs propres colonnes.

Page 19: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 19 -

3.4. Quelles sont les coordonnées des points projet és ? Les vecteurs propres étant orthogonaux deux à deux (cf. TD), ils constituent une base orthonormée dans laquelle on peut représenter les vecteurs initiaux. Les coordonnées des vecteurs initiaux dans la nouvelle base sont données par leurs projections sur les vecteurs propres.

Fαi = Xiuα ou F = XU

Page 20: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 20 -

3.5. Comment représenter les variables (relations d e transition) ?

Faut-il refaire une analyse similaire pour les variables, et quels liens y a-t-il entre les variables et les individus ? Individus et variables opèrent dans des espaces vectoriels différents, mais sont intimement liés On montre (cf. TD) que :

Xuvλ1= est un vecteur propre de la matrice XX'

Alors,

ii

ii

ii FX

m

mG α

αα λ

'∑

=

Inversement,

iii GXF αα

α λ1=

On ne doit procéder qu'à la diagonalisation la plus rapide, et déduire les résultats de la seconde diagonalisation de ceux de la première. Dans la majeure partie des cas, comme le nombre de lignes est fréquemment plus élevé que celui des colonnes, on étudie d'abord les individus (C = X'DX de dimension (p,p)) et ensuite les variables (Z = XDX' de dimension (n,n)). corrélation variables/axes

),('1

1i

in

i j

jijiii Fjcor

F

ns

ttFXG α

α

αα

αα λλ

=

−== ∑

=

Donc, la coordonnée d'une variable sur un axe est le coefficient de corrélation de cette variable avec cet axe. Cette représentation est ainsi appelée "cercle des corrélations".

Page 21: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 21 -

Fin cours 3 (2 h) Lien vers application

Page 22: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 22 -

3.6. Compléments et interprétations Individus supplémentaires et variables illustratives

X

XVI+

XIS+ Individus supplémentaires Il est possible d'ajouter des individus dans la représentation graphique (par exemple des femmes si l'analyse initiale traitait des hommes, les régions si l'on traitait des départements, etc.). Pour ce faire, il faut positionner l'individu supplémentaire par rapport au centre de gravité du nuage et diviser les coordonnées par les écarts-types :

j

jISijIS

ij s

ttx

−=

++

Les coordonnées des individus supplémentaires (regroupés dans la matrice XIS+) sont alors trouvées par projection sur les vecteurs propres :

αα uXF ISIS ++ =

Variables illustratives continues Il peut s'agir alors d'enrichir l'analyse par des indicateurs qui vont venir expliquer davantage les résultats obtenus. On procède alors de manière similaire:

+

+++ −

=VIj

VIj

VIijVI

ijs

ttx

Les coordonnées des variables illustratives (regroupés dans la matrice XVI+) sont alors trouvées par projection sur les vecteurs propres :

αα uXG VIVIS )'( ++ =

Page 23: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 23 -

Variables illustratives nominales Il est également possible de faire figurer des variables illustratives nominales (hors programme du Master). Règles d'interprétation Pour les individus (dans un espace à p dimensions) : "La représentation des individus sur les axes factoriels fournit la meilleure visualisation approchée des distances entre les individus. […]Les proximités entre individus s'interprètent en termes de similitudes de comportement vis-à-vis des variables. " Par construction, le centre du graphique des individus représente les valeurs moyennes de chaque variable, c'est-à-dire le profil de l'individu moyen (ou profil moyen) En conséquence, plus un individu est éloigné du centre, plus il va présenter un profil différent du profil moyen : on parle alors de profils marginaux. Pour les variables (dans un espace à n dimensions) : "La représentation des variables sur les axes factoriels fournit une synthèse graphique de la matrice des corrélations. […] Les proximités entre variables [s'interprètent] en termes de corrélations. Il faut bien se garder d'interpréter la distance séparant un point-variable d'un point-individu car ces deux points ne font pas partie d'un même nuage dans un même espace : la superposition de ces deux plans factoriels est dénuée de sens1." Pour les individus et les variables Si la superposition des deux graphiques initiaux est dénuée de sens (cf. supra), elle devient possible si l'on ne s'intéresse plus aux points-variables mais aux directions des variables. Pour ce faire, on représente les anciens axes unitaires (les p variables du début de l'analyse) qui, pour la variable j, s'écrivent :

1 2 … j … p ej' = (0 0 … 1 … 0)

On traite alors la matrice EAAU+ des anciens axes unitaires comme individus supplémentaires. Les coordonnées de ces anciens axes unitaires dans l'espace à n dimensions sont données par :

αα uEF AAUAAU ++ =

1 Souligné par moi.

Page 24: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 24 -

∇∇∇∇ : Ces vecteurs sont, par définition, orthogonaux deux à deux ce qui distingue le graphique obtenu du précédent graphique des variables.

∇∇∇∇ : Les deux nuages ne coïncident pas : ils diffèrent par une dilatation de αλ . Ils

néanmoins des allures très voisines.

∇∇∇∇ : Les individus situés dans le voisinage de la direction d'une variable prennent des valeurs supérieures à la moyenne de cette variable ; les individus situés dans le voisinage de la direction opposée prennent des valeurs inférieures à la moyenne de cette variable. Les CONT décrivent les contributions des individus à l'inertie des axes

11

2

=

=

∑=

n

ii

ii

i

CONTavec

Fm

CONT

α

αα

α λ

Par construction, les individus les plus contributeurs sont excentrés. Les cosinus carrés (cos²) décrivent les qualités de représentation des individus

2

22

i

ii

X

FCOS α

α =

Un COS² proche de 0 implique une mauvaise représentation de l'individu. Un COS² proche de 1 implique une bonne représentation de l'individu. Les deux individus i et j suivant ont la même projection ; mais i est loin du plan (sa projection est éloignée de sa position réelle), alors que i est proche du plan (sa projection est donc représentative de sa position réelle).

Page 25: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 25 -

En conséquence, un individu dont la projection est loin du centre sera bien représenté, alors qu'un individu dont la projection est proche du centre est soit un individu moyen bien représenté, soit un individu marginal mal représenté. "Effet taille" Il arrive parfois que toutes les variables soient situées d'un même côté du cercle des corrélations. Cela fait état d'une corrélation entre toutes les variables, i.e. elles prennent toutes des valeurs plus élevées (respect. faibles) que la moyenne en même temps. Nous sommes alors en présence de "grands" individus et de "petits" individus, d'où l'expression "effet taille". Pour annihiler cet effet, on peut :

- faire la lecture sur le plan suivant (axe2-axe3 et non plus axe1-axe2) : mais alors les corrélations seront beaucoup plus faibles ;

- refaire l'analyse en s'intéressant par exemple à la structure du profil des individus (lorsque cela est possible), notamment en exprimant la structure en pourcentage. Il convient alors de pondérer les individus pour respecter la structure du profil moyen.

i

j

Page 26: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 26 -

3.7. Résumé Toutes les analyses factorielles contiennent une étape de diagonalisation de matrice. En fonction du type de tableaux que l'on doit analyser et de la façon dont on veut l'analyser, la matrice à diagonaliser est différente. Son élaboration est intimement liée à la manière dont on mesure les distances dans les espaces concernés (i.e. la métrique utilisée). Dans l'analyse en composantes principales, cette métrique est la distance euclidienne entre les individus pris deux à deux.

Page 27: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 27 -

Etape Formalisation

Matrice initiale M

Variable 1 … Variable j … Variable p Individu 1 … Individu i tij … Individu n

Réduction et centrage de M : matrice centrée réduite X

Variable 1 … Variable j … Variable p Individu 1 … Individu i xij … Individu n

Calcul de X'DX (généralement, n>p)

Diagonalisation de la matrice d'inertie

X'DX u = λu

Relations de transition

Fαi = Xiuα et

ii

ii

ii FX

m

mG α

αα λ

'∑

=

Représentation graphique

Individus supplémentaires et variables illustratives

X

XVI+

XIS+

αα uXF ISIS ++ = et αα uXG VIVIS )'( ++ =

X' X'D X'DX

D X

x x x x x x x x x x x

Page 28: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 28 -

Représentation simultanée

αα uEF AAUAAU ++ =

Interprétation

11

2

=

=

∑=

n

ii

ii

i

CONTavec

Fm

CONT

α

αα

α λ 2

22

i

ii X

FCOS α

α =

x x x x x x x x x x x

Page 29: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 29 -

3.8. Exemples Une analyse factorielle a été réalisée sur un tableau du fichier SINE qui donne la répartition géographique et sexuée de la part de chaque principal mobile de création d’entreprise.

Page 30: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 30 -

ANALYSE EN COMPOSANTES PRINCIPALES STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES EFFECTIF TOTAL : 22 POIDS TOTAL : 124713.00 +-------------------------------------------------- -----+----------------------+---------------------- + | NUM . IDEN - LIBELLE EFFECTIF PO IDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM | +-------------------------------------------------- -----+----------------------+---------------------- + | 2 . idée - idée nouvelle 22 124713 .00 | 0.11 0.01 | 0.08 0.16 | | 3 . goût - goût d'entreprendre 22 124713 .00 | 0.39 0.02 | 0.34 0.44 | | 4 . oppo - opportunité 22 124713 .00 | 0.22 0.01 | 0.19 0.24 | | 5 . exem - exemple de l'entoura 22 124713 .00 | 0.07 0.01 | 0.05 0.09 | | 6 . sans - sans emploi, a chois 22 124713 .00 | 0.16 0.01 | 0.13 0.20 | | 7 . sans - sans emploi, a été c 22 124713 .00 | 0.05 0.01 | 0.03 0.06 |

Page 31: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 31 -

D'après un sondage IPSOS, Télérama, mai 2002. Le sondage suivant donne en pourcentage les intentions de votes des lecteurs de différents journaux.

LAG

UIL

LER

BE

SA

EN

OT

HU

E

JOS

PIN

TA

UB

IRA

CH

EN

EN

EM

EN

T

MA

ME

RE

LEP

AG

E

SA

INT

-JO

SS

E

BA

YR

OU

MA

DE

LIN

CH

IRA

C

BO

UT

IN

ME

GR

ET

LE P

EN

BLA

NC

S/N

ULS

TO

TA

L

La Croix 0 2 2 3 2 2 4 5 3 20 2 29 8 2 14 2 100

La Figaro 2 2 0 7 1 2 1 3 1 8 9 35 3 3 22 1 100

Libération 6 8 3 40 5 5 10 0 1 2 2 9 0 0 7 2 100

Le Monde 5 6 2 25 3 5 7 2 1 5 4 18 1 2 12 2 100

Le Parisien 4 3 4 12 2 4 6 1 1 6 2 23 2 2 26 2 100

Le Canard Enchaîné 8 7 5 26 2 7 9 2 4 4 4 8 0 2 10 2 100

L'Express 4 2 1 15 2 4 5 2 3 8 9 21 1 5 16 2 100

Marianne 6 6 2 19 3 14 4 2 3 10 5 9 1 3 10 3 100

Le Nouvel Observateur 4 7 2 35 3 5 8 1 1 6 3 14 1 0 9 1 100

Paris Match 4 2 1 15 0 2 2 2 3 7 4 29 2 2 22 3 100

Télérama 4 8 5 28 4 7 13 2 0 10 3 9 2 0 3 2 100

Le Point 2 2 1 7 3 2 1 2 1 8 9 41 2 1 16 2 100

Une ACP effectuée sur ce tableau donne les graphiques suivants :

Page 32: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 32 -

Page 33: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 33 -

Page 34: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 34 -

Du fichier SINE a été extrait un tableau donnant par région et par motif le pourcentage de nouvelles entreprises de l'industrie créées en 1994 ayant en 1997 des liens de coopération avec d'autres entreprises. Plusieurs motifs pouvant être invoqués, le pourcentage total est supérieur à 100 %. Du reste, le total est traité en variable supplémentaire.

Graphique des individus

Page 35: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 35 -

Cercle des corrélations

Statistiques sommaires des variables continues Libellé de la variable Moyenne

achat 7,762

aucun lien de coopération étroit avec des entreprises 76,619

conception de biens ou de services 7,381

finance 1,762

gestion 2,571

production de biens ou de services 3,857

publicité 2,524

vente 5,762

Total 108,238

Page 36: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 36 -

Matrice des corrélations

achat

aucun lien de

coopération étroit avec

des entreprises

conception de biens

ou de services

finance gestion

production de biens

ou de services

publicité vente

achat 1,00

aucun lien de coopération étroit avec des entreprises

-0,36 1,00

conception de biens ou de services

-0,15 -0,51 1,00

finance 0,11 -0,43 0,32 1,00

gestion 0,02 -0,59 0,13 0,07 1,00

production de biens ou de services

0,33 -0,52 0,17 0,45 0,01 1,00

publicité 0,37 -0,27 -0,07 0,51 -0,27 0,51 1,00

vente -0,36 -0,31 0,12 0,14 0,28 0,23 0,15 1,00

Tableau des valeurs propres

Numéro Valeur propre

1 2,7779 2 1,7617 3 1,2215 4 0,9773 5 0,5745 6 0,4009 7 0,2067 8 0,0796

Somme 8,0000

Page 37: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 37 -

4. Passons maintenant à l'analyse de tableaux de va riables qualitatives…

4.1. L'analyse des correspondances (croisement de d eux variables qualitatives)

Analyse dédiée à des tableaux croisant 2 variables qualitatives (couleur des cheveux x couleur des yeux) Tableau de contingence

Variable 2 Modalité 1 Modalité 2 Modalité 3

Profil moyen

Modalité 1 k11 k12 k13 k1. Modalité 2 k21 k22 k23 k2. Modalité 3 k31 k32 k33 k3.

Variable 1

Modalité 4 k41 k42 k43 k4. Profil moyen k.1 k.2 k.3 n

L’analyse des correspondances va consister à étudier la répartition de chaque classe de la variable 1 suivant les modalités de la variable 2 (et inversement). On parle alors de profils lignes (lorsqu’on étudie les classes de la variable 1) et de profils colonnes (lorsqu’on étudie les classes de la variable 2). Tableau des fréquences tel que fij = kij/n

Variable 2 Modalité 1 Modalité 2 Modalité 3

Profil moyen

Modalité 1 f11 f12 f13 f1. Modalité 2 f21 f22 f23 f2. Modalité 3 f31 f32 f33 f3.

Variable 1

Modalité 4 f41 f42 f43 f4. Profil moyen f.1 f.2 f.3 1

Tableau des contributions

Variable 2 Modalité 1 Modalité 2 Modalité 3

Modalité 1 Modalité 2

Modalité 3 ( )

ji

jiijij ff

fffc

−=

Variable 1

Modalité 4

Page 38: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 38 -

Les fortes valeurs sont intéressantes, puisqu'elles dénotent une valeur "inattendue" par rapport à la structure générale du tableau ; en lecture rapide de tableaux, les raisons de ces fortes valeurs sont à étudier. Profils lignes tel que fij/fi. = kij/ki.

Variable 2 Modalité 1 Modalité 2 Modalité 3

Masse

Modalité 1 f11/f1. f12/f1. f13/f1. 1 Modalité 2 f21/f2. f22/f2. f23/f2. 1 Modalité 3 f31/f3. f32/f3. f33/f3. 1

Variable 1

Modalité 4 f41/f4. f42/f4. f43/f4. 1 Les profils-lignes donnent, pour chaque modalité de la variable 1, la répartition des modalités de la variable 2. Profils colonnes f.j/f.j = k.j/k.j

Variable 2 Modalité 1 Modalité 2 Modalité 3

Modalité 1 f11/f.1 f12/f.2 f13/f.3 Modalité 2 f21/f.1 f22/f.2 f23/f.3 Modalité 3 f31/f.1 f32/f.2 f33/f.3

Variable 1

Modalité 4 f41/f.1 f42/f.2 f43/f.3 Masse 1 1 1

Les profils-colonnes donnent, pour chaque modalité de la variable 2, la répartition des modalités de la variable 1.

Page 39: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 39 -

La représentation des profils-lignes et des profils colonnes est intéressante Ils donnent la structure de répartition des lignes (respectivement des colonnes)

Cas d'une variable continue classée

Cas d'une variable nominale ordonnée

Cas d'une variable nominale quelconque

Page 40: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 40 -

Tableau des fréquences théoriques Les deux variables sont indépendantes si :

fij = fi. f.j Alors, pour chaque modalité de la variable 1, le produit de la fréquence de chaque modalité de la variable 2 par la fréquence de la variable 1 est constant. Réciproquement, pour chaque modalité de la variable 2, le produit de la fréquence de chaque modalité de la variable 1 par la fréquence de la variable 2 est constant.

Variable 2 Modalité 1 Modalité 2 Modalité 3

Profil moyen

Modalité 1 f1. f.1 f1. f.2 f1. f.3 f1. Modalité 2 f2. f.1 f2. f.1 f2. f.3 f2. Modalité 3 f3. f.1 f3. f.1 f3. f.3 f3.

Variable 1

Modalité 4 f4. f.1 f4. f.1 f4. f.3 f4. Profil moyen f.1 f.2 f.3 1

Le cœur de l'AFC est de représenter les similitudes entre les différentes modalités d'une même variable, c'est-à-dire à représenter les proximités entre les profils et le profil moyen. Il faut donc considérer le nuage centré sur son centre de gravité. Le nuage des n lignes dans l'espace des p colonnes

• Comme 11 .

=∑=

p

j i

ij

f

f, le nuage est même situé dans un sous-espace à p-1 dimensions

• Le centre (de gravité) du nuage de points composé des f.j Le nuage des p colonnes dans l'espace des n lignes

• Comme 11 .

=∑=

n

i j

ij

f

f, le nuage est même situé dans un sous-espace à n-1 dimensions

• Le centre (de gravité) du nuage de points composé des fi.. Exemple avec 3 variables initiales : le nuage de points est contenu dans un espace à 2 dimensions, centré sur le centre de gravité G.

Page 41: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 41 -

Le vecteur propre associé à la plus grande valeur propre (1 par construction) concerne la direction qui sépare l'origine du centre de gravité (information qui peut être négligée) ; les vecteurs propres associés aux valeurs propres suivantes sont les seuls qui apportent une information relative aux positions relatives des points entre-eux.

G

V3

V2 V1

u2

u3

1

1

1V1

V2

V3

G u1

Page 42: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 42 -

Quelle distance utiliser ?

• La distance euclidienne entre des points-lignes (respectivement colonnes) réalisée dans un tableau de données brutes traduirait la différence d'effectif entre deux modalités de la variable 1 (respectivement variable 2).

• La distance euclidienne entre profils-lignes (respectivement colonnes) traduirait bien la

ressemblance entre deux modalités de la variable 1 (respectivement variable 2) sans tenir compte des effectifs totaux de ces deux modalités. Mais cette distance favorise les colonnes qui ont une fréquence élevée.

Pour palier cela, on pondère chaque écart par l'inverse de l'effectif de la colonne (profils-lignes) ou de la ligne (profils-colonnes). Cette distance est appelée distance du χ² :

( ) ∑=

−=

p

j i

ji

i

ij

j f

f

f

f

fiid

1

2

'.

'

..

2 1',2χ pour les profils-lignes

( ) ∑=

−=

n

i j

ij

j

ij

i f

f

f

f

fjjd

1

2

'.

'

..

2 1',2χ pour les profils-colonnes

Propriétés de la distance du χ²

• Equivalence distributionnelle : on peut agréger deux modalités d'une même variable sans changer les distances entre modalités de cette variable, ni aux distances entre modalité de l'autre variable (on peut par exemple agréger les départements d'une même région)

• Relations quasi-barycentriques : les modalités de la variable 1 sont des centres de

gravité pour les modalités de la variable 2 prises ensemble, et réciproquement. En d'autres termes, l'ensemble des modalités de la variable 2 est contenu dans "l'enveloppe" des modalités de la variable 1, et réciproquement

Page 43: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 43 -

Notations

nD matrice des marges-lignes

0 f i. 0

1−nD inverse de nD

0 1/fi. 0

pD matrice des marges-colonnes

0 f.j 0

1−pD inverse de pD

0 1/f.j 0

F matrice des fréquences

fij fi. f.j 1

Page 44: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 44 -

Analyse du nuage des points-lignes

321

876

utiliséemétriquelapourunitairevecteur

p

i

lignesdesfréquences

lesparpondérée

originelàrapportpar

uaxelsursprojectiondes

dudistance

iu

uDucs

OidfMax

1

'

'

2.

'..

),(

2

2

χ

χ

∇∇∇∇ : On pondère les modalités par leurs fréquences afin de ne pas privilégier les classes de faible effectif. Cela revient à résoudre le programme :

( ) ( )

( ) ( ) ( )

==

−−−−−−

−−

321

43421321

utiliséemétriquelapourunitairevecteur

p

pnppnp

colonnesprofilsdesTransposée

p

Métrique

n

colonnesofils

p

uDucs

uFDDFDuuFDDFDuuFDDFDuMax

1

11111111

Pr

1

'..

''''''''

En excluant la valeur propre triviale unitaire (analyse par rapport au barycentre), cela revient à diagonaliser la matrice :

11' −−= pn FDDFS

de terme général :

∑=

=n

i ji

ijijjj ff

ffs

1 '..

''

Page 45: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 45 -

Analyse du nuage des points-colonnes

321

876

utiliséemétriquelapourunitairevecteur

n

j

colonnesdesfréquences

lesparpondérée

originelàrapportpar

uaxelsursprojectiondes

dudistance

jv

vDvcs

OjdfMaxMa

1

'

'

2.

'..

),(

2

2

χ

χ

Cela revient à résoudre le programme :

( ) ( )

( ) ( ) ( )

==

−−−−−−

−−

321

321321

utiliséemétriquelapourunitairevecteur

p

npnnpn

lignesprofilsdesTransposée

n

Métrique

p

lignesofils

n

vDvcs

vDFFDDvvDFDFDvvFDDFDvMax

1

11111111

Pr

1

'..

''''''

En excluant la valeur propre triviale unitaire (analyse par rapport au barycentre), cela revient à diagonaliser la matrice :

11 ' −−= np DFFDT

de terme général :

∑=

=p

j ij

jiijii ff

fft

1 '..

''

Page 46: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 46 -

Résumé

Dans Rp Dans Rn 11' −−= pn FDDFS Matrice à

diagonaliser 11 ' −−= np DFFDT

Suα = λαuα Axes factoriels Tvα= λαvα

∑=

−−

=

=p

jj

ji

iji

pn

uff

f

uFDD

1 ..

11

αα

αα

ψ

ψ Coordonnées

factorielles ∑=

−−

=

=n

ii

ji

ijj

np

vff

f

vDFD

1 ..

11 '

αα

αα

ϕ

ϕ

ii

i

n

n

vf

vD

vDFu

αα

α

ααα

αα

α

λψ

λψ

λ

.

1

1'1

=

=

=

Relations de transition

jj

j

p

p

uf

uD

uFDv

αα

α

ααα

αα

α

λϕ

λϕ

λ

.

1

11

=

=

=

∑=

=p

jj

i

iji f

f

1 .

αα ϕ

λψ Relations quasi-

barycentriques ∑=

=n

ii

j

ijj f

f

1 .

αα ψ

λϕ

∑=

+

++ =

p

jj

i

iji k

k

1 .

αα ϕ

λψ Eléments

supplémentaires ∑=

+

++ =

n

ii

j

ijj k

k

1 .

αα ψ

λϕ

α

αα λ

ψ 2.)( iifiCr = Contributions

α

αα λ

ϕ 2.)( jjf

iCr =

),()(

2

22

2 GidiCos i

χ

αα

ψ= Cosinus carrés

),()(

2

22

2 GjdjCos i

χ

αα

ϕ=

Généralement, les matrices S et T ne sont pas symétriques : il faut donc les "symétriser" A la place de S, on diagonalise 2/112/1 ' −−−= pnp DDFDA , c'est-à-dire on calcule Aw=λw. Ces

matrices ont les mêmes valeurs propres ; on montre que wDu p2/1−= .

De même, on ne diagonalise par T mais 2/112/1 −−−= npn DFDDB c'est-à-dire on calcule Bz=λz.

Ces matrices ont les mêmes valeurs propres ; on montre que zDv n2/1−= .

Les relations barycentriques nous indiquent que les projections des points d'un nuage sont les barycentres des projections des points de l'autre nuage : les coordonnées d'une modalité i d'une variable sont les moyennes des coordonnées des modalités j de l'autre variable pondérées par les fréquences conditionnelles du profil de la modalité i. On peut donc trouver les positions des points d'un nuage à partir des positions des points de l'autre nuage

Page 47: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 47 -

Ce sont ces relations qui permettent de trouver les positions des éléments (colonnes ou lignes) supplémentaires. Bien souvent, lorsque les variables sont ordonnées, un effet "Guttman" apparaît Il désigne une certaine redondance entre les variables impliquées : un axe (souvent le premier), oppose alors les valeurs extrêmes de ces variables

Page 48: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 48 -

4.2. L'analyse des correspondances multiples (crois ement de nombreuses variables qualitatives)

On considère ici un nuage de points dont les coordonnées sont présentées dans un tableau R du type : Tableau de données condensées R

Variable 1 Variable 2 … Variable q … Variable s Individu 1 … Individu 2 … … … Individu i … … … riq … … … … Individu n … Le terme riq désigne la modalité de la question q choisie par l'individu i. Un tel tableau est inexploitable tel quel (les sommes des lignes ou des colonnes n'ont pas de sens) ; il faut recoder les variables pour former le tableau disjonctif complet Z (ou tableau logique). Tableau disjonctif complet Z

Var 1 … Var q ... Var y

Mod 11 … Mod

1r … Mod

1a

Mod q1 … Mod qr … Mod

qb

Mod y1 … Mod

yr … Mod

yc Individu 1 … Individu 2 … … …

Individu i …

… … … … …

… = 1 si cette

modalité est

choisie, 0 sinon

.… …

… …

… …

… … Individu n …

Page 49: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 49 -

Pour un individu et une variable donnés, la ligne ne contient que des 0 sauf pour la modalité choisie :

ΣΣΣΣ … Variable q Modalité r de la variable q …

Individu i …

==

sinon

choisieestmodalitélasi

0

1 …

Nombre de

variables …

ΣΣΣΣ Nombre d'individus ayant

choisi cette modalité

Faire une analyse des correspondances multiples revient à faire une analyse des correspondances sur un tableau disjonctif complet. Tableau de Burt B Le tableau de Burt associé au tableau disjonctif complet Z est défini par :

B = Z'Z, de taille (p,p)

de terme général ∑=

=n

iijijjj zzb

1''

Modalités

de la variable 1

Modalités de la

variable 2

Modalités de la

variable 3 0 0 0 0

Modalités de la

variable 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Modalités de la

variable 2

0 0 0 0 0 0 0 0

Modalités de la

variable 3 0 0 Ce tableau croise deux à deux toutes les modalités ; chaque cellule donne le nombre d'individus présentant à la fois la modalité j et la modalité j' :

Page 50: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 50 -

• La diagonale donne le nombre d'individu présentant la modalité j (ou j' puisque j = j') ;

• Les sous-matrices diagonales ne sont donc composées que de zéros, sauf sur leur première diagonale.

A partir du tableau de Burt, on construit la matrice diagonale D, qui ne comporte que des zéros sauf sur sa première diagonale où figurent les éléments diagonaux de B :

Modalités

de la variable 1

Modalités de la

variable 2

Modalités de la

variable 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Modalités de la

variable 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Modalités de la

variable 2

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Modalités de la

variable 3 0 0 0 0 0 0 0 0 0 0 On conserve la distance du χ² qui a ici encore du sens

• La distance entre deux modalités s'écrit :

2

1 .

'

.

2

')',(2 ∑

=

−=

n

i j

ij

j

ij

z

z

z

znjjdχ

Si chaque individu a choisi les modalités j et j' ensemble, alors zij = zij' et 0)',(22 =jjdχ .

D'autre part, les modalités avec des effectifs faibles sont éloignées les unes des autres.

• La distance entre deux individus s'écrit : ( )2

1'

.

2 1)',(2 ∑

=

−=p

jjiij

j

zzz

n

siidχ

avec s le nombre de variables. Si les individus i et i' ont choisi les mêmes modalités, alors zij = zi'j et .0)',(2

2 =iidχ

Page 51: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 51 -

Notations

nD nIn

1

nf ij

i

δ=.

1−nD

inverse de nD

(métrique de la distance du χ²)

iji

nf

δ=. si i =j

0 sinon

pD Dns

1

ns

zf j

ijj.

. δ=

1−pD inverse de pD

jijj z

nsf

.. δ

= si i=j

0 sinon

F Zns

1

ns

zf ij

ij =

avec δij = 1 si i=j, 0 sinon. Résumé

Dans Rp Dans Rn 111 '

1' −−− == ZDZ

sFDDFS pn Matrice à

diagonaliser '

1' 111 ZZD

sDFFDT np

−−− ==

1'1 −ZDZs

uα = λαuα Axes factoriels '1 1ZZDs

− vα = λαvα

ααα ψλψ =− ZZDs

'1 1 Coordonnées

factorielles ααα ϕλϕ =− '1 1ZZDs

αα

α ϕλ

ψ '1 1ZDn

−= Relations de transition

αα

α ψλ

ϕ Zs

1=

∑=

=p

jj

i

iji z

z

1 .

αα ϕ

λψ Relations quasi-

barycentriques ∑=

=n

ii

j

ijj z

z

1 .

αα ψ

λϕ

∑=

+

++ =

p

jj

i

iji k

k

1 .

αα ϕ

λψ Eléments

supplémentaires ∑=

+

++ =

n

ii

j

ijj k

k

1 .

αα ψ

λϕ

α

αα λ

ψ 2.)( iifiCr = Contributions

α

αα λ

ϕ 2.)( jjf

iCr =

),()(

2

22

2 GidiCos i

χ

αα

ψ= Cosinus carrés

),()(

2

22

2 GjdjCos i

χ

αα

ϕ=

Page 52: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables qualitatives…

Jean-Louis Girard - 52 -

∇∇∇∇ : Notons qu'il est également possible d'introduire des variables illustratives continues sans les découper en classes, en calculant le coefficient de corrélation entre des variables et les axes.

∇∇∇∇ : l'inertie d'une modalité est égale à

−=

n

z

sjI j.1

1)( ; elle est d'autant plus grande que

l'effectif dans cette modalité est faible, d'où l'attention à porter lors du codage à ne pas construire des classes de faibles effectifs qui troubleraient le calcul des axes : on s'arrange souvent pour faire des classes d'effectifs proches (par équivalence distributionnelle).

L'inertie d'une question est donc ( )∑=

−==qp

jqp

sjIqI

1

11

)()( ; elle est d'autant plus grande que le

nombre de modalités est élevé, d'où l'attention à porter dans le système de questions à l'équilibre du questionnaire. Règles d'interprétation

• Proximité entre individus en termes de ressemblances : les individus ayant choisi globalement les mêmes modalités seront situés à proximité les uns des autres ;

• Proximité entre modalités de variables différentes : les modalités choisies globalement

ensemble par les mêmes individus seront situées à proximité les unes des autres ;

• Proximités entre modalités d'une même variable : par construction, les modalités d'une même variable s'excluent les unes des autres : si elles apparaissent proches, cela signifie une certaine ressemblances des profils des individus qui les ont choisies.

• Il est intéressant de calculer la contribution d'une variable afin d'obtenir un indicateur

de liaison entre les variables et les axes.

Page 53: Ingénierie de l'analyse des donnéesyassinesegc.e-monsite.com/medias/files/cours.pdf · Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956) 1.1. Les Egyptiens antiques savaient-ils

Ingénierie de l'analyse des données - Compléments

Jean-Louis Girard - 53 -

5. Compléments

5.1. Quelques algorithmes de diagonalisation Cf. TD

5.2. Et les autres directions d'allongement ? Généralement (!) le nuage s'étire dans plusieurs directions. Comment les traiter ? On procède à la déflation de la matrice, c'est-à-dire qu'on lui ôte sa plus grande dimension (cela revient à "enrouler" le nuage de points sur sa plus grande dimension). Pour cela, on appelle "matrice déflatée" la matrice Vd = V - λuu'. On réitère le processus (maximisation de l'inertie + déflation de la matrice) autant de fois que nécessaire pour trouver l'ensemble des valeurs et vecteurs propres.