14/11/2003
Analyse des structures sous-jacentes des données
Analyse factorielleAnalyse de correspondance
LISREL
M. DramaixLaboratoire de Statistique Médicale
Analyse factorielle
• OBJECTIFS– Réduire la dimension des données– Regrouper les variables « redondantes »
• COMMENT?– Recherche de la structure « cachée » :
construction de « facteurs »– réduction des données d’un grand nombre de
variables corrélées un plus petit nombre de facteurs non corrélés
Analyse factorielle
• Facteurs– « regroupent » les variables originales en
fonction de leurs « affinités »
Analyse factorielle
• Deux étapes
A. Extraction des facteurs. Méthode usuelle :
décomposition en composantes principales
B. Rotation des axes
Analyse factorielle
• Communauté– variance d’une variable : une partie partagée
avec les autres (variance commune) + une partie spécifique (variance unique) + erreur (variance aléatoire)
– proportion variance commune = communauté
Analyse factorielle
• Communauté– analyse factorielle variance commune– Comment la déterminer?
• On suppose : communauté de chaque variable = 1ANALYSE EN COMPOSANTES PRINCIPALES• on estime la communauté de chaque variable (R²)ANALYSE FACTORIELLE
Analyse factorielle
• Composantes principales / analyse factorielle– Composantes principales : données
ensemble de combili ’s des var. originales– Analyse factorielle estimation de facteurs– Solutions
• similaires si nb. var ≥ 30 et communautés > 0.7• ≠ si nb. var. < 20 et communauté < 0.4
Décomposition en composantes principales
• Bases– Matrice des données : n x p
• n = nb. sujets• p = nb. variables
– Décomposition de la matrice de données en r matrices (r ≤ p) d’importance décroissante
combien de matrices pour reconstituer la matrice originale?
Décomposition en composantes principales
• Bases– Variables centrées réduites on travaille
avec la matrice de corrélation– Les éléments des vecteurs propres de la matrice
de corrélation sont les pondérations des variables dans les combili ’s
– Les valeurs propres reflètent l’importance des composantes
Décomposition en composantes principales
• Communautés– initiales = 1
– après extraction • reflète la contribution des facteurs à la
reconstruction de chaque variable• = Σ carré des pondérations de la variable dans
chacun des facteurs extraits
Décomposition en composantes principales
• Valeurs propres– Σ carrés écarts entre la matrice X de données et
les matrices de reconstitutionEx. : 3 matrices = valeurs propres : λ1, λ2, λ3
matrice la + importante = X1λ2+λ3 = Σ carrés écarts entre X et X1
Σ carrés écarts entre X et X1 minimum
– = % de reconstitution de X∑j jλjλ
• Composantes - facteurs– Nb. composantes = nb. variables originales
– Composantes non corrélées entre elles
– L’objectif est de pouvoir décrire les données avec un nombre limité de facteurs : Réduction de la dimension des données
Décomposition en composantes principales
Décomposition en composantes principales
• Facteurs– A chaque facteur correspond une valeur propre
– Les facteurs sont classés en fonction de leur valeur propre
– Ces valeurs propres correspondent à une partie de variabilité expliquée
Décomposition en composantes principales
• Composantes - facteurs– Combien?
• Critère de Kaiser : facteurs avec valeur propre > 1• Scree plot (seuil nb. composantes = pt. inflexion) à
utiliser si n > 200• Jolliffe : valeurs propres > 0.7
• Critère de Kaiser recommandé si nb. var. < 30 et communauté moy. > 0.7 ou ≥ 0.6 et n > 250
Décomposition en composantes principales
• Composantes - facteurs– Rotation des axes
• Pourquoi : maximiser les pondérations de certains items
• Types– rotation orthogonale = varimax facteurs
indépendants– rotation oblique
Décomposition en composantes principales
• Composantes - facteurs– Rotation des axes
• choix :
– oblique si on suppose facteurs non indépendants à priori;
– dépend position des pts avant rotation;
– orthogonale raisonnable si corr. entre fact. après oblique faible
Décomposition en composantes principales
• Composantes - facteurs– Les variables avec les pondérations les +
importantes donnent le « sens », le « nom » du facteur
• Quelles variables?– pondération > 0.3 ou > 0.4– signification pondération dépend de n table
– pondération = corrélation Pearson entre la variable et le facteur
Décomposition en composantes principales
• Représentation graphique
– constituent les axes d’une représentation graphique où les variables peuvent être représentées
– les coordonnées d’une variable sur un axe sont les pondérations
Décomposition en composantes principales
• Facteurs - score factoriel
– Pour chaque facteur sélectionné et pour chaque sujet, on peut calculer un score factoriel
– On utilise le score factoriel comme une nouvelle variable
Analyse factorielle
• Facteurs - score factoriel– Calcul des scores
• moyenne pondérée : on multiplie les valeurs des variables par les pondérations respectives.
si les variables n’ont pas les mêmes unités
• régression : tient compte des corrélations initiales entre les variables
les scores à deux facteurs orthogonaux peuvent être corrélés
• Bartlett et Anderson-Rubin (à utiliser si on veut scores non corrélés)
Analyse factorielle
• Facteurs - score factoriel
– Utilité• nouvelle variable nombre de variables réduit
• peut résoudre les problèmes de colinéarité en analyse multivariable
Analyse factorielle
• Conditions d’applications– Type de variables : quantitatives - ± normales– Nombre de sujets : pas de consensus
• 5 x nb. variables et pas moins de 100 sujets• 10-15 sujets / var.• n = 300 OK• facteur fiable si au moins 4 pondérations > 0.6• facteur fiable si au moins 10 pondérations > 0. 4 et n
> 150• Si toutes les communautés > 0.6 : n < 100 OK
Analyse factorielle
• Problèmes– variables non corrélées à aucune autre les
ôter – éviter les corrélations quasiment parfaites– adéquation échant
• KMO (Kaiser=Meyer-Olkin) - mesure. Ok si > 0.5• Matrice anti-image : OK si diagonale > 0.5
Analyse factorielle
• Problèmes
– Test de sphéricité Bartlett (test : matrice corr. = matrice identité) doit être significatif
– Résidus = diff. entre corrélations obs. et prédites par modèle
Analyse de Correspondance
• Même principe que l’analyse factorielle pour des variables en catégories
• Décomposition de la matrice formée par les fréquences
• Utilisation du χ²
• LISREL = Linear Structural Relation
• Modèle général – à partir de variables observées, définir des
variables latentes (modèles de mesure)– établir des relations entre les variables latentes
= relations structurelles
LISREL
LISREL
• Type de variables – quantitatives– ordinales
• LISREL Analyse factorielle– Analyse factorielle = méthode exploratoire– LISREL = analyse factorielle confirmatoire
= test de modèles
Programme LISREL
• Analyse factorielle exploratoire
• Modèles de régression
• Multi-level
• Mesures répétées