Analyse en composantes principales, ACP, sous SPSS (Principal Component Analysis, PCA)

Prof. Adad Mohamed Chérif

Domaines d’intérêt: architecture, urbanisme, spss, VBA, électronique pratique.

Université d’Oum El Bouaghi, Algérie

Faculté des sciences de la terre et de l’architecture

2017

Traitement des données

Traitement univarié

Traitement bivarié

Traitement multivarié

Les variables sont traitées une par une

rechercher l’interaction

entre 2 variables

Rechercher la liaison simultanée entre plus de

deux variables Et fournir une

information synthétisée

S

i

g

n

i

f

i

e

DÉFINITION ET OBJECTIFS Analyse en composantes principales (ACP) est une analyse statistique

descriptive multivariée qu’on applique à un ensemble de variables initiales qu’ on veut réduire en quelques facteurs ou composantes (nouvelles variables). . Ces derniers sont aussi appelés axes. Elle consiste à synthétiser les données issues d’un croisement entre plusieurs variables numériques. ACP vise à identifier le grand nombre de variables initiales ou les items présentant un coefficient de corrélation relativement important qui peuvent être regroupés entre eux en vue de faciliter leur interprétation et leur donner un sens .

On peut aussi utiliser l’ACP pour détecter les variables redondantes afin de simplifier le recueil des données .

Aussi, l’ACP traite les n variables d’un questionnaire en même temps dans un espace à deux ou trois dimensions, afin d'identifier des groupes homogènes d'observations, ou au contraire des observations atypiques.

ACP représente graphiquement les données par rapport à ces facteurs sous forme d’axes. Ces représentations graphiques sont du type nuage de points .

Méthode statistique

descriptive multidimensionnelle

Méthode factorielle

Facteurs qui remplacent les variables initiales

Nombre données en déformant le moins

possible la réalité

Recherche

est

Réduit

L’APC est une analyse qui s’intéresse à un nombre important de variables continues qui ne devront pas être obligatoirement distribuées selon la lois normale.

L’ACP permet donc de réduire les variables initiales en un petit nombre de variables tout en conservant un maximum d’information. Ces variables initiales sont appelées « métriques ».

Dans ce type d’analyse, il n’y a pas de variable dépendante ou indépendante préalablement identifiée. Aussi, aucune vérification de l’hypothèse nulle est exigée.

Dans le monde de l'ACP les données sont appelées inertie .

Caractéristiques

Conditions d’utilisation de l’ACP

En réalité, il y a

toujours une condition

qui n’est pas vérifiée,

Cependant il y a

souvent une solution

pour à cela.

Utilisation de variables quantitatives continues et les variables qualitatives ordinales.

Relation linéaire entre les variables ( CPA est basée sur la corrélation de Pearson)

Sauf pour les variables ordinales

Adéquation de l’échantillonnage : pour assurer une puissance statistique minimale.

Un minimum de 150 cas, soit 5 à 10 cas par variable, a été recommandé comme taille minimale de l'échantillon

La mesure Kaiser-Meyer-Olkin tend vers 1

0,50 et moins est misérable • entre 0,60 et 0,70, c’est médiocre • entre 0,70 et 0,80 c’est moyen • entre 0,80 et 0,90 c’est méritoire • et plus 0,9 c’est très bon .

Les données devraient être adaptées à la réduction des données (test de Bartlett de la sphéricité )

Ce test doit être très significatif < 0.05

Entre 0.05 et 0.10 acceptable et au dessus de 0.10, rejeté.

Formuler le problème

Lancer l’ACP sur SPSS

Calcul la matrice de corrélations et vérifier si les données sont-elles factorisables

Extraire les facteurs et déterminer leur nombre

Objectifs de l’étude

Variables de l’étude

Echelle

Taille de l’échantillon

Saisie des notes sur Spss

Test KMO Test Bartlett

• Variance totale expliquée

Matrice de composantes et Matrices des composantes après rotation

Diagramme de composantes dans l’espace après rotation

Interpréter les facteurs

Voyons notre cas d’étude Soit un échantillon de 30 étudiants en architecture 1 ère année pris au hasard et qui ont obtenu les notes /20 suivantes . L’objectif est d’analyser la corrélation entre les variables quantitatives au nombre de 7 qui sont ici les notes de: atelier, théorie de projet, dessin codifié, HCA, TMC, physique et math. Aussi, pour savoir si un changement dans une note pourrait affecter une autre.

Les notes des étudiants ne sont plus représentés dans un espace be-dimensionnel, mais dans un espace de dimension 7 (chaque étudiant étant caractérisé par ses 7 notes). Donc, l’objectif de l’ACP est de revenir à un espace de dimension réduite, ici à 2 dimensions) en déformant le moins possible la réalité. La finalité est de mettre en évidence le mieux les liaisons initiales entre les variables ou items. Cette méthode est basée sur la recherche des axes principaux d’un nuage de points [Benzecri, 1973]

Lançons maintenant le logiciel spss

Affichage des données

Affichage des variables

Saisie des données et saisie des variables

1

Ici toutes les données sont quantitatives continues (Mesure= Echelle), sauf Id qui est la nomination des étudiants et qui ne sont pas pris dans le calcul.

Pour mettre en œuvre l’ACP , il faut aller au menu : Analyse---Réduction des dimensions---- Analyse factorielle

Sélectionner toutes les variables sauf la variable « Nom des étudiants » puis les insérer dans la fenêtre « Variables »

1 2 Vers

Appuyer sur le bouton « descriptibles »

Dans la boite de dialogue « Analyse factorielle : caractéristiques » Sélectionner « coefficients » : elle va produire la corrélation de Pearson entre

les variables sur laquelle l’ACP est construite. Sélectionner « Indice KMO et test sphéricité de Bartlett , pour voir si les

données sont factorisables ou non , l'adéquation des échantillons pour mettre en œuvre l’ACP.

Appuyer sur « Poursuivre »

Appuyer sur le bouton « Extraction »

Dans la boite de dialogue « Extraction »

Choisir dans « Méthode » Composantes principales Cocher « Matrice de corrélation » (table de corrélation) Cocher « Structure factorielle sans rotation » Cocher « Diagramme des valeurs propres »,(scree plot) , qui produit le graphique de Kattell (1966)

qui est fondé sur la courbe décroissante des valeurs propres. Il s’agit de déterminer le nombre de composantes principales ou facteurs à extraire .

Dans «Basé sur la valeur propre » dans l’encadré « Extraire choisir la valeur 1, cela indique que tous

les axes avec une valeur propre (Eigenvalue) supérieure à 1 seront conservées . Il s’agit du critère de Kaiser

pris par défaut par le spss. C’est ici dans cet encadré qu’on peut préciser le nombre précis de composantes principales ou de facteurs .


Appuyer le bouton « Rotation » • Cocher « Varimax » C’est une rotation orthogonale : une approche pour produire une rotation orthogonale des facteurs . Cela signifie que la rotation Varimax aide à identifier la contribution des variables à la formation des axes factoriels ou composantes, ce qui facilite de tirer, d’une manière rapide et synthétique, des conclusions sur les dimensionnalités des variables. La rotation Varimax consiste à associer chacune des variables à un nombre réduit de facteurs et à représenter chaque facteur par un nombre limité de variables. Visuellement les variables sont rapprochées des axes auxquels elles contribuent de manière à en faciliter l’interprétation. http://www.lesphinx-developpement.fr/blog/tag/

• Cocher « structure après Rotation » • Cocher « Cartes factorielles » [loading plot(s)] pour montrer le nuage de points .


Boite de dialogue « Rotation »

Appuyer sur « Option » Boite de dialogue « Option »

Cocher « Classement des variables par taille » , cela signifie qu’on trie les composantes sur la base de la taille , cela facilitera la lecture et l’interprétation.


On clique à la fin sur ok pour entamer le traitement des données.

L’analyser des résultats d’une ACP, passe par la réponse à trois questions :

a. Les données sont-elles factorisables ? b. Combien de facteurs ou composantes à retenir ? c. Les résultats sont-ils interprétables ? La

corrélation entre les variables d’une part et entre les variables et les composantes d’autre part?

Analyse des résultats

Pour répondre à la 1ère question, il faut d’abord observer les corrélations des variables, puis l’indice de KMO (Kaiser-Meyer-Olkin) et enfin le test de sphéricité de Bartlett. Si l’ACP satisfait à au moins deux de ces trois conditions, il est possible de continuer notre interprétation. 1- Analysons la matrice de corrélation (Correlation Matrix ), pour estimer si les données sont-elles factorisables. Si plusieurs variables sont corrélées la factorisation est possible. Dans le cas contraire , on peut dire que la factorisation n ’est pas conseillée. Comme on peut le voir dans le table , on peut dire que beaucoup de variables sont corrélées et leurs coefficient s de Pearson sont assez élevés. De ce faite, dans notre exemple, la factorisation est possible. Les corrélations <0,3 ne sont pas prises en considération. Dès le début de l’analyse, dans la boite de dialogue «Option » on pouvait choisir dans « Valeur absolue inférieure à » 0, 3.

1- Les données sont-elles factorisables ?

2- Aussi, il convient d’observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit obligatoirement tendre vers 1. Si ce n’est pas le cas, la factorisation n’est pas plus possible . Ici KMO=0,658 , même si c’est médiocre, c’est un bon résultat.

Pour juger de l’indice de KMO:

0,50 et moins , c’est misérable

entre 0,60 et 0,70, c’est médiocre

entre 0,70 et 0,80, c’est moyen

entre 0,80 et 0,90, c’est méritoire

plus 0,9, c’est merveilleux.

Enfin, on utilise le test de sphéricité de Bartlett. : Dans notre cas sig=0,000, c’est très significatif. Si sig< 0,05, c’est significatif et rejeté si

sig <0,10.

• 1 ère règle: selon la règle de Kaiser seules les composantes aux valeurs propres (Eigenvalue) supérieures à 1 sont retenues .

2 ème règle: le nombre de composantes (appelées aussi axes) est choisi en fonction de la restitution minimale d’information désirée. On souhaite, par exemple, que notre ACP rétablie au moins 80% de l’information initiale.

22- Extraction des composantes principales (facteurs)

« Variance totale expliquée » ( Total variance explained)

3ème règle :le critère de kattel, il est basé sur le graphique scree plot qui représente en abscisse les composantes.et en ordonnée les valeurs propres

Test du coude (Scree-test ). On observe le graphique des valeurs propres et on ne retient que les composantes 1 et 2 qui se trouvent à gauche du point d’inflexion (le coude, point 3). Sur le plan graphique, on trace une droite qui rejoint les composantes(3,4,5,6,7) situées à droite . Ces composantes apportent le moins d’information et seules celles situées au dessus du coude sont maintenues.

un autre critère

1

2

Coude

4

6

7

5

3

Donc, le scree plot nous aide à déterminer le nombre de composantes principales qui nous fournissent un pourcentage non négligeable d’information . On peut revenir au bouton « extraction » et on fixe à 2 en « Nombre de facteurs à extraire » ou on force « Facteurs à extraire » à 2 dès le début de l’analyse .

Boite de dialogue « Extraction »

On revient encore une fois au table de « Variance totale expliquée ». Dans la

colonne « Total » qui indiquent les valeurs propres initiales (Initial Eigenvalues) ,

seules les valeurs propres supérieures à 1 (le critère de Kaiser ) sont retenues

(2,890 et 1,698). De ce fait , uniquement les composantes 1 et 2 sont maintenues.

Elles concentrent plus de variances que les variables initiales . Pour cela que les

1er et 2ème axes sont ceux qui restituent le maximum d’information. En d’autres

termes, ils représentent environ 65,552% de la variance totale parmi les 30 items.

Le 1er pour un pourcentage de 41,290 et le 2ème pour 24,262%. Ensemble les 2

composantes concentrent à elles seules 65,552 %. (dans la colonne cumulative % )

des informations apportées par les 7 variables de départ.

Cela signifie que la 1ère composante a une valeur propre de 2,890 et explique

environ 41,290 % de la variance, la 2ème composante à une valeur propre de 1,698

et explique 24,262% la variance .

3- Interprétation de l’analyse en composante principale

La table qualité de représentation (Communalities), la colonne

extraction de cette table , nous indique pour chaque variable la part de la variance

expliquée par la solution à 2 composantes. Si on parcoure les valeurs nous pouvons

dire que toutes les valeurs sont supérieures à 65,552 %. le niveau global de

variances. Seule la valeur de 0,142 sort du lot, cela indique que cette variable n’est corrélée à aucune autre variable.

Dans la matrice ci-contre, on peut le voir, les 2 composantes ont une corrélation égale à zéro. Elle montre les corrélations ( de -1 à +1) entre les variables et les composantes.

La 1ère composante principale est fortement corrélée avec quatre variables originales. Cette composante augmente avec l'augmentation de l'atelier, théorie de projet, dessin et HCA. Cela indique que ces quatre variables varient ensemble. Si l’une augmente, les trois autres ont tendance à faire la même chose. Donc, cette composante peut être considérée comme une mesure de l'atelier, théorie de projet, dessin et HCA. De plus, nous voyons que la première composante est la plus fortement corrélée avec la théorie de projet.

En fait, on pourrait affirmer que sur la base de la corrélation de 0,881 que cette composante principale est avant tout une mesure de la théorie de projet. Il s'ensuivrait que les valeurs élevées ont tendance à prouver que les étudiants travaillent beaucoup et assistent aux cours et participer activement aux différents débats sur l'architecture. Aussi, la grande valeur des corrélations montre clairement que l'atelier, théorie de projet, dessin et HCA sont des modules de base pour la 1ère année architecture et qu’il faut bien maitriser leurs contenus.

Interprétation des principales composantes est basée sur la recherche de variables qui sont le plus fortement corrélées avec chaque composante, c'est-à-dire quelles sont celles qui ont de grande valeur et les plus éloignés de zéro dans leur direction positive ou négative. Ici, une valeur de corrélation supérieure à 0,5 est jugée importante. Ces corrélations sont indiquées dans le table ci-contre.

Interprétation de l’analyse en composante principale (suite)

2ème composante principale

La deuxième composante principale augmente avec seulement deux variables: physique et mathématiques. On y constate que ces deux variables ont des saturations élevées sur le 2ème facteurs. Ces deux matières ne sont pas corrélées avec celles de la 1ère composante. Cela signifie qu’être bon en physique et mathématiques n’est pas toujours une preuve suffisante pour attester que cet étudiant est apte à être réceptif aux études en architecture.

Par contre, les deux variables sont bien corrélées et une augmentation de l’une entraine une augmentation de l’autre .

Interprétation de l’analyse en composantes principales (suite)

Chaque point représente une variable . Sur le diagramme on peut voir deux groupes de variables qui ne sont pas corrélés. Le 1er est constitué de l'atelier, théorie de projet, dessin et HCA et le 2ème de la physique et des mathématiques . Ces

derniers sont de grande valeur pour la 2ème composante principale . Aussi, les étudiants ont des bonnes notes dans les modules d’atelier, théorie de projet, dessin et. La variable TMC, pour la 2ème composante, occupe une position isolée du fait de sa très faible valeur et puis elle n’est corrélée à aucune variable .

Prof. Adad Mohamed chérif

Université d’Oum El Bouaghi Faculté des sciences de la terre et de l’architecture

Education

Analyse en composantes principales, ACP, sous SPSS (Principal Component Analysis, PCA)