Upload
adad-med-cherif
View
195
Download
7
Embed Size (px)
Citation preview
Prof. Adad Mohamed Chérif
Domaines d’intérêt: architecture, urbanisme, spss, VBA, électronique pratique.
Université d’Oum El Bouaghi, Algérie
Faculté des sciences de la terre et de l’architecture
2017
Traitement des données
Traitement univarié
Traitement bivarié
Traitement multivarié
Les variables sont traitées une par une
rechercher l’interaction
entre 2 variables
Rechercher la liaison simultanée entre plus de
deux variables Et fournir une
information synthétisée
S
i
g
n
i
f
i
e
DÉFINITION ET OBJECTIFS Analyse en composantes principales (ACP) est une analyse statistique
descriptive multivariée qu’on applique à un ensemble de variables initiales qu’ on veut réduire en quelques facteurs ou composantes (nouvelles variables). . Ces derniers sont aussi appelés axes. Elle consiste à synthétiser les données issues d’un croisement entre plusieurs variables numériques. ACP vise à identifier le grand nombre de variables initiales ou les items présentant un coefficient de corrélation relativement important qui peuvent être regroupés entre eux en vue de faciliter leur interprétation et leur donner un sens .
On peut aussi utiliser l’ACP pour détecter les variables redondantes afin de simplifier le recueil des données .
Aussi, l’ACP traite les n variables d’un questionnaire en même temps dans un espace à deux ou trois dimensions, afin d'identifier des groupes homogènes d'observations, ou au contraire des observations atypiques.
ACP représente graphiquement les données par rapport à ces facteurs sous forme d’axes. Ces représentations graphiques sont du type nuage de points .
Méthode statistique
descriptive multidimensionnelle
Méthode factorielle
Facteurs qui remplacent les variables initiales
Nombre données en déformant le moins
possible la réalité
Recherche
est
Réduit
L’APC est une analyse qui s’intéresse à un nombre important de variables continues qui ne devront pas être obligatoirement distribuées selon la lois normale.
L’ACP permet donc de réduire les variables initiales en un petit nombre de variables tout en conservant un maximum d’information. Ces variables initiales sont appelées « métriques ».
Dans ce type d’analyse, il n’y a pas de variable dépendante ou indépendante préalablement identifiée. Aussi, aucune vérification de l’hypothèse nulle est exigée.
Dans le monde de l'ACP les données sont appelées inertie .
Caractéristiques
Conditions d’utilisation de l’ACP
En réalité, il y a
toujours une condition
qui n’est pas vérifiée,
Cependant il y a
souvent une solution
pour à cela.
Utilisation de variables quantitatives continues et les variables qualitatives ordinales.
Relation linéaire entre les variables ( CPA est basée sur la corrélation de Pearson)
Sauf pour les variables ordinales
Adéquation de l’échantillonnage : pour assurer une puissance statistique minimale.
Un minimum de 150 cas, soit 5 à 10 cas par variable, a été recommandé comme taille minimale de l'échantillon
La mesure Kaiser-Meyer-Olkin tend vers 1
0,50 et moins est misérable • entre 0,60 et 0,70, c’est médiocre • entre 0,70 et 0,80 c’est moyen • entre 0,80 et 0,90 c’est méritoire • et plus 0,9 c’est très bon .
Les données devraient être adaptées à la réduction des données (test de Bartlett de la sphéricité )
Ce test doit être très significatif < 0.05
Entre 0.05 et 0.10 acceptable et au dessus de 0.10, rejeté.
Formuler le problème
Lancer l’ACP sur SPSS
Calcul la matrice de corrélations et vérifier si les données sont-elles factorisables
Extraire les facteurs et déterminer leur nombre
Objectifs de l’étude
Variables de l’étude
Echelle
Taille de l’échantillon
Saisie des notes sur Spss
Test KMO Test Bartlett
• Variance totale expliquée
Matrice de composantes et Matrices des composantes après rotation
Diagramme de composantes dans l’espace après rotation
Interpréter les facteurs
Voyons notre cas d’étude Soit un échantillon de 30 étudiants en architecture 1 ère année pris au hasard et qui ont obtenu les notes /20 suivantes . L’objectif est d’analyser la corrélation entre les variables quantitatives au nombre de 7 qui sont ici les notes de: atelier, théorie de projet, dessin codifié, HCA, TMC, physique et math. Aussi, pour savoir si un changement dans une note pourrait affecter une autre.
Les notes des étudiants ne sont plus représentés dans un espace be-dimensionnel, mais dans un espace de dimension 7 (chaque étudiant étant caractérisé par ses 7 notes). Donc, l’objectif de l’ACP est de revenir à un espace de dimension réduite, ici à 2 dimensions) en déformant le moins possible la réalité. La finalité est de mettre en évidence le mieux les liaisons initiales entre les variables ou items. Cette méthode est basée sur la recherche des axes principaux d’un nuage de points [Benzecri, 1973]
Lançons maintenant le logiciel spss
Affichage des données
Affichage des variables
Saisie des données et saisie des variables
1
Ici toutes les données sont quantitatives continues (Mesure= Echelle), sauf Id qui est la nomination des étudiants et qui ne sont pas pris dans le calcul.
Pour mettre en œuvre l’ACP , il faut aller au menu : Analyse---Réduction des dimensions---- Analyse factorielle
Sélectionner toutes les variables sauf la variable « Nom des étudiants » puis les insérer dans la fenêtre « Variables »
1 2 Vers
Appuyer sur le bouton « descriptibles »
Dans la boite de dialogue « Analyse factorielle : caractéristiques » Sélectionner « coefficients » : elle va produire la corrélation de Pearson entre
les variables sur laquelle l’ACP est construite. Sélectionner « Indice KMO et test sphéricité de Bartlett , pour voir si les
données sont factorisables ou non , l'adéquation des échantillons pour mettre en œuvre l’ACP.
Appuyer sur « Poursuivre »
Appuyer sur le bouton « Extraction »
Dans la boite de dialogue « Extraction »
Choisir dans « Méthode » Composantes principales Cocher « Matrice de corrélation » (table de corrélation) Cocher « Structure factorielle sans rotation » Cocher « Diagramme des valeurs propres »,(scree plot) , qui produit le graphique de Kattell (1966)
qui est fondé sur la courbe décroissante des valeurs propres. Il s’agit de déterminer le nombre de composantes principales ou facteurs à extraire .
Dans «Basé sur la valeur propre » dans l’encadré « Extraire choisir la valeur 1, cela indique que tous
les axes avec une valeur propre (Eigenvalue) supérieure à 1 seront conservées . Il s’agit du critère de Kaiser
pris par défaut par le spss. C’est ici dans cet encadré qu’on peut préciser le nombre précis de composantes principales ou de facteurs .
Appuyer sur « Poursuivre »
Appuyer le bouton « Rotation » • Cocher « Varimax » C’est une rotation orthogonale : une approche pour produire une rotation orthogonale des facteurs . Cela signifie que la rotation Varimax aide à identifier la contribution des variables à la formation des axes factoriels ou composantes, ce qui facilite de tirer, d’une manière rapide et synthétique, des conclusions sur les dimensionnalités des variables. La rotation Varimax consiste à associer chacune des variables à un nombre réduit de facteurs et à représenter chaque facteur par un nombre limité de variables. Visuellement les variables sont rapprochées des axes auxquels elles contribuent de manière à en faciliter l’interprétation. http://www.lesphinx-developpement.fr/blog/tag/
• Cocher « structure après Rotation » • Cocher « Cartes factorielles » [loading plot(s)] pour montrer le nuage de points .
Appuyer sur « Poursuivre »
Boite de dialogue « Rotation »
Appuyer sur « Option » Boite de dialogue « Option »
Cocher « Classement des variables par taille » , cela signifie qu’on trie les composantes sur la base de la taille , cela facilitera la lecture et l’interprétation.
Appuyer sur « Poursuivre »
On clique à la fin sur ok pour entamer le traitement des données.
L’analyser des résultats d’une ACP, passe par la réponse à trois questions :
a. Les données sont-elles factorisables ? b. Combien de facteurs ou composantes à retenir ? c. Les résultats sont-ils interprétables ? La
corrélation entre les variables d’une part et entre les variables et les composantes d’autre part?
Analyse des résultats
Pour répondre à la 1ère question, il faut d’abord observer les corrélations des variables, puis l’indice de KMO (Kaiser-Meyer-Olkin) et enfin le test de sphéricité de Bartlett. Si l’ACP satisfait à au moins deux de ces trois conditions, il est possible de continuer notre interprétation. 1- Analysons la matrice de corrélation (Correlation Matrix ), pour estimer si les données sont-elles factorisables. Si plusieurs variables sont corrélées la factorisation est possible. Dans le cas contraire , on peut dire que la factorisation n ’est pas conseillée. Comme on peut le voir dans le table , on peut dire que beaucoup de variables sont corrélées et leurs coefficient s de Pearson sont assez élevés. De ce faite, dans notre exemple, la factorisation est possible. Les corrélations <0,3 ne sont pas prises en considération. Dès le début de l’analyse, dans la boite de dialogue «Option » on pouvait choisir dans « Valeur absolue inférieure à » 0, 3.
1- Les données sont-elles factorisables ?
2- Aussi, il convient d’observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit obligatoirement tendre vers 1. Si ce n’est pas le cas, la factorisation n’est pas plus possible . Ici KMO=0,658 , même si c’est médiocre, c’est un bon résultat.
Pour juger de l’indice de KMO:
0,50 et moins , c’est misérable
entre 0,60 et 0,70, c’est médiocre
entre 0,70 et 0,80, c’est moyen
entre 0,80 et 0,90, c’est méritoire
plus 0,9, c’est merveilleux.
Enfin, on utilise le test de sphéricité de Bartlett. : Dans notre cas sig=0,000, c’est très significatif. Si sig< 0,05, c’est significatif et rejeté si
sig <0,10.
• 1 ère règle: selon la règle de Kaiser seules les composantes aux valeurs propres (Eigenvalue) supérieures à 1 sont retenues .
2 ème règle: le nombre de composantes (appelées aussi axes) est choisi en fonction de la restitution minimale d’information désirée. On souhaite, par exemple, que notre ACP rétablie au moins 80% de l’information initiale.
22- Extraction des composantes principales (facteurs)
« Variance totale expliquée » ( Total variance explained)
3ème règle :le critère de kattel, il est basé sur le graphique scree plot qui représente en abscisse les composantes.et en ordonnée les valeurs propres
Test du coude (Scree-test ). On observe le graphique des valeurs propres et on ne retient que les composantes 1 et 2 qui se trouvent à gauche du point d’inflexion (le coude, point 3). Sur le plan graphique, on trace une droite qui rejoint les composantes(3,4,5,6,7) situées à droite . Ces composantes apportent le moins d’information et seules celles situées au dessus du coude sont maintenues.
un autre critère
1
2
Coude
4
6
7
5
3
Donc, le scree plot nous aide à déterminer le nombre de composantes principales qui nous fournissent un pourcentage non négligeable d’information . On peut revenir au bouton « extraction » et on fixe à 2 en « Nombre de facteurs à extraire » ou on force « Facteurs à extraire » à 2 dès le début de l’analyse .
Boite de dialogue « Extraction »
On revient encore une fois au table de « Variance totale expliquée ». Dans la
colonne « Total » qui indiquent les valeurs propres initiales (Initial Eigenvalues) ,
seules les valeurs propres supérieures à 1 (le critère de Kaiser ) sont retenues
(2,890 et 1,698). De ce fait , uniquement les composantes 1 et 2 sont maintenues.
Elles concentrent plus de variances que les variables initiales . Pour cela que les
1er et 2ème axes sont ceux qui restituent le maximum d’information. En d’autres
termes, ils représentent environ 65,552% de la variance totale parmi les 30 items.
Le 1er pour un pourcentage de 41,290 et le 2ème pour 24,262%. Ensemble les 2
composantes concentrent à elles seules 65,552 %. (dans la colonne cumulative % )
des informations apportées par les 7 variables de départ.
Cela signifie que la 1ère composante a une valeur propre de 2,890 et explique
environ 41,290 % de la variance, la 2ème composante à une valeur propre de 1,698
et explique 24,262% la variance .
3- Interprétation de l’analyse en composante principale
La table qualité de représentation (Communalities), la colonne
extraction de cette table , nous indique pour chaque variable la part de la variance
expliquée par la solution à 2 composantes. Si on parcoure les valeurs nous pouvons
dire que toutes les valeurs sont supérieures à 65,552 %. le niveau global de
variances. Seule la valeur de 0,142 sort du lot, cela indique que cette variable n’est corrélée à aucune autre variable.
Dans la matrice ci-contre, on peut le voir, les 2 composantes ont une corrélation égale à zéro. Elle montre les corrélations ( de -1 à +1) entre les variables et les composantes.
La 1ère composante principale est fortement corrélée avec quatre variables originales. Cette composante augmente avec l'augmentation de l'atelier, théorie de projet, dessin et HCA. Cela indique que ces quatre variables varient ensemble. Si l’une augmente, les trois autres ont tendance à faire la même chose. Donc, cette composante peut être considérée comme une mesure de l'atelier, théorie de projet, dessin et HCA. De plus, nous voyons que la première composante est la plus fortement corrélée avec la théorie de projet.
En fait, on pourrait affirmer que sur la base de la corrélation de 0,881 que cette composante principale est avant tout une mesure de la théorie de projet. Il s'ensuivrait que les valeurs élevées ont tendance à prouver que les étudiants travaillent beaucoup et assistent aux cours et participer activement aux différents débats sur l'architecture. Aussi, la grande valeur des corrélations montre clairement que l'atelier, théorie de projet, dessin et HCA sont des modules de base pour la 1ère année architecture et qu’il faut bien maitriser leurs contenus.
Interprétation des principales composantes est basée sur la recherche de variables qui sont le plus fortement corrélées avec chaque composante, c'est-à-dire quelles sont celles qui ont de grande valeur et les plus éloignés de zéro dans leur direction positive ou négative. Ici, une valeur de corrélation supérieure à 0,5 est jugée importante. Ces corrélations sont indiquées dans le table ci-contre.
Interprétation de l’analyse en composante principale (suite)
2ème composante principale
La deuxième composante principale augmente avec seulement deux variables: physique et mathématiques. On y constate que ces deux variables ont des saturations élevées sur le 2ème facteurs. Ces deux matières ne sont pas corrélées avec celles de la 1ère composante. Cela signifie qu’être bon en physique et mathématiques n’est pas toujours une preuve suffisante pour attester que cet étudiant est apte à être réceptif aux études en architecture.
Par contre, les deux variables sont bien corrélées et une augmentation de l’une entraine une augmentation de l’autre .
Interprétation de l’analyse en composantes principales (suite)
Chaque point représente une variable . Sur le diagramme on peut voir deux groupes de variables qui ne sont pas corrélés. Le 1er est constitué de l'atelier, théorie de projet, dessin et HCA et le 2ème de la physique et des mathématiques . Ces
derniers sont de grande valeur pour la 2ème composante principale . Aussi, les étudiants ont des bonnes notes dans les modules d’atelier, théorie de projet, dessin et. La variable TMC, pour la 2ème composante, occupe une position isolée du fait de sa très faible valeur et puis elle n’est corrélée à aucune variable .
Prof. Adad Mohamed chérif
Université d’Oum El Bouaghi Faculté des sciences de la terre et de l’architecture