L'analyse multivariée avec Sphinx

Les analyses multi-variées

INTRODUCTION

Au stade des analyses, les réponses aux questions deviennent des variables explicatives sur lesquelles on applique des outils statistiques afin d’expliquer le phénomène, objet sous lequel porte l’enquête. Or la plupart de ces phénomènes sont déterminés par l’interaction de plus de deux variables, se qui nous amène à faire recours à une série de techniques dites « multivariées »

PlanI. Méthodes multivariées

1- Les méthodes multivariées pour expliquer

2-Les méthodes multivariées pour synthétiser

3-Les méthodes multivariées pour classifier: Les typologies

II La régression multiples

Conclusion

I. Méthodes multivariées

Selon les types des questions (variables) et l’objectif de l’analyse statistique on distingue trois catégories des méthodes multivariés:

Méthodes multivariées pour expliquer

Méthodes multivariées pour synthétiser

Méthodes multivariées pour classifier

1 Les méthodes multivariées pour expliquer

•Il s’agit de comprendre comment une variable est éventuellement influencée par une série d’autres variables et de dégager l’impact ou non de chaque variable

Principe

•Régression multiple

•Matrice importance-performance

•Arbre de décision

Exemples de techniques

•V1

•V2

•V3

Illustrations V4

1-1 La régression multiple

Cette technique d’analyse s’applique exclusivement aux variables numériques, c’est-à-dire dans les enquêtes: aux questions ouvertes numériques ; aux questions fermées échelles; aux questions fermées uniques dichotomiques: oui-non ou 0/1. Il s’agit d’une extension de l’analyse de régression « simple », mais dont l’analyse s’appuie sur plus de deux variables. Autrement dit, on cherche à comprendre comment se comporte une variable à expliquer y en fonction de plusieurs variables explicatives x1, x2 ,x3…

1-2 La matrice importance-performance

Il s’agit d’une application particulière de l’analyse de régression multiple utilisé souvent dans le cadre d’une enquête de satisfaction qui s’intéresse généralement a mesurer la satisfaction globale, puis à donner une mesure détaillée d’un ensemble des critères identifiés a priori comme les composantes « partielles » de la perception du client ou du collaborateur. Souvent les individus sont questionnés sur l’importance relative qu’ils accordent à chaque item particulier afin de mettre en perspective la satisfaction sur chaque critère avec son importance. Cette matrice permet donc de dégager la satisfaction du répondant et l’importance qu’il accorde aux différents facteurs évalués en conduisant à une carte, où chaque critère est placé sur deux dimensions: horizontalement, performance mesurée par les notes moyennes de critères sur l’ensemble des répondants; verticalement, l’importance qu’on peut apprécier selon plusieurs méthodes dont les détails ne font pas objet de cette exposé.

1-3 Les arbres de décision

Les arbres de décision s’avèrent plutôt utile pour identifier les caractéristiques d’une population cible dont on cherche à expliquer en fonction d’un ensemble de variables, afin de dégager celles qui ont les plus d’impact. A titre d’exemple, une enquête de satisfaction pourrait s’intéresser à identifier ce qui caractérise les clients non satisfaits. Pour ce faire l’algorithme de l’arbre de décision effectue tous les croisements possibles afin de mettre en avant les variables les plus liées à celles qui nous intéressent, et surtout les modalités qui correspondent le mieux à la cible que l’on cherche a caractériser

2 Les méthodes multivariées pour synthétiser

•Il s’agit de simplifier les données en identifiant les variables ou modalités similaires et qui mesurent la même chose. Ce groupe de variables « corrélées » sont par la suite regrouper afin de restituer les résultats d’un point de vue plus synthétique et donc plus simple.

Principe

•Analyse factorielle en composantes principales

•Analyse factorielle des correspondances


Illustrations

2-1 L’analyse factorielle en composantes principales ou ACP

L’ACP sert à observer les questions redondantes est celles qui mesurent la même chose car fortement corrélées entre eux . On pourra ainsi synthétiser l’information puis la restituer sur une carte factorielle, c’est-à-dire sur un plan à deux dimensions plus facile à lire . C’est à noter que l’ACP s’emploie pour des variables numériques: Questions ouvertes numérique, fermées échelles ou fermées uniques binaires.

q1 q2 q3 q4 q5 q6…………………q16 F1 F2

ACP

2-2 L’analyse factorielle des correspondances ou AFC

Ayant les mêmes principes de base que l’ACP, l’AFC s’applique quant à elle aux variables nominales-les questions fermées. Dans ce cas ci on s’intéresse non pas aux combinaisons des variables mais aux combinaisons des modalités afin d’identifier les grandes dimensions des résultats, et les modalités qui sont liées statistiquement. L’AFC est employée surtout pour croiser simultanément plus de deux variables nominales-les réponses à des questions fermées.

3 Les méthodes multivariées pour classifier: Les typologie

•Les méthodes de classification s’intéressent non pas aux variables mais aux individus. Toujours dans un objectif de simplification, on cherche à identifier des groupes de répondants aux comportements similaires.

Principe

•Analyses typologiques


Illustrations

I. II La régression multiple

Pour déterminer sous forme d’équation linéaire la relationexplicative amenant des variables explicatives àexpliquer ou non un phénomène (variable à expliquée)

V1

V2

V3

…VnVariables explicatives

Equation de régression multiple:

V0Variable expliquée

Vo = a1xV1 + a2xV2 + a3xV3… + anxVn

Exemple illustratif

Expliquer la dépense touristique totale V1 en fonction desdépenses d’hébergement V2, d’alimentation V3, de restaurationV4 et de loisir V5

On obtient un modèle du type: V1= aV2+bV3+cV4+ résidu

La qualité de l’ajustement s’apprécie par rapport à la valeur du coefficient de corrélation. Plus la valeur absolue est élevée, plus faible est l’écart entre les valeurs calculées par l’équation et les valeurs observées en réalité (cet écart est appelé résidu)

Equation de la régression :

Dépense totale = +0.796 * Dépense hébergement +1.638 * Dépense alimentation+0.734 * Dépense restaurant +1.858 * Dépense loisirs +174.856

Les 4 variables expliquent 80.2% de la variance de Dépense totale et lecoefficient de régression multiple = 0,9Significativité des paramètres :'Dépense hébergement' : coefficient = 0,80, écart-type = 0,23'Dépense alimentation' : coefficient = 1,64, écart-type = 0,28'Dépense restaurant' : coefficient = 0,73, écart-type = 0,45 (Peu influent)'Dépense loisirs' : coefficient = 1,86, écart-type = 0,29L’effet de chaque variable explicative dépend du coefficient de régression figurantdans l’équation. Plus celui-ci est élevé, plus la variable explicative considéréeinfluence la variable expliquée.

Cependant , il faut également prendre en compte l’écart type de chacun de cescoefficients : plus il est élevé, moins l’influence de la variable considérée estmarquée. Certains termes de l'équation sont peu influents, leur rapportcoefficient / écart-type est inférieur à 2La matrice des coefficients de corrélation peut se présenter sous la formed’un tableau ou d’un diagramme :

Conclusion

L’analyse multivariée des données comme une procédure statistique se prête pour analyser simultanément plus de deux variables afin soit de décrire, soit de dresser des typologies soit de synthétiser.

Merci de votre attention

Documents

L'analyse multivariée avec Sphinx