© Benoit Duguay, 2014
Plan la séance 7Préparation des données
Processus de préparation des données Vérification et édition des questionnaires Codage, transcription et nettoyage des
données Ajustement statistique des données Stratégie d’analyse des données Logiciels d’analyse quantitative Atelier :
Préparation du guide de codification
© Benoit Duguay, 2014
Processus de préparation des données
Vérification questionnaires
Édition questionnaires
Codage questions
Transcription données
Nettoyage données
Ajustement statistique données
Stratégie d’analyse données
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Vérification et édition des questionnaires (1 de 3)
Ne pas attendre la fin de la collecte de données
Réponses très peu variées (choix des extrêmes p. ex.)
Réponses suspectes (incohérences)
Réponses difficiles à lire (questions ouvertes)
Réponses multiples à une question à choix unique
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Vérification et édition des questionnaires (2 de 3)
Questionnaires incomplets
Respect des instructions
Pages manquantes Réception après date
limite Répondant non éligible
(âge p. ex.)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Vérification et édition des questionnaires (3 de 3)
Objectif : améliorer l’exactitude des réponses
Solutions si trop de manques sont constatés sur le questionnaire : Gros échantillons : éliminer le
répondant (possibilité de biais)
Petits échantillons : contacter le répondant pour effectuer des corrections OU en sélectionner un nouveau en respectant la méthode d’échantillonnage
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Codage des questions
Transformer les réponses en données quantifiables
Identification des variables
Identification des valeurs pour chaque variable
Code plus élevé à valeur la plus positive : oui = 2, non = 1
Choix d’une ou plusieurs valeurs pour les données manquantes (p. ex. 99)
Voir exemple de guide de codage ci-contre
Hyperlien : http://eut4115.uqam.ca/projets/omhl/omhl_questionnaire_codifie.pdf
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Codage des questionsnon structurées (ouvertes)
Créer des catégories : Mutuellement exclusives Collectivement exhaustives Lire toutes les réponses
Attribuer une catégorie distincte à tout élément critique même si personne n’en fait mention
Conserver un niveau de détail le plus élevé possible sans exagérer le nombre de catégories
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Transcription des données
Saisie des données Construction d’une base de
données (feuille de calcul Excel)
Variables : À la verticale Numérotation Une colonne pour chaque
variable Questionnaires
(répondants) : À l’horizontal Numérotation Une ligne pour chaque
questionnaire (répondant) Voir fichier de saisie de
données ci-contre
Hyperlien : http://mdt8601.uqam.ca/spss/mdt8601_saisie_donnees.xls
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Exemple de fichier de données après la saisie
Hyperlien : http://mdt8601.uqam.ca/spss/mdt8601_exemple_fichier_donnees.xls
© Benoit Duguay, 2014
Transcription automatisée
Hyperlien : http://www.sawtooth.com/Hyperlien : http://www.abbyy.com/
© Benoit Duguay, 2014
Nettoyage des données :Contrôle d’uniformité
Vérifier données hors norme (anormales), p. ex. « 6 » pour une variable codifiée 1 à 5 : Vérifier en triant chaque
colonne
Si non contrôlé à l’étape de la vérification des questionnaires : Réponses très peu variées
(choix des extrêmes p. ex.) Réponses suspectes
(incohérences)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Nettoyage des données :Réponses manquantes (1 de 2)
Retourner au questionnaire
Substitution par valeur manquante (p. ex. 99)
Substitution par valeur neutre (p. ex. moyenne) : Discutable Introduit biais
Substitution par valeur imputée (déduction par rapport autres réponses) : Travail considérable mais
procédure statistiques Introduit biais
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Nettoyage des données :Réponses manquantes (2 de 2)
Suppression du répondant : Si nombreuses réponses
manquantes Possibilité de biais lié à
l’échantillon
Suppression appariée : Plutôt que de supprimer les
questionnaires qui présentent de nombreuses réponses manquantes, retenir seulement réponses valides pour chaque variable
Utiliser seulement avec échantillon de grande taille, réponses manquantes rares et relations entre variables faibles
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Ajustement statistique des données
Pondération : Ajuster le rapport
d’importance entre les catégories de répondants
Utilisée pour augmenter la représentativité d’un échantillon
Voir exemple diapo suivante
Création et transformation de variables (voir autre diapo)
Changement d’échelle (voir autre diapo)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
Source : http://www.cosmopolitan.fr/,regime-la-priorite-l-equilibre-alimentaire,2107,1075877.asp
© Benoit Duguay, 2014
Exemple de pondération
Âge (1)Proportion
échantillon (2)
Proportionpopulation
(3)
Poids(3/2)
16-25 22% 11% 0,50
26-35 7% 14% 2,00
36-45 20% 18% 0,90
46-55 17% 17% 1,00
56-65 22% 25% 1,14
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Création et transformation de variables
Transformation des variables existantes : Transformer les catégories pour comparer les données
d’une étude avec celles d’une autre étude Équilibrer des données manifestement biaisées
(standardisation - COMPLEXE) Création d’une nouvelle variable :
Calcul d’un indice composé Synthèse de plusieurs variables Création de catégories (p. ex. âge)
Fonctions dans SPSS : Compute Recode
Voir exemples dans les diapos suivantes
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
SEI personnel
5 2,9 2,9 2,9
13 7,4 7,4 10,3
21 12,0 12,0 22,3
15 8,6 8,6 30,9
27 15,4 15,4 46,3
34 19,4 19,4 65,7
34 19,4 19,4 85,1
26 14,9 14,9 100,0
175 100,0 100,0
Très faible
Faible
Faible
Moyen
Moyen
Fort
Fort
Très fort
Total
ValidFrequency Percent Valid Percent
CumulativePercent
Création et transformation de variables
Estime de soi personnelle (VAR202) Addition des réponses de 8 questions parmi les 40 du test CFSEI-
2
© Benoit Duguay, 2014
Création de variables muettes Variables utilisées pour
représenter différents groupes dans la population sans utiliser une échelle ordinale qui aurait peu de sens
Utilisées dans les analyses de régression
Valeurs les plus fréquentes sont 0 et 1 (binaire)
Re-spécification d’une variable avec K catégories nécessite l’utilisation de K-1 variables muettes
Voir exemple diapo suivante
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Exemple de variables muettes
AllégeanceCodification
originale
Variables muettes
X1 X2 X3
Conservateur 1 1 0 0
Libéral 2 0 1 0
Bloc 3 0 0 1
NPD 4 0 0 0
© Benoit Duguay, 2014
Stratégie d’analyse des données
Schéma d’analyse préliminaire
Types d’échelle de mesure
Technique d’analyse VS objectif (différences ou
dépendance entre variables, prédiction, etc.)
Expérience et préférence du chargé d’étude
Stratégie finale d’analyse
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Analyse des fréquences
Une variable à la fois Distribution des
réponses Mesures de position
centrale : Moyenne Mode Médiane
Mesures de dispersion : Étendue (écart) Variance et écart-type
Mesures de forme : Symétrie (skewness) Aplatissement (kurtosis)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Analyse des relations entre les variables
Deuxième variable
Nominaleou ordinale
Intervalles ou
proportion (ratio)
Première variable
Nominaleou ordinale
Tris croisésComparaison
moyennes
Intervalles ou
proportion (ratio)
Comparaisonmoyennes
Corrélationou
régression
Tiré de : d’Astous, Alain. 2000. Le projet de recherche en marketing, 2ième éd. Montréal (QC) : Chenelière/McGraw-Hill, p. 267
© Benoit Duguay, 2014
Analyses multivariées
Tris croisés : La plus utile et la plus fréquemment utilisée Analyse de la relation existant entre deux
variables (bivariée) ou trois variables (multivariée) P. ex., l’influence du sexe sur le choix de
destination
Comparaison moyennes : Analyse de la différence existant entre les
moyennes de deux catégories de personnes P. ex., la différence entre les 26-45 ans et les 46-
65 ans par rapport au pourcentage de personnes qui achètent une croisière
© Benoit Duguay, 2014
Analyses multivariées Corrélation :
Analyse de la relation existant entre deux variables métriques
Augmentation des valeurs de la première correspond-elle à une augmentation, ou à une diminution, des valeurs de la seconde?
P. ex., la relation entre l’investissement publicitaire et les ventes d’un restaurant
Régression : Analyse de la relation de dépendance entre deux
variables métriques Utilisation de variables muettes lorsque requis P. ex., la relation entre le niveau d’estime de soi
et le choix une résidence luxueuse
© Benoit Duguay, 2014
Tests de comparaison
Type données
Non métriques(nominal, ordinal)
Métriques(intervalles, proportion)
Khi deux Test t
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Tests de comparaison
Khi deux (X2) : Test du niveau de
signification de la relation entre deux variables (tri croisé)
X2 ≥ valeur théorique Niveau de signification
usuel de 95% (19 fois sur 20),
Voir statistique P ≤ 0,05 (95%)
Test t : Permet d’énoncer des
conclusions sur l’existence de différences significatives entre les moyennes de deux échantillons
t ≥ 1,98 ou t ≤ -1,98 Niveau de signification
usuel de 0,05 (95%)
Tiré et adapté de : Malhotra, N., traduit par Décaudin, J.M. et A. Bouguerra (2011), Études Marketing avec SPSS, 6e éd., Paris: Pearson Education France.
© Benoit Duguay, 2014
Logiciels d’analyse quantitative
© Benoit Duguay, 2014
Atelier
Préparation du guide de codification