425
SPSS Categories ® 14.0

SPSS Categories 14.0

Embed Size (px)

Citation preview

Page 1: SPSS Categories 14.0

SPSS Categories®

14.0

Page 2: SPSS Categories 14.0

Pour plus d’informations sur les logiciels SPSS®, visitez notre site Web à l’adresse suivante : http://www.spss.com ou contactez

SPSS Inc.

233 South Wacker Drive, 11th Floor

Chicago, IL 60606-6412

Tél : (312) 651-3000

Fax : (312) 651-3668

SPSS est une marque déposée et les autres noms de produit sont des marques commerciales de SPSS Inc. pour son logiciel

informatique propriétaire. La distribution ou la production de matériel décrivant ce type de logiciel est interdite sans

l’autorisation écrite des propriétaires de la marque commerciale et des droits de licence dans le logiciel, et des copyrights

dans les différentes documentations.

Le LOGICIEL et sa documentation sont soumis à des DROITS RESTREINTS. L’utilisation, la reproduction ou la divulgation

par le Gouvernement des Etats-Unis est sujette à des restrictions telles qu’elles sont décrites dans la sous-division (c)(1)(ii) de la

clause « The Rights in Technical Data and Computer Software », alinéa 52.227-7013. Le contractant et fabricant est SPSS Inc.,

233 South Wacker Drive, 11th Floor, Chicago IL 60606-6412, Etats-Unis.

Remarque générale : Les autres noms de produit mentionnés dans ce document sont utilisés à des fins d’illustration uniquement

et peuvent être des marques commerciales de leurs détenteurs respectifs.

TableLook est une marque commerciale de SPSS Inc.

Windows est une marque déposée de Microsoft Corporation.

DataDirect, DataDirect Connect, INTERSOLV et SequeLink sont des marques déposées de DataDirect Technologies.

Certaines parties de ce produit ont été créées à l’aide de LEADTOOLS © 1991–2000, LEAD Technologies, Inc. TOUS

DROITS RESERVES.

LEAD, LEADTOOLS et LEADVIEW sont des marques déposées de LEAD Technologies, Inc.

Sax Basic est une marque commerciale de Sax Software Corporation. Copyright © 1993–2004 Polar Engineering and

Consulting. Tous droits réservés.

Certaines parties de ce produit ont été basées sur le travail du FreeType Team (http://www.freetype.org).

Une partie du logiciel SPSS contient la technologie zlib. Copyright © 1995–2002 Jean-Loup Gailly et Mark Adler. Le logiciel

zlib est fourni « en l’état », sans garantie expresse ou implicite.

Une partie du logiciel SPSS contient des bibliothèques Sun Java Runtime. Copyright © 2003 Sun Microsystems, Inc. Tous droits

réservés. Les bibliothèques Sun Java Runtime comprennent un code sous licence de RSA Security, Inc. Certaines parties de ces

bibliothèques sont concédées sous licence par IBM et sont disponibles à l’adresse suivante : http://oss.software.ibm.com/icu4j/.

Catégories SPSS® 14,0

© 2005 SPSS Inc.

Tous droits réservés.

Toute reproduction, tout stockage dans un système de récupération et toute transmission, même partiels, de quelque forme ou par

quelque moyen que ce soit, électronique, mécanique, par photocopie, enregistrement ou autre sont interdits sans le consentement

préalable écrit de l’éditeur.

1 2 3 4 5 6 7 8 9 0 08 07 06 05

ISBN 1-56827-690-7

Page 3: SPSS Categories 14.0

Préface

SPSS 14.0 est un système complet d’analyse de données. Le module complémentairefacultatif Categories fournit les techniques d’analyse supplémentaires décrites dans cemanuel. Le module complémentaire Categories doit être utilisé avec le système debase SPSS 14.0 auquel il est entièrement intégré.

Installation

Pour installer le SPSS Categories module complémentaire, lancez l’assistantd’attribution de licence à l’aide du code correspondant fourni par SPSS Inc. Pourplus d’informations, reportez-vous aux instructions d’installation fournies avec leSPSS Categories module complémentaire.

Compatibilité

SPSS est conçu pour fonctionner sous de nombreux systèmes d’exploitation. Pourplus d’informations sur la configuration minimale ou recommandée, reportez-vousaux instructions d’installation de votre système.

Numéros de série

Le numéro de série permet de vous identifier auprès de SPSS Inc. Vous en aurezbesoin lors de tout appel à SPSS Inc. pour des informations relatives au support,au paiement ou à la mise à niveau de votre système. Le numéro de série est fourniavec le système de base.

Service clients

Si vous avez des questions concernant votre envoi ou votre compte, contactez votrebureau local, dont les coordonnées figurent sur le site Web de SPSS à l’adressesuivante : http://www.spss.com/worldwide. Veuillez préparer et conserver votrenuméro de série à portée de main pour l’identification.

iii

Page 4: SPSS Categories 14.0

Séminaires de formation

SPSS Inc. propose des séminaires de formation, publics et sur site. Tous lesséminaires font appel à des ateliers de travaux pratiques. Ces séminaires serontproposés régulièrement dans les grandes villes. Pour plus d’informations sur cesséminaires, contactez votre bureau local dont les coordonnées sont indiquées sur lesite Web de SPSS à l’adresse suivante : http://www.spss.com/worldwide.

Support technique

Les services du support technique de SPSS sont disponibles pour les utilisateursinscrits. Les clients peuvent contacter le support technique pour obtenir del’aide concernant l’utilisation de SPSS ou l’installation dans le cadre de l’un desenvironnements matériels pris en charge. Pour contacter le support technique, visitezle site Web de SPSS à l’adresse http://www.spss.com ou contactez votre bureaulocal dont les coordonnées figurent sur le site Web de SPSS à l’adresse suivante: http://www.spss.com/worldwide. Votre nom ou celui de votre société, ainsi que lenuméro de série de votre système, vous seront demandés.

Documents supplémentaires

Vous pouvez faire l’acquisition d’autres copies des manuels du produit SPSSdirectement auprès de SPSS Inc. Visitez le magasin de notre site Web àl’adresse http://www.spss.com/estore ou contactez votre bureau SPSS localdont les coordonnées figurent sur le site Web de SPSS à l’adresse suivante :http://www.spss.com/worldwide. Pour passer commande par téléphone aux Etats-Uniset au Canada, appelez SPSS Inc. au numéro 800-543-2185. Dans les autres pays,contactez votre bureau local dont les coordonnées figurent sur le site Web de SPSS.

Le module supplémentaire de procédures statistiques SPSS, créé par MarijaNorušis, a été publié par Prentice Hall. Une nouvelle version de ce manuel, miseà jour pour SPSS 14.0, est prévue. Le module supplémentaire de procéduresstatistiques SPSS avancées, qui repose également sur SPSS 14.0, sera disponibleprochainement. Le manuel d’analyse des données SPSS Guide to Data Analysis deSPSS 14.0 est également en préparation. L’annonce des publications disponiblesuniquement auprès de Prentice Hall pourra être consultée sur le site Web de SPSS àl’adresse suivante : http://www.spss.com/estore (sélectionnez le pays de votre choix,puis cliquez sur Books).

iv

Page 5: SPSS Categories 14.0

Votre avis nous intéresse

Vos remarques sont importantes. Veuillez nous envoyer une lettre nous décrivantvotre expérience de l’utilisation des produits SPSS. Nous apprécions toutparticulièrement les informations sur des applications nouvelles et intéressantesutilisant SPSS Categories module complémentaire. Veuillez nous envoyer un messageélectronique à l’adresse [email protected] ou écrivez à : Director of ProductPlanning, 233 South Wacker Drive, 11th Floor, Chicago, IL 60606-6412, U.S.A.

A propos de ce manuel

Ce manuel présente l’interface graphique des procédures de SPSS Categories modulecomplémentaire. Les illustrations des boîtes de dialogue sont issues de SPSS forWindows. Les boîtes de dialogue des versions conçues pour les autres systèmesd’exploitation sont similaires. Vous trouverez plus d’informations sur la syntaxe decommande des fonctions de SPSS Categories module complémentaire est disponiblesous deux formes différentes : guide intégré dans le système d’aide global et commedocument distinct au format PDF dans SPSS 14.0 Command Syntax Reference,disponible à partir du menu Aide.

Contacter SPSS

Si vous souhaitez être inscrit sur notre liste de mailing, contactez l’un denos bureaux, dont les coordonnées figurent sur notre site Web à l’adressehttp://www.spss.com/worldwide.

Remerciements

Les procédures de codage optimal et leur mise en œuvre SPSS ont été développéespar le groupe DTSS (Data Theory Scaling System Group), qui se compose demembres des départements d’enseignement et de psychologie de la Faculté dessciences sociales et du comportement de l’Université de Leiden (Pays-Bas).

Willem Heiser, Jacqueline Meulman, Gerda van den Berg et Patrick Groenen ontapporté leur contribution à la création des procédures initiales, en 1990. JacquelineMeulman et Peter Neufeglise ont participé au développement des procédures derégression nominale, d’analyse des correspondances, d’analyse en composantesprincipales qualitatives et de positionnement multidimensionnel. En outre, Anita vander Kooij a notamment contribué aux procédures CATREG, CORRESPONDENCE et

v

Page 6: SPSS Categories 14.0

CATPCA, et Frank Busing et Willem Heiser, à la procédure PROXSCAL. JacquesCommandeur et Patrick Groenen ont, quant à eux, apporté des commentairestechniques et émis des suggestions pour le développement de PROXSCAL.

vi

Page 7: SPSS Categories 14.0

Index

Partie I: Guide de l'utilisateur

1 Introduction aux procédures de codageoptimal SPSS pour les données qualitatives 1

Définition du codage optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1Raisons de l’utilisation du codage optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 2Niveau de codage optimal et niveau de mesure . . . . . . . . . . . . . . . . . . . . . . 2

Sélection du niveau de codage optimal . . . . . . . . . . . . . . . . . . . . . . . . . 4Diagrammes de transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4Codes de modalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Utilisation de la procédure la plus adaptée à votre application . . . . . . . . . . . 9Régression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10Analyse en composantes principales qualitatives . . . . . . . . . . . . . . . . 11Analyse de corrélation canonique non linéaire . . . . . . . . . . . . . . . . . . 12Analyse des correspondances. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Analyse de correspondance multiple . . . . . . . . . . . . . . . . . . . . . . . . . . 16Positionnement multidimensionnel. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Dépliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Ratio d’aspect des diagrammes de codage optimal. . . . . . . . . . . . . . . . . . . 18Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Régression nominale (CATREG) 21

Régression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Définir une échelle dans la régression nominale . . . . . . . . . . . . . . . . . . . . . 23

vii

Page 8: SPSS Categories 14.0

Régression nominale : Discrétisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25Régression nominale : Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . 27Régression nominale : Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28Régression nominale : Résultat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Régression nominale : Enregistrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30Régression nominale des diagrammes de transformation . . . . . . . . . . . . . . 31Fonctionnalités supplémentaires de la commande CATREG. . . . . . . . . . . . . 32

3 Analyse en composantes principales qualitatives(CATPCA) 33

Définir l’échelle et la pondération dans CATPCA . . . . . . . . . . . . . . . . . . . . . 36Composantes principales qualitatives : Discrétisation. . . . . . . . . . . . . . . . . 38Composantes principales qualitatives : Valeurs manquantes . . . . . . . . . . . 40Composantes principales qualitatives : Options . . . . . . . . . . . . . . . . . . . . . 41Composantes principales qualitatives : Résultat . . . . . . . . . . . . . . . . . . . . . 44Composantes principales qualitatives : Enregistrer . . . . . . . . . . . . . . . . . . . 46Composantes principales qualitatives : Diagrammes d’objets et devariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Composantes principales qualitatives : Diagrammes de modalités . . . . . . . 49Analyse des composantes principales qualitatives:Cartes factorielles . . . . 50Fonctionnalités supplémentaires de la commande CATPCA . . . . . . . . . . . . 51

4 Analyse canonique non linéaire (OVERALS) 53

Définir intervalle et échelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57Définir une plage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

viii

Page 9: SPSS Categories 14.0

Analyse de corrélation canonique non linéaire – Options . . . . . . . . . . . . . . 58Fonctionnalités supplémentaires de la commande OVERALS . . . . . . . . . . . 60

5 Analyse des correspondances 63

Définition de la plage de ligne dans l’analyse des correspondances . . . . . . 65Définition de la plage de colonne dans l’analyse des correspondances. . . . 67Modèle d’analyse des correspondances. . . . . . . . . . . . . . . . . . . . . . . . . . . 68Statistiques de l’analyse des correspondances. . . . . . . . . . . . . . . . . . . . . . 70Diagrammes de l’analyse des correspondances . . . . . . . . . . . . . . . . . . . . . 71Fonctionnalités supplémentaires de la commande CORRESPONDENCE . . . 73

6 Analyse de correspondance multiple 75

Définition d’une pondération de variable dans une analyse decorrespondance multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77Analyse des correspondances multiples : Discrétisation. . . . . . . . . . . . . . . 78Analyse des correspondances multiples : Valeurs manquantes . . . . . . . . . 80Analyse des correspondances multiples : Options . . . . . . . . . . . . . . . . . . . 81Analyse des correspondances multiples : Résultats . . . . . . . . . . . . . . . . . . 84Analyse des correspondances multiples : Enregistrer. . . . . . . . . . . . . . . . . 86Analyse des correspondances multiples : Diagrammes d’objets . . . . . . . . . 87Analyse des correspondances multiples : Diagrammes de variables. . . . . . 88Commande MULTIPLE CORRESPONDENCE - Caractéristiquesadditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

ix

Page 10: SPSS Categories 14.0

7 Positionnement multidimensionnel (PROXSCAL) 91

Proximités dans des matrices sur plusieurs colonnes . . . . . . . . . . . . . . . . . 95Proximités sur plusieurs colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96Proximités dans une colonne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97Créer des proximités à partir des données . . . . . . . . . . . . . . . . . . . . . . . . . 98Boîte de dialogue Créer une mesure à partir des données . . . . . . . . . . . . . 99Définir un modèle de positionnement multidimensionnel . . . . . . . . . . . . . . 100Positionnement multidimensionnel : Restrictions . . . . . . . . . . . . . . . . . . . 102Positionnement multidimensionnel : Options . . . . . . . . . . . . . . . . . . . . . . . 103Positionnement multidimensionnel : Diagrammes, Version 1 . . . . . . . . . . . 104Positionnement multidimensionnel : Diagrammes, Version 2 . . . . . . . . . . . 106Positionnement multidimensionnel : Résultat . . . . . . . . . . . . . . . . . . . . . . 107Fonctionnalités supplémentaires de la commande PROXSCAL . . . . . . . . . 109

8 Dépliage multidimensionnel (PREFSCAL) 111

Définir un modèle de dépliage multidimensionnel . . . . . . . . . . . . . . . . . . . 113Restrictions du dépliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . 115Options de dépliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . 117Diagrammes de dépliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . 119Résultat du dépliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . 122Fonctionnalités supplémentaires de la commande PREFSCAL. . . . . . . . . . 123

x

Page 11: SPSS Categories 14.0

Partie II: Exemples

9 Régression nominale 127

Exemple : Données relatives à la shampouineuse . . . . . . . . . . . . . . . . . . . 127Analyse de régression linéaire standard . . . . . . . . . . . . . . . . . . . . . . 128Analyse de régression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

Exemple : Données d’ozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150Discrétisation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151Sélection du type de transformation. . . . . . . . . . . . . . . . . . . . . . . . . . 152Optimisation des quantifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165Effets des transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

10 Analyse en composantes principalesqualitatives 179

Exemple : Examen des relations entre systèmes sociaux . . . . . . . . . . . . . 179Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181Nombre de dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185Quantifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187Coordonnées principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189Saturations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191Dimensions supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

Exemple : Symptomatologie des troubles du comportement alimentaire . . 195Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197Diagrammes de transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210Récapitulatif des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214Saturations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214Coordonnées principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

xi

Page 12: SPSS Categories 14.0

Examen de la structure de l’évolution de la maladie . . . . . . . . . . . . . . 219Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

11 Analyse de corrélation canonique non linéaire 237

Exemple : Analyse des résultats d’enquête . . . . . . . . . . . . . . . . . . . . . . . . 237Examen des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238Similarités entre les groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246Saturations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251Diagrammes de transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252Coordonnées de modalités simples et coordonnées de modalitésmultiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256Barycentres et barycentres projetés . . . . . . . . . . . . . . . . . . . . . . . . . 257Autre analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262Suggestions d’ordre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

12 Analyse des correspondances 271

Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272Exemple : Consommation de tabac par type de poste occupé . . . . . . . . . . 273

Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274Tableau des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278Diagramme double . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279Profils et distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281Coordonnées principales des colonnes et des lignes . . . . . . . . . . . . . 282Permutation du tableau des correspondances . . . . . . . . . . . . . . . . . . 285Statistiques de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286Profils supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

xii

Page 13: SPSS Categories 14.0

Exemple : Perceptions des marques de café. . . . . . . . . . . . . . . . . . . . . . . 293Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300Diagrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302Normalisation symétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304

Exemple : Distance de vol entre les villes . . . . . . . . . . . . . . . . . . . . . . . . . 306Tableau des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315Coordonnées principales des colonnes et des lignes . . . . . . . . . . . . . 316

Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

13 Analyse de correspondance multiple 319

Exemple : Caractéristiques du matériel . . . . . . . . . . . . . . . . . . . . . . . . . . . 319Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320Récapitulatif des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323Coordonnées principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324Mesures de discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326Valeurs affectées aux modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327Etude plus détaillée des coordonnées des objets . . . . . . . . . . . . . . . . 329Omission des valeurs éloignées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333

Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338

14 Positionnement multidimensionnel 341

Exemple : Examen des termes de parenté. . . . . . . . . . . . . . . . . . . . . . . . . 341Choix du nombre de dimensions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342Solution tridimensionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

xiii

Page 14: SPSS Categories 14.0

Solution tridimensionnelle avec transformations personnalisées . . . . 359Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363

Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364

15 Dépliage multidimensionnel 365

Exemple : Préférences alimentaires du petit-déjeuner . . . . . . . . . . . . . . . 365Création d’une solution dégénérée . . . . . . . . . . . . . . . . . . . . . . . . . . 365Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368Exécution d’une analyse non-dégénérée . . . . . . . . . . . . . . . . . . . . . . 368Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370

Exemple : Dépliage tridimensionnel des préférences relatives auxaliments du petit-déjeuner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371

Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373Espaces individuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374Utilisation d’une configuration initiale différente . . . . . . . . . . . . . . . . 377Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380Espaces individuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381

Exemple : Examen de la justesse de la relation comportement-situation . . 383Exécution de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386Transformations de proximité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387Modification de la transformation des proximités. . . . . . . . . . . . . . . . 388Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389

xiv

Page 15: SPSS Categories 14.0

Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390Transformations de proximité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

Lectures recommandées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

Bibliographie 393

Index 401

xv

Page 16: SPSS Categories 14.0
Page 17: SPSS Categories 14.0

Partie I:Guide de l'utilisateur

Page 18: SPSS Categories 14.0
Page 19: SPSS Categories 14.0

Chapitre

1Introduction aux procédures decodage optimal SPSS pour lesdonnées qualitatives

Les procédures de modalité SPSS font appel au codage optimal pour analyser lesdonnées dont l’analyse par le biais des procédures statistiques standard est complexe,voire impossible. Ce chapitre décrit le fonctionnement de chacune des procédures,les circonstances dans lesquelles leur utilisation est la plus favorable, les relationsentre les différentes procédures et les relations de ces dernières avec les procéduresstatistiques standard.

Remarque : Ces procédures et leur mise en œuvre SPSS ont été développées parle groupe DTSS (Data Theory Scaling System), qui se compose de membres desdépartements d’enseignement et de psychologie de la Faculté des sciences sociales etdu comportement de l’Université de Leiden (Pays-Bas).

Définition du codage optimal

Le codage optimal consiste à associer des quantifications numériques aux modalitésde chaque variable. Ainsi, les procédures standard peuvent être utilisées pour obtenirune solution portant sur les variables quantifiées.

Les valeurs d’échelle optimale sont attribuées aux modalités de chaque variableselon le critère d’optimisation de la procédure utilisée. A la différence des étiquettesd’origine des variables nominales ou ordinales de l’analyse, ces valeurs d’échelle ontdes propriétés métriques.

Dans la plupart des procédures de modalité, la quantification optimale de chaquevariable codée est obtenue via une méthode itérative appelée moindres carrésalternés. Dans cette méthode, les quantifications actuelles, une fois utilisées pour

1

Page 20: SPSS Categories 14.0

2

Chapitre 1

chercher une solution, sont mises à jour à l’aide de cette solution. Les quantificationsmises à jour permettent alors de chercher une autre solution, utilisée pour mettre à jources quantifications, jusqu’à ce que le critère signalant la fin du processus soit satisfait.

Raisons de l’utilisation du codage optimal

En général, les données qualitatives sont utilisées dans le cadre d’une recherchecommerciale, d’un sondage ou d’une recherche liée aux sciences sociales et ducomportement. En fait, nombreux sont les chercheurs qui travaillent exclusivementavec ce type de données.

Alors que les adaptations de la plupart des modèles standard sont disponiblesnotamment pour l’analyse des données qualitatives, leur utilisation ne convient pasaux ensembles de données contenant :

Un nombre d’observations insuffisant

Un nombre de variables excessif

Un nombre de valeurs par variable excessif

En quantifiant les modalités, les méthodes de codage optimal évitent tout problèmedans ces cas-là. En outre, elles s’avèrent utiles même si des méthodes spécifiquessont appropriées.

Habituellement, l’interprétation de résultats de codage optimal repose sur desgraphiques, plutôt que sur des estimations de paramètres. Les méthodes de codageoptimal fournissent d’excellentes analyses exploratoires qui complètent bien lesautres modèles SPSS. Si vous affinez votre recherche, la visualisation des donnéescodées de façon optimale peut servir de base à une analyse centrée sur l’interprétationde paramètres de modèle.

Niveau de codage optimal et niveau de mesure

Ce concept peut fortement prêter à confusion lorsque vous utilisez les procédures demodalité pour la première fois. Si vous spécifiez le niveau, il ne s’agit pas du niveaude mesure des variables, mais de leur niveau de codage. L’idée est la suivante : lesvariables à quantifier peuvent avoir des relations non linéaires, quelle que soit lamanière dont elles sont mesurées.

Page 21: SPSS Categories 14.0

3

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

On distingue trois niveaux de mesure de base pour les modalités :

Le niveau nominal signifie que les valeurs d’une variable représentent desmodalités non classées. Voici quelques exemples de variables pouvant êtreconsidérées comme nominales : les modalités de région, de code postal,d’appartenance religieuse et à choix multiples.

Le niveau ordinal signifie que les valeurs d’une variable représentent desmodalités classées. En voici quelques exemples : les échelles d’attitudereprésentant le degré de satisfaction ou de confiance, et les échelles d’évaluationdes préférences.

Le niveau numérique signifie que les valeurs d’une variable représentent desmodalités classées avec une mesure significative, de sorte que les comparaisonsde distance entre les modalités soient adéquates. L’âge en années et le revenu enmilliers de dollars constituent des exemples.

Par exemple, supposons que les variables région, travail et âge sont codées commel’indique le tableau suivant.

Tableau 1-1Système de codage de la région, du travail et de l’âge

Région Travail age

1 Nord 1 stagiaire 20 vingt ans

2 Sud 2 représentant 22 vingt-deux ans

3 Est 3 Gestionnaire 25 vingt-cinq ans

4 Ouest 27 vingt-sept ans

Les valeurs mentionnées représentent les modalités de chaque variable. Régionest une variable nominale. On distingue quatre modalités de région sans ordreintrinsèque. Les valeurs 1 à 4 représentent simplement ces quatre modalités. Lesystème de codage est totalement arbitraire. En revanche, la variable travail peutêtre considérée comme une variable ordinale. Les modalités d’origine représententune progression du statut de stagiaire à celui de responsable. Plus les codes sontélevés, plus ils font référence à fonction élevée dans la hiérarchie de l’entreprise.Toutefois, seules les informations relatives à l’ordre sont connues, mais aucunélément d’information ne peut être fourni concernant la distance entre les modalitésadjacentes. En revanche, la variable âge peut être considérée comme une variablenumérique. Dans le cas de la variable âge, les distances entre les valeurs sont

Page 22: SPSS Categories 14.0

4

Chapitre 1

intrinsèquement explicites. La distance entre 20 et 22 est identique à celle entre 25 et27, alors que la distance entre 22 et 25 est supérieure à ces deux distances.

Sélection du niveau de codage optimal

Il est important de comprendre qu’aucune propriété intrinsèque de variablene prédéfinit automatiquement le niveau de codage optimal que vous devezindiquer. Vous pouvez explorer les données de manière cohérente et simplifiantl’interprétation. En analysant une variable numérique au niveau ordinal, par exemple,une transformation non linéaire autorise une solution dans un nombre inférieur dedimensions.

Les deux exemples suivants illustrent le fait que le niveau de mesure « évident »n’est peut-être pas le niveau de codage optimal. Supposez qu’une variable répartit lesobjets dans les différents groupes d’âge. Bien que la variable âge puisse être codéeen tant que variable numérique, il s’avère parfois que, pour les jeunes de moins de25 ans, la sécurité a un rapport positif avec l’âge alors que, pour les personnes de plusde 60 ans, ce rapport à l’âge est négatif. Dans ce cas, mieux vaut peut-être considérerâge comme une variable nominale.

Autre exemple : une variable triant les personnes par préférence politique sembleavant tout être nominale. Toutefois, si vous triez les partis politiques de gauche àdroite, il se peut que leur quantification doive respecter cet ordre. Dans ce cas, vousdevrez utiliser un niveau d’analyse ordinal.

Même s’il n’existe aucune propriété prédéfinie de variable la transformantexclusivement en tel ou tel niveau, l’utilisateur débutant peut s’aider des règlesgénérales suivantes. Dans la quantification nominale simple, vous ne connaissezpas en général l’ordre des modalités, mais l’analyse doit en imposer un. Si l’ordredes modalités est connu, vous devez faire appel à la quantification ordinale. Siles modalités ne peuvent pas être classées, vous pouvez utiliser la quantificationnominale multiple.

Diagrammes de transformation

Les différents niveaux auxquels chaque variable peut être codée imposent plusieursrestrictions dans les quantifications. Les diagrammes de transformation illustrent larelation entre les quantifications et les modalités d’origine résultant du niveau decodage optimal sélectionné. Par exemple, un diagramme de transformation linéaire

Page 23: SPSS Categories 14.0

5

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

est obtenu lorsqu’une variable est considérée comme numérique. Les variablesconsidérées comme ordinales entraînent la création d’un diagramme de transformationnon décroissant. Les diagrammes de transformation de variables considérées commenominales, en forme de U (ou l’inverse), affichent une relation quadratique. Cesvariables peuvent également créer des diagrammes de transformation sans tendanceapparente en changeant complètement l’ordre des modalités. La figure suivantereprésente un exemple de diagramme de transformation.

Les diagrammes de transformation conviennent particulièrement à la définitiondu mode de fonctionnement du niveau de codage optimal sélectionné. Si plusieursmodalités reçoivent des quantifications similaires, la fusion de ces modalités en uneseule modalité peut être garantie. Si une variable considérée comme nominale reçoitdes quantifications affichant une tendance croissante, une transformation ordinalepeut également entraîner un ajustement similaire. Si cette tendance est linéaire, il peutêtre approprié de considérer la variable comme numérique. Toutefois, si la fusiondes modalités ou la modification des niveaux de codage est garantie, l’analyse nevarie pas de façon significative.

Figure 1-1Diagramme de transformation de prix (numérique)

Page 24: SPSS Categories 14.0

6

Chapitre 1

Codes de modalité

Soyez vigilant lorsque vous codez des variables qualitatives, car certains systèmesde codage peuvent générer des résultats indésirables ou des analyses incomplètes.Les systèmes de codage applicables à la variable travail sont répertoriés dans letableau suivant.

Tableau 1-2Autres systèmes de codage de la variable travail

Système de codage

Modalité A B C D

stagiaire 1 1 5 1

représentant 2 2 6 5

Gestionnaire 3 7 7 3

Certaines procédures de modalité exigent que la plage de valeurs de chaque variablesoit définie. Toute valeur en dehors de cette plage est considérée comme manquante.La valeur minimale de modalité est toujours égale à 1. La valeur maximale demodalité, quant à elle, est fournie par l’utilisateur. Cette valeur ne représente pas lenombre de modalités d’une variable.— Il s’agit de la valeur maximale de modalité.Par exemple, dans ce tableau, le système de codage A est doté d’une modalitémaximale égale à 3, et le système de codage B, d’une valeur maximale de modalitéégale à 7. Toutefois, ces deux systèmes codent les trois mêmes modalités.

La plage de variables détermine les modalités qui sont omises de l’analyse. Lesmodalités ayant des codes en dehors de la plage définie sont également omises decette analyse. Cette méthode est certes simple pour omettre des modalités, mais ellepeut entraîner des analyses indésirables. Une modalité mal définie peut omettredes modalités valides de l’analyse. Par exemple, pour le système de codage B,définir la valeur maximale de modalité sur 3 signifie que la variable travail possèdedes modalités codées de 1 à 3. La modalité de responsable est considérée commemanquante. Aucune modalité n’ayant été réellement codée 3, la troisième modalitéde l’analyse ne contient aucune observation. Si vous souhaitez omettre toutes lesmodalités de responsable, cette analyse est tout à fait appropriée. Toutefois, si desresponsables doivent être ajoutés, la modalité maximale doit être définie sur 7 etles valeurs manquantes doivent être codées avec des valeurs supérieures à 7 ouinférieures à 1.

Page 25: SPSS Categories 14.0

7

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

Pour les variables considérées comme nominales ou ordinales, la plage desmodalités n’a aucune incidence sur les résultats. Pour les valeurs nominales, seulel’étiquette, et non la valeur qui lui est associée, est déterminante. Pour les variablesordinales, l’ordre des modalités est conservé dans les quantifications. Les valeurs demodalité proprement dites ne sont pas importantes. Tous les systèmes de codageaboutissant au même classement des modalités auront des résultats identiques. Parexemple, les trois premiers systèmes de codage du tableau sont fonctionnellementéquivalents si la variable travail est analysée à un niveau ordinal. L’ordre desmodalités est identique dans ces systèmes. En revanche, le système de codage Dinverse les deuxième et troisième modalités, et génère des résultats différents deceux des autres systèmes.

Bien que de nombreux systèmes de codage de variable soient fonctionnellementéquivalents, on leur préfère l’utilisation d’autres systèmes présentant de légèresdifférences entre les codes, car ces derniers influent sur le nombre de résultats généréspar une procédure. Toutes les modalités codées dotées de valeurs comprises entre 1 etla valeur maximale définie par l’utilisateur sont valides. Si l’une de ces modalitésest vide, les quantifications correspondantes seront manquantes par défaut ou nulles,selon la procédure utilisée. Bien qu’aucune de ces affectations n’ait d’incidencesur les analyses, des résultats sont créés pour ces modalités. Par conséquent, pourle système de codage B, la variable travail possède quatre modalités recevant desvaleurs manquantes par défaut. Pour le système de codage C, on distingue égalementquatre modalités recevant des indicateurs manquants par défaut. En revanche, pourle système de codage A, il n’existe aucune quantification manquante par défaut.Utiliser des entiers consécutifs en tant que codes pour les variables traitées commedes variables nominales ou ordinales génère beaucoup moins de résultats sans affecterpour autant les autres résultats.

Les systèmes de codage des variables considérées comme numériques sont plusrestreints que l’observation ordinale. Pour ces variables, les différences entreles modalités consécutives sont significatives. Le tableau suivant répertorie troissystèmes de codage pour la variable âge.

Page 26: SPSS Categories 14.0

8

Chapitre 1

Tableau 1-3Autres systèmes de codage d’âge

Système de codage

Modalité A B C

20 20 1 1

22 22 3 2

25 25 6 3

27 27 8 4

Tout recodage des variables numériques doit conserver les différences entre lesmodalités. Une méthode garantissant leur conservation consiste à utiliser les valeursd’origine. Toutefois, nombreuses sont les modalités qui risquent d’avoir au final desindicateurs manquants par défaut. Par exemple, le système de codage A emploieles valeurs observées d’origine. Pour les procédures de modalité, à l’exception del’Analyse des correspondances, la valeur maximale de modalité est égale à 27, etla valeur minimale de modalité est définie sur 1. Les 19 premières modalités sontvides et reçoivent des indicateurs manquants par défaut. Le nombre de résultats peutdevenir rapidement conséquent si la modalité maximale est nettement supérieure à 1et qu’il existe de nombreuses modalités vides comprises entre 1 et la valeur maximale.

Pour réduire le nombre de résultats, vous pouvez procéder à un recodage.Néanmoins, pour les variables numériques, vous ne devez pas utiliser la fonctionde recodage automatique. Le codage appliqué aux entiers consécutifs génère desdifférences de 1 entre toutes les modalités consécutives et, par conséquent, l’ensembledes quantifications est espacé de la même manière. Les caractéristiques métriquesjugées primordiales lorsqu’une variable est considérée comme numérique sontsupprimées par l’application d’un recodage aux entiers consécutifs. Par exemple, lesystème de codage C du tableau correspond au recodage automatique de la variableâge. La différence entre les modalités 22 et 25 passe de trois à un. Les quantificationsreflètent ce changement.

Un autre système de recodage conservant les différences entre les modalitésconsiste à déduire de chaque modalité la valeur minimale de la modalité et à ajouter 1à chaque différence. Le système B constitue l’aboutissement de cette transformation.La valeur minimale de modalité, 20, a été déduite de chaque modalité, et 1 a étéajouté à chaque résultat. Les codes transformés possèdent une valeur minimale,1, et l’ensemble des différences est identique aux données d’origine. La valeurmaximale de modalité est désormais égale à 8. En outre, les quantifications nulles

Page 27: SPSS Categories 14.0

9

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

précédant la première quantification non nulle sont toutes supprimées. Toutefois, lesquantifications non nulles qui correspondent à chaque modalité issue du système Bsont identiques aux quantifications du système A.

Utilisation de la procédure la plus adaptée à votre application

Les méthodes contenues dans quatre de ces procédures (analyse des correspondances,analyse de correspondance multiple, analyse en composantes principales qualitativeset analyse de corrélation canonique non linéaire) font partie du processus générald’analyse des données multivariées, appelé réduction des dimensions. En termesplus précis, les relations entre les variables sont représentées dans plusieursdimensions (deux ou trois) aussi souvent que possible. Vous pouvez ainsi décrire lesstructures ou les motifs des relations qu’il serait trop difficile de comprendre dansleur richesse et leur complexité originales. Dans les applications d’étude de marché,ces méthodes peuvent représenter un type de configuration perceptuelle. Cesprocédures présentent un avantage majeur : elles adaptent les données à différentsniveaux de codage optimal.

La régression nominale décrit la relation entre une variable de réponse qualitativeet une combinaison de variables indépendantes qualitatives. L’influence de chaquevariable indépendante sur la variable de réponse est signalée par la pondération derégression correspondante. Comme dans les autres procédures, les données peuventêtre analysées avec plusieurs niveaux de codage optimal.

Le positionnement et le dépliage multidimensionnels décrivent les relations entreles objets dans un espace de petite dimension à l’aide des proximités entre les objets.

Voici quelques règles applicables à chaque procédure :

Utilisez la régression nominale pour prévoir les valeurs d’une variable dépendantequalitative issue d’une combinaison de variables indépendantes qualitatives.

Utilisez l’analyse en composantes principales qualitatives pour représenter lesmotifs de variation d’un ensemble de variables de niveaux de codage optimalmixtes.

Utilisez l’analyse de corrélation canonique non linéaire pour évaluer l’importancede la corrélation de plusieurs ensembles de variables de niveaux de codageoptimal mixtes.

Page 28: SPSS Categories 14.0

10

Chapitre 1

Utilisez l’analyse des correspondances pour analyser les tableaux de contingenceà deux entrées ou les données pouvant être fournies en tant que tableau à deuxentrées, comme les données de préférence de marque ou de choix sociométrique.

Utilisez l’analyse de correspondance multiple pour analyser une matrice dedonnées multivariées qualitatives si vous souhaitez simplement que les variablessoient analysées au niveau nominal.

Utilisez le positionnement multidimensionnel pour analyser des données deproximité. L’objectif est de trouver une représentation à moindres carrés d’unseul ensemble d’objets dans un espace de petite dimension.

Utilisez le dépliage multidimensionnel pour analyser des données de proximité.L’objectif est de trouver une représentation à moindres carrés de deux ensemblesd’objets dans un espace de petite dimension.

Régression nominale

La régression nominale convient le mieux si votre analyse a pour but de prévoir unevariable (de réponse) dépendante issue d’un ensemble de variables indépendantes.Comme pour toutes les procédures de codage optimal, des valeurs d’échelle sontattribuées à chaque modalité de chaque variable, afin que ces valeurs soient optimalespar rapport à la régression. La solution d’une régression nominale optimise lacorrélation carrée entre la réponse transformée et la combinaison pondérée devariables explicatives transformées.

Relation avec les autres procédures de modalité. La régression nominale avec codageoptimal est comparable à l’analyse de corrélation canonique avec codage optimalutilisant deux ensembles, dont l’un contient uniquement la variable dépendante. Dansla dernière méthode, la similitude des ensembles est calculée par comparaison dechaque ensemble à une variable inconnue située entre tous les ensembles. Dans larégression nominale, la similitude de la réponse transformée et de la combinaisonlinéaire de variables explicatives transformées est évaluée directement.

Relation avec les méthodes standard. Dans la régression linéaire standard, les variablesqualitatives peuvent être soit recodées en tant que variables indicatrices, soit traitéesde la même manière que les variables de niveau d’intervalle. Dans la premièreapproche, le modèle inclut une constante et une pente différentes pour chaquecombinaison de niveaux des variables qualitatives. Un grand nombre de paramètres àinterpréter est ainsi généré. Dans la seconde approche, un seul paramètre est estimé

Page 29: SPSS Categories 14.0

11

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

pour chaque variable. Toutefois, la nature arbitraire des codages de modalité rendtoute généralisation impossible.

Si une partie des variables n’est pas continue, d’autres types d’analyse sontdisponibles. Si la réponse est continue et les variables explicatives qualitatives,l’analyse des variances est généralement utilisée. Si la réponse est qualitative et lesvariables explicatives continues, la régression logistique ou l’analyse discriminantepeut convenir. Si la réponse et les variables explicatives sont qualitatives, les modèleslog-linéaires sont généralement utilisés.

La régression avec codage optimal fournit trois niveaux de codage pour chaquevariable. Les combinaisons de ces niveaux peuvent représenter des relations nonlinéaires très diverses auxquelles une méthode « standard » n’est pas du tout adaptée.Par conséquent, le codage optimal s’avère une solution beaucoup plus souple que lesapproches standard un peu plus complexes.

En outre, les transformations non linéaires des variables explicatives réduisenthabituellement les dépendances des uns par rapport aux autres. Si vous comparezles valeurs propres de la matrice de corrélation des variables explicatives avec cellesde la matrice de corrélation des variables explicatives codées de façon optimale, cesdernières sont généralement moins variables que les autres. En d’autres termes, dansla régression nominale, le codage optimal réduit les valeurs propres supérieures dela matrice de corrélation des variables explicatives et incrémente les valeurs propresinférieures.

Analyse en composantes principales qualitatives

L’utilisation de l’analyse en composantes principales qualitatives convient le mieuxpour représenter les motifs de variation d’un ensemble de variables de niveaux decodage optimal mixtes. Cette méthode tente de réduire le nombre de dimensions d’unensemble de variables et de représenter cette variation dans la mesure du possible.Des valeurs d’échelle sont attribuées à chaque modalité des variables afin que cesvaleurs soient optimales par rapport à la solution en composantes principales. Lesobjets utilisés pour l’analyse reçoivent les coordonnées des composantes basées surles données quantifiées. Les diagrammes de coordonnées des composantes révèlentles motifs figurant parmi les objets de l’analyse, ainsi que les objets inhabituelscontenus dans les données. La solution d’une analyse des composantes principalesqualitatives optimise les corrélations de coordonnées des objets avec chaque variablequantifiée pour le nombre de composantes (dimensions) indiqué.

Page 30: SPSS Categories 14.0

12

Chapitre 1

Une fonction importante des composantes principales qualitatives consiste àvérifier les données de préférence, où les répondants classent ou évaluent unnombre d’éléments par rapport à la préférence. Dans la configuration habituelle desdonnées SPSS, les lignes correspondent aux individus, les colonnes aux mesures deséléments et les scores figurant sur les lignes, aux scores de préférence (sur une échellede 0 à 10, par exemple), ce qui rend les données dépendantes des lignes. Pour lesdonnées de préférence, vous pouvez considérer les individus comme des variables.Grâce à la procédure de transposition, vous pouvez transposer ces données. Lesindicateurs sont les variables et toutes les variables sont déclarées ordinales. Si vousle souhaitez, vous pouvez utiliser plus de variables que d’objets pour la procédureCATPCA.

Relation avec les autres procédures de modalité. Si toutes les variables sont déclaréesnominales multiples, l’analyse en composantes principales qualitatives génère uneanalyse équivalant à une analyse de correspondance multiple exécutée sur les mêmesvariables. Par conséquent, l’analyse en composantes principales qualitatives peutêtre considérée comme un type d’analyse de correspondance multiple dans lequelcertaines variables sont déclarées ordinales ou numériques.

Relation avec les méthodes standard. Si toutes les variables sont codées au niveaunumérique, l’analyse en composantes principales qualitatives équivaut à l’analyse encomposantes principales standard.

Plus généralement, l’analyse en composantes principales qualitatives représenteun autre moyen de calculer les corrélations entre les échelles non numériques, etde leur appliquer une analyse factorielle ou en composantes principales standard.Toute utilisation simpliste du coefficient de corrélation de Pearson habituel commemesure d’association de données ordinales peut avoir une incidence significativesur l’estimation des corrélations.

Analyse de corrélation canonique non linéaire

L’Analyse de corrélation canonique non linéaire est une procédure très généralecomportant de nombreuses tâches. Ce type d’analyse a pour but d’analyser lesrelations entre plusieurs ensembles de variables, au lieu des variables proprementdites, comme dans l’analyse en composantes principales. Par exemple, vous pouvezutiliser deux ensembles de variables : l’un peut inclure des éléments d’ordredémographique concernant un groupe de répondants, alors que l’autre peut contenirles réponses à un ensemble d’éléments d’attitude. Les niveaux de codage de l’analyse

Page 31: SPSS Categories 14.0

13

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

peuvent représenter une combinaison de niveaux nominal, ordinal et numérique.L’analyse de corrélation canonique avec codage optimal détermine la similitudeentre les ensembles en comparant simultanément les variables canoniques de chaqueensemble à un groupe de coordonnées de compromis associé aux objets.

Relation avec les autres procédures de modalité. Si plusieurs ensembles de variablescontiennent chacun une seule variable, l’analyse de corrélation canonique aveccodage optimal équivaut à l’analyse en composantes principales avec codage optimal.Si toutes les variables d’une analyse de type « une variable par ensemble » sontnominales multiples, l’analyse de corrélation canonique avec codage optimal équivautà l’analyse de correspondance multiple. Dans le cas de deux ensembles de variables,dont l’un comprend une seule variable, l’analyse de corrélation canonique aveccodage optimal équivaut à la régression nominale avec codage optimal.

Relation avec les méthodes standard. L’analyse de corrélation canonique standardest une méthode statistique qui recherche une combinaison linéaire d’un premierensemble de variables et celle d’un second ensemble de variables corrélées de façonoptimale. Du fait de ces combinaisons linéaires, l’analyse de corrélation canoniquepeut rechercher les ensembles indépendants de combinaisons linéaires suivants,appelés variables canoniques. Le nombre maximal d’ensembles doit être égal aunombre de variables contenues dans le plus petit ensemble.

Si deux ensembles de variables sont utilisés dans l’analyse et toutes les variablesdéfinies comme étant numériques, l’analyse de corrélation canonique avec codageoptimal équivaut à une analyse de corrélation canonique standard. Bien que SPSS nepropose aucune procédure d’analyse de corrélation canonique, vous pouvez obtenirune bonne partie des statistiques concernées par le biais de l’analyse multivariéedes variances.

L’analyse de corrélation canonique avec codage optimal fournit de nombreusesfonctions. Si vous utilisez deux ensembles de variables et que l’un d’eux contientune variable nominale déclarée nominale simple, les résultats de l’analyse decorrélation canonique avec codage optimal peuvent être interprétés d’une manièresimilaire à ceux de l’analyse de régression. Si vous considérez que cette variableest nominale multiple, l’analyse avec codage multiple constitue une alternative àl’analyse discriminante. Regrouper les variables dans plus de deux ensembles vouspermet d’analyser les données de différentes manières.

Page 32: SPSS Categories 14.0

14

Chapitre 1

Analyse des correspondances

L’analyse des correspondances a pour but de créer des diagrammes doubles pour lestableaux de correspondances. Dans un tableau de correspondances, les variablesde ligne et de colonne sont supposées représenter les modalités non classées. Parconséquent, le niveau de codage optimal nominal est systématiquement utilisé.Seules les données nominales sont recherchées dans ces deux types de variable. Ils’agit en réalité de tenir compte du fait que certains objets se trouvent dans la mêmemodalité, alors que ce n’est pas le cas pour d’autres. Aucune hypothèse n’est avancéeconcernant la distance ou l’ordre entre les modalités de la même variable.

L’analyse des correspondances peut notamment servir à analyser les tableaux decontingence à deux entrées. Si un tableau possède r lignes actives et c colonnesactives, le nombre de dimensions de la solution d’analyse des correspondancescorrespond au nombre minimal de r moins 1 ou de c moins 1, selon la valeurla plus faible. En d’autres termes, vous pouvez parfaitement représenter lesmodalités de ligne ou de colonne d’un tableau de contingence dans un espace dedimensions. En pratique, vous pouvez néanmoins représenter les modalités deligne et de colonne d’un tableau à deux entrées dans un espace comportant peu dedimensions, plus précisément deux, pour la simple raison que la compréhensiondes diagrammes bidimensionnels est bien plus facile que celle des représentationsspatiales multidimensionnelles.

Lorsqu’un nombre de dimensions inférieur au nombre maximal de dimensionspossibles est utilisé, les statistiques créées lors de l’analyse décrivent la manière dontles modalités de ligne et de colonne sont reproduites dans la représentation comportantpeu de dimensions. Si la qualité de la représentation de la solution bidimensionnelleest satisfaisante, vous pouvez vérifier les diagrammes des points de ligne et de colonnepour déterminer les modalités similaires de la variable de ligne et de la variable decolonne, et les modalités de ligne et de colonne similaires les unes aux autres.

Relation avec les autres procédures de modalité. L’analyse simple des correspondancesse limite aux tableaux à deux entrées. Si plusieurs variables vous intéressent, vouspouvez en combiner certaines pour créer des variables d’interaction. Par exemple,pour les variables région, travail et âge, vous pouvez combiner région et travail afinde créer une variable rétrav possédant les 12 modalités répertoriées dans le tableausuivant. Cette variable crée un tableau à deux entrées avec la variable âge (12 lignes,4 colonnes), qui peut faire l’objet d’une analyse de correspondances.

Page 33: SPSS Categories 14.0

15

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

Tableau 1-4Combinaisons des variables région et travail

Code de modalité Définition de modalité Code de modalité Définition de modalité

1 Nord, stagiaire 7 Est, stagiaire

2 Nord, représentant 8 Est, représentant

3 Nord, responsable 9 Est, responsable

4 Sud, stagiaire 10 Ouest, stagiaire

5 Sud, représentant 11 Ouest, représentant

6 Sud, responsable 12 Ouest, responsable

Cette approche présente un défaut, à savoir que toute paire de variables peut êtrecombinée. Nous pouvons combiner travail et âge, et ainsi obtenir une autrevariable de 12 modalités. Nous pouvons également combiner région et âge, cequi entraîne la création d’une variable de 16 modalités. Chacune de ces variablesd’interaction génère un tableau à deux entrées avec l’autre variable. Les analysesdes correspondances de ces trois tableaux donnent des résultats différents, même sichaque résultat est valide. En outre, dans le cas de quatre variables au moins, vouspouvez créer des tableaux à deux entrées comparant une variable d’interaction avecune autre. Le nombre de tableaux possibles à analyser peut devenir très important,même pour quelques variables seulement. Vous pouvez combiner l’un de ces tableauxpour l’analyse ou les analyser tous. Vous pouvez également utiliser la procédured’analyse de correspondance multiple pour vérifier toutes les variables à la fois sansavoir à créer de variables d’interaction.

Relation avec les méthodes standard. En outre, la procédure de tableau croisé SPSSpermet d’analyser les tableaux de contingence, avec l’indépendance comme valeurcommune aux différentes analyses. Toutefois, même dans les petits tableaux,déterminer l’origine d’un départ à partir de la valeur d’indépendance peut s’avérercomplexe. L’analyse des correspondances est utile car elle analyse ces motifs pourles tableaux à deux entrées, quelle que soit leur taille. En cas d’association entre lesvariables de ligne et de colonne (c’est-à-dire si la valeur Khi-deux est significative),l’analyse des correspondances peut contribuer à révéler la nature de la relation.

Page 34: SPSS Categories 14.0

16

Chapitre 1

Analyse de correspondance multiple

L’Analyse de correspondance multiple tente de créer une solution dans laquelle lesobjets faisant partie de la même modalité sont représentés proches les uns des autres,et les objets de modalités différentes, éloignés les uns des autres. Chaque objetse trouve aussi près que possible des points de modalité qui s’appliquent. Ainsi,les modalités divisent les objets en sous-groupes homogènes. Les variables sontconsidérées comme homogènes lorsqu’elles classent les objets des mêmes modalitésdans les mêmes sous-groupes.

Pour une solution en une dimension, l’analyse de correspondance multipleattribue des valeurs d’échelle optimale (quantifications de modalité) à chaquemodalité de chaque variable si bien que, dans l’ensemble, les modalités ont enmoyenne une étendue maximale. Pour une solution en deux dimensions, l’analysede correspondance multiple recherche un second ensemble de quantifications desmodalités de chaque variable non lié au premier ensemble, en réessayant d’optimiserl’étendue, etc. Les modalités recevant autant de coordonnées qu’il existe dedimensions, les variables de l’analyse sont censées être nominales multiples au niveaude codage optimal.

L’analyse de correspondance multiple affecte également des coordonnéesaux objets de l’analyse, afin que les quantifications de modalité représentent lesmoyennes, ou barycentres, des coordonnées des objets de la modalité.

Relation avec les autres procédures de modalité. L’analyse de correspondancemultiple est également appelée analyse d’homogénéité ou double codage. Ellefournit des résultats, certes comparables mais pas identiques, à ceux de l’analysedes correspondances lorsque seules deux variables sont utilisées. L’analyse descorrespondances génère des résultats uniques récapitulant l’ajustement et la qualitéde la représentation de la solution, y compris les informations de stabilité. Parconséquent, dans le cas de deux variables, il vaut mieux généralement préférerl’analyse des correspondances à l’analyse de correspondance multiple. Ces deuxprocédures présentent une autre différence : le point de départ de l’analyse decorrespondance multiple est une matrice de données, dans laquelle les lignes sont desobjets et les colonnes sont des variables. Quant au point de départ de l’analyse descorrespondances, il peut être la même matrice de données, une matrice de proximitégénérale ou un tableau de contingence joint, qui est une matrice récapitulative oùles lignes et les colonnes représentent des modalités de variables. L’analyse decorrespondance multiple peut également être assimilée à l’analyse en composantesprincipales de données codées au niveau nominal multiple.

Page 35: SPSS Categories 14.0

17

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

Relation avec les méthodes standard. L’analyse de correspondance multiple peutêtre considérée comme étant l’analyse d’un tableau de contingence à entréesmultiples. Un tableau de contingence à entrées multiples peut également être analyséavec la procédure de tableaux croisés SPSS, mais celle-ci fournit des statistiquesrécapitulatives distinctes pour chaque modalité de chaque variable de contrôle. Grâceà l’analyse de correspondance multiple, il est généralement possible de récapitulerla relation entre toutes les variables à l’aide d’un diagramme bidimensionnel. Unmode d’utilisation avancé de ce type d’analyse consiste à remplacer les valeurs demodalité d’origine par les valeurs d’échelle optimale de la première dimension, puis àeffectuer une analyse multivariée secondaire. Puisque l’analyse de correspondancemultiple remplace les étiquettes de modalité par des valeurs d’échelle numérique, denombreuses procédures nécessitant des données numériques peuvent être appliquéeslorsqu’elle est terminée. Par exemple, la procédure d’analyse factorielle crée unepremière composante principale équivalant à la première dimension de l’analysede correspondance multiple. Les coordonnées des composantes de la premièredimension sont identiques à celles des objets et les corrélations entre composantes,aux mesures de discrimination. Néanmoins, la deuxième dimension de l’analyse decorrespondance multiple est différente de celle de l’analyse factorielle.

Positionnement multidimensionnel

Le positionnement multidimensionnel convient le mieux si votre analyse a pourbut de rechercher une structure dans un ensemble de mesures de distance entre unensemble d’objets ou d’observations unique. Pour cela, il affecte les observationsà des positions particulières dans un espace conceptuel de petite dimension de tellesorte que les distances entre les points dans l’espace correspondent le mieux possibleaux dissimilarités données. Le résultat est une représentation à moindres carrés desobjets dans cet espace de petite dimension, qui vous aidera, dans certains cas, à mieuxcomprendre vos données.

Relation avec les autres procédures de modalité. Lorsque vous utilisez des donnéesmultivariées à partir desquelles vous créez des distances et que vous analysez ensuiteavec le positionnement multidimensionnel, les résultats s’avèrent similaires à ceux del’analyse des données utilisant une analyse des composantes principales qualitatives,impliquant la standardisation principale des objets. Ce type d’analyse en composantesprincipales est également appelé analyse des coordonnées principales.

Page 36: SPSS Categories 14.0

18

Chapitre 1

Relation avec les méthodes standard. La Procédure de positionnementmultidimensionnel qualitatif (PROXSCAL) apporte des améliorations à la procédurede codage disponible dans le système SPSS de base (ALSCAL). PROXSCALfournit un algorithme accéléré pour certains modèles et vous permet d’appliquer desrestrictions à l’espace commun. En outre, PROXSCAL tente de minimiser le stressbrut normalisé plutôt que le stress S (également appelé pression). En général, ondénote une certaine préférence pour le stress brut normalisé, car cette mesure estbasée sur les distances, alors que le stress S est basé sur leur carré.

Dépliage multidimensionnel

Le Dépliage multidimensionnel convient mieux si votre analyse a pour but derechercher une structure dans un ensemble de mesures de distance entre deuxensembles d’objets (appelés objets de ligne et de colonne). Pour cela, il affecteles observations à des positions particulières dans un espace conceptuel de petitedimension de telle sorte que les distances entre les points dans l’espace correspondentle mieux possible aux dissimilarités données. Le résultat est une représentation àmoindres carrés des objets de ligne et de colonne dans cet espace de petite dimension,qui vous aidera, dans certains cas, à mieux comprendre vos données.

Relation avec les autres procédures de modalité. Si vos données sont constituées dedistances entre un ensemble unique d’objets (une matrice carrée, symétrique), utilisezPositionnement multidimensionnel.

Relation avec les méthodes standard. La procédure de dépliage multidimensionnel desmodalités (PREFSCAL) apporte des améliorations à la fonctionnalité de dépliagedisponible dans le système de base (avec ALSCAL). PREFSCAL vous permetd’instaurer des restrictions sur l’espace commun. En outre, PREFSCAL tente deminimiser une mesure de stress pénalisée, l’aidant ainsi à éviter de dégénérer dessolutions (auxquels les algorithmes précédents sont enclins).

Ratio d’aspect des diagrammes de codage optimal

Le ratio d’aspect des diagrammes de codage optimal est isotrope. Dans un diagrammebidimensionnel, la distance représentant une unité de la dimension 1 est égale à cellereprésentant une unité de la dimension 2. Si, dans ce type de diagramme, vousmodifiez l’étendue d’une dimension, le système modifie la taille de l’autre dimension

Page 37: SPSS Categories 14.0

19

Introduction aux procédures de codage optimal SPSS pour les données qualitatives

pour que les distances physiques restent égales. Il est impossible de remplacer unratio d’aspect isotrope pour les procédures de codage optimal.

Lectures recommandées

Reportez-vous aux documents suivants pour obtenir des informations générales surles méthodes de codage optimal.

Barlow, R. E., D. J. Bartholomew, D. J. Bremner, et H. D. Brunk. 1972. Statisticalinference under order restrictions. New York: John Wiley and Sons.

Benzécri, J. P. 1969. Statistical analysis as a tool to make patterns emerge fromdata. Dans : Methodologies of Pattern Recognition, S. Watanabe, ed. New York:Academic Press, 35–74.

Bishop, Y. M., S. E. Feinberg, et P. W. Holland. 1975. Discrete multivariate analysis.Cambridge, Mass.: MIT Press.

De Leeuw, J. 1984. The Gifi system of nonlinear multivariate analysis. Dans : DataAnalysis and Informatics III, E. Diday, et al., ed., 415–424.

De Leeuw, J. 1990. Multivariate analysis with optimal scaling. Dans : Progressin Multivariate Analysis, S. DasGupta, et J. Sethuraman, eds. Calcutta: IndianStatistical Institute.

De Leeuw, J., et J. Van Rijckevorsel. 1980. HOMALS and PRINCALS—Somegeneralizations of principal components analysis. Dans : Data Analysis andInformatics, E. Diday, et al., ed. Amsterdam: North-Holland, 231–242.

De Leeuw, J., F. W. Young, et Y. Takane. 1976. Additive structure in qualitative data:An alternating least squares method with optimal scaling features. Psychometrika,41, 471–503.

Gifi, A. 1990. Nonlinear multivariate analysis. Chichester: John Wiley and Sons.

Heiser, W. J., et J. J. Meulman. 1995. Nonlinear methods for the analysis ofhomogeneity and heterogeneity. Dans : Recent Advances in Descriptive MultivariateAnalysis, W. J. Krzanowski, ed. Oxford: OxfordUniversity Press, 51–89.

Israels, A. 1987. Eigenvalue techniques for qualitative data. Leiden: DSWO Press.

Krzanowski , W. J., et F. H. C. Marriott. 1994. Multivariate analysis: Part I,distributions, ordination and inference. London: Edward Arnold.

Page 38: SPSS Categories 14.0

20

Chapitre 1

Lebart, L., A. Morineau, et K. M. Warwick. 1984. Multivariate descriptive statisticalanalysis. New York: John Wiley and Sons.

Max, J. 1960. Quantizing for minimum distortion. Proceedings IEEE (InformationTheory), 6, 7–12.

Meulman, J. J. 1986. A distance approach to nonlinear multivariate analysis. Leiden:DSWO Press.

Meulman, J. J. 1992. The integration of multidimensional scaling and multivariateanalysis with optimal transformations of the variables. Psychometrika, 57, 539–565.

Nishisato, S. 1980. Analysis of categorical data: Dual scaling and its applications.Toronto: University of Toronto Press.

Nishisato, S. 1994. Elements of dual scaling: An introduction to practical dataanalysis. Hillsdale, N.J.: Lawrence Erlbaum Associates, Inc.

Rao, C. R. 1973. Linear statistical inference and its applications, 2nd ed. New York:John Wiley and Sons.

Rao, C. R. 1980. Matrix approximations and reduction of dimensionality inmultivariate statistical analysis. Dans : Multivariate Analysis, Vol. 5, P. R. Krishnaiah,ed. Amsterdam: North-Holland, 3–22.

Roskam, E. E. 1968. Metric analysis of ordinal data in psychology. Voorschoten:VAM.

Shepard, R. N. 1966. Metric structures in ordinal data. Journal of MathematicalPsychology, 3, 287–315.

Wolter, K. M. 1985. Introduction to variance estimation. Berlin: Springer-Verlag.

Young, F. W. 1981. Quantitative analysis of qualitative data. Psychometrika, 46,357–387.

Page 39: SPSS Categories 14.0

Chapitre

2Régression nominale (CATREG)

Régression nominale

La régression nominale quantifie les données qualitatives en affectant des valeursnumériques aux modalités ; une équation de régression linéaire optimale est ainsicréée pour les variables transformées. La régression nominale est également appeléeCATREG, acronyme de categorical regression.

L’analyse de la régression linéaire standard implique la réduction des différencesde sommes des carrés entre une variable de réponse (dépendante) et une combinaisonpondérée des prédicteurs (variables indépendantes). Les variables sont habituellementquantitatives, les données nominales étant recodées en variables binaires ou decontraste. En conséquence, les variables qualitatives servent à séparer les groupesd’observations et cette technique estime des séries de paramètres distinctes pourchaque groupe. Les coefficients estimés reflètent le mode d’affectation de la réponsedue aux modifications des prédicteurs. Il est possible de prévoir la réponse pourn’importe quelle combinaison de valeurs de variables indépendantes.

Une autre approche consiste à effectuer la régression de la réponse sur lesvaleurs des variables indépendantes nominales proprement dites. Dans ce cas,un seul coefficient est estimé pour chaque variable. Toutefois, pour les variablesqualitatives, les valeurs des modalités sont arbitraires. Le codage des modalités selonplusieurs méthodes produit différents coefficients, ce qui complique les comparaisonsd’analyses portant sur les mêmes variables.

CATREG constitue une extension de l’approche standard en codant simultanémentles variables qualitatives, ordinales et numériques. Cette procédure quantifie lesvariables qualitatives afin que les valeurs affectées reflètent les caractéristiques desmodalités d’origine. La procédure traite les variables qualitatives quantifiées dela même façon que les variables numériques. L’utilisation de transformations nonlinéaires permet d’analyser les variables à différents niveaux afin de déterminer lemodèle correspondant au meilleur ajustement possible.

21

Page 40: SPSS Categories 14.0

22

Chapitre 2

Exemple : La régression nominale peut être utilisée pour décrire dans quelle mesurela satisfaction professionnelle dépend de la modalité d’emploi, de la région et dela durée du transport. Vous pourriez ainsi déterminer que les plus hauts niveauxde satisfaction professionnelle correspondent aux postes de direction et aux tempsde transport les plus faibles. Vous avez ainsi la possibilité d’utiliser l’équation derégression résultante pour prévoir la satisfaction professionnelle relative à n’importequelle combinaison de ces trois variables indépendantes.

Diagrammes et statistiques : Fréquences, coefficients de régression, tableau ANOVA,historique des itérations, valeurs affectées aux modalités, corrélations entre variablesindépendantes non transformées, corrélations entre variables indépendantestransformées, les diagrammes de résidus et de transformation.

Données : CATREG traite les variables indicatrices de modalités. Les indicateurs demodalités doivent être des nombres entiers positifs. Vous pouvez utiliser la boîtede dialogue Discrétisation pour convertir les variables fractionnées et les variableschaîne en nombres entiers positifs.

Hypothèses : Une seule variable de réponse est autorisée, mais le nombre maximalde variables explicatives est de 200. Les données doivent comporter au moins troisobservations valides, le nombre d’observations valides ne devant pas dépasser lenombre de variables indépendantes plus un.

Procédures apparentées : La procédure CATREG équivaut à la procédure d’analyse decorrélation canonique nominale avec codage optimal (OVERALS) avec deux groupes,dont l’un ne comporte qu’une seule variable. Le codage de toutes les variables auniveau numérique correspond à l’analyse de régression multiple standard.

Pour obtenir une régression nominale

E A partir des menus, sélectionnez :Analyse

RégressionCodage optimal

Page 41: SPSS Categories 14.0

23

Régression nominale (CATREG)

Figure 2-1Boîte de dialogue Régression nominale

E Sélectionnez la variable dépendante, ainsi que la ou les variables indépendantes.

E Cliquez sur OK.

Sinon, modifiez le niveau de codage de chaque variable.

Définir une échelle dans la régression nominale

Vous pouvez définir le niveau de codage optimal des variables dépendantes etindépendantes. Par défaut, elles sont codées comme des splines monotones desecond degré (ordinales) avec deux points critiques intérieurs. En outre, vous pouvezégalement définir la pondération pour les variables d’analyse.

Page 42: SPSS Categories 14.0

24

Chapitre 2

Figure 2-2Boîte de dialogue Définir l’échelle

Niveau du codage optimal : Vous pouvez également sélectionner le niveau de codagepour la quantification de chaque variable.

Spline ordinale : L’ordre des modalités de la variable observée est conservé dansla variable codée de façon optimale. Les points des modalités se trouvent sur uneligne droite (vecteur) passant par l’origine. La transformation résultante est unmodèle polynomial monotone lissé du degré choisi. Ses différents élémentsdépendent du nombre de noeuds intérieurs défini par l’utilisateur ainsi que dupositionnement de ces derniers, déterminé par la procédure.

Spline nominale : La seule information de la variable observée qui est conservéedans la variable codée de façon optimale est le groupe des objets dans lesmodalités. L’ordre des modalités de la variable observée n’est pas conservé.Les points des modalités se trouvent sur une ligne droite (vecteur) passant parl’origine. La transformation résultante est un modèle polynomial lissé, peut-êtrenon monotone, du degré choisi. Ses différents éléments dépendent du nombrede noeuds intérieurs défini par l’utilisateur ainsi que du positionnement de cesderniers, déterminé par la procédure.

Ordinal :L’ordre des modalités de la variable observée est conservé dans lavariable codée de façon optimale. Les points des modalités se trouvent sur uneligne droite (vecteur) passant par l’origine. La transformation du résultat convientmieux que la transformation ordinale spline, mais s’avère moins lissée.

Nominal :La seule information de la variable observée qui est conservée dans lavariable codée de façon optimale est le groupe des objets dans les modalités.L’ordre des modalités de la variable observée n’est pas conservé. Les points desmodalités se trouvent sur une ligne droite (vecteur) passant par l’origine. La

Page 43: SPSS Categories 14.0

25

Régression nominale (CATREG)

transformation du résultat convient mieux que la transformation nominale splinemais s’avère moins lissée.

Numérique. Les modalités sont considérées comme triées et espacéesrégulièrement (niveau d’intervalle). L’ordre des modalités ainsi que les distanceségales entre les nombres de modalités de la variable sont conservées dans lavariable codée de façon optimale. Les points des modalités se trouvent sur uneligne droite (vecteur) passant par l’origine. Lorsque toutes les variables sont auniveau numérique, l’analyse est analogue à celle en composantes principalesstandard.

Régression nominale : Discrétisation

La boîte de dialogue Discrétisation vous permet de choisir une méthode de recodagedes variables. Les valeurs fractionnées sont regroupées en sept modalités (ou ennombre de valeurs distinctes de variables si le nombre est inférieur à sept) avec unedistribution normale approximative, à moins qu’une autre configuration ne soitspécifiée. Les variables chaîne sont toujours converties en nombres entiers positifsen affectant des indicateurs de modalités selon l’ordre croissant alphanumérique.La discrétisation des variables chaîne s’applique à ces nombres entiers. Par défaut,d’autres variables sont laissées inutilisées. Les variables discrétisées sont ensuiteutilisées dans l’analyse.

Page 44: SPSS Categories 14.0

26

Chapitre 2

Figure 2-3Discrétisation

Méthode : Choisissez entre Regroupement, Rang et Multiplier.

Regroupement : Recodez en un nombre spécifié de modalités ou par intervalle.

Rang : La variable est discrétisée via le classement des observations.

Multiplier : Les valeurs courantes de la variable sont standardisées, multipliéespar 10 et arrondies, et possèdent une constante ajoutée de sorte que la valeurdiscrétisée la plus faible soit égale à 1.

Regroupement : Les options suivantes sont disponibles lorsque vous discrétisez desvariables par groupe :

Nombre de modalités : Indiquez un nombre de modalités et définissez si lesvaleurs de la variable doivent faire l’objet d’une distribution approximativementgaussienne ou uniforme entre ces modalités.

Intervalles égaux : Les variables sont recodées en modalités définies par cesintervalles de taille égale. N’oubliez pas de spécifier la longueur des intervalles.

Page 45: SPSS Categories 14.0

27

Régression nominale (CATREG)

Régression nominale : Valeurs manquantes

La boîte de dialogue Valeurs manquantes vous permet de choisir la stratégie degestion des valeurs manquantes pour les variables de l’analyse et supplémentaires.

Figure 2-4Boîte de dialogue Valeurs manquantes

Stratégie : Vous pouvez exclure des objets contenant des valeurs manquantes(suppression par liste) ou inclure des valeurs manquantes (traitement actif).

Exclure les objets contenant des valeurs manquantes sur cette variable. Les objetscontenant des valeurs manquantes dans la variable sélectionnée sont retirés del’analyse. Cette option n’est pas disponible pour les variables supplémentaires.

Inclure les valeurs manquantes. Des valeurs sont prises en compte pour les objetscontenant des valeurs manquantes sur la variable sélectionnée. Vous pouvezchoisir la méthode de calcul : Sélectionnez Mode pour remplacer les valeursmanquantes par la modalité la plus fréquente. S’il existe plusieurs modes, utilisezcelui dont l’indicateur de modalités est le plus petit. Sélectionnez Modalitésupplémentaire pour remplacer les valeurs manquantes par la valeur affectée àune modalité supplémentaire. Cela suppose que les objets contenant une valeurmanquante pour cette variable sont considérés comme appartenant à la mêmemodalité (supplémentaire).

Page 46: SPSS Categories 14.0

28

Chapitre 2

Régression nominale : Options

La boîte de dialogue Options permet de sélectionner le style de configuration initiale,de spécifier les critères d’itération et de convergence, de sélectionner les objetssupplémentaires et de définir l’étiquetage des diagrammes.

Figure 2-5Options

Objets supplémentaires : Cette option permet de définir les objets à traiter commeobjets supplémentaires. Entrez simplement le numéro d’un objet supplémentaire, puiscliquez sur Ajouter. Vous ne pouvez pas pondérer des objets supplémentaires (lespondérations indiquées sont ignorées).

Configuration initiale : Si aucune variable n’est considérée comme nominale,sélectionnez la configuration Numérique. Si une variable au moins est considéréecomme nominale, choisissez la configuration Aléatoire.

Critères : Vous pouvez spécifier le nombre maximal d’itérations que la régression peutprendre en charge dans ses calculs. Vous avez également la possibilité de sélectionnerune valeur de critère de convergence. La régression interrompt son itération dès quela différence du total ajusté entre les deux dernières itérations est inférieur à la valeurde la convergence, ou dès que le nombre maximal d’itérations est atteint.

Page 47: SPSS Categories 14.0

29

Régression nominale (CATREG)

Etiqueter les diagrammes par : Vous permet de préciser si les étiquettes de variableet de valeurs ou les noms ou valeurs de variables sont utilisés dans les diagrammes.Vous pouvez également spécifier une longueur maximale pour les étiquettes.

Régression nominale : Résultat

La boîte de dialogue Résultats permet de sélectionner les statistiques à afficher dansle résultat.

Figure 2-6Résultat

Tableaux. Génère des tableaux pour :

R multiple. Comprend R2 et R2 ajusté, R2 ajusté prend en compte le codageoptimal.

Coefficients : Cette option propose trois tableaux. Le tableau Coefficients : ilcomporte des bêtas, l’erreur standard des bêtas, des valeurs t et la signification; le tableau Coefficients : Codage optimal qui contient l’erreur standard desbêtas prenant en compte les degrés de liberté du codage optimal ; le tableau descorrélations simples et partielles, qui comporte les mesures d’importance relativede Pratt pour les variables indépendantes transformées, ainsi que la toléranceavant et après transformation.

Page 48: SPSS Categories 14.0

30

Chapitre 2

Historique des itérations : Pour chaque itération, y comprises les valeurs dedépart de l’algorithme, le R multiple et l’erreur de régression apparaissent.L’augmentation dans le R multiple est répertoriée en commençant à partir dela première itération.

Corrélations des variables d’origine : Une matrice affichant les corrélations entreles variables sans transformation apparaît.

Corrélations des variables transformées : Une matrice affichant les corrélationsentre les variables transformées apparaît.

ANOVA : Cette option présente les sommes des carrés de régression et des résidus,le moyenne des carrés ainsi qu’un test-F. Deux tableaux ANOVA sont affichés :L’un avec des degrés de liberté pour la régression égaux au nombre de variablesexplicatives, et l’autre avec les degrés de liberté pour la régression prenant encompte le codage optimal.

Valeurs affectées aux modalités : Les tableaux des valeurs transformées des variablessélectionnées apparaissent.

Statistiques descriptives : Les tableaux affichant les fréquences, les valeursmanquantes et les modes des variables sélectionnées apparaissent.

Régression nominale : Enregistrement

La boîte de dialogue Enregistrer vous permet d’enregistrer des prévisions, des résiduset des valeurs transformées dans l’ensemble de données actif et/ou d’enregistrer lesdonnées discrétisée et les valeurs transformées dans un fichier de données SPSS ouun ensemble de données.

Les ensembles de données sont disponibles lors de la session en cours mais nesont pas disponibles lors des sessions suivantes, sauf si vous les enregistrezclairement comme fichiers de données. Les noms des ensembles de donnéesdoivent être conformes aux règles de dénomination de variables SPSS.

Les noms de fichiers ou les noms de l’ensemble de données doivent être différentspour chaque type de données enregistrées.

Page 49: SPSS Categories 14.0

31

Régression nominale (CATREG)

Figure 2-7Enregistrer

Régression nominale des diagrammes de transformation

La boîte de dialogue Diagrammes vous permet de définir les variables qui produirontdes diagrammes de résidus et de transformation.

Page 50: SPSS Categories 14.0

32

Chapitre 2

Figure 2-8Boîte de dialogue Diagrammes

Diagrammes de transformation : Pour chacune de ces variables, les valeurs affectéesaux modalités sont représentées par rapport aux valeurs des modalités d’origine. Lesmodalités vides apparaissent sur l’axe horizontal mais n’affectent pas les calculs. Cesmodalités sont identifiées par des interruptions dans la courbe reliant les valeursaffectées.

Diagrammes de résidus : Pour chacune de ces variables, les résidus (calculés pour lavariable dépendante à partir de toutes les variables explicatives exceptée la variableexplicative en question) sont appliqués aux indicateurs de modalités et aux valeursaffectées aux modalités optimales multipliées par bêta par rapport aux indicateursde modalités.

Fonctionnalités supplémentaires de la commande CATREG

Vous pouvez personnaliser la régression nominale en collant vos sélections dans unefenêtre de syntaxe et en modifiant la syntaxe de commande CATREG. Le langage decommande SPSS vous permet aussi de :

Spécifier les noms de racine des variables transformées lorsque vous lesenregistrez dans l’ensemble de données actif (avec la sous-commande SAVE).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuelSPSS Command Syntax Reference.

Page 51: SPSS Categories 14.0

Chapitre

3Analyse en composantesprincipales qualitatives (CATPCA)

Cette procédure quantifie simultanément des variables qualitatives en réduisantle nombre de dimensions des données. L’analyse en composantes principalesqualitatives est également appelée CATPCA, acronyme de CATegorical PrincipalComponents Analysis.

Le but d’une telle analyse est de réduire un groupe original de variablesen un groupe plus petit de composantes non corrélées représentant la plupartdes informations rencontrées dans les variables d’origine. Cette technique estd’une grande utilité lorsqu’un grand nombre de variables empêche d’interpréterefficacement les relations entre les objets (sous-objets et unités). En réduisant lenombre de dimensions, vous pouvez interpréter plusieurs composantes et non plusun grand nombre de variables.

L’analyse en composantes principales standard comporte des relations linéairesentre les variables numériques. D’un autre côté, l’approche du codage optimalpermet aux variables d’être codées à différents niveaux. Les variables qualitativessont quantifiées de façon optimale par rapport au nombre de dimensions spécifié. Enconséquence, des relations non linéaires entre les variables peuvent être spécifiées.

Exemple. L’analyse en composantes principales qualitatives peut être utilisée afin dereprésenter sur un diagramme les relations entre la modalité d’emploi, la région,le temps de transport (élevé, moyen ou faible), et la satisfaction professionnelle.Vous constatez peut-être que deux dimensions représentent une part importante dela variance. La première dimension peut séparer les modalités d’emploi par région,alors que la seconde sépare les modalités socioprofessionnelles en fonction du tempsde transport. Notez également que la satisfaction professionnelle est liée au tempsmoyen de transport.

33

Page 52: SPSS Categories 14.0

34

Chapitre 3

Diagrammes et statistiques. Fréquences, valeurs manquantes, niveau de codageoptimal, mode, variance représentée par les coordonnées du barycentre, coordonnéesvectorielles, total par variable et par dimension, corrélations entre composanteset variables initiales pour variables quantifiées par vecteur, valeurs affectées auxmodalités et coordonnées, historique des itérations, corrélations des variablestransformées et des valeurs propres de la matrice de corrélation, corrélations desvariables d’origine et des valeurs propres de la matrice de corrélation, coordonnéesdes objets, diagrammes de modalités, diagrammes de modalités joints, diagrammesde transformation, diagrammes résiduels, diagrammes de représentation desbarycentres projetés, diagrammes d’objets, diagrammes doubles, diagrammes tripleset diagrammes des corrélations entre composantes et variables initiales.

Données. Les variables chaîne sont toujours converties en nombres entiers positifs parordre croissant alphanumérique. Les valeurs manquantes définies par l’utilisateur, lesvaleurs manquantes par défaut et les valeurs inférieures à 1 sont considérées commemanquantes ; vous pouvez donc recoder ou ajouter une constante aux variablescontenant des valeurs inférieures à 1 pour les définir comme non manquantes.

Hypothèses. Les données doivent contenir au moins trois observations valides.L’analyse repose sur des données sous forme de nombres entiers positifs. L’optionde discrétisation classe automatiquement une variable fractionnée en regroupant sesvaleurs en modalités avec une distribution “normale” et convertit automatiquementles valeurs des variables chaîne en nombre entiers positifs. Vous pouvez en outre,spécifier d’autres schémas de discrétisation.

Procédures apparentées. Le codage de toutes les variables au niveau numériquecorrespond à l’analyse en composantes principales standard. Les fonctionnalités dereprésentation alternée sont disponibles en utilisant les variables transformées dansune analyse en composantes principales linéaires standard. Si toutes les variablespossèdent des niveaux de codage nominal multiple, l’analyse en composantesprincipales qualitatives est identique à l’analyse des correspondances. Si des groupesde variables sont intéressants, vous devez utiliser une analyse des corrélationscanoniques nominales (non linéaires).

Obtenir une analyse en composantes principales catégorielles

E A partir des menus, sélectionnez :Analyse

FactorisationCodage optimal...

Page 53: SPSS Categories 14.0

35

Analyse en composantes principales qualitatives (CATPCA)

Figure 3-1Boîte de dialogue Niveau du codage optimal

E Sélectionnez Certaines variables non nominales multiples.

E Sélectionnez Un groupe.

E Cliquez sur Définir.

Page 54: SPSS Categories 14.0

36

Chapitre 3

Figure 3-2Boîte de dialogue Composantes principales qualitatives

E Sélectionnez au moins deux variables d’analyse et spécifiez le nombre de dimensionsde la solution.

E Cliquez sur OK.

Vous pouvez peut-être spécifier des variables supplémentaires qui sont ajustées à lasolution trouvée, ou des variables d’étiquettes pour les diagrammes.

Définir l’échelle et la pondération dans CATPCA

Vous pouvez définir le niveau de codage optimal des variables d’analyse et desvariables supplémentaires. Par défaut, elles sont codées comme des splinesmonotones de second degré (ordinales) avec deux points critiques intérieurs. Enoutre, vous pouvez également définir la pondération pour les variables d’analyse.

Page 55: SPSS Categories 14.0

37

Analyse en composantes principales qualitatives (CATPCA)

Figure 3-3Définir l’échelle et la pondération

Pondération de la variable. Vous pouvez choisir une pondération pour chaque variable.La valeur spécifiée doit être un nombre entier positif. La valeur par défaut est 1.

Niveau du codage optimal. Vous pouvez également sélectionner le niveau de codage àutiliser pour quantifier chaque variable.

Spline ordinale. L’ordre des modalités de la variable observée est conservé dans lavariable codée de façon optimale. Les points des modalités se trouvent sur uneligne droite (vecteur) passant par l’origine. La transformation résultante est unmodèle polynomial monotone lissé du degré choisi. Ses différents élémentsdépendent du nombre de noeuds intérieurs défini par l’utilisateur ainsi que dupositionnement de ces derniers, déterminé par la procédure.

Spline nominale. La seule information de la variable observée qui est conservéedans la variable codée de façon optimale est le groupe des objets dans lesmodalités. L’ordre des modalités de la variable observée n’est pas conservé.Les points des modalités se trouvent sur une ligne droite (vecteur) passant parl’origine. La transformation résultante est un modèle polynomial lissé, peut-êtrenon monotone, du degré choisi. Ses différents éléments dépendent du nombrede noeuds intérieurs défini par l’utilisateur ainsi que du positionnement de cesderniers, déterminé par la procédure.

Nominal multiple. La seule information de la variable observée qui est conservéedans la variable codée de façon optimale est le groupe des objets dans lesmodalités. L’ordre des modalités de la variable observée n’est pas conservé. Lespoints des modalités se trouvent sur les barycentres des objets dans les modalitésparticulières. L’option Multiple indique que divers groupes de valeurs affectéessont obtenus pour chaque dimension.

Page 56: SPSS Categories 14.0

38

Chapitre 3

Ordinal.L’ordre des modalités de la variable observée est conservé dans la variablecodée de façon optimale. Les points des modalités se trouvent sur une lignedroite (vecteur) passant par l’origine. La transformation du résultat convientmieux que la transformation ordinale spline, mais s’avère moins lissée.

Nominal. La seule information de la variable observée qui est conservée dans lavariable codée de façon optimale est le groupe des objets dans les modalités.L’ordre des modalités de la variable observée n’est pas conservé. Les points desmodalités se trouvent sur une ligne droite (vecteur) passant par l’origine. Latransformation du résultat convient mieux que la transformation nominale splinemais s’avère moins lissée.

Numérique. Les modalités sont considérées comme triées et espacéesrégulièrement (niveau d’intervalle). L’ordre des modalités ainsi que les distanceségales entre les nombres de modalités de la variable sont conservées dans lavariable codée de façon optimale. Les points des modalités se trouvent sur uneligne droite (vecteur) passant par l’origine. Lorsque toutes les variables sont auniveau numérique, l’analyse est analogue à celle en composantes principalesstandard.

Composantes principales qualitatives : Discrétisation

La boîte de dialogue Discrétisation vous permet de choisir une méthode de recodagedes variables. Les valeurs fractionnées sont regroupées en sept modalités (ou ennombre de valeurs distinctes de variables si le nombre est inférieur à sept) avec unedistribution normale approximative, à moins qu’une autre configuration ne soitspécifiée. Les variables chaîne sont toujours converties en nombres entiers positifsen affectant des indicateurs de modalités selon l’ordre croissant alphanumérique.La discrétisation des variables chaîne s’applique à ces nombres entiers. Par défaut,d’autres variables sont laissées inutilisées. Les variables discrétisées sont ensuiteutilisées dans l’analyse.

Page 57: SPSS Categories 14.0

39

Analyse en composantes principales qualitatives (CATPCA)

Figure 3-4Discrétisation

Méthode. Choisissez entre Regroupement, Rang et Multiplier.

Regroupement. Recodez en un nombre spécifié de modalités ou par intervalle.

Rang. La variable est discrétisée via le classement des observations.

Multiplier. Les valeurs courantes de la variable sont standardisées, multipliéespar 10 et arrondies, et possèdent une constante ajoutée de sorte que la valeurdiscrétisée la plus faible soit égale à 1.

Regroupement. Les options suivantes sont disponibles lorsque vous discrétisez desvariables par groupe :

Nombre de modalités. Indiquez un nombre de modalités et définissez si lesvaleurs de la variable doivent faire l’objet d’une distribution approximativementgaussienne ou uniforme entre ces modalités.

Intervalles égaux. Les variables sont recodées en modalités définies par cesintervalles de taille égale. N’oubliez pas de spécifier la longueur des intervalles.

Page 58: SPSS Categories 14.0

40

Chapitre 3

Composantes principales qualitatives : Valeurs manquantes

La boîte de dialogue Valeurs manquantes vous permet de choisir la stratégie degestion des valeurs manquantes pour les variables de l’analyse et supplémentaires.

Figure 3-5Boîte de dialogue Valeurs manquantes

Stratégie. Choisissez d’exclure les valeurs manquantes (traitement passif), d’affecterdes valeurs (traitement actif) ou d’exclure les objets contenant des valeurs manquantes(suppression des observations incomplètes).

Exclure les valeurs manquantes pour affectation de corrélations après quantification.Les objets contenant des valeurs manquantes sur la variable sélectionnée necontribuent pas à l’analyse de cette variable. Si un traitement passif est effectuésur toutes les variables, les objets dont les variables comportent des valeursmanquantes sont traités comme étant supplémentaires. Si les corrélations sontspécifiées dans la boîte de dialogue Résultat, les valeurs manquantes après analysesont alors prises en compte avec la modalité la plus fréquente ou le mode de lavariable pour les corrélations des variables d’origine. Pour corréler des variablescodées de façon optimale, vous devez choisir une méthode de calcul. SélectionnezMode pour remplacer les valeurs manquantes par le mode de la variable codée de

Page 59: SPSS Categories 14.0

41

Analyse en composantes principales qualitatives (CATPCA)

façon optimale. Sélectionnez Modalité supplémentaire pour remplacer les valeursmanquantes par la valeur affectée à une modalité supplémentaire. Cela supposeque les objets contenant une valeur manquante pour cette variable sont considéréscomme appartenant à la même modalité (supplémentaire).

Inclure les valeurs manquantes. Des valeurs sont prises en compte pour les objetscontenant des valeurs manquantes sur la variable sélectionnée. Vous pouvezchoisir la méthode de calcul : Sélectionnez Mode pour remplacer les valeursmanquantes par la modalité la plus fréquente. S’il existe plusieurs modes, utilisezcelui dont l’indicateur de modalités est le plus petit. Sélectionnez Modalitésupplémentaire pour remplacer les valeurs manquantes par la valeur affectée àune modalité supplémentaire. Cela suppose que les objets contenant une valeurmanquante pour cette variable sont considérés comme appartenant à la mêmemodalité (supplémentaire).

Exclure les objets contenant des valeurs manquantes sur cette variable. Les objetscontenant des valeurs manquantes dans la variable sélectionnée sont retirés del’analyse. Cette option n’est pas disponible pour les variables supplémentaires.

Composantes principales qualitatives : Options

La boîte de dialogue Options vous permet de sélectionner la configuration initiale, despécifier les itérations et les critères de convergence, de sélectionner une méthode destandardisation, de sélectionner une méthode d’étiquetage des diagrammes et, enfin,de spécifier des objets supplémentaires.

Page 60: SPSS Categories 14.0

42

Chapitre 3

Figure 3-6Options

Objets supplémentaires. Indiquez le numéro d’observation de l’objet, ou les premieret dernier numéros d’observation d’une plage d’objets que vous souhaitez définircomme objet supplémentaire, puis cliquez sur Ajouter. Poursuivez jusqu’à ce quevous ayez indiqué tous les objets supplémentaires. Si un objet est spécifié commesupplémentaire, alors les pondérations d’observation est ignorée pour cet objet.

Méthode de standardisation. Vous pouvez spécifier l’une des cinq options destandardisation des coordonnées des objets et des variables. Une seule méthode destandardisation peut être utilisée dans une analyse donnée.

Variable principale. Cette option optimise l’association entre les variables. Lescoordonnées des variables dans l’espace objet correspondent aux corrélationsentre composants et variables initiales (corrélations comportant des composantes

Page 61: SPSS Categories 14.0

43

Analyse en composantes principales qualitatives (CATPCA)

principales telles que des dimensions et des coordonnées d’objets). Cela est utilesi vous êtes avant tout intéressé par les corrélations entre variables.

Objet principal. Cette option optimise les distances entre les objets. Cela est utilesi vous êtes avant tout intéressé par les différences ou similitudes entre objets.

Symétrique. Utilisez cette option de standardisation si vous êtes avant toutintéressé par la relation entre les objets et les variables.

Indépendant. Utilisez cette option de standardisation si vous souhaitez examinerles distances entre les objets ainsi que les corrélations entre variables séparément.

Personnalisée. Vous pouvez spécifier toute valeur réelle comprise dans l’intervalle[–1, 1]. Une valeur de 1 correspond à la méthode Objet principal, une valeur de 0correspond à la méthode Symétrique, et une valeur de –1 à la méthode Variableprincipale. En spécifiant une valeur comprise entre –1 et 1, la valeur propre peutcomprendre à la fois les objets et les variables. Cette méthode est utile poureffectuer des diagrammes doubles ou triples.

Critères. Vous pouvez spécifier le nombre maximum d’itérations que la procédure peutprendre en charge dans ses calculs. Vous avez également la possibilité de sélectionnerune valeur de critère de convergence. L’algorithme interrompt son itération dès que ladifférence du total ajusté entre les deux dernières itérations est inférieur à la valeur dela convergence ou dès que le nombre maximum d’itérations est atteint.

Etiqueter les diagrammes par. Vous permet de préciser si les étiquettes de variable et devaleurs ou les noms ou valeurs de variables sont utilisés dans les diagrammes. Vouspouvez également spécifier une longueur maximale pour les étiquettes.

Dimensions du diagramme. Permet de contrôler les dimensions contenues dans lerésultat.

Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solutionapparaissent dans une matrice de diagramme de dispersion.

Limiter le nombre de dimensions. Les dimensions affichées sont limitées à despaires de dimensions représentées. Si vous restreignez ces dimensions, vousdevez sélectionner la plus petite et la plus grande à tracer. La plus petitedimension peut être comprise entre 1 et le nombre de dimensions contenues dansla solution moins 1. En outre, elle est représentée par rapport aux dimensionsplus grandes. La valeur de dimension la plus élevée peut être comprise entre 2 etle nombre de dimensions contenues dans la solution. Par ailleurs, elle indique laplus grande dimension à utiliser pour le traçage des paires de dimensions. Cette

Page 62: SPSS Categories 14.0

44

Chapitre 3

spécification s’applique à l’ensemble des représentations multidimensionnellesdemandées.

Configuration. Vous pouvez lire les données d’un fichier contenant les coordonnéesde la configuration. La première variable du fichier doit contenir les coordonnées dela première dimension, la deuxième variable, celles de la deuxième dimension, etainsi de suite.

Initiale. La configuration du fichier spécifié sera utilisée comme point de départde l’analyse.

Fixe. La configuration du fichier spécifié sera utilisée pour ajuster les variables.Les variables ainsi ajustées doivent être sélectionnées comme des variablesd’analyse, mais la configuration étant fixe, elles doivent être considérées commedes variables supplémentaires (il est donc inutile de les sélectionner commetelles).

Composantes principales qualitatives : Résultat

La boîte de dialogue Résultat vous permet de produire des tableaux affichant lescoordonnées des objets, les corrélations entre composantes et variables initiales, unhistorique des itérations, les corrélations des variables d’origine et transformées, lavariance représentée par variable et par dimension, les valeurs affectées aux modalitéspour les variables sélectionnées et les statistiques descriptives pour les variablessélectionnées.

Page 63: SPSS Categories 14.0

45

Analyse en composantes principales qualitatives (CATPCA)

Figure 3-7Résultat

Coordonnées des objets. Affiche les coordonnées des objets avec les options

suivantes :

Inclure les modalités de. Présente les indicateurs de modalités des variablesd’analyse sélectionnées.

Etiqueter les objets du diagramme par. Vous pouvez sélectionner l’une des variablesspécifiées dans la liste de variables d’étiquetage pour étiqueter les objets.

Corrélations entre composantes et variables initiales. Affiche les corrélations entrecomposants et variables initiales pour toutes les variables n’ayant pas reçu de niveaude codage nominal multiple.

Historique des itérations. Pour chaque itération, la variance représentée, la perte etl’augmentation de la variance représentée sont affichées.

Corrélations des variables d’origine. Affiche la matrice de corrélation des variablesd’origine ainsi que les valeurs propres de cette matrice.

Page 64: SPSS Categories 14.0

46

Chapitre 3

Corrélations des variables transformées. Affiche la matrice de corrélation des variablestransformées (codées de façon optimale) ainsi que les valeurs propres de cette matrice.

Variance expliquée par. Affiche le nombre de variances représentées par lescoordonnées du barycentre, les coordonnées vectorielles et le total (coordonnées dubarycentre et vectorielles combinées) par variable et par dimension.

Valeurs affectées aux modalités. Indique les valeurs affectées aux modalités et lescoordonnées pour chaque dimension de la ou des variables sélectionnées.

Statistiques descriptives. Affiche les fréquences, le nombre de valeurs manquantes etle mode de la ou des variables sélectionnées.

Composantes principales qualitatives : Enregistrer

La boîte de dialogue Enregistrer vous permet d’enregistrer les données discrétisées,les coordonnées des objets, les valeurs transformées et les approximations dansun fichier de données SPSS ou un ensemble de données. Vous pouvez égalementenregistrer les valeurs transformées, les coordonnées des objets et les approximationsdans l’ensemble de données actif.

Les ensembles de données sont disponibles lors de la session en cours mais nesont pas disponibles lors des sessions suivantes, sauf si vous les enregistrezclairement comme fichiers de données. Les noms d’ensembles de donnéesdoivent être conformes aux règles de dénomination de variables SPSS.

Les noms de fichiers ou d’ensembles de données doivent être différents pourchaque type de données enregistrées.

Si vous enregistrez les coordonnées des objets ou les valeurs transformées dansl’ensemble de données actif, vous pouvez indiquer le nombre des dimensionsnominales multiples.

Page 65: SPSS Categories 14.0

47

Analyse en composantes principales qualitatives (CATPCA)

Figure 3-8Enregistrer

Composantes principales qualitatives : Diagrammes d’objetset de variables

La boîte de dialogue Diagrammes d’objets et de variables vous permet de spécifier lestypes de diagrammes souhaités ainsi que les variables pour lesquels des diagrammessont représentés.

Page 66: SPSS Categories 14.0

48

Chapitre 3

Figure 3-9Diagrammes d’objets et de variables

Points des objets. Un diagramme des points des objets s’affiche.

Objets et variables (biplot). Les points des objets sont représentés avec les coordonnéesde variables de votre choix : corrélations entre composants et variables initiales oubarycentres de variables.

Objets, corrélations et barycentres (triplot). Les points des objets sont représentésavec les barycentres des variables de niveau de codage nominal multiple et avec lescorrélations entre composants et variables initiales des autres variables.

Variables des biplots et triplots. Vous pouvez choisir d’utiliser toutes les variables desdiagrammes doubles et triples ou de sélectionner un sous-groupe.

Etiqueter objets. Vous pouvez choisir d’étiqueter des objets avec les modalitésdes variables sélectionnées (choisissez les valeurs des indicateurs de modalités oules étiquettes de valeurs dans la boîte de dialogue Options) ou avec le nombred’observations. Si vous avez sélectionné Variables, un seul diagramme est créé parvariable.

Page 67: SPSS Categories 14.0

49

Analyse en composantes principales qualitatives (CATPCA)

Composantes principales qualitatives : Diagrammes demodalités

La boîte de dialogue Diagrammes de modalités vous permet de spécifier les typesde diagrammes souhaités ainsi que les variables pour lesquelles des diagrammesseront représentés.

Figure 3-10Boîte de dialogue Diagrammes de modalités

Diagrammes de modalités. Pour chaque variable sélectionnée, un diagramme descoordonnées du barycentre et vectorielles est représenté. Pour les variables contenantdes niveaux de codage nominal multiple, les modalités figurent dans les barycentresdes objets des modalités particulières. Pour les autres niveaux de codage, lesmodalités figurent dans un vecteur passant par l’origine.

Joindre les diagrammes de modalités. Il s’agit d’un diagramme simple représentantles coordonnées du barycentre et les coordonnées vectorielles de chaque variablesélectionnée.

Page 68: SPSS Categories 14.0

50

Chapitre 3

Diagrammes de transformation. Affiche un diagramme des valeurs affectées auxmodalités optimales contre les indicateurs de modalités. Vous pouvez spécifier lenombre de dimensions souhaité pour les variables contenant des niveaux de codagenominal multiple. Un diagramme sera alors généré pour chaque dimension. Il vousest également possible de choisir d’afficher des diagrammes résiduels pour chaquevariable sélectionnée.

Projeter les barycentres de. Vous pouvez choisir une variable et projeter sesbarycentres sur les variables sélectionnées. Les variables comportant un niveaude codage nominal multiple ne peuvent pas être sélectionnées pour être projetées.Lorsque vous lancez ce diagramme, un tableau doté des coordonnées des barycentresprojetés est également affiché.

Analyse des composantes principales qualitatives:Cartesfactorielles

La boîte de dialogue Cartes factorielles permet de définir les variables à inclure dansle diagramme et d’indiquer si les barycentres seront également inclus.

Figure 3-11Boîte de dialogue Cartes factorielles

Page 69: SPSS Categories 14.0

51

Analyse en composantes principales qualitatives (CATPCA)

Afficher les corrélations entre composants. Si cette option est sélectionnée, undiagramme des corrélations entre composants apparaît.

Variables de corrélation. Vous pouvez choisir d’utiliser toutes les variables d’undiagramme des corrélations entre composants ou de sélectionner un sous-groupe.

Inclure les barycentres. Les variables de niveau de codage nominal multiple nepossèdent pas de corrélation mais vous pouvez choisir d’inclure leurs barycentresdans le diagramme. Vous pouvez utiliser toutes les variables qualitatives multiplesou sélectionner un sous-groupe.

Fonctionnalités supplémentaires de la commande CATPCA

Vous pouvez personnaliser l’analyse des composantes principales qualitatives si vouscollez vos sélections dans une fenêtre de syntaxe et modifiez la syntaxe de commandeCATPCA. Le langage de commande SPSS vous permet aussi de :

Spécifiez les noms de racine des variables transformées, les coordonnées desobjets et les approximations lorsque vous les enregistrez dans l’ensemble dedonnées actif (avec la sous-commande SAVE).

Spécifier la longueur maximale pour les étiquettes de chaque diagrammeséparément (avec la sous-commande PLOT).

Spécifier une liste de variables distincte pour les diagrammes résiduels (avec lasous-commande PLOT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuelSPSS Command Syntax Reference.

Page 70: SPSS Categories 14.0
Page 71: SPSS Categories 14.0

Chapitre

4Analyse canonique non linéaire(OVERALS)

L’analyse de corrélation canonique non linéaire correspond à l’analyse de corrélationcanonique nominale avec codage optimal. Le but de cette procédure est de déterminerla similitude entre les groupes de variables qualitatives et les autres. Cette analyse estégalement connue sous l’acronyme OVERALS.

L’analyse de corrélation canonique standard est une extension de la régressionmultiple, dans laquelle le second groupe ne contient pas de variable de réponseunique, mais contient des variables de réponses multiples à la place. Elle sert àexpliquer autant que possible la variance tirée des relations entre deux groupes devariables numériques dans un espace de petite dimension. Initialement, les variablesde chaque groupe sont combinées de façon linéaire de sorte que les combinaisonscomportent une corrélation maximale. Compte tenu de ces combinaisons, celles quisont linéaires sont déterminées par celles qui ne le sont pas avec les combinaisonsprécédentes et par celles ayant la plus importante corrélation.

L’approche de codage optimal développe l’analyse standard de trois façonsdifférentes. D’abord, OVERALS vous permet d’avoir plus de deux groupes devariables. Deuxièmement, les variables peuvent être codées soit de façon nominale,soit ordinale, soit numérique. En conséquence, des relations non linéaires entre lesvariables peuvent être analysées. Enfin, au lieu d’optimiser les corrélations entreles groupes de variable, ceux-ci sont comparés à un groupe de compromis inconnudéfini par les coordonnées des objets.

Exemple. L’analyse de corrélation canonique nominale avec codage optimal peutêtre utilisée pour afficher graphiquement la relation entre un groupe de variablescontenant une modalité d’emploi et les années d’étude, et un autre groupe de variablescontenant la zone de résidence et le sexe. Il est possible que vous trouviez que lesannées d’étude et la zone de résidence établissent une différence plus importante que

53

Page 72: SPSS Categories 14.0

54

Chapitre 4

les autres variables. Mais, vous pouvez considérer que les années d’étude établissentune différence fondamentale sur la première dimension.

Diagrammes et statistiques. Fréquences, barycentres, historique des itérations,coordonnées des objets, valeurs affectées aux modalités, pondérations et corrélationsentre composantes et variables initiales, ajustement unique et multiple, diagrammede coordonnées des objets, diagrammes de coordonnées des modalités, diagrammesde corrélations entre composantes et variables initiales, diagrammes de centres declasses et diagrammes de transformation.

Données. Utilisez des entiers pour coder les variables qualitatives (niveau de codagenominal ou ordinal). Pour réduire le nombre de résultats, utilisez des entiersconsécutifs commençant par 1 pour coder les variables. Les variables codées àun niveau numérique ne doivent pas être recodées en entiers consécutifs. Pourréduire le nombre de résultats, pour chaque variable codée à un niveau numérique,soustrayez la plus petite valeur observée de chaque valeur et ajoutez-lui 1. Les valeursfractionnelles sont tronquées après la décimale.

Hypothèses. Les variables peuvent être classées en deux groupes ou plus. Lesvariables dans l’analyse sont codées sous forme nominale multiple, nominalesimple, ordinale ou numérique. Le nombre maximum de dimensions utiliséesdans la procédure dépend du niveau de codage optimal des variables. Si toutes lesvariables sont indiquées comme étant ordinales, nominales simples ou numériques,le nombre maximum de dimensions est le plus petit des deux valeurs suivantes :le nombre d’observations moins 1 ou le nombre total des variables. Cependant, siseuls les deux groupes de variables sont définis, le nombre maximum de dimensionscorrespond au nombre de variables du plus petit groupe. Si plusieurs variables sontnominales multiples, le nombre maximum de dimensions correspond au nombretotal de modalités nominales multiples plus le nombre de variables qualitatives nonmultiples et moins le nombre de variables qualitatives multiples. Par exemple, sil’analyse implique cinq variables et si l’une d’elles est nominale multiple avec quatremodalités, le nombre maximum de dimensions est (4 + 4 – 1) ou 7. Si vous spécifiezun nombre supérieur au maximum, la valeur maximale est alors utilisée.

Procédures apparentées. Si chaque groupe contient une variable, l’analyse decorrélation canonique non linéaire équivaut à l’analyse des composantes principalesavec codage optimal. Si chacune de ces variables est nominale multiple, l’analysecorrespond à l’analyse de correspondance multiple. Si deux groupes de variables sont

Page 73: SPSS Categories 14.0

55

Analyse canonique non linéaire (OVERALS)

impliqués et que l’un d’eux contient une seule variable, l’analyse correspond à unerégression nominale avec codage optimal.

Obtenir une analyse de corrélation canonique non linéaire

E A partir des menus, sélectionnez :Analyse

FactorisationCodage optimal...

Figure 4-1Boîte de dialogue Niveau du codage optimal

E Sélectionnez soit Toutes les variables qualitatives multiples, soit Certaines variables

non nominales multiples.

E Sélectionnez Plusieurs groupes.

E Cliquez sur Définir.

Page 74: SPSS Categories 14.0

56

Chapitre 4

Figure 4-2Boîte de dialogue Analyse canonique non linéaire (OVERALS)

E Définissez au moins deux groupes de variables. Sélectionnez les variables que voussouhaitez inclure dans le premier groupe. Pour atteindre le dernier groupe, cliquez surSuivant et sélectionnez les variables à inclure dans le second. Vous pouvez également,si vous le souhaitez, ajouter des groupes supplémentaires. Cliquez sur Précédent pourrevenir au groupe de variables défini précédemment.

E Définissez la plage de valeurs et l’échelle de mesure (niveau de codage optimal) pourchaque variable sélectionnée.

E Cliquez sur OK.

E Eventuellement :

Sélectionner une ou plusieurs variables pour fournir les étiquettes de point auxdiagrammes de coordonnées des objets. Chaque variable produit un diagrammeséparé, avec les points étiquetés par ses valeurs. Vous devez définir une plagepour chacune de ces variables d’étiquettes de diagrammes. Lorsque vous utilisezla boîte de dialogue, une variable unique ne peut pas être utilisée à la fois dansl’analyse et sous forme de variable d’étiquette. Si vous souhaitez étiqueter undiagramme de coordonnées des objets avec une variable utilisée dans l’analyse,utilisez le sous-menu Calculer (disponible depuis le menu Transformer) pour

Page 75: SPSS Categories 14.0

57

Analyse canonique non linéaire (OVERALS)

créer une copie de cette variable. Utilisez la nouvelle variable pour étiqueter lediagramme. Il vous est également possible d’utiliser la syntaxe de commande.

Indiquez le nombre de dimensions souhaitées dans la solution. En général,choisissez autant de dimensions que nécessaires pour expliquer le maximumde la variation. Si l’analyse implique plusieurs dimensions, SPSS produit desdiagrammes 3D des trois premières dimensions. D’autres dimensions peuventégalement être affichées en éditant le diagramme.

Définir intervalle et échelleFigure 4-3Boîte de dialogue Définir intervalle et échelle

Vous devez définir une plage pour chaque variable. La valeur maximale indiquée doitêtre un nombre entier. Les valeurs des données fractionnelles sont tronquées dansl’analyse. Une valeur de modalité située en dehors de la plage spécifiée est ignoréedans l’analyse. Pour réduire le nombre de résultats, utilisez le sous-menu Recoderautomatiquement (disponible depuis le menu Transformer) pour créer des modalitésconsécutives commençant par 1 pour des variables considérées comme nominales ouordinales. Recoder en entiers consécutifs n’est pas recommandé pour les variablescodées à un niveau numérique. Pour réduire le nombre de résultats pour les variablestraitées comme numériques, pour chaque variable, soustrayez la valeur minimale dechaque valeur et ajoutez-lui 1.

Vous pouvez également sélectionner le codage à utiliser pour quantifier chaquevariable.

Ordinal. L’ordre des modalités de la variable observée est conservé dans lavariable quantifiée.

Nominal simple. Dans la variable quantifiée, les objets d’une même modalitéreçoivent les mêmes coordonnées.

Page 76: SPSS Categories 14.0

58

Chapitre 4

Nominal multiple. Les quantifications peuvent différer pour chaque dimension.

Numérique discret. Les modalités sont considérées comme triées et espacéesrégulièrement. Les différences entre le nombre des modalités et l’ordre de cellesde la variable observée sont conservées dans la variable quantifiée.

Définir une plageFigure 4-4Boîte de dialogue Définir intervalle

Vous devez définir une plage pour chaque variable. La valeur maximale indiquée doitêtre un nombre entier. Les valeurs des données fractionnelles sont tronquées dansl’analyse. Une valeur de modalité située en dehors de la plage spécifiée est ignoréedans l’analyse. Pour réduire le nombre de résultats, utilisez le sous-menu Recoderautomatiquement (disponible depuis le menu Transformer) pour créer des modalitésconsécutives commençant par 1.

Vous devez également définir un intervalle pour chaque variable utilisée pourétiqueter les diagrammes de coordonnées des objets. Cependant, les étiquettes desmodalités comportant des valeurs de données situées en dehors de la plage définiepour la variable apparaissent sur les diagrammes.

Analyse de corrélation canonique non linéaire – Options

La boîte de dialogue Options vous permet de sélectionner des statistiques et desdiagrammes facultatifs, d’enregistrer les coordonnées des objets en tant que nouvellesvariables dans l’ensemble de données actif, de spécifier les critères d’itérations et deconvergence et d’indiquer une configuration initiale pour l’analyse.

Page 77: SPSS Categories 14.0

59

Analyse canonique non linéaire (OVERALS)

Figure 4-5Options

Afficher. Les statistiques disponibles incluent les fréquences marginales (effectifs),les barycentres, l’historique des itérations, les pondérations et corrélations entrecomposantes et variables initiales, les valeurs affectées aux modalités, les coordonnéesdes objets et l’ajustement unique et multiple.

Barycentres. Quantifications des modalités, et moyennes projetées et réelles descoordonnées des objets (observations) inclus dans chaque ensemble pour ceuxqui appartiennent à la même modalité de la variable.

Poids et saturations. Coefficients de régression dans chaque dimension pourchaque variable quantifiée d'un groupe. Les coordonnées des objets sontrégressées sur les variables quantifiées et la projection de la variable est quantifiéedans l'espace d'objet. Fournit une indication de la contribution que chaquevariable apporte à la dimension dans chaque classe.

Ajustement simple et multiple. Mesure la qualité de l'ajustement des coordonnéessimples et multiples/quantifications de modalité par rapport aux objets.

Valeurs affectées aux modalités. Valeur d'échelle optimale affectée aux modalitésd'une variable.

Coordonnées principales. Quantification optimale affectée à un objet (observation)dans une dimension particulière.

Page 78: SPSS Categories 14.0

60

Chapitre 4

Diagramme. Vous pouvez générer des diagrammes de coordonnées des modalités, decoordonnées des objets, de corrélations entre composantes et variables initiales, decentres de classes et de transformation.

Enregistrer les coordonnées des objets. Il est possible d’enregistrer les coordonnéesdes objets en tant que nouvelles variables dans l’ensemble de données actif. Cescoordonnées sont enregistrées en fonction du nombre de dimensions spécifiées dansla boîte de dialogue principale.

Utiliser configuration initiale aléatoire. Une configuration initiale aléatoire doit êtreutilisée si une partie ou la totalité des variables est nominale simple. Si cette casen’est pas cochée, une configuration initiale emboîtée est utilisée.

Critères. Vous pouvez spécifier le nombre maximum d’itérations que l’analysecanonique non linéaire peut prendre en charge dans ses calculs. Vous avez égalementla possibilité de sélectionner une valeur de critère de convergence. L’analyseinterrompt son itération dès que la différence de l’ajustement total entre les deuxdernières itérations est inférieure à la valeur de la convergence, ou dès que le nombremaximum d’itérations est atteint.

Fonctionnalités supplémentaires de la commande OVERALS

Vous pouvez personnaliser l’analyse canonique non linéaire en collant vos sélectionsdans une fenêtre de syntaxe et en modifiant la syntaxe de commande OVERALS. Lelangage de commande SPSS vous permet aussi de :

Spécifier les paires de dimensions à représenter, plutôt que représenter toutes lesdimensions extraites (à l’aide du mot-clé NDIM de la sous-commande PLOT).

Indiquer le nombre de caractères composant les étiquettes de valeurs utilisés pourétiqueter des points sur les diagrammes (avec la sous-commande PLOT).

Désigner plus de cinq variables sous forme de variables d’étiquettes pour lesdiagrammes de coordonnées des objets (avec la sous-commande PLOT).

Sélectionner les variables utilisées dans l’analyse en tant que variables d’étiquettespour les diagrammes de coordonnées des objets (avec la sous-commande PLOT).

Sélectionner les variables à fournir aux étiquettes de points pour le diagramme decoordonnées de quantification (avec la sous-commande PLOT).

Page 79: SPSS Categories 14.0

61

Analyse canonique non linéaire (OVERALS)

Indiquer le nombre d’observations à inclure dans l’analyse si vous ne souhaitezpas utiliser toutes les observations dans l’ensemble de données actif (avec lasous-commande NOBSERVATIONS).

Spécifier les noms de racine des variables créées en enregistrant les coordonnéesdes objets (avec la sous-commande SAVE).

Spécifier le nombre de dimensions à enregistrer, plutôt que de sauvegarder toutesles dimensions extraites (avec la sous-commande SAVE).

Ecrire les valeurs affectées aux modalités dans un fichier de matrice (avec lasous-commande MATRIX).

Produire des diagrammes à faible résolution pouvant être plus faciles à lire quedes diagrammes à haute résolution (avec la sous-commande SET).

Produire des diagrammes de barycentres et de transformations uniquement pourles variables spécifiées (avec la sous-commande PLOT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuelSPSS Command Syntax Reference.

Page 80: SPSS Categories 14.0
Page 81: SPSS Categories 14.0

Chapitre

5Analyse des correspondances

L’une des fonctions de l’analyse des correspondances consiste à décrire les relationsexistant entre deux variables qualitatives dans un tableau de correspondances pour unespace comportant peu de dimensions, tout en décrivant simultanément les relationsentre les modalités de chaque variable. Pour chacune des variables, les distancesséparant les points des modalités d’un diagramme reflètent les relations existantentre ces modalités : plus les modalités sont similaires, plus elles sont proches lesunes des autres. Les points de projection d’une variable du vecteur situés entrel’origine et l’un des points de modalité de l’autre variable décrivent les relationsentre les deux variables.

Une analyse des tableaux de contingence implique fréquemment l’examen desprofils des lignes et des colonnes ainsi qu’un test d’indépendance au moyen de lastatistique Khi-deux. Toutefois, le nombre de profils peut s’avérer assez élevé et letest du Khi-deux n’indique pas la structure des dépendances. La procédure Tableauxcroisés offre plusieurs mesures d’association et tests d’association mais ne permet pasde représenter graphiquement les relations existant entre les variables.

L’analyse factorielle constitue une technique standard de description des relationsentre les variables d’un espace comportant peu de dimensions. Toutefois, l’analysefactorielle nécessite des données d’intervalle et le nombre d’observations doit êtreégal au nombre de variables multiplié par cinq. L’analyse des correspondances, enrevanche, met en jeu des variables qualitatives et peut décrire les relations entre lesmodalités de chaque variable, ainsi que les relations entre les variables. En outre,l’analyse des correspondances permet d’analyser n’importe quel tableau de mesuresde correspondances positives.

Exemple. L’analyse des correspondances peut être utilisée pour représentergraphiquement les relations existant entre la modalité socioprofessionnelle etle nombre de cigarettes consommées. Vous pourriez ainsi déterminer que laconsommation de tabac diffère entre les jeunes cadres et les secrétaires, mais estsimilaire entre les secrétaires et les cadres supérieurs. Il vous serait également

63

Page 82: SPSS Categories 14.0

64

Chapitre 5

possible de déduire que les grands fumeurs sont principalement de jeunes cadres,alors que les fumeurs occasionnels sont généralement des secrétaires.

Diagrammes et statistiques. Mesures de correspondances, profils de lignes et decolonnes, valeurs singulières, scores de lignes et de colonnes, inertie, masse,statistiques de confiance des scores de lignes et de colonnes, statistiques de confiancedes valeurs singulières, diagrammes de transformation, diagrammes de point de ligne,diagrammes de point de colonne et diagrammes doubles.

Données. Les variables qualitatives à analyser sont codées de façon nominale. Pour lesdonnées agrégées ou pour les mesures de correspondances autres que les fréquences,utilisez une variable de pondération présentant des valeurs de similarité positives.Pour les données de tableau, utilisez la syntaxe pour lire le tableau.

Hypothèses. Le nombre maximal de dimensions utilisé dans la procédure dépend dunombre de modalités de ligne et de colonne actives et du nombre de contraintesd’égalité. Si aucune contrainte d’égalité n’est appliquée et que toutes les modalitéssont actives, le nombre de dimensions maximal est inférieur de un au nombre demodalités de la variable présentant le plus petit nombre de modalités. Par exemple,si l’une des variables comporte cinq modalités et l’autre quatre, le nombre maximalde dimensions sera de trois. Les modalités supplémentaires ne sont pas actives. Parexemple, si une variable comporte cinq modalités, dont deux supplémentaires, et quel’autre variable possède quatre modalités, le nombre maximal de dimensions seraégal à deux. Tous les groupes de modalités faisant l’objet d’une contrainte d’égalitédoivent être considérés comme une seule modalité. Ainsi, si une variable comportecinq modalités, dont trois doivent être égales, vous devrez considérer cette variablecomme ne possédant que trois modalités pour déterminer le nombre maximal dedimensions. Deux de ces modalités sont non contraintes, et la troisième correspondaux trois modalités contraintes. Si vous définissez un nombre de dimensions supérieurau nombre maximal autorisé, la valeur maximale sera appliquée par défaut.

Procédures apparentées. Si vous travaillez avec plus de deux variables, procédez àune analyse de correspondance multiple. Si les variables doivent être codées de façonordinale, utilisez l’analyse des composantes principales qualitatives.

Page 83: SPSS Categories 14.0

65

Analyse des correspondances

Pour obtenir une analyse des correspondances

E A partir des menus, sélectionnez :Analyse

FactorisationAnalyse des correspondances...

Figure 5-1Boîte de dialogue Analyse des correspondances

E Sélectionnez une variable de ligne.

E Sélectionnez une variable de colonne.

E Définir les plages des variables.

E Cliquez sur OK.

Définition de la plage de ligne dans l’analyse descorrespondances

Vous devez définir une plage pour la variable en ligne. Les valeurs minimale etmaximale spécifiées doivent être des nombres entiers. Les valeurs des donnéesfractionnelles sont tronquées dans l’analyse. Une valeur de modalité située en dehorsde la plage spécifiée est ignorée dans l’analyse.

Page 84: SPSS Categories 14.0

66

Chapitre 5

Figure 5-2Boîte de dialogue Définir l’intervalle de la variable en ligne

A l’origine, toutes les modalités sont non contraintes et actives. Vous pouvez par lasuite contraindre certaines modalités de ligne à être égales à d’autres modalités deligne, ou définir une modalité de ligne comme supplémentaire.

Les modalités doivent être égales. Les modalités doivent présenter des scoresidentiques. Appliquez des contraintes d’égalité si l’ordre obtenu pour lesmodalités n’est pas souhaitable ou est contraire à l’intuition. Le nombre maximalde modalités de ligne pouvant faire l’objet d’une contrainte d’égalité correspondau nombre total de modalités de ligne actives moins 1. Pour imposer différentescontraintes d’égalité aux groupes de modalités, utilisez la syntaxe. Par exemple,utilisez la syntaxe pour contraindre les modalités 1 et 2 à être égales, puis pourappliquer la même contrainte aux modalités 3 et 4.

La modalité est un supplément. Les modalités supplémentaires n’influencentpas l’analyse, mais sont représentées dans l’espace défini par les modalitésactives. Les modalités supplémentaires ne jouent aucun rôle dans la définitiondes dimensions. Le nombre maximal de modalités de ligne supplémentairescorrespond au nombre total de modalités de ligne moins 2.

Page 85: SPSS Categories 14.0

67

Analyse des correspondances

Définition de la plage de colonne dans l’analyse descorrespondances

Vous devez définir une plage pour la variable en colonne. Les valeurs minimaleet maximale spécifiées doivent être des nombres entiers. Les valeurs des donnéesfractionnelles sont tronquées dans l’analyse. Une valeur de modalité située en dehorsde la plage spécifiée est ignorée dans l’analyse.

Figure 5-3Boîte de dialogue Définir l’intervalle de la variable en colonne

A l’origine, toutes les modalités sont non contraintes et actives. Vous pouvez par lasuite contraindre certaines modalités de colonne à être égales à d’autres modalités decolonne ou définir une modalité de colonne comme supplémentaire.

Les modalités doivent être égales. Les modalités doivent présenter des scoresidentiques. Appliquez des contraintes d’égalité si l’ordre obtenu pour lesmodalités n’est pas souhaitable ou est contraire à l’intuition. Le nombremaximal de modalités de colonne pouvant faire l’objet d’une contrainte d’égalitécorrespond au nombre total de modalités de colonne actives moins 1. Pourimposer différentes contraintes d’égalité aux groupes de modalités, utilisez lasyntaxe. Par exemple, utilisez la syntaxe pour contraindre les modalités 1 et 2 àêtre égales, puis pour appliquer la même contrainte aux modalités 3 et 4.

La modalité est un supplément. Les modalités supplémentaires n’influencentpas l’analyse, mais sont représentées dans l’espace défini par les modalitésactives. Les modalités supplémentaires ne jouent aucun rôle dans la définition

Page 86: SPSS Categories 14.0

68

Chapitre 5

des dimensions. Le nombre maximal de modalités de colonne supplémentairescorrespond au nombre total de modalités de colonne moins 2.

Modèle d’analyse des correspondances

La boîte de dialogue Modèle vous permet de définir le nombre de dimensions, lamesure de distance, la méthode de standardisation et la méthode de standardisation.

Figure 5-4Boîte de dialogue Modèle

Dimensions de la solution. Spécifiez le nombre de dimensions. En général, choisissezautant de dimensions que nécessaires pour expliquer le maximum de la variation. Lenombre maximal de dimensions dépend du nombre de modalités actives utilisé dansl’analyse et des contraintes d’égalité. Le nombre maximal de dimensions est égalau plus petit d’entre ces deux nombres :

Le nombre de modalités de ligne actives moins le nombre de modalités de lignefaisant l’objet d’une contrainte d’égalité, plus le nombre de groupes de modalitésde ligne avec contrainte ;

Le nombre de modalités de colonne actives moins le nombre de modalités decolonne faisant l’objet d’une contrainte d’égalité, plus le nombre de groupes demodalités de colonne avec contrainte.

Page 87: SPSS Categories 14.0

69

Analyse des correspondances

Mesure de distance. Vous pouvez sélectionner la mesure de la distance entre leslignes et les colonnes du tableau des correspondances. Choisissez l’une des optionssuivantes :

Khi-deux. Utilisez une distance de profil pondérée, la pondération correspondantà la masse des lignes ou des colonnes. Cette mesure est requise pour l’analysedes correspondances standard.

Euclidienne. Utilisez la racine carrée de la somme des différences entre paires delignes et paires de colonnes élevées au carré.

Méthode de standardisation. Choisissez l’une des options suivantes :

Moyennes de lignes et de colonnes éliminées. Les lignes et les colonnes sontcentrées. Cette méthode est requise pour l’analyse des correspondances standard.

Moyennes de lignes éliminées. Seules les lignes sont centrées.

Moyennes de colonnes éliminées. Seules les colonnes sont centrées.

Les Totaux de lignes sont égalisés et les moyennes éliminées. Les marges des lignessont égalisées avant que les lignes ne soient centrées.

Les totaux de colonnes sont égalisés et les moyennes éliminées. Les marges descolonnes sont égalisées avant que les colonnes soient centrées.

Méthode de standardisation.Choisissez l’une des options suivantes :

Symétrique. Pour chaque dimension, les scores des lignes représentent la moyennepondérée des scores des colonnes, divisée par la valeur singulière correspondante; les scores des colonnes représentent la moyenne pondérée des scores des lignes,divisée par la valeur singulière correspondante. Utilisez cette méthode si voussouhaitez examiner les différences ou les similitudes existant entre les modalitésdes deux variables.

Principale. Les distances entre les points des lignes et des colonnes sont desapproximations des distances du tableau des correspondances en fonction de lamesure de distance sélectionnée. Appliquez cette méthode si vous souhaitezexaminer les différences existant entre les modalités de l’une ou des deuxvariables, plutôt que les différences entre ces deux variables.

Principale en ligne. Les distances entre les points des lignes sont desapproximations des distances du tableau des correspondances en fonction dela mesure de distance sélectionnée. Les scores des lignes correspondent à lamoyenne pondérée des scores des colonnes. Utilisez cette méthode si vous

Page 88: SPSS Categories 14.0

70

Chapitre 5

souhaitez examiner les différences ou les similitudes existant entre les modalitésde la variable de ligne.

Principale en colonne. Les distances entre les points des colonnes sont desapproximations des distances du tableau des correspondances en fonction de lamesure de distance sélectionnée. Les scores des colonnes correspondent à lamoyenne pondérée des scores des lignes. Utilisez cette méthode si vous souhaitezexaminer les différences ou les similitudes existant entre les modalités de lavariable en colonne.

Personnalisée. Vous devez définir une valeur comprise entre –1 et 1. La valeur–1 correspond à la méthode de standardisation principale en colonne. La valeur1 correspond à la méthode de standardisation principale en ligne. La valeur 0correspond à la méthode de standardisation symétrique. Toutes les autres valeursdispersent l’inertie sur les scores des lignes et des colonnes à différents degrés.Cette méthode s’avère utile pour la création de diagrammes doubles adaptés àvos besoins.

Statistiques de l’analyse des correspondancesLa boîte de dialogue Statistiques vous permet de définir les résultats numériques quevous souhaitez obtenir.

Figure 5-5Boîte de dialogue Statistiques

Tableau des correspondances. Tableau croisé des variables d’entrée incluant les totauxmarginaux de ligne et de colonne.

Caractéristiques des points lignes. Pour chaque modalité de ligne, indique les scores,la masse, l’inertie, la contribution du point à l’inertie de la dimension ainsi que lacontribution de la dimension à l’inertie du point.

Page 89: SPSS Categories 14.0

71

Analyse des correspondances

Caractéristiques des points colonnes. Pour chaque modalité de colonne, indique lesscores, la masse, l’inertie, la contribution du point à l’inertie de la dimension ainsique la contribution de la dimension à l’inertie du point.

Profils lignes. Pour chaque modalité de ligne, indique la distribution entre lesmodalités de la variable en colonne.

Profils colonnes. Pour chaque modalité de colonne, indique la distribution entre lesmodalités de la variable en ligne.

Permutations du tableau des correspondances. Réorganisation du tableau descorrespondances afin que les lignes et les colonnes apparaissent dans l’ordre croissanten fonction des scores de la première dimension. Une option vous permet de définirle nombre maximal de dimensions pour lequel vous souhaitez créer des tableauxpermutés. Un tableau permuté sera alors généré pour chaque dimension compriseentre 1 et le nombre défini par vous.

Statistiques de confiance pour points lignes. Ecart type et corrélations de tous lespoints de ligne non supplémentaires.

Statistiques de confiance pour points colonnes. Ecart type et corrélations de tous lespoints de colonne non supplémentaires.

Diagrammes de l’analyse des correspondancesLa boîte de dialogue Diagrammes vous permet de définir les diagrammes que voussouhaitez créer.

Page 90: SPSS Categories 14.0

72

Chapitre 5

Figure 5-6Boîte de dialogue Diagrammes

Diagrammes de dispersion. Génère une matrice de tous les diagrammes présentant lesdimensions par paire. Les diagrammes de dispersion disponibles sont les suivants :

Diagramme double. Crée une matrice des diagrammes joints représentant les pointsdes lignes et des colonnes. Si vous avez sélectionné la méthode de standardisationprincipale, l’option Diagramme double ne sera pas disponible.

Points lignes. Crée une matrice des diagrammes représentant les points des lignes.

Points colonnes. Crée une matrice des diagrammes représentant les points descolonnes.

Une option vous permet de définir le nombre de caractères composant les étiquettesde valeurs utilisées pour l’étiquetage des points. Cette valeur doit être un nombreentier positif inférieur ou égal à 20.

Page 91: SPSS Categories 14.0

73

Analyse des correspondances

Courbes. Crée un diagramme pour chaque dimension de la variable sélectionnée. Lescourbes disponibles sont les suivantes :

Modalités de lignes transformées. Produit un diagramme représentant les valeursdes modalités de ligne d’origine par rapport aux scores des lignes qui leurcorrespondent.

Modalités de colonnes transformées. Produit un diagramme représentant lesvaleurs des modalités de colonne d’origine par rapport aux scores des colonnesqui leur correspondent.

Une option vous permet de définir le nombre de caractères composant les étiquettesde valeurs utilisées pour l’étiquetage de l’axe des modalités. Cette valeur doit être unnombre entier positif inférieur ou égal à 20.

Dimensions du diagramme. Permet de contrôler les dimensions contenues dans lerésultat.

Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solutionapparaissent dans une matrice de diagramme de dispersion.

Limiter le nombre de dimensions. Les dimensions affichées sont limitées à despaires de dimensions représentées. Si vous restreignez ces dimensions, vousdevez sélectionner la plus petite et la plus grande à tracer. La plus petitedimension peut être comprise entre 1 et le nombre de dimensions contenues dansla solution moins 1. En outre, elle est représentée par rapport aux dimensionsplus grandes. La valeur de dimension la plus élevée peut être comprise entre 2 etle nombre de dimensions contenues dans la solution. Par ailleurs, elle indique laplus grande dimension à utiliser pour le traçage des paires de dimensions. Cettespécification s’applique à l’ensemble des représentations multidimensionnellesdemandées.

Fonctionnalités supplémentaires de la commandeCORRESPONDENCE

Vous pouvez personnaliser votre analyse des correspondances en collant vossélections dans une fenêtre de syntaxe, puis en modifiant la syntaxe de la commandeCORRESPONDENCE. Le langage de commande SPSS vous permet aussi de :

Indiquer les données des tableaux comme entrées au lieu d’utiliser les donnéesd’observation (au moyen de la sous-commande TABLE = ALL).

Page 92: SPSS Categories 14.0

74

Chapitre 5

Spécifier le nombre de caractères composant les étiquettes de valeurs utiliséespour l’étiquetage des points de chaque type de matrice de diagramme dedispersion ou de diagramme double (au moyen de la sous-commande PLOT).

Indiquer le nombre de caractères composant les étiquettes de valeurs utilisées pourl’étiquetage des points de chaque type de courbe (au moyen de la sous-commandePLOT).

Créer une matrice des scores des lignes et des colonnes dans un fichier de donnéesde matrice SPSS (avec la sous-commande OUTFILE).

Créer une matrice des statistiques de confiance (variances et covariances) pourles valeurs singulières et les scores dans un fichier de données de matrice SPSS(avec la sous-commande OUTFILE).

Appliquer une contrainte d’égalité à plusieurs groupes de modalités (au moyen dela sous-commande EQUAL).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuelSPSS Command Syntax Reference.

Page 93: SPSS Categories 14.0

Chapitre

6Analyse de correspondancemultiple

L’analyse de correspondance multiple quantifie les données (qualitatives) nominalesen attribuant des valeurs numériques aux observations (objets) et aux modalités,pour que les objets faisant partie de la même modalité soient proches les uns desautres et ceux de différentes modalités, éloignés les uns des autres. Chaque objetse trouve aussi près que possible des points de modalité qui s’appliquent. Ainsi,les modalités divisent les objets en sous-groupes homogènes. Les variables sontconsidérées comme homogènes lorsqu’elles classent les objets des mêmes modalitésdans les mêmes sous-groupes.

Exemple. L’analyse de correspondance multiple peut être utilisée pour affichergraphiquement la relation entre la modalité d’emploi, la classification des minoritéset le sexe. Vous pouvez trouver que la classification par minorités et le sexe sontdiscriminant pour les personnes, mais que la modalité d’emploi ne l’est pas. Vous avezégalement la possibilité de constater que les modalités Latino et Afro-Américainessont similaires les unes des autres.

Diagrammes et statistiques. Coordonnées des objets, mesures de discrimination,historique des itérations, corrélations des variables d’origine et des variablestransformées, quantifications des modalités, statistiques descriptives, diagrammesde points des objets, diagrammes doubles, diagrammes de modalités, diagrammesde modalités joints, diagrammes de transformation et diagrammes de mesures dediscrimination.

Données. Les variables chaîne sont toujours converties en nombres entiers positifs parordre croissant alphanumérique. Les valeurs manquantes définies par l’utilisateur, lesvaleurs manquantes par défaut et les valeurs inférieures à 1 sont considérées commemanquantes ; vous pouvez donc recoder ou ajouter une constante aux variablescontenant des valeurs inférieures à 1 pour les définir comme non manquantes.

75

Page 94: SPSS Categories 14.0

76

Chapitre 6

Hypothèses. Toutes les variables contiennent le niveau de codage nominal multiple.Les données doivent contenir au moins trois observations valides. L’analyse reposesur des données sous forme de nombres entiers positifs. L’option de discrétisationclasse automatiquement une variable fractionnée en regroupant ses valeurs enmodalités avec une distribution quasi normale et convertit automatiquement lesvaleurs des variables chaîne en nombre entiers positifs. Vous pouvez en outre,spécifier d’autres schémas de discrétisation.

Procédures apparentées. Pour deux variables, l’analyse de correspondance multipleest identique à l’analyse des correspondances. Si vous pensez que ces variablespossèdent des propriétés ordinales ou numériques, vous devez utiliser l’analyse descomposantes principales qualitatives. Si des groupes de variables sont intéressants,vous devez utiliser une analyse des corrélations canoniques (non linéaires).

Pour obtenir une analyse de correspondance multiple

E A partir des menus, sélectionnez :Analyse

FactorisationCodage optimal

Figure 6-1Boîte de dialogue Niveau du codage optimal

E Sélectionnez Toutes les variables nominales multiples.

E Sélectionnez Un groupe.

E Cliquez sur Définir.

Page 95: SPSS Categories 14.0

77

Analyse de correspondance multiple

Figure 6-2Boîte de dialogue Analyse des correspondances multiples

E Sélectionnez au moins deux variables d’analyse et spécifiez le nombre de dimensionsde la solution.

E Cliquez sur OK.

Vous pouvez peut-être spécifier des variables supplémentaires qui sont ajustées à lasolution trouvée, ou des variables d’étiquettes pour les diagrammes.

Définition d’une pondération de variable dans une analyse decorrespondance multiple

Vous pouvez définir la pondération pour les variables d’analyse.

Page 96: SPSS Categories 14.0

78

Chapitre 6

Figure 6-3Boîte de dialogue Définir la pondération de la variable

Pondération de la variable. Vous pouvez choisir une pondération pour chaque variable.La valeur spécifiée doit être un nombre entier positif. La valeur par défaut est 1.

Analyse des correspondances multiples : Discrétisation

La boîte de dialogue Discrétisation vous permet de choisir une méthode de recodagedes variables. Les valeurs fractionnées sont regroupées en sept modalités (ou ennombre de valeurs distinctes de variables si le nombre est inférieur à sept) avec unedistribution normale approximative, à moins qu’une autre configuration ne soitspécifiée. Les variables chaîne sont toujours converties en nombres entiers positifsen affectant des indicateurs de modalités selon l’ordre croissant alphanumérique.La discrétisation des variables chaîne s’applique à ces nombres entiers. Par défaut,d’autres variables sont laissées inutilisées. Les variables discrétisées sont ensuiteutilisées dans l’analyse.

Page 97: SPSS Categories 14.0

79

Analyse de correspondance multiple

Figure 6-4Discrétisation

Méthode. Choisissez entre Regroupement, Rang et Multiplier.

Regroupement. Recodez en un nombre spécifié de modalités ou par intervalle.

Rang. La variable est discrétisée via le classement des observations.

Multiplier. Les valeurs courantes de la variable sont standardisées, multipliéespar 10 et arrondies, et possèdent une constante ajoutée de sorte que la valeurdiscrétisée la plus faible soit égale à 1.

Regroupement. Les options suivantes sont disponibles lorsque vous discrétisez desvariables par groupe :

Nombre de modalités. Indiquez un nombre de modalités et définissez si lesvaleurs de la variable doivent faire l’objet d’une distribution approximativementgaussienne ou uniforme entre ces modalités.

Intervalles égaux. Les variables sont recodées en modalités définies par cesintervalles de taille égale. N’oubliez pas de spécifier la longueur des intervalles.

Page 98: SPSS Categories 14.0

80

Chapitre 6

Analyse des correspondances multiples : Valeurs manquantes

La boîte de dialogue Valeurs manquantes vous permet de choisir la stratégie degestion des valeurs manquantes pour les variables de l’analyse et supplémentaires.

Figure 6-5Boîte de dialogue Valeurs manquantes

Stratégie de la valeur manquante. Choisissez d’exclure les valeurs manquantes(traitement passif), d’affecter des valeurs (traitement actif) ou d’exclure les objetscontenant des valeurs manquantes (suppression des observations incomplètes).

Exclure les valeurs manquantes pour affectation de corrélations après quantification.Les objets contenant des valeurs manquantes sur la variable sélectionnée necontribuent pas à l’analyse de cette variable. Si un traitement passif est effectuésur toutes les variables, les objets dont les variables comportent des valeursmanquantes sont traités comme étant supplémentaires. Si les corrélations sontspécifiées dans la boîte de dialogue Résultat, les valeurs manquantes après analysesont alors prises en compte avec la modalité la plus fréquente ou le mode de lavariable pour les corrélations des variables d’origine. Pour corréler des variablescodées de façon optimale, vous devez choisir une méthode de calcul. Sélectionnez

Page 99: SPSS Categories 14.0

81

Analyse de correspondance multiple

Mode pour remplacer les valeurs manquantes par le mode de la variable codée defaçon optimale. Sélectionnez Modalité supplémentaire pour remplacer les valeursmanquantes par la valeur affectée à une modalité supplémentaire. Cela supposeque les objets contenant une valeur manquante pour cette variable sont considéréscomme appartenant à la même modalité (supplémentaire).

Inclure les valeurs manquantes. Des valeurs sont prises en compte pour les objetscontenant des valeurs manquantes sur la variable sélectionnée. Vous pouvezchoisir la méthode de calcul : Sélectionnez Mode pour remplacer les valeursmanquantes par la modalité la plus fréquente. S’il existe plusieurs modes, utilisezcelui dont l’indicateur de modalités est le plus petit. Sélectionnez Modalitésupplémentaire pour remplacer les valeurs manquantes par la valeur affectée àune modalité supplémentaire. Cela suppose que les objets contenant une valeurmanquante pour cette variable sont considérés comme appartenant à la mêmemodalité (supplémentaire).

Exclure les objets contenant des valeurs manquantes sur cette variable. Les objetscontenant des valeurs manquantes dans la variable sélectionnée sont retirés del’analyse. Cette option n’est pas disponible pour les variables supplémentaires.

Analyse des correspondances multiples : Options

La boîte de dialogue Options vous permet de sélectionner la configuration initiale, despécifier les itérations et les critères de convergence, de sélectionner une méthode destandardisation, de sélectionner une méthode d’étiquetage des diagrammes et, enfin,de spécifier des objets supplémentaires.

Page 100: SPSS Categories 14.0

82

Chapitre 6

Figure 6-6Options

Objets supplémentaires. Indiquez le numéro d’observation de l’objet (ou les premieret dernier numéros d’observation d’une plage d’objets) que vous souhaitez définircomme objet supplémentaire, puis cliquez sur Ajouter. Poursuivez jusqu’à ce quevous ayez indiqué tous les objets supplémentaires. Si un objet est spécifié commesupplémentaire, alors les pondérations d’observation est ignorée pour cet objet.

Méthode de standardisation. Vous pouvez spécifier l’une des cinq options destandardisation des coordonnées des objets et des variables. Une seule méthode destandardisation peut être utilisée dans une analyse donnée.

Variable principale. Cette option optimise l’association entre les variables. Lescoordonnées des variables dans l’espace objet correspondent aux corrélationsentre composants et variables initiales (corrélations comportant des composantes

Page 101: SPSS Categories 14.0

83

Analyse de correspondance multiple

principales telles que des dimensions et des coordonnées d’objets). Cela est utilesi vous êtes avant tout intéressé par les corrélations entre variables.

Objet principal. Cette option optimise les distances entre les objets. Cela est utilesi vous êtes avant tout intéressé par les différences ou similitudes entre objets.

Symétrique. Utilisez cette option de standardisation si vous êtes avant toutintéressé par la relation entre les objets et les variables.

Indépendant. Utilisez cette option de standardisation si vous souhaitez examinerles distances entre les objets ainsi que les corrélations entre variables séparément.

Personnalisée. Vous pouvez spécifier toute valeur réelle comprise dans l’intervalle[–1, 1]. Une valeur de 1 correspond à la méthode Objet principal, une valeur de 0correspond à la méthode Symétrique, et une valeur de –1 à la méthode Variableprincipale. En spécifiant une valeur comprise entre –1 et 1, la valeur propre peutcomprendre à la fois les objets et les variables. Cette méthode est utile poureffectuer des diagrammes doubles ou triples.

Critères. Vous pouvez spécifier le nombre maximum d’itérations que la procédure peutprendre en charge dans ses calculs. Vous avez également la possibilité de sélectionnerune valeur de critère de convergence. L’algorithme interrompt son itération dès que ladifférence du total ajusté entre les deux dernières itérations est inférieur à la valeur dela convergence ou dès que le nombre maximum d’itérations est atteint.

Etiqueter les diagrammes par. Vous permet de préciser si les étiquettes de variable et devaleurs ou les noms ou valeurs de variables sont utilisés dans les diagrammes. Vouspouvez également spécifier une longueur maximale pour les étiquettes.

Dimensions du diagramme. Permet de contrôler les dimensions contenues dans lerésultat.

Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solutionapparaissent dans une matrice de diagramme de dispersion.

Limiter le nombre de dimensions. Les dimensions affichées sont limitées à despaires de dimensions représentées. Si vous restreignez ces dimensions, vousdevez sélectionner la plus petite et la plus grande à tracer. La plus petitedimension peut être comprise entre 1 et le nombre de dimensions contenues dansla solution moins 1. En outre, elle est représentée par rapport aux dimensionsplus grandes. La valeur de dimension la plus élevée peut être comprise entre 2 etle nombre de dimensions contenues dans la solution. Par ailleurs, elle indique laplus grande dimension à utiliser pour le traçage des paires de dimensions. Cette

Page 102: SPSS Categories 14.0

84

Chapitre 6

spécification s’applique à l’ensemble des représentations multidimensionnellesdemandées.

Configuration. Vous pouvez lire les données d’un fichier contenant les coordonnéesde la configuration. La première variable du fichier doit contenir les coordonnées dela première dimension, la deuxième variable, celles de la deuxième dimension, etainsi de suite.

Initiale. La configuration du fichier spécifié sera utilisée comme point de départde l’analyse.

Fixe. La configuration du fichier spécifié sera utilisée pour ajuster les variables.Les variables ainsi ajustées doivent être sélectionnées comme des variablesd’analyse, mais la configuration étant fixe, elles doivent être considérées commedes variables supplémentaires (il est donc inutile de les sélectionner commetelles).

Analyse des correspondances multiples : Résultats

La boîte de dialogue Résultat vous permet de créer des tableaux pour les coordonnéesdes objets, les mesures de discrimination, l’historique des itérations, les corrélationsdes variables d’origine et des variables transformées, ainsi que les quantifications desmodalités et statistiques descriptives des variables sélectionnées.

Page 103: SPSS Categories 14.0

85

Analyse de correspondance multiple

Figure 6-7Résultat

Coordonnées des objets. Affiche les coordonnées des objets, y compris la masse,l’inertie et les contributions, ainsi que les options suivantes :

Inclure les modalités de. Présente les indicateurs de modalités des variablesd’analyse sélectionnées.

Etiqueter les objets du diagramme par. Vous pouvez sélectionner l’une des variablesspécifiées dans la liste de variables d’étiquetage pour étiqueter les objets.

Mesures de discrimination. Affiche les mesures de discrimination par variable etpar dimension.

Historique des itérations. Pour chaque itération, la variance représentée, la perte etl’augmentation de la variance représentée sont affichées.

Corrélations des variables d’origine. Affiche la matrice de corrélation des variablesd’origine ainsi que les valeurs propres de cette matrice.

Page 104: SPSS Categories 14.0

86

Chapitre 6

Corrélations des variables transformées. Affiche la matrice de corrélation des variablestransformées (codées de façon optimale) ainsi que les valeurs propres de cette matrice.

Valeurs affectées aux modalités et contributions. Indique les valeurs affectées auxmodalités (coordonnées), y compris la masse, l’inertie et les contributions pourchaque dimension de la ou des variables sélectionnées.

Statistiques descriptives. Affiche les fréquences, le nombre de valeurs manquantes etle mode de la ou des variables sélectionnées.

Analyse des correspondances multiples : Enregistrer

La boîte de dialogue Enregistrer vous permet d’enregistrer les données discrétisées,les coordonnées des objets et les valeurs transformées dans un fichier de donnéesSPSS ou un ensemble de données. Vous pouvez également enregistrer les valeurstransformées et les coordonnées des objets dans l’ensemble de données actif.

Les ensembles de données sont disponibles lors de la session en cours mais nesont pas disponibles lors des sessions suivantes, sauf si vous les enregistrezclairement comme fichiers de données. Les noms des ensembles de donnéesdoivent être conformes aux règles de dénomination de variables SPSS.

Les noms de fichiers ou les noms de l’ensemble de données doivent être différentspour chaque type de données enregistrées.

Si vous enregistrez les coordonnées des objets ou les valeurs transformées dansl’ensemble de données actif, vous pouvez indiquer le nombre des dimensionsnominales multiples.

Page 105: SPSS Categories 14.0

87

Analyse de correspondance multiple

Figure 6-8Enregistrer

Analyse des correspondances multiples : Diagrammes d’objets

La boîte de dialogue Diagrammes d’objets vous permet d’indiquer les types dediagrammes souhaités ainsi que les variables à représenter.

Page 106: SPSS Categories 14.0

88

Chapitre 6

Figure 6-9Boîte de dialogue Diagrammes d’objets

Points des objets. Un diagramme des points des objets s’affiche.

Objets et barycentres (diagrammes doubles). Les points des objets sont représentésavec les barycentres de variable.

Variables de diagramme double. Vous pouvez choisir d’utiliser toutes les variables desdiagrammes doubles ou de sélectionner un sous-groupe.

Etiqueter objets. Vous pouvez choisir d’étiqueter des objets avec les modalitésdes variables sélectionnées (choisissez les valeurs des indicateurs de modalités oules étiquettes de valeurs dans la boîte de dialogue Options) ou avec le nombred’observations. Si vous avez sélectionné Variables, un seul diagramme est créé parvariable.

Analyse des correspondances multiples : Diagrammes devariables

La boîte de dialogue Diagrammes de variables vous permet d’indiquer les types dediagrammes souhaités ainsi que les variables à représenter.

Page 107: SPSS Categories 14.0

89

Analyse de correspondance multiple

Figure 6-10Boîte de dialogue Diagrammes de variables

Diagrammes de modalités. Pour chaque variable sélectionnée, un diagramme descoordonnées du barycentre est représenté. Les modalités se trouvent dans lesbarycentres des objets des modalités concernées.

Joindre les diagrammes de modalités. Il s’agit d’un diagramme simple représentant lescoordonnées du barycentre de chaque variable sélectionnée.

Diagrammes de transformation. Affiche un diagramme des valeurs affectées auxmodalités optimales contre les indicateurs de modalités. Vous pouvez spécifier lenombre de dimensions souhaité. Un diagramme sera créé pour chaque dimension.Il vous est également possible de choisir d’afficher des diagrammes résiduels pourchaque variable sélectionnée.

Mesures de discrimination. Crée un diagramme des mesures de discrimination pourles variables sélectionnées.

Page 108: SPSS Categories 14.0

90

Chapitre 6

Commande MULTIPLE CORRESPONDENCE - Caractéristiquesadditionnelles

Vous pouvez personnaliser votre analyse de correspondance multiple en collant vossélections dans une fenêtre de syntaxe, puis en modifiant la syntaxe de la commandeMULTIPLE CORRESPONDENCE. Le langage de commande SPSS vous permet ausside :

Spécifiez les noms de racine des variables transformées, les coordonnées desobjets et les approximations lorsque vous les enregistrez dans l’ensemble dedonnées actif (avec la sous-commande SAVE).

Spécifier la longueur maximale pour les étiquettes de chaque diagrammeséparément (avec la sous-commande PLOT).

Spécifier une liste de variables distincte pour les diagrammes résiduels (avec lasous-commande PLOT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuelSPSS Command Syntax Reference.

Page 109: SPSS Categories 14.0

Chapitre

7Positionnementmultidimensionnel (PROXSCAL)

Le positionnement multidimensionnel tente de déterminer la structure d’un groupede mesures de proximité entre les objets. Ce procédé est effectué en affectantdes observations à des positions particulières dans un espace conceptuel de petitedimension de telle sorte que les distances entre les points dans l’espace correspondentle mieux possible aux (dis)similarités données. Le résultat est une représentation àmoindres carrés des objets dans cet espace de petite dimension, qui vous aidera, danscertains cas, à mieux comprendre vos données.

Exemple. Le positionnement multidimensionnel peut être très utile pour déterminerles relations perceptuelles. Par exemple, en considérant l’image de votre produit,vous pouvez mener une enquête en vue d’obtenir un ensemble de données décrivantla similarité distinguée (ou proximité) de votre produit comparée à celle de vosconcurrents. En utilisant ces variables de proximité et indépendantes (un prix, parexemple), vous pouvez essayer de déterminer quelles variables sont importantessuivant le mode d’affichage de ces produits et vous pouvez ajuster votre image enfonction.

Diagrammes et statistiques. Historique des itérations, mesures de stress, décompositiondu stress, coordonnées de l’espace commun, distances des objets dans laconfiguration finale, pondérations des espaces individuels, espaces individuels,proximités transformées, variables indépendantes transformées, diagrammes destress, diagrammes de dispersion des espaces communs, diagrammes de dispersionde pondération des espaces individuels, diagrammes de dispersion des espacesindividuels, diagrammes de transformation, diagrammes résiduels de Shepard etdiagrammes de transformation des variables explicatives.

91

Page 110: SPSS Categories 14.0

92

Chapitre 7

Données. Les données peuvent être indiquées dans le formulaire des matrices deproximité ou des variables qui sont converties en matrice de proximité. Les matricespeuvent être formatées en colonnes ou entre les colonnes. Les proximités peuventêtre traitées par niveaux de codage rapport, intervalle, ordinal ou spline.

Hypothèses. Trois variables au moins doivent être spécifiées. Le nombre dedimensions ne doit pas dépasser le nombre d’objets moins un. La réduction dunombre de dimensions est omise si elle est combinée aux départs aléatoires multiples.Si vous indiquez une source seulement, tous les modèles équivalent au modèled’identité, puis l’analyse sélectionne par défaut le modèle d’identité.

Procédures apparentées. Le codage de toutes les variables à un niveau numériquecorrespond au positionnement multidimensionnel standard.

Page 111: SPSS Categories 14.0

93

Positionnement multidimensionnel (PROXSCAL)

Obtenir un positionnement multidimensionnel

E A partir des menus, sélectionnez :Analyse

EchellePositionnement multidimensionnel (PROXSCAL)...

Cette opération ouvre la boîte de dialogue Format des données.

Figure 7-1Boîte de dialogue Format des données

E Spécifiez le format des données :

Format des données. Indiquez si vos données constituent des mesures de proximité ousi vous souhaitez créer des proximités à partir des données.

Nombre de sources. Si vos données sont des proximités, spécifiez si vous avez dessources uniques ou multiples de mesures de proximité.

Une source. S’il existe une source de proximité, spécifiez si votre ensemble dedonnées est formaté avec les proximités d’une matrice sur des colonnes ou sur unecolonne unique avec deux variables séparées pour identifier les lignes et colonnes dechaque proximité.

Page 112: SPSS Categories 14.0

94

Chapitre 7

Proximités sur plusieurs colonnes d'une matrice. Le nombre de colonnes de lamatrice de proximité correspond au nombre d'objets. Vous accédez ensuite à laboîte de dialogue Proximités sur plusieurs colonnes de matrices.

Proximités sur une seule colonne. La matrice de proximité est réduite à une seulecolonne ou variable. Deux variables supplémentaires identifiant la ligne et lacolonne de chaque cellule sont nécessaires. Vous accédez ensuite à la boîte dedialogue Proximités sur une seule colonne.

Plusieurs sources. S’il existe plusieurs sources de proximités, spécifiez si l’ensemblede données est formaté avec les proximités des matrices empilées sur plusieurscolonnes, sur des colonnes multiples contenant une source par colonne ou sur unecolonne simple.

Proximités sur plusieurs colonnes de matrices empilées. Les matrices de proximités'étalent sur un nombre de colonnes équivalent au nombre d'objets et sontempilées les unes sur les autres sur un nombre de lignes équivalent au produitdu nombre d'objets et du nombre de sources. Vous accédez ensuite à la boîte dedialogue Proximités sur plusieurs colonnes de matrices.

Proximités sur plusieurs colonnes, une source par colonne. Les matrices deproximité sont réduites à plusieurs colonnes ou variables. Deux variablessupplémentaires identifiant la ligne et la colonne de chaque cellule sontnécessaires. Vous accédez ensuite à la boîte de dialogue Proximités sur descolonnes.

Proximités sur une seule colonne. Les matrices des proximités sont réduites à uneseule colonne ou variable. Trois variables supplémentaires identifiant la ligne, lacolonne et la source de chaque cellule, sont nécessaires. Vous accédez ensuite àla boîte de dialogue Proximités sur une seule colonne.

E Cliquez sur Définir.

Page 113: SPSS Categories 14.0

95

Positionnement multidimensionnel (PROXSCAL)

Proximités dans des matrices sur plusieurs colonnes

Si vous sélectionnez les proximités dans un modèle de matrice des données pourune ou plusieurs sources dans la boîte de dialogue Format des données, la boîte dedialogue principale s’affiche comme ci-dessous :

Figure 7-2Boîte de dialogue Proximités sur plusieurs colonnes de matrices

E Sélectionnez deux ou plusieurs variables de proximité. (Veuillez vous assurer quel’ordre des variables dans la liste correspond à l’ordre des colonnes des proximités.)

E Sélectionnez éventuellement un nombre de variables de pondération égal au nombredes variables de proximité. (Veuillez vous assurer que l’ordre des pondérationscorrespond à celui des proximités qu’elles pondèrent.)

E S’il existe plusieurs sources, vous pouvez également sélectionner une variable desources. (Le nombre d’observations dans chaque variable de proximité doit être égalau nombre de variables de proximité multiplié par le nombre de sources.)

De plus, vous pouvez définir un modèle pour un positionnement multidimensionnel,placer les restrictions dans l’espace commun, définir les critères de convergence,spécifier la configuration initiale à utiliser et enfin, choisir des diagrammes et desrésultats.

Page 114: SPSS Categories 14.0

96

Chapitre 7

Proximités sur plusieurs colonnes

Si vous sélectionnez le modèle de colonnes multiples pour plusieurs sources dansla boîte de dialogue Format des données, la boîte de dialogue principale s’affichecomme ci-dessous :

Figure 7-3Boîte de dialogue Proximités sur plusieurs colonnes

E Sélectionnez deux ou plusieurs variables. (Chaque variable est considérée commeétant une matrice de proximité provenant d’une source distincte.)

E Sélectionnez une variable de lignes pour définir les positions de lignes pour lesproximités dans chaque variable de proximités.

E Sélectionnez une variable de colonnes pour définir les positions de colonnes pourles proximités dans chaque variable de proximités. (Les cellules de la matrice deproximité n’ayant pas de désignation lignes/colonnes sont considérées commemanquantes.)

E Sélectionnez éventuellement un nombre de variables de pondération égal au nombredes variables de proximité.

Page 115: SPSS Categories 14.0

97

Positionnement multidimensionnel (PROXSCAL)

De plus, vous pouvez définir un modèle pour un positionnement multidimensionnel,placer les restrictions dans l’espace commun, définir les critères de convergence,spécifier la configuration initiale à utiliser et enfin, choisir des diagrammes et desrésultats.

Proximités dans une colonne

Si vous sélectionnez le modèle de colonne unique pour une ou plusieurs sources dansla boîte de dialogue Format des données, la boîte de dialogue principale s’affichecomme ci-dessous :

Figure 7-4Boîte de dialogue Proximités dans une colonne

E Sélectionnez une variable de proximité. (On considère qu’il existe une ou plusieursmatrices des proximités.)

E Sélectionnez une variable de lignes pour définir les positions de lignes pour lesproximités dans la variable des proximités.

E Sélectionnez une variable de colonnes pour définir les positions de colonnes pour lesproximités dans la variable des proximités.

E S’il existe plusieurs sources, sélectionnez une variable de sources. (Pour chaquesource, les cellules de la matrice de proximité n’ayant pas de désignationlignes/colonnes sont considérées comme manquantes.)

Page 116: SPSS Categories 14.0

98

Chapitre 7

E Eventuellement, choisissez une variable de pondération.

De plus, vous pouvez définir un modèle pour un positionnement multidimensionnel,placer les restrictions dans l’espace commun, définir les critères de convergence,spécifier la configuration initiale à utiliser et enfin, choisir des diagrammes et desrésultats.

Créer des proximités à partir des données

Si vous sélectionnez de créer des proximités dans la boîte de dialogue Format desdonnées, la boîte de dialogue principale s’affiche comme ci-dessous :

Figure 7-5Boîte de dialogue Créer des proximités à partir des données

E Si vous créez des distances entre les variables (voir la boîte de dialogue Créer unemesure à partir des données), sélectionnez au moins trois variables. Ces variablesseront utilisées pour créer la matrice de proximité (ou les matrices, s’il existeplusieurs sources). Si vous créez des distances entre les observations, seule unevariable est requise.

E S’il existe plusieurs sources, sélectionnez une variable de sources.

E Choisissez éventuellement une mesure de création de proximités.

Page 117: SPSS Categories 14.0

99

Positionnement multidimensionnel (PROXSCAL)

De plus, vous pouvez définir un modèle pour un positionnement multidimensionnel,placer les restrictions dans l’espace commun, définir les critères de convergence,spécifier la configuration initiale à utiliser et enfin, choisir des diagrammes et desrésultats.

Boîte de dialogue Créer une mesure à partir des donnéesFigure 7-6Boîte de dialogue Créer une mesure à partir des données

Le positionnement multidimensionnel utilise les données de dissimilarité pour créerune solution de codage. Si vos données sont multivariées (valeurs des variablesmesurées), vous devez créer des données de dissimilarité afin de calculer une solutionde positionnement multidimensionnel. Vous pouvez spécifier les détails de créationde mesures de dissimilarité à partir de vos données.

Mesure. Vous permet de spécifier la mesure de dissimilarité adaptée à votre analyse.Sélectionnez une possibilité dans le groupe Mesure correspondant à votre type dedonnées, puis sélectionnez l’une des mesures dans la liste déroulante correspondant àce type de mesure. Les possibilités sont :

Intervalle. Distance Euclidienne, Carré de la distance Euclidienne, Distance deTchebycheff, Distance de Manhattan, Distance de Minkowski ou Autre.

Page 118: SPSS Categories 14.0

100

Chapitre 7

Effectif. Distance du Khi-deux ou Distance du phi-deux.

Binaire. Distance Euclidienne, Carré de la distance Euclidienne, Ecart de taille,Différence de motif, Variance ou Lance et Williams.

Créer une matrice de distances. Vous permet de choisir l’unité d’analyse. Lespossibilités sont Par variables ou Par observations.

Transformer les valeurs. Dans certains cas, comme lorsque les variables sont mesuréesselon des échelles très différentes, vous voudrez standardiser des valeurs avant decalculer les proximités (ne s’applique pas aux données binaires). Sélectionnez uneméthode de standardisation dans la liste déroulante Standardiser (si la standardisationn’est pas nécessaire, sélectionnez Aucune).

Définir un modèle de positionnement multidimensionnelLa boîte de dialogue Modèle vous permet d’indiquer un modèle de positionnement,son nombre minimum et maximum de dimensions, la structure de la matrice deproximité, la transformation à utiliser sur les proximités, et de déterminer si lesproximités sont transformées dans chaque source séparément ou sans condition surla source.

Figure 7-7Boîte de dialogue Modèle

Page 119: SPSS Categories 14.0

101

Positionnement multidimensionnel (PROXSCAL)

Modèle de positionnement. Choisissez parmi les options suivantes :

Identité. Toutes les sources ont la même configuration.

Euclidien pondéré. Ce modèle est un modèle des différences individuelles. Chaquesource comporte un espace individuel dans lequel chaque dimension de l’espacecommun est pondérée de façon différentielle.

Euclidien généralisé. Ce modèle est un modèle des différences individuelles.Chaque source comporte un espace individuel qui est égal à une rotation del’espace commun, suivie d’une pondération différenciée des dimensions.

Rang réduit. Il s’agit d’un modèle euclidien généralisé pour lequel vous pouvezspécifier le rang de l’espace individuel. Vous devez spécifier un rang supérieur ouégal à 1 et inférieur au nombre maximum de dimensions.

Forme. Spécifiez si les proximités doivent être extraites des parties triangulairesinférieure ou supérieure de la matrice de proximité. Vous pouvez indiquer quela totalité de la matrice est utilisée, auquel cas la somme pondérée des partiestriangulaires supérieure et inférieure sera analysée. Dans tous les cas, la matricecomplète doit être spécifiée, y compris la diagonale, même si les parties spécifiéesseront les seules à être utilisées.

Proximités. Spécifiez si votre matrice de proximité contient des mesures de similaritéou de dissimilarité.

Transformations de proximité. Choisissez parmi les options suivantes :

Rapport. Les proximités transformées sont proportionnelles aux proximitésoriginales. Uniquement disponible pour les proximités à valeurs positives.

Intervalle. Les proximités transformées sont proportionnelles aux proximitésoriginales et à une constante. Cette constante fait en sorte que les proximitéstransformées soient positives.

Ordinal. Les proximités transformées ont le même ordre que les originales. Vousspécifiez si les proximités liées doivent être gardées liées ou autorisées à ne plusl’être.

Spline. Les proximités transformées représentent une transformation polynomialenon décroissante lissée des proximités originales. Vous spécifiez le degré de lafonction polynomiale ainsi que le nombre de points critiques.

Appliquer les transformations. Spécifiez si seules les proximités de chaque source sontcomparées entre elles ou si les comparaisons sont sans condition sur la source.

Page 120: SPSS Categories 14.0

102

Chapitre 7

Dimensions. Par défaut, une solution est calculée dans deux dimensions (minimum =2,maximum =2). Vous choisissez un entier minimum et maximum depuis 1 jusqu’aunombre d’objets moins 1 (tant que le minimum reste inférieur ou égal au maximum.)La procédure calcule une solution des dimensions maximales, puis réduit le nombrede dimensions en matière d’étapes, jusqu’à ce que la plus petite soit atteinte.

Positionnement multidimensionnel : Restrictions

La boîte de dialogue Restrictions vous permet de placer les restrictions sur l’espacecommun.

Figure 7-8Boîte de dialogue Restrictions

Restrictions sur l’espace commun. Spécifiez le type de restriction souhaité.

Pas de restrictions. Aucune restriction n’est placée sur l’espace commun.

Certaines coordonnées fixées. La première variable sélectionnée contient lescoordonnées des objets sur la première dimension ; la seconde correspond auxcoordonnées des objets sur la deuxième dimension, et ainsi de suite. Une valeur

Page 121: SPSS Categories 14.0

103

Positionnement multidimensionnel (PROXSCAL)

manquante indique qu’une coordonnée sur une dimension est libre. Le nombre devariables sélectionnées doit être égal au nombre maximum de dimensions requis.

Combinaison linéaire de variables indépendantes. L’espace commun se réduit àune combinaison linéaire des variables sélectionnées.

Variables de restriction. Sélectionnez les variables qui définissent les restrictionssur l’espace commun. Si vous spécifiez une combinaison linéaire, vous spécifiezune transformation d’intervalle, nominale, ordinale ou spline pour des variables derestriction. Dans tous les cas, le nombre d’observations pour chaque variable doitêtre égal au nombre d’objets.

Positionnement multidimensionnel : Options

La boîte de dialogue Options vous permet de sélectionner le style de configurationinitiale, de spécifier les critères d’itération et de convergence, et de sélectionner desmises à jour standard ou relaxées.

Figure 7-9Options

Page 122: SPSS Categories 14.0

104

Chapitre 7

Configuration initiale. Choisissez l’une des options suivantes :

Simplex. Les objets sont placés à la même distance les uns des autres dans ladimension maximale. Une itération est prise pour améliorer cette configurationà haute dimension, suivie d’une réduction de dimension en vue d’obtenir uneconfiguration initiale comportant le nombre maximum de dimensions spécifiédans la boîte de dialogue Modèle.

Torgerson. Une solution de codage classique est utilisée comme configurationinitiale.

Départ aléatoire unique. Une configuration est choisie de façon aléatoire.

Départs aléatoires multiples. Plusieurs configurations sont choisies de façonaléatoire, et celle ayant le stress brut le moins standardisé est utilisée commeconfiguration initiale.

Personnalisée. Vous sélectionnez les variables contenant les coordonnées devotre configuration initiale. Le nombre de variables sélectionnées doit êtreégal au nombre de dimensions spécifié, la première variable correspondant auxcoordonnées sur la dimension 1, la seconde correspondant aux coordonnéessur la dimension 2, etc. Le nombre d’observations dans chaque variable doitêtre égal au nombre d’objets.

Critères d’itération : Spécifiez les valeurs des critères d’itération.

Convergence du stress. L’algorithme interrompt son itération lorsque la différencedes valeurs du stress brut standardisé consécutif est inférieure au nombre spécifiéici, lequel doit être compris entre 0,0 et 1,0.

Stress minimum. L’algorithme s’interrompt lorsque le stress brut standardisétombe en dessous du nombre spécifié ici, lequel doit être compris entre 0,0 et 1,0.

Nombre maximum d’itérations. L’algorithme exécute le nombre d’itérationsspécifiées ici, à moins que l’un des critères ci-dessus ne soit déjà satisfait.

Utiliser mises à jour relaxées. Ces mises à jour accélèrent l’algorithme ; elles nepeuvent être utilisées ni avec les modèles autres que le modèle d’identité, niavec des restrictions.

Positionnement multidimensionnel : Diagrammes, Version 1La boîte de dialogue Diagrammes vous permet de spécifier quels diagrammes doiventêtre produits. Si vous avez le format de données Proximités sur plusieurs colonnes, laboîte de dialogue Diagrammes suivante s’affiche. Pour les diagrammes Pondérations

Page 123: SPSS Categories 14.0

105

Positionnement multidimensionnel (PROXSCAL)

des espaces individuels, Proximités originales contre transformées et Proximités contre

distances transformées, il vous est possible de spécifier les sources pour lesquelles lesdiagrammes doivent être générés. La liste des sources disponibles constitue la listedes variables de proximité dans la boîte de dialogue principale.

Figure 7-10Boîte de dialogue Diagrammes, version 1

Stress. Un diagramme est produit à partir du stress brut standardisé par oppositionaux dimensions. Ce diagramme est uniquement généré si le nombre maximum dedimensions est supérieur au nombre minimum.

Espace commun. Une matrice de diagramme de dispersion des coordonnées del’espace commun est affiché.

Espaces individuels. Pour chaque source, les coordonnées des espaces individuelssont affichées dans les matrices de diagramme de dispersion. Cela est uniquementpossible si l’un des modèles de différences individuels est spécifié dans la boîte dedialogue Modèle.

Pondérations des espaces individuels. Un diagramme de dispersion est produit àpartir des pondérations des espaces individuels. Cela est uniquement possible sil’un des modèles de différences individuels est spécifié dans la boîte de dialogueModèle. Pour le modèle Euclidien pondéré, les pondérations sont imprimées dansdes diagrammes dont une dimension sur chaque axe. Pour le modèle Euclidiengénéralisé, un diagramme est produit par dimension, indiquant à la fois la rotation et

Page 124: SPSS Categories 14.0

106

Chapitre 7

sa pondération. Le modèle Rang réduit génère le même diagramme que le modèleEuclidien généralisé, mais réduit le nombre de dimensions des espaces individuels.

Proximités originales contre transformées. Les diagrammes sont générés à partir desproximités originales par opposition aux proximités transformées.

Proximités et distances transformées. Les proximités et distances transformées sontreprésentées sous la forme d’un diagramme.

Variables indépendantes transformées. Les diagrammes de transformation sontproduits pour les variables indépendantes.

Corrélations de variables et dimensions. Un diagramme de corrélation entre lesvariables indépendantes et les dimensions de l’espace commun s’affiche.

Positionnement multidimensionnel : Diagrammes, Version 2

La boîte de dialogue Diagrammes vous permet de spécifier quels diagrammes doiventêtre produits. Si votre format des données est autre que Proximités sur plusieurscolonnes, la boîte de dialogue Diagrammes suivante s’affiche. Pour les diagrammesPondérations des espaces individuels, Proximités originales contre transformées etProximités contre distances transformées, il vous est possible de spécifier les sourcespour lesquelles les diagrammes doivent être générés. Les numéros de source entrésdoivent être des valeurs de la variable de sources spécifiée dans la boîte de dialogueprincipale et être classés de 1 jusqu’au nombre de sources.

Page 125: SPSS Categories 14.0

107

Positionnement multidimensionnel (PROXSCAL)

Figure 7-11Boîte de dialogue Diagrammes, version 2

Positionnement multidimensionnel : Résultat

La boîte de dialogue Résultat vous permet de contrôler les résultats affichés et d’enenregistrer certains pour séparer des fichiers.

Page 126: SPSS Categories 14.0

108

Chapitre 7

Figure 7-12Résultat

Afficher. Sélectionnez l’un des items suivants à afficher :

Coordonnées de l’espace commun. Affiche les coordonnées de l’espace commun.

Coordonnées de l’espace individuel. Les coordonnées de l’espace individuel sontaffichées uniquement si le modèle n’est pas le modèle d’identité.

Pondérations des espaces individuels. Affiche les pondérations des espacesindividuels, uniquement si l’un des modèles de différences individuelles estspécifié. En fonction du modèle, les pondérations des espaces sont décomposéesen pondérations de rotation et de dimension, lesquelles sont également affichées.

Distances. Affiche les distances entre les objets de la configuration.

Transformations transformées. Affiche les proximités transformées entre les objetsde la configuration.

Données de saisie. Inclut les proximités originales, et si elles existent, lespondérations de données, la configuration initiale et les coordonnées fixées desvariables indépendantes.

Stress pour les départs aléatoires. Affiche le générateur de nombre aléatoire et lavaleur du stress brut standardisé de chaque départ aléatoire.

Page 127: SPSS Categories 14.0

109

Positionnement multidimensionnel (PROXSCAL)

Historique des itérations. Affiche l’historique des itérations de l’algorithmeprincipal.

Mesures de stress multiples. Affiche les différentes valeurs de stress. Le tableaucontient des valeurs pour le stress brut standardisé, le stress-I, le stress-II, lestress-S, la dispersion représentée (DAF) et enfin le coefficient de congruence deTucker.

Décomposition du stress. Affiche la décomposition par objet et par source du stressbrut final standardisé, notamment la moyenne par objet et par source.

Variables indépendantes transformées. Si une restriction de combinaisons linéairesa été sélectionnée, les variables indépendantes transformées et les pondérationsde régression correspondantes sont affichées.

Corrélations de variables et dimensions. Si une restriction de combinaisonslinéaires a été sélectionnée, les corrélations entre les variables indépendantes etles dimensions de l’espace commun sont affichées.

Enregistrer dans nouveau fichier. Vous pouvez enregistrer les coordonnées de l’espacecommun, les pondérations des espaces individuels, les distances, les proximitéstransformées et les variables indépendantes transformées pour séparer les fichiersde données SPSS.

Fonctionnalités supplémentaires de la commande PROXSCAL

Vous pouvez personnaliser l’analyse de votre positionnement multidimensionnelde proximité en collant vos sélections dans une fenêtre de syntaxe et en modifiantla syntaxe de commande PROXSCAL. Le langage de commande SPSS vous permetaussi de :

Spécifier des listes de variables distinctes pour les diagrammes de transformationet résiduels (avec la sous-commande PLOT).

Spécifier des listes de sources distinctes pour les diagrammes de pondérationdes espaces individuels, de transformation et résiduels (avec la sous-commandePLOT).

Spécifier un sous-groupe des diagrammes de transformation de variablesindépendantes à afficher (avec la sous-commande PLOT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuelSPSS Command Syntax Reference.

Page 128: SPSS Categories 14.0
Page 129: SPSS Categories 14.0

Chapitre

8Dépliage multidimensionnel(PREFSCAL)

La procédure de dépliage multidimensionnel tente de trouver une échelle quantitativecommune vous permettant d’examiner les relations entre deux ensembles d’objets demanière visuelle.

Exemples. Vous demandez à 21 personnes de classer 15 aliments constituant un petitdéjeûner selon leurs préférences, de 1 à 15. Le dépliage multidimensionnel vouspermet de déterminer que la logique discriminatoire des individus suit deux schémasprimaires : entre les pains mous et les pains durs et entre les aliments gras et allégés.

Autre exemple : vous demandez à un groupe de conducteurs de noter 26 modèlesde voitures sur 10 critères selon une échelle de 6 points, allant de 1=’pas vrai dutout’ à 6=’tout à fait vrai’. En effectuant la moyenne des résultats de l’ensembledes individus, on constate une certaine similarité des valeurs. Le dépliagemultidimensionnel vous permet cependant de distinguer des regroupements demodèles similaires et les critères avec lesquels ils sont le plus souvent associés.

Diagrammes et statistiques. La procédure de dépliage multidimensionnel permetde produire un historique des itérations, les mesures de stress, la décompositiondu stress, les coordonnées de l’espace commun, les distances des objets dans laconfiguration finale, les pondérations des espaces individuels, les espaces individuels,les proximités transformées, les diagrammes de stress, les diagrammes de dispersiondes espaces communs, les diagrammes de dispersion de pondération des espacesindividuels, les diagrammes de dispersion des espaces individuels, les diagrammes detransformation et les diagrammes résiduels de Shepard.

111

Page 130: SPSS Categories 14.0

112

Chapitre 8

Données. Les données sont fournies sous forme de matrices de proximitérectangulaires. Chaque colonne est considérée comme un objet de colonne distinct.Chaque ligne d’une matrice de proximité est considérée comme un objet de lignedistinct. Lorsqu’il existe plusieurs sources de proximités, les matrices sont empilées.

Hypothèses. Deux variables au moins doivent être spécifiées. Le nombre dedimensions de la solution ne doit pas dépasser le nombre d’objets moins un. Si vousindiquez une source seulement, tous les modèles équivalent au modèle d’identité, puisl’analyse sélectionne par défaut le modèle d’identité.

Obtenir un dépliage multidimensionnel

E A partir des menus, sélectionnez :Analyse

EchelleDépliage multidimensionnel (PREFSCAL)...

Figure 8-1Boîte de dialogue principale Dépliage multidimensionnel

E Sélectionnez deux variables ou plus identifiant les colonnes dans la matrice deproximité rectangulaire. Chaque variable représente un objet de colonne distinct.

Page 131: SPSS Categories 14.0

113

Dépliage multidimensionnel (PREFSCAL)

E Sélectionnez éventuellement un nombre de variables de pondération égal au nombrede variables d’objets de colonnes. L’ordre des variables de pondération doit être lemême que celui des objets de colonnes qu’elles pondèrent.

E Eventuellement, choisissez une variable de ligne. Les valeurs (ou étiquettes de valeur)de cette variable sont utilisées pour étiqueter les objets de lignes du résultat.

E S’il existe plusieurs sources, sélectionnez éventuellement une variable de sources.Le nombre d’observations dans chaque fichier de données doit être égal au nombred’objets de lignes multiplié par le nombre de sources.

De plus, vous pouvez définir un modèle pour un dépliage multidimensionnel, placerles restrictions dans l’espace commun, définir les critères de convergence, spécifier laconfiguration initiale à utiliser et enfin, choisir des diagrammes et des résultats.

Définir un modèle de dépliage multidimensionnel

La boîte de dialogue Modèle vous permet de spécifier un modèle de positionnement,un nombre minimum et maximum de dimensions, la structure de la matrice deproximité, la transformation à utiliser sur les proximités, et de déterminer si lesproximités sont transformées avec condition sur la ligne, avec condition sur la sourceou sans condition sur la source.

Page 132: SPSS Categories 14.0

114

Chapitre 8

Figure 8-2Boîte de dialogue Modèle

Modèle de positionnement. Choisissez parmi les options suivantes :

Identité. Toutes les sources ont la même configuration.

Euclidien pondéré. Ce modèle est un modèle des différences individuelles. Chaquesource comporte un espace individuel dans lequel chaque dimension de l’espacecommun est pondérée de façon différentielle.

Euclidien généralisé. Ce modèle est un modèle des différences individuelles.Chaque source comporte un espace individuel qui est égal à une rotation del’espace commun, suivie d’une pondération différenciée des dimensions.

Proximités. Spécifiez si votre matrice de proximité contient des mesures de similaritéou de dissimilarité.

Dimensions. Par défaut, une solution est calculée dans deux dimensions (minimum =2,maximum =2). Vous pouvez choisir un entier minimum et maximum depuis 1jusqu’au nombre d’objets moins 1, tant que le minimum reste inférieur ou égal aumaximum. La procédure calcule une solution des dimensions maximales, puis réduitle nombre de dimensions en matière d’étapes, jusqu’à ce que la plus petite soit atteinte.

Page 133: SPSS Categories 14.0

115

Dépliage multidimensionnel (PREFSCAL)

Transformations de proximité. Choisissez parmi les options suivantes :

Aucune. Les proximités ne sont pas transformées. Vous pouvez éventuellementsélectionner Inclure une constante afin de décaler les proximités d’une constantedéfinie.

Linéaire. Les proximités transformées sont proportionnelles aux proximitésd’origine : la fonction de transformation estime une pente et la constante estdéfinie sur 0. C’est ce qu’on appelle une transformation de ratio. Vous pouvezéventuellement sélectionner Inclure une constante afin de décaler les proximitésd’une constante définie. Ce procédé est également appelé transformationd’intervalle.

Spline. Les proximités transformées représentent une transformation polynomialenon décroissante lissée des proximités originales. Vous spécifiez le degré dela fonction polynomiale ainsi que le nombre de points critiques. Vous pouvezéventuellement sélectionner Inclure une constante afin de décaler les proximitésd’une constante définie.

Lissé. Les proximités transformées présentent le même ordre que les proximitésd’origine, y compris la restriction qui prend en compte les différences entre lesvaleurs successives. Il en résulte une transformation « ordinale lissée ». Vouspouvez spécifier si les proximités liées doivent être gardées liées ou autorisées àne plus l’être.

Ordinal. Les proximités transformées ont le même ordre que les originales. Vouspouvez spécifier si les proximités liées doivent être gardées liées ou autorisées àne plus l’être.

Appliquer les transformations. Spécifiez si les proximités sont comparées l’une àl’autre dans chaque ligne ou dans chaque source ou si les comparaisons sont sanscondition sur la ligne ou sur la source, c’est à dire si les transformations sonteffectuées par ligne, par source ou sur toutes les proximités en une fois.

Restrictions du dépliage multidimensionnel

La boîte de dialogue Restrictions vous permet de placer les restrictions sur l’espacecommun.

Page 134: SPSS Categories 14.0

116

Chapitre 8

Figure 8-3Boîte de dialogue Restrictions

Restrictions sur l’espace commun. Vous pouvez choisir de fixer les coordonnées desobjets de lignes et/ou de colonnes dans l’espace commun.

Variables de restriction des lignes/colonnes. Sélectionnez le fichier contenant lesrestrictions et sélectionnez les variables définissant les restrictions de l’espacecommun. La première variable sélectionnée contient les coordonnées des objetssur la première dimension ; la seconde correspond aux coordonnées des objets surla deuxième dimension, et ainsi de suite. Une valeur manquante indique qu’unecoordonnée sur une dimension est libre. Le nombre de variables sélectionnées doitêtre égal au nombre maximum de dimensions requis. Le nombre d’observations danschaque variable doit être égal au nombre d’objets.

Page 135: SPSS Categories 14.0

117

Dépliage multidimensionnel (PREFSCAL)

Options de dépliage multidimensionnel

La boîte de dialogue Options vous permet de sélectionner le style de configurationinitiale, de spécifier les critères d’itération et de convergence et de configurer leterme de pénalité pour le stress.

Figure 8-4Options

Configuration initiale.Choisissez l’une des options suivantes :

Classique. La matrice de proximité rectangulaire est utilisée pour compléter lesvaleurs intrablocs (valeurs entre les lignes et entre les colonnes) de la matriceMDS symétrique complète. Une fois la matrice complète formée, une solutionde positionnement classique est utilisée pour la configuration initiale. Lesvaleurs intrablocs peuvent être calculées à l’aide de l’inégalité triangulaire ou desdistances de Spearman.

Page 136: SPSS Categories 14.0

118

Chapitre 8

Ross-Cliff. Le départ de Ross-Cliff utilise les résultats de la décomposition d’unevaleur singulière sur une matrice de proximité à double centre carrée commevaleurs initiales pour les objets de lignes et de colonnes.

Correspondance. Le départ par correspondance utilise les résultats d’une analysede correspondance sur les données inversées (similitudes au lieu des différences)avec une normalisation symétrique des écarts des lignes et des colonnes.

Barycentres. La procédure démarre avec le positionnement des objets de lignesdans la configuration à l’aide de la décomposition de la valeur propre. Les objetsde colonnes sont ensuite positionnés dans le barycentre des choix spécifiés. Pourle nombre de choix, spécifiez un entier positif entre 1 et le nombre de variablesde proximité.

Départs aléatoires multiples. Les solutions sont calculées pour plusieursconfigurations initiales sélectionnées de manière aléatoire et celle présentant lamesure de stress pénalisée la plus basse représente la meilleure.

Personnalisée. Vous sélectionnez les variables contenant les coordonnées devotre configuration initiale. Le nombre de variables sélectionnées doit êtreégal au nombre de dimensions spécifié, la première variable correspondant auxcoordonnées sur la dimension 1, la seconde correspondant aux coordonnées surla dimension 2, etc. Le nombre d’observations dans chaque variable doit êtreégal au nombre combiné d’objets de lignes et de colonnes. Les coordonnées deslignes et des colonnes doivent être empilées, avec les coordonnées des colonnes àla suite des coordonnées des lignes.

Critères d’itération. Spécifiez les valeurs des critères d’itération.

Convergence du stress. L’algorithme interrompt son itération lorsque la différencerelative des valeurs des mesures de stress pénalisé consécutives est inférieure aunombre spécifié ici, lequel ne peut pas être négatif.

Stress minimum. L’algorithme s’arrête lorsque la mesure de stress pénalisé estinférieure au nombre spécifié ici, qui ne peut pas être négatif.

Nombre maximum d’itérations. L’algorithme exécute le nombre d’itérationsspécifié ici, à moins que l’un des critères ci-dessus ne soit déjà satisfait.

Terme de pénalité. L’algorithme tente de minimiser la mesure de stress pénalisé, qui estune mesure de la qualité d’ajustement égale au produit du Stress-I de Kruskal par unterme de pénalité basé sur le coefficient de variation des proximités transformées. Cescontrôles vous permettent de définir l’intensité et l’intervalle du terme du pénalité.

Page 137: SPSS Categories 14.0

119

Dépliage multidimensionnel (PREFSCAL)

Intensité. Plus la valeur du paramètre d’intensité est petite, plus la pénalité estintense. Spécifiez une valeur comprise entre 0,0 et 1,0.

Intervalle. Ce paramètres définit le moment auquel la pénalité devient active. Sivous le définissez sur 0,0, la pénalité est inactive. L’augmentation de la valeurentraîne la recherche par l’algorithme d’une solution présentant une plus grandevariation parmis les proximités transformées. Spécifiez une valeur non négative.

Diagrammes de dépliage multidimensionnel

La boîte de dialogue Diagrammes vous permet de spécifier quels diagrammes doiventêtre produits.

Page 138: SPSS Categories 14.0

120

Chapitre 8

Figure 8-5Boîte de dialogue Diagrammes

Diagrammes. Les diagrammes suivants sont disponibles :

Départs multiples. Affiche un histogramme empilé de la mesure de stress pénalisé,affichant à la fois le stress et la pénalité.

Espace commun initial. Affiche une matrice de diagramme de dispersion descoordonnées de l’espace commun initial.

Stress par dimension. Produit un diagramme en lignes de la mesure du stresspénalisé en fonction des dimensions. Ce diagramme est uniquement généré si lenombre maximum de dimensions est supérieur au nombre minimum.

Page 139: SPSS Categories 14.0

121

Dépliage multidimensionnel (PREFSCAL)

Espace commun final. Une matrice de diagramme de dispersion des coordonnéesde l’espace commun est affiché.

Pondération de l’espace. Un diagramme de dispersion est produit à partir despondérations des espaces individuels. Cela est uniquement possible si l’un desmodèles de différences individuels est spécifié dans la boîte de dialogue Modèle.Pour le modèle Euclidien pondéré, les pondérations de toutes les sources sontaffichées dans un diagramme avec une dimension sur chaque axe. Pour le modèleEuclidien généralisé, un diagramme est produit par dimension, indiquant à la foisla rotation et sa pondération pour chaque source.

Espaces individuels. Une matrice de diagramme de dispersion des coordonnées del’espace individuel de chaque source est affichée. Cela est uniquement possible sil’un des modèles de différences individuels est spécifié dans la boîte de dialogueModèle.

Diagrammes de transformation. Un diagramme de dispersion est généré à partirdes proximités d’origine par opposition aux proximités transformées. Selonl’application des transformations, une couleur distincte est assignée à chaqueligne ou source. Une transformation inconditionnelle génère une seule couleur.

Diagrammes de Shepard. Les proximités d’origine en fonction des proximitéstransformées et des distances. Les distances sont représentées par des points et lesproximités transformées par une ligne. Selon l’application des transformations,une ligne distincte est générée pour chaque ligne ou source. Une transformationinconditionnelle génère une seule ligne.

Diagramme de dispersion de l’ajustement. Un diagramme de dispersion desproximités transformées en fonction des distances est affiché. Une couleurdistincte est assignée à chaque source lorsque plusieurs sources sont spécifiées.

Diagrammes des résidus. Un diagramme de dispersion des proximités transforméesen fonction des résidus (proximités transformées moins les distances) est affiché.Une couleur distincte est assignée à chaque source lorsque plusieurs sourcessont spécifiées.

Styles d’objets de lignes. Les styles vous apportent un contrôle supplémentaire pourl’affichage des objets de lignes dans les diagrammes. Les valeurs des variables decouleurs facultatives sont utilisées pour passer en revue toutes les couleurs. Lesvaleurs des variables de marques facultatives sont utilisées pour passer en revue toutesles marques possibles.

Page 140: SPSS Categories 14.0

122

Chapitre 8

Diagrammes sources. Pour les Espaces individuels, Diagrammes de dispersion de

l’ajustement et Diagrammes des résidus, ainsi que les Diagrammes de transformations

et Diagrammes de Shepard si les transformations sont appliquées par la source, vouspouvez spécifier les sources pour lesquelles les diagrammes doivent être générés. Lesnuméros de source entrés doivent être des valeurs de la variable de sources spécifiéedans la boîte de dialogue principale et être classés de 1 jusqu’au nombre de sources.

Diagrammes des lignes. Si des transformations sont appliquées par lignes, vouspouvez spécifier la ligne pour laquelle les diagrammes doivent être générés pour lesDiagrammes de transformations et les Diagrammes de Shepard. Les numéros de lignesdoivent être compris entre 1 et le nombre de lignes.

Résultat du dépliage multidimensionnelLa boîte de dialogue Résultat vous permet de contrôler les résultats affichés et d’enenregistrer certains pour séparer des fichiers.

Figure 8-6Résultat

Afficher. Sélectionnez l’un des éléments suivants à afficher :

Données de saisie. Inclut les proximités d’origine et, si elles existent, lespondérations de données, la configuration initiale et les coordonnées fixées.

Stress pour les départs aléatoires. Affiche le générateur de nombre aléatoire et lavaleur du stress pénalisé de chaque départ aléatoire.

Page 141: SPSS Categories 14.0

123

Dépliage multidimensionnel (PREFSCAL)

Données initiales. Affiche les coordonnées de l’espace commun initial.

Historique des itérations. Affiche l’historique des itérations de l’algorithmeprincipal.

Mesures d’ajustement.Affiche différentes mesures. Le tableau contient plusieursmesures de qualité de l’ajustement, de défaut de l’ajustement, de corrélation, devariation et de non-dégénérescence.

Décomposition du stress. Affiche la mesure du stress pénalisé de la décompositiond’un objet, d’une ligne ou d’une source, y compris les moyennes et lesécarts-types de la ligne, de la colonne ou de la source.

Coordonnées de l’espace commun. Affiche les coordonnées de l’espace commun.

Distances. Affiche les distances entre les objets de la configuration.

Pondérations des espaces individuels. Affiche les pondérations de l’espaceindividuel. Cette option est uniquement disponible lorsque l’un des modèles dedifférences individuelles est spécifié. En fonction du modèle, les pondérationsdes espaces sont décomposées en pondérations de rotation et de dimension,lesquelles sont également affichées.

Coordonnées de l’espace individuel. Les coordonnées de l’espace individuel sontaffichées. Cette option est uniquement disponible lorsque l’un des modèles dedifférences individuelles est spécifié.

Transformations transformées. Affiche les proximités transformées.

Enregistrer dans nouveau fichier. Vous pouvez enregistrer les coordonnées de l’espacecommun, les pondérations des espaces individuels, les distances et les proximitéstransformées dans des fichiers de données SPSS distincts.

Fonctionnalités supplémentaires de la commande PREFSCAL

Vous pouvez personnaliser l’analyse des proximités du dépliage multidimensionnelen collant vos sélections dans une fenêtre de syntaxe et en modifiant la syntaxe decommande PROXSCAL résultante. Le langage de commande SPSS vous permetaussi de :

Spécifiez plusieurs listes sources pour les Espaces individuels, les Diagrammesde dispersion de l’ajustement et les Diagrammes des résidus, ainsi que pour lesDiagrammes de transformations et les Diagrammes de Shepard dans le cas de

Page 142: SPSS Categories 14.0

124

Chapitre 8

transformations conditionnelles d’une matrice, lorsque plusieurs sources sontdisponibles (avec la sous-commande PLOT).

Spécifiez plusieurs listes de lignes pour les Diagrammes de transformations etles Diagrammes de Shepard dans le cas de transformations conditionnelles parlignes (avec la sous-commande PLOT).

Spécifiez un nombre de colonnes au lieu d’une variable ID de colonne (avecla commande INPUT).

Spécifiez un nombre de sources au lieu d’une variable ID de source (avec lacommande INPUT).

Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuelSPSS Command Syntax Reference.

Page 143: SPSS Categories 14.0

Partie II:Exemples

Page 144: SPSS Categories 14.0
Page 145: SPSS Categories 14.0

Chapitre

9Régression nominale

L’objectif de la régression nominale avec codage optimal est de décrire la relationentre une variable de réponse et un groupe de variables indépendantes. Laquantification de cette relation permet de prévoir les valeurs de la réponse pourn’importe quelle combinaison de variables indépendantes.

Dans ce chapitre, deux exemples illustrent les analyses impliquées dans larégression avec codage optimal. Le premier exemple utilise un ensemble de donnéesréduit pour illustrer les concepts de base. Le second exemple utilise un ensemble plusvaste de variables et d’observations dans une application pratique.

Exemple : Données relatives à la shampouineuse

Dans un exemple courant,(Green et Wind, 1973), une société intéressée par lacommercialisation d’une nouvelle shampouineuse souhaite examiner l’influence decinq critères sur la préférence du consommateur : la conception du conditionnement,la marque, le prix, une étiquette Economique et une garantie « satisfait ouremboursé ». Il existe trois niveaux de critère pour la conception du conditionnement,suivant l’emplacement de l’applicateur, trois marques (K2R, Glory et Bissell), troisniveaux de prix et deux niveaux (non ou oui) pour chacun des deux derniers critères.Le tableau suivant indique les variables utilisées dans l’étude sur la shampouineuse,ainsi que les valeurs et étiquettes correspondantes.

127

Page 146: SPSS Categories 14.0

128

Chapitre 9

Tableau 9-1Variables explicatives de l’étude sur la shampouineuse

Le nom de la variable l’étiquette Variable Etiquette de valeur

conditionnement Conception duconditionnement

A*, B*, C*

marque Nom de la marque K2R, Glory, Bissell

prix Prix $1.19, $1.39, $1.59

étiquette Etiquette Economique Non, oui

argent Garantie « satisfait ouremboursé »

Non, oui

Dix consommateurs classent 22 profils définis par ces critères. La variable Préférenceindique le classement des rangs moyens de chaque profil. Un rang faible correspond àune préférence élevée. Cette variable reflète une mesure globale de préférence pourchaque profil. A l’aide de la régression nominale, vous allez examiner le rapportentre la préférence et les cinq critères. Cet ensemble de données est disponible dansle fichier carpet.sav, qui figure dans le sous-répertoire \tutorial\sample_files\ durépertoire d’installation de SPSS.

Analyse de régression linéaire standard

E Pour générer le résultat d’une régression linéaire standard, dans les menus, choisissez :Analyse

RégressionLinéaire

Page 147: SPSS Categories 14.0

129

Régression nominale

Figure 9-1Boîte de dialogue Régression linéaire

E Sélectionnez l’option Préférence comme variable dépendante.

E Sélectionnez comme variables indépendantes les options allant de Conception duconditionnement à Garantie satisfait ou remboursé.

E Cliquez sur Diagrammes.

Page 148: SPSS Categories 14.0

130

Chapitre 9

Figure 9-2Boîte de dialogue Diagrammes

E Sélectionnez l’option *ZRESID comme variable de l’axe y.

E Sélectionnez l’option *ZPRED comme variable de l’axe x.

E Cliquez sur Poursuivre.

E Cliquez sur le bouton Enregistrer dans la boîte de dialogue Régression linéaire.

Page 149: SPSS Categories 14.0

131

Régression nominale

Figure 9-3Enregistrer

E Sélectionnez l’option Standardisés dans le groupe Résidus.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Régression linéaire.

Page 150: SPSS Categories 14.0

132

Chapitre 9

Récapitulatif des modèles

Figure 9-4Récapitulatif du modèle de la régression linéaire standard

L’approche standard de la description des relations dans ce cas de figure est larégression linéaire. La mesure la plus courante de l’ajustement d’un modèle derégression aux données est R2. Cette statistique indique la quantité de variance, dansla réponse, explicable par la combinaison pondérée des variables indépendantes. Plusla mesure R2 tend vers 1, meilleur est l’ajustement du modèle. La régression de lavariable Préférence sur les cinq variables indépendantes aboutit à une mesure R2 de0,707, ce qui indique qu’environ 71 % de la variance dans les rangs de préférencesont explicables par les variables indépendantes dans la régression linéaire.

Coefficients

Le tableau répertorie les coefficients standardisés. Le signe du coefficient indique sila réponse prévue augmente ou diminue lorsque la variable indépendante augmente,toutes les autres variables indépendantes étant constantes. Dans le cas des donnéesqualitatives, le codage des modalités détermine la signification de l’augmentationd’une variable indépendante. Par exemple, une augmentation de la variable Garantiesatisfait ou remboursé, Conception du conditionnement ou Etiquette Economiqueprovoque une diminution du rang de préférence prévue. La variable Garantie satisfaitou remboursé a le code 1 pour aucune garantie « satisfait ou remboursé » et 2 pourgarantie « satisfait ou remboursé ». Une augmentation de la variable Garantiesatisfait ou remboursé correspond à l’ajout d’une garantie « satisfait ou remboursé ».Par conséquent, l’ajout d’une garantie « satisfait ou remboursé » réduit le rang depréférence prévue, ce qui correspond à une augmentation de la préférence prévue.

Page 151: SPSS Categories 14.0

133

Régression nominale

Figure 9-5Coefficients de régression

La valeur du coefficient reflète la quantité de modifications survenues dans le rangde préférence prévue. A partir de coefficients standardisés, les interprétationssont basées sur les écarts-types des variables. Chaque coefficient indique lenombre d’écarts-types que la réponse prévue remplace par un écart-type de 1 dansune variable indépendante, toutes les autres variables indépendantes demeurantconstantes. Par exemple, une modification d’écart-type de 1 dans la variable Nomde marque provoque une augmentation d’écart-type de 0,056 dans la préférenceprévue. L’écart-type de la variable Préférence étant 6,44, la variable Préférenceaugmente de . Les modifications de la variable Conception duconditionnement provoquent les changements les plus importants dans la préférenceprévue.

Page 152: SPSS Categories 14.0

134

Chapitre 9

Diagrammes de dispersion des résidus

Figure 9-6Résidus et prévisions

Les résidus standardisés sont représentés par rapport aux prévisions standardisées.Aucun motif ne doit être présent si le modèle s’ajuste correctement. Ici, vous pouvezconstater une forme en U dans laquelle les prévisions standardisées basses et élevéespossèdent des résidus positifs. Les prévisions standardisées proches de 0 tendentà détenir des résidus négatifs.

E Pour générer un diagramme de dispersion des résidus à partir de la variableindépendante Conception du conditionnement, choisissez les options suivantes dansles menus :Graphes

Dispersion/Points...

Page 153: SPSS Categories 14.0

135

Régression nominale

Figure 9-7Boîte de dialogue Dispersion/Points

E Cliquez sur Définir.

Figure 9-8Boîte de dialogue Diagramme de dispersion simple

E Sélectionnez l’option Résidus standardisés comme variable de l’axe y et l’optionConception du conditionnement comme variable de l’axe x.

Page 154: SPSS Categories 14.0

136

Chapitre 9

E Cliquez sur OK.

Figure 9-9Résidus et conception du conditionnement

La forme en U est davantage prononcée dans le diagramme des résidus standardisésétabli par rapport au conditionnement. Chaque résidu de la conception B* est négatif,tandis que tous les résidus, à l’exception d’un seul, sont positifs pour les deux autresconceptions. Etant donné que le modèle de régression linéaire ajuste un paramètre parvariable, la relation ne peut pas être capturée par l’approche standard.

Analyse de régression nominale

La nature qualitative des variables et la relation non linéaire entre les variablesPréférence et Conception du conditionnement laissent supposer que la régression surdes quantifications optimales peut s’avérer meilleure que la régression standard. Laforme en U des diagrammes résiduels indique la nécessité de recourir à un traitement

Page 155: SPSS Categories 14.0

137

Régression nominale

nominal de la variable Conception du conditionnement. Toutes les autres variablesindépendantes seront traitées au niveau du codage numérique.

La variable de réponse garantit une considération particulière. Vous souhaitezprévoir les valeurs de la variable Préférence. Par conséquent, il est souhaitable derécupérer autant de propriétés que possible de ses modalités. L’utilisation d’un niveaude codage ordinal ou nominal ignore les différences entre les modalités de réponse.Toutefois, la transformation linéaire des modalités de réponse préserve les différencesde modalité. Par conséquent, le codage numérique de la réponse est généralementprivilégié et sera employé ici.

Exécution de l’analyse

E Pour exécuter une analyse de régression nominale, choisissez les options suivantesdans les menus :Analyse

RégressionCodage optimal

Figure 9-10Boîte de dialogue Régression nominale

E Sélectionnez l’option Préférence comme variable dépendante.

Page 156: SPSS Categories 14.0

138

Chapitre 9

E Sélectionnez comme variables indépendantes les options allant de Conception duconditionnement à Garantie satisfait ou remboursé.

E Sélectionnez l’option Préférence, puis cliquez sur Définir l’échelle.

Figure 9-11Boîte de dialogue Définir l’échelle

E Sélectionnez l’option Numérique comme niveau de codage optimal.

E Cliquez sur Poursuivre.

E Sélectionnez l’option Conception du conditionnement, puis cliquez sur Définir l’échelle

dans la boîte de dialogue Régression nominale.

Figure 9-12Boîte de dialogue Définir l’échelle

E Sélectionnez l’option Nominal comme niveau de codage optimal.

E Cliquez sur Poursuivre.

E Sélectionnez les options allant de Nom de marque à Garantie satisfait ou remboursé,puis cliquez sur Définir l’échelle dans la boîte de dialogue Régression nominale.

Page 157: SPSS Categories 14.0

139

Régression nominale

Figure 9-13Boîte de dialogue Définir l’échelle

E Sélectionnez l’option Numérique comme niveau de codage optimal.

E Cliquez sur Poursuivre.

E Cliquez sur Résultat dans la boîte de dialogue Régression nominale.

Figure 9-14Résultat

E Sélectionnez les options Corrélations des variables d’origine et Corrélations des variables

transformées.

E Désélectionnez l’option ANOVA.

E Cliquez sur Poursuivre.

Page 158: SPSS Categories 14.0

140

Chapitre 9

E Cliquez sur le bouton Enregistrer dans la boîte de dialogue Régression nominale.

Figure 9-15Enregistrer

E Sélectionnez Enregistrer les résidus dans l’ensemble de données actif.

E Sélectionnez Enregistrer les variables transformées dans l’ensemble de données actif

dans le groupe Variables transformées.

E Cliquez sur Poursuivre.

E Cliquez sur Diagrammes dans la boîte de dialogue Régression nominale.

Page 159: SPSS Categories 14.0

141

Régression nominale

Figure 9-16Boîte de dialogue Diagrammes

E Appliquez la création de diagrammes de transformation au conditionnement(conditionnement) et au prix (prix).

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Régression nominale.

Intercorrélations

Les intercorrélations existant entre les variables indépendantes permettent d’identifierla multicolinéarité dans la régression. Les variables en étroite corrélation aboutissentà des estimations de régression instables. Toutefois, en raison de leur corrélationélevée, l’omission de l’une d’elles dans le modèle n’affecte que très légèrement laprévision. Dans la réponse, la variance explicable par la variable omise est expliquéepar la variable corrélée restante. Toutefois, les corrélations simples sont sensibles auxvaleurs éloignées et, en outre, ne peuvent pas identifier la multicolinéarité en raisond’une corrélation élevée entre une variable indépendante et une combinaison d’autresvariables indépendantes.

Page 160: SPSS Categories 14.0

142

Chapitre 9

Figure 9-17Corrélations des variables indépendantes initiales

Figure 9-18Corrélations des variables indépendantes transformées

Les intercorrélations des variables indépendantes pour les variables indépendantesnon transformées et transformées sont affichées. Toutes les valeurs sont prochesde 0, ce qui indique que la multicolinéarité entre les différentes variables n’est paspréoccupante.

Les seules corrélations qui changent concernent la variable Conception duconditionnement. Etant donné que toutes les autres variables indépendantes sonttraitées de manière numérique, les différences entre les modalités et leur ordre sontconservées pour ces variables. Par conséquent, les corrélations ne peuvent paschanger.

Qualité de l’ajustement et coefficients

La procédure de régression nominale génère une mesure R2 de 0,948, indiquant queprès de 95 % de la variance dans les rangs de préférence transformée sont explicablespar la régression sur les variables indépendantes transformées de manière optimale.

Page 161: SPSS Categories 14.0

143

Régression nominale

La transformation des variables indépendantes améliore l’ajustement par rapportà l’approche standard.

Figure 9-19Récapitulatif du modèle de la régression nominale

Le tableau suivant répertorie les coefficients de régression standardisés. Etant donnéque la régression nominale standardise les variables, seuls les coefficients standardiséssont indiqués. Ces valeurs sont divisées par les erreurs standard correspondantes,aboutissant à un test F pour chaque variable. Toutefois, le test de chaque variabledépend des autres variables indépendantes présentes dans le modèle. En d’autrestermes, le test détermine si l’omission d’une variable indépendante dans le modèle,alors que toutes les autres y sont présentes, détériore sensiblement les capacitésprévisionnelles de celui-ci. Ces valeurs ne doivent pas être utilisées pour omettresimultanément plusieurs variables dans un modèle ultérieur. En outre, l’utilisation demoindres carrés alternés optimise les quantifications, ce qui implique que ces testsdoivent être interprétés avec prudence.

Figure 9-20Coefficients standardisés des variables indépendantes transformées

Le coefficient le plus élevé concerne la variable Conception du conditionnement. Uneaugmentation d’écart-type de 1 dans la variable Conception du conditionnementprovoque une diminution d’écart-type de 0,748 dans le rang de préférence prévue.Toutefois, la variable Conception du conditionnement étant traitée de manièrenominale, il n’est pas nécessaire qu’une augmentation des quantifications correspondeà une augmentation des codes de modalité initiaux.

Page 162: SPSS Categories 14.0

144

Chapitre 9

Les coefficients standardisés sont souvent interprétés en tant que révélateursde l’importance de chaque variable indépendante. Toutefois, les coefficients derégression ne peuvent pas décrire entièrement l’impact d’une variable indépendanteou les relations entre les variables indépendantes. Vous devez recourir à d’autresstatistiques, conjointement aux coefficients standardisés, pour explorer complètementles effets des variables indépendantes.

Corrélations et importance

Le seul examen des coefficients de régression est insuffisant pour interpréter lescontributions des variables indépendantes à la régression. En outre, les corrélations,les corrélations partielles et les mesures doivent être examinées. Le tableau suivantillustre les mesures de corrélation pour chaque variable.

La corrélation simple est la corrélation existant entre la variable indépendante etla réponse transformées. Pour ces données, la corrélation la plus élevée concerne lavariable Conception du conditionnement. Toutefois, si vous pouvez expliquer unepartie de la variation dans la variable indépendante ou dans la réponse, vous obtenezune meilleure représentation de la qualité de la variable indépendante.

Figure 9-21Corrélations simples, mesures et corrélations partielles (variables transformées)

D’autres variables du modèle peuvent fausser l’effet d’une variable indépendantedonnée lors de la prévision de la réponse. Le coefficient de corrélation partiellesupprime les effets linéaires des autres variables indépendantes de la réponse et de lavariable indépendante. Cette mesure équivaut à la corrélation entre les résidus issusde la régression de la variable indépendante sur les autres variables indépendanteset ceux issus de la régression de la réponse sur les autres variables indépendantes.La corrélation partielle carrée correspond à la proportion de la variance expliquéepar rapport à la variance résiduelle de la réponse, après suppression des effets desautres variables. Par exemple, la corrélation partielle de la variable Conception du

Page 163: SPSS Categories 14.0

145

Régression nominale

conditionnement est égale à –0,955. Une fois les effets des autres variables supprimés,la variable Conception du conditionnement explique 91 % (–0,955)2 = 0,91) dela variation des rangs de préférence. Les variables Prix et Etiquette Economiqueexpliquent également une large partie de la variance si les effets des autres variablessont supprimés.

Au lieu de supprimer les effets de variables de la réponse et d’une variableindépendante, vous pouvez vous contenter de les supprimer de la variableindépendante. La corrélation entre la réponse et les résidus issus de la régressiond’une variable indépendante sur les autres variables indépendantes est la mesure.L’élévation au carré de cette valeur donne une mesure de la proportion de varianceexpliquée par rapport à la variance totale de la réponse. Si vous supprimez les effetsdes variables Nom de marque, Etiquette Economique, Garantie satisfait ou rembourséet Prix de la variable Conception du conditionnement, la partie restante de cettedernière explique 54 % (–0,733)2 = 0,54) de la variation des rangs de préférence.

Importance

Outre les coefficients de régression et les corrélations, la mesure d’importancerelative de Pratt(Pratt, 1987) facilite l’interprétation des contributions des variablesindépendantes à la régression. Des importances élevées par rapport aux autresimportances correspondent à des variables indépendantes cruciales pour la régression.De même, la présence de variables suppressives est signalée par une importancefaible dans le cas d’une variable dont la taille du coefficient est similaire à celle ducoefficient des variables indépendantes importantes.

Par opposition aux coefficients de régression, cette mesure définit l’importancedes variables indépendantes de manière additive, c’est-à-dire que l’importance d’ungroupe de variables indépendantes est la somme de l’importance de chacune de cesvariables. La mesure de Pratt équivaut au produit du coefficient de régression et dela corrélation simple d’une variable indépendante. Ces produits s’ajoutent à R2, ilssont donc divisés par R2, ce qui génère une somme égale à 1. Le groupe de variablesindépendantes Conception du conditionnement et Nom de la marque, par exemple,ont une importance de 0,654. L’importance la plus élevée correspond à la variableConception du conditionnement, les variables Conception du conditionnement, Prixet Etiquette Economique représentant 95 % de l’importance de cette combinaison devariables indépendantes.

Page 164: SPSS Categories 14.0

146

Chapitre 9

Multicolinéarité

Les corrélations élevées entre variables indépendantes réduisent sensiblement lastabilité d’un modèle de régression. Les variables indépendantes corrélées aboutissentà des estimations de paramètre instables. La tolérance reflète le degré de linéarité dela relation entre les variables indépendantes. Cette mesure constitue la proportion dela variance d’une variable qui n’est pas expliquée par d’autres variables indépendantesde l’équation. Si les autres variables indépendantes peuvent expliquer une largepartie de la variance d’une variable indépendante, celle-ci n’est pas requise dans lemodèle. Une valeur de tolérance proche de 1 indique que la variable ne peut pas êtreprévue très correctement à partir des autres variables indépendantes. En revanche,une variable à très faible tolérance apporte peu d’informations à un modèle et peutentraîner des problèmes de calcul. En outre, des valeurs négatives élevées de lamesure d’importance de Pratt indiquent une multicolinéarité.

Toutes les mesures de tolérance sont très élevées. Aucune des variablesindépendantes n’est prévue très correctement par les autres variables indépendantes etil n’y a pas de multicolinéarité.

Diagrammes de transformation

La représentation des valeurs de modalité initiales par rapport aux quantificationscorrespondantes peut mettre en évidence des tendances qu’une liste de quantificationsne laisse pas forcément transparaître. Ces types de diagramme sont communémentappelés « diagrammes de transformation ». Vous devez prêter une attentionparticulière aux modalités qui reçoivent des quantifications similaires. Ces modalitésaffectent la réponse prévue de la même manière. Toutefois, le type de transformationdétermine l’aspect de base du diagramme.

Les variables traitées en tant que données numériques aboutissent à une relationlinéaire entre les quantifications et les modalités initiales, qui apparaît sous la formed’une ligne droite dans le diagramme de transformation. L’ordre des modalitésinitiales et leurs différences sont conservés dans les quantifications.

L’ordre des quantifications des variables traitées en tant que données ordinalescorrespond à l’ordre des modalités initiales. Toutefois, les différences entre lesmodalités ne sont pas conservées. Par conséquent, le diagramme de transformationest non décroissant, mais n’est pas nécessairement une ligne droite. Si des modalitésconsécutives correspondent à des quantifications similaires, la distinction entre ellespeut s’avérer superflue et les modalités peuvent être combinées. Ces modalités se

Page 165: SPSS Categories 14.0

147

Régression nominale

traduisent par un palier dans le diagramme de transformation. Toutefois, ce motif peutégalement résulter de l’application d’une structure ordinale à une variable à traitercomme donnée nominale. Si un traitement nominal ultérieur de la variable met enévidence le même motif, la combinaison des modalités est garantie. En outre, si lesquantifications d’une variable traitée en tant que donnée ordinale s’alignent sur uneligne droite, une transformation numérique peut s’avérer plus appropriée.

Dans le cas des variables traitées en tant que données nominales, l’ordre desmodalités le long de l’axe horizontal correspond à l’ordre des codes utilisés pourles représenter. Les interprétations de l’ordre des modalités ou de la distance lesséparant sont sans fondement. Le diagramme peut prendre toute forme non linéaireou linéaire. En présence d’une tendance ascendante, un traitement ordinal doit êtretenté. Si le diagramme de transformation nominale montre une tendance linéaire, unetransformation numérique peut s’avérer plus appropriée.

Le schéma ci-après illustre le diagramme de transformation de la variable Prix,qui a été traitée en tant que donnée numérique. L’ordre des modalités le long de laligne droite correspond à l’ordre des modalités d’origine. En outre, la différence entreles quantifications de 1,19 $ et 1,39 $ (–1,173 et 0) est la même que celle entre lesquantifications de 1,39 $ et 1,59 $ (0 et 1,173). Le fait que les modalités 1 et 3 soientà égale distance de la modalité 2 est conservé dans les quantifications.

Figure 9-22Diagramme de transformation de prix (numérique)

Page 166: SPSS Categories 14.0

148

Chapitre 9

La transformation nominale de la variable Conception du conditionnement génèrele diagramme de transformation ci-après. Notez la forme non linéaire distincte souslaquelle la deuxième modalité détient la quantification la plus élevée. En matière derégression, la deuxième modalité diminue le rang de préférence prévue, tandis queles première et troisième modalités ont l’effet inverse.

Figure 9-23Diagramme de transformation de conception du conditionnement (nominal)

Analyse des résidus

A l’aide des données transformées et des résidus que vous avez enregistrés dansl’ensemble de données actif, vous pouvez créer un diagramme de dispersiondes prévisions à partir des valeurs transformées de la variable Conception duconditionnement.

Pour obtenir ce type de diagramme de dispersion, rappelez la boîte de dialogueDiagramme de dispersion simple, puis cliquez sur le bouton Réinitialiser pour effacervos sélections précédentes et restaurer les options par défaut.

Page 167: SPSS Categories 14.0

149

Régression nominale

Figure 9-24Boîte de dialogue Diagramme de dispersion simple

E Sélectionnez l’option Résidus comme variable de l’axe y.

E Sélectionnez l’option Conception du conditionnement - Quantification commevariable de l’axe x.

E Cliquez sur OK.

Le diagramme de dispersion représente les résidus standardisés par rapport auxquantifications optimales de la variable Conception du conditionnement. Tous lesrésidus figurent dans deux écarts-types de valeur 0. Une dispersion aléatoire depoints remplace la forme en U présente dans le diagramme de dispersion issu de larégression linéaire standard. La quantification optimale des modalités améliore lescapacités prévisionnelles.

Page 168: SPSS Categories 14.0

150

Chapitre 9

Figure 9-25Résidus de la régression nominale

Exemple : Données d’ozone

Dans cet exemple, vous allez utiliser un plus grand ensemble de données pourillustrer la sélection et les effets des transformations de codage optimal. Les donnéescomprennent 330 observations sur six variables météorologiques précédemmentanalysées par Breiman et Friedman(Breiman et Friedman, 1985), ainsi que par Hastieet Tibshirani(Hastie et Tibshirani, 1990), entre autres. Le tableau ci-après décritles variables initiales. Votre régression nominale essaie de prévoir la concentrationd’ozone à partir des autres variables. Les chercheurs précédents ont décelé parmi cesvariables des non-linéarités qui pénalisent les approches standard de la régression.

Page 169: SPSS Categories 14.0

151

Régression nominale

Tableau 9-2Variables initiales

Variable Descriptionozon niveau quotidien d’ozone ; classé dans l’une des

38 modalitésh base inv hauteur de base d’inversion

gr press gradient de pression (mm Hg)

vis visibilité (miles)

temp température (degrés F)

jour année jour de l’année

Cet ensemble de données est disponible dans le fichier ozone.sav, qui figure dans lesous-répertoire \tutorial\sample_files\ du répertoire d’installation de SPSS.

Discrétisation des variables

Si une variable détient une quantité excessive de modalités rendant difficile leurinterprétation, vous devez modifier les modalités à l’aide de la boîte de dialogueDiscrétisation de manière à réduire l’intervalle des modalités et obtenir ainsi unequantité plus facile à gérer.

La variable Jour de l’année possède la valeur minimale 3 et la valeur maximale365. Le recours à cette variable dans une régression nominale correspond àl’utilisation d’une variable avec 365 modalités. De même, l’intervalle de valeurs de lavariable Visibilité (miles) est compris entre 0 et 350. Pour simplifier l’interprétationdes analyses, discrétisez ces variables en intervalles égaux de longueur 10.

L’intervalle de valeurs de la variable Hauteur de base d’inversion est comprisentre 111 et 5 000. Une variable dotée d’autant de modalités aboutit à des relationstrès complexes. Toutefois, la discrétisation de cette variable en intervalles égaux delongueur 100 génère approximativement 50 modalités. L’utilisation d’une variablede 50 modalités plutôt que d’une variable de 5 000 modalités simplifie sensiblementles interprétations.

L’intervalle de valeurs de la variable Gradient de pression (mm Hg) est comprisentre –69 et 107. La procédure retire de l’analyse toutes les modalités codées avecdes nombres négatifs, mais la discrétisation de cette variable en intervalles égaux delongueur 10 génère approximativement 19 modalités.

Page 170: SPSS Categories 14.0

152

Chapitre 9

L’intervalle de valeurs de la variable Température (degrés F) est compris entre 25et 93 sur l’échelle Fahrenheit. Pour analyser les données comme si elles figuraient surl’échelle Celsius, discrétisez cette variable en intervalles égaux de longueur 1,8.

Une discrétisation différente des variables peut être souhaitable. Les choix quevous faites ici sont totalement subjectifs. Pour obtenir moins de modalités, choisissezdes intervalles plus grands. Par exemple, la variable Jour de l’année aurait pu êtredivisée en mois de l’année ou en saisons.

Sélection du type de transformation

Différents niveaux d’analyse sont disponibles pour chaque variable. Toutefois,l’objectif étant la prévision de la réponse, vous devez coder celle-ci “en l’état”en utilisant le niveau de codage numérique optimal. Par conséquent, l’ordre desmodalités et leurs différences seront conservés dans la variable transformée.

E Pour exécuter une analyse de régression nominale, choisissez les options suivantesdans les menus :Analyse

RégressionCodage optimal

Page 171: SPSS Categories 14.0

153

Régression nominale

Figure 9-26Boîte de dialogue Régression nominale

E Sélectionnez l’option Niveau quotidien d’ozone comme variable dépendante.

E Sélectionnez les options allant de Hauteur de base d’inversion à Jour de l’annéecomme variables indépendantes.

E Sélectionnez l’option Niveau quotidien d’ozone, puis cliquez sur Définir l’échelle.

Figure 9-27Boîte de dialogue Définir l’échelle

E Sélectionnez l’option Numérique comme niveau de codage optimal.

E Cliquez sur Poursuivre.

Page 172: SPSS Categories 14.0

154

Chapitre 9

E Sélectionnez les options allant de Hauteur de base d’inversion à Jour de l’année, puiscliquez sur Définir l’échelle dans la boîte de dialogue Régression nominale.

Figure 9-28Boîte de dialogue Définir l’échelle

E Sélectionnez l’option Nominal comme niveau de codage optimal.

E Cliquez sur Poursuivre.

E Cliquez sur Discrétiser dans la boîte de dialogue Régression nominale.

Figure 9-29Discrétisation

E Sélectionnez l’option h base inv.

Page 173: SPSS Categories 14.0

155

Régression nominale

E Sélectionnez l’option Intervalles égaux, puis tapez 100 comme longueur de l’intervalle.

E Cliquez sur Changer.

E Sélectionnez les options gr press, vis et jour année.

E Tapez 10 comme longueur de l’intervalle.

E Cliquez sur Changer.

E Sélectionnez l’option temp.

E Tapez 1,8 comme longueur de l’intervalle.

E Cliquez sur Changer.

E Cliquez sur Poursuivre.

E Cliquez sur Diagrammes dans la boîte de dialogue Régression nominale.

Figure 9-30Boîte de dialogue Diagrammes

E Sélectionnez les diagrammes de transformation pour les options allant de h baseinv à jour année.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Régression nominale.

Page 174: SPSS Categories 14.0

156

Chapitre 9

Figure 9-31Récapitulatif du modèle

Le traitement de toutes les variables indépendantes en tant que données nominalesgénère une mesure R2 égale à 0,886. Cette quantité élevée de variance représentéen’est pas surprenante dans la mesure où le traitement nominal n’impose aucunerestriction sur les quantifications. Toutefois, l’interprétation des résultats peuts’avérer assez difficile.

Figure 9-32Coefficients de régression (toutes les variables indépendantes traitées en tant quedonnées nominales)

Ce tableau indique les coefficients de régression standardisés des variablesindépendantes. Une erreur fréquente lors de l’interprétation de ces valeurs consiste àse concentrer sur les coefficients au détriment des quantifications. Vous ne pouvezpas affirmer que la valeur positive élevée du coefficient Température implique uneaugmentation de la variable Ozone prévue à mesure que la température monte.

De même, le coefficient négatif de la variable Hauteur de base d’inversion nesuggère pas une diminution de la variable Ozone prévue à mesure que la variableHauteur de base d’inversion augmente. Toutes les interprétations doivent êtrerelatives aux variables transformées. A mesure que les quantifications de la variableTempérature augmentent ou que celles de la variable Hauteur de base d’inversiondiminuent, la variable Ozone prévue s’accroît. Pour examiner les effets des variablesinitiales, vous devez définir les relations entre les modalités et les quantifications.

Page 175: SPSS Categories 14.0

157

Régression nominale

Figure 9-33Diagramme de transformation de la variable Hauteur de base d’inversion (nominal)

Le diagramme de transformation de la variable Hauteur de base d’inversion nemontre aucun motif apparent. Comme l’atteste la nature irrégulière du diagramme, lepassage des modalités inférieures aux modalités supérieures génère des fluctuationsdes quantifications dans les deux sens. Par conséquent, la description des effets decette variable requiert une analyse des différentes modalités. Le fait d’imposerdes restrictions ordinales ou linéaires aux quantifications de cette variable peutsensiblement réduire l’ajustement.

Page 176: SPSS Categories 14.0

158

Chapitre 9

Figure 9-34Diagramme de transformation de la variable Gradient de pression (nominal)

Ce schéma illustre le diagramme de transformation de la variable Gradient depression. Les modalités discrétisées initiales (1 à 6) reçoivent des quantificationsréduites, si bien qu’elles contribuent de façon minimale à la réponse prévue. Les troismodalités suivantes reçoivent des valeurs positives un peu plus élevées, générant uneaugmentation modérée de l’ozone prévu.

Les quantifications diminuent jusqu’à la modalité 16, où la variable Gradient depression produit son effet de diminution le plus important sur l’ozone prévu. Bien quela courbe remonte après cette modalité, l’utilisation d’un niveau de codage ordinalpour la variable Gradient de pression risque de ne pas beaucoup réduire l’ajustement,tout en simplifiant les interprétations des effets. Toutefois, la mesure d’importance0,04 et le coefficient de régression de la variable Gradient de pression indiquent quecette variable n’est pas très utile dans la régression.

Page 177: SPSS Categories 14.0

159

Régression nominale

Figure 9-35Diagramme de transformation de la variable Visibilité (nominal)

Le diagramme de transformation de la variable Visibilité, à l’instar de celui de lavariable Hauteur de base d’inversion, ne montre aucun motif apparent. Le faitd’imposer des restrictions ordinales ou linéaires aux quantifications de cette variablepeut sensiblement réduire l’ajustement.

Page 178: SPSS Categories 14.0

160

Chapitre 9

Figure 9-36Diagramme de transformation de la variable Température (nominal)

Le diagramme de transformation de la variable Température montre un autre motif. Amesure que les modalités augmentent, les quantifications tendent à s’accroître. Parconséquent, à mesure que la variable Température augmente, l’ozone prévu tend às’accroître. Ce motif suggère le codage de la variable Température au niveau ordinal.

Page 179: SPSS Categories 14.0

161

Régression nominale

Figure 9-37Diagramme de transformation de la variable Jour de l’année (nominal)

Ce schéma illustre le diagramme de transformation de la variable Jour de l’année.Les quantifications tendent à diminuer jusqu’à la modalité 19, point à partir duquelelles tendent à augmenter, générant une forme en U. D’après le signe du coefficient derégression de la variable Jour de l’année, les modalités initiales (1 à 5) reçoivent desquantifications ayant un effet réducteur sur l’ozone prévu. A partir de la modalité 6, latendance à l’augmentation de l’effet des quantifications sur l’ozone prévu s’accentue,atteignant un point maximum autour de la modalité 19.

Au-delà de la modalité 19, les quantifications tendent à diminuer l’ozone prévu.Bien que la courbe soit assez irrégulière, la forme générale reste identifiable. Parconséquent, les diagrammes de transformation suggèrent le codage de la variableTempérature au niveau ordinal avec conservation du codage nominal pour toutes lesautres variables indépendantes.

Page 180: SPSS Categories 14.0

162

Chapitre 9

Pour calculer de nouveau la régression en codant la variable Température au niveauordinal, rappelez la boîte de dialogue Régression nominale.

Figure 9-38Boîte de dialogue Définir l’échelle

E Sélectionnez l’option Température, puis cliquez sur Définir l’échelle.

E Sélectionnez l’option Ordinal comme niveau de codage optimal.

E Cliquez sur Poursuivre.

E Cliquez sur le bouton Enregistrer dans la boîte de dialogue Régression nominale.

Page 181: SPSS Categories 14.0

163

Régression nominale

Figure 9-39Enregistrer

E SélectionnezSélectionnez Enregistrer les variables transformées dans l’ensemble des

données actif dans le groupe des variables transformées.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Régression nominale.

Figure 9-40Récapitulatif du modèle de la régression, avec traitement de la variable Température entant que donnée ordinale

Ce modèle génère une mesure R2 égale à 0,875, si bien que la variance représentéediminue de façon négligeable lorsque les quantifications de la variable Températuresont limitées à être ordonnées.

Page 182: SPSS Categories 14.0

164

Chapitre 9

Figure 9-41Coefficients de régression avec traitement de la variable Température en tant que donnéeordinale

Ce tableau répertorie les coefficients du modèle dans lequel la variable Températureest soumise à un codage ordinal. La comparaison des coefficients à ceux du modèledans lequel la variable Température est soumise à un codage nominal ne laisse pasapparaître de différences significatives.

Figure 9-42Corrélations, importance et tolérance

En outre, les mesures d’importance suggèrent que la variable Température restebeaucoup plus importante pour la régression que les autres variables. Toutefois, enraison du niveau de codage ordinal de la variable Température et du coefficient derégression positif, vous pouvez désormais affirmer que l’ozone prévu augmente àmesure que la variable Température s’accroît.

Page 183: SPSS Categories 14.0

165

Régression nominale

Figure 9-43Diagramme de transformation de la variable Température (ordinal)

Le diagramme de transformation illustre la restriction ordinale appliquée auxquantifications de la variable Température. La courbe irrégulière issue de latransformation nominale est remplacée ici par une courbe ascendante douce. En outre,l’absence de longs paliers indique que la fusion des modalités n’est pas nécessaire.

Optimisation des quantifications

Les variables transformées issues d’une régression nominale peuvent être utiliséesdans une régression linéaire standard et aboutir à des résultats identiques. Toutefois,les quantifications ne sont optimales que pour le modèle qui les a générées.L’utilisation d’un sous-ensemble de variables indépendantes dans une régressionlinéaire ne correspond pas à une régression avec codage optimal sur le mêmesous-ensemble.

Page 184: SPSS Categories 14.0

166

Chapitre 9

Par exemple, la régression nominale que vous avez calculée présente une mesureR2 égale à 0,875. Vous avez enregistré les variables transformées. Par conséquent,pour ajuster une régression linéaire uniquement à l’aide des options Température,Gradient de pression et Hauteur de base d’inversion comme variables indépendantes,dans les menus, choisissez :Analyse

RégressionLinéaire

Figure 9-44Boîte de dialogue Régression linéaire

E Sélectionnez l’option Niveau quotidien d’ozone - Quantification comme variabledépendante.

E Sélectionnez les options Hauteur de base d’inversion - Quantification, Gradientde pression (mm Hg) - Quantification et Température (degrés F) – Quantificationcomme variables indépendantes.

E Cliquez sur OK.

Page 185: SPSS Categories 14.0

167

Régression nominale

Figure 9-45Récapitulatif du modèle de régression avec un sous-ensemble de variables indépendantescodées de façon optimale

Grâce à l’utilisation des quantifications pour la réponse, les variables Température,Gradient de pression et Hauteur de base d’inversion dans une régression linéairestandard génèrent un ajustement égal à 0,733. Pour comparer ce dernier à l’ajustementd’une régression nominale en utilisant uniquement ces trois variables indépendantes,rappelez la boîte de dialogue Régression nominale.

Figure 9-46Boîte de dialogue Régression nominale

E Désélectionnez les options Visibilité (miles) et Jour de l’année comme variablesindépendantes.

E Cliquez sur OK.

Page 186: SPSS Categories 14.0

168

Chapitre 9

Figure 9-47Récapitulatif du modèle de régression nominale sur trois variables indépendantes

L’analyse de régression nominale possède un ajustement égal à 0,798, meilleur quel’ajustement de 0,733. Cela démontre la propriété des codages selon laquelle lesquantifications obtenues dans la régression initiale ne sont optimales que lorsque lescinq variables sont incluses dans le modèle.

Effets des transformations

La transformation d’une série de variables rend linéaire, pour celles-ci, une relationnon linéaire entre la réponse initiale et le groupe initial de variables indépendantes.Toutefois, en présence de plusieurs variables indépendantes, les relations par pairesont confondues par les autres variables du modèle.

Pour focaliser votre analyse sur la relation entre les variables Niveau quotidiend’ozone et Jour de l’année, commencez par observer un diagramme de dispersion. Apartir des menus, sélectionnez :Graphes

Dispersion/Points...

Figure 9-48Boîte de dialogue Dispersion/Points

E Cliquez sur Définir.

Page 187: SPSS Categories 14.0

169

Régression nominale

Figure 9-49Boîte de dialogue Diagramme de dispersion simple

E Sélectionnez l’option Niveau quotidien d’ozone comme variable de l’axe y et l’optionJour de l’année comme variable de l’axe x.

E Cliquez sur OK.

Page 188: SPSS Categories 14.0

170

Chapitre 9

Figure 9-50Diagramme de dispersion du niveau d’ozone quotidien par jour de l’année

Ce schéma illustre la relation entre les variables Niveau quotidien d’ozone et Jour del’année. A mesure que la variable Jour de l’année augmente jusqu’à environ 200, lavariable Niveau quotidien d’ozone s’accroît. Toutefois, pour les valeurs de la variableJour de l’année supérieures à 200, la variable Niveau quotidien d’ozone diminue. Cemotif en U inversé suggère une relation quadratique entre les deux variables. Unerégression linéaire ne peut pas capturer cette relation.

E Pour qu’une courbe optimisée relie les points du diagramme de dispersion, activezle graphique en double-cliquant dessus.

E Sélectionnez un point dans l’éditeur de diagrammes.

E Cliquez sur l’outil Ajouter une courbe d’ajustement au total, puis fermez Chart Editor.

Page 189: SPSS Categories 14.0

171

Régression nominale

Figure 9-51Diagramme de dispersion contenant la courbe d’ajustement la plus appropriée

Une régression linéaire de la variable Niveau quotidien d’ozone sur la variable Jour del’année génère une mesure R2 égale à 0,004. Cet ajustement suggère que la variableJour de l’année ne possède aucune valeur prévisionnelle pour la variable Niveauquotidien d’ozone. Cela n’est pas surprenant, au vu du motif du schéma. Toutefois,vous pouvez recourir au codage optimal pour linéariser la relation quadratique etutiliser la variable Jour de l’année transformée pour prévoir la réponse.

Page 190: SPSS Categories 14.0

172

Chapitre 9

Figure 9-52Boîte de dialogue Régression nominale

Pour obtenir une régression nominale de la variable Niveau quotidien d’ozone sur lavariable Jour de l’année, rappelez la boîte de dialogue Régression nominale.

E Désélectionnez les options allant de Hauteur de base d’inversion à Température(degrés F) comme variables indépendantes.

E Sélectionnez l’option Jour de l’année comme variable indépendante.

E Cliquez sur Définir l’échelle.

Figure 9-53Boîte de dialogue Définir l’échelle

E Sélectionnez l’option Nominal comme niveau de codage optimal.

Page 191: SPSS Categories 14.0

173

Régression nominale

E Cliquez sur Poursuivre.

E Cliquez sur Discrétiser dans la boîte de dialogue Régression nominale.

Figure 9-54Discrétisation

E Sélectionnez l’option jour année.

E Sélectionnez l’option Intervalles égaux.

E Tapez 10 comme longueur de l’intervalle.

E Cliquez sur Changer.

E Cliquez sur Poursuivre.

E Cliquez sur Diagrammes dans la boîte de dialogue Régression nominale.

Page 192: SPSS Categories 14.0

174

Chapitre 9

Figure 9-55Boîte de dialogue Diagrammes

E Sélectionnez l’option jour année pour les diagrammes de transformation.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Régression nominale.

Figure 9-56Récapitulatif du modèle de régression nominale de la variable Niveau quotidien d’ozonesur la variable Jour de l’année

La régression avec codage optimal traite la variable Niveau quotidien d’ozone en tantque donnée numérique et la variable Jour de l’année en tant que donnée nominale.Cette opération génère une mesure R2 égale à 0,549. Bien que seulement 55 % de lavariation de la variable Niveau quotidien d’ozone soient représentés par la régressionnominale, cela constitue une amélioration significative par rapport à la régressioninitiale. La transformation de la variable Jour de l’année permet de prévoir la variableNiveau quotidien d’ozone.

Page 193: SPSS Categories 14.0

175

Régression nominale

Figure 9-57Diagramme de transformation de la variable Jour de l’année (nominal)

Ce schéma affiche le diagramme de transformation de la variable Jour de l’année. Lesdeux extrêmes de la variable Jour de l’année reçoivent des quantifications négatives,tandis que les valeurs centrales possèdent des quantifications positives. Une fois cettetransformation appliquée, les valeurs basse et haute de la variable Jour de l’année ontdes effets similaires sur la variable Niveau quotidien d’ozone prévue.

Page 194: SPSS Categories 14.0

176

Chapitre 9

Figure 9-58Boîte de dialogue Diagramme de dispersion simple

Pour obtenir un diagramme de dispersion des variables transformées, rappelez la boîtede dialogue Diagramme de dispersion simple, puis cliquez sur le bouton Réinitialiser

afin d’effacer vos sélections antérieures.

E Sélectionnez l’option Niveau quotidien d’ozone - Quantification [TRA1_3] commevariable de l’axe y et l’option Jour de l’année – Quantification [TRA2_3] commevariable de l’axe x.

E Cliquez sur OK.

Page 195: SPSS Categories 14.0

177

Régression nominale

Figure 9-59Diagramme de dispersion des variables transformées

Ce schéma décrit la relation entre les variables transformées. Une tendance àl’augmentation remplace la forme en U inversée. La ligne de régression possèdeune pente positive, ce qui indique que le Niveau d’ozone quotidien prévu augmenteà mesure que la variable Jour de l’année transformée s’accroît. L’utilisation ducodage optimal linéarise la relation et autorise des interprétations qui seraient passéesinaperçues.

Lectures recommandées

Pour plus d’informations sur la régression nominale, reportez-vous aux documentssuivants :

Buja, A. 1990. Remarks on functional canonical variates, alternating least squaresmethods and ACE. Annals of Statistics, 18, 1032–1069.

Page 196: SPSS Categories 14.0

178

Chapitre 9

Hastie, T., R. Tibshirani, et A. Buja. 1994. Flexible discriminant analysis. Journal ofthe American Statistical Association, 89, 1255–1270.

Hayashi, C. 1952. On the prediction of phenomena from qualitative data and thequantification of qualitative data from the mathematico-statistical point of view.Annals of the Institute of Statitical Mathematics, 2, 93–96.

Kruskal, J. B. 1965. Analysis of factorial experiments by estimating monotonetransformations of the data. Journal of the Royal Statistical Society Series B, 27,251–263.

Meulman, J. J. 2003. Prediction and classification in nonlinear data analysis:Something old, something new, something borrowed, something blue. Psychometrika,4, 493–517.

Ramsay, J. O. 1989. Monotone regression splines in action. Statistical Science, 4,425–441.

Vander Kooij, A. J., et J. J. Meulman. 1997. MURALS: Multiple regression andoptimal scaling using alternating least squares. Dans : Softstat ’97, F. Faulbaum, etW. Bandilla, eds. Stuttgart: Gustav Fisher, 99–106.

Winsberg, S., et J. O. Ramsay. 1980. Monotonic transformations to additivity usingsplines. Biometrika, 67, 669–674.

Winsberg, S., et J. O. Ramsay. 1983. Monotone spline transformations for dimensionreduction. Psychometrika, 48, 575–595.

Young, F. W., J. De Leeuw, et Y. Takane. 1976. Regression with qualitative andquantitative variables: An alternating least squares method with optimal scalingfeatures. Psychometrika, 41, 505–528.

Page 197: SPSS Categories 14.0

Chapitre

10Analyse en composantesprincipales qualitatives

L’analyse en composantes principales qualitatives peut être considérée comme uneméthode de réduction des dimensions. Un ensemble de variables est analysé demanière à mettre en évidence les principales dimensions de variation. L’ensemble dedonnées initial peut ensuite être remplacé par un nouvel ensemble plus petit avec uneperte d’informations minimale. La méthode met en évidence les relations entre lesvariables, entre les observations et entre les variables et les observations.

Le critère utilisé par l’analyse en composantes principales qualitatives pour laquantification des données observées est le suivant : les coordonnées principales(scores des composantes) doivent avoir des corrélations élevées avec chacune desvariables quantifiées. Une solution est appropriée dans la mesure où ce critère estrespecté.

Deux exemples d’analyse en composantes principales qualitatives seront présentés.Le premier emploie un ensemble de données plutôt réduit permettant d’illustrer lesconcepts de base et les interprétations associées à la procédure. Le second exempleexamine une application pratique.

Exemple : Examen des relations entre systèmes sociaux

Cet exemple examine(Guttman, 1968) l’adaptation Guttman d’un tableau parBell(Bell, 1961). Les données sont également présentées par Lingoes(Lingoes, 1968).

Bell a présenté un tableau pour illustrer les groupes sociaux possibles. Guttmana utilisé une partie de ce tableau, dans lequel cinq variables décrivant des élémentstels que l’interaction sociale, le sentiment d’appartenance à un groupe, la proximitéphysique des membres et la formalité de la relation, ont été croisées avec septgroupes sociaux théoriques, dont les foules (par exemple, le public d’un match

179

Page 198: SPSS Categories 14.0

180

Chapitre 10

de football), l’audience (par exemple, au cinéma ou dans une salle de classe), lepublic (par exemple, les journaux ou la télévision), les bandes (proche d’une foule,mais qui serait caractérisée par une interaction beaucoup plus intense), les groupesprimaires (intimes), les groupes secondaires (volontaires) et la communauté moderne(groupement lâche issu d’une forte proximité physique et d’un besoin de servicesspécialisés).

Le tableau suivant indique les variables de l’ensemble de données résultant de laclassification en sept groupes sociaux utilisés dans les données Guttman-Bell, ainsique les étiquettes de variable correspondantes et les étiquettes de valeur (modalités)associées aux niveaux de chaque variable. Cet ensemble de données est disponibledans le fichier guttman.sav, qui figure dans le sous-répertoire \tutorial\sample_files\du répertoire d’installation de SPSS. Outre les variables à inclure dans le calcul del’analyse des composantes principales qualitatives, vous pouvez sélectionner cellesutilisées pour étiqueter les objets sur les diagrammes. Dans cet exemple, les cinqpremières variables des données sont incluses dans l’analyse, tandis que la classe estexclusivement utilisée comme variable d’étiquetage. Lorsque vous spécifiez uneanalyse des composantes principales qualitatives, vous devez définir le niveau decodage optimal de chaque variable d’analyse. Dans cet exemple, un niveau ordinal estspécifié pour toutes les variables d’analyse.

Tableau 10-1Variables de l’ensemble de données Guttman-Bell

Le nom de la variable l’étiquette Variable Etiquette de valeur

intensité Intensité de l’interaction légère, faible, modérée, élevée

fréquence Fréquence de l’interaction Légère, non récurrente, rare,fréquente

appartenance Sentiment d’appartenance Aucun, léger, variable, élevé

proximité Proximité physique Distante, proche

formalité Formalité de la relation aucune relation, formelle, informelle

classe Foules, audience, public, modèled’objets, groupes primaires, groupessecondaires, communauté moderne

Page 199: SPSS Categories 14.0

181

Analyse en composantes principales qualitatives

Exécution de l’analyse

E Pour générer un résultat de composantes principales qualitatives pour cet ensemble dedonnées, dans les menus, choisissez :Analyse

FactorisationCodage optimal

Figure 10-1Boîte de dialogue Niveau du codage optimal

E Sélectionnez l’option Certaines variables non nominales multiples dans le groupeNiveau du codage optimal.

E Cliquez sur Définir.

Page 200: SPSS Categories 14.0

182

Chapitre 10

Figure 10-2Boîte de dialogue Composantes principales qualitatives

E Sélectionnez les options allant de Intensité de l’interaction à Formalité de la relationcomme variables d’analyse.

E Cliquez sur Définir l’échelle et la pondération.

Figure 10-3Définir l’échelle et la pondération

E Sélectionnez l’option Ordinal dans le groupe Niveau du codage optimal.

Page 201: SPSS Categories 14.0

183

Analyse en composantes principales qualitatives

E Cliquez sur Poursuivre.

E Sélectionnez grappe comme variable d’étiquetage dans la boîte de dialogueComposantes principales qualitatives.

E Cliquez sur Résultat.

Figure 10-4Résultat

E Sélectionnez l’option Coordonnées principales et désélectionnez l’option Corrélations

des variables transformées dans le groupe Tableaux.

E Appliquez la génération de quantifications de modalités aux options allant de intnsité(Intensité de l’interaction) à formlité (Formalité de la relation).

E Choisissez d’étiqueter les coordonnées des objets par grappe.

E Cliquez sur Poursuivre.

E Cliquez sur Objet dans le groupe Diagrammes de la boîte de dialogue Composantesprincipales qualitatives.

Page 202: SPSS Categories 14.0

184

Chapitre 10

Figure 10-5Diagrammes d’objets et de variables

E Sélectionnez l’option Objets et variables (diagramme double) dans le groupeDiagrammes.

E Dans le groupe Objets d’étiquetage, choisissez l’option d’étiquetage des objets parVariable, puis sélectionnez l’option Grappe comme variable d’étiquetage des objets.

E Cliquez sur Poursuivre.

E Cliquez sur Modalité dans le groupe Diagrammes de la boîte de dialogue Composantesprincipales qualitatives.

Page 203: SPSS Categories 14.0

185

Analyse en composantes principales qualitatives

Figure 10-6Boîte de dialogue Diagrammes de modalités

E Appliquez l’opération Joindre les diagrammes de modalités aux options allant deintnsité (Intensité de l’interaction) à formlité (Formalité de la relation).

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Composantes principales qualitatives.

Nombre de dimensions

Ces données montrent une partie du résultat initial de l’analyse en composantesprincipales qualitatives. Après l’historique des itérations de l’algorithme, lerécapitulatif du modèle, y compris les valeurs propres de chaque dimension, apparaît.Ces valeurs propres sont équivalentes à celles de l’analyse en composantes principalesclassique. Elles permettent de mesurer la quantité de variance représentée par chaquedimension.

Page 204: SPSS Categories 14.0

186

Chapitre 10

Figure 10-7Historique des itérations

Figure 10-8Récapitulatif du modèle

Les valeurs propres permettent de déterminer le nombre de dimensions requises. Cetexemple utilise le nombre de dimensions par défaut (2). Ce nombre est-il correct ?En règle générale, lorsque toutes les variables sont nominales simples, ordinalesou numériques, la valeur propre d’une dimension doit être supérieure à 1. Dansla mesure où la solution bidimensionnelle représente 94,52 % de la variance, unetroisième dimension n’apporterait probablement pas beaucoup plus d’informations.

Dans le cas des variables nominales multiples, il n’existe pas de principe debase simple permettant de déterminer le nombre de dimensions approprié. Si lenombre de variables est remplacé par le nombre total de modalités moins le nombrede variables, la règle ci-dessus demeure valable. Cependant, cette règle seuleautoriserait probablement davantage de dimensions que le nombre requis. Lors duchoix du nombre de dimensions, la conduite la plus utile consiste à définir un nombresuffisamment faible de manière à ce que des interprétations significatives soientpossibles. En outre, le tableau récapitulatif du modèle indique l’alpha de Cronbach(mesure de fiabilité), qui est optimisé par la procédure.

Page 205: SPSS Categories 14.0

187

Analyse en composantes principales qualitatives

Quantifications

Pour chaque variable, les quantifications, les coordonnées vectorielles et celles descentres de gravité de chaque dimension sont présentées. Les quantifications sontles valeurs affectées à chaque modalité. Les coordonnées des centres de gravitéreprésentent la moyenne des coordonnées principales des objets d’une même modalité.Les coordonnées vectorielles sont les coordonnées des modalités qui figurent sur uneligne, afin de représenter la variable dans l’espace de l’objet. Ce dispositif est requispour les variables dont le niveau de codage est ordinal ou numérique.

Figure 10-9Quantifications de l’intensité de l’interaction

Les quantifications du diagramme joint des points de modalités indiquent que desmodalités de certaines variables n’ont pas été aussi nettement séparées par l’analysedes composantes principales qualitatives que si l’opération avait eu recours à unniveau réellement ordinal. Les variables Intensité de l’interaction et Fréquenced’interaction, par exemple, présentent des quantifications égales ou pratiquementégales pour leurs deux modalités intermédiaires. Ce type de résultat peut amener àessayer d’autres analyses en composantes principales qualitatives, éventuellement enfusionnant certaines modalités ou en utilisant un autre niveau d’analyse, par exemplenominal (multiple).

Page 206: SPSS Categories 14.0

188

Chapitre 10

Figure 10-10Points de modalités du diagramme joint

Le diagramme joint des points de modalités ressemble au diagramme des corrélationsentre composantes, mais il indique également à quels endroits figurent les extremacorrespondant aux quantifications les plus faibles (par exemple, légère pour Intensitéde l’interaction et aucun pour Sentiment d’appartenance). Les deux variablesqui mesurent l’interaction, Intensité de l’interaction et Fréquence d’interaction,apparaissent très proches l’une de l’autre et représentent la majeure partie de lavariance dans la dimension 1. L’option Formalité de la relation se trouve égalementprès de Proximité physique.

Les points de modalité permettent de discerner les relations plus clairement. Nonseulement les variables Intensité de l’interaction et Fréquence d’interaction sontproches, mais les directions de leurs échelles sont similaires ; en d’autres termes, uneintensité légère est proche d’une fréquence légère et une interaction fréquente estproche d’une intensité d’interaction élevée. Vous pouvez également constater que laforte proximité physique semble aller de pair avec un type informel de relation et quela distance physique est liée à l’absence de relation.

Page 207: SPSS Categories 14.0

189

Analyse en composantes principales qualitatives

Coordonnées principales

En outre, vous pouvez demander une liste et un diagramme des coordonnéesprincipales. Le diagramme des coordonnées principales peut être utile pour détecterdes valeurs éloignées, repérer des groupes typiques d’objets ou mettre en évidencedes modèles particuliers.

Le tableau des coordonnées principales répertorie les coordonnées principalesétiquetées par groupe social pour les données Guttman-Bell. En examinant les valeursdes points des objets, vous pouvez identifier des objets spécifiques dans le diagramme.

Figure 10-11Coordonnées des objets

La première dimension sépare FOULES et PUBLIC, qui ont des scores négatifsrelativement élevés, de BANDES et GROUPES PRIMAIRES, qui ont des scorespositifs relativement élevés. La deuxième dimension possède trois groupes : PUBLICet GROUPES SECONDAIRES avec des valeurs négatives élevées, FOULES avec desvaleurs positives élevées, puis les autres groupes sociaux intermédiaires. L’inspectiondu diagramme des coordonnées principales met en évidence cette organisation.

Page 208: SPSS Categories 14.0

190

Chapitre 10

Figure 10-12Diagramme des coordonnées principales

Dans le diagramme, PUBLIC et GROUPES SECONDAIRES apparaissent en bas,FOULES en haut et les autres groupes sociaux au milieu. L’examen des modèlesparmi les différents objets dépend des informations supplémentaires disponibles pourles unités de l’analyse. Dans ce cas, vous connaissez la classification des objets. Dansd’autres cas, vous pouvez utiliser des variables supplémentaires pour étiqueter lesobjets. Vous pouvez également constater que l’analyse en composantes principalesqualitatives ne sépare pas BANDES de GROUPES PRIMAIRES. Bien que la plupartdes personnes ne considèrent généralement pas leurs familles comme des bandes, cesdeux groupes obtiennent le même score sur quatre des cinq variables utilisées. Il vade soi que vous pouvez explorer les points faibles éventuels des variables et desmodalités utilisées. Par exemple, une intensité d’interaction élevée et des relationsinformelles n’ont probablement pas la même signification pour ces deux groupes. Parailleurs, vous pouvez envisager une solution impliquant davantage de dimensions.

Page 209: SPSS Categories 14.0

191

Analyse en composantes principales qualitatives

Saturations

Ce schéma illustre le diagramme des corrélations entre composantes. Les vecteurs(lignes) sont relativement longs, ce qui est une nouvelle indication du fait que lesdeux premières dimensions représentent la majeure partie de la variance de toutesles variables quantifiées. Sur la première dimension, toutes les variables possèdentdes corrélations entre composantes élevées (positives). La deuxième dimension estprincipalement corrélée avec les variables quantifiées Sentiment d’appartenanceet Proximité physique, dans des sens opposés. Cela signifie que les objets ayantun score négatif élevé dans la dimension 2 auront un score élevé pour le sentimentd’appartenance et un score faible pour la proximité physique. Par conséquent, ladeuxième dimension met en évidence un contraste entre ces deux variables touten ayant peu de rapport avec les variables quantifiées Intensité de l’interaction etFréquence d’interaction.

Figure 10-13Corrélations entre composantes et variables initiales

Pour examiner la relation entre les objets et les variables, observez le diagrammedouble des objets et des saturations. Le vecteur d’une variable pointe en direction dela modalité la plus élevée de la variable. Par exemple, pour les variables Proximitéphysique et Sentiment d’appartenance, les modalités les plus élevées sont forte et

Page 210: SPSS Categories 14.0

192

Chapitre 10

fort, respectivement. Par conséquent, une forte proximité physique et l’absence desentiment d’appartenance caractérisent les foules (FOULES), tandis qu’une proximitéphysique distante et un fort sentiment d’appartenance identifient les groupessecondaires (GROUPES SECONDAIRES).

Figure 10-14Diagramme double

Dimensions supplémentaires

L’augmentation du nombre de dimensions accroît la quantité de variation prise encompte et peut mettre en évidence des différences masquées dans les solutionspossédant un nombre réduit de dimensions. Comme indiqué précédemment, dansune solution bidimensionnelle, les groupes BANDES et GROUPES PRIMAIRES nepeuvent pas être séparés. Toutefois, vous pouvez augmenter le nombre de dimensionsde manière à différencier les deux groupes.

Page 211: SPSS Categories 14.0

193

Analyse en composantes principales qualitatives

Exécution de l’analyse

E Pour obtenir une solution tridimensionnelle, affichez de nouveau la boîte de dialogueComposantes principales nominales.

E Tapez 3 comme nombre de dimensions comprises dans la solution.

E Cliquez sur OK dans la boîte de dialogue Composantes principales qualitatives.

Récapitulatif des modèles

Figure 10-15Récapitulatif du modèle

Une solution tridimensionnelle possède les valeurs propres 3,424, 0,844 et 0,732, quireprésentent la quasi-totalité de la variance.

Coordonnées principales

Les coordonnées principales de la solution tridimensionnelle sont représentéesdans une matrice de diagramme de dispersion. Dans une matrice de diagrammede dispersion, chaque dimension est représentée par rapport à chacune des autresdimensions d’une série de diagrammes de dispersion bidimensionnelles. Les deuxpremières valeurs propres des trois dimensions diffèrent des valeurs propres de lasolution bidimensionnelle ; en d’autres termes, les solutions ne sont pas emboîtées.Etant donné que les valeurs propres des dimensions 2 et 3 sont désormais inférieuresà 1 (aboutissant à un alpha de Cronbach négatif), vous devez privilégier la solutionbidimensionnelle. La solution tridimensionnelle est proposée à titre d’illustration.

Page 212: SPSS Categories 14.0

194

Chapitre 10

Figure 10-16Matrice de diagramme de dispersion des coordonnées principales tridimensionnelle

La ligne supérieure des diagrammes indique que la première dimension sépare lesgroupes GROUPES PRIMAIRES et BANDES des autres groupes. L’ordre des objetsle long de l’axe vertical demeure inchangé d’un diagramme à l’autre dans la lignesupérieure ; chacun de ces diagrammes utilise la dimension 1 comme axe y.

La ligne intermédiaire des diagrammes permet d’interpréter la dimension 2. Ladeuxième dimension a légèrement évolué par rapport à la solution bidimensionnelle.Précédemment, la deuxième dimension possédait trois groupes distincts mais lesobjets sont désormais davantage répartis le long de l’axe.

La troisième dimension permet de séparer le groupe BANDES du groupeGROUPES PRIMAIRES, ce qui n’était pas le cas dans la solution bidimensionnelle.

Observez plus attentivement les diagrammes des dimensions 2 et 3 et ceux desdimensions 1 et 2. Dans le plan défini par les dimensions 2 et 3, les objets forment unrectangle approximatif ayant pour sommets FOULES, COMMUNAUTE MODERNE,GROUPES SECONDAIRES et PUBLIC. Dans ce plan, BANDES et GROUPESPRIMAIRES apparaissent comme des combinaisons convexes de PUBLIC-FOULESet de GROUPES SECONDAIRES-COMMUNAUTE MODERNE, respectivement.Toutefois, comme indiqué précédemment, ils sont séparés des autres groupes le longde la dimension 1. Le groupe AUDIENCES n’est pas séparé des autres groupes le

Page 213: SPSS Categories 14.0

195

Analyse en composantes principales qualitatives

long de la dimension 1 et apparaît sous la forme d’une combinaison des groupesFOULES et COMMUNAUTE MODERNE.

Saturations

Figure 10-17Corrélations entre composantes tridimensionnelles

Le fait de savoir comment les objets sont séparés ne permet pas de connaître lacorrespondance entre variables et dimensions. Pour ce faire, vous devez recourir auxcorrélations entre composantes. La première dimension correspond essentiellementaux groupes Sentiment d’appartenance, Intensité de l’interaction et Formalité dela relation ; la deuxième sépare les groupes Fréquence d’interaction et Proximitéphysique ; la troisième dimension sépare ceux-ci des autres groupes.

Exemple : Symptomatologie des troubles du comportementalimentaire

Les troubles du comportement alimentaire sont des maux débilitants associés à unmauvais comportement alimentaire, à une grave déformation de l’image du corps et àune obsession du poids affectant simultanément l’esprit et le corps. Des millions depersonnes, notamment les adolescents, sont affectées chaque année. Des traitementssont disponibles et la plupart d’entre eux sont efficaces si le trouble est identifié tôt.

Un médecin peut essayer de diagnostiquer un trouble du comportement alimentairepar le biais d’une évaluation psychologique et médicale. Toutefois, il peut s’avérerdifficile de cataloguer un patient dans l’une des différentes classes de troubles ducomportement alimentaire car il n’existe pas de symptomatologie standardisée ducomportement anorexique/boulimique. Existe-t-il des symptômes qui permettent de

Page 214: SPSS Categories 14.0

196

Chapitre 10

classer facilement les patients dans l’un des quatre groupes ? Quels symptômesont-ils en commun ?

Afin de répondre à ces questions, des chercheurs(Van der Ham et al., 1997) ontréalisé une étude sur 55 adolescents affectés par des troubles du comportementalimentaire connus, comme le montre le tableau ci-après.

Tableau 10-2Diagnostics des patients

Diagnostic Nombre de patients

Anorexie mentale 25

Anorexie avec boulimie mentale 9

Boulimie mentale après anorexie 14

Trouble atypique du comportementalimentaire

7

Total 55

Chaque patient a été observé quatre fois sur une période de quatre années, soit un totalde 220 observations. A chaque observation, les patients ont été notés pour chacun des16 symptômes présentés dans le tableau ci-après. En raison de l’absence de scoresde symptôme pour le patient 71/visite 2, le patient 76/visite 2 et le patient 47/visite3, le nombre d’observations valides est de 217. Les données sont disponibles dansle fichier anorectic.sav, qui figure dans le sous-répertoire \tutorial\sample_files\ durépertoire d’installation de SPSS.

Tableau 10-3Sous-échelles Morgan-Russell modifiées mesurant le bien-être

Le nom de lavariable

l’étiquette Variable Limite inférieure (score1)

Limite supérieure (score 3ou 4)

poids Poids corporel Hors de l’intervalle depoids normal

Normale :

mens Menstruation Aménorrhée Règles régulières

inappétance Perte de l’appétit(inappétance)

Moins de 1 200 calories Repas normaux/réguliers

frénésiealimentaire

Frénésie alimentaire Plus d’une fois par semaine Aucune frénésie alimentaire

vomissement Vomissement Plus d’une fois par semaine Pas de vomissement

laxatifs Laxatifs Plus d’une fois par semaine Pas de laxatifs

Page 215: SPSS Categories 14.0

197

Analyse en composantes principales qualitatives

Le nom de lavariable

l’étiquette Variable Limite inférieure (score1)

Limite supérieure (score 3ou 4)

hyperactivité Hyperactivité Ne peut pas demeurerinactif

Pas d’hyperactivité

famille Relations familiales Mauvaises Bonnes

éman Emancipation parrapport à la famille

Forte dépendance Suffisante

amis Relations amicales Pas de bons amis Au moins deux bons amis

école Antécédentsscolaires/professionnels

A quitté l’école/le travail Antécédents moyens à bons

atts Attitude sexuelle Inadéquate Suffisante

comps Comportement sexuel Inadéquate Apprécie les rapportssexuels

humeur Etat mental (humeur) Très déprimé Normale :

préo Préoccupationnourriture et poids

Totale Aucune préoccupation

corps Perception du corps Perturbée Normale :

L’analyse en composantes principales est idéale pour cette situation, dans la mesureoù la finalité de l’étude est d’établir les relations entre les symptômes et les différentesclasses de troubles du comportement alimentaire. En outre, l’analyse en composantesprincipales qualitatives est susceptible d’être plus utile que l’analyse en composantesprincipales classique car les symptômes sont notés sur une échelle ordinale.

Exécution de l’analyse

Afin d’examiner correctement la structure de l’évolution de la maladie pour chaquediagnostic, vous pouvez faire en sorte que les résultats du tableau des centres degravité projetés soient disponibles en tant que données pour les diagrammes dedispersion. Pour ce faire, utilisez le système de gestion des résultats (OMS).

E Pour démarrer une requête OMS, dans les menus, choisissez :Outils

Panneau de configuration du système de gestion des résultats...

Page 216: SPSS Categories 14.0

198

Chapitre 10

Figure 10-18Panneau de configuration du système de gestion des résultats

E Sélectionnez l’option Tableaux comme type de résultat.

E Sélectionnez l’option CATPCA comme commande.

E Sélectionnez l’option Centres de gravité projetés comme type de tableau.

E Sélectionnez l’option Fichier dans le groupe Destinations de sortie, puis tapezprojected_centroids.sav comme nom de fichier.

E Cliquez sur Options.

Page 217: SPSS Categories 14.0

199

Analyse en composantes principales qualitatives

Figure 10-19Options

E Sélectionnez l’option Fichier de données SPSS comme format de résultat.

E Tapez TableNumber_1 comme variable de numéro de tableau.

E Cliquez sur Poursuivre.

Page 218: SPSS Categories 14.0

200

Chapitre 10

Figure 10-20Panneau de configuration du système de gestion des résultats

E Cliquez sur Ajouter.

E Cliquez sur OK, puis de nouveau sur OK pour confirmer la session OMS.

Le système de gestion des résultats est désormais configuré pour écrire les résultatsdu tableau des centres de gravité projetés dans le fichier projected_centroids.sav.

E Pour générer un résultat de composantes principales qualitatives pour cet ensemble dedonnées, dans les menus, choisissez :Analyse

FactorisationCodage optimal...

Page 219: SPSS Categories 14.0

201

Analyse en composantes principales qualitatives

Figure 10-21Boîte de dialogue Niveau du codage optimal

E Sélectionnez l’option Certaines variables non nominales multiples dans le groupeNiveau du codage optimal.

E Cliquez sur Définir.

Page 220: SPSS Categories 14.0

202

Chapitre 10

Figure 10-22Boîte de dialogue Composantes principales qualitatives

E Sélectionnez les options allant de Poids corporel à Perception du corps commevariables d’analyse.

E Cliquez sur Définir l’échelle et la pondération.

Figure 10-23Définir l’échelle et la pondération

E Sélectionnez l’option Ordinal comme niveau de codage optimal.

Page 221: SPSS Categories 14.0

203

Analyse en composantes principales qualitatives

E Cliquez sur Poursuivre.

E Sélectionnez l’option Interaction moment/diagnostic comme variable supplémentaire,puis cliquez sur Définir l’échelle dans la boîte de dialogue Composantes principalesqualitatives.

Figure 10-24Boîte de dialogue Définir l’échelle

E Sélectionnez l’option Variables nominales multiples comme niveau de codage optimal.

E Cliquez sur Poursuivre.

Page 222: SPSS Categories 14.0

204

Chapitre 10

Figure 10-25Boîte de dialogue Composantes principales qualitatives

E Sélectionnez les options allant de Moment de l’entrevue à Numéro de patient commevariables d’étiquetage.

E Cliquez sur Options.

Page 223: SPSS Categories 14.0

205

Analyse en composantes principales qualitatives

Figure 10-26Options

E Choisissez la méthode d’étiquetage des diagrammes Noms ou valeurs de variable.

E Cliquez sur Poursuivre.

E Cliquez sur Résultat dans la boîte de dialogue Composantes principales qualitatives.

Page 224: SPSS Categories 14.0

206

Chapitre 10

Figure 10-27Résultat

E Sélectionnez l’option Coordonnées principales dans le groupe Tableaux.

E Indiquez que vous souhaitez obtenir les valeurs affectées aux modalités pour lavariable moment/diagnostic.

E Incluez les modalités moment, diag et nombre.

E Cliquez sur Poursuivre.

E Cliquez sur Enregistrer dans la boîte de dialogue Composantes principales qualitatives.

Page 225: SPSS Categories 14.0

207

Analyse en composantes principales qualitatives

Figure 10-28Enregistrer

E Dans le groupe des variables transformées, sélectionnez Enregistrer dans l’ensemble de

données actif.

E Cliquez sur Poursuivre.

E Cliquez sur Objet dans la boîte de dialogue Composantes principales qualitatives.

Page 226: SPSS Categories 14.0

208

Chapitre 10

Figure 10-29Diagrammes d’objets et de variables

E Choisissez l’option d’étiquetage des objets Variable.

E Sélectionnez les options moment et diag comme variables d’étiquetage des objets.

E Cliquez sur Poursuivre.

E Cliquez sur Modalité dans la boîte de dialogue Composantes principales qualitatives.

Page 227: SPSS Categories 14.0

209

Analyse en composantes principales qualitatives

Figure 10-30Boîte de dialogue Diagrammes de modalités

E Indiquez que vous souhaitez obtenir les diagrammes de modalité pour la variablemoment/diagnostic.

E Indiquez que vous souhaitez obtenir les diagrammes de transformation pour lesvariables allant de poids à corps.

E Projetez les centres de moment/diagnostic sur frénésie alimentaire, atts et préo.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Composantes principales qualitatives.

La procédure aboutit à des scores pour les sujets (de moyenne 0 et de varianceunitaire) et à des valeurs affectées aux modalités qui maximisent la corrélation descarrés des moyennes des scores de sujet et les variables transformées. Dans l’analyseactuelle, les valeurs affectées aux modalités ont été contraintes de manière à refléterles informations ordinales.

Page 228: SPSS Categories 14.0

210

Chapitre 10

En dernier lieu, pour écrire les informations du tableau des centres de gravité projetésdans le fichier projected_centroids.sav, vous devez mettre fin à la requête OMS.Affichez de nouveau le panneau de configuration du système de gestion des résultats.

Figure 10-31Panneau de configuration du système de gestion des résultats

E Cliquez sur Fin.

E Cliquez sur OK, puis de nouveau sur OK pour confirmer.

Diagrammes de transformation

Les diagrammes de transformation affichent le numéro de modalité initial sur les axeshorizontaux ; les axes verticaux donnent les quantifications optimales.

Page 229: SPSS Categories 14.0

211

Analyse en composantes principales qualitatives

Figure 10-32Diagramme de transformation pour les menstruations

Certaines variables, telles que Menstruation, ayant obtenu des transformationspresque linéaires, vous pouvez, dans cette analyse, les interpréter comme des donnéesnumériques.

Page 230: SPSS Categories 14.0

212

Chapitre 10

Figure 10-33Diagramme de transformation des antécédents scolaires/professionnels

Les quantifications des autres variables, telles que Antécédentsscolaires/professionnels, n’ont pas obtenu de transformations linéaires et doiventêtre interprétées au niveau de codage ordinal. La différence entre les deuxièmeet troisième modalités est beaucoup plus importante que celle entre les premièreet deuxième modalités.

Page 231: SPSS Categories 14.0

213

Analyse en composantes principales qualitatives

Figure 10-34Diagramme de transformation de la frénésie alimentaire

Une situation intéressante se présente dans les quantifications de la frénésiealimentaire. La transformation obtenue est linéaire pour les modalités 1 à 3, maisles valeurs quantifiées pour les modalités 3 et 4 sont égales. Ce résultat montre queles scores 3 et 4 ne font pas de différences entre les patients et suggère que vouspouvez utiliser le niveau de codage numérique dans une solution à deux composantesen recodant les scores 4 en 3.

Page 232: SPSS Categories 14.0

214

Chapitre 10

Récapitulatif des modèlesFigure 10-35Récapitulatif du modèle

Pour évaluer l’adéquation du modèle par rapport aux données, consultez lerécapitulatif du modèle. Environ 47 % de la variance totale est expliquée par lemodèle à deux composantes, à raison de 35 % par la première dimension et de 12 %par la deuxième. Par conséquent, presque la moitié de la variabilité au niveau desdifférents objets est expliquée par le modèle à deux composantes.

Saturations

Pour démarrer l’interprétation des deux dimensions de votre solution, observez lescorrélations entre composantes. Toutes les variables possèdent une corrélation entrecomposantes positives dans la première dimension, ce qui signifie qu’il existe unfacteur commun corrélé positivement avec toutes les variables.

Page 233: SPSS Categories 14.0

215

Analyse en composantes principales qualitatives

Figure 10-36Diagramme des corrélations entre composantes

La deuxième dimension sépare les variables. Les variables Frénésie alimentaire,Vomissement et Laxatifs forment un groupe possédant des corrélations entrecomposantes positives élevées dans la deuxième dimension. Ces symptômes sontgénéralement considérés comme représentatifs d’un comportement boulimique.

Les variables Emancipation par rapport à la famille, Antécédentsscolaires/professionnels, Attitude sexuelle, Poids corporel et Menstruations formentun autre groupe, dans lequel vous pouvez inclure les variables Perte de l’appétit(inappétance) et Relations familiales car leurs vecteurs sont proches de la classeprincipale, et ces variables sont considérées comme étant des symptômes de l’anorexie(inappétance, poids, menstruation) ou de nature psychosociale (émancipation,antécédents scolaires/professionnels, attitude sexuelle, relations familiales). Lesvecteurs de ce groupe sont orthogonaux (perpendiculaires) aux vecteurs de la frénésiealimentaire, du vomissement et des laxatifs, ce qui signifie que cet ensemble devariables n’est pas corrélé avec l’ensemble des variables de la boulimie.

Les variables Relations amicales, Etat mental (humeur) et Hyperactivité nesemblent pas s’adapter correctement à la solution. Vous pouvez le constater dans lediagramme en observant les longueurs de chaque vecteur. La longueur du vecteur

Page 234: SPSS Categories 14.0

216

Chapitre 10

d’une variable donnée correspond à son ajustement, et ces variables possèdent lesvecteurs les plus courts. Dans le cadre d’une solution à deux composantes, vousretireriez probablement ces variables de l’ébauche d’une symptomatologie destroubles du comportement alimentaire. Toutefois, elles peuvent mieux s’intégrer dansune solution impliquant davantage de dimensions.

Les variables Comportement sexuel, Préoccupation nourriture et poids etPerception du corps forment un autre groupe théorique de symptômes, liés à laperception que le patient a de son corps. Tout en étant corrélées avec les deux groupesde variables orthogonaux, ces variables possèdent des vecteurs assez longs et sontétroitement associées à la première dimension ; par conséquent, elles peuvent fournircertaines informations utiles sur le facteur « commun ».

Coordonnées principales

Le schéma suivant illustre un diagramme des coordonnées principales, dans lequel lessujets sont étiquetés d’après leur modalité de diagnostic.

Figure 10-37Diagramme des coordonnées principales étiqueté en fonction du diagnostic

Page 235: SPSS Categories 14.0

217

Analyse en composantes principales qualitatives

Ce diagramme ne permet pas d’interpréter la première dimension car les patientsne sont pas séparés par diagnostic le long de celle-ci. Toutefois, il comprendcertaines informations sur la deuxième dimension. Les sujets anorexiques (1) et lespatients présentant un trouble atypique du comportement alimentaire (4) formentun groupe, situé au-dessus des sujets souffrant d’une forme de boulimie (2 et3). Par conséquent, la deuxième dimension sépare les patients boulimiques desautres, comme l’a également indiqué la section précédente (les variables du groupeboulimique possèdent des corrélations entre composantes positives élevées dansla deuxième dimension). Cela est cohérent dans la mesure où les saturations dessymptômes traditionnellement associés à la boulimie possèdent des valeurs élevéesdans la deuxième dimension.

Le schéma suivant illustre un diagramme des coordonnées principales, dans lequelles sujets sont étiquetés d’après le moment de leur diagnostic.

Figure 10-38Coordonnées principales étiquetées en fonction du moment de l’entrevue

L’étiquetage des coordonnées principales d’après le moment met en évidence quela première dimension possède une relation au moment, car il semble y avoir uneprogression des moments de diagnostic entre les 1 essentiellement vers la gaucheet les autres vers la droite. Vous pouvez lier les points dans le temps au sein dece diagramme ; pour ce faire, enregistrez les coordonnées des objets et créez un

Page 236: SPSS Categories 14.0

218

Chapitre 10

diagramme de dispersion en utilisant les scores de la dimension 1 sur l’axe des x,les scores de la dimension 2 sur l’axe des y et en définissant des marques à partirdes numéros de patient.

La comparaison du diagramme des coordonnées principales étiqueté en fonctiondu moment à celui étiqueté d’après le diagnostic peut vous donner une idée des objetsinhabituels. Par exemple, dans le diagramme étiqueté en fonction du moment, il existeun patient dont le diagnostic au moment 4 figure à gauche de tous les autres pointsdu diagramme. Cela est peu courant car, d’après la tendance générale des points, lesmoments les plus récents figurent plus à droite. Il est intéressant de constater quece point, dont le moment semble mal positionné, possède également un diagnosticinhabituel, en ce sens que le patient est un anorexique dont les scores le placent dansle groupe des boulimiques. Le tableau des coordonnées principales indique qu’ils’agit du patient 43, chez qui a été diagnostiquée une anorexie mentale, et dont lescoordonnées principales sont indiquées dans le tableau ci-après.

Tableau 10-4Coordonnées principales du patient 43

Heure Dimension 1 Dimension 2

1 –2.031 1.250

2 –2.067 0.131

3 –1.575 –1.467

4 –2.405 –1.807

Les scores du patient au moment 1 sont prototypiques des anorexiques : le scorenégatif élevé dans la dimension 1 correspond à une mauvaise image du corps et lescore positif dans la dimension 2 correspond à des symptômes d’anorexie ou à uncomportement psychosocial perturbé. Toutefois, à la différence de la majorité despatients, la progression est faible ou nulle dans la dimension 1. Dans la dimension 2,il semble y avoir une certaine progression vers la « normale » (autour de 0, entreun comportement anorexique et boulimique), mais ensuite le patient présente dessymptômes de boulimie.

Page 237: SPSS Categories 14.0

219

Analyse en composantes principales qualitatives

Examen de la structure de l’évolution de la maladie

Pour que vous puissiez mieux comprendre les liens unissant les deux dimensionsaux quatre modalités de diagnostic et aux quatre points dans le temps, une variablesupplémentaire Interaction moment/diagnostic a été créée par une classificationcroisée des quatre modalités de Diagnostics des patients et des quatre modalités deMoment de l’entrevue. Par conséquent, la variable Interaction moment/diagnosticpossède 16 modalités, dont la première représente les patients atteints d’anorexiementale à leur première visite. La cinquième modalité représente les patients atteintsd’anorexie mentale au point 2 dans le temps, et ainsi de suite jusqu’à la seizièmemodalité, qui représente les patients souffrant d’un trouble atypique du comportementalimentaire au point 4 dans le temps. L’utilisation de la variable supplémentaireInteraction moment/diagnostic permet d’étudier l’évolution dans le temps desmaladies affectant les différents groupes. La variable possède un niveau de codagenominal multiple et le schéma ci-après illustre les points de modalité.

Figure 10-39Points de modalité de l’interaction moment/diagnostic

Une partie de la structure apparaît dans ce diagramme : les modalités de diagnostic aupoint 1 dans le temps séparent nettement l’anorexie mentale et le trouble atypiquedu comportement alimentaire de l’anorexie mentale avec boulimie mentale et de la

Page 238: SPSS Categories 14.0

220

Chapitre 10

boulimie mentale après anorexie mentale dans la deuxième dimension. Au-delà, il estun peu plus difficile de discerner les modèles.

Toutefois, vous pouvez faciliter la lisibilité des modèles en créant un diagrammede dispersion basé sur les quantifications. Pour ce faire, dans les menus, choisissez :Graphes

Dispersion/Points...

Figure 10-40Boîte de dialogue Dispersion/Points

E Cliquez sur Définir.

Page 239: SPSS Categories 14.0

221

Analyse en composantes principales qualitatives

Figure 10-41Boîte de dialogue Diagramme de dispersion simple

E Sélectionnez Interaction moment/diagnostic Quantification dimension 2 commevariable de l’axe y et Interaction moment/diagnostic Quantification dimension 1comme variable de l’axe x.

E Pour la définition des marques, choisissez l’option Diagnostics des patients.

E Cliquez sur OK.

Page 240: SPSS Categories 14.0

222

Chapitre 10

Figure 10-42Structures de l’évolution des maladies

E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez surl’onglet Ajouter une courbe d’interpolation dans l’éditeur de diagrammes.

E Fermez l’éditeur de diagrammes.

Page 241: SPSS Categories 14.0

223

Analyse en composantes principales qualitatives

Figure 10-43Structures de l’évolution des maladies

Une fois que vous avez relié les points de chaque modalité de diagnostic dans letemps, les motifs suggèrent que la première dimension est associée au moment et ladeuxième au diagnostic, comme vous l’avez précédemment déterminé à partir desdiagrammes des coordonnées principales.

Toutefois, ce diagramme indique aussi que, sur la durée, les maladies ont tendanceà se ressembler. En outre, pour tous les groupes, la progression est la plus forteentre les points 1 et 2 dans le temps ; les patients anorexiques présentent un peuplus de progression entre les points 2 et 3, mais les autres groupes affichent peude progression.

Page 242: SPSS Categories 14.0

224

Chapitre 10

Développement différentiel de variables spécifiques

Une variable de chaque groupe de symptômes identifié par les corrélations entrecomposantes a été sélectionnée comme étant « représentative » du groupe. La frénésiealimentaire a été sélectionnée dans le groupe boulimique, l’attitude sexuelle dansle groupe anorexique/psychosocial et la préoccupation du corps dans le troisièmegroupe.

Pour que vous puissiez examiner les éventuelles évolutions différentielles desmaladies, les projections de Interaction moment/diagnostic sur Frénésie alimentaire,Attitude sexuelle et Préoccupation nourriture et poids ont été calculées et représentéesdans le schéma ci-après.

Figure 10-44Centres de gravité projetés de Interaction moment/diagnostic sur Frénésie alimentaire,Attitude sexuelle et Préoccupation nourriture et poids

Ce diagramme indique qu’au premier point dans le temps, la frénésie alimentairesymptomatique sépare les patients boulimiques (2 et 3) des autres patients (1 et 4),que l’attitude sexuelle sépare les patients anorexiques et atypiques (1 et 4) des autrespatients (2 et 3), et que la préoccupation du corps ne sépare pas véritablement lespatients. Dans de nombreuses applications, ce diagramme suffirait pour décrire la

Page 243: SPSS Categories 14.0

225

Analyse en composantes principales qualitatives

relation entre les symptômes et le diagnostic mais, en raison du caractère multiple despoints dans le temps, l’image perd de sa netteté.

Pour visualiser ces projections sur la durée, vous devez être en mesure dereprésenter le contenu du tableau des centres de gravité projetés. Cette opération estpossible grâce à la requête OMS ayant enregistré ces informations dans le fichierprojected_centroids.sav.

Figure 10-45Projected_centroids.sav

Les variables FrénésieAlimentaire, AttitudeSexuelle et PréoccupationAlimentationPoids contiennent les valeurs des barycentres projetés sur chacun dessymptômes d’intérêt. Le numéro d’observation (1 à 16) correspond à l’interactionmoment/diagnostic. Vous devrez calculer de nouvelles variables permettant dedistinguer les valeurs des moments de celles des diagnostics.

E A partir des menus, sélectionnez :Transformer

Calculer...

Page 244: SPSS Categories 14.0

226

Chapitre 10

Figure 10-46Boîte de dialogue Calculer la variable

E Tapez moment comme variable de destination.

E Tapez trunc( ($casenum–1)/4 ) + 1 comme expression numérique.

E Cliquez sur OK.

Page 245: SPSS Categories 14.0

227

Analyse en composantes principales qualitatives

Figure 10-47Boîte de dialogue Calculer la variable

E Rappelez la boîte de dialogue Calculer la variable.

E Tapez diagnostic comme variable de destination.

E Tapez mod($casenum–1, 4) + 1 comme expression numérique.

E Cliquez sur OK.

Page 246: SPSS Categories 14.0

228

Chapitre 10

Figure 10-48Boîte de dialogue Diagramme de dispersion simple

E En dernier lieu, pour visualiser dans le temps les barycentres des moments dediagnostic projetés sur la frénésie alimentaire, affichez de nouveau la boîte dedialogue Diagramme de dispersion simple, puis cliquez sur le bouton Réinitialiser

pour effacer les sélections antérieures.

E Sélectionnez l’option Barycentres projetés sur Frénésie alimentaire comme variablede l’axe y et l’option moment comme variable de l’axe x.

E Pour la définition des marques, choisissez l’option diagnostic.

E Cliquez sur OK.

Page 247: SPSS Categories 14.0

229

Analyse en composantes principales qualitatives

Figure 10-49Projection dans le temps des barycentres des moments de diagnostic sur la frénésiealimentaire

E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez surl’onglet Ajouter une courbe d’interpolation dans l’éditeur de diagrammes.

E Fermez l’éditeur de diagrammes.

Page 248: SPSS Categories 14.0

230

Chapitre 10

Concernant la frénésie alimentaire, il est manifeste que les groupes anorexiquesprésentent des valeurs initiales différentes de celles des groupes boulimiques. Cettedifférence s’estompe au fil du temps, car les groupes anorexiques évoluent très peutandis que les groupes boulimiques affichent une progression.

Figure 10-50Boîte de dialogue Diagramme de dispersion simple

E Affichez de nouveau la boîte de dialogue Diagramme de dispersion simple.

E Désélectionnez l’option Barycentres projetés sur Frénésie alimentaire commevariable de l’axe y et sélectionnez l’option Barycentres projetés sur Attitude sexuelleà la place.

E Cliquez sur OK.

Page 249: SPSS Categories 14.0

231

Analyse en composantes principales qualitatives

Figure 10-51Projection dans le temps des barycentres des moments de diagnostic sur l’attitudesexuelle

E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez surl’onglet Ajouter une courbe d’interpolation dans l’éditeur de diagrammes.

E Fermez l’éditeur de diagrammes.

Page 250: SPSS Categories 14.0

232

Chapitre 10

En ce qui concerne l’attitude sexuelle, les quatre trajectoires sont plus ou moinsparallèles sur la durée et tous les groupes présentent une progression. Toutefois, lesscores des groupes boulimiques sont plus élevés (meilleurs) que ceux du groupeanorexique.

Figure 10-52Boîte de dialogue Diagramme de dispersion simple

E Affichez de nouveau la boîte de dialogue Diagramme de dispersion simple.

E Désélectionnez l’option Barycentres projetés sur Attitude sexuelle comme variable del’axe y et sélectionnez l’option Barycentres projetés sur Préoccupation nourritureet poids à la place.

E Cliquez sur OK.

Page 251: SPSS Categories 14.0

233

Analyse en composantes principales qualitatives

Figure 10-53Projection dans le temps des barycentres des moments de diagnostic sur la préoccupationdu corps

E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez surl’onglet Ajouter une courbe d’interpolation dans l’éditeur de diagrammes.

E Fermez l’éditeur de diagrammes.

Page 252: SPSS Categories 14.0

234

Chapitre 10

La préoccupation du corps est une variable qui représente les symptômesfondamentaux, partagés par les quatre groupes. En dehors des patients atteints detroubles atypiques du comportement alimentaire, le groupe anorexique et les deuxgroupes boulimiques présentent des niveaux très similaires au début comme à la fin.

Lectures recommandées

Pour plus d’informations sur l’analyse des composantes principales qualitatives,reportez-vous aux documents suivants :

De Haas, M., J. A. Algera, H. F. J. M. Van Tuijl, et J. J. Meulman. 2000. Macro andmicro goal setting: In search of coherence. Applied Psychology, 49, 579–595.

De Leeuw, J. 1982. Nonlinear principal components analysis. Dans : COMPSTATProceedings in Computational Statistics, Vienna: PhysicaVerlag, 77–89.

Eckart, C., et G. Young. 1936. The approximation of one matrix by another one oflower rank. Psychometrika, 1, 211–218.

Gabriel, K. R. 1971. The biplot graphic display of matrices with application toprincipal components analysis. Biometrika, 58, 453–467.

Gifi, A. 1985. PRINCALS. Research Report UG-85-02. Leiden: Department of DataTheory, University of Leiden.

Gower, J. C., et J. J. Meulman. 1993. The treatment of categorical information inphysical anthropology. International Journal of Anthropology, 8, 43–51.

Heiser, W. J., et J. J. Meulman. 1994. Homogeneity analysis: Exploring thedistribution of variables and their nonlinear relationships. Dans : CorrespondenceAnalysis in the Social Sciences: Recent Developments and Applications, M.Greenacre, et J. Blasius, eds. New York: Academic Press, 179–209.

Kruskal, J. B. 1978. Factor analysis and principal components analysis: Bilinearmethods. Dans : International Encyclopedia of Statistics, W. H. Kruskal, et J. M.Tanur, eds. New York: The Free Press, 307–330.

Kruskal, J. B., et R. N. Shepard. 1974. A nonmetric variety of linear factor analysis.Psychometrika, 39, 123–157.

Page 253: SPSS Categories 14.0

235

Analyse en composantes principales qualitatives

Meulman, J. J. 1993. Principal coordinates analysis with optimal transformations ofthe variables: Minimizing the sum of squares of the smallest eigenvalues. BritishJournal of Mathematical and Statistical Psychology, 46, 287–300.

Meulman, J. J., et P. Verboon. 1993. Points of view analysis revisited: Fittingmultidimensional structures to optimal distance components with cluster restrictionson the variables. Psychometrika, 58, 7–35.

Meulman, J. J., A. J. Van der Kooij, et A. Babinec. 2000. New features of categoricalprincipal components analysis for complicated data sets, including data mining. Dans: Classification, Automation and New Media, W. Gaul, et G. Ritter, eds. Berlin:Springer-Verlag, 207–217.

Meulman, J. J., A. J. Van der Kooij, et W. J. Heiser. 2004. Principal componentsanalysis with nonlinear optimal scaling transformations for ordinal and nominal data.Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan,ed. Thousand Oaks, Calif.: SagePublications, Inc, 49–70.

Theunissen, N. C. M., J. J. Meulman, A. L. Den Ouden, H. M. Koopman, G. H.Verrips, S. P. Verloove-Vanhorick, et J. M. Wit. 2003. Changes can be studied whenthe measurement instrument is different at different time points. Health Services andOutcomes Research Methodology, 4, 109–126.

Tucker, L. R. 1960. Intra-individual and inter-individual multidimensionality. Dans: Psychological Scaling: Theory & Applications, H. Gulliksen, et S. Messick, eds.New York: JohnWiley and Sons, 155–167.

Vlek, C., et P. J. Stallen. 1981. Judging risks and benefits in the small and in thelarge. Organizational Behavior and Human Performance, 28, 235–271.

Wagenaar, W. A. 1988. Paradoxes of gambling behaviour. London: LawrenceErlbaum Associates, Inc.

Young, F. W., Y. Takane, et J. De Leeuw. 1978. The principal components of mixedmeasurement level multivariate data: An alternating least squares method withoptimal scaling features. Psychometrika, 43, 279–281.

Zeijl, E., Y. te Poel, M. du Bois-Reymond, J. Ravesloot, et J. J. Meulman. 2000. Therole of parents and peers in the leisure activities of young adolescents. Journal ofLeisure Research, 32, 281–302.

Page 254: SPSS Categories 14.0
Page 255: SPSS Categories 14.0

Chapitre

11Analyse de corrélation canoniquenon linéaire

L’analyse de corrélation canonique non linéaire a pour but de déterminer le degréde ressemblance entre plusieurs groupes de variables. Comme dans l’analyse decorrélation canonique linéaire, l’objectif est d’évaluer autant que possible la variancedans les relations entre les groupes dans un espace comportant peu de dimensions.En revanche, contrairement à l’analyse de corrélation canonique linéaire, l’analysede corrélation canonique non linéaire ne suppose pas qu’un niveau d’intervalle demesure soit défini ou que les relations soient linéaires. Autre différence importante :l’analyse de corrélation canonique non linéaire établit la similarité qui existe entreles groupes en comparant simultanément des combinaisons linéaires des variables dechaque groupe avec un groupe inconnu, les coordonnées des objets.

Exemple : Analyse des résultats d’enquête

L’exemple utilisé dans ce chapitre est tiré d’une enquête(Verdegaal, 1985). Lesréponses de 15 sujets à 8 variables ont été enregistrées. Les variables, les étiquettesde variable et les étiquettes de valeur (modalités) de l’ensemble de données sontindiquées dans le tableau suivant.

Tableau 11-1Données de l’enquête

Le nom de lavariable

l’étiquette Variable Etiquette de valeur

modalité âge Age en années 20–25, 26–30, 31–35, 36–40,41–45, 46–50, 51–55, 56–60,61–65, 66–70

situation familiale Situation familiale Célibataire, Marié, Autre

237

Page 256: SPSS Categories 14.0

238

Chapitre 11

Le nom de lavariable

l’étiquette Variable Etiquette de valeur

animal domestique Animaux domestiquespossédés

Aucun, Chat(s), Chien(s), Autreque chien ou chat, Plusieursanimaux domestiques

presse Journal lu le plus souvent Aucun, Telegraaf, Volkskrant,NRC, Autre

musique Musique préférée Classique, New wave, Pop,Variété, N’aime pas la musique

habitat Voisinage préféré Ville, Village, Campagne

maths Résultat du testmathématique

0–5, 6–10, 11–15

Langage Résultat du testlinguistique

0–5, 6–10, 11–15, 16–20

Cet ensemble de données est disponible dans le fichier verd1985.sav, qui figuredans le sous-répertoire \tutorial\sample_files\ du répertoire d’installation de SPSS.Les variables qui nous intéressent ici sont les six premières ; elles sont répartiesen trois groupes. Le groupe 1 comprend l’âge et la situation familiale, le groupe 2les animaux domestiques et la presse, et le groupe 3 la musique et l’habitat. A lavariable animal domestique est appliqué un codage nominal multiple et à âge, uncodage ordinal ; toutes les autres variables ont un codage nominal simple. Pour cetteanalyse, il est nécessaire d’utiliser une configuration initiale aléatoire. Par défaut,la configuration initiale est numérique. Toutefois, lorsque certaines variables sonttraitées comme des valeurs nominales simples sans possibilité de tri, il est préférabled’utiliser une configuration initiale aléatoire. C’est le cas de la plupart des variablesdans cette enquête.

Examen des données

E Pour obtenir une analyse de corrélation canonique non linéaire pour cet ensemble dedonnées, sélectionnez les options suivantes dans les menus :Analyse

FactorisationCodage optimal...

Page 257: SPSS Categories 14.0

239

Analyse de corrélation canonique non linéaire

Figure 11-1Boîte de dialogue Niveau du codage optimal

E Sélectionnez l’option Certaines variables non nominales multiples dans le groupeNiveau du codage optimal.

E Sélectionnez Plusieurs dans le groupe Nombre de groupes de variables.

E Cliquez sur Définir.

Page 258: SPSS Categories 14.0

240

Chapitre 11

Figure 11-2Boîte de dialogue Analyse de corrélation canonique non linéaire

E Sélectionnez Age en années et Situation familiale comme variables du premier groupe.

E Sélectionnez âge et cliquez sur Définir intervalle et échelle.

Figure 11-3Boîte de dialogue Définir intervalle et échelle

E Entrez 10 comme valeur maximale pour cette variable.

E Cliquez sur Poursuivre.

E Sélectionnez situatio, puis cliquez sur Définir intervalle et échelle dans la boîte dedialogue Analyse de corrélation canonique non linéaire.

Page 259: SPSS Categories 14.0

241

Analyse de corrélation canonique non linéaire

Figure 11-4Boîte de dialogue Définir intervalle et échelle

E Entrez 3 comme valeur maximale pour cette variable.

E Sélectionnez l’option Nominal simple comme échelle de mesure.

E Cliquez sur Poursuivre.

E Dans la boîte de dialogue Analyse de corrélation canonique non linéaire, cliquez surSuivant pour définir le groupe de variables suivant.

Figure 11-5Boîte de dialogue Analyse de corrélation canonique non linéaire

E Sélectionnez Animaux domestiques possédés et Journal lu le plus souvent commevariables du deuxième groupe.

Page 260: SPSS Categories 14.0

242

Chapitre 11

E Sélectionnez animal domestique et cliquez sur Définir intervalle et échelle.

Figure 11-6Boîte de dialogue Définir intervalle et échelle

E Entrez 5 comme valeur maximale pour cette variable.

E Sélectionnez Variables nominales multiples comme échelle de mesure.

E Cliquez sur Poursuivre.

E Dans la boîte de dialogue Analyse de corrélation canonique non linéaire, sélectionnezinformations, puis cliquez sur Définir intervalle et échelle.

Figure 11-7Boîte de dialogue Définir intervalle et échelle

E Entrez 5 comme valeur maximale pour cette variable.

E Sélectionnez l’option Nominal simple comme échelle de mesure.

E Cliquez sur Poursuivre.

E Dans la boîte de dialogue Analyse de corrélation canonique non linéaire, cliquez surSuivant pour définir le dernier groupe de variables.

Page 261: SPSS Categories 14.0

243

Analyse de corrélation canonique non linéaire

Figure 11-8Boîte de dialogue Analyse de corrélation canonique non linéaire

E Sélectionnez Musique favorite et Préférence de voisinage comme variables dutroisième groupe.

E Sélectionnez musique, puis cliquez sur Définir intervalle et échelle.

Figure 11-9Boîte de dialogue Définir intervalle et échelle

E Entrez 5 comme valeur maximale pour cette variable.

E Sélectionnez l’option Nominal simple comme échelle de mesure.

E Cliquez sur Poursuivre.

Page 262: SPSS Categories 14.0

244

Chapitre 11

E Dans la boîte de dialogue Analyse de corrélation canonique non linéaire, sélectionnezhabitat, puis cliquez sur Définir intervalle et échelle.

Figure 11-10Boîte de dialogue Définir intervalle et échelle

E Entrez 3 comme valeur maximale pour cette variable.

E Sélectionnez l’option Nominal simple comme échelle de mesure.

E Cliquez sur Poursuivre.

E Dans la boîte de dialogue Analyse canonique non linéaire, cliquez sur Options.

Figure 11-11Options

E Désélectionnez la case Barycentres et sélectionnez l’option Poids et saturations dans legroupe Affichage.

Page 263: SPSS Categories 14.0

245

Analyse de corrélation canonique non linéaire

E Sélectionnez les options Centres de classes et Transformations dans le groupeDiagramme.

E Sélectionnez l’option Utiliser configuration initiale aléatoire.

E Cliquez sur Poursuivre.

E Dans la boîte de dialogue Analyse canonique non linéaire, cliquez sur OK.

Après la liste des variables incluant leurs niveaux de codage optimal, l’analyse decorrélation canonique nominale avec codage optimal génère un tableau illustrantles fréquences des objets dans les modalités. Ce tableau s’avère essentiel en cas dedonnées manquantes ; en effet, les modalités quasiment vides ont plus de chanced’influencer la solution. Cet exemple ne comporte aucune donnée manquante.

Une autre vérification préliminaire consiste à étudier le diagramme de coordonnéesdes objets pour les valeurs éloignées. Les valeurs éloignées ont des quantifications sidifférentes des autres objets qu’elles se situent à la limite du diagramme, dominantainsi une ou plusieurs dimensions.

Vous pouvez gérer les éventuelles valeurs éloignées de deux manières. Vouspouvez simplement les retirer des données et exécuter à nouveau l’analyse decorrélation canonique non linéaire. Ou vous pouvez essayer de recoder les réponsesextrêmes des objets éloignés en fusionnant certaines modalités.

Page 264: SPSS Categories 14.0

246

Chapitre 11

Comme l’illustre le diagramme de coordonnées des objets, les données del’enquête ne comportent aucune valeur éloignée.

Figure 11-12Coordonnées des objets

Similarités entre les groupes

Il existe plusieurs manières de mesurer l’association entre les groupes dans uneanalyse de corrélation canonique non linéaire (chacune d’elles étant exposée en détaildans un tableau ou un groupe de tableaux distinct).

Récapitulatif de l’analyse

Les valeurs d’ajustement et de perte vous renseignent sur l’adéquation entre l’analysede corrélation canonique non linéaire et les données quantifiées de manière optimale,en ce qui concerne l’association entre les groupes. Le tableau récapitulatif del’analyse affiche les valeurs d’ajustement, les valeurs de perte et les valeurs propresde cet exemple d’enquête.

Page 265: SPSS Categories 14.0

247

Analyse de corrélation canonique non linéaire

Figure 11-13Récapitulatif de l’analyse

La perte est répartie entre les dimensions et les groupes. Pour chaque dimension etgroupe, la perte représente la proportion de variation des coordonnées d’objet quine peut pas être représentée par la combinaison pondérée des variables du groupe.La perte moyenne est intitulée « moyenne ». Dans cet exemple, la perte moyennesur tous les groupes est de 0,464. La perte est plus importante pour la deuxièmedimension que pour la première.

La valeur propre de chaque dimension est égale à 1 moins la perte moyenne dela dimension ; la valeur propre indique la quantité de la relation révélée par chaquedimension. Les valeurs propres s’ajoutent à l’ajustement total. Pour les donnéesrelatives à Verdegaal, 0,801/1,536 = 52 % de l’ajustement réel sont attribuables àla première dimension.

La valeur d’ajustement maximale est égale au nombre de dimensions. Si elle estobtenue, elle indique une relation parfaite. La valeur de perte moyenne sur tousles groupes et dimensions indique l’écart entre la valeur d’ajustement maximale etl’ajustement réel. La valeur d’ajustement plus la valeur de perte moyenne sont égalesau nombre de dimensions. Une similarité parfaite est très rare et repose généralementsur des aspects insignifiants des données.

On trouve également parmi les outils statistiques très utilisés, avec deux groupesde variables, la corrélation canonique. La corrélation canonique étant liée à la valeurpropre et ne fournissant par conséquent aucune information supplémentaire, elle n’estpas incluse dans les résultats de l’analyse de corrélation canonique non linéaire.Dans le cas de deux groupes de variables, on obtient la corrélation canonique pardimension à l’aide de la formule suivante :

d correspondant au nombre de dimensions et E à la valeur propre.

Page 266: SPSS Categories 14.0

248

Chapitre 11

Il est possible d’étendre la corrélation canonique à plus de deux groupes ; pour cefaire, utilisez la formule suivante :

d correspondant au nombre de dimensions, K au nombre de groupes et E à la valeurpropre. Dans notre exemple,

et

Poids et saturations

Il existe également une autre mesure d’association : la corrélation multiple entre lescombinaisons linéaires de chaque groupe et les coordonnées des objets. Si un groupene contient aucune variable nominale multiple, vous pouvez calculer cette mesure enmultipliant les pondérations et corrélations entre composantes de chaque variable dugroupe, en ajoutant ces produits et en calculant la racine carrée de la somme obtenue.

Figure 11-14Pondérations

Page 267: SPSS Categories 14.0

249

Analyse de corrélation canonique non linéaire

Figure 11-15Corrélations entre composantes et variables initiales

Ces chiffres donnent les pondérations et les corrélations entre composantes desvariables de cet exemple. La corrélation multiple (R) est comme suit pour la premièresomme pondérée des variables codées de façon optimale (Age en années et Situationfamiliale) avec la première dimension des coordonnées des objets :

Pour chaque dimension, 1 –perte = R2. Par exemple, dans le tableau récapitulatif del’analyse, 1 – 0,238 = 0,762, soit 0,873 au carré (à une erreur d’arrondi près). Parconséquent, les valeurs de perte faibles indiquent de fortes corrélations multiplesentre les sommes pondérées des variables codées de façon optimale et les dimensions.Les pondérations ne sont pas uniques pour les variables nominales multiples. Pour lesvariables nominales multiples, utilisez la formule 1 – perte par groupe.

Page 268: SPSS Categories 14.0

250

Chapitre 11

Partitionnement des ajustements et des pertes

La perte de chaque groupe est répartie de différentes manières par l’analyse decorrélation canonique non linéaire. Le tableau d’ajustement présente les tableauxd’ajustement multiple, d’ajustement unique et de perte unique produits par l’analysede corrélation canonique non linéaire pour cet exemple d’enquête. Remarque :l’ajustement multiple moins l’ajustement unique est égal à la perte unique.

Figure 11-16Partitionnement des ajustements et des pertes

La perte unique indique la perte résultant de la limitation des variables à un seulgroupe de quantifications (c’est-à-dire, nominal simple, ordinal ou nominal). Si laperte unique est élevée, il est préférable de traiter les variables comme des variablesnominales multiples. Dans cet exemple, toutefois, les ajustements unique et multiplesont presque égaux, ce qui signifie que les coordonnées multiples sont presque toutessituées sur une ligne droite, dans la direction indiquée par les pondérations.

L’ajustement multiple est égal à la variance des coordonnées de modalitémultiples pour chaque variable. Ces mesures sont analogues aux mesures dediscrimination trouvées dans l’analyse d’homogénéité. Vous pouvez consulter letableau d’ajustement multiple pour connaître les variables les plus discriminantes.Par exemple, reportez-vous au tableau d’ajustement multiple pour examiner lesvariables Situation familiale et Journal lu le plus souvent. Les valeurs d’ajustement,additionnées sur les deux dimensions, sont 1,122 pour Situation familiale et 0,911pour Journal lu le plus souvent. Ces informations nous indiquent que la situationfamiliale d’une personne a un plus grand pouvoir discriminant que le journal auquelelle est abonnée.

Page 269: SPSS Categories 14.0

251

Analyse de corrélation canonique non linéaire

L’ajustement unique correspond à la pondération au carré de chaque variable ; il estégal à la variance des coordonnées de modalité simples. Ainsi, les pondérations sontégales aux écarts-types des coordonnées de modalité simples. En étudiant la manièredont l’ajustement unique est réparti entre les dimensions, on constate que la variableJournal lu le plus souvent est discriminante principalement sur la première dimensionet on constate que la variable Situation familiale est discriminante essentiellementsur la deuxième dimension. Autrement dit, les différentes modalités de Journal lu leplus souvent sont plus éloignées dans la première dimension que dans la deuxième,contrairement à celles de Situation familiale. En revanche, la variable Age en annéesa un pouvoir discriminant à la fois dans la première et la deuxième dimension ; ladispersion des modalités est donc identique sur les deux dimensions.

Saturations

Le schéma ci-dessous représente le diagramme de corrélations entre composantesdes données de l’enquête. Lorsqu’il ne manque aucune donnée, les corrélationsentre composantes sont équivalentes aux corrélations de Pearson entre les variablesquantifiées et les coordonnées des objets.

La distance depuis l’origine de chaque point de variable est proche de l’importancede cette variable. Les variables canoniques ne sont pas reportées ; elles peuventtoutefois être représentées par des lignes horizontales et verticales tracées vial’origine.

Page 270: SPSS Categories 14.0

252

Chapitre 11

Figure 11-17Corrélations entre composantes et variables initiales

Les relations entre les variables sont apparentes. Deux directions ne coïncident pasavec les axes horizontal et vertical. L’une des directions est déterminée par lesvariables Age en années, Journal lu le plus souvent et Préférence de voisinage.L’autre est définie par les variables Situation familiale, Musique favorite et Animauxdomestiques possédés. La variable Animaux domestiques possédés est une variablenominale multiple et est donc représentée par deux points. Chaque quantification estinterprétée comme une variable unique.

Diagrammes de transformation

Les différents niveaux auxquels chaque variable peut être codée imposent desrestrictions dans les quantifications. Les diagrammes de transformation illustrentla relation entre les quantifications et les modalités d’origine résultant du niveaude codage optimal sélectionné.

Page 271: SPSS Categories 14.0

253

Analyse de corrélation canonique non linéaire

Le diagramme de transformation de la variable Préférence de voisinage, qui a ététraitée comme variable nominale, affiche une forme en U, dans laquelle la modalitécentrale reçoit la plus petite quantification et les modalités extrêmes, des valeursidentiques. Cette configuration indique une relation quadratique entre la variabled’origine et la variable transformée. L’utilisation d’un autre niveau de codage optimaln’est pas recommandée pour la variable Préférence de voisinage.

Figure 11-18Diagramme de transformation de la variable Préférence de voisinage (nominale)

Les quantifications de Journal lu le plus souvent, en revanche, marquent unecroissance entre les trois modalités dotées d’observations. La première modalitéreçoit la plus faible quantification, la deuxième une valeur plus élevée et la troisième

Page 272: SPSS Categories 14.0

254

Chapitre 11

reçoit la valeur la plus élevée. Bien que la variable soit codée comme nominale,l’ordre des modalités est récupéré dans les quantifications.

Figure 11-19Diagramme de transformation de la variable Journal lu le plus souvent (nominale)

Page 273: SPSS Categories 14.0

255

Analyse de corrélation canonique non linéaire

Figure 11-20Diagramme de transformation de Age en années (ordinale)

Le diagramme de transformation de la variable Age en années affiche une courbe enS. Les quatre plus jeunes modalités observées reçoivent toutes la même quantificationnégative, tandis que les deux modalités les plus vieilles reçoivent les mêmes valeurspositives. Par conséquent, il est possible de fusionner tous les groupes les plus jeunesdans une même modalité (les moins de 50 ans) et de fusionner les deux modalités lesplus âgées en une seule. Toutefois, l’égalité parfaite des quantifications des groupesles plus jeunes indique qu’il n’est peut-être pas souhaitable de restreindre l’ordredes quantifications à celui des modalités d’origine. Puisque les quantifications desgroupes 26–30, 36–40 et 41–45 ne peuvent pas être inférieures à la quantification dugroupe 20–25, ces valeurs sont alignées sur la même valeur de borne. En autorisantces valeurs à être inférieures à la quantification du groupe le plus jeune (c’est-à-dire,en considérant l’âge comme étant nominal), il est possible d’améliorer l’ajustement.Par conséquent, considérer l’âge comme une variable ordinale ne semble pasapproprié dans ce cas. En outre, en considérant l’âge comme une variable numérique,et en conservant donc les distances entre les modalités, il est possible de réduireconsidérablement l’ajustement.

Page 274: SPSS Categories 14.0

256

Chapitre 11

Coordonnées de modalités simples et coordonnées de modalités multiples

Pour chaque variable considérée comme nominale simple, ordinale ou numérique, lesquantifications, les coordonnées de modalité simples et multiples sont déterminées.Ces statistiques sont présentées pour la variable Age en années.

Figure 11-21Coordonnées pour Age en années

Les modalités pour lesquelles aucune observation n’est enregistrée reçoivent unequantification de 0. Pour la variable Age en années, cela inclut les modalités 31–35,46–50 et 51–55. Ces modalités ne doivent pas nécessairement être ordonnées avec lesautres modalités et n’affectent aucun calcul.

Pour les variables nominales multiples, chaque modalité reçoit une quantificationdifférente sur chaque dimension. Pour tous les autres types de transformation,une modalité ne dispose que d’une quantification, quel que soit le nombre dedimensions de la solution. Chaque ensemble de coordonnées de modalités simplesreprésente l’emplacement de la modalité sur une ligne dans l’espace objet. Pour unemodalité donnée, les coordonnées sont égales à la quantification multipliée par lespondérations de dimension de la variable. Par exemple, dans le tableau de la variableAge en années, les coordonnées de modalités simples pour la modalité 56-60 (-0,142,-0,165) correspondent à la quantification (-0,209) multipliée par les pondérations dedimension (0,680, 0,789).

Page 275: SPSS Categories 14.0

257

Analyse de corrélation canonique non linéaire

Les coordonnées de modalité multiples des variables considérées commenominales simples, ordinales ou numériques, représentent les coordonnées desmodalités de l’espace objet, avant que les contraintes linéaires ou ordinales soientappliquées. Ces valeurs sont des réducteurs de perte non contraints. Pour les variablesnominales multiples, ces coordonnées représentent les quantifications des modalités.

Les effets que peut avoir l’application de contraintes aux relations entre lesmodalités et leurs quantifications sont révélés par la comparaison des coordonnées demodalités simples avec des coordonnées de modalités multiples. Dans la premièredimension, les coordonnées de modalité multiples de la variable Age en annéesdiminuent jusqu’à la modalité 2 et restent plus ou moins au même niveau jusqu’à lamodalité 9, où se produit une brusque augmentation. Une configuration semblableest mise en évidence pour la seconde dimension. Ces relations sont retirées descoordonnées de modalité simples, auxquelles est appliquée une contrainte ordinale.Dans les deux dimensions, les coordonnées sont alors non décroissantes. Compte tenude la structure différente des deux groupes de coordonnées, un traitement nominalsemble plus approprié.

Barycentres et barycentres projetés

Le diagramme des barycentres étiquetés par des variables doit être interprété dela même manière que le diagramme de quantification des modalités d’une analysed’homogénéité ou que les coordonnées de modalité multiples d’une analyse nonlinéaire des composantes principales. Un diagramme de ce type illustre le pouvoirdiscriminant des variables pour les groupes d’objets (les barycentres sont situés auniveau du centre de gravité des objets).

Les modalités de la variable Age en années ne sont pas séparées de manière trèsdistincte. Les modalités correspondant aux plus jeunes âges sont regroupées à gauchedu diagramme. Comme suggéré précédemment, un niveau de codage ordinal risqued’être trop strict pour la variable Age en années.

Page 276: SPSS Categories 14.0

258

Chapitre 11

Figure 11-22Barycentres étiquetés par des variables

Page 277: SPSS Categories 14.0

259

Analyse de corrélation canonique non linéaire

Lorsque vous demandez des diagrammes de représentation des barycentres, desdiagrammes de barycentres et de barycentres projetés distincts pour chaque variableétiquetée par des étiquettes de valeurs sont également créés. Les barycentres projetéssont situés sur une ligne de l’espace objet.

Figure 11-23Barycentres et barycentres projetés de Journal lu le plus souvent

Les barycentres réels sont projetés sur des vecteurs définis par les corrélations entrecomposantes. Ces vecteurs ont été ajoutés aux diagrammes de représentation desbarycentres afin de faciliter la distinction entre barycentres projetés et barycentresréels. Les barycentres projetés se situent dans l’un des quatre quadrants forméspar le tracé de deux lignes de référence perpendiculaires passant par l’origine.L’interprétation de la direction des variables nominales simples, ordinales ounumériques est obtenue grâce à la position des barycentres projetés. Par exemple, lavariable Journal lu le plus souvent est indiquée comme étant nominale simple. Lesbarycentres projetés mettent en opposition Volkskrant et NRC d’un côté et Telegraafde l’autre.

Page 278: SPSS Categories 14.0

260

Chapitre 11

Figure 11-24Barycentres et barycentres projetés de Age en années

Le problème qui se pose pour la variable Age en années est mis en évidence par lesbarycentres projetés. Traiter Age en années comme une variable ordinale impliqueque l’ordre des groupes d’âge soit conservé. Pour respecter cette restriction, tous lesgroupes d’âge en dessous de 45 sont projetés sur le même point. Sur la directiondéfinie par les variables Age en années, Journal lu le plus souvent et Préférence devoisinage, il n’existe aucune séparation entre les groupes les plus jeunes. Ce constatsuggère que l’on traite la variable comme étant nominale.

Page 279: SPSS Categories 14.0

261

Analyse de corrélation canonique non linéaire

Figure 11-25Barycentres et barycentres projetés de Préférence de voisinage

Pour comprendre les relations existant entre les variables, il convient de déterminerles modalités (valeurs) spécifiques des classes de modalités, dans les diagrammesde représentation des barycentres. Les relations existant entre les variables Age enannées, Journal lu le plus souvent et Préférence de voisinage peuvent être définiesgrâce aux angles supérieur droit et inférieur gauche des diagrammes. Dans l’anglesupérieur droit, les groupes d’âge correspondent aux répondants les plus âgés ; cesderniers lisent le Telegraaf et préfèrent vivre dans un village. Dans l’angle inférieurgauche de chaque diagramme, il apparaît que les répondants les plus jeunes jusqu’auxrépondants d’âge moyen lisent Volkskrant ou NRC, et veulent vivre à la campagne ouen ville. Il est néanmoins difficile de différencier les groupes les plus jeunes.

Le même type d’interprétation peut être appliqué à l’autre direction (Musiquefavorite, Situation familiale et Animaux domestiques possédés), en étudiant cette foisles angles supérieur gauche et inférieur droit des diagrammes de représentation desbarycentres. Dans l’angle supérieur gauche, il apparaît que les personnes célibatairesont souvent des chiens et aiment la musique New wave. Les personnes mariées et lamodalité des autres situations familiales ont des chats ; le premier groupe préfère lamusique classique et le dernier n’aime pas la musique.

Page 280: SPSS Categories 14.0

262

Chapitre 11

Autre analyse

Compte tenu des résultats de l’analyse, considérer la variable Age en années commeétant ordinale ne semble pas approprié. Bien que Age en années soit mesuré à unniveau ordinal, ses relations avec les autres variables ne sont pas monotones. Pourétudier les effets d’un changement du niveau de codage optimal en niveau de codagenominal simple, relancez l’analyse.

Pour lancer l’analyse

E Rappelez la boîte de dialogue Analyse de corrélation canonique non linéaire.

E Sélectionnez âge et cliquez sur Définir intervalle et échelle.

E Dans la boîte de dialogue Définir intervalle et échelle, sélectionnez Nominale simple

comme intervalle de codage.

E Cliquez sur Poursuivre.

E Dans la boîte de dialogue Analyse canonique non linéaire, cliquez sur OK.

Les valeurs propres d’une solution à deux dimensions sont respectivement 0,806 et0,757, avec un ajustement total de 1,564.

Figure 11-26Valeurs propres d’une solution à deux dimensions

Les tableaux d’ajustement multiple et d’ajustement unique montrent que la variableAge en années a toujours un fort pouvoir discriminant, comme l’illustre la sommedes valeurs d’ajustement multiple. Toutefois, contrairement aux précédents résultats,

Page 281: SPSS Categories 14.0

263

Analyse de corrélation canonique non linéaire

l’examen des valeurs d’ajustement unique révèle que ce pouvoir discriminantconcerne principalement la deuxième dimension.

Figure 11-27Partitionnement des ajustements et des pertes

Reportez-vous au diagramme de transformation pour la variable Age en années. Lesquantifications d’une variable nominale n’ont pas de restriction ; par conséquent, latendance non décroissante affichée lorsque la variable Age en années était traitée demanière ordinale n’est plus présente. Il y a une diminution jusqu’à 40 ans et uneaugmentation au-delà de 40 ans, qui correspondent à une relation en U (quadratique).

Page 282: SPSS Categories 14.0

264

Chapitre 11

Les deux modalités les plus âgées reçoivent toujours les mêmes scores, et les analysessuivantes risquent de nécessiter une combinaison de ces modalités.

Figure 11-28Diagramme de transformation de Age en années (nominale)

Le diagramme de transformation de la variable Préférence de voisinage est affichéici. Considérer Age en années comme une variable nominale n’affecte en aucuncas les quantifications de la variable Préférence de voisinage. La modalité centrale

Page 283: SPSS Categories 14.0

265

Analyse de corrélation canonique non linéaire

reçoit la plus petite quantification, et les modalités extrêmes reçoivent des valeurspositives élevées.

Figure 11-29Diagramme de transformation de la variable Préférence de voisinage (âge, nominale)

On remarque un changement dans le diagramme de transformation de la variableJournal lu le plus souvent. On pouvait noter auparavant une augmentation dans lesquantifications, ce qui pouvait suggérer un traitement ordinal de cette variable.

Page 284: SPSS Categories 14.0

266

Chapitre 11

Toutefois, en traitant Age en années comme une variable nominale, on élimine cettetendance des quantifications liées à la presse.

Figure 11-30Diagramme de transformation de la variable Journal lu le plus souvent (âge, nominale)

Il s’agit du diagramme de représentation des barycentres de la variable Age en années.Remarque : les modalités n’apparaissent pas toutes dans l’ordre chronologique sur laligne joignant les barycentres projetés. Le groupe 20–25 est situé au centre plutôt qu’à

Page 285: SPSS Categories 14.0

267

Analyse de corrélation canonique non linéaire

la fin. La répartition des modalités s’avère nettement meilleure que dans l’exemplede traitement ordinal présenté ci-dessus.

Figure 11-31Barycentres et barycentres projetés de Age en années (nominale)

Il est à présent possible de fournir une interprétation des groupes les plus jeunes, àpartir du diagramme de représentation des barycentres. Les modalités Volkskrant etNRC sont plus éloignées que dans l’analyse précédente, ce qui permet de fournirune interprétation distincte pour chacune d’elles. Les groupes dont les personnessont âgées entre 26 et 45 ans lisent Volkskrant et préfèrent vivre à la campagne.Les groupes d’âge 20–25 et 56–60 lisent NRC ; le premier groupe préfère vivre enville et le deuxième à la campagne. Les groupes les plus âgés lisent le Telegraaf etpréfèrent vivre dans un village.

Page 286: SPSS Categories 14.0

268

Chapitre 11

L’interprétation de l’autre direction (Musique favorite, Situation familiale et Animauxdomestiques possédés) reste quasiment inchangée par rapport à la précédente analyse.La seule différence nette est que les personnes ayant répondu Autre pour la situationfamiliale ont soit un chat, soit aucun animal domestique.

Figure 11-32Barycentres étiquetés par des variables (âge, nominal)

Suggestions d’ordre général

Une fois les résultats initiaux étudiés, vous pouvez affiner votre analyse en modifiantcertains paramètres de l’analyse de corrélation canonique non linéaire. Voici quelquesconseils pour structurer votre analyse :

Créez autant de groupes que possible. Placez une variable importante, que voussouhaitez évaluer, toute seule dans un groupe distinct.

Regroupez ensemble les variables indépendantes. En présence de nombreusesvariables indépendantes, essayez de les répartir dans différents groupes.

Page 287: SPSS Categories 14.0

269

Analyse de corrélation canonique non linéaire

Placez une variable nominale multiple toute seule dans un groupe distinct.

Si des variables présentent une forte corrélation entre elles et que vous nesouhaitez pas que cette relation influence la solution, placez-les ensemble dansle même groupe.

Lectures recommandées

Pour plus d’informations sur l’analyse de corrélation canonique non linéaire,reportez-vous aux documents suivants :

Carroll, J. D. 1968. Generalization of canonical correlation analysis to three ormore sets of variables. Dans : Proceedings of the 76th Annual Convention of theAmerican Psychological Association, 3, Washington,D.C.: American PsychologicalAssociation, 227–228.

De Leeuw, J. 1984. Canonical analysis of categorical data, 2nd ed. Leiden: DSWOPress.

Horst, P. 1961. Generalized canonical correlations and their applications toexperimental data. Journal of Clinical Psychology, 17, 331–347.

Horst, P. 1961. Relations among m sets of measures. Psychometrika, 26, 129–149.

Kettenring, J. R. 1971. Canonical analysis of several sets of variables. Biometrika,58, 433–460.

Van der Burg, E. 1988. Nonlinear canonical correlation and some related techniques.Leiden: DSWO Press.

Van der Burg, E., et J. De Leeuw. 1983. Nonlinear canonical correlation. BritishJournal of Mathematical and Statistical Psychology, 36, 54–80.

Van der Burg, E., J. De Leeuw, et R. Verdegaal. 1988. Homogeneity analysis with ksets of variables: An alternating least squares method with optimal scaling features.Psychometrika, 53, 177–197.

Verboon, P., et I. A. Van der Lans. 1994. Robust canonical discriminant analysis.Psychometrika, 59, 485–507.

Page 288: SPSS Categories 14.0
Page 289: SPSS Categories 14.0

Chapitre

12Analyse des correspondances

Un tableau des correspondances est tout tableau à deux entrées dont les cellulescontiennent une certaine mesure de correspondance entre les lignes et les colonnes.La mesure de correspondance peut être toute indication de la similarité, du rapport,de la confusion, de l’association ou de l’interaction entre les variables de ligne et decolonne. Un type très courant de tableau des correspondances est le tableau croisé,dont les cellules contiennent des effectifs.

La procédure de tableaux croisés permet d’obtenir facilement de tels tableaux.Toutefois, un tableau croisé ne fournit pas toujours une image claire de la nature dela relation entre les deux variables. Cela est particulièrement vrai si les variablesd’intérêt sont nominales (sans ordre ou rang inhérent) et qu’elles contiennent denombreuses modalités. Le tableau croisé peut indiquer que les effectifs observés parcellule diffèrent sensiblement des effectifs prévus dans un tableau croisé deprofession et de céréale pour le petit déjeuner, mais il peut être difficile de discernerles groupes professionnels qui présentent des goûts similaires ou ce que sont ces goûts.

L’analyse des correspondances vous permet d’examiner graphiquement la relationentre deux variables nominales dans un espace multidimensionnel. Elle calcule lescoordonnées principales des colonnes et des lignes et génère des diagrammes baséssur les scores. Les modalités similaires apparaissent proches les unes des autres dansles diagrammes. Ainsi, il est facile de repérer les modalités similaires d’une variableou les modalités liées entre les deux variables. En outre, la procédure de l’analysedes correspondances vous permet d’ajuster des points supplémentaires dans l’espacedéfini par les points actifs.

Si l’ordre des modalités en fonction de leurs scores est indésirable ou paradoxal,vous pouvez imposer des restrictions d’ordre en contraignant les scores de certainesmodalités à être égaux. Par exemple, nous pouvons imaginer que la variableconsommation de tabac ayant pour modalités non-fumeur, léger fumeur, fumeurmoyen et gros fumeur possède des scores correspondant à cet ordre. Toutefois, sil’analyse classe les modalités dans l’ordre suivant : non-fumeur, léger fumeur, gros

271

Page 290: SPSS Categories 14.0

272

Chapitre 12

fumeur et fumeur moyen, le fait de contraindre les scores de gros fumeur et fumeurmoyen à être égaux protège l’ordre des modalités dans leurs scores.

L’interprétation de l’analyse des correspondances en matière de distances dépendde la méthode de normalisation utilisée. La procédure d’analyse des correspondancespermet d’analyser les différences entre les modalités d’une variable ou celles entreles variables. Selon la normalisation par défaut, elle analyse les différences entre lesvariables de ligne et de colonne.

L’algorithme d’analyse des correspondances autorise de nombreux types d’analyse.Le centrage des lignes et des colonnes et l’utilisation de distances Khi-deux relèventde l’analyse de correspondance standard. Toutefois, l’utilisation d’autres options decentrage combinées avec des distances euclidiennes permet de varier la représentationd’une matrice dans un espace de petite dimension.

Trois exemples seront présentés. Le premier utilise un tableau des correspondancesrelativement réduit et illustre les concepts inhérents à l’analyse des correspondances.Le deuxième exemple illustre une application marketing. Le dernier exemple utiliseun tableau de distances dans une approche de positionnement multidimensionnel.

Normalisation

La normalisation permet de répartir l’inertie sur les coordonnées principales descolonnes et des lignes. Certains aspects de la solution d’analyse des correspondances,tels que les valeurs singulières, l’inertie par dimension et les contributions, nechangent pas d’une normalisation à l’autre. Les coordonnées principales des colonneset des lignes et leurs variances sont affectées. L’analyse des correspondances peutrépartir l’inertie de plusieurs façons. Les trois façons les plus courantes sont larépartition sur les coordonnées principales des lignes uniquement, la répartition surles coordonnées principales des colonnes uniquement ou la répartition symétriquesur, à la fois, les coordonnées principales des lignes et les coordonnées principalesdes colonnes.

Principale en ligne. Dans la normalisation principale en ligne, les distanceseuclidiennes entre les points des lignes se rapprochent des distances Khi-deux entreles lignes du tableau des correspondances. Les scores des lignes correspondent àla moyenne pondérée des scores des colonnes. Les coordonnées principales descolonnes sont standardisées de manière à avoir une somme pondérée des carrés desdistances par rapport au centre égale à 1. Dans la mesure où cette méthode maximise

Page 291: SPSS Categories 14.0

273

Analyse des correspondances

les distances entre les modalités de ligne, vous devez utiliser la normalisationprincipale en ligne si vous avez essentiellement l’intention d’observer les différencesentre les modalités de la variable de ligne.

Principale en colonne. Par ailleurs, vous pouvez approximer les distances Khi-deuxentre les colonnes du tableau des correspondances. Dans ce cas, les coordonnéesprincipales des colonnes doivent correspondre à la moyenne pondérée descoordonnées principales des lignes. Les coordonnées principales des lignes sontstandardisées de manière à avoir une somme pondérée des carrés des distances parrapport au centre égale à 1. Cette méthode maximise les distances entre les modalitésde colonnes et vous devez l’utiliser si vous avez essentiellement l’intention d’observerles différences entre les modalités de la variable de colonne.

Symétrique. En outre, vous pouvez traiter les lignes et les colonnes de manièresymétrique. Cette normalisation répartit l’inertie de façon égale sur les coordonnéesdes lignes et des colonnes. Dans ce cas, ni les distances entre les points des lignesni celles entre les points des colonnes ne sont des approximations de distancesKhi-deux. Utilisez cette méthode si vous envisagez essentiellement d’examiner lesdifférences ou les similitudes entre les deux variables. Généralement, cette méthodeest à privilégier pour réaliser des diagrammes doubles.

Principale. Une quatrième option, la normalisation principale, permet de répartirl’inertie deux fois dans la solution—une fois sur les coordonnées des lignes et une foissur celles des colonnes. Vous devez utiliser cette méthode si vous souhaitez examinerles distances entre les points des lignes et celles entre les points des colonnesséparément, sans vouloir analyser la relation entre les points lignes et colonnes. Lesdiagrammes doubles n’étant pas appropriés pour cette option de normalisation, ils nesont pas disponibles si vous avez spécifié la méthode de normalisation principale.

Exemple : Consommation de tabac par type de poste occupé

L’objectif de l’analyse des correspondances est de montrer les relations entre leslignes et les colonnes d’un tableau des correspondances. Vous utiliserez un tableauhypothétique introduit par Greenacre(Greenacre, 1984) pour illustrer les concepts debase. Ces informations sont rassemblées dans le fichier smoking.sav, qui figure dansle sous-répertoire \tutorial\sample_files\ du répertoire d’installation de SPSS.

Page 292: SPSS Categories 14.0

274

Chapitre 12

Le tableau d’intérêt correspond au tableau croisé de la consommation de tabacpar poste occupé. La variable groupe de personnel contient les postes occupésCadres confirmés, Cadres débutants, Employés confirmés, Employés subalterneset Secrétaires, qui permettront de créer la solution, ainsi que la modalité Moyennenationale, disponible en tant qu’élément d’analyse supplémentaire. La variableconsommation de tabac contient les comportements non-fumeur, fumeur modéré,fumeur moyen et gros fumeur, qui permettront de créer la solution, ainsi queles modalités Pas d’alcool et Alcool, disponibles en tant qu’éléments d’analysesupplémentaires.

Exécution de l’analyse

E Avant que vous n’exécutiez une procédure d’analyse des correspondances, laconfiguration des données implique que les observations soient pondérées par lavariable effectif. Pour ce faire, dans les menus, choisissez :Données

Pondérer les observations...

Figure 12-1Boîte de dialogue Pondérer les observations

E Pondérez les observations par la variable effectif.

E Cliquez sur OK.

E Ensuite, pour obtenir une analyse des correspondances en deux dimensions à l’aide dela normalisation principale en ligne, dans les menus, choisissez :Analyse

FactorisationAnalyse des correspondances...

Page 293: SPSS Categories 14.0

275

Analyse des correspondances

Figure 12-2Boîte de dialogue Analyse des correspondances

E Sélectionnez groupe de personnel comme variable de ligne.

E Cliquez sur Définir intervalle.

Figure 12-3Boîte de dialogue Définir l’intervalle de la variable en ligne

E Tapez 1 comme valeur minimale.

E Tapez 5 comme valeur maximale.

E Cliquez sur Mettre à jour.

E Cliquez sur Poursuivre.

Page 294: SPSS Categories 14.0

276

Chapitre 12

E Sélectionnez Cigarette comme variable de colonne.

E Cliquez sur l’option Définir intervalle dans la boîte de dialogue Analyse descorrespondances.

Figure 12-4Boîte de dialogue Définir l’intervalle de la variable en colonne

E Tapez 1 comme valeur minimale.

E Tapez 4 comme valeur maximale.

E Cliquez sur Mettre à jour.

E Cliquez sur Poursuivre.

E Cliquez sur Statistiques dans la boîte de dialogue Analyse des correspondances.

Page 295: SPSS Categories 14.0

277

Analyse des correspondances

Figure 12-5Boîte de dialogue Statistiques

E Sélectionnez les options Profils lignes et Profils colonnes.

E Sélectionnez Permutations du tableau des correspondances.

E Sélectionnez les statistiques de confiance pour Points lignes et Points colonnes.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Analyse des correspondances.

Tableau des correspondances

Le tableau des correspondances montre la répartition de la consommation de tabacpour cinq niveaux de poste occupé. Les lignes du tableau des correspondancesreprésentent les postes occupés. Les colonnes représentent la consommation de tabac.

Figure 12-6Tableau des correspondances

Page 296: SPSS Categories 14.0

278

Chapitre 12

Les totaux de ligne marginaux indiquent que l’entreprise emploie beaucoup plusd’employés, subalternes comme haut placés, que de cadres et de secrétaires.Toutefois, la répartition hiérarchique des postes des cadres est approximativementidentique à celle des employés. Les totaux de colonnes indiquent un nombre plusou moins équivalent de non-fumeurs et de fumeurs moyens. En outre, les grosfumeurs sont moins nombreux dans les trois autres modalités. Cependant, qu’ontéventuellement en commun ces postes occupés au regard de la consommation detabac ? De plus, quelle est la relation entre poste occupé et tabac ?

Dimension

Dans l’absolu, vous souhaitez une solution d’analyse des correspondancesreprésentant la relation entre les variables de ligne et de colonne dans aussi peu dedimensions que possible. Cependant, il s’avère souvent utile d’observer le nombremaximum de dimensions de manière à déterminer la contribution relative de chaquedimension. Le nombre maximum de dimensions pour une solution d’analyse descorrespondances est la plus petite des valeurs suivantes : le nombre de lignes activesmoins 1 ou le nombre de colonnes actives moins 1. Une ligne ou colonne active estune ligne ou colonne pour laquelle existe un ensemble distinct de scores. Les lignesou colonnes supplémentaires ne sont pas actives. Dans l’exemple actuel, le nombremaximum de dimensions est min(5,4) – 1 = 3.

La première dimension affiche la plus grande partie possible de l’inertie (mesure dela variation dans les données), la deuxième est orthogonale par rapport à la premièreet affiche la plus grande partie possible de l’inertie restante, et ainsi de suite. Il estpossible de scinder l’inertie totale en composants propres à chaque dimension. Vouspouvez alors évaluer l’inertie affichée par une dimension particulière en la comparantà l’inertie totale. Par exemple, la première dimension affiche 87,8 % (0,075/0,085)de l’inertie totale, tandis que la deuxième dimension affiche uniquement 11,8 %(0,010/0,085).

Page 297: SPSS Categories 14.0

279

Analyse des correspondances

Figure 12-7Inertie par dimension

Si vous décidez que les p premières dimensions d’une solution dimensionnelle qaffichent une partie suffisante de l’inertie totale, vous n’avez pas besoin de considérerles dimensions supérieures. Dans cet exemple, la solution bidimensionnelle estsuffisante, dans la mesure où la troisième dimension représente moins de 1,0 % del’inertie totale.

Les valeurs singulières peuvent être interprétées comme étant la corrélation entreles coordonnées principales des colonnes et des lignes. Elles sont similaires à lacorrélation de Pearson (r) dans l’analyse de corrélation. Pour chaque dimension, lavaleur singulière carrée (valeur propre) est égale à l’inertie et, par conséquent, estune autre mesure de l’importance de cette dimension.

Diagramme double

L’analyse des correspondances génère un ensemble de diagrammes qui illustrent lesrelations sous-jacentes entre modalités et entre variables. Il s’agit du diagramme dedispersion des coordonnées principales des colonnes et des lignes pour la solutionbidimensionnelle.

Page 298: SPSS Categories 14.0

280

Chapitre 12

Figure 12-8Diagramme des coordonnées principales des colonnes et des lignes (normalisationsymétrique)

L’interprétation du diagramme est assez simple ;les points des lignes/colonnesproches les uns des autres se ressemblent davantage que les points dispersés. Ladeuxième dimension sépare les cadres des autres employés, tandis que la premièresépare les employés subalternes de ceux haut placés, avec les secrétaires commeposte intermédiaire.

La normalisation symétrique facilite l’examen de la relation entre poste occupé ettabac. Par exemple, les cadres sont proches de la modalité gros fumeur, tandis que lesemployés haut placés sont plus proches de la modalité non-fumeur. Les employéssubalternes semblent associés aux fumeurs fumeur moyen ou fumeur modéré, tandisque les secrétaires ne sont étroitement associées à aucun comportement particulier enmatière de tabac (mais figurent loin de gros fumeur).

Page 299: SPSS Categories 14.0

281

Analyse des correspondances

Profils et distances

Pour déterminer la distance entre les modalités, l’analyse des correspondancess’appuie sur les répartitions marginales ainsi que sur les différents effectifs par cellule.Elle calcule les profils de ligne et de colonne, qui fournissent les proportions de ligneet de colonne de chaque cellule, basées sur les sommes marginales.

Figure 12-9profils de ligne (normalisation symétrique)

Les profils de ligne indiquent la proportion de la modalité de ligne dans chaquemodalité de colonne. Par exemple, la plupart des employés haut placés sont nonfumeurs et très peu sont gros fumeurs. Par contre, la plupart des cadres débutants sontfumeurs moyens et très peu sont fumeurs modérés.

Les profils de colonne indiquent la proportion de la colonne dans chaque modalitéde ligne. Par exemple, la plupart des fumeurs modérés sont des employés subalternes.Il en va de même des fumeurs moyens et des gros fumeurs. Gardez à l’esprit quel’échantillon contient principalement des employés subalternes. Il n’est pas surprenantque cette catégorie de personnel soit prédominante parmi les catégories de fumeur.

Figure 12-10Profils colonnes

Page 300: SPSS Categories 14.0

282

Chapitre 12

Le poids permet de mesurer l’influence d’un objet en fonction de son effectifmarginal. Le poids affecte le centre, qui représente le profil de ligne ou de colonnemoyen pondéré. Le centre de ligne est le profil de ligne moyen. Les points possédantun poids important, tels que les employés subalternes, attirent sensiblement le centre.Un point de poids faible, tel que les cadres supérieurs, n’attire que légèrement lecentre de ligne.

Si la différence est envisagée en distance, plus la différence est importante entreles profils de ligne, plus grande est la distance entre les points d’un diagramme.Par exemple, dans la configuration finale issue de l’utilisation de la normalisationprincipale en ligne, les distances euclidiennes entre les points des lignes dans l’espacedimensionnel complet sont égales aux distances Khi-deux entre les lignes du tableaudes correspondances. Dans un espace réduit, les distances euclidiennes se rapprochentdes distances Khi-deux. A leur tour, les distances Khi-deux sont des distances deprofil pondérées. Ces distances pondérées sont basées sur le poids.

De même, dans la normalisation principale en colonne, les distances euclidiennesentre les points des colonnes dans l’espace dimensionnel complet sont égales auxdistances Khi-deux entre les colonnes du tableau des correspondances. Notez,toutefois, que dans une normalisation symétrique ces quantités ne sont pas égales.

L’inertie totale est définie comme étant la somme pondérée de tous les carrésdes distances par rapport à l’origine divisée par le total sur toutes les cellules, oùles pondérations représentent les masses. Les lignes de poids faible n’influencentl’inertie que lorsqu’elles sont éloignées du centre. Les lignes de poids importantinfluencent l’inertie totale, même si elles se trouvent près du centre. Les mêmesconsidérations s’appliquent aux colonnes.

Coordonnées principales des colonnes et des lignes

Les coordonnées principales des colonnes et des lignes sont les coordonnées despoints des colonnes et des lignes dans le diagramme double.

Page 301: SPSS Categories 14.0

283

Analyse des correspondances

Figure 12-11Coordonnées principales des lignes (normalisation symétrique)

Figure 12-12Coordonnées principales des colonnes (normalisation symétrique)

Les coordonnées principales des colonnes sont liées aux coordonnées principales deslignes via les profils et la valeur singulière (à partir du tableau Inertie par dimension).Plus précisément, les coordonnées principales des lignes sont le produit matriciel desprofils de ligne et des coordonnées principales des colonnes, redimensionné par lavaleur singulière de chaque dimension. Par exemple, le score –0,126 des cadressupérieurs sur la première dimension équivaut à :

Dans le cas de la normalisation principale en ligne, la valeur singulière ne figurepas dans cette équation. Les points des lignes figurent dans le centre pondéré despoints des colonnes actifs, où les pondérations correspondent aux entrées du tableaudes profils de ligne. Lorsque les points des lignes sont la moyenne pondérée despoints des colonnes et que le nombre maximum de dimensions est utilisé, la distanceeuclidienne entre un point de ligne et l’origine est la distance Khi-deux entre la ligneet la ligne moyenne, elle-même équivalente à l’inertie d’une ligne. Etant donné que la

Page 302: SPSS Categories 14.0

284

Chapitre 12

statistique du Khi-deux est égale à l’inertie totale multipliée par la somme de toutesles cellules du tableau des correspondances, vous pouvez considérer l’orientationdes points des lignes comme une représentation graphique de cette statistique. Uneinterprétation correspondante existe pour la normalisation principale en colonne, maispas pour la normalisation symétrique.

Contributions.

Il est possible de calculer l’inertie affichée par une dimension donnée. Lesscores sur chaque dimension correspondent à une projection orthogonale du pointsur cette dimension. Par conséquent, l’inertie d’une dimension est la sommepondérée des carrés des distances entre les scores sur la dimension et l’origine.Toutefois, la méthode de normalisation utilisée détermine si cela s’applique auxcoordonnées principales des colonnes et/ou des lignes. Chaque point de colonne etde ligne contribue à l’inertie. Les points des colonnes et des lignes qui contribuentsensiblement à l’inertie d’une dimension sont importants pour celle-ci. Lacontribution d’un point à l’inertie d’une dimension est le carré des distances pondéréentre le point projeté et l’origine, divisé par l’inertie de la dimension.

Les diagnostics qui mesurent les contributions des points facilitent sensiblementl’interprétation d’une solution d’analyse des correspondances. Les points dominantsde la solution sont facilement repérables. Par exemple, les employés haut placés et lesemployés subalternes sont des points dominants dans la première dimension, avec unecontribution de 84 % à l’inertie. Parmi les points des colonnes, aucun ne contribue à65 % de l’inertie de la première dimension à lui seul.

La contribution d’un point à l’inertie des dimensions dépend du poids et de ladistance à partir de l’origine. Les points éloignés de l’origine et de poids élevésont ceux qui contribuent le plus à l’inertie de la dimension. Etant donné que lespoints supplémentaires ne jouent aucun rôle dans la définition de la solution, ils necontribuent pas à l’inertie des dimensions.

Outre la contribution des points à l’inertie par dimension, vous pouvez examiner lacontribution des dimensions à l’inertie par point. Vous pouvez examiner la répartitionde l’inertie d’un point sur les dimensions en calculant le pourcentage de l’inertie dupoint imputable à chaque dimension. Le total des contributions des dimensions auxinerties des points n’est pas égal à un. Dans un espace réduit, l’inertie imputable auxdimensions supérieures n’est pas représentée. L’utilisation du nombre maximum dedimensions permettrait de révéler les quantités d’inertie non prises en compte.

Page 303: SPSS Categories 14.0

285

Analyse des correspondances

Les deux premières dimensions contribuent à toute l’inertie des employésconfirmés et des employés débutants, et pratiquement à toute l’inertie des cadresdébutants et des secrétaires. Dans le cas des cadres supérieurs, 11 % de l’inertie nesont pas imputables aux deux premières dimensions. Deux dimensions contribuentpour une très large proportion à l’inertie des points des lignes.

Des résultats similaires sont obtenus pour les points des colonnes. Pour chaquepoint de colonne actif, deux dimensions contribuent à au moins 98 % de l’inertie. Latroisième dimension contribue très peu à ces points.

Permutation du tableau des correspondances

Parfois, il est utile d’organiser les modalités des lignes et des colonnes. Par exemple,vous pouvez à juste titre penser que les modalités d’une variable correspondent à uncertain ordre, dont vous ignorez la précision. Ce problème de classement apparaîtdans différentes disciplines : problème de sériation en archéologie, problèmed’ordination en phytosociologie et problème de scalogramme de Guttman dansles sciences sociales. Le classement peut être réalisé en prenant les coordonnéesprincipales des colonnes et des lignes comme variables d’organisation. Si vouspossédez des coordonnées principales de colonnes et de lignes dans p dimensions,vous pouvez réaliser p tableaux permutés. Si la première valeur singulière est élevée,le premier tableau indique une structure particulière, avec des effectifs relatifssupérieurs aux valeurs théoriques et proches de la « diagonale ».

Le tableau suivant indique la permutation du tableau des correspondances le longde la première dimension. Les coordonnées principales des lignes pour la dimension 1indiquent l’ordre croissant suivant : employés haut placés (–0,728), secrétaires(–0,385), cadres supérieurs (–0,126), employés subalternes (0,446) et cadresdébutants (0,495). Les coordonnées principales des colonnes pour la dimension 1indiquent l’ordre suivant : non-fumeur, fumeur modéré, fumeur moyen puis grosfumeur. L’organisation des lignes et des colonnes du tableau reflète ces classements.

Page 304: SPSS Categories 14.0

286

Chapitre 12

Figure 12-13Permutation du tableau des correspondances

Statistiques de confiance

Dans l’hypothèse où le tableau à analyser est un tableau d’effectifs et que les donnéesappartiennent à un échantillon aléatoire d’une population inconnue, les effectifspar cellule suivent une répartition multinomiale. Celle-ci permet de calculer lesécarts-types et les corrélations des valeurs singulières, des coordonnées principalesdes lignes et des coordonnées principales des colonnes.

Dans une solution d’analyse des correspondances unidimensionnelle, vouspouvez calculer un intervalle de confiance pour chaque score dans la population. Sil’écart-type est élevé, l’analyse des correspondances peut difficilement confirmerl’emplacement du point dans la population. A l’opposé, si l’écart-type est faible,l’analyse des correspondances est assez certaine de la position de ce point à proximitédu point donné par la solution.

Dans une solution multidimensionnelle, si la corrélation entre les dimensions estélevée, il peut s’avérer impossible de localiser un point dans la dimension adéquateavec beaucoup de certitude. Dans ces cas, des intervalles de confiance multivariésdoivent être calculés à l’aide de la matrice de variance/covariance enregistrable dansun fichier.

Les statistiques de confiance pour les coordonnées principales des colonnes et deslignes sont indiquées. Les écarts-types des deux catégories de cadres sont supérieursaux autres, en raison vraisemblablement de leurs nombres relativement faibles.L’écart-type des gros fumeurs est également supérieur pour la même raison. Si vousobservez les corrélations entre les dimensions des scores, vous pouvez constaterqu’elles sont généralement faibles pour les coordonnées principales des colonnes etdes lignes, à l’exception des employés subalternes, dont la corrélation est 0,611.

Page 305: SPSS Categories 14.0

287

Analyse des correspondances

Figure 12-14Statistiques de confiance pour les coordonnées principales des lignes

Figure 12-15Statistiques de confiance pour les coordonnées principales des colonnes

Profils supplémentaires

Dans l’analyse des correspondances, des modalités supplémentaires peuvent êtrereprésentées dans l’espace afin de décrire les relations entre les modalités actives. Unprofil supplémentaire définit un profil dans des modalités de la variable de ligne oude colonne et n’influence aucunement l’analyse. Le fichier de données contient uneligne supplémentaire et deux colonnes supplémentaires.

La moyenne nationale des individus dans chaque catégorie de fumeurs définit unprofil de ligne supplémentaire. Les deux colonnes supplémentaires définissent deuxprofils de colonne dans les catégories de personnel. Les profils supplémentairesdéfinissent un point dans l’espace des lignes ou dans celui des colonnes. Etantdonné que vous vous concentrerez sur les lignes et sur les colonnes séparément,vous utiliserez la normalisation principale.

Page 306: SPSS Categories 14.0

288

Chapitre 12

Exécution de l’analyse

Figure 12-16Boîte de dialogue Définir l’intervalle de la variable en ligne

E Pour ajouter les modalités supplémentaires et obtenir une solution de normalisationprincipale, affichez à nouveau la boîte de dialogue Analyse des correspondances.

E Sélectionnez l’option personnel puis cliquez sur le bouton Définir intervalle.

E Tapez 6 comme valeur maximale puis cliquez sur le bouton Mettre à jour.

E Sélectionnez 6 dans la liste Contraintes des modalités puis sélectionnez La modalité

est un supplément.

E Cliquez sur Poursuivre.

E Sélectionnez l’option cigarette puis cliquez sur le bouton Définir intervalle dans la boîtede dialogue Analyse des correspondances.

Page 307: SPSS Categories 14.0

289

Analyse des correspondances

Figure 12-17Boîte de dialogue Définir l’intervalle de la variable en colonne

E Tapez 6 comme valeur maximale puis cliquez sur le bouton Mettre à jour.

E Sélectionnez 5 dans la liste Contraintes des modalités puis sélectionnez La modalité

est un supplément.

E Sélectionnez 6 dans la liste Contraintes des modalités puis sélectionnez La modalité

est un supplément.

E Cliquez sur Poursuivre.

E Cliquez sur l’option Modèle dans la boîte de dialogue Analyse des correspondances.

Page 308: SPSS Categories 14.0

290

Chapitre 12

Figure 12-18Boîte de dialogue Modèle

E Sélectionnez l’option Principale comme méthode de normalisation.

E Cliquez sur Poursuivre.

E Cliquez sur le bouton Diagrammes dans la boîte de dialogue Analyse descorrespondances.

Page 309: SPSS Categories 14.0

291

Analyse des correspondances

Figure 12-19Boîte de dialogue Diagrammes

E Sélectionnez les options Points lignes et Points colonnes dans le groupe Diagrammesde dispersion.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Analyse des correspondances.

Le diagramme des points des lignes illustre les deux premières dimensions des pointsdes lignes avec le point supplémentaire associé au libellé Moyenne nationale. Lelibellé Moyenne nationale se trouve loin de l’origine, ce qui indique que l’échantillonn’est pas représentatif de la nation en matière de consommation de tabac. Leslibellés secrétaires et employés confirmés figurent près de la moyenne nationale,contrairement aux cadres débutants. Par conséquent, les secrétaires et les employés

Page 310: SPSS Categories 14.0

292

Chapitre 12

haut placés ont des comportements en matière de tabac similaires à ceux de lamoyenne nationale, contrairement aux cadres débutants.

Figure 12-20Points des lignes (normalisation principale)

Le diagramme des points des colonnes affiche l’espace des colonnes avec lesdeux points supplémentaires associés à la consommation d’alcool. Le libelléconsommateur d’alcool figure près de l’origine, indiquant une correspondanceétroite entre le profil en matière d’alcool et le profil de colonne moyen. Toutefois,la mention non-consommateur d’alcool diffère du profil de colonne moyen, commel’indique la distance importante par rapport à l’origine. Le point le plus proche denon-consommateur d’alcool est fumeur modéré. Le profil des fumeurs modérésest sensiblement similaire à celui des non-consommateurs d’alcool. Parmi lesfumeurs, la catégorie fumeur moyen est la suivante la plus proche et gros fumeur estla plus éloignée. Par conséquent, à l’image de la non-consommation d’alcool, ilexiste une progression depuis les fumeurs modérés vers les gros fumeurs. Toutefois,

Page 311: SPSS Categories 14.0

293

Analyse des correspondances

la proportion relativement élevée de secrétaires dans le groupe des non-buveursempêche toute correspondance étroite avec une catégorie de fumeurs.

Figure 12-21Points des colonnes (normalisation principale)

Exemple : Perceptions des marques de café

L’exemple précédent repose sur un petit tableau de données hypothétiques. Lesapplications réelles impliquent souvent des tableaux beaucoup plus volumineux. Danscet exemple, vous utiliserez des données relatives aux images perçues de six marquesde café frappé(Kennedy et al., 1996). Cet ensemble de données est disponible dansle fichier coffee.sav, qui figure dans le sous-répertoire \tutorial\sample_files\ durépertoire d’installation de SPSS.

Pour chacun des 23 attributs d’image de café frappé, les personnes sollicitées ontsélectionné toutes les marques décrites par l’attribut. Les six marques sont appeléesAA, BB, CC, DD, EE et FF à des fins de confidentialité.

Page 312: SPSS Categories 14.0

294

Chapitre 12

Tableau 12-1Attributs du café frappé

Attribut image Etiquette Attribut image Etiquette

bon remède contre lagueule de bois

remède produit non allégé fait grossir

produit allégé/faible encalories

allégé plaît aux hommes hommes

marque ciblant lesenfants

enfants marque sud-australienne Australie du sud

marque de la classeouvrière

classe ouvrière marquetraditionnelle/démodée

traditionnel

produit fort en goût/légeren goût

léger en goût marque de luxe luxe

marque impopulaire impopulaire marque bio bio

marque pour personnesobèses/laides

laid produit fortement caféiné caféine

très frais frais nouvelle marque nouveau

marque pour jeunescadres dynamiques

jeunes cadresdynamiques

marque pour personnesséduisantes

séduisant

produit nourrissant nourrissant marque fiable fiable

marque pour femmes femmes marque populaire populaire

marque secondaire secondaire

Dans un premier temps, vous allez vous concentrer sur les liens unissant les attributset sur ceux unissant les marques. L’utilisation de la normalisation principale répartitl’inertie totale une fois sur les lignes et une fois sur les colonnes. Bien que celaempêche l’interprétation des diagrammes doubles, vous pouvez examiner lesdistances entre les modalités de chaque variable.

Exécution de l’analyse

E La configuration des données implique que les observations soient pondérées par lavariable freq. Pour ce faire, dans les menus, choisissez :Données

Pondérer les observations...

Page 313: SPSS Categories 14.0

295

Analyse des correspondances

Figure 12-22Boîte de dialogue Pondérer les observations

E Pondérez les observations par la variable freq.

E Cliquez sur OK.

E Pour obtenir une solution initiale dans cinq dimensions en recourant à la normalisationprincipale, choisissez dans les menus :Analyse

FactorisationAnalyse des correspondances...

Figure 12-23Boîte de dialogue Analyse des correspondances

E Sélectionnez l’option image comme variable de ligne.

E Cliquez sur Définir intervalle.

Page 314: SPSS Categories 14.0

296

Chapitre 12

Figure 12-24Boîte de dialogue Définir l’intervalle de la variable en ligne

E Tapez 1 comme valeur minimale.

E Tapez 23 comme valeur maximale.

E Cliquez sur Mettre à jour.

E Cliquez sur Poursuivre.

E Sélectionnez l’option marque comme variable de colonne.

E Cliquez sur l’option Définir intervalle dans la boîte de dialogue Analyse descorrespondances.

Page 315: SPSS Categories 14.0

297

Analyse des correspondances

Figure 12-25Boîte de dialogue Définir l’intervalle de la variable en colonne

E Tapez 1 comme valeur minimale.

E Tapez 6 comme valeur maximale.

E Cliquez sur Mettre à jour.

E Cliquez sur Poursuivre.

E Cliquez sur l’option Modèle dans la boîte de dialogue Analyse des correspondances.

Page 316: SPSS Categories 14.0

298

Chapitre 12

Figure 12-26Boîte de dialogue Modèle

E Sélectionnez l’option Principale comme méthode de normalisation.

E Cliquez sur Poursuivre.

E Cliquez sur le bouton Diagrammes dans la boîte de dialogue Analyse descorrespondances.

Page 317: SPSS Categories 14.0

299

Analyse des correspondances

Figure 12-27Boîte de dialogue Diagrammes

E Sélectionnez les options Points lignes et Points colonnes dans le groupe Diagrammesde dispersion.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Analyse des correspondances.

Dimension

L’inertie par dimension indique la décomposition de l’inertie totale le long de chaquedimension. Deux dimensions représentent 83 % de l’inertie totale. L’ajout d’unetroisième dimension augmente l’inertie prise en compte de 8,6 % uniquement. Parconséquent, vous optez pour l’utilisation d’une représentation bidimensionnelle.

Page 318: SPSS Categories 14.0

300

Chapitre 12

Figure 12-28Inertie par dimension

Contributions

Les caractéristiques des points des lignes montrent les contributions des pointsdes lignes à l’inertie des dimensions et les contributions des dimensions à l’inertiedes points des lignes. Si tous les points contribuent de façon égale à l’inertie, lescontributions ont pour valeur 0,043. Les points bio et allégé contribuent de façonsubstantielle à l’inertie de la première dimension. Les points hommes et fiable sontles éléments qui contribuent le plus à l’inertie de la deuxième dimension. Les deuxpoints laid et frais contribuent très peu aux deux dimensions.

Page 319: SPSS Categories 14.0

301

Analyse des correspondances

Figure 12-29Contributions des attributs

Deux dimensions contribuent sensiblement à l’inertie de la plupart des points deslignes. Les contributions importantes de la première dimension aux points bio,nouveau, séduisant, allégé, nourrissant et femmes indiquent que ces points sont trèsbien représentés dans une dimension. Par conséquent, les dimensions plus élevéescontribuent peu à l’inertie de ces points, qui figurent très près de l’axe horizontal. Ladeuxième dimension contribue essentiellement aux points hommes, luxe et fiable. Lesdeux dimensions contribuent très peu à l’inertie pour les points Australie du sud etlaid, si bien que ceux-ci sont faiblement représentés.

Les caractéristiques des points des colonnes montrent les contributions impliquantles points des colonnes. Les marques CC et DD contribuent le plus à la premièredimension, tandis que les marques EE et FF expliquent une large part de l’inertie

Page 320: SPSS Categories 14.0

302

Chapitre 12

de la deuxième dimension. Les marques AA et BB contribuent très peu aux deuxdimensions.

Figure 12-30Contributions des marques

Dans les deux dimensions, toutes les marques sauf BB sont bien représentées.Les marques CC et DD sont bien représentées dans une dimension. La deuxièmedimension représente les parts les plus importantes des marques EE et FF. La marqueAA est bien représentée dans la première dimension, mais elle ne contribue passensiblement à cette dimension.

Diagrammes

Le diagramme des points des lignes montre que les points frais et laid sont trèsproches de l’origine, ce qui indique qu’ils diffèrent peu du profil de ligne moyen.Trois classifications générales émergent. Situés dans la partie supérieure gauchedu diagramme, les points fiable, hommes et classe ouvrière sont tous similaires lesuns aux autres. La partie inférieure gauche contient les points léger en goût, nonallégé, enfants et luxe. A l’opposé, les points bio, allégé, nourrissant et nouveau sontregroupés sur le côté droit du diagramme.

Page 321: SPSS Categories 14.0

303

Analyse des correspondances

Figure 12-31Diagramme d’attributs d’image (normalisation principale)

Dans le diagramme des points des colonnes, toutes les marques étant éloignées del’origine, aucune d’elles n’est similaire au centre global. Les marques CC et DDsont regroupées à droite, tandis que les marques BB et FF sont regroupées dans la

Page 322: SPSS Categories 14.0

304

Chapitre 12

moitié inférieure du diagramme. Les marques AA et EE ne sont similaires à aucuneautre marque.

Figure 12-32Diagramme de marques (normalisation principale)

Normalisation symétrique

Comment les marques sont-elles liées aux attributs d’image ? La normalisationprincipale ne peut pas traiter ces relations. Pour déterminer les liens entre lesvariables, utilisez la normalisation symétrique. Au lieu de répartir l’inertie deux fois(comme dans la normalisation principale), la normalisation symétrique la divisede façon égale sur les lignes et sur les colonnes. Les distances entre les modalitésd’une variable ne peuvent pas être interprétées, mais celles entre les modalités dedifférentes variables sont significatives.

Page 323: SPSS Categories 14.0

305

Analyse des correspondances

Figure 12-33Boîte de dialogue Modèle

E Pour générer la solution suivante à l’aide de la normalisation symétrique, affichez denouveau la boîte de dialogue Analyse des correspondances, puis cliquez sur Modèle.

E Sélectionnez l’option Symétrique comme méthode de normalisation.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Analyse des correspondances.

Dans la partie supérieure gauche du diagramme double obtenu, la marque EE est laseule marque solide, associée à la classe ouvrière et plaisant aux hommes. La marqueAA est la plus populaire. En outre, elle est perçue comme étant la plus fortement

Page 324: SPSS Categories 14.0

306

Chapitre 12

caféinée. Les marques légères en goût et non allégées sont BB et FF. Les marques CCet DD, tout en étant perçues comme nouvelles et saines, sont les plus impopulaires.

Figure 12-34Diagramme double des marques et des attributs (normalisation symétrique)

Pour une interprétation plus approfondie, vous pouvez dessiner une ligne passant parl’origine et les deux attributs d’image hommeset jeunes cadres dynamiques, puisprojeter les marques sur cette ligne. Les deux attributs sont opposés l’un à l’autre, cequi indique que le modèle d’association des marques pour hommes est inversé parrapport au modèle pour jeunes cadres dynamiques. Autrement dit, les hommes sontle plus fréquemment associés à la marque EE et le moins fréquemment à la marqueCC, tandis que les jeunes cadres dynamiques sont le plus fréquemment associés à lamarque CC et le moins fréquemment à la marque EE.

Exemple : Distance de vol entre les villes

L’analyse des correspondances n’est pas limitée aux tableaux d’effectifs. Lesentrées peuvent être n’importe quelle mesure positive de correspondance. Danscet exemple, vous utilisez les distances de vol entre dix villes américaines. Cet

Page 325: SPSS Categories 14.0

307

Analyse des correspondances

ensemble de données est disponible dans flying.sav, qui figure dans le sous-répertoire\tutorial\sample_files\ du répertoire d’installation de SPSS.

Tableau 12-2Libellés des villes

Ville Etiquette Ville Etiquette

Atlanta Atl Miami Mia

Chicago Chi New York NY

Denver Den San Francisco SF

Houston Hou Seattle Sea

Los Angeles LA Washington, DC DC

E Pour visualiser les distances de vol, pondérez les observations par la variable dist. Apartir des menus, sélectionnez :Données

Pondérer les observations...

Figure 12-35Boîte de dialogue Pondérer les observations

E Pondérez les observations par la variable dist.

E Cliquez sur OK.

E Si vous souhaitez visualiser les distances en tant que tableau croisé, choisissez dansles menus :Analyse

Statistiques descriptivesTableaux croisés...

Page 326: SPSS Categories 14.0

308

Chapitre 12

Figure 12-36Boîte de dialogue Tableaux croisés

E Sélectionnez l’option ligne comme variable de ligne.

E Sélectionnez la variable en colonne col.

E Cliquez sur OK.

Le tableau suivant contient les distances de vol entre les villes. Il existe une seulevariable pour les lignes et les colonnes, et le tableau est symétrique ; la distanceentre Los Angeles et Miami est la même qu’entre Miami et Los Angeles. En outre,

Page 327: SPSS Categories 14.0

309

Analyse des correspondances

la distance entre une ville et elle-même a pour valeur 0. La marge active reflète ladistance de vol totale entre chaque ville et toutes les autres villes.

Figure 12-37Distances de vol entre 10 villes américaines

En général, les distances sont des dissimilarités ; les valeurs élevées indiquent unedifférence importante entre les modalités. Toutefois, l’analyse des correspondancesrequiert une mesure d’association ; par conséquent, vous devez convertir lesdissimilarités en similarités. En d’autres termes, une entrée élevée du tableau doitcorrespondre à une petite différence entre les modalités. La soustraction de chaqueentrée de tableau de l’entrée la plus élevée du tableau transforme les dissimilaritésen similarités.

E Pour créer les similarités et les stocker dans une nouvelle variable sim, dans lesmenus, choisissez :Transformer

Calculer...

Page 328: SPSS Categories 14.0

310

Chapitre 12

Figure 12-38Boîte de dialogue Calculer la variable

E Tapez sim comme variable de destination.

E Tapez 2734-dist comme expression numérique.

E Cliquez sur OK.

Page 329: SPSS Categories 14.0

311

Analyse des correspondances

Figure 12-39Boîte de dialogue Pondérer les observations

Pondérez de nouveau les observations par la mesure de similarité en affichant ànouveau la boîte de dialogue Pondérer les observations :

E Pondérez les observations par la variable sim.

E Cliquez sur OK.

E En dernier lieu, pour obtenir une analyse des correspondances pour les similarités,dans les menus, choisissez :Analyse

FactorisationAnalyse des correspondances...

Figure 12-40Boîte de dialogue Analyse des correspondances

E Sélectionnez l’option ligne comme variable de ligne.

E Cliquez sur Définir intervalle.

Page 330: SPSS Categories 14.0

312

Chapitre 12

Figure 12-41Boîte de dialogue Définir l’intervalle de la variable en ligne

E Tapez 1 comme valeur minimale.

E Tapez 10 comme valeur maximale.

E Cliquez sur Mettre à jour.

E Cliquez sur Poursuivre.

E Sélectionnez la variable en colonne col.

E Cliquez sur l’option Définir intervalle dans la boîte de dialogue Analyse descorrespondances.

Page 331: SPSS Categories 14.0

313

Analyse des correspondances

Figure 12-42Boîte de dialogue Définir l’intervalle de la variable en colonne

E Tapez 1 comme valeur minimale.

E Tapez 10 comme valeur maximale.

E Cliquez sur Mettre à jour.

E Cliquez sur Poursuivre.

E Cliquez sur l’option Modèle dans la boîte de dialogue Analyse des correspondances.

Page 332: SPSS Categories 14.0

314

Chapitre 12

Figure 12-43Boîte de dialogue Modèle

E Sélectionnez l’option Principale comme méthode de normalisation.

E Cliquez sur Poursuivre.

E Cliquez sur le bouton Diagrammes dans la boîte de dialogue Analyse descorrespondances.

Page 333: SPSS Categories 14.0

315

Analyse des correspondances

Figure 12-44Boîte de dialogue Diagrammes

E Sélectionnez l’option Points lignes dans le groupe Diagrammes de dispersion.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Analyse des correspondances.

Tableau des correspondances

La nouvelle distance 0 entre Seattle et Miami indique que ce sont les villes les plusdistantes (les moins similaires), tandis que la distance 2529 entre New York etWashington, D.C., indique que ces villes représentent la paire de villes les moinsdistantes (les plus similaires).

Page 334: SPSS Categories 14.0

316

Chapitre 12

Figure 12-45Tableau des correspondances pour les similarités

Coordonnées principales des colonnes et des lignes

L’utilisation de distances de vol au lieu de distances routières permet de s’affranchirde l’impact du relief des Etats-Unis sur les distances. Par conséquent, toutes lessimilarités doivent pouvoir être représentées en deux dimensions. Pour ce faire,centrez les lignes et les colonnes et utilisez la normalisation principale. En raison dela symétrie du tableau des correspondances et de la normalisation principale, lescoordonnées principales des colonnes et des lignes sont égales et présentent les unes

Page 335: SPSS Categories 14.0

317

Analyse des correspondances

comme les autres une inertie totale ; que vous inspectiez les coordonnées principalesdes colonnes ou des lignes n’est donc pas important.

Figure 12-46Points des 10 villes

Les emplacements des villes sont très similaires à leurs positions géographiquesréelles, par rapport à l’axe de l’origine. Les villes situées plus au sud possèdent desvaleurs élevées le long de la deuxième dimension, tandis que celles situées plus àl’ouest possèdent des valeurs élevées le long de la première dimension.

Lectures recommandées

Pour plus d’informations sur l’analyse des correspondances, reportez-vous auxdocuments suivants :

Fisher, R. A. 1938. Statistical methods for research workers. Edinburgh: Oliverand Boyd.

Fisher, R. A. 1940. The precision of discriminant functions. Annals of Eugenics,10, 422–429.

Page 336: SPSS Categories 14.0

318

Chapitre 12

Gilula, Z., et S. J. Haberman. 1988. The analysis of multivariate contingency tablesby restricted canonical and restricted association models. Journal of the AmericanStatistical Association, 83, 760–771.

Page 337: SPSS Categories 14.0

Chapitre

13Analyse de correspondancemultiple

L’objectif de l’analyse de correspondance multiple, également connue sous le nomd’analyse d’homogénéité, est de rechercher les quantifications optimales dans lamesure où les modalités sont le plus possible séparées les unes des autres. Les objetsde la même modalité doivent donc être représentés proches les uns des autres et lesobjets de modalités différentes doivent être représentés aussi éloignés que possible.Le terme homogénéité fait également référence au fait que l’analyse est d’autant plusréussie que les variables sont homogènes, c’est-à-dire lorsqu’elles partitionnent lesobjets en classes ayant les mêmes modalités ou des modalités similaires.

Exemple : Caractéristiques du matériel

Pour connaître le fonctionnement de l’analyse de correspondance multiple,reportez-vous aux données de Hartigan(Hartigan, 1975), que vous trouverez dansle fichier screws.sav, qui figure dans le sous-répertoire \tutorial\sample_files\ durépertoire d’installation de SPSS. Cet ensemble de données contient des informationssur les caractéristiques des vis, des boulons, des écrous et des clous. Le tableausuivant indique les variables (et leurs étiquettes) et les étiquettes de valeur affectéesaux modalités de chaque variable dans l’ensemble de données matérielles de Hartigan.

Tableau 13-1Ensemble de données matérielles de Hartigan

Le nom de la variable l’étiquette Variable Etiquette de valeur

filetage Filetage Yes_Thread, No_Thread

tête Forme de tête Plate, Creuse, Cônique, Arrondie,Cylindrique

319

Page 338: SPSS Categories 14.0

320

Chapitre 13

Le nom de la variable l’étiquette Variable Etiquette de valeur

indtête Indentation de la tête Aucune, Cruciforme, Fendue

tige Forme tige pointe, plate

longueur Longueur endemi-pouces

1/2_in, 1_in, 1_1/2_ in, 2_in, 2_1/2_in

cuivre Cuivre Yes_Br, Not_Br

objet Objet broquette, clou1, clou2, clou3, clou4,clou5, clou6, clou7, clou8, vis1, vis2,vis3, vis4, vis5, boulon1, boulon2,boulon3, boulon4, boulon5, boulon6,broquette1, broquette2, cloub, visb

Exécution de l’analyse

E Pour obtenir une analyse de correspondance multiple, à partir des menus,sélectionnez :Analyse

FactorisationCodage optimal...

Figure 13-1Boîte de dialogue Niveau du codage optimal

E Assurez-vous que les options Toutes les variables nominales multiples et Un groupe sontsélectionnées, puis cliquez sur Définir.

Page 339: SPSS Categories 14.0

321

Analyse de correspondance multiple

Figure 13-2Boîte de dialogue Analyse des correspondances multiples

E Sélectionnez Filetage comme variable d’analyse via Longueur en demi-pouces.

E Sélectionnez objet comme variable d’étiquetage.

E Dans le groupe Diagrammes, cliquez sur Objet.

Page 340: SPSS Categories 14.0

322

Chapitre 13

Figure 13-3Boîte de dialogue Diagrammes d’objets

E Choisissez l’option d’étiquetage des objets Variable.

E Sélectionnez les variables d’étiquetage filetage à objet.

E Cliquez sur Continuer, puis sur Variable dans le groupe Diagrammes de la boîte dedialogue Analyse de correspondance multiple.

Page 341: SPSS Categories 14.0

323

Analyse de correspondance multiple

Figure 13-4Boîte de dialogue Diagrammes de variables

E Appliquez l’opération Joindre les diagrammes de modalités aux options allant defiletage jusqu’à longueur.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Analyse des correspondances multiples.

Récapitulatif des modèles

L’analyse d’homogénéité peut calculer une solution pour plusieurs dimensions. Lenombre maximal de dimensions est égal soit au nombre de modalités moins le nombrede variables n’ayant aucune donnée manquante, soit au nombre d’observationsmoins 1, selon le nombre qui est le plus petit. N’utilisez toutefois que rarement lenombre maximal de dimensions. Un nombre de dimensions plus petit est plus facileà interpréter et, après un certain nombre de dimensions, le total de l’association

Page 342: SPSS Categories 14.0

324

Chapitre 13

supplémentaire représentée devient négligeable. Une solution à une, deux ou troisdimensions dans une analyse d’homogénéité est chose courante.

Figure 13-5Récapitulatif du modèle

Presque toute la variance des données est représentée par la solution : 62,1 % par lapremière dimension et 36,8 % par la deuxième.

Les deux dimensions offrent une interprétation en matière de distances. Si unevariable a un fort pouvoir discriminant, les objets seront proches des modalitésauxquelles ils appartiennent. Idéalement, les objets de la même modalité serontproches les uns des autres (ils auront des coordonnées similaires) et les modalités devariables différentes seront proches si elles appartiennent aux mêmes objets (deuxobjets qui ont des coordonnées similaires pour une variable doivent également êtreproches l’un de l’autre pour les autres variables de la solution).

Coordonnées principales

Après avoir analysé le récapitulatif des modèles, vérifiez les coordonnées des objets.Vous pouvez indiquer une ou plusieurs variables pour étiqueter le diagrammede coordonnées des objets. Chaque variable d’étiquetage génère un diagrammedistinct étiqueté avec les valeurs de la variable. Nous vérifierons le diagramme descoordonnées d’objets étiqueté à l’aide de l’objet de variable. Il s’agit simplementd’une variable d’identification des observations qui n’a été utilisée dans aucun calcul.

La distance séparant un objet de l’origine reflète la variation du modèle deréponse « moyenne ». Ce modèle de réponse moyenne correspond à la modalité laplus fréquente de chaque variable. Les objets dont de nombreuses caractéristiquescorrespondent aux modalités les plus fréquentes se trouvent à côté de l’origine. Al’inverse, les objets qui disposent de caractéristiques uniques sont loin de l’origine.

Page 343: SPSS Categories 14.0

325

Analyse de correspondance multiple

Figure 13-6Diagramme de coordonnées des objets étiquetées avec la variable objet

Si vous observez le diagramme, vous constatez que la première dimension (l’axehorizontal) distingue les vis et boulons (qui ont des filetages) des clous et broquettes(qui n’ont pas de filetage). En effet, les vis et les boulons se trouvent à une extrémitéde l’axe horizontal alors que les clous et les broquettes sont à l’autre extrémité. Dansune moindre mesure, la première dimension sépare également les boulons (qui ont unfond plat) de tous les autres objets (qui ont un fond pointu).

La deuxième dimension (l’axe vertical) semble séparer VIS1 et CLOU6 de tous lesautres objets. VIS1 et CLOU6 partagent des valeurs identiques en ce qui concerne lalongueur des variables (ce sont les objets les plus longs des données). De plus, VIS1est beaucoup plus loin de l’origine que les autres objets, ce qui laisse supposer que,dans l’ensemble, de nombreuses caractéristiques de cet objet ne sont pas partagéespar les autres objets.

Le diagramme de coordonnées des objets est plus particulièrement utile pourrechercher les valeurs éloignées. La variable VIS1 peut être considérée comme unevaleur éloignée. Nous étudierons ultérieurement ce qu’il advient si vous supprimezcet objet.

Page 344: SPSS Categories 14.0

326

Chapitre 13

Mesures de discrimination

Avant d’étudier le reste des diagrammes de coordonnées des objets, vérifions si lesmesures de discrimination sont conformes aux propos précédents. En ce qui concerneles variables, une mesure de discrimination, pouvant être considérée comme unecorrélation entre composantes, est calculée pour chaque dimension. Cette mesure estégalement la variance de la variable quantifiée de cette dimension. La valeur maximale1 est atteinte si les coordonnées d’objet font partie de groupes mutuellement exclusifset si toutes les coordonnées d’objets d’une modalité sont identiques. (Remarque : Lavaleur de cette mesure peut être supérieure à 1 si des données sont manquantes.) Desmesures de discrimination importantes correspondent à une répartition étendue parmiles modalités de la variable et indiquent par conséquent un degré de discriminationélevé entre les modalités d’une variable le long de la dimension concernée.

La moyenne des mesures de discrimination d’une dimension est égale aupourcentage de variance indiqué pour cette dimension. Par conséquent, les dimensionssont triées en fonction de la discrimination moyenne. La première dimension disposede la discrimination moyenne la plus élevée, la deuxième dimension dispose de ladeuxième discrimination moyenne la plus élevée, et ainsi de suite pour toutes lesdimensions de la solution.

Figure 13-7Diagramme des mesures de discrimination

Page 345: SPSS Categories 14.0

327

Analyse de correspondance multiple

Comme le diagramme de coordonnées des objets, le diagramme des mesures dediscrimination indique que la première dimension est liée aux variables Filetage etForme tige. Ces variables disposent de mesures de discrimination élevées sur lapremière dimension et de mesures de discrimination limitées sur la deuxième. Parconséquent, pour ces deux variables, les modalités sont éloignées les unes des autresle long de la première dimension uniquement. La valeur de la variable Longueur endemi-pouces est élevée sur la deuxième dimension, mais faible sur la première. Lalongueur est donc l’objet le plus proche de la deuxième dimension. Conformémentà l’observation du diagramme de coordonnées des objets, la deuxième dimensionsemble séparer les objets les plus longs des autres objets. Les valeurs des variablesIndentation de la tête et Forme de tête sont relativement élevées sur les deuxdimensions, ce qui indique une discrimination dans les deux premières dimensions.La variable Cuivre, très proche de l’origine, ne fait aucune distinction dans les deuxpremières dimensions. Ceci est logique étant donné que tous les objets peuvent êtreen cuivre ou dans un autre matériau.

Valeurs affectées aux modalités

Souvenez-vous qu’une mesure de discrimination est la variance de la variablequantifiée le long d’une dimension particulière. Le diagramme des mesures dediscrimination contient ces variances et indique ainsi les variables discriminantesle long de la dimension concernée. Cependant, une variance peut correspondreà toutes les modalités modérément éloignées les unes des autres ou à la plupartdes modalités proches les unes des autres, avec quelques modalités différant de cegroupe. Le diagramme de discrimination ne peut faire aucune distinction entre cesdeux conditions.

Les diagrammes de valeurs affectées aux modalités offrent un autre moded’affichage de la discrimination des variables qui peut identifier les relations entre lesmodalités. Dans ce diagramme, les coordonnées des modalités de chaque dimensionsont affichées. Vous pouvez donc déterminer les modalités similaires pour chaquevariable.

Page 346: SPSS Categories 14.0

328

Chapitre 13

Figure 13-8Valeurs affectées aux modalités

La variable Longueur en demi-pouces compte cinq modalités, dont trois sontregroupées près de la partie supérieure du diagramme. Les deux autres modalités setrouvent dans la moitié inférieure du diagramme, la modalité 2_1/2_in se trouvanttrès loin du groupe. La discrimination élevée de longueur le long de la dimension 2est due à cette modalité qui est très différente des autres modalités de longueur. Dela même façon, pour la variable Forme de tête, la modalité CRUCIFORME est trèsloin des autres modalités et génère une mesure de discrimination élevée le long de ladeuxième dimension. Il est impossible d’illustrer ces modèles dans un diagrammede mesures de discrimination.

La répartition des valeurs affectées aux modalités d’une variable reflète la varianceet indique le degré élevé de discrimination de cette variable dans chaque dimension.En ce qui concerne la dimension 1, les modalités de la variable Filetage sontéloignées les unes des autres. Cependant, le long de la dimension 2, les modalitésde cette variable sont très proches les unes des autres. Par conséquent, le degré dediscrimination de la variable Filetage est plus élevé dans la dimension 1 que dans ladimension 2. En revanche, les modalités de la variable Forme de tête sont éloignéesles unes des autres le long des deux dimensions, ce qui laisse supposer que le degré dediscrimination de cette variable est élevé dans les deux dimensions.

Page 347: SPSS Categories 14.0

329

Analyse de correspondance multiple

Non seulement le diagramme de valeurs affectées aux modalités détermine lemode de discrimination et les dimensions le long desquelles une variable a un pouvoirdiscriminant, mais il compare également la discrimination des variables. Une variableayant des modalités éloignées les unes des autres a un pouvoir discriminant plus élevéqu’une variable comportant des modalités proches les unes des autres. Par exemple,le long de la dimension 1, les deux modalités de la variable Cuivre sont plus prochesl’une de l’autre que les deux modalités de la variable Filetage, ce qui indique quela variable Filetage a un pouvoir discriminant plus élevé que la variable Cuivrele long de cette dimension. Cependant, le long de la dimension 2, les distances sonttrès similaires, ce qui laisse supposer que ces variables ont un pouvoir discriminantidentique le long de cette dimension. Le diagramme des mesures de discriminationabordé ci-dessus identifie les mêmes relations à l’aide de variances reflétant larépartition des modalités.

Etude plus détaillée des coordonnées des objets

L’étude des diagrammes de coordonnées des objets étiquetées avec chaque variableoffre un meilleur éclairage des données. Idéalement, les objets similaires doiventformer des groupes exclusifs, ces groupes devant être éloignés les uns des autres.

Page 348: SPSS Categories 14.0

330

Chapitre 13

Figure 13-9Coordonnées des objets étiquetées avec la variable Filetage

Le diagramme étiqueté avec la variable Filetage indique que la première dimensionsépare parfaitement Yes_Thread et No_Thread. Tous les objets comportant desfiletages ont des coordonnées d’objet négatives, alors que tous les objets sans filetageont des coordonnées d’objet positives. Bien que les deux modalités ne forment pasdes groupes compacts, la différenciation parfaite entre ces modalités est généralementconsidérée comme un bon résultat.

Page 349: SPSS Categories 14.0

331

Analyse de correspondance multiple

Figure 13-10Coordonnées des objets étiquetées avec la variable Forme de tête

Le diagramme étiqueté avec la variable Forme de tête indique que cette variable aun pouvoir discriminant élevé dans les deux dimensions. Les objets PLATE sontregroupés dans le coin inférieur droit du diagramme, tandis que les objets CREUSEsont regroupés dans le coin supérieur droit. Tous les objets CONIQUE se trouventdans le coin supérieur gauche. Ces objets sont cependant plus éloignés les uns desautres que les autres groupes et ne sont donc pas considérés comme étant homogènes.Enfin, les objets CYLINDRIQUES ne peuvent pas être séparés des objets ARRONDIS.Tous ces objets se trouvent dans le coin inférieur gauche du diagramme.

Page 350: SPSS Categories 14.0

332

Chapitre 13

Figure 13-11Coordonnées des objets étiquetées avec Longueur en demi-pouces

Le diagramme étiqueté avec la variable Longueur en demi-pouces indique que cettevariable n’a aucun pouvoir discriminant dans la première dimension. Ses modalitésn’indiquent aucun regroupement lorsqu’elles sont projetées sur une ligne horizontale.Cependant, la variable Longueur en demi-pouces a un pouvoir discriminant dans ladeuxième dimension. Les objets les plus courts correspondent aux coordonnéespositives et les objets les plus longs, aux coordonnées négatives.

Page 351: SPSS Categories 14.0

333

Analyse de correspondance multiple

Figure 13-12Coordonnées des objets étiquetées avec la variable Cuivre

Le diagramme étiqueté avec la variable Cuivre indique que cette variable disposede modalités dont la séparation n’est pas aisée dans la première ou la deuxièmedimension. Les coordonnées des objets sont fortement éloignées les unes des autres. Ilest impossible de différencier les objets en cuivre des objets qui ne sont pas en cuivre.

Omission des valeurs éloignées

Dans une analyse d’homogénéité, les valeurs éloignées sont des objets qui ont trop defonctionnalités spécifiques. Comme nous l’avons déjà indiqué, la variable VIS1 peutêtre considérée comme une valeur éloignée.

Pour supprimer cet objet et réexécuter l’analyse, à partir des menus, sélectionnez :Données

Sélectionner des observations...

Page 352: SPSS Categories 14.0

334

Chapitre 13

Figure 13-13Boîte de dialogue Sélectionner des observations

E Sélectionnez Selon une condition logique.

E Cliquez sur Si.

Figure 13-14Si la boîte de dialogue

E Entrez objet ~= 16 comme condition.

Page 353: SPSS Categories 14.0

335

Analyse de correspondance multiple

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Sélectionner des observations.

E Affichez à nouveau la boîte de dialogue Analyse des correspondances multiples,puis cliquez sur OK.

Figure 13-15Récapitulatif des modèles (valeur éloignée supprimée)

Les valeurs propres changent légèrement. La première dimension représentemaintenant une plus grande partie de la variance.

Page 354: SPSS Categories 14.0

336

Chapitre 13

Figure 13-16Mesures de discrimination

Comme l’indique le diagramme de discrimination, la variable Indentation de la têten’a plus de pouvoir discriminant dans la deuxième dimension, alors que la variableCuivre, qui n’avait aucun pouvoir discriminant, a maintenant un pouvoir discriminantdans la deuxième dimension. La discrimination des autres variables ne changequasiment pas.

Page 355: SPSS Categories 14.0

337

Analyse de correspondance multiple

Figure 13-17Coordonnées des objets étiquetées avec la variable Cuivre (valeur éloignée supprimée)

Le diagramme de coordonnées des objets étiquetées avec la variable Cuivreindique que les quatre objets en cuivre se situent à proximité de la partie inférieuredu diagramme (trois objets se trouvent au même endroit). Par conséquent, ladiscrimination est élevée le long de la deuxième dimension. Comme pour la variableFiletage dans l’analyse précédente, les objets ne forment pas des groupes compacts,mais la différenciation de ces objets par modalité est parfaite.

Page 356: SPSS Categories 14.0

338

Chapitre 13

Figure 13-18Coordonnées des objets étiquetées avec la variable Indentation de la tête (valeur éloignéesupprimée)

Le diagramme de coordonnées des objets étiquetées avec la variable Indentationde la tête indique que la première dimension distingue parfaitement les objetsnon indentés et les objets indentés, comme dans l’analyse précédente. Cependant,par rapport à l’analyse précédente, la deuxième dimension ne peut plus distinguerles deux modalités.

De ce fait, l’omission de VIS1, qui est le seul objet ayant une tête en étoile, aune incidence considérable sur l’interprétation de la deuxième dimension. Cettedimension différencie maintenant les objets en fonction des variables Cuivre, Formede tête et Longueur en demi-pouces.

Lectures recommandées

Pour plus d’informations sur l’analyse de correspondance multiple, reportez-vousaux documents suivants :

Benzécri, J. P. 1992. Correspondence analysis handbook. New York: Marcel Dekker.

Page 357: SPSS Categories 14.0

339

Analyse de correspondance multiple

Guttman, L. 1941. The quantification of a class of attributes: A theory and methodof scale construction. Dans : The Prediction of Personal Adjustment, P. Horst, ed.New York: SocialScience Research Council, 319–348.

Meulman, J. J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWOPress.

Meulman, J. J. 1996. Fitting a distance model to homogeneous subsets of variables:Points of view analysis of categorical data. Journal of Classification, 13, 249–266.

Meulman, J. J., et W. J. Heiser. 1997. Graphical display of interaction in multiwaycontingency tables by use of homogeneity analysis. Dans : Visual Display ofCategorical Data, M. Greenacre, et J. Blasius, eds. New York: Academic Press,277–296.

Nishisato, S. 1984. Forced classification: A simple application of a quantificationmethod. Psychometrika, 49, 25–36.

Tenenhaus, M., et F. W. Young. 1985. An analysis and synthesis of multiplecorrespondence analysis, optimal scaling, dual scaling, homogeneity analysis, andother methods for quantifying categorical multivariate data. Psychometrika, 50,91–119.

Van Rijckevorsel, J. 1987. The application of fuzzy coding and horseshoes in multiplecorrespondence analysis. Leiden: DSWO Press.

Page 358: SPSS Categories 14.0
Page 359: SPSS Categories 14.0

Chapitre

14Positionnementmultidimensionnel

Le positionnement multidimensionnel vise à rechercher une représentation d’unensemble d’objets donné dans un espace de petite dimension. Vous pouvez obtenircette solution en utilisant des proximités entre les objets. La procédure réduit auminimum les carrés des écarts entre l’objet initial, éventuellement transformé, lesproximités des objets et leurs distances euclidiennes dans l’espace de petite dimension.

La finalité de l’espace de petite dimension est de mettre en évidence les relationsentre les objets. En réduisant la solution à une combinaison linéaire de variablesindépendantes, vous pouvez interpréter les dimensions de la solution par rapport àces variables. L’exemple suivant montre comment représenter 15 termes de parentédifférents dans trois dimensions et interpréter l’espace par rapport au sexe, à lagénération et au degré de séparation de chacun des termes.

Exemple : Examen des termes de parenté

Rosenberg et Kim(Rosenberg et Kim, 1975) se sont lancés dans l’analyse de15 termes de parenté (cousin/cousine, fille, fils, frère, grand-mère, grand-père, mère,neveu, nièce, oncle, père, petite-fille, petit-fils, soeur, tante). Ils ont demandé à quatregroupes d’étudiants (deux groupes de femmes et deux groupes d’hommes) de trierces termes en fonction des similarités. Deux groupes (un groupe de femmes et ungroupe d’hommes) ont été invités à effectuer deux tris, en basant le second sur unautre critère que le premier. Par conséquent, un total de six “sources” a été obtenu,comme le montre le tableau ci-après.

341

Page 360: SPSS Categories 14.0

342

Chapitre 14

Tableau 14-1Structure des sources des données de parenté

Source sexe Condition Taille del’échantillon

1 Groupe defemmes

Tri unique 85

2 Grouped’hommes

Tri unique 85

3 Groupe defemmes

Premier tri 80

4 Groupe defemmes

Second tri 80

5 Grouped’hommes

Premier tri 80

6 Grouped’hommes

Second tri 80

Chaque source correspond à une matrice de proximité , dont le nombrede cellules est égal au nombre de personnes dans une source moins le nombre defois où les objets ont été partitionnés dans cette source. Cet ensemble de donnéesest disponible dans le fichier kinship_dat.sav, qui figure dans le sous-répertoire\tutorial\sample_files\ du répertoire d’installation de SPSS.

Choix du nombre de dimensions

Il vous appartient de choisir le nombre de dimensions à attribuer à la solution. Lediagramme de valeurs propres peut vous aider à prendre cette décision.

E Pour créer un graphique des valeurs propres, à partir des menus, sélectionnez :Analyse

EchellePositionnement multidimensionnel (PROXSCAL)...

Page 361: SPSS Categories 14.0

343

Positionnement multidimensionnel

Figure 14-1Boîte de dialogue Format des données

E Sélectionnez l’option Plusieurs sources de matrice dans le groupe Nombre de sources.

E Cliquez sur Définir.

Page 362: SPSS Categories 14.0

344

Chapitre 14

Figure 14-2Boîte de dialogue Positionnement multidimensionnel

E Sélectionnez les options allant de Tante à Oncle comme variables de proximités.

E Sélectionnez l’option idsource comme variable d’identification de la source.

E Cliquez sur Modèle.

Page 363: SPSS Categories 14.0

345

Positionnement multidimensionnel

Figure 14-3Boîte de dialogue Modèle

E Tapez 10 comme nombre maximum de dimensions.

E Cliquez sur Poursuivre.

E Cliquez sur Restrictions dans la boîte de dialogue Positionnement multidimensionnel.

Page 364: SPSS Categories 14.0

346

Chapitre 14

Figure 14-4Boîte de dialogue Restrictions

E Sélectionnez Combinaison linéaire de variables indépendantes.

E Cliquez sur Fichier pour sélectionner la source des variables indépendantes.

Page 365: SPSS Categories 14.0

347

Positionnement multidimensionnel

Figure 14-5Boîte de dialogue Lire le fichier

E Sélectionnez kinship_var.sav.

E Cliquez sur Ouvrir.

Page 366: SPSS Categories 14.0

348

Chapitre 14

Figure 14-6Boîte de dialogue Restrictions

E Sélectionnez les options sexe, sexe et degré comme variables de restriction.

La variable sexe possède une valeur manquante définie par l’utilisateur ; il s’agit de lavaleur 9, pour le lien de parenté cousin. La procédure la traite comme une modalitévalide. La transformation linéaire par défaut a donc peu de chance d’être appropriée.Utilisez plutôt une transformation nominale.

Page 367: SPSS Categories 14.0

349

Positionnement multidimensionnel

Figure 14-7Boîte de dialogue Restrictions

E Sélectionnez sexe.

E Sélectionnez l’option Nominal dans la liste déroulante Transformations des variables

indépendantes.

E Cliquez sur Changer.

E Cliquez sur Poursuivre.

E Cliquez sur Diagrammes dans la boîte de dialogue Positionnement multidimensionnel.

Page 368: SPSS Categories 14.0

350

Chapitre 14

Figure 14-8Boîte de dialogue Diagrammes

E Sélectionnez l’option Stress dans le groupe Diagrammes.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Positionnement multidimensionnel.

Page 369: SPSS Categories 14.0

351

Positionnement multidimensionnel

Figure 14-9Diagramme des valeurs propres

La procédure commence avec une solution à 10 dimensions et progresse jusqu’àune solution à 2 dimensions. Le graphique des valeurs propres montre le stress brutnormalisé de la solution à chaque dimension. Vous pouvez constater d’après lediagramme que l’augmentation du nombre de dimensions de 2 à 3 et de 3 à 4 amélioresensiblement le stress. Au-delà de 4 dimensions, les améliorations sont assez réduites.Vous opterez pour l’analyse des données à l’aide d’une solution à 3 dimensions, dansla mesure où les résultats sont plus faciles à interpréter.

Page 370: SPSS Categories 14.0

352

Chapitre 14

Solution tridimensionnelle

Les variables indépendantes sexe, génér (génération) et degré (degré de séparation)ont été construites en vue de leur utilisation pour interpréter les dimensions de lasolution. Les variables indépendantes ont été élaborées comme suit :

sexe 1 = masculin, 2 = féminin, 9 = manquant, pour le lien de parenté cousin.

génér Nombre de générations par rapport à vous si le terme fait référence àvotre famille ; ce nombre est d’autant plus faible que la génération estéloignée. Ainsi, les grands-parents ont la valeur –2, les petits-enfantsla valeur 2 et les frères ou soeurs la valeur 0.

degré Nombre de degrés de séparation le long de votre arbre généalogique.Ainsi, par rapport à vous, vos parents se trouvent un noeud au-dessus, etvos enfants un noeud au-dessous. Pour atteindre vos frères/soeurs, vousdevez remonter d’un noeud jusqu’à vos parents, puis descendre d’unnoeud jusqu’à vos frères/soeurs, ce qui représente 2 degrés de séparation.Quatre degrés vous séparent de vos cousins/cousines —deux jusqu’à vosgrands-parents, puis deux jusqu’à eux en passant par votre tante/oncle.

Les variables externes sont disponibles dans le fichier kinship_var.sav. En outre,une configuration initiale à partir d’une analyse antérieure est disponible dans lefichier kinship_ini.sav.

Page 371: SPSS Categories 14.0

353

Positionnement multidimensionnel

Exécution de l’analyse

Figure 14-10Boîte de dialogue Modèle

E Pour obtenir une solution tridimensionnelle, affichez à nouveau la boîte de dialoguePositionnement multidimensionnel, puis cliquez sur Modèle.

E Tapez 3 comme nombres minimum et maximum de dimensions.

E Cliquez sur Poursuivre.

E Cliquez sur Options dans la boîte de dialogue Positionnement multidimensionnel.

Page 372: SPSS Categories 14.0

354

Chapitre 14

Figure 14-11Options

E Sélectionnez Personnalisée pour la configuration initiale.

E Sélectionnez kinship_ini.sav comme fichier contenant les variables à lire.

E Sélectionnez les options dim01, dim02 et dim03 comme variables.

E Cliquez sur Poursuivre.

E Cliquez sur Diagrammes dans la boîte de dialogue Positionnement multidimensionnel.

Page 373: SPSS Categories 14.0

355

Positionnement multidimensionnel

Figure 14-12Boîte de dialogue Diagrammes

E Sélectionnez les options Proximités originales et transformées et Variables explicatives

transformées.

E Cliquez sur Poursuivre.

E Cliquez sur Résultat dans la boîte de dialogue Positionnement multidimensionnel.

Page 374: SPSS Categories 14.0

356

Chapitre 14

Figure 14-13Résultat

E Sélectionnez les options Données d’entrée, Décomposition du stress et Corrélation des

variables et dimensions.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Positionnement multidimensionnel.

Mesures de stress

Les mesures de stress et d’ajustement donnent une indication du degré d’éloignemententre les distances de la solution et les distances initiales.

Page 375: SPSS Categories 14.0

357

Positionnement multidimensionnel

Figure 14-14Mesures de stress et d’ajustement

Chacune des quatre statistiques de stress mesure le non-ajustement des données, tandisque la dispersion représentée et le coefficient de Tucker de congruence mesurentl’ajustement. Les mesures de stress faibles (jusqu’à un minimum de 0) et les mesuresd’ajustement élevées (jusqu’à un maximum de 1) indiquent de bonnes solutions.

Figure 14-15Décomposition du stress ligne normalisé

La décomposition du stress facilite l’identification des sources et des objetscontribuant le plus au stress global de la solution. Dans le cas présent, la majeurepartie du stress parmi les sources est attribuable aux sources 1 et 2 tandis que,

Page 376: SPSS Categories 14.0

358

Chapitre 14

parmi les objets, elle est imputable aux éléments Frère, Petite-fille, Grand-père,Grand-mère, Petit-fils et Soeur.

Les deux sources représentant la majeure partie du stress sont les deux groupesayant trié les termes une seule fois. Ces informations suggèrent que les étudiants ontconsidéré plusieurs critères lors du tri des termes et que les étudiants qui étaientautorisés à opérer deux tris se sont focalisés sur une partie de ces critères pour lepremier tri, puis ont pris en compte les autres critères à l’occasion du second tri.

Les objets qui représentent la majeure partie du stress sont ceux ayant un degréégal à 2. Ces personnes sont des relations n’appartenant pas à la famille « nucléaire» (Mère, Père, Fille, Fils), mais qui sont néanmoins plus proches que les autresrelations. Cette position intermédiaire pourrait facilement créer un écart lors du tride ces termes.

Coordonnées finales de l’espace commun

Le diagramme de l’espace commun fournit une représentation visuelle des relationsentre les objets.

Figure 14-16Coordonnées de l’espace commun

Page 377: SPSS Categories 14.0

359

Positionnement multidimensionnel

Observez les coordonnées finales des objets dans les dimensions 1 et 3 ; il s’agitdu diagramme situé dans l’angle inférieur gauche de la matrice de diagrammes dedispersion. Ce diagramme montre que la dimension 1 (sur l’axe x) est corrélée avec lavariable sexe et que la dimension 3 (sur l’axe y) est corrélée avec la variable génér. Degauche à droite, vous pouvez constater que la dimension 1 sépare les termes femme ethomme, entre lesquels figure le terme à la fois masculin et féminin Cousin/Cousine.De bas en haut du diagramme, les valeurs croissantes le long de l’axe correspondentaux termes plus anciens.

Observez maintenant les coordonnées finales des objets dans les dimensions2 et 3 ; il s’agit du diagramme situé au milieu à droite de la matrice de diagrammesde dispersion. Ce diagramme indique que la deuxième dimension (le long de l’axey) correspond à la variable degré, les valeurs les plus élevées le long de l’axecorrespondant à des termes relevant davantage de la famille « nucléaire ».

Solution tridimensionnelle avec transformations personnalisées

La solution précédente a été calculée à l’aide de la transformation de ratio pardéfaut pour les proximités et des transformations d’intervalles pour les variablesindépendantes génér et degré. Les résultats sont assez bons, mais vous pouvez lesaméliorer à l’aide d’autres transformations. Par exemple, les proximités sexe et degrésont toutes naturellement ordonnées, mais une transformation ordinale permet demieux les modéliser qu’une transformation linéaire.

Page 378: SPSS Categories 14.0

360

Chapitre 14

Figure 14-17Boîte de dialogue Modèle

E Pour réexécuter l’analyse, en codant les proximités génér et degré au niveau ordinal(conservation des ex aequo), affichez à nouveau la boîte de dialogue Positionnementmultidimensionnel, puis cliquez sur Modèle.

E Sélectionnez l’option Ordinal comme transformation de proximités.

E Cliquez sur Poursuivre.

E Cliquez sur Restrictions dans la boîte de dialogue Positionnement multidimensionnel.

Page 379: SPSS Categories 14.0

361

Positionnement multidimensionnel

Figure 14-18Boîte de dialogue Restrictions

E Sélectionnez les options sexe et degré.

E Sélectionnez l’option Ordinal (conserver les ex-aequo) dans la liste déroulanteTransformations des variables indépendantes.

E Cliquez sur Changer.

E Cliquez sur Poursuivre.

E Cliquez sur OK dans la boîte de dialogue Positionnement multidimensionnel.

Diagrammes de transformation

Les diagrammes de transformation sont un premier indice efficace pour déterminer siles transformations initiales étaient appropriées. Si les diagrammes sont à peu prèslinéaires, l’hypothèse linéaire est appropriée. Sinon, vérifiez si les mesures de stressindiquent une amélioration de l’ajustement, et si le diagramme de l’espace communfacilite l’interprétation.

Page 380: SPSS Categories 14.0

362

Chapitre 14

Chacune des variables indépendantes obtenant des transformations à peu prèslinéaires, il peut s’avérer approprié de les interpréter en tant que données numériques.Toutefois, les proximités n’obtenant pas de transformation linéaire, il est possible quela transformation ordinale convienne davantage pour celles-ci.

Figure 14-19Transformations transformées

Mesures de stress

Le stress de la solution actuelle prend en charge l’argument de codage des proximitésau niveau ordinal.

Figure 14-20Mesures de stress et d’ajustement

Page 381: SPSS Categories 14.0

363

Positionnement multidimensionnel

Le stress ligne normalisé de la solution antérieure a pour valeur 0,06234. Le codagedes variables à l’aide de transformations personnalisées divise par 2 la valeur dustress, qui passe à 0,03137.

Coordonnées finales de l’espace commun

Les diagrammes de l’espace commun offrent essentiellement la même interprétationdes dimensions que la solution précédente.

Figure 14-21Coordonnées de l’espace commun

Analyse

Il est préférable de traiter les proximités en tant que variables ordinales, dans lamesure où les mesures de stress affichent une amélioration sensible. Ensuite, vouspouvez, si vous le souhaitez, « délier » les variables ordinales—c’est-à-dire, permettreà des valeurs équivalentes des variables initiales d’obtenir différentes valeurstransformées. Par exemple, dans la première source, les proximités entre Tante et Fils,ainsi qu’entre Tante et Petit-fils, ont pour valeur 85. L’approche « liée » des variablesordinales oblige les valeurs transformées de ces proximités à être équivalentes, mais

Page 382: SPSS Categories 14.0

364

Chapitre 14

vous n’avez aucune raison particulière de supposer qu’elles doivent l’être. Dansce cas, vous pouvez autoriser la suppression des liens des proximités de manière àéviter toute restriction superflue.

Lectures recommandées

Pour plus d’informations sur le positionnement multidimensionnel, reportez-vousaux documents suivants :

Commandeur, J. J. F., et W. J. Heiser. 1993. Mathematical derivations in theproximity scaling (PROXSCAL) of symmetric data matrices. Leiden: Departmentof Data Theory, University of Leiden.

De Leeuw, J., et W. J. Heiser. 1980. Multidimensional scaling with restrictions on theconfiguration. Dans : Multivariate Analysis, Vol. V, P. R. Krishnaiah, ed. Amsterdam:North-Holland, 501–522.

Heiser, W. J. 1981. Unfolding analysis of proximity data. Leiden: Department of DataTheory, University of Leiden.

Heiser, W. J., et F. M. T. A. Busing. 2004. Multidimensional scaling and unfolding ofsymmetric and asymmetric proximity relations. Dans : Handbook of QuantitativeMethodology for the Social Sciences, D. Kaplan, ed. Thousand Oaks, Calif.: SagePublications, Inc, 25–48.

Kruskal, J. B. 1964. Multidimensional scaling by optimizing goodness of fit to anonmetric hypothesis. Psychometrika, 29, 1–28.

Kruskal, J. B. 1964. Nonmetric multidimensional scaling: A numerical method.Psychometrika, 29, 115–129.

Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with anunknown distance function I. Psychometrika, 27, 125–140.

Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with anunknown distance function II. Psychometrika, 27, 219–246.

Page 383: SPSS Categories 14.0

Chapitre

15Dépliage multidimensionnel

PREFSCAL effectue une procédure de dépliage multidimensionnel sur deuxensembles d’objets afin de trouver une échelle quantitative commune vous permettantd’examiner les relations entre les objets de manière visuelle.

Exemple : Préférences alimentaires du petit-déjeuner

Dans une étude classique(Green et Rao, 1972)on a demandé à 21 étudiants en MBA(Master of Business Administration) de l’école de Wharton et à leurs conjoints declasser 15 aliments du petit-déjener selon leurs préférences, de 1= « aliment préféré» à 15= « aliment le moins apprécié ». Ces informations sont rassemblées dans lefichier breakfast_overall.sav.

Le résultat de l’étude illustre un exemple de problème de dégénérescence typique,inhérent à la plupart des algorithmes de dépliage multidimensionnel, résolu enpénalisant le coefficient de variation des proximités transformées.(Busing et al.,2005). Vous allez voir ce qu’est une solution dégénérée et comment résoudre leproblème à l’aide du dépliage multidimensionnel, qui permet de déterminer la logiquesuivie par les individus dans leur classement. La syntaxe servant à reproduire cesanalyses se trouve dans prefscal_breakfast-overall.sps.

Création d’une solution dégénérée

Voici la syntaxe de commande utilisée pour produire une solution dégénérée :

PREFSCALVARIABLES = tp TO cmb

/INITIAL = CLASSICAL(SPEARMAN)/PENALTY = LAMBDA(1.0) OMEGA(0.0)/PLOT = COMMON.

365

Page 384: SPSS Categories 14.0

366

Chapitre 15

Cette syntaxe indique une analyse des variables tb (pain grillé) à cmb (tartinebeurrée).

La sous-commande INITIAL spécifie que les valeurs de départ sont calculéesà l’aide des distances de Spearman.

Les valeurs spécifiées dans la sous-commande PENALTY annulent le terme depénalité et, par conséquent, la procédure minimise la mesure du stress-I deKruskal. Ceci résulte donc en une solution dégénérée.

La sous-commande PLOT demande des diagrammes de l’espace commun.

Tous les autres paramètres sont réinitialisés à leur valeur par défaut.

MesuresFigure 15-1Mesures de la solution dégénérée

Page 385: SPSS Categories 14.0

367

Dépliage multidimensionnel

L’algorithme converge vers une solution après 154 itérations et applique un stresspénalisé (marqué comme la valeur de la fonction finale) de 0,0000990. Etant donnéque le terme de pénalité a été désactivé, la mesure du stress pénalisé est égale auStress-I de Kruskal (la partie stress de la valeur de la fonction est équivalente à lamesure du défaut de l’ajustement de Kruskal). Des valeurs de stress basses indiquentgénéralement que la solution est bien adaptée aux données, mais il existe certainssignes d’avertissement d’une solution dégénérée.

Le coefficient de variation des proximités transformées est très faible comparé aucoefficient de variation des proximités d’origine. Ceci suggère que les proximitéstransformées de chaque ligne sont quasi-constantes et que la solution ne montreraainsi aucune discrimination entre les objets.

La somme des carrés des indices d’« intermixité » de DeSarbo sont une mesure del’intermixité des points des différents sous-ensembles. L’absence d’intermixitéest un signe d’avertissement d’une dégénérescence probable de la solution. Plusla valeur rapportée est proche de 0, plus la solution est intermixée. Plus elle estélevée, moins la solution est intermixée.

L’index estimatif de non-dégénérescence de Shepard, rapporté sous forme d’unpourcentage des différentes distances, est égal à 0. Il s’agit là d’une indicationnumérique claire d’une différence insuffisante entre les distances et donc de ladégénérescence probable de la solution.

Page 386: SPSS Categories 14.0

368

Chapitre 15

Espace communFigure 15-2Diagramme joint de l’espace commun pour une solution dégénérée

Le diagramme joint de l’espace commun des objets de lignes et de colonnes apporteune confirmation visuelle de la dégénérescence de la solution. Les objets de lignes(individus) se situent à la circonférence d’un cercle centré sur les objets de colonnes(aliments du petit-déjeuner), dont les coordonnées se sont réduites à un point unique.

Exécution d’une analyse non-dégénérée

Voici la syntaxe de commande utilisée pour produire une solution non-dégénérée :

PREFSCALVARIABLES = tp TO cmb

/INITIAL = CLASSICAL(SPEARMAN)/PENALTY = LAMBDA(0.5) OMEGA(1.0)/PLOT = COMMON.

La seule différence réside dans la sous-commande PENALTY. LAMBDA et OMEGAont été définies respectivement sur 0,5 et 1,0, leurs valeurs pas défaut.

Page 387: SPSS Categories 14.0

369

Dépliage multidimensionnel

MesuresFigure 15-3Mesures de la solution non-dégénérée

Les problèmes relevés dans les mesures de la solution dégénérée sont à présentcorrigés.

Le stress normalisé n’est plus égal à 0.

Le coefficient de variation des proximités transformées présente maintenant unevaleur similaire au coefficient de variation des proximités d’origine.

Page 388: SPSS Categories 14.0

370

Chapitre 15

Les indices d’« intermixité » de DeSarbo sont beaucoup plus proches de 0,indiquant une grande amélioration de l’intermixité de la solution.

L’index estimatif de non-dégénérescence de Shepard, rapporté sous forme d’unpourcentage des différentes distances, est environ égal à 80 %. Les différencesentre les distances sont suffisantes et la solution est probablement non-dégénérée.

Espace commun

Figure 15-4Diagramme joint de l’espace commun pour une solution non-dégénérée

Le diagramme joint de l’espace commun permet une interprétation des dimensions.La dimension horizontale semble indiquer une discrimination entre les pains mouset durs ou encore les toasts, les aliments les plus mous se trouvant dans la partiedroite de l’axe. La dimension verticale ne permet pas une interprétation claire,peut-être uniquement une discrimination basée sur la commodité, les aliments les plus« formels » se trouvant dans la partie inférieure de l’axe.

Page 389: SPSS Categories 14.0

371

Dépliage multidimensionnel

Ceci conduit à la formation de plusieurs groupes d’aliments. Par exemple, les painsaux raisins, les brioches et les beignets forment un groupe d’aliments mous et quelquepeu informels. Les croissants et pains au chocolat forment un groupe d’aliments plusdurs et plus formels. Les toasts et tartines forment un groupe d’aliments durs etquelque peu informels. Le pain grillé est un aliment dur, extrêmement informel.

Les individus représentés par les objets de lignes se divisent en plusieurs groupesbien délimités, selon leurs préférences pour les aliments mous ou durs, avec denombreuses variations intra-groupes le long de la dimension verticale.

Exemple : Dépliage tridimensionnel des préférences relativesaux aliments du petit-déjeuner

Dans une étude classique(Green et Rao, 1972)on a demandé à 21 étudiants en MBA(Master of Business Administration) de l’école de Wharton et à leurs conjoints declasser 15 aliments du petit-déjener selon leurs préférences, de 1= « aliment préféré» à 15= « aliment le moins apprécié ». Leurs préférences ont été enregistrées danssix scénarios différents, allant de « Préférence générale » à « En-cas avec boissonuniquement ». Ces informations sont rassemblées dans le fichier breakfast.sav.

Les six scénarios peuvent être traités en tant que sources distinctes. Utilisez laprocédure PREFSCAL pour effectuer un dépliage tridimensionnel des lignes, descolonnes et des sources. La syntaxe servant à reproduire ces analyses se trouve dansprefscal_breakfast.sps.

Exécution de l’analyse

Voici la syntaxe de commande utilisée pour produire une solution tridimensionnelle :

PREFSCAL VARIABLES = tp TO cmb/INPUT = SOURCES(srcid)/INITIAL = CLASSICAL(SPEARMAN)/MODEL = WEIGHTED/PLOT= COMMON INDIVIDUAL WEIGHTS.

Cette syntaxe indique une analyse des variables tb (pain grillé) à cmb (tartinebeurrée). La variablesrcid est utilisée pour identifier les sources.

Page 390: SPSS Categories 14.0

372

Chapitre 15

La sous-commande INITIAL spécifie que les valeurs de départ sont calculéesà l’aide des distances de Spearman.

La sous-commande MODEL spécifie un modèle Euclidien pondéré, qui permet àchaque espace individuel de pondérer les dimensions de l’espace commun d’unemanière différente.

La sous-commande PLOT demande des diagrammes de l’espace commun, desespaces individuels et des pondérations des espaces individuels.

Tous les autres paramètres sont réinitialisés à leur valeur par défaut.

MesuresFigure 15-5Mesures

Page 391: SPSS Categories 14.0

373

Dépliage multidimensionnel

L’algorithme converge après 481 itérations, avec une mesure du stress pénalisé finalede 0,8199642. Les coefficients de variation et l’index de Shepard sont suffisammentélevés et les indices de DeSarbo suffisamment bas pour suggérer qu’il n’existe aucunproblème de dégénérescence.

Espace communFigure 15-6Diagramme joint de l’espace commun

Le diagramme joint de l’espace commun montre une configuration finale trèssimilaire à l’analyse bidimensionnelle des préférences générales, avec une solutiontransposée au-dessus de la ligne des 45 °. Ainsi, la dimension verticale sembleindiquer une discrimination entre les pains mous et durs ou encore les toasts, lesaliments les plus mous se trouvant dans la partie supérieure de l’axe. La dimensionhorizontale ne permet pas une interprétation claire, peut-être uniquement unediscrimination basée sur la commodité, les aliments les plus « formels » se trouvantdans la partie gauche de l’axe.

Page 392: SPSS Categories 14.0

374

Chapitre 15

Les individus représentés par les objets de lignes se divisent toujours en plusieursgroupes bien délimités, selon leurs préférences pour les aliments « mous » ou « durs »,avec de nombreuses variations intra-groupes le long de la dimension horizontale.

Espaces individuelsFigure 15-7Pondérations des dimensions

Un espace individuel est calculé pour chaque source. Les pondérations desdimensions indiquent l’impact des différents espaces individuels sur les dimensionsde l’espace commun. Une pondération plus élevée indique une plus grande distanceà l’intérieur de l’espace individuel et donc une plus grande discrimination entre lesobjets de la dimension en question pour cet espace individuel.

La spécificité est une mesure de la différence entre l’espace individuel et l’espacecommun. Un espace individuel identique à l’espace commun présenterait despondérations de dimensions identiques et une spécificité de 0, alors qu’unespace individuel spécifique à une dimension particulière présenterait une seulepondération de dimension élevée et une spécificité de 1. Dans le cas présent, les

Page 393: SPSS Categories 14.0

375

Dépliage multidimensionnel

sources les plus divergentes sont Petit-déjeuner avec jus de fruit, jambon, oeufs etboisson et En-cas avec boisson chaude uniquement.

L’importance est la mesure de la contribution relative de chaque dimension à lasolution. Dans le cas présent, les dimensions présentent une importance égale.

Figure 15-8Pondérations des dimensions

Le diagramme des pondérations des dimensions offre une vue d’ensemble du tableaudes pondérations. Les groupes Petit-déjeuner avec jus de fruit, jambon, oeufs etboisson et En-cas avec boisson uniquement sont les plus proches des axes desdimensions, mais aucun des deux n’est spécifiquement rattaché à une dimensionparticulière.

Page 394: SPSS Categories 14.0

376

Chapitre 15

Figure 15-9Diagramme joint de l’espace individuel « Petit-déjeuner avec jus de fruit, jambon, oeufs etboisson »

Le diagramme joint de l’espace individuel Petit-déjeuner avec jus de fruit, jambon,oeurs et boisson illustre l’effet de ce scénario sur les préférences. La source reposemajoritairement sur la premère dimension, donc la différentiation entre les alimentsest principalement due à la première dimension.

Page 395: SPSS Categories 14.0

377

Dépliage multidimensionnel

Figure 15-10Diagramme joint de l’espace individuel « En-cas avec boisson uniquement »

Le diagramme joint de l’espace individuel En-cas avec boisson uniquement illustrel’effet de ce scénario sur les préférences. La source repose majoritairement sur ladeuxième dimension, donc la différentiation entre les aliments est principalement dueà la deuxième dimension. Cependant, une mineure partie de la différentiation se faitégalement le long de la première dimension en raison de la spécificité relativementbasse de la source.

Utilisation d’une configuration initiale différente

La configuration finale peut dépendre des points de départs donnés à l’algorithme.Idéalement, la structure générale de la solution doit rester la même, sans quoi il peuts’avérer difficile de déterminer laquelle est correcte. Cependant, des variationsstructurelles de détail peuvent être envisagées dans différentes configurations initiales,comme par exemple l’utilisation d’un départ par correspondance dans l’analysetridimensionnelle des données du petit-déjeuner.

Page 396: SPSS Categories 14.0

378

Chapitre 15

Voici la syntaxe de commande utilisée pour produire la solution :

PREFSCALVARIABLES = tp TO cmb

/INPUT = SOURCES(srcid)/INITIAL = CORRESPONDENCE/MODEL = WEIGHTED/PLOT = COMMON INDIVIDUAL WEIGHTS.

La seule différence réside dans la sous-commande INITIAL. La configurationde départ a été définie sur CORRESPONDENCE, qui utilise les résultats d’uneanalyse des correspondances sur les données inversées (similitudes au lieu desdifférences), avec une normalisation symétrique des coordonnées des ligneset des colonnes.

Page 397: SPSS Categories 14.0

379

Dépliage multidimensionnel

MesuresFigure 15-11Mesures de la configuration initiale des correspondances

L’algorithme converge après 385 itérations, avec une mesure du stress pénalisé finalede 0,8140741. Les valeurs de cette statistique, du défaut de l’ajustement, de la qualitéde l’ajustement, des coefficients de variation et de l’index de Shepard sont toutes trèssimilaires à celles de la solution utilisant le départ de Spearman classique. Les indicesde DeSarbo sont quelque peu différents, avec une valeur de 1,7571887 au lieu de0,2199287, ce qui suggère que la solution utilisant le départ par correspondance n’estpas aussi mixte. Pour voir dans quelle mesure ceci affecte la solution, reportez-vousau diagramme joint de l’espace commun.

Page 398: SPSS Categories 14.0

380

Chapitre 15

Espace communFigure 15-12Diagramme joint de l’espace commun pour la configuration initiale des correspondances

Le diagramme joint de l’espace commun montre une configuration finale similaire àl’analyse faite avec la configuration initiale de Spearman classique. Cependant, lesobjets de colonnes (aliments du petit-déjeuner) se situent autour des objets de lignes(individus) au lieu que l’ensemble soit intermixé.

Page 399: SPSS Categories 14.0

381

Dépliage multidimensionnel

Espaces individuelsFigure 15-13Pondérations des dimensions pour la configuration initiale des correspondances

Dans la configuration initiale des correspondances, chaque espace individuel présenteune spécificité plus élevée, c’est à dire que chaque situation dans laquelle lesparticipants ont classé les aliments de petit-déjeuner est plus fortement associée à unedimension spécifique. Les sources les plus divergentes sont toujours Petit-déjeuneravec jus de fruit, jambon, oeufs et boisson et En-cas avec boisson uniquement.

Page 400: SPSS Categories 14.0

382

Chapitre 15

Figure 15-14Diagramme joint de l’espace individuel « Petit-déjeuner avec jus de fruit, jambon, oeufs etboisson » pour la configuration initiale des correspondances

La spécificité plus élevée apparaît clairement dans le diagramme joint de l’espaceindividuel Petit-déjeuner avec jus de fruit, jambon, oeufs et boisson. La source affecteencore plus fortement la première dimension que dans le cas du départ de Spearmanclassique, si bien que les objets de colonnes et de lignes présentent une variation unpeu moins importante sur l’axe vertical et un peu plus importante sur l’axe horizontal.

Page 401: SPSS Categories 14.0

383

Dépliage multidimensionnel

Figure 15-15Diagramme joint de l’espace individuel « En-cas avec boisson uniquement » pour laconfiguration initiale des correspondances

Le diagramme joint de l’espace individuel En-cas avec boissson uniquement montreque les objets de lignes et de colonnes sont plus proches d’une ligne verticale quedans le cas du départ de Spearman classique.

Exemple : Examen de la justesse de la relationcomportement-situation

Dans un exemple classique,(Price et Bouffard, 1974)on a demandé à 52 étudiants denoter les combinaisons établies à partir de 15 situations et de 15 comportementssur une échelle de 0 à 9, où 0 = ’extrêmement approprié’ et 9 = ’extrêmementinapproprié’. En effectuant la moyenne des résultats de l’ensemble des individus, onconstate une certaine différence entre les valeurs.

Page 402: SPSS Categories 14.0

384

Chapitre 15

Ces informations sont rassemblées dans le fichier behavior.sav. Utilisez ledépliage multidimensionnel pour établir des groupes de situations similaires et lescomportements avec lesquels elles sont le plus souvent associées. La syntaxe servantà reproduire ces analyses se trouve dans prefscal_behavior.sps.

Exécution de l’analyse

Voici la syntaxe de commande utilisée pour produire une solution initiale :

PREFSCALVARIABLES = run TO shout

/INPUT = ROWS(rowid)/INITIAL = ('C:\Program Files\SPSS\Tutorial\sample_files\behavior_ini.sav')/CONDITION = UNCONDITIONAL/TRANSFORMATION = LINEAR(INTERCEPT)/PLOT = COMMON TRANSFORM.

Cette syntaxe spécifie une analyse des variables courir à crier. La variable idligneest utilisée pour identifier les lignes.

La sous-commande INITIAL spécifie que les valeurs de départ doivent être tiréesdu fichier behavior_ini.sav. Les coordonnées des lignes et des colonnes sontempilées, avec les coordonnées des colonnes à la suite des coordonnées des lignes.

La sous-commande CONDITION spécifie que toutes les proximités peuvent êtrecomparées entre elles. Ceci est vérifié pour cette analyse : en comparant lesproximités obtenues pour les comportements « courir dans un parc » et « courirdans une église » vous observez que l’un des deux comportements est considérémoins approprié que l’autre.

La sous-commande TRANSFORMATION indique une transformation linéaire desproximités avec constante. Ceci est approprié si une différence de 1 point dans lesproximités est observée dans tout l’intervalle. En d’autres termes, si les étudiantsont attribué leurs notes de manière à ce que la différence entre 0 et 1 est la mêmeque la différence entre 5 et 6, alors une transformation linéaire est appropriée.

La sous-commande PLOT demande des diagrammes de l’espace commun et desdiagrammes de transformation.

Tous les autres paramètres sont réinitialisés à leur valeur par défaut.

Page 403: SPSS Categories 14.0

385

Dépliage multidimensionnel

MesuresFigure 15-16Mesures

L’algorithme converge après 169 itérations, avec une mesure du stress pénalisé finalede 0,6427725. Les coefficients de variation et l’index de Shepard sont suffisammentélevés et les indices de DeSarbo suffisamment bas pour suggérer qu’il n’existe aucunproblème de dégénérescence.

Page 404: SPSS Categories 14.0

386

Chapitre 15

Espace communFigure 15-17Diagramme join de l’espace commun

La dimension horizontale apparaît plus fortement associée aux objets de colonnes(comportements) et établit une discrimination entre les comportements inappropriés(se battre, roter) et les comportements plus appropriés. La dimension verticaleapparaît plus fortement associée aux objets de lignes (situations) et définit différentesrestrictions parmi les relations comportement-situation établies.

Dans la partie inférieure de la dimension verticale se situent les situations (àl’église, en classe) restreintes aux types de comportements plus calmes etintrospectifs (lire, écrire). Ainsi, ces comportements sont contenus dans la partieinférieure de l’axe vertical.

Page 405: SPSS Categories 14.0

387

Dépliage multidimensionnel

Dans la partie supérieure de la dimension verticale se trouvent les situations (films,jeux, rendez-vous) restreintes aux types de comportements sociables/extrovertis(manger, embrasser, rire). Ainsi, ces comportements sont contenus dans la partiesupérieure de l’axe vertical.

Au centre de la dimension verticale, les situations sont réparties distinctivementle long de la dimension horizontale selon le caractère restrictif de la situation.Les situations les plus éloignées des comportements (en entretien) sont les plusrestrictives, alors que celles les proches des comportements (dans la chambre, auparc) sont généralement les moins restrictives.

Transformations de proximitéFigure 15-18Diagramme de transformation

Les proximités étaient traitées comme linéaires dans cette analyse, de manière à ceque le diagramme représentant les valeurs transformées en fonction des proximitésd’origine forme une ligne droite. L’ajustement de cette solution est bon, mais unmeilleur ajustement peut être obtenu par une transformation différente des proximités.

Page 406: SPSS Categories 14.0

388

Chapitre 15

Modification de la transformation des proximités

Voici la syntaxe de commande utilisée pour produire une solution initiale :

PREFSCALVARIABLES = run TO shout

/INPUT = ROWS(rowid)/INITIAL = ('C:\Program Files\SPSS\Tutorial\sample_files\behavior_ini.sav')/CONDITION = UNCONDITIONAL/TRANSFORMATION = ORDINAL(KEEPTIES)/PLOT = COMMON TRANSFORM.

La seule différence réside dans la sous-commande TRANSFORMATION. Latransformation est définie sur ORDINAL, ce qui préserve l’ordre des proximitésmais ne nécessite pas que les valeurs transformées soient proportionnelles auxvaleurs d’origine.

Page 407: SPSS Categories 14.0

389

Dépliage multidimensionnel

MesuresFigure 15-19Mesures de la solution avec transformation ordinale

L’algorithme converge après 268 itérations, avec une mesure du stress pénalisé finalede 0,6044671. Cette statistique et les autres mesures sont légèrement meilleures pourcette solution que pour celle obtenue par transformation linéaire des proximités.

Page 408: SPSS Categories 14.0

390

Chapitre 15

Espace communFigure 15-20Diagramme joint de l’espace commun pour la solution avec transformation ordinale

L’interprétation de l’espace commun est la même pour les deux solutions. Cettesolution (transformation ordinale) présente une variation relativement plus faible surla dimension verticale que sur la dimension horizontale contrairement à la solutionavec transformation linéaire.

Page 409: SPSS Categories 14.0

391

Dépliage multidimensionnel

Transformations de proximitéFigure 15-21Diagramme de transformation de la solution avec transformation ordinale

A l’exception des valeurs aux proximités les plus élevées, qui se distinguent du restedes valeurs, la transformation ordinale des proximités est relativement linéaire.Ces proximités élevées non-linéaires constituent la principale différence entre lessolutions ordinale et linéaire ; cependant, nous ne disposons pas de suffisammentd’informations pour déteminer si cette tendance non-linéaire dans les valeurs les plusélevées s’avère être une tendance vérifiée ou une anomalie.

Lectures recommandées

Reportez-vous aux écrits suivants pour plus d’informations :

Busing, F. M. T. A., P. J. F. Groenen, et W. J. Heiser. 2005. Avoiding degeneracyin multidimensional unfolding by penalizing on the coefficient of variation.Psychometrika, 70, 71–98.

Page 410: SPSS Categories 14.0

392

Chapitre 15

Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.:Dryden Press.

Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situationalconstraints as dimensions of social behavior. Journal of Personality and SocialPsychology, 30, 579–586.

Page 411: SPSS Categories 14.0

Bibliographie

Barlow, R. E., D. J. Bartholomew, D. J. Bremner, et H. D. Brunk. 1972. Statisticalinference under order restrictions. New York: John Wiley and Sons.

Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study ofsociology. New York: Harper & Row.

Benzécri, J. P. 1969. Statistical analysis as a tool to make patterns emerge fromdata. Dans : Methodologies of Pattern Recognition, S. Watanabe, ed. New York:Academic Press, 35–74.

Benzécri, J. P. 1992. Correspondence analysis handbook. New York: Marcel Dekker.

Bishop, Y. M., S. E. Feinberg, et P. W. Holland. 1975. Discrete multivariate analysis.Cambridge, Mass.: MIT Press.

Breiman, L., et J. H. Friedman. 1985. Estimating optimal transformations formultiple regression and correlation. Journal of the American Statistical Association,80, 580–598.

Buja, A. 1990. Remarks on functional canonical variates, alternating least squaresmethods and ACE. Annals of Statistics, 18, 1032–1069.

Busing, F. M. T. A., P. J. F. Groenen, et W. J. Heiser. 2005. Avoiding degeneracyin multidimensional unfolding by penalizing on the coefficient of variation.Psychometrika, 70, 71–98.

Carroll, J. D. 1968. Generalization of canonical correlation analysis to three ormore sets of variables. Dans : Proceedings of the 76th Annual Convention of theAmerican Psychological Association, 3, Washington,D.C.: American PsychologicalAssociation, 227–228.

Commandeur, J. J. F., et W. J. Heiser. 1993. Mathematical derivations in theproximity scaling (PROXSCAL) of symmetric data matrices. Leiden: Departmentof Data Theory, University of Leiden.

De Haas, M., J. A. Algera, H. F. J. M. Van Tuijl, et J. J. Meulman. 2000. Macro andmicro goal setting: In search of coherence. Applied Psychology, 49, 579–595.

De Leeuw, J. 1982. Nonlinear principal components analysis. Dans : COMPSTATProceedings in Computational Statistics, Vienna: PhysicaVerlag, 77–89.

393

Page 412: SPSS Categories 14.0

394

Bibliographie

De Leeuw, J. 1984. Canonical analysis of categorical data, 2nd ed. Leiden: DSWOPress.

De Leeuw, J. 1984. The Gifi system of nonlinear multivariate analysis. Dans : DataAnalysis and Informatics III, E. Diday, et al., ed., 415–424.

De Leeuw, J., et W. J. Heiser. 1980. Multidimensional scaling with restrictions on theconfiguration. Dans : Multivariate Analysis, Vol. V, P. R. Krishnaiah, ed. Amsterdam:North-Holland, 501–522.

De Leeuw, J., et J. Van Rijckevorsel. 1980. HOMALS and PRINCALS—Somegeneralizations of principal components analysis. Dans : Data Analysis andInformatics, E. Diday, et al., ed. Amsterdam: North-Holland, 231–242.

De Leeuw, J., F. W. Young, et Y. Takane. 1976. Additive structure in qualitative data:An alternating least squares method with optimal scaling features. Psychometrika,41, 471–503.

De Leeuw, J. 1990. Multivariate analysis with optimal scaling. Dans : Progressin Multivariate Analysis, S. DasGupta, et J. Sethuraman, eds. Calcutta: IndianStatistical Institute.

Eckart, C., et G. Young. 1936. The approximation of one matrix by another one oflower rank. Psychometrika, 1, 211–218.

Fisher, R. A. 1938. Statistical methods for research workers. Edinburgh: Oliverand Boyd.

Fisher, R. A. 1940. The precision of discriminant functions. Annals of Eugenics,10, 422–429.

Gabriel, K. R. 1971. The biplot graphic display of matrices with application toprincipal components analysis. Biometrika, 58, 453–467.

Gifi, A. 1985. PRINCALS. Research Report UG-85-02. Leiden: Department of DataTheory, University of Leiden.

Gifi, A. 1990. Nonlinear multivariate analysis. Chichester: John Wiley and Sons.

Gilula, Z., et S. J. Haberman. 1988. The analysis of multivariate contingency tablesby restricted canonical and restricted association models. Journal of the AmericanStatistical Association, 83, 760–771.

Gower, J. C., et J. J. Meulman. 1993. The treatment of categorical information inphysical anthropology. International Journal of Anthropology, 8, 43–51.

Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.:Dryden Press.

Page 413: SPSS Categories 14.0

395

Bibliographie

Green, P. E., et Y. Wind. 1973. Multiattribute decisions in marketing: A measurementapproach. Hinsdale, Ill.: Dryden Press.

Greenacre, M. J. 1984. Theory and applications of correspondence analysis. London:Academic Press.

Guttman, L. 1941. The quantification of a class of attributes: A theory and methodof scale construction. Dans : The Prediction of Personal Adjustment, P. Horst, ed.New York: SocialScience Research Council, 319–348.

Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinatespace for configurations of points. Psychometrika, 33, 469–506.

Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons.

Hastie, T., et R. Tibshirani. 1990. Generalized additive models. London: Chapmanand Hall.

Hastie, T., R. Tibshirani, et A. Buja. 1994. Flexible discriminant analysis. Journal ofthe American Statistical Association, 89, 1255–1270.

Hayashi, C. 1952. On the prediction of phenomena from qualitative data and thequantification of qualitative data from the mathematico-statistical point of view.Annals of the Institute of Statitical Mathematics, 2, 93–96.

Heiser, W. J. 1981. Unfolding analysis of proximity data. Leiden: Department of DataTheory, University of Leiden.

Heiser, W. J., et F. M. T. A. Busing. 2004. Multidimensional scaling and unfolding ofsymmetric and asymmetric proximity relations. Dans : Handbook of QuantitativeMethodology for the Social Sciences, D. Kaplan, ed. Thousand Oaks, Calif.: SagePublications, Inc, 25–48.

Heiser, W. J., et J. J. Meulman. 1994. Homogeneity analysis: Exploring thedistribution of variables and their nonlinear relationships. Dans : CorrespondenceAnalysis in the Social Sciences: Recent Developments and Applications, M.Greenacre, et J. Blasius, eds. New York: Academic Press, 179–209.

Heiser, W. J., et J. J. Meulman. 1995. Nonlinear methods for the analysis ofhomogeneity and heterogeneity. Dans : Recent Advances in Descriptive MultivariateAnalysis, W. J. Krzanowski, ed. Oxford: OxfordUniversity Press, 51–89.

Horst, P. 1961. Generalized canonical correlations and their applications toexperimental data. Journal of Clinical Psychology, 17, 331–347.

Horst, P. 1961. Relations among m sets of measures. Psychometrika, 26, 129–149.

Israels, A. 1987. Eigenvalue techniques for qualitative data. Leiden: DSWO Press.

Page 414: SPSS Categories 14.0

396

Bibliographie

Kennedy, R., C. Riquier, et B. Sharp. 1996. Practical applications of correspondenceanalysis to categorical data in market research. Journal of Targeting, Measurement,and Analysis for Marketing, 5, 56–70.

Kettenring, J. R. 1971. Canonical analysis of several sets of variables. Biometrika,58, 433–460.

Kruskal, J. B. 1964. Multidimensional scaling by optimizing goodness of fit to anonmetric hypothesis. Psychometrika, 29, 1–28.

Kruskal, J. B. 1964. Nonmetric multidimensional scaling: A numerical method.Psychometrika, 29, 115–129.

Kruskal, J. B. 1965. Analysis of factorial experiments by estimating monotonetransformations of the data. Journal of the Royal Statistical Society Series B, 27,251–263.

Kruskal, J. B. 1978. Factor analysis and principal components analysis: Bilinearmethods. Dans : International Encyclopedia of Statistics, W. H. Kruskal, et J. M.Tanur, eds. New York: The Free Press, 307–330.

Kruskal, J. B., et R. N. Shepard. 1974. A nonmetric variety of linear factor analysis.Psychometrika, 39, 123–157.

Krzanowski , W. J., et F. H. C. Marriott. 1994. Multivariate analysis: Part I,distributions, ordination and inference. London: Edward Arnold.

Lebart, L., A. Morineau, et K. M. Warwick. 1984. Multivariate descriptive statisticalanalysis. New York: John Wiley and Sons.

Lingoes, J. C. 1968. The multivariate analysis of qualitative data. MultivariateBehavioral Research, 3, 61–94.

Max, J. 1960. Quantizing for minimum distortion. Proceedings IEEE (InformationTheory), 6, 7–12.

Meulman, J. J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWOPress.

Meulman, J. J. 1986. A distance approach to nonlinear multivariate analysis. Leiden:DSWO Press.

Meulman, J. J. 1992. The integration of multidimensional scaling and multivariateanalysis with optimal transformations of the variables. Psychometrika, 57, 539–565.

Meulman, J. J. 1993. Principal coordinates analysis with optimal transformations ofthe variables: Minimizing the sum of squares of the smallest eigenvalues. BritishJournal of Mathematical and Statistical Psychology, 46, 287–300.

Page 415: SPSS Categories 14.0

397

Bibliographie

Meulman, J. J. 1996. Fitting a distance model to homogeneous subsets of variables:Points of view analysis of categorical data. Journal of Classification, 13, 249–266.

Meulman, J. J. 2003. Prediction and classification in nonlinear data analysis:Something old, something new, something borrowed, something blue. Psychometrika,4, 493–517.

Meulman, J. J., et W. J. Heiser. 1997. Graphical display of interaction in multiwaycontingency tables by use of homogeneity analysis. Dans : Visual Display ofCategorical Data, M. Greenacre, et J. Blasius, eds. New York: Academic Press,277–296.

Meulman, J. J., et P. Verboon. 1993. Points of view analysis revisited: Fittingmultidimensional structures to optimal distance components with cluster restrictionson the variables. Psychometrika, 58, 7–35.

Meulman, J. J., A. J. Van der Kooij, et A. Babinec. 2000. New features of categoricalprincipal components analysis for complicated data sets, including data mining. Dans: Classification, Automation and New Media, W. Gaul, et G. Ritter, eds. Berlin:Springer-Verlag, 207–217.

Meulman, J. J., A. J. Van der Kooij, et W. J. Heiser. 2004. Principal componentsanalysis with nonlinear optimal scaling transformations for ordinal and nominal data.Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan,ed. Thousand Oaks, Calif.: SagePublications, Inc, 49–70.

Nishisato, S. 1980. Analysis of categorical data: Dual scaling and its applications.Toronto: University of Toronto Press.

Nishisato, S. 1984. Forced classification: A simple application of a quantificationmethod. Psychometrika, 49, 25–36.

Nishisato, S. 1994. Elements of dual scaling: An introduction to practical dataanalysis. Hillsdale, N.J.: Lawrence Erlbaum Associates, Inc.

Pratt, J. W. 1987. Dividing the indivisible: Using simple symmetry to partitionvariance explained. Dans : Proceedings of the Second International Conference inStatistics, T. Pukkila, et S. Puntanen, eds. Tampere,Finland: University of Tampere,245–260.

Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situationalconstraints as dimensions of social behavior. Journal of Personality and SocialPsychology, 30, 579–586.

Ramsay, J. O. 1989. Monotone regression splines in action. Statistical Science, 4,425–441.

Page 416: SPSS Categories 14.0

398

Bibliographie

Rao, C. R. 1973. Linear statistical inference and its applications, 2nd ed. New York:John Wiley and Sons.

Rao, C. R. 1980. Matrix approximations and reduction of dimensionality inmultivariate statistical analysis. Dans : Multivariate Analysis, Vol. 5, P. R. Krishnaiah,ed. Amsterdam: North-Holland, 3–22.

Rosenberg, S., et M. P. Kim. 1975. The method of sorting as a data-gatheringprocedure in multivariate research. Multivariate Behavioral Research, 10, 489–502.

Roskam, E. E. 1968. Metric analysis of ordinal data in psychology. Voorschoten:VAM.

Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with anunknown distance function I. Psychometrika, 27, 125–140.

Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with anunknown distance function II. Psychometrika, 27, 219–246.

Shepard, R. N. 1966. Metric structures in ordinal data. Journal of MathematicalPsychology, 3, 287–315.

Tenenhaus, M., et F. W. Young. 1985. An analysis and synthesis of multiplecorrespondence analysis, optimal scaling, dual scaling, homogeneity analysis, andother methods for quantifying categorical multivariate data. Psychometrika, 50,91–119.

Theunissen, N. C. M., J. J. Meulman, A. L. Den Ouden, H. M. Koopman, G. H.Verrips, S. P. Verloove-Vanhorick, et J. M. Wit. 2003. Changes can be studied whenthe measurement instrument is different at different time points. Health Services andOutcomes Research Methodology, 4, 109–126.

Tucker, L. R. 1960. Intra-individual and inter-individual multidimensionality. Dans: Psychological Scaling: Theory & Applications, H. Gulliksen, et S. Messick, eds.New York: JohnWiley and Sons, 155–167.

Van der Burg, E. 1988. Nonlinear canonical correlation and some related techniques.Leiden: DSWO Press.

Van der Burg, E., et J. De Leeuw. 1983. Nonlinear canonical correlation. BritishJournal of Mathematical and Statistical Psychology, 36, 54–80.

Van der Burg, E., J. De Leeuw, et R. Verdegaal. 1988. Homogeneity analysis with ksets of variables: An alternating least squares method with optimal scaling features.Psychometrika, 53, 177–197.

Page 417: SPSS Categories 14.0

399

Bibliographie

Van der Ham, T., J. J. Meulman, D. C. Van Strien, et H. Van Engeland. 1997.Empirically based subgrouping of eating disorders in adolescents: A longitudinalperspective. British Journal of Psychiatry, 170, 363–368.

Vander Kooij, A. J., et J. J. Meulman. 1997. MURALS: Multiple regression andoptimal scaling using alternating least squares. Dans : Softstat ’97, F. Faulbaum, etW. Bandilla, eds. Stuttgart: Gustav Fisher, 99–106.

Van Rijckevorsel, J. 1987. The application of fuzzy coding and horseshoes in multiplecorrespondence analysis. Leiden: DSWO Press.

Verboon, P., et I. A. Van der Lans. 1994. Robust canonical discriminant analysis.Psychometrika, 59, 485–507.

Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (in Dutch). Leiden:Department of Data Theory, University of Leiden.

Vlek, C., et P. J. Stallen. 1981. Judging risks and benefits in the small and in thelarge. Organizational Behavior and Human Performance, 28, 235–271.

Wagenaar, W. A. 1988. Paradoxes of gambling behaviour. London: LawrenceErlbaum Associates, Inc.

Winsberg, S., et J. O. Ramsay. 1980. Monotonic transformations to additivity usingsplines. Biometrika, 67, 669–674.

Winsberg, S., et J. O. Ramsay. 1983. Monotone spline transformations for dimensionreduction. Psychometrika, 48, 575–595.

Wolter, K. M. 1985. Introduction to variance estimation. Berlin: Springer-Verlag.

Young, F. W. 1981. Quantitative analysis of qualitative data. Psychometrika, 46,357–387.

Young, F. W., J. De Leeuw, et Y. Takane. 1976. Regression with qualitative andquantitative variables: An alternating least squares method with optimal scalingfeatures. Psychometrika, 41, 505–528.

Young, F. W., Y. Takane, et J. De Leeuw. 1978. The principal components of mixedmeasurement level multivariate data: An alternating least squares method withoptimal scaling features. Psychometrika, 43, 279–281.

Zeijl, E., Y. te Poel, M. du Bois-Reymond, J. Ravesloot, et J. J. Meulman. 2000. Therole of parents and peers in the leisure activities of young adolescents. Journal ofLeisure Research, 32, 281–302.

Page 418: SPSS Categories 14.0
Page 419: SPSS Categories 14.0

Index

Ajustement

Dans l’analyse de corrélation canonique non

linéaire, 58Alpha de Cronbach

Dans l’analyse en composantes principales

nominales, 185Analyse de corrélation canonique non linéaire, 53,57–58, 237

Barycentres, 257coordonnées des modalités, 256Corrélations entre composantes, 248, 251Diagrammes, 53Fonctionnalités supplémentaires, 60Pondérations, 248quantifications, 252récapitulatif de l’analyse, 246statistiques, 53

Analyse de correspondance multiple, 75, 81, 319Coordonnées des objets, 324, 329Enregistrement de variables, 86Fonctionnalités supplémentaires, 90Mesures de discrimination, 326Niveau de codage optimal, 77récapitulatif du modèle, 323Valeurs affectées aux modalités, 327Valeurs éloignées, 333

Analyse des correspondances, 63, 65, 67–68,70–71, 271, 273, 293

contributions, 282, 300coordonnées principales des colonnes et des

lignes, 282Diagrammes, 63

diagrammes des coordonnées principales des

colonnes, 302diagrammes des coordonnées principales des

lignes, 302, 316Diagrammes doubles, 279Dimensions, 299Fonctionnalités supplémentaires, 73inertie par dimension, 278permutations, 285profils, 281Standardisation, 272statistiques, 63Statistiques de confiance, 286tableaux des correspondances, 277, 315

Analyse en composantes principales qualitatives,33, 41, 179, 195

Coordonnées des objets, 189, 193, 216Corrélations entre composantes, 191, 195, 214Enregistrement de variables, 46Fonctionnalités supplémentaires, 51Historique des itérations, 185Niveau de codage optimal, 36points de modalité, 219quantifications, 187, 210récapitulatif du modèle, 185, 193, 214

ANOVA

Dans la régression nominale, 29

Barycentres

Dans l’analyse de corrélation canonique non

linéaire, 58, 257

401

Page 420: SPSS Categories 14.0

402

Index

barycentres projetés

Dans l’analyse de corrélation canonique non

linéaire, 257

coefficient de variation

dans le dépliage multidimensionnel, 366, 369,372, 379, 385

Coefficients

Dans la régression nominale, 142Coefficients de régression

Dans la régression nominale, 29Configuration initiale

Dans l’analyse de corrélation canonique non

linéaire, 58Dans la régression nominale, 28dans le dépliage multidimensionnel, 117Dans le positionnement multidimensionnel, 103

contributions

Dans l’analyse des correspondances, 282, 300Coordonnées de l’espace commun

dans le dépliage multidimensionnel, 122Dans le positionnement multidimensionnel, 107

coordonnées de l’espace individuel

dans le dépliage multidimensionnel, 122coordonnées des modalités

Dans l’analyse de corrélation canonique non

linéaire, 256Coordonnées des objets

Dans l’analyse de corrélation canonique non

linéaire, 58Dans l’analyse en composantes principales

nominales, 44, 189, 193, 216Dans une analyse de correspondance multiple,84, 324, 329

coordonnées principales des colonnes

Dans l’analyse des correspondances, 282

coordonnées principales des lignes

Dans l’analyse des correspondances, 282Corrélations

Dans le positionnement multidimensionnel, 107Corrélations entre composantes

Dans l’analyse de corrélation canonique non

linéaire, 58, 251Dans l’analyse en composantes principales

nominales, 44, 191, 195, 214Corrélations partielles

Dans la régression nominale, 144Corrélations simples

Dans la régression nominale, 144Critères d’itération

dans le dépliage multidimensionnel, 117Dans le positionnement multidimensionnel, 103

Dépliage multidimensionnel, 111, 365, 383dégénérer les solutions, 365dépliage tridimensionnel, 371Diagrammes, 111, 119espace commun, 368, 370, 373, 380, 386, 390espaces individuels, 374, 381Fonctionnalités supplémentaires, 123mesures, 366, 369, 372, 379, 385, 389Modèle, 113Options, 117restrictions sur l’espace commun., 115Résultats, 122statistiques, 111transformations de proximité, 387, 391

dépliage tridimensionnel

dans le dépliage multidimensionnel, 371diagramme de dispersion de l’ajustement

dans le dépliage multidimensionnel, 119

Page 421: SPSS Categories 14.0

403

Index

diagramme join de l’espace commun

dans le dépliage multidimensionnel, 370, 373,380, 386, 390

diagramme joint de l’espace commun

dans le dépliage multidimensionnel, 368diagramme joint des espaces individuels

dans le dépliage multidimensionnel, 374, 381Diagrammes

Dans l’analyse de corrélation canonique non

linéaire, 58Dans l’analyse des correspondances, 71Dans la régression nominale, 31Dans le positionnement multidimensionnel, 104,106

diagrammes à départs multiples

dans le dépliage multidimensionnel, 119Diagrammes d’espace commun

dans le dépliage multidimensionnel, 119Dans le positionnement multidimensionnel, 104

Diagrammes d’espace individuel

dans le dépliage multidimensionnel, 119Dans le positionnement multidimensionnel, 104

Diagrammes de barycentres projetés

dans l’Analyse en composantes principales

nominales, 49Diagrammes de corrélations

Dans le positionnement multidimensionnel, 104diagrammes de l’espace commun final

dans le dépliage multidimensionnel, 119diagrammes de l’espace commun initial

dans le dépliage multidimensionnel, 119diagrammes de mesures de discrimination

Dans une analyse de correspondance multiple,88

Diagrammes de modalités

Dans l’analyse en composantes principales

nominales, 49Dans une analyse de correspondance multiple,88

Diagrammes de points d’objet

Dans l’analyse en composantes principales

nominales, 47Dans une analyse de correspondance multiple,87

Diagrammes de pondération d’espace individuel

dans le dépliage multidimensionnel, 119Dans le positionnement multidimensionnel, 104

diagrammes de pondération des espaces

dans le dépliage multidimensionnel, 119Diagrammes de saturations

dans l’Analyse en composantes principales

nominales, 50Diagrammes de Shepard

dans le dépliage multidimensionnel, 119Diagrammes de stress

dans le dépliage multidimensionnel, 119Dans le positionnement multidimensionnel, 104

Diagrammes de transformation

dans l’Analyse en composantes principales

nominales, 49Dans la régression nominale, 146dans le dépliage multidimensionnel, 119, 387,391

Dans le positionnement multidimensionnel, 104,361

Dans une analyse de correspondance multiple,88

diagrammes des coordonnées principales des

colonnes

Dans l’analyse des correspondances, 302

Page 422: SPSS Categories 14.0

404

Index

diagrammes des coordonnées principales des lignes

Dans l’analyse des correspondances, 302, 316diagrammes des résidus

dans le dépliage multidimensionnel, 119Diagrammes doubles

Dans l’analyse des correspondances, 71, 279Dans l’analyse en composantes principales

nominales, 47Dans une analyse de correspondance multiple,87

Diagrammes triples

Dans l’analyse en composantes principales

nominales, 47Dimensions

Dans l’analyse des correspondances, 68, 299Discrétisation

Dans l’analyse en composantes principales

nominales, 38Dans la régression nominale, 25Dans une analyse de correspondance multiple,78

Distances

dans le dépliage multidimensionnel, 122Dans le positionnement multidimensionnel, 107

espace commun

dans le dépliage multidimensionnel, 368, 370,373, 380, 386, 390

Dans le positionnement multidimensionnel, 358,363

espaces individuels

dans le dépliage multidimensionnel, 374, 381

Historique des itérations

Dans l’analyse en composantes principales

nominales, 44, 185

dans le dépliage multidimensionnel, 122Dans le positionnement multidimensionnel, 107Dans une analyse de correspondance multiple,84

importance

Dans la régression nominale, 144Index estimatif de non-dégénérescence de Shepard

dans le dépliage multidimensionnel, 366, 369,372, 379, 385

Indices d’« intermixité » de DeSarbo

dans le dépliage multidimensionnel, 366, 369,372, 379, 385

Inertie

Dans l’analyse des correspondances, 70, 278,282

intercorrélations

Dans la régression nominale, 141

Joindre les diagrammes de modalités

Dans l’analyse en composantes principales

nominales, 49Dans une analyse de correspondance multiple,88

Matrice de corrélation

Dans l’analyse en composantes principales

nominales, 44Dans une analyse de correspondance multiple,84

mesures

Dans la régression nominale, 144Mesures de discrimination

Dans une analyse de correspondance multiple,84, 326

Page 423: SPSS Categories 14.0

405

Index

Mesures de distance

Dans l’analyse des correspondances, 68Mesures du stress

dans le dépliage multidimensionnel, 122Dans le positionnement multidimensionnel, 107,356, 362

Mises à jour relaxées

Dans le positionnement multidimensionnel, 103modèle d’identité

dans le dépliage multidimensionnel, 113modèle Euclidien généralisé

dans le dépliage multidimensionnel, 113modèle Euclidien pondéré

dans le dépliage multidimensionnel, 113modèles de positionnement

dans le dépliage multidimensionnel, 113

Niveau de codage optimal

Dans l’analyse en composantes principales

nominales, 36Dans une analyse de correspondance multiple,77

normalisation principale

Dans l’analyse des correspondances, 272normalisation principale en colonne

Dans l’analyse des correspondances, 272normalisation principale en ligne

Dans l’analyse des correspondances, 272normalisation symétrique

Dans l’analyse des correspondances, 272

Objets supplémentaires

Dans la régression nominale, 28

permutations

Dans l’analyse des correspondances, 285

points de modalité

Dans l’analyse en composantes principales

nominales, 219points supplémentaires

Dans l’analyse des correspondances, 287Pondération des variables

Dans l’analyse en composantes principales

nominales, 36Dans une analyse de correspondance multiple,77

Pondérations

Dans l’analyse de corrélation canonique non

linéaire, 58, 248pondérations des dimensions

dans le dépliage multidimensionnel, 374, 381Pondérations des espaces individuels

dans le dépliage multidimensionnel, 122Dans le positionnement multidimensionnel, 107

Positionnement multidimensionnel, 91, 95–99, 341Diagrammes, 91, 104, 106Diagrammes de transformation, 361espace commun, 358, 363Fonctionnalités supplémentaires, 109Mesures du stress, 356, 362Modèle, 100Options, 103Restrictions, 102Résultats, 107statistiques, 91

PREFSCAL, 111profils

Dans l’analyse des correspondances, 281Proximités transformées

dans le dépliage multidimensionnel, 122Dans le positionnement multidimensionnel, 107

Page 424: SPSS Categories 14.0

406

Index

quantifications

Dans l’analyse de corrélation canonique non

linéaire, 252Dans l’analyse en composantes principales

nominales, 187, 210

R multiple

Dans la régression nominale, 29R2

Dans la régression nominale, 142récapitulatif du modèle

Dans une analyse de correspondance multiple,323

Régression nominale, 21, 127Corrélations, 142, 144Diagrammes, 21Diagrammes de transformation, 146Enregistrer, 30Fonctionnalités supplémentaires, 32importance, 144intercorrélations, 141Niveau de codage optimal, 23qualité de l’ajustement, 142Résidus, 148statistiques, 21

Résidus

Dans la régression nominale, 148Restrictions

Dans le positionnement multidimensionnel, 102restrictions sur l’espace commun.

dans le dépliage multidimensionnel, 115

Standardisation

Dans l’analyse des correspondances, 68, 272Statistiques de confiance

Dans l’analyse des correspondances, 70, 286

Statistiques descriptives

Dans la régression nominale, 29stress pénalisé

dans le dépliage multidimensionnel, 366, 372,379, 385, 389

tableaux des correspondances

Dans l’analyse des correspondances, 277, 315terme de pénalité

dans le dépliage multidimensionnel, 117transformations de proximité

dans le dépliage multidimensionnel, 113

Valeurs affectées aux modalités

Dans l’analyse de corrélation canonique non

linéaire, 58Dans l’analyse en composantes principales

nominales, 44Dans la régression nominale, 29Dans une analyse de correspondance multiple,84, 327

valeurs d’ajustement

Dans l’analyse de corrélation canonique non

linéaire, 246valeurs de perte

Dans l’analyse de corrélation canonique non

linéaire, 246Valeurs éloignées

Dans une analyse de correspondance multiple,333

Valeurs manquantes

Dans l’analyse en composantes principales

nominales, 40Dans la régression nominale, 27Dans une analyse de correspondance multiple,80

Page 425: SPSS Categories 14.0

407

Index

Valeurs propres

Dans l’analyse de corrélation canonique non

linéaire, 246Dans l’analyse en composantes principales

nominales, 185, 193, 214Variables indépendantes transformées

Dans le positionnement multidimensionnel, 107Variance expliquée par

Dans l’analyse en composantes principales

nominales, 44, 185, 214