26
©2001 Sphinx Développement Les traitements croisés Cette partie du cours abordera les traitements croisés que l’on peut exécuter entre les questions. Les analyses bi-variées, ou tris croisés, sont en fait le dépouillement des réponses à une question en fonction des réponses à une autre question.

Les traitements croisés

Embed Size (px)

DESCRIPTION

Les traitements croisés. Cette partie du cours abordera les traitements croisés que l’on peut exécuter entre les questions. Les analyses bi-variées, ou tris croisés, sont en fait le dépouillement des réponses à une question en fonction des réponses à une autre question. La méthodologie. - PowerPoint PPT Presentation

Citation preview

Page 1: Les traitements croisés

©2001 Sphinx Développement

Les traitements croisés

Cette partie du cours abordera les traitements croisés que l’on peut exécuter entre les questions.

Les analyses bi-variées, ou tris croisés, sont en fait le dépouillement des réponses à une question en fonction des réponses à une autre question.

Page 2: Les traitements croisés

©2001 Sphinx Développement

La méthodologie

Cas ExempleTraitement à

mettre en oeuvreTest statistique

validant la relation

Fermée

X

Fermée

Genre

x

Sport pratiqué

Tri croisé Chi deux

Fermée

X

Numérique

Genre

x

Objectif de salaire

Analyse de variance Test de Fisher

Numérique

X

Numérique

Âge

x

Objectif de salaire

RégressionCoefficient de

corrélation

Le type de traitement diffère selon que l'on croise des questions fermées (ou nominales) ou des questions numériques.

Trois méthodes de traitements peuvent être employées selon le type des questions :

Page 3: Les traitements croisés

©2001 Sphinx Développement

Principe

Il s’agit de comparer chaque modalité de la question A en fonction de ses réponses à la question B.

– Exemple : voir comment chaque tranche d’âge apprécie la qualité d'un produit.

Il s’agit de déterminer si les réponses à la question B varient en fonction des réponses à la question A. On étudie donc les liens statistiques entre A et B.

N.B : on parle bien de lien statistique, de relation, et non pas d’influence de A sur B.

Page 4: Les traitements croisés

©2001 Sphinx Développement

Entre deux questions fermées

Le point de départ est un tableau croisé,

dont il existe plusieurs modes de représentation :

Pratique sportive en fonction du genre

Une fille Un garçon Total

Jogging

Vélo

VTT

Ski alpin

Snowboard

Tennis

Football

Rando montagne

Danse

Natation

Autres

Total

17 22

24 12

9 20

45 29

9 26

11 24

0 23

18 13

25 3

38 10

67 96

39

36

29

74

35

35

23

31

28

48

163

263 278 541

En effectif

Pratique sportive en fonction du genre %

Une fille Un garçon Total

Jogging

Vélo

VTT

Ski alpin

Snowboard

Tennis

Football

Rando montagne

Danse

Natation

Autres

Total

43,6% 56,4%

66,7% 33,3%

31,0% 69,0%

60,8% 39,2%

25,7% 74,3%

31,4% 68,6%

0,0% 100,0%

58,1% 41,9%

89,3% 10,7%

79,2% 20,8%

41,1% 58,9%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

48,6% 51,4%

En pourcentage en ligne

Ici, 56,4% des joggers sont des garçons.

Page 5: Les traitements croisés

©2001 Sphinx Développement

Le test du Chi-deux

Dans cet exemple, les pratiques sportives sont liées au genre : les garçons pratiquent particulièrement le football, les filles pratiquent plutôt la danse et la natation…

Aides à l'interprétation, les cases colorées nous montrent les informations essentielles (les Chi-deux partiels les plus forts).

– en bleu, les sur-représentations– en rose, les sous-représentations

NS = non significatif PS = peu significatifS = significatif TS = très significatif

Sports pratiqués en fonction du genre

Une fille Un garçon Total

Jogging

Vélo

VTT

Ski alpin

Snowboard

Tennis

Football

Rando montagne

Danse

Natation

Autres

Total

43,6% 56,4%

66,7% 33,3%

31,0% 69,0%

60,8% 39,2%

25,7% 74,3%

31,4% 68,6%

0,0% 100,0%

58,1% 41,9%

89,3% 10,7%

79,2% 20,8%

41,1% 58,9%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

100,0%

48,6% 51,4%

p = <0,1% ; chi2 = 87,60 ; ddl = 10 (TS)

Le test du Chi-deux indique si la relation entre les deux variables est significative.

Page 6: Les traitements croisés

©2001 Sphinx Développement

Représentation graphique

Représentation graphique en barres

Un garçonUne fille

Autres 163

Ski alpin 74

Natation 48

Jogging 39

Vélo 36

Snowboard 35

Tennis 35

Rando montagne 31

VTT 29

Danse 28

Football 23

Total 541

Un graphique permet de bien visualiser la répartition par genres, pour chacun des sports.

Page 7: Les traitements croisés

©2001 Sphinx Développement

Entre fermées et numériques

Tableau de moyennes croisées

SALAIRE OBJECTIF

Moyenne Ecart-type Part Effectif

Une fille

Un garçon

Total

21 474,03 6 462,39 45,0% 77

28 776,60 14 972,49 55,0% 94

25 488,30 12 433,23 100,0% 171

L'écart-type nous indique la dispersion du phénomène dans la catégorie étudiée. Ici, avec un écart-type de près de 15000 F, les objectifs de salaire des garçons sont très hétérogènes.

Le tableau de moyennes croisées va nous présenter pour chaque catégorie :– la moyenne– l'écart-type– l'effectif– éventuellement la somme ou le pourcentage

Page 8: Les traitements croisés

©2001 Sphinx Développement

Le test du F de Fisher

Objectif de salaire en fonction du genre

SALAIREOBJECTIF

Une fille

Un garçon

Total

21 474,03

28 776,60

25 488,30

p = <0,1% ; F = 15,88 (TS)

Une fille 21 474,03

Un garçon 28 776,60

Total 25 488,30

A partir d'une analyse de variance, le test F de Fisher nous indique si la relation entre les deux variables est significative.

Dans cet exemple, l'objectif de salaire varie en fonction du genre, d'une manière très significative :

– les filles ont un objectif de salaire nettement inférieur à la moyenne

Aides à l'interprétation, les cases colorées nous montrent les catégories dont les moyennes sont statistiquement différentes de la moyenne générale (par le test de Student).

Le test de Fisher est significatif si la probabilité de rejet (p) est < 5%.

Page 9: Les traitements croisés

©2001 Sphinx Développement

Entre deux questions numériques

Pour représenter le lien statistique entre 2 questions numériques, on utilise un nuage de points, avec une variable en abscisse (ici l'âge) et l'autre en ordonnée (le salaire escompté).

La droite de régression linéaire, de type y=ax+b, permet de décrire la tendance, c'est à dire l'évolution générale du salaire objectif en fonction de l'âge.

Equation de la droite de régression dans notre exemple :

– OBJECTIF = 76,06 x AGE + 23827,07

Le coefficient de corrélation indique la dépendance entre les deux variables. Le signe du coefficient montre le sens de la relation (positive ou négative). Compris entre 0 et 1, le coefficient nous informe de la force de la dépendance. En Sciences Humaines, à partir de 0,5, on peut parler d'une relation très forte.

Dans cet exemple, avec un coefficient égal à 0,01, l'objectif de salaire n'est pas lié à l'âge, d'une manière significative.

Page 10: Les traitements croisés

©2001 Sphinx Développement

Entre variables numériques mises en classes

Tableau croisé de questions numériques mises en classesSalaire escompté en fonction de l'âge

Moins de 20000De 20000 à

30000De 30000 à

4000040000 et plus

Moins de 21

De 21 à 23

De 23 à 25

25 et plus

22,9% 51,4% 22,9% 2,9%

27,2% 43,5% 18,5% 10,9%

9,4% 56,3% 21,9% 12,5%

16,7% 66,7% 16,7% 0,0%

p = 43,1% ; chi2 = 9,07 ; ddl = 9 (NS)

Moins de 21 35

De 21 à 23 92

De 23 à 25 32

25 et plus 12

Pour présenter un croisement entre deux questions numériques, on peut aussi mettre les deux variables en classes et dresser un tableau croisé. Le test du Chi-deux pourra alors être appliqué.

Ici, le salaire escompté n'est pas lié d'une manière significative à l'âge (chi² non significatif).

Page 11: Les traitements croisés

©2001 Sphinx Développement

Avec une question échelle

Rappel : les questions "échelle" ont la particularité de pouvoir être traitées comme des questions fermées ou numériques (à chaque échelon correspond un nombre, de 1 à n).

Soit comme une question numérique, avec la moyenne des échelons et le test de Fisher permet de conclure.

On les traite ensuite, soit comme une question fermée avec un tableau de fréquence. C’est le test du chi-deux qui s’applique.

Participation selon le genre

PARTICIPATION

Une fille

Un garçon

Total

2,94

3,24

3,10

p = 1,0% ; F = 6,76 (TS)

Participation selon le genre des répondants

Je ne prendsjamais la parole

Je répondsuniquement si on

m'interroge

J'interviens quandça m'interesse

Je prendssouvent la parole

J'intervienssystématiquement

Total

Une fille

Ungarçon

Total

6,7% 21,1% 45,6% 24,4% 2,2%

0,0% 9,4% 58,3% 31,3% 1,0%

100,0%

100,0%

3,2% 15,1% 52,2% 28,0% 1,6%

p = 1,0% ; chi2 = 13,28 ; ddl = 4 (S)

Page 12: Les traitements croisés

©2001 Sphinx Développement

Avec une question texte

Mots les plus cités en fonction du genre

Une filleUn

garçon

vie

Réussir

travail

argent

Gagner

profiter

famille

bon

amis

Trouver

Fonder

personnelle

garder

faire

célibataire

activités

...

54,1% 45,9%

61,7% 38,3%

58,2% 41,8%

37,8% 62,2%

36,4% 63,6%

39,5% 60,5%

44,4% 55,6%

53,8% 46,2%

50,0% 50,0%

63,6% 36,4%

55,6% 44,4%

68,8% 31,3%

6,3% 93,8%

37,5% 62,5%

0,0% 100,0%

50,0% 50,0%

53,0% 47,0%

p = <0,1% ; chi2 = 47,96 ; ddl = 16 (TS)

vie 122

Réussir 81

travail 55

argent 45

Gagner 44

profiter 38

famille 36

bon 26

amis 24

Trouver 22

Fonder 18

personnelle 16

garder 16

faire 16

célibataire 14

activités 14

... 534

Une question texte peut être croisée comme une question fermée, à condition :

– qu’elle ait été recodée en question fermée– que le tableau des mots ait été constitué et limité (ici aux 17 premiers mots)

Les résultats et les tests statistiques nous indiquent donc que les mots cités varient en fonction du genre. Garçons et filles n'ont pas ici la même conception d'une vie réussie.

Page 13: Les traitements croisés

©2001 Sphinx Développement

Passons maintenant aux exercices…

Les exercices qui suivent concernent la partie du cours sur les tris croisés. Ils sont de différents niveaux et portent sur des aspects variés.

Les questions se rapportent au questionnaire sur les valeurs des étudiants.

Dans un exercice, le lien réponses vous amène à la correction.Quand vous êtes dans un corrigé d'exercice, le symbole vous permet de revenir à l'énoncé de l'exercice.

Page 14: Les traitements croisés

©2001 Sphinx Développement

Exercice 1

Quel est le pourcentage des étudiants étrangers de l’établissement qui pratiquent la photographie ?

réponses

Accès aux résultats de l'étude

Page 15: Les traitements croisés

©2001 Sphinx Développement

Exercice 2

Quelles sont les activités culturelles où les filles sont sur-représentées ?

réponses

Accès aux résultats de l'étude

Page 16: Les traitements croisés

©2001 Sphinx Développement

Exercice 3

Quels sont les comportements universitaires qui varient statistiquement en fonction du genre ?

réponses

Accès aux résultats de l'étude

Page 17: Les traitements croisés

©2001 Sphinx Développement

Exercice 4

Les valeurs privilégiées varient-elles en fonction du genre des personnes ?

réponses

Accès aux résultats de l'étude

Page 18: Les traitements croisés

©2001 Sphinx Développement

Exercice 5

Le projet professionnel des étudiants est-il plus ou moins précis en fonction de l’âge ?

réponses

Accès aux résultats de l'étude

Page 19: Les traitements croisés

©2001 Sphinx Développement

Exercice 6

Quelle variable influence le plus les qualités privilégiées par les étudiants :

- le genre ?

- l’origine géographique ?

- l’âge ?

réponses

Accès aux résultats de l'étude

Page 20: Les traitements croisés

©2001 Sphinx Développement

Voici les corrigés des exercices

Corrigé de l’exercice 1

Corrigé de l’exercice 2

Corrigé de l’exercice 3

Corrigé de l’exercice 4

Corrigé de l’exercice 5

Corrigé de l’exercice 6

Page 21: Les traitements croisés

©2001 Sphinx Développement

Corrigé de l’exercice 1

Le pourcentage d’étudiants étrangers de l’établissement pratiquant la photographie est : 27,6%.

Page 22: Les traitements croisés

©2001 Sphinx Développement

Corrigé de l’exercice 2

Si l’on se réfère aux cases encadrées en bleu (Chi deux partiels significatifs), il s’agit du chant.

Page 23: Les traitements croisés

©2001 Sphinx Développement

Corrigé de l’exercice 3

Seules les variables « participation » et « bourre au travail » font apparaître des différences significatives avec respectivement p=1,0% et p=1,1%.

Les garçons (3,24) participent plus que les filles (2,94), mais celles-ci sont moins souvent en retard dans leur travail (3,23) que leurs collègues masculins (3,58).

Page 24: Les traitements croisés

©2001 Sphinx Développement

Corrigé de l’exercice 4

Non, le test du Chi deux n’est pas significatif (p=14,1%).

Page 25: Les traitements croisés

©2001 Sphinx Développement

Corrigé de l’exercice 5

Oui, les moyennes sur la variable « projet pro » sont statistiquement différentes (p=1,1%).

Les plus âgés (âge+) ont un projet plus élaboré avec une moyenne de 3,94 sur 5.

Page 26: Les traitements croisés

©2001 Sphinx Développement

Corrigé de l’exercice 6

Aucune de ces 3 variables n’influence les qualités privilégiées de manière significative.

Parmi les 3, c’est tout de même le genre qui obtient une probabilité de rejet plus faible avec p=14,1% contre 20,4% pour l’âge et 86,5% pour l’origine géographique.