POL1803: Analyse des techniques quantitatives Cours 2 Analyse univariée

Preview:

Citation preview

POL1803: Analyse destechniques quantitatives

Cours 2

Analyse univariée

Question à résoudre

Est-ce que le gouvernement de Jacques Parizeau a tenté de voler furtivement le référendum de 1995?

Programme

Analyse univariée:

– Distribution de fréquences

– Mesures de tendance centrale

– Mesures de variation

– Mesures d’asymétrie

Analyse univariée:– porte sur une seule variable à la fois

Analyse bivariée:– porte sur les relations entre deux

variables (une variable dépendante et une variable indépendante)

Analyse multivariée:– porte sur les relations entre plus de deux

variables

Trois types d’analyse

Pour répondre à plusieurs questions de recherche

Pour combler une précaution méthodologique

Utilité de l’analyse univariée

A) Distribution de fréquences (ex.: rangement, tableau et graphique)

B) Mesures de tendances centrales (ex.: moyenne, mode et médiane)

C) Mesures de variation (ex.: étendue, variance et écart-type)

D) Mesures d’asymétrie (ex.: coefficient d’asymétrie)

Outils de l’analyse univariée

A) Distribution de fréquences

Définition:

–le classement des données dans le but de les rendre intelligibles et parlantes

Données brutes422223033242432413330324123231.4434142244143233204423.23243223124410224434300222022241242202334202420434233124234421143414213432410421323443133424232021232234023143413423422442323.344333444243144143233314123421112412244244333.1233234320332143421232324344001220103101343314322322211141122023313424433311233334213022.4234230144241322422422130132222332234333230323423.32222331.242130213103412212234221123340204240142403202221234244222130341.434.2223141433342230024322430123121333333032122432001134313414112224404341311420.312233142221212332231144242001121344443214434311430010432211.223241424402332223034.34134413322224214243223032302234324234211432222012230321002243214224442213213231402131.4442124122234444123144434303433333332242123424322423123204.314442220413232042233310432142223130121322240323004134414204210344323301400424332341201114213133321431323132133321024242423422144230441321130232333311034440221234334244231004421222121211224112024222001233414122304242323323040323244232242201232202133434103443423241122014031241324122222202043342132104321343443301320242030341212244201234233330332244222331412233312313340042241321044331414343231123121313140323320234030322224233244240343241243231214342344232142222213230322113221314222333333412220123311330323.342123321203032034310220012442004212313221322131232433221123143221242402423340402342424444244224443233133443343000433124.32313222433312433224323424024321334312333333230010323142222241343322133102042411302223133343244.21422124244302330421221334100113203411032412.1423433231312223232322234333123224233234122222431131121241241311101141213331130023341124442434242330232132312233431344241123222242123112411342011214234100014103443444333.43402132213412113313234243243302443330323311223244322200312132232231343303244133333423321212442210202232414133334441341231104432333432422.23321324113412132212141231322141124331203122232232324.1340442432432344212222113041310344313444232313322322034244243341133.444101434411213324322142322310012320113122122213123132231421303331321040401332243221231114332222144342430424140231023112331242443241401432443222223242413434233322323422331233214343144434330301124404041323334241042334110122443214422424143420224241444313433443233432334131.313230214222012222443200042431024441244003243343033413434241232220231422324232333413344024432243110212321334234422441244412314.321323014113212044243231332341433240344123133334342322442423311323312332223223232422243323111222422312324242.23404311133232322223432123431231210033343333422121242044211323413243344442424321432322434342441314112343230411234.422422312444242313212433313321114424203240344224012333130.123102421312132231203042140334143340123333.22222341214444244320332023122342313411132423430323213312323443243343210321112414122243034122222413412414131114324132334432342301133211410443242232222432231242223434442213233304141122022323222134242213234421224.2322214133342332043443323434422344344323322233431310244433032133423224301331322233341322232421213133323032144444323423322442221224212003432312024324241344232323334142343433334323232243312242423131334234322023333213431323330023233143133221313232003223343232232222141434333243423421023132442423223222132222233444312412432433324034223142423232422123224344423232234232244233214132311442433324242342433311313113203244224123322232342324341220323203.103324.4231434222341331.33233234230124113133112244022422411111343143223210442411321443422420341104302434133432444413312241343424344202413322411242243303314341132334432202431144434231142443223422211331433432.143223342021214443422014324333324233334332.4214202143423421224234024324023420224.2314422210443214131342430232234402041434013221224301022413324332432133112302131100433144343322322242111313203424313224433342334413432343440131410131204131.414421412132143422321112234241440242112141034310211114234143134322424420341414413210241412421432142234114104213212224233011444121423410222442130204441240323432244423101232322122232321

Rangement simple des données....................................0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111112222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222223333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444

Tableau de fréquences

Niveau d'information

274 6,9

635 16,1

1116 28,3

1042 26,4

846 21,4

3913 99,1

36 ,9

3949 100,0

,00

1,00

2,00

3,00

4,00

Total

Valide

Système manquantManquante

Total

Fréquence Pourcentage

Tableau de fréquences

Nombres de bonnes réponses

Fréquence Pourcentage

0-9 10 1

10-19 30 3

20-29 80 8

30-39 150 15

40-49 200 20

50-59 275 27,5

60-69 140 14

70-79 65 6,5

80-89 35 3,5

90-100 15 1,5

Total 1000 100

Diagramme en bâtons

Niveau d'information

Nombre de bonnes réponses

4,003,002,001,00,00

%

30

20

10

0

Représentation graphique:erreurs et excellence

Origines et typologie

Cartographie avec données

Cartographie avec données

Cartographie avec données

Cartographie avec données

Série temporelle

Série temporelle

Combinaison espace et temps

Combinaison espace et temps

Diagramme en bâtons

Diagramme en bâtons

Diagramme de dispersion

Diagramme de dispersion

Diagramme de dispersion

Représentation graphique:erreurs et excellence

Comment maltraiter des données et mentir avec un graphique?

Aire visuelle et biais

Aire visuelle et biais

Aire visuelle et biais

Aire visuelle et biais

Aire visuelle et biais

Aire visuelle et biais

Contexte et intégrité

Contexte et intégrité

Contexte et intégrité

Contexte et intégrité

Échelles et intégrité

Échelles et intégrité

ANNEE

20012000199919981997

Valeu

r APP

UI

44,0

43,0

42,0

41,0

40,0

39,0

ANNEE

20012000199919981997

Valeu

r APP

UI

60,0

50,0

40,0

30,0

20,0

10,0

0,0

Ratio encre / données

Ratio encre / données

Ratio encre / données

Ratio encre / données

Ratio encre / données

Ratio encre / données

Ratio encre / données

L’usage de la couleur

L’usage de la couleur

L’usage de la couleur

L’usage de la couleur

L’usage de la couleur

Théorie loufoque, contenu loufoque, graphique loufoque

Principes de l’excellence graphique

L’excellence graphique c’est:

– la communication claire, précise et efficace d’idées complexes;

– véhiculer le plus grand nombre d’idées, dans le moins de temps possible, avec le moins d’encre possible, et avec le moins d’espace possible.

(Edward Tufte, 1983)

L’excellence graphique

Raconter une histoire

Raconter une histoire

A) Distribution de fréquences (ex.: rangement, tableau et graphique)

B) Mesures de tendances centrales (ex.: moyenne, mode et médiane)

C) Mesures de variation (ex.: étendue, variance et écart-type)

D) Mesures d’asymétrie (ex.: coefficient d’asymétrie)

Outils de l’analyse univariée

0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4

N = 13

Un exemple

B) Mesures de tendance centrale

Définition:

Mesures servant à décrire, à résumer, à l’aide d’une valeur unique, la grandeur typique, le milieu ou le centre d’un ensemble de données.

Le mode (Mo)

Définition:

La valeur la plus fréquente dans une série de données.

0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4

Mode = 3

Un exemple

Le mode (Mo)

Caractéristiques:

- parfois il n’y en a pas, parfois il y en a plus d’un

- fonctionne avec tous les types de variables

- insensible aux valeurs extrêmes

- peu utile pour l’inférence statistique

La médiane (Md)

Définition:

La valeur qui sépare une série d’observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d’observations.

La médiane (Md)

Formules:

N impair: N + l è observation

2

où N = nombre de cas

0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4

Médiane = N + l è obs. =

2

13 + l è obs. = 7 è obs = 2

2

Un exemple

La médiane (Md)

Formules:

N pair: (N/2)è obs. + (N/2 + l)è obs.

2

où N = nombre de cas

0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4

Médiane = (N/2)è obs. + (N/2 + l)è obs. = 2

(12/2)è obs. + (12/2 + l)è obs. = 6è obs. + 7èobs. 2 2

2 + 3 = 5 = 2,5 2 2

Un exemple

La médiane (Md)

Caractéristiques:

- affectée par le nombre d’observations, mais non par la valeur de toutes les observations

- insensible aux valeurs extrêmes

- moins utile que la moyenne pour l’inférence statistique parce qu’elle ne se prête pas à des manipulations mathématiques

La moyenne arithmétique (μ)

Définition:

La somme des observations divisée par le nombre d’observations.

Formule: x N

où = somme de …x = observation

N = nombre de cas

0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4

Moyenne = x =

N

28 = 2,15

13

Un exemple

La moyenne arithmétique (μ)

Caractéristiques:

- très familière, couramment utilisée

- influencée par toutes les observations

- peut être biaisée par des valeurs extrêmes

- propriétés mathématiques intéressantes et utiles pour l’inférence statistique

Comparaison des mesuresde tendance centrale

Distribution parfaitement symétrique Mo= Md = μ

Comparaison des mesuresde tendance centrale

Distribution asymétrique positive Mo< Md < μ

Comparaison des mesuresde tendance centrale

Distribution asymétrique négative Mo> Md > μ

Comparaison des mesuresde tendance centrale

Distribution bimodale Mode = mesure la plus représentative

C) Mesures de variation

Définition:

Mesures de la représentativité de la valeur moyenne d’une série d’observations.

0, 0, 0, 0, 0, 0, 2, 4, 4, 4, 4, 4, 4

μ = 2

0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 4

μ = 2

Deux cas de figure

Visualiser la variation

L’écart-type ()

Définition:

La racine carrée de la moyenne des carrés des écarts entre chaque observation et la moyenne.

L’écart-type ()

Formule:

racine carrée de x N

où = somme de ...

x = observation

= moyenne

N = nombre de cas

x

0

0

1

1

2

2

2

3

3

3

3

4

4

Un exemple x -

0-2,15

0-2,15

1-2,15

1-2,15

2-2,15

2-2,15

2-2,15

3-2,15

3-2,15

3-2,15

3-2,15

4-2,15

4-2,15

x -

-2,15

-2,15

-1,15

-1,15

-0,15

-0,15

-0,15

0,85

0,85

0,85

0,85

1,85

1,85

(x –

4,62

4,62

1,32

1,32

0,02

0,02

0,02

0,72

0,72

0,72

0,72

3,42

3,42

x

= 21,66

x

N

= 21,66 = 1,67

13

Racine carrée de

x

N

= ¯ 1,67 = 1,29

0, 0, 0, 0, 0, 0, 2, 4, 4, 4, 4, 4, 4

Écart-type ( = 2

0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 4

Écart-type ( = 0,82

Deux cas de figure

L’écart-type ()

Caractéristiques:

- fréquemment utilisé

- tient compte de tous les écarts

- assez sensible aux valeurs extrêmes

- propriétés mathématiques utiles pour l’inférence statistique

D) Mesures d’asymétrie

Le coefficient d’asymétrie

Définition:

Un indicateur de l’existence, de la direction et du degré d’asymétrie d’une distribution.

Formule: 3 ( - Md)

Un exemple: 3 (2,15-2) / 1,29 = 0,35

Le coefficient d’asymétrie si = Md : symétrie, coeff. d’asym. = 0

si Md : asymétrie, coeff. d’asym. 0

si > Md : asymétrie positive,

coefficient d’asymétrie > 0

si < Md : asymétrie négative,

coefficient d’asymétrie < 0

plus l’écart entre la moyenne et la médiane est grand, plus le coefficient d’asymétrie est grand

Les trois dimensions

On a seulement une image d’ensemble d’une distribution en considérant à la fois la tendance centrale, la variation et l’asymétrie.

Comme l’histoire des trois aveugles et l’éléphant.

Une application concrète

Le cas des bulletins de vote rejetés au référendum de 1995

Un premier coup d’oeil

Moyennes des bulletins rejetés dans les 125 circonscriptions du Québec selon le niveau d’appui du NON:

NON 50 NON 50

1,68 % 1,99 %

Interprétation: conspiration nationale pour voler le référendum

Analyse univariée

Toutes les

circonscriptions

Moyenne 1,79 Médiane 1,69 Écart-type 1,04

Analyse univariée

Bulletins rejetés

60

50

40

30

20

10

0

Sigma = 1,04

Moyenne = 1,79

N = 125,00

Analyse univariée

Toutes les

circonscriptions

Moyenne 1,79 Médiane 1,69 Écart-type 1,04

Sans deux

cas déviants

1,67

1,69

0,41

Un deuxième coup d’oeil

Moyennes des bulletins rejetés dans les 123 circonscriptions du Québec selon le niveau d’appui du NON:

NON 50 NON 50

1,68 % 1,68 %

Interprétation: 2 cas déviants, pas de conspiration nationale

Recommended