81
Méthodes Statistiques Michel Tenenhaus

Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Embed Size (px)

Citation preview

Page 1: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Méthodes Statistiques

Michel Tenenhaus

Page 2: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

2

STATISTIQUE ?

Extraire des connaissances à partir de données pour décrire, expliquer, ou prévoir.

Simplifier une réalité complexe à l’aide de graphiques.

Simplifier une réalité complexe à l’aide de modèles mathématiques.

Outils de manipulation de grosses bases de données pour identifier et segmenter la clientèle d’une entreprise et orienter ses choix stratégiques (data mining).

Page 3: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Décrire ?

Page 4: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

4

Exemple 1Enquête FT sur les MBA 2001

100 MBA12 caractéristiques de l’école :

Women Faculty, Women Students, Women board,

International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating

2 caractéristiques des diplômés :Salary today (weighted), Salary % increase

Page 5: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Extrait des données de l’enquête FT sur les MBA 2001

1 University of Pennsylvania: Wharton 76 151714 225.4 ... 100 100 91

2 Harvard Business School 75 164152 216.0 100 47 100

3 Stanford University GSB 73 171318 205.5 92 76 85

4 University of Chicago GSB 70 143935 245.4 97 56 86

5 Columbia University GSB 70 140886 250.5 94 36 72

6 MIT: Sloan 69 148986 200.0 100 68 70

7 Insead 68 127190 143.4 98 15 46

8 London Business School 65 113538 159.9 97 47 63

9 Northwestern University: Kellogg 65 130101 191.6 100 68 53

10 New York University: Stern 64 119780 203.8 96 73 62

11 IMD 62 126656 119.5 96 0 22

... ... ...

51 Arizona State University 48 96748 143.1 100 26 42

52 HEC 48 100284 109.9 ... 73 25 353 Babson College: FW Olin 47 94037 164.4 90 0 16

53 Rice University: Jones 47 101105 162.6 95 0 25

55 Thunderbird 47 81483 148.7 87 0 17

... ...

61 ESCP-EAP 46 83401 75.2 80 0 2

... ... ... ... ...

67 IEP 46 83243 75.7 100 8 8

... ... ...

100 Norwegian School of Management 38 58978 74.0 86 2 11

Rank 2001 School Name FT ScoreSalary

weightedSalary

Increase ...

Faculty withdoctorates

(%)FT Doctoral

ratingFT Research

rating

Page 6: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Analyse factorielle (ACP)des MBA

1

2

0

Harvard

HEC

**

Warwick

*

X1 = % Women Faculty

X2 = % WomenStudent

X14 = Salaryincrease . . .

Page 7: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Analyse Factorielle des MBA : Carte des MBA

Analyse réalisée sur les 67 premiers MBA

Page 8: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Analyse Factorielle des MBACarte des caractéristiques utilisées pour l’analyse

Les variables fléchées en pointillés sont illustratives.

Page 9: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Conclusion : HEC troisième MBA non anglo-saxon

FT Research rating

120100806040200-20

Sa

lary

we

igh

ted

180000

160000

140000

120000

100000

80000

60000

40000

US/UK/Autre

Autre

UK

US

Total Population

HEC

Dartmouth

IMD

LBS

INSEAD

MIT

StanfordHarvard

Wharton

Page 10: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Exemple 2 : les races canines

Race Taille Poids Vitesse Intell. Affect. Agress. Fonction123456789101112131415161718192021222324252627

BeauceronBassetBerger-AllemandBoxerBull-DogBull-MastiffCanicheChihuahuaCockerColleyDalmatienDobermanDogue AllemandEpagneul BretonEpagneul FrançaisFox-HoundFox-TerrierGrd Bleu de GascogneLabradorLévrierMastiffPékinoisPointerSaint-BernardSetterTeckelTerre-Neuve

TA++TA-TA++TA+TA-TA++TA-TA-TA+TA++TA+TA++TA++TA+TA++TA++TA-TA++TA+TA++TA++TA-TA++TA++TA++TA-TA++

PO+PO-PO+PO+PO-PO++PO-PO-PO-PO+PO+PO+PO++PO+PO+PO+PO-PO+PO+PO+PO++PO-PO+PO++PO+PO-PO++

V++V-V++V+V-V-V+V-V-V++V+V++V++V+V+V++V+V+V+V++V-V-V++V-V++V-V-

INT+INT-INT++INT+INT+INT++INT++INT-INT+INT+INT+INT++INT-INT++INT+INT-INT+INT-INT+INT-INT-INT-INT++INT+INT+INT+INT+

AF+AF-AF+AF+AF+AF-AF+AF+AF+AF+AF+AF-AF-AF+AF-AF-AF+AF-AF+AF-AF-AF+AF-AF-AF-AF+AF-

AG+AG+AG+AG+AG-AG+AG-AG-AG+AG-AG-AG+AG+AG-AG-AG+AG+AG+AG-AG-AG+AG-AG-AG+AG-AG-AG-

UtilitéChasseUtilitéCompagnieCompagnieUtilitéCompagnieCompagnieCompagnieCompagnieCompagnieUtilitéUtilitéChasseChasseChasseCompagnieChasseChasseChasseUtilitéCompagnieChasseUtilitéChasseCompagnieUtilité

Page 11: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Le tableau disjonctif complet

Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilité__________ _____ _____ ______ _____ _____ ______ _____ _____ _____ _____ ______ _____ ______ ______ ______ _____ _________ ________ ________

Beauceron 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 0 0 1Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0Berger all 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0Bull-dog 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Bull Mastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1Dogue all 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1Epagneul br 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0Epagneul fr 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0Fox-Hound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0Fox-Terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0Grd Bl de G 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0Lévrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1Pékinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0St-Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Terre neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1

xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon

Page 12: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Analyse factorielle du tableau disjonctif complet Modalité au barycentre des chiens la possédant

Page 13: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Classification ascendante hiérarchique des chiens (sur le tableau disjonctif complet)

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

bull-dog 5 teckel 26 chihuahua 8 pékinois 22 caniche 7 cocker 9 fox-terrier 17 epagneul breton 14 labrador 19 boxer 4 dalmatien 11 dogue allemand 13 mastiff 21 saint-bernard 24 terre-neuve 27 bull-mastiff 6 berger allemand 3 dobermann 12 beauceron 1 pointer 23 setter 25 levrier 20 epagneul français 15 colley 10 fox-hound 16 grd bleu de gasc 18 basset 2

Page 14: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Visualisation de la classification des chiens en 4 groupes

Facteur 1

420-2-4

Fa

cte

ur

2

4

3

2

1

0

-1

-2

-3

-4

terre-neuveteckel

setter

saint-bernard

pointer

pékinois

mastiff

levrier

labrador

grd bleu de gasc

fox-terrier

fox-hound

epagneul français

epagneul breton

dogue allemand

dobermann

dalmatien

colley

cocker

chihuahua

caniche

bull-mastiff

bull-dog

boxer

berger allemand

basset

beauceron

Page 15: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Exemple 3 : Les signes de ponctuation chez Zola

Roman ! ? , ; : - 1. Thérèse Raquin 3468 236 138 76 6195 691 168 285 543 2. Madeleine Ferrat 5131 362 236 245 8012 922 291 518 1115 3. La fortune des Rougon 6157 238 534 229 11346 936 362 711 1301 4. La curée 4958 443 357 232 11164 738 364 679 1200 5. Le ventre de Paris 5538 534 426 232 13234 1015 318 734 1201 6. La conquête de Plassans 6292 943 756 512 11585 1285 402 1432 1916 7. La faute de l'abbé Mouret 6364 679 859 462 13948 634 377 1067 1564 8. Son excellence Eugène Rougon 7258 728 1002 496 14295 889 543 1469 1907 9. L'assommoir 7820 769 1929 443 19244 1399 436 995 2272 10 Une page d'amour 6206 843 918 492 11953 647 347 1235 1409 11. Nana 7821 1007 1796 611 17881 1087 509 1523 1797 12. Pot Bouille 6875 1045 1873 651 17044 912 675 1669 1935 13. Au bonheur des dames 6916 808 1313 651 18402 972 642 1531 2114 14. La joie de vivre 5803 710 972 623 13917 602 420 1142 1590 15. Germinal 7944 606 1463 729 21388 908 621 1362 2083 16. L'Œuvre 5000 774 1692 668 18292 811 566 1107 1489 17. La terre 6979 957 2307 796 23417 947 657 1681 2113 18. Le rêve 3052 292 385 237 9551 345 230 416 650 19. La bête humaine 5484 601 929 557 18264 673 467 957 1721 20. L'argent 5022 850 1235 569 19267 684 399 1049 1677 21. La débâcle 7440 860 1833 690 26482 832 564 1398 2197 22. Le docteur Pascal 4586 621 1072 464 15598 462 315 955 1218

Page 16: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Analyse Factorielle des Correspondances

Page 17: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Exemple 4 : Analyse factorielle d’un tableau de distances

Londres Stock-holm

Lis-bonne Madrid Paris

Amster-dam Berlin Prague Rome Dublin

Londres 0 Stockholm 569 0 Lisbonne 667 1212 0 Madrid 530 1043 201 0 Paris 141 617 596 431 0 Amsterdam 140 446 768 608 177 0 Berlin 357 325 923 740 340 218 0 Prague 396 423 882 690 337 272 114 0 Rome 569 787 714 516 436 519 472 364 0 Dublin 190 648 714 622 320 302 514 573 755 0

Distances entre 10 villes européennes (en Miles)

Page 18: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Utilisation de ALSCAL

Carte de l’Europe

AXE1

3210-1-2-3

AX

E2

2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

Dublin

Rome

BerlinMadrid

Lisbonne Stockholm

Londres

Nord

Sud

Oue

st

Est

AmsterdamParis

Prague

AXE1

3210-1-2-3

AX

E2

2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

Dublin

Rome

BerlinMadrid

Lisbonne Stockholm

Londres

Nord

Sud

Oue

st

Est

AmsterdamParis

Prague

Page 19: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Qualité du résultat

Distance reconstituée

543210

Dis

tan

ce o

bse

rvé

e

1400

1200

1000

800

600

400

200

0 Rsq = 1.0000

Page 20: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Exemple 5 : Analyse des proximités

Les données

Un tableau de similarités sij entre n objets

Problème

On recherche n points {x1,…,xn} dans un plan tels que

les contraintes

soient respectées au mieux.

' ' ' '( , ) ( , )ij i j i j i js s d x x d x x

Page 21: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Signal A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 2 3 4 5 6 7 8 9 0

A 92 4 6 13 3 14 10 13 46 5 22 3 25 34 6 6 9 35 23 6 37 13 17 12 7 3 2 7 5 5 8 6 5 6 2 3 A

B 5 84 37 31 5 28 17 21 5 19 34 40 6 10 12 22 25 16 18 2 18 34 8 84 30 42 12 17 14 40 32 74 43 17 4 4 B

C 4 38 87 17 4 29 13 7 11 19 24 35 14 3 9 51 34 24 14 6 6 11 14 32 82 38 13 15 31 14 10 30 28 24 18 12 C

D 8 62 17 88 7 23 40 36 9 13 81 56 8 7 9 27 9 45 29 6 17 20 27 40 15 33 3 9 6 11 9 19 8 10 5 6 D

E 6 13 14 6 97 2 4 4 17 1 5 6 4 4 5 1 5 10 7 67 3 3 2 5 6 5 4 3 5 3 5 2 4 2 3 3 E

F 4 51 33 19 2 90 10 29 5 33 16 50 7 6 10 42 12 35 14 2 21 27 25 19 27 13 8 16 47 25 26 24 21 5 5 5 F

G 9 18 27 38 1 14 90 6 5 22 33 16 14 13 62 52 23 21 5 3 15 14 32 21 23 39 15 14 5 10 4 10 17 23 20 11 G

H 3 45 23 25 9 32 8 87 10 10 9 29 5 8 8 14 8 17 37 4 36 59 9 33 14 11 3 9 15 43 70 35 17 4 3 3 H

I 64 7 7 13 10 8 6 12 93 3 5 16 13 30 7 3 5 19 35 16 10 5 8 2 5 7 2 5 8 9 6 8 5 2 4 5 I

J 7 9 38 9 2 24 18 5 4 85 22 31 8 3 21 63 47 11 2 7 9 9 9 22 32 28 67 66 33 15 7 11 28 29 26 23 J

K 5 24 38 73 1 17 25 11 5 27 91 33 10 12 31 14 31 22 2 2 23 17 33 63 16 18 5 9 17 8 8 18 14 13 5 6 K

L 2 69 43 45 10 24 12 26 9 30 27 86 6 2 9 37 36 28 12 5 16 19 20 31 25 59 12 13 17 15 26 29 36 16 7 3 L

M 24 12 5 14 7 17 29 8 8 11 23 8 96 62 11 10 15 20 7 9 13 4 21 9 18 8 5 7 6 6 5 7 11 7 10 4 M

N 31 4 13 30 8 12 10 16 13 3 16 8 59 93 5 9 5 28 12 10 16 4 12 4 16 11 5 2 3 4 4 6 2 2 10 2 N

O 7 7 20 6 5 9 76 7 2 39 26 10 4 8 86 37 35 10 3 4 11 14 25 35 27 27 19 17 7 7 6 18 14 11 20 12 O

P 5 22 33 12 5 36 22 12 3 78 14 46 5 6 21 83 43 23 9 4 12 19 19 19 41 30 34 44 24 11 15 17 24 23 25 13 P

Q 8 20 38 11 4 15 10 5 2 27 23 26 7 6 22 51 91 11 2 3 6 14 12 37 50 63 34 32 17 12 9 27 40 58 37 24 Q

R 13 14 16 23 5 34 26 15 7 12 21 33 14 12 12 29 8 87 16 2 23 23 62 14 12 13 7 10 13 4 7 12 7 9 1 2 R

S 17 24 5 30 11 26 5 59 16 3 13 10 5 17 6 6 3 18 96 9 56 24 12 10 6 7 8 2 2 15 28 9 5 5 5 2 S

T 13 10 1 5 46 3 6 6 14 6 14 7 6 5 6 11 4 4 7 96 8 5 4 2 2 6 5 5 3 3 3 8 7 6 14 6 T

U 14 29 12 32 4 32 11 34 21 7 44 32 11 13 6 20 12 40 51 6 93 57 34 17 9 11 6 6 16 34 10 9 9 7 4 3 U

V 5 17 24 16 9 29 6 39 5 11 26 43 4 1 9 17 10 17 11 6 32 92 17 57 35 10 10 14 28 79 44 36 25 10 1 5 V

W 9 21 30 22 9 36 25 15 4 25 29 18 15 6 26 20 25 61 12 4 19 20 86 22 25 22 10 22 19 16 5 9 11 6 3 7 W

X 7 64 45 19 3 28 11 6 1 35 50 42 10 8 24 32 61 10 12 3 12 17 21 91 48 26 12 20 24 27 16 57 29 16 17 6 X

Y 9 23 62 15 4 26 22 9 1 30 12 14 5 6 14 30 52 5 7 4 6 13 21 44 86 23 26 44 40 15 11 26 22 33 23 16 Y

Z 3 46 45 18 2 22 17 10 7 23 21 51 11 2 15 59 72 14 4 3 9 11 12 36 42 87 16 21 27 9 10 25 66 47 15 15 Z

1 2 5 10 3 3 5 13 4 2 29 5 14 9 7 14 30 28 9 4 2 3 12 14 17 19 22 84 63 13 8 10 8 19 32 57 55 1

2 7 14 22 5 4 20 13 3 25 26 9 14 2 3 17 37 28 6 5 3 6 10 11 17 30 13 62 89 54 20 5 14 20 21 16 11 2

3 3 8 21 5 4 32 6 12 2 23 6 13 5 2 5 37 19 9 7 6 4 16 6 22 25 12 18 64 86 31 23 41 16 17 8 10 3

4 6 19 19 12 8 25 14 16 7 21 13 19 3 3 2 17 29 11 9 3 17 55 8 37 24 3 5 26 44 89 42 44 32 10 3 3 4

5 8 45 15 14 2 45 4 67 7 14 4 41 2 0 4 13 7 9 27 2 14 45 7 45 10 10 14 10 30 69 90 42 24 10 6 5 5

6 7 80 30 17 4 23 4 14 2 11 11 27 6 2 7 16 30 11 14 3 12 30 9 58 38 39 15 14 26 24 17 88 69 14 5 14 6

7 6 33 22 14 5 25 6 4 6 24 13 32 7 6 7 36 39 12 6 2 3 13 9 30 30 50 22 29 18 15 12 61 85 70 20 13 7

8 3 23 40 6 3 15 15 6 2 33 10 14 3 6 14 12 45 2 6 4 6 7 5 24 35 50 42 29 16 16 9 30 60 89 61 26 8

9 3 14 23 3 1 6 14 5 2 30 6 7 16 11 10 31 32 5 6 7 6 3 8 11 21 24 57 39 9 12 4 11 42 56 91 78 9

0 9 3 11 2 5 7 14 4 5 30 8 3 2 3 25 21 29 2 3 4 5 3 2 12 15 20 50 26 9 11 5 22 17 52 81 94 0

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 2 3 4 5 6 7 8 9 0

% de Confusion entre Signal 1en ligne etSignal 2en colonne

Exemple :Les codes Morse

Page 22: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Utilisation de M-D-SCAL

3210-1-2

2

1

0

-1

-2

-3

E T

M N

AI

O

G K W

R D

U S

J Q

Z P

Y

C X

L B F V

H

0 9

1 8 2

7 3

6 4

5

Des points vers les traits

De

1 à

5 c

om

posa

ntes

3210-1-2

2

1

0

-1

-2

-3

E T

M N

AI

O

G K W

R D

U S

J Q

Z P

Y

C X

L B F V

H

0 9

1 8 2

7 3

6 4

5

Des points vers les traits

De

1 à

5 c

om

posa

ntes

Page 23: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Qualité de la représentation graphique

• Soit n points {x1,…,xn} dans un plan.

• Définition des disparités :

' ' ' 'ˆ ˆ(1) ij i j ij i js s d d

2ˆ(2) ( ( , ) )i j ijMin d x x d2

2

ˆ( )

0.2392ij ij

i j

iji j

d d

STRESSd

(distance, disparité)

0.8428

Cor

M-D-SCAL recherche les points {x1,…,xn} minimisant le

STRESS

Page 24: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Exemple 6 : Positionnement des cigarettes

Marque 1 2 3 4 5 6 7 8 9 10 11 12 13 56

1 Air France 100 12 5 33 29 5 7 25 6 6 37 4 8 25

2 Ariel 12 100 74 8 6 2 6 2 10 10 1 3 8 0

3 Ariel 100 5 74 100 6 10 8 9 2 7 7 3 3 11 2

4 Balto 33 8 6 100 53 9 19 10 41 31 12 19 17 11

5 Bastos légère 29 6 10 53 100 7 21 20 18 18 28 5 10 21

6 Benson & Hedges 5 2 8 9 7 100 67 2 12 19 3 40 37 2

7 Black & White 7 6 9 19 21 67 100 3 11 22 3 40 52 3

8 Boyard Maïs 25 2 2 10 20 2 3 100 6 4 58 3 4 81

9 Camel 6 10 7 41 18 12 11 6 100 82 10 24 15 6

10 Camel filtre 6 10 7 31 18 19 22 4 82 100 8 25 21 6

11 Celtique 37 1 3 12 28 3 3 58 10 8 100 4 6 71

12 Craven A 4 3 3 19 5 40 40 3 24 25 4 100 45 5

13 Craven A Export 8 8 11 17 10 37 52 4 15 21 6 45 100 5

56 Boyard blanc 25 0 2 11 21 2 3 81 6 6 71 5 5 100

- Chaque personne interrogée construit sa typologie des 56 marques.- % de personnes mettant les marques i et j dans le même groupe.

Page 25: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Kool 34 Reyno 46 Ariel 2 Royale menthol 52 Craven A menthol 15 Peter Stuyvesant menthol 40 Française menthol 22 Ariel 100 3 Royale extra longue menthol 51 Royale club 49 Royale extra-longue 50 Royale 48 Balto 4 Flash 18 Bastos légère 5 Marigny 36 Flint 19 Rallye 45 Week-end 53 Camel 9 Camel filtre 10 Benson & Hedges 6 Black & White 7 Dunhill international 17 Craven A 12 Players navycut 44 Craven A export 13 Craven A filtre 14 Rothmans king size 47 Players gold leafe 43 Marlboro 35 Winston rigide souple 55 Peter Stuyvesant 39 Kent rigide souple 32 Kent 100 mm de luxe 33 Winston 100 mm 54 Peter Stuyvesant luxury 41 Pall Mall 100 mm 37 Philips Morris 100 mm 42 Pall Mall king size 38 Fontenoy 20 Française 21 Boyard maïs 8 Boyard blanc 56 Celtique 11 Gitane blanc 29 Gitane filtre blanc 30 Disque bleu 16 Gauloise filtre 26 Gauloise 24 Gauloise grand format 27 Gitane maïs 31 Gauloise doux 25 Gauloise Maryland 28 Gallia 23 Air France 1

Groupe 1

Groupe 5

Groupe 3

Groupe 4.1

Groupe 4.2

Groupe 4

Groupe 2

Page 26: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

26

Groupe 1

Groupe 2

Groupe 3

Groupe 4Groupe 5

Page 27: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

27

Axe 2

Groupe 1

Groupe 3

Groupe 4

Groupe 2

Groupe 5

Page 28: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Exemple 7 : Jus d’orange PAMPRYL TROPICANA FRUIVITA JOKER TROPICANA PAMPRYL ambiant ambiant réfrigéré ambiant réfrigéré réfrigéré ________ _________ _________ ________ _________ _________ Glucose 25.32 17.33 23.65 32.42 22.70 27.16 Fructose 27.36 20.00 25.65 34.54 25.32 29.48 Saccharose 36.45 44.15 52.12 22.92 45.80 38.94 Pouvoir sucrant 89.95 82.55 102.22 90.71 94.87 96.51 Ph brut 3.59 3.89 3.85 3.60 3.82 3.68 Ph après centrifugation 3.55 3.84 3.81 3.58 3.78 3.66 Titre 13.98 11.14 11.51 15.75 11.80 12.21 Acide citrique .84 .67 .69 .95 .71 .74 Vitamine C 43.44 32.70 37.00 36.60 39.50 27.00 Intensité odeur 2.82 2.76 2.83 2.76 3.20 3.07 Typicité odeur 2.53 2.82 2.88 2.59 3.02 2.73 Caractère pulpeux 1.66 1.91 4.00 1.66 3.69 3.34 Intensité du goût 3.46 3.23 3.45 3.37 3.12 3.54 Caractère acide 3.15 2.55 2.42 3.05 2.33 3.31 Caractère amer 2.97 2.08 1.76 2.56 1.97 2.63 Caractère sucré 2.60 3.32 3.38 2.80 3.34 2.90 Juge 1 2.00 2.00 3.00 2.00 4.00 3.00 Juge 2 1.00 3.00 3.00 2.00 4.00 1.00 Juge 3 2.00 3.00 4.00 2.00 3.00 1.00 . . . Juge 96 3.00 3.00 4.00 2.00 4.00 1.00

X1 = Instrumental, X2 = Sensoriel, X = [X1, X2], Y = Hédonique

Page 29: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Biplot des caractéristiques des jus d’oranges

Page 30: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Axe 1

6420-2-4

Axe

2

3

2

1

0

-1

-2

-3

-4

-5Juge 1

Pampryl réfrigéré

Tropicana réfrigéré Joker ambiant

Pampryl ambiant

Fruivita réfrigéré

Tropicana ambiant

PREFMAP : Modèle vectoriel

Max Cor(Notes observés, Projections)

Page 31: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Carte de préférence

1

23

45

6

7

8

9

10

11

1213

14

1516 17

18

19

2021

22

23

24

25

26

27

2829

30

31

3233

34

35

3637

38

39

40 41

42

4344

45

46

47

48

4950

51

52

53

54

55

56

5758

59

60

61

62

63

64

65

66

67

68

69

70

717273

74

75

76

77

78

79

80

81

82

83

84

85

86

8788

8990

9192

93

94

9596

Pampryl ambiant

Tropicana ambiant

Fruivitaréfrigéré

Joker ambiant

Tropicana réfrigéré

Pamprylréfrigéré

-5

-4

-3

-2

-1

0

1

2

3

4

5

-5 -4 -3 -2 -1 0 1 2 3 4 5

axe 1

a

xe 2

Page 32: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Expliquer ?

Page 33: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Salaire des professeurs duGroupe HEC

Compta-Contrôle 32.5 46 M 1 0 0 0 4 1

Compta-Contrôle 32.0 46 M 1 0 0 0 4 1

Compta-Contrôle 31.0 48 M 1 0 1 1 4 1

Compta-Contrôle 30.0 52 M 0 0 0 0 4 1

Compta-Contrôle 30.0 50 M 1 1 0 1 4 4

Compta-Contrôle 30.0 62 M 0 0 0 1 4 1

Compta-Contrôle 29.5 50 M 1 0 0 0 4 2

Compta-Contrôle 29.5 54 M 1 0 0 0 3 3

Compta-Contrôle 28.5 51 M 0 1 0 0 4 1

.... ... ... ... ... ... ... ... ... ...

S.P.E. 36.0 48 M 1 1 0 1 4 1

S.P.E. 36.0 52 M 1 0 1 1 4 2

S.P.E. 36.0 60 M 0 1 0 1 4 2

S.P.E. 35.0 55 M 0 0 0 0 4 1

S.P.E. 33.5 48 M 1 0 0 0 4 1

S.P.E. 31.5 46 M 1 0 0 0 4 2

S.P.E. 31.0 51 M 0 0 0 1 3 2

S.P.E. 28.5 48 M 0 0 0 0 4 1

S.P.E. 28.5 38 M 1 0 0 0 4 5

S.P.E. 27.5 51 M 1 0 0 0 4 1

S.P.E. 26.5 51 M 0 1 0 0 2 2

S.P.E. 22.0 31 M 1 0 0 0 4 5

S.P.E. 19.5 36 M 0 0 0 0 3 4

S.P.E. 17.0 30 M 0 0 0 0 4 4

S.P.E. 16.0 35 M 0 0 1 0 4 4

1

2

3

4

5

6

7

8

9

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

DEPARTEMENT CRAN AGE SEXE HEC DOC PHD DIRECT PEDAGO RECH

Page 34: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Salaire en fonction de l’age

AGE

706050403020

CR

AN

40

30

20

10

0

HEC

OUI

NON

Page 35: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Pédagogie et HEC

HEC

OUINON

Co

un

t40

30

20

10

0

PEDAGOGIE

1

2

3

4

24

37

5

17

11

2

Page 36: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Recherche et HEC

HEC

OUINONC

ou

nt

100

90

80

70

60

50

40

30

20

10

0

RECHERCHE

5

4

3

2

1

179

14

15

7

19

21

18

4139

HEC

OUINON

Co

un

t

30

20

10

0

RECHERCHE

1

2

3

4

5

56

4

10

2

13

6

12 12

26

Page 37: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Modèle de salaire des professeurs

0 1 2 3 4

107

5 6 118

129

13PédagogieRecherche

11

22

33

44

5

Cran Age HEC Doctorat PhD

00

Directeur Homme

Page 38: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Estimation du modèle par la méthode des moindres carrés

Un paramètre est significativement différent de 0 si son intervallede confiance ne contient pas 0.

Coefficientsa

-12.792 4.120 -3.105 .003 -20.988 -4.596

.557 .053 10.495 .000 .451 .662

2.593 .938 2.764 .007 .727 4.460

.972 .999 .974 .333 -1.014 2.959

1.197 1.186 1.009 .316 -1.162 3.556

2.685 1.064 2.524 .014 .569 4.801

1.163 1.523 .764 .447 -1.867 4.193

6.448 2.898 2.225 .029 .682 12.214

7.786 2.809 2.772 .007 2.199 13.374

9.322 2.728 3.417 .001 3.895 14.750

1.900 1.079 1.761 .082 -.247 4.048

1.889 1.222 1.546 .126 -.542 4.320

2.200 1.306 1.684 .096 -.398 4.798

5.495 1.444 3.806 .000 2.623 8.367

(Constant)

AGE

HEC

DOC

PHD

DIRECT

HOMME

P2

P3

P4

R2

R3

R4

R5

Model1

B Std. Error

UnstandardizedCoefficients

t Sig. Lower Bound Upper Bound

95% Confidence Interval for B

Dependent Variable: CRANa.

Page 39: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Estimation du modèle par la méthode des moindres carrés

PédagogieRecher

11

22

33

44

5

Cran théorique -12.792 .557Age 2.593HEC .972Doctorat

1.197PhD 2.685Directeur 1.163Homme

00

1.9006.448

1.8897.786

2.2009.322

5.495

che

Page 40: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Qualité du modèle

Cran théorique

40302010

Cra

n o

bse

rvé

40

30

20

10

0

Page 41: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

41

Référendum sur la constitution européenne

Vote constitution européenne

Sexe Classe d'age Proximité politique

Dernier diplôme Confiance

en son avenir

Oui Femme 25-34 PS Bac+3/4 Confiant+ Oui Homme 60 et + PS < Bac Confiant- Oui Femme 35 à 44 ans UMP Bac+3/4 Nsp Oui Homme 45-59 PS Bac Confiant++ Oui Femme 35 à 44 ans UMP Bac+5/Grande école Confiant++ Oui Homme 25-34 UMP Bac Confiant+ Oui Femme 25-34 UMP Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+5/Grande école Confiant+ Oui Femme 35 à 44 ans UDF Pas de diplôme Confiant+ Oui Homme 45-59 UDF < Bac Confiant-- Oui Homme 25-34 UMP Bac+5/Grande école Confiant+ Oui Homme 60 et + UMP < Bac Confiant+ Oui Femme 35 à 44 ans PS < Bac Confiant+ Oui Homme 18-24 UMP Bac+3/4 Confiant- Oui Femme 35 à 44 ans PS Bac+2 Confiant- Oui Femme 18-24 Verts Bac Confiant++ Oui Femme 60 et + UMP < Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+2 Confiant+ Oui Homme 60 et + UMP < Bac Confiant+

Page 42: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

42

Arbre de segmentation avec Answer Tree

Page 43: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Prévoir ?

Page 44: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

La méthode de Winters

Exemple : Ventes de Champagne

1962 … 1968 1969 1970JanvierFévrierMarsAvrilMaiJuinJuilletAoûtSeptembreOctobreNovembreDécembre

281526722755272129463036228222122922430157647312

26392899337037402927398642171738522164249842

13076

39343162428646765010487446331649595169819851

12670

434835644577478846185312429814315877

On exclut les douze derniers mois pour valider la méthode.

Page 45: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Ventes de Champagne

On exclut les douze derniers mois pour valider la méthode.

Date

CH

AM

PA

GN

E

16000

14000

12000

10000

8000

6000

4000

2000

0

Page 46: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Résultats sur l’historique utilisé(prévision à l’horizon 1)

Date

16000

14000

12000

10000

8000

6000

4000

2000

0

Champagne

Prévision

Page 47: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Résultats sur la période test (prévision sur l’horizon 1 à 12)

Date

14000

12000

10000

8000

6000

4000

2000

0

Champagne

Prévision

Page 48: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

48

GALTON, 1908

Some people hate the very name of Statistics, but I find them full of beauty and interest. Whenever they are not brutalized, but delicatelyhandled by the higher methods, and are warily interpreted, their power of dealing with complicated phenomena is extraordinary.They are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of

man.

Page 49: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Proverbe chinois

J ’entends et j ’oublie.Je vois et je me souviens.Je fais et je comprends.

耳听为虚眼见为实身教重于言传

Page 50: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

50

Mark Rothko (1903 - 1970)

Le travail évolue à mesure qu’il avancevers plus de clarté, vers l’élimination

detous les obstacles entre le peintre etl’idée, et entre l’idée et le spectateur.

Page 51: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

1949

Page 52: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

1952

Page 53: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

1956

Page 54: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

1960

Page 55: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier
Page 56: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

1968

Page 57: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier
Page 58: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier
Page 59: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier
Page 60: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

60

Panorama des méthodes statistiques

Recueil des données- Sondage

- Plan d’expériences

Méthodes explicatives

Y = f(X1,…,Xk)

Méthodes descriptives- Visualisation

- Classification

Méthodes de prévision

Xt = f(Xt-1, Xt-2,…)

Page 61: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

61

Types de données

Un bloc

X1 … Xp1...i...n

Deux blocs X Y

K blocs

X1 XK...

Les variablespeuvent êtrenominales,ordinales,ou numériques

Page 62: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

62

Un bloc X : Visualiser et classer

X1 … Xp1...i...n

Y1

Y2

**

*** *

*

* ***** ** **

*

*** ** *

Cor(Xj,Y1)

Cor(Xj,Y2)

X1

X2X3

X4X5

X6

X7

Page 63: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

63

Visualiser

Variables quantitatives

- Analyse en composantes principales (orientée individus)- Analyse factorielle (orientée variables)

Variables qualitatives

- Analyse des correspondances multiples- ACP des variables indicatrices des modalités

Variables quantitatives / qualitatives

- ACP des variables quantitatives et des indicatrices des modalités- Codage optimal des variables qualitatives (Proc PRINQUAL)

Page 64: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

64

Classer (Construire des groupes)

Individus- Classification Ascendante Hiérarchique

- Méthode des centres mobiles (Nuées dynamiques)

Variables- CAH des variables (SPSS)

- Proc VARCLUS (SAS)

Page 65: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

65

Deux blocs : X et Y

X1 … Xp

1...i...n

Y1 … Yq

1...i...n

Prédicteurs Réponses

Modéliser

Yk = fk(X1,…, Xp) +

Visualiser

Y1

Y2

Y4

Y3

X2

*

X3

*

X5

*

X4

* X1

*

Page 66: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

66

Méthodes explicatives : Une réponse Y

Loi de probabilité de la réponse dans la famille exponentielle(Binomiale, Poisson, Normale, Gamma, Gauss Inverse, ...) :

Modèle linéaire généralisé (Proc GENMOD)

X1, X2, …, Xk

Y Quantitatives Qualitatives Mélange

Quantitatif Régression multiple Analyse de la variance Analyse de la covariance

Qualitatif - Régression Logistique- Segmentation- Analyse factorielle

discriminante- Analyse discriminante bayesienne

- Régression Logistique- Segmentation- Analyse factorielle

discriminante

- Régression Logistique- Segmentation- Analyse factorielle

discriminante

Variable à expliquer

Variables explicatives

Réseaux de neurones :

Optimiser la prévision

pour les modèles non

linéaires (!!!!)

Page 67: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

67

Méthodes explicatives : plusieurs réponses Y

X = Prédicteurs , Y = Réponses

- Analyse des redondances

- Régression PLS

X et Y jouent un rôle symétrique

- Analyse canonique

- Analyse inter-batteries de Tucker

Page 68: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

68

K blocs X1, X2, …, XK

Rôle symétrique

X1

XK

.

.

.

X1….. XK

- Analyse canonique généralisée (Horst, Carroll)- Analyse factorielle multiple (Escofier & Pagès)- Analyse factorielle confirmatoire- Analyse factorielle confirmatoire du second ordre

Page 69: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

69

Modélisation de relations structurelles sur variables latentes

ECSI Path model for a“ Mobile phone provider”

Image

Perceivedvalue

CustomerExpectation

Perceivedquality

Loyalty

Customersatisfaction

Complaint

.493 (.000)

R2=.243

.545 (.000)

.066 (.314)

.037 (.406)

.153 (.006)

.212 (.002)

.540(.000)

.544 (.000)

.200 (.000)

.466(.000)

.540(.000)

.05 (.399)

R2=.297

R2=.335 R2=.672

R2=.432

R2=.292

Approcheconfirmatoire

LISREL (ML):- Proc CALIS (SAS)- AMOS (SPSS)

Approcheexploratoire

PLS Path modelling :- PLS-Graph (Wynne Chin)

Page 70: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Inégalité économique et instabilité politique (Données de Russett, 1964)

Inégalité économiqueInégalité agricoleGINI : Inégalité dans la répartition

des terresFARM : % fermiers possédant la

moitié des terres (> 50%)RENT : % fermiers locataires

Développement industrielGNPR : PNB par habitant ($ 1955)LABO : % d ’actifs dans

l’agriculture

Instabilité politiqueINST : Instabilité de

l ’exécutif (45-61)ECKS : Nb de conflits

violents entre communautés (46-61)

DEAT : Nb de morts dans des manifestations (50-

62)D-STAB : Démocratie stableD-INS : Démocratie instableDICT : Dictature

Page 71: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Inégalité économique et instabilité politique (Données de Russett, 1964)

47 pays

GiniFarmRentGnprLaboInstEcksDeatrégime

Argentine86.398.232.93742513.6572172

Australie92.999.6*12151411.3001

Autriche 74.097.410.75323212.8402

France 58.386.126.010462616.34612

Yougoslavie43.779.80.0297670.0903

1 = Démocratie stable2 = Démocratie instable3 = Dictature

Page 72: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Inégalité économique et instabilité politique

GINI

FARM

RENT

GNPR

LABO

Inégalité agricole (X1)

Développement industriel (X2)

ECKS

DEAT

D-STB

D-INS

INST

DICT

Instabilitépolitique (X3)

1

2

3

++

+

+

-

+++-

++

+

-

Variablemanifesteobservable

Variablelatente nonobservable

Page 73: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Utilisation de PLS-Graph de Wynne Chin

Page 74: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Estimation des variables latentes par la méthode PLS

(Mode A, Schéma Centroïde)

On maximise le critère :

1 1 1 1 3 3 2 2 2 2 3 3

3 3 3 3 1 1 3 3 2 2

( ) | ( , ) | ( ) | ( , ) |

( )(| ( , ) | | ( , ) |)

Var X w Cor X w X w Var X w Cor X w X w

Var X w Cor X w X w Cor X w X w

sous les contraintes ||w1|| = ||w2|| = ||w3|| = 1

On estime les variables latentes j par Yj = Xjwj.

Les variables latentes sont ensuite réduites.

Page 75: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

75

Intérêt du critère

Cette méthode réalise un compromis entre :

- des ACP de chaque bloc

- des analyses canoniques des blocs reliés entre eux

Page 76: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Résultats

Page 77: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Résultats Latent variables ======================================== Ineg_agri Dev_ind Inst_pol ---------------------------------------- Argentine 0.964 0.238 0.755 c2 1.204 1.371 -1.617 c3 0.397 0.253 -0.480 c4 -0.812 1.530 -0.846 c5 1.115 -1.584 1.505 c6 0.778 -0.654 0.302 c7 -1.538 1.680 -0.952 c8 1.231 -0.324 0.020 c9 0.812 -0.443 0.817 c10 0.918 -0.484 0.305 c11 0.756 -0.182 1.681 c12 -2.004 0.821 -1.534 . . . c45 1.149 0.252 1.135 c46 -0.212 1.104 -0.494 c47 -2.189 -0.654 0.125 ========================================

Page 78: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Estimation des variables latentes

Y1 Y2 Y3

Argentine 0.96 0.24 0.75

Australie 1.20 1.37 -1.62

Autriche 0.39 0.25 -0.48

France -0.88 0.80 0.56

Yougoslavie -2.19 -0.65 0.13

Régression multiple de Y3 sur Y1 et Y2

R2 = 0.618

Instabilité politique = 0.217 Inégalité agricole – 0.692 Développement industriel

(2.24) (-7.22)

Les t de Student sont obtenus par régression multiple.

Résultats

Page 79: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Carte des pays : Y1 = inégalité agricole , Y2 = développement industriel

Y2 „ƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒ† ‚ ‚ ‚ 2.0 ˆ royaume-uni(1) ** états-unis(1) ˆ ‚ ‚ ‚ ‚ ‚ ‚ ‚ * canada(1) ‚ ‚ ‚ * suisse(1) ‚ ‚ 1.5 ˆ * belgique(1) ‚ ˆ ‚ * suède(1) ‚ australie(1) * ‚ ‚ ‚ * nouv._zélande(1) ‚ ‚ * pays-bas(1) ‚ ‚ ‚ * rfa(2) ‚ 1.0 ˆ * luxembourg(1) ˆ ‚ france(2) ‚ ‚ ‚ * danemark(1) * * norvège(1)‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ 0.5 ˆ ‚ ˆ ‚ ‚ ‚ ‚ * finlande(2) ‚ * autriche(2) ‚ ‚ ‚ italie(2) * * argentine(2)‚ ‚ * irlande(1) ‚ uruguay(1) *venezuela(3) ‚ 0.0 ˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆ ‚ ‚ ‚ ‚ ‚ * cuba(3) ‚ ‚ * pologne(3) ‚ chili(2) * ‚ ‚ * japon(2) ‚ * panama(3) * colombie(2) ‚-0.5 ˆ ‚ grèce(2) * * * costa-rica(2)ˆ ‚ * yougoslavie(3) nicaragua(3)* Espagne(3)*brésil(2) ‚ ‚ ‚ salvador(3)* * * équateur(3) ‚ ‚ * philippines(3) rép_dominic.(3) ‚ ‚ taiwan(3) * guatémala(3) * ‚-1.0 ˆ ‚ pérou(3) * * irak(3) ˆ ‚ sud_vietnam(3) * ** honduras(3) ‚ ‚ ‚ égypte(3) ‚ ‚ ‚ ‚ ‚ * libye(3) ‚-1.5 ˆ * inde(1) ‚ ˆ ‚ ‚ bolivie(3) * ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚-2.0 ˆ ‚ ˆ ‚ ‚ ‚ ŠƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒŒ -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

Y1

Page 80: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

80

Méthodes de prévision

Analyse d’une série chronologique- Recherche d’une tendance et de facteurs

saisonniers- Identification de valeurs atypiques

Prévision- Méthodes de lissage (série courte)- Méthode de Box-Jenkins (série longue)

Page 81: Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier

Conclusion générale

« All the proofs of a pudding are in the eating, not in the cooking ».

William Camden (1623)