Upload
vudan
View
216
Download
0
Embed Size (px)
Citation preview
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
1
3
ème année ICBE 2011-2012
Travaux pratiques de Statistique
Philippe Besse Jean-Louis Tichadou
Organisation du cours et des travaux pratiques de Statistique La partie « Statistique » de l’Unité de Formation « Microbiologie & Statistique » va conduire à 2
notes évaluant
Un examen à l’issue des séances de cours et des 6 premières séances de travaux pratiques.
Un rapport final rendant compte des 8 séances de travaux pratiques.
En complément des 2x5 séances de cours, il y a donc 8 séances de travaux pratiques divisées en 2 parties.
6 séances d’initiation : exploration et modélisation statistique à l’aide du logiciel Minitab.
2 séances de mise en œuvre : étude statistique des données de croissance bactérienne obtenues lors
des travaux pratiques de Microbiologie
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
2
TP1 Prise en main du logiciel Minitab Objectif : s’initier à l’emploi d’un logiciel de traitement de données (MINITAB version 14 en anglais)
Minitab est un logiciel d’analyse statistique de données généraliste doté d’un menu.
Son interface présente une zone d’édition appelée «Session» et un tableau appelé «Worksheet».
Fonctionnement typique :
les données sont mises dans le tableau
un traitement est choisi dans le menu
on indique sur quelles données il doit agir
les résultats du traitement s’affichent dans la session.
Attention : Le tableau ne s’utilise pas comme celui d’un tableur,
mais comme celui d’un logiciel de gestion de base de données :
- toutes les données d’une colonne doivent être de même type.
- l’élément n’est pas la cellule mais la colonne entière
(le « champ » d’une base de données) ; on agit sur toutes les
données d’une colonne en même temps en la désignant par son nom.
Le nom de la colonne est mis dans sa première case, réservée à cet
effet, sur la ligne grise non numérotée.
Utilisation d’un Menu
Un menu contient une liste de sous-menus correspondant à différentes fonctionnalités.
Chaque sous-menu (terminé par ►) contient une liste de commandes (terminées par ●●●).
Exemple : menu « Stat »
sous menu « Basic Statistics »
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
3
Sélection des variables pour une commande
Si une commande (« Display Descriptive Statistics » par exemple) est
choisie, la boite de dialogue correspondante s’ouvre.
La liste des variables disponibles pour la commande s’affiche à gauche. Pour sélectionner la ou les variables voulues :
double-cliquer sur le nom de la variable ou bien
marquer la ou les variables et agir sur la touche « Select ».
Les variables sélectionnées s’affichent dans la fenêtre de droite.
Remarque : si la liste ne s’affiche pas, cliquer dans la fenêtre de droite
Pour découvrir le logiciel, quatre exemples avec
les fonctions du menu principal : Stat, Calc, Data et Graph
1) Obtenir des statistiques descriptives
Le menu Stat regroupe les méthodes statistiques du logiciel. Nous en étudierons certaines.
Etude : Neuf dosages d’une même solution ont été effectués. Les résultats constituent un échantillon
de la population de tous les résultats qu’on pourrait obtenir pour ces dosages.
Les concentrations obtenues sont : 183 191 191 208 201 195 205 199 et 202 en mg/l
Saisir les données dans une colonne et la nommer concentration.
Obtenir des statistiques descriptives :
o Menu Stat / Basic Statistics / Display Descriptive Statistics
o avec Statistics, choisir la moyenne, l’écart-type (standard deviation), l’erreur-type de la
moyenne (SE of mean) et la médiane.
o avec Graphics, choisir l’histogramme des données avec courbe normale
Comparer écart-type des mesures et erreur-type de la moyenne. Le rapport de leurs valeurs
était-il prévisible ?
2) Générer des nombres aléatoires
Cela permet de simuler des résultats expérimentaux. L’avantage est qu’on connaît les « vraies
valeurs » des paramètres moyenne et écart-type, celles qu’on obtiendrait avec un nombre
infiniment grand de mesures. On est sûr aussi de la loi de distribution.
Etude 1 : Quelle allure peut avoir un histogramme de données selon le nombre de valeurs ?
Générer une série de 100 valeurs aléatoires, réparties selon une loi normale, issues d’une
population de moyenne 80 et d’écart-type 5. Les stocker dans une colonne nommée Y.
o Menu Calc / Random Data / Normal
o Generate 100 raws of data
Obtenir les statistiques descriptives correspondantes. Représenter l’histogramme avec sa
courbe normale associée aux données.
Comparer avec des séries de respectivement 10, 1000 et 10000 valeurs.
Etude 2 : Quelles différences peut-on obtenir entre plusieurs échantillons de même population ?
Générer 10 séries de 4 valeurs de moyenne 80 et d’écart-type 5 stockées dans 10 colonnes
nommées de Y1 à Y10 (Les générer en une seule fois, les noms des variables séparés par des espaces.).
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
4
Obtenir les statistiques descriptives correspondantes. Comparer les moyennes, les écarts-types
et les erreur-types des moyennes des 10 séries.
Recommencer avec des séries de respectivement 10 et 100 valeurs.
Quelles tendances remarquez-vous lorsque le nombre de valeurs augmente ?
3) Manipuler des données Bien organiser ses données est nécessaire pour les traiter et les analyser efficacement.
Les tableaux ci-dessous représentent deux façons d’organiser les mêmes données,
des concentrations résultant de dosages effectués à différentes températures :
T18 T22 T26 T30 Conc Temp
17.5 19.1 20.1 20.9 17.5 18
18.2 20.5 20.6 21.4 18.2 18
19.4 19.8 19.1 22
20.5 22
19.4 22
20.1 26
20.6 26
19.8 26
20.9 30
21.4 30
La seconde organisation est souvent préférable.
Chaque ligne du tableau représente alors un dosage (avec sa concentration, sa température, – on
peut ajouter d’autres informations : conditions, date, auteur,…) et chaque colonne une variable.
Les données utilisées pour les prochaines séances de TD et le projet (voir page suivante) seront
présentées de cette façon.
Etude 1 : Saisir les données dans 4 colonnes et les empiler pour en faire une seule colonne.
Remarque : Selon la configuration de votre ordinateur, il faut taper un point ou une virgule pour que les valeurs
saisies soient considérées comme du numérique. Le numéro de la colonne est suivi d’un T si elle contient du texte.
o Menu Data / Stack / Columns
o Stack the following columns : T18 T22 T26 T30 o Column in current worksheet : Conc o Store subscripts in : Temp o cocher la case pour avoir les noms des colonnes en indice, sinon il y aura des numéros 1, 2, 3 et 4.
On peut aussi désempiler des données (commande Unstack columns).
Etude 2 : Changer le type de donnée d’une variable.
Si on voulait que la colonne Temp contienne 18, 22 etc. au lieu de T18, T22 …, on aurait pu donner
comme titre des 4 colonnes : 18, 22, …Faites-le et constatez que la variable Temp reste considérée
comme du texte. Pour changer de type :
o Menu Data / Change Data Type / Text to Numeric
4) Afficher un graphique
Il est utile de visualiser ses données à l’aide d’un graphique avant de les traiter.
Etude : avec les données précédentes, afficher un diagramme de points Conc = f(Temp)
o Menu Graph / ScatterPlot / Simple
Quelle(s) information(s) sont plus évidentes avec le graphique qu’à la lecture du tableau ?
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
5
TP2 Exploration statistique
Une analyse statistique déroule scrupuleusement les étapes suivantes :
1. Explicitation précise de la question biologique comme par exemple : le mode d’étalement
dans la boîte de Pétri a-t-il un effet sur la croissance bactérienne ?
2. Se poser les questions : quelle est la population étudiée ? Comment planifier
l’expérience ?
3. Description unidimensionnelle (indicateurs, graphiques) et bidimensionnelles (liaisons)
des variables concernées
5. Choix du test ou du modèle adapté à la question biologique et aux données recueillies ;
6. Explicitation des hypothèses, calcul de la statistique de thèse, décision.
En pratique : pour commencer à rédiger le rapport du projet, il suffit d’ouvrir un document
Word et d’y copier/coller les différents éléments : graphiques, tableaux numériques au fur et
à mesure de leur obtention et d’y ajouter les commentaires.
Objectif de la séance : apprentissage de l’étape 3 ci-dessus. Description statistique avec Minitab.
1. Les Données
1.1 Gestion des fichiers
Les différents fichiers sont disponibles sous la forme d’une feuille Excel dans le répertoire
« cometud ». Le transfert des données dans Minitab se fait en ouvrant le fichier par une feuille de
travail (File>New>Worksheet) ou par copier/coller.
Remarque : Pour transférer les données dans Minitab par copier/coller, sélectionnez entièrement la feuille Excel
des données ─ avec les noms des colonnes ─ , copier, se positionner dans Minitab dans la première case de titre
de colonne et coller. En une seule fois, les noms des colonnes sont mis dans la ligne de titre et les données dans le
tableau.
1.2. Données épidémiologiques
Le fichier fourni est constitué d’une partie des données et variables d’une étude entre 1961 et 1973.
Il comprend 115 lignes (individus ou unités statistiques) décrites par les 19 variables ci-dessous.
L’étude1 a été réalisée dans un hôpital d’Oakland. Lors de chaque naissance, de nombreuses
informations médicales et socio-économiques concernant le bébé et ses parents ont été collectées.
Dix ans plus tard, de nouvelles informations étaient recueillies.
L’étude avait pour but de rechercher si certaines caractéristiques des parents avaient une influence
sur le développement de l’enfant.
Enfant à la naissance
ESx sexe M ou F
ERh facteur rhésus Rh+ ou RH−
ETaille0 taille en cm (converti à partir de pouces)
EPoids0 poids en kg (converti à partir de livres)
Enfant à 10 ans
ETaille10 taille
EPoids10 poids
Mère à la naissance de l’enfant
MRh groupe sanguin
1 Source des données : J.L. Hodges, D. Krech et R. Crutchfield Statlab : an Empirical Introduction to Statistics, 1975.
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
6
MAge âge au dernier anniversaire avant la naissance
MPoids0 poids
MCig0 consommation de cigarettes 0 cigarettes par jour 1 à 10 plus de 10
Mère 10 ans après
MTaille10 taille
MPoids10 poids
MCig10 consommation de cigarettes
Père à la naissance de l’enfant
PAge âge au dernier anniversaire avant la naissance
PCig0 consommation de cigarettes
Père 10 ans après
PTaille taille
PPoids10 poids
Revenus familiaux
RevFam0 à la naissance de l’enfant en centaines de dollars
RevFam10 10 ans après
2. Expérimentation des outils d’exploration
Lancer Minitab, ouvrir la feuille de travail contenant les données puis exécuter les différentes
commandes.
2.1 Description unidimensionnelle
Variable quantitative : le poids de l’enfant à la naissance.
A l’aide de la commande : Menu Stat > Basic Statistics > Display Descriptive Statistics
calculer les différents indicateurs quantitatifs relatifs à cette variable, représenter son histogramme
et le diagramme boîte. Commentaire. Etudier également rapidement, le poids à dix ans, celui du
père, de la mère.
Variable qualitative : la consommation de cigarette de la mère au moment de la naissance.
Calculer les effectifs et proportions de chaque classe, tracer un diagramme en secteur.
Menu Stat > Tables > Tally Individual Variables (tally = compte)
Menu Graph > Pie Chart (diagramme en secteur)
Remarque : le travail a été simplifié par un regroupement préalable des modalités présentant un trop
faible effectif (de 1 à 3 cigarettes, de 10 à 20 cigarettes)
Commentaires. Etudier également la variable sexe.
2.2. Description bidimensionnelle
Représenter la liaison entre une variable quantitative et une variable qualitative par des
diagrammes boîtes parallèles : étude du poids de l’enfant à la naissance selon la
consommation de cigarette de la mère.
Menu Graph > Boxplot choisir : One Y - With Groups
Comparer ces boîtes, les médianes. Commentaire.
Etude de la liaison entre deux variables quantitatives : poids et taille de l’enfant à la
naissance
Calculer le coefficient de corrélation entre les deux variables et représenter le nuage de point
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
7
Menu Stat > Basic Statistics > Correlation
Menu Graph > Scatterplot
Commentaire sur la liaison, la forme du nuage. Etudier également la relation du poids de l’enfant à
la naissance avec le poids de l’enfant à 10 ans puis avec celui de son père.
Etude de la liaison entre deux variables qualitatives : sexe et rhésus sanguin de l’enfant
Construire la table de contingence, calculer les profils.
Menu Stat > Tables > Cross Tabulation and Chi-Square
Trouver les effectifs de chaque cellule de la table, les effectifs marginaux, les profils lignes et
colonnes. Comparer ces profils c’est-à-dire, par exemple, les pourcentages des rhésus par sexe.
Commentaire sur la liaison entre les variables.
Etudier également la relation entre le sexe et la consommation de cigarette de la mère.
3. Descriptions complémentaires
Continuez à explorer les différentes variables du corpus de données en s’intéressant aux variables
séparément ou à la liaison entre deux variables de même type, de type différent.
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
8
TP3 Comparaison et test de 2 paramètres
Objectifs
:
- s’initier à l’utilisation d’un test statistique
- apprendre à choisir un test en fonction des données et de la question posée
- tests d’adéquation à une loi et de comparaison de deux paramètres
Les données sont celles de l’étude sur les naissances dans un hôpital californien (fichier Excel
disponible dans Cometud) utilisées lors des précédents TD.
Les tests utilisés ici ont pour but de mettre en évidence des différences entre paramètres ou
l’adéquation d’une distribution à une loi.
3.1 Comparer une moyenne avec une valeur théorique
Question : Un chercheur qui étudiait l’évolution de la taille des êtres humains au cours du temps à
prédit que la taille moyenne des enfants de 10 ans, dans la région et au moment où a eu lieu l’étude
sur les naissances, devrait être de 1,40 m.
L’échantillon dont vous disposez (variable ETaille10), représentatif de la population de ces enfants,
est-il en accord avec cette affirmation ?
Quels sont les tests qui peuvent être utilisés ? Quels sont les pré-requis à ces tests ?
Exploration des données : Menu Stat > Basic Statistics > Display Descriptive Statistics
Afficher moyenne, écart-type de l’échantillon, erreur-type de la moyenne, médiane.
Afficher l’histogramme avec courbe normale associée.
La répartition des données semble-t-elle normale ?
Test de normalité : Menu Stat > Basic Statistics > Normality Test
Trois tests sont proposés. Choisir l’un d’eux (Anderson-Darling par exemple)
Considérer le graphe associé (droite de Henry) et interpréter la P-value du test d’Anderson-
Darling.
Test d’une différence avec la valeur théorique :
Poser l’hypothèse H0 et l’hypothèse alternative.
Menu Stat > Basic Statistics > 1 Sample t-Test
Indiquer le nom de l’échantillon : ETaille10, la moyenne à tester : 140,
et dans les options, le niveau de confiance : 95 et le critère : Not Equal
Analyser les résultats du test :
avec l’intervalle de confiance :
l’I.C.95% de la moyenne contient-il la valeur à tester ? En est-il loin ? Conclusion.
avec la P-value :
Est-elle inférieure à 5% ? Est-elle très petite ? Conclusion.
Pour obtenir une vue graphique synthétique recommencer :
Menu Stat > Basic Statistics > 1 Sample t-Test avec en plus Graph… / Boxplot of Data
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
9
3.2 Comparer des moyennes avec deux échantillons indépendants
Question : La taille de l’enfant à la naissance (ETaille0) est elle différente selon le sexe (ESx) ?
Exploration des données
Les tailles sont dans une seule colonne ; on peut si nécessaire désempiler la colonne selon le critère
« Sexe » à l’aide de la fonction Menu Data > Unstack Columns > avec Unstack the Data in ETaille0
et Using subscripts in ESx pour obtenir deux échantillons.
Afficher les statistiques descriptives : il y a bien une différence entre les moyennes des deux
échantillons. Mais est-elle due au hasard ou bien y a-t-il une vraie différence entre les moyennes des
populations que représentent ces échantillons ?
- Test de normalité de chaque échantillon : Utiliser successivement les trois tests disponibles :
Anderson-Darling, Ryan-Joiner, Kolmogorov-Smirnov. Comparer les résultats.
Conclusion : la normalité des données est acceptée.
- Test d’une différence entre les moyennes : poser l’hypothèse H0 et l’hypothèse alternative
Choix du test : les données sont considérées comme réparties normalement et les échantillons ne
sont pas appariés : test de Student .Menu Stat > Basic Statistics > 2 Sample t-Test
Analyser les résultats du test
en utilisant l’intervalle de confiance de la différence
en utilisant la valeur de P
Conclusions. Un test non paramétrique sur la même question conduit-il à la même conclusion ?
3.3 Comparer des moyennes avec deux échantillons appariés
Question : Le poids de la mère est-il différent à la naissance (MPoids0) et dix ans après
(MPoids10) ?
Ce qui change par rapport à la question précédente : à chaque valeur d’un échantillon correspond
dans l’autre échantillon une valeur du même individu statistique (sur la même ligne du fichier) ; les
deux échantillons sont appariés.
Exploration des données :
Vérifiez qu’il y a une différence entre les moyennes des deux échantillons ; est-elle due au
hasard, ou les populations (au sens statistique) représentées sont-elles vraiment différentes ?
Repérer, en comparant avec la courbe normale associée, que les histogrammes des deux
échantillons ne semblent pas symétriques.
Tester la normalité :
Vérifiez que les données de chaque échantillon ne sont vraiment pas réparties selon une loi
normale.
Choix du test :
Les conditions d’un test paramétrique ne sont pas réunies ; utiliser un test non paramétrique, le
test de Wilcoxon pour données appariées.
Préparation des données : créer une colonne qui contient la différence entre MPoids0 et Mpoids10.
Menu Calc > Calculator avec Store result in variable DiffPoids et expression 'MPoids10' - 'MPoids0'
Test : Menu Stat > Nonparametrics > 1 Sample Wilcoxon
Teste si la médiane de DiffPoids est différente de zéro. Conclusion
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
10
TP4 Tests de liaisons
Objectifs s’initier à l’utilisation d’un test statistique
apprendre à choisir un test en fonction des données et de la question posée
tester l’influence d’une variable qualitative sur un autre quantitative ou qualitative
4.1 Tester l’indépendance de deux variables qualitatives (test du khi-deux)
Exemples de liaisons possibles : (sexe, rhésus), (rhésus mère et enfant), (sexe, consommation de
cigarettes). Le test de khi-deux compare les effectifs observés d’une table de contingence avec les
effectifs calculés en supposant qu’il n’y a pas de liaison.
Test du chi2 : Menu Stat > Tables > Cross tabulation ans Chi-square
Choisir l’option « Chi-square », cocher « Chi-square analysis »
4.2 Comparer des moyennes avec plusieurs échantillons indépendants : l’ANOVA
Question : La consommation de cigarette influence-t-elle le poids de l’enfant à la naissance ?
Ceci se traduit en : Le poids moyen de l’enfant à la naissance est-il différent selon que la mère fume
pas du tout, un peu ou beaucoup ?
Les conditions que doivent vérifier les données :
les distributions des populations représentées par chaque échantillon doivent être normales
les variances des populations sont supposées égales
Vérifier les conditions :
Test de normalité : Menu Stat > Basic Statistics > Normality Test
Test de comparaison de variances : Menu Stat > Basic Statistics > 2 Variances
Faire une ANOVA à un facteur (à une voie) : Menu Stat > ANOVA > One-Way
La réponse est la variable quantitative dont on compare les moyennes (EPoids0)
Le facteur est la variable qualitative qui sert à constituer les groupes (MCig0)
Analyse :
Pour une vue d’ensemble, regarder le schéma présentant les intervalles de confiance à 95% pour
chaque groupe.
Pour une aide à la décision, repérer la valeur de P. Est-elle très petite ? Conclusion ?
Pour comprendre l’analyse : l’ANOVA compare la variance des poids d’enfants à l’intérieur des
groupes à la variance des poids entre les groupes. Si cette dernière est suffisamment plus grande que
l’autre, cela indique qu’il y a entre les moyennes des groupes une ou des différences qui ne sont
probablement pas dues au hasard.
Noter que les sommes de carrés (SS : Sum of Squares) des différences à l’intérieur des groupes – (ligne Error)
sont plus grandes que les sommes des carrés des différences entre les moyennes des groupes (ligne MCig0).
Mais comme les effectifs sont grands : la variance (MS : Mean Square) due aux différences entre groupes est
bien plus grande que la variance à l’intérieur des groupes ; on peut ainsi mettre en évidence une petite différence
due aux groupes malgré une grande variabilité des individus.
Remarque : l’ANOVA est une méthode robuste qui résiste bien si les conditions indiquées ci-dessus
ne sont pas parfaitement respectées.
Le test non paramétrique de Kruskal-Wallis peut être utilisé à la place si les conditions ne sont
franchement pas respectées.
Menu Stat > Nonparametrics > Kruskal-Wallis
Ici, on peut vérifier qu’il donne un résultat équivalent.
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
11
TP 5 Régression linéaire simple
Objectif : - s’initier à la modélisation linéaire
- apprendre à interpréter les résultats fournis par Minitab
- tester l’influence d’une variable quantitative sur une autre quantitative.
Les données sont celles de l’étude sur les naissances dans un hôpital californien (fichier Excel
disponible dans Cometud) utilisées lors des précédents TD.
5.1 Pour chacun des exemples proposés ou pour ceux que vous étudiez
1. Vérifier les distributions des variables concernées (diagramme boîte, histogramme) et le
nuage de points entre Y et X.
2. Tracer les graphiques de diagnostic des résidus et commenter la validité des hypothèses :
linéarité du modèle, homoscédasticité, éventuelle normalité. Grâce aux propriétés
asymptotiques des estimateurs, ceux-ci sont relativement robustes si cette dernière
hypothèse n’est pas tout à fait vérifiée.
3. Commenter les sorties numériques en terme de qualité d’ajustement et de capacité prédictive
du modèle.
4. Quelles décisions suggèrent les statistiques de test.
5. Construire un intervalle de confiance pour l’estimation de la pente du modèle. Comparer cet
intervalle avec la décision du test.
5.2 Calcul de la régression simple avec MINITAB
Directement par Menu Stat > Regression > Fitted line plot
Mais, pour pouvoir disposer de tous les résultats et diagnostics, il faut demander :
Calcul de la régression : Menu Stat > Regression > Regression
Choisir la variable réponse ou dépendante ou dite à expliquer
Choisir la ou les variables explicatives
Dans Graphs choisir Residuals for Plots : standardized et Four in one
Dans Results choisir : in addition the full table of fits and residuals
Dans Options choisir : Display PRESS
Dans Storage choisir : Standardized residuals et Cook’s distance et fits
5.3 Graphes de la régression
En plus du graphe des résidus standardisés en fonctions des valeurs ajustées, il est possible de
tester la normalité des résidus (variable RES1 de la feuille de calcul) et de tracer deux graphes :
celui des valeurs observées (Y) en fonction des valeurs ajustées (FITS). Que la régression
soit simple ou multiple, ce graphe illustre la qualité de l’ajustement.
celui des distances de Cook en fonction toujours des valeurs ajustées. Ce graphe désigne
(distance plus grande que 1) les observations influentes dont il faut se méfier.
5.4 Quelques exemples de régression
1. Taille à la naissance de l’enfant comme fonction de la taille du père
2. Taille de l’enfant à 10 ans en fonction de la taille à la naissance
3. Taille de l’enfant à 10 ans en fonction de celle du père
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
12
TP 6 Introduction au cas multidimensionnel
Objectif : - s’initier au modèle gaussien et à l’analyse en composantes principales
- apprendre à interpréter les résultats fournis par Minitab
- tester l’influence de variables quantitatives sur une autre quantitative
6.1 Exploration par Analyse en composantes principales
Première approche : Calcul de l’ACP : Menu Stat > Multivariate > Principal components
Sélectionner toutes les variables quantitatives
Type of Matrix : Correlation (ACP réduite : donne le même poids à toutes les variables)
Number of components to compute : 2 (pour commencer, les 2 premières composantes)
Dans Graphs cocher tous les graphes : Scree plot, Loading plot, Score plot
Commenter les différents graphiques :
Scree plot (diagramme « en éboulis » ou décroissance des valeurs propres de la matrice des
corrélations) : donne la part d’information initiale qui se retrouve dans chaque composante.
Utile pour choisir le nombre de composantes à prendre en compte. Dans la partie «Session»,
lire le % cumulé d’information dans les 2 premières composantes (puis les 3, les 4 etc.).
Loading plot représente les corrélations des variables initiales avec les composantes ;
le cosinus de l’angle entre deux vecteurs variables approche leur coefficient de corrélation.
Commentez la structure de cette représentation.
Score plot représente les coordonnées des individus en fonction des composantes ;
chaque individu (au sens statistique) correspond à une ligne du tableau (une naissance et les
informations familiales associées). Commentez la répartition des individus.
Continuation de l’analyse - en prenant en compte des composantes supplémentaires
- en ajoutant des informations sur les graphes.
Refaites le calcul de l’ACP comme précédemment, mais avec :
Number of components to compute : 4
Storage : Coefficients : Coef1 Coef2 Coef3 Coef4 et Scores : Sco1 Sco2 Sco3 Sco4
Les valeurs des coefficients de corrélation des variables et des scores des individus sont
stockées dans les nouvelles colonnes. On peut maintenant représenter les graphes des diverses
combinaisons de deux des composantes retenues.
Pour colorer les groupes d’individus selon les valeurs d’une variable :
Faites afficher le graphe : Graph. / ScatterPlot / With Groups / (Sco2 en Y et Sco1 en X) et distinguez les groupes avec Categorical variables for grouping : MCig0
Comment se répartissent les individus des trois groupes (0cig, 1-10cig et plusde10) ?
Mettez côte à côte le graphe des scores des individus et le graphe des corrélations des
variables pour les composantes 1 et 2 (Il est d’usage avec certains logiciels de superposer ces
deux graphes) et reliez la répartition des groupes avec la direction de la variable MAge sur le
graphe des corrélations.
Que remarquez-vous ? Confirmez cette observation en réalisant un test (ANOVA) entre âge
de la mère et consommation de cigarettes.
Pour repérer chaque individu dans les diagrammes des scores :
Créez une variable Num (de 1 à 115) : Menu Calc / Make Patterned Data / Simple Set of Number
Faites afficher le graphe : Graph / ScatterPlot / Simple / (Sco2 en Y et Sco1 en X) et marquez les individus avec Label / Data labels / Use Labels from column : Num
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
13
Faites de même avec les composantes 3 et 4.
Comparez les distributions des individus sur les deux graphes.
6.2 Modélisation par régression multiple
Le passage de la régression simple à la régression multiple introduit quelques complications selon
l’objectif poursuivi : explicatif ou prédictif.
Dans le cas explicatif, toutes les hypothèses ne peuvent être testées à moins de se mettre
dans le cadre d’une expérience planifiée construisant des facteurs orthogonaux. Dans le cas
contraire, seul un test peut être considéré en en contrôlant le niveau ou seuil.
Dans le cas de la recherche d’un meilleur modèle prédictif, les tests n’ont plus le même
intérêt ; ils peuvent servir à rechercher le meilleur modèle en ne considérant que les
variables les plus significatives tout en cherchant à maximiser un critère de qualité de
prévision comme le PRESS.
Comparer différents modèles :
Modéliser la taille de l’enfant à 10 ans en fonction de sa taille à la naissance, de la taille de
sa mère et de la taille de son père ; cocher les mêmes options que pour la régression simple.
Commenter les graphes des résidus, la validité du modèle. Comparer le R2 obtenu avec ceux
des régressions simples. Commenter les tests proposés et donc l’influence des différentes
variables sur la variable à expliquer.
Modéliser à nouveau la taille de l’enfant à 10 ans mais en considérant toutes les variables
quantitatives (tailles, poids, ages, revenus, sauf le poids à 10 ans de l’enfant) comme
explicatives. Etudier la validité de ce modèle, commenter les tests.
Comparer le R2, le R2 ajusté et le PRESS avec ceux du modèle précédent.
INSA de Toulouse 3icbe Probabilités & Statistique 2011-2012
14
TP 7-8 Analyse statistique de croissances bactériennes
Objectifs
:
● Mise en œuvre de l’analyse statistique de données avec Minitab
● Rédaction d’un mémoire explicitant démarche et résultats
Travail à réaliser (par binôme)
Les données sont celles produites lors des travaux pratiques de Microbiologie. Le descriptif
détaillée de l’analyse statistique à réaliser sera fournit lorsque les données auront été acquises et
fusionnées en une seule base.
Rapport
Contenu :
Le rapport explicitera de façon synthétique le travail réalisé durant l’ensemble des séances de TP et
inclura des graphiques et sorties numériques fournies par le logiciel, mais surtout vos
commentaires : questions biologiques posées, outils mis en œuvre, hypothèses testées, décisions et
réponses aux questions.
Donnez des explications détaillées (sur un outil, un test, une méthode) mais ne soyez pas
redondants.
Présentation : Elle doit respecter une organisation qui facilite la lecture du rapport.
Page de couverture avec un titre explicite (« Rapport » n’est pas un titre explicite …)
Court résumé incluant problématique et principaux résultats
Introduction présentant les données, la problématique, l'objectif, le déroulement du travail
Développement pas nécessairement chronologique ni exhaustif du travail en insistant sur les
points directement liés aux objectifs
Conclusion
Remarques :
Tout tableau, tout graphique doit être accompagné d’une légende.
Le résumé est important, il encourage le lecteur à poursuivre plus avant.
Il est important de s’initier rapidement aux fonctionnalités d’un traitement de
texte (feuille de style, sommaire et tables automatiques…). Ce rapport peut être
l’occasion de s’initier à la réalisation d’un sommaire ou d’une table des
illustrations automatique.
Date de remise : (un rapport par binôme) avant les congés de Noël.