Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- -
www.anastats.fr
Ne jouez pas aux dés
avec vos données
Formations, études
et conseil en statistiques
Le catalogue 2013
A naStats
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 2 -
Les formations à l’utilisation des statistiques que
nous vous proposons ne sont pas ordinaires
Trois particularités essentielles :
1. Elles sont dispensées par des UTILISATEURS des statistiques
� Issus des sciences biologiques expérimentales, les formateurs sont forts de nombreuses années d'application des statistiques dans leur domaine de recherches. En collaboration avec des statisticiens éminents, ils ont participé à la recherche de solutions statistiques aux problèmes des expérimentalistes. Ils ont assuré pendant plus de dix ans des formations en direction des chercheurs et techniciens de l'industrie, du CNRS, de l'INRA et de l'INSERM, dont ils partagent le langage et les préoccupations.
� Ils ont perfectionné au fil des années un enseignement des statistiques rigoureux au plan théorique et néanmoins accessible sans compétence particulière en mathématiques.
2. Elles sont tournées vers L’EFFICACITE
� Le choix de la méthode statistique la plus adaptée à tel ou tel problème est une question essentielle à résoudre en amont de toute analyse. Pourtant, force est de constater que cette étape pose souvent bien des problèmes aux utilisateurs. Explications et exercices pratiques donneront ici une solide formation aux participants.
� La connaissance des méthodes statistiques ne suffit pas : les stagiaires doivent comprendre les sorties fournies par les logiciels qu’ils utilisent. Elles sont passées en revue, examinées, analysées. L’outil de calcul est mis à la portée de l’utilisateur.
� Des exercices pratiques sont réalisés par les stagiaires eux-mêmes sur ordinateur, permettant une première familiarisation avec les logiciels et une confrontation aux problèmes concrets rencontrés lors des analyses.
� Les cours sont faits de manière vivante, en interaction avec les stagiaires, à l’écoute de leur demande. Les exemples traités sont apportés par les participants eux-mêmes, à partir de leurs préoccupations quotidiennes.
3. Elles incluent les APPROCHES MODERNES
La puissance de calcul des micro-ordinateurs a permis le développement de nouvelles techniques statistiques, très bien adaptées aux situations concrètes rencontrées par les utilisateurs : validations des résultats par ré-échantillonnages, calculs adaptés aux petits échantillons par les méthodes exactes de permutations, exploration des données multifactorielles. Ces progrès récents sont mis à la portée de tous.
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 3 -
7. Décider et prédire avec des données multifactorielles : analyses discriminantes et régressions (p. 16)
• Trois jours interentreprises à Tours, du 12 au 14 juin 2013.
• Trois jours intra-entreprise pour un groupe de 12 personnes au plus.
8. Modèles mixtes et modèles non linéaires à l’aide du logiciel R (p. 18)
• Trois jours intra-enterprise, pour un groupe de 8 personnes au plus.
• Peut être organisé en interentreprises. 9. Mesure des facteurs de risque et contrôle des biais (p. 20)
• Deux jours interentreprises, à Tours, les 10 et 11 octobre 2013.
• Deux jours intra-entreprise, pour un groupe de 12 personnes au plus.
10. L'enquête : construction et analyse des questionnaires (p. 21)
• Trois jours interentreprises, à Tours, du 06 au 08 novembre 2013.
• Trois jours intra-enterprise, pour un groupe de 12 personnes au plus.
11. Analyse statistique des questions ouvertes dans les enquêtes (p. 22)
• Deux jours interentreprises, à Tours, du 28 au 29 novembre 2013.
• Deux jours intra-enterprise, pour un groupe de 12 personnes au plus.
12. Atelier de traitement de données personnelles (p. 24)
• Deux jours intra-enterprise, pour un groupe de 8 personnes au plus.
• Peut être organisé en interentreprises.
1. Notions fondamentales en statistiques (p. 4)
• Trois jours interentreprises, à Tours, du 23 au 25 janvier 2013.
• Trois jours intra-entreprise, pour un groupe de 12 personnes au plus.
2. Introduction au logiciel R pour les statistiques (p. 6)
• Trois jours interentreprises, à Tours, du 13 au 15 février 2013 et 11 au 13 septembre 2013.
• Trois jours intra-entreprise, pour un groupe de 12 personnes au plus.
3. Traitement statistique des petits échantillons (p. 8)
• Trois jours interentreprises, à Tours, du 20 au 22 mars 2013.
• Trois jours intra-entreprise pour un groupe de 12 personnes au plus.
4. Pratique et interprétation des analyses de variance (p. 10)
• Trois jours interentreprises, à Tours, du 10 au 12 avril 2013.
• Trois jours intra-enterprise, pour un groupe de 12 personnes au plus.
5. Construction et analyse des plans d’expériences à l’aide du logiciel R (p. 12)
• Trois jours interentreprises, à Tours, du 11 au 13 décembre 2013.
• Trois jours intra-enterprise, pour un groupe de 12 personnes au plus.
6. Décrire et analyser les données multifactorielles (p. 14)
• Trois jours interentreprises à Tours, du 15 au 17 mai 2013.
• Trois jours intra-entreprise pour un groupe de 12 personnes au plus.
12 FORMATIONS DISPENSÉES PAR DES FORMATEURS AGRÉÉS
D’autre part, si vous avez des données que vous ne savez pas ana-lyser et que vous n’avez pas le temps de suivre une formation, nous
assurons également un service « ETUDES », voir p. 26
UN TARIF DÉGRESSIF S’APPLIQUERA
À PARTIR DE 3 FORMATIONS FACTURÉES
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 4 -
1. Notions fondamentales en statistiques
♦ Public concerné
Toute personne ayant à traiter des
données, caractériser ou comparer des
échantillons, analyser des résultats
d’expériences, mais ne disposant pas
des connaissances de base en statisti-
ques.
♦ Objectifs
Etre capable de décrire une série de
valeurs. Poser correctement les pro-
blèmes que les statistiques peuvent
résoudre. Savoir choisir et mettre en
œuvre le test statistique adapté à cha-
que situation. Savoir interpréter les
sorties logicielles correspondantes.
♦ Méthode
Dans chaque rubrique on donne d’abord les
principes de calcul, sans recours à des no-
tions mathématiques complexes, en privilé-
giant une compréhension intuitive. On indi-
que les limites des techniques et les condi-
tions nécessaires pour les appliquer. On
met en pratique en utilisant les fonctions
statistiques du logiciel Excel (un ordinateur
par stagiaire). On décrit et on interprète les
sorties logicielles. On donne des illustra-
tions des usages que l’expérimentateur peut
faire de chaque technique. Les situations
concrètes rencontrées par les stagiaires sont
examinées et discutées.
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Dates : 23 au 25 janvier 2013
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
Un tour d’horizon des notions de base indispensables pour aborder, comprendre et utili-ser les différentes méthodes
statistiques.
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 5 -
Programme
Fonctions des statistiques Description (statistiques descriptives)
Aide à la décision (statistiques décisionnelles) Ce que disent... et ne disent pas les statistiques
Caractérisation d’un échantillon Caractérisation de la tendance centrale
Caractérisation de la dispersion
Représentations de la dispersion
Le cas des données qualitatives Représentation d’un échantillon ; calcul de l’intervalle de confiance d’une proportion ;
mesure de la tendance centrale
Tests statistiques de comparaisons Différentes échelles de mesure et tests correspondants
Formulation statistique de l’hypothèse du biologiste Notion de hasard en statistiques ; problématique des tests statistiques ; réflexion sur la
relation entre taille d’échantillon et risque dans les comparaisons de moyennes
Choix d’un seuil de risque
Notion d’ « hypothèse nulle » (notée H0)
Risques de première et de seconde espèce
Hypothèses bilatérales et unilatérales
Echantillons indépendants et séries de mesures appariées
Puissance d’un test
Choix des tests et exercices
Comparaison d'une moyenne observée à une moyenne théorique
Comparaison de deux séries pairées
Comparaison de deux échantillons indépendants
Conditions de validité du test t de Student Normalité des distributions
Homogénéité des variances des deux groupes
Indépendance entre les erreurs et les effets des traitements
Cas de plus de deux groupes Principes de l’analyse de variance et des comparaisons multiples (tests "post hoc")
Tests non paramétriques pour le traitement statistique des petits échantillons et des données ordinales
Rappels sur les particularités des petits échantillons
Principe des tests sur les rangs
Mesure de la liaison entre variables quantitatives Liaison et relation entre 2 variables quantitatives. La corrélation
Principe de la régression linéaire simple
Mesure de la relation entre variables qualitatives Test du Chi² et test binomial
Tous ces aspects seront étudiés dans le cas général et dans le
cas des petits échantillons
Not
ions
fond
amen
tale
s en
sta
tistiq
ues
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 6 -
2. Introduction au logiciel R pour les statistiques
♦ Objectifs
Cette formation a pour but d’initier les
participants à l’utilisation du logiciel, en
s’appuyant sur un grand nombre d’applica-
tions courantes. Les interfaces graphiques
seront privilégiées, en limitant le recours
aux lignes de commandes.
♦ Méthode
Après une présentation rapide de l'interface et
de quelques notions élémentaires du langage
S, l'enseignement s'appuie sur les interfaces
graphiques "R commander" et son extension
"FactoMineR". L'utilisation de ces interfaces
permet aux stagiaires d'être rapidement opé-
rationnels, tout en assimilant très progressive-
ment les possibilités offertes par les comman-
des par scripts.
Les stagiaires réalisent tous les exemples eux
-mêmes et des exercices pratiques à réaliser
seuls leur sont ensuite proposés.
♦ Public concerné
Techniciens, ingénieurs ou chercheurs
confrontés à l’exploitation statistique des
données. Une bonne connaissance des no-
tions fondamentales en sta-
tistiques est nécessaire.
Le logiciel R, logiciel libre fonctionnant sur toute plateforme, est
un outil très puissant, tant pour les tests statistiques, l’exploration des données, et pour la réalisation graphique de qualité.
Outil internationalement reconnu, il n’est pas d’un abord immédiat.
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Dates : 13 au 15 février 2013 et 11 au 13 septembre 2013
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 7 -
Présentation du « Projet R » Concepts de base du fonctionnement de R
Utilisation de l’aide et de la documentation disponible sur la toile
Les bases du langage S. Calculs simples depuis la console de R
Gestion des objets en mémoire : manipuler les données et les enregistrer
L'interface "Rcmdr" Importation de fichiers
Gestion des données Editer et modifier les données, renommer des variables, éliminer des lignes ou des colonnes,
empiler des variables, gérer les données manquantes, recoder des variables, découper une variable
numérique en classes
Fonctions graphiques simples et rapides
Statistiques descriptives
Matrices de corrélations et tests de corrélation
Tests non paramétriques Tests sur les rangs : Mann & Whitney, Wilcoxon, Kruskal & Wallis, Friedman, tests de
comparaisons multiples
Tests Exacts
Tests paramétriques Test de normalité, test de l'homogénéité des variances, calculs de puissance et calcul des effectifs
nécessaires
Test t de Student et test de Welch
Analyse de variance à une dimension pour groupes indépendants : construction du modèle,
vérification des résidus et tests de comparaisons multiples
Analyse de variance à deux dimensions pour groupes indépendants : construction du modèle,
analyse des résidus, graphiques des effets et des interactions
Analyse de variance à un facteur pour mesures répétées et comparaisons multiples
Régressions linéaires Représentations graphiques
Construction et utilisation du modèle linéaire pour la régression linéaire simple
Vérification des résidus : test de normalité, test d'hétéroscédasticité, test d'autocorrélation
L'analyse en composantes principales avec l'interface "FactoMineR" Observer et préparer les données
Choisir des variables actives et illustratives, choisir des axes représentés
Lire et interpréter des graphiques factoriels
Obtenir des listings de résultats (valeurs propres, coordonnées, contributions…)
Caractériser des modalités d'une variable qualitative par des quantitatives
Introduction aux graphiques avec R Principes généraux, fonctions graphiques principales et secondaires, les paramètres
graphiques et leur enregistrement, utilisation des symboles, les graphiques multiples
conditionnés. L'interface GrapheR.
Programme
Intr
oduc
tion
au lo
gici
el R
pou
r le
s st
atis
tique
s
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 8 -
3. Le traitement statistique des petits échantillon s
♦ Méthode
Pour chaque question étudiée, l’enseigne-
ment est divisé en quatre parties :
1. Principe des tests disponibles. Choix
du test correspondant à la situation.
2. Méthode de calcul (manuel ou infor-
matisé).
3. Puissance et conditions de validité.
4. Solutions logicielles, mise en œuvre,
examen et interprétation des sorties.
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Dates : 20 au 22 mars 2013
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
♦ Public concerné
Techniciens, ingénieurs ou chercheurs
confrontés au traitement statistique de
petits échantillons. Les connaissances
de base en statistiques sont très
souhaitables.
♦ Objectifs
Décrire une petite série de données.
Savoir choisir un test adapté aux
questions que l’on se pose et aux
données dont on dispose.
Savoir comparer deux ou plusieurs
échantillons, mesurer l’association
entre plusieurs variables.
Savoir mettre en œuvre ces tests et
interpréter les sorties logicielles.
Les développements de l’informatique modifient grandement le paysage des statistiques. Des techniques récentes permettent
d’aborder facilement et sûrement l’analyse des petits échantillons.
A la demande, ce module
peut être enseigné en
utilisant le logiciel R
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 9 -
Présentation théorique Rappels sur les fonctions des statistiques
Premières réflexions sur la taille de l’échantillon
Représentation des paramètres d’un échantillon
Hypothèses et risques Problématique d’un test statistique
Directionnalité de l’hypothèse
Risque et taille de l’échantillon
Risques de première et de deuxième espèce
Puissance d’un test Trois familles de tests
Choix d’un test statistique Les différentes échelles de mesure
Echantillons indépendants et séries de mesures appariées
Paramétrique ou non paramétrique ?
Grille de choix d’un test non paramétrique
Exercices de choix d’un test
Les tests « exacts » ou tests par permutations
Solutions logicielles pour les tests non paramétriques
Réalisations pratiques Présentation des outils utilisés
Comparaison d’échantillons Mesures en échelle d’intervalle : séries appariées et indépendantes, données
censurées, échantillons stratifiés, comparaisons multiples
Représentations graphiques
Résolution d’exercices en utilisant des tests sur les rangs et des tests exacts
Interprétation des résultats
Les mesures sont des catégories ordinales : échantillons indépendants et des séries appariées
Représentations graphiques
Résolution d’exercices en utilisant des tests sur les rangs et des tests exacts
Interprétation des résultats
Les mesures sont des catégories nominales
Réalisation et interprétation du test du Chi² de bonne adéquation, du test du Chi² de contingen-
ce, du test du Chi² exact, du test binomial, du test de McNemar, du test exact de Fisher, du test
de Cochran
Mesure de la relation entre variables Les données sont en échelle au moins ordinale : corrélation et concordance
Réalisation du test de corrélation par rangs de Spearman ainsi que de son calcul exact
Calcul du coefficient de Kendall et du test de concordance de Kendall
Les données sont en échelle nominale : coefficients de contingence, coefficient Kappa de Cohen
Programme
Le tr
aite
men
t sta
tistiq
ue d
es p
etits
éch
antil
lons
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 10 -
♦ Public concerné
Toute personne ayant à comparer des
échantillons, analyser des résultats
d’expériences, mais ne possédant pas
une bonne maîtrise des méthodes d’a-
nalyse de variance. Les connaissances
de base en statistiques sont très sou-
haitables.
♦ Objectifs
Etre capable de choisir la méthode
d’analyse adaptée à ses données et à
sa problématique. Savoir apprécier si
les conditions d’utilisation sont res-
pectées.
Savoir préparer ses données et utili-
ser un logiciel adapté. Savoir inter-
préter les sorties logicielles corres-
pondantes.
♦ Méthode
Les principes de calculs sont exposés sans
recours à des notions mathématiques com-
plexes. On alterne exposés théoriques et
mise en pratique des notions abordées à
l’aide du logiciel XLSTAT et des outils du
tableur Excel. A la demande, la formation
peut être réalisée avec le logiciel R. Les
stagiaires réalisent eux mêmes des appli-
cations nombreuses à partir de situations
expérimentales très diverses (un ordinateur
par stagiaire). Les sorties logicielles sont
examinées et interprétées en s’aidant de
représentations graphiques.
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Dates : 10 au 12 avril 2013
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
A la demande, ce module
peut être enseigné en
utilisant le logiciel R
4. Pratique et interprétation des analyses de varia nce
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 11 -
L’analyse de variance à une dimension Echantillons indépendants
Objectif et hypothèses
Principe général
Calculs et interprétations
Conditions de validité, transformations d'échelles, puissance
Solutions non paramétriques
Comparaisons multiples
Plans d’expériences pour la réduction de la variation résiduelle
Limites d’une ANOVA à une dimension
Analyses de variance à plusieurs dimensions
Objectifs
Principes et calculs
Conditions d'application
Comparaisons multiples et méthodes de contrôle de l’erreur de première
espèce
Solutions non paramétriques
Dans le cas de mesures indépendantes seules, de séries appariées et du croi-
sement des deux types, de plans en blocs.
Le modèle linéaire et sa généralisation Modèle linéaire
La régression linéaire simple
Analyse de variance et régression linéaire
Analyses multivariées de la variance
L’analyse de covariance
Généralisation du modèle linéaire
Programme
Pra
tique
et i
nter
prét
atio
n de
s an
alys
es d
e va
rianc
e
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 12 -
La mise en place d’un plan d’expériences est un outil
précieux voire indispensable pour l’optimisation d’un protocole expérimental.
1.5006.500
11.50016.50021.50026.50031.50036.50041.50046.500
Vo
ie
Vo
ie
Do
se
Do
se
Do
se
Va
ccin
Va
ccin
Va
ccin
Derm Muscu Dose1 Dose2 Dose3 VaccinAVaccinBTémoin
Ré
pons
e
Facteurs
Graphique des effets moyens
Facteurs
Moyenne
♦ Objectifs
Lors de cette formation les participants se-
ront initiés aux principaux plans d’expé-
riences dans le but d’optimiser les protoco-
les et de limiter les variations parasites. Ils
sauront choisir le plan d’expériences adap-
té à leur problématique et aux contraintes
pour mettre en place, par la suite, leurs
protocoles expérimentaux. Enfin, les parti-
cipants apprendront à interpréter des résul-
tats issus de plans d’expériences.
♦ Méthode
L’enseignement repose sur une alternance
constante entre des explications théoriques
sans recours à des notions mathématiques
complexes et de nombreuses applications
pratiques. Chaque méthode est illustrée par
un exemple en vraie grandeur, reposant sur
le domaine de recherche des stagiaires.
Les stagiaires exécutent à l'ordinateur tous
les exemples proposés et réalisent ensuite
seuls de nombreuses applications.
♦ Pré-requis
Il est recommandé de connaître l’analyse
de variance et les rudiments du logiciel R.
♦ Public concerné
Techniciens, ingénieurs, chercheurs
ou doctorants confrontés à la mise en
place des protocoles expérimentaux et
à la construction de plans d’expérien-
ces en vue d’améliorer de protocoles
et d’interpréter les résultats.
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Dates : 11 au 13 décembre 2013
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
5. Construction et analyse des plans d’expériences à l’aide du logiciel R
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 13 -
Rappel des notions statistiques de base
Méthodologie générale et planification des expériences Variation contrôlée et non contrôlée Quelques définitions : notions de variable, population, échantillon, individu, échantillons
indépendants et appariés. Exigences méthodologiques : randomisation, biais expérimentaux.
Plans d’expériences à un facteur et principe général de l’analyse de variance Rappel sur l’analyse de variance Comparaisons multiples Conditions d’utilisation Notion de résidu Représentations graphiques
Plans factoriels complets et leur analyse Définitions. Ecriture conventionnelle. Calcul du nombre d’expériences nécessaires dans un plan complet. Analyse statistique et interprétation Les interactions : définition, calcul de l’interaction dans un plan à deux facteurs,
représentation graphique des interactions, calculs avec plus de deux facteurs, calculs et interprétation dans le cas général.
Plans factoriels pour le contrôle de la variation aléatoire Plans en blocs
Principe, préparation des données Analyse et interprétation des résultats
Plans split-plot et criss-cross Principe, préparation des données Analyse et interprétation des résultats
Plans en carré latin et en carré gréco-latin Principe, préparation des données Analyse et interprétation des résultats
Principe des plans en blocs incomplets
Le criblage ou screening Principe, intérêt et limites Mise en œuvre
Les plans fractionnaires
Principe, intérêt et limites Mise en œuvre
Choix du bon plan d’expériences Grille de choix Mise en pratique
Programme
Intr
oduc
tion
à la
mét
hode
des
pla
ns d
’exp
érie
nces
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 14 -
6. Décrire et analyser les données multifactorielle s
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Dates : 15 au 17 mai 2013
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 12 personnes au
plus.
Dates : à définir avec le client.
Les utilisateurs des méthodes multifactorielles d’analyse des grands tableaux sont de plus en plus nombreux. Les statistiques
permettent aujourd’hui d’explorer ces tableaux et d’analyser les
processus influencés par plusieurs facteurs à la fois.
♦ Public concerné
Techniciens, ingénieurs, chercheurs
ou doctorants ayant à décrire des
grands tableaux de données
quantitatives et/ou qualitatives.
La pratique sera réalisée avec le
logiciel Spad.
♦ Objectifs
De très nombreuses recherches sont
concernées par des mesures de nombreux
paramètres quantitatifs et/ou qualitatifs et
parfois répétés sur les mêmes individus.
Les méthodes enseignées permettent de sa-
voir si divers groupes peuvent être formés
à partir de certaines variables ou de savoir
si certaines variables sont associées entre
elles.
♦ Méthode
Pour chaque question étudiée, l’enseigne-
ment comporte une explication de la mé-
thode sans recours à des notions mathéma-
tiques. Pour chaque technique on traite un
exemple en vraie grandeur. Dans tous les
cas on examine les sorties logicielles et on
insiste sur les règles et les difficultés d’in-
terprétation des résultats. Des aides à l'in-
terprétation sont systématiquement mises
en pratique. Les stagiaires réalisent eux
mêmes des analyses sur micro-ordinateur.
A la demande, ce module
peut être enseigné en
utilisant le logiciel R
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 15 -
Introduction à l’analyse multifactorielle des données Problématique générale des approches descriptives multifactorielles
Les différents types de mesures et les méthodes correspondantes
Données quantitatives : l’analyse en composantes principales
Exemples variés d’utilisations Principes généraux à partir d'un exemple simple Variables actives et illustratives Réalisation d'une analyse en vraie grandeur Aides à l’interprétation des résultats d’une ACP Vérification des conditions de validité et transformations éventuelles des variables.
Données qualitatives : l’analyse factorielle des correspondances
L’analyse des correspondances simples
Principe et réalisation de l’AFC
Lecture du graphe factoriel d’une AFC
Validation et aides à l’interprétation d’une AFC
Pratique sur des données en vraie grandeur
L’analyse des correspondances multiples
Objectifs et principe de l'ACM
Mise en œuvre et interprétation des sorties logicielles
Validation et aides à l’interprétation de l’ACM
Quelques autres méthodes L’analyse factorielle
L’analyse canonique
L'analyse factorielle multiple
L'analyse factorielle de données mixtes
Les méthodes de classification ou clustering
Méthode d’agrégation
Principe de la classification ascendante hiérarchique
Le critère de WARD
Choix d’une méthode
La lecture d’un dendrogramme
Relations entre les classes d’individus et les variables
Partition de l’arbre et description des classes formées
Validité d’une classification
Classification par la méthode des centres mobiles
La classification descendante hiérarchique
Programme
Déc
rire
et a
naly
ser
les
donn
ées
mul
tifac
torie
lles
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 16 -
♦ Méthode
L’enseignement s’appuie sur l’utilisation
du logiciel XLSTAT. Pour chaque ques-
tion étudiée on donne une explication sans
recours à des notions mathématiques com-
plexes. Pour chaque technique, les stagiai-
res traitent un exemple en vraie grandeur,
éventuellement sur leurs données. On exa-
mine les sorties logicielles en insistant sur
les difficultés d’interprétation. Chaque sta-
giaire dispose d’un
micro-ordinateur.
♦ Public concerné
Techniciens, ingénieurs ou chercheurs
confrontés à l’analyse approfondie de
grands tableaux de données, souhai-
tant analyser les relations entre varia-
bles, expliquer la variation observée
sur certaines mesures par d’autres va-
riables, rechercher les meilleures va-
riables pour décrire un phénomène,
réaliser des prévisions. Des compé-
tences en mathématiques
ne sont pas nécessaires .
♦ Objectifs
Savoir choisir et utiliser les
méthodes modernes de régressions et
d'analyses discriminantes permettant
des études approfondies de données
complexes. Utiliser des logiciels
adaptés et interpréter les résultats.
♦ Pré-requis
Il est fortement recommandé de
connaître l’analyse de variance ainsi
que les méthodes descriptives multi-
factorielles.
Les méthodes multifactorielles d’analyse des grands tableaux de données sont diverses et ri-
ches. Des outils modernes permettent aujourd’hui de réaliser des prévisions qui uti-lisent toute l’information connue et apportent
une aide à la décision. Le Data Mining vous permettra d’extraire au
mieux l’information de vos données.
A la demande, ce module
peut être enseigné en
utilisant le logiciel R
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Dates : 12 au 14 juin 2013
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
7. Décider et prédire avec des données multifactori elles : analyses discriminantes et régressions
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 17 -
Analyses discriminantes L’analyse discriminante linéaire
Fonctions de décision et de prévision
Les étapes de l’analyse, création d’échantillons d’estimation et de validation
Interprétation des sorties logicielles, matrice de confusion, description des classes
Conditions de validité, validation croisée
Prédiction d’individus anonymes
Autres méthodes d’analyses discriminantes
Les discriminantes linéaires sur facteurs
Les discriminantes non linéaires
Les régressions et leurs conditions de validité
La régression linéaire multiple Représentation graphique Calcul des paramètres de la régression et leur interprétation Vérification des conditions de validités Prédire une nouvelle valeur.
Le modèle linéaire généralisé La régression logistique (un cas de GLM)
Interprétation des sorties logicielles Sélection de modèles Courbe ROC.
La régression PLS Interprétation des sorties logicielles et des graphiques factoriels Interprétation des résultats de la régression Classement des variables Estimation de la qualité du modèle.
La segmentation par arbres binaires Principe La méthode ‘Cart’ : construction, élagage, validation
Description des sorties logicielles Lecture graphique de l’arbre de segmentation Matrice de confusion Courbe ROC. Pratique possible avec le logiciel R
La méthode ‘RandomForest’ Pratique possible avec le logiciel R
Intérêt et limites des techniques de segmentation
Programme
Déc
ider
et p
rédi
re a
vec
des
donn
ées
mul
tifac
torie
lles
: ana
lyse
s di
scrim
inan
tes
et r
égre
ssio
ns
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 18 -
♦ Public concerné
Techniciens, ingénieurs, chercheurs ou
doctorants confrontés à l’analyse ap-
profondie de données complexes, sou-
haitant analyser les relations entre va-
riables, expliquer la variation de varia-
ble(s) par d’autres variables pouvant
avoir des effets fixes et des effets aléa-
toires, rechercher les meilleures varia-
bles pour décrire un phénomène, réali-
ser des prévisions.
♦ Objectifs
Savoir utiliser les outils de modélisa-
tion adaptés aux modèles linéaires et
non linéaires à effets fixes et/ou à ef-
fets mixtes.
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 8 personnes au plus.
Dates : à définir avec le client.
8. Modèles mixtes et modèles non linéaires à l’aide du logiciel R
♦ Méthode
Des rappels seront d’abord faits sur les
modèles linéaires fixes puis il s’agira de
traiter de manière progressive trois grands
types de modélisation avant d’aborder
l’apprentissage statistique: les modèles li-
néaires mixtes, les modèles non linéaires
et les modèles non linéaires mixtes.
La théorie statistique est abordée lorsque
cela nous parait nécessaire mais sans re-
cours à des notions mathématiques com-
plexes.
L’utilisation du logiciel R se fera avec
l’interface Rcmdr lorsque cela est possi-
ble. La plupart du temps il sera nécessaire
d’écrire des fonctions spécifiques et de les
associer à d’autres fonctions de program-
mation.
♦ Pré-requis
Il est nécessaire d’avoir de bonnes bases
en statistiques, de connaître les analyses de
variance, les régressions linéaires et les ru-
diments du logiciel R.
Savoir utiliser des outils moder-nes permettant de construire des modèles performants à partir de
données complexes.
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 19 -
Généralités Objectif de la modélisation
Différentes familles de modèles
Différentes étapes de la construction et de l'analyse d'un modèle
Les modèles linéaires à effets fixes
Rappels sur le modèle linéaire simple : ANOVA et régression linéaire Modèle linéaire généralisé
Les modèles linéaires mixtes
Exemples variés et écriture des modèles
Méthodes paramétriques : choix de la méthode adaptée, commandes des
analyses et interprétation des résultats
Méthodes non paramétriques : commandes des analyses et interprétation
des résultats
Modélisation non linéaire à effets fixes
Principe général et différents modes d'approche
Choix de la fonction non linéaire adaptée aux données, commandes et inter-
prétations
Comparaisons de modèles
Modélisation non linéaires à effets mixtes
Principe général
Choix de la fonction, commandes et interprétations
Comparaisons de modèles
L’apprentissage statistique
Principe des méthodes algorithmiques de segmentation pour des problémati-
ques de discrimination ou de régression
Programme
Mod
èles
mix
tes
et m
odèl
es n
on li
néai
res
à l’a
ide
du lo
gici
el R
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 20 -
Fonction de survie cumulée - Control
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 5 10 15 20 25
T emps
♦ Public concerné
Toute personne ayant à constituer et à
traiter des données dont l’échantillon-
nage est difficile.
♦ Objectifs
Etre capable de rechercher et de me-
surer les facteurs de risque d’un évé-
nement. Se donner les moyens d’évi-
ter les biais dans la réalisation d’une
enquête. Utiliser et interpréter des ré-
sultats d’analyses univariées et multi-
variées. Discuter des principaux types
d’enquêtes, notamment épidémiologi-
ques. Connaître les méthodes d’analy-
se visant l’amélioration de la puissan-
ce statistique.
♦ Méthode
Dans chaque partie, on donne les principes
de calcul, on discute leur interprétation et
leur application. On met en pratique en
utilisant les logiciels statistiques appro-
priés (un ordinateur par stagiaire). On dé-
crit et on interprète les sorties logicielles.
Durée : Deux jours
Interentreprises :
Prix : 473 € H.T. par personne nbre de stagiaires limité à 6
Dates : 10 et 11 octobre 2013
Intra-entreprise :
Prix : 2 524 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
Les principes fondamentaux des analyses de données pour
éviter au mieux les biais et estimer au mieux les risques.
9. Mesure des facteurs de risque et contrôle des bi ais
Particularités des données d’enquêtes Cohorte, Cas-témoins Transversales
Mesures de risque et mesures d’association Prévalence, taux d’incidence, risque relatif, odds ratio
Biais Fluctuation d’échantillonnage, biais de sélection, biais de classement, facteurs de confusion
Méthodes d’estimation et de tests Théorème de Bayes Les valeurs prédictives
Analyse multivariée Standardisation Méthode d’ajustement Principes généraux
La régression logistique Le Modèle de Cox
Programme
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 21 -
Durée : Trois jours
Interentreprises :
Prix : 710 € H.T. par personne nbre de stagiaires limité à 6
Dates : 06 au 08 novembre 2013
Intra-entreprise :
Prix : 3 605 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
10. L'enquête : construction et analyse des questio nnaires
Les méthodes d'enquêtes sont variées et l'analyse statistique des résultats peut s'avérer très
riche pourvu que l'on connaisse les outils modernes
qui y sont adaptés.
♦ Public concerné
Toute personne ayant à réaliser des
enquêtes et/ou réaliser l'analyse statis-
tique de données d’enquêtes. Des no-
tions de base en statistiques multifac-
torielles sont souhaitables.
♦ Objectifs
Savoir situer les méthodes d'enquêtes
et concevoir un questionnaire. Se don-
ner les moyens d’éviter les biais d’é-
chantillonnage. Savoir préparer les
questions et en vérifier la qualité. Sa-
voir choisir les techniques d’analyse
statistique en fonction de ses ques-
tions et de la nature des variables.
♦ Méthode
Pour chaque question étudiée, l’ensei-
gnement comporte une explication de
la méthode sans recours à des notions
mathématiques. Pour chaque techni-
que, on examine les sorties logicielles
provenant d’un exemple, illustrant ce
que les différentes méthodes peuvent
apporter.
Programme
Les méthodes de recueil de données et leurs objectifs
Population, échantillon, variables Données expérimentales et données d’observation Méthodes d’analyse
Les enquêtes par questionnaire Enquêtes descriptives, analytiques, expérimentales
Méthodologie de l’enquête Objet de l’étude Choix des indicateurs Quelle population interroger ? Méthodes et biais d’échantillonnage
Concevoir le questionnaire Bonnes pratiques du questionnement
Vérification des données Qualité des données, non-réponses, redressement d’échantillon
Les différentes méthodes d’analyse des données d’enquête
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 22 -
♦ Public concerné
Techniciens, ingénieurs ou chercheurs
confrontés à l’exploitation de données
textuelles. Connaissances élémentaires
en statistiques multivariées
souhaitables.
♦ Objectifs
Savoir saisir, importer et décrire des
données en langage naturel. Analyser
les relations entre les termes employés
et les catégories de répondants ou de
textes. Rechercher des regroupements
dans les répondants ou les textes sur la
base de leur contenu lexical.
Durée : Deux jours
Interentreprises :
Prix : 473 € H.T. par personne nbre de stagiaires limité à 6
Dates : 28 et 29 novembre 2013
Intra-entreprise :
Prix : 2 524 € H.T. groupe de 12 personnes au plus.
Dates : à définir avec le client.
Des logiciels spécialisés permettent aujourd’hui l’analyse automatique des langues naturelles. Les métho-
des multivariées permettent une exploitation poussée de ces données, questions ouvertes dans les enquê-
tes, entretiens, veille technologique .
11. Analyse statistique des questions ouvertes dans les enquêtes
♦ Méthode
L’enseignement s’appuie sur l’utilisation
du logiciel SPAD, disposant d’un module
d’analyse lexicale et de très nombreuses
méthodes statistiques multifactorielles.
A partir d’un exemple en vraie grandeur,
les différentes phases du traitement sont
expliquées sans recours à des notions ma-
thématiques. A chaque étape, l’explication
est suivie de la réalisation pratique par les
stagiaires eux-mêmes (un ordinateur par
stagiaire). Les sorties logicielles sont en-
suite examinées et leur interprétation est
discutée. Une analyse complète d’une
question ouverte permet ensuite aux sta-
giaires d’évaluer leur acquisition de la mé-
thode.
Des temps importants sont ménagés pour
la discussion des situations concrètes ren-
contrées par les stagiaires.
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 23 -
Le questionnaire, questions ouvertes et questions fermées
Saisie et préparation du texte La saisie et l’importation
Principe d’une analyse
Préparation du texte, la lemmatisation
Description du vocabulaire Les concordances
Les segments répétés
Le vocabulaire caractéristique
L’analyse du tableau lexical
L’analyse des correspondances simples Les calculs de l’Analyse Factorielle des Correspondances (AFC)
Lecture du graphe factoriel d’une AFC
Validation et aides à l’interprétation d’une AFC
Construction du tableau lexical
Analyse des correspondances
La classification Principe de la classification ascendante hiérarchique
Relations entre les classes d’individus et les variables
Le tableau individus x mots Construction du tableau individus x mots
Description d’un mot
Etude de la structure « naturelle » du texte
L’analyse discriminante lexicale
La segmentation appliquée au texte
Programme
Ana
lyse
sta
tistiq
ue d
es q
uest
ions
ouv
erte
s da
ns le
s en
quêt
es
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 24 -
♦ Public concerné
Techniciens, ingénieurs ou chercheurs
souhaitant bénéficier d’un soutien per-
sonnalisé pour la mise en œuvre de
leurs analyses statistiques à la suite des
formations.
♦ Objectifs
Mettre en pratique les enseignements
des modules 1 à 7 sur les données des
participants. Permettre aux participants
d’appliquer les acquis des formations
au contexte familier de leurs probléma-
tiques, avec le soutien du formateur, de
manière à optimiser les analyses de
données une fois de retour dans leur
laboratoire.
Durée : Deux jours
Interentreprises :
Prix : 473 € H.T. par personne nbre de stagiaires limité à 6
Intra-entreprise :
Prix : 2 524 € H.T. groupe de 8 personnes au plus.
Dates : à définir avec le client.
12. Atelier de traitement de données personnelles
♦ Méthode
La présentation collective des données
permet aux stagiaires de faire le point sur
les méthodes qu’ils devront utiliser mais
également de s’associer à d’autres partici-
pants en fonction de la proximité de leurs
données et/ ou de leur problématique pour
travailler collectivement et échanger.
Par la suite, les participants évoluent en
totale autonomie avec leurs données.
Le formateur fera en sorte de partager son
temps entre les stagiaires qui ont régulière-
ment besoin de conseils pour les méthodes
utilisées et pour les interprétations statisti-
ques.
♦ Pré-requis
Il est nécessaire d’avoir de bonnes bases
en statistiques. Avoir suivi les modules 4,
6 et 7 est très souhaitable ainsi que de
connaitre les rudiments du logiciel R si
l’atelier est réalisé avec cet outil.
Mettre en application les enseigne-ments de statistiques sur ses propres données garantit l’assimilation des enseignements et le gain de temps
dans la mise en route du traitement de données.
A la demande cet atelier
peut être proposé
entièrement ou en par-
tie avec le logiciel R
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 25 -
Présentation des données par les stagiaires et discussions collectives relatives aux analyses. Rappels propres au(x) logiciel(s) et aux traitements statistiques réalisés en fonction des besoins spécifiques de chacun. Travail individuel sur les données personnelles avec l’appui du forma-teur qui partage son temps entre les participants. Des rappels pourront être faits régulièrement selon les besoins. Synthèse de l’atelier de traitement de données par les participants. Cette étape permet aux stagiaires de confronter leurs avis sur les diffé-rents traitements réalisés, d’ouvrir des pistes de réflexion et de dévelop-per leur sens critique sur les outils qu’ils auront maîtrisés. Si besoin, des rappels de statistiques seront formulés. Chaque participant apportant à la fois sa problématique et ses données, celles-ci devront être bien choisies et préparées à l’avance de manière à permettre l’analyse statistique sans avoir à retravailler la présentation du ou des tableaux de données.
Programme
Ate
lier
de tr
aite
men
t de
donn
ées
pers
onne
lles
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 26 -
Service « études de données »
Très nombreux sont les chercheurs, les ingénieurs, les industriels, les gestionnaires qui sont confrontés à des données complexes, dont « il y aurait certainement des informations intéressantes à tirer », mais qui ne peuvent s’y consacrer, faute de temps ou de formation.
COMPETENCE
Disposant des meilleurs outils pour l’analyse des don-
nées et des compétences nécessaires à leur utilisation,
nous pouvons réaliser pour vous tous ces traitements
complexes.
� Recherche des variables les plus sensibles à un trai-
tement ;
� Quelles sont, parmi toutes les mesures effectuées,
celles qui sont corrélées, et de quelle manière ?
� Comment expliquer la variabilité de tel paramètre ?
� Trouver ce qui caractérise au mieux tel groupe
d’individus ;
� Déceler dans les paramètres de fabrication
ceux qui expliquent un dysfonctionnement ;
� Analyse poussée de questionnaires ;
� Analyser statistiquement les réponses à
des questions ouvertes
et relier le discours aux caractéristiques
des répondants ;
� Veille technologique.
Vous avez des données, ne laissez pas se perdre le résultat de vos investigations,
ne les abandonnez pas au fond d’un tiroir, n’hésitez pas à nous en parler !
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 27 -
Les formateurs
Docteurs en biologie.
Diplômés des universités de Bordeaux,
Toulouse et Tours.
Formations, études, conseils et recherches
en biologie et statistiques
Formations, études et conseil pour : • l'INSERM, le CNRS, l'INRA, l'Institut Pasteur, des
grandes écoles, l'IFREMER, IRSTEA, CEA, IRSN,
BRGM, l'AFSSAPS…
• Les Universités : Bordeaux, Lyon, Paris-Diderot,
Poitiers, Tours...
• Les laboratoires L’Oréal, ESITPA - Laboratoire BioSol,
Sanofi, Danone, CIBA, Aventis-Pasteur, Wella, IRIS
PHARMA...
• Le groupe des assurances LE FOYER (Luxembourg),
BorsodChem Zrt (Hongrie), VEOLIA, GIDE, Parc
Astérix, SPAD, SUEZ...
Formations 2013 – Statistiques – Formations 2013 – Statistiques – Formations 2013 – Statistiques
AnaStats
- 28 -
E.mails : [email protected]
www.anastats.fr
CONTACT :
Caroline VIEUILLE
Les Vigneaux
F - 37220 Rilly Sur Vienne
Tél. 02 47 58 70 33
AnaStats
Recommended