Upload
phambao
View
217
Download
0
Embed Size (px)
Citation preview
.
......Analyse de grandes bases de donnees en sante
Alain Duhamel Michael Genin Mohamed Lemdani
EA 2694 / CERIMMaster 2 Recherche Biologie et Sante
Journee Thematique Fouille de Donnees
Plan
...1 Problematique
...2 Knowledge Data DiscoveryPhase 1Phase 2
...3 Programme de la Journee Thematique
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 1 / 18
Plan
...1 Problematique
...2 Knowledge Data DiscoveryPhase 1Phase 2
...3 Programme de la Journee Thematique
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 1 / 18
Plan
...1 Problematique
...2 Knowledge Data DiscoveryPhase 1Phase 2
...3 Programme de la Journee Thematique
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 1 / 18
Problematique
Point etudie
...1 Problematique
...2 Knowledge Data Discovery
...3 Programme de la Journee Thematique
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 2 / 18
Problematique
Problematique
Developpement des outils informatiques et des NTIC
Augmentation tres importante du nombre et de la taille des BDD en Sante :SIH (sejours), BDD medicales (MICI, nutrition), epidemiologiques (prisons)
= gisements de donnees
Necessite de disposer de methodes efficaces pour
L’exploitation (requetes simples, . . . ) mais aussiLa decouverte (extraction) de connaissancesLa valorisation des connaissances extraites pour l’aide a la decision
Techniques de la statistique inferentielle classique insuffisantes (multiplicationdes tests, des croisements, . . . )
⇒ Methodologie d’extraction de connaissances a partir de bases de donnees(KDD) (milieu 90 - Fayyad)
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 3 / 18
Knowledge Data Discovery
Point etudie
...1 Problematique
...2 Knowledge Data DiscoveryPhase 1Phase 2
...3 Programme de la Journee Thematique
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 4 / 18
Knowledge Data Discovery
Knowledge Data Discovery
KDD = Knowledge Data Discovery = Extraction de connaissances a partir debases de donnees
Processus permettant la decouverte, a partir de Base De Donnees (BDD), deconnaissances auparavant inconnues et potentiellement utiles pour la prise dedecision (Fayyad)
Methodologie differente de l’etude de recherche classique
Etude classique : prospectif, un objectif principal, donnees recueillies pour yrepondreKDD souvent retrospectif = on travaille sur une BDD existante
Domaine de recherche inter disciplinaire
KDD largement utilise en marketing, grandes distributions, banques, . . .
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 5 / 18
Knowledge Data Discovery
Knowledge Data Discovery
KDD encore plus difficile a utiliser pour l’analyse des BDD cliniques
Nature des donnees : valeurs aberrantes, valeurs manquantes, differents typesde variablesNecessite d’une validation a chaque etape du processusNecessite de modeles explicatifsExpertise rare et couteuse
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 6 / 18
Knowledge Data Discovery
BDD Existante
Données ne.oyées
Fouille de données
Valorisa6on des résultats
ACTIONS
Phase 1 Phase 2 Phase 3
3 phases principales :
Phase 1 : pre traitement des donnees (80% du temps du projet)
Phase 2 : extraction de connaissances (fouille de donnees ou data mining) :procedures derivees des statistiques, de l’informatique et de l’ntelligenceartificielle
Phase 3 : valorisation des connaissances extraites : prise de decision
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 7 / 18
Knowledge Data Discovery Phase 1
Point etudie
...1 Problematique
...2 Knowledge Data DiscoveryPhase 1Phase 2
...3 Programme de la Journee Thematique
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 8 / 18
Knowledge Data Discovery Phase 1
KDD - Phase 1
Objectifs du projet
Plan d’analyseSelection des donneesType de donnees
Pre traitement ( ”garbage in” ”garbage out”)Valeurs aberrantes
Methodes univaries : boxplot, . . .Methodes multivariees : Analyses en Composantes Principales (ACP),Classifications, . . .
Coherence des donnees : homme et grossesse !
Methodes statistiques (supra)Regles logiques : expertise
SI traitement par voie orale et age debut diabete > 30 ans et BMI > 25 ALORS type diabete =2
(2% des dossiers corriges)
Gestion de donnees manquantes
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 9 / 18
Knowledge Data Discovery Phase 1
KDD - Phase 1
Pre traitement : +++ Gestion des donnees manquantes
Frequemment : valeurs manquantes sur de nombreuses variablesDomaine de recherche en StatistiqueComment faire des analyses multivariees ? (exemple : regressions)Travaux fondamentaux : Rubin, Little, SchaferTres important d’utiliser ces methodes modernes (Rubin)Dans cette JT : presentation des principales methodes de gestion des donneesmanquantes
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 10 / 18
Knowledge Data Discovery Phase 2
Point etudie
...1 Problematique
...2 Knowledge Data DiscoveryPhase 1Phase 2
...3 Programme de la Journee Thematique
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 11 / 18
Knowledge Data Discovery Phase 2
KDD - Phase 2 : Datamining
Data mining : methodes multi-disciplinaires
Methodes statistiques
Methodes descriptives : Classifications, analyse en composantes principales,analyses factoriellesModelisation : regression, discrimination
Methodes informatiques
Regles d’associationsAlgorithmes genetiques : boıte noire
Methodes statistiques et informatiques
Arbres de decisions
Methodes derivees de l’intelligence artificielle
Reseaux de neurones : boıte noireReseaux bayesiens : boıte noire
Methode de base de donnees (entrepots de donnees data warehouse)
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 12 / 18
Knowledge Data Discovery Phase 2
KDD - Phase 2 : Datamining
Certaines methodes existent depuis de nombreuses annees :
Classifications (Fischer : 1936, . . . , Diday 1979, . . . )
Arbres de decision : Hunt 1966
Reseaux de neurones : perceptron de Rosenblat, 1961
Nouveautes
Developpement de nouveaux outils (regles d’association)
Regrouper les methodes, les outils pour les 3 phases : pre traitement,extraction de connaissances, valorisation
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 13 / 18
Knowledge Data Discovery Phase 2
KDD - Phase 2 : Datamining
Methodes utilisees depuis plusieurs annees en marketing, banques, grandedistribution . . .
Logiciels disponibles :
Mineset (Silicon Graphics)SAS (entreprise miner) ⇒ Prix exhorbitantsSPSS Modeler
R, SIPINA, TANAGRA, CBA, . . . ⇒ Gratuits ou prix ”universitaires”
Principales methodes dans le domaine medical :
Regles d’association, (presentation succincte)
Arbres de decision,
Classifications (clusters)
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 14 / 18
Knowledge Data Discovery Phase 2
KDD - Phase 2 : Datamining - Regles d’association
Une regle d’association est une regle du type : Si A et B alors C
Identification automatique = algorithme d’Agrawal (1993) pour l’analyse dupanier de la menagereExemple : SI achat couche culotte ET achat samedi ALORS achat biere
Regles d’association caracterisees differentes mesures :
Le support : P(A et B et C ) (= frequence)La confiance : P(C/A et B) (= probabilite conditionnelle)L’amelioration : P(C/A et B)/P(C). . .
Pas necessairement de variable a expliquer et d’ordre de priorite entre lesvariables.
Methode adaptee aux gros volumes de donnees et a un nombre important devariables
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 15 / 18
Knowledge Data Discovery Phase 2
KDD - Phase 2 : Datamining - Regles d’association
Attention au parametrage du support et confiance minimum ET au nombrede variables
⇒ Nombre eleve de regles generees !
Exemple 1 : DIABCARE = programme europeen d’evaluation du suivi desdiabetiques (type 2)
29165 patients , 51 variables → 128150 regles (support=10%, confiance=60%)
Exemple 2 : 12 variables dont complication de St Vincent (s=10%, c=60%)
Nombre de Regles : 943Exemples de Regle :
SI cholesterol>5,2mmol/l ET diabete de type 2 ALORS presence d’angor (support = 31,6%, confiance=71.89%)
Logiciels libres : Tanagra, R, . . .
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 16 / 18
Programme de la Journee Thematique
Point etudie
...1 Problematique
...2 Knowledge Data Discovery
...3 Programme de la Journee Thematique
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 17 / 18
Programme de la Journee Thematique
Programme
Arbres de decision : 9h30 - 11h
Methodes de classification : 11h - 12h30
Methodes de gestion des donnees manquantes : 14h - 16h30
Exemples gestion des donnees manquantes : 16h30 - 18h
Presentation d’articles - Discussion
A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Sante Version - 19 fevrier 2015 18 / 18