Upload
mohamed-ali-khouaja
View
701
Download
18
Embed Size (px)
Citation preview
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exploration et traitement de donneesTraitement des valeurs manquantes et aberrantes sous R
Mohamed Ali KHOUAJA
IFELab www.emi.ac.ma/ifelabLERMA, EMI
Universite Mohamed VRabat - Maroc
Seminaire, 5/5/2016
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Plan
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Data mining process
Figure – Data mining process, Datacamp.com
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Data cleaning in statistical analysis
Figure – Statistical analysis value chain, voir [1]Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Etapes d’elaboration d’un modele predictif
Figure – Etapes d’elaboration d’un modele predictif
Etapes d’elaboration d’un modele predictif
Figure – Etapes d’elaboration d’un modele predictif
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Motivation
Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.
Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Motivation
Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.
Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Motivation
Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.
Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Motivation
Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.
Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Motivation
Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.
Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Motivation
Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.
Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Problematique Generale des Donnees NA
L’ensemble des donnees avec lequel on doit travailler n’est pastoujours complet (NA)
Donnees manquantes :Variable a expliquerVariable(s) explicative(s)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Problematique Generale des Donnees NA
L’ensemble des donnees avec lequel on doit travailler n’est pastoujours complet (NA)
Donnees manquantes :Variable a expliquerVariable(s) explicative(s)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Problematique Generale des Donnees NA
Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Problematique Generale des Donnees NA
Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Problematique Generale des Donnees NA
Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Problematique Generale des Donnees NA
Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Traitements preliminairesPourquoi le traitement des donnees manquantes
Problematique Generale des Donnees NA
Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Sommaire
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Types de donnees manquantes
Typologie de donnees manquantes, selon Little Rubin (1987), 3categories :
MCAR (”Missing completely at random”)
MAR (”Missing at random”)
MNAR (”Missing not at random”)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MCARMissing Completely At Random
La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1,qu’elles soient manquantes ou pas.
Il n’est donc pas possible de definir un profil des individusayant des valeurs manquantes, la probabilite de ces donneesest uniforme.
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant)
De maniere generale, ce type de DM est tres rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MCARMissing Completely At Random
La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1,qu’elles soient manquantes ou pas.
Il n’est donc pas possible de definir un profil des individusayant des valeurs manquantes, la probabilite de ces donneesest uniforme.
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant)
De maniere generale, ce type de DM est tres rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MCARMissing Completely At Random
La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1,qu’elles soient manquantes ou pas.
Il n’est donc pas possible de definir un profil des individusayant des valeurs manquantes, la probabilite de ces donneesest uniforme.
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant)
De maniere generale, ce type de DM est tres rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MCARMissing Completely At Random
La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1,qu’elles soient manquantes ou pas.
Il n’est donc pas possible de definir un profil des individusayant des valeurs manquantes, la probabilite de ces donneesest uniforme.
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant)
De maniere generale, ce type de DM est tres rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MARMissing At Random
La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1
manquantes, mais de leurs valeurs observees.
Exemple : Il existe une difference de non-reponse entre leshommes et les femmes concernant la question du revenu, maisparmi les hommes entre eux ou parmi les femmes entre elles,la probabilite d’avoir des non-reponses est identique quel quesoit le niveau du revenu
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MARMissing At Random
La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1
manquantes, mais de leurs valeurs observees.
Exemple : Il existe une difference de non-reponse entre leshommes et les femmes concernant la question du revenu, maisparmi les hommes entre eux ou parmi les femmes entre elles,la probabilite d’avoir des non-reponses est identique quel quesoit le niveau du revenu
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MARMissing At Random
La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1
manquantes, mais de leurs valeurs observees.
Exemple : Il existe une difference de non-reponse entre leshommes et les femmes concernant la question du revenu, maisparmi les hommes entre eux ou parmi les femmes entre elles,la probabilite d’avoir des non-reponses est identique quel quesoit le niveau du revenu
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MNARMissing Not At Random
La donnee est manquante pour une raison precise voulue.
La probabilite qu’une valeur de la variable x soit manquantene depend pas des valeurs prises par les autres variables Xj 6=i
observees, mais de leurs valeurs manquantes
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MNARMissing Not At Random
La donnee est manquante pour une raison precise voulue.
La probabilite qu’une valeur de la variable x soit manquantene depend pas des valeurs prises par les autres variables Xj 6=i
observees, mais de leurs valeurs manquantes
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Donnees MNARMissing Not At Random
La donnee est manquante pour une raison precise voulue.
La probabilite qu’une valeur de la variable x soit manquantene depend pas des valeurs prises par les autres variables Xj 6=i
observees, mais de leurs valeurs manquantes
P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Typologie de donnees manquantesChoix de types de donnees
Malheureusement
On ne peut generalement pas dire, a partir des donnees, quelest le mechanisme de manque (MCAR, MAR, MNAR)
Dans le cas MNAR, il est rare que l’on connaisse le modeleassocie au manquement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes
Typologie de donnees manquantesChoix de types de donnees
Malheureusement
On ne peut generalement pas dire, a partir des donnees, quelest le mechanisme de manque (MCAR, MAR, MNAR)
Dans le cas MNAR, il est rare que l’on connaisse le modeleassocie au manquement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Sommaire
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins unedonnee manquante, cela permet d’effectuer desanalyses sur des cas dont toutes les donnees sontconnues. En plus elle est peu efficiente, car beaucoupd’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes lescases dont les variables en question sont presentes.Son desaventage est d’utiliser differentes taillesd’echantillons pour les differentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins unedonnee manquante, cela permet d’effectuer desanalyses sur des cas dont toutes les donnees sontconnues. En plus elle est peu efficiente, car beaucoupd’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes lescases dont les variables en question sont presentes.Son desaventage est d’utiliser differentes taillesd’echantillons pour les differentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins unedonnee manquante, cela permet d’effectuer desanalyses sur des cas dont toutes les donnees sontconnues. En plus elle est peu efficiente, car beaucoupd’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes lescases dont les variables en question sont presentes.Son desaventage est d’utiliser differentes taillesd’echantillons pour les differentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation simple
Principe : remplacer chaque donnee manquante par une valeurplausible. Cela peut etre : la moyenne ou mediane pour lesattributs quantis ou le mode pour les attributs qualis.Cette methode peut comprendre deux types :
Generalized Imputation On calcule la moyenne/mediane de touteles valeurs non manquantes que prend la variable,puis on remplace les DM par la valeur de lamoyenne/mediane ou le mode pour les attributsqualis.
Similar case Imputation qui remplace les donnees manquantes pardes valeurs provenant d’individus similaires pourlesquels toute l’information a ete observee, (voirl’exemple en slide suivante)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation simple
Principe : remplacer chaque donnee manquante par une valeurplausible. Cela peut etre : la moyenne ou mediane pour lesattributs quantis ou le mode pour les attributs qualis.Cette methode peut comprendre deux types :
Generalized Imputation On calcule la moyenne/mediane de touteles valeurs non manquantes que prend la variable,puis on remplace les DM par la valeur de lamoyenne/mediane ou le mode pour les attributsqualis.
Similar case Imputation qui remplace les donnees manquantes pardes valeurs provenant d’individus similaires pourlesquels toute l’information a ete observee, (voirl’exemple en slide suivante)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation simpleExemple de Similar case Imputation
Gender Manpower Sales
1 M 25.00 343.002 F 280.003 M 33.00 332.004 M 272.005 F 25.006 M 29.00 326.007 26.00 259.008 M 32.00 297.00
Table – Jeu de donnees avec DM
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation simpleExemple de Similar case Imputation
Gender Manpower Sales
1 M 25.00 343.002 F NA 280.003 M 33.00 332.004 M NA 272.005 F 25.00 NA6 M 29.00 326.007 NA 26.00 259.008 M 32.00 297.00
Table – Jeu de donnees avec DM
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation simpleExemple de Similar case Imputation
On calcule la moyenne (en variable Manpower) pour le genre(Man) :
> mean(ListDM[Gender==c("M"),]$Manpower, na.rm = TRUE)
[1] 29.75
et (Female), pour les valeurs non manquantes :
> mean(ListDM[Gender==c("F"),]$Manpower, na.rm = TRUE)
[1] 25
Ensuite on remplace les DM, pour ”M”par 29.75 et pour ”F”par 25.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation simpleRatio Imputation
Ici, la valeur est estimee xi par un ratio multiplie par la valeurconjuguee de covariant yi .
xi = Ryi
Implementation sur R :
> x=ListDM[,2]
> y=ListDM[,3]
> I= is.na(x)
> R=sum(x[!I])/sum(y[!I & !is.na(y)])
> x[I]=R*y[I]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Modele de prediction
Ici,
On construit un modele de prediction pour estimer les valeursavec lesquelles on substitue les DM.
xi = β0 + β1y1,i + ...+ βkyk,i
On peut utiliser : Regression, ANOVA, Regression logistiqueA noter que les packages Hmisc, VIM, mi et mice,implementent des methodes d’imputation utilisant de formesde regression
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Imputation KNN
Dans cette methode :
Les DM d’un attribut sont imputes en utilisant les attributsles plus similaires a celui en question.
La similatite entre deux attributs est determinee en utilisantune fonction de distance.
Le package VIM de R, utilise une fonction appelee kNN quiimplemente une distance de Gowers pour determiner les Kproches voisins
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Imputation KNNExemple sous R
> library(VIM)
> data(iris)
> n <- nrow(iris)
> # provide some empty values (10 in each column, randomly)
> for (i in 1:ncol(iris)) {
+ iris[sample(1:n, 10, replace = FALSE), i] <- NA
+ }
> iris2 <- kNN(iris)
Time difference of 0.058038 secs
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Autres methodes d’imputation
Hot deck imputation Imputer la valeur manquante avec une valeurobservee de la meme BDD aleatoirement (sous R, lafonction impute du package Hmisc implementecette methode en ajoutant le parametre ”random”)
Exemple : Soit ”height” les tailles extraites du jeu de donnees”women” :
> height <- women$height> height[c(6,9)]<-NA #Ajouter des DM> height<-Hmisc::impute(height, "random")> height
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1558 59 60 61 62 65* 64 65 61* 67 68 69 70 71 72
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation multiple
Principe : proceder a m > 1 imputations afin d’obtenir m valeurspour chaque donnee manquante, et a combiner ensuite lesstatistiques calculees independamment sur les m jeux de donnees.les resultats peuvent varier selon les logiciels et les modelesSouvent, on opte pour l’imputation multiple et cela revient aplusieurs raisons :
Sous l’hypothese MAR, MI produit des estimations nonbiaisees ainsi que des variances non biaisees
Methode tres flexible
Large disponibilite des techniques de MI dans les logiciels destatistique
Les packages mice et mi implementent de tels methodes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation multiple
Etape 1 : on remplace chaque valeur manquante par M (>1)valeurs tirees d’une distribution appropriee.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation multiple
Etape 2 : on realise des analyses independantes, mais avec lameme methode, de M bases imputees.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation multiple
Etape 3 : on combine les resultats de ces analyses afin de refleterla variabilite supplementaire due aux donnees manquantes.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation multipleExemple sous R
> summary(iris) #Apres generation des DM sur le jeu de donnees "iris"
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.400 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.575 1st Qu.:0.375
Median :5.900 Median :3.000 Median :4.350 Median :1.300
Mean :5.911 Mean :3.042 Mean :3.773 Mean :1.215
3rd Qu.:6.500 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
NA's :17 NA's :20 NA's :18 NA's :18
Species
setosa :45
versicolor:44
virginica :41
NA's :20
Pour imputer les valeurs manquantes :
> imputed.data <- mice(iris.mis, m=5, maxit = 50, method = 'pmm', seed = 100);
m represente 5 jeux de donnees imputes
maxit designe le nombre d’iterations pris pour imputer les DM
method designe la methode d’imputation utilisee (ici ; Predective Mean Matching)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation multipleExemple sous R
> summary(imputed.data)
Multiply imputed data setCall:mice(data = iris.mis, m = 5, method = "pmm", maxit = 50, seed = 100)Number of multiple imputations: 5Missing cells per column:Sepal.Length Sepal.Width Petal.Length Petal.Width
17 20 18 18Imputation methods:Sepal.Length Sepal.Width Petal.Length Petal.Width
"pmm" "pmm" "pmm" "pmm"VisitSequence:Sepal.Length Sepal.Width Petal.Length Petal.Width
1 2 3 4PredictorMatrix:
Sepal.Length Sepal.Width Petal.Length Petal.WidthSepal.Length 0 1 1 1Sepal.Width 1 0 1 1Petal.Length 1 1 0 1Petal.Width 1 1 1 0Random generator seed value: 100
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
L’imputation multipleExemple sous R
Pour selectionner un jeu de donnees des 5 imputes, on utilise la fonction complete()
> completeData <- complete(imputed.data, 2)> summary(completeData)
Sepal.Length Sepal.Width Petal.Length Petal.WidthMin. :4.400 Min. :2.000 Min. :1.000 Min. :0.1001st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.325Median :5.800 Median :3.000 Median :4.250 Median :1.300Mean :5.864 Mean :3.054 Mean :3.749 Mean :1.2023rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Les methodes d’imputations en packages de R
Figure – Les methodes d’imputations en packages de R [1]
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
DefinitionTraitement
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
DefinitionTraitement
OutliersDefinition
Une valeur aberrante est une valeur extreme de la distributiond’une variable, c’est-a-dire qui differe significativement del’ensemble des grandeurs d’une variable donnee.
Pour les reperer : Boxplot Elle definit les valeurs extremescomme les valeurs superieures ou inferieures a I (=1.5generalement) fois l’ecart interquartile [3]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
DefinitionTraitement
Detection des OutliersLes boites a moustaches
Figure – Detection des valeurs extremes avec les boıtes a moustaches [3]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
DefinitionTraitement
Detection des OutliersLes boites a moustaches
> x <- c(1:10, 20, 30)
> boxplot.stats(x)$out
[1] 20 30
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
DefinitionTraitement
Outline
1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes
2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR
3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple
4 Valeurs aberrantes : OutliersDefinitionTraitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
DefinitionTraitement
Traitement des Outliers
Les valeurs aberrantes peuvent ne pas etre des erreurs, maisbel et bien reveler des situations extraordinaires
(etude de comportements frauduleux ou d’evenements rares).
Dans le cas des erreurs (valeurs aberrantes), on procede parles methodes d’imputation des NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donneesTypes de donnees manquantes
Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers
Sommaire
Sommaire
Les jeux de donnees a analyser peuvent contenir des valeursmanquantes.
Si possible, on va chercher a les remplacer par une valeurplausible.
Differentes methodes statistiques existent pour cela. L’une desplus utilisees est l’imputation multiple.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Annexe References
References I
De Jong, E., Van der Loo, M. : An Introduction to DataCleaning with R. Statistics Netherlands, The Hauge (2013)
Kabacoff, R. R in Action, Data analysis and graphics with R -Manning Publications (2015)
Biernat, E. and Lutz, M. Data science : fondamentaux etetudes de cas, EYROLLES (2011)
Zumel, N. and Mount, J. Practical Data Science with R -Manning Publications (2014)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Annexe References
References II
analyticsvidhya.com/blogA Comprehensive guide to Data Exploration.Tutorial on 5 Powerful R Packages used for imputing missingvalues
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R