Upload
predicsis
View
20
Download
0
Embed Size (px)
Citation preview
Définir et Optimiser ses hypothèses avec le Machine Learning
Jean-BaptistePriezPh.D,DataScientist
Chloé,actuaire,neprévoitpasvotremort,maispresqueRue89,01mai2016RémiNoyon(Journaliste)
Nouvelles données?
commons.wikimedia.org
Comment choisir les données?
commons.wikimedia.orgIMOPbyI-MEDS
Comment choisir les données?
On se pose autour d’une table et on réfléchit ?
On essaye les tables et leurs variables une par une ?
• Laissons la machine réfléchir…• Extraction d’agrégats• Sélection des variables corrélées
Générations d’agrégats - Définition
Une fonction d’agrégation retourne une seule valeur à partir d’un ensemble de valeurs.
Exemple: • La somme des dépenses annuelle médicamenteuses (OCDE)• Le nombre d’accidents mensuel en Ile-de-France (DRIEA)• La date de la dernière catastrophe naturelle (AREHN)• …
Générations d’agrégats - Limites
• Le nombre de décès par département• par overdose• chez les femmes• en surpoids• ayant au moins 4 enfants• avant la sortie de Pokémon GO
• Est-cepertinent?• NON!(…peutprobable…)
Génération d’agrégats – Bonnes pratiques
• Générerautomatiquement• ÉvalueretTrierensuite(automatiquementaussi)
• Commencerpardesagrégatssimples!puisessayerpluscomplexes…
Comment générer des agrégats?Algorithmes et outils:
• 1BC/1BC2 (Lachiche & co - https://clowdflows.unistra.fr/)• Uniquement pour les variables numériques
• Relaggs (Krogel & Wrobel – http://weka.sourceforge.net)• Tendance à générer des variables complexes…
• Tilde (https://dtai.cs.kuleuven.be/ACE/)• Uniquement universitaire et complexe à paramétrer…
• PredicSis.ai (Boullé – http://predicsis.ai) • Variables numériques ou catégorielles• Priorisation et valorisation des agrégats simples
Comment évaluer les données?
• Réduction statistique / Discrétiser
• Sélection des variables contributives
Vulgarisation : Discrétisation
:ensembledecibles(ex:malade,sain)
Discrétiser:chercheràtrouverlemeilleurdécoupage
Méthodes de réductions (old fashion)
Discrétisation par:• Équidistance• Problème si distribution asymétrique
• Progression arithmétique• Problème si distribution non-asymétrique (selon loi normale)
• Équifréquence• Masque rapidement de fortes discontinuités
• …• Manuelle• « Idéale » mais chronophage
Méthodes de réductions (moderne)
Discrétisation par:• ChiMerge (R, SAS)
• Favorise l’aspect statistique (quantité suffisante)• C4.5 (…)
• Favorise la qualité informationnelle (intervalles homogènes)
• Fusinter (Zighed & co - Sinipa)• MDL-disc / MDLP (Fayyad & Irani, Pfahringer - Spark)• MODL / PredicSis.ai (Boullé – http://predicsis.ai)
• Meilleur compromis basé sur la théorie de l’information
Vulgarisation : MODL
:ensembledecibles(ex:malade,sain)
I:𝑖" 𝑖# 𝑖$ 𝑖% 𝑖& 𝑖' 𝑖(
nDiscrétiseravecMODL=Minimiserlaformulesuivante:
𝑉𝑎𝑙𝑢𝑒 𝐷 = log 𝑛 + log 5678"78" +∑ log 5;6<8"
<8"7=>" +∑ log 5;!
5;,A!5;,B!…5;,D!E7=>"
contributionstatistiquecontributioninformationnelle
Conclusion
Références
• M.Boullé. Towards Automatic Feature ConstructionforSupervisedClassification.In ECML/PKDD2014,Pages181-196,2014.• M.Boullé. MODL:aBayesoptimaldiscretization method forcontinuous attributes. MachineLearning,65(1):131-165,2006.• M.Boullé. ABayesoptimalapproach forpartitioning thevaluesofcategorical attributes. JournalofMachineLearningResearch,6:1431-1452,2005.