Introduction au Data Mining

Julien JACQUES

Université de Lyon, Lyon 2 & ERIC EA 3083

1 / 26

Le data mining : qu’est-ce donc ?

Une rétrospective historique

Les étapes du data mining

Exemples d’applications réelles

Panorama des méthodes

Les logiciels

Les données

2 / 26

� data mining = fouille de données� Définition de Wikipédia (2017) :

� L’exploration de données, connue aussi sous l’expression de fouille dedonnées, forage de données, prospection de données, data mining, ouencore extraction de connaissances à partir de données, a pour objetl’extraction d’un savoir ou d’une connaissance à partir de grandesquantités de données, par des méthodes automatiques ousemi-automatiques.

� définition de P. Besse1

� Ensemble d’approches statistiques permettant d’extraire de l’informationde grands jeux de données dans une perspectives d’aide à la décision.

1P. Besse et al., Data Mining et Statistique, Journal de la Société Française deStatistique, 142[1], 2001.

3 / 26

Le data mining : quelques références

Quelques ouvrages : d’abordable à plus technique...

4 / 26

Le data mining : quelques références

Sites internet� nombreux cours, e-books, tutoriels (R, tanagra, Excel) :

http://eric.univ-lyon2.fr/~ricco/data-mining/

� site de l’équipe de Rennes : http://www.sthda.com/french/� site de l’équipe de Toulouse : http://wikistat.fr� site de S. Tufféry : http://data.mining.free.fr

5 / 26

Les logiciels

Les données

6 / 26

Le data mining : rétrospective historique

� Historiquement, les premières approches statistiques étudient unpetit nombre n d’individus décrits par un petit nombre p de variables.Ces données sont issues de plans d’expériences.

� 1990s (MO) : les entreprises commencent à stocker de plus en plusde données concernants leur clients, sans planificationexpérimentale. Les méthodes statistiques classiques sontmassivement utilisées pour extraire de la connaissance de cesdonnées (CRM, gestion de la relation client). C’est la naissance dudata mining.

7 / 26

� Historiquement, les premières approches statistiques étudient unpetit nombre n d’individus décrits par un petit nombre p de variables.Ces données sont issues de plans d’expériences.

� 1990s (MO) : les entreprises commencent à stocker de plus en plusde données concernants leur clients, sans planificationexpérimentale. Les méthodes statistiques classiques sontmassivement utilisées pour extraire de la connaissance de cesdonnées (CRM, gestion de la relation client). C’est la naissance dudata mining.

7 / 26

� 2000s (GO) : première révolution du data mining avec l’avénementde la bioinformatique et des données omiques : on observebeaucoup de variables sur peu d’individus (n << p). On parle dufléau de la dimension et on doit développer de nouvelles méthodesparcimonieuses.

� 2010s (TO) : seconde révolution due au développement d’internet(commerce en ligne, réseau sociaux). On parle de big data (volumevariété vélocité...) et de science des données.

8 / 26

� 2000s (GO) : première révolution du data mining avec l’avénementde la bioinformatique et des données omiques : on observebeaucoup de variables sur peu d’individus (n << p). On parle dufléau de la dimension et on doit développer de nouvelles méthodesparcimonieuses.

� 2010s (TO) : seconde révolution due au développement d’internet(commerce en ligne, réseau sociaux). On parle de big data (volumevariété vélocité...) et de science des données.

8 / 26

Les logiciels

Les données

9 / 26

Introduction et definitions Le Data Mining c’est quoi ?

Une retrospective historique (Data science et Big data)

Data science et big data, suites logiques des statistiques et du DM :I Annees 2000 (To) :

(www) Developpement du web social et des smartphones : capacitesaccrues de stockage et d’echange de fichiers multimedia,expansion des activites economiques du e-commerce(recommandation, analyse de traces...). Tout ceci provoque unchangement de paradigme : les donnees sont non-structurees,complexes et peuvent etre de tres grande dimension (texte,image. . . ), les outils informatiques et les modeles d’analyse(statistiques, IA) doivent s’adapter a ces caracteristiques.

(ST) Developpement de la branche apprentissage statistique.Importance des concepts biais et variance : ce qui importe c’estla qualite des connaissances decouvertes et/ou des predictionsobtenues et non pas l’ajustement d’un modele a des donnees.

(ST) Le livre de reference “The Elements of Statistical Learning”d’Hastie, Tibshirani et Friedman sort en 2001.

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 13 / 94

(ST) Avenement du Data Science en 2001 par Cleveland dans unarticle intitule “Data Science : An Action Plan for Expanding theTechnical Areas of the Field of Statistics” montrant la necessited’integrer les outils de calcul scientifique dans le champsd’expertises des statistiques. Le data science peut etre vu commeles statistiques avec des outils modernes de calcul scientifique.

(BD) Introduction des bases de donnees NoSQL comme Bigtable deGoogle en 2004, pour le stockage distribue des donneesvolumineuses et non-structuees.

(CS) Debuts du calcul distribue comme MapReduce de Google poure↵ectuer des requetes et calculs sur des donnees non-structureeset distribues.

I Annees 2010 (Po) :(DM) Avenement du Big Data (depuis la fin des annees 2000) pour le

stockage, le requetage et l’analyse de donnees massives mais enmettant l’accent sur les 4V : Volume, Variete, Velocite etVeracite. Le big data peut etre vu comme du DM avec destechnologies modernes de stockage et de calculs distribues.

(BD)(CS) Developpement a partir de 2011, de l’ecosysteme libre Hadoop etdu calcul distribue MapReduce pour repondre aux besoinscroissants de l’analyse de donnees massives.

(BD)(CS) Developpement a partir de 2014 de l’outil libre Spark, qui va plusloin que le MapReduce classique en permettant des calculsdistribues et iteratifs necessaires aux algorithmes de DM.

(IA) Retour en grace des reseaux de neuronnes : la puissance desserveurs de calcul permettent de mettre en oeuvre ces methodessur des donnees tres massives. Le deep learning est la methodede DM la plus en vogue de ces dernieres annees : tres performantpour de nombreux problemes en image, texte, son. . .

(IA) L’algorithme AlphaGO de Google base sur du deep learning batun champion humain du jeu de Go en 2015 et en 2016.

Introduction et definitions Les di↵erentes etapes en DM

Schema

Bases dedonnées

Donnéescibles

Donnéestransformées

Résultatsd’analyse

Connaisances

Inventaire,Sélection,

Intégration...

Exploration,Transformation,Ajout/Réduction de dimension...

Segmentation,Régression,

Classement...

Validation,Visualisation,

Interprétations...PROCESSUS DE

DECOUVERTE DE

CONNAISSANCES

J. Ah-Pine (Univ-Lyon 2) Data Mining L3 CESTAT 2017/2018 16 / 9410 / 26

Inventaire, sélection et intégration des données

1. Inventaire, sélection et intégration des données2. Exploration, transformation des données3. Analyse statistique : segmentation, régression, classement4. Validation, visualisation et interprétations des résultats

11 / 26

Inventaire, sélection et intégration des données

� définir et identifier� ce que l’on veut étudier� ce que je veux faire (prédire, découvrir...)� quelles observations on va utiliser

� rassembler les informations sur le phénomène� quelles sont les variables (descripteurs) existantes� sélectionner les variables en lien avec ce que l’on veut étudier� intégrer ces variable dans un même jeu de données

� cette partie demande de compétences en base de données, nonabordées dans ce cours.

12 / 26

Exploration, transformation des données

� Il faut commencer par faire connaissance avec les données, à l’aidede statistiques descriptives� statistiques univariées (tendance centrale, dispersion)� graphiques (historgrammes, boxplot, ...)� statistiques bivariées (corrélation...) pour identifier des variables corrélées� méthodes exploratoires (ACP, AFC, ACM...) pour visualiser les grandes

tendances

� identifier et gérer les données manquantes� on les supprime si elles sont peu nombreuses et si le jeu de données est

grand� on les impute par la moyenne, médiane, le mode, ou par une méthode

plus élaborée (packages R mice, missMDA...)� identifier et traiter les observations atypiques

� demande à l’expert métier si c’est une erreur de mesure, une observationhors norme...

13 / 26

tendances� identifier et gérer les données manquantes

� on les supprime si elles sont peu nombreuses et si le jeu de données estgrand

� on les impute par la moyenne, médiane, le mode, ou par une méthodeplus élaborée (packages R mice, missMDA...)

� identifier et traiter les observations atypiques� demande à l’expert métier si c’est une erreur de mesure, une observation

hors norme...

13 / 26

tendances� identifier et gérer les données manquantes

� on les supprime si elles sont peu nombreuses et si le jeu de données estgrand

� on les impute par la moyenne, médiane, le mode, ou par une méthodeplus élaborée (packages R mice, missMDA...)

� identifier et traiter les observations atypiques� demande à l’expert métier si c’est une erreur de mesure, une observation

hors norme...

13 / 26

� Normalisation de variables quantitatives� lorsque les variables ont des échelles différentes� on centre (soustrait la moyenne) et réduit (divise par l’écart-type) chaque

variable� Transformation de variables qualitatives en quantitatives ou

vice-versa� d’un point de vue général on évitera un maximum de faire cela, et on

cherchera à utiliser des méthodes permettant d’utiliser des donnéesmixtes

� quand on a pas le choix, on peut discrétiser les variables quanti. envariables quali. (mais on perd énormément d’information)

� on peut faire le contraire en utilisant une ACM par exemple, mais on perden interprétabilité

14 / 26

Analyse statistique : segmentation, régression,classement

� c’est la partie analyse qui va permettre d’extraire de l’information.� on verra plus loin la distinction entre les méthodes exploratoires,

prédictives, ...

15 / 26

Validation, visualisation et interprétations desrésultats

� Validation : on cherchera à valider les résultats à l’aide de donnéesindépendantes, d’avis humain...

� Visualisation : les résultats des analyses seront illustréesgraphiquement afin de faciliter leur interprétation.

� Interprétation : c’est ici que, grâce à l’expert métier, on tire del’information et de la connaissance sur le phénomène étudié.

16 / 26

Les logiciels

Les données

17 / 26

Le data mining : à quoi cela sert ?� Vente, marketing

� gestion de la relation client (scoring, score d’appétence)� segmentation de la clientèle

� Banque, finance, assurance� détection de fraude (comportements atypiques)� score de risque (attribution ou non d’un crédit)

� Technologie� reconnaissance faciale dans une image� reconnaissance de la parole

� Médecine, industrie pharmaceutique� réponse d’un patient vis-à-vis d’un traitement� identification des facteurs de risques

� Energie, transport...� prévision de consommation d’électricité� prévision de traffic routier

Le Data Mining peut s’appliquer à tout phénomène dont on peutmesurer des observations et dont on souhaite appréhender lescaractéristiques et / ou prévoir le comportement

18 / 26

Le data mining : à quoi cela sert ?� Vente, marketing

� gestion de la relation client (scoring, score d’appétence)� segmentation de la clientèle

� Banque, finance, assurance� détection de fraude (comportements atypiques)� score de risque (attribution ou non d’un crédit)

� Technologie� reconnaissance faciale dans une image� reconnaissance de la parole

� Médecine, industrie pharmaceutique� réponse d’un patient vis-à-vis d’un traitement� identification des facteurs de risques

� Energie, transport...� prévision de consommation d’électricité� prévision de traffic routier

Le Data Mining peut s’appliquer à tout phénomène dont on peutmesurer des observations et dont on souhaite appréhender lescaractéristiques et / ou prévoir le comportement

18 / 26

Les logiciels

Les données

19 / 26

Le data mining : panorama des méthodes

fouille de données

méthodesprédictives

méthodesdescriptives

20 / 26

Le data mining : panorama des méthodes

méthodesprédictives

classificationsupervisée

prédireY quali.

régressionprédire

Y quanti.

méthodesdescriptives

détectionsde liens

recherched’associations

analysefactorielleACP, AFC,

clustering

21 / 26

Les logiciels

Les données

22 / 26

Les outils du data mining

� propriétaires et payants

� open source et/ou gratuits

23 / 26

Les logiciels

Les données

24 / 26

Les données

Les dataOn stocke généralement les données sous forme d’un tableau (matrice)

x11 x12 . . . x1px21 x22 . . . x2p...

......

...xn1 xn2 . . . xnp

où :� une ligne = une observation, un individu, parfois notée

xi = (xi1, . . . , xip)

� une colonne = une variable� xij : valeur de la j-ème variable pour le i-ème individu� n est le nombre d’observations et p le nombre de variables

25 / 26

Le data mining : des data...

Les données Xij peuvent être de différent types� quantitatif (mesurables)� catégoriel (nominales, ordinales)� mais également

� textes, images, réseaux...

� tout en même temps

26 / 26

Le data mining : des data...

Les données Xij peuvent être de différent types� quantitatif (mesurables)� catégoriel (nominales, ordinales)� mais également

� textes, images, réseaux...

� tout en même temps

26 / 26

Introduction au Data Mining - Laboratoire ERIC - Unité de

Documents

REPUBLIQUE DU MOZAMBIQUE - afdb.org · RAPPORT D’EVA LUATION ... d’un laboratoire et d’une unité de conditionnement de la ... PRESTATION DE CONSULTANTS REQUISES ET STAGE DE

Analyse des résultats « Peste » Unité Peste - Laboratoire ...Reprise de la saison pesteuse plus tôt qu’habituellement : 01 août 2017. Epidémie de peste pulmonaire notifiée

Laboratoire Bordelais de Recherche en Informatique 23/02/2014 5. Chapitrage des documents audio- visuels numériques Un plan de montage est une unité de

Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire dInformatique

UMR 5221 - Université de Montpellier · 2016. 3. 11. · Le laboratoire Charles Coulomb Unité mixte de recherche CNRS-Université Montpellier 2 Le laboratoire Charles Coulomb (L2C),

04 juin 2013Présentation Géochimie1 Unité mixte de recherche: CNRS-Université-IRD Mhammed Benbakkar Ingénieur analyste en Géochimie Laboratoire Magmas

Oncogériatrie en pratique : la préhabilitationPr Claire FALANDRY Unité d’Oncogériatrie, Service de Gériatrie Centre Hospitalier Lyon Sud Laboratoire CarMEN de l’Universitéde

LNM.pdf · MISSIONS DU LNM Le Laboratoire National de Métrologie (I-NM) est une unité spécialisée faisant partie du réseau du Laboratoire Public d'Essais et d'Etudes (I-PEE)

Laboratoire de Physiologie Unité Physiologie Pathologie Exercice et Handicap

Apprentissage Statistique Data miningluzala.org/Statistique et data mining.pdf · Data mining PHILIPPE BESSE Version Octobre 2006 Institut de Math´ematiques de Toulouse Laboratoire

Laboratoire 3 : Conception d’une unité arithmétique et …mgarz042/CEG2536/labs/Lab3.pdf · seront les bits les plus significatifs, ... Déterminez comment connecter 4 de ces

Philippe Berthelot, Unité Hygiène Inter hospitalière ... · Philippe Berthelot, Unité Hygiène Inter hospitalière, Service des Maladies Infectieuses et laboratoire de bactériologie-virologie-hygiène,

Open cut mining brief _hot mining

Applicationsdocuments.irevues.inist.fr/bitstream/handle/2042... · Laboratoire d'Électricité, Signaux et Robotique (L.E.SI.R.), Unité associée C.N.R.S. n° D 1375, 61 avenue du

boult.fr · DA LE DÉPARTEMENT LABORATOIRE DEPARTEMENTAL VETERINAIRE ET HYDROLOGIE Portée disponible sur ESSAIS COMMUNE BOULT 8 Grande Rue Unité de gestion

m1info-bda - Laboratoire ERIC (Unité de Recherche 3083) - Unité de …jdarmont/docs/m1info-bda.pdf · 2019. 8. 20. · 20/08/2019 3 Types structurés (enregistrements, tableaux)

UNIVERSITÉ LILLE 1iml.univ-mrs.fr/~ramare/Epsilons/theseRamdinmawiaVanlalngaia.pdf · UNIVERSITÉ LILLE 1 École doctorale ED Régionale SPI 72 Unité de recherche Laboratoire Paul

Objectif - Laboratoire ERIC (Unité de Recherche 3083) - Unité de …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra... · 2012. 9. 25. · Desription de deux alternatives

BioIMAGe Partenaires : TIMC-IMAG, Unité INSERM 438, RMN Bioclinique, Laboratoire de Biologie des Populations d'Altitude Thématiques –BioInformatique –Modélisation

Graph Mining and Workflow Mining