View
112
Download
1
Category
Preview:
Citation preview
Introduction au datamining
Patrick Naïmjanvier 2006
Définition
Définition
Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des
données conduisant à des conclusions inexactes Exemple célèbre : parapyschologie
Quelle est la définition du datamining ? Procédons de façon inductive …
Définitions du datamining
« Le datamining est le procédé qui consiste à découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de grands volumes de données stockées à l’aide de techniques statistiques, mathématiques, ou issues de la reconnaissance de formes. » (Gartner Group)
« Ensemble de techniques permettant d’extraire des modèles d’une base de données historisées par raisonnement statistique (déduction on induction approchées) afin de décrire le comportement actuel et/ou de prédire le comportement futur d’un procédé. » (Georges Gardarin, PRISM)
« Le datamining est l’extraction d’informations de grandes bases de données. Il s’agit du processus de présentation automatique de règles à des opérateurs qualifiés, pour examen. Ici l’humain joue un rôle essentiel car lui seul peut décider de l’intérêt d’une règle pour l’entreprise » (IBM)
« Le datamining est un processus d’analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d’activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans l’intérêt de l’activité dont ils ont la charge et de l’entreprise pour laquelle ils travaillent » (Michel Jambu , CNET, France Telecom)
« [Le datamining] est le processus non automatique de recherche dans les données de régularités a priori inconnues, stables, utiles, et interprétables » [1](Fayyad, Piatetsky-Shapiro & Smyth ,KDD)
[1] “[Datamining is] the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data”
Exemples d’applications
Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de
mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)
Segmentation
Regrouper les individus en groupes homogènes Classification des objets célestes Identifier des comportements d’achat « types »
0
2
4
6
8
10
12
0 5 10 15
TEMPS
AR
TIC
LES
0
2
4
6
8
10
12
0 5 10 15TEMPS
AR
TIC
LES
Association
Identifier les proximités entre caractéristiques observées Achats croisés de couches et de bière Détection de fraudes sur les marchés (COB)
Classification
Expliquer ou prévoir une caractéristique (qualitative) à partir d’autres Détection de fraude sur carte bancaire Localisation de gènes Réduction de coûts des campagnes de mailing
Sous-entendus Relation explicite Y=F(X) Prévoir X(t), et Y(t+1) Incertitude Y=F(X)+
Estimation
Expliquer ou prévoir une caractéristique (quantitative) à partir d’autres Prévision sur les marchés boursiers Prévision de consommation électrique Estimation de la consommation d’un client
Représentation des données
Transformation des données pour en avoir une vision plus synthétique Opérations mathématiques explicites
Moyenne des consommations par mois Opérations mathématiques implicites
Analyse en composantes principales Visualisation
2D, 3D, réalité virtuelle
Caractérisation des applications
Organiser et synthétiser Représentation Segmentation Association
Modéliser et prévoir Classification Estimation
Modélisation descriptive Modélisation prédictive
Les problèmes traités par le datamining
Datamining
Modélisation descriptive Modélisation prédictive
Représentation Segmentation Association Classification Estimation
La démarche du datamining
La connaissance est dans les données … C’est la démarche de la science expérimentale :
modélisation empirique Cette démarche suppose la stabilité des phénomènes :
existence de lois Les problèmes portent le plus souvent sur des
données issues d’usages humains : les comportements sont instables
Le besoin existe surtout dans les phases d’instabilité !!
Pourquoi utilise-t-on le datamining ?
En général, pour fonder une décision économique : Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)
La qualité de la décision est évaluée a posteriori
Qualité d’une décision
Faits
Risque Décision
Rentabilité ?
A priori : rationnelle
A posteriori : bonne ?
Notre définition du datamining
Dans le cadre d’une mission donnée, analyser les données détaillées pertinentes dont on dispose pour en déduire les actions les plus rationnelles, c’est-à-dire celles dont la rentabilité sera probablement la meilleure.
Motivations
Secteurs et applications
Télécommunications Banque, Finance,
Assurances Grande distribution, VPC,
eCommerce Industrie Tourisme, Loisirs Santé, Génétique Industrie pharmaceutique
Fidélisation clientèle (churn)
Cross-selling, up-selling Détection de fraudes Marketing direct Sécurité etc.
Pourquoi le datamining aujourd’hui ?
Environnement technique Plus de données disponibles (puissance des
ordinateurs) Développement de l’internet
Environnement économique Concurrence croissante (dérèglementation des
télécommunications) Personnalisation : développement du marketing
1-to-1
Cadre théorique
La démarche scientifique
Deux cadres mathématiques principaux Géométrie Probabilités
Ces deux cadres théoriques sont communs avec l’analyse de données …
Cadre géométrique
Principe Les données sont représentées dans un espace muni d’une métrique
Modélisation descriptive Les données sont regroupées en fonction de leur proximité Les conclusions sont tirées par l’observateur, sous sa responsabilité
Modélisation prédictive Les nouvelles situations sont identifiées aux situations passées les plus
proches
Outils mathématiques Espaces vectoriels Distance euclidienne Inertie Distances généralisées (dans d’autres espaces)
Cadre probabiliste
Principe Les données sont supposées issues d’une distribution jointe non observée La distribution est estimée à partir des données
Modélisation descriptive Les données sont résumées par la distribution estimée (dépendances et
indépendances) Modélisation prédictive
Les conséquences de nouvelles situations sont estimées en probabilité (P(Y|…))
Outils mathématiques Probabilités Théorie de l’estimation
Cadre théorique du datamining
Les techniques utilisées
Techniques utilisées en datamining
Plusieurs sources Analyse de données Probabilités / statistiques Théorie de l’information Intelligence artificielle Base de données Visualisation
Techniques utilisées
AD Analyse en composantes principales Analyse discriminante Classification ascendante hiérarchique
Intelligence artificielle Réseaux neuronaux, réseaux bayésiens
Probabilités, théorie de l’information Arbres de décision, réseaux bayésiens
Autres Règles d’association Filtrage collaboratif
Techniques d’analyse des données
Analyse en Composantes Principales Utilisée pour le prétraitement des données Peut être couplée avec des techniques de
segmentation et/ou classification Analyse discriminante
Utilisée pour le prétraitement des données Utilisée comme technique de classification
Réseaux neuronaux
Modélisation du fonctionnement du système nerveux (années 1950) Modèle du neurone Modèle du réseau Modèle de l’apprentissage
En pratique Technique de régression non linéaire Apprentissage = Minimisation d’erreur
Réseaux bayésiens
Gestion de l’incertitude dans les systèmes experts (diagnostic médical)
Couplage Théorie des graphes Théorie des probabilités (Bayes)
Utilisation Classification = Inférence P(Y|X) Modélisation descriptive = Apprentissage P(M|D)
Arbres de décision
La technique la plus classique du datamining Basée sur la théorie de l’information Minimisation itérative de l’entropie d’un ensemble
de données Avantages
Les modèles obtenus sont représentés sous forme de règles : Si Age>30 et Salaire>2000 alors Classe = 1
Très utile en marketing
Filtrage collaboratif
Hit parade
FI LTRAGE COLLABORATIF Individus qui ont vu les mêmes
programmes
Filtre
Hit parade
AUTRE FI LTRAGE Individus qui ont le même profil
(âge)
Pratique du datamining
Etapes du processus de datamining
Collecte des données Nettoyage des données Représentation des données Modélisation Evaluation Suivi et mesure de la dérive
1 - Collecte des données
Avec la suivante, l’étape la plus longue du processus : Sources et formats hétérogènes Jointure Volume Répétabilité
La valeur ajoutée est dans l’exhaustivité exemple : réclamations clients
2 – Nettoyage des données
Supprimer les valeurs aberrantes Connaissance a priori (Age = 220) Ecrêtage statistique
Traiter les valeurs manquantes : Moyenne, moyenne conditionnelle
3- Représentation des données
Objectif : Obtenir un tableau : Une ligne par observation, Une colonne par variable
Difficultés Variables
Agrégation (exemple : nombreux produits) Données temporelles Sélection
Individus Représentativité
4- Modélisation
Segmentation des bases Apprentissage, Test, Validation
Choix de la technique Fabrication du modèle En général 20% seulement du temps total
5 - Evaluation du modèle
Performances Précision (base d’apprentissage) Stabilité (base de validation) Critère économique (sur les deux bases)
Comparaison avec un modèle de référence
6 - Suivi et mesure de la dérive
Sources d’erreur Les modèles réalisés ne sont pas parfaits
(univers incomplets) Les relations changent dans le temps
Comment décider d’où vient l’erreur ? Définition de critères objectifs pour réviser le
modèle
Plan des séances suivantes
S2 : Rappels mathématiques Cadre géométrique Cadre probabiliste Mesures de performance
S3 : Segmentation K-means, CAH, Cartes topologiques
S4 : Association Market basket analysis, filtrage collaboratif, réseaux bayésiens
S5 : Classification Arbres de décision, réseaux bayésiens
S6 : Estimation Réseaux neuronaux
Contact
Cours (ppt et pdf)
www.elseware.fr/univevry Email
patrick.naim@elseware.fr
Recommended