Upload
ahmed-aniked
View
223
Download
0
Embed Size (px)
Citation preview
7/29/2019 Dm Hassan Badir
1/126
www.itech4you.com
ENSA
DataminingDes donnes la
connaissanceExtraction de connaissances
partir de donnes (ECD)
Un tour dhorizon
7/29/2019 Dm Hassan Badir
2/126
ALLO
Extrait dune conversation tlphonique (relle) :
All, monsieur Kamel? Je travaille pour X et nousdsirons rencontrer tous les habitants de votrerue (sic). Quand pouvons-nous vous rencontrerpour vous parler de nos offres en matire
dassurances ?
All
Le but de notre propos est de brosser par touches successives leportrait dune discipline nouvelle. Il sagit ainsi les avis courammentexprims par des utilisateurs et des fouilleurs de donnes , ainsique les avis de la littrature.
7/29/2019 Dm Hassan Badir
3/126
AvantproposSleon une tduede luvinersit de Cmabrigde, lodrre des
ltteresdans un mot na pas dipmrotncae, la suelecoshe ipmrotnate est que la pmeire et la dreniresoenit la bnone palce.
Le rsete puet rte dans un dsordre ttoal et vuos puoevztujoruors lrie snas porlbme.
Cestprace que le creaveu hmauin ne lit pas chuaqelterre elle mme, mais le mot cmome un tuot.
Cestdniuge, non?
7/29/2019 Dm Hassan Badir
4/126
Avantpropos
Ne restez pas indfiniment sur la route qui nemne qu des endroits connus, abandonnezparfois les sentiers battus et entrez dans la fort,vous dcouvrirez certainement quelque chose que
vous n'avez jamais vu, bien sur ce ne sera qu'unepetite chose, mais prtez y attention, suivez la,explorez la, une dcouverte en amnera une autre,et avant mme de vous rendre compte, vous aurez
mis a jour une ide intressante.
Alexander Graham Bell
7/29/2019 Dm Hassan Badir
5/126
Agenda
Prhistoire et Histoire
Dfinitions, concepts et enjeux
Apprentissage Supervis et non Supervis
CRM
Conclusion
Atelier 1
7/29/2019 Dm Hassan Badir
6/126
Dfinition
InformationDonnes Connaissance
Qu'est ce que le sens pour des donnesinformatiques?
Diffrence
7/29/2019 Dm Hassan Badir
7/126
Donnes Versus Information
La donne est del'information dshabille
de sa valeur potentiellepour un agent. La donne
est un fait alatoire.
L'information estl'habilit agir partirde ces faits alatoires.
I
formation
D
onnes
7/29/2019 Dm Hassan Badir
8/126
Quest ce que le Datamining ?
Dans Datamining il y a Data = Donnes
1. Ce qui est donn, connu, dtermin lavancedans lnonc dun problme, et qui sert dcouvrir ce qui est inconnu
2. Ce qui est admis, connu ou reconnu et qui sertde base un raisonnement de point de dpartpour une recherche ou une tude
Source: Le Petit Robert
Donnes Client: Tout ce quon est en mesure desavoir sur chaque client priori
7/29/2019 Dm Hassan Badir
9/126
Quest-ce que le Data Mining
La richesse des entreprises rside dans leurs clients(entreprises valorises sur la base de leur fichierclientle). client = ??? Euros
anticiper leurs besoins devient un objectif majeur (tt en
maitrisant les risques et en utilisant les bons canaux au bonmoment)
Pour y parvenir, la matrise de linformation, fournie par lesclients ou dtenue sur eux, est un lment primordial desuccs (CRM).
CRM (oprationnel, analytique et collaboratif).
7/29/2019 Dm Hassan Badir
10/126
Datamining :Concept
It is a process of discovering meaningful newcorrelations, patterns, trends by sifting throughlarge amounts of data stored in repositories, usingpattern recognition technologies, statistical andmathematical techniques
Gartner Group, 1995
Le datamining nest pas une technologie
Le datamining nest pas un outil informatique
7/29/2019 Dm Hassan Badir
11/126
Datamining
AU CUR DE LINTELLIGENCE ECONOMIQUE
(Business intelligence)
INDISPENSABLE AUX SYSTEMES DEVEILLE
Veillecommerciale
VeillestratgiqueVeille
technologiqueVeille
concurrentielle
7/29/2019 Dm Hassan Badir
12/126
Enjeu Entreprise du Datamining
La matrise de linformation et de la connaissance
permet de :
Tirer parti dun avantage concurrentiel (dcideravant le concurrent)
Raliser des conomies dchelles grce larutilisation des mthodes
Dployer les mthodes sur tous les domainesapplicatifs
Dvelopper les comptences, la capacit etlautonomie de rflexion et daction de lentreprise( dcider en temps rel)
7/29/2019 Dm Hassan Badir
13/126
Processus de datamining
Processus (ISO 9000-1) : Transformation ajoutantde la valeur et impliquant des personnes etdautres ressources
Lquation fondamentale :
Donnes + Processus = Information
Donnes Processus Information
7/29/2019 Dm Hassan Badir
14/126
Positionnement du datamining
Collecte
Datawarehouse
Interface S.I.
Datamining
Interface mtier
Managementdactivit
Actions
7/29/2019 Dm Hassan Badir
15/126
Objet du datamining
Un Processus permettant de : Dcrire une situation partir de donnes
connues
Comprendre la situation , cest dire identifierles faits et relations de causes effets en relation
avec la situation Modliser la situation , cest dire abstraire la
situation en ne retenant que les faits et relationspertinents pour une reprsentation de la situation
Prdire la situation partir des donnesnouvelles en utilisant le modle
Exploiter la connaissance acquise pour agir
7/29/2019 Dm Hassan Badir
16/126
Les composants du processus DataminingMthodes-Techniques
Slection par chantillonnage Arbres de dcision
Modlisation de donnes Prvision - Prdiction Rseaux neuronaux
Analyse linguistique Exploitation linguistique
Analyse exploratoire desdonnes, visualisation
Dtection dassociations
ou de dviations Analyses factorielles Classifications Etc.
Codification qualitative,puis datamining surdonnes qualitatives
Donnes en language naturel
Donnes quantitatives et qualitatives
7/29/2019 Dm Hassan Badir
17/126
Enjeu Entreprise du Datamining
J. Welsh
Knowledge is the only competitiveadvantage CEO General Electric
7/29/2019 Dm Hassan Badir
18/126
Datamining
2. Solution Dataminingpour le management de laConnaissance ClientPoints Cls
7/29/2019 Dm Hassan Badir
19/126
Enjeux conomiques de la ConnaissanceClient (C.K.M. )
LEnjeu de la Connaissance fine et dtaille des
clients est de crer, dvelopper, maintenir desrelations profitables pour lentreprise et pour sesclients au moyen de techniques de management delinformation client permettant de :
dtecter des niches marketing dterminer des profils de clients modliser le comportement des clients dtecter des besoins et services nouveaux dtecter des potentiels conomiques de clients dtecter et expliquer les risques dinfidlit
7/29/2019 Dm Hassan Badir
20/126
Enjeux conomiques de la ConnaissanceClient (C.K.M. ) suite
dtecter et expliquer les risques dimpays
dtecter et expliquer la QS perue par les clients dtecter les tendances des concurrents et des
marchs damliorer la QS fournie aux clients
damliorer la satisfaction des clients dtecter et expliquer la fraude ...
7/29/2019 Dm Hassan Badir
21/126
Le Datamining Client est un Processus deManagement de lInformation Client
Le datamining client est un processus demanagement des donnes client qui opre partirdes donnes lmentaires pour produire delinformation, de la connaissance en vue duneaction bien dtermine vis vis des clients
Le datamining nest pas un outil informatique
7/29/2019 Dm Hassan Badir
22/126
Exemples de Processus de Management delinformation Client
donnes marketing
datamining client
score de fidlit
connatre pour fidliser les clientsAction
Information
Processus
Donnes
lettres de rclamations
textmining client
thmes dinsatisfaction notoire
connatre pour amliorer la QS clientAction
Information
Processus
Donnes
7/29/2019 Dm Hassan Badir
23/126
Exemples de Processus de Management delInformation Client
donnes marketing
datamining client
score de risque client
connatre pour se prvenir desmauvais payeursAction
Information
Processus
Donnes
donnes de facturation
datamining client
score de risque de fraude
connatre pour se prvenir desfraudeursAction
Information
Processus
Donnes
7/29/2019 Dm Hassan Badir
24/126
Processus de Management de lInformation
Client/Action Client
Processus de Management de linformation
Client
ObjectifAction
Client
Analyser
linformationclient
Processus Marketing ou Support Client
7/29/2019 Dm Hassan Badir
25/126
La Matire Premire de lEntreprise : Les
Donnes ClientLInformation client est un Produit labor par un processus de
transformation itratif, interactif partir de donnes clientslmentaires mise en lumire au cours dvnements :
7/29/2019 Dm Hassan Badir
26/126
Exemple : Etude de la Fidlit des Clients
Objectif: Identifier les clientspotentiellement infidles selon leurpotentiel conomique et de mettre enplace des actions marketing adaptes
7/29/2019 Dm Hassan Badir
27/126
Objectif du Datamining associ
Modliser le comportement dinfidlit des clients
Estimer pour chaque client son risque dinfidlit
Re-segmenter les clients au regard des risquesencourus
7/29/2019 Dm Hassan Badir
28/126
Les donnes Client :Les donnes de la connaissance client - Les donnes de la concurrence
Donnes provenant de diffrentes sources Donnes Marketing Donnes du service client Donnes de facturation Donnes de sondages, panels, enqutes
Donnes de rclamations Donnes sur les concurrents
Toutes donnes permettant de connatre lesclients un un ainsi que leur
environnement
7/29/2019 Dm Hassan Badir
29/126
Ide Directrice de la Connaissance
Rsumer linformation client en deux
composantes: Un indicateur de risque dinfidlit par client
Un indicateur de potentiel conomique par client
Ind
icateur
de
valeur
co
nomique
Indice de fidlit
t
f
7/29/2019 Dm Hassan Badir
30/126
Processus de management de linformation
Client
Situation t
Slectionner lesdonnes
pertinenteset corrlatives
de lafidlisation
Situation t
Modlisationdes indices defidlit et de
valeurconomique
Situation t
valuationdes modles,
choixd un modle
Situation t
Calculerun indice
de fidlisationet indice de
valeurconomique
par client(scoring)
Situation t
Dterminer
les actions enfonction desindices defidlisationet de valeurdes clients
Situation t
Implmenterles actions
valuerles rsultatsPassage de la situation
linstant t la situation linstant (t+1)
P d t
7/29/2019 Dm Hassan Badir
31/126
Processus de managementde linformation Client
Six tapes cls:Etape 1Dtecter les variables dterminantesEtape 2Construire les modlesEtape 3valuer les modlesEtape 4Prdire les clients infidles selon leurvaleur conomiqueEtape 5Exploiter les modlesEtape 4valuer les rsultats des actions marketing
7/29/2019 Dm Hassan Badir
32/126
Exemple 2 : tude de Cas Telecom
1499 clients ayant rsili leur
contrat
4804 clients en cours de contrat
Echantillon d apprentissage 1000
clients (786 fidles; 214 infidles)
Echantillon de contrle : 2000
clients avec 3% d infidles
Les donnes
7/29/2019 Dm Hassan Badir
33/126
Exemple2
Objectif : Etude de la Q.S client au moyen des
lettres de rclamations
Text mining=Datamining appliqu des donnes textuelles
7/29/2019 Dm Hassan Badir
34/126
QS Client et Text mining
La QS Client est un processus de management des
clients, itratif, interactif sappuyant sur unprocessus de management des lettres derclamations des clients mettant en uvre destechniques de text mining client
Obj tif d T t i i i
7/29/2019 Dm Hassan Badir
35/126
Objectif du Text mining associ lAmlioration de la Q.S
Modliser le comportement de rclamation des
clients Dtecter les facteurs significatifs des rclamations
Estimer pour chaque client son risque de rclamant
Agir auprs des clients au regard des risquesencourus
Id Di t i d lA li ti d l Q S
7/29/2019 Dm Hassan Badir
36/126
Ide Directrice de lAmlioration de la Q.S.
Client
Modliser linformation rclamation client en deux
ensembles significatifs : Un ensemble de thmes significatifs par client
Un ensemble de mots cls significatifs par client
thmes
significatifs
Mots cls significatifs
t
7/29/2019 Dm Hassan Badir
37/126
Les Donnes Client de la QS
Donnes provenant de diffrentes sources Donnes Marketing Donnes du service client Donnes de facturation Donnes de sondages, panels, enqutes
Donnes de rclamations Etc.
Toutes donnes permettant de connatre les
clients un un ainsi que leur environnement
Process s de management de linformation
7/29/2019 Dm Hassan Badir
38/126
Processus de management de linformation
de la QS client
Situation t
Slectionner lesThmes
pertinentset corrlatifs
de laQS Client
Situation t
Modlisationdes Thmes etdes Mots cls
significatifsdes
rclamations
Situation t
valuationdu modle
Situation t
Prdire lesthmes en
fonction desMots cls
Situation t
Dterminer
les actions enfonction des
Thmesdinsatifaction
des clients
Situation t
Implmenterles actions
valuerles rsultatsPassage de la situation
linstant t la situation
linstant (t+1)
Processus de management
7/29/2019 Dm Hassan Badir
39/126
Processus de managementde linformation de la QS Client
Six tapes cls:Etape 1Dtecter les Thmes et les mots cls significatifs de la QSEtape 2Construire le modle de relation entre Thmes et Mots clspour la QS ClientEtape 3valuer le modle de relationEtape 4Prdire les Thmes clients selon leurs Mots cls significatifsEtape 5Exploiter le modle de QS ClientEtape 6valuer les rsultats des actions de QS
Processus de Management de linformation
7/29/2019 Dm Hassan Badir
40/126
Processus de Management de linformation
Oriente Dcision
EnjeuxDcisioninitiale
Donnesexistantes
Objectifs
Conception desdonnes
Conception destraitements
Universde la planificationDATA PLANING
PLAN
Collecte desdonnes
Contrledes donnes
ImportSaisie desdonnes
Gestiondes donnes Univers de la Gestion
DATAWAREHOUSING
DO
Tableaux de bordRapports
Analyse diffredes donnes
Analyse immdiatedes donnes
Accs auxdonnesUnivers de la Connaissance
CHECK
DATAMINING
Dcision
Plans dactions
Actions
ACTION
Univers de la dcision et de laction
DECISION - MAKING
7/29/2019 Dm Hassan Badir
41/126
Objectif du Datamining Client: Rappel
Customer Knowledge is theonly competitive advantage
7/29/2019 Dm Hassan Badir
42/126
Proposition dune dfinition
Dans le cadre dune mission donne, analyser les donnes dtaillespertinentesdont on dispose pour en dduire les actions les plusrationnelles, cest--dire dont la rentabilit sera probablement lameilleure.
Le data mining est un processus li un
objectif prcis de lentreprise
Dans la pratique, les donnes rellementdisponibles seront souvent le vrai facteur limitant
Partir du niveau de dtail le plus fin dont on disposemme si des agrgations seront ncessaires
La critre conomique permet en dfinitive demesurer la qualit des actions. Sil nest pas
accessible directement, des critres dgrads
seront utilises (ex: pages vues)
Lutilisation faite des connaissances permet
dvaluer les risques
La connaissance qui aura t extraite de lanalyse
des donnes conduit des actions concrtes
7/29/2019 Dm Hassan Badir
43/126
Pr-histoire
1875 : rgression linaire de Francis Galton
1896 : formule du coefficient de corrlation de Karl Pearson 1900: distribution du de Karl Pearson
1936 : analyse discriminante de Fisher et Mahalanobis
1941 : analyse factorielle des correspondances de Guttman
1943 : rseaux de neurones de Mc Culloch et Pitts 1944 : rgression logistique de Joseph Berkson
1958 : perceptron de Rosenblatt
1962 : analyse des correspondances de J.-P. Benzcri
1964 : arbre de dcision AID de J.P.Sonquist et J.-A.Morgan
1965 : mthode des centres mobiles de E. W. Forgy 1967 : mthode des k-means de Mac Queen
1972 : modle linaire gnralis de Nelder et Wedderburn
7/29/2019 Dm Hassan Badir
44/126
Histoire
1975 : algorithmes gntiques de Holland
1975 : mthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de dcision CHAID de KASS
1983 : rgression PLS de Herman et Svante Wold
1984 : arbre CART de Breiman, Friedman, Olshen, Stone
1986 : perceptron multicouches de Rumelhart et McClelland 1989 : rseaux de T. Kohonen (cartes auto-adaptatives)
vers1990 : apparition du concept de data mining
1993 : arbre C4.5 de J. Ross Quinlan
1996 : bagging (Breiman) et boosting (Freund-Shapire)
1998 : support vector machines de Vladimir Vapnik 2000 : rgression logistique PLS de Michel Tenenhaus
2001 : forts alatoires de L. Breiman
7/29/2019 Dm Hassan Badir
45/126
Quest-ce que le data mining
Processus inductif, itratif et interactif de
dcouverte dans les BD larges de modles dedonnes valides, nouveaux, utiles etcomprhensibles. Itratif: ncessite plusieurs passes
Interactif: lutilisateur est dans la boucle du processus Valides : valables dans le futur
Nouveaux : non prvisibles
Utiles: permettent lutilisateur de prendre des
dcisions Comprhensibles : prsentation simple
Schma dinfrence:
7/29/2019 Dm Hassan Badir
46/126
Abduction Dduction
Induction
La clio a 4 roues, La Peugeot106 a 4 roues, La BMW M3 a 4roues, La Mercedes 190 a 4 roues==> Toutes les voitures ont 4 roues
Toutes les voitures ont 4 roues
La Peugeot 206 a 4 roues==> La Peugeot 206 est une voiture
Toutes les voitures ont 4 roues
La Peugeot 206 est une voiture==> La Peugeot 206 a 4 roues
Schmasdinfrence
Schma d infrence:Notion dAbduction, Dduction et Induction
Cest le type de raisonnement le plus utilis et le
plus familier. Son atout majeur est quil ne laisse
pas de place au doute
Il faut cependant tre trs vigilant avec ce type de
raisonnement car il peut produire des rsultats aberrants ou
triviaux :
Toutes les voitures ont un moteur, lAirbus 320 a un
moteurlAirbus 320 est une voiture.
Raisonnement qui conclut partir de prmisses et
dhypothses la vrit dune proposition en usant des
rgles dinfrence
Cette technique est notamment utilise dans
les outils daide au diagnostic mdical pour
dcouvrir la maladie la plus probable depuisune liste de symptmes
Gnralisation dune
observation ou dunraisonnement tablis partir
de cas singuliers.
Utilise en Data mining (tirer
une conclusion partir d une
srie de faits, pas sre
100%)
7/29/2019 Dm Hassan Badir
47/126
Motivations (1)
Explosion des donnes Masse importante de donnes (millions de milliards
dinstances) : elle double tous les 20 mois.
BD trs larges - Very Large Databases (VLDB)
Donnes multi-dimensionnelles (milliers dattributs)
BD denses Inexploitables par les mthodes danalyse classiques
Collecte de masses importantes de donnes(Gbytes/heure)
Donnes satellitaires, gnomiques (micro-arrays, ),simulations scientifiques, etc.
Besoin de traitement en temps rel de ces donnes
7/29/2019 Dm Hassan Badir
48/126
Motivations (2)
Amliorer la productivit Forte pression due la concurrence du march
Brivet du cycle de vie des produits
Besoin de prendre des dcisions stratgiques efficaces
Exploiter le vcu (donnes historiques) pour prdire le
futur et anticiper le march individualisation des consommateurs (d-massification).
Croissance en puissance/cot des machinescapables
de supporter de gros volumes de donnes dexcuter le processus intensif dexploration
htrognit des supports de stockage
7/29/2019 Dm Hassan Badir
49/126
Motivations (3)
Masse importante de donnes supports htrognes
Le processus de dcouverte de
7/29/2019 Dm Hassan Badir
50/126
Le processus de dcouverte deconnaissances
Data mining : coeur de KDD (Knowledge Data Discovery).
Prparationdes donnes
Sourcede
donnes
Data
WarehouseCollecte
Nettoyage
Intgration
Donnesapprentissage
Datamining
Modles,Patterns
Vrification etEvaluation
7/29/2019 Dm Hassan Badir
51/126
Dmarche mthodologique (1)
Comprendre lapplication Connaissances a priori, objectifs, etc.
Slectionner un chantillon de donnes Choisir une mthode dchantillonnage
Nettoyage et transformation des donnes Supprimer le bruit : donnes superflues, marginales,
donnes manquantes, etc.
Effectuer une slection dattributs, rduire la dimension duproblme, etc.
Appliquer les techniques de fouille de donnes Choisir le bon algorithme
7/29/2019 Dm Hassan Badir
52/126
Dmarche mthodologique (2)
Visualiser, valuer et interprter les modles
dcouverts Analyser la connaissance (intrt)
Vrifier sa validit (sur le reste de la base de donnes)
Ritrer le processus si ncessaire
Grer la connaissance dcouverte La mettre la disposition des dcideurs
Lchanger avec dautres applications (systme expert,)
etc.
7/29/2019 Dm Hassan Badir
53/126
Data Mining et aide la dcision
Dcideur(s)
Analyste(s) de donnes
Administrateur deBases de donnes
Prsentation desconnaissancesTechniques de visualisation
DataMiningDcouverte deconnaissances
Exploration de donnes(Statistique, Requtes, )
Data Warehouses (OLAP, )
Sources de donnes(Papier, Fichiers, Fournisseurs dinformation, SGBD,
)
Potentiel de support
de dcision
Prisede dcisions
Utilisateur(s)
7/29/2019 Dm Hassan Badir
54/126
Objectifs
Dvelopper des techniques et systmes efficaces etextensibles pour lexploration de : BD larges et multi-dimensionnelles
Donnes distribues
Faciliter lutilisation des systmes de DM Limiter lintervention de lutilisateur
Reprsentation simple de la connaissance
Visualisation sous forme exploitable
C i li
7/29/2019 Dm Hassan Badir
55/126
Communauts impliques
Intelligence artificielle et apprentissage
Bases de donnes
Analyse de donnes (statistiques)
Visualisation
Recherche oprationnelle et optimisation Informatique parallle et distribue
Etc.
D i d li ti
7/29/2019 Dm Hassan Badir
56/126
Domaines dapplication
Prise de dcision
base sur denouvellesconnaissances
Ex., impact sur le
marketing Le rle et
limportance du KDDet DM est de plus en
plus important Mais le DM nest pas
seulement dans lemarketing...
D i d li ti
7/29/2019 Dm Hassan Badir
57/126
Domaines dapplication
Marketing direct : population cibler (ge, sexe,
profession, habitation, rgion, ) pour unpublipostage.
Gestion et analyse des marchs : Ex. Grandedistribution : profils des consommateurs, modle d
achat, effet des priodes de solde ou de publicit, panier de la mnagre
Dtection de fraudes : Tlcommunications, ...
Gestion de stocks : quand commander un produit,
quelle quantit demander, Analyse financire : maximiser l investissement de
portefeuilles d actions.
D i d li ti
7/29/2019 Dm Hassan Badir
58/126
Domaines dapplication
Gestion et analyse de risque : Assurances, Banques
(crdit accord ou non) Compagnies ariennes
Bioinformatique et Gnome : ADN mining,
Mdecine et pharmacie : Diagnostic : dcouvrir daprs les symptmes du
patient sa maladie
Choix du mdicament le plus appropri pour gurir unemaladie donn
Web mining, text mining: pour analyser les lettresde rclamation.
D i d li ti t %
7/29/2019 Dm Hassan Badir
59/126
Domaines dapplication et %
13% : La banque
9% : Les tlcommunications
9% : Le e-commerce
8% : La dtection des fraudes
8% : Les tudes scientifiques
7% : Le marketing direct
6% : Lassurance
6% : La distribution5% : La biologie
5% : Lindustrie pharmaceutique
E l 1 M k ti
7/29/2019 Dm Hassan Badir
60/126
Exemple 1 - Marketing
Vous tes gestionnaire marketing dun
oprateur de de tlcommunicationsmobiles : Les clients reoivent un tlphone gratuit
(valeur 150) avec un contrat dun an ; vous
payer une commission de vente de 250 parcontrat
Problme : Taux de renouvellement ( la findu contrat) est de 25%
Donner un nouveau tlphone toutepersonne ayant expirer son contrat cotecher.
Faire revenir un client aprs avoir quitterest difficile et coteux.
E l 1 M k ti
7/29/2019 Dm Hassan Badir
61/126
Exemple 1 - Marketing
Trois mois avant contrat
lexpiration du contrat, prdire lesles clients qui vont quitter:
Si vous voulez les garder, offrir unnouveau tlphone.
Yippee!Je reste !
E l 2 A
7/29/2019 Dm Hassan Badir
62/126
Exemple 2 - Assurances
Vous tes un agent dassurance
et vous devez dfinir unpaiement mensuel adapt unjeune de 18 ans qui a achetune Ferrari.
Quest ce quil faut faire ?
Oh,oui!Jaime maFerrari!
Exemple 2 Assurances
7/29/2019 Dm Hassan Badir
63/126
Exemple 2 - Assurances
Analyser les donnes de tous les
clients de la compagnie. La probabilit davoir un accident est
base sur ? Sexe du client (M/F) et lge
Modle de la voiture, ge, adresse, .... etc.
Si la probabilit davoir un accidentest suprieure la moyenne,
initialiser la mensualit suivant lesrisques.
Exemple 3: Bancaire
7/29/2019 Dm Hassan Badir
64/126
Exemple 3: Bancaire
compagnies bancaires
le scoring, pour mieux cibler les propositions de prts etviter les surendettements (et donc les mauvais payeurs).
Vous tes ltranger et quelquun a vol votre carte decrdit ou votre mobile :
Utiliser les donnes historiques pour construire un modlede comportement frauduleux et utiliser le data miningpour identifier des instances similaires.
Exemple4 Tlcom
7/29/2019 Dm Hassan Badir
65/126
Exemple4 Tlcom
compagnies tlphoniques
prdiction de lattrition (usure, churnen anglais), cest--dire le changement doprateur.
Analyser les patterns qui drivent du comportementattendu (destinataire, dure, etc.)
Exemple 5 Web mining et e commerce
7/29/2019 Dm Hassan Badir
66/126
Exemple 5 - Web mining et e-commerce
50% des clients dun constructeur de machine achtent ses
machines travers le web. Mais seulement 0,5% des visiteursdu site deviennent clients. Lide est de stocker lessquences de click des visiteurs et danalyser lescaractristiques des acheteurs pour adapter le contenu dusite.
Les logs des accs Web sont analyss pour Dcouvrir les prfrences des utilisateurs
Amliorer lorganisation du site Web
De manire similaire Lanalyse de tous les types dinformations sur les logs
Adaptation de linterface utilisateur/service
bonneexprience de surfing!
Paramtres dun processus KDD
7/29/2019 Dm Hassan Badir
67/126
Paramtres d un processus KDD
Format, Type ?
Donnes
dapprentissageData
Mining
Technique?
ModlesPaterns
Tche?
Type de reprsentation ?
Les donnes
7/29/2019 Dm Hassan Badir
68/126
Les donnes
Valeurs des champs des enregistrements des tables
de lentrept (base de donnes) Types :
Donnes discrtes : donnes binaires (sexe, ), donnesnumratives (couleur, ), numratives ordonnes
(rponses 1:trs satisfait, 2:satisfait, ). Donnes continues : donnes entires ou relles (ge,salaire, )
Dates
Donnes textuelles
Pages/liens web, Multimdia,
Les mthodes
7/29/2019 Dm Hassan Badir
69/126
Les mthodes
Nous ne prsentons que certaines mthodes qui
viennent complter les outils classiques que sont :les requtes SQL, les requtes analyse croise, lesoutils de visualisation, la statistique descriptive etl'analyse des donnes. Les mthodes choisies qui
seront dtailles dans les sections suivantes sont : un algorithme pour la segmentation, les rgles d'association, (Knime, Clementine, Tanagra)
les plus proches voisins (raisonnement partir de cas),
les arbres de dcision, (Knime, Tanagra, Weka)
les rseaux de neurones,
les algorithmes gntiques.
Il n'existe pas de mthode suprieure toutes les autres
( )
7/29/2019 Dm Hassan Badir
70/126
f(Donnes, Mthodes) Par consquent, tout jeu de donnes et tout
problme correspond une ou plusieurs mthodes.Le choix se fera en fonction de la tche rsoudre,
de la nature et de la disponibilit des donnes,
des connaissances et des comptences disponibles, de la finalit du modle construit. Pour cela, les critres
suivants sont importants : complexit de la construction dumodle, complexit de son utilisation, ses performances, saprennit, et, plus gnralement,
de l'environnement de l'entreprise.
Tches du Data Mining
7/29/2019 Dm Hassan Badir
71/126
Tches du Data Mining
Classification
Clustering (Segmentation)
Recherche dassociations
Recherche de squences
Dtection de dviation
La classification (clustering)
Lestimation
La prdiction
Le groupement par similitudes
Analyse des clusters
Les tches du DM
La description
Classification
7/29/2019 Dm Hassan Badir
72/126
Classification
Elle permet de prdire si une instance de donne
est membre dun groupe ou dune classeprdfinie.
Classes Groupes dinstances avec des profils particuliers
Apprentissage supervis : classes connues lavance Applications : marketing direct (profils des consommateurs),
grande distribution (classement des clients), mdecine(malades/non malades), etc.
Exemple : les acheteurs de voitures de sport sont de jeunes
citadins ayant un revenu important
Encore Classification
7/29/2019 Dm Hassan Badir
73/126
Encore Classification
Consiste examiner les caractristiques d'un objet
et lui attribuer une classe, la classe est un champparticulier valeurs discrtes. Des exemples detche de classification sont : attribuer ou non un prt un client,
tablir un diagnostic, accepter ou refuser un retrait dans un distributeur,
attribuer un sujet principal un article de presse, ...
Estimation
7/29/2019 Dm Hassan Badir
74/126
Estimation
consiste estimer la valeur d'un champ partir des
caractristiques d'un objet. Le champ estimer estun champ valeurs continues. L'estimation peuttre utilise dans un but de classification. Il suffitd'attribuer une classe particulire pour un
intervalle de valeurs du champ estim. Desexemples de tche d'estimation sont : noter un candidat un prt ; cette estimation peut tre
utilise pour attribuer un prt (classification), par exemple,en fixant un seuil d'attribution,
estimer les revenus d'un client.
Prdiction
7/29/2019 Dm Hassan Badir
75/126
Prdiction
consiste estimer une valeur future. En gnral,
les valeurs connues sont historises. On cherche prdire la valeur future d'un champ. Cette tcheest proche des prcdentes. Les mthodes declassification et d'estimation peuvent tre utilises
en prdiction. Des exemples de tche de prdictionsont : prdire les valeurs futures d'actions,
prdire au vu de leurs actions passes les dparts de clients.
Clustering (Segmentation)
7/29/2019 Dm Hassan Badir
76/126
Clustering (Segmentation)
Partitionnement logique de la base de donnes en
clusters Clusters : groupes dinstances ayant les mmes
caractristiques
Apprentissage non supervis (classes inconnues)
Pb : interprtation des clusters identifis Applications : Economie (segmentation de marchs),
mdecine (localisation de tumeurs dans le cerveau),etc.
Rgles dassociation
7/29/2019 Dm Hassan Badir
77/126
Rgles d association
Corrlations (ou relations) entre attributs (mthode
non supervise) Applications : grande distribution, gestion des
stocks, web (pages visites), etc.
Exemple
BD commerciale : panier de la mnagre Articles figurant dans le mme ticket de caisse
Ex : achat de riz + boisson==> achat de poisson
Le client qui achte de la peinture achte un pinceau
Le client qui achte un tlviseur achte un magntoscopesous 5 ans.
Les tches du DM: LEstimation
7/29/2019 Dm Hassan Badir
78/126
Les tches du DM: L Estimation
La classification se rfre des vnements
discrets Lestimation se rfre des valeurs continues.
Estimer une valeur continue qui dcrit un objetrevient classer cet objet dans un ensemble
partitionn en un nombre infini de classes. Exemple :
la dure de vie d un client
la probabilit de rponse un mailing
Les tches du DM: La prdiction
7/29/2019 Dm Hassan Badir
79/126
Les tches du DM: La prdiction
La prdiction est assimilable au classement ou
lestimation mais les objets sont classs en fonctiond un comportement futur prdit
On ne peut vrifier la prcision de la classificationou de lestimation quaprs coup
Exemple Prdiction des clients qui vont disparatre dans les six mois.
Prdiction dun volume de vente dun produit dans les moisqui suivent.
Les tches du DM :L t i ilit d
7/29/2019 Dm Hassan Badir
80/126
Le groupement par similitudes
Il sagit de regrouper des objets qui vont
naturellement ensemble pour dfinir des rglesd association
Exemples : Dans un supermarch, dterminer les choses qui se
retrouvent dans un mme caddie Dans une base de donnes de cinphiles, trouver les
associations entre les films
Les tches du DM :L l d l t
7/29/2019 Dm Hassan Badir
81/126
Lanalyse de clusters
Lanalyse de clusters permet de dcouper
postriori un population htrogne en classeshomognes
La signification des clusters forms par la mthodeest dcouvrir par ailleurs.
Exemples : En fonction de critres d achats dune voiture, faire une
segmentation des acheteurs
En fonction des notes obtenues dans les diffrentes matires,faire une segmentation des tudiants
Les tches du DM :L d i ti
7/29/2019 Dm Hassan Badir
82/126
La description
Il sagit de dcrire les donnes pour essayer de
dcouvrir et de comprendre le processus qui est lorigine de ces donnes
Il sagit souvent du dmarrage dune tude o on apeu de connaissances sur le phnomne tudi.
Cette description permet denchaner sur une ouplusieurs des tches prcdentes.
7/29/2019 Dm Hassan Badir
83/126
Data mininget CRM
Rappel : Gestion de la relation client
7/29/2019 Dm Hassan Badir
84/126
appe Gest o de a e at o c e t
La richesse des entreprises : leurs clients
Objectifs des entreprises : augmenter la rentabilit et la fidlit de leurs clients
en matrisant les risques
en utilisant les bons canaux au bon moment pour vendre le
bon produit Un des moyens dy parvenir :
la Gestion de la Relation Client (GRC)
synonyme : Customer Relationship Management (CRM)
2 lments : CRM analytique, CRM oprationnel
Une matire 1re prcieuse : les donnes sur lesclients
CRM analytique et oprationnel
7/29/2019 Dm Hassan Badir
85/126
y q p
gestion des canauxcollecte desinformations
clients
gestion descampagnes
analyse desinformations
clients
CRM ANALYTIQUERM OPERATIONNEL
Le CRM oprationnel
7/29/2019 Dm Hassan Badir
86/126
p
Objectif
mise en uvre optimale des stratgies identifiesgrce au CRM analytique
Moyens gestion des diffrents canaux
forces commerciales, centres dappels tlphoniques,serveurs vocaux, Minitel, centres dappel web, bornesinteractives, tlphonie mobile, TV interactive
gestion des campagnes marketing
Composants outils interfacs avec les applications de back-office,
les progiciels de gestion intgre (ERP), les outils deworkflow, de gestion des agendas et des alertescommerciales
Le CRM analytique
7/29/2019 Dm Hassan Badir
87/126
y q
Objectif
fournir une vision complte et unifie du client danslentreprise et mieux comprendre son profil et ses besoins
Moyens extraction, stockage, analyse et restitution des informations
pertinentes
Composants data warehouse
data mart
analyse multidimensionnelle (OLAP)
data mining
outils de reporting
Ce que lon veut savoir
7/29/2019 Dm Hassan Badir
88/126
q
On ne veut plus seulement savoir :
Combien de clients ont achet tel produit pendant tellepriode ?
Mais :
Quel est leur profil ? Quels autres produits les intresseront ?
Quand seront-ils intresss ?
Data mining statistiques descriptives
7/29/2019 Dm Hassan Badir
89/126
g q p
Les profils de clientle dcouvrir sont en gnral des
profils complexes : pas seulement des oppositions jeunes/seniors , citadins/ruraux que lon pourraitdeviner en ttonnant par des statistiques descriptives,mais des combinaisons plus complexes qui ne pourraientpas tre dcouvertes par hasard.
Le data mining fait passer danalyses confirmatoires
des analyses exploratoires.
Utilit du data mining
7/29/2019 Dm Hassan Badir
90/126
g
Mieux connatre le client
pour mieux le servir
pour augmenter sa satisfaction
pour augmenter sa fidlit
(+ coteux dacqurir un client que le conserver)
La connaissance du client est encore plus utile dansle secteur tertiaire : les produits se ressemblent entre tablissements
le prix nest pas toujours dterminant ce sont surtout le service et la relation avec le client qui font
la diffrence
Applications du data mining au CRM
7/29/2019 Dm Hassan Badir
91/126
pp g
tudes dapptence dans les socits commerciales
pour concentrer les mailings et le phoning sur les clients lesplus susceptibles de rpondre favorablement
Prdiction de lattrition dans la tlphonie mobile attrition = dpart dun client pour un concurrent
Analyse du ticket de caisse dans les grandessurfaces pour dterminer les produits souvent achets
simultanment, et agencer les rayons et organiser lespromotions en consquence
Lapptence exprime le dsir dusage ou dachat ressenti par lindividu pour un produit ou une
marque. Elle peut tre notamment mesure par des questions relatives aux intentions dachats. Il
est galement possible de dfinir un score dapptence en appliquant une mthode de scoring
un fichier qualifi. Ce score dapptence traduit une probabilit dachat plus ou moins forte.
Marketing one-to-one
7/29/2019 Dm Hassan Badir
92/126
g
Marketing traditionnel Marketing 1:1
Client anonyme Client individualis
Produit standard Produit et service personnaliss
Production en srie Production sur mesure
Publicit large diffusion Message individuel
Communication unilatrale Communication interactive
Ralisation dune vente, fort taux de
souscription
Fidlisation du client, faible taux dattrition
Part de march Part de client
Large cible Niche rentable
Segmentation mtier Segmentation statistique
Canaux de distribution traditionnels,
dconnects
Nouveaux canaux (plates-formes tlphoniques,
Internet, mobiles), interconnects
Marketing orient produit Marketing orient client
Conclusion
7/29/2019 Dm Hassan Badir
93/126
12.4%Je nai pas tropcompris 10.6%
Jtais absent
55%Jattends la suitepour comprendre
22%Jai compris etjattends la suitepour confirmer
7/29/2019 Dm Hassan Badir
94/126
www.itech4you.com
ENSA
Lanalyse des paniers dela mnagre ou(market basket analysis)Dcouverte de rglesdassociation
Agenda
7/29/2019 Dm Hassan Badir
95/126
g
Dfinitions et Concepts
Motifs Frquents et Algorithme Apriori
Illustration
Exercice
Atelier 2 Generation des rgles dassociation
Analyse du panier de la mnagre APM
7/29/2019 Dm Hassan Badir
96/126
Appele galement recherche d'associations, l'analyse du panier de lamnagre (APM) est un processus de dcouverte de connaissances non
dirige. Cette technique permet, comme l'indique son nom, d'tudier quelsarticles ont tendance tre achets ensembles et lesquels seront le mieuxadapts pour mettre en uvre des techniques commerciales. Bien qu'ellesoit issue du secteur de la distribution, on peut nanmoins appliquer cettetechnique ds lors que plusieurs actions sont effectues par un mmeindividu. Le systme gnre des rgles d'association de forme "Si action1 ou
condition alors action2". Elles peuvent se situer dans le temps : "Si action1ou condition l'instant t1 alors action2 l'instant t2". Enfin elles sontassorties d'une mtrique de confiance. Exemples de rgles:
Si achat de riz et de coca, alors achat de poisson (84%)
Si maladie X et traitement Y alors gurison (97%)
Si maladie X et traitement Y alors gurison dans Z annes (97%)
Si achat de tlviseur alors achat de magntoscope dans les 5 ans (45%) Si condition1 et condition2 alors fraudeur (62%)
Si prsence et travail alors russite l'examen (99,9%)
Illustration
7/29/2019 Dm Hassan Badir
97/126
Exemple
Un complexe cinmatographique a dcid de fidliser sonpublic en lanant la carte d'abonnement au cinma dit 'illimit'.
Les films vus par chaque cinphile sont enregistrs dans une
base de donnes a chaque fois que le client se prsente au
guichet. Elle est exploite par la suite pour comprendre les
attitudes de consommation du cinma, les types de filmsles plus prises par le public, les heures auxquelles les gens
prfrent venir voir un film, etc.
Illustration
7/29/2019 Dm Hassan Badir
98/126
La table D est un extrait (fictif) et donne pour chaque
cinphile identifi par un numro tid, l'ensemble des filmsqu'il a vus durant le mois courant. Les films concerns sontdonns dans la table T. Par exemple la ligne d'identificateurtid=1 de D concerne un client ayant vu dans le mois les deuxfilms suivants : Harry Potter et Star Wars II .
Reprsentation d'une base transactionnelle
7/29/2019 Dm Hassan Badir
99/126
Une base de donnes transactionnelle peut tre
reprsente sous forme horizontale, verticale ouboolenne.
Dfinitions
7/29/2019 Dm Hassan Badir
100/126
Frquence:
La frquence d'un itemsetX, note freq(X), est le nombre detransactions de D contenant X :
Exemple Dans l'exemple prcdent, on afreq(ab)= 2, vu que l'itemset ab
apparat dans les transactions 1 et 5 deD.
Support: Le support d'un itemsetX, note supp(X) est la proportion de
transactions de D contenant X :
Le support prend sa valeur dans l'intervalle [0,1].
Exemple On a supp(ab)= 0.4(= 40%) vu que l'itemsetab apparat dans deux
transactions parmi 5 de D.
Dfinitions
7/29/2019 Dm Hassan Badir
101/126
Itemset frequent
Etant donne un seuil , appel support minimum, un itemsetX est dit frquent (relativement a ) dans une base detransactions D, si son support dpasse un seuil fix a prioriappel support minimum et note .
X est frquent ssi supp(X)
Exemple Dans l'exemple prcdent, pour un support de = 40%,
l'itemsetcdde support gal a 3/5 = 60% est frquent.
ItemSet On appelle itemset tout sous-ensemble d'items de I.
Un itemset constitue de k items sera appel un k-itemset. Poursimplfier, on crira un itemset sans les accolades et sans lesvirgules sparant les lments de l'ensemble.
Litemset {a, b, c} est un 3-itemset not abc.
Proprit
7/29/2019 Dm Hassan Badir
102/126
Proprit d'antimonotonicit:
Tout sous-ensemble d'un itemset frquent est un itemsetfrquent.
Treillis
7/29/2019 Dm Hassan Badir
103/126
Un ensemble ordonne(T, ) est un treillis sitoute paire dlmentsde T possde uneborne inferieure et uneborne suprieure. Ondsignera par la suitela borne inferieure dela paire (x,y) par (x ^ y)et la borne suprieurepar (x V y).
suite
7/29/2019 Dm Hassan Badir
104/126
1 2 3 4 5
12 13 14 15 23 24 25 34 35 45
123 124 125 134 135 145 234 235 245 345
1234 1235 1245 1345 2345
12345Espace de recherche
Algorithme Apriori
7/29/2019 Dm Hassan Badir
105/126
Le premier algorithme dextraction de rgles dassociation
dans les bases de donnes transactionnelles. Le problme consiste gnrer toutes les rgles
dassociation solides liant les itemsets frquents entre eux.
Apriori se base essentiellement sur la proprit
d'antimonotonicit existant entre les itemsets. En effet, cetteproprit est utilise a chaque itration de l'algorithmeApriori afin de diminuer le nombre d'itemsets candidats considrer. Afin d'optimiser la gnration d'itemsetscandidats et le calcul de leurs supports, on suppose dans
Apriori que les itemsets sont ordonns par ordrelexicographiqueAgrawal (R.) et Srikant (R.). Fast Algorithms for Mining Association Rules . In : Proc.
20th Int. Conf. Very Large Data Bases, VLDB, ed. par Bocca (Jorge B.), Jarke (Matthias) etZaniolo (Carlo). pp. 487-499. Morgan Kaufmann, 1994.
Extraction de motifs frquents
7/29/2019 Dm Hassan Badir
106/126
Lalgorithme utilise une approche itrative par niveaux pour
gnrer les itemsets frquents.
Pour cela, le treillis des itemsets est explore en largeurd'abord. Apriori effectue chaque itration k, un passagedans la base de transactions afin de calculer le support dechaque k-itemset.
l'ensemble des k-itemsets candidats (i.e. dont on ne connatpas encore le support dans D) sera dnot parCk etlensemble des k-itemsets frquents de taille k parFk.
Extraction de motifs frquentsAlgorithme Apriori
7/29/2019 Dm Hassan Badir
107/126
Algorithme Apriori
Agrawal (R.) et Srikant (R.). Fast Algorithms for Mining Association Rules. In : Proc. 20th Int. Conf. Very LargeData Bases, VLDB, ed. par Bocca (Jorge B.), Jarke (Matthias) et Zaniolo (Carlo). pp. 487{499. { Morgan Kaufmann,
1994.
Algorithme Apriori
7/29/2019 Dm Hassan Badir
108/126
Illustrations de Apriori
7/29/2019 Dm Hassan Badir
109/126
L'exemple ci-dessous montre le processus d'extraction des itemsetsfrquents sur la base de transactions D pour un support = 0.4correspondant 2 transactions. A la premire itration de l'algorithme,chaque item de T est un 1-itemset de C1. Un premier parcours de Dpermet de trouver le support de chaque 1-itemset. Tous les 1-itemsetsfrquents, i.e. de support suprieur ou gal 0.4 seront gards dans F1.Afin de dcouvrir les 2-itemsets frquents, Apriori effectue dans laseconde itration une jointure de F1 et F1 pour trouver l'ensemble C2des candidats de taille 2. Seuls les 2-candidats n'ayant pas de sous-ensembles peu frquents sont gards. Un second parcours de D est alorseffectu pour dterminer le support de chacun des 2-itemsets candidats,seuls les 2-itemsets frquents sont gards dans F2. Ainsi l'itemset adn'ayant pas de support suffisant est supprim. Les 3-itemsets sontobtenus en combinant les itemsets de F2 deux deux, i.e. par jointureF2 et F2. Seuls les 2-itemsets ayant le mme prfixe de taille 1 sontgnrs.
Par exemple les 2-itemsets ab et ac forment le candidat abc. On s'assuregalement que les candidats gnrs n'ont pas de sous-ensembles peufrquents. Un troisime parcours de D est alors effectue pourdterminer les 3-itemsets frquents. De nouveau, on effectue la
jointure de F3 et F3 pour trouver l'ensemble C4 des candidats de taille' ' Illustrations de Apriori
7/29/2019 Dm Hassan Badir
110/126
K = 1
Illustrations de Apriori
7/29/2019 Dm Hassan Badir
111/126
K = 2
K = 3
< 0,4
< 0,4
Exercice
7/29/2019 Dm Hassan Badir
112/126
D
tid Transaction
1 BM LO MO ND
2 BM LO MO ND
3 BM LO MO ND TE
4 BM ND TE
5 BM LO MO ND TE
6 CP LO ND
7 ND
8 LO ND
9 LO ND
10 BM CP LO MO ND
La figure reprsente le rsultat dunsondage fictif ralis auprs detouristes trangers en visite Paris.Les objets correspondent destouristes anonymes (Ti) et lesattributs reprsentent les lieuxvisits : les bateaux mouches (BM),
le centre Pompidou (CP), le musedu Louvre (LO), le muse dOrsay(MO), la cathdrale Notre Dame(ND) et la tour Eiffel (TE).
1- Reprsenter les donnes sous forme horizontale, verticale etboolenne.
2- Donner les motifs frquents avec un support de = 40%.
7/29/2019 Dm Hassan Badir
113/126
Rgles dassociation
Encore les motifs frquents
7/29/2019 Dm Hassan Badir
114/126
les motifs frquents apportent une information simple, mais
trs incomplte. En particulier, si AB est un items frquent,l'expert n'a aucune informationsur d'ventuels lienslogiques entre A et B. Les occurrences de A sont-ellessouvent associes aux occurrences de B ? L'inverse ?
Imaginons que AB et B soient vrais dans 60%des cas, maisque A le soitdans 80%. De toute vidence, B semble avoirune influence sur A dans la mesureou ds que B est vrai, Al'est aussi. Par contre l'inverse est plutt incertain. En
outre, on ne sait rien de ce qu'il se passe lorsque A et B sont
faux...
Rgles dassociation
7/29/2019 Dm Hassan Badir
115/126
Des exemples de rgles d'association dans le
monde des affaires ou de la recherche sont: tudier la proportion d'abonns d'une compagnie de
tlphonie mobile qui rpondent positivement une offred'upgrade de leur abonnement;
examiner la proportion d'enfants qui sont bons lecteurs etdont les parents lisent beaucoup;
prdire la dgradation de la qualit de rception d'un rseaude tlcommunication ;
trouver les articles dans un supermarch qui sont achets
ensemble, et ceux qui ne sont l'inverse jamais achetsensemble;
dterminer la proportion de cas pour lesquels un mdicamentpeut avoir un effet indsirable.
Rgles dassociation
7/29/2019 Dm Hassan Badir
116/126
Les rgles d'association prennent la forme si
antcdent, alors consquence associes avec unemesure du supportet du seuil de confiancede largle
Par exemple, un supermarch peut constater quesur mille clients qui font les courses le vendredisoir, deux cents ont achet des PC et parmi ceux-ci, cinquante ont achet des imprimantes. La rgle
d'association serait si on achte des PC, alors onachte des imprimantes avec un support de50/1000 = 5 % et un seuil de confiance de 50/200= 25 %.
Dfinitions
7/29/2019 Dm Hassan Badir
117/126
Rgle d'association
Soit X, un itemset et A un sous-ensemble de X. Une rgled'association est une rgle de la forme AX-A, exprimant le faitque les items de A tendent apparatre avec ceux de X-A.
A s'appelle l'antcdent de la rgle et X-A not C le consquent dela rgle.
Exemple La rgle d'association a b exprime le fait que les cinphiles ayant
vu tendent aussi voir .
Dfinitions
7/29/2019 Dm Hassan Badir
118/126
Confiance
La confiance d'une rgle d'association A C, note conf(A C)reprsente la proportion de transactions couvrant A qui couvrentaussi C.
On peut crire aussi :
Conf(AC) = |t(A C)|/|t(A)|
Remarque : 0 conf(AC) 1.
Dfinitions
7/29/2019 Dm Hassan Badir
119/126
Rgle d'association solide
Une rgle d'association A C est dite solidesi tant donn unsupport minimum, l'itemsetA C estfrquentet si sa confiancedpasse un seuil donn, fix a priori, appel le seuil de confianceminimumnot .
A C est solide ssi supp(A C) et conf(AC)
Exemple Si on prend = 60% et = 40%, la rgle d'association c d est
considre comme une rgle solide car sa confiance, gale 75%,
dpasse le seuil de confiance minimum
= 60% et son support de60% dpasse le support minimum de 40%.
Gnration des rgles dassociation
7/29/2019 Dm Hassan Badir
120/126
Pour gnrer les rgles d'association, on considre
l'ensemble F des itemsets frquents trouvs en phaseprcdente. Pour chaque itemset frquent l, onconsidre tous ses sous ensembles (tous frquentsd'aprs la proprit d'antimonotonicit). A partir deces sous ensembles frquents, on gnre toutes les
rgles solides de la forme gnrale suivante : (l - C) C
Remarque:
La gnration de rgles d'association est beaucoup moinscoteuse que la gnration des itemsets frquents, car il n'estplus ncessaire de faire des parcours coteux de la base detransactions.
Rgles dassociation
7/29/2019 Dm Hassan Badir
121/126
LARECHERCHEDESREGLESDASSOCIATIONSLa recherche de rgles d'association dans un grandensemble de donnes est un processus en deux tapes :
1. Trouver tous les ensembles d'articles frquents : en fait tousles ensembles avec une frquence d'articles suprieure lamoyenne.
2. partir des ensembles d'articles frquents, gnrer des rglesd'association qui satisfassent les conditions de support et deseuil de confiance minimum
Algorithme Apriori : Gnration des RA
7/29/2019 Dm Hassan Badir
122/126
Algorithme Apriori : Gnration des RA
7/29/2019 Dm Hassan Badir
123/126
Illustration
7/29/2019 Dm Hassan Badir
124/126
Reprenons l'exemple prcdent, les tableaux suivants
montrent les rgles d'association gnres pour uneconfiance minimum = 60%.
Les rgles d'association sont gnres en considrantd'abord les itemsetsfrquents de taille 2, puis ceux de
taille 3, etc. Les itemsetsfrquents de taille 2, F2 ontpermis de gnrer les rgles d'association du tableau1.Dans ce cas la procdure Gen-Regle n'est pas appelevu qu'on ne peut avoir plus d'un item en consquencedes rgles d'association.
Les itemsets frquents de taille 3, F3, a savoir l'uniqueitemsetbcd a permis de gnrer les rglesd'association, d'abord avec un consquent a un itemfigurant dans le tableau 2. Les consquences de taille
d'un item trouves ayant constitue des rgles solides
Illustration
7/29/2019 Dm Hassan Badir
125/126
tableau 1
Supp(ab)/supp(a)
Rgles d'association 2 itemset 1 itemcomme consquence
Illustration
7/29/2019 Dm Hassan Badir
126/126
Rgles d'association 3 itemset 1 itemcomme
consquence
Rgles d'association 3 itemset 2 itemscommeconsquence
tableau 2