Introduction à la modélisation prédictive avec la:

  • View
    37

  • Download
    0

Embed Size (px)

DESCRIPTION

Introduction la modlisation prdictive avec la:. Frank Vanden Berghen http://www.business-insight.com. Partie 1:. Contexte. Objectifs dun partenariat Teradata / Business-Insight. Pour Business-Insight: Vente de licences logicielles de la TIMi Suite - PowerPoint PPT Presentation

Transcript

Slide 1

Introduction la modlisation prdictive avec la:Frank Vanden Berghen

http://www.business-insight.com

Partie 1:ContextePour Business-Insight:Vente de licences logicielles de la TIMi SuiteAugmenter la base dutilisateurs de la TIMi SuiteA longue chance: intgration de TIMi dans Teradata pour viter de lentes extractions avant toute modlisationNous ne dsirons pas intervenir en tant que consultants (notre objectif est le dveloppement logiciel et non la consultance).

Pour Teradata:Capacit intervenir sur des projets analytiques de scoring/modlisation avec rapidit, efficacit et performance.Pas de limitations sur le nombre de variables (Cd pas de goulot dtranglement en fin de prparation des donnes qui rend inutile le fait de pouvoir manipuler de le large volume de donne).Concentrer les projets sur la cration de variables et la gnration de large volumes de donnes valeurs ajoutes.Possibilit de dployer le scoring directement en SQL Teradata

Objectifs dun partenariat Teradata / Business-InsightQui sommes nous?Fonde en janvier 2007 par Frank Vanden Berghen & Jrome LoncelleHQ localis Bruxelles en BelgiqueMissionImplmentation de Solutions Analytiques Prdictives AutomatisesCration doutils de datamining prdictifs de seconde gnration To boldly go where no dataminer has gone before!

6 personnes au HQ (3 dveloppeurs, 1 sales, 1 CEO, 1 admin.)Actif en Europe (Belgique), Angleterre (Londres), Russie (Moscou), tats-Unis (Chicago), Malaysie (Kuala Lumpur)

Quelques Rfrences

Optimisation Marketing laide de techniques prdictivesLes usages typiques de lAnalyse Prdictive sont:

Churn Prevention: Comment retenir mes clients? Comment les empcher daller la concurrence?

Cross-Selling: Quel produits proposer quels clients? (next-to-buy, next-best-offer, etc.)

Up-Selling: Comment inciter nos clients consommer plus des produits quils ont dj?La offre :

Partie 2:Introduction aux techniques prdictivesModles Prdictifs: Performance 1/3

Modles Prdictifs: Performance 2/3 : Rsum sur les graphique de la Lift

Pourcentage de cibles touchesProbabilitProbabilit dachatPerformance de la slection parfaite Performance de la slection TIMi Performance de la slection alatoireAucune Cible touche100% des Cibles touches0% de la population slectionne100% de la population slectionne

Modles Prdictifs: Performance 3/3 : Quelques exemples typiques de Lift:

Lift curves0%10%20%30%40%50%60%70%80%90%100%0%10%20%30%40%50%60%70%80%90%100%pourcentage de foyer ciblPourcentage de Potentiel CouvertSlection AlatoireModle ParfaitTIMi ModelAncien modleCurrentmodelTIMi modelLa banque avait dj un modle en production.La lift de ce modle est reprsente en brun dans le graphique ci-dessus.La lift 10% pour lancien modle de la Banque Franaise est 15%. Cette slection est donc 1.5 fois meilleure que la slection alatoire.La lift 10% du nouveau modle fait avec TIMi est 62%. Nous avons une slection qui est 6.2 fois meilleure que la slection alatoire.Story 1 : modle pour une banque franaise 1/2valuation du ROI supplmentaire gnr par TIM

Hypothses Taille de la campagne marketing (La population qui sera contacte = 10% de la population globale)180,000Cot de contact (par contact) 0.75Cout de dmarrage de la campagne (cots-de-contact) 135,000= 180,000*0.75Marge sur le produit par anne (pour chaque vente) 300Taux de conversion pour la slection alatoire (qui est estim grce aux campagnes passes)1%Nombre absolu de conversion (cd de ventes) pour une slection alatoire pour cette campagne1,800=180,000 * 1%Valeur ajoute du modle de cross-selling TIMiActuelTIMLa Lift 10% (cd: La lift est combien de fois suprieure la slection alatoire 10%) (Veuillez vous rfrer au slide prcdent)1.56.2Nombre absolu de conversion attendue2,70011,160=6.2*1800ROI estim de la campagne 810,000 3,348,000=11,160*300ROI estim de la campagne en incluant les (cots-de-contact) 675,000 3,213,000=3,348,000-135,000Diffrence de ROI en faveur du modle TIMi: +2,538,000=3,213,000-675,000Diffrence en terme de clients acquis+8,460=11,160-2,700Story 1 : modle pour une banque franaise 2/2valuation du ROI supplmentaire gnr par TIM

SAS: 70%SPSS: 77%TIMi : 99%Extrait dun benchmark effectu par pour le compte dune petite banque belge, dans le but de slectionner la meilleure solution de datamining: Story 2: Modles prdictifs robustes et de haute performanceCes rsultats parlent deux-mmes. La seule diffrence entre ces 3 rsultats est le logiciel et le temps de calcul (en moyenne TIMi est de 10 100x plus rapide que tout autre solution).

Partie 3: Dmonstration en Live Dmonstration en LiveTelco: Churn: Mobistar (Orange in Belgium)Bank: ABN-AMRO (Hollande)PAKDD 2010Retail: Delhaize

Partie 4:

Prparation des donnes:

Caractristiques principales dePossibilit de manipulation de base de donnes trs volumineuses (aucune limitation en nombre de colonnes (unique) et en nombre de lignes).

Environnement intgr de dveloppement de transformation (IDE) convivial bas sur une technologie hybride: approche graphique laide de boites: trs intuitive approche base de script Javascript: trs versatile.

99% des transformations dAnatella fonctionnent sans dfinir aucun Meta-Data (unique). Cela permet la migration trs rapide de transformation de donnes pr-existantes dun environnement un autre (par exemple: de lenvironnement dexploration/cration des modles prdictifs vers lenvironnement de production).

100% Unicode

Aisment extensible: Gestion de version des nouveaux scripts, Partage collaboratif des Scripts Javascript, Le Debug des nouvelles transformations est ais grce un debugger similaire au debugger de Visual Studio (unique).

Transformations spciales pour lanalyse prdictive: Multi-product Assignment Solver (For small assignment problems: Exact Solution using LP; For large assignment problems: Near-Optimal solution using advanced meta-heuristics) (unique),Text mining, Correcteur dortaugrafe automatique (unique), Scoring partir de modles raliss par TIMi ou Stardust, Transformations ddies pour les "Time Series" (Sries Temporelles), Gnration automatique de rapports graphiques (OLAP) en Powerpoint, Excel, MSWord (tous les graphiques de la suite office sont supports),

Anatella est rapide (rapide lors du dveloppement de nouveaux script lors de lexcution de ces scripts)

Anatella est Multithread (pour diviser les temps de calculs par un facteur entre 8 et 12)

nest pas une Base de DonneLes fonctionnalits de Anatella ne couvrent pas les besoins des utilisateurs de base de donne:

Pas de code SQL.( la place, on doit utiliser & paramtrer une srie de "boites" Anatella)

Pas dindex (et encore moins dindex distribu).(un "full table scan" est ncessaire si on veut trouver une ligne particulire dans une table)

Pas daccs concurrents aux donnes grs par un systme de "lock".(il est nanmoins possible davoir un accs concurrent en lecture seule des fichiers plats statiques)

Pas de calculs distribus sur plusieurs PC.(Dans le futur lointain: Gestion "manuelle" de la distribution des donnes sur plusieurs nuds).

Pas de gestion automatique du multithreading.

Traitement des donnes orient Ligne-Par-Ligne.(et non "columnar", comme les bases de donnes rcentes construites pour la BI)

Exemple 1: data migration

Dataset 1 dans fichier texteDataset 2 dans fichier texteDataset 3 dans fichier texteUnion-Merge des 3 datasets en 1 seulSauver le dataset rsultant dans un fichier texteRenommer la colonne Churn Flag en TargetNTB: Lordre des colonnes dans les datasets 1,2&3 en entre est diffrent.

LogicielTemps de calcul pour un fichier de sortie 1 de: 99 MB (200.000 lignes x 43 colonnes)Temps de calcul pour un fichier de sortie 2** de: 375 MB(187.000 lignes x 414 colonnes)Temps de calcul pour un fichier de sortie 3*** de: 385 MB(1.044 lignes x 22.285 colonnes)Anatella2.7 sec.16 sec.35 sec.Talend Open studio8 sec.*chec (voir capture dcran)checPentaho Kettle/Spoon17 sec.48 sec.Arrt aprs 1 heure de calcul sans rsultat.CloverETL****21 sec.chec (voir capture dcran)chec*: Temps de dveloppement de la transformation prohibitif. Une modification substantielle des fichiers textes en entre est ncessaire pour viter le crash.**: Dataset standard pour la prvention du churn pour un telecom. belge.***: Dataset standard pour la dtection (bas sur le code ADN dune personne) du cancer du sein. Ce type de dataset est aussi courant lors dtudes de type TEXT MINING.****: CloverETL se positionne en tant que concurrent direct IBM-DataStage, annonant des performances similaires.Exemple 1: data migration Anatella permet la manipulation de base de donnes trs volumineuses :(aucune limitation en nombre de colonnes (unique) et en nombre de lignes).

Exemple 3: LinkAlytics

Cration automatise de datasets pour lindustrie des telecoms partir de CDR (Call Data Record) binaires (ou textes).

Ce dataset peut tre utilis pour toute les tches courantes en analytique prdictive: churn, cross-sell, up-selling, multivariate segmention, etc.

Extraction de mtriques SNA (Social Network Analysis) tels que: communauts, leader de Communaut, etc.

Possibilit de trater de large volume de donnes (par ex.: Afrique du Sud: 24.000.000 abonns), 2.1 TB CDR data: temps de calcul: 4 jours).

Ce rsultat est une premire mondiale.

Aucun autre outil ne peut le faire (au, du moins, il est extrmement difficile darriver des rsultats comparable en utilisant dautres outils).

Exemple 3: LinkAlytics

Guinee-Bisseau data: CL1.Churn_Mean = % of churners in communities in last periodWithout this variable (extracted from SNA): We loose 7,6% of lift.

Partie 5:

Caractristiques principales de Construire des modles prdictifs de prci