Introduction à la modélisation prédictive avec la:

Introduction à la modélisation prédictive avec la:

Frank Vanden Berghen

http://www.business-insight.com

Partie 1:Contexte

Pour Business-Insight:• Vente de licences logicielles de la « TIMi Suite »• Augmenter la base d’utilisateurs de la « TIMi Suite »• A longue échéance: intégration de TIMi dans Teradata pour éviter de lentes

extractions avant toute modélisation• Nous ne désirons pas intervenir en tant que consultants (notre objectif est le

développement logiciel et non la consultance).

Pour Teradata:• Capacité à intervenir sur des projets analytiques de scoring/modélisation avec

rapidité, efficacité et performance.• Pas de limitations sur le nombre de variables… (Càd pas de « goulot d’étranglement » en

fin de préparation des données qui rend inutile le fait de pouvoir manipuler de le large volume de donnée).• Concentrer les projets sur la création de variables et la génération de large

volumes de données à valeurs ajoutées.• Possibilité de déployer le scoring directement en SQL Teradata

Objectifs d’un partenariat Teradata / Business-Insight

Qui sommes nous?

Fondée en janvier 2007 par Frank Vanden Berghen & Jérome Loncelle HQ localisé à Bruxelles en Belgique Mission

– Implémentation de Solutions Analytiques Prédictives Automatisées– Création d’outils de datamining prédictifs de seconde génération

“To boldly go where no dataminer has gone before!”

6 personnes au HQ (3 développeurs, 1 sales, 1 CEO, 1 admin.)

Actif en Europe (Belgique), Angleterre (Londres), Russie (Moscou), États-Unis (Chicago), Malaysie (Kuala Lumpur)

Quelques Références

Optimisation Marketing à l’aide de techniques prédictives

Les usages typiques de l’« Analyse Prédictive » sont:

• Churn Prevention: Comment retenir mes clients? Comment les empêcher d’aller à la concurrence?

• Cross-Selling: Quel produits proposer à quels clients? (next-to-buy, next-best-offer, etc.)

• Up-Selling: Comment inciter nos clients à consommer plus des produits qu’ils ont déjà?

La offre :

Partie 2:Introduction aux techniques prédictives

Modèles Prédictifs: Performance 1/3

Modèles Prédictifs: Performance 2/3 : Résumé sur les graphique de la Lift

Pourcentage de cibles touchées Probabilité

Probabilité d’achat

Performance de la sélection « parfaite »

Performance de la sélection « TIMi »

Performance de la sélection aléatoire

Aucune Cible touchée

100% des Cibles touchées

0% de la population sélectionnée 100% de la population sélectionnée

Modèles Prédictifs: Performance 3/3 : Quelques exemples typiques de Lift:

Lift curves

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

pourcentage de foyer ciblé

Pour

cent

age

de P

oten

tiel C

ouve

rtSélection Aléatoire Modèle Parfait TIMi Model Ancien modèle

Currentmodel

TIMi model

La banque avait déjà un modèle en production.La lift de ce modèle est représentée en brun dans le graphique ci-dessus.

La lift à 10% pour l’ancien modèle de la « Banque Française » est 15%. Cette sélection est donc 1.5 fois meilleure que la sélection aléatoire.

La lift à 10% du nouveau modèle fait avec TIMi est 62%. Nous avons une sélection qui est 6.2 fois meilleure que la sélection aléatoire.

Story 1 : modèle pour une « banque française » 1/2

Évaluation du ROI supplémentaire généré par TIM

Hypothèses Taille de la campagne marketing (La population qui sera contactée = 10% de la population globale) 180,000

Coût de contact (par contact) € 0.75Cout de démarrage de la campagne (coûts-de-contact) € 135,000 = 180,000*0.75Marge sur le produit par année (pour chaque vente) € 300Taux de conversion pour la sélection aléatoire (qui est estimé grâce aux campagnes passées) 1%

Nombre absolu de “conversion” (càd de ventes) pour une sélection aléatoire pour cette campagne 1,800 =180,000 * 1%

Valeur ajoutée du modèle de cross-selling TIMi Actuel TIMLa Lift à 10% (càd: La lift est combien de fois supérieure à la sélection aléatoire à 10%) (Veuillez vous référer au slide précédent)

1.5 6.2

Nombre absolu de “conversion” attendue 2,700 11,160 =6.2*1800ROI estimé de la campagne € 810,000 € 3,348,000 =11,160*300ROI estimé de la campagne en incluant les (coûts-de-contact) € 675,000 € 3,213,000 =3,348,000-135,000

Différence de ROI en faveur du modèle TIMi: € +2,538,000 =3,213,000-675,000Différence en terme de clients acquis +8,460 =11,160-2,700

Story 1 : modèle pour une « banque française » 2/2

Évaluation du ROI supplémentaire généré par TIM

SAS: 70%

SPSS: 77% TIMi : 99%

Extrait d’un benchmark effectué par pour le compte d’une petite banque belge, dans le but de sélectionner la meilleure solution de datamining:

Story 2: Modèles prédictifs robustes et de haute performance

Ces résultats parlent d’eux-mêmes. La seule différence entre ces 3 résultats est le logiciel et le temps de calcul (en moyenne TIMi est de 10 à

100x plus rapide que tout autre solution).

Partie 3:« Démonstration en Live »

« Démonstration en Live »

• Telco: – Churn: Mobistar (Orange in Belgium)

• Bank: – ABN-AMRO (Hollande)– PAKDD 2010

• Retail: – Delhaize

Partie 4:Préparation des données:

Caractéristiques principales de Possibilité de manipulation de base de données très volumineuses (aucune limitation en nombre de colonnes (unique) et en nombre de lignes).

Environnement intégré de développement de transformation (IDE) convivial basé sur une technologie hybride:

approche graphique à l’aide de « boites »: très intuitive approche à base de script Javascript: très versatile.

99% des transformations d’Anatella fonctionnent sans définir aucun « Meta-Data » (unique). Cela permet la migration très rapide de transformation de données pré-existantes d’un environnement à un autre (par exemple: de

l’environnement d’exploration/création des modèles prédictifs vers l’environnement de production).

100% Unicode Aisément extensible:

Gestion de version des nouveaux scripts, Partage collaboratif des Scripts Javascript, Le Debug des nouvelles transformations est aisé grâce à un debugger similaire au debugger de Visual Studio (unique).

Transformations spéciales pour l’analyse prédictive: Multi-product Assignment Solver (For small assignment problems: Exact Solution using LP; For large assignment problems:

Near-Optimal solution using advanced meta-heuristics) (unique), Text mining, Correcteur d’ortaugrafe automatique (unique), Scoring à partir de modèles réalisés par TIMi ou Stardust, Transformations dédiées pour les "Time Series" (Séries Temporelles), Génération automatique de rapports graphiques (OLAP) en Powerpoint, Excel, MSWord (tous les graphiques de la suite office

sont supportés), …

Anatella est rapide (rapide lors du développement de nouveaux script lors de l’exécution de ces scripts)

Anatella est Multithreadé (pour diviser les temps de calculs par un facteur entre 8 et 12)

n’est pas une Base de DonnéeLes fonctionnalités de Anatella ne couvrent pas les besoins des utilisateurs de base de donnée:

Pas de code SQL.(à la place, on doit utiliser & paramétrer une série de "boites" Anatella)

Pas d’index (et encore moins d’index distribué).(un "full table scan" est nécessaire si on veut trouver une ligne particulière dans une table)

Pas d’accès concurrents aux données gérés par un système de "lock".(il est néanmoins possible d’avoir un accès concurrent en lecture seule à des fichiers plats statiques)

Pas de calculs distribués sur plusieurs PC.(Dans le futur lointain: Gestion "manuelle" de la distribution des données sur plusieurs nœuds).

Pas de gestion automatique du multithreading.

Traitement des données orienté Ligne-Par-Ligne.(et non "columnar", comme les bases de données récentes construites pour la BI)

Exemple 1: data migration

Dataset 1 dans fichier texte



« Union-Merge » des 3 datasets en 1 seul

Sauver le dataset résultant dans un fichier texte

Renommer la colonne « Churn Flag » en « Target »

NTB: L’ordre des colonnes dans les datasets 1,2&3 en entrée est différent.

Logiciel

Temps de calcul pour un fichier de sortie 1 de: 99 MB (200.000 lignes x 43 colonnes)

Temps de calcul pour un fichier de sortie 2** de: 375 MB(187.000 lignes x 414 colonnes)

Temps de calcul pour un fichier de sortie 3*** de: 385 MB(1.044 lignes x 22.285 colonnes)

Anatella 2.7 sec. 16 sec. 35 sec.Talend Open studio 8 sec.* Échec (voir capture d’écran) Échec

Pentaho Kettle/Spoon 17 sec. 48 sec. Arrêt après 1 heure de calcul sans résultat.

CloverETL**** 21 sec. Échec (voir capture d’écran) Échec

*: Temps de développement de la transformation prohibitif. Une modification substantielle des fichiers textes en entrée est nécessaire pour éviter le crash.**: Dataset standard pour la prévention du churn pour un telecom. belge.***: Dataset standard pour la détection (basé sur le code ADN d’une personne) du cancer du sein. Ce type de dataset est aussi courant lors d’études de type « TEXT MINING ».****: CloverETL se positionne en tant que concurrent direct à IBM-DataStage, annonçant des performances similaires.

Exemple 1: data migration Anatella permet la manipulation de base de données très volumineuses :(aucune limitation en nombre de colonnes (unique) et en nombre de lignes).

Exemple 3: LinkAlyticsCréation automatisée de datasets pour l’industrie des telecoms à partir de CDR (Call Data Record) binaires (ou textes).

Ce dataset peut être utilisé pour toute les tâches courantes en analytique prédictive: churn, cross-sell, up-selling, multivariate segmention, etc.

Extraction de métriques SNA (Social Network Analysis) tels que: communautés, leader de Communauté, etc.

Possibilité de traîter de large volume de données (par ex.: Afrique du Sud: 24.000.000 abonnés), 2.1 TB CDR data: temps de calcul: 4 jours).

Ce résultat est une première mondiale.

Aucun autre outil ne peut le faire (au, du moins, il est extrêmement difficile d’arriver à des résultats comparable en utilisant d’autres outils).

Exemple 3: LinkAlytics

Guinee-Bisseau data: « CL1.Churn_Mean » = % of churners in communities in last periodWithout this variable (extracted from SNA): We loose 7,6% of lift.

Partie 5:

Caractéristiques principales de Construire des modèles prédictifs de précision inégalée en quelques clicks de souris et ainsi obtenir

un ROI significativement supérieur aux autres solutions commerciales de datamining.

Les modèles sont à la fois précis et aisément compréhensibles

Génération 100% automatisée des modèles et des rapports (doc, xlsx, …) contenant de nombreux graphiques intuitifs

Temps de calcul proche du temps-réel et scoring « in-database » (pour SQL Server, Teradata, Oracle) (temps de calcul divisé par un facteur entre 100 et 1000 par rapport à d’autres solution de datamining)

Possibilité d’analyse de base de données très volumineuses(Sur du matériel de bureau standard, il est possible d’analyser en quelques minutes des datasets de plusieurs dizaines de gigabytes)

Temps pour la préparation des données réduit au minimum: le « nettoyage » de données est pratiquement inutile et il est possible d’utiliser un seul et unique dataset pour construire tous les modèles

La validation des modèles est facile : génération automatique de nombreux graphiques de la lift, intervalles de confiance visibles sur les lifts,…

Module « Data-Drift » pour détecter les erreurs dans la mise à jour du dataset de scoring

Prix attrayant ( th du prix de SAS/SPSS pour 4 fois plus de licences)110

parmi les équipes gagnantes aux concours mondiaux de datamining prédictifs

KXEN et SPSS n’ont jamais été classés parmi les équipes gagnantes d’aucun concours de datamining à l’aide de leur propre outil.

Exemple 4: Industrialisation de ModèleModel Factory / Automatisation

Colruyt: Un grand retailer en Belgique utilise un ancêtre de TIMi pour créer ses dépliants personnalisés.

Ces dépliants contiennent la sélection de produits qui ont la plus grande probabilité d’achats pour un client donné.

Chaque client reçoit un dépliant différent, contenant une sélection différente de produits. Il y a (potentiellement) autant de dépliants différents que de clients (one-to-one marketing).

Détails Techniques:• Dataset d’apprentissage :70 Gbyte et 22.000 colonnes (càd

22.000 variables).• 450 modèles prédictifs à créer « from scratch » toutes les 2

semaines.• 100% automatisé (pas d’intervention humaine).• En plus d’un mécanisme basé sur des modèles prédictifs,

de simples « règles métiers » sont appliquées pour déterminer l’assignement final. Ces règles sont codées en SAS.

TIMi est le seul outil capable de:• Créer des modèles sur des datasets

d’apprentissage aussi volumineux.• Produire 450 nouveaux modèles en

quelques jours.

« SAS is able to compute purchase probabilities… »

Littéralement traduit:« SAS est capable de calculer des probabilités d’achats… »

C’est vrai.(Sauf qu’ici, c’est fait avec une veille version de TIMi).

Un article de SAS qui est un chef-d’œuvre d’ambiguïté.

Au final, qui fait les dépliants de Colruyt? SAS ou TIMi?

Exemple 5: Model Factory

Un des plus grands retailers en Belgique.5ième plus grand retailer aux USAPrésent aussi en Indonésie

Pour la sélection de son outil de datamining Delhaize a organisé un concours de datamining.

Les participants reçoivent:• Dataset d’apprentissage: profils des clients tels

qu’observés en 2009 et achats effectués en 2010.

Équipe Logiciel technologie utilisée

% de classification

Correcte

Temps de calcul

MachineDurée de

prestation

SAS SAS Predictive modeling 60 ? + de 2 mois à 5

dataminers

Consultants spécialisés dans le retail

SAS + scripts spécialisés développés de longue date

Collaborative Filtering 60 ? 2 mois à 3

dataminers

Frank TIMi Predictive modeling 70 5h 1h pour 1

dataminer

• Dataset de Scoring: profils clients de 2010.

Taille des datasets : 300 colonnes x 150.000 lignes.

Il faut prédire quels sont les 3 produits (parmi un choix de 9 produits) qui vont être acheté en 2011.

Difficulté supplémentaire: Chacun des produit ne peut être « assigné » que 50.000 fois maximum.

Partie 6:

Intégration des techniques de segmentation multivariées & des techniques prédictives

Vous pouvez utiliser Stardust (le moteur de segmentation) avant et/ou après une analyse prédictive.

Stardust et TIMi sont 2 logiciels intégrés.

Le nombre de segments différents dans une analyse en segmentation est pratiquement illimité (nSegments>2000 est ok).

(unique: tous les outils concurrents ont: nSegments<300).

Partie 7:Le futur

Le futur• Module pour la gestion de stocks• Module pour le « up-lift » modeling• Ajouter des « forest of stumps » comme technique

de modélisation• Ajouter des modules SNA supplémentaires• Fonctionnalités ELT dans Anatella• Améliorer les interfaces (en particulier celle de Anatella)

• Opti-Mail-It• Finaliser l’acquisition de nouveaux clients Telco.

Comme le démontre nos excellents résultats lors des différentes compétitions de datamining

de niveau mondial et lors de benchmarks en entreprise, la :

délivre invariablement les modèles prédictifs les plus précis et les plus robustes

a un temps de calcul proche du temps réel peut analyser aisément de larges datasets grâce à son mode « in-database » délivre des modèles facilement compréhensibles grâce, entre autres, aux

nombreux rapports générés automatiquement lors du processus de modélisation

En résumé

Consultez cette page pour plus d’informations sur le lien entre l’exactitude des modèles et le ROI:http://www.business-insight.com/html/solutions/propensity_ROI.html

Plus de Précision= Plus de ROILa précision accrue des modèles générés par TIMi se traduit directement en terme de ROI. Il est courant qu’un modèle prédictif construit avec TIMi permette d’accroître le ROI d’une campagne marketing de 10 à 15% comparé à un autre logiciel de datamining

http://www.business-insight.com/html/solutions/propensity_ROI.html

Merci pour votre Attention

Pour plus d’informations, veuillez consulter notre site internet:http://www.business-insight.com

Documents

Introduction à la modélisation prédictive avec la: