Copyright © 2015 Criteo
Analyse de données massives chez Criteo : la mise à l'échelle de la data visualisation avec Tableau
Big Data Paris – 10 Mars 2015
Copyright © 2015 Criteo
Speaker
Damien Lesage, BI Analyst
Analytics Infrastructure
Copyright © 2015 Criteo
Agenda
• Deux mots sur Criteo
• Pourquoi Tableau ?
• Tableau chez Criteo : à quoi cela ressemble ?
Copyright © 2015 Criteo
2 mots sur Criteo
Copyright © 2015 Criteo
Criteo en 2 mots
• Publicité en temps-réel…
• …basée sur la performance…
• …à grande échelle.
La performance est
primordiale.
Copyright © 2015 Criteo
7,000+ ADVERTISERS
1300+ EMPLOYEES
130+ COUNTRIES
9,000+ PUBLISHERS
(Exchange & Premium)
1: 2nd in ComScore global rankings - Dec 2014 ComScore report
2: in 12 months preceding Dec 31, 2014
$430b sales
transactions
analyzed in 2014
741b+ ads
served in 2014
$19bn post-click client sales generated2
+1 Bn internet users reached monthly1
80+ ANALYSTS
24 OFFICES
Copyright © 2015 Criteo
Pourquoi Tableau ?
Copyright © 2015 Criteo
Un outil avant tout destiné aux analystes…
• Production des tableaux de bord par les analystes
• Proximité avec les équipes commerciales et produits
Copyright © 2015 Criteo
…mais qui peut s’intégrer à notre infrastructure
• Une base de données avec une très grosse volumétrie
• Connexion en direct aux données
• Authentification des utilisateurs
• Restrictions de l’accès aux données
Copyright © 2015 Criteo
A quoi cela ressemble ?
Copyright © 2015 Criteo
Déroulement du projet : les préliminaires
• Début de la migration des données analytiques
dans Hadoop
• Évaluation des outils de reporting
Fin 2012
• Installation du cluster HP Vertica
• Augmentation du nombre de licences Tableau
Desktop déployées
Mi-2013
• Toutes les données analytiques sont
disponibles dans Hadoop / Hive
• Premières licences Tableau Desktop attribuées
Début 2013
• Le datamart est disponible dans Vertica, avec
des événements bruts (impressions, clics) et
des agrégats
• Phase de POC de Tableau Server
Fin 2013
Copyright © 2015 Criteo
Déroulement du projet : la consolidation
• Déploiement initial de Tableau Server en
production :
• 12 cœurs CPU
• 32 Go RAM
• Sessions One-to-One sur Tableau Desktop
Début 2014
• Amélioration du monitoring
• Diffusion de bonnes pratiques
Fin 2014
• Augmentation du nombre de nœuds sur le
cluster Vertica
• Formation Tableau Desktop
• Documentation
Mi-2014
• Migration de serveur :
• 24 cœurs CPU
• 96 Go RAM
• Extractions sur Hadoop
Début 2015
Copyright © 2015 Criteo
Analytics infrastructure
• Stockage des données brutes
• Transformation
60 Mds d’événements / jour
Soit 20 To / jour
• Données structurées
• Agrégats
49 nœuds | ≈ 50 To
≈ 10 Mds lignes / jour
≈ 100k requêtes / jour
Extractions
• Analyse / Tableaux de bord
• Connexion directe
• Extraits de données
80+ Analystes
800+ utilisateurs
Copyright © 2015 Criteo
Tableau à Criteo : une utilisation en croissance
Environ
4 000 vues / jour
Environ
400 utilisateurs / jour
Copyright © 2015 Criteo
Et après ?
• Migration vers un environnement plus performant
• Mise à jour vers Tableau 9
• Plus d’externalisation de processus (extraits, souscriptions email)
• Système de revue avant le passage en production
• Test de Impala / Presto / Spark
• Des formations, encore des formations…
Copyright © 2015 Criteo
Nous recrutons !
Copyright © 2015 Criteo
Questions ? [email protected]