20
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HUG France #2/2 - 17 octobre 2012 Hadoop au Crédit Mutuel Arkéa Retour sur 3 années d'utilisation Mathias Herberts [email protected] @herberts

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Embed Size (px)

Citation preview

Page 1: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HUG France #2/2 - 17 octobre 2012

Hadoop au Crédit Mutuel Arkéa

Retour sur 3 années d'utilisation

Mathias [email protected]@herberts

Page 2: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Crédit Mutuel Arkéa

Groupe bancaire de plein exercice

3.2 millions de sociétaires et clients

9000 salariés

Page 3: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 1

Installation d'une cellule Hadoop en juillet 2009

Expérimentations autour de l'analyse de données

Laboratoire pour the master plan

5 machines

Dell 1950

2 x 1To 2 x [email protected] (8 cores)

16 Go de RAM

Page 4: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 2

Installation d'une cellule ZooKeeper en 2009

Besoin d'un mécanisme de coordination (HBase)

Plugin d'authentification via clefs SSH

Passerelle SVN → ZooKeeper

Ensemble de 6 machines sur 3 datacenters

3 groupes de 2 machines de poids 2 et 1

Page 5: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 3

Projet #1, recherche sur opérations bancaires

Recherche fulltext sur les libellés depuis 2001

Version en place datant de 2003, basée sur MySQL

Limites atteintes (3.5 x 10E9 rows)

Décision d'utiliser HBase pour le stockage

Indexation opportuniste des données (Solr)

Extension à plus de données

Page 6: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 4

Récupérer nos données ... depuis le mainframe

Simplifier les transferts (IDCAMS REPRO + FTP)

Service de staging

Utilitaire de transfert fileutil

Lecture directe des VSAM/Séquentiels

Pas de conversion EBCDIC → ??? lors du transfert

Bibliothèque de lecture des données

Interprétation via COPY COBOL

Page 7: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 5

Passage en production du projet #1

Nouvelle cellule Hadoop installée en 2011-0476 HP DL 165 G7, 24Go, 4x2To, 2xAMD 16 cores

1 NN, 1 SNN, 1 JT, 1 backup JT, 72 DN, 56 TT

8 RS HBase, 8 nœuds d'indexation

4 racks, 2 datacenters, sans sursouscription réseau

Remplacement de la cellule de test5 HP DL 165 G7 idem production

Passage effectif en production en 2011-12

Page 10: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 6

Mise au point d'un système de monitoring

Nécessaire pour avoir une photo à t de la cellule

Centré sur la donnée brute, pas sur des graphes

Support de métriques techniques ET métier

Format universelTS name{label0=value0,label1=val1,...} value

Arkéa Real Time Information MONitoring

Page 11: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 6

Fonctionnement d'Artimon

Création d'un MonitoringContext

Enregistrement via ZooKeeper

Point d'entrée Thrift

Mise à jour de variables dans le code

Collecte via Flume / Kafka

Archivage dans HDFS

Stockage d'historiques en mémoire (VHMS)1H@1m / 4H@5m / 24H@15m / 72H@60m

Page 12: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 6

Fonctionnement d'Artimon (2)

Possibilité de collecter dans /var/run/artimon

Bibliothèque en Groovy

Opérations sur classes d'équivalences

Génération de graphiques via Google Charts API

Analyse postmortem via extraction Pig + VHMS

2M de métriques par minute sur 1200 machinesgrunt> fs -du /hdfs/data/artimon

Found 2 items

43801992067763 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2011

131762114040268 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2012

Page 15: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 7

Gros investissement autour de Pig

Volonté d'avoir un outil Dataflow (pas de xQL)

Appréhendable par les métiers (qui font du SAS)

Possibilités d'extension

Souplesse dans la mise à disposition des données

Ordonnancement depuis le mainframe

Page 16: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 7

Pig au Crédit Mutuel Arkéa

Données : SequenceFile de BytesWritable

Loader Pig com.arkea.commons.pig.SequenceFileLoadFunc

Classes Helper pour interpréter les donnéesThrift, COBOL, DB2, JDBC, Paramétrage, PCAP

Outil fileutil d'extraction de ces données

50 personnes formées

2 projets majeurs, reporting opérationnel et LAB

Page 18: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – phase 8

Croissance de la cellule Hadoop 2012-01

112 machines, 4 racks de 28

108 DN (812 To), 88 TT (1232 slots)

Utilisation des capacités de calcul

Calcul de ratios de solvabilité Solvency II

Division par ~200 des temps de calculs

Page 19: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Hadoop – Bilan

Importance de l'outillage

Être compatible avec l'existant du SI

Bien penser à la forme des données

Positionnement transverse un réel plus

Coût réduit au fur et à mesure des projets

Capitalisation dans les métiers, viralité

Ne pas céder à certaines sirènes

Page 20: Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

#2/2 HUG France 17 octobre 2012

Hadoop au Crédit Mutuel Arkéa

Merci pour votre attention

Mathias [email protected]@herberts