34
Les Puits de données Concepts, enjeux, fonctions Voir aussi : http:// www.value-architecture.com /2014/03/a-la-decouverte-d es-puits-de-donnees.html René MANDEL 1 28/03/2014

Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 2: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

2

Sommaire Objectifs d’un puits de données Principes de modélisation des données

Le grain tridaté Le modèle générique Forme canonique cachée

Principes d’architecture Echanges multi-modes, multi-protocoles Synergie MDM Mise en cohérence et en qualité Réseau de puits Positionnement (ODS, ERP, Open Data, Portail,…)

Migration Services

Catalogues Contrats Sécurité

Gouvernance Géométrie variable Montée en charge, ROI

Plates-formes support

28/03/2014

Page 3: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

3

Objectifs Simplifier le SI

Lutter contre la complexification des échanges Décloisonner les silos Gérer les identités, localisations, dates Simplifier les données par la généricité du

modèle Faciliter la migration

Mixer ancien patrimoine SI et nouveaux composants

Anticiper sur les données de référence Capitaliser sur les données

Mise en qualité Préparer Big Data

Dépassionner la Gouvernance

28/03/2014

Page 4: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

4

Principes de modélisation des donnéesLes données au cœur du puits

Nécessité de stocker pour mettre en cohérence les échanges dans tous les espaces (360°, tri-datage, mise en qualité)Pas de format pivot et modèle interne « caché »

Le « grain » sain tri-datéForme canonique cachée

28/03/2014

Page 5: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

5

Les principes

Pures, filtrées,Transparentes, canoniques

Fraîches, Synchronisées,Historisées, tracées

Partagées 360°Cohérentes, subsidiaires

Multi-formats

Multi-protocoles

Synchrone-asynchrone

Des données …

28/03/2014

Page 6: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

6

Le grain Modéliser le grain le plus fin pertinent

Attaché à un « fait » Identifié : occurrence de l’objet, de la personne, … Localisé : géo-localisé, positionné Daté : date du fait En son « Etat » de son cycle de vie

Exemples Accident, sinistre Activité d’une ressource Personne, produit, … Trajet, circulation Production d’une unité d’oeuvre

28/03/2014

Page 7: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

7 28/03/2014

Page 8: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

8

Le modèle tridaté Le fait est daté : date du fait, cycle de vie du

fait La vision est datée : vision en anticipation (le

fait prévu), vision sur le fait (le fait réel), vision en recul (retour sur le fait : retour d’expérience, enrichissement), cycle de vie de la vision

L’instrument d’observation est daté : date technique (date de saisie, date d’acquisition, date du fichier, …) cycle des observations (mise en qualité, précisions,…), multiplicité des sources (canaux)

28/03/2014

Page 9: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

9

Le modèle générique Dates (de vision, de fait) en profondeur historique,

indispensables pour pouvoir rapprocher les sources Pour restituer sur différents pas de temps

Être en mesure de tout tracer et mémoriser par ajouts (on accepte tout et on garde tout) Pour remonter les alertes de qualité vers les sources et gérer

les retours Pour disposer des données au plus tôt même incomplètes et

non totalement validées Pour générer des jeux de test, jouer des scénarios

Gérer le catalogue d’événements (ce qui provoque l’évolution) et d’états de l’objet

Garder trace des sources, dates techniques, anomalies Heurodater tous les grains (pour gérer les services de

diffusion et les services de mise en qualité) Faire le lien avec les MDM : identifiants, structures,

nomenclatures

28/03/2014

Page 10: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

10

Exemple de générique : gestion de périodes Période :

Un début et une fin Une situation pendant la période Des informations spécifiques à la situation

Exemples : Affectation à un poste, congés, maladies, activité … un

même modèle SI, mais des silos applicatifs différents Un déplacement… un même modèle mais des modes de

transport différents Acquisition de droits et consommation de droits (liquidation,

allocation) Revenus, Frais, Abonnements Mouvements bancaires, couvertures d’assurance, …

28/03/2014

Page 11: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

11

Subsidiarité Noyau du modèle générique et commun

Identification, localisation, datation, typage Développement subsidiaire du modèle

selon les types Identification propre au type (ex :

affectation à une structure, code d’activité, de produit, …)

Informations propres au type Informations non structurées

28/03/2014

Page 12: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

12

Forme canonique cachée Mise en forme canonique invariante

Cachée : accès uniquement par des services

Indépendante de la technologie (SQL, Hadoop, virtualisation, …)

Levier de migration et de mise en qualité Permet toutes les alimentations et

restitutions Sous toutes formes et tout tempo Anticipe le Big Data

28/03/2014

Page 13: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

13

Principes d’ArchitectureEchanges multi-modes, multi-protocolesSynergie MDMMise en cohérence et en qualitéRéseau de puitsPositionnement (ODS, ERP, Open Data, Portail,…)

28/03/2014

Page 14: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

14

XML

Connecteur

FTP

MOM

Services Web

Spécifique

Admin-istra-tion

Gestion des Con-trats

Accès MDM

Gestion co-

hérence

Gestion des Ser-vices

Gestion Sécu-rité

Cœur du puits:Grain tri-daté

Domaines applicatifs

!:

Domaines externes

SitesPortails

InfocentresBI

MDM MDM

Composition d’un puits28/03/2014

Page 15: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

15

Echanges multi-modes, multi-protocoles Les mêmes données peuvent s’échanger

dans différents modes logiques : Stock à date (fichier, téléchargement, …) Variation de stock entre dates Messages au fil de l’eau désynchronisés

(messagerie) Messages synchrones Invocation de services

En s’appuyant sur divers protocoles (FTP, REST, XML, CSV…)

28/03/2014

Page 16: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

16

Synergie MDM MDM implique :

Transfert de propriété des données (centralisation d’une propriété éclatée), une refonte des processus

Des fonctions de gestion de structure complexes Puits autorise :

Un fonctionnement à l’identique, sans remise en cause de la propriété des données et des processus

Une gestion de grains en volume et en flux important, selon un modèle simple

Puits et MDM se confortent mutuellement pour assainir le SI sans Big Bang

28/03/2014

Page 17: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

17

Mise en cohérence et en qualité Puits et point de vérité (données Golden)

Le puits permet de gérer le cycle de mise en qualité, et de mémoriser le dernier état

Il constitue donc le point de vérité dès lors que cette mise en qualité se réalise avec les applications source

La qualité est gérée au niveau du grain et n’exige pas de boucles de mise en qualité par lot

Puits et vision 360 ° Le puits apporte la vision 360 Il permet une focalisation par type (principe de

subsidiarité)

28/03/2014

Page 18: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

18

Réseau de puits

Le périmètre d’un puits peut changer Fusion de puits Éclatement d’un puits

Les puits forment un réseau Partage des meta-données (catalogue

unique ou réparti) Possibilité de synchroniser plusieurs puits

(data virtualization) Possibilité de spécialiser les puits (par client

à servir, …)

28/03/2014

Page 19: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

19

Positionnement (ODS, ERP, Open Data, Portail,…) En aval des processus créateurs des données

Non intrusif Respecte les sources et les canaux Accepte les nouvelles sources

En cohérence avec les MDM En amont des fonctions utilisatrices

ODS ERP Open Data Accès web (amont-aval) Portail …

28/03/2014

Page 20: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

20

Puits et Big Data Agilité d’ingénierie des flux pour le Big Data Alimentation transverse en Big Data des

différents domaines applicatifs Ouverture à des sources variées grâce à une

fédération de puits Migration Adoop facilitée par la plateforme

du puits Rapprochement du structuré et non

structuré

28/03/2014

Page 21: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

21

Puits et BI Le ou les puits font de l’ordre dans les données

opérationnelles En amont des ODS Laissent aux ETL les travaux de transcodification Sont callés sur les cycles opérationnels

La BI garde sa logique d’observation sur champ constant et dates suivies, selon son propre cycle Nécessite de constituer des stocks de données Avec une alimentation de données de qualité

Sans gestion automatique de la mise en qualité Le puits fait ce travail pour toutes les diffusions, yc la

BI

28/03/2014

Page 22: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

22

MigrationInsertion agile et réversibleOutil de migration et de réingénierie des échanges

28/03/2014

Page 23: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

23

Insertion agile et réversible Un Puits s’insère facilement dans les flux

Il est multi-protocoles, donc non intrusif Il livre les données dans la forme et le protocole attendu

Un puits n’impose ni ne fige le mode d’échange Synchrone ou asynchrone Fonctionne en mode traditionnel (fichier, messagerie,…) N’impose pas l’ESB, permet d’évoluer vers l’ESB A la carte, au choix selon le flux et le moment

Un puits peut commencer petit et s’étendre au rythme de la conviction Avec un nombre réduit de flux Avec un noyau du modèle générique

28/03/2014

Page 24: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

24

Outil de migration et de réingénierie des échanges Un puits peut (et doit) être mis en place « en

avance de phase » Pour préparer l’insertion d’un gros composant (ERP)

et anticiper sur son alimentation, ses données produites

Pour préparer l’arrivée de nouveaux flux, et leur mise en cohérence (Ex : Big Data) et exploitation

Le puits rend la réingénierie de flux agile Nécrose, couveuse, bascule sont faciles et sécurisées Régimes transitoires et tests sans développement Voir a/s Article RM sur la migration

28/03/2014

Page 25: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

25

ServicesCataloguesContratsSécurité

28/03/2014

Page 26: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

26

Catalogues Les objets métier, les événements, les états Les flux de données Les flux de meta-données Et bien sûr :

Les services Les routines Les clients-fournisseurs Les contrats Les versions de meta-données

28/03/2014

Page 27: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

27

Services Basés sur des contrats (MOA et MOE)

Description des flux Meta-données (abonnement aux évolutions) Jeux d’essai Mode d’échange Caractéristiques techniques Gestion des incidents Qualité des données

Peut être étendu à la diffusion des référentiels

28/03/2014

Page 28: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

28

Sécurité Données individuelles

Le puits a vocation à concentrer les fonctions d’anonymisation, échantillonnage pour l’accès aux données individuelles, en conformité avec les prescriptions réglementaires

Sécurité Le puits peut jouer un rôle clé dans la sécurisation des

données : sauvegardes, blocage des accès non autorisés Les flux peuvent être cryptés

Mobilité Le puits a vocation à servir les accès en mobilité, avec

les protections adaptées

28/03/2014

Page 29: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

29

GouvernanceGéométrie variableMontée en charge, ROI

28/03/2014

Page 30: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

30

Géométrie variable Faible coût d’un « POC »

Solutions « open source » économiques Fonctionnement sur données réelles Scénarios simples mais représentatifs

Gouvernance flexible Pas de transfert de compétence sur les

données Périmètre pouvant évoluer Mise en qualité par cohérence des flux

pouvant évoluer sans Big Bang

28/03/2014

Page 31: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

31

Exemple de montée en charge Initialisation avec quelques flux « fichier »

Base esclave Quelques mises en cohérence Quelques clients en diffusion Interaction MDM

Extension à l’ensemble des flux d’alimentation Batch Accès ESB et messagerie

Inversion des circuits d’alimentation Des portails Des EDS

Extension à la data virtualization

28/03/2014

Page 32: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

32

ROI Le puits de données est un dispositif facilitant la reprise des données

et en amont la détection voire la correction de problèmes d’intégrité Une réduction des coûts de maintenance des flux grâce à :

la diminution du nombre de flux La réduction et l’industrialisation du nombre de transformations

La mise en place de modèles de données métier « de référence » facilite l’alimentation des décisionnels et leur rapprochement L’implémentation de nouvelles applications et des flux associés

Le puits met au service de l’ensemble des applications et services des fonctions de conversion de protocole, diminuant d’autant la charge d’investissement et de fonctionnement de chacun

Le puits réduit l’effet tunnel des projets, et permet de multiples scénarios de migration afin de sécuriser l’intégration des nouveaux composants, et l’appropriation par les utilisateurs

28/03/2014

Page 33: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

33

Plateformes support

28/03/2014

Page 34: Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

René MANDEL

34

Plateformes d’intégration Un puits nécessite une plateforme d’intégration, pour

Le catalogue de services de conversion (multi-protocole) La gestion des meta-données (locale au puits, mais

étendue à l’ensemble des puits : catalogue unique des objets métier)

L’infrastructure base de données (relationnelle, Hadoop) L’infrastructure technique (exploitation, sécurité, ESB, …) La supervision

Plateforme ouverte, scalable, standard : Talend; Oracle; Informatica; Pentaho; Semarchy ?

28/03/2014