Download pdf - Le Big Data

Lycée Jeanne d’Arc Rennes

Chloé LE GALL

Lisa VIOTTY

Floriane TERRIER

Alexandra HOGER

BTS Communication 2ème année

Dossier

Veille Année scolaire : 2014-2015

BIG DATA

2

Introduction

Le Big Data est un terme phare de ces dernières années, il traite des données, de leur

utilisation et de leur provenance. Cette révolution de l'information, en particulier pour le

monde du marketing, est devenue la matière première de l'économie de l'information. Les

technologies n'ont jamais eu un tel rôle à jouer et le champ des opportunités n'as jamais été

aussi vaste. Nouvel or noir de la société de l'information, le Big Data est devenu un

environnement de plus en plus complexe. Pour cause, les sources de données se sont

multipliées et la quantité d'information a explosé au fil des années. C'est ce potentiel

inépuisable des données qui explique en partie l'engouement des

acteurs marketing pour cet outil.

Toute l'information, tout le temps, est donc partout. Le Big Data,

c'est la ligne directrice de l'évolution technologique actuelle.

Internet n'oublie rien, et nul ne peut effacer complètement des

données. C'est pourquoi des millions de données s'entassent

chaque année. Face à cet afflux massif, beaucoup de moyens

sont mis en œuvre pour traiter toutes ces informations et on

observe l'apparition d’organismes spécialisés dans le traitement

et le stockage des données.

En effet, ce phénomène grandissant, à la limite entre technologies,

outils économiques et méthodes managériales, touchent de plus

en plus de secteurs chaque jour, et s’élargit à toutes les échelles.

Mais jusqu’où son pouvoir s'étend t-il? Ses limites en termes de

possibilité d'exploitation restent à définir. Encore faut-il savoir si

toutes les entreprises, organisations, qu'elles soiENt

internationales ou locales peuvent utiliser les données pour

promouvoir leur activité. Reste également à dissocier les fausses

informations des vraies informations, c'est le Smart Data.

Enfin, le concept du Big Data a révolutionné le monde d'aujourd'hui et partage les opinions.

Quand certains voient en ce phénomène un réel potentiel, d'autre y voient des risques très

importants. Tous s'accordent cependant a dire que les conséquences sont irrémédiables. Le

retour en arrière étant impossible, certains organismes et entreprises visent à protéger les

utilisateurs et leurs données personnelles.

« Dans la société de

l'information notre

valeur ne viendras plus

de ce que l'on sait,

mais de ce que l'on

partage. »

Ginni Rometty,

dirigeante d'IBM

3

Sommaire

I. Qu'est ce que le big data?................................................. p 4 à 7

A. Définition……………………………………………………………………..………….…………………. p 4 à 5

B. Utilisation……………………………………………………………………….…….………………..…… p 5 à 6

C. Évolution……………………………………………………………………….………….……………...... p 6

D. Enjeux………………………………………………………………………………………….……….…….. p 6 à 7

II. Traitement des données…………………………..…………….…….. p 8 à 11

A. Une matière première : les données………………………………………….…...….……….. p 8 à 9

B. Les acteurs……………………………………………………………………………..……………………. p 9 à 10

C. Les technologies du Big Data………………………………..…………….……………………….. p 10 à 11

D. Le stockage…………………………………………………………………………………….……………. p 11

III. L'exploitation des données…………………………………………… p 12 à 15

a. Au niveau international…………………………………………………………………………........ p 12 à 13

b. Au niveau national……………………………………………………………………………………….. p 13 à 14

c. Au niveau des organisations…………………………………………………………………………. p 14 à 15

IV. Partie juridique………………………………………………….…………. p 16 à 19

a. Déontologie…………………………………………………………………………………….……………. p 16 à 18

b. Droit…………………………..………………………………………………………….………..…………… p 18 à 19

c. Loi……………………………………………………………………………………………………..…………. p 19

Conclusion…………………………………………………………………………. p 20

Glossaire……………………………………………………………………………. p 21 à 22

Annexes…………………………………………………………………………..… p 23 à 29

4

I. Qu’est-ce que le

Big Data ?

A. Définition

« Big Data » a été élu mot numérique de l’année 2012, succédant ainsi à « Cloud

Computing » élu en 2011. Pour l’un comme pour l’autre, il n’existe pas de traduction en

français qui soit adoptée.

Kenneth Cukier, journaliste de The Economist et auteur de « Big Data : la révolution des

données est en marche », considère le Big Data comme une révolution qui va transformer

nos vies et refaçonner le monde. Chaque jour, nous générons 2,5 trillion d’octets de données

informatiques. Toutes ces sources constituent un volume massif de données, appelées Big

Data. Jamais les particuliers n’ont partagé autant de d’information et par conséquent, laissés

autant de traces, c’est une mine d’or potentiellement exploitable pour les marques.

Depuis l’émergence de ce terme, peu de remise en cause de ce phénomène sont apparues,

cette expression est d’ailleurs considérée comme une formule marketing destinée à vendre.

Le Big Data serait donc une révolution majeure d’un point de vu économique, appuyée par

des évolutions techniques, elles-mêmes alimentés par les progrès constants de

l’électronique.

Ensemble de technologies et d’algorithme, le Big Data permet de classer une masse toujours

plus importante de données, afin de cerner de manière de plus en plus précises les

comportements des internautes-consommateurs.

Volume, vivacité, variété, valeur et vitesse, ce sont les 5 dimensions, dites les 5V, que

regroupe le Big Data. On parle de volume pour désigner le nombre important de donnée

dont les entreprises sont envahies, de vivacité pour rendre compte de l’utilisation du Big

Data à mesure du temps, de variété pour montrer la diversité des sources de données et de

leurs nombreuses utilisations, de valeur afin de s’assurer de la qualité des informations

recueillies et de vitesse pour désigner la rapidité du traitements.

5

Le Big Data est un phénomène alimenté par 4 forces génératrices, qui se combinent et qui

ont un impact majeur sur l’économie du 21ème siècle. Tout d’abord le web 2.0 et les réseaux

sociaux avec la nouvelle vision du monde qu’ils offrent et incarnent. Ensuite le mobile, avec

les quantités de plus en plus importantes de données générées par chaque être humain

possédant un smartphone. Egalement les objets électroniques connectés à internet, que l’on

estime à plus de 10 milliards dans le monde. Enfin, le mouvement Open Data qui amène les

administrations publiques et para-publiques à mettre à disposition l’ensemble de leurs

données (traitées et générées) pour un accès libre de tous les acteurs.

B. L’utilisation du Big Data

C’est à certains grands de l’internet que l’on doit l’apparition de ce phénomène de collecte

de données, comme par exemple Amazon, qui en l’échange de services gratuits, récoltent les

données laissées par les internautes. Leur modèle économique est donc principalement bâti

sur les informations personnelles de millions de personnes. Aujourd’hui de nombreux

secteurs économiques ont recours au Big Data : finance, santé, médias, grande distribution

…. Ce qui importe réellement ce ne sont pas les données en soit, mais la capacité à donner

du sens à ces dernières, afin de mieux connaître les consommateurs ce qui permet

l’optimisation des campagnes marketing.

La data présente un avantage important, elle se collecte à tout moment et sur tout les

supports grâce aux nouvelles technologies : CRM, média sociaux et e-mailing. Aujourd’hui,

elles sont utilisées pour faire des statistiques dans des domaines tels que la publicité ou

encore les ressources humaines. En effet une collecte suffisante de données permet

d’effectuer des prédictions et de mettre en lumière certaines choses qui nous seraient

cachées autrement, notamment en termes de compréhension de l’audience, ce qui permet

de mieux interagir et répondre à ses attentes. D’où l’importance d’adopter le « Big Data »,

qui rend les annonceurs plus compétitifs, dans l’intérêt d’offrir le meilleur service aux

consommateurs, dans une démarche de ciblage plus personnalisée et donc plus intelligente.

Certaines agences médias achètent par exemple des profils type de consommateurs, reflet

d’une disposition de datas plus précises, qui peuvent également se combiner entre

elles : comme les données comportementales et les données médias des annonceurs.

Le Big Data participe à l’amélioration de moteur de recherche. Par exemple, le projet Google

Flu (suivi de la grippe) permet d’identifier une combinaison de 45 termes utilisés par les

internautes dans leur moteur de recherche qui, selon les chercheurs de Google, semble être

de bons indicateurs de la propagation de la grippe saisonnière, en corrélation avec les

statistiques officielles issues des consultations médicales sur le terrain, ce qui atteste de la

fiabilité des prédictions. On peut donc en conclure l’utilité d’un tel outil, s’il était rendu

disponible gratuitement sur Google.

6

Les modalités de représentation des données du Big Data permettent le développement de

nouvelles technologies. Ces possibilités de visualisation de données, appelée DataViz, sont

aux centre de la relation entre utilisateur et usagers du Big Data.

C. Évolution

Alors que pendant 20 ans nous sommes passé à coté de la Data, il est aujourd’hui impossible

de négliger le Big Data. Il est le fruit de la numérisation croissante de notre société, dont la

connectivité toujours plus accrue est notamment due à l’augmentation du taux

d’équipement des français : en 2013, 39% d’entre eux possédait un Smartphone contre 17 %

en 2011, le taux d’équipement en tablette tactile a quant à lui doublé en 1 an, passant de 8%

à 17%. L’adaptation est rapide et l’apparition des réseaux sociaux, qui est un réel

bouleversement pour le web ces dernières années, participe également à la production

toujours plus importante de données produites par notre société. A tel point que 90% des

données dans le monde ont été créées au cours de ces deux dernières années (2013-2014)

seulement. En effet le social média est l’un des plus gros producteurs de données, où

chacune des interactions des internautes est source d’information, on note : Facebook,

Twitter, Linkedin ou Foursquare. Courant 2015, l’exploitation des données en grande

quantité devrait atteindre 16, 9 milliards de dollars.

L’ancien ciblage, dit par critères comportementaux, est aujourd’hui obsolète. Désormais

l’annonceur peut définir ses propres critères de segmentation en rapport avec son activité,

on appelle cela le ciblage attudinal. Ainsi, les goûts, les avis, les souhaits mais également les

critiques des internautes peuvent être retenus et pris en compte.

Le Big Data est une évolution technologique qui implique une révolution managériale au sein

des acteurs économiques. Pour les nouvelles entreprises numériques qui vont voir le jour, la

ressource première sera l’information, mais surtout, la pertinence de cette information.

Malgré toutes ces évolutions, le web n’est qu’à la genèse de ses possibilités et le

mouvement Big Data ne cesse de prendre de l’ampleur.

D. Enjeux

Pour les annonceurs et les prestataires technologiques, le Big Data constituent un enjeu

crucial. En effet l’internaute est aujourd’hui le plus grand producteur et consommateur de

data, d’où l’importance de l’évaluation de données. La collecte d’informations qui peuvent

sembler sans importance aux yeux des utilisateurs, permet aux marques de cibler clients et

prospects par affinité, ce qui donne un réel impact à la communication et constitue une

réelle valeur ajoutée pour l’annonceur.

7

Certaines associations françaises soutiennent le développement du « Big Data » et

contribuent à son émergence, pour le potentiel économique et sociétal de la donnée. Dans

le secteur de la communication, l’AACC (Association des Agences-Conseils en

Communication) soutient les acteurs dominants et participe à la récompense de leur

développement technologique. Ainsi, les diverses associations impliquées permettent de

rendre compte au public de l’avancé et du poids du marché français au niveau international.

Comme la plateforme Big Data d’IBM, qui à recours aux technologies les plus pointues et à

des solutions d’analyses brevetées afin d’ouvrir la porte à de nouvelles possibilité.

Les enjeux de l’ingénierie numérique sont importants. En effet, certains systèmes complexes

demande de nouvelles modélisations, entrainant une modification des périmètres de la

Data, avec la prise en compte de données encore inexistantes à ce jour, comme les données

créées en temps réel sur les déplacements des usagers. L’Institut de Recherche

Technologique dédié à l’ingénierie, travaille actuellement sur des programmes visant la

résolution de ce genre de défis posés par l’ingénierie numérique. De plus, d’autres projets

variés sont menés de front, comme l’extraction de données signifiantes issues de médias et

de langues multiples, ainsi que la révision de la gestion des réseaux électriques.

Le marché du « Big Data » étant en constante évolution, le traitement de la donnée devient

plus intelligent, éduqué par diverses interactions qui tendent à démocratiser le traitement

de la donnée, pour une meilleure compréhension de ce système complexe par tous. Même

si la valeur accordée à son utilisation n’est pas la même pour toutes les activités, l’enjeu

reste néanmoins central pour tous les acteurs.

8

II. Le traitement des

données

A. Une matière première : les données

Chaque jour, des millions de données sont créées. Cette masse d'informations est la

conséquence d'une multiplication des outils et appareils numériques, toujours plus

sophistiqués et de plus en plus connectés sur le web. Le caractère omniprésent des réseaux

sociaux, des blogs ou encore des plateformes renforce leur accessibilité. Selon un sondage

d'AVAS, en 2013, 71% des internautes français sont membres d'au moins un réseau social

grâce à leurs tablettes, ordinateur, smartphones ou plus récemment via la TV connectée. Les

réseaux sociaux tels que Facebook, Twitter sont donc les premiers créateurs de données, ils

ont initié le phénomène. On peut dire que les informations sont désormais accessibles de

partout et par n'importe qui.

Si le nombre de données est de plus en plus volumineux, leur forme est également variée. En

effet, elles peuvent être collectées sous la forme de textes, de schémas, d'images, de chiffres

ou encore de statistiques. Elles peuvent également être publiques et disponibles à la

réutilisation pour les internautes (Open data), localisées ou liées à une personne privée, fixes

ou mobiles. En conclusion, les données viennent de partout et sous toutes les formes.

Le Big Data peut être source de confusion pour les utilisateurs. En effet, ceux-ci se heurtent à

l'immensité du phénomène, qui intègre en son cœur d'innombrables anomalies, fausses

informations et incohérences. Le fait est qu'internet n'oublie rien et que toutes les données

entrées sur le web sont stockées, qu’elles soient pertinentes ou non, véridiques ou non.

Il est indispensable que les données récoltées soient fiables, utiles et d'actualités car la

qualité de l'information est un facteur nécessaire pour effectuer une bonne analyse et

générer de la valeur. Toutes les données ne sont donc pas bonnes à prendre et demandent

beaucoup de temps à exploiter.

Mais depuis peu, on ne parle plus de « Big Data » mais de « Smart Data ». Le

développement du marché, et l'intérêt des entreprises pour l'exploitation des données ont

permis un traitement de plus de plus intelligent de celles-ci. Le Smart Data permet alors de

9

se focaliser uniquement sur les informations pertinentes pour empêcher les erreurs. Le but

est d'exploiter une data filtrée, triée et nettoyée au préalable afin d'éliminer tout risque de

résultats biaisés. Cependant, trouver les bonnes informations sur internet peut se révéler

parfois encore plus compliqué.

En conclusion, les utilisateurs du Big Data se confrontent à deux situations : d'une part, à la

difficulté de piocher les informations dites "filtrées" et d'autre part, au manque d'outils et de

ressources pour exploiter les informations en masse. C'est ces problématiques qui ont, en

majeur partie, entraînées l'apparition de nouveaux acteurs et systèmes technologiques

spécialisés dans la gestion et analyses de données.

NB: Le marché du Big Data est composé des produits et services liés a celui ci tels que les

serveurs, les logiciels de traitement, et le stockage.

B. Les acteurs

Le traitement des données n'est pas chose aisée et une question subsiste : les outils d'hier

suffisent t-ils à transformer et analyser les datas? En effet, toute entreprise peut-elle

exploiter les données du web sans investissements conséquents? La réalité est que les outils

d'hier, qui convenaient pour les analyses des organismes locaux, ne permettent plus de se

confronter à l'immensité des sources d'informations. Afin de répondre à une demande

massive sur le marché, de nouveaux profils d'acteurs interviennent donc depuis quelques

années.

Aux États-Unis et depuis peu en Europe, les entreprises misent sur de nouvelles

qualifications, à la frontière entre science et marketing. Les métiers d'experts en datas tel

que « data scientist » ou « data analyst » sont de plus en plus recherchés et deviennent

les activités les plus porteuses. C'est deux termes ne sont cependant pas a confondre : en

effet, le data analyst utilise des statistiques pour synthétiser et de traduire les informations,

tandis que le data scientist effectue des recherches plus poussées afin d'analyser et

comprendre les données.

Depuis les années 2000, les agences marketing digitales profitent de ce levier de croissance

et développent des pôles «data», tels que Performics ou encore Publicis. Le développement

de ces activités se poursuit de plus en plus aujourd'hui comme nous le montre Loyalty Expert

ajoutant deux nouveaux data analyst à son pôle "Intelligence de la Donnée Client" (crée en

2005) en novembre dernier.

En parallèle, des agences de conseil spécialisées dans le Big data arrivent sur le marché.

Celles ci ont pour vocation d'accompagner les entreprises qui souhaitent investir dans les

applications qui concernent le traitement des données afin de mieux bénéficier des

10

opportunités qu'offre le Big Data. Parmi les plus importantes, Fifty-Five, agence qui se

spécialise dans l'optimisation de la performance des annonceurs d'internet, ou encore Tiny

Clues.

En France, une agence se démarque. Synomia, fondée en 2000, est devenu la première

agence de conseil en data analytics. La raison de son succès? Elle propose à ses clients une

analyse très poussée de toutes les données textuelles du web. En effet, grâce à sa

collaboration avec le CNRS, l'agence a mis au point une avancé technologique unique, une

innovation permettant de traiter les données dites "non structurées", impossible à

catégoriser. Les données structurées, c'est à dire les données dont les valeurs possibles sont

connues a l'avance, sont faciles à traiter, et beaucoup d'entreprise les exploitent. Cependant,

les informations non-structurées nécessitent des moyens technologiques très performants

et innovants dont ne disposent pas ces exploiteurs. Cette technologie que propose Synomia,

appelée "analyseur syntaxique" rend alors plus accessible ces données textuelles et permet

une exploitation plus poussée de la data.

C'est cette catégorisation en temps réel de données non structurées qui est l'un des secteurs

les plus porteurs du « Big Data ».

C. Les technologies du Big Data

En effet, les technologies d'hier ne sont plus adaptées compte tenu de l'ampleur démesurée du Big Data. C'est pourquoi de nouvelles technologies sont apparues sur le marché afin de faciliter le traitement, le stockage ainsi que l'exploitation d'un nombre de données toujours en progression.

Nombre de ces logiciels sont Open Source. Mais qu'est ce que l'Open Source? L’Open Source est une plateforme regroupant des logiciels libres qui reposent sur le partage et la collaboration. Les utilisateurs ont alors la liberté de les copier, les étudier ou encore de les modifier afin d'améliorer leur performance.

Hadoop en est un exemple. Il est l'un des logiciels de traitement les plus utilisés. Il consiste en effet à collecter, stocker et traiter des données de formats hétérogènes (dont des données non-structurées). Conçue en 2004, il a pour vocation la mise à disposition de logiciels et programme permettant le traitement de donnée au volume important (au moins une dizaine de téraoctet). Grâce à des serveurs standardisés et à bas prix, et à l’utilisation d’un programme simplifié, il sera possible d’extraire des données de manière simples. Géré par la fondation Apache, il fonctionne sur un principe de grilles de calcul consistant à répartir un traitement conséquent de données sur plusieurs serveurs.

HDFS est le nom donné au système de stockage distribué, il permet d'héberger et de récupérer les données des grilles de calcul. C’est l’élément sur lequel repose tout le Framework Hadoop.

11

Map Reduce est un outil de programmation, un algorithme développé par Google. Cet outil de traitement et d'analyse consiste à découper une requête en multiples sous-requêtes (le Map) et réduire les calculs obtenus en un calcul global (le Reduce). Il est souvent implémenté à Hadoop.

Machine Learning est un algorithme qui permet de donner aux ordinateurs la capacité d'apprendre sans être explicitement programmé.

D. Le stockage Nous avons pu le voir, les données sur le web sont en pleine explosion. C'est grâce à la popularité du phénomène et a ses opportunités grandissantes que diverses acteurs sont apparu sur le marché afin de profiter de la tendance. Ainsi, agences de conseil, entreprises et spécialistes en analyse de data émergent. L'objectif? Trier, nettoyer, et traiter toutes sortes de données afin de les exploiter par la suite. Mais pour obtenir ce résultat, une étape non-négligeable ne doit pas être oublié: les données doivent être gérer, stocker et surtout préservés. En effet, le nombre grandissant des datas depuis les années 2000 a entraîné des modifications pour les espaces de stockage. Ceux-ci ont dû faire évoluer leurs capacités de stockage afin de pouvoir accueillir de plus en plus de données. C'est l'adaptabilité de ces espaces qui reste à perfectionner compte tenu des rapides évolutions technologique. Le choix de l'espace de stockage par un organisme doit se faire en fonction de différentes caractéristiques comme le volume de données ou encore la fréquence d'utilisation par exemple. Avancée majeure, le Cloub Computing, "informatique dans les nuages" a révolutionné ce domaine. Il est porté par des grandes entreprises tels que IBM, Microsoft ou encore Orange Business Services. Le Cloud Computing désigne l'utilisation des serveurs distants sur internet pour traiter ou stocker l'information. En d'autre terme, le cloud représente toutes les ressources informatiques par lesquels on peut accéder à travers internet. Il peut être gratuit ou payant suivant ses capacités de stockage et ses fonctions. Il permet aux entreprises de ne pas investir de grandes sommes pour préserver leurs données. Cependant, d'autres systèmes sont utilisés pour le stockage de données telles que les bases de données NoSQL appelées également bases de données orientées colonne instauré par Google. Cassandra en est un exemple. Ces systèmes très performants sont accessibles par un grand nombre d'utilisateur et offre une possibilité de stockage presque infinie. Autre base de données, le data wharehouse (entrepôt de données) est dédié aux informations fonctionnelles d'une entreprise. Il est utilisé pour la prise des décisions dans une entreprise grâce à des statistiques et des rapports réalisés par des outils de reporting. Un data wharehouse est organisé et structuré.

12

III. L’exploitation des

données Aujourd’hui, des quantités astronomiques de données sont récoltées partout dans le monde.

La majeure partie de ces données est inutilisable. Leur exploitation peut être différente

suivant l’environnement dans lequel on se trouve et elle joue un rôle important à différentes

échelles.

A. Au niveau international

Événement sportif majeur de cet été 2014, la Coupe du Monde de Football n'a pas échappé

au Big Data. En effet, la sélection allemande a utilisé un logiciel d'analyse poussé produit par

la société SAP. Ce fut pour l'entraîneur, une aide à la décision. Des puces RFID étaient

intégrées aux protège-tibias et aux chaussures des joueurs. Elles permettaient alors de

récupérer un maximum de données telles que : la vitesse, les accélérations, les fautes, le

types d'action ou encore le nombre de ballons touchés. De plus, pour compléter les données

fournies par les puces, le logiciel était relié à des caméras présentent sur le terrain. Toutes

ces données ont été analysées par des datascientists qui font partie du staff de l’équipe

allemande afin d’optimiser le potentiel du logiciel. Une fois ces informations analysées, elles

ont permis à l’entraîneur d’analyser le jeu de chaque joueur pour une meilleure efficacité.

Mais l’utilisation du Big Data et de ses résultats dans le football n’est pas un fait nouveau, ce

phénomène remonte aux années 1990 en Angleterre. Arsène Wenger, entraîneur d’Arsenal,

est l’un des premier à y avoir eu recourt. L’utilisation des données ont permis à Arsène

Wenger de remplacer Patrick Vieira, lors de son départ, par un joueur quasi inconnu aux

statistiques similaires. Depuis, tous les clubs de Premier League utilisent ces méthodes et les

dirigeants n’hésitent pas à engager dans leur staff des mathématiciens, d’anciens traders ou

encore des statisticiens pour analyser ces données. En France, cette pratique touche

seulement les grands clubs tels que le Paris Saint-Germain, les Olympique Lyonnais et

Marseillais, Saint-Etienne ou encore Lille. Les formations françaises dépensent 50 000 à 300

000 euros par saison pour le matériel nécessaire à la collecte de ces données. Ces études ont

par exemple montré pour le Paris Saint-Germain que seulement 2% des tirs en dehors de la

surface finissent dans le but du camp adversaire, c’est donc pour cela que les joueurs

parisiens tentent peu les frappes de loin.

13

D'autres secteurs utilisent eux aussi le Big Data afin d'améliorer leurs performances. C'est le

cas du domaine de la santé qui s'intéresse de plus en plus aux données afin de prévenir de

maladies telles qu’Ebola. La société HealthMap basée au Boston Children Hospital avait

remarqué neuf jours avant la déclaration officielle de la propagation d'Ebola, l'existence et le

développement de ce virus en Guinée grâce à l'étude des réseaux sociaux, des bulletins

d'informations locaux et d'autres bases de données. Avec toutes ces données réunies, un

algorithme développé par HealthMap a pu détecter la progression du virus en Afrique. Il est

impossible de savoir si une détection du virus plus tôt aurait permis de résorber l'épidémie.

Mais d'après Mme Eisenberg, épidémiologiste à l'Université du Michigan, l'utilisation des

mégadonnées pourrait permettre d'aider à combattre de nombreuses épidémies. Le

Ministre des Communications et de la Technologie nigérian a affirmé avoir eu recourt à

l'exploitation des données afin de combattre Ebola au Nigéria. La technologie et les médias

sociaux sont au centre de la disparition de ce virus. Le Ministre Omobola Johnson à déclaré

que l'application mobile «a permis de réduire de 75% le temps d'alerte quand une personne

tombait malade». Le rassemblement des données pourrait aider les autorités de santé à

allouer avec le plus d'efficience possible les ressources nécessaires à la lutte contre les virus

de type Ebola dans le futur.

D'après le Docteur Laurent Alexandre, chirurgien urologue, fondateur de Doctissimo et

DNAVision, le cancer pourrait être d'ici 2030 une maladie chronique maîtrisée. Elle pourra

être mise sous contrôle comme le SIDA et cela grâce au Big Data. En effet, l'utilisation des

nanotechnologies ainsi que l'augmentation de la puissance informatique permettront à long

terme de faire reculer le cancer. Afin d'analyser la constitution génétique d'une tumeur, 20

000 milliards d'informations sont nécessaires. L'essor de l'information et du Big Data va

permettre de traiter rapidement ces informations et de fournir à chaque patient un

traitement thérapeutique adapté. Mais cet exercice peut être amené à rencontrer des

problèmes. Le cancer est une maladie qui peut muter et il y a constamment des résistances

dans le cancer. Il est très complexe d'analyser ces mutations génétiques c'est pourquoi les

ordinateurs devront être très performants.

B. Au niveau national

En matière de technologie, on place toujours les États-Unis largement devant les pays

Européen. Si la France est autant compétitive, c'est grâce à l'État qui a très bien compris

l'importance du Big Data. Le gouvernement met en place de nombreuses formations pour

former des datascientists. Et la position de la France est en partie due à la qualité de la

formation que reçoivent les ingénieurs en mathématiques et en statistiques. L'esprit du

système éducatif français est en parfaite adéquation avec l'enjeu du Big Data, ce qui est un

atout considérable pour la France. Ces derniers sont très demandés à travers le monde. La

France a donc toutes les compétences pour gagner la bataille du Big Data.

14

Mais pour transformer les risques en opportunités et profiter pleinement des effets du Big

Data, l'État doit mettre en place un cadre réglementaire favorable et fournir une puissante

réserve de datascientists. Le Big Data repose sur une actualisation permanente des données

et un croisement de ces dernières. Ces deux piliers évoluent très rapidement et vont venir,

en France, se heurter au cadre réglementaire strict. Des discussions sont en cours entre

l'État et la CNIL afin d'adapter le cadre réglementaire français aux enjeux du Big Data. Le Big

Data va devenir au fur et à mesure des années un levier de croissance majeur. Certes il

supprimera de nombreux emplois, mais d'autres, plus nombreux, vont apparaître d'ici 2020

aussi bien dans les fonctions liées au Big Data au sein des entreprises mais aussi chez les

fournisseurs de technologies et de services. Ce secteur est en plein essor et affiche un taux

de croissance de 40%.

La publicité n’échappe pas au Big Data. En effet de nombreuses start-up françaises

spécialisées dans le Big Data permettent à leurs clients de mieux adapter leur publicité à

leurs clients grâce à l'analyse des données. Grâce aux mégadonnées on peut analyser les

comportements des consommateurs et leur proposer des publicités qui correspondent à

leurs besoins qui sont plus efficaces. La start-up française Quinten permet à ses clients

d'affiner leur communication grâce à un algorithme qui identifie et caractérise les sous-

groupes achetant un tel ou tel produit. D'après Reda Gomery, associé responsable data et

analytics chez le cabinet Deloitte, le Big Data "est un enjeu majeur pour la pub et le

marketing". Les publicités sont alors adaptées à la cible, ce qui à plus d'impact sur cette

dernière et nous permet, selon lui, de "sortir de l'ère des publicités de masse". Il est aussi

possible d'exploiter les paiements afin de déterminer les comportements d'achats dans

certains lieux. D'après une étude Toluna pour Havas Media, 93% français sont conscients

que leurs données sont captées et analysées mais 84% d'entre eux sont inquiets de l'usage

qui peut en être fait.

Des nombreuses négociations sont en cours au niveau européen pour décider des nouvelles

règles à mettre en œuvre concernant les données personnelles. Cela aboutirait à une

unification des réglementations en Europe. Les acteurs du numérique seraient alors obligés

d'appliquer ce droit lorsqu'ils s'adressent à un consommateur européen. Ces démarches

sont mal perçues par certaines personnes qui craignent que cela accentue le retard du

développement numérique en Europe par rapport aux grands acteurs américains.

C. Au niveau des organisations

Une étude commandée par Teradata montre que la France est largement devant ses

compères européens en termes de de gestion et d'analyse du Big Data. D'après l'étude,

l'avancement de la France est dû au fait que les entreprises françaises ont pris conscience de

l'importance de l'exploitation des données dans le monde actuel. Ainsi, trois entreprises sur

cinq utilisent le traitement analytique des données afin de maximiser leur efficacité et de

15

bénéficier d'un gain de temps considérable. Le Big Data est un secteur à exploiter pour les

entreprises mais il est important de bien le faire pour le valoriser. Il peut jouer un rôle au

niveau de nombreuses étapes : au niveau de la conception il permet de récolter de

nombreuses données sur les clients et les analyser afin de cerner plus précisément la

demande potentielle. Au niveau de la distribution il va permettre d’optimiser le mode de

distribution à la demande potentielle et effective. Enfin, au niveau marketing et publicitaire

il va permettre d’analyser les besoins et les attentes des clients afin d’anticiper leurs

demandes. Toutes les entreprises commencent à s'y intéresser mais seulement 34 % d'entre

elles se sont lancées dans un projet d'envergure pour l'analyse des données. En France,

d'après une étude publiée par le cabinet de conseil EY, les entreprises françaises se

montrent réticentes à son utilisation, car pour deux tiers d'entre elles, c'est un concept

intéressant à développer mais encore trop vague pour que cela puisse constituer un levier

de croissance. Les secteurs qui utilisent le plus le Big Data en France sont les télécoms, les

médias et les technologies.

Certaines entreprises françaises ont fait le choix d’avoir recourt à l’analyse des données pour

améliorer leurs performances, c’est le cas de BlablaCar et des Pompiers de Paris. Le groupe

HP a mis en place un logiciel d’analyse des données, HP Vertica. Ce dernier a récemment été

utilisé par le site de covoiturage BlablaCar pour améliorer sa relation client, la fidélisation

des clients et ses campagnes marketing. Ce logiciel permet à des entreprises comme

BlablaCar d’analyser très rapidement des volumes importants de données qui sont

essentielles à l’élaboration des stratégies marketing. Les pompiers de Paris ont aussi bien

compris l’intérêt du Big Data et ses bénéfices. Ils l’utilisent pour de nombreuses

interventions pour gagner du temps. Pour cela, ils utilisent, en plus de leur données, celles

fournies par EDF, les mairies, GDF ou encore la SNCF. Suite à l'analyse de ces données, ils

savent quelles sont les caractéristiques du lieu d'intervention et ils peuvent être plus efficace

en mieux allouant les ressources (exemple de nombre d'échelles à envoyer en fonction du

bâtiment où a lieu l'intervention). D'après le commandant Raclot, d'ici un à trois ans, ils

auront des informations plus précises sur les caractéristiques du lieu d'intervention telles

que le nombre d'étages, la localisation des accès pompiers. Ceci permettra de gagner du

temps pour sauver des vies. Lors de la réception d'un appel, ils pourront dire la probabilité

pour qu'une urgence vitale arrive dans ce secteur et s’il faut préserver le camion en réserve

et appeler une équipe plus loin. Dans l'Ain, l'analyse des données est utilisée pour prédire les

orages et établir leur évolution. Cette étude va permettre de rendre plus efficace

l'intervention des pompiers pour éviter d'appeler une équipe qui sera contactée par la suite

du fait de l'évolution de l'orage.

16

IV. La protection des

données

Suite au développement des nouvelles technologies, le Big Data représente une véritable

révolution du numérique dans une« société de la connaissance » (Smartphones, Internet,

Cloud, Open Data…). Souvent comparé au « Big Brother » pour l'utilisation que l'on peut en

faire, ce concept désigne une quantité importante de données, de différentes natures, en

circulation générées par celui-ci. Mais une des principales problématiques de ce phénomène

porte sur la protection des données D'autant plus qu'elles ne sont pas toutes de même

nature et ne sont donc pas réglementées sous le même régime juridique. Ce sont les

données à caractère personnel générées par le Big Data qui représentent le plus gros enjeu :

entre innovation pour les entreprises et inquiétude pour les internautes et consommateurs.

Alors que dit la loi sur la protection de ces données et comment est elle mise en œuvre et

appliquée face à l’évolution des technologies ?

En 2013, Edward Snowden a dévoilé le programme de surveillance électronique PRISM de la

NSA (Agence de sécurité nationale des Etats-Unis) alimenté par les plus grands du Web

comme Google, Facebook, Microsoft... De plus, les nouvelles technologies ne permettent

pas une protection et un contrôle total de toutes ces informations. En effet, il est possible de

rencontrer des problèmes tels que des fuites de données (Orange) ou le piratage du cloud

(Sony...) Ces multiples événements nous poussent à se poser la question de la protection de

nos données et du droit à la vie privée.

A. Les différentes natures de données

Lorsqu’une notion émerge, il est nécessaire de définir les concepts et leur périmètre, limiter

les contextes d’usages et repenser les textes de loi lorsqu'ils sont devenus obsolètes.

En France, la collecte, l'analyse et l’usage de ce type de données sont réglementés par la loi

Informatique et Libertés de 1978 qui transpose la directive européenne de Protection des

données du 24 octobre 1995 et qui régit la collecte et le traitement des données à caractère

personnel.

Il est donc indispensable de fixer certaines mesures juridiques afin de protéger la vie privée

des individus et leurs données récoltées afin de trouver un équilibre entre la protection des

17

individus et la libre circulation de ces données. Il est aussi important de distinguer les

différents types de données, car il existe plusieurs régimes de protection selon leur nature :

Les données publiques :

Ces données sont disponibles à tout moment. Elles sont réglementées par 3 principes :

_ principe de disponibilité : (loi CADA depuis 1978) libertés d'accès aux documents par les

citoyens et obligations de communiquer pour les administrations.

_ principe de réutilisation

_ principe de gratuité

Le développement de ces données s'est fait grâce à la mission Etalab par l’ouverture, la plus

large possible, et la gratuité des données publiques pour plus de transparence et de rendre

l’action publique efficace.. C'est ce qu'on appelle l'Open Data ou « données ouvertes » qui

désigne le fait de mettre à disposition de tous les données récoltées par les administrations

publiques.

Les données privées :

Pour ces données, il n'y a pas de régime juridique défini. Il est donc nécessaire de vérifier s'il

existe des clauses concernant la réutilisation

Les données provenant des réseaux sociaux :

Données à forte valeur ajoutée ? D'un point de vue générale, elles sont privées mais cela

peut diverger par rapport aux « paramètres de confidentialité »

Les données provenant des bases de données :

Ces données sont quant à elles régies par le Code de la Propriété Intellectuelle, 1998, art.

L112.3 qui définit une base de données comme « «recueil d'œuvres, de données ou d'autres

éléments indépendants, disposés de manière systématique ou méthodique, et

individuellement accessibles par des moyens électroniques ou par tout autre moyen ».

Ce code protège l'utilisation, la reproduction ou la représentation de productions

intellectuelles car « l'auteur d'une œuvre de l'esprit jouit sur cette œuvre, du seul fait de sa

création, d'un droit de propriété incorporelle exclusif et opposable à tous » (art.L111-1).

La création de données faites par le biais des bases appartient au droit « sui generis », c'est à

dire qu'on ne peut classer ces données dans une catégorie déjà connue. Cela s'explique par

le fait du récent développement des technologies et des réseaux sociaux depuis plusieurs

années.

Les données personnelles :

Ce sont ces données qui nous intéressent principalement car elles sont celles qui ont le plus

de valeur. D'autant plus que des données parfois non personnelles peuvent le devenir après

avoir été analysées (ou recoupées). Ce phénomène est de plus en plus rencontré à cause du

18

Big Data, qui a pour objectif une meilleure identification, un meilleur ciblage

comportemental des individus grâce à la quantité des informations.

Une grande attention est portée sur la gestion des données à caractère personnel (data

privacy) et leur sécurité et confidentialité (data security).

En France, le Big Data est en parti réglementé par la loi Informatique et Libertés du 6 janvier

1978. Elle est celle qui réglemente l'utilisation de ces données personnelles. Une donnée à

caractère personnel est définie comme « toute information relative à une personne

physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence

à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres » (art.2 de la

loi Informatique et Libertés), c'est à dire des informations nominatives ou non (nom,

prénom, adresse postale, mail, adresse IP, numéro de téléphone, géolocalisation,

comportement...)

Les données personnelles sont protégées par cinq critères :

Finalité de l’utilisation : Selon l’article 6 de la loi Informatique et Libertés, les données

doivent être conservées dans un but bien précis, c'est à dire pour une finalité « déterminée,

explicite et légitime »

Pertinence : elles ne doivent pas être traitées ultérieurement de manière incompatible avec

ces finalités et seules les données nécessaires et pertinentes pour les atteindre doivent être

collectées.

Le droit à l’oubli : permet de conserver les données pendant un certain temps, en fonction

de l’objectif de l’utilisation. La durée de conservation des données ne doit pas excéder la

durée nécessaire aux finalités pour lesquelles elles sont collectées et doivent être détruites

passé ce délai. Le droit à l'oubli est un projet de règlement européen du 25 janvier 2012 qui

a pour but d'harmoniser et unifier le régime de protection des données personnelles au sein

des États-Membres de l'Union Européenne, tout en protégeant davantage les citoyens.

Ex : Google a annoncé dernièrement la mise à disposition d’un formulaire pour les

Européens qui veulent demander la suppression de résultats sur son moteur de recherche.

Sécurité et confidentialité : les personnes responsables des données doivent assurer leur

sécurité et leur confidentialité.

Le respect des droits des personnes : chaque personne ayant transmis ses données, a le droit

d’y avoir accès et être informer sur leur utilisation.

B. Réglementation

Au sein de l'Union Européenne, la directive 95/46/CE du Parlement Européen fixe les limites

et oblige la création, dans chaque État membre, d'un organisme national indépendant

chargés de la protection des données personnelles.

19

En France, l'organisme qui en est chargé et qui a pour but de réglementer ce domaine,

depuis 1978, est la CNIL (Commission nationale de l'informatique et des libertés). Cet

organisme a un droit de regard et de contrôle sur les fichiers de renseignement. Sa

principale mission est de « protéger la vie privée et les libertés dans le monde numérique ».

Concernant le Big Data, toute collecte ou traitement d'informations doivent être déclarés

auprès de cet organisme. Elle exerce ces missions d'information et de régulation auprès des

personnes, du gouvernement et des organisations.

En plus de son pouvoir de contrôle qui assure la conformité des traitements informatiques,

la CNIL possède le pouvoir de publier les sanctions qu’elle prononce du fait de son

indépendance. Ces sanctions sont sous forme d’avertissements, mises en demeure ou de

sanctions administratives et financières. Ses sanctions vont jusqu'à 150 000 € et peuvent

doubler en cas de récidive.

C. Contrôle des données

Il est primordial d'instaurer une relation de confiance et de transparence entre les différents

acteurs. Mais bien souvent les individus ne sont pas ou sont mal informés. Or, il est

nécessaire que les personnes concernées aient connaissance de l'utilisation que l'on peut

faire de leurs données et pour ainsi pouvoir le contrôler.

La directive vue précédemment permet, par conséquent, aux individus de garder un

minimum de contrôle de leurs données grâce à plusieurs principes :

_ leur consentement, c'est à dire « toute manifestation de volonté libre, spécifique et

informée ». Par exemple, les Cookies (ou témoins de connexion) ne peuvent être utilisés

qu'avec le consentement préalable de l’utilisateur.

_ le droit d'accès à ses informations

_ le droit d'opposition au traitement des ses données ou à la revente à des tiers

_ le droit de rectification pour modifier les données erronées qui les concernent

_ la notification ou droit à l'information auprès de l'autorité de contrôle (CNIL).

20

Conclusion

Le nombre de données produites chaque jour par les internautes est en constante évolution,

en parallèle avec le taux d'équipement en objets connectés qui ne cesse de croître. Le Big

Data est donc devenu une formule courante, désignant une évolution majeure dans de

nombreux domaines comme l'économie ou les nouvelles technologies et de l'électronique.

Mais le traitement des données devient alors de plus en plus complexe, car celles-ci peuvent

être fausses, dépassées ou biaisés. Pour analyser les bonnes données, de nouvelles

technologies et de nouveaux acteurs spécialisés dans le traitement de données sont apparus

sur le marché afin de trier et de nettoyer les données. De plus, afin de conserver les données,

les capacités de stockage sont devenues plus flexibles afin de pouvoir recueillir toute cette

masse de données.

Les données peuvent être exploitées dans des domaines totalement différents et à des

échelles différentes. En effet elles peuvent servir à suivre l'évolution d'une maladie ou encore

améliorer l'efficacité et la relation client d'une entreprise. Les entreprises ne sont pas les

seules à utiliser le Big Data et les États jouent un rôle majeur dans leur exploitation. En effet

les législations que ces derniers vont mettre en place vont orienter l'exploitation des données.

Ces données peuvent contenir des informations concernant les individus qui peuvent porter

atteinte à leur vie privée. Il est donc primordial que la loi encadre ces pratiques. En effet les

législations que ces derniers vont mettre en place vont orienter l'exploitation des données.

Celui-ci a pour mission de protéger la vie privée et les libertés des individus grâce à son

pouvoir de contrôle et de sanctions.

Ainsi, pour permettre une utilisation optimale du Big Data dans les années à venir il faut que

la légalisation s'adapte aux évolutions. De plus c'est un milieu en expansion et plein d'avenir

pour les nouvelles technologies et l'emploi.

21

Glossaire

BIG DATA : Le terme utilisé lorsque la quantité importante de données nécessite de

nouvelles approches technologiques pour leur stockage, leur traitement et leur utilisation.

Volume, vitesse et variété sont souvent les trois critères qui permettent de qualifier le “Big

Data”.

CADA : autorité administrative indépendante dont le rôle est consultatif, et qui permet

d’accéder aux données publiques. Elle intervient pour tous les documents détenus par un

service de l’Etat, une collectivité territoriale, un établissement public ou un organisme

chargé de la gestion d’un service public, que cet organisme soit public ou privé.

CNIL : autorité publique chargée de veiller à la protection des données personnelles. Elle

dispose d’un pouvoir de contrôle et peut également sanctionner les entreprises,

organisations ou individus collectant des informations personnelles qui ne respectent pas la

loi informatique et liberté.

DATAJOURNALISME : Nouveau type de journalisme basé essentiellement sur l’utilisation des

données, consistant à identifier des données intéressantes, en faire l’analyse, en extraire des

informations nouvelles et en présenter éventuellement les résultats sous la forme d’une

visualisation interactive.

DONNEES PUBLIQUES : Données collectées, maintenues et utilisées par les organismes

publics pour accomplir leur mission.

ETALAB : Mission chargée de mettre en œuvre la politique d’ouverture des données de

l’administration française, et de mettre en place un annuaire des données publiques

françaises.

22

HADOOP : Infrastructure logicielle pour application big data qui inclut un système de

stockage et un outil d’exécution parallèle d’applications.

MAP REDUCE : Méthode d’exécution de programme parallèle consistant à envoyer sur

chaque donnée une fonction à exécuter (map) puis à récupérer les résultats pour les intégrer

dans un résultat final (reduce).

NOSQL : Base de Données n’obéissant pas au modèle relationnel, à fonctionnalités réduites,

se prêtant bien au traitement massivement parallèle des données.

OPEN DATA / OUVERTURE DES DONNEES : Principe selon lequel les données publiques

(celles recueillies, maintenues et utilisées par les organismes publics) doivent être

disponibles pour accès et réutilisation par les citoyens et les entreprises.

SMART DATA : Alternative au Big Data qui vise à ne collecter et analyser que les données

utiles et pertinentes.

23

Annexes o Infographie : Définition du Big Data

24

o Infographie : L’évolution du Big Data

25

o Infographie : Le Big Data à la coupe du monde par l’équipe allemande

26

o Infographie : Protection des données personnelles

27

o Tableau des sources :

28

29