Upload
forumtelmi
View
1.830
Download
2
Embed Size (px)
DESCRIPTION
Intervention de Philippe Suignard - EDF R&D
Citation preview
Twitter : extraction, regroupement et visualisation pour la veille stratégique
Alina STOICA, Philippe SUIGNARD, Lambert PEPIN
EDF R&D
Plan de la présentation
Introduction
Présentation du réseau social Twitter
Exemple de visualisations de tweets
Expérimentation sur un corpus de tweets parlant d’EDF
Conclusion et perspectives
Introduction
Contexte de veilleConcurrentielle et stratégique sur l’Entreprise
Recherche permanente de l’amélioration de la qualité de la relation avec les clients
Que dit-on d’EDF dans la presse, sur Internet, blogs, forum, réseaux sociaux…?
Twitter occupe une place intéressante réseau social très populaire en France dont le nombre d’utilisateurs a connu une
augmentation récente très importante
format de message court qui oblige les rédacteurs à adopter un style très synthétique
tout en leur permettant d’inclure des liens vers les sources d’origine
particulièrement bien adapté à la diffusion et à la propagation d’information
Twitter offre un accès, relativement facile, à ses contenus
Twitter constitue un support idéal pour contribuer à la veille qu’EDF réalise de manière
continue
Mais pour être efficace, cette veille doit être outillée afin de faciliter le travail du veilleur
C’est cette phase d’outillage que nous décrivons dans la suite de cette présentation…
… qui présente un ensemble de méthodes et outils qui vont nous aider à analyser
« ce qui se dit sur EDF »
Le réseau social Twitter
Twitter : site de micro-bloggingCréé en mars 2006 par Jack Dorsey
« To tweet » signifie gazouiller, pépier
1 tweet = 1 message d’au plus 140 caractères, exemple :
Les tweets sont publics: on peut voir les tweets
d’une personne (éventuellement la suivre, @compte)
contenant un mot clé, un hashtag (ex: #EDF) etc.
peuvent être « re-tweetés (RT ….)
Twitter et droit d’auteurA qui appartiennent les tweets ?
Retweet : droit de courte citation s’applique ?
Texte court ne peut pas être protégé mais slogans publicitaires le sont
Licence TweetCChttp://scinfolex.wordpress.com/2009/06/27/twitter-et-le-droit-dauteur-des-relations-complexes/
http://fr.wikipedia.org/wiki/Twitter
RT @MoreNicolas: Le compteur #Linky , son fonctionnement et ses avantages expliqués!
http://goo.gl/T7VEe
Le réseau social Twitter
Evolution du nombre d’utilisateursUSA (1), Brésil (2), Japon (3), …,
Argentine (17), France (18),
Allemagne (19), etc.
Enquête de Semiocast : 500 millions de comptes.
Nombre très important de création de comptes
au premier semestre 2012 : 30 millions aux
États-Unis. Les USA, pays n°1 dans le monde sur
Twitter, représentent ainsi 27,4 % des comptes
Twitter du globe, et 25,8 % des messages publics.
http://semiocast.com/publications/2012_07_30_Twitter_reaches_half_a_billion_accounts_140m_in_the_US
Paris 7ème ville
Le réseau social Twitter
Qui est sur Twitter ?
Un peu tout le monde !EDF, Henri Proglio, des centrales nucléaires
RTE, ERDF…
Gaz de France, GrDF
Banques (CA, S. Générale…)
La Poste
Opérateurs télécoms (Orange, SFR…)
Grands journaux
… et bien d’autres
Le réseau social Twitter
Interface
Texte du tweet
Nombre de tweets
Abonnements
Abonnés
Compte
Liste des tweets
reçus
Le réseau social Twitter
Typologie de Tweets
Réaction à des sites WebTexte libre
Réaction à des émissions de Télé (http://www.tvtweet.fr)
06/05/2012
Le réseau social Twitter : attention à la contrefaçon !
Comment acheter des « followers » sur Twitter ?C’est la question que se sont posée deux journaux : 27 000 followers
pour 202 dollars d’un côté et 50 000 followers pour 33 € de l’autre ! En fait l’offre est
pléthorique et planétaire, elle va de 0,15 c€ par follower pour des offres « bas de
gamme », jusqu’à 0,2 € par followers pour des offres ayant pignon sur rue avec garantie
de « vrais utilisateurs » comme ce que propose la société Boostic.
La RATP, l’humour et twitterLe 05/09/2012, la RATP a ouvert un compte Twitter pour quatre de ses lignes :
@ligne1_RATP, @Ligne4_RATP, @Ligne12_RATP et @Ligne13_RATP. L'objectif
consistait à tester ce canal d'information en temps réel pour l'étendre ensuite à
l'ensemble des lignes en fonction de l’intérêt du public.
Le lendemain, des internautes se sont amusés à subtiliser l’identité du service en créant
des comptes aux noms de la plupart des lignes de la RATP (puisque le service n’avait
pour l’instant été créé que pour 4 lignes):
Ligne14_RATP : « Attention, ce métro ne prend plus de voyageurs ! (Je dois être léger pour la course
avec @Ligne7_RATP) »
Ligne7_RATP : « Je passe et repasse par Maison Blanche. Je n’ai toujours pas vu le président Obama. »
Ligne7_RATP : « J’ai entamé les démarches pour que le Pont Neuf soit renommé le Pont Sept. »
La RATP a ensuite réagi et récupéré la propriété des « faux » comptes. Puis elle a créé
un site rassemblant les tweets les plus savoureux !
Visualisation des tweets
Travaux existants : VoxCivitas (1/6)Outil, fortement interactif,
d’analyse visuelle
permettant de naviguer au
sein d’une base de
données composées de
vidéos et de tweets relatifs
à ces vidéos. L’application
permet de visualiser les
tweets au fur à mesure de
la lecture de la vidéo, ou
encore de naviguer dans
ces tweets et de se
positionner sur la vidéo au
moment de l’émission du
tweet. Cette application
s’appuie sur les discours de
B. Obama pendant la
campagne électorale
américaine.
Visualisation des tweets
Travaux existants : Nokia Internet Pulse (2/6)
Cet outil balaie
automatiquement le site de
micro-bloging en fonction
de mots clés particuliers,
puis classe, en deux
catégories, les messages
relevés, ceux faisant acte
de sentiments positifs, et
ceux qui véhiculent plutôt
un message négatif.
L'ensemble des données
est organisé sur une plate-
forme en ligne, qui met en
avant un nuage de mots-
clés correspondant aux
commentaires des
internautes
Visualisation des tweets
Travaux existants : TweetTopicExplorer (3/6)
Cet outil commence par
récupérer les tweets d’un
compte donné et les
assemble en un nuage de
bulles créées à partir des
mots les plus fréquents des
tweets émis par ce
compte.
Visualisation des tweets
Travaux existants : twitInfo (4/6)
Permet d’explorer un
événement, comme un
discours ou une rencontre
sportive, en détectant et
labellisant
automatiquement des pics
dans le flux d’arrivée des
tweets, et en proposant une
interface regroupant
géolocalisation, sentiments,
liens populaires et tweets
significatifs
Visualisation des tweets
Travaux existants : twitt3D (5/6)
Récupère les tweets d’un
compte donné et les affiche
avec la photo de leur
auteur, le tout en trois
dimensions. Permet une
navigation 3D dans
l’ensemble de ces tweets.
Visualisation des tweets
Travaux existants : « twitter tongue »(6/6)
Récupère les tweets d’une
ville (New-York et Londres)
à l’aide de la localisation,
détecte la langue du tweet
et l’affiche sur une carte.
Permet de situer sur une
carte les nationalités des
personnes.
http://infosthetics.com/archives/2013/02/new_york_london_mapped_according_to_the_languages_that_are_tweeted.html
Visualisation des tweets
Travaux réalisés (1/3)Inspirés de « StoryFlow » et « StreamGraph », notamment fait pour représenter
l’évolution des entrées des films au cours du temps.
Analogie entre tweets et films : apparition puis décroissance plus ou moins
rapide.
Avantage : mettent en évidence les thèmes ou films ayant réalisés beaucoup
d’entrées et ceux restés longtemps présents au box-office.
StoryFlow
Visualisation des tweets
Travaux réalisés (2/3)Pour chaque période (ici le jour), calcul de la liste des thèmes (terme générique pour
désigner un cluster, une méta-donnée, etc.) et leur occurrence ;
Classement des thèmes par ordre décroissant
Affichage de chaque thème proportionnellement à son occurrence, en plaçant le plus
important en haut de l’écran ;
Si le thème a déjà été rencontré par le passé, on lui
attribue la même couleur que précédemment, si le thème
n’a pas encore été rencontré on lui attribue une nouvelle
couleur.
Si le thème ne se trouve pas dans la période concernée
(comme A en période J sur la figure 5), on regarde si on
va le retrouver ultérieurement. Si c’est le cas, alors on lui
attribue la taille la plus petite qui soit et on le fait passer
sous l’axe des ordonnées, ce qui permet de maintenir une
continuité visuelle. Cette particularité n’existe pas dans
l’algorithme d’origine.
Ensuite on relie les thèmes entre deux périodes
successives via des courbes de Béziers afin de produire
un rendu « lissé ».
Visualisation des tweets
Travaux réalisés (3/3)
En jouant sur la largeur des barres et sur leur espacement, on fait apparaître
des phénomènes différents. Ainsi, sur la figure :
à gauche, un faible espacement inter-barre met d’avantage en évidence les thèmes et leur
score pour une période donnée ;
à droite, un espacement inter-barre plus important et une taille de barre plus petite mettent
d’avantage en évidence les évolutions d’un thème au cours du temps.
Expérimentation sur corpus de tweets parlant d’EDF
Collecte d’un corpus EDFCollecte des tweets grâce à l’API Twitter (recherche par mot clé)
Twitter permet uniquement de rechercher les tweets récents (3 à 6 jours), d’où un
processus de collecte permanent
Pour les tweets, permet de récupérer :
identifiant, auteur, texte, date et heure
Pour les auteurs :
identifiant, followers, image
Collecte des tweets contenant « EDF » publiés entre le 3 mars 2011 et le 25 juin
2011
Elimination de tweets parlant de sport (EDF = « Equipe de France » !) en utilisant
une liste de mots liés au sport (« entraineur », « match », « football », «Deschamp»
etc.)
23 574 tweets
8 567 tweets
Expérimentation sur corpus de tweets parlant d’EDF :
regroupement des tweets quasiment identiques
Objectif : Regrouper les tweets ayant des contenus très similaires
Similarité des textes des tweetsUtilisation de l’ensemble de mots d’un tweet = tous les mots du tweet sauf:
noms précédés par «@»
URLs
le mot final, s’il est suivi par « … » et il n’y a pas d’espace entre le mot et « … » (mot tronqué)
mots « blancs » (« y », « en », « à », « et » et les articles définis et indéfinis).
Pour deux tweets A et B, utilisation de la distance de
Jaccard améliorée
Où nA = le nb. de mots dans l’ensemble du tweet A
nAB = le nb. de mots communs aux deux ensembles
Remarque: dist(A,B) = 0 si les ensembles des mots sont identiques (à l’ordre des mots près) et
dist(A,B) = 1 si les deux ensembles n’ont aucun mot en commun
Expérimentation sur corpus de tweets parlant d’EDF :
regroupement des tweets quasiment identiques
Méthode de clusteringContraintes du clustering
La distance de Jaccard améliorée entre deux tweets d’un même cluster est au plus d
L’écart de temps maximal entre deux tweets consécutifs d’un même cluster est au plus t
Clustering hiérarchique qui tire profit de la contrainte temporelle
il n’est pas nécessaire d’évaluer à chaque étape les distances entre tous les clusters, mais seulement les
distances entre chaque cluster et ceux des quelques jours précédents
Gain de temps
Etapes1- chaque tweet est attribué à un cluster (qui ne contient que lui) et à un jour (son
jour de publication) ;
2 - on fait un clustering hiérarchique des tweets d’un même jour
3 - on répète jusqu’à ce qu’on ne puisse plus fusionner des clusters :
pour chaque jour j, on calcule la distance entre les clusters du jour j et ceux des
jours précédents (j-1 jusqu’à j-t)
on choisit le couple de clusters pour lequel la distance est minimale (et inférieure
à d) et on fusionne les deux clusters
Corpus EDF, les HashtagsHasthtags fréquents (par thématique):
nucléaire : #nucleaire (384), #areva (165), #fukushima(208), #tepco (41) ;
nouveau compteur déployé dans la région lyonnaise : #erdf (64), #linky (63), #lyon (22) ;
écologie : #eelv (58), #hulot (53), #renouvelable (23) ;
énergie en général : #energie (50), #production (36) ;
emploi : #emploi (38).
Résultat du clustering
Nous utilisons les 4114 clusters obtenus pour d=0,6 et t=3 jours
2853 clusters contiennent un seul tweet
le plus grand cluster comprend 155 tweets
Expérimentation sur corpus de tweets parlant d’EDF
Seuil distance d Seuil temps t nb. clusters0,50 1 jour 4618
0,55 1 jour 4494
0,60 1 jour 4310
0,65 1 jour 3197
0,55 2 jours 4553
0,55 2 jours 4419
0,60 2 jours 4214
0,50 3 jours 4 494
0,55 3 jours 4 349
0,60 3 jours 4114
Exemple de regroupement@alexbongibault : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » -http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
de-40_1503641_3244.html
@vodka083 : RT @lemondefr : « Avec une petite éolienne, j'ai baissé ma facture EDF
de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-
facture-edf-de-40_1503641_3244.html
@chikkitita : Adoptons tous une éolienne RT @lemondefr [TEMOIGNAGES] « Avec
une petite éolienne, j'ai baissé ma facture EDF de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
de-40_1503641_3244.html
@homeenergyperf : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% »
Invités à faire part de leur expérience en matière... http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
de-40_1503641_3244.html
Expérimentation sur corpus de tweets parlant d’EDF
Autre exemple de regroupement@Francetweets : Chantage politique sur les tarifs d’EDF: Il fallait oser!
@Supdeco : Chantage politique sur les tarifs d’EDF
@liberation_fr : Chantage politique sur les tarifs d’EDF
@Dgcourriel : RT @liberation_fr: Chantage politique sur les tarifs d’EDF
Expérimentation sur corpus de tweets parlant d’EDF
Visualisation des clusters
Cette visualisation permet de voir rapidement :
Les périodes qui ont connu beaucoup de tweets ;
Les clusters importants en volume caractérisés par des barres de couleur en haut de la courbe
Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue et s’étalent sur plusieurs
jours, contrairement à ceux qui ont une faible durée de vie.
Expérimentation sur corpus de tweets parlant d’EDF
Visualisation des hashtags
Cette visualisation permet de voir rapidement la distribution des hashtags dans le corpus
Expérimentation sur corpus de tweets parlant d’EDF
Expérimentation sur corpus de tweets parlant d’EDF
Un outil permettant de naviguer dans les tweetsRecherche par mot clé, date, semaine, mois, RT
Visualisation sous la forme de courbe
Nuage de mots clé
Conclusion et perspectives
Chaine de traitement s’appuyant sur TwitterÀ l’état de prototype
Récupération des données, filtrage, regroupement et visualisation
Plusieurs pistes d’améliorations envisagées :
la phase dite de regroupement, qui consiste à regrouper des contenus très proches
produit une liste de « clusters » trop grande. Il faudra sans doute opérer un
deuxième niveau de « clustering » pour obtenir des groupes de « clusters », ces
groupes étant plus thématiques que les premiers ;
un module de détection de sentiments et d’opinions pourrait être intégré dans la
chaine de traitements. Il permettrait de rechercher ou visualiser les « clusters »
positifs ou négatifs. Pour cela nous nous appuierons sur des outils du commerce.
Evaluation d’un point de vue métierCe travail devra être testé d’un point de vue métier, c'est-à-dire par ou avec les
personnes concernées par la veille, ceci afin de voir dans quelle mesure un tel outil peut
être intéressant et complémentaire avec les outils et pratiques existants.
Cette confrontation permettra aussi de faire évoluer la chaine de traitements décrite
dans cet article.
Merci
V.S.S.T.'2012 : 24 - 25 mai, Ajaccio
Twitter : extraction, regroupement et visualisation pour la veille stratégique
Alina STOICA, Philippe SUIGNARD, Lambert PEPIN
EDF R&D