Upload
erwan-tanguy
View
4.721
Download
0
Embed Size (px)
Citation preview
Extraire et trier des données en ligne Erwan Tanguy
Stratégie et veille
06 62 15 11 02 [email protected] http://ouestlab.fr/
Web scraping ? Le web scraping est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Attention, il peut y avoir une utilisation légale ou illégale du web scraping. Nous nous intéresserons qu’à la première.
2
Web scraping ? Pour quoi faire ? Transférer des données d’un site vers un autre site ou vers
un document (type tableau Excel) ; Transformer des données pour y ajouter une valeur avant de
la partager sur des réseaux sociaux ; Récupérer des informations provenant de la concurrence
pour pouvoir les analyser ; Illégal : récupérer des données, les publier à son compte, les
vendre ; …
3
Pour faire de la veille ? La veille est un élément stratégique important et souvent négligé. Elle aide à prendre des décisions, permet d’évoluer et de rester à l’écoute.
Ce n’est en aucun cas de l’espionnage !
La veille numérique travaille à partir des données disponible légalement sur internet.
La veille, associée à des techniques de web scraping, va pouvoir récupérer des données et les rendre lisibles, accessibles, pour un public large ou pour des personnes précises.
Ces données, provenant généralement de sites web, pourront être récupérées au sein d’un document dynamique (un spreadsheet sur Google Drive par exemple) ou compilées sur un flux RSS dans le but d’alimenter une newsletter…
4
Des outils de web scraping Pour récupérer des données : Google spreadsheet ; Import.io ; Kimono ; Feed43 ; Pour trier, transformer ou compiler les données : Feed Rinse ; RSS Mixer ; Dlvr.it…
Pour pousser les données :
IFTTT ;
Dlvr.it ;
Zapier…
Pour partager les données :
Les suites d’outils Google (Drive, Group…) ;
Excel ;
Des intranets ou des sites privés…
Des sites ou des réseaux sociaux ouverts…
5
Import.io
6
Import.io
Dans la liste des outils gratuits permettant de réaliser une récupération de données, vous pouvez utiliser Import.io qui propose un espace en ligne et une application.
7
Partons d’un exemple Sur une page de vente immobilière du site pap.fr, je voudrais suivre les nouvelles vente de maisons, d’appartements ou autres au fur et à mesure.
URL :
http://www.pap.fr/annonce/vente-immobiliere-rennes-35-g43618
8
Partons d’un exemple
9
Sur cette page, je ne souhaite récupérer que les informations de zones précises liées à ma recherche : une liste de vente.
Import.io Cet outil est relativement simple à
utiliser puisqu’il nécessite juste de
zoner les parties de la page avec
laquelle nous souhaitons réaliser
un flux.
Le flux obtenu pourra être
récupérer en tableau soit dans
Excel soit dans un spreadsheet
sur Drive (avec la possibilité de le
rendre dynamique).
10
Import.io Plusieurs méthodes d’extraction des données sont possibles via l’application gratuite :
Magic propose automatiquement de récupérer les données qui semblent être les plus évidentes
Extractor & Classic Extractor vous permet de cibler les éléments de la page et de les organiser dans un tableau
Authenticated Extrator vous permet d’extraire des données sur un site qui nécessite une authentification (attention, cela peut être illégale si vous transmettez ces données)
11
Import.io > Extractor
12
Import.io > Extractor
13
Import.io > Extractor
14
Import.io > Extractor
15
Import.io > Extractor
16
Import.io > Extractor
17
Import.io > Extractor
18
Import.io > Extractor
19
Import.io > Extractor
20
Import.io > Extractor Dans cette partie de l’application,
vous allez pouvoir ajouter les liens
des paginations suivantes pour
récupérer la suite des données.
21
Import.io > Crawler La puissance de Import.io se cache dans l’outil « Crawler » qui va permettre d’aller beaucoup plus loin dans l’extraction de données :
Vous allez pouvoir, à partir de quelques pages du même modèle, scanner (crawler) un site entier !
22
Import.io > Crawler
23
Import.io > Crawler
24
Import.io > Crawler
25
Import.io > Crawler
26
Import.io > Crawler
27
Import.io > Crawler
28
Import.io > Crawler
29
Import.io > Crawler
30
Import.io > Crawler
31
Import.io > Crawler
32
kimonolabs
33
Un autre outil pour la récupération de données.
kimonolabs Kimonomabs propose une plateforme
en ligne et un bookmarklet pour
déclencher la récupération des données
sur une page.
Les formats de sorties sont en json, csv
ou rss. Assez simple donc ensuite de les
importer en dynamique sur un
spreadsheet par exemple.
Comme pour import.io, l’outil étant
simple, il reste limité. Pour notre
exemple, il est impossible de récupérer
les images des annonces.
34
kimonolabs À partir du bookmarklet, vous allez
pouvoir définir, propriété par propriété,
les différents éléments de votre
tableaux.
Si vous souhaitez récupérer un flux RSS
par la suite, je vous conseille de suivre
les noms « title » et « description » pour
définir les données principales, cela
simplifiera sa création.
Une fois terminé, il ne vous reste plus
qu’à enregistrer votre API et la
consulter ou l’intégrer à une plateforme
ou un logiciel.
35
Sociallymap
36
Sociallymap
37
Sociallymap > les entités
• Sociallymap permet de gérer l’automatisation des publications vers vos réseaux sociaux.
• Cette application en ligne est modulaire. Les premiers modules – les entités - vous permettent de vous connecter à :
Facebook (compte et page)
Linkedin (compte et page)
• Vous avez aussi la possibilité de récupérer des flux RSS et de stocker du contenu.
38
Sociallymap > les opérateurs
Les autres modules – les opérateurs – vous permettent de gérer les contenus et leurs diffusion :
Les filtres
Le délai
Le régulateur
Le timer
Le module de rajout
Le module photo
Le modérateur
Ces modules vont réguler la publication de vos flux pour éviter un engorgement qui serait néfaste à leur visibilité.
39
Sociallymap > ouvrir un tableau de bord
Pour commencer, nous devons ajouter un tableau de bord qui nous permettra d’avoir, sur une carte, l’ensemble des automatisations d’une ville, par exemple.
Il suffit de glisser et déposer les modules des entités et des opérateurs sur le tableaux de bord pour les utiliser.
40
Les modules
Le tableau de bord
Sociallymap > Glisser un module
41
Sociallymap > exemple
Prenons comme exemple le flux des concerts de la ville de Rouen sur Dreamville pour Facebook (http://goo.gl/kkaukS).
Nous insérons le module flux RSS sur un tableau de bord.
Nous le renommons et ajoutons l’URL du flux avant de valider.
42
Sociallymap > exemple Nous plaçons ensuite un module « Rajout », des
opérateurs, que nous relions au module du flux
RSS en cliquant sur un carré pour le glisser vers
l’autre carré.
Ensuite, dans le module, nous allons pouvoir
ajouter automatiquement du texte pour tous les
articles.
Ce rajout se fait généralement sur le titre qui
constituera le contenu principal sur Twitter et le
contenu du post sur Facebook. Le lien s’ajoutera
au titre pour Twitter quand il génèrera un aperçu
sur Facebook.
Nous pouvons définir si ce rajout se place en
début ou en fin de texte.
Ici nous rajoutons des hashtags en fin de texte.
43
Sociallymap > exemple Nous plaçons ensuite une citerne. Ce module n’est pas obligatoire mais il permet de publier x fois le même contenu.
Pour déterminer les horaires et les jours de publications, nous ajoutons un timer. Il permet de définir les créneaux horaires de publications ainsi que le jours. Il est possible d’ajouter plusieurs timer en parallèle.
Dans l’exemple, les publications se feront du lundi au vendredi entre 9h et 18h. Ce qui ferait, au maximum, 10 publications par jour pour ce flux.
Puis nous plaçons un régulateur qui va permettre de limiter la publication à une durée (un post toutes les heures par exemple).
44
Sociallymap > exemple
45
Sociallymap > exemple
46
Sociallymap
47
2 modules « timer » pour varier les temps de publications en fonctions des jours
Sociallymap > remarques
48
La citerne va envoyer vos contenus toutes les 5 minutes, ce qui peut vite devenir agaçant pour les internautes qui vous suivent.
Attention : il ne faut pas placer un régulateur avant un timer, vous risquez de ne pas voir vos publications.
Lire aussi http://blog.sociallymap.com/astuce-ne-jamais-placer-un-regulateur-devant-un-timer/ et http://blog.sociallymap.com/astuce-placer-un-regulateur-entre-une-citerne-et-un-profil-social/ pour le placement des modules.
Sociallymap
49
Exemple de tableau sur des envois vers une page Facebook
IFTTT
50
IFTTT
IFTTT est un service en ligne et gratuit qui permet d’automatiser des tâches plus ou moins complexes.
Dans la liste des « Channels », il y a aujourd’hui plus de 220 applications qui peuvent de connecter à IFTTT :
Réseaux sociaux,
Mobile (Android, iOS…),
Google (Gmail, Drive…),
Microsoft (OneDrive, Office 365…),
Objets connectés…
51
IFTTT > exemple avec un flux
À partir d’un flux RSS, nous allons automatiser une tâche pour récupérer tous les nouveaux items dans un tableau sur Google Drive.
Flux : http://lemonde.feedsportal.com/c/205/f/672609/index.rss
Avec un filtre sur le mot « web » et ainsi ne récupérer que les items ayant ce mot…
52
IFTTT > exemple avec un flux
53
IFTTT
54
IFTTT
55
Et aussi
56
Et aussi
RSS Mixer
Simple outil de compilation de flux, il vous permettra de générer un flux unique à partir d’un ensemble de flux RSS.
Feed Rinse
À la fois compilateur de flux et filtre, il vous permettra dans un ou plusieurs flux de filtrer autour de mots clés les contenus.
57
Voir en ligne La page sur pap.fr : http://goo.gl/62sOtz
La présentation sur slideshare (téléchargeable en PDF) : http://goo.gl/XoFzmx
http://app.sociallymap.com
http://www.feedrinse.com
http://www.rssmixer.com/
Tableau des données sur import.io : http://goo.gl/WsRo7u
Flux RSS du kimonolabs : http://goo.gl/hRdqcX
58
59
Votre interlocuteur Domaines d’expertise :
Formation, Réseaux sociaux, Référencement naturel, Définition de stratégie de contenu, Analyse des statistiques, Veille numérique, Réalisation de sites web (WordPress).
Des questions ? 06 62 15 11 02 [email protected] http://ouestlab.fr/
Erwan Tanguy