34
1 Cours UE 105.c : Collecte d’information informelle Enseignant : Sahbi SIDHOM

Cours UE 105.c :

  • Upload
    bryga

  • View
    52

  • Download
    0

Embed Size (px)

DESCRIPTION

Cours UE 105.c :. Collecte d’information informelle Enseignant : Sahbi SIDHOM. Plan du cours :. Séance n°1 : Communication électronique : théorie, pratique Forum et liste de discussions : théorie, pratique Séance n°2 : Blog : théorie, pratique Wiki : théorie, pratique Séance n°3 : - PowerPoint PPT Presentation

Citation preview

Page 1: Cours UE 105.c  :

1

Cours UE 105.c :

Collecte d’information informelle

Enseignant : Sahbi SIDHOM

Page 2: Cours UE 105.c  :

2

Plan du cours : Séance n°1 :

Communication électronique : théorie, pratique Forum et liste de discussions : théorie, pratique

Séance n°2 : Blog : théorie, pratique Wiki : théorie, pratique

Séance n°3 : Outils de collecte : théorie, pratique Annuaire, MRI, MMRI, AI-RI, AI-Veille : pratique

Séance n°4 : Projets par groupe de travail : théorie, recherche,

application Évaluations

Page 3: Cours UE 105.c  :

3

Séance n°3

Page 4: Cours UE 105.c  :

4

I.

Outils de collecte : théorie, pratique ?

Page 5: Cours UE 105.c  :

5

Classement des outils un classement sur les outils de collecte

comprend : les outils de collecte, les outils d'analyse, les outils de diffusion,

et les outils intégrés.

Page 6: Cours UE 105.c  :

6

Les outils de collecte : moteurs de recherche, outils de surveillance de sites Web

La collecte d'informations vise à rassembler des faits, des opinions, des études sur les thèmes définis préalablement.

Ces éléments sont collectés à partir de sources formelles ou de sources informelles: Les sources formelles sont le plus souvent des sources électroniques. Il

s'agit de l'Internet, de fils d'information, de bases de données professionnelles

Les sources informelles sont le plus souvent des sources humaines. Il peut s'agir, dans le cadre de la veille concurrentielle, de commerciaux opérant sur le terrain. Un premier classement et un stockage des informations brutes sont réalisés à ce niveau.

L'utilisation de logiciels permet de faciliter la collecte des informations. On peut donc y faire figurer tous les outils de veille tels que les moteurs de recherche, les outils de surveillance de sites, les crawlers, les annuaires, les agents intelligents (cf.p.9), etc.

Page 7: Cours UE 105.c  :

7

Les outils d'analyse : outils d'analyse textuelle, cartographie et catégorisation de l'information

L'analyse et la synthèse de l’information sont des activités à haut niveau en terme de valeur ajoutée : Un classement et un stockage des informations « raffinées » sont opérés à ce niveau. Usuellement, c'est lors des activités d'analyse et de synthèse que sont produits les

livrables de la veille. Ces activités doivent permettre :

de valider les informations recueillies, d'en extraire le contenu pertinent, de l'intégrer dans une ou plusieurs synthèses,et éventuellement de faire des propositions d'action.

Plutôt qu'une validation systématique des informations recueillies par un ou plusieurs experts, la tendance est maintenant à l'exploitation, par le responsable de veille, des informations recueillies : Le développement des technologies d'analyse textuelle permet d'inclure dans cette

catégorie les outils d'analyse textuelle et statistique, cartographie, catégorisation ou tout logiciel qui peut aider à exploiter les informations collectées.

Page 8: Cours UE 105.c  :

8

Les outils de diffusion :à partir de - profils créés, - édition de rapports, - mailings, etc.

La diffusion est la mise à disposition des informations, le plus souvent dans des livrables spécifiques, ainsi que les échanges et l'enrichissement qui en résultent.

Des propositions d'action sont souvent intégrées. Il est bien clair qu'avant cette activité : une organisation spécifique de l'accès aux informations, ainsi que des règles de confidentialité, doivent avoir été mises en place.

Dans cette catégorie, des logiciels dits push renvoient l'information ciblée en fonction du profil de l'utilisateur et les outils de type groupware.

Il est inconcevable de parler de démarche de veille sans parler de travail collaboratif : Celui-ci repose généralement sur des outils de groupware qui offrent

l'ensemble des fonctionnalités indispensables au travail de groupe, outils de communication, avec des fonctions de G.E.D., moteur de workflow,

etc.

Page 9: Cours UE 105.c  :

9

Les outils intégrés : agents intelligents

Les outils dits intégrés concernent les outils effectuant de la collecte et de l'analyse. On parle souvent d’agent intelligent.

Le dictionnaire définit l'agent comme une « personne » chargée des affaires et des intérêts d'un individu, d'un groupe ou d'un pays, pour le compte desquels elle agit.

L'agent est donc : aux ordres de quelqu'un,et il ne réfléchit pas.

Celui qui est dit intelligent a, quant à lui, les facultés de : adaptation, réflexion, et perspicacité.

Page 10: Cours UE 105.c  :

10

Par terminologie, parler d’ agent intelligent peut donc paraître paradoxal :

Les logiciels dits agents intelligents doivent donc être appréhendés avec un certain recul : s'ils sont une aide précieuse dans vos recherches sur

la toile mondiale (web, Internet, etc.), ils ne sont pas pour autant la solution.

Malgré cela, une certaine confiance peut néanmoins leur être accordée…

Page 11: Cours UE 105.c  :

11

Parmi l'abondance des liens vous proposant des téléchargements de logiciels d'agents intelligents, nous avons réuni ici quelques liens qui vous permettront de trouver rapidement quelques bons assistants.

Les agents intelligents présentés ont tous été testés et utilisés par nos soins : Aspirateurs de sites Agents de recherche Agents de veille Mapping

Page 12: Cours UE 105.c  :

12

Critères d’étude des outils :

Il s'agit de critères qui indiquent : des informations générales (société éditrice, prix, présence ou non d'une version d'essai,

multilinguisme, etc.), et des informations plus spécifiques (niveau de difficulté tant au niveau installation,

qu'utilisation, la qualité de l'interface graphique, les formats d'imports acceptés, ergonomie, etc.)  

Liste des critères :1. renseignements généraux sur la société éditrice et le logiciel : « famille » de l'outil,

description rapide, pré-requis technique, prix, version d'essai en ligne, aide en ligne, support technique, etc.

2. évaluation de la facilité ou non de l'utilisation : paramétrage, format et structure des documents traités (import et export), etc.

3. gestion du multilinguisme : langues, couples de langues, traduction, etc.

4. fonctionnalités liées à la collecte (à partir d’une requête): crawl à partir d‘URLs, surveillance/alerte/mise en évidence des modifications, etc.

5. fonctionnalités liées aux analyses statistiques : occurrences, co-occurrences, etc.

6. fonctionnalités liées aux analyses linguistiques : analyse morpho-lexicale, analyse syntaxique, analyse sémantique, extraction terminologique, gestion de dictionnaires, recherche d'entités nommées, etc.

7. fonctionnalités liées à la classification/catégorisation.

8. représentation graphique de l'information : listes, tableaux, cartographie, courbes de tendance, diagramme de répartition, etc.

9. fonctionnalités liées à la diffusion : en partie ou en totalité du contenu

Page 13: Cours UE 105.c  :

13

II.

Annuaires ?

Page 14: Cours UE 105.c  :

14

Travail à réaliser : Définition(s) : (qui ?)

Théories Pratiques

Fonctionnalités : (fait quoi ?) Caractéristiques : (comment ?) Catégorisation : (pourquoi ?)

Page 15: Cours UE 105.c  :

15

Synthèse : Les annuaires de recherche

il s’agit de répertoires : Catalogues, Guidesou Directories (Directroy est un terme en anglais, qui désigne bottin,

annuaire, répertoire)

des sites web classés par grandes catégories et ordonnées de manière hiérarchique

Ils sont construits « à la main », pour sélectionner les sites en fonction de leur :

Qualité, Pertinence, Fiabilité.

C’est au responsables de sites à demander le référencement. C’est ainsi que de nombreuses sociétés se sont spécialisées dans ce domaine qui demande :

Une connaissance approfondie, Des politiques variables, Gestion délicate : conflits des intérêts.

Page 16: Cours UE 105.c  :

16

III.

Moteurs de recherche ?

Page 17: Cours UE 105.c  :

17

Travail à réaliser : Définition(s) : (qui ?)

Théories Pratiques

Fonctionnalités : (fait quoi ?) Caractéristiques : (comment ?) Catégorisation : (pourquoi ?)

Page 18: Cours UE 105.c  :

18

Synthèse : Les moteurs de recherche

Ils sont des bases de données constituées

automatiquement grâce à des programmes complexes ( algorithmes ) qui :

Scrutent à intervalles réguliers les serveurs déclarés (publics/accessibles) sur le réseau Internet

Indexent mot à mot les contenus localisés ayant des sources textuelles lisibles

Permettent ainsi des requêtes d’interrogation par mots-clés et des opérateurs (booléens : AND, OR NOT, troncatures, etc.).

Ils ne peuvent consulter et répertorier que la partie visible du Web.

Exemples : google, altavista, netscape, etc. Lien utile : http://www.bib.umontreal.ca/infosphere/sciences_humaines/module5/cherwebmot.html#avan

Page 19: Cours UE 105.c  :

19

IV.

Méta-moteurs de recherche ?

Page 20: Cours UE 105.c  :

20

Travail à réaliser : Définition(s) : (qui ?)

Théories Pratiques

Fonctionnalités : (fait quoi ?) Caractéristiques : (comment ?) Catégorisation : (pourquoi ?)

Page 21: Cours UE 105.c  :

21

Synthèse : Les méta-moteurs de recherche

Ils permettent d’interroger en parallèle plusieurs outils ou moteurs de recherche

Les M-MR les plus récents suppriment les doublons et reclassent les documents selon des méthodes propres :

Fréquence de visites Politique du MM ( privilégier les résultats d’un MR sur un autre) Etc.

Ils sont utiles pour : obtenir rapidement un maximum de résultats, une vision globale d’une classe de documents ou un panorama des documents référencés (disponibles) par les MR.

Exemples : AllTheWeb , Ariane6, etc. Lien utile : http://www.bib.umontreal.ca/infosphere/sciences_humaines/module5/cherwebmeta.html

Page 22: Cours UE 105.c  :

22

Liste : Moteurs de recherche et annuaires France

Altavista France (moteur de recherche)

Abacho (moteur de recherche)

Hotbot.com (moteur de recherche)

Dmoz (annuaire)

Free (moteur de recherche)

Google (moteur de recherche)

Lycos.com (moteur de recherche)

Yahoo France (moteur de recherche)

Voila Guide* (annuaire)

Yahoo France (annuaire)

Mirago (moteur de recherche)

Altavista.com (moteur de recherche)

Hotbot France (moteur de recherche)

Aol France (moteur de recherche)

Alltheweb (moteur de recherche)

Google France (moteur de recherche)

Lycos France (moteur de recherche)

Mozbot.fr (moteur de recherche)

Tiscali (moteur de recherche)

Voila Moteur (moteur de recherche)

Msn France (moteur de recherche)

Indexa* (annuaire spécialisé entreprises)

Page 23: Cours UE 105.c  :

23

V.

Agents Intelligents :

Page 24: Cours UE 105.c  :

24

Travail à réaliser :

À distinguer :1. Agent intelligent pour la recherche d’information ?2. Agent intelligent pour la veille ?

À déterminer : Définition(s) : (qui ?)

Théories Pratiques

Fonctionnalités : (fait quoi ?) Caractéristiques : (comment ?) Catégorisation : (pourquoi ?)

Page 25: Cours UE 105.c  :

25

Synthèse : Les agents intelligents

Composants logiciels capables à des degrés différents (comme les MR) à : Fonctionner automatiquement de manière autonome, Communiquer avec d’autres composants logiciels et d’échanger des informations avec l’homme, Apprendre (grâce à des composants algorithmiques très évolués) pour être réactif avec son

environnement informationnel et décisionnel.

1. Un agent intelligent pour la recherche d’information se conforme pour : prendre des initiatives intelligentes : rapprocher l’information aux besoins de l’utilisateur collaborer de manière précise avec l'utilisateur, d'autres applications ou les deux ensemble, se déplacer sur tel ou tel site selon le besoin : relecture après mise à jour d’un contenu sur un site, Intégrer des outils d'analyse linguistique, Élaborer des cartographies dynamiques et interactives : exemple Kartoo, Prendre en compte le facteur temps lors du traitement de l'information.

2. Un agent intelligent pour la veille se conforme pour : Analyser la demande Connaître les clients et leur demande ( à anteriori pour anticiper à posteriori ) Gérer des profils clients Personnaliser l'offre pour chaque client

Exemples : Agents "on line" : Pricescan, Shopfind, … Agents "off line" : Copernic, Explorer, …

Lien utile : http://www.decisionnel.net/agentintelligent/ai.htm

Page 26: Cours UE 105.c  :

26

VI.

Présentation de quelques « Agents Intelligents »

Page 27: Cours UE 105.c  :

27

Aspirateurs de sites eCatch

http://www.ecatch.com   eCatch permet entre autres la saisie des formulaires hors

ligne, la mise en valeur des nouveautés dans les pages, la recherche plein texte avancée, l'exportation, le téléchargement en différé des liens cliqués pendant la lecture hors ligne, etc.

L'interface de eCatch présente en arborescence les agents, les sites et leurs contenus téléchargés. Licence : shareware Prix : ~200 E. Compatibilité : Windows, Linux

Page 28: Cours UE 105.c  :

28

MemoWeb 4 http://www.goto.fr/

Ce logiciel, muni d'une interface intuitive, permet même aux débutants d'accéder facilement à la technique de l'aspiration des sites. La mise à jour des sites transfère uniquement les pages ayant changé depuis la dernière capture.

Puissant et simple, c'est un excellent logiciel gratuit. Licence : freeware Prix : 0 Compatibilité : Windows, Linux

Page 29: Cours UE 105.c  :

29

Agents de recherche BullsEye 2

http://www.intelliseek.com

  Ce logiciel couvre plus de 800 moteurs de recherches et

BDD répartis en 140 catégories. Il comprend plus de 70 langues exprimées en langage

naturel. Licence : shareware Prix : 0 Compatibilité : Windows, Linux

Page 30: Cours UE 105.c  :

30

Agents de veille Webspector

http://www.illumix.com

Il veille sur des sites ou des pages web automatiquement selon un calendrier déterminé et des mots-clés choisis. Licence : shareware Prix : 49 E. Compatibilité : Windows, Linux

Page 31: Cours UE 105.c  :

31

Copernic http://www.copernic.com/fr/

Plusieurs versions de Copernic existent (Copernic 2000, Copernic 2000 Plus, Copernic Pro, Copernic Shopper...).

La veille s'en trouve facilitée et certaines versions sont gratuites. Licence : démonstration Prix : 0 Compatibilité : Windows, Linux

Page 32: Cours UE 105.c  :

32

Strategicfinder http://www.strategicfinder.com/

Strategicfinder est un agent méta-moteur édité par Digimind. Cet outil permet de rechercher de l'information sur Internet de façon classique, mais surtout d'explorer le web de façon thématique grâce à ses plugins thématiques ( transports, journaux, pharmaceutique... )

Plusieurs dizaines de plugins gratuits et payants sont disponibles sur le site. Licence : Version gratuite et version co Prix : 0 Compatibilité : Windows, Linux

Page 33: Cours UE 105.c  :

33

Mapping des outils de recherche nous amenent à développer des compétences

sur le référencement-positionnement : Analyse Soumission Analyse à posteriori

Référencer son site consiste à l'inscrire dans les différents outils de recherche, Annuaires. Référencer son site ne suffit pas, Il faut le positionner sur des expressions clés en rapport avec le contenu du site et des attentes des Internautes.

Positionner son site devient indispensable pour être connu et retrouvé par les Internautes. Cela est d'autant plus difficile que les sites deviennent complexes, et bâtis sur des langages dits dynamiques : PHP, ASP, PERL, JAVA, et contenant des animations graphiques en FLASH notament. Positionner son site ne suffit pas ! Il faut veiller sur le postionnement du site, et le maintenir en intervenant lorsque cela devient nécéssaire.

Page 34: Cours UE 105.c  :

34

Analyse : - Définition d'une stratégie de référencement / analyse concurrentielle- Préconisations techniques du futur site- Préparation "préréférencement" / optimisation des pages / création de pages annexes si besoin. Le référencement est ensuite effectué par des spécialistes des moteurs de recherche et du web, dans chaque langue du site.

Soumission :- Soumission manuelle aux annuaires majeurs- Soumission manuelle aux moteurs de recherche majeurs

Analyse « a posteriori » :- Suivi et analyse du trafic avec des outils propriétaires- Analyse du trafic avec des outils du marché- Recommandations post analyse .

Exemple d’outil : (package) Référencement 2000 ; http://www.referencement-2000.com/