Upload
nizana
View
34
Download
0
Embed Size (px)
DESCRIPTION
Quelle stratégie d'indexation mettre en œuvre avec Microsoft SharePoint 2010 et FAST Search. Mercredi 10 février 2010 . Aissam MEZHOUD FAST Technology Specialist Microsoft. Didier BOTELLA Manager Sopra Consulting. Les moteurs de recherche d’entreprise 10 ans d’histoire. - PowerPoint PPT Presentation
Citation preview
22
Quelle stratégie d'indexation mettre en œuvre avec Microsoft SharePoint 2010 et FAST Search
Aissam MEZHOUDFAST Technology SpecialistMicrosoft
Mercredi 10 février 2010
Didier BOTELLA ManagerSopra Consulting
33
Les moteurs de recherche d’entreprise10 ans d’histoire
Utilisateurs
Contenus
Usages
ROI
SI
1G Expérimentatio
n
Documentation / veille
Documentation
Besoins spécifiques
Pas de recherche de ROI
Départemental
2G Apprentissage
Ensemble collaborateurs
Applications spécifiques et Intranet
Recherche d’informations (communication…)
Faible ROI
Départemental et transversalle
3G Généralisation
Entreprise étendue
Contenus d’entreprise, archivage, mail,
utilisateurs…
Outil de travail métier (procesus entreprise)
Recherche de maximisation de ROI
Ensemble du SI
Recherche pour tous Recherche pertinente pour tous
44
Une explosion des contenus
Internet IntranetVolumétrie
1997 : 100 millions de pages 2007 : 100 milliards de pages
Volumétrie des projets1997 : 100 000 documents 2007 : 100 millions de documents
ContenusFile systems Serveur Web Gestionnaire de contenus (Notes, Documentum, Sharepoint, etc.) Base de données Mail Archivage (mail, file system)Record Management
55
La recherche en entreprise
DESKTOPMono utilisateurContenu maîtrisé Fonds classé par l’utilisateurPas de problème de sécurité Contenu peu interconnecté
ENTERPRISEMulti-utilisateursContenu non maîtrisé Fonds en vracSécurité multipleContenu en silos
INTERNETMulti-utilisateursContenu illimité Fonds en vracPas de sécurité Contenu interconnecté
66
Un projet moteur de recherche
Architecture
Serveurs
Répartition des composants
Stratégie d’indexation
Format des index
Paramétrage de l’indexation
Pages de recherche
Implémentation des chartes graphiques
Gestion des facettes
Gestion des profil de recherche
Gestion des présentations
spécifiques
Gestion des règles de pertinence spécifiques
Tests
Pertinence
Boost
77
L’apport de l’indexation sur la recherche
Indexation
Recherche plein texte
Catégorisation
Recherche par facettes - Détection de signaux forts
Extraction d’entités
Recherche par facettes - Détection de signaux faibles
Chantiers
Gains
Gestion des profils
Personnalisation
88
Les étapes de la stratégie d’indexation
Stratégies d’indexation
Stratégies d’optimisatio
n
99
Les étapes de la stratégie d’indexation
Configuration
Indexation
Evaluation des résultats
Evaluation de la pertinence
1010
Profils de recherche
1111
Les étapes d’une indexationAccès au repository
Type de repository (Sharepoint, Base de données, etc.)
Sécurité
Convertion du format natif au format interne
Récupération des méta-données
Correction des méta-données
Construction de l’index inversé (collection)
Gestion de la langue
Gestion de la tokenization
Gestion de la lemmatisation
Gestion des stop words
Gestion de noun/nouns-phrase
1212
L’étude de la stratégie d’indexation
Contraintes
• Spécificité du contenu• Contraintes opérationnelles• Spécifications de la recherche
1313
Les spécificités du contenu
Contenu
Sources/RepositoriesSharepoint, Site Web, Système de fichiers, Base de données, etc.
FondsSite Sharepoint, etc.
1414
Les spécificités des sources
Sources OrganisationNombre de sources Nombre de documents par source Type de repository
Une collection par sourcePlusieurs collections par sourcePlusieurs sources par collection
1515
Les spécificités du fonds (1/2)
Fonds OrganisationVolumétrie Fréquence de mises à jour Taux des mises à jour
Plusieurs collections ou une collectionIndexation à la volée ou par lot
1616
Les spécificités du fonds (2/2)
Fonds OrganisationInformation pertinente/non pertinenteFormats Type d’information
StructuréNon-structuré
Choix de l’information à indexer ou nonChoix de l’information à utiliser pour les facettes
1717
Les contraintes opérationnelles
Contraintes OrganisationNécessité de 24/24 7/7Nécessité de mises à jour temps réelGestion des pannes Gestion de la montée en charge Gestion des périodes d’indisponibilité
Des sources Des index
Duplication des collections sur plusieurs serveursCollection journalière et collection totaleHeures d’indexation
1818
Les spécificités de la recherche
Contraintes OrganisationGestion des languesRecherche par facettes Boost de documentGestion des profils Niveau d’interaction lors de la rechercheGestion du « 0 résultat »
Niveau de lemmatisationDéfinition des facettes
Combien De quel type
Best bets statiques/dynamiquesPrévisualisation de documents Did You Mean
1919
L’organisation des index
Plusieurs topologies GainsUn index par serveurUn index réparti sur plusieurs serveurs Un index répliqué sur plusieurs serveurs
Configuration simpleMeilleurs temps de réponseLoad balancing/gestion des arrêts/gestion des pannes
2020
La configuration des index
Configuration GainsNiveau de gestion de la(des) langue(s)Nombre de facettes Best betDid You MeanNormalisation de certaines expressions
Temps d’indexation Navigation Garbage in/Quality out
2121
Le mode d’indexation
Mode OrganisationIndexation complèteIndexation incrémentale
Comment le moteur est prévenu des mises à jour de la source
Temps d’initialisationTemps des mises à jour
Indexation push/pull
2222
Offre et produits
SharePoint Server for Internet Sites
FAST Search for SharePoint Internet Sites
SharePoint Server
FAST Search for SharePoint
FAST Search for Internal Applications
FAST Search For Internet Business
Techno SharePoint
Techno FAST
Search Server
Search Server Express
Solutions pour Internet Business
Solutions pour Business Productivity
Solutions entrée de gamme
2323
SharePoint Server 2010
Interface de rechercheplus riche Pertinence
Recherche communautaireRecherche d’expertsAmélioration de la recherche en fonction du comportement des utilisateurs
Déploiement et gestionArchitecture ouverte
Fonctionnalités de base
2424
FAST Search for SharePoint
Interface de recherche: Interactive
Gestion de la recherche: Personnaliser l’interface pour améliorer la
productivité
Traitement de contenu: Enrichir et exploiter le potentiel de votre
contenu
Apports pour l’exploitant: Architecture flexible et scalable
Apports pour le développeur: Construire des applications métiers
s’appuyant sur la recherche
Recherche haut de gamme, intégrée dans SharePoint avec la simplicité Microsoft et un coût réduit
Apports
2525
Interface de recherche interactive• Repères visuels et appels à l'action
– Vignettes, prévisualisation et défilement des pages PowerPoint
– Best Bets Visuels– Ouverture, modification du document dans le
navigateur, …
• Exploration et Navigation– Génération automatique de filtres pour affiner la
recherche– Recherche par similarité– Suggestion (did you mean) utilisant les termes de l’index
• Pertinence– Plusieurs profils de pertinence– Tri par modèle de pertinence, par «Managed Property» ou
par combinaisons (multi-tri)
2626
Pré-visualisationMicrosoft PowerPoint et Microsoft Word
Pré-visualisation:● Afficher les images de prévisualisation de toutes les pages pour PowerPoint et Word
● Glisser l’image vers la gauche ou la droite, ou utiliser les flèches gauche et droite pour
voir plus de pages
2727
Ouvrir le document dans le navigateur
2828
Best Bets VisuelsLié au mot-clé de requête et au contexte de l'utilisateur
Définir des Best Bets Visuels pour les mots-clés les plus
importants:● Afficher un contenu riche pour un mot clé spécifique
● Tout type de contenu (HTML / Flash / Silverlight - affiché dans une iframe)
2929
Affiner les résultats de la recherche
Les résultats de la recherche peuvent être affinés par:● Metadata de SharePoint (Auteur)
● Metadata extraites automatiquement – extraction d entités (comme un
nom de société)
3030
Recherche de documents similaires
Des documents similaires sont trouvés :● En cliquant sur le lien «Similar Results»
● La requête est enrichie avec des termes du document.
● La requête enrichie est exécutée pour récupérer un nouveau jeu de résultats avec des documents similaires.
3131
Tri des résultats
Tri des résultats:● Tri par défaut activé pour la Pertinence et la Date
● Les champs supplémentaires sont activés dans la configuration
de la Webpart, par exemple modèle de pertinence personnalisé
3232
Interface de recherche
Gérer et faire évoluer l’interface de recherche
Utiliser la gestion de la recherche pour souligner les informations importantesutilisation des best bets, best bets visuels et promotion de documents/sites
Visual Best Bets
Best Bets
Promote /DemoteResults
Personnaliser les composants WebPart pour façonner l'expérience utilisateurAffecter aux utilisateurs des droits de contrôles et d’accès aux fonctions de configuration
3333
Gestion de la recherche
Gestion de mots-clésSynonymesBest BetsBest Bets VisuelsPromotion/ rétrogradation de
documents
Optimisation du modèle de pertinence : « User Context »
Best Bets Visuels
Best Bets
Promote /Rétrogradation
Keyword
3434
Gestion de mots-clés
3535
Promotion
Top services sites - Germany
http://intranet.comp.de/Konnektor.aspxhttp://intranet.comp.de/Sicherheit.aspxhttp://intranet.comp.de/Schnittstell.aspxhttp://intranet.comp.de/Federierte.aspx
Germany - Services
3636
Configuration des Best Bets Visuels
Emergency Dashboard Banner
http://intranet.company.com/events/EmergDash.html
Healthcare
Productivity
3737
Optimisation du modèle de pertinence
Alan BrewerFinance” Quelles sont les dernières nouvelles sur la productivité ?”
Kevin KennedySanté” Quelles sont les dernières nouvelles sur la productivité ?”
3838
Traitement de contenuThe Content PipelineProcessing & refinement
…
FormatConversio
n
LanguageDetection
EntityExtraction
Configurable
Stages
Mapper
REDMOND, Wash., and OSLO, Norway — Jan. 8, 2008
Microsoft Corp. (Nasdaq “MSFT”) today announced that it will make an offer to acquire Fast Search & Transfer ASA (OSE: “FAST”), a leading provider of enterprise search solutions, through a cash tender offer for 19.00 Norwegian kroner (NOK) per share. This offer represents a 42 percent premium to the closing share price on Jan. 4, 2008 (the last trading day prior to this announcement), and values the fully diluted equity of FAST at 6.6 billion NOK (or approximately $1.2 billion U.S. ). FAST’s board of directors has unanimously recommended that its shareholders accept the offer.
Location
Amount
Date
Company
Très large couverture linguistique82 langues détectées45 langues avec traitements avancésCorrections orthographiques & synonymes améliorent l’interface de recherche
Pipeline de traitement de contenu configurable
Traitement automatique de contenu Indexe plus de 400 formats de documents
Extraction d’entitésExtracteurs pré-configurés: Nom de personne, Lieu, Nom d’entrepriseExtracteurs génériques à configurer
3939
Plateforme flexible et scalable
Apports pour l’exploitant
Crawler Crawler Crawler Crawler
Volume de contenu
Volume de requêtes
Crawler Crawler Crawler Crawler
Pour tout type de besoin
Installation et déploiement faciles
Gérer, optimiser et administrer
ManagedPropertyCollection mpc = schema.AllManagedProperties;foreach (ManagedPropery mp in mpc)
4040
FAST Search for SharePoint Montée en charge
Crawler Crawler Crawler Crawler
Content Volume
Query Volume
Montée en charge sur plusieurs dimensions
Volume de requêtesVolume de contenuTraitement de contenu et Latence d’indexation
Options de redondanceRechercheIndexationCrawler Crawler Crawler Crawler
Indexation et recherche
CrawlerCrawler
«Crawling» et traitement de contenuCrawler
Crawler
Crawler
Traitement de requêtes
Crawler
4141
Apports pour le développeur
People search
+SharePoint Server back-end
FAST Search for SharePoint back-end
Content search
Content + Directories
End Users
Extensions dédiées aux applications exigeantes
Des fonctions avancées qui nécessitaient jadis des développements sont désormais disponibles par simple configuration SharePoint
4242
Go to the result pageSelect Site Actions – Edit PageRefinement panel – Modify shared Web PartIn Refinement - View XML fileAdd the new refiner to the XML fileChange number of categories to display
Personnalisation des Web partsExemple: Ajout d’un nouveau filtre
4343
Personnalisation du modèle de pertinence
• Un ensemble de modèles de pertinence peut être défini à partir des paramètres du modèle par défaut.
• Le modèle de pertinence est configurable en affectant des coefficients aux différents paramètres– “Authority”– “Freshness”– “Quality (multiple values)”– Etc
• Le modèle de pertinence peut être sélectionné par l’utilisateur au moment de la recherche. Il est présenté sous forme de critère de tri.
Quel intérêt ?Optimisation du modèle de pertinence par applicationPossibilité offerte à l’utilisateur de trier les résultats à sa convenance
4444
Q&R