Upload
mohamed-ben-bouzid
View
2.633
Download
2
Embed Size (px)
DESCRIPTION
étude Comparative Sur Les Moteurs De Recherche
Citation preview
Projet de fin d'étude pour l'obtention du
Diplôme National d'Ingénieur en Informatique
Annexe 1 : Étude comparative sur les moteurs de recherche Open Source
Société d'accueil : L'Agence Nationale de la Sécurité Informatique (ANSI)
Encadré par : Mme Hela KAFFEL BEN AYED (FST)M. Sami MABROUK (ANSI)
Année universitaire 2008/2009
Élaboré par :
Mohamed BEN BOUZID
Page 2
Étude comparative sur les Moteurs de recherche Open Source
DATAPARKSEARCH SOLR NUTCH
Date première version 27 Novembre 2003 17 Janvier 2006 Juin 2003
Date dernière version 25 Avril.2009 15 Septembre 2008 23 Mars 2009
Version actuelle 4.52 1.3.0 1.0
Système d'exploitation FreeBSD, Linux, Solaris Windows, Linux, Mac, BSD, Unix Windows, Linux, Mac, BSD, Unix
Langage de programmation
C Java Java
Communauté Réduite: Forums, Mailing List, Blogs, Pages Wiki
Active : Forums, Mailing List, patch Très active:Forums, Mailing List, patch, Tutoriels, Astuces, consultants indépendants
offrant une assistance spécialisée.
Licence GNU GPL - Version 2 Apache License 2.0 Apache License 2.0
Site offciel http://www.dataparksearch.org/ http://lucene.apache.org/solr/ http://lucene.apache.org/nutch/
Exploration Oui Non Oui
Indexation Oui Oui, utilisant les bibliothèques de Lucene Oui, utilisant les bibliothèques de Lucene
Recherche Oui Oui, utilisant les bibliothèques de Lucene Oui, utilisant les bibliothèques de Lucene
Interface Graphique Non Seulement d'administration Oui
Fichiers supportés Texte, HTML, XML, Audio, Vidéo, Images/GIF, PDF, Flash, Word, Excel, RTF, PowerPoint
Pas de crawler Texte, HTML, XML, JavaScript, OpenOfice.org ODF & Star Office, Microsoft Power Point &
Word, Adobe PDF, RSS, RTF, MP3, ZIP, Flash
Personnalisable Avec divers templates Avec divers templates Code compréhensible
Extensible Non Non Nutch-Wax, Hadoopi, solr, etc
Distribué Non Oui Hadoopi
Page 3
Étude comparative sur les Moteurs de recherche Open Source (suite)
DATAPARKSEARCH SOLR NUTCH
plugin Non Non LanguageIdentifierPlugin XMLParser Plugin,DocumentationTemplate GeoPosition , German JapaneseAnalyzer, index-extra, protocol-smb
Autres caractéristiques ● Indexation multilangues des sites
● Recherche de tous les mots proches
● Support des synonymes, acronymes, abréviation
● Liste d'interdictions de mots.
● Indexation et recherche en même temps sur la même base de données (Multithread)
● Résultat par importance, pertinence, popularité ou par date.
● Correction d'orthographe.
● Recherche par abréviation .
● Support des caractères spéciaux.
● Support du Chinois, japonais, etc.
● Nécéssite un SGBD. (MySQL, PostGreeSQL ou Oracle)
● Hit Highlighting (coloration du mot recherché)
● Communication via HTTP, JSON, XML, PHP, Ruby et Python.
● Simple à mettre en place: pas de Tomcat.
● Interface d'administration (en HTML).
● Possibilité de réplication de serveurs.
● Extensible avec de nouveaux plugins.
● Caching (mémorisation en cache de toutes recherches).
● Recherche filtrée et par catégorie (faceted search)
● Optimisé pour une recherche web très volumineuse.
● Configuration personnalisable et flexible.
● Statistiques complètes sur l'utilisation du cache, mises à jour, requêtes, etc.
● Communauté très active.
● Code source compréhensible.
● Robuste et complet
● Extensible avec plusieurs plugins
● Possibilité d'intégrer Solr avec Nutch.
● Support de Base de données très volumineuse.
● Nécessite le générateur de servlette Tomcat.
● Possibilité de réplication de serveurs.
Site offciel http://www.dataparksearch.org/ http://lucene.apache.org/solr/ http://lucene.apache.org/nutch/
Page 4
Nutch
Page 5
Merci pour votre attention