Architecture MoT CloudView Search Architecture ddi aux traitements des langues et lextraction dinformations Partage les objectifs des plateformes open sources GATE et UIMA : Extraite des informations complexes (concepts, relations entre concepts,...) Intgration de logiciels externes Mais surtout : Orient vers les performances (principal point faible des plateformes open sources) Support du calcul distribu (Nativement Intgr dans la plateforme Exalead MapReduce)
Page 4
CloudView Search Architecture MoT est utilise : Pendant lindexation pour enrichir le document index, changer les scores, Pendant la requte pour tendre la requte (synonymes, lemmatisation, ) Tous les composants ou algorithmes qui ncessite de transformer un document en liste de descripteurs (catgorisation, clustering, ) Une instance de larchitecture est un Pipe compos de plusieurs processeurs Chaque processeur enrichie le document en utilisant toutes les informations extraites par les prcdents processeurs Architecture MoT
Page 5
CloudView Search Nous avons une vingtaine de processeurs Exalead disponibles : Tous trs configurable Performant car bas sur des API en flux Architecture Converter : transforme le texte en flux de tokens Resource : reprsente les donnes avec lesquelles travail un processeur Processeur : travail sur un flux de tokens et ajoute des annotations sur un ou plusieurs tokens. Architecture MoT
Page 6
Example dinstance
Page 7
Processeurs les plus importants CloudView Search Processeurs au niveau lexical Segmentation, normalisation, dtection de phrases Processeurs au niveau morphologique/syntaxique Stemming tiquetage morphosyntaxique Lemmatisation Processeurs au niveau smantique Extraction dentits nommes (Transducteur) Matching via une ontologie (OntologyMatcher) Reconnaissance dentites (IdentityMatcher) Catgorisation (Classification supervise) Clustering (Classification non supervise)
Page 8
Niveau lexical CloudView Search Tokenisation (reconnaitre les mots) : Standard (supporte tous les langages avec sparateurs) Japonnais (Hiragana, Katakana, Kanji, romanji) Chinois Autres via partenaires (Russe, Arabe, ) Configurable: Dfinir le type dun caractre (alphabtique, nombre, sparateur) Dfinir une expression rgulire
Page 9
CloudView Search Normalisation : Calculer la forme sans majuscules et sans accents Translitration des caractres, ex: to ue en allemand Grer les exceptions : dj = deja mais mas != mais Reconnaissance des fins de phrases Dr., 1.000, a.b@c.org, le point nest pas une fin de phrase in New York. Researchers from , ne pas extraire une entit ou un groupe nominal pour New York Researchers Niveau lexical
Page 10
Niveau Morphologique/Syntaxique CloudView Search Etiquetage morphosyntaxique: Donner la catgorie grammaticale de chaque mot (verbe, nom commun, nom propre, ) Supprimer les ambigits (nom/verbe par exemple) Phontiseur et correcteur orthographique Lemmatisation et stemming: Identifier le lemme ou le stemme de chaque mot La lemmatisation utilise le part of speech pour trouver le bon lemme ou donne plusieurs lemmatisation possibles. Utilisation de traits flexionnels (singulier/pluriel/fminin/masculin)
Page 11
Processeurs smantiques CloudView Search OntologyMatcher : Extraction des entits ou des concepts dune ontologie Par exemple extraire la liste des employes / services
Page 12
Processeurs smantiques CloudView Search Extraction dentits nommes: Utilisation de patrons complexes pour extraire : Emails:a.b@c.com Personnes: Jean-Marie Martin Personnes clbresBarack Obama, Madonna Organisations:Yahoo! France, Nestl UK Ville: Paris, Londres, Lieux: Sillicon Valley, Beverly Hills, Abbey Road, Evnements: 2012 Olympic Games Dates: 1999/12/31, July 4th Adresses: 10 Downing Street, London, SW1A 2AA Quantits: $14,000 billion
Page 13
Extraction dentits nommes CloudView Search
Page 14
Transducteurs CloudView Search Utilis par la dtection dentits nommes Permet dextraire efficacement des patrons complexes Langage de rgles en XML possdant :,,,,,,,,,, (dans un voisinage de x mots) (optionnel) (une expression rpt n fois) (quivalent du + dans les regexps) (quivalent du * dans les regexps) (capture)
Page 15
Transducteurs CloudView Search Exemple
Page 16
Processeurs smantiques CloudView Search Identity Matching: Permet dextraire des entits floues du texte Autorise lutilisation doprateurs boolens entre des informations extraites (par un OntologyMatcher par exemple) Par exemple lexpression The Bill & Melissa Gates fundation va reconnaitre Bill Gates Fundation,Gates fundation, Un score est donne tous ces matches en fonction de la distance ddition avec lentre de lontologie
Page 17
IdentityMatching CloudView Search Extraction entits floues Par exemple lexpression The Bill & Melissa Gates fundation va reconnaitre Bill Gates Fundation,Gates fundation, Un score est donne tous ces matches en fonction de la distance ddition avec lentre de lontologie : The Bill & Melissa Gates fundation : Distance = 0 Bill Gates Fundation : Distance = 2 Gates fundation : Distance = 3 Gre nativement les permutations, les ajouts et les suppressions de mots
Page 18
IdentityMatching CloudView Search Utilisation doprateurs boolens Par exemple un OntologyMatcher qui identifie les concepts A_ENSEIGNEMENT, O_ACTIVITE_CULTUREL_1 et B_ADULTE. La rgle de lidentifie matcher peut tre un ET logique entre ces trois informations. Les options sont : Prendre en compte lordre des constituantes de la rgle Autoriser/refuser un chevauchement des constituantes de la rgle
Page 19
Processeurs smantiques Catgorisation: Business Consumer Services Inqueries Customer Service ShoppingPets training document Business Consumer Services Inqueries Customer Service ShoppingPets new item class signature class signature training document Prdire la catgorie dun document en utilisant une base dapprentissage ou via des rgles
Page 20
Processeurs smantiques CloudView Search Classification non supervise Dtection et suivie de thmatique (dpches) Dcouvrir les classes de documents similaires Dcouvrir les paires de documents quasi- similaires : Dtecter que D1 contient D2 Dtecter que D1 partage beaucoup de phrases ou de concepts avec D2