CloudView Architecture Sémantique Février 2009. Interact CloudView Search Management & Monitoring AccessProcessCollect Build-Time Semantic processing

  • View
    107

  • Download
    0

Embed Size (px)

Text of CloudView Architecture Sémantique Février 2009. Interact CloudView Search Management & Monitoring...

  • Page 1
  • CloudView Architecture Smantique Fvrier 2009
  • Page 2
  • Interact CloudView Search Management & Monitoring AccessProcessCollect Build-Time Semantic processing Query-Time Semantic processing
  • Page 3
  • Architecture MoT CloudView Search Architecture ddi aux traitements des langues et lextraction dinformations Partage les objectifs des plateformes open sources GATE et UIMA : Extraite des informations complexes (concepts, relations entre concepts,...) Intgration de logiciels externes Mais surtout : Orient vers les performances (principal point faible des plateformes open sources) Support du calcul distribu (Nativement Intgr dans la plateforme Exalead MapReduce)
  • Page 4
  • CloudView Search Architecture MoT est utilise : Pendant lindexation pour enrichir le document index, changer les scores, Pendant la requte pour tendre la requte (synonymes, lemmatisation, ) Tous les composants ou algorithmes qui ncessite de transformer un document en liste de descripteurs (catgorisation, clustering, ) Une instance de larchitecture est un Pipe compos de plusieurs processeurs Chaque processeur enrichie le document en utilisant toutes les informations extraites par les prcdents processeurs Architecture MoT
  • Page 5
  • CloudView Search Nous avons une vingtaine de processeurs Exalead disponibles : Tous trs configurable Performant car bas sur des API en flux Architecture Converter : transforme le texte en flux de tokens Resource : reprsente les donnes avec lesquelles travail un processeur Processeur : travail sur un flux de tokens et ajoute des annotations sur un ou plusieurs tokens. Architecture MoT
  • Page 6
  • Example dinstance
  • Page 7
  • Processeurs les plus importants CloudView Search Processeurs au niveau lexical Segmentation, normalisation, dtection de phrases Processeurs au niveau morphologique/syntaxique Stemming tiquetage morphosyntaxique Lemmatisation Processeurs au niveau smantique Extraction dentits nommes (Transducteur) Matching via une ontologie (OntologyMatcher) Reconnaissance dentites (IdentityMatcher) Catgorisation (Classification supervise) Clustering (Classification non supervise)
  • Page 8
  • Niveau lexical CloudView Search Tokenisation (reconnaitre les mots) : Standard (supporte tous les langages avec sparateurs) Japonnais (Hiragana, Katakana, Kanji, romanji) Chinois Autres via partenaires (Russe, Arabe, ) Configurable: Dfinir le type dun caractre (alphabtique, nombre, sparateur) Dfinir une expression rgulire
  • Page 9
  • CloudView Search Normalisation : Calculer la forme sans majuscules et sans accents Translitration des caractres, ex: to ue en allemand Grer les exceptions : dj = deja mais mas != mais Reconnaissance des fins de phrases Dr., 1.000, a.b@c.org, le point nest pas une fin de phrase in New York. Researchers from , ne pas extraire une entit ou un groupe nominal pour New York Researchers Niveau lexical
  • Page 10
  • Niveau Morphologique/Syntaxique CloudView Search Etiquetage morphosyntaxique: Donner la catgorie grammaticale de chaque mot (verbe, nom commun, nom propre, ) Supprimer les ambigits (nom/verbe par exemple) Phontiseur et correcteur orthographique Lemmatisation et stemming: Identifier le lemme ou le stemme de chaque mot La lemmatisation utilise le part of speech pour trouver le bon lemme ou donne plusieurs lemmatisation possibles. Utilisation de traits flexionnels (singulier/pluriel/fminin/masculin)
  • Page 11
  • Processeurs smantiques CloudView Search OntologyMatcher : Extraction des entits ou des concepts dune ontologie Par exemple extraire la liste des employes / services
  • Page 12
  • Processeurs smantiques CloudView Search Extraction dentits nommes: Utilisation de patrons complexes pour extraire : Emails:a.b@c.com Personnes: Jean-Marie Martin Personnes clbresBarack Obama, Madonna Organisations:Yahoo! France, Nestl UK Ville: Paris, Londres, Lieux: Sillicon Valley, Beverly Hills, Abbey Road, Evnements: 2012 Olympic Games Dates: 1999/12/31, July 4th Adresses: 10 Downing Street, London, SW1A 2AA Quantits: $14,000 billion
  • Page 13
  • Extraction dentits nommes CloudView Search
  • Page 14
  • Transducteurs CloudView Search Utilis par la dtection dentits nommes Permet dextraire efficacement des patrons complexes Langage de rgles en XML possdant :,,,,,,,,,, (dans un voisinage de x mots) (optionnel) (une expression rpt n fois) (quivalent du + dans les regexps) (quivalent du * dans les regexps) (capture)
  • Page 15
  • Transducteurs CloudView Search Exemple
  • Page 16
  • Processeurs smantiques CloudView Search Identity Matching: Permet dextraire des entits floues du texte Autorise lutilisation doprateurs boolens entre des informations extraites (par un OntologyMatcher par exemple) Par exemple lexpression The Bill & Melissa Gates fundation va reconnaitre Bill Gates Fundation,Gates fundation, Un score est donne tous ces matches en fonction de la distance ddition avec lentre de lontologie
  • Page 17
  • IdentityMatching CloudView Search Extraction entits floues Par exemple lexpression The Bill & Melissa Gates fundation va reconnaitre Bill Gates Fundation,Gates fundation, Un score est donne tous ces matches en fonction de la distance ddition avec lentre de lontologie : The Bill & Melissa Gates fundation : Distance = 0 Bill Gates Fundation : Distance = 2 Gates fundation : Distance = 3 Gre nativement les permutations, les ajouts et les suppressions de mots
  • Page 18
  • IdentityMatching CloudView Search Utilisation doprateurs boolens Par exemple un OntologyMatcher qui identifie les concepts A_ENSEIGNEMENT, O_ACTIVITE_CULTUREL_1 et B_ADULTE. La rgle de lidentifie matcher peut tre un ET logique entre ces trois informations. Les options sont : Prendre en compte lordre des constituantes de la rgle Autoriser/refuser un chevauchement des constituantes de la rgle
  • Page 19
  • Processeurs smantiques Catgorisation: Business Consumer Services Inqueries Customer Service ShoppingPets training document Business Consumer Services Inqueries Customer Service ShoppingPets new item class signature class signature training document Prdire la catgorie dun document en utilisant une base dapprentissage ou via des rgles
  • Page 20
  • Processeurs smantiques CloudView Search Classification non supervise Dtection et suivie de thmatique (dpches) Dcouvrir les classes de documents similaires Dcouvrir les paires de documents quasi- similaires : Dtecter que D1 contient D2 Dtecter que D1 partage beaucoup de phrases ou de concepts avec D2