Upload
nuxeo
View
88
Download
0
Embed Size (px)
DESCRIPTION
(French) Traditionnellement, le concept de métadonnées est utilisé pour affiner la recherche et l'exploitation des documents d'un système de gestion documentaire. Ces métadonnées sont renseignées manuellement par l'utilisateur, processus long et potentiellement générateur d'erreurs. La reconnaissance sémantique de documents permet d'injecter automatiquement des métadonnées reconnues dans le texte, voire d'automatiser leur classification. Océane Consulting présentera l'utilisation du moteur sémantique Luxid développé par la société TEMIS pour la reconnaissance sémantique de documents dans Nuxeo Platform.
Citation preview
Intégration de Luxid (Temis) dans Nuxeo Platform
- 2 -
! Océane Consulting Group ! Enrichissement de contenus ! Connecteur Nuxeo/Temis ! Roadmap
Agenda
- 3 -
Océane Consulting apporte des réponses adaptées aux besoins IT de ses clients et propose son expertise autour de quatre métiers principaux :
! L’Expertise Nouvelles Technologies, ! Le Data Management, ! Le Management des Infrastructures et des Systèmes, ! Le Conseil et l’Expertise Métier (AMOA).
Le groupe Océane Consulting représente aujourd’hui une équipe de 250 personnes et des dizaines de clients satisfaits.
Travailler avec Océane Consulting, c’est bénéficier de nombreux atouts :
! Expertise technologique, ! Compréhension de vos problématiques Métiers ! Réactivité d’une structure à taille humaine, ! Transparence / Souplesse, ! Qualité des relations clients et consultants.
Océane Consulting Group
- 4 -
Implantations géographiques
31, boulevard Albert Einstein 44323 NANTES Tél : 02.99.84.52.62
253 boulevard de Leeds 59777 LILLE Tél : 03.28.53.58.05
8 rue de Choiseul 75002 PARIS Tél : 01.80.48.38.00
40 rue de Bray 35510 CESSON-SEVIGNE Tél : 02.99.84.52.62
CENTRE (en création)
TOULOUSE (prévu en 2014)
BRUXELLES (prévu en 2014)
- 5 -
Application Services
• Expertise Objet • Java, Microsoft, PHP • Portail Liferay & SharePoint • BPM/EAI/ESB • Mobilité & e-Commere
Infrastructure Services
• Support et expertise Poste de Travail
• Administration et exploitation des systèmes
• Production applicative • Conseil en Architecture
Consulting Services
• AMOA, Expertise Métiers • Accompagnement au
changement • Méthodes • Accessibilité Numérique
Data Management
• Gestion des contenus et données • Dématérialisation • GED & DAM, SEARCH • Portails • BPM • Big Data • Structuration de données non
structurées
Nos offres
- 6 -
Enrichissement de contenus
! Définition ! Cas d’usage ! Choix des outils
- 7 -
Qu’est-ce que l’enrichissement de contenus ?
L’enrichissement de contenus est une lecture métier de documents textuels non structurés pour en qualifier l’information.
Les données résultantes facilitent la compréhension et l’interprétation des contenus pour les mettre à disposition des systèmes d’informations de l’entreprise.
L’information extraite est désormais structurée et peut être gérée, valorisée au travers d’outils de gestion documentaire, d’outils d’analyse, …
L’extraction sémantique se décline sur tous les métiers, en fonction des besoins des utilisateurs finaux.
Introduction
-‐ 8 -‐
Extrac'on automa'que de métadonnées mé'er
Le 13 janvier 2014 Google a racheté NestLabs pour 3,2 milliards de dollars.
DET SG Date Société Ac'on Société PREP Expression Monétaire
En'tés
Le 13 janvier 2014 Google NestLabs pour 3,2 milliards de dollars. a racheté
Rela'ons
Termes
DET SG
NOUN SG
PROPER NAME
VERB PAP
PREP NOUN PL
NOUN PL
NUM NUM V
AUX PROPER NAME
NUM PREP
Société Google NestLabs
AcquisiAon Acheteur Google Cible NestLabs Montant $3,2 milliards Date 13/01/2014
Roles
AFributs
-‐ 9 -‐
Enrichissement à l’échelle du document Google rachète Nest Labs, son troisième plus gros rachat LE MONDE | 14.01.2014 à 10h51 | Par Sarah Belouezzane On croyait la fièvre acheteuse des stars de la Silicon Valley passée. Il faut croire que non. Lundi 13 janvier, Google a annoncé le rachat de Nest Labs, une start-‐up spécialisée dans les objets « intelligents », surtout des alarmes an'-‐incendie et des thermostats connectés à Internet, pour 3,2 milliards de dollars en numéraire (2,3 milliards d'euros). Une acquisi'on très éloignée de son cœur de mé'er, la recherche en ligne. Il s'agit, pour le géant du Net, de la troisième plus grosse acquisi'on de son histoire, après celle du spécialiste de la publicité en ligne DoubleClick en 2008 et de la marque de téléphones Motorola en 2012. Le moteur de recherche avait racheté le premier 3,24 milliards de dollars, mais avait consen' 12,5 milliards de dollars pour le mythique fabricant de téléphones américain. L'acquisi'on de Nest Labs doit encore être validée par les autorités de régula'on et ne devrait pas être effec've avant plusieurs mois. Contrairement aux français Withings ou Netatmo, autres pionniers des objets connectés, Nest Labs n'est pas encore vraiment connu du grand public français. La pe'te entreprise a été fondée en 2010 par Mae Rogers et Tony Fadell, un ancien employé d'Apple qui aurait par'cipé à la créa'on de l'iPod, le lecteur MP3 lancé par le groupe de Cuper'no au début des années 2000. Nest Labs s'est très vite spécialisé dans deux objets en par'culier : un thermostat connecté au Web qui permet de surveiller en permanence la température de son foyer sur son smartphone et une alarme à incendie qui détecte la fumée et le taux de CO2 dans l'atmosphère. Le rachat de Nest Labs devrait permeere à Google de se développer davantage sur le marché en plein développement des terminaux connectés. Un secteur qui intéresse de plus en plus le moteur de recherche : après les smartphones et les tableees conçus par ses propres soins, le groupe de Mountain View s'est lancé dans les wearable devices, autrement dit, les terminaux connectés à porter sur soi.
iPod Produits
Technologies lecteur MP3 smartphone
tableee wearable devices
Nest Labs
DoubleClick
3,2 milliards de dollars
Motorola
Withings Netatmo Nest Labs
Mae Rogers Tony Fadell Apple
iPod
Nest Labs Google
smartphones tableees Mountain View wearable devices
smartphone
lecteur MP3 Cuper'no
2,3 milliards d’euros
Sarah Belouezzane Silicon Valley
Lundi 13 janvier
12,5 milliards de dollars
en 2008 en 2012
en 2010
au début des années 2000.
NestLabs DoubleClick Google
Microsol Corp. Withings
Sociétés
Motorola Netatmo Apple
Personnes Sarah Belouezzane Mae Rogers
Tony Fadell
Nest Labs
Nest Labs
Nest Labs
Montants monétaires
Informa'ons temporelles
Lieux Silicon Valley Cuper'no
Mountain View
- 10 -
Les attentes de l’enrichissement automatique de contenu
OU … Recherche full text
- 11 -
! Trouver une réponse avec un outil d’enrichissement de contenus
Les attentes de l’enrichissement automatique de contenu
Recherche sémantique
- 12 -
Les attentes de l’enrichissement automatique de contenu
Classement manuel
OU …
Une même personne est à 60% d’accord avec elle-même quand elle classe des documents entre le lundi et le vendredi. Deux personnes sont d’accord entre elles à 60% pour classer des documents.
- 13 -
Les attentes de l’enrichissement automatique de contenu
Classement automatique
- 14 -
Nuxeo : partenaire platinium Temis
! Référence dans l’enrichissement de contenus ! Moteur Luxid® ! Partenaire silver ! Certifications ! Partenariat exclusif pour le connecteur Nuxeo/Temis
Choix des outils
Sciences de la Vie Éditeurs Industrie & Gouvernement
- 15 -
Luxid® 6 – Architecture fonctionnelle
- 16 -
Connecteur Nuxeo/Temis
! Luxid® Annotation Factory ! Annotation à la demande ! Annotation en masse
- 17 -
! Contexte Les clients meeent en place des GED pour stocker leurs documents. Les GED permeeent la ges'on de métadonnées aeachées aux documents. Probléma'que: les métadonnées doivent être renseignées manuellement par les u'lisateurs.
! ObjecAfs Pouvoir retrouver les documents dans la GED. Pouvoir archiver des documents selon des critères mé'ers (et non uniquement sur des critères techniques comme la taille ou la date).
! Bénéfices Gain de temps, métadonnées homogénéisées et consistantes, analyses plus approfondies.
Contexte et attentes
- 18 -
Annota'on plan AP2
Annota'on plan AP1
Luxid®, le moteur d’annotations de Temis
Luxid® Annota'on Factory
Luxid® Annotation Web Services
SC SC SC SC
SC SC SC
AP1
Temis Marketplace
SC SC SC
SC SC
Skill Cartridge IDE
Document (.pdf, .docx, .html, …)
Annotations (XCas)
- 19 -
Annotation ! Entité. Ex : /Entity/Enterprise/Google ! Attribut. Ex : /OccurrenceAttribute/Amount/$3,2ma ! Relation entre entités. Ex : /Relationship/Acquisition ! Categorie. Ex : /Category/Business/USA
Cartouche (Skill Cartridge) ! Composant d’extraction d’annotations métier basé sur du lexique et
sur des règles d’extraction
Plan d’annotation ! Séquence de cartouches accessible via SOAP
XCas ! Fichier XML contenant les annotations
Luxid® Annotation Factory
- 20 -
Annotation à la demande
Connecteur Nuxeo/Temis
- 21 -
Connecteur Nuxeo/Temis
Configuration
Mapping entre les annota'ons et les faceees
Mapping entre les annota'ons et les métadonnées
- 22 -
Connecteur Nuxeo/Temis
Annotation à la demande
Ajout de faceees séman'que
! Cartouches TM360 + ComputerSciences ! Type TemisContent => cartouche TM360 ! Type TemisTech => cartouche TM360 + ComputerScience
- 23 -
Connecteur Nuxeo/Temis
Annotation à la demande
- 24 -
Connecteur Nuxeo/Temis
Annotation à la demande
- 25 -
Annotation à la demande ! Application d’un plan d’annotation sur la pièce jointe ! Configuration des entités à extraire ! Configuration du niveau de profondeur par entité ! Fusion possible entre plusieurs entités ! Sauvegarde des résultats au sein de métadonnées ! Stockage de la prévisualisation ! Alimentation de vocabulaires Nuxeo ! Facette de recherche ! Navigations virtuelles
Limitations ! Temps de réponse (environ 200kB à 1MB/s selon le plan d’annotation) ! Pas adapté à l’annotation manuelle d’un grand nombre de documents
Connecteur Nuxeo/Temis
- 26 -
Connecteur Nuxeo/Temis
Import en masse
- 27 -
! Démo pour l’AFD en 2014 ! 3000 documents (3GB) ! Annotés en 4h ! Cartouche TM360 + Thesaurus UNBIS (ONU)
Connecteur Nuxeo/Temis
Import en masse
- 28 -
Connecteur Nuxeo/Temis
Import en masse
- 29 -
Roadmap
- 30 -
Fonctionnalités en cours de développement : ! Indexation de différentes typologies documentaires ! Catégorisation ! Administration des plans d’annotation depuis Nuxeo
Roadmap du connecteur
- 31 -
Contacts
Cécile LE PAPE
Architecte Rennes
Mob. : 06 47 76 81 00 [email protected]
Océane Consulting DM 40 Rue de Bray 35510 Cesson-Sévigné www.oceaneconsulting.com
Pour plus d’infos : stand Oceane Consulting DM