Upload
efuru
View
30
Download
0
Embed Size (px)
DESCRIPTION
Soutenance de Janvier. Re cherche Sé mantique d’ In formation. CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille. INTRODUCTION AU SUJET. blabla. Resein = recherche sémantique d’information (ie. Basée sur le sens) - PowerPoint PPT Presentation
Citation preview
CLERC FrédéricCLERC Frédéric
COMMEROT SamiCOMMEROT Sami
CROGUENNEC JulienCROGUENNEC Julien
GARNIER NicolasGARNIER Nicolas
MIGNÉ VincentMIGNÉ Vincent
VAILLANT LaurentVAILLANT Laurent
Encadreur : DUCASSÉ MireilleEncadreur : DUCASSÉ Mireille
ReRecherche cherche SéSémantique mantique d’d’InInformationformation
Soutenance de Janvier
2
Resein = recherche sémantique d’information (ie. Basée sur le sens)
Nécessité d’acquérir une représentation sémantique riche des mots.
La représentation choisie est celle des couples qualia.
Couple qualia : association d’un nom et d’un verbe qui sont liés par le sens
Ex : (magasin, vendre) (magasin, acheter) etc.
Intérêt de la récupération automatique de ces couples pour les
linguistes.
INTRODUCTION AU SUJET
blablablabla
3
Fonction du prototype de recherche de Vincent Claveau :
L’acquisition automatique des couples qualia contenus dans un
texte
But du projet :
Correction des bogues du prototype
Mise en place d’une interface pour faciliter son utilisation par les
linguistes
Réalisation d’une application Web utilisant les couples qualia
PRÉSENTATION DU PROJET
blablablabla
4
1- Présentation du projet
2- Le Prototype2.1- Introduction
2.2- Etiquetage
2.3- Apprentissage
2.4- Extraction
2.5- Bootstrapping
2.6- Tests et Conclusion
3- La Spécification3.1- Installation automatique
3.2- Interface du prototype
3.3- Nouveau corpus
3.4- Application Web
4- Bilan
PRÉSENTATION DU PROJET
PlanPlan
5
LE PROTOTYPE
Fonctionnement Global (1/3)Fonctionnement Global (1/3)
ApprentissageProgrammation Logique
Inductive (Aleph)corpus
exemplespositifs
Expertslinguistes
exemplesnégatifs
exemple :(...) je pense aller au magasinpour acheter des disques (...)
exemples :qualia(magasin, acheter).qualia(disque, acheter)....
exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....
6
LE PROTOTYPE
Fonctionnement Global (2/3)Fonctionnement Global (2/3)
ApprentissageProgrammation Logique
Inductive (Aleph)
exemplespositifs
exemplesnégatifs
exemples :qualia(magasin, acheter).qualia(disque, acheter)....
exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....
règles
exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...
7
LE PROTOTYPE
Fonctionnement Global (3/3)Fonctionnement Global (3/3)
règles
exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...
Extraction
corpus
couplesqualia
exemples :qualia(magasin, acheter).qualia(disque, acheter).qualia(magasin, aller)....
exemple :(...) je pense aller au magasinpour acheter des disques (...)
8
LE PROTOTYPEFonctionnement Global : Fonctionnement Global : RécapitulatifRécapitulatif
règles Extraction couplesqualia
ApprentissageProgrammation Logique
Inductive (Aleph)
exemplespositifs
exemplesnégatifs
Expertslinguistes
corpus
9
LE PROTOTYPE
Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpusd’apprentissage : le Corpus
corpus : texte ou recueil de textes relatif à un domaine spécifique
servant à
une étude linguistique.
contraintes (pour le traitement par le prototype) :
taille conséquente (au moins 100.000 mots)
en français uniquement
style non-littéraire de préférence (phrases concrètes)
termes techniques propres au domaine fréquemment utilisés
nécessité d’avoir un étiquetage syntaxique et sémantique
des mots
10
LE PROTOTYPEDonnées nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpus d’apprentissage : le Corpus étiquetéétiqueté
1385\1 TOK Le le#det_sg\ddef1385\4 TOK marché marché#noun_sg\acy1385\11 TOK du de#prep\rde1385\14 TOK disque disque#noun_pl\art1385\21 TOK devrait devoir#verb_sg\mod1385\29 TOK reculer reculer#verb_inf\acp1385\37 TOK cette ce#det_sg\ddemon1385\43 TOK année année#noun_sg\tme1385\48 PTERM_P . EOS .#sent\sent
Exemple de phrase : “Le marché du disque devrait reculer cette année.”
Problème : utilisation du logiciel payant Cordial7
11
Exemples Positifs E+ (resp. Négatifs E-) : couples Nom-Verbe présents dansle corpus et certifiés par un expert linguiste comme qualia (resp. non qualia).
clauses Prolog totalement adaptées
LE PROTOTYPE
Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : les Exemplesd’apprentissage : les Exemples
exemple :is_qualia(magasin,acheter) :-
phrase entière d’où est tirée l’exempleavec l’étiquetage associé à chaque mot.
format :is_qualia(N,V) :-tags(et_debut,tc_vide,ts_vide),tags(NomN,tagSyntaxiqueN,tagSemantiqueN),pred(NomN,et_debut),tags(V,tagSyntaxiqueV,tagSemantiqueV),pred(N,V),...
Pour un bon apprentissage : 3.000 ex. positifs et 3.000 négatifs pour 100.000 mots très fastidieux pour les experts linguistes solution alternative automatisée : le Bootstrapping
12
LE PROTOTYPE
ApprentissageApprentissage
13
LE PROTOTYPE
ExtractionExtraction
14
Apprentissage(Prolog, Aleph)
Extractioncouplesqualia
règles
corpusétiqueté
E+
E-
paramètresBackgroundKnowledge
opérateur deraffinement
Bootstrapping
Nouveau schéma de fonctionnement
LE PROTOTYPE
BootstrappingBootstrapping
15
Présentation du module :
- Prend en entrée un corpus étiqueté
- Extrait les ensembles positifs et négatifs
- Entièrement automatique
BootstrappingE-
E+Corpusétiqueté
LE PROTOTYPE
BootstrappingBootstrapping
16
Fonctionnement du module :
- Calcul du score IM3 de chaque couple N-V
- Couples ayant le plus haut score = E+
- Couples ayant le plus bas score = E-
Le score IM3 :
- Basé sur le nombre d’occurrences du couple N-V
- La formule :)+)(+(
log3
2 caba
a
LE PROTOTYPE
BootstrappingBootstrapping
17
Performance :
Tests effectués par Vincent Claveau
Tests effectués sur le corpus Matra uniquement :- Résultats équivalents avec les E+/E- extrait manuellement
LE PROTOTYPE
BootstrappingBootstrapping
18
Points positifs :
- Prototype assez stable
- Fonctionne sous Linux / Solaris
- Résultats relativement bons
LE PROTOTYPE
Tests & ConclusionTests & Conclusion
19
Points négatifs :
- Pour corpus de grande taille uniquement
- Pour corpus de style “non-littéraire”
- Temps d’exécution très longs (de 15 min à 7 jours)
- Certains paramètres codés “en dur”
- Prototype difficile à utiliser
- Prototype difficile à installer
LE PROTOTYPE
Tests & ConclusionTests & Conclusion
20
Le prototype est un programme en ligne de commande création d'une interface et d'un assistant d'installation
Un seul corpus est disponible
recherche et création d'un nouveau corpus
Application : Spécification d'un interface Web
SPÉCIFICATIONS
IntroductionIntroduction
21
Pourquoi ?
- Interface du prototype en ligne de commande et rebutante.
- Souci d'avoir un logiciel exploitable par un linguiste lambda.
- Une valeur ajoutée pour la distibution :
des fonctionnalités supplémentaires.
faciliter la manipulation des données utilisées par le prototype.
SPÉCIFICATIONS
Interface PrototypeInterface Prototype
22
Conception :
- Choix d'une interface avec des onglets.
- Chacun des onglets représente un module précis du prototype.
- Scénarios d'utilisation élaborés pour chaque onglets.
SPÉCIFICATIONS
Interface PrototypeInterface Prototype
23
Utilité : Tester le prototype en profondeur Avoir une utilisation personnelle pour notre projet Domaine plus intéressant par rapport aux hélicoptères
Conditions : Textes dans un bon français Phrases stéréotypées et termes techniques fréquents Contraintes par rapport à l’étiquetage
SPÉCIFICATIONS
Nouveau CorpusNouveau Corpus
24
Domaine choisi : le sport
Listing des sports : Sports collectifs Sports individuels Sports mécaniques Sports de combat Sports extrêmes Autres…
Autres détails sur le Corpus
SPÉCIFICATIONS
Nouveau CorpusNouveau Corpus
25
Exemples d’utilisation :
L’utilisateur entre sa requête, Exemple : magasin disque
Sa requête est traité par l’interface Web et l’utilisateur est renvoyé vers une
autre page :
SPÉCIFICATIONS
Application WebApplication Web
26
Page d’aide à la recherche
On propose à l’utilisateur de compléter sa requête, avec les couples
qualia :
Requête initiale : magasin disque
Magasin : 1 – acheter
2 – servir
3 – vendre
4 – consommer
5 – ouvrir
Disque :
1 – écouter
2 – lire
3 – acheter
SPÉCIFICATIONS
Application WebApplication Web
27
Résultats :
Requête initiale : magasin disque
Avec ces choix, l’utilisateur obtient une nouvelle requête :
(magasin disque) et (acheter ou vendre) et (écouter ou lire)
La nouvelle requête est directement envoyée vers la page de résultats
d’un
moteur de recherche.
SPÉCIFICATIONS
Application WebApplication Web
28
But de l’interface : Aider un utilisateur dans ses recherches sur Google Lui proposer des sites plus ciblés sur sa requête Prendre en compte la généralité de certaines requêtes Avoir une application concrète pour le prototype
Conception : Stockage des couples qualia dans une base de données Classement des couples en fonction de leur pertinence
SPÉCIFICATIONS
Application WebApplication Web
29
Limites du projet :
- lenteur du prototype pour récupérer les couples qualia
- couples qualia spécifiques à un domaine précis
- nécessité d’utiliser Cordial7 (logiciel sous license) au préalable
Interrogations sur l’avenir du projet :
- pertinence des couples qualia obtenus à partir de notre corpus
- validation de l’interface par les linguistes
- efficacité de l’application Web dans la recherche d’informations
BILAN
......