INRIA
IA et Traitement Automatique des Langues (TAL)Quel panorama ?
Éric de la Clergerie<[email protected]>
Almanachhttp://alpage.inria.fr
Séminaire DIXITParis, 24 Février 2017
INRIA Éric de la Clergerie IA & NLP 07/12/15 1 / 34
INRIA
Analyse Linguistique Profonde À Grande Échelle
Outils + Ressources linguistiques vers Données + Apprentissage<?xml vers ion=" 1.0 " encoding=" ISO−8859−1 "?><dependencies i d ="E1" mode=" f u l l ">
< c l u s t e r i d = " E1c_1_2 " l e f t = " 1 " r i g h t = " 2 " token=" soyons " lex="E1F2 | soyons " / >
< c l u s t e r i d = " E1c_2_3 " l e f t = " 2 " r i g h t = " 3 " token=" i m a g i n a t i f s "l ex="E1F3 | i m a g i n a t i f s " / >
< c l u s t e r i d = " E1c_5_6 " l e f t = " 5 " r i g h t = " 6 " token=" déc lare " lex="E1F6 | déc lare " / >
<node de r i v = " E1d10 " xcat= "comp" i d =" E1n13 " cat= " ad j " t r ee =" 72" lemma=" i m a g i n a t i f " c l u s t e r = " E1c_2_3 " form=" i m a g i n a t i f s " / >
<node de r i v = " E1d104 " xcat= "S" i d =" E1n22 " cat= " v " t r ee =" 186 "lemma=" déc la re r " c l u s t e r = " E1c_5_6 " form=" déc lare " / >
<node de r i v = " E1d13 " xcat= "S" i d ="E1n7" cat= " v " t r ee =" 198 "lemma=" ê t re " c l u s t e r = " E1c_1_2 " form=" soyons " / >
<edge i d =" E1e029 " source=" E1n22 " t a r g e t = " E1n18 " type=" l e x i c a l" l a b e l = " sub jec t ">< de r i v names=" E1d104 " source_op="E1o5" target_op=" E1o20 "span=" 6 7 " / >
< / edge><edge i d =" E1e011 " source=" E1n007 " t a r g e t = " E1n013 " type=" subst
" l a b e l = "comp">< de r i v names=" E1d000013 " source_op=" E1o26 " target_op="E1o9"span=" 2 3 " / >
< / edge><edge i d =" E1e008 " source=" E1n022 " t a r g e t = " E1n007 " type=" subst
" l a b e l = "xcomp">< de r i v names=" E1d000104 " source_op="E1o5" target_op=" E1o26 "span=" 0 4 " / >
< / edge>< / dependencies >
à tester sur http://alpage.inria.fr/frmgwiki
Grammaire
FRMG
Lexique LEFFF
Entités NomméesALEDA
WordNetWOLF FrameNet
ASFALDA treebanks
INRIA Éric de la Clergerie IA & NLP 07/12/15 2 / 34
INRIA
Quelles applications ?
Extraction d’information & Annotations
http://alpage.inria.fr/sapiens
Acquisition de connaissances (à partir de grands corpus)
http://alpage.inria.fr/Lbx
INRIA Éric de la Clergerie IA & NLP 07/12/15 3 / 34
INRIA
Beaucoup d’applications potentielles . . .
recherche d’information, veille, extraction, questions-réponsesaccès à l’information : traduction, résumés, annotations/lienssémantiquesanalyse d’opinion, e-réputationanalyse de communautés (tweets, blogs, . . . )génération (articles journaux, rapports, ...)plagiat, authoring, détection spams & faux commentaires, fact checkingaide à la rédaction : correction grammaticale, stylistique ; saisie prédictiveaide pédagogique : apprentissage des langues, tutorat, évaluationinteraction : agents conversationnels, chatbots, assistants numériques,reconnaissance vocale, synthèse, dictée vocale
INRIA Éric de la Clergerie IA & NLP 07/12/15 4 / 34
INRIA
Et déjà de bons résultats en bricolant . . .
Robot journaliste (inquiétudes !)
http://goo.gl/0cpFvC
Générer du non-sens new-age !
http://sebpearce.com/bullshit/
Eliza la thérapiste !
http://www.eliza.levillage.org/
INRIA Éric de la Clergerie IA & NLP 07/12/15 5 / 34
INRIA
Mais de réelles difficultés !
Forte ambiguïté du langage (tous niveaux)⇒ besoin connaissances sur le monde, le contexte, . . . ,via ressources et statistiques
Diversité (langues, domaines, phénomènes),créativité (néologismes, expressions) et évolutivité⇒ besoin de robustesse
Ellipses (ce qui n’est pas dit/écrit)⇒ besoin connaissances partagées, aspects culturels
Jeux avec le language (métaphores, euphémismes, ironie, . . . )
Omar m’a tuer
Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais quec’est pas parce que vous voulez renverser la table que vousdescendez de la voiture dont vous vous abstenez de choisir lechauffeur.
INRIA Éric de la Clergerie IA & NLP 07/12/15 6 / 34
INRIA
Néanmoins des succès récents et des annonces
2010: Google translate2011: IBM Watsongagne à Jeopardy 2011: Assistants vocaux
Siri, Google Now, Cortana
2014: Le chatbot Eugene Goostmanréussit le test de Turing ?
http://goo.gl/hQSmmf
2015: une IA surveillewikipedia
http://goo.gl/zAvbSt
INRIA Éric de la Clergerie IA & NLP 07/12/15 7 / 34
INRIA
IA ? On y est presque :-)
Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings
2013: Word embeddingsanalogies ≡ calcul vectoriel
Mikolov et al.2014: Analyse d’opinions
Socher et al.
2015: Google SmartReplysuggérer des réponses aux mails
http://goo.gl/d8R2LI
DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits
INRIA Éric de la Clergerie IA & NLP 07/12/15 8 / 34
INRIA
Une conjonction de bons facteurs
Masses de donnéestextuelles (et autres)
Des algo d’apprentissagede + en + sophistiqués
De la puissance de calcul
Linked Open DataDes ressources structu-rées (RDF) et en réseau
INRIA Éric de la Clergerie IA & NLP 07/12/15 9 / 34
INRIA
Une chronologie simplifiée
Symbolique
ApprentissageNeuronal
perfo
rman
ces
1950 ∼ 1980 ∼ 2000 ∼ 2010
INRIA Éric de la Clergerie IA & NLP 07/12/15 10 / 34
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 11 / 34
INRIA
Aproches symboliques
S’appuyant sur des ressources linguistiques,(semi-) manuellement construites
grammaireFRMG
lexiqueLEFFF
ENALEDA
WordNetWOLF
FrameNetASFALDA
VerbNetVERBENET
INRIA Éric de la Clergerie IA & NLP 07/12/15 12 / 34
INRIA
Vers des ressources sémantiques : ontologies
Rapprochement TAL et Web Sémantique
INRIA Éric de la Clergerie IA & NLP 07/12/15 13 / 34
INRIA
Évènements et rôles : FrameNet Baker & Fillmore
Pour l’extraction d’information : qui fait QUOI, quand, comment, . . .Importance de connaissances sur des scénari d’évenements,avec indications sur les acteurs, leurs rôles, et constructions syntaxiques
FRAMENET (http://framenet.icsi.berkeley.edu/)COMMERCE_PAY This frame involves Buyers paying Money for Goods. Inthis frame the Money is the direct object, and is mapped to the theme ofthe transfer.COMMUNICATION A Communicator conveys a Message to an Addressee ;the Topic and Medium of the communication also may be expressed.
Relié aux rôles thématiques : agent, patient, theme, . . .
Ressources similaires : VERBNET, PROPBANK, . . .
ALPAGE : ASFALDA
INRIA Éric de la Clergerie IA & NLP 07/12/15 14 / 34
INRIA
Aproches symboliques (pro & cons)
Ecosystèmes (complexes) de ressources linguistiques
grammaireFRMG
lexiqueLEFFF
ENALEDA
WordNetWOLF
FrameNetASFALDA
VerbNetVERBENET
4 expertise linguistique4 taille & complexité4 faible couverture4 trop fines4 non probabilisées
X compréhensiblesX évolutivesX ∼ dev. logiciel
INRIA Éric de la Clergerie IA & NLP 07/12/15 15 / 34
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 16 / 34
INRIA
Succès et limites des approches supervisées
Courant majoritaire : données annotées et apprentissage supervisé
FTB12Ks
SequoiaBank3Ks
QuestionBank2Ks
SocialMediaBank
TimeBank
DiscourseTreeBank
RhapsodieTreeBank
X efficaceX découplageX robustesseX évaluationX autonome
4 coût humain4 fastidieux4 peu évolutif4 sensibilité domaine4 expertise traits4 boite noire
INRIA Éric de la Clergerie IA & NLP 07/12/15 17 / 34
INRIA
Importance des jeux de traitsMéthodes (discriminantes) : apprentissage configuration vers décisionLes configurations abstraites par des propriétés (trait – features)
Tâche d’étiquetage syntaxique : la configuration c
Paul/PN pense/V que le chat dort
abstraite par
f1 le mot courant est quef2 le mot précedent est pensef3 le mot à -2 est Paulf4 l’étiquette du mot à -1 est vf5 le mot à -2 commence par une majuscule...
...f93 les 2 étiquettes précédentes sont pn vf100 les 2 mots précédents sont Paul pense...
...
; très gros jeux de traits ; très gros modèles et sur-entraînementINRIA Éric de la Clergerie IA & NLP 07/12/15 18 / 34
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 19 / 34
INRIA
IA ? On y est presque :-)
Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings
2013: Word embeddingsanalogies ≡ calcul vectoriel
Mikolov et al.2014: Analyse d’opinions
Socher et al.
2015: Google SmartReplysuggérer des réponses aux mails
http://goo.gl/d8R2LI
DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits: Theano, Keras, Torch, . . .https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software
INRIA Éric de la Clergerie IA & NLP 07/12/15 20 / 34
INRIA
BaseModélisation des neurones biologiques :
les neurones portent des vecteurs (de réels) x = [−, · · · ,−]de dimension moyenne (d=100 à 500)les vecteurs xi associés à des neurones d’entrées sont combinés pourfournir un vecteur y à un neurone de sortie
y
x1 x2 x3 x4
Fow
ard
y = σ(ΣiAixi ) avec Ai matrice
Fonction d’activation σ : en générale non linéaireσ doit faire basculer l’état du neurone de sortie vers oui ou non
INRIA Éric de la Clergerie IA & NLP 07/12/15 21 / 34
INRIA
Fonctions d’activation
Utilisation de fonctions proches d’une bascule oui/non mais dérivables
tanh(x) =ex − e−x
ex + e−x tanh′(x) = 1− tanh2(x)
tangente hyperbolique tanh
D’autres fonctions sont aussi utilisées (softmax, sigmoïde)
INRIA Éric de la Clergerie IA & NLP 07/12/15 22 / 34
INRIA
Sorties multiples
On peut avoir plusieurs neurones de sortie
y1 y2
x1 x2 x3 x4
INRIA Éric de la Clergerie IA & NLP 07/12/15 23 / 34
INRIA
Couches cachéesOn peut intercaler des couches cachées intermédiaires⇒ abstraction progressive des informations des neurones d’entrée ; traits
y1 y2
x1 x2 x3 x4
INRIA Éric de la Clergerie IA & NLP 07/12/15 24 / 34
INRIA
Apprentissage : backpropagation
y1 y2
x1 x2 x3 x4
Backw
ard
Similaire au perceptronredescente des erreurs des neurones de sortie vers les neurones d’entrée(backpropagation)mise à jour des paramètres Wi par descente de gradient
W (t+1)i = W (t)
i − µ ∗∂y∂Wi
INRIA Éric de la Clergerie IA & NLP 07/12/15 25 / 34
INRIA
Réseaux récurrentsPour le TAL, on veut des réseaux adaptés au traitement de séquences(charactères, mots, phrases, . . . )⇒ Réseaux récurrentsla sortie de la config à i est utilisée comme entrée pour calculer i + 1
(crédit illustration : http://colah.github.io/posts/2015-08-Understanding-LSTMs)INRIA Éric de la Clergerie IA & NLP 07/12/15 26 / 34
INRIA
LSTM
Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli)Long-Short Term Memory – LSTM
INRIA Éric de la Clergerie IA & NLP 07/12/15 27 / 34
INRIA
Agencer des briquesÉtat de l’art actuellement en TAL :
bi-LSTM (lecture gauche-droite + lecture droite-gauche)sur mots et si-besoin caractères+ convolution 1D (combine info autour du mot courant)
Crédits : Practical Neural Networks for NLP : From Theory to Code. Dyer, Goldberg, and Neubig
INRIA Éric de la Clergerie IA & NLP 07/12/15 28 / 34
INRIA
Pro & Cons
X État de l’art en TAL sur de nombreuse tâches,mais proche d’autres méthodes d’apprentissage
X ouverture vers d’autres tâches (approches moins supervisées)
X4 agencement (+ en + complexe) de réseaux de basemais les premières couches utilisables pour plusieurs tâches
4 besoin de gros volumes de données
4 sensibles aux initialisations
4 entraînements longs
4 interprétation des modèles
INRIA Éric de la Clergerie IA & NLP 07/12/15 29 / 34
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 30 / 34
INRIA
Hybridation
Mariage symbolique et apprentissage (tenté avec FRMG)
4 expertise forte requiseformel x linguistique
4 problème couverture(mais FRMG ∼ 90%, etintérêt des erreurs)
4X ressources linguistiquesrequises/exploitables
4 gestion des ambiguïtés
X compréhensibilité etadaptabilité
X développement initial rapideX moins sensible au domaineX possibilité de régler des
paramètres par apprentissage(hybridation) et couplage avecoutils statistiques
FTB testEuropar
annodis
emea-fr-dev
emea-fr-test
frwiki
8284868890
LAS
FRMG stat. FRMG+stat.
Divers analyseurs sur corpus SEQUOIA
INRIA Éric de la Clergerie IA & NLP 07/12/15 31 / 34
INRIA
Approches non supervisées
Courant futuriste : emploi encore limité !
Partir de données brutes :
ok pour modèles de langue (saisie prédictive)⇒Word Embeddings (word2vec)
ok pour regroupements (clustering); ressourcesextraction terminologie, champs thématiques,réseaux sémantiques, morphologie, . . .en général besoin de validation
pas trop mal pour étiquetage et ségmentation
faible sur des décisions complexes(induction de grammaires)
http://stp.lingfil.uu.se/~bea/copiale/
INRIA Éric de la Clergerie IA & NLP 07/12/15 32 / 34
INRIA
Vers des approches faiblement superviséesCourant prometteur : l’imagination au pouvoir
Exploitation de vues multiples et interactions
traduction : textes alignéstransfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . )accès aux logs des moteurs de recherche + liens suivis + bouton chanceanalyse d’opinion : associer commentaires et notes données par lesutilisateurs (Google/Jigsaw Perspective)réseaux sociaux : méta-données associées (threads/discussions, date, . . . )séquences de mails ; Google SmartReplyPhotos & légendes ; Films & sous-titrescrowdsourcing : payant ou au travers de jeux
INRIA Éric de la Clergerie IA & NLP 07/12/15 33 / 34
INRIA
Conclusion
Une époque faste (données, puissance, algo, ressources)mais quels acteurs ?
Une grande palette de techniques et des mariages possibles
De nouvelles approches à explorer pour des supervisions faibles
Proche d’IA spécialistes (go, poker,. . . ) mais loin d’IA généralistespb : agencement/interaction de très nombreux composants
Et encore très loin d’une compréhension du langage et du mondeapprendre à apprendre, adaptation à l’imprévu, . . . (; Almanach)
INRIA Éric de la Clergerie IA & NLP 07/12/15 34 / 34