Download pdf - IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

IA et Traitement Automatique des Langues (TAL)Quel panorama ?

Éric de la Clergerie<[email protected]>

Almanachhttp://alpage.inria.fr

Séminaire DIXITParis, 24 Février 2017

INRIA Éric de la Clergerie IA & NLP 07/12/15 1 / 34

[email protected]>

http://alpage.inria.fr

INRIA

Analyse Linguistique Profonde À Grande Échelle

Outils + Ressources linguistiques vers Données + Apprentissage<?xml vers ion=" 1.0 " encoding=" ISO−8859−1 "?><dependencies i d ="E1" mode=" f u l l ">

< c l u s t e r i d = " E1c_1_2 " l e f t = " 1 " r i g h t = " 2 " token=" soyons " lex="E1F2 | soyons " / >

< c l u s t e r i d = " E1c_2_3 " l e f t = " 2 " r i g h t = " 3 " token=" i m a g i n a t i f s "l ex="E1F3 | i m a g i n a t i f s " / >

< c l u s t e r i d = " E1c_5_6 " l e f t = " 5 " r i g h t = " 6 " token=" déc lare " lex="E1F6 | déc lare " / >

<node de r i v = " E1d10 " xcat= "comp" i d =" E1n13 " cat= " ad j " t r ee =" 72" lemma=" i m a g i n a t i f " c l u s t e r = " E1c_2_3 " form=" i m a g i n a t i f s " / >

<node de r i v = " E1d104 " xcat= "S" i d =" E1n22 " cat= " v " t r ee =" 186 "lemma=" déc la re r " c l u s t e r = " E1c_5_6 " form=" déc lare " / >

<node de r i v = " E1d13 " xcat= "S" i d ="E1n7" cat= " v " t r ee =" 198 "lemma=" ê t re " c l u s t e r = " E1c_1_2 " form=" soyons " / >

<edge i d =" E1e029 " source=" E1n22 " t a r g e t = " E1n18 " type=" l e x i c a l" l a b e l = " sub jec t ">< de r i v names=" E1d104 " source_op="E1o5" target_op=" E1o20 "span=" 6 7 " / >

< / edge><edge i d =" E1e011 " source=" E1n007 " t a r g e t = " E1n013 " type=" subst

" l a b e l = "comp">< de r i v names=" E1d000013 " source_op=" E1o26 " target_op="E1o9"span=" 2 3 " / >

< / edge><edge i d =" E1e008 " source=" E1n022 " t a r g e t = " E1n007 " type=" subst

" l a b e l = "xcomp">< de r i v names=" E1d000104 " source_op="E1o5" target_op=" E1o26 "span=" 0 4 " / >

< / edge>< / dependencies >

à tester sur http://alpage.inria.fr/frmgwiki

Grammaire

FRMG

Lexique LEFFF

Entités NomméesALEDA

WordNetWOLF FrameNet

ASFALDA treebanks


http://alpage.inria.fr/frmgwiki

INRIA

Quelles applications ?

Extraction d’information & Annotations

http://alpage.inria.fr/sapiens

Acquisition de connaissances (à partir de grands corpus)

http://alpage.inria.fr/Lbx


http://alpage.inria.fr/sapiens

http://alpage.inria.fr/Lbx

INRIA

Beaucoup d’applications potentielles . . .

recherche d’information, veille, extraction, questions-réponsesaccès à l’information : traduction, résumés, annotations/lienssémantiquesanalyse d’opinion, e-réputationanalyse de communautés (tweets, blogs, . . . )génération (articles journaux, rapports, ...)plagiat, authoring, détection spams & faux commentaires, fact checkingaide à la rédaction : correction grammaticale, stylistique ; saisie prédictiveaide pédagogique : apprentissage des langues, tutorat, évaluationinteraction : agents conversationnels, chatbots, assistants numériques,reconnaissance vocale, synthèse, dictée vocale


INRIA

Et déjà de bons résultats en bricolant . . .

Robot journaliste (inquiétudes !)

http://goo.gl/0cpFvC

Générer du non-sens new-age !

http://sebpearce.com/bullshit/

Eliza la thérapiste !

http://www.eliza.levillage.org/


http://goo.gl/0cpFvC

http://sebpearce.com/bullshit/

http://www.eliza.levillage.org/

INRIA

Mais de réelles difficultés !

Forte ambiguïté du langage (tous niveaux)⇒ besoin connaissances sur le monde, le contexte, . . . ,via ressources et statistiques

Diversité (langues, domaines, phénomènes),créativité (néologismes, expressions) et évolutivité⇒ besoin de robustesse

Ellipses (ce qui n’est pas dit/écrit)⇒ besoin connaissances partagées, aspects culturels

Jeux avec le language (métaphores, euphémismes, ironie, . . . )

Omar m’a tuer

Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais quec’est pas parce que vous voulez renverser la table que vousdescendez de la voiture dont vous vous abstenez de choisir lechauffeur.


INRIA

Néanmoins des succès récents et des annonces

2010: Google translate2011: IBM Watsongagne à Jeopardy 2011: Assistants vocaux

Siri, Google Now, Cortana

2014: Le chatbot Eugene Goostmanréussit le test de Turing ?

http://goo.gl/hQSmmf

2015: une IA surveillewikipedia

http://goo.gl/zAvbSt


http://goo.gl/hQSmmf

http://goo.gl/zAvbSt

INRIA

IA ? On y est presque :-)

Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings

2013: Word embeddingsanalogies ≡ calcul vectoriel

Mikolov et al.2014: Analyse d’opinions

Socher et al.

2015: Google SmartReplysuggérer des réponses aux mails

http://goo.gl/d8R2LI

DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits



INRIA

Une conjonction de bons facteurs

Masses de donnéestextuelles (et autres)

Des algo d’apprentissagede + en + sophistiqués

De la puissance de calcul

Linked Open DataDes ressources structu-rées (RDF) et en réseau


INRIA

Une chronologie simplifiée

Symbolique

ApprentissageNeuronal

perfo

rman

ces

1950 ∼ 1980 ∼ 2000 ∼ 2010


INRIA

Outline

1 Approches symboliques

2 Apprentissage supervisé

3 Approches neuronales

4 Vers d’autres approches


INRIA

Aproches symboliques

S’appuyant sur des ressources linguistiques,(semi-) manuellement construites

grammaireFRMG

lexiqueLEFFF

ENALEDA

WordNetWOLF

FrameNetASFALDA

VerbNetVERBENET


INRIA

Vers des ressources sémantiques : ontologies

Rapprochement TAL et Web Sémantique


INRIA

Évènements et rôles : FrameNet Baker & Fillmore

Pour l’extraction d’information : qui fait QUOI, quand, comment, . . .Importance de connaissances sur des scénari d’évenements,avec indications sur les acteurs, leurs rôles, et constructions syntaxiques

FRAMENET (http://framenet.icsi.berkeley.edu/)COMMERCE_PAY This frame involves Buyers paying Money for Goods. Inthis frame the Money is the direct object, and is mapped to the theme ofthe transfer.COMMUNICATION A Communicator conveys a Message to an Addressee ;the Topic and Medium of the communication also may be expressed.

Relié aux rôles thématiques : agent, patient, theme, . . .

Ressources similaires : VERBNET, PROPBANK, . . .

ALPAGE : ASFALDA


http://framenet.icsi.berkeley.edu/

INRIA

Aproches symboliques (pro & cons)

Ecosystèmes (complexes) de ressources linguistiques

grammaireFRMG

lexiqueLEFFF

ENALEDA

WordNetWOLF

FrameNetASFALDA

VerbNetVERBENET

4 expertise linguistique4 taille & complexité4 faible couverture4 trop fines4 non probabilisées

X compréhensiblesX évolutivesX ∼ dev. logiciel


INRIA

Outline






INRIA

Succès et limites des approches supervisées

Courant majoritaire : données annotées et apprentissage supervisé

FTB12Ks

SequoiaBank3Ks

QuestionBank2Ks

SocialMediaBank

TimeBank

DiscourseTreeBank

RhapsodieTreeBank

X efficaceX découplageX robustesseX évaluationX autonome

4 coût humain4 fastidieux4 peu évolutif4 sensibilité domaine4 expertise traits4 boite noire


INRIA

Importance des jeux de traitsMéthodes (discriminantes) : apprentissage configuration vers décisionLes configurations abstraites par des propriétés (trait – features)

Tâche d’étiquetage syntaxique : la configuration c

Paul/PN pense/V que le chat dort

abstraite par

f1 le mot courant est quef2 le mot précedent est pensef3 le mot à -2 est Paulf4 l’étiquette du mot à -1 est vf5 le mot à -2 commence par une majuscule...

...f93 les 2 étiquettes précédentes sont pn vf100 les 2 mots précédents sont Paul pense...

...

; très gros jeux de traits ; très gros modèles et sur-entraînementINRIA Éric de la Clergerie IA & NLP 07/12/15 18 / 34

INRIA

Outline






INRIA

IA ? On y est presque :-)

Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings

2013: Word embeddingsanalogies ≡ calcul vectoriel

Mikolov et al.2014: Analyse d’opinions

Socher et al.

2015: Google SmartReplysuggérer des réponses aux mails


DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits: Theano, Keras, Torch, . . .https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software



https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software

https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software

INRIA

BaseModélisation des neurones biologiques :

les neurones portent des vecteurs (de réels) x = [−, · · · ,−]de dimension moyenne (d=100 à 500)les vecteurs xi associés à des neurones d’entrées sont combinés pourfournir un vecteur y à un neurone de sortie

y

x1 x2 x3 x4

Fow

ard

y = σ(ΣiAixi ) avec Ai matrice

Fonction d’activation σ : en générale non linéaireσ doit faire basculer l’état du neurone de sortie vers oui ou non


INRIA

Fonctions d’activation

Utilisation de fonctions proches d’une bascule oui/non mais dérivables

tanh(x) =ex − e−x

ex + e−x tanh′(x) = 1− tanh2(x)

tangente hyperbolique tanh

D’autres fonctions sont aussi utilisées (softmax, sigmoïde)


INRIA

Sorties multiples

On peut avoir plusieurs neurones de sortie

y1 y2

x1 x2 x3 x4


INRIA

Couches cachéesOn peut intercaler des couches cachées intermédiaires⇒ abstraction progressive des informations des neurones d’entrée ; traits

y1 y2

x1 x2 x3 x4


INRIA

Apprentissage : backpropagation

y1 y2

x1 x2 x3 x4

Backw

ard

Similaire au perceptronredescente des erreurs des neurones de sortie vers les neurones d’entrée(backpropagation)mise à jour des paramètres Wi par descente de gradient

W (t+1)i = W (t)

i − µ ∗∂y∂Wi


INRIA

Réseaux récurrentsPour le TAL, on veut des réseaux adaptés au traitement de séquences(charactères, mots, phrases, . . . )⇒ Réseaux récurrentsla sortie de la config à i est utilisée comme entrée pour calculer i + 1

(crédit illustration : http://colah.github.io/posts/2015-08-Understanding-LSTMs)INRIA Éric de la Clergerie IA & NLP 07/12/15 26 / 34

http://colah.github.io/posts/2015-08-Understanding-LSTMs

INRIA

LSTM

Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli)Long-Short Term Memory – LSTM


INRIA

Agencer des briquesÉtat de l’art actuellement en TAL :

bi-LSTM (lecture gauche-droite + lecture droite-gauche)sur mots et si-besoin caractères+ convolution 1D (combine info autour du mot courant)

Crédits : Practical Neural Networks for NLP : From Theory to Code. Dyer, Goldberg, and Neubig


INRIA

Pro & Cons

X État de l’art en TAL sur de nombreuse tâches,mais proche d’autres méthodes d’apprentissage

X ouverture vers d’autres tâches (approches moins supervisées)

X4 agencement (+ en + complexe) de réseaux de basemais les premières couches utilisables pour plusieurs tâches

4 besoin de gros volumes de données

4 sensibles aux initialisations

4 entraînements longs

4 interprétation des modèles


INRIA

Outline






INRIA

Hybridation

Mariage symbolique et apprentissage (tenté avec FRMG)

4 expertise forte requiseformel x linguistique

4 problème couverture(mais FRMG ∼ 90%, etintérêt des erreurs)

4X ressources linguistiquesrequises/exploitables

4 gestion des ambiguïtés

X compréhensibilité etadaptabilité

X développement initial rapideX moins sensible au domaineX possibilité de régler des

paramètres par apprentissage(hybridation) et couplage avecoutils statistiques

FTB testEuropar

annodis

emea-fr-dev

emea-fr-test

frwiki

8284868890

LAS

FRMG stat. FRMG+stat.

Divers analyseurs sur corpus SEQUOIA


INRIA

Approches non supervisées

Courant futuriste : emploi encore limité !

Partir de données brutes :

ok pour modèles de langue (saisie prédictive)⇒Word Embeddings (word2vec)

ok pour regroupements (clustering); ressourcesextraction terminologie, champs thématiques,réseaux sémantiques, morphologie, . . .en général besoin de validation

pas trop mal pour étiquetage et ségmentation

faible sur des décisions complexes(induction de grammaires)

http://stp.lingfil.uu.se/~bea/copiale/




INRIA

Vers des approches faiblement superviséesCourant prometteur : l’imagination au pouvoir

Exploitation de vues multiples et interactions

traduction : textes alignéstransfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . )accès aux logs des moteurs de recherche + liens suivis + bouton chanceanalyse d’opinion : associer commentaires et notes données par lesutilisateurs (Google/Jigsaw Perspective)réseaux sociaux : méta-données associées (threads/discussions, date, . . . )séquences de mails ; Google SmartReplyPhotos & légendes ; Films & sous-titrescrowdsourcing : payant ou au travers de jeux


INRIA

Conclusion

Une époque faste (données, puissance, algo, ressources)mais quels acteurs ?

Une grande palette de techniques et des mariages possibles

De nouvelles approches à explorer pour des supervisions faibles

Proche d’IA spécialistes (go, poker,. . . ) mais loin d’IA généralistespb : agencement/interaction de très nombreux composants

Et encore très loin d’une compréhension du langage et du mondeapprendre à apprendre, adaptation à l’imprévu, . . . (; Almanach)