Upload
europeana-newspapers
View
136
Download
0
Embed Size (px)
Citation preview
Reconnaissance d’entités nommées
et application sur les données de la { BnF
Alaa ABI HAIDAR, PhD
Aperçu de l'exposé
• Introduction: reconnaissance d’entités nommées (NER)
– Définition et motivation
• exemple: BnF et Europeana
• exemples: paternaires LiP6
– Solution(s) et problématique(s)
• Méthode UNERD
– Vue d’ensemble
– Désambiguïsassion contextuelle
– Résultats
• Applications et outils
– Nuage des mots à la Figaro
– Fleuve de la première guerre mondiale
– Soulignement automatique
– Outil d’annotation
• Mes recherches actuelles et futures
Reconnaissance d'entités nommées (1)
Définition:
L'étiquetage automatique des mots qui correspondent à des
concepts comme PERSONNE, LIEU et ORGANISATION
Motivation:
Indexation, résumé, classification thématique, analyse de
flux d’information, visualisation, enrichissement de la
lecture numérique ...
Exemple: BnF et Europeana Newspaper
Le Petit Parisien journal (1863-1944
) Fromat ALTO en open XML Standard OCR text en iso-8859-1
<String ID="PAG_1_ST000001"
STYLEREFS="TXT_1" HPOS="132" VPOS="305"
HEIGHT="20" WIDTH="125" WC="0.99"
CONTENT="REGION"/><SP ID="PAG_1_SP000001"
HPOS="257" VPOS="304" WIDTH="20"/><String
ID="PAG_1_ST000002" STYLEREFS="TXT_1"
HPOS="277" VPOS="304" WIDTH="222"
HEIGHT="21" WC="0.98"
CONTENT="PABISIENNE."/><SP
ID="PAG_1_SP000002" HPOS="499" VPOS="304"
WIDTH="40"/><String ID="PAG_1_ST000003"
STYLEREFS="TXT_1" HPOS="558" VPOS="304"
HEIGHT="20" WIDTH="40" WC="0.99"
CONTENT="Un"/><SP ID="PAG_1_SP000003"
HPOS="598" VPOS="303" WIDTH="18"/><String
ID="PAG_1_ST000004" STYLEREFS="TXT_1"
HPOS="616" VPOS="303" HEIGHT="23"
WIDTH="83" WC="0.99" CONTENT="temps"/><SP
ID="PAG_1_SP000004" HPOS="699" VPOS="301"
WIDTH="19"/><String ID="PAG_1_ST000005"
STYLEREFS="TXT_1" HPOS="718" VPOS="301"
HEIGHT="21" WIDTH="32" WC="0.99"
CONTENT="de"/></TextLine><TextLine
ID="PAG_1_TL000002" STYLEREFS="TXT_1"
HPOS="66" VPOS="331" HEIGHT="27"
WIDTH="682"><String ID="PAG_1_ST000006"
STYLEREFS="TXT_1" HPOS="98" VPOS="332"
WIDTH="156" HEIGHT="26" WC="0.98"
CONTENT="Toussaint,"/><SP
ID="PAG_1_SP000005" HPOS="252" VPOS="333"
WIDTH="22"/><String ID="PAG_1_ST000007"
STYLEREFS="TXT_1" HPOS="274" VPOS="333"
HEIGHT="23" WIDTH="145" WC="0.99"
CONTENT="maussade,"/><SP
ID="PAG_1_SP000006" HPOS="419" VPOS="332"
WIDTH="23"/><String ID="PAG_1_ST000008"
STYLEREFS="TXT_1" HPOS="442" VPOS="332"
HEIGHT="20" WIDTH="103" WC="0.99"
CONTENT="humide"/>
Exemple: Autres Partenaires
Partenaires:
LOCUPLETO, JOUVES,
SEJER, Labex OBVIL, Paris
Sorbonne, Pitié Salpetriere
I2D3, iManga, ACTIALUNA,
CELSA Sorbonne
Exemple: Labex OBVIL
identification d’auteur,
études stylistiques,
comparaison littéraire
Exemple: iManga
recommandation de
bibliothécaire et livre
Exemple: Rome et l’empire romain: Edition Nathan
Fromat EPUB et XML
Standard OCR text en iso-8859-1
Exemple: modélisation des systèmes
immunitaires
identification des taux de prolifération, division et la
mortalité des cellules a partir des milliers des textes
Reconnaissance d’entités nommées (2)
Solutions:
• Supervisées
• Non-supervisées
• Semi-supervisées
Problématiques non-supervisées:
• Ambiguïté: Paris LIEU, ORG ou PERSONNE?
• Limitation: Phénicie n’est pas dans le dictionnaire
• Bruit: 20BE2T et d’autres erreurs d’OCRisation
• Limite des mots: Fondation Fontaine de Charles de Gaule
Problématiques supervisées:
● Manque de données d’apprentissage et de
ressources humaines
● Spécificité des modules d’apprentissage
Méthode UNERD (vue d’ensemble de la démarche scientifique)
Unsupervised Named Entity Recognition & Disambiguation
<String ID="PAG_1_ST000001"
STYLEREFS="TXT_1" HPOS="132"
VPOS="305" HEIGHT="20"
WIDTH="125" WC="0.99"
CONTENT="REGION"/><SP
ID="PAG_1_SP000001"
HPOS="257" VPOS="304"
WIDTH="20"/><String
ID="PAG_1_ST000002"
STYLEREFS="TXT_1" HPOS="277"
VPOS="304" WIDTH="222"
HEIGHT="21" WC="0.98"
CONTENT="PABISIENNE."/><SP
ID="PAG_1_SP000002"
HPOS="499" VPOS="304"
WIDTH="40"/><String
OCRisation
Étiquetage
SyntaxiqueRecherche dans
les dictionnaires Apprentissage
machine sur les
entités sures
Désambiguïsas
sion et
reconnaissance
- ---
- -
- --- - ---
- ---- -- - -
Parametrisation
et optimisationPrédiction
comparaison a
d’autres méthodes
Application
Outil
d’annotation
Apprentissage
Supervisé
Annotation Manuelle
Comparaison avec
l’annotation
manuelle
Méthode UNERD Méthode d’apprentissage et de désambiguïsassion
Phase
d’apprentissag
e
Phase de
classification ou
de prédiction
● (S1) dictionnaire de Aleda uniquement
● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la
classification CRF avec l’outil de stanford et le reste pour valider
● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees
d’annotation pour l’apprentissage.
● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement
● (UNERD) Finallement notre mehode non-supervisee UNERD
Résultats UNERD Comparaison avec la méthode supervisée de stanford sur textes de BnF
Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL
Sum with BDpedia + YAGO2
0.6471
AdaBoost with BDpedia + YAGO2
0.614
DBpedia SpotLight* 0.419
BaLIE** 0.559
Application:
Nuage des mots à la Figaro
PE
R
LO
C
OR
G
Application [DÉMO]: Fleuve d’entités nommées
pendant la première guerre mondiale
Application [DÉMO]:
Soulignement automatique d’entités nommées
Outil d’annotation [DÉMO]:
Mes recherches actuelles et futures
Outil d’annotation
+ Transcodage
Validation des méthodes:
● UNERD++
● Stanford CRF
● Clemens CRF
Semi-annotation
UNERD de 120
pages
Annotation
automatique
500M+
Applications
Visualisations
Maintenance
mois 1
mois 2 mois 3
mois 4correction
Merci
27 November
1 October
31 January