Presentation of Alaa Abi Haidar at the BnF Information Day

Reconnaissance d’entités nommées

et application sur les données de la { BnF

Alaa ABI HAIDAR, PhD

Aperçu de l'exposé

• Introduction: reconnaissance d’entités nommées (NER)

– Définition et motivation

• exemple: BnF et Europeana

• exemples: paternaires LiP6

– Solution(s) et problématique(s)

• Méthode UNERD

– Vue d’ensemble

– Désambiguïsassion contextuelle

– Résultats

• Applications et outils

– Nuage des mots à la Figaro

– Fleuve de la première guerre mondiale

– Soulignement automatique

– Outil d’annotation

• Mes recherches actuelles et futures

Reconnaissance d'entités nommées (1)

Définition:

L'étiquetage automatique des mots qui correspondent à des

concepts comme PERSONNE, LIEU et ORGANISATION

Motivation:

Indexation, résumé, classification thématique, analyse de

flux d’information, visualisation, enrichissement de la

lecture numérique ...

Exemple: BnF et Europeana Newspaper

Le Petit Parisien journal (1863-1944

) Fromat ALTO en open XML Standard OCR text en iso-8859-1

<String ID="PAG_1_ST000001"

STYLEREFS="TXT_1" HPOS="132" VPOS="305"

HEIGHT="20" WIDTH="125" WC="0.99"

CONTENT="REGION"/><SP ID="PAG_1_SP000001"

HPOS="257" VPOS="304" WIDTH="20"/><String

ID="PAG_1_ST000002" STYLEREFS="TXT_1"

HPOS="277" VPOS="304" WIDTH="222"

HEIGHT="21" WC="0.98"

CONTENT="PABISIENNE."/><SP

ID="PAG_1_SP000002" HPOS="499" VPOS="304"

WIDTH="40"/><String ID="PAG_1_ST000003"


HEIGHT="20" WIDTH="40" WC="0.99"

CONTENT="Un"/><SP ID="PAG_1_SP000003"

HPOS="598" VPOS="303" WIDTH="18"/><String

ID="PAG_1_ST000004" STYLEREFS="TXT_1"

HPOS="616" VPOS="303" HEIGHT="23"

WIDTH="83" WC="0.99" CONTENT="temps"/><SP




HEIGHT="21" WIDTH="32" WC="0.99"

CONTENT="de"/></TextLine><TextLine

ID="PAG_1_TL000002" STYLEREFS="TXT_1"

HPOS="66" VPOS="331" HEIGHT="27"

WIDTH="682"><String ID="PAG_1_ST000006"


WIDTH="156" HEIGHT="26" WC="0.98"

CONTENT="Toussaint,"/><SP




HEIGHT="23" WIDTH="145" WC="0.99"

CONTENT="maussade,"/><SP




HEIGHT="20" WIDTH="103" WC="0.99"

CONTENT="humide"/>

Exemple: Autres Partenaires

Partenaires:

LOCUPLETO, JOUVES,

SEJER, Labex OBVIL, Paris

Sorbonne, Pitié Salpetriere

I2D3, iManga, ACTIALUNA,

CELSA Sorbonne

Exemple: Labex OBVIL

identification d’auteur,

études stylistiques,

comparaison littéraire

Exemple: iManga

recommandation de

bibliothécaire et livre

Exemple: Rome et l’empire romain: Edition Nathan

Fromat EPUB et XML

Standard OCR text en iso-8859-1

Exemple: modélisation des systèmes

immunitaires

identification des taux de prolifération, division et la

mortalité des cellules a partir des milliers des textes

Reconnaissance d’entités nommées (2)

Solutions:

• Supervisées

• Non-supervisées

• Semi-supervisées

Problématiques non-supervisées:

• Ambiguïté: Paris LIEU, ORG ou PERSONNE?

• Limitation: Phénicie n’est pas dans le dictionnaire

• Bruit: 20BE2T et d’autres erreurs d’OCRisation

• Limite des mots: Fondation Fontaine de Charles de Gaule

Problématiques supervisées:

● Manque de données d’apprentissage et de

ressources humaines

● Spécificité des modules d’apprentissage

Méthode UNERD (vue d’ensemble de la démarche scientifique)

Unsupervised Named Entity Recognition & Disambiguation

<String ID="PAG_1_ST000001"

STYLEREFS="TXT_1" HPOS="132"

VPOS="305" HEIGHT="20"

WIDTH="125" WC="0.99"

CONTENT="REGION"/><SP

ID="PAG_1_SP000001"

HPOS="257" VPOS="304"

WIDTH="20"/><String

ID="PAG_1_ST000002"

STYLEREFS="TXT_1" HPOS="277"

VPOS="304" WIDTH="222"

HEIGHT="21" WC="0.98"

CONTENT="PABISIENNE."/><SP

ID="PAG_1_SP000002"

HPOS="499" VPOS="304"

WIDTH="40"/><String

OCRisation

Étiquetage

SyntaxiqueRecherche dans

les dictionnaires Apprentissage

machine sur les

entités sures

Désambiguïsas

sion et

reconnaissance

- ---

- -

- --- - ---

- ---- -- - -

Parametrisation

et optimisationPrédiction

comparaison a

d’autres méthodes

Application

Outil

d’annotation

Apprentissage

Supervisé

Annotation Manuelle

Comparaison avec

l’annotation

manuelle

Méthode UNERD Méthode d’apprentissage et de désambiguïsassion

Phase

d’apprentissag

e

Phase de

classification ou

de prédiction

● (S1) dictionnaire de Aleda uniquement

● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la

classification CRF avec l’outil de stanford et le reste pour valider

● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees

d’annotation pour l’apprentissage.

● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement

● (UNERD) Finallement notre mehode non-supervisee UNERD

Résultats UNERD Comparaison avec la méthode supervisée de stanford sur textes de BnF

Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL

Sum with BDpedia + YAGO2

0.6471

AdaBoost with BDpedia + YAGO2

0.614

DBpedia SpotLight* 0.419

BaLIE** 0.559

Application:

Nuage des mots à la Figaro

PE

R

LO

C

OR

G

Application [DÉMO]: Fleuve d’entités nommées

pendant la première guerre mondiale

Application [DÉMO]:

Soulignement automatique d’entités nommées

Outil d’annotation [DÉMO]:

Mes recherches actuelles et futures

Outil d’annotation

+ Transcodage

Validation des méthodes:

● UNERD++

● Stanford CRF

● Clemens CRF

Semi-annotation

UNERD de 120

pages

Annotation

automatique

500M+

Applications

Visualisations

Maintenance

mois 1

mois 2 mois 3

mois 4correction

Merci

27 November

1 October

31 January

[email protected]

Education

Presentation of Alaa Abi Haidar at the BnF Information Day