23
Amélioration du système de reconnaissance de l’écriture arabe manuscrite, basé sur le réseau RNT-DF Présenté par: Messaoudi Hafedh Mohamed Hichem Encadré par: M. Maddouri Mondher Mme. Maddouri Samia 04/06/200 9

AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

Embed Size (px)

Citation preview

Page 1: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

Amélioration du système de reconnaissance de l’écriture arabe manuscrite, basé sur le réseau RNT-DF

Présenté par: Messaoudi Hafedh Mohamed Hichem

Encadré par: M. Maddouri Mondher Mme. Maddouri Samia

04/06/2009

Page 2: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 2

1. Introduction2. Systèmes de reconnaissance de l’écriture manuscrite

• Types de reconnaissance de l’écriture manuscrite• Etapes de reconnaissance de l’écriture manuscrite• Caractérisation de l’écriture arabe • Système RNT-DF

3. Aspect méthodologique• Détection des points diacritiques• Estimation du nombre des PAWs• Détection des hampes

4. Aspect technique• Problèmes de mémoires• Interface

5. Conclusion et perspectives

Plan

Page 3: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

• Contexte– Reconnaissance de l’écriture arabe manuscrite

• Discipline récente, apparue au début des années 80• Domaine de recherche très disputé

• But– Amélioration du système de reconnaissance de

l’écriture arabe manuscrite basé sur le réseau de neurones transparents RNT-DF• Améliorations méthodologique• Amélioration technique

13/04/2023 03:06 PMMessaoudi Hafedh , Mohamed

Hichem3

IntroductionSystèmes de

reconnaissance de l’écriture

Aspect méthodologique

Aspect techniqueIntroduction

Systèmes de reconnaissance de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Page 4: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 4

• Deux types de reconnaissance– Reconnaissance en ligne:

• Reconnaissance en temps réel du texte à partir de la trajectoire du stylo

• Données sous forme de signal

– Reconnaissance hors ligne:• Reconnaissance statique d’images • Absence d’informations temporelles

Reconnaissance hors ligne est plus difficile (moins d’informations)

Introduction

Systèmes de reconnaissance de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Types de reconnaissance de l’écriture manuscrite

Page 5: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

Prétraitement• Dilatation

• Normalisation• …

Extraction des caractéristiques

Reconnaissance

13/04/2023 03:06 PMMessaoudi Hafedh , Mohamed

Hichem5

7تطاوين نوفمبر

Introduction

Systèmes de reconnaissance de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Etapes de reconnaissance

Extraction des caractéristiques

Page 6: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 6

Primitives DescriptionH HampeJ JambageB BoucleP Point diacritique au-dessus

du corps du motQ point diacritiQue au-

dessous du corps du mot

RRien des primitives ci-dessus

D, M, F, I Position des primitives dans le mot (D : Début, M : Milieu, F : Fin, I : Isolé)

PAW Piece of Arabic Word

Introduction

Systèmes de reconnaissance de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Caractérisation de l’écriture arabe

ار

هت

ب

شـ ـش ـشـ ش

نستو

د

Page 7: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 7

• Réseau de Neurones Transparent – Descripteurs de Fourier

Mot

à

reco

nnaî

tre

Couche des

primitives

Mot

reconnu

Couche des lettres

Couche des PAWs

Couche des mots

Introduction

Systèmes de reconnaissance de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Système RNT-DF: Architecture

: Propagation

: Retropropagation

HJ

B

P

أ

و

ت…

نستو

منز…

تونس

منزل

Page 8: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 8

• Méthode existante:– Toute boucle détectée au dessus de la ligne

supérieure ou au dessous de la ligne inférieure est un point diacritique

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Détection des points diacritiques

Page 9: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 9

Observation

Ligne supérieure

Ligne inférieure

Ligne de base

Boucle au dessus de la ligne supérieure

Point diacritique entre ligne inférieure et supérieure

Boucle au dessus de la ligne supérieure

Mauvaise détection Bonne détection Non détection

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologique

Aspect technique

Conclusion

Détection des points diacritiques

Page 10: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 10

Observation

Mauvaise détection Bonne détection

Boucle au dessus de la ligne supérieure

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologique

Aspect technique

Conclusion

Détection des points diacritiques

Page 11: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 11

Si (largeur > hauteur)rapport = largeur / hauteur

Sinonrapport = hauteur / largeur

La boucle est considérée proportionnelle si rapport < seuil

Nombre de points de contourRemplissage interneProportionnalité de

la formeProportionnalité de

la forme Remplissage interne Nombre de points de contour

Traitement

Nombre Point de contours < Seuil

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologique

Aspect technique

Conclusion

Détection des points diacritiques

Page 12: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 12

Observation

Nombre PAWS correct = 5

Nombre de PAWs détectés = 6

Nombre PAWS correct = 8

Nombre de PAWs détectés = 10

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologique

Aspect technique

Conclusion

Estimation du nombre des PAWs

Page 13: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 13

Traitement

Un PAW est éliminé si:

Sa largeur est supérieure à sa hauteur

ETSon plus haut point est au dessous de la ligne inférieure - une marge

Son plus bas point est au dessus de la ligne supérieure + une marge

OU

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologique

Aspect technique

Conclusion

Estimation du nombre des PAWs

Page 14: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 14

Observation et traitement

Détection des hampes à partir de maximums

locaux

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologique

Aspect technique

Conclusion

Détection des hampes

Page 15: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 15

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologique

Aspect technique

Conclusion

Impact sur le taux de reconnaissance

Mot reconnu

Ancien taux: 13%

Nouveau Taux: 18%

Le pourcentage des taux est par rapport à 6500 images traitées

Page 16: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 16

– Langage de programmation : C++– Approche fonctionnelle – Interface en MFC

Présentation techniqueDescription des modules d’IKRAA

IntroductionSystèmes de

reconnaissance de l’écriture

Aspect méthodologique

Aspect techniqueIntroduction

Systèmes de reconnaissance de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Nom du fichier Nombre lignes de code

Nombre de fonctions

Nombre de types de données

Nombre de variables

Rôle

ImageBMP.h 36 2 5 53 Saisie des images

LectureLoop1.cpp

2268 48 5 260 Extraction des primitives

MainFrm.cpp 1120 25 5 96 Programme principal

Normalisation1.h

564 13 4 5 Normalisation par DF

Pretraitement1.h

137 1 3 8 Prétraitement

RNT_Recognition_Words1.cp

p

1030 59 6 154 Fonctionnement du RNT-DF

Page 17: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 17

Problème de Fuites de mémoire

Utilisation de matrices de grandes taille

Certaines matrices vivent dans plusieurs fonctions

Les pointeurs en C sont difficiles à gérer

Nécessité de gestion avancée de la désallocation de ces matrices

Solution

Gestion centralisé de la mémoire en s’inspirant du Pattern du « Garbage Collector »

Stockage des pointeurs sur matrices dans une liste afin de les libérer ultérieurement

Impact

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Problème de mémoire

Traitement de 32 000 images à la fois en un temps réduit à 20h, comparé au fonctionnement initial du système qui ne

traitait que 100 images à la fois

Faciliter la tâche d’évaluation du système qui allait jusqu’à prendre des jours voire des semaines

Page 18: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 18

• Observation– Généralement causé par les fonctions récursives– Certaines fonctions de l’application font appels à elles

mêmes plus de 10000 fois– Impossible de traiter les images dont le nombre de pixels

dépasse 30000 pixels.

• Solution– Convertir les fonctions récursives en itératives

• Impact– Traitement d’image allant jusqu’à (10 000 x 10 000) pixels

Stack Overflow

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Autres problèmes

Page 19: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 19

MFC

Technologie obsolète

Utilisation exclusive de Visual Studio

Modèle événementiel complexe : utilisation de boucle

d’évènements (messages)

Présence obligatoire de la DLL MFC42.dll pour fonctionner

GTK

Simplicité et rapidité

Open Source, multiplateforme

Modèle événementielle Callback/listener

Autres problèmes

Introduction

Systèmes de reconnaissance

de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Interfaces

Page 20: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 20

Démonstration

Page 21: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 21

• Ce projet nous a permis de – Avoir une expérience dans le domaine du

traitement d’image et de la reconnaissance de l’écriture manuscrite

– Manipuler un système à réseaux de neurones• Ce présent projet a été présenté dans un

workshop en Mars à Sousse dans le cadre des travaux de collaboration effectués entre l’ENIS l’ENIT et l’IFN allemande

IntroductionSystèmes de

reconnaissance de l’écriture

Aspect méthodologique

Aspect techniqueIntroduction

Systèmes de reconnaissance de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Page 22: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 22

• Perspectives– Améliorer les résultats d’extraction de

caractéristiques– Ajouter des étapes de prétraitement (exemple:

squelettisation)– Transformer l’application en P.O.O.– Avoir de bons résultats lors de la première

participation arabe et tunisienne dans la compétition ICDAR dans le domaine de la reconnaissance de l’écriture arabe manuscrite

IntroductionSystèmes de

reconnaissance de l’écriture

Aspect méthodologique

Aspect techniqueIntroduction

Systèmes de reconnaissance de l’écriture

Aspect méthodologiqu

e

Aspect technique

Conclusion

Page 23: AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe

13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 23

Merci pour votre attention