26
Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - Agdal Groupe GSCM - Laboratoire LRIT *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine

Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Embed Size (px)

Citation preview

Page 1: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Extraction des formes dérivées des mots arabes par des automates

déterministes

Faculté des science Rabat - Agdal Groupe GSCM - Laboratoire LRIT

*Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine

Page 2: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Problématique

Extraction des formes dérivées des mots arabes par des automates déterministes

2

Complexe et très fluctuée, la langue arabe nécessite

un outil de Racinisation robuste, Pour

une meilleure performance en terme d’indexation et de recherche d’information.

Page 3: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Plan

Extraction des formes dérivées des mots arabes par des automates déterministes

3

Définition & Approche Rappel sur la théorie des automatesLe cas du langage arabe

La dérivation Automate reconnaissant le langage arabe

Application javaRésultatsConclusion et perspectives

Page 4: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Définition & Approche

Extraction des formes dérivées des mots arabes par des automates déterministes

4

Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour

en tirer la racine d’où il est dérivé.

Notre approche se base sur l’association d’un automate fini déterministe pour chaque forme

de mot.

Page 5: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Rappel sur la théorie des automates

Extraction des formes dérivées des mots arabes par des automates déterministes

5

Un automate A est défini comme suit:

A = (Σ, E, Eo, F, δ) où : Σ : son alphabet E : l’ensemble des états initiaux Eo: l’ensemble des états initiaux F: l’ensemble des états finaux δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A)

Exemple : mots binaire ayant u = 0 ou u =

01 comme préfixe suivi d’une suite de « 01 » et ayant v = (0)* comme suffixe

Σ = {a=0,b=1} E : {1;2;3;4} Eo: {1;2} F: {4} δ = {(1;0;2), (2;0; 3), (3;1;2) ,(3;1;4) ,

(4;0;4)} Exemple de chaines reconnues: 001 00100000 010101000000Ainsi L(A) = {w = umv / u = 0 | vide et m

= (01)*01 et v = vide | 0*}

Page 6: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Le cas du langage arabe

Extraction des formes dérivées des mots arabes par des automates déterministes

6

Les mots arabes se décomposent en trois grandes catégories :

Pronoms (al horouf) : fixes et dénombrables

Noms (al asma-a) : fixes ou obtenus par dérivation

Verbes (al af3al) : ils suivent différents schèmes : 21 schèmes. De chacun d’eux se dérive un ensemble d’autres schèmes correspondants aux : nom du sujet, nom du complément, schème d’exagération, substantif...etc.

Page 7: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

La dérivation en arabe(1)

Extraction des formes dérivées des mots arabes par des automates déterministes

7

Les verbes :Les verbes se décomposent en deux

catégories : Non dérivable (jaamid) : ,نعم حبذا, ليس …Dérivables (Motassarrif) : ,علم ...جحد

La dérivation des verbes de la 2ième catégorie peut donner naissance à d’autres verbes :

) donne كتب اكتتب --تكاتب --كاتب ) Ainsi qu’à des noms : �ب� donne كتب �كات ُم�ت �ٌة� �ب كات �ب� كات

Page 8: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

La dérivation en arabe(2)

Extraction des formes dérivées des mots arabes par des automates déterministes

8

Les verbes se dérivent suivant 3 temps:1.Le présent ou Al modari3 2.Le passé ou Al maadi3.Et l’impératif ou Al AmrExemple:

Article Verbe Al modaari3 Al maadi Al Amr

ils/elles هم قتل يقتلون قتلوا اقتلوا

Page 9: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(1)

Extraction des formes dérivées des mots arabes par des automates déterministes

9

Soit ∑ = l’alphabet arabe∑c = {alef, yaa, waw, alef Maqsoura, tah

Marbouta} = { ا ي و ى l’ensemble des lettres communes : {ةaux mots arabes

∑m = {alef avec Hamza, noon, yaa, taa}

  = { أ ن ي lettres introduisant le temps :{تprésent.

Soit LA = langage arabe.Et L0, L1 et L2 les trois sous langages de LA où:

Page 10: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(2)

Extraction des formes dérivées des mots arabes par des automates déterministes

10

L0 = {m € LA / racine(m) est constitué de lettres li appartenant à ∑ -∑c}

L2 = {m € LA / m est spécifique}L1 = LA – L0 U L2 : les mots dérivés des verbes dites

Mo3tallaIl est facile de constater que L0, L1, L2 définissent une

partition de LA :• L0∩L1, L0∩L2 et L1∩L2 sont vide• LA = L0 U L1 U L2

Construction de L0 :Soit L0 = L3 U L4Où : L3 = {m € L0 / |racine(m)|=3}L4 = {m € L0 / |racine(m)|>3}

Page 11: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(3)

Extraction des formes dérivées des mots arabes par des automates déterministes

11

Dans notre approche, pour chaque schème de verbe on associe trois automates :

1.A_fverbe_present2.A_fverbe_passé 3.A_fverbe_AmrEt pour chaque nom un automate1.A_fnom 

Page 12: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(4)

Extraction des formes dérivées des mots arabes par des automates déterministes

12

Exemple A_fa3ala_present

3 lfSS1S0

D1

D2D3

D4

D5

D6

D7

D8

D9

D10

D11

ف،ل

λ ف،ل،س

ت،ي،أ،نl

ن

ه،ك ه،ك ن

ا

س

ن،م

هن

م

اا

ه،ك

ه،كl : est n’importe quelle lettre de ∑ -∑c

λ : la transition vide

ll

Dا،يهو

ك

Page 13: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(5)

Extraction des formes dérivées des mots arabes par des automates déterministes

13

3 lfSS1S0

D1

D2D3

D4

D5

D6

D7

D8

D9

D10

D11

،لف

λ ف،ل،س

،أ،نيت،

ن

ه،ك ه،ك ن

ا

س

ن،م

هن

م

اا

ه،ك

ه،كl : est n’importe quelle lettre de ∑ -∑c

λ : la transition vide

Dا،يهو

ك

Exemple fa3ala : ا َم� �َك�ُه ُي�َع�ل!َم َف�َس�

ع لم

Page 14: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(6)

Extraction des formes dérivées des mots arabes par des automates déterministes

14

3 lfSS1S0

D1

D4 D3

ن

l

l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide

Exemple: A_infa3ala_passéا ll

D

نم

ت

و

D2

ن،ا

ا

و

و،ل،ف

Page 15: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(7)

Extraction des formes dérivées des mots arabes par des automates déterministes

15

3 lfSS1S0

D1

D4 D3

ن

ف

l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide

Exemple: وانصرفواا صر

D

نم

ت

و

D2

ن،ا

ا

و

،ل،فو

Page 16: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(8)

Extraction des formes dérivées des mots arabes par des automates déterministes

16

3 lfSS1S0

D1

D3

l

l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide

Exemple: A_ifta3ala_Amrا ll

D

ت

و

D2

و،ف

ا،ن،ي

ا

D3

D3

ه ه

ن م

ا

ه

Page 17: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(9)

Extraction des formes dérivées des mots arabes par des automates déterministes

17

3 lfSS1S0

D1

D3

ن

l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide

Exemple: امتحنهماا مح

D

ت

و

D2

و،ف

ا،ن،ي

ا

D3

D3

ه ه

ن م

ه

ا

Page 18: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(10)

Extraction des formes dérivées des mots arabes par des automates déterministes

18

3

l

AfS1

D4

D5l

l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide

Exemple: A_fa3il

ا ll

D

و،اD3

،ب و،ف

م،نه،ك

ا

lD6

3Aflا ll

S2

ل،ب ل

ة

،ك ،ب لS l 3 lAf lا l

D2

ي ه،ك

ا

ا

ت

ت

ه،ك

D7

ت ن

ا،ي

ه،ك

Dا8

D9 ه،ك

D7

ت

ي

Page 19: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(11)

Extraction des formes dérivées des mots arabes par des automates déterministes

19

3

l

AfS1

D4

D5l

l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide

Exemple: بالحاملين

ا l

l

D

و،اD3

، بو،ف

م،نه،ك

ا

lD6

3Afال حم

S2

ل،ب ل

ة

،ك ،ب لS l 3 lAf lا l

D2

ي ه،ك

ا

ا

ت

ت

ه،ك

D7

ت ن

يا،

ه،ك

Dا8

D9 ه،ك

D7

ت

ي

Page 20: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(12)

Extraction des formes dérivées des mots arabes par des automates déterministes

20

3

l

AfS1

D4

D5l

l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide

Exemple: لمال�كتيكما

ا l

l

D

و،اD3

، بو،ف

،نمه،ك

ا

lD6

3Afال حم

S2

ل،ب ل

ة

،ك ل ،بS م 3 lAf اك ل

D2

ي كه،

ا

ا

ت

ت

ه،ك

D7

ت ن

يا،

ه،ك

Dا8

D9 ه،ك

D7

ت

ي

Page 21: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(13)

Extraction des formes dérivées des mots arabes par des automates déterministes

21

Exemple A_Wa3ala_present

3 lSS1S0

D1

D2

D3

D4

D6

D5

D7

ف،ل

λ ف،ل،س

ت،ي،أ،نl

ن

ه،ك ه،ك ن

ا

س

ن،م

ا

ه،ك

l : est n’importe quelle lettre de ∑ -∑c

λ : la transition vide

l

Dا،يو

ه،ك

Page 22: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Automate reconnaissant le langage arabe(14)

22

l : est n’importe quelle lettre de ∑ -∑c

λ : la transition vide

Exemple Wa3ala : َفَسُيزنُهَما

ز3ن lSS1S0

D1

D2

D3

D4

D6

D5

D7

λ ف،ل،س

ن

ه،ك ه،ك ن

من،ا

ا

ه،ك

l : est n’importe quelle lettre de ∑ -∑c

λ : la transition vide

Dا،يو

،كه

،لف س،أ،نيت،

Page 23: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Application java

Extraction des formes dérivées des mots arabes par des automates déterministes

23

Document Di

BD mots videsPrétraitement

RaciniseurRaciniseur

SC Maker

Table lexicale Di(Mij,Fij)

Classes sémantiques Ci

coMat maker

METRIQUE

Di_INDEX

Algorithme: RaciniseurSoit m un mot1: chercher les automates dont l ’entrée correspond à m[0]2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = ‘ spécifique’; fin si3: print root, etiquette;

Page 24: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Résultats

Extraction des formes dérivées des mots arabes par des automates déterministes

24

Page 25: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Résultats

Extraction des formes dérivées des mots arabes par des automates déterministes

25

Page 26: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Conclusion et Perspectives

Extraction des formes dérivées des mots arabes par des automates déterministes

26

Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat

Et comme perspectives : Comparaison avec Darweesh; Khoja Fonction: inverse: Tassriif Incorporation du module « Raciniseur » dans un

moteur de recherche pour évaluation