Upload
guy-renaud
View
111
Download
5
Embed Size (px)
Citation preview
Extraction des formes dérivées des mots arabes par des automates
déterministes
Faculté des science Rabat - Agdal Groupe GSCM - Laboratoire LRIT
*Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine
Problématique
Extraction des formes dérivées des mots arabes par des automates déterministes
2
Complexe et très fluctuée, la langue arabe nécessite
un outil de Racinisation robuste, Pour
une meilleure performance en terme d’indexation et de recherche d’information.
Plan
Extraction des formes dérivées des mots arabes par des automates déterministes
3
Définition & Approche Rappel sur la théorie des automatesLe cas du langage arabe
La dérivation Automate reconnaissant le langage arabe
Application javaRésultatsConclusion et perspectives
Définition & Approche
Extraction des formes dérivées des mots arabes par des automates déterministes
4
Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour
en tirer la racine d’où il est dérivé.
Notre approche se base sur l’association d’un automate fini déterministe pour chaque forme
de mot.
Rappel sur la théorie des automates
Extraction des formes dérivées des mots arabes par des automates déterministes
5
Un automate A est défini comme suit:
A = (Σ, E, Eo, F, δ) où : Σ : son alphabet E : l’ensemble des états initiaux Eo: l’ensemble des états initiaux F: l’ensemble des états finaux δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A)
Exemple : mots binaire ayant u = 0 ou u =
01 comme préfixe suivi d’une suite de « 01 » et ayant v = (0)* comme suffixe
Σ = {a=0,b=1} E : {1;2;3;4} Eo: {1;2} F: {4} δ = {(1;0;2), (2;0; 3), (3;1;2) ,(3;1;4) ,
(4;0;4)} Exemple de chaines reconnues: 001 00100000 010101000000Ainsi L(A) = {w = umv / u = 0 | vide et m
= (01)*01 et v = vide | 0*}
Le cas du langage arabe
Extraction des formes dérivées des mots arabes par des automates déterministes
6
Les mots arabes se décomposent en trois grandes catégories :
Pronoms (al horouf) : fixes et dénombrables
Noms (al asma-a) : fixes ou obtenus par dérivation
Verbes (al af3al) : ils suivent différents schèmes : 21 schèmes. De chacun d’eux se dérive un ensemble d’autres schèmes correspondants aux : nom du sujet, nom du complément, schème d’exagération, substantif...etc.
La dérivation en arabe(1)
Extraction des formes dérivées des mots arabes par des automates déterministes
7
Les verbes :Les verbes se décomposent en deux
catégories : Non dérivable (jaamid) : ,نعم حبذا, ليس …Dérivables (Motassarrif) : ,علم ...جحد
La dérivation des verbes de la 2ième catégorie peut donner naissance à d’autres verbes :
) donne كتب اكتتب --تكاتب --كاتب ) Ainsi qu’à des noms : �ب� donne كتب �كات ُم�ت �ٌة� �ب كات �ب� كات
La dérivation en arabe(2)
Extraction des formes dérivées des mots arabes par des automates déterministes
8
Les verbes se dérivent suivant 3 temps:1.Le présent ou Al modari3 2.Le passé ou Al maadi3.Et l’impératif ou Al AmrExemple:
Article Verbe Al modaari3 Al maadi Al Amr
ils/elles هم قتل يقتلون قتلوا اقتلوا
Automate reconnaissant le langage arabe(1)
Extraction des formes dérivées des mots arabes par des automates déterministes
9
Soit ∑ = l’alphabet arabe∑c = {alef, yaa, waw, alef Maqsoura, tah
Marbouta} = { ا ي و ى l’ensemble des lettres communes : {ةaux mots arabes
∑m = {alef avec Hamza, noon, yaa, taa}
= { أ ن ي lettres introduisant le temps :{تprésent.
Soit LA = langage arabe.Et L0, L1 et L2 les trois sous langages de LA où:
Automate reconnaissant le langage arabe(2)
Extraction des formes dérivées des mots arabes par des automates déterministes
10
L0 = {m € LA / racine(m) est constitué de lettres li appartenant à ∑ -∑c}
L2 = {m € LA / m est spécifique}L1 = LA – L0 U L2 : les mots dérivés des verbes dites
Mo3tallaIl est facile de constater que L0, L1, L2 définissent une
partition de LA :• L0∩L1, L0∩L2 et L1∩L2 sont vide• LA = L0 U L1 U L2
Construction de L0 :Soit L0 = L3 U L4Où : L3 = {m € L0 / |racine(m)|=3}L4 = {m € L0 / |racine(m)|>3}
Automate reconnaissant le langage arabe(3)
Extraction des formes dérivées des mots arabes par des automates déterministes
11
Dans notre approche, pour chaque schème de verbe on associe trois automates :
1.A_fverbe_present2.A_fverbe_passé 3.A_fverbe_AmrEt pour chaque nom un automate1.A_fnom
Automate reconnaissant le langage arabe(4)
Extraction des formes dérivées des mots arabes par des automates déterministes
12
Exemple A_fa3ala_present
3 lfSS1S0
D1
D2D3
D4
D5
D6
D7
D8
D9
D10
D11
ف،ل
λ ف،ل،س
ت،ي،أ،نl
ن
ه،ك ه،ك ن
ا
س
ن،م
هن
م
اا
ه،ك
ه،كl : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
ll
Dا،يهو
ك
Automate reconnaissant le langage arabe(5)
Extraction des formes dérivées des mots arabes par des automates déterministes
13
3 lfSS1S0
D1
D2D3
D4
D5
D6
D7
D8
D9
D10
D11
،لف
λ ف،ل،س
،أ،نيت،
ن
ه،ك ه،ك ن
ا
س
ن،م
هن
م
اا
ه،ك
ه،كl : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
Dا،يهو
ك
Exemple fa3ala : ا َم� �َك�ُه ُي�َع�ل!َم َف�َس�
ع لم
Automate reconnaissant le langage arabe(6)
Extraction des formes dérivées des mots arabes par des automates déterministes
14
3 lfSS1S0
D1
D4 D3
ن
l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: A_infa3ala_passéا ll
D
نم
ت
و
D2
ن،ا
ا
و
و،ل،ف
Automate reconnaissant le langage arabe(7)
Extraction des formes dérivées des mots arabes par des automates déterministes
15
3 lfSS1S0
D1
D4 D3
ن
ف
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: وانصرفواا صر
D
نم
ت
و
D2
ن،ا
ا
و
،ل،فو
Automate reconnaissant le langage arabe(8)
Extraction des formes dérivées des mots arabes par des automates déterministes
16
3 lfSS1S0
D1
D3
l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: A_ifta3ala_Amrا ll
D
ت
و
D2
و،ف
ا،ن،ي
ا
D3
D3
ه ه
ن م
ا
ه
Automate reconnaissant le langage arabe(9)
Extraction des formes dérivées des mots arabes par des automates déterministes
17
3 lfSS1S0
D1
D3
ن
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: امتحنهماا مح
D
ت
و
D2
و،ف
ا،ن،ي
ا
D3
D3
ه ه
ن م
ه
ا
Automate reconnaissant le langage arabe(10)
Extraction des formes dérivées des mots arabes par des automates déterministes
18
3
l
AfS1
D4
D5l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: A_fa3il
ا ll
D
و،اD3
،ب و،ف
م،نه،ك
ا
lD6
3Aflا ll
S2
ل،ب ل
ة
،ك ،ب لS l 3 lAf lا l
D2
ي ه،ك
ا
ا
ت
ت
ه،ك
D7
ت ن
ا،ي
ه،ك
Dا8
D9 ه،ك
D7
ت
ي
Automate reconnaissant le langage arabe(11)
Extraction des formes dérivées des mots arabes par des automates déterministes
19
3
l
AfS1
D4
D5l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: بالحاملين
ا l
l
D
و،اD3
، بو،ف
م،نه،ك
ا
lD6
3Afال حم
S2
ل،ب ل
ة
،ك ،ب لS l 3 lAf lا l
D2
ي ه،ك
ا
ا
ت
ت
ه،ك
D7
ت ن
يا،
ه،ك
Dا8
D9 ه،ك
D7
ت
ي
Automate reconnaissant le langage arabe(12)
Extraction des formes dérivées des mots arabes par des automates déterministes
20
3
l
AfS1
D4
D5l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: لمال�كتيكما
ا l
l
D
و،اD3
، بو،ف
،نمه،ك
ا
lD6
3Afال حم
S2
ل،ب ل
ة
،ك ل ،بS م 3 lAf اك ل
D2
ي كه،
ا
ا
ت
ت
ه،ك
D7
ت ن
يا،
ه،ك
Dا8
D9 ه،ك
D7
ت
ي
Automate reconnaissant le langage arabe(13)
Extraction des formes dérivées des mots arabes par des automates déterministes
21
Exemple A_Wa3ala_present
3 lSS1S0
D1
D2
D3
D4
D6
D5
D7
ف،ل
λ ف،ل،س
ت،ي،أ،نl
ن
ه،ك ه،ك ن
ا
س
ن،م
ا
ه،ك
l : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
l
Dا،يو
ه،ك
Automate reconnaissant le langage arabe(14)
22
l : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
Exemple Wa3ala : َفَسُيزنُهَما
ز3ن lSS1S0
D1
D2
D3
D4
D6
D5
D7
λ ف،ل،س
ن
ه،ك ه،ك ن
من،ا
ا
ه،ك
l : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
Dا،يو
،كه
،لف س،أ،نيت،
Application java
Extraction des formes dérivées des mots arabes par des automates déterministes
23
Document Di
BD mots videsPrétraitement
RaciniseurRaciniseur
SC Maker
Table lexicale Di(Mij,Fij)
Classes sémantiques Ci
coMat maker
METRIQUE
Di_INDEX
Algorithme: RaciniseurSoit m un mot1: chercher les automates dont l ’entrée correspond à m[0]2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = ‘ spécifique’; fin si3: print root, etiquette;
Résultats
Extraction des formes dérivées des mots arabes par des automates déterministes
24
Résultats
Extraction des formes dérivées des mots arabes par des automates déterministes
25
Conclusion et Perspectives
Extraction des formes dérivées des mots arabes par des automates déterministes
26
Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat
Et comme perspectives : Comparaison avec Darweesh; Khoja Fonction: inverse: Tassriif Incorporation du module « Raciniseur » dans un
moteur de recherche pour évaluation