20
R2I –Tizi-Ouzou R2I –Tizi-Ouzou 1 A.Hammache A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou [email protected] M.Boughanem M.Boughanem Laboratoire IRIT, Université Paul Sabatier Toulouse Laboratoire IRIT, Université Paul Sabatier Toulouse [email protected] R. Ahmed-Ouamer R. Ahmed-Ouamer Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou. Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou. [email protected] Un modèle de langage mixte Un modèle de langage mixte combinant les termes combinant les termes composés et les termes composés et les termes simples simples

R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou [email protected] M.Boughanem Laboratoire IRIT, Université Paul

Embed Size (px)

Citation preview

Page 1: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 11

A.HammacheA.HammacheLaboratoire LARI, Université Mouloud Mammeri Tizi-OuzouLaboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou

[email protected]

M.BoughanemM.BoughanemLaboratoire IRIT, Université Paul Sabatier ToulouseLaboratoire IRIT, Université Paul Sabatier Toulouse

[email protected]

R. Ahmed-OuamerR. Ahmed-OuamerLaboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou.Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou.

[email protected]

Un modèle de langage mixte Un modèle de langage mixte combinant les termes composés et combinant les termes composés et

les termes simples les termes simples

Page 2: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 22

Etat de l’art

Modèle de Langage (uni-gramme) Extensions du modèle Uni-gramme

Approche proposée

Expérimentation et évaluation

Contexte du travail Plan Plan

Conclusion

Page 3: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 33

Domaine

Recherche d’information

Modèle mixte termes composés et

termes simples

Modèle de langage

Meilleure représentation

du contenu sémantique des documents et des requêtes

Framework

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 4: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 44

La Recherche d’InformationLa Recherche d’Information Satisfaction d’un besoin en information d’un utilisateur, qui est exprimé Satisfaction d’un besoin en information d’un utilisateur, qui est exprimé

par une requête, sur un ensemble de documents appelé collection ou par une requête, sur un ensemble de documents appelé collection ou corpus.corpus.

Modèle de langage pour la RI Modèle de langage pour la RI

cadre probabiliste pour la description du cadre probabiliste pour la description du processus de la RI processus de la RI

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 5: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 55

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Formule de Ranking LM (uni-gramme) Formule de Ranking LM (uni-gramme)

des performances équivalentes voir supérieurs à celles des modèles des performances équivalentes voir supérieurs à celles des modèles classiques (vectoriel, probabiliste) .classiques (vectoriel, probabiliste) .

Limites de LM Limites de LM

Qq

i

D|qPi=D)|P(Q

1.1. Clairsemence de données (Clairsemence de données (Data Sparseness) )

2.2. Hypothèse d’indépendance (Hypothèse d’indépendance (Terms independency assumption)

Page 6: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 66

Réponses Réponses

1.1. Data SparsenessData Sparseness

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 7: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 77

2.2. Terms independency assumptionTerms independency assumption

Utilisation de la dépendance entre termes. Idée : La requête est composée de plusieurs unités de termes (n-grammes) et

utilise les occurrences des unités dans le document pour l’appariement [Gao et al. SIGIR 2004], [Metzler, D and Croft, W.B. SIGIR, 2005], [Shi, L., Nie, J. Y., SIGIR, 2009]

Réponses Réponses

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Utilisation de la Proximité entre termes Idée : Utilisation des fonctions de proximités qui capturent la mesure dans

laquelle les termes de recherche apparaissent proches les uns des autres dans un document [Tao, T., and Zhai, C. SIGIR, 2007], [Lv, Y., Zhai. C. SIGIR, 2009].

Utilisation d’unités d’indexation plus complexes Idée : Développement de modèles pour une représentation plus détaillée du

contenu des documents et des requêtes, et cela par l’utilisation d’unités d’indexation plus complexes en plus de l’utilisation des termes simples. [Croft, W. B et al. SIGIR, 1991], [Mitra, C et al RIAO, 1997]

Page 8: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 88

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Mieux représenter le contenu sémantique des documents et des requêtes en introduisant une certaine sémantique dans leurs représentations. Mieux représenter le contenu sémantique des documents et des requêtes en introduisant une certaine sémantique dans leurs représentations.

Objectif de l’approche Objectif de l’approche

un modèle de langage mixte (LM_TC) qui combine les termes simples et les termes composés.

Page 9: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 99

1.1.La pluparts des approches considèrent tous les n-grammesLa pluparts des approches considèrent tous les n-grammesSeulement les termes composés sont considérés dans notre approcheSeulement les termes composés sont considérés dans notre approche

 

Pourquoi les termes composés ?Pourquoi les termes composés ? moins ambigusmoins ambigus

Java  Ile de java  langage java

Plus précis Plus précis voiture   voiture électrique

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Avantages de l’approcheAvantages de l’approche

Page 10: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1010

Formalisation (Formalisation (ModèleModèle de de langage mixte)langage mixte) Une requêteUne requête Q Q et un document et un document DD son représentés dans le vocabulaire son représentés dans le vocabulaire

TTtt m1n1V ...,,...,

t iT j

terme simple

terme composé

Formule de Ranking (combinaison des deux modèles) : Formule de Ranking (combinaison des deux modèles) :

Q

jQ

i

TD)|P(×

tD)|P(=D)|P(Q

ji

Tt

t i

T j

M Dt

M DT

Modèle document terme simple

Modèle document terme composé

1-

α

1-α

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 11: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1111

)|P(1)|P(=D)|P( MtMtt DtiDTii )( Formules correspondantes Formules correspondantes

)|P(1)|P(=D)|P( MTMTT DtjDTjj )(

estimation de estimation de

µ

|µPf)|(

DCtDtMtP

t

titiDtiDir

)(),(

)|P( Mt Dti

estimation de estimation de

µ

|µPf)|(

DCTDT

MTPT

TjTjDtjDir

)(),(

)|P( MT DTj

estimation de estimation de )|P( Mt DTi

Diapositive 15Diapositive 15

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 12: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1212

Schéma de pondération des termes composéSchéma de pondération des termes composé

)()(tt

ii df

Nimp

Pas de schéma bien accepté pour la pondération des termes composésPas de schéma bien accepté pour la pondération des termes composés

Des adaptations de schéma de pondération TF-IDF Des adaptations de schéma de pondération TF-IDF

Pas de prise en compte de Pas de prise en compte de l’importancel’importance d’un terme composant d’un terme composant dans ces adaptationdans ces adaptation

dans la réalité un des termes composant peut être plus important que les autresdans la réalité un des termes composant peut être plus important que les autres OrdinateurOrdinateur personnel personnel

estimation de l’importance (dominance) d’un terme estimation de l’importance (dominance) d’un terme

)(t idf Nombre de document contenant Nombre de document contenant t i

N Nombre de document dans la collectionNombre de document dans la collection

probabilité de dominance probabilité de dominance

Ti

timp

timpT |tP

i

t )(

)()(

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 13: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1313

intuition dans la pondération des termes composés  :intuition dans la pondération des termes composés  : Nous supposons que l’auteur d’un document utilise les termes composants isolément pour Nous supposons que l’auteur d’un document utilise les termes composants isolément pour exprimer le terme composé comme abréviation après un nombre d’occurrences de terme exprimer le terme composé comme abréviation après un nombre d’occurrences de terme composé.composé.

exemple :exemple :

<DOC><DOCNO> AP880325-0239 </DOCNO><FILEID>AP-NR-03-25-88 0908EST</FILEID><FIRST>a e AM-APArts:Oscars-Overlooked Adv28 03-25 0704</FIRST><SECOND>AM-AP Arts: Oscars-Overlooked, Adv 28,0723</SECOND><TEXT> What do Charlie Chaplin, Greta Garbo, Cary Grant, Alfred Hitchcock and Steven Spielberg have in common? They have never won Academy Awards for

their individual achievements. Such flagrant omissions are often cited by critics as evidence of the unfairness of Hollywood's highest prize. Oscar's 60-year history is filled with examples of the film world's highest achievers being overlooked by the Academy of Motion Picture Arts and Sciences. The latest casualties are directors James L. Brooks, whose movie

``Broadcast News'' was nominated though he wasn't, and Spielberg who was left out in the cold with his ``Empire of the Sun.'' Although ``Broadcast News'' won seven major nominations, including best picture and three acting categories, Brooks was strangely overlooked by the Academy's directing branch. Since no movie has ever won a best picture Oscar without its director at least being nominated, the chances of the once-favored ``Broadcast News'' to be a big winner at the awards ceremony on April 11 have been significantly reduced. Brooks did better in 1984 when his ``Terms of Endearment'' took the lion's share of Oscars, including best picture and director. Spielberg's ``Empire of the Sun'' won six nominations this year,

none of them major and none for director. Two years ago, ``The Color Purple'' received 11 nominations but not for him as director. The Directors Guild nevertheless named him best director that year. ``I'm floored by this,'' Spielberg said upon receiving his DGA award. ``This is the last thing I expected to happen. ... If some of you are making a statement _ thank God _ I thank you for that.'' Why the Spielberg slight? Some observers cite the fact that only 257 directors nominate for the Academy Awards, and many are veterans who might not look kindly on the young man whose films are the biggest moneymakers in history (``Jaws,'' ``E.T.,'' ``Raiders of the Lost Ark''). The Academy appeared to make amends last year by presenting

Spielberg with the Irving Thalberg award for ``consistently high quality of production.'' There was no mention of the fact that Spielberg is primarily a director, not a producer. The Thalberg award has come in handy to acknowledge giants who were overlooked for individual awards. The recipients have included

Cecil B. DeMille, Stanley Kramer, Alfred Hitchcock, Ingmar Bergman and Mervyn Leroy. The honorary award has also proved useful to salve the Academy's conscience. Charlie Chaplin received one at the first Academy Awards for his creation of ``The Circus'' and again at the 44th awards for ``the incalculable effect he has had in making motion pictures the art form of this century.'' Douglas Fairbanks, Judy Garland, Noel Coward, Ernst Lubitsch, Fred Astaire, Gene Kelly, Harold Lloyd, Greta Garbo, Maurice Chevalier, Stan Laurel, Cary Grant, Lillian Gish, Edward G. Robinson, Groucho Marx, Howard Hawks and Jean Renoir are others who have received honorary awards. Cary Grant once remarked that he never expected to win an

Academy Award. ``I'd have to blacken my teeth first,'' he quipped, alluding to the Academy's fondness for actors who portray bums and downtrodden characters. Alfred Hitchcock also had a </TEXT>

<NOTE>End Adv for Mon AMs, March 28</NOTE></DOC>

<DOC><DOCNO> AP880325-0239 </DOCNO><FILEID>AP-NR-03-25-88 0908EST</FILEID><FIRST>a e AM-APArts:Oscars-Overlooked Adv28 03-25 0704</FIRST><SECOND>AM-AP Arts: Oscars-Overlooked, Adv 28,0723</SECOND><TEXT> What do Charlie Chaplin, Greta Garbo, Cary Grant, Alfred Hitchcock and Steven Spielberg have in common? They have never won Academy Awards for

their individual achievements. Such flagrant omissions are often cited by critics as evidence of the unfairness of Hollywood's highest prize. Oscar's 60-year history is filled with examples of the film world's highest achievers being overlooked by the Academy of Motion Picture Arts and Sciences. The latest casualties are directors James L. Brooks, whose movie

``Broadcast News'' was nominated though he wasn't, and Spielberg who was left out in the cold with his ``Empire of the Sun.'' Although ``Broadcast News'' won seven major nominations, including best picture and three acting categories, Brooks was strangely overlooked by the Academy's directing branch. Since no movie has ever won a best picture Oscar without its director at least being nominated, the chances of the once-favored ``Broadcast News'' to be a big winner at the awards ceremony on April 11 have been significantly reduced. Brooks did better in 1984 when his ``Terms of Endearment'' took the lion's share of Oscars, including best picture and director. Spielberg's ``Empire of the Sun'' won six nominations this year,

none of them major and none for director. Two years ago, ``The Color Purple'' received 11 nominations but not for him as director. The Directors Guild nevertheless named him best director that year. ``I'm floored by this,'' Spielberg said upon receiving his DGA award. ``This is the last thing I expected to happen. ... If some of you are making a statement _ thank God _ I thank you for that.'' Why the Spielberg slight? Some observers cite the fact that only 257 directors nominate for the Academy Awards, and many are veterans who might not look kindly on the young man whose films are the biggest moneymakers in history (``Jaws,'' ``E.T.,'' ``Raiders of the Lost Ark''). The Academy appeared to make amends last year by presenting

Spielberg with the Irving Thalberg award for ``consistently high quality of production.'' There was no mention of the fact that Spielberg is primarily a director, not a producer. The Thalberg award has come in handy to acknowledge giants who were overlooked for individual awards. The recipients have included

Cecil B. DeMille, Stanley Kramer, Alfred Hitchcock, Ingmar Bergman and Mervyn Leroy. The honorary award has also proved useful to salve the Academy's conscience. Charlie Chaplin received one at the first Academy Awards for his creation of ``The Circus'' and again at the 44th awards for ``the incalculable effect he has had in making motion pictures the art form of this century.'' Douglas Fairbanks, Judy Garland, Noel Coward, Ernst Lubitsch, Fred Astaire, Gene Kelly, Harold Lloyd, Greta Garbo, Maurice Chevalier, Stan Laurel, Cary Grant, Lillian Gish, Edward G. Robinson, Groucho Marx, Howard Hawks and Jean Renoir are others who have received honorary awards. Cary Grant once remarked that he never expected to win an

Academy Award. ``I'd have to blacken my teeth first,'' he quipped, alluding to the Academy's fondness for actors who portray bums and downtrodden characters. Alfred Hitchcock also had a </TEXT>

<NOTE>End Adv for Mon AMs, March 28</NOTE></DOC>

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 14: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1414

Afin de prendre cette Afin de prendre cette hypothèse (intuition)hypothèse (intuition), nous proposons de lisser la fréquence de , nous proposons de lisser la fréquence de terme composé en tenant en compte de la fréquence de ses termes composants terme composé en tenant en compte de la fréquence de ses termes composants relativement à leur relativement à leur dominancedominance dans le terme composé. dans le terme composé.

T

iin

tFT|P+TF=T

i

ttF

TFn

TF

T|P t i

t iF

la nouvelle fréquence (revisitée) de terme composé T

la fréquence initiale de terme composé T

la probabilité de dominance de dans le terme ti composé T

La fréquence de terme ti dans le document

Termes Initial Frequency

Imp(t) P(t|T) New compound term Frequency (revisited)

academy 4 N/1335 0,7

award 5 N/3115 0,3

academy award 4 - - =4+0,3*5+0,7*4=8,3

award 5 N/3115 0,4315

ceremony 0 N/2364 0,5685

awards ceremony 1 - - =1+5*0,4315=3,1575

Thalberg 0 N/14 0,9955

award 5 N/3115 0,0045

Thalberg award 1 - - =2+4*0,0057+ 1*0,9942=3,017

… ….. ….. ….. …..

Steven 0 N/1426 0,0172

Spielberg 5 N/87 0,9828

Steven Spielberg 1 =1+5*0,9828=5,9140

Document length with initial frequency

| DT| =4+…+1 

Document length with revisited frequency

| DT|=8,3+…+5,9140 

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 15: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1515

estimation de estimation de )|P( Mt DTi

TT DTDiriDTi tD |TT|P|PiT

MPtMt

Dans cette formule, le passage d’un terme simple à un document D est réalisé à travers tous les termes composés qui le contient.

t i

M DT

Modèle document terme composé

Terme composés

TL T|P t i

MP DTDir |T

Hypothèse : l'auteur utilise un terme simple dans un document, il peut renvoyer à un terme composé donné, noté T max

MPtT DTDiriTT|TT|P

tD iT

maxargmax

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 16: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1616

MTPTtMt DTmaxDirmaxiDTi ||P|P

On obtient : On obtient :

exemple exemple

= “award”, la liste des termes composés contenant ce terme est , L= {“academy award”, “awards ceremony”, “Thalberg award”}

t i

Termes composés

academy award ≈0,3*4=1,2awards ceremony ≈0,4315*1=0,4315Thalberg award ≈0,0045*1=0,0045

MPt DTDiri |TT|P

1.240.3|award"academy "award"academy |"awardP MP DTDir

"" awardacademyT max

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 17: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1717

Collection ParsingMots-vides lemmatisation

Text-NSP

Comptage des bi-grammes(count.pl)

Ordonnancement des bi-grammes(statistic.pl)

Liste des termes composés

Bigrams filtring (>freq_th)Bigrams filtring (>freq_th)

Bigrams filtring (>PMI_threshold)Bigrams filtring (>PMI_threshold)

Terrier

1. Indexation2. Recherche3. Evaluation

1. Indexation2. Recherche3. Evaluation

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 18: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1818

Collection #documents Topics WSJ90-92 74,520 201-300

AP88 79,919 201-300WT10G 1,692,096 451-550

Statistiques sur les collections et les Topics Statistiques sur les collections et les Topics utilisésutilisésStatistiques sur les collections et les Topics Statistiques sur les collections et les Topics utilisésutilisés

Comparison des différents modèles (ULM, MRF(FD), Comparison des différents modèles (ULM, MRF(FD), LM_CTLM_CT))Comparison des différents modèles (ULM, MRF(FD), Comparison des différents modèles (ULM, MRF(FD), LM_CTLM_CT))

ULM FD LM_TC

WSJ90-92 0.1852 0.1964 0.2018 +

AP88 0.2338 0.2479 0.2509 +

WT10G 0.2085 0.2293 0.2331 + +

ULM : modèle Uni-grammeFD : Modèle proposé dans [Metzler, D and Croft, W.B. SIGIR, 2005]LM_TC : modèle Implémentant notre Approche

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 19: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 1919

ConclusionConclusion

1. Proposition d’un nouveau modèle de langage combinant les termes composés et simples

2. Proposition d’une nouvelle méthode de pondération des termes composés

3. Les expérimentations effectuées sur trois collection de test ont montré que notre modèle affiche de meilleurs résultats que le modèle uni-gramme ainsi que le modèle MRF (FD)

PerspectivesPerspectives 1. Tester l’impact des facteurs suivants:

Adjacence des termes composant Directionalité Taille des termes composés

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

Page 20: R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul

R2I –Tizi-OuzouR2I –Tizi-Ouzou 2020

Merci de votre attentionMerci de votre attention