استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین...

Preview:

DESCRIPTION

استفاده از پیکره‌های تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی. هما برادران هاشمی استاد راهنما: دکتر آزاده شاکری اساتید داور: دکتر بیگی، دکتر تقی یاره، دکتر فیلی اسفند 1389. فهرست مطالب. مقدمه ساخت پیکره تطبیقی فارسی-انگلیسی - PowerPoint PPT Presentation

Citation preview

استفاده از پیکره های تطبیقی برای

بازیابی اطالعات بین زبانی فارسی -انگلیسی

هما برادران هاشمی

دکتر آزاده شاکریاستاد راهنما:

دکتر بیگی، دکتر تقی یاره، اساتید داور: دکتر فیلی

1389 اسفند

2

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی3

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی4

بازیابی اطالعات بین زبانی

information retrieval

اطالعات بازیابی

recupero dell'informazione

信息检索

tiedonhaku

поиск информации

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی5

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی6

بازیابی اطالعات بین

زبانی

ترجمه پرس وجو

ماشین های ترجمه واژه نامه ها پیکره های

تطبیقیپیکره های

موازی

ترجمه اسناد

ترجمه اسناد و پرس وجو

7

هدف: ایجاد ترجمه ای روان از متون زبان طبیعی

معایب:

پرس وجوها شامل لیستی از کلید واژگان هستند

ارائه تنها ”محتمل ترین ترجمه“

ترجمه پرس وجو با استفاده از ماشین ترجمه

Widely used narcotics in Iran

به طور گسترده مواد مخدر

در ایران استفاده می شود

ماشین ترجمه گوگل

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی8

هیچ واژه نامه ای کامل نیست

ابهام ترجمه

“Goal ”)هدف و واژه ورزشی گل زدن(

“Bank ”)بانکداری و کناره ی رودخانه(

ترجمه پرس وجو با استفاده از واژه نامه

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی9

ترجمه پرس وجو با استفاده از پیکره های موازی

ا ب پ ت س ش

A B C DS T

ا ب پ ت س ش

ا ب پ ت س ش

A B C DS T

A B C DS T

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی10

ترجمه پرس وجو با استفاده از پیکره های تطبیقی

ا ب پ ت س ش

ا ب پ ت س ش

ا ب پ ت س ش

ا ب پ تس ش

A B C DS Tا ب پ ت

س ش

ا ب پ ت س ش

A B C DS T

A B C DS T

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی11

بازیابی اطالعات بین

زبانی

ترجمه پرس وجو

ماشین های ترجمه واژه نامه ها پیکره های

تطبیقیپیکره های

موازی

ترجمه اسناد

ترجمه اسناد و پرس وجو

12

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی13

(UTPECC)پیکره تطبیقی فارسی-انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی14

اسنادمبدأ

نمایش اسنادبه

زبان مبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

تطابق هم ترازی

TF, RATF واژه نامه و گوگل

تاریخ شباهت انتشارمحتوا

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی15

نمایش اسنادبه

زبان مبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

تطابق هم ترازی

TF, RATF واژه نامه و گوگل

تاریخ شباهت انتشارمحتوا

Survivors of Hurricane Katrina in the southern US are being taken to safety in what is being called the largest airlift in US history.

Up to 40 aircraft are operating round-the-clock to move thousands who had been stranded in New Orleans. On Saturday President Bush announced the deployment of thousands of extra troops in affected areas, amid criticism of the rescue effort. Survivors have been telling harrowing tales of violence. On Saturday more than 10,000 people were removed from flood-ravaged New Orleans.

اسنادمبدأ

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی16

اسنادمبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

تطابق هم ترازی

واژه نامه و گوگل

تاریخ شباهت انتشارمحتوا

نمایش اسنادبه

زبان peopleمبدأ brown

Orleans emerge

new Katrina

survivor flood

thousand relief

rescue urgency

Saturday hurricane

TF, RATF

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی17

اسنادمبدأ

نمایش اسنادبه

زبان مبدأ

اسنادمقصد

نمایه

تطابق هم ترازی

TF, RATF

تاریخ شباهت انتشارمحتوا

نمایش اسناد

به زبان مقصد

خلق قومجمعيت ملتاخيرا نوين شخص زنده

باقيمانده بازمانده روزشنبه پديدار بيرون تندباد طوفانگردباد اجتماع قهوه سرخ قهوهکاترينا سيل درياطوفان غرقسيل گرفتن طغيان راحتي اعانهامداد رفع نگراني برجستهخط فوريت ضرورت كناردريا

واژه نامه و گوگل

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی18

اسنادمبدأ

نمایش اسنادبه

زبان مبدأ

نمایش اسناد

به زبان مقصد

تطابق هم ترازی

TF, RATF واژه نامه و گوگل

تاریخ شباهت انتشارمحتوا

اسنادمقصد

نمایه

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی19

اسنادمبدأ

پرس وجوهابه

زبان مبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

هم ترازی

TF, RATF واژه نامه و گوگل

تاریخ شباهت انتشار کاترينا بازماندگانعمليات گسترده تخليه محتوا

نورمن مينتا وزير حمل و نقل امريکا گفت هواپيماها و هلي کوپترها ساعته در حال کار

هستند و تا کنون بيش از هزار نفر را از مناطقي در نيواورليان که بيشترين اسيب را

ديده اند تخليه کرده اند اتوبوس ها نيز به بيرون بردن مردم از شهر ادامه مي دهند و

اولين قطار شهر را ترک کرده است مقامات نظامي مي گويند تاکنون هزار نفر از توفان

زدگان اين شهر ويران نجات يافته اند

خلق قومجمعيت ملتاخيرا نوين شخص زنده

باقيمانده بازمانده روزشنبه پديدار بيرون تندباد طوفانگردباد اجتماع قهوه سرخ قهوهکاترينا سيل درياطوفان غرقسيل گرفتن

تطابق

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی20

اسنادمبدأ

پرس وجوهابه

زبان مبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

تطابق

TF, RATF واژه نامه و گوگل

هم ترازی

تاریخ شباهت انتشارمحتوا

Survivors of Hurricane Katrina in the southern US are being taken to safety in what is being called the largest airlift in US history.Up to 40 aircraft are operating round-the-clock to move thousands who had been stranded in New Orleans.

کاترينا بازماندگانعمليات گسترده تخليه نورمن مينتا وزير حمل و نقل امريکا گفت

هواپيماها و هلي کوپترها ساعته در حال کار هستند و تا کنون بيش از هزار نفر را از

که بيشترين اسيب را نيواورليانمناطقي در ديده اند تخليه کرده اند اتوبوس ها نيز به

بيرون بردن مردم از شهر ادامه مي دهند و اولين قطار شهر را ترک کرده است مقامات

نظامي مي گويند تاکنون هزار نفر از توفان زدگان اين شهر ويران نجات يافته اند

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی21

ارزیابی پیکره های تطبیقی

کیفیت هم ترازی ها

موضوع یکسان: 1کالس

موضوع مرتبط: 2کالس

ظاهر مشترک: 3کالس

اصطالحات مشترک: 4کالس

نامرتبط: 5کالس

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی22

باالترین ترجمه 3

بدون نویسه گردانی با نویسه گردانی

تعداد درصد تعداد درصد

1کالس 11 13.5 % 13 14.9 %

2کالس 46 56.8 % 51 58.6 %

3کالس 20 24.7 % 19 21.8 %

4کالس 4 4.9 % 4 4.6 %

5کالس 0 0 % 0 0 %

کل 81 100 87 100

Okapiکیفیت هم ترازی ها: مدل بازیابی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی23

اسنادمبدأ

اسنادمقصد

هم تراز

ی

53,697

(UTPECC)خصوصیات پیکره تطبیقی ساخته شده

191,440

10,365

24

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی25

(2)ساخت پرس وجو

در فارسی

(3)

رتبه بندی اسناد

پرس وجوی

انگلیسی اسناد فارسی

مراحل بازیابی اطالعات بین زبانی

اسناد هم تراز شده

فارسی-انگلیسی

(1)

استخراج دانش ترجمه

اصطالحات

اسناد فارسی و انگلیسی

26

“Focused web crawling in the acquisition of comparable corpora” [Talvensaari et.al, 2008]

(COCOT): روش پایه استخراج دانش ترجمه 1مرحله

ایده اصلی: استفاده از رخداد همزمان کلمات در هم ترازی ها

27

0 500 1000 1500 2000 2500 30000

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

footbal cancerفوتبال

0 500 1000 1500 2000 2500 30000

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

nuclear عراقcancerفوتبال

سرطانامتیاز

کلمه فارسی

کلمه انگلیسی

81 سرطان

cancer

52 بیماری

51 بدن

42 سلول

... ...

105 عراق

Iraq95 صدام83 عراقی82 بغداد... ...

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی28

(TAN): مدل شبکه وابستگی اصطالحات 1مرحله

انگلیسی

فارسی

اطالعات متقابل

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی29

(TAN): مثال مدل شبکه وابستگی اصطالحات 1مرحله

انگلیسی

فارسی

Wimbledon

match

slamtennis

henman

game

ليگ

جام

باشگاهتیم

تنیس

تنيسور

مسابقات

قهرماني

هولیه ویمبلدونقهرمان

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی30

اسناد هم تراز شده

فارسی-انگلیسی

(1)

استخراج دانش ترجمه

اصطالحات

اسناد فارسی و انگلیسی

(3)

رتبه بندی اسناد

اسناد فارسی

مراحل بازیابی اطالعات بین زبانی

(2)ساخت پرس وجو

در فارسی

پرس وجوی

انگلیسی

31

: انتخاب تعداد همسایه اول روشثابت

کلمه فارسی کلمه انگیسی

0.077 سرطان

Cancer0.049 بیماری

0.049 بدن

0.041 سلول

… …

0.050 درمان

Drugs0.049 دارو

0.042 داروهای

0.042 بیماری… …

Cancerپرس وجوی انگلیسی: Drugs

0.305

سرطان

0.195

بیماری

0.252

درمان

0.247

دارو

: ساخت مدل زبانی پرس وجو 2مرحله

پرس وجوی فارسی:

: انتخاب تعداد همسایه پویادوم روش

32

مثال انتخاب تعداد همسایه پویاي

تما

سژان

آي

دعرا

البته

سه

يرژ

انوم

انيور

اي

غنان

سزر

باالح

سي

مللال

يحات

سليت

انزم

سا لمل

كاري

آم

0

0.2

0.4

0.6

0.8

1

Chart Title

کلمات وابسته

ازتیام

يمحر

تراق

عمان

ساز

كاريآم

ورش

ك

مللجه

خار

امصد

تمني

ا

يروز

شزار

گ

0

0.2

0.4

0.6

0.8

ازتیام

sanction

atomic

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی33

(2)ساخت پرس وجو

در فارسی

پرس وجوی

انگلیسی

اسناد هم تراز شده

فارسی-انگلیسی

(1)

استخراج دانش ترجمه

اصطالحات

اسناد فارسی و انگلیسی

مراحل بازیابی اطالعات بین زبانی

(3)

رتبه بندی اسناد

اسناد فارسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی34

پیکره همشهری

-CLEF و CLEF-2008 بازیابی اطالعات بین زبانی

2009

بازیابی اسناد فارسی توسط پرس وجوهای انگلیسی

پرس وجو 85استفاده از

استفاده از پرس وجوهای فارسی برای بازیابی تک زبانی

: رتبه بندی اسناد 3مرحله

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی35

معیارهای ارزیابی سیستم های بازیابی اطالعات بین زبانی

(Prec@5 , Prec@10) سند باال 10 و 5دقت در

(MAP)میانگین متوسط دقت

مقایسه با بازیابی اطالعات تک زبانی

36

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

dyn

e>0

e=0

basic

k

MA

P

00

COCOT

TAN dynamic k

: ارزیابی نتایج آزمایش ها3مرحله

31% Mono

42% Mono

37

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

dyn

e>0

e=0

basic

k

MA

P

00

COCOT

TAN dynamic k

: ارزیابی نتایج آزمایش ها3مرحله

38

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی39

z

بررسی صح ت ترجمه

Persian

gulf

Iran

Tehran

Iranian

عراق

صدام

دولت

آمریکا

خلیج

بازرسان

ایران

تهران

ایران

تهران

خاتمی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی40

بررسی صح ت ترجمه

Persian

gulf

Iran

Tehran

Iranian

عراق

صدام

دولت

آمریکا

خلیج

بازرسان

ایران

تهران

ایران

تهران

خاتمی

TehranKhatami

Iranian

Iran

ایرانی

خاتمی

ایران

خبرگان

تهران

�TehranKhatami

Iranian

Iran

ایرانی

خاتمی

ایران

خبرگان

تهران

41

0.11

0.13

0.15

0.17

0.19

Series1diff k QLM omit

تعداد برون هشته

MA

Pنتایج آزمایش های کشف کلمات برون هشته

حذف برون هشته ها

ترجمه برون هشته ها توسط واژه نامه

45% Mono

42

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی43

هر دو کلمه کنار یکدیگر به عنوان یک نگرش اول:

عبارت

استخراج ترجمه عبارات

امتیاز عبارت فارسی عبارت انگیسی

21.46 بازار سهام

stock market19.27 سرمایه گذاران

17.32 ارزش سهام

17.13 تولید ناخالص

… …

26.64 سقوط هواپیمای

plane crash

21.26 سانحه هوایی

15.51هواپیمای مسافربری

12.75 برج مراقبت… …

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی44

نگرش دوم: در نظر گرفتن هم کلمات تکی و هم عبارات

تشخیص عبارات بر اساس اطالعات متقابل

استخراج ترجمه عبارات

امتیاز عبارت فارسی عبارت انگیسی

29.75زلزله

earthquake28.05

زمین لرزه

26.01ریشتر

24.79لرزه

… …

25.19 انتخابات ریاستpresidential

election21.78 ریاست جمهوری… …

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی45

نتایج ارزیابی ترجمه عبارات

نگرش دوم نگرش اول COCOT معیار

0.162 )13.6%( 0.173 )21.4%( 0.13 MAP

0.284 )27%( 0.258 )15.43%( 0.223 Prec@5

0.247 )18.6%( 0.236 )13.3%( 0.205 Prec@10

46

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی47

استفاده از پیکره تطبیقی برای کلمات خارج از واژه نامه

( Dic-CC)

واژه نامه به همراه ترجمه های استخراج شده از پیکره

(Dic&CCتطبیقی )

استفاده از واژه نامه

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی48

1 2 3 4 5 6 7 8 9 100.04

0.08

0.12

0.16

0.2

Dic_CC

Dic&CC

CC

Dic

k

MA

Pنتایج استفاده از واژه نامه

52% Mono

49

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی50

توسط شبه بازخورد زبان مبدأ گسترش پرس وجو در

ارتباطی

pseudo relevance feedback

بهترین نتایج بدست آمده

Dic&CC CCتک زبان

ی معیار

0.262 )61.8%(

0.194 )45.7%( 0.424 MAP

0.362 )58.6%( 0.298 )48.2%( 0.618 Prec@5

0.37 )61%( 0.28)46.1%( 0.607 Prec@10

51

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی52

در ارزیابی سیستم های تصفیه توافقی بین زبانی

مسابقه های

CLEF-2008

CLEF-2009

LREC-2010

بازیابی اسناد انگلیسی توسط پرس وجوهای فارسی

پرس وجو 45استفاده از

INFILEاستفاده از پیکره

53

0.04

0.07

0.1

0.13

0.16

dyn e>0

e=0 basic

k

MA

P

0

نتایج روش های مبنی بر پیکره تطبیقی در پیکره INFILE

0 COCOT

TAN dynamic k

0 3 6 9 12 15 18 21 24 27 30 33 36 390.11

0.13

0.15

0.17

0.19

Dic

Omit Outliers

تعداد برون هشته

MA

P

حذف برون هشته ها

ترجمه برون هشته ها توسط واژه نامه

نتایج شبکه وابستگی

اصطالحات

نتایج کشف برون هشته

نتایج استفاده از واژه نامه

1 2 3 4 5 6 7 8 9 100

0.04

0.08

0.12

0.16

0.2

Dic_CC Dic&CC CC

Dic

k

54

جمع بندی

دستاوردها:

ساخت اولین پیکره تطبیقی بزرگ فارسی-انگلیسی

ارائه روش استخراج ترجمه مبنی بر شبکه وابستگی اصطالحات

بررسی صح ت ترجمه های استخراج شده با استفاده از کشف

برون هشته ها

نتیجه گیری:

ترجمه های استخراج شده از پیکره های تطبیقی روشی مؤثر برای

بازیابی اطالعات بین زبانی

ترجمه کلمات خارج از واژه نامه و استخراج کلمات مرتبط

55

کارهای آتی

بهبود کیفیت پیکره تطبیقی ساخته شده

بر اساس ترجمه های استخراج شده به صورت تکراری

گسترش دامنه پیکره تطبیقی توسط منابعی همانند وب، ویکی پدیا

استفاده از پیکره تطبیقی

برای ترجمه پرس وجوهایی در حوزه ای به غیر از اخبار

به عنوان یک زبان میانی

استفاده از ترکیب ویژگی اسناد به منظور رتبه بندی در بازیابی

اطالعات بین زبانی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی56

Homa B. Hashemi, Azadeh Shakery, and Heshaam Faili, “Creating a Persian-English Comparable Corpus”, in proceedings of Conference on Multilingual and Multimodal Information Access Evaluation (CLEF), Padua, Italy, pp. 27-39, 2010.Homa B. Hashemi, Naser Yazdani, Azadeh Shakery, and Mahdi Pakdaman Naeini, “Application of Ensemble Models in Web Ranking”, in proceedings of fifth International Symposium on Telecommunications (IST), Tehran, Iran, 2010.Homa B. Hashemi, and Azadeh Shakery, “Learning translation knowledge from created Persian-English Comparable Corpus for Cross-Language Information Retrieval”, Women in Machine Learning workshop (WiML), Vancouver, Canada, 2010.Homa B. Hashemi, and Azadeh Shakery, “Mining a Persian-English Comparable Corpus for Cross-Language Information Retrieval”, ready to be submitted to Information Processing & Management journal (IPM).

مقاالت ارائه شده

57

با تشکر

Recommended