57
1 رای ب ی ق ی ب ط ت های ره ک ی پ ده از ا ف ی س ا ی س لی گ ن ا- ی س از ی ف ن ا ب ن* ز, ی ب عات لا ط ی ا ن ا ب از ب ی م5 شن* ها رادزا ب ما ه ما: ن هد زا ا ی س ا ری ک ا5 اده ش ر ا@ز کت د داوز: د ی پشا ا ی ل ی ف ر کت ازه، د ی ب ق ت ر کت ی، د گ ی پ ر کت د د ی ف س ا1389

استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

  • Upload
    kyne

  • View
    131

  • Download
    1

Embed Size (px)

DESCRIPTION

استفاده از پیکره‌های تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی. هما برادران هاشمی استاد راهنما: دکتر آزاده شاکری اساتید داور: دکتر بیگی، دکتر تقی یاره، دکتر فیلی اسفند 1389. فهرست مطالب. مقدمه ساخت پیکره تطبیقی فارسی-انگلیسی - PowerPoint PPT Presentation

Citation preview

Page 1: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای

بازیابی اطالعات بین زبانی فارسی -انگلیسی

هما برادران هاشمی

دکتر آزاده شاکریاستاد راهنما:

دکتر بیگی، دکتر تقی یاره، اساتید داور: دکتر فیلی

1389 اسفند

Page 2: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

2

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

Page 3: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی3

Page 4: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی4

بازیابی اطالعات بین زبانی

information retrieval

اطالعات بازیابی

recupero dell'informazione

信息检索

tiedonhaku

поиск информации

Page 5: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی5

Page 6: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی6

بازیابی اطالعات بین

زبانی

ترجمه پرس وجو

ماشین های ترجمه واژه نامه ها پیکره های

تطبیقیپیکره های

موازی

ترجمه اسناد

ترجمه اسناد و پرس وجو

Page 7: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

7

هدف: ایجاد ترجمه ای روان از متون زبان طبیعی

معایب:

پرس وجوها شامل لیستی از کلید واژگان هستند

ارائه تنها ”محتمل ترین ترجمه“

ترجمه پرس وجو با استفاده از ماشین ترجمه

Widely used narcotics in Iran

به طور گسترده مواد مخدر

در ایران استفاده می شود

ماشین ترجمه گوگل

Page 8: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی8

هیچ واژه نامه ای کامل نیست

ابهام ترجمه

“Goal ”)هدف و واژه ورزشی گل زدن(

“Bank ”)بانکداری و کناره ی رودخانه(

ترجمه پرس وجو با استفاده از واژه نامه

Page 9: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی9

ترجمه پرس وجو با استفاده از پیکره های موازی

ا ب پ ت س ش

A B C DS T

ا ب پ ت س ش

ا ب پ ت س ش

A B C DS T

A B C DS T

Page 10: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی10

ترجمه پرس وجو با استفاده از پیکره های تطبیقی

ا ب پ ت س ش

ا ب پ ت س ش

ا ب پ ت س ش

ا ب پ تس ش

A B C DS Tا ب پ ت

س ش

ا ب پ ت س ش

A B C DS T

A B C DS T

Page 11: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی11

بازیابی اطالعات بین

زبانی

ترجمه پرس وجو

ماشین های ترجمه واژه نامه ها پیکره های

تطبیقیپیکره های

موازی

ترجمه اسناد

ترجمه اسناد و پرس وجو

Page 12: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

12

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

Page 13: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی13

(UTPECC)پیکره تطبیقی فارسی-انگلیسی

Page 14: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی14

اسنادمبدأ

نمایش اسنادبه

زبان مبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

تطابق هم ترازی

TF, RATF واژه نامه و گوگل

تاریخ شباهت انتشارمحتوا

Page 15: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی15

نمایش اسنادبه

زبان مبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

تطابق هم ترازی

TF, RATF واژه نامه و گوگل

تاریخ شباهت انتشارمحتوا

Survivors of Hurricane Katrina in the southern US are being taken to safety in what is being called the largest airlift in US history.

Up to 40 aircraft are operating round-the-clock to move thousands who had been stranded in New Orleans. On Saturday President Bush announced the deployment of thousands of extra troops in affected areas, amid criticism of the rescue effort. Survivors have been telling harrowing tales of violence. On Saturday more than 10,000 people were removed from flood-ravaged New Orleans.

اسنادمبدأ

Page 16: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی16

اسنادمبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

تطابق هم ترازی

واژه نامه و گوگل

تاریخ شباهت انتشارمحتوا

نمایش اسنادبه

زبان peopleمبدأ brown

Orleans emerge

new Katrina

survivor flood

thousand relief

rescue urgency

Saturday hurricane

TF, RATF

Page 17: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی17

اسنادمبدأ

نمایش اسنادبه

زبان مبدأ

اسنادمقصد

نمایه

تطابق هم ترازی

TF, RATF

تاریخ شباهت انتشارمحتوا

نمایش اسناد

به زبان مقصد

خلق قومجمعيت ملتاخيرا نوين شخص زنده

باقيمانده بازمانده روزشنبه پديدار بيرون تندباد طوفانگردباد اجتماع قهوه سرخ قهوهکاترينا سيل درياطوفان غرقسيل گرفتن طغيان راحتي اعانهامداد رفع نگراني برجستهخط فوريت ضرورت كناردريا

واژه نامه و گوگل

Page 18: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی18

اسنادمبدأ

نمایش اسنادبه

زبان مبدأ

نمایش اسناد

به زبان مقصد

تطابق هم ترازی

TF, RATF واژه نامه و گوگل

تاریخ شباهت انتشارمحتوا

اسنادمقصد

نمایه

Page 19: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی19

اسنادمبدأ

پرس وجوهابه

زبان مبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

هم ترازی

TF, RATF واژه نامه و گوگل

تاریخ شباهت انتشار کاترينا بازماندگانعمليات گسترده تخليه محتوا

نورمن مينتا وزير حمل و نقل امريکا گفت هواپيماها و هلي کوپترها ساعته در حال کار

هستند و تا کنون بيش از هزار نفر را از مناطقي در نيواورليان که بيشترين اسيب را

ديده اند تخليه کرده اند اتوبوس ها نيز به بيرون بردن مردم از شهر ادامه مي دهند و

اولين قطار شهر را ترک کرده است مقامات نظامي مي گويند تاکنون هزار نفر از توفان

زدگان اين شهر ويران نجات يافته اند

خلق قومجمعيت ملتاخيرا نوين شخص زنده

باقيمانده بازمانده روزشنبه پديدار بيرون تندباد طوفانگردباد اجتماع قهوه سرخ قهوهکاترينا سيل درياطوفان غرقسيل گرفتن

تطابق

Page 20: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی20

اسنادمبدأ

پرس وجوهابه

زبان مبدأ

اسنادمقصد

نمایش اسناد

به زبان مقصد

نمایه

تطابق

TF, RATF واژه نامه و گوگل

هم ترازی

تاریخ شباهت انتشارمحتوا

Survivors of Hurricane Katrina in the southern US are being taken to safety in what is being called the largest airlift in US history.Up to 40 aircraft are operating round-the-clock to move thousands who had been stranded in New Orleans.

کاترينا بازماندگانعمليات گسترده تخليه نورمن مينتا وزير حمل و نقل امريکا گفت

هواپيماها و هلي کوپترها ساعته در حال کار هستند و تا کنون بيش از هزار نفر را از

که بيشترين اسيب را نيواورليانمناطقي در ديده اند تخليه کرده اند اتوبوس ها نيز به

بيرون بردن مردم از شهر ادامه مي دهند و اولين قطار شهر را ترک کرده است مقامات

نظامي مي گويند تاکنون هزار نفر از توفان زدگان اين شهر ويران نجات يافته اند

Page 21: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی21

ارزیابی پیکره های تطبیقی

کیفیت هم ترازی ها

موضوع یکسان: 1کالس

موضوع مرتبط: 2کالس

ظاهر مشترک: 3کالس

اصطالحات مشترک: 4کالس

نامرتبط: 5کالس

Page 22: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی22

باالترین ترجمه 3

بدون نویسه گردانی با نویسه گردانی

تعداد درصد تعداد درصد

1کالس 11 13.5 % 13 14.9 %

2کالس 46 56.8 % 51 58.6 %

3کالس 20 24.7 % 19 21.8 %

4کالس 4 4.9 % 4 4.6 %

5کالس 0 0 % 0 0 %

کل 81 100 87 100

Okapiکیفیت هم ترازی ها: مدل بازیابی

Page 23: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی23

اسنادمبدأ

اسنادمقصد

هم تراز

ی

53,697

(UTPECC)خصوصیات پیکره تطبیقی ساخته شده

191,440

10,365

Page 24: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

24

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

Page 25: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی25

(2)ساخت پرس وجو

در فارسی

(3)

رتبه بندی اسناد

پرس وجوی

انگلیسی اسناد فارسی

مراحل بازیابی اطالعات بین زبانی

اسناد هم تراز شده

فارسی-انگلیسی

(1)

استخراج دانش ترجمه

اصطالحات

اسناد فارسی و انگلیسی

Page 26: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

26

“Focused web crawling in the acquisition of comparable corpora” [Talvensaari et.al, 2008]

(COCOT): روش پایه استخراج دانش ترجمه 1مرحله

ایده اصلی: استفاده از رخداد همزمان کلمات در هم ترازی ها

Page 27: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

27

0 500 1000 1500 2000 2500 30000

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

footbal cancerفوتبال

0 500 1000 1500 2000 2500 30000

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

nuclear عراقcancerفوتبال

سرطانامتیاز

کلمه فارسی

کلمه انگلیسی

81 سرطان

cancer

52 بیماری

51 بدن

42 سلول

... ...

105 عراق

Iraq95 صدام83 عراقی82 بغداد... ...

Page 28: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی28

(TAN): مدل شبکه وابستگی اصطالحات 1مرحله

انگلیسی

فارسی

اطالعات متقابل

Page 29: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی29

(TAN): مثال مدل شبکه وابستگی اصطالحات 1مرحله

انگلیسی

فارسی

Wimbledon

match

slamtennis

henman

game

ليگ

جام

باشگاهتیم

تنیس

تنيسور

مسابقات

قهرماني

هولیه ویمبلدونقهرمان

Page 30: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی30

اسناد هم تراز شده

فارسی-انگلیسی

(1)

استخراج دانش ترجمه

اصطالحات

اسناد فارسی و انگلیسی

(3)

رتبه بندی اسناد

اسناد فارسی

مراحل بازیابی اطالعات بین زبانی

(2)ساخت پرس وجو

در فارسی

پرس وجوی

انگلیسی

Page 31: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

31

: انتخاب تعداد همسایه اول روشثابت

کلمه فارسی کلمه انگیسی

0.077 سرطان

Cancer0.049 بیماری

0.049 بدن

0.041 سلول

… …

0.050 درمان

Drugs0.049 دارو

0.042 داروهای

0.042 بیماری… …

Cancerپرس وجوی انگلیسی: Drugs

0.305

سرطان

0.195

بیماری

0.252

درمان

0.247

دارو

: ساخت مدل زبانی پرس وجو 2مرحله

پرس وجوی فارسی:

: انتخاب تعداد همسایه پویادوم روش

Page 32: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

32

مثال انتخاب تعداد همسایه پویاي

تما

سژان

آي

دعرا

البته

سه

يرژ

انوم

انيور

اي

غنان

سزر

باالح

سي

مللال

يحات

سليت

انزم

سا لمل

كاري

آم

0

0.2

0.4

0.6

0.8

1

Chart Title

کلمات وابسته

ازتیام

يمحر

تراق

عمان

ساز

كاريآم

ورش

ك

مللجه

خار

امصد

تمني

ا

يروز

شزار

گ

0

0.2

0.4

0.6

0.8

ازتیام

sanction

atomic

Page 33: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

CLIR

Query translation

Machinetranslation

Dictionarybased

Comparable Corpora

Parallel Corpora

Documenttranslation

Query & Documenttranslation

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی33

(2)ساخت پرس وجو

در فارسی

پرس وجوی

انگلیسی

اسناد هم تراز شده

فارسی-انگلیسی

(1)

استخراج دانش ترجمه

اصطالحات

اسناد فارسی و انگلیسی

مراحل بازیابی اطالعات بین زبانی

(3)

رتبه بندی اسناد

اسناد فارسی

Page 34: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی34

پیکره همشهری

-CLEF و CLEF-2008 بازیابی اطالعات بین زبانی

2009

بازیابی اسناد فارسی توسط پرس وجوهای انگلیسی

پرس وجو 85استفاده از

استفاده از پرس وجوهای فارسی برای بازیابی تک زبانی

: رتبه بندی اسناد 3مرحله

Page 35: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی35

معیارهای ارزیابی سیستم های بازیابی اطالعات بین زبانی

(Prec@5 , Prec@10) سند باال 10 و 5دقت در

(MAP)میانگین متوسط دقت

مقایسه با بازیابی اطالعات تک زبانی

Page 36: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

36

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

dyn

e>0

e=0

basic

k

MA

P

00

COCOT

TAN dynamic k

: ارزیابی نتایج آزمایش ها3مرحله

31% Mono

42% Mono

Page 37: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

37

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

dyn

e>0

e=0

basic

k

MA

P

00

COCOT

TAN dynamic k

: ارزیابی نتایج آزمایش ها3مرحله

Page 38: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

38

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

Page 39: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی39

z

بررسی صح ت ترجمه

Persian

gulf

Iran

Tehran

Iranian

عراق

صدام

دولت

آمریکا

خلیج

بازرسان

ایران

تهران

ایران

تهران

خاتمی

Page 40: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی40

بررسی صح ت ترجمه

Persian

gulf

Iran

Tehran

Iranian

عراق

صدام

دولت

آمریکا

خلیج

بازرسان

ایران

تهران

ایران

تهران

خاتمی

TehranKhatami

Iranian

Iran

ایرانی

خاتمی

ایران

خبرگان

تهران

�TehranKhatami

Iranian

Iran

ایرانی

خاتمی

ایران

خبرگان

تهران

Page 41: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

41

0.11

0.13

0.15

0.17

0.19

Series1diff k QLM omit

تعداد برون هشته

MA

Pنتایج آزمایش های کشف کلمات برون هشته

حذف برون هشته ها

ترجمه برون هشته ها توسط واژه نامه

45% Mono

Page 42: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

42

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

Page 43: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی43

هر دو کلمه کنار یکدیگر به عنوان یک نگرش اول:

عبارت

استخراج ترجمه عبارات

امتیاز عبارت فارسی عبارت انگیسی

21.46 بازار سهام

stock market19.27 سرمایه گذاران

17.32 ارزش سهام

17.13 تولید ناخالص

… …

26.64 سقوط هواپیمای

plane crash

21.26 سانحه هوایی

15.51هواپیمای مسافربری

12.75 برج مراقبت… …

Page 44: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی44

نگرش دوم: در نظر گرفتن هم کلمات تکی و هم عبارات

تشخیص عبارات بر اساس اطالعات متقابل

استخراج ترجمه عبارات

امتیاز عبارت فارسی عبارت انگیسی

29.75زلزله

earthquake28.05

زمین لرزه

26.01ریشتر

24.79لرزه

… …

25.19 انتخابات ریاستpresidential

election21.78 ریاست جمهوری… …

Page 45: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی45

نتایج ارزیابی ترجمه عبارات

نگرش دوم نگرش اول COCOT معیار

0.162 )13.6%( 0.173 )21.4%( 0.13 MAP

0.284 )27%( 0.258 )15.43%( 0.223 Prec@5

0.247 )18.6%( 0.236 )13.3%( 0.205 Prec@10

Page 46: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

46

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

Page 47: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی47

استفاده از پیکره تطبیقی برای کلمات خارج از واژه نامه

( Dic-CC)

واژه نامه به همراه ترجمه های استخراج شده از پیکره

(Dic&CCتطبیقی )

استفاده از واژه نامه

Page 48: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی48

1 2 3 4 5 6 7 8 9 100.04

0.08

0.12

0.16

0.2

Dic_CC

Dic&CC

CC

Dic

k

MA

Pنتایج استفاده از واژه نامه

52% Mono

Page 49: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

49

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

Page 50: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی50

توسط شبه بازخورد زبان مبدأ گسترش پرس وجو در

ارتباطی

pseudo relevance feedback

بهترین نتایج بدست آمده

Dic&CC CCتک زبان

ی معیار

0.262 )61.8%(

0.194 )45.7%( 0.424 MAP

0.362 )58.6%( 0.298 )48.2%( 0.618 Prec@5

0.37 )61%( 0.28)46.1%( 0.607 Prec@10

Page 51: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

51

مقدمه

ساخت پیکره تطبیقی فارسی-انگلیسی

بازیابی اطالعات بین زبانی با استفاده از پیکره های

تطبیقی

مدل شبکه وابستگی اصطالحات

بررسی صح3ت ترجمه

استخراج ترجمه عبارات

استفاده از واژه نامه

گسترش پرس وجو

INFILE استفاده از پیکره

فهرست مطالب

Page 52: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی52

در ارزیابی سیستم های تصفیه توافقی بین زبانی

مسابقه های

CLEF-2008

CLEF-2009

LREC-2010

بازیابی اسناد انگلیسی توسط پرس وجوهای فارسی

پرس وجو 45استفاده از

INFILEاستفاده از پیکره

Page 53: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

53

0.04

0.07

0.1

0.13

0.16

dyn e>0

e=0 basic

k

MA

P

0

نتایج روش های مبنی بر پیکره تطبیقی در پیکره INFILE

0 COCOT

TAN dynamic k

0 3 6 9 12 15 18 21 24 27 30 33 36 390.11

0.13

0.15

0.17

0.19

Dic

Omit Outliers

تعداد برون هشته

MA

P

حذف برون هشته ها

ترجمه برون هشته ها توسط واژه نامه

نتایج شبکه وابستگی

اصطالحات

نتایج کشف برون هشته

نتایج استفاده از واژه نامه

1 2 3 4 5 6 7 8 9 100

0.04

0.08

0.12

0.16

0.2

Dic_CC Dic&CC CC

Dic

k

Page 54: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

54

جمع بندی

دستاوردها:

ساخت اولین پیکره تطبیقی بزرگ فارسی-انگلیسی

ارائه روش استخراج ترجمه مبنی بر شبکه وابستگی اصطالحات

بررسی صح ت ترجمه های استخراج شده با استفاده از کشف

برون هشته ها

نتیجه گیری:

ترجمه های استخراج شده از پیکره های تطبیقی روشی مؤثر برای

بازیابی اطالعات بین زبانی

ترجمه کلمات خارج از واژه نامه و استخراج کلمات مرتبط

Page 55: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

55

کارهای آتی

بهبود کیفیت پیکره تطبیقی ساخته شده

بر اساس ترجمه های استخراج شده به صورت تکراری

گسترش دامنه پیکره تطبیقی توسط منابعی همانند وب، ویکی پدیا

استفاده از پیکره تطبیقی

برای ترجمه پرس وجوهایی در حوزه ای به غیر از اخبار

به عنوان یک زبان میانی

استفاده از ترکیب ویژگی اسناد به منظور رتبه بندی در بازیابی

اطالعات بین زبانی

Page 56: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی56

Homa B. Hashemi, Azadeh Shakery, and Heshaam Faili, “Creating a Persian-English Comparable Corpus”, in proceedings of Conference on Multilingual and Multimodal Information Access Evaluation (CLEF), Padua, Italy, pp. 27-39, 2010.Homa B. Hashemi, Naser Yazdani, Azadeh Shakery, and Mahdi Pakdaman Naeini, “Application of Ensemble Models in Web Ranking”, in proceedings of fifth International Symposium on Telecommunications (IST), Tehran, Iran, 2010.Homa B. Hashemi, and Azadeh Shakery, “Learning translation knowledge from created Persian-English Comparable Corpus for Cross-Language Information Retrieval”, Women in Machine Learning workshop (WiML), Vancouver, Canada, 2010.Homa B. Hashemi, and Azadeh Shakery, “Mining a Persian-English Comparable Corpus for Cross-Language Information Retrieval”, ready to be submitted to Information Processing & Management journal (IPM).

مقاالت ارائه شده

Page 57: استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی

57

با تشکر