Upload
kyne
View
131
Download
1
Embed Size (px)
DESCRIPTION
استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی -انگلیسی. هما برادران هاشمی استاد راهنما: دکتر آزاده شاکری اساتید داور: دکتر بیگی، دکتر تقی یاره، دکتر فیلی اسفند 1389. فهرست مطالب. مقدمه ساخت پیکره تطبیقی فارسی-انگلیسی - PowerPoint PPT Presentation
Citation preview
استفاده از پیکره های تطبیقی برای
بازیابی اطالعات بین زبانی فارسی -انگلیسی
هما برادران هاشمی
دکتر آزاده شاکریاستاد راهنما:
دکتر بیگی، دکتر تقی یاره، اساتید داور: دکتر فیلی
1389 اسفند
2
مقدمه
ساخت پیکره تطبیقی فارسی-انگلیسی
بازیابی اطالعات بین زبانی با استفاده از پیکره های
تطبیقی
مدل شبکه وابستگی اصطالحات
بررسی صح3ت ترجمه
استخراج ترجمه عبارات
استفاده از واژه نامه
گسترش پرس وجو
INFILE استفاده از پیکره
فهرست مطالب
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی3
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی4
بازیابی اطالعات بین زبانی
information retrieval
اطالعات بازیابی
recupero dell'informazione
信息检索
tiedonhaku
поиск информации
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی5
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی6
بازیابی اطالعات بین
زبانی
ترجمه پرس وجو
ماشین های ترجمه واژه نامه ها پیکره های
تطبیقیپیکره های
موازی
ترجمه اسناد
ترجمه اسناد و پرس وجو
7
هدف: ایجاد ترجمه ای روان از متون زبان طبیعی
معایب:
پرس وجوها شامل لیستی از کلید واژگان هستند
ارائه تنها ”محتمل ترین ترجمه“
ترجمه پرس وجو با استفاده از ماشین ترجمه
Widely used narcotics in Iran
به طور گسترده مواد مخدر
در ایران استفاده می شود
ماشین ترجمه گوگل
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی8
هیچ واژه نامه ای کامل نیست
ابهام ترجمه
“Goal ”)هدف و واژه ورزشی گل زدن(
“Bank ”)بانکداری و کناره ی رودخانه(
ترجمه پرس وجو با استفاده از واژه نامه
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی9
ترجمه پرس وجو با استفاده از پیکره های موازی
ا ب پ ت س ش
A B C DS T
ا ب پ ت س ش
ا ب پ ت س ش
A B C DS T
A B C DS T
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی10
ترجمه پرس وجو با استفاده از پیکره های تطبیقی
ا ب پ ت س ش
ا ب پ ت س ش
ا ب پ ت س ش
ا ب پ تس ش
A B C DS Tا ب پ ت
س ش
ا ب پ ت س ش
A B C DS T
A B C DS T
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی11
بازیابی اطالعات بین
زبانی
ترجمه پرس وجو
ماشین های ترجمه واژه نامه ها پیکره های
تطبیقیپیکره های
موازی
ترجمه اسناد
ترجمه اسناد و پرس وجو
12
مقدمه
ساخت پیکره تطبیقی فارسی-انگلیسی
بازیابی اطالعات بین زبانی با استفاده از پیکره های
تطبیقی
مدل شبکه وابستگی اصطالحات
بررسی صح3ت ترجمه
استخراج ترجمه عبارات
استفاده از واژه نامه
گسترش پرس وجو
INFILE استفاده از پیکره
فهرست مطالب
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی13
(UTPECC)پیکره تطبیقی فارسی-انگلیسی
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی14
اسنادمبدأ
نمایش اسنادبه
زبان مبدأ
اسنادمقصد
نمایش اسناد
به زبان مقصد
نمایه
تطابق هم ترازی
TF, RATF واژه نامه و گوگل
تاریخ شباهت انتشارمحتوا
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی15
نمایش اسنادبه
زبان مبدأ
اسنادمقصد
نمایش اسناد
به زبان مقصد
نمایه
تطابق هم ترازی
TF, RATF واژه نامه و گوگل
تاریخ شباهت انتشارمحتوا
Survivors of Hurricane Katrina in the southern US are being taken to safety in what is being called the largest airlift in US history.
Up to 40 aircraft are operating round-the-clock to move thousands who had been stranded in New Orleans. On Saturday President Bush announced the deployment of thousands of extra troops in affected areas, amid criticism of the rescue effort. Survivors have been telling harrowing tales of violence. On Saturday more than 10,000 people were removed from flood-ravaged New Orleans.
اسنادمبدأ
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی16
اسنادمبدأ
اسنادمقصد
نمایش اسناد
به زبان مقصد
نمایه
تطابق هم ترازی
واژه نامه و گوگل
تاریخ شباهت انتشارمحتوا
نمایش اسنادبه
زبان peopleمبدأ brown
Orleans emerge
new Katrina
survivor flood
thousand relief
rescue urgency
Saturday hurricane
TF, RATF
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی17
اسنادمبدأ
نمایش اسنادبه
زبان مبدأ
اسنادمقصد
نمایه
تطابق هم ترازی
TF, RATF
تاریخ شباهت انتشارمحتوا
نمایش اسناد
به زبان مقصد
خلق قومجمعيت ملتاخيرا نوين شخص زنده
باقيمانده بازمانده روزشنبه پديدار بيرون تندباد طوفانگردباد اجتماع قهوه سرخ قهوهکاترينا سيل درياطوفان غرقسيل گرفتن طغيان راحتي اعانهامداد رفع نگراني برجستهخط فوريت ضرورت كناردريا
واژه نامه و گوگل
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی18
اسنادمبدأ
نمایش اسنادبه
زبان مبدأ
نمایش اسناد
به زبان مقصد
تطابق هم ترازی
TF, RATF واژه نامه و گوگل
تاریخ شباهت انتشارمحتوا
اسنادمقصد
نمایه
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی19
اسنادمبدأ
پرس وجوهابه
زبان مبدأ
اسنادمقصد
نمایش اسناد
به زبان مقصد
نمایه
هم ترازی
TF, RATF واژه نامه و گوگل
تاریخ شباهت انتشار کاترينا بازماندگانعمليات گسترده تخليه محتوا
نورمن مينتا وزير حمل و نقل امريکا گفت هواپيماها و هلي کوپترها ساعته در حال کار
هستند و تا کنون بيش از هزار نفر را از مناطقي در نيواورليان که بيشترين اسيب را
ديده اند تخليه کرده اند اتوبوس ها نيز به بيرون بردن مردم از شهر ادامه مي دهند و
اولين قطار شهر را ترک کرده است مقامات نظامي مي گويند تاکنون هزار نفر از توفان
زدگان اين شهر ويران نجات يافته اند
خلق قومجمعيت ملتاخيرا نوين شخص زنده
باقيمانده بازمانده روزشنبه پديدار بيرون تندباد طوفانگردباد اجتماع قهوه سرخ قهوهکاترينا سيل درياطوفان غرقسيل گرفتن
تطابق
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی20
اسنادمبدأ
پرس وجوهابه
زبان مبدأ
اسنادمقصد
نمایش اسناد
به زبان مقصد
نمایه
تطابق
TF, RATF واژه نامه و گوگل
هم ترازی
تاریخ شباهت انتشارمحتوا
Survivors of Hurricane Katrina in the southern US are being taken to safety in what is being called the largest airlift in US history.Up to 40 aircraft are operating round-the-clock to move thousands who had been stranded in New Orleans.
کاترينا بازماندگانعمليات گسترده تخليه نورمن مينتا وزير حمل و نقل امريکا گفت
هواپيماها و هلي کوپترها ساعته در حال کار هستند و تا کنون بيش از هزار نفر را از
که بيشترين اسيب را نيواورليانمناطقي در ديده اند تخليه کرده اند اتوبوس ها نيز به
بيرون بردن مردم از شهر ادامه مي دهند و اولين قطار شهر را ترک کرده است مقامات
نظامي مي گويند تاکنون هزار نفر از توفان زدگان اين شهر ويران نجات يافته اند
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی21
ارزیابی پیکره های تطبیقی
کیفیت هم ترازی ها
موضوع یکسان: 1کالس
موضوع مرتبط: 2کالس
ظاهر مشترک: 3کالس
اصطالحات مشترک: 4کالس
نامرتبط: 5کالس
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی22
باالترین ترجمه 3
بدون نویسه گردانی با نویسه گردانی
تعداد درصد تعداد درصد
1کالس 11 13.5 % 13 14.9 %
2کالس 46 56.8 % 51 58.6 %
3کالس 20 24.7 % 19 21.8 %
4کالس 4 4.9 % 4 4.6 %
5کالس 0 0 % 0 0 %
کل 81 100 87 100
Okapiکیفیت هم ترازی ها: مدل بازیابی
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی23
اسنادمبدأ
اسنادمقصد
هم تراز
ی
53,697
(UTPECC)خصوصیات پیکره تطبیقی ساخته شده
191,440
10,365
24
مقدمه
ساخت پیکره تطبیقی فارسی-انگلیسی
بازیابی اطالعات بین زبانی با استفاده از پیکره های
تطبیقی
مدل شبکه وابستگی اصطالحات
بررسی صح3ت ترجمه
استخراج ترجمه عبارات
استفاده از واژه نامه
گسترش پرس وجو
INFILE استفاده از پیکره
فهرست مطالب
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی25
(2)ساخت پرس وجو
در فارسی
(3)
رتبه بندی اسناد
پرس وجوی
انگلیسی اسناد فارسی
مراحل بازیابی اطالعات بین زبانی
اسناد هم تراز شده
فارسی-انگلیسی
(1)
استخراج دانش ترجمه
اصطالحات
اسناد فارسی و انگلیسی
26
“Focused web crawling in the acquisition of comparable corpora” [Talvensaari et.al, 2008]
(COCOT): روش پایه استخراج دانش ترجمه 1مرحله
ایده اصلی: استفاده از رخداد همزمان کلمات در هم ترازی ها
27
0 500 1000 1500 2000 2500 30000
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
footbal cancerفوتبال
0 500 1000 1500 2000 2500 30000
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
nuclear عراقcancerفوتبال
سرطانامتیاز
کلمه فارسی
کلمه انگلیسی
81 سرطان
cancer
52 بیماری
51 بدن
42 سلول
... ...
105 عراق
Iraq95 صدام83 عراقی82 بغداد... ...
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی28
(TAN): مدل شبکه وابستگی اصطالحات 1مرحله
انگلیسی
فارسی
اطالعات متقابل
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی29
(TAN): مثال مدل شبکه وابستگی اصطالحات 1مرحله
انگلیسی
فارسی
Wimbledon
match
slamtennis
henman
game
ليگ
جام
باشگاهتیم
تنیس
تنيسور
مسابقات
قهرماني
هولیه ویمبلدونقهرمان
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی30
اسناد هم تراز شده
فارسی-انگلیسی
(1)
استخراج دانش ترجمه
اصطالحات
اسناد فارسی و انگلیسی
(3)
رتبه بندی اسناد
اسناد فارسی
مراحل بازیابی اطالعات بین زبانی
(2)ساخت پرس وجو
در فارسی
پرس وجوی
انگلیسی
31
: انتخاب تعداد همسایه اول روشثابت
کلمه فارسی کلمه انگیسی
0.077 سرطان
Cancer0.049 بیماری
0.049 بدن
0.041 سلول
… …
0.050 درمان
Drugs0.049 دارو
0.042 داروهای
0.042 بیماری… …
Cancerپرس وجوی انگلیسی: Drugs
0.305
سرطان
0.195
بیماری
0.252
درمان
0.247
دارو
: ساخت مدل زبانی پرس وجو 2مرحله
پرس وجوی فارسی:
: انتخاب تعداد همسایه پویادوم روش
32
مثال انتخاب تعداد همسایه پویاي
تما
سژان
آي
دعرا
البته
سه
يرژ
انوم
انيور
اي
غنان
سزر
باالح
سي
مللال
يحات
سليت
انزم
سا لمل
كاري
آم
0
0.2
0.4
0.6
0.8
1
Chart Title
کلمات وابسته
ازتیام
يمحر
تراق
عمان
ساز
كاريآم
ورش
ك
مللجه
خار
امصد
تمني
ا
يروز
شزار
گ
0
0.2
0.4
0.6
0.8
ازتیام
sanction
atomic
CLIR
Query translation
Machinetranslation
Dictionarybased
Comparable Corpora
Parallel Corpora
Documenttranslation
Query & Documenttranslation
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی33
(2)ساخت پرس وجو
در فارسی
پرس وجوی
انگلیسی
اسناد هم تراز شده
فارسی-انگلیسی
(1)
استخراج دانش ترجمه
اصطالحات
اسناد فارسی و انگلیسی
مراحل بازیابی اطالعات بین زبانی
(3)
رتبه بندی اسناد
اسناد فارسی
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی34
پیکره همشهری
-CLEF و CLEF-2008 بازیابی اطالعات بین زبانی
2009
بازیابی اسناد فارسی توسط پرس وجوهای انگلیسی
پرس وجو 85استفاده از
استفاده از پرس وجوهای فارسی برای بازیابی تک زبانی
: رتبه بندی اسناد 3مرحله
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی35
معیارهای ارزیابی سیستم های بازیابی اطالعات بین زبانی
(Prec@5 , Prec@10) سند باال 10 و 5دقت در
(MAP)میانگین متوسط دقت
مقایسه با بازیابی اطالعات تک زبانی
36
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
dyn
e>0
e=0
basic
k
MA
P
00
COCOT
TAN dynamic k
: ارزیابی نتایج آزمایش ها3مرحله
31% Mono
42% Mono
37
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
dyn
e>0
e=0
basic
k
MA
P
00
COCOT
TAN dynamic k
: ارزیابی نتایج آزمایش ها3مرحله
38
مقدمه
ساخت پیکره تطبیقی فارسی-انگلیسی
بازیابی اطالعات بین زبانی با استفاده از پیکره های
تطبیقی
مدل شبکه وابستگی اصطالحات
بررسی صح3ت ترجمه
استخراج ترجمه عبارات
استفاده از واژه نامه
گسترش پرس وجو
INFILE استفاده از پیکره
فهرست مطالب
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی39
z
بررسی صح ت ترجمه
Persian
gulf
Iran
Tehran
Iranian
عراق
صدام
دولت
آمریکا
خلیج
بازرسان
ایران
تهران
ایران
تهران
خاتمی
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی40
بررسی صح ت ترجمه
Persian
gulf
Iran
Tehran
Iranian
عراق
صدام
دولت
آمریکا
خلیج
بازرسان
ایران
تهران
ایران
تهران
خاتمی
TehranKhatami
Iranian
Iran
ایرانی
خاتمی
ایران
خبرگان
تهران
�TehranKhatami
Iranian
Iran
ایرانی
خاتمی
ایران
خبرگان
تهران
41
0.11
0.13
0.15
0.17
0.19
Series1diff k QLM omit
تعداد برون هشته
MA
Pنتایج آزمایش های کشف کلمات برون هشته
حذف برون هشته ها
ترجمه برون هشته ها توسط واژه نامه
45% Mono
42
مقدمه
ساخت پیکره تطبیقی فارسی-انگلیسی
بازیابی اطالعات بین زبانی با استفاده از پیکره های
تطبیقی
مدل شبکه وابستگی اصطالحات
بررسی صح3ت ترجمه
استخراج ترجمه عبارات
استفاده از واژه نامه
گسترش پرس وجو
INFILE استفاده از پیکره
فهرست مطالب
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی43
هر دو کلمه کنار یکدیگر به عنوان یک نگرش اول:
عبارت
استخراج ترجمه عبارات
امتیاز عبارت فارسی عبارت انگیسی
21.46 بازار سهام
stock market19.27 سرمایه گذاران
17.32 ارزش سهام
17.13 تولید ناخالص
… …
26.64 سقوط هواپیمای
plane crash
21.26 سانحه هوایی
15.51هواپیمای مسافربری
12.75 برج مراقبت… …
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی44
نگرش دوم: در نظر گرفتن هم کلمات تکی و هم عبارات
تشخیص عبارات بر اساس اطالعات متقابل
استخراج ترجمه عبارات
امتیاز عبارت فارسی عبارت انگیسی
29.75زلزله
earthquake28.05
زمین لرزه
26.01ریشتر
24.79لرزه
… …
25.19 انتخابات ریاستpresidential
election21.78 ریاست جمهوری… …
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی45
نتایج ارزیابی ترجمه عبارات
نگرش دوم نگرش اول COCOT معیار
0.162 )13.6%( 0.173 )21.4%( 0.13 MAP
0.284 )27%( 0.258 )15.43%( 0.223 Prec@5
0.247 )18.6%( 0.236 )13.3%( 0.205 Prec@10
46
مقدمه
ساخت پیکره تطبیقی فارسی-انگلیسی
بازیابی اطالعات بین زبانی با استفاده از پیکره های
تطبیقی
مدل شبکه وابستگی اصطالحات
بررسی صح3ت ترجمه
استخراج ترجمه عبارات
استفاده از واژه نامه
گسترش پرس وجو
INFILE استفاده از پیکره
فهرست مطالب
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی47
استفاده از پیکره تطبیقی برای کلمات خارج از واژه نامه
( Dic-CC)
واژه نامه به همراه ترجمه های استخراج شده از پیکره
(Dic&CCتطبیقی )
استفاده از واژه نامه
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی48
1 2 3 4 5 6 7 8 9 100.04
0.08
0.12
0.16
0.2
Dic_CC
Dic&CC
CC
Dic
k
MA
Pنتایج استفاده از واژه نامه
52% Mono
49
مقدمه
ساخت پیکره تطبیقی فارسی-انگلیسی
بازیابی اطالعات بین زبانی با استفاده از پیکره های
تطبیقی
مدل شبکه وابستگی اصطالحات
بررسی صح3ت ترجمه
استخراج ترجمه عبارات
استفاده از واژه نامه
گسترش پرس وجو
INFILE استفاده از پیکره
فهرست مطالب
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی50
توسط شبه بازخورد زبان مبدأ گسترش پرس وجو در
ارتباطی
pseudo relevance feedback
بهترین نتایج بدست آمده
Dic&CC CCتک زبان
ی معیار
0.262 )61.8%(
0.194 )45.7%( 0.424 MAP
0.362 )58.6%( 0.298 )48.2%( 0.618 Prec@5
0.37 )61%( 0.28)46.1%( 0.607 Prec@10
51
مقدمه
ساخت پیکره تطبیقی فارسی-انگلیسی
بازیابی اطالعات بین زبانی با استفاده از پیکره های
تطبیقی
مدل شبکه وابستگی اصطالحات
بررسی صح3ت ترجمه
استخراج ترجمه عبارات
استفاده از واژه نامه
گسترش پرس وجو
INFILE استفاده از پیکره
فهرست مطالب
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی52
در ارزیابی سیستم های تصفیه توافقی بین زبانی
مسابقه های
CLEF-2008
CLEF-2009
LREC-2010
بازیابی اسناد انگلیسی توسط پرس وجوهای فارسی
پرس وجو 45استفاده از
INFILEاستفاده از پیکره
53
0.04
0.07
0.1
0.13
0.16
dyn e>0
e=0 basic
k
MA
P
0
نتایج روش های مبنی بر پیکره تطبیقی در پیکره INFILE
0 COCOT
TAN dynamic k
0 3 6 9 12 15 18 21 24 27 30 33 36 390.11
0.13
0.15
0.17
0.19
Dic
Omit Outliers
تعداد برون هشته
MA
P
حذف برون هشته ها
ترجمه برون هشته ها توسط واژه نامه
نتایج شبکه وابستگی
اصطالحات
نتایج کشف برون هشته
نتایج استفاده از واژه نامه
1 2 3 4 5 6 7 8 9 100
0.04
0.08
0.12
0.16
0.2
Dic_CC Dic&CC CC
Dic
k
54
جمع بندی
دستاوردها:
ساخت اولین پیکره تطبیقی بزرگ فارسی-انگلیسی
ارائه روش استخراج ترجمه مبنی بر شبکه وابستگی اصطالحات
بررسی صح ت ترجمه های استخراج شده با استفاده از کشف
برون هشته ها
نتیجه گیری:
ترجمه های استخراج شده از پیکره های تطبیقی روشی مؤثر برای
بازیابی اطالعات بین زبانی
ترجمه کلمات خارج از واژه نامه و استخراج کلمات مرتبط
55
کارهای آتی
بهبود کیفیت پیکره تطبیقی ساخته شده
بر اساس ترجمه های استخراج شده به صورت تکراری
گسترش دامنه پیکره تطبیقی توسط منابعی همانند وب، ویکی پدیا
استفاده از پیکره تطبیقی
برای ترجمه پرس وجوهایی در حوزه ای به غیر از اخبار
به عنوان یک زبان میانی
استفاده از ترکیب ویژگی اسناد به منظور رتبه بندی در بازیابی
اطالعات بین زبانی
استفاده از پیکره های تطبیقی برای بازیابی اطالعات بین زبانی فارسی-انگلیسی56
Homa B. Hashemi, Azadeh Shakery, and Heshaam Faili, “Creating a Persian-English Comparable Corpus”, in proceedings of Conference on Multilingual and Multimodal Information Access Evaluation (CLEF), Padua, Italy, pp. 27-39, 2010.Homa B. Hashemi, Naser Yazdani, Azadeh Shakery, and Mahdi Pakdaman Naeini, “Application of Ensemble Models in Web Ranking”, in proceedings of fifth International Symposium on Telecommunications (IST), Tehran, Iran, 2010.Homa B. Hashemi, and Azadeh Shakery, “Learning translation knowledge from created Persian-English Comparable Corpus for Cross-Language Information Retrieval”, Women in Machine Learning workshop (WiML), Vancouver, Canada, 2010.Homa B. Hashemi, and Azadeh Shakery, “Mining a Persian-English Comparable Corpus for Cross-Language Information Retrieval”, ready to be submitted to Information Processing & Management journal (IPM).
مقاالت ارائه شده
57
با تشکر