79
תתתתת תתתתתתת תתתתתתת236817 תתתת2011 - תתת"ת, תתתת תתתתת תתתתתת תתתתת תתתתתת תת תתתתת תתתתת תתתתתת תתתתתתת תתתתתת תתתתת תתתתתת תתתתת תתתת תתת תתתתת תתתתתת תתתתתת: תתתתתתת תתתת' תתתת תתתתתTowards a Dynamic Linkage of Example-based and Rule-based Machine Translation Michael Carl, Catherine Pease, Leonid L.Iomdin, Oliver Streiter 2001, Kluwer Academic Publishers Netherlands

מציגים: עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

  • Upload
    aislin

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

סמינר בבלשנות חישובית 236 81 7 חורף 2011 תשע"ב, מדעי המחשב - טכניון שילוב דינאמי של מכונת תרגום מבוססת דוגמאות ומכונת תרגום מבוססת חוקים. Towards a Dynamic Linkage of Example-based and Rule-based Machine Translation Michael Carl, Catherine Pease, Leonid L.Iomdin , Oliver Streiter - PowerPoint PPT Presentation

Citation preview

Page 1: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

236817סמינר בבלשנות חישובית

תשע"ב, מדעי המחשב - טכניון2011חורף

שילוב דינאמי של מכונת תרגום מבוססת דוגמאות ומכונת תרגום מבוססת חוקים

סטולרו: ותומר דוד עמרי מציגים

' אורנן עוזי פרופ בהנחיית

Towards a Dynamic Linkage of Example-based and Rule-based Machine Translation

Michael Carl, Catherine Pease, Leonid L.Iomdin, Oliver Streiter2001, Kluwer Academic Publishers Netherlands

Page 2: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מבוא:קיימות שתי גישות מרכזיות למימוש מכונת תרגום

- מכונת תרגום המבוססת על דוגמאות ועל גוף הטקסט

CBMT

,מכונת תרגום המבוססת על מגוון רחב של חוקים: מורפולוגים

RBMTסמנטים וסינטקטיים –

אנו ננסה להביא דגם של מכונה משולבת אשר מנצלת את

הטוב שבשני העולמות, כך שביצועיה יעלו על ביצועי כל

אחת מהמכונות בנפרד.

3

Page 3: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

תזכורת:

)מכונת תרגום מבוססת דוגמאות )קורפוס

CBMT

מכונת תרגום מבוססת חוקיםRBMT

המכונות מבטאות הבדלים בין שתי גישות שונות

לתרגום מידע לשוני: גישה אינדוקטיבית מול גישה

דדוקטיבית.4

Page 4: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CBMT מכונת תרגום מבוססת – קורפוס

מאפיינים: מערכת אינדוקטיבית – הסקת הכללים

מהדוגמאות, מזיכרון התרגום וניתוח הטקסט על פיהם.

מבוססת על טיוטת התרגום בשפת המקורובשפת היעד

– קבלת ההחלטות מבוססת מידע סטטיסטי ככל שקיים מאגר גדול יותר של תרגומים כך

"איכות" התרגום עולה, כלומר הקורא יוכל להבין את המשמעות של הטקסט המתורגם

בצורה טובה יותר.

.תלויה בגודל הזיכרון המוקצה למכונה

5

Page 5: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

RBMT מכונת תרגום מבוססת – חוקים

מאפיינים:חוקים מורפולוגיים

מערכת דדוקטיבית – מערכת ש"למדה" כלליוחוקי דקדוק על מנת להתמודד עם ניתוח ותרגום

המשפטים

מבוססת על כללי התחביר

מילונים לקסיקוגרפיים בשפת המקור ובשפתהיעד

גמישה מבחינת "כיסוי", כלומר תומכת במגווןרחב של נושאים

6

Page 6: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

למה נרצה מכונה משולבת?

לכל אחת משיטות התרגום שהוצגו קיימים חסרונות

שונים:

איכות התרגום

ביצועי מע' התרגום - מהירות העבודה, דיוק התרגום

וכד'

גמישות והסתגלות המערכת לטקסטים בנושאים

מגוונים

המטרה:

ניצול היתרונות של כל אחת מהמערכות כדי להציג

שיפור בביצועים שיעלה על יכולותיה של כל מכונה

בנפרד.

7

Page 7: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

למה נרצה מכונה משולבת?

דוגמא לחסרונות של הגישות,

)תתקשה מכונת תרגום עם זיכרון )קורפוס

בתרגום נכון של משפט חדש לחלוטין או של

.טקסט חדש

( מכונת תרגום מבוססת חוקיםRBMT אינה )

לא תוכל לשמור תוצאות תרגום "מכונה לומדת",

.ולהסיק מהן על תרגומים עתידיים 8

Page 8: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מוטיבציה למכונה משולבת

טקסט המכיל נושאים מגוונים יתורגם באופן

מהימן למקור בעזרת מכונה מבוססת חוקים

בצורה טובה יותר מאשר במכונה המבוססת על

דוגמאות ולהיפך.

חשוב להדגיש שגם כאשר מדובר במערכת

מבוססת דוגמאות, יש שימוש בכללים על מנת

לנתח את הדוגמאות ולהזין את התבניות

למערכת.

9

Page 9: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום

איכות התרגום

כיסוי

( התאמה בין הטקסטיםRecall )

גודל יחידות התרגום

הסתגלות/גמישות

10

Page 10: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – איכות התרגום

– קיימת חלוקה לחמש רמות

)מידע כללי על מתווה הטקסט.אינדיקטיבי )מרמז –

מאפשר לקורא להבין באופן כללי את אינפורמטיבי –

תוכן המסמך.

כל פיסת טקסט מתורגמת באופן נכון מבחינת מילולי -

התבנית הדקדוקית

מסמך היעד ערוך נכון מבחינה רעיונית מהימן –

ומבחינת הסגנון

הרמה הגבוהה ביותר. תרגום נכון מוכוון משתמש –

מנקודת המבט של הקורא והשקפת עולמו.

11

Page 11: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – איכות התרגום

:اليوم דוגמא مدار على (ُح'وم' َت طيار بدون أمريكية طائرات ثالث هناك

قريتنا سماء في

ם שלוש מטוסים אמריקאית בלא טייס תרחף על ציר היום בתוך שמיים א-  ָׁש'שלנוכפר

כפרנו )מבנה זה נמצא במקור ומצוי גם בעברית. בסוף מתאים לכתוב הכפר שלנו(

יש שלוש מטוסים אמריקאית ללא טייס תרחף על משך היום בשמיים כפר שלנוב-

יש שלושה מטוסים אמריקאים ללא טייס שמרחפים במשך כל היום בשמיים של ג-הכפר שלנו.

יש שלושה מטוסים אמריקאים ללא טייס שחגים במשך כל היום בשמי כפרינו.ד-

יש שלושה אפאצ'ים אמריקאים ללא טייס שחגים במשך כל היום בשמי כפרינו. ה-

12

Page 12: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – פרמטרים נוספים

התאמה(recall ) נכונות התרגום של כל יחידת טקסט בשפת –

המקור ביחס ליחידת הטקסט בשפת היעד. הנכונות מתייחסת

למושגים כמו, מין, מספר, זמנים וכו'...

ערך ההתאמה גדל כתלות ביכולת המכונה לחלק את הטקסט

ליחידות תרגום.

أمريكية طائرات

"כביכול היינו אמורים לתרגם את הביטוי הנ"ל כ- "מטוסים אמריקאית

"עבור התאמה טובה, עלינו לתרגם את הביטוי כ- "מטוסים אמריקאים

13

Page 13: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – פרמטרים נוספים

ככל שאורך היחידות שיתורגמו נכונה גודל יחידות התרגום –

יגדל, כך המכונה תשיג איכות תרגום גבוהה יותר. אורך

ואף מהימן למילולייחידות התרגום אף יכול להפוך תרגום

.מוכוון משתמשל

לשתי יחידות שונות, יתקבל اليوم مدارאם נפריד את הביטוי

תרגום שגוי –

בשמי הכפר שלנוציר היום חגים על

:עבור תרגום נכון, על המילים להופיע באותה יחידת תרגום

בשמי הכפר שלנובמשך היוםחגים

14

مدار على (ُح'وم' سماء َت في اليوم

قريتنا

سماء في اليوم

قريتنا

Page 14: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – כיסוי

השאיפה של כל מכונת תרגום היא לתרגם בצורה

הטובה ביותר כל טקסט שיינתן לה. עם זאת, תחומי

עניין שונים מאופיינים במילים וביטויים ייחודיים.

כיסוי רחב יאפשר למכונת התרגום לעבד בצורה

מקיפה מגוון טקסטים גדול ואילו כיסוי מצומצם יגביל

את מרחב התרגום האפשרי של המכונה.

RBMT כיסוי גבוה, כל טקסט מתורגם עפ"י סדרת –

כללים

CBMT כיסוי נמוך, רק עפ"י הדוגמאות שהוזנו –

למערכת.

15

Page 15: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – כיסוי נמוך

16

עבור מזג אוויר אין צורך בכיסוי גבוה, מפני שהביטויים קבועים וידועים מראש

Page 16: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – כיסוי גבוה

17

השונות של הטקסט גדולה, תרגום אוטומטי יתקשה להשיג אפילו איכות סבירה

Page 17: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – פרמטרים נוספים

הסתגלות–

היא תרגום מילולידרישה בסיסית מתרגום באיכות של

ארגון נכון של יחידות הטקסט והתאמתן לשפת המטרה.

ככל ששפת המקור תהיה יותר עשירה, כך יהיה קשה

יותר למכונת התרגום להתאים את המבנה של הטקסט

לכזה שיתאים לשפת היעד.

– ההסתגלות נמצאת ביחס ישר לגודל יחידות התרגום

ככל שיחידות התרגום ארוכות יותר כך קשה יותר

לתרגמן בצורה תקינה.

18

Page 18: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מאפיינים של מכונות תרגום – פרמטרים נוספים

,דוגמא

Die Brille ist billiger in Russland

The eyeglasses is cheaper in Russia

( נשים לב שאחוז ההתאמהrecall הוא )100%:

כל יחידת טקסט מתורגמת באופן תקין לשפת היעד.

חלוקת יחידות התרגום באופן שונה עשויה הייתה להניב תרגום

יותר מהימן, מכיוון שהיחס בין "משקפיים" ל"זולות" היה ברור:

The eyeglasses are cheaper 19

Page 19: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום

עקב החסרונות של כל אחת מהגישות, הגיע הרעיון למזג

מספר תפיסות למכונת תרגום משולבת.

לכל רכיב משאבים ומבני נתונים משל עצמו שילוב חלש –

שאינם משותפים עם שאר מרכיבי המערכת. התרגום

מבוצע על ידי מנשק שמוגדר היטב – פלט של רכיב אחד

הוא הקלט של הרכיב הבא.

מבני הנתונים משותפים לכל המרכיבים. שילוב חזק –

יתכנו שינויים למבני הנתונים שישפיעו על תוצאות התרגום

של מספר מרכיבים שונים.

20

חלש שילוב מול חזק שילוב

Page 20: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום - המחשה

21

..…שילוב חלש

שילוב חזק

Page 21: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום – דוגמאות מחקריות

צירוף מילים בעל משמעות מיוחדת, שונה מזו אידיום –

המתקבלת באופן מילולי מכל אחת מהמילים המרכיבות

אותו בנפרד.

קפה + טורקי / נס / הפוך / שחור

כאשר מכונת התרגום תיתקל במילה "קפה", היא תוכל לפרשה

ה או ה, ק-פ' פ. ה. המכונה תיעזר במילה הבאה שתופיע על כק' ָּפ& ק)

מנת להכריע בין הצירופים האפשריים.

הוכח שתרגום מבוסס חוקים המועשר במערכת סטטיסטית

יכול לטפל בצורה טובה במקרים של צירופים מסוג זה.

נעשו מספר ניסיונות לנצל את התכונה כדי להשיג תרגום

איכותי.

22

Page 22: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום – מחקריםשילוב חזק

יינר ובוילון תיארו שימוש במידע סטטיסטי 95בשנת ר1

במהלך הפעלת מכונת תרגום מבוססת חוקים. המידע

הסטטיסטי נאסף באופן ידני על ידי דירוג התרגומים

השונים שהציעה המערכת.

מאחר שכל המסמכים עסקו בתחום עניין מצומצם, ניתן

היה לטפל בשגיאות טיפוסיות שנעשו על ידי המערכת.

הכיסויבאה על חשבון איכות התרגום הגבוהה במקרה זה.

מכיוון שלכל חוק נקבעה רמת התאמה שילוב חזקזהו ,

סטטיסטית לנושא הטקסט

23

Page 23: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום – מחקריםשילוב חזק

איסוף סטטיסטי ידני יאפשר

להגדיר עדיפות גבוהה למילה

ה פ. כאשר מופיעים אחריה ביטויים ק'

מתאימים.

באותו אופן ניתן להגדיר עדיפות

ב, כאשר יש צורך בכך. ל& למילה ח&

24

מתוך תפריט "קפה הלל"

Page 24: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום – מחקריםשילוב חזק

סטרייטר 99דוגמה נוספת לשילוב חזק הביאו בשנת

ועמיתיו.

הם אספו מידע על תדירויות מילים בטקסטים וסיווגו את המילים

לפי תחומן. את המילים הללו הוסיפו למילון מכונת התרגום

מבוססת החוקים, כך שהתרגומים הנפוצים קיבלו עדיפות גבוהה.

.איכות התרגום ירדה, אך כיסוי גבוהבאופן זה הושג

בחירה לפי סטטיסטיקה לא תמיד נכונה או מתאימה לתחום.25

Page 25: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום – מחקריםשילוב חלש

-שלוש מ"ת 94במערכת שהוצגה על ידי פרדריק ונירנבורג ב ,

בלתי תלויות הורצו במקביל כשכל אחת מהן מתרגמת חלקים

של טקסט המקור.

( אסף את chart-walkאלגוריתם בשם "הליכה על טבלה" )

התרגומים ובכל פעם בחר מבין המרכיבים המתורגמים את אלה

שהתאימו בצורה הטובה ביותר לבניית משפט בשפת היעד.

האלגוריתם בעצם הרכיב את המשפטים בשפת היעד מחלקי

התרגום הטובים ביותר שמצא בפלט של שלוש מכונות התרגום.

מכיוון שכל אחת מהמכונות עבדה בנפרד עם שילוב חלשזהו

הנתונים שלה

26

Page 26: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום – מחקריםשילוב חלש

אנשים נהגו לצוד את האוכל שלהםקדםבימי

27

In the eastern days…

In the ancient times…

In the greeting days…

In the ancient times people used to hunt their food

Page 27: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

שילוב הגישות למכונות התרגום – מחקריםשילוב חלש

יין אינטגרציה בין שתי מערכות - הראשונה 96בשנת תיאר ה.

( והשנייה מכונה מבוססת TRADOS)מבוססת על זיכרון דוגמאות

(.LOGOSחוקים )

במקרים בהם מכונת התרגוםTRADOS לא מצאה במילוניה התאמה

לתבניות המוכרות לה, הועבר המשפט לתרגום רגיל על ידי מכונת

.LOGOSהתרגום מבוססת הכללים

בסופו של התהליך המשתמש קיבל הודעה איזו מהמערכות תרגמה

את המסמך, מכיוון שאיכות התרגומים של לוגוס צפויה להיות פחות

אמינה.

28

Page 28: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

ETAP-3 ,שפותחה עבור תרגום מבוססת חוקיםמערכת תוכנתית גדולה ,

באיכות גבוהה. המערכת מבוססת על הקשר משמעות טקסט, זוהי תאוריה

לשונית שעושה שימוש בעצי תלויות עבור הייצוג והמבנה הסינטקטי.

השימוש העיקרי היה לתרגום דו-כיווני בין רוסית לאנגלית ושימשבעיקר בטקסטים מדעיים וטכניים של מדעי המחשב, הנדסת

חשמל והנדסת חומרים

-לETAP-3 פותחו גרסאות ניסוי צרפתית-רוסית, רוסית-קוריאנית וגרמנית-רוסית.

בנוסף, קיים מודול שממיר מאנגלית או רוסית לשפת הרשת הבינלאומיתUNL.

( המבוססת אנגלית.Interlinguaזוהי היא שפת ביניים )פותחה במטרה לאפשר למשתמשי האינטרנט תרגום חצי אוטומטי של

שפות. משפטי המסמך מתורגמים אחד אחרי השני, בעזרת שימוש בכללים

המוטמעים http://cl.iitp.ru/etap בלקסיקונים השונים.

29

Page 29: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

ETAP-3

30

משפט מקור

משפט יעד

Page 30: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

ETAP-3 - MORPHS

31

Wishes father thoughts

. ]הוא[ מייחל למחשבות האב1

בשורה השנייה בטבלה אין מחשבות? . משאלות מולידות מחשבות 2)או להפנות לשקף הבא(

רבים ש"

ע

Thought   רבים ע" ש Father1   IIIגוף יחיד פועל Wish1

        נ" זו פועל Father2     רבי

ם

ע" ש Wish2

Page 31: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

ETAP-3 - SYNTHS

32

Wishes father thoughts

Пожелания порождают мысли.Father העץ בראש ומופיע הפרדיקט גרעין הינו במערכת ביותר החשוב הרכיב הוא התלויות ככל, ETAP-3עץ

ממנו לגזור נוכל כך יותר נכונה המקור לשפת שההתאמהיותר תקין מבנה הבא בשלב

. היעד בשפת

רבים ש"

ע

Thought   רבים ע" ש Father1   IIIגוף יחיד פועל Wish1

        נ" זו פועל Father2     רבי

ם

ע" ש Wish2

Page 32: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

ETAP-3 - SYNTHS

33

Wishes father thoughts

Пожелания порождают мысли.: השנייה באפשרות בחרה התרגום שמכונת לב נשים

father הוא הנשוא )פועל(, כאשר Wishes.מהווה את הנושא -ככל הנראה נבחרה האפשרות השנייה, על ידי הParser מכיוון ,

שבאנגלית קיימים כללים נוקשים, לפיהם בדרך כלל המשפט מתחיל

בנושא.

רבים ש"

ע

Thought   רבים ע" ש Father1   IIIגוף יחיד פועל Wish1

        נ" זו פועל Father2     רבי

ם

ע" ש Wish2

Page 33: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

ETAP-3מרכיבים נוספים – .מרכיב חשוב נוסף במערכת הינו מזהה הביטויים האינטראקטיבי

זוהי מערכת חצי אוטומטית, מכיוון שהיא מחייבת אינטראקציה עםמשתמש אנושי.

למילון המערכת:ביטויים-רעיוניים משמש להוספת

פרשת-דרכים, קיבוץ גלויות, פיצוץ אוכלוסין.

.במידה ומזוהה ביטוי כזה, נבנים עבורו עצים בשפת המקור ובשפת היעד בשלב הבא, המערכת יוצרת עבור כל עץ את המשפט המתאים ומציגה

למפעיל האנושי את התוצאות. במידה והמפעיל אישר את התרגום, המערכת מחפשת האם קיימת

תבנית תרגום מתאימה במערכת הכללים הדו-לשוניים ומקשרת אליה את הביטוי או יוצרת תבנית חדשה.

אם המפעיל אינו מרוצה, מוצגים תרגומים נוספים עד אשר המפעילמרוצה מהתוצאה.

במקרים נדירים, יאלץ המפעיל להזין בעצמו את התרגום הנכון ולהוסיףאותו ידנית למערכת הכללים.

34

Page 34: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2

.מערכת תרגום מבוססת חוקים

מכניזם שפותח עבור מספר שפות, ביניהן אנגלית, צרפתית

וגרמנית, וניתן היה לתרגם בעזרתו מגוון נושאים.

נעשה שימוש ב CAT2 בפרויקט שפת הרשת הבינלאומית - UNL .

.UNLעבור התרגום מגרמנית ל-

35

Page 35: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא - נרצה לתרגם את המשפט:

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

בתרגום חופשי הפירוש הוא:

THE LINGUIST HAS BY THE WORK BIG FEAR OF AMBIGUOUS MORPHEMES

חששו הגדול ביותר של הבלשן במהלך עבודתו הוא מורפמות רב-משמעיות.

36

Page 36: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא - שלב הניתוח המורפולוגישלב א' –

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

37

Der

d_artלקסמה: קטגוריה: יידוע

מין: נקבהיחיד/רבים: יחיד

יחסה: מושא עקיף/ שייכות

מין: זכריחיד/רבים: יחיד

יחסה: נושא/נשוא

יחיד/רבים: רביםיחסה: שייכות

Page 37: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא - שלב א' – שלב הניתוח המורפולוגי

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

38

Sprachwissenschaftler

Sprachwissenschaftlerלקסמה: קטגוריה: ש"ע

מין: זכריחיד/רבים: יחיד

יחסה: נושא-נשוא / מושא ישיר

מין: זכריחיד/רבים: רבים

יחסה: נושא-נשוא/ מושא ישיר / שייכות

Page 38: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא - שלב א' – שלב הניתוח המורפולוגי

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

39

hat

haben לקסמה: קטגוריה: פועל

יחיד/רבים: רביםכינוי סתמי

זמן: הווהFIV=familiar irregular verb

Page 39: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא -

ניתוח סינטקטי וסמנטי שלב ב' – בסיום הייצוג המורפולוגי מבוצע מוגדרות פונקציות סינטקטיות: נושא, מושא ישיר ועקיף, לוואים

ועוד. ,בנוסף מופעלים כללים סמנטיים הקשורים ל-נושא המשפט

המבצע והמטרה.

)חששו הגדול ביותר של הבלשן במהלך עבודתו הוא מורפמות למשל בדוגמא: רב-משמעיות.(

משמש כנושא הפועל. Angst (fear): הפחד הנושא

שמשמש כגרעין הפרדיקטhat (have): הוא מקושר עם הפועל הנשוא

Sprachwissenschaftler (the הוא הבלשן ה-מי שחש את הפחדlinguist)

ununterscheidbaren Morphemen ? המורפמות למה הפחד(indistinguishable morphemes) .הן מקור הפחד

40

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

Page 40: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא -

41

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

s = subjectg = goal

t = themef = function

wordpred = predicate

Page 41: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא -

42

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

בשלב הבא מוסרות מהעץ מילים שהשפעתן על תרגום המשפט מועטה או מילים שעשויות להתפרש כדו משמעיות.

למשל מילות יחס, שמות תואר ועוד.

לאחר מכן, מסירים כינוי גוף ואוגדים )מילים הקושרות בין הנושא לנשוא כמוהיה, היתה, נעשה וכו'( ובמקומם מוכנסות מילים שמתארות את מבנה הארגומנט.

Page 42: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא -

43

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

למעשה נקבל את "עץ המנשק" :

Page 43: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא -

44

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

כעת מבוצעת המרה לשפת היעד עבור העלים של "עץ המנשק" :

n = notion l = lemma

Page 44: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא -

45

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

לאחר תרגום המילים נקבל את העץ הבא:s = subject

g = goalt = theme

mod = modifier

n = nounv = verb

d = direct object a = adjective

ununterscheidbaren

Page 45: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא -

46

Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen.

לפי היעד בשפת והאוגדים העזר פעלי למשפט מוכנסים לבסוף. הלקסיקלי המפרט

האוגד מוכנס beלמשל היעד שפת של הנכון בסדר מאורגנות המילים) ( , קודם שראינו מה כמו שלילה למשל אחרונים תיקונים מוכנסים

Page 46: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT-2דוגמא - The linguist is very much afraid of morphemes that are not distinguishable during the operation

47

Page 47: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

EDGAR.מערכת תרגום מבוססת דוגמאות .מבוססת על דוגמאות תרגום של ניתוחים מורפולוגים:שיטת הפעולה המרכזית

.פירוק והכללת מבנה משפט המקור באמצעות השוואה לתבניות ידועות דוגמאות המוכלות אחת בשנייה מועברות למבנה כללי תוך כדי שמירת

מאפייני התבנית. התאמת חלקי המשפט לשפת היעד

48

Page 48: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

EDGAR

המשתנה הגנרי יקבל שמות עצם המתאימים למגבלות כלומר ש"ע היוצר צירוף שמני, למשל,skiהחלות על המילה

Station de sport Station de taxi Station de métro

,במקרה שלא תהיה התאמה מושלמת בין הדוגמה לטקסט היעדיתכנו גם תרגומים שגויים:

Station de terre Ground station49

NOUNx

Sport stationTaxi stationMetro station

Page 49: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

EDGARדוגמה –

. נניח שקיימים הכללים והתבנית:נרצה לתרגם את המשפט הבא לגרמנית

.הפרדת המשפט ליחידות תרגום על בסיס הדוגמאות הנתונות:החלפת חלקי המשפט במשתנים הכלליים המתאימים

המשפט שהתקבל מתאים לתבנית שקיימת במאגר, לכן נכליל אותו למשתנה יחיד:

50

3 4,E E5E

The small boy

eatsa green apple.

Der kleine Junge

  einen grünen Apfel

 

 

 

Page 50: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום

אחד החסרונות העיקריים של מערכתETAP-3 המבוססת על חוקים הוא החוסר בזיכרון תרגום.

המערכת בונה לכל משפט את עץ התלויות, אך לא יכולה לדעת האםהמשפט כבר הוצג לה פעם או שזהו משפט חדש.

חיסרון זה בא לידי ביטוי כאשר הטקסט מכיל מילים בשפה חופשית אוסלנג –

תיתכן דו-משמעות, כך שיחידת התרגום אמורה לקבל משמעות שונה בהקשרים שונים של טקסט, אך בהיעדר זיכרון יהיה צורך ליצור מספר

עצים שונים ולתרגמם:

כאשר מסתכלים לאחר מכן על הטקסט המתורגם בהקשר המלאיתכנו סתירות בתרגום הראשוני.

51

שיח" מרתק"

?

Page 51: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום

ניתן להוסיף לETAP-3 מנגנון שייתן עדיפות לצירופי המילים הנפוצים המופיעים במילון וכך ניתן יהיה לבנות עבורם עץ תלויות תקין.

52

"שיח מרתק"

?

Page 52: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום

עם זאת, הבעיה לא נפתרת במלואה ועדיין יתכנו אי-דיוקים עקברב-משמעויות.

:נביט במשפטshelf life expiry date זה צירוף שמני, לא משפט

להיתקל במשפט בסגנון זה במהלך תרגום של סבירות גבוההקיימת טקסט בנושא ניהול משק בית, אחסון וכו'.

שכל המשפט ישמר במילון של מכונה כלשהי –סבירות נמוכהקיימת המשפט מורכב מדי, ארוך מדי, מכוון לנושא ספציפי וכד'.

,עם זאתexpiry date -ו shelf life הם ביטויים נפוצים ביותר והגיוני שישמרו במילון הביטויים של מערכת התרגום.

המשפט הנ"ל, שמורכב מכמה צירופי מילים, יכול לעבור ניתוח במספראופנים

שונים ולקבל מספר משמעויות שונות. כלומר יתקבלו מספר עצים שונים.

53

Page 53: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום

compos מסמל הרכב של מילים, שבכתיבתן יחד מקבלות משמעות שונה, כמו

...doghouse בית ספר, צווארון לבן, 54

Page 54: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום

מכיוון שהביטוייםshelf life -ו expiry date שמורים במילון הביטויים, העץ שיבחר בעדיפות הגבוהה ביותר הוא:

:אולם מכיוון שבתרגום ישיר נקבל

Shelf life срок хранени (duration of storage)Expiry date срок годности (duration of validity)

:התרגום הסופי יהיהсрок годности срок хранени The duration of validity of the duration of

storage

ברור שזה איננו תרגום תקין – קיבלנו בעצם משפט אחד שמורכב משני

משפטים נרדפים.

55

Page 55: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום

הדוגמה שהוצגה בשקפים הקודמים מראה את אחד החסרונותהעיקריים של מכונות התרגום מבוססות החוקים וחסרות הזיכרון

– התמודדות עם דו-משמעויות.

כדי לנסות ולהתגבר על הבעיה, ניתן להציע מודל המשולב עם זיכרוןתרגום שיעבוד באופן הבא:

ניתן לבצע זאת בעזרת מזהה בלבדלכל דוגמה שתופיע בזיכרון ישויך עץ אחד ,הביטויים האינטראקטיבי שהוצג בשקפים הקודמים )הכנסת הביטוי וקישורו

לעץ(. ,במידה שהתקבלה יחידת תרגום בשפת היעד המתאימה לדוגמה מהזיכרון

יטען תחילה העץ השמור. בנוסף, עדיין לפני בניית העץ החדש, מוחלים כל הקשרים וההגבלות

המתאימים לדוגמה. לבסוף, נאכפים כל החוקים שנובעים מהדוגמה, כולל חוקים המונעים ממילים

מסוימות להכיל בנים בעץ התלויות.

56

Page 56: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום

:נבחן שוב את הדוגמה הקודמת, בהקשר של משפט שלם

Products with shelf life expiry date close to present must be withdrawn at once

מתקיים חיפוש בזיכרון התרגום, נמצאת הדוגמה הקודמת –1.shelf life expiry date ונטען העץ המתאים לה )אחד

מהעצים שהוצגו(.

ונשלח לבניית ETAP-3המשפט מנותח מורפולוגית על ידי 2.העצים המתאימים.

כל הקשרים שלא מתאימים לעץ מהדוגמה נמחקים.3.כמו כן, נמחקות המילים הזהות בכתיב או בהיגוי שמשמעותן

date(, למשל homonymsשונה ממשפט הדוגמה )

57

Page 57: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום

Products with shelf life expiry date close to present must be withdrawn at once

לאחר החלת כל ההגבלות נמשכת בניית העץ.4.

המילים והביטויים המתאימים לדוגמה מוחלפים, על ידי זיכרון 5.התרגום, במילים ובביטויים המקבילים בשפת היעד ומתוייגים

בהתאם:

Products with minimal’nyj srok godnosti close to present date must be withdrawn at once

לבסוף, תהליך התרגום ממשיך כרגיל באמצעות החוקים של 6.המכונה, עד אשר מסתיים התרגום של המשפט:

Продукты с минимальный срок годности срок приближается к концу должны быть изъяты немедленно

58

מילת יחסלוואי

Page 58: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

עם זיכרון ETAP-3שילוב מערכת תרגום -

סיכום על מנת שנוכל לנצל כראוי את השילוב, על זיכרון התרגום להכיל

מספיק דוגמאות ומידע מילולי, כך שיספק מידע אמין ונכון למערכת החוקים.

:שתי המערכות פועלות בשיתוף פעולה( המערכת מבוססת החוקיםETAP-3 מביאה את היתרונות שלה – כיסוי )

לפחותואיכות תרגום מילוליתגבוה, התאמה טובה עבור יחידות תרגום .זיכרון התרגום משפר את איכות התרגומים של המערכת

,)מכיוון ששתי המערכות עובדות עם מבני נתונים זהים )עצי התלויותהמערכת מבוססת החוקים יכולה לקבל מבנים מהזיכרון ולנהל אותם.

כמו כן, זיכרון התרגום הוא שמכתיב את כללי התרגום עבור נתונים לוקחת פיקוד ומספקת בעזרת ETAP-3המתאימים למאגר שלו, אחרת

מערכת החוקים שלה תרגום שמבטיח התאמה וכיסוי גבוהים.

59

Page 59: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

-CAT2מכונת תרגום משולבת - EDGAR

קישור מכונת התרגום המבוססת חוקיםCAT2 למבוססת EDGARהדוגמאות

ב-בשפת המקור לאחר שלב הניתוח המורפולוגיCAT2 מבוצע שימוש .CAT2 ואז חוזרים לשלב הניתוח הסינטקטי של EDGARב-

ב-שפת היעד לאחר שלב היצירה הסינטקטית שלCAT2 ולפני שלב . EDGARהיצירה של המבנה המורפולוגי יש שימוש נוסף ב-

מכונת התרגוםEDGAR משמשת כמתרגם רב לשוני ובעל ביטויים עבור CAT2 בעוד , CAT2-נותן תרגום של מבנים לשוניים ש EDGAR לא יכול

להתמודד עמם.

לאור העובדה שמכונת התרגוםEDGAR פשוטה ומבוססת דוגמאות קל לעבוד איתה ולהרחיב אותה למגוון תחומים.

CAT2 מתמקדת בכללים סמנטיים שיוצרים את השפה ולכן נותנים "כיסוי" גבוה.

60

Page 60: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

-CAT2מכונת תרגום משולבת - EDGAR

קישור מכונת התרגום המבוססת חוקיםCAT2 למבוססת EDGARהדוגמאות

כאשר מכונת התרגום EDGAR לא מצליחה למצוא תרגום מתאים תרגום שיוצרת CAT2בעזרת דוגמאות, עושים שימוש במכונת התרגום

.מילולי

אם הבלשן מעוניין בתרגום אחר )שאינו מילולי( הוא יכול להוסיף דוגמא

מתאימה לתרגום עבור מקרה הבסיס.

:דוגמא

אם היוזר יעדיף את התרגום השני יהיה עליו להכניס את הפירוש למקרה שאין צורך להוסיף מידע סמנטי EDGARהבסיס של מכונת הדוגמאות

כלשהו.61

Page 61: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

-CAT2מכונת תרגום משולבת - EDGAR

EDGAR משווה בין הקלט המנותח מורפולוגית עם מקרה הבסיס יש שלוש EDGARשל הדוגמא שנמצאת במאגר המכונה. בפני

תוצאות אפשריות:

למשפט הקלט והדוגמא יש התאמה טובה בין המילים )למשל 1.במקרה זה אין צורך להשתמש במכונת התאמה מלאה(.

.CAT2התרגום

אין התאמה בין משפט הקלט והדוגמא. 2. .CAT2לפיכך קלט המקור מועבר למכונת התרגום

חלק ממשפט הקלט מתאים לתבנית הדוגמא. 3.במקרה זה גם החלקים שהיו תואמים וגם יתר

. בתהליך יצירת המשפט בשפת היעד יש CAT2המשפט נשלח ל- עבור התרגום הנכון.EDGARשימוש מחדש ב-

62

Page 62: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - : נתרגם את המשפטים הבאים מאנגלית לגרמנית

The old man is selling the secretary of state’s car

The old men sell cars

The old Woman is waiting for the old man

The man puts the book on the table

Day after Day the man buys a Washington Post

The man reads the Washington Post every day

63

Page 63: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - תרגום המשפטים בעזרתCAT2:בלבד

The old man is selling the secretary of state’s car

Der alte Mann verkauft das Auto des Ministers des Zustandesהאיש הזקן מכר את הרכב של שר המצב

The old men sell carsDer alte Mann verkauft Autosהאיש הזקן מוכר מכוניות

The old Woman is waiting for the old manDie alte Frau wartet auf den alten Mannהאישה המבוגרת מחכה לאיש הזקן

64

Page 64: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - תרגום המשפטים בעזרתCAT2:בלבד

The man puts the book on the tableDer Mann stellt das Buch auf den Tisch.האיש העמיד את הספרים על השולחן

Day after Day the man buys a Washington PostDay after day der Mann kauft eine Post von Washingtonיום אחרי יום האיש קונה דואר של וושינגטון

The man reads the Washington Post every day Der Mann ließt jeden Tag die Post von Washington.האדם קורא בכל יום את הדואר של וושינגטון

65

Page 65: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - תרגום המשפטים בעזרתEDGAR:בלבד

מידע חלקי שמתייחס לטקסט ועל פיו היא מבצעת את EDGARלמכונת התרגום התרגום :

66

Page 66: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - תרגום המשפטים בעזרתEDGAR:בלבד

The old man is selling the secretary of state’s car

Der alte Mann is selling der Staatsminister car

The old men sell carsDie alten Männer sell cars.

The old Woman is waiting for the old manDie alte Frau is waiting für den alten Mann.

67

Page 67: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - תרגום המשפטים בעזרתEDGAR:בלבד

The man puts the book on the tableDer Mann put the book auf dem Tisch

Day after Day the man buys a Washington PostTag für Tag der Mann buys eine Washington Post

The man reads the Washington Post every day Der Mann liest jeden Tag die Washington Post..

68

Page 68: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - תרגום המשפטים בעזרת מכונה משולבתEDGAR-CAT2:

חלק מהיחידות מזוהות ומתורגמות על ידי EDGAR ויתר היחידות .CAT2מתורגמות על ידי

ביטויים שיסומנו באותיות קטנות יתורגמו על ידיEDGAR. ביטויים שיסומנו בפונט רגיל יתורגמו על ידיCAT2.

:סימונים C - Chunking G - Generalization T - Translation G - Refinement

69

Page 69: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - 1משפט:

והיא שיוצרת את EDGAR ב-E5מתאימה לתבנית The old manהיחידה

מזוהה בשני צעדים עוקבים של היצירה: the secretary of state’s היחידה

ויוצרת EDGAR של E8מזוהה על ידי תבנית secretary of state’s א. בחלק הראשון את

.

. E4g ב. בחלק השני היחידה מתאים לתבנית של

להמשך CAT2 מאחר ואין יותר התאמות התוצאה מועברת כעת למכונת התרגום התרגום:

המערכת מזהה את הנושא של המשפט ומבטלת את דו המשמעות במשפט. היא יתפקד yקובעת ש-

כלוואי במשפט ויהפוך להיות ככינוי קניין בתרגום לגרמנית.

בנוסף יש זיהוי של הזמן ותרגום נכון לפי השפה הגרמנית.

עבור עבודה על החלקים שהמכונה זיהתה. EDGAR תוצאה זו מועברת שוב ל

70

Page 70: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - 2משפט:

מבחינה לקסיקלית ))הבדל בין יחיד E5מתאימה לתבנית The old manכאן היחידה לרבים( וגם לתבנית

תוך כדי שהוא שם דגש למאפיינים מורפולוגים. לכן שתי הדוגמאות משמשות עבור E7 של EDGAR.

ומכתיבה את המקרה הנומינלי G מתרגמת את יתר הפריטים שבשלב CAT2 המכונה בבחירה שהתלבטנו בה

קודם.

משלבת את החלק המורפולוגי והלקסיקלי של תרגום היעד ומעדכנת גם את EDGAR כעת החלק שהוכתב

מקודם להיות נומינלי.

71

Page 71: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - 3משפט:

המאפיינים . The old manנמצאת דומה לתבנית The old womanהיחידה המורפולוגים תואמים

.E7 והמאפיינים הלקסיקלים מתאימים לתבנית E5 לתבנית התרגום

והיא מפיקה את המשתנה E5מתאים לדוגמא The old man ראשית, הביטוי

.E6g שנית, נבחין כי היחידה מתאימה גם לתרגום התבנית

למעשה יש שני זוגות של משתנים אופציונלים. בשלב זה נעביר את המשפט עם המשתנים .CAT2ל-

ומזהה שהמשתנה is waiting מתרגמת את הביטוי CAT2 המכונה

( של המשפט מבחינה סמנטית לפי העובדה שהוא בעל קשר theme צריך לתפקד כנושא ). waitערכי ל-

.auf בנוסף יש להוסיף למשפט גם את מילת היחס בגרמנית

לפי auf תוסיף את ה-EDGAR ( בשפת היעד R כאשר מבצעים את שלב העידון ) המידע שגילתה

.CAT2 בעזרת המכונה

72

Page 72: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

CAT2-EDGARדוגמא - 4משפט:

manהופכת להיות משתנה אחד בהתאם לשני שלבי עיבוד: הראשון The manהיחידה מבוססת על משפט

להתאים את יתר התבנית .E4g ואז משתמשים בתבנית E1 הדוגמא

.on the table מתאימה ליחידה E9 התבנית

( Direction מקבל תפקיד סמנטי של כיוון )y. המשתנה CAT2כעת מתבצע תרגום בעזרת

וניתן לדעת כי המשמעות של המשתנה הוא מושא auf ולכן יש להוסיף את מילת היחס (ACC.)

.EDGARכעת מתבצע שלב העידון האחרון בעזרת

6 ו-5באופן דומה מתבצע תרגום של משפטים. מתאים באופן מושלם לתבנית 6נשים לב שמשפט E11 של EDGAR ולכן לא יתבצע

במקרה זה.CAT2כל תרגום באמצעות

73

Page 73: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

– סיכוםCAT2-EDGARדוגמא - המכונה המשולבת

EDGAR.עוזרת בתרגום ביטויים מסובכים CAT2.מכירה את מבנה השפה ולכן תדע להתאים משפטים לשפת היעד

כיסוי-לCAT2מקורות עשירים ולכן מובטח כיסוי גבוה מכונת התרגוםEDGAR.מראה כיסוי נמוך

איכותEDGAR -מראה איכות תרגום יותר גבוהה מ CAT2.EDGAR.תתקשה לתרגם ביטויים בהם התבניות שייכות להקשר כלשהו

הסתגלותEDGAR מראה הסתגלות על ידי כך שהיא יודעת להוסיף או להחליף

מילות יחס ותוספת וזאת לפי ניתוח המשפט והתאמתו לשפת היעד .CAT2שנעשה על ידי 74

Page 74: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

– קשיים CAT2-EDGARדוגמא - ומגבלות

שינוי קטגוריהלשנות מידי פעם חלקים על מנת להשיג תרגום מהימן באיכות גבוהה, יש

. בשפת היעד

CAT2 מכתיבה איך צריך להתמודד עם ביטוים שיכולים להיות הנושא במשפט או במקרים בהם יש צורך לשנות את מבנה המשפט בשפת היעד

הופך wait for the old man)כמו להקדים את הפועל וכו'(. למשל . erwartet den mannל-

שכן הוא עובד עם תבניות מסוימות.EDGARדבר זה יכול לגרום קשיים ל-חלוקה שגויה של המשפט

ואז לא יהיה ניתן EDGARמשפט יכול להיות מחולק באופן לא נכון על ידי . CAT2לבצע תרגום כמו שצריך על ידי

Nimni reads a very interesting storyלמשל בדוגמא CAT2 ואילו EDGAR ייחשב כשם עצם על ידי interesting story הביטוי

לא

.a very Xnoun יודעת לעבוד עם תבנית של

75

Page 75: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

סיכום הראינו פיתוח ומימוש ניסיוני של סוג שונה של מערכת

תרגום משולבת, בה מכונת תרגום מבוססת קורפוס עובדת בשיתוף פעולה עם מכונת תרגום מבוססת

חוקים. מבחינת השילובים, ניזכר שבמערכת המשולבת עםETAP-

שני הרכיבים עבדו עם עצים, על אותו מבנה נתונים – 3שילוב חזק.

כל מכונה תרגמה באופן בלתי CAT2-EDGARבמערכת תלוי את הקלט שנשלח אליה ולבסוף נפלט התרגום – שילוב

חלש. הרעיון המרכזי של השימוש במכונה מבוססת קורפוס

הוא להעשיר את מכונת החוקים, הנוקשה והמורכבת, בתרגומים אנושיים שיספקו תרגום תואם לשפה

המדוברת. זיכרון התרגום מכיל דוגמאות די פשוטות, אבל המגוון

ומרחב הדוגמאות גדול מאוד, מדויק ומכיל תרגומים בין שפות.

דוגמאות אלה יועשרו במהלך שילובן במשפטי המקורומכונת התרגום מבוססת החוקים תתאים אותן למבנים

הסופיים בשפת היעד.

76

Page 76: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

סיכום במכונת התרגוםEDGAR ראינו כיצד מתבצע ניתוח

על הדוגמאות הנתונות.ואוטומטימורפולוגי בסיסי יכולות טובות יותר הציגה מכונת הדוגמאות המשולבת

, אולם במקרה זה הניתוח ETAP-3עם מערכת מכיוון שהיה צורך להזין חצי-אוטומטיהמורפולוגי היה

את הדוגמאות בעזרת מזהה הביטויים האינטראקטיבי. שתי הדוגמאות למכונות משולבות שהצגנו מימשו שילוב

דינאמי בין מכונות התרגום, כך שתמיד המכונה מבוססת הקורפוס הייתה מתרגמת בעצמה יחידת

תרגום שהתאימה לתבניות שלה והמכונה מבוססת החוקים הייתה משלימה את התרגום של חלקי המשפט

עבורם לא הייתה דוגמה בזיכרון המערכת.77

Page 77: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

סיכום 2001המאמר פורסם בשנת.

הכותבים ציינו שהמערכות שתיארו הן רק אבות-טיפוס ושיש צורך במחקר תיאורטי נוסף על מנת להגיע

לתוצאות משביעות רצון עבור מגוון טקסטים רחב יותר וביעילות מספיק גבוהה.

שחררה חברת 2010בשנת SYSTRAN של 7 את גרסה מערכת התרגום שלה. זו הייתה הגרסה המסחרית

הראשונה של מערכת תרגום משולבת חוקים ומידע סטטיסטי.

כיום, קיימות מספר חברות מסחריות נוספות בעלותמערכות תרגום המשלבות את הגישות.

78

Page 78: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מקורות Towards a Dynamic Linkage of Example-based and Rule-based

Machine Translation - Michael Carl, Catherine Pease, Leonid L.Iomdin, Oliver Streiter, 2001, Kluwer Academic Publishers Netherlands

UNL, or Universal Networking Language, is an English-based interlingua developed by the United Nations University in Tokyo for the purpose of offering Internet users a chance to translate semiautomatically Internet documents from and to a host of languages. Within the framework of the UNL project, linguistic teams from different countries, including IPPI and IAI, are developing lexicons and linguistic tools aimed at creating a pilot Internet natural-language communication system.

Creating a Universal Networking Language Module within an Advanced NLP System - Igor BOGUSLAVSKY, Nadezhda FRID, Leonid IOMDIN, Leonid KREIDLIN, Irina SAGALOVA,Victor SIZOV, Computational Linguistics Laboratory Institute for Information Transmission Problems of the Russian Academy of Sciences http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.27.6197&rep=rep1&type=pdf

ETAP-3: http://cl.iitp.ru/etap CAT2: http://iai.iai-sb.de/iaifr/fr/cat2.htm EDGAR: http://iai.iai-sb.de/iaifr/en/edgar.htm

79

Page 79: מציגים:  עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

מקווים שנהניתם !

שמח ! חג