27
מגמת" גילוי ואיתור מידע דיגיטלי" מידענות סייבר השתלמות מורים מובילים אפריל2016 פרק: התמודדות עם שפה זרה

רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

Embed Size (px)

Citation preview

Page 1: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

מידענות סייבר" גילוי ואיתור מידע דיגיטלי"מגמת

2016השתלמות מורים מובילים אפריל •

התמודדות עם שפה זרה: פרק•

Page 2: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

מבוא לתרגום ממוכן -מבוא

חישובית בלשנות ועיבוד שפה טבעית

תרגום ממוכן כצוהר למידע בשפות זרות

הטכנולוגיה שמאחורי

התרגום הממוכן

תרגול

Page 3: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

תחומים על והן הבלשנות על הן מתבסס אשר ,תחומי-בין ענף בלשנות חישובית .ומתמטיקה סטטיסטיקה ,המחשב מדעי כמו

בקיבוץ עוסקת התיאורטית החישובית הבלשנות

להכיר שצריך הידע ותחומי המאפיינים מגוון של

שימוש תוך ,מסוימת שפה לדעת מנת על

.המלאכותית הבינה מתחום מנחים בעקרונות

תיאורטית

NLP גם נקראת המעשית החישובית הבלשנות

(Natural Language Processing) ענף-לתת ונחשבת

זה תחום במסגרת .המלאכותית הבינה של

"מטפלות" אשר חדשות טכנולוגיות מפותחות

לנו לסייע ויכולות ,דרכים במגוון האנושית בשפה

שפה "להבין" למחשבים ולגרום יום-היום בחיי

.אנושית

מעשית

Page 4: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

בלשנות חישובית מעשית

–נסו לחשוב

באילו תוצרים של הבלשנות החישובית •

?המעשית אנו נתקלים במהלך היומיום

אילו טכנולוגיות המשלבות עיבוד של •

?מוכרות לנו (שפה דבורה)שפה טבעית

Page 5: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

בלשנות חישובית מעשית

תרגום ממוכן

***

סיכום ותמצות של טקסטים

***

הגייה של טקסטים כתובים

(Text to Speech)

***

קליטה של מילים שנאמרות בקול והעלאתן

(Speech to Text)על הכתב

***

מענה אוטומטי על שאלות

Page 6: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

תרגום ממוכן כצוהר למידע בשפות זרות

:מיתרונות התרגום הממוכן גישה בלתי אמצעית לחומרי גלם בשפות זרות

***

שבירת חומות ומחיצות בתחום השפה

***

בניית גשרים שפתיים וערוצי תקשורות חדשים

***

למטרות מחקר ,יכולת לגלות ולאתר מידע בכל שפה

***

Page 7: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

הטכנולוגיה שמאחורי התרגום הממוכן

תרגום מנועי מרבית מנועי התרגום כיום הם

סטטיסטיים סטטיסטיקות על שמתבססים

הצעות את לבחור מנת על שונות ביותר הטובות התרגום

מכונה למידת

התרגום האוטומטי מבוסס על

של ענקית אסופה מקבל המנוע מהם ומחלץ ,מתורגמים טקסטים

שמאפשרים סטטיסטיים נתונים מושכלות תרגומיות החלטות לקבל

Page 8: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

הטכנולוגיה שמאחורי התרגום הממוכן

:חשוב ליישר קו ,לפני שנתייחס לטכנולוגיה

השפה שמתרגמים ממנה –שפת המקור •

השפה שמתרגמים אליה –שפת היעד •

Page 9: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

הטכנולוגיה שמאחורי התרגום הממוכן

נתייחס לשלוש רמות

:של תרגום אוטומטי

Page 10: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן

מה עושים כשנתקלים

?במילה שלא מכירים -מחפשים במילון -

Page 11: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן

– במילה מילה תרגום מבוסס בדיוק העיקרון אותו על

מילה כל ומתרגם גדול למילון פונה התרגום מנוע

...עצמה בפני בטקסט

– לחשוב נסו

מילה כשמתרגמים להיווצר עשויים קשים אילו

?במילה

Page 12: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן ותחביריים דקדוקיים קשיים

I didn’t read the book

הספר לא קראתי אני

:לעברית מאנגלית הבא המשפט את נתרגם אם

המשפט אולם ,לנו ברור אמנם שהתקבל הפלט מאחורי שעומד המרכזי שהרעיון לראות נוכל

.היעד שפת של התחביר בכללי עומד אינו המתורגם

Page 13: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן משמעיות-דו ממילים הנובעים קשיים

:בעברית משמעויות שתי יש הבאה למילה

קלס

Page 14: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן משמעיות-דו ממילים הנובעים קשיים

- 'משמעות א קלס לעג וחרפה

- 'משמעות ב שבח ותהילה

:בעברית משמעויות שתי יש הבאה למילה

להניח סביר ,"קלס" המילה את שמכיל משפט לתרגם כדי במילה מילה בתרגום נשתמש אם

.הרלוונטי התרגום את לבחור ונאלץ ,למילה האפשריים התרגומים כל של רשימה שנקבל

Page 15: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן משמעיות-דו ממילים הנובעים קשיים

:הבא המשפט את במילה מילה שמתרגם תרגום למנוע נזין אם

The democratic party of the USA.

.המפלגה הדמוקרטית של ארצות הברית/החגיגה/המסיבה :התרגום את שנקבל סביר

?למה התכוון המשורר ?לדמוקרטיה חג ליום הכוונה שמא או ?הדמוקרטית במפלגה מדובר האם

Page 16: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן במשפט המילה מהקשר הנובעים קשיים

:מרכזית אחת בסוגייה קשורים עסקנו בהם הקשיים כל

מתייחס לא במילה מילה תרגום

במשפט המילה הקשרל

Page 17: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן במשפט המילה מהקשר הנובעים קשיים

:לאנגלית בשתי דרכים לפחות "כסף"כך למשל ניתן לתרגם את המילה

Silver Money

Page 18: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

במילה מילה תרגום הטכנולוגיה שמאחורי התרגום הממוכן במשפט המילה מהקשר הנובעים קשיים

:משפיע על תרגומה "כסף"ההקשר של המילה

Money ומשובצת יהלומים כסףהשרשרת הזו עשויה.

!כסףתני לי את ה :צעק על הקופאית ,מיד לאחר פריצתו של השודד לבנק

Silver

?כיצד מנוע התרגום הממוכן יכול להבין מתוך הקשר

?איך ניתן לבחור את הצעת התרגום באופן אוטומטי

Page 19: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

תרגום מודל הטכנולוגיה שמאחורי התרגום הממוכן

מודל תרגום

התרגום הצעת את בוחר התרגום מודל•

ההסתברות חישוב ידי על ביותר הטובה

בשפה מסוים ביטוי או מסוימת מילה לפיה

.שנייה בשפה שנייה למילה יתורגמו אחת

מחושבת התרגום מודל של הסטטיסטיקה•

של מאוד גדולה אסופה על מעבר ידי על

."מקבילי קורפוס" שנקראת ,טקסטים

Page 20: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

תרגום מודל הטכנולוגיה שמאחורי התרגום הממוכן

:הקורפוס המקבילי מחולק למקטעים קטנים שעל בסיסם נבנית הסטטיסטיקה

.ומשובצת יהלומים כסףהשרשרת הזו עשויה

מגיעה "כסף"המודל מסיק כי במרבית המקרים שבהם המילה ,לאחר החלוקה למקטעים

".Silver"-היא תתורגם לאנגלית כ "משובצת"ו "יהלומים" ,"שרשרת"בסמיכות למילים כמו

This necklace is made of silver and set with diamonds.

Page 21: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

שפה מודל הטכנולוגיה שמאחורי התרגום הממוכן

מתייחס ,התרגום מודל לעומת ,השפה מודל•

יופיעו מסוימים ביטוי או מילה לפיה להסתברות

.היעד בשפת

בשפת טקסטים של אסופה על מבוסס זה מודל•

.המתקבל הפלט של הקוהרנטיות על ומשפיע ,היעד

Page 22: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

שפה מודל הטכנולוגיה שמאחורי התרגום הממוכן

,"Good boy"אם נבקש לתרגם מאנגלית לעברית את הצירוף

:עשויות להתקבל ארבע אפשריות תרגום שונות

ילד טובה ילד טוב

ילד טובים

ילד טובות

Good boy

הוא הצירוף "ילד טוב"מכיוון שבעברית הצירוף .שכיחות של רצפים בשפת היעדמודל השפה בוחן

.סביר שהצירוף יתורגם כהלכה ,השכיח ביותר מבין ארבע האפשריות

שפת היעד שפת המקור

Page 23: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

תרגומיים כשלים הטכנולוגיה שמאחורי התרגום הממוכן

לעיתים נתקל ,מכיוון שמנועי תרגום ממוכן מבוססים על סטטיסטיקה ועל בינה מלאכותית

.שעושיים להשפיע על היכולת להבין את המשפט המקורי ,בכשלים תרגומים

באילו מקרים עשוי מנוע התרגום

?להתקשות בתרגום

:לשער נסו

Page 24: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

תרגומיים כשלים הטכנולוגיה שמאחורי התרגום הממוכן

לעיתים נתקל ,מכיוון שמנועי תרגום ממוכן מבוססים על סטטיסטיקה ועל בינה מלאכותית

.שעשויים להשפיע על היכולת להבין את המשפט המקורי ,בכשלים תרגומים

:מקרים בהם מנוע התרגום מתקשה

(המילולי)שתרגומם מילים בשפת המקור צירופי –ביטויים ופתגמים •

.לשפת היעד יהיה חסר משמעות

,כתובה-מדוברתהתמודדות עם סלנג ועם שפה –משלבים בשפה •

.ל"הנפוצה בפורומים ובדוא

.משמעיים-התמודדות עם מבנים תחביריים סבוכים ודו – תחביר•

Page 26: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

תרגול

נסו לשחזר את .Google Translateלפניכם מספר משפטים שתורגמו מעברית לאנגלית על ידי

:הפתגם העברי שעומד מאחורי כל אחד מן התרגומים

No baker's own horn

The shoemaker goes barefoot

Third time ice cream

Words of the wise are heard in comfort

Do not boast wear as a key

On top of a burning hat thief

Pretty wise silence

It is best dog friend dog author

אין הנחתום מעיד על עיסתו הסנדלר הולך יחף

פעם שלישית גלידה דברי חכמים בנחת נשמעים

אל יתהלל חוגר כמפתח על ראש הגנב בוער הכובע

השתיקה יפה לחכמים עדיף כלב חבר מחבר כלב

?ממה נובע הקושי התרגומי .נתחו כל אחד מן התרגומים

Page 27: רבייס תונעדימ ילטיגיד עדימ רותיאו יוליג תמגמblog.csit.org.il/UpLoad/FilesUpload/תרגוםממוכן1-משוטח(0).pdf · רבייס תונעדימ

תרגול :נביט בפתגם

Do not boast wear as a key אל יתהלל חוגר כמפתח

לדוגמה אחד פתגם בדיקת

:פתגם זה מדגים שני קשיים לשוניים הקשורים לתרגום הממוכן

המשמעות את המפספס מילולי תרגום מתקבל) פתגמים בתרגום קושי•

.(המקורית

של מוטעה תרגום מתקבל ,סטטיסטי הוא שהתרגום מכיוון – סמנטי קושי•

שבפתגם בעוד :"מפתח" המילה של במקרה למשל כך .מהמילים חלק

ח המילה מוזכרת יר הקרב משדה החוזר צבא לאיש כינוי) מפת את ומת

ח (יותר השכיחה) למילה מתייחס המנוע (נשקו .(key) מפת