26
89-680 1 ררררר2 - ררררר רררררר ררררררר( Tokenization ) רררררררררר-

89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

  • View
    235

  • Download
    1

Embed Size (px)

Citation preview

Page 1: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6801

2שיעור ומשפטים - למילים הפרדה(Tokenization)

- מורפולוגיה

Page 2: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6802

עיקריות לשוניות רמות

מורפולוגיה•תחביר•סמנטיקה•/שיחפרגמטיקה•

הלשוניות הרמות את נבחן הבאים בשיעוריםבהן החישובי והטיפול השונות

Page 3: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6803

Tokenization

• ' הקלט ' שבירת היא הראשונית הבעיה. ולמילים למשפטים

•' וכד למספרים גם הכוונה במילים•: הנאיבית הגישה

–‘!','?','.'- ב מסתיים משפט– - ב מופרדת whitespaceמילה

•...: המציאות אך

Page 4: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6804

Tokenization Issues

?speechinputמהעושיםבמקרהשל••East Asian Languanges

Page 5: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6805

Page 6: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6806

Page 7: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6807

Sentence breaks

גם'.','?','!' ':',';','-','• 'n\ולפעמים• ~ 90% of periods are sentence breaks• State of the art: 99% accuracy )learning

methods( • English capitalization can help• The Problem: period .

– can denote a decimal point )5.6(, an abbreviation )Mr.(, the end of a sentence, thousand segment separator: 3.200 )three-thousand-two-hundred, in Europe(, initials: A. B. Smith, ellipsis …

Page 8: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6808

Sentence breaks…

• "`Whose frisbee is this?' John asked, rather self-consciously. `Oh, it's one of the boys' said the Sen.“

• The group included Dr. J. M. Freeman and T. Boone Pickens Jr.

a. It was due Friday by 5 p.m. Saturday would be too late.

b. b. She has an appointment at 5 p.m. Saturday to get her car fixed.

Page 9: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-6809

Sentence Break Detection (“technical” algorithm - Manning &

Schütze)• Hypothesize SB after all occurrences of . ? !• Move boundary after immediately following

quotation marks• Disqualify periods if:

– Preceded by a known abbreviation that is not usually sentence final, but followed by a proper name: Prof. or vs.

– Preceded by a known abbreviation and not followed by an uppercase word.

• Disqualify a boundary with a ? or ! If:– It is followed by a lowercase letter.

• Regard other hypothesized SBs as sentence boundaries.

Page 10: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68010

?" מילה " זה מה

מילוני )• העצמאית(: למהערך המידע יחידתבשפה ביותר הקטנה

שולחן, למשל: ספר : לא ed-(walk)(, ספר)האבל

She'dמילה? •• " " " " , יחידה או מחרוזת כל לא כתובה בשפה

: למשל - למה היא ברווחים המוקפתאותו ואכלתיהו - אכלתי ואני

הלקסיקאלית • ליחידה להתייחס מקובל- כ בטקסט tokenהמינימאלית

Page 11: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68011

... מילים מילים מילים הכל

•22.50$ ,02/02/94 ,•(-:{ }•AT&T,@gentInteractive• U.N. in. Wash.•- - , - , הזמן- על חבל אילן בר ספר בית•Lebensversicherungsgesellschaftsangestellter

Life insurance company employee

•+972-52-901302( 202 )905-8026•Model # RQ9038WF2-SR,

Xen Steel Diamond Empathy 7.5-in Bracelet ).02 TW(

Page 12: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68012

ו HTMLטבלאות

• , טהור טקסט שאינם נוספים מידע סוגי יש , טבעית בשפה מרכיבים מכילים אבל

שפה לעיבוד בשיטות לנתח רלוונטי שאותםטבעית

•! מסובך עסק זה טבלאותכבר HTMLב-• mark-upיש

Page 13: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68013

מורפולוגיהמהברות - • מורכבות המידע " morphemesמילים יחידות שהן

" משמעות הנושאות ביותר הקטנות•: הברות שהן מילים יש•car, fish•: מורפימות מכמה מורכבת להיות יכולה מילה• + ) ( הם - + ם י סוס סוסיהםבמונח • הוא יותר מדויק שימוש "לכן שהיא lexeme לקסמה"

מילונית משמעות בעלת ביותר הבסיסית הצורה או המילה – ערך מילוני )כניסה במילון(lemmaמקובל גם המונח "למה" –

מעוניינים במודל למורפולוגיה של השפה•ניתוח–יצירה–חשיבות: איות, אחזור מידע, תנאי מקדים לניתוח תחבירי )ליישומים –

דקדוקיים וסמנטיים(

Page 14: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68014

מנגנונים מורפולוגיים - :( affixes)מוספיות

, , וסופית תוכית תחילית•- ל מחולקות affixesול-)אינו בהכרח מילה( stemמיליםהמילה - prefixesתחיליות - • בתחילת המוספות הן•Un-believable, re-directionהמילה - suffixesסופיות - • בסוף מוספות

ing : having, eatingלמשל: שורש- - - infixes תוכיות • או לגזע המוכנסת מורפמה

בעברית בניין הקובעות אותיות למשלהתפעל - התרחץ, התלכלך–

•Circumfix)שילוב של תחילית וסופית )למשל בגרמנית – ( למנגנון concatenativeמבחינים בין מנגנון שרשורי )•

מבוסס תבניות )כגון שורש-בנין בשפות שמיות(

Page 15: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68015

inflectionהטיה תחביריים • צרכים מתוך המילה בצורת , שאינו שינוי

:למשל חלק הדיבר.משנה את הלמה )המשמעות( ואת –- ) / רבים ) יחיד number מספר

נערות - • נערה

genderמין –נערה - • נער

personגוף –רצנו - • אנחנו רצתי אני

tenseזמן –

מערכת ההטיה תלויה בחלק הדיבר )ש"ע, פועל, שם •תואר, ...(

מורכבת • ההטיות מערכת בעברית

Page 16: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68016

באנגלית הטיות• . יחסית פשוטה ההטיות מערכת באנגלית

משורשרת - מבוססת על מורפולוגיהconcatenative morphology

• : ושייכות ריבוי עצם שמות . possessives עבורכתיב • חוקי מלים spelling rulesיש למשל

- ב יהיה xשמסתיימות לרבים .s-ולא es-סימון• : יותר מגוונות ההטיות פעלים :עבור

stem, 3rd person, -ing participle, past, past participle 11בטורקית למשל – מערכת שרשורים ענפה )דוגמא עם •

מרכיבים(

Page 17: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68017

Morphologi-cal Form Classes

Stem

" שורש"walkmergetrymap

-s formwalksmergestriesmaps

-ing particle

walkingmergingtryingmapping

Regulary Inflected verbs )by rules(

Page 18: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68018

גזירה

• A writer is someone who writes, and a stinger is something that stings. But fingers don’t fing, grocers don’t groce and hammers don’t ham.

• Vegetarians eat vegetables—I'm a humanitarian

Page 19: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68019

derivationגזירה לקסמות • יצירת היא לקסמות קצרות מחדשות גזירה

יותר, על פי כללים מורפולוגייםrelation - relationship

המילה בדר"כ גורם לשינוי • של הדיבר חלקrelate – relation – relational – relationally

השורש: • .בעברית ח. ב הגזירה ט ִ__�_מוצורןמטבח

sweet - adjective sweetness – nounבאנגלית: •באנגלית מעט הטיות ומערכת גזירה ענפה.•הגזירה אינה אוטומטית – על כל מילה יכולים לפעול רק •

כללי גזירה מסוימים, או כלל לא

Page 20: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68020

ה – ניתוח מורפולוגיל מידול חישוביויצירה

•Morphological analysis/parsing•. ממנו: מבנה ויצירת כלשהו קלט קבלת ניתוח•Lemmatization/stemming התהליך הוא

: " הבסיסית" לצורתן מורכבות מילים מפשיט ש foxes -> fox

•- כ מילה כקלט יקבל מורפולוגי goingניתוחהניתוח את כפלט ויחזיר

VERB-GO + PARTICIPLE-ing

Page 21: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68021

דוגמאות

• : עצם שמות של פשוט ריבוי ניתוח פשוטה דוגמא.)verbal progressive )-ingו-

המטרה: • : cat + N + SGפלט: catsקלט : goose + N+ PLפלט: geeseקלט

: merge + V + PRES-PARTפלט: mergingקלט

: catch + V + PAST-PARTפלט: caughtקלט

Page 22: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68022

מורפולוגי מטרות מודל

•Recognizer :לא או תקנית היא מילה האם•Generator :מורפולוגי מניתוח מילים מייצר

מסוים•Parser :למלים מורפולוגי ניתוח נותן•Lemmatizer/Stemmer:בסיס ה מזהה את צורת

(lemma/stem )מילה של

Page 23: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68023

קוים מנחים לטיפול במורפולוגיהיעיל • אפשר ובהרבה שפותלא אי בלקסיקון לייצגגם

ע המילים כל שלהן וצורכל םאת ההטיה תלכן – מחזיקים את הלמות בלקסיקון, ומפעילים מודל חישובי –

)דינאמי( לניתוח מורפולוגי )הפעלת חוקי המורפולוגיה(

דופן • יוצאי הרבה למשל: – אותם נוסיף ללקסיקון.יש– : עצם goose/geese, mouse/miceשמות go/went eat/ate פעלים:–

גזירות – מאחר שאינן אוטומטיות, וכל גזירה מייצרת •למה חדשה, מייצגים כל למה בנפרד בלקסיקון

ניתוח גזירות דינאמי רלוונטי לזיהוי למות חדשות/לא מוכרות, –ולזיהוי אוטומטי של יחס סמנטי בין מילים )לא נפוץ(

Page 24: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68024

מורפולוגי מנתח בניית

•: ב צורך יש מורפולוגי מנתח לבנות כדישורשים - לקסיקון– -stemsרשימת עם, affixesו

- ה האם כגון כללי , stemמידע פועל עצם שם הואוכו'.

–Morphotactics ( - איזו המורפמות לסידור המודל) סופית ואיזו תחילית היא מורפמה

אורתוגרפיים – חוקי orthographic rulesחוקיםלמשל - - במילה החלים שינויים הכתיב

y-> ie של במקרה city + -s -> cities כמו

Page 25: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68025

Finite-State Automaton for Recognizing English Nominal Inflection 

– Regular: fox, dog, city: add s– Irregular: goose, mouse, sheep (memorize)

Page 26: 89-6801 שיעור 2 - הפרדה למילים ומשפטים (Tokenization) - מורפולוגיה

89-68026

באוטומט המילון )זיהוי(הטמעת)עדיין ללא טיפול בחוקים אורתוגרפיים(