30
مد ح م د ی س ده: ی ه ه د ئ ارا ری صغ ا ن س ح م ر کت اد درس: د ی س ا ی ن کاها1 ن یورد ر ف1392

PART OF SPEECH TAGGING (POS)

  • Upload
    bebe

  • View
    86

  • Download
    3

Embed Size (px)

DESCRIPTION

PART OF SPEECH TAGGING (POS). ارائه دهنده: سید محمد اصغری استاد درس: دکترمحسن کاهانی. فروردین 1392. فهرست مطالب. natural intelligence. A. B. interrogator. artificial intelligence. تعریف NLP. پردازش زبان‌های طبیعی علوم زبان شناسی هوش مصنوعی آمار. کاربردهای NLP. شناسايي گفتار - PowerPoint PPT Presentation

Citation preview

Page 1: PART OF SPEECH TAGGING (POS)

ارائه دهنده: سید محمد اصغری

استاد درس: دکترمحسن

1کاهانی

1392فروردین

Page 2: PART OF SPEECH TAGGING (POS)

فهرست مطالب2

Page 3: PART OF SPEECH TAGGING (POS)

NLPتعریف پردازش زبان های طبیعی

علوم زبان شناسیهوش مصنوعیآمار

artificial intelligenc

e

natural intelligence

interrogator

A

B

3

Page 4: PART OF SPEECH TAGGING (POS)

NLPکاربردهای شناسايي گفتار

سيستمهاي ديکته، سيستم هاي کنترل روبات

ترکيب گفتارسيستم هاي متن به گفتار

مقوله بندي متن

متنخالصه سازی

4

Page 5: PART OF SPEECH TAGGING (POS)

)ادامه(NLPکاربردهای نمایه سازی متن

بازيابي متن

استخراج اطالعات

ترکيب داده ها و استخراج داده هاي متن

5

Page 6: PART OF SPEECH TAGGING (POS)

)ادامه(NLPکاربردهای

پاسخ به پرسش

ايجاد گزارش

ترجمه ماشینی

6

Page 7: PART OF SPEECH TAGGING (POS)

ابزارهای پردازش زبان طبیعی

نرمال ساز یا یکسان سازتشخیص دهنده جمالتتشخیص دهنده لغاتحذف کننده کلمات ایستریشه یاببرچسب زن اجزای کالم ( POS)( پارسرparser)( برچسب زن معنایی کالمSRL) شبکه واژگان...

7

Page 8: PART OF SPEECH TAGGING (POS)

نمونه های ابزار انگلیسی

instance NLP tools

OpenNLP ، Stanford NLP ، NLTK Freeling

تشخیص دهنده جمالت

Flex ، JLex ، JFLex , ANTLR ، Ragel , Quex

تشخیص دهنده لغات

Porter, Krovetz ریشه یاب

Illinois POS Tagger , Stanford POS Tagger

برچسب زن اجزای کالم(POS)

OpenNlP ، Illinois SRL , Swirl , LTHSRL

برچسب زن معنایی کالم (SLR)

Princeton Wordnet , Euro Wordnet شبکه واژگان

8

Page 9: PART OF SPEECH TAGGING (POS)

تا اینجا9

Page 10: PART OF SPEECH TAGGING (POS)

posتعریف Part-of-Speech )POS(.یا جزء کالم: مقوله نحوی که هر کلمه به آن تعلق دارد

:نامهای دیگرword classes، lexical tags، tags

POS tagging )tagging(فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی :

POS:های اصلی در انگلیسیNounsVerbsAdjectivesAdverbsPrepositions )on, to, by, from, with, …(Determiners )a, an, the(Pronouns )she, who, my, others, …(Conjunctions )and, but, if, …(Auxiliaries )can, should, are, …(Particles )up, down, off, in, out, …(Numerals )one, two, three, first, second, …(

10

Page 11: PART OF SPEECH TAGGING (POS)

)ادامه(posتعریف بسته به کاربرد، ممکن استPOS:های جزئی تری در پیکره های متنی به کار روند Singular nounsPlural nounsComparative adjectivesSuperlative adjectivesModal verbsPersonal pronounsPossessive pronouns… برای عالئم نقطه گذاری همtag.های متفاوتی ممکن است به کار رود

tag set:های مختلف در انگلیسیPenn Treebank tag set 45: شامل tagBrown Corpus tag set 87: شامل tagC5 tag set 61: شامل tagC7 tag set 146: شامل tag

660در پیکره متنی زبان فارسی )دکتر بیجن خان( حدود tag.به کار رفته است

11

Page 12: PART OF SPEECH TAGGING (POS)

مثال

:ورودی

خروجی

12

Page 13: PART OF SPEECH TAGGING (POS)

13

Page 14: PART OF SPEECH TAGGING (POS)

نکات مورد توجه

( مجموعه تگtagset)انتخاب مجموعه تگ مناسب

طبقه بندی گرامری واژگان عباراتواژگان چند نقشکلمات ناشناخته

14

Page 15: PART OF SPEECH TAGGING (POS)

کاربردها

مدل سازی زبانی )در بازشناسی گفتار و ...(: مقوله نحوی یککلمه می تواند در پیش بینی کلمه بعدی کمک کند.

مثال: انگلیسی: ضمایر ملکی+ اسم )فارسی: حرف اضافه )اسم یا ضمیر

سنتز گفتار: مقوله نحوی یک کلمه می تواند اطالعاتی در موردنحوه تلفظ صحیح یک کلمه به ما بدهد.

مثال: تلفظOBject )noun( و obJECT )verb()تلفظ”م¡رد“ )اسم(، ”م�رد“ )فعل

بازیابی اطالعات: دانستن مقوله نحوی کلمات می تواند بهاستخراج کلمات مهم در متن کمک کند.

رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفعابهام معنایی کلمه کمک کند.

مثال: کلمهwatchدر انگلیسی و کلمه ”در“ در فارسی ( تجزیه نحویparsing برای :)parsing پایین به باال در ابتدا نیاز

به تعیین مقوله نحوی کلمات داریم.

15

Page 16: PART OF SPEECH TAGGING (POS)

روش ها روش های کلیPOS tagging:

( روش های مبتنی بر قاعدهrule based POS tagging)

( روش های آماریprobabilistic/stochastic POS tagging)

( روش های ترکیبیtransformation-based POS tagging)

16

Page 17: PART OF SPEECH TAGGING (POS)

برچسب گذار مبتنی بر قاعده با استفاده از یک سریrule مقوله نحوی کلمات دارای ابهام را با توجه

به کلمات مجاور تعیین می کند.Rule.ها به وسیله زبان شناسان نوشته می شوند

دو مرحله کلی ازPOS taggingمبتنی بر قاعده دیکشنری >----tags مجاور+قواعد >---- tag

17

Page 18: PART OF SPEECH TAGGING (POS)

برچسب گذار مبتنی بر قاعده)ادامه(

:مثالI think that you are cleverI: PRONthink: Vthat: PRON, DET, COMP, ADVyou: PRONare: AUXclever: ADJ

مثالی از یکrule از( ENGTWOL tagger) 56,000

Adverbial-that rule:Given input: “that”If )+1 ADJ/ADV( )+2 SENT-LIM( )NOT -1 V-SVO(then eliminate non-ADV tagselse eliminate ADV tag

18

Page 19: PART OF SPEECH TAGGING (POS)

مدل مارکوف

افق محدود1.

مستقل از زمان بودن2.

برچسب يك كلمه تنها وابسته به برچسب كلمه قبلي است)افق محدود (

اين وابستگي در طول زمان تغيير نمي كند )مستقل از زمانبودن (

بعد از يك 0.2 براي مثال، اگر يك صفت در اوايل جمله با احتمال اسم ظاهر مي شود، اين احتمال در حين برچسب گذاري بقيه

جمله يا يك جلمه ديگر تغيير نمي كند و ثابت فرض مي شود.اشتباه بودن این فرضنکته:

19

Page 20: PART OF SPEECH TAGGING (POS)

مدل مارکوف )ادامه( : با فرض داشتن دنباله کلمات هدفW=w1…wn دنباله ،tag هایT=t1…tn

ماکزیمم شود: )P)T|Wرا طوری پیدا کنید که

:با استفاده از قانون بیز

:باتوجه به ویژگیهای مارکوف میتوانیم مسئله را ساده کنیم

باتوجه به رابطه قبلی و جایگزاری

21

)|(maxargˆ WTPTT

Page 21: PART OF SPEECH TAGGING (POS)

آموزش مدل مارکوف

مجموعه یادگیری 1 Pierre/NNP Vinken/NNP ,/, 61/CD years/NNS old/JJ ,/, will/MD join/VB the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN

Nov./NNP 29/CD ./. 2 Mr./NNP Vinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP

N.V./NNP ,/, the/DT Dutch/NNP publishing/VBG group/NN ./. 3 Rudolph/NNP Agnew/NNP ,/, 55/CD years/NNS old/JJ and/CC chairman/NN of/IN Consolidated/NNP Gold/NNP Fields/NNP

PLC/NNP ,/, was/VBD named/VBN a/DT nonexecutive/JJ director/NN of/IN this/DT British/JJ industrial/JJ

conglomerate/NN ./. ...

38,219 It/PRP is/VBZ also/RB pulling/VBG 20/CD people/NNS out/IN of/IN Puerto/NNP Rico/NNP ,/, who/WP were/VBD

helping/VBG Huricane/NNP Hugo/NNP victims/NNS ,/, and/CC sending/VBG them/PRP to/TO San/NNP Francisco/NNP instead/RB

./.

22

Page 22: PART OF SPEECH TAGGING (POS)

محاسبه احتماالت مدل مارکوف

براي آموزش مدل فوق بايد احتماالت انتقال واحتماالت خروجي از روي پيكره برچسب خورده به

دست آيد. احتماالت انتقال به سادگي به صورت زير به دست مي آيد:

و همچنين احتمالت خروجي به صورت زير محاسبهمي شود:

23

Page 23: PART OF SPEECH TAGGING (POS)

n-gramمدلهای

Bigramبرچسب گذاری که فقط به کلمه قبل وابسته باشد

Trigramبه دو کلمه قبل از خود وابسته است

24

Page 24: PART OF SPEECH TAGGING (POS)

trigramمثال از مدل

S =the boy laughed T =DT NN VBD

P)T,S(= P)END|NN, VBD(× P)DT|START, START(× P)NN|START, DT(× P)VBD|DT, NN(× P)the|DT(× P)boy|NN(× P)laughed|VBD(

25

Page 25: PART OF SPEECH TAGGING (POS)

زنجيره ماركوف: مثال فرض كنيد كه در يكcorpus، 4 برچسب ART، N، V و P با

شمارش هاي زير داريم: احتمال وقوع برچسب هاي مختلف پس از يكديگر را مي توان

با زنجيره ماركوف زير نشان داد:

26

Page 26: PART OF SPEECH TAGGING (POS)

مدل مخفي ماركوف: مثال محاسبه احتمالP)W|T(:با استفاده از مدل مخفي ماركوف

فرض كنيد كه احتماالتlexical-generation در corpus فرضي به صورت زير است:

27

Page 27: PART OF SPEECH TAGGING (POS)

مدل مخفي ماركوف: مثال

28

Page 28: PART OF SPEECH TAGGING (POS)

مدلهای مبتنی بر حافظه

استفاده از یادگیری ماشینعدم نیاز به پیکره بزرگ برای یادگیری:تلفیقی از دو روش قبل

= نمونه ذخیره شده = قانون ، استدالل مبتنی بر تشابهانتخاب قانون

استفاده از یادگیری ماشیندارای سه بخش

واژگان = کلمات و نشانه هاپایگاه کلمات شناخته شده = کلمات و نشانه ها و مجاورتها پایگاه کلمات ناشناخته

32

Page 29: PART OF SPEECH TAGGING (POS)

ارزيابي:پيكره متني به دو بخش تقسيم مي شود

80-90%( از پيكره براي آموزش train)10-20%( از پيكره براي آزمون test)

با استفاده از داده آموزش آمارهاي الزم استخراج مي گردد و سپسPOS tagging.برروي داده آزمون تست مي شود

:انواع متون در پیکرهرسمیغیر رسمی محاوره ای

قسمتي:5تكنيك اعتبارسنجي متقابل پيكره متني بهK.قسمت مساوي تقسيم مي شود در هر مرحله از ارزيابي، يك بخش براي آزمون وK-1 بخش ديگر براي آموزش به

كار مي رود. اين روندK بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته

مي شود.

دقتPOS tagging:100

كلمات كل تعدادصحيح برچسب با كلمات تعداد

Acc

33

Page 30: PART OF SPEECH TAGGING (POS)

با سپاس از توجه شما

34