23
اد درس: ت س ا ن س ح م ر کت د ی ن کاها ه ت( س ی ارد92

برچسب گذاری اجزای کلام زبان فارسی

  • Upload
    ezhno

  • View
    109

  • Download
    0

Embed Size (px)

DESCRIPTION

برچسب گذاری اجزای کلام زبان فارسی. استاد درس: دکتر محسن کاهانی ارائه دهنده : سید محمد اصغری. اردیبهشت 92. یادآوری. هدف /PRP من /JD ترجیح /VB میدهم /TO تا /IN در /DT یک /NN کتابخانه /JJ دانشگاهی /JD مطالعه /VB کنم روشها ارزیابی. فهرست مطالب. مشکلات برچسب گذاری. - PowerPoint PPT Presentation

Citation preview

Page 1: برچسب گذاری اجزای کلام زبان فارسی

استاد درس: دکتر محسن کاهانی ارائه دهنده

: سید محمد اصغری

92اردیبهشت

Page 2: برچسب گذاری اجزای کلام زبان فارسی

یادآوریهدف

/PRP من/JD ترجیح/VB میدهم/TO تا/IN در/DT یک/NN کتابخانه/JJ دانشگاهی/JD مطالعه/VBکنم

روشها

100ارزیابیكلمات كل تعداد

صحيح برچسب با كلمات تعدادAcc

2

Page 3: برچسب گذاری اجزای کلام زبان فارسی

فهرست مطالب

3

Page 4: برچسب گذاری اجزای کلام زبان فارسی

مشکالت برچسب گذاریساختواژه فارسي و كلمات

وندها مانند نشانه جمع، ضمایر ملکی، کسره اضافهو ...

میـــهــاکتابــ ساختواژه افعالابهام در ساختواژه

نکره ، شناسه دوم شخصیمرد : تشخيص كران كلمات

»کتابها«، »کتاب ها«، »کتاب ها«

4

Page 5: برچسب گذاری اجزای کلام زبان فارسی

تحلیلگر ساختواژی

ابهام زدایی از هم نگاره

تشخیص برچسب کلمه

ناشناخته

مدلی از پیاده سازی

5

Page 6: برچسب گذاری اجزای کلام زبان فارسی

کارهای انجام شده اولين كار براي برچسب گذاري زبان فارسي

2000آسی و حاجی عبدالحسینیMegerdoomian 2004Raja et al 2007 2007 و 2006ارومچیان ،( 1383)مرادزاده ،(1383 )بي جن خان و مرادزاده

6

Page 7: برچسب گذاری اجزای کلام زبان فارسی

پیکره متنی زبان فارسیچند نمونه پیکره

پیکره موازی زبان فارسیهمشهری*پیکره بی جن خان

2.6میلیون تگ دستی 4300 ،موضوع: حقوقي، سياسي، حسابداري

اقتصادي و ...76706واژه

7

Page 8: برچسب گذاری اجزای کلام زبان فارسی

برچسب های پیکرهدو نسخه برچسب600 تا 500حدود برچسبها در سه دسته

1برچسب هاي نحوي –ساختواژي اسم، فعل، صفت، قيد، حرف ربط، حرف اضافه، حرف

2برچسب هاي خاص ،ادات شرط، كيفيت نما، كلمه پرسشي، جمله واره

حرف ندا، منادي،3برچسب هاي متفرقه

.جداكننده، عالمت رياضي

8

Page 9: برچسب گذاری اجزای کلام زبان فارسی

نمونه برچسبها

9

Page 10: برچسب گذاری اجزای کلام زبان فارسی

بخشی از پیکره

10

Page 11: برچسب گذاری اجزای کلام زبان فارسی

تحلیلگر ساختواژیوجود انواع تکواژها در زبانهای خاص مثل فارسیتكواژهاي تصريفي1.

معموال براي ساخت كلماتي استفاده مي شوند كهحامل مفاهيم دستوري در جمله باشند

تكواژهاي اشتقاقي2. كلمات جديد را مي سازند كه بار مفهومي خاصي را

منتقل مي كنند.

تکواژهای ترکیبی3.

11

Page 12: برچسب گذاری اجزای کلام زبان فارسی

تحلیلگر ساختواژی )ادامه(مشکل

تعداد برچسب هاي متمايز پيكره زیاد و فراوانی کمتفسيرهاي متفاوت كلمات با بن واژه يكسان

دخترمN,COM,SIM,1 دخترN,COM خوبم ADJ,CMPR,SIM,1

راه حل تکواژهای تصریفی سيستم برچسب گذاري را به يك تحليل گر

ساختواژي مجهز كرد.

12

Page 13: برچسب گذاری اجزای کلام زبان فارسی

تحلیلگر ساختواژی )ادامه(ابتدا بعضی از برچسبهای خاص را حذف میکنیم1.برچسبهای تکواژ تصریفی و تکواژهای منتسب2.

13

Page 14: برچسب گذاری اجزای کلام زبان فارسی

تحلیلگر ساختواژی )ادامه(حال با توجه به جدول بخش قبل کلمه و برچسب 3.

آن هر دو تجزیه می شوندمثال

کتابها(N,COM,PL) کتاب + ها(N,COM) + (PL)

انجام برچسب گذاری4.

14

Page 15: برچسب گذاری اجزای کلام زبان فارسی

کلمات ناشناخته اطالعات واژگانی راجع به آنها و نیز توزیع احتمالی

وجود نداردراههای مقابله

15

Page 16: برچسب گذاری اجزای کلام زبان فارسی

غلبه بر کلمات ناشناختهروش ساده: بر چسب با بیشترین وقوع1.

16

Page 17: برچسب گذاری اجزای کلام زبان فارسی

غلبه بر کلمات ناشناخته )ادامه(توزیع احتمالی کلمات ناشناخته2.

مقادير احتمالي توزيع مي تواند در برچسب گذارهايآماري به طور مستقيم استفاده شود

:روشهای پیدا کردن توزیعپیکره دو بخشی

کلمات ناشناخته = کلماتی که در مجموعه آموزشنیستند

نیاز به پیکره بزرگکلمات کم تکرار

کلماتی که یک در کل پیکره ظاهر شدند

17

Page 18: برچسب گذاری اجزای کلام زبان فارسی

غلبه بر کلمات ناشناخته )ادامه(توجه به وندها3.

الگوی نمونه

کلمه بیگانگان= ناشناخته بیگانهN,COM,SING بیگانگانN COM PL

... استخراج قوانین، امتیاز دهی قوانین و

18

Page 19: برچسب گذاری اجزای کلام زبان فارسی

هم نگاره هانوشتاری یکسان و گفتاری متفاوتعلل هم نگارگی در زبان فارسیعدم بازنمايي واكه هاي كوتاه در خط فارسي: مرد1(عدم تناظر يك به يك ميان واج ها و حروف فارسي2(

19

Page 20: برچسب گذاری اجزای کلام زبان فارسی

هم نگاره ها )ادامه(يكساني تظاهر واجي و نوشتاري تكواژها:3(

/ja'vaani . /ياء نكره: جواني را ديدم/javaa'ni . /ياء اسم ساز: جواني نعمتي است/ja'vaani . /ياء شناسه: تو هنوز جواني /javaa'ni .... /ياء نسبت: مشكالت جواني

رابطه بين وزن كلمات عربي و بعضي پسوندهاي 4(فارسي

منزلت

20

Page 21: برچسب گذاری اجزای کلام زبان فارسی

هم نگاره ها )ادامه(راه حل : لیست تصمیم گیری

جمع آوري و برچسب گذاري مجموعه آموزشي1.

به دست آوردن توزيع هاي باهم آيي2.کلمات قبل و بعد

محاسبه نرخ درست نمايي3.

21

Page 22: برچسب گذاری اجزای کلام زبان فارسی

هم نگاره ها )ادامه(مرتب سازی بر اساس نرخ درست نمایی4.

استفاده از لیست تصمیم گیری5. با فرض حضور يك هم نگاره در يك زمينه جديد باالترين

پيشامد

22

Page 23: برچسب گذاری اجزای کلام زبان فارسی

23