37
وان ن ع ن ت م ک ی ت وما ت ی ا ه ساز ص لا خ1

خلاصه ساز اتوماتیک متن

Embed Size (px)

Citation preview

Page 1: خلاصه ساز اتوماتیک متن

عنوان

خالصه سازی اتوماتیک متن

1

Page 2: خلاصه ساز اتوماتیک متن

چکیده

خالصه سازی خودکار متن، فرآین�دی اس�ت ب�رای ک�اهش حجم متن س�ند، ب�ا اس�تفاده از ی�ک برنامه ی کامپیوتری به منظور ایجاد خالصه ای از متن با حفظ نک��ات کلی��دی و مهم س��ند . از آنجایی که رشد اطالعات بسیار فزآین��ده اس�ت و داده ه��ا اف��زایش یافت�ه ان��د، خالص�ه س�ازی خودکار متن، ی��ک روش ک��اربردی و م��ورد عالق��ه اس��ت. این روش ب��ه کوت��اه ک��ردن محت��وای اطالعاتی یک فایل متنی با حفظ محتوای اصلی در معنای کلی اشاره می کند. خالص��ه س��ازی اسناد زیاد ، برای انسان کاری بسیار سخت و دشوار است .یکی از مشکالتی که امروز وج��ود دارد، وجود وب سایت هایی است که باعث رشد سریع و حجم ب��االی اطالع��ات ش�ده ان��د ک��ه این ام��ر ض��رورت خالص��ه س��ازی ق��وی ، قدرتمن��د و پیچی��ده ب��رای ک��اهش حجم اطالع��ات و افزایش سرعت دسترسی را بیشتر می کند. فن آوری این امکان را فراهم ساخته اس��ت ک��ه خالصه ای منسجم را با توجه به ط�ول، نح��وه نگ�ارش و س�بک نوش�تن بت�وان ایج�اد ک��رد. ب�ه

از این امکان استفاده می کند . googleعنوان یک مثال ساده، موتور جستجو

2

Page 3: خلاصه ساز اتوماتیک متن

مقدمه

خالصه سازی خودکار متن، اساسا یک فرآیند کاهش اطالعات اس�ت، ایج��اد خالص�ه ی�ک تالش هوشمند است که نیاز به آشنایی کلی با موضوع دارد به ط��وری ک��ه ح��اوی اطالع��ات مهم آن باشد منجر به انتخاب بخش مهمی از متن و یا ایج��اد ی��ک محت��وای تعمیم یافت��ه از متن اص��لی می شود به کلی هدف از خالصه س�ازی خودک��ار متن، فش��رده و کوت��اه ک��ردن متن اص��لی ب��ا حفظ محتوا و معنای کلی آن می باشد. خالصه سازی متون منجر به استفاده از من��ابع بیش��تر با سرعت باالتر و در نتیجه حاصل شدن اطالعات غنی تر می شود. در چند دهه اخ��یر خالص��ه سازی متن به عنوان یک ابزار مهم برای تفسیر اطالعات در عصری که اطالع��ات ب��ه ص��ورت فزاینده در حال افزایش است، تبدیل شده است. این کار ابت��دا ب��ه ص��ورت دس��تی انج��ام می شد اما خالصه سازی اسناد بزرگ به صورت دستی برای انسان ک�ار س�خت و مش�کل اس�ت. این در ش�رایطی اس�ت ک�ه مت��ون موج��ود روی این��ترنت ف��راوان اس�ت ب��ا این ح��ال این�ترنت بیشترین اطالعات مورد نیاز را فراهم می کن��د. بن��ابراین ی��ک مش��کل ب��زرگ وج��ود دارد و آن جستجو برای به دست آوردن اطالعات بین انبوهی از اسناد و مدارک می باشد. خالصه سازی را می توان به عنوان یک راه برای نمایش بخش ه��ای اص��لی از ی��ک س��ند و ی��ا ی��ک راه ب��رای اطالع رسانی سریع با پوشش تمام اطالعات متن اصلی بیان کرد در هر حال مهمترین م��زیت استفاده از خالصه سازی ، کاهش زمان خواندن متن است. یک خالصه خوب ، باید موضوعات گوناگون یک سند را بدون داشتن افزونگی بیان کند. ابزارهای خالصه س��ازی می توانن��د ب��رای

Microsoftتشخیص عناوین و موضوعات کلیدی یک متن مورد اس��تفاده ق��رار گ��یرد word ' s Anfo Summarize، یک مثال ساده است . با توج��ه ب��ه رش��د فزآین��ده اطالع��ات روی این��ترنت

یکی از حوزه های کاربردی است از جمله کاربردهایXML , HTMLتوانایی خالصه سازی اسناد خالصه سازی متن می توان به خالصه س��ازی پرون��ده ه��ای پزش��کی بیم��اران، س��رویس ه��ای

XMLصوتی برای ناشنوایان، بازیابی اطالعات ، مرتب سازی اس��ناد ، خالص��ه س��ازی اس��ناد , HTML .خالصه سازی فایل های صوتی و تصویری و ... اشاره کرد

تاریخچه خالصه ساز متن ب��ه وج��ود آم��د. یکی از50توجه و عالقه به خالصه س�ازی خوک��ار متن، اولین ب�ار ح��دود ده�ه

، پیشنهاد کرده بود که ب��رای ه��ر جمل��ه ی��ک وزن ق��رار1958مهمترین مقاالت اولیه در سال دهیم و با توج��ه ب��ه کلم��ات موج��ود در آن ، جمالتی ک��ه دارای وزن ب��اال و تک��رار کلم��ات مهم

، عالوه ب��ر م��دل و1969هستند، انتخاب کنیم. سیستم خالصه سازی خودک��ار متن، در س��ال روش فوق با استفاده از اضافه کردن کلمات کلیدی استاندارد، تحولی را ایجاد ک��رد. همچ��نین

روش زیر هم استفاده کرده بود : 3برای تعیین وزن جمالت از

- روش نشانه: این روش مبتنی بر ارتباط جمالت و کلمات بود، به این ص�ورت ک�ه وج�ود ی��ا1عدم وجود برخی از کلمات در جمله محاسبه می شد. )با استفاده از فرهنگ لغات نشانه( .

- روش عنوان: در این روش وزن جمله براساس تمام کلم��اتی ک��ه در عن��وان و زی��ر عن��وان2متن وجود داشت محاسبه می شد.

- روش مکان: در این روش مکان هر جمله با ی�ک بخش از متن بررس�ی می ش�د و احتم�ال3ارتباط بین آنها مورد نظر قرار می گرفت.

3

Page 4: خلاصه ساز اتوماتیک متن

روش فوق باعث شد که خالصه سازی خودک��ار متن ش��باهت3نتایج نشان داد که استفاده از Trainable Document Summarize، )1995زیادی به خالصه سازی انسان داشته باشد. در سال

TDSبر اساس وزن اکتشافی اس��تخراج جمالت را انج��ام می داد. در این روش وی��ژگی ه��ای ) زیر مورد استفاده و بررسی قرار گرفت.

- ویژگی طول جمله ی برش خورده: جمالتی که حاوی تعداد کمتری از کلمات از پیش تعیین1شده باشند در خالصه گنجانده نشده باشند.

- ویژگی عبارات ثابت: جمالتی که حاوی کلمات و عبارات معین نشانه دار باشند.2

- ویژگی پاراگراف: این روش اساسا مبتنی بر روش مکان است.3

- ویژگی کلمات موضوعی: شایع ترین کلمات به عنوان کلمات موضوعی شناخته می شوند.4

تابعی جمالت را بررسی کرده و براساس تکرار کلمات موضوعی به آنان نمره می دهد.

- ویژگی کلماتی که ب��ا ح��روف ب��زرگ نوش��ته ش��ده ان��د: این کلم��ات هم ب��ه عن��وان کلم��ات5موضوعی شناخته می شوند )البته با استثناء های بدیهی(.

به صورت خودکار به صورت مس��تقل ب��ه خالص��هANES سیستم استخراج متن 1995در سال سازی داده های خبری پرداخت.

عوامل تاثیرگذار در خالصه سازی محتوای خالصه بستگی زیادی به ورودی ، طبیعت متن ، هدف ، مقصد خواننده و دیگ��ر م��وارد

دارد. عواملی که در خالصه سازی مهم می باشد به شرح زیر می باشد:

- عوامل ورودی :1

)فرم ورودی: ش��امل ط��ول متن ورودی، س��اختار متن )پ��اراگرافی ، نه��اد ، گ��زاره ای است. )ساختار متن به طور مس��تقیم روی پ��ردازش متن ت��اثیر می گ��ذارد( . زب��ان

متن ، نوع متن موضوع متن: شامل سه م��ورد ع��ادی و خ��اص و مح��دود ش��ده می باش��د. متن ع��ادی

شامل موضوعاتی است که دامنه دانش وسیعی دارن��د همانن��د ورزش و باغب��انی. متنخاص متن هایی هستند که بستگی به دانش فرد خواننده دارند

متن محدود شده: متنی است که موضوع خاص مربوط به ی��ک س��ازمان ی��ا انجمن میباشد.

- عوامل خروجی: شامل زیر عامل محتوا، فرمت و شیوه است.2

، عام��ل محت��وا: این عام��ل مرب��وط ب��ه آن اس��ت ک��ه خالص��ه ع��ادی ی��ا ج��واب پاس��خ استخراجی و یا چکیده است ، اگر خالصه عادی باشد تمامی اطالع��ات مهم متن را در

بر می گیرد یا اینکه بعضی از موارد مهم کافی است.عامل ف��رمت: روان ، منس��جم و غ�یر منس�جم ب�ودن خالص�ه متن در عملک�رد خالص�ه

سازی تاثیر مستقیم دارد.عامل شیوه: انواع مختلف خالصه سازی را بیان می دارد. شیوه خالصه س��ازی خ��بری

و یا آگاهی بخش باشد خالصه تجمیعی ، متن خالصه را از چندین منب��ع جم��ع آوری مینماید.

4

Page 5: خلاصه ساز اتوماتیک متن

- فاکتورهای هدف: مورد استفاده متن و علت خالصه سازی چه می باش��د ک��ه ب��ه س��ه زی��ر3عامل شنوندگان، شرایط و نحوه استفاده بستگی دارد.

عامل شنوندگان: دانش شنوندگان در زمینه متن مورد خالصه ت��ا چ��ه ح��دی می باش��د این مساله به طور مستقیم روی نتیجه خالصه تاثیر می گذارد.

عامل شرایط: خالصه قرار است در کجا مورد استفاده قرار بگیرد ، اگر زمینه خالص��ه در سطح وسیهی شناخته شده باشد جزییات را حذف می نماید.

کاربرد: موارد استفاده خالصه چه می باشد. این مساله ب��ه ط��ور مس��تقیم روی نح��وه تولید متن خالصه تاثیر خواهد گذاشت ب��ه عن��وان مث��ال وس��یله ای ب��رای بازی��ابی متن است، جایگزینی برای متن ورودی می باشد یا اینک��ه م��روری ب��ر مت��نی اس��ت ک��ه قبال

خوانده شده است.

ویژگی های کمی که می توان در خالصه سازی مشخص کرد عبارتنداز:

ارزش معنایی اطالعات : می توان به معیاری به عنوان ت��وان خالص�ه س�ازی متن ب��ه آن-1اشاره کرد .

پیوستگی و انسجام : چگونگی ایجاد بخش های خالصه شده به عن��وان ی��ک متن مت��والی-2یکپارچه .

نسبت تراکم .-3

چالش های خالصه سازی خودکار: خالصه سازی اطالعات از یک یا چند منبع ب��ه بخش��ی از زن��دگی روزم��ره تب��دیل ش��ده اس��ت. مردم منتظر رسیدن و شنیدن اخبار هستند. این اخبار در تصمیم گیری ه��ای آن مث��ل س��رمایه گذاری در بازار اثرگذار است . با خالصه سازی ، آنها می توانند تصمیمات موثری را در زم��ان کمتر بگیرند. گرچه برخی از ابزارهای خالصه سازی در دسترس هستند، اما ب��ا اف��زایش حجم اطالعات آنالین ، تبدیل کردن اطالعات به خالصه معنادار و ب��ه موق��ع ب��ه ک��اری س��خت تب��دیل

شده است.

مشکالت خالصه سازی از دید ماشین - پیچیدگی درک زبان طبیعی می باشد برای درک زبان طبیعی ب��ه اش��کال مختلفی از دانش1

نیاز می باشد از جمله آن:

دانش صوت شناسی : ارتباط لغات با اصوات را نشان می دهد.1- 1

دانش مورفولوژی: روش سخت عبارات متنوع و مختلف از روی ریش��ه کلم��ات را بی��ان1-�� 2می دارد.

دانش نحوی: نحوه ساخت جمالت را با استفاده از ترکیب کلمات مختلف نشان می دهد.1- 3

دانش معنایی: معنی هر لغت چه می باشد و چطور این معانی ترکیب می شوند تا معنی4-1هر جمله تشکیل شود.

دانش عملی: جمالت چگونه در شرایط مختلف استفاده می شوند.5-1

5

Page 6: خلاصه ساز اتوماتیک متن

دانش سخن: این دانش نشان می دهد که معنی و وج��ود مجل��ه قبلی در تفس��یر جمالت1-�� 6بعدی چه تاثیری دارد.

دانش جهانی: شامل دانش عمومی در مورد ساختارهای اجتماعی تاثیر عوامل مختل��ف و7-1 موثر بر یکدیگر و دنیایی که کاربران زبان باید از آن برای تفس�یر جمالت و مت�ون مس�تقل ب�ه

زبان استفاده کنند می باشد.

درک شرایط: معنی جمالت مبتنی بر شرایط زمان تولید جمله است.8-1

- عدم موفقیت در درک متن مسایل عمده در عدم م��وفقیت در درک متن ب��ه ص��ورت زی��ر2می باشد:

عدم موفقیت در تعریف: عدم وجود استاندارد مشخص برای نمایش معنی جمله.2- 1

ع��دم م��وفقیت در پی��اده س��ازی توس��ط ق��وانین : معم��وال ب��رای درک زب��ان ط��بیعی از2-2 سیستمی استفاده می شود که نح��وه تجزی��ه جمالت ، روش تب��دیل ب��ه ف��رم چکی��ده جمالت و سایر کارها برای رسیدن به معنا را با قوانین نمایش می دهد. نقض ق��وانین ب��ه دلی��ل مس��ائل مختلف مانند استثناء و یا برخورد با مت��ون جدی��د و پیش بی��نی نش��ده ب��اعث ن��اتوانی در پی��اده

سازی این قبیل کارها در زمینه درک متن شده است .

نفوذ و تاثیر زمینه متن: از دیگر دالیل عدم موفقیت ، وابستگی معنای واقعی جمالت ب��ه2-�� 3 زمینه سخن اس��ت ک��ه مثال از نت��ایج آن ک��اربرد ی��ک لغت در مت��ون مختل��ف اس��ت ک��ه معن��ای مختلفی را نسبت به زمینه متن تولید می کند )این مسئله به خصوص در زب��ان فارس��ی خیلی

زیاد مشاهده می شود(

ابهام: وجود ابهام در متون هم مساله مهم و قابل توجهی می باشد.2- 4

تجزیه درست متن به جمالت ، تجزیه نحوی نه تنها باید از نشانه های ف�رمت گ�ذار متن و5-2 قواعد نقطه گذاری را در نظر بگیرد بلکه کلمه های توق��ف و ح��روف اختص��ار را ن��یز در تظ��ر

بگیرد.

طبقه بندی روش های خالصه سازی- دسته بندی از نظرشکل و فرمو سازماندهی 1

روش های گوناگونی وجود دارد، اما اغلب از روش های متعامد برای خالص��ه س��ازی اس��تفادهمی شود که به صورت زیر است

- دسته بندی از نظر سطح پردازشی2

روش س��طحی : ک��ه در این ح��الت اطالع��اتی نم��ایش داده می ش��ود ک��ه دارای وی��ژگی2.1 س��طحی اس��ت . وی��ژگی س��طحی عبارتس��ت از: ش��رایط آم��اری چش��مگیر، ش��رایط مک��انی

چشمگیر ، عبارت و نشانه ها و دامنه خاص که نتایج به صورت استخراجی هستند .

6

1.1 استخراج

1.2

Page 7: خلاصه ساز اتوماتیک متن

روش عمیق ترین: این حالت ترکیبی از اس��تخراج و ان��تزاع اس��ت. در این روش از تولی��د2.2 زبان طبیعی استفاده می شود در این حالت نیاز به تجزیه و تحلیل معنایی است مانن��د رواب��ط

نحوی و روابط معنایی .

- طبقه بندی براساس مخاطب3

هنگامی که مخاطب ما شخص است حاالت زیر را داریم:

خالصه های عمومی : زمانی که هدف م��ا نتیج��ه ای اس��ت ب��رای ی��ک جامع��ه گس��ترده از3.1خوانندگان و به طور عمده همه مباحث به یک درجه اهمیت دارند.

خالصه سازی مبتنی بر پرس و جو : زمانی که هدف ما پاسخ ب��ه ی��ک س��وال اس��ت مث��ل3.2علت باال بودن تورم چیست؟

تمرکز کار بر روی یک موضوع خاص: که در این روش هدف ، منافع کاربر اس��ت و تاکی��د3.3روی موضوعات خاص

- و یا طبقه بندی هایی از قبیل4

یک سندی یا چند سندی )طول متن(4.1

یک زبان یا چند زبانه بودن )زبان(4.2

ژانر سند )علمی ،تخیلی، خبری و...(4.3

من سعی دارم بیشتر بر روی دس��ته بن��دی از نظ��ر ش��کل و ف��رم و س��ازماندهی ص��حبت کنمهمانطور که ذکر شداین روش به دو دسته استخراج و چکیده تقسیم بندی می گردد.

- استخراج :1 رویکرد تهی از دانش ک��ه از جمالت متن اس��تفاده می کن��د- در این روش جمالت و پ��اراگراف های مهم ، از متن اصلی انتخاب شده ، به یکدیگر الحاق شده و به شکل کوتاه تر در می آید. جمالت مهم ، براساس ویژگی های آم�اری و زب��ان ش�ناختی انتخ��اب می ش��وند. در این روش

معموال تاکید بر تعیین جمالت برجسته و ارتباط آماری و واژگانی با الگوهای عبارتی است.

)خالص��ه اس��تخراجی ، توس��ط اس��تخراج بخش کلی��د متن، خالص��ه را می س��ازد و از تجزی��ه و تحلیل های آماری، میزان تکرار کلمات و عبارات و محل قرارگیری نشانه ه��ا و کلم��ات ب��رای فرموله کردن روش خود استفاده می کند. مجم��وع این معیاره��ا، ی��ک وزن را ب��رای آن جمل��ه

ایجاد می کند.(

.در اکثر حاالت از مدل وزن خطی برای انتخاب جمالت استفاده می شود * در بخش تجزیه و تحلیل در این مدل ، هر واحد مبت��نی ب��ا توج��ه ب��ه وی��ژگی ه��ایی از قبیل: محل وقوع در متن، میزان تکرار، بازه زمانی تکرار )هر چن��د وقت یکب��ار تک��رار شده( ، عبارات و نشانه ها و معیارهای آماری بررسی می شود. مجموع این معیاره��ا،

یک وزن را برای آن جمله ایجاد می کند.

، در مدل دیگر، که مدل وزن مکانی است، جمله براساس م�وقعیت ق��رار گ��یری )اول وسط ، آخر پاراگراف یا متن( بررس��ی می ش��ود و وزن می گ��یرد. عب��اراتی مث��ل "در

7

Page 8: خلاصه ساز اتوماتیک متن

، ب��ه ط��ور مث��ال ح��ائز اهمیت"نتیجه" ، "در این مقاله" و "تحقیقات ما نشان می دهد هستند و می توانند بر روی وزن جمالت نیز اثر گذار باشند .

( است که بعدا توضیح خواهم داد.TF & IDFیکی از معیارهای برجسته آماری )

در این شکل ساختار کلی خالصه سازی با رویکرد تهی از دانش نمایش می دهد.

ب��ا محاس�بات مک��رر و عملی��ات تط��ابق الگ��و، ب��رای ه��ر واح�د متندر فاز تجزیه و تحلیل: )جمله( یک وزن از روش مدل وزن خطی، مش��خص می ش��ود. س��پس جم��ع بن��دی این اوزان برای هر واحد متن صورت گرفته و در بخش ترکیب و تلفیق ، جمالت انتخاب ش��ده ت��رکیب و

به متن خالصه منتقل می شوند.

در بسیاری از سیستم ها، کاربر مجموعه ای از پارامترها را به صورت دستی تنظیم می کن��د. در این روش هیچ تالشی برای درکمتن صورت نمی گیرد و خالص�ه ب��ا مفه��ومی س�اده ، پی��اده

سازی می شود.

مرحله تقسیم می شود: 2فرآیند خالصه سازی متن به روش استخراجی به

- مرحله پردازش .2- مرحله پیش پردازش 1

: ساختار متن اصلی را نمایش می دهد که این ح��الت معم��وال ش��املپیش پردازش موارد زیر است.

. شناسایی مرزبندی جمالت: در زبان انگلیسی ، مرزبندی جمالت با حض��ور نقط��ه ش��ناخته1می شود .

. ح��ذف کلم��ات مقط��ع: کلم��اتی ک��ه دارای هیچ مفه��ومی نب��وده و نمی ت��وان درب��اره آنه��ا2اطالعاتی جمع آوری کرد .

. ریشه یابی : هدف از ریشه یابی، به دست آوردن ریشه هر کلمه و به دست آوردن و تاکید3بر معنای آن است.

:ویژگی ه��ای م��وثر و ارتب��اط جمالت محاس��به و تش��خیص داده میمرحله پردازش ( ، وزن اختص�اص دادهWLشود و سپس به آنها با اس�تفاده از روش »آم��وزش وزن« )

8

Page 9: خلاصه ساز اتوماتیک متن

می شود. نمره نهایی هر جمله با استفاده از معادل وزن آن ، تعیین می ش��ود.به��ترینجمالت رتبه بندی و برای خالصه نهایی انتخاب می شوند.

مدل هایی که از روش استخراجی استفاده کرده اند " از توالی جمالت واجد شرایط برای خالصه سازی متن استفاده می کند ایدهLuhn- روش "1

اصلی این طرح مبتنی بر کشف کلماتی است که بار اصلی متن را بر دوش دارند و به صورتمکرر در متن از آنها استفاده شده است .

گام اول: کشف کلمات مهم است که به کمک تکرار آنها و تجربه به دست می آید.

گام دوم: رتبه بندی جمالت است, با توجه به وجود کلمات مهم در آنها و فاصله ی این کلماتدر جمله و در آخر انتخاب جمالت نهایی به عنوان نتیجه است.

" با معرفی کلماتی کهEdmunson سال پیشرفت های قابل توجهی انجام شد. کار "10پس از عنوان متن را مشخص کند معرفی ش��د ، ب��ه ط��ور مث��ال کلم��اتی همچ��ون "مهم" ، "نت��ایج" ،

"مقدمه" و... در اول جمالت .

هم پیشرفت هایی به ارمغان آمد . از آن زمان ، با استفاده از هوش مصنوعی به90در دهه عنوان یک راه ترکیبی در سیستم های مختلف استفاده شد. در هزاره جدید هم به دلیل

تغییرات اسناد به صورت چندرسانه ای ، روش های جدیدی برای کاهش حجم اطالعات بهوجود آمده است.

- نتایج نشان داد که خالصه سازی خودکار متن شباهت زیادی به خالص��ه س��ازی انس��ان دارد2)1995در س��ال Thrainable Document Summarizer: �)TDS، براس��اس وزن اکتش��افی

استخراج جمالت را انجام می داد در این روش ، وی��ژگی ه��ای زی��ر م��ورد اس��تفاده و بررس��یقرار گرفت.

ویژگی طول جمله برش خورده: جمالتی که حاوی تعداد کمتری از کلمات از پیش تع��یین2.1شده باشند و در خالصه گنجانده نشده باشند.

ویژگی عبارات ثابت: جمالتی که حاوی کلمات و عبارات معین نشانه دار باشند.2.2

ویژگی پاراگراف : این روش اساسا مبتنی بر روش مکان است.2.3

ویژگی کلمات موضوعی: شایع ت��رین کلم��ات ب��ه عن��وان کلم��ات موض��وعی ش��ناخته می2.4 شوند . تابعی جمالت را بررسی کرده و براساس تکرار کلمات موض��وعی ب��ه آن��ان نم��ره می

دهد.

ویژگی کلمات که با حروف ب�زرگ نوش�ته ش�ده ان�د : این کلم�ات هم ب��ه عن�وان کلم�ات2.5موضوعی شناخته می شوند و البته با استثناء های بدیهی .

ب��ه ص��ورت خودک��ار ب��ه ص��ورت مس��تقل ب��هANES سیستم اس��تخراج متن 1995- در سال 3 مرحله اصلی بود:4خالصه سازی داده های خبری پرداخت این فرآیند شامل

9

Page 10: خلاصه ساز اتوماتیک متن

-4 وزن جمالت 3-3 انتخاب آماری کلمات مهم 3- 2 تجزیه و تحلیل متن 3- 1 انتخاب جمله3

ویژگی های خالصه سازی متن در روش استخراجی : براساس ویژگی های مطرح شده برای انتخاب جمل��ه نه��ایی در روش اس��تخراج، بای��د

موراد زیر را در نظر گرفت .

& TF ویژگی کلمات کلیدی: کلمات کلیدی معموال اسم هستند و با استفاده از اندازه گیری .1IDF. تعیین می شوند

TFتکرار اصطالح :

IDFتکرار معکوس سند :

TF & IDFآمار عددی که نش��ان دهن��ده اهمیت ی��ک کلم��ه در متن اس��ت. جمالتی ک��ه ح��اوی : کلمات کلیدی هستند ، شانس بیشتری برای گنجانده شدن در خالصه دارند. روش های دیگری

هم برای استخراج کلمات کلیدی وجود دارند :

تجزیه و تحلیل مورفولوژیک1-1

(NP استخراج و امتیاز دهی عبارات اسمی )2-1

خوشه بندی و امتیاز دهی عبارات اسمی 3-1

بعدا برای این مدل توضیحات بیشتری ارائه می شود.

ویژگی کلمات عنوانی: جمالتی که دارای کلماتی هس��تند ک�ه در عن��وان ظ�اهر ش�ده ان��د و.2 همچنین نشان دهنده موضوع سند هستند. این جمالت شانس بیشتری برای حضور در خالص��ه

دارند.

ویژگی محل استقرار مکان جمله: معم��وال جمل�ه اول و آخ��ر از ه��ر پ�اراگراف بس��یار مهم.3هستند و شانس بیشتری برای حضور در خالصه دارند.

ویژگی طول جمله: جمالت بسیار بزرگ و بس��یار کوچ��ک معم��وال در خالص��ه گنجان��ده نمی.4شوند.

ویژگی اسم مناسب: اسم مناسب مثل اسم یک شخص ، یک مک��ان ، ی��ک مفه��وم و غ��یره.5است. جمالتی که حاوی اسم مناسب هستند شانس بیشتری برای حضور در خالصه دارند.

ویژگی کلماتی که با حروف بزرگ نوشته شده اند: جمالتی که حاوی کلم��ات اختص��اری ی��ا.6نام های مناسب هستند در خالصه گنجانده می شوند .

،"this وی��ژگی عب��ارت نش��انه دار: جمالتی ک��ه ح��اوی عب��ارات نش��انه دار )مثال ".7 letter"") هستند ، به احتمال زیاد در خالصه قرار می گیرند .

10

Page 11: خلاصه ساز اتوماتیک متن

ویژگی کلمات جانبدارانه: اگر مشخص شود که در جمله کلمه ای وجود دارد که در لیس��ت.8 کلمات جانبدارانه است، آن جمله مهم است . لیس��ت کلم��ات جانبداران��ه قبال تعری��ف ش��ده و

ممکن است دامنه خاص از کلمات را شامل شود.

ویژگی مبتنی بر فونت )قلم( : جمالتی که حاوی کلماتی باشند که با حروف بزرگ ، ضخیم.9(bold( مورب ، )italic( و یا زیر خط دار )under line. نوشته شده باشند معموال مهم هستند )

نمی توانند در خالصه باشند مگر اینکه متناظر آنها بهshe" ," they" " ضمایر: ضمایر مانند.10اسم خاص اشاره کرده باشد که در متن گسترش یافته است.

« شباهت ها بین جمل��ه یS جمالتی که دارای همبستگی هستند: برای هر جمله ای مثل ».11«Sو هر جمله در سند بعدی می شود، سپس جمالتی ک��ه مش��ابه هس��تند ارزش گ��ذاری می »

« به دست می آید. این رون��د ب��رایی هم��ه ی جمالت س��ند تک��رارSشوند سپس ارزش جمله »می شود.

« برداری ک��هS جمالتی که مرکز ثقل آنها دارای انسجام است: برای هر جمله ای مانند ».12 نشان دهنده مرکز ثق�ل آن جمل�ه اس��ت انتخ��اب می ش��ود ک��ه می��انگین حس��ابی اش بیش از مقادیر مربوط به سایر جمله های سند است .سپس تشابهات بین مرکز ثقل هر جمل��ه ب��ا هم

محاسبه شده و در نهایت ارزش هر جمله محاسبه شده و به دست می آید.

بروز اطالعات غیر ضروری : برخی کلمات به عنوان اطالعات غیر ض��روری ش��ناخته می.13furthermoreشوند . این کلمات نشانگر بیاناتی مثل , becauseو معموال در آغاز جمله وج��ود

، می ت��وان مش��خص ک��رد جمل��ه دارای ح��داقل ی��ک اطالع0و1دارند. ب��ا اس��تفاده از وی��ژگی غیرضروری هست یا نه.

تجزیه و تحلیل گفتمان: اطالعات سطح گفتمان ، یکی از ویژگی هایی خوب برای خالصه.14 سازی متن است. به منظور تولید یک خالصه روان و منسجم تعیین جریان اس��تدالل نویس��نده الزم است و الزم است که ساختار کل گفتم��ان متن تش��خیص داده ش��ود ک��ه این ام��ر پس از

هدف جمالت فرعی از متن و رسیدن به متن اصلی امکان پذیر می گردد.

ویژگی های فوق الذکر تعدادی از مهم ترین روش های خالصه سازی متن هستند که از آن ه��ا استفاده شده است این ویژگی ها بخش های آماری و زبانشناختی یک زبان را مشخص ک��رده

و پوشش می دهد.

روش های خالصه سازی استخراجی تکرار اصطالحات و تکرار معکوس سند است که نشان می دهدTF- IDF : TF- IDF- روش 1

یک کلمه چقدر مهم است به عبارت دیگر آمار عددی ارائه می دهد و میزان اهمیت ی��ک کلم��ه در یک سند یا مجموعه ای از اسناد است. این معی��ار معم��وال در ش��یوه وزن دهی و در ح��الت استخراجی استفاده می شود با این شیوه کلمات مهم به دست می آین��د و می توان��د ب��ه پی��دا

-TFکردن شایع ترین کلمات کمک کند. مقدار IDFمعموال در موتورهای جستجو به عنوان ی��ک ابزار مرکزی برای رتبه بندی و ارتباط اسناد کاربرد دارد. همچنین از این ابزار می توان ب��رای فیلترینگ مبتنی بر کلمات استفاده کرد. به عنوان یک مثال ، فرض کنید ما در مجموع��ه ای از

« . یک راه ساده اینthe brown cowاسناد انگلیسی به دنبال جمله »گاو قهوه ای« هستیم »

11

Page 12: خلاصه ساز اتوماتیک متن

« بگردیم . تعداد دفعاتی کهthe» ، «brown» ، «cow کلمه »3است که از ابتدا در متن دنبال « کلم��هthe( تکرار اصطالح نامی��ده می ش��ود. کلم��ه »TFیک اصطالح در سند موجود است ، )

ای است که در تمام اسناد موجود و جزء کلمات شایع است ، پس کلید واژه ی مناسبی ب��رای « کلماتی هستند که مناسب تر و کمتر ش��ایع هس��تند از اینcow« و »brownجستجو نیست. »

« )تکرار معکوس سند( باعث می شود که وزن عباراتی که مهم نیس��تند مث��لIDFرو فاکتور »«the.کاهش پیدا کند و وزن کلمات اثرگذار و مهم افزایش »

در اسناد معموال به موض�وعات مختل�ف پرداخت�ه ش�ده- روش مبتنی بر خوشه بندی :2 که انها را معموال یکی پس از دیگری به ص��ورت س��ازماندهی ش��ده در س��ند ق��رار داده ان��د و معموال بخش های اصلی به صورت ضمنی یا صریح به بخش ه��ای کوچکترشکس��ته ش�ده ان��د. حتی خود این سازماندهی را می توان به عنوان یک خالصه در نظ��ر گ��رفت. ب��رخی از خالص��ه سازها مبتنی بر همین دسته بن��دی و خوش�ه بن�دی ک�ردن ، موض�وعی عم��ل می کنن�د. ب��ا این روش در خالصه س��ازی چندس��ندی می ت��وان ه��ر س��ند را براس��اس موض��وعات آن خالص��ه و سپس خالصه ها را باز براس��اس موض��وعات ب��ا هم تط��ابق و در نه��ایت ، خالص��ه ی نه��ایی را

اس��تفاده میTF-IDFایجاد کرد. برای ایجاد سند نهایی در حالت خوشه بندی ، دوب��اره از روش کنیم و کلمات مربوط به هر موضوع را چک کرده و درنه��ایت خوش��ه ه��ایی ک��ه وزن بیش��تریدارند را به عنوان یک موضوع مهم تر در نظر گرفته و به خروجی )خالصه ی نهایی( می بریم.

هم��انطور ک��ه در روش قبلی دیدی��د، اولین گ��ام در خالص��ه- رویکرد نظریه گWWراف هWWا:3 ک���ردن ، خالص���ه س���ازی براس���اس موضوعات مطرح شده در س��ند ب��ود. نظریه گراف ه��ا ب��رای شناس��ایی این موض��وعات و شناس��ایی آنه��ا ، کم��ک می کن������د و ک������ارایی دارد. پس از گذش��تن مراح��ل مش��ترک ، )هم��ان ح���ذف کلم���ات و جمالت دارای وزن کمتر( جمالت منتخب ب��ه عن�وان گ�ره ه��ای ی��ک گ��راف ب��دون جهت نم��ایش داده می شوند. ب��رای ه��ر جمل��ه ی��ک گره وجود دارد. )دو جمله ب��ا ی��ک لب��ه

جمل��ه2به هم متصل می شوند اگر، داراری کلم���ات و عب���ارات مش���ابه

باشند و یا شباهت آنها در حدود و آستانه ی باالیی باشد( .

- بخش بندی موضوعات به ص��ورت1 بخش مجزا را نمایش می دهد: 2 این ارتباط در گراف - قرار دادن جمالت مشابه در یک بخش . )منظور از بخش همان زی��ر گ��راف ی��ا زی��ر2مجزا .

مجموعه است.( این گراف اجازه می دهد تا انتخاب جمالت ما پوشش خ��وبی داش��ته باش��د و خالصه ای کامل از نظر عنوان ها داشته باشیم. حال با داشتن این گراف ما می توانیم پ��رس و جوهای اختصاصی )مربوط به یک عنوان( را نیز داشته باشیم. به این صورت که می ت��وانیم از یک زیر گراف یک خالصه تولید کنیم . ی��ا می ت��وانیم ب��رای پ��رس و جوه��ای عم��ومی از ه��ر

زیرگراف یک نماینده )یک جمله( انتخاب و به خروجی ببریم.

یکی دیگر از مزایای این گراف این است که می توانیم جمالت مهم را شناسایی کنیم. گ��رهی که دارای کار دینالیتی باالست )یعنی تعداد لبه های متصل به آن گره باالست( ، طبعا و قطع��ا

12

Page 13: خلاصه ساز اتوماتیک متن

جمله مهمی است و می توان��د در خالص��ه گنجان��ده ش��ود. )در عکس جمالتی ک��ه دارای گ��رهپررنگ تر و بزرگتر هستند به مفهوم جمالت کلیدی آن بخش در نظر گرفته شده اند( .

از روش نظریه ی گراف ها می توان برای تط��ابق و ش�باهت اس�ناد ب�ه یک�دیگر ن�یز اس�تفادهکرد.

در رون��د خالص��ه س��ازی ب��ه روش اس��تخراجی ، می توان��د- روش یWWادگیری ماشWWین : 4اشکاالت را یه شکل زیر طبقه بندی کرد :

دس��ته ی جمالت موج��ود در2جمالت سندی بسته به وی��ژگی ه��ای خالص��ه س��ازی ب��ه خالصه نهایی و جمالت بی ارزش )جمالتی که در خالصه نه��ایی وج��ود ندارن��د( تقس��یم

بندی می شوند .:احتماالت براساس قانون بیر طبقه بندی می شوند

P (S∈<S|F|, f 2 ,…,F N )=P ¿

« ب��هS« ها به ویژگی ه��ای طبق��ه بن��دی و »F« به جمالت سند اشاره می کند ، »sکه در آن » خالصه ی تولید شده. با استفاده از قانون گفته ش��ده ، خ��ود ماش��ین می توان��د ب��رای انتخ��اب

جمالت تصمیم گیری کند.

( یک ابزار قدرتمند ریاضی است که می تواند ابع��ادSVDتجزیه مقدار منفرد ): LSA- روش 5 متعامد داده های چند بعدی را به دس��ت بی��اورد . این روش از منط��ق ه��ای مختل��ف به��ره می

گیرد از جمله :

KL )تحول در پردازش تصویر( PCAتجزیه و تحلیل مولف��ه ه��ای اص��لی در فرآین��د س��یگنال) و( LSA تجزیه و تحلیل معنایی نهفته در پردازش متن(. در روش( LSA ، SVDبر روی ماتریسی از

کلمات که از ارتباط اسنادی که از نظر معنایی با هم مرتبط هستند به وجود آمده، اعمال می شود. کلماتی که معموال در موضوعات مشابه مورد استفاده قرار می گیرند، معم��وال کلم��اتی هستند که مربوط به همان فضا هستند. در این روش ، کلمات عنوان ه��ا و محت��وای جمالت از

می توان ارتباط مفهومی کلمات را بهLSAسند اصلی استخراج می شود. با استفاده از بردار دست آورد و در حالی که ارتباط��ات را داریم ب��ا اس��تفاده از ط��راحی روش ه��ای ص��حیح ، ب��ه

می توان��د ابع��اد متعام��د جمالت را پی��داSVDاستنتاج مفهومی روابط بپردازیم. از آن جایی که کند ، در هر بعد می توان جمله ای را که نماینده ی تضمینی مربوط به آن سند است ، انتخاب

کنیم . این تعامد عدم افزونگی را تضمین می کند.

این ایده برای ب�ه دس�ت آوردن- روشی برای به دست آوردن خالصه ی مفهومی :6Howمفاهیم کلمات است که براساس طرح Nefاست و به جای کلمات از مفاهیم آنها به��ره

می برد. این روش با استفاده از مدل فضای ب��ردار مفه��ومی، ی��ک خالص��ه ی ن��اهمگون را ب��ه دست آورده و سپس با محاسبات ش��باهت معن��ایی جمالت را پی��دا ک��رده و جمالت اض��افی را

مرحله ی اصلی است. 3برای کاهش افزونگی حذف می کنند این روش شامل

How- استفاده از 1 Nefبه عنوان اب��زاری ب��رای ب��ه دس��ت آوردن مفه��وم متن و ایج��اد م��دل فضای بردار مفهومی.

- محاسبه ی اهمیت مفاهیم به دست آمده براساس مدل فضای بردار مفهومی.2

13

Page 14: خلاصه ساز اتوماتیک متن

- ایجاد خالص��ه ی نه��ایی ب��ا محاس��به ی اهمیت جمالت و ک��اهش اف��زونگی خالص��ه ی ایج��اد3شده.

این روش با اس��تفاده- روش خالصه سازی متن با استفاده از شبکه های عصبی: 7 از شبکه های عصبی یاد می گیرد که چگونه جمالت را باید در خالص��ه ج��ای ده��د در این روش شبکه بر روی چند پاراگراف ایجاد شده و تشخیص می دهد که جمله باید در خالص��ه گنجان��ده

شود یا نه .

شبکه ه��ای عص��بی از الگوه��ای ذاتی ب��رای انتخ��اب جمالت و گنجان��دن ی��ا ع��دم گنجان��دن در سطحی استفاده می کند .3خالصه نهایی استفاده می کنند . شبکه های عصبی از یک تابع

اولین سطح آموزشی است که به شبکه ی عصبی داده می ش��ود ت��ا ب��ر مبن��ای آن جمالت را انتخاب کند. )عکس نشان می دهد که چه طوری توابعی که آموزش دیده شده ان��د،جمالت را

انتخاب کرده و سپس مرحله خالصه نهایی را تولید می کند.(

هنگامی که شبکه ی عصبی آموزش ها و ویژگی ها را آموخت، نیاز به کشف روندها و رواب��ط مرحله است :2بین جمالت را داریم. این بخش متشکل از

- حذف تاثیرات ویژگی های مشترک.2- از بین بردن ویژگی های غیر معمول 1

اتصاالتی که دارای وزن سبک هستند، چون اثری بر عملکرد ش�بکه ندارن��د، می توانن��د ح��ذفشوند . در نهایت نیز تمام ارتباطات بی اثر در الیه های مختلف از شبکه حذف می شوند.

14

Page 15: خلاصه ساز اتوماتیک متن

با استفاده از خوشه بندی تطبیقی ، الیه ها خوشه بندی می شوند. هر خوشه براس��اس ج��رم آن شناخته می شود. در نهایت پس از محاسبه و ارائه ی پارامترهای کن�ترل ب��رای رتب�ه بن�دی

خوشه ها خالصه نهایی ایجاد می شود.

این روش براساس شاخص هایی مث��ل- روش خالصه سازی مبتنی بر منطق فازی: 8 طول جمله، شباهت عنوان ها ، شباهت کلم�ات کلی�دی و... ب�ه عن��وان ورودی سیس�تم ف�ازی عمل می کند. سپس تمام قوانین ب��رای خالص��ه س��ازی را در پایگ��اه دانش سیس��تم ق��رار می دهد. پس از این مرحله یک مقدار )صفر تا یک( را برای هر جمل��ه براس��اس قواع��د و وی��ژگی های موجود در پایگاه دانش تعیین می کند. مقدار به دست آمده برای هر جمله، اهمیت جمل��ه را برای گنجاندن در خالصه ی نهایی نشان می دهد. برای هر یک از ویژگی های ت��ابع عض��ویت

)بسیار باال( وجود دارد کهVH)باال( ,H )متوسط( و M )کم و بسیار کم( ،VL , L تابع عضویت 3-Ifارزش گذاری مبتنی بر آنها اس��ت. جمالت مهم ب��ا اس��تفاده از ق��انون thenو ب��ا توج��ه ب��ه

معیارهای ضروری قابل استخراج هستند. رون��د خالص��ه س��ازی متن در سیس��تم ف��ازی در اینشکل نمایش داده شده است .

15

Page 16: خلاصه ساز اتوماتیک متن

بخش مهم در طراحی سیستم فازی ، انتخاب قواعد فازی و تواب��ع عض��ویت اس��ت. مجموع��ه ای از قواعد فازی و توابع عضویت ب��ه ط��ور مس��تقیم در عملک��رد سیس��تم ف��ازی ت��اثیر گ��ذار

جز است :4هستند سیستم فازی متشکل از

1 -fuzzi fierورودی ها با توجه به ارزش زبانی و تابع عضویت ، به متغییرهای زبانی ترجم��ه : می شوند.

برای استخراج مقادیرIf- then ، موتور استنتاج به قوانین fuzzi fier- موتور استنتاج: پس از 2زبانی اشاره دارد.

3 -defuzzi fierدر این مرحله متغییرها پس از خروج از استنتاج ، با استفاده از تابع عضویت : به ارزش نهایی خود تبدیل می شوند.

- پایگاه دانش4

- خالصWWه سWWازی بWWا اسWWتفاده از رگرسWWیون بWWرای بWWه دسWWت آوردن وزن هWWا:9 رگرسیون ریاضی ، مدلی خوب برای ب�ه دس�ت آوردن وزن جمالت اس�ت. در این م�دل ، ی��ک تابع ریاضی یک خروجی را با یک ورودی مرتب��ط می کن��د. پارامتره��ای مهم در خالص��ه س��ازی اسناد انگلیسی ب��ه عن��وان پارامتره��ای ورودی مس��تقل هس��تند و پارامتره��ای خ��روجی هم در مرحله ی آموزش مشخص می شوند. رابطه ی بین خروجی و ورودی ایجاد می ش��ود. س��پس داده ها به مدل سیستم برای ارزیابی و محاس��به ی ک��ارایی داده می ش��وند. و م��ا می ت��وانیم

رگرسیون را به شکل زیر نمایش دهیم :

[ مدل خطیw[ ماتریس ورودی است )پارامترهای ویژگی( ، ]x[ بردار خروجی است ، ]Yکه ] وزن تعداد کل جمله ها را بیان می کند(w10⊂w1سیستم است )

در این روش خالص��ه ی حاص��ل ش��ده از- خالصه سWازی اسWتخراجی چنWد سWندی: 10 مجموع چند سند که موضوع آن مشابه هم است، به دس��ت می آی��د. این روش، این اج��ازه را به کاربران می دهد تا دسته ای از اطالعات خود را که درباره ی یک موضوع مش��خص اس��ت، به سرعت خالصه سازی نمایند. در خالصه سازی چند سندی اطالع��اتی انتخ��اب می ش��ود ک��ه مختصر و جامع باشد. گزینه های مختلف ب��ا هم ادغ��ام ش��ده و تم��ام موض��وعات در ی��ک س�ند

واحد شرح داده می شوند.

16

Page 17: خلاصه ساز اتوماتیک متن

NEATS، یک سیستم خالصه سازی چند سندی است که تالش می کن��د ب��ا روش اس��تخراجی ، مجموعه ای جالب و مرتبط از موضوعات اس��ناد را ب��ه ص��ورت منظم و منس��جم گ��ردآوری و

NEATSخالصه کند. اگر مجموعه ای از مقاالت روزنام��ه را ب��ه عن��وان مث��ال در نظ��ر بگ��یریم، مرحله تولید می کند: 3خالصه ای را در

- ارائه دادن.3- فیلتر کردن 2- انتخاب محتوا 1

هدف مرحله ی انتخاب محتوا، شناسایی مفاهیم مهم و اصلی اس��ناد اس��ت. در گ��امی کلی��دی با محاسبه ی نسبت احتم��ال ب��ه شناس��ایی مف��اهیم کلی��دیNEATSبرای انتخاب جمالت مهم ،

پرداخته و آنها را به دو دسته ی مجموعه ی مرتبط ب��ا موض��وع و مجموع��ه ی بی رب��ط دس��ته بندی می کنند با مفاهیم کلیدی در دسترس، این مفاهیم به منظور چک کردن زیر موض��وع ه��ا )زیر عناوین( در موضوع اصلی قرار می گیرند. خوشه ه��ا از طری��ق اتص��ال واژگ��انی تش��کیل می شوند. هر جمله در سند، ب��ا اس��تفاده از س��اختار مفه��وم کلی��دی ، رتب��ه بن��دی می ش��وند.

NEATS فیلتر استفاده می کند:3 ، از

- حداکثر ارتباط نهایی3- کلمات کلیدی 2- موقعیت جمله 1

فیلتر موقعیت جمله یک فیلتر مناس��ب اس��ت. جمالتی ک��ه معم��وال ب��ا کلم��ات کلی��دی هس��تند،دارای حاالت زیر هستند:

- حرف ربط - فعل و مشتقات آن - عالمت نقل قول - ضمایر

فیلتر کلمات کلیدی معموال باعث ناپیوستگی در خالص��ه می ش��ود . ب��رای اجتن��اب از وروداین جمالت به خالصه ، رتب��ه ی آنه��ا ک��اهش داده می ش�ود. در فیل��تر ح��داکثر ارتب��اط نه��ایی ، ب��ه موضوع افزونگی پرداخته می ش��ود. ی��ک جمل��ه ب��ه خالص��ه اض��افه می ش��ود اگ��ر و تنه��ا اگ��ر

% با خالصه همپوشانی داشته باشد. نسبت همپوشانی هم با استفاده ازXمحتوای آن کمتر از محاسبه می شود.xآستانه ی

در سیستم خالص��ه س��ازی مبت��نی ب��ر پ��رس و- خالصه سازی مبتنی بر پرس و جو:11 جو، جمالتی از سند که تعداد تک��رار آنه��ا بیش��تر اس�ت انتخ��اب می ش��وند. جمالتی ک��ه ح��اوی عبارات پرس و جو باشند، نم��ره ی بیش��تری را در مقایس��ه ب��ا جمالتی ک��ه فق��ط کلم��ه ای از پرس و جو را در خود دارند، می گیرند. سپس جمالتی که باالترین نمرات را دارند، با توجه ب��ه چارچوب ساختاری به خروجی می روند . برای اس��تخراج جمالت در روش مبت��نی ب��ر پ��رس و

جو الگوریتم زیر موجود است:

. رتبه بندی جمالت با توجه به نمرات آنها.1

. اضافه کردن عنوان اصلی سند به خالصه.2

. اضافه کردن عنوان های سطح اول به خالصه .3

. انجام کار تا زمانی که اندازه خالصه زیاد نشود.4

. اضافه کردن جمالت با باالترین نمره.5

. اضافه کردن بخش های ساختاری به جمالت .(درصورت عدم وجود(6

. اضافه کردن اصلی ترین عنوان به باالی متن.7

17

Page 18: خلاصه ساز اتوماتیک متن

. اضافه کردن زیر عنوان ها .8

.8 و7. تکرار گام 9

. پایان حلقه ی تکرار.10

خالصه سازی متون چند زبانه و ارائه خالصه به ی�ک- خالصه سازی متون چند زبانه : 12 ، برای شناسایی و محاسبهSim finder MLزبان واحد )مورد نظر( در این حالت مدنظر است.

مورد از ویژگی ها، ترکیب و یگ��انی اس��ت. س��ایر2ی متون مشابه، ویژگی های متعددی دارد ویژگی ها ، هندسی، نحوی ، زبانی و یا مبتنی بر دانش هستند. ویژگی های ترکیب و یگانی ب�ر پایه ی هندسی ساخته شده اند. ویژگی هندسی می تواند تنظیم��ات مختلفی را داش��ته باش��د. در این روش با نوشتن ماژول ه��ای جدی��د، می ت��وان از زب��ان ه��ای جدی��د پش��تیبانی ک��رد و از فرهنگ لغات برای ترجمه و سایر روش ه��ای خ�اص ه��ر زب��ان اس�تفاده و آنه��ا را ب��ه سیس��تم

یکی از برنامه هایی است که توان خالصه سازی چند زبان��ه و چن��د س��ندیMINDSاضافه کرد. را با سرعتی باال فراهم می کند.

مزایا و معایب روش استخراج

در روش استخراجی جمالت مهم از متن استخراج می شوند، جمالت مهم ب��ر اس��اس وی��ژگی س��ال گذش��ته10های آماریو زبانی انتخاب می شوند. بس��یاری از روش ه��ای اس��تخراجی در

دستخوش تغییرات شده اند.

: این روش آسان بودن اجرا و پیاده سازی آن است. مزیت

معایب:

شیوه تصمیم گیری برای انتخاب روش وزن گذاری روی جمالت در ایجاد خالصه نهایی-1 تاثیرگذار و مهم است ، در این روش زمان بیشتری بایدبرای روش تصمیم گ��یری وزن صرف کرد. معموال جمالت استخراج ش��ده از می��انگین بیش��تر اس��ت. ب��ا توج��ه ب��ه این

مطلب ، بخش هایی از متن که ضروری نیست نیز فضای اضافی را اشغال می کند. در این روش استخراج جمالت بدون در نظر گرفتن ارتباط آنها ص�ورت گرفت��ه ک��ه این-2

امر باعث به وجود آمدن خالصه ای بدون انسجام می ش��ود اطالع��ات مهم ی��ا مرتب��ط معموال در سراسر متن پراکنده هستند و خالصه اس�تخراجی نمی توان�د این مش�کل را

برطرف کند مگر اینکه خالصه به اندازه ای بلند باشد که این مشکل دیده نشود. جمل��ه اس��ت،2ممکن است جمله ها به صورت ناقص باشند و یا استداللی ک��ه دارای -3

تنها یکی از آنها استخراج شده که موجب غیر قابل فهم بودن یا ح��تی درک جانبداران��هشود ممکن است اطالعات متناقض در متن دیده شود.

بسیاری از تحقیقات ، در حال تالش برای رفع این مش��کل هس��تند. در ب��رخی از روش-4 ها از یک نگهدارنده برای جمله قبلی با یک فاصله از جمله ای که انتخ��اب ش��ده اس��ت پیشنهاد شده است اما با این روش فشرده سازی از دست می رود، چون بخش ه��ای غیر اصلی ذخیره می شوند. جمالتی که دارای جمالت ضمیمه )تکمیل کننده( هستند ،

18

Page 19: خلاصه ساز اتوماتیک متن

غالبا از دست می روند . در بدترین حالت این است که جمالت اس��تخراج ش��ده ممکن است تفسیری گمراه کننده را به مخاطب القا کند و اطالعات را ب��ه ص��ورت نادرس��ت نمایش دهد، یا مسائلی از این دست ممکن اس��ت پیش آی��د . مش��کالت ذک��ر ش��ده در مورد خالصه سازی چند سندی به مراتب ش��دیدتر اس��ت. رویک��رد کلی ب��رای ح��ل این مسائل شیوه استخراج سپس پردازش است. ب��رای مث��ال ج��ایگزین ک��ردن ض��مایر ب��ا

کلمات اصلی خود و یا جایگزین کردن زمان سنجی با زمان واقعی و... .

روش چکیده این روش تالش می کند تا درک درستی از مفاهیم یک سند پی��دا ک��رده ، پس ب��ه بی��ان این مفاهیم به زبان طبیعی می پردازد. این روش با استفاده از تکنیک های زب��ان ش��ناختی ب��ه بررسی و تفسیر متن پرداخته و مفاهیم اصلی را در می یابد ، پس با تولید یک متن جدی��د و کوتاه تر که انتقال دهنده و توصیف کننده اطالعات اصلی س�ند اس�ت ، خالص�ه ی آن را ایجاد می نماید. رویکرد مبتنی بر دانش که به درک معنای متن پرداخته و خالصه به��تری را ارائه می دهد . ) در این حالت خالصه دارای مفهوم متن اصلی است نه تکرار کلماتی ک��ه

عینا از متن اصلی کپی شده اند. (

در روش چکیده خالصه براساس فهم به دست آمده از متن ایجاد می شود که طبعا نتیجه (NLPبهتری خواهد داشت. چکیده نیاز به یک ماشین قدرتمند برای پردازش زبان ط��بیعی )

دارد، که بتواند دستور زبان و واژگان را تجزیه و تولید کند. همچنین نیاز به دانش دوباره و رویک��رد و2حوزه های خاص برای تحلیل و محاسبه دارد در ش��کل ب��رای روش چکی��ده ،

مدل اساسی نشان داده شده است.

روش اول )بخش باالیی شکل( استفاده از روش سنتی و نح��وی را ب��رای تجزی��ه و تحلی��ل نشان می دهد این روش می تواند اطالعات معنایی را در درخت تجزیه تشریح کند، عم��ل متراکم کردن درخت تولید شده برای از بین بردن بخش های اضافی باید انجام گیرد. پس

از انجام این عملیات درخت به صورت قابل مالحظه ای ساده و متراکم شده است.

روش چکیده ، تمرک��ز ب��ر ه��وش مص��نوعی و درک زب��ان ط��بیعی اس��تدر رویکرد دوم تجزیه نح��وی )درخت تجزی��ه( بخش��ی از فرآین��د تجزی��ه و تحلی��ل اس��ت ام��ا حاص��ل ان ب��ه

19

Page 20: خلاصه ساز اتوماتیک متن

صورت یک درخت تجزیه نیست. در عوض ساختار ایجاد شده ، نشان دهنده محتوای کامل منبع است ک��ه براس��اس دانش پای��ه ب��ه دس��ت آم��ده اس��ت. س��اختار می توان��د براس��اس فرمول های دیفرانسیل و انتگرال به دست آید و مانند شبکه های معن��ایی ی��ا مجموع��ه ای از قاب ها نمایش داده شود. به عنوان مثال ساختار یک فیش بانکی را در نظر بگیرید ک��ه

دارای فیلدهایی مثل تاریخ ، مقدار پول، حساب و ... است.

، رویکرد روش چکی�ده منحص�ر ب�ه ف�رد و مبت�نی ب�ر دانش اس�ت. تب�دیلدر فاز تبدیل نمایانگر تغییرات و مفهومی از طرق مختلف اس��ت. ح��ذف اطالع��ات در این روش بس��یار دقیق است. خروجی مرحله ی تبدیل ، به عنوان ی��ک س��اختار خالص��ه ش��ده و ی��ک مفه��وم متراکم شده، نمایش داده می شود. هم��انطور ک��ه در )ش��کل( می بی��نیم مرحل��ه تلفی��ق و

ترکیب ، برای هر دو روش برای ایجاد خالصه از قواعد استنتاج نیز استفاده می شود.

)شکل( پایگاه دانش مبتنی ب��ر کالس ه��ا و زی��ر گ��ره ه��ای آن اس��ت می ت��وان از واژگ��ان بزرگتر یا از زیرگروه ها استفاده کرد از میزان تکرار کلمات متن و مقایسه با این نمودار،

می توان دریافت که از چه دسته ای از کلمات می توان در خالصه استفاده کرد.

مشکالت این روش

در این روش کامپیوتر و محققان کار سختی برای انجام این کار به صورت دقیق و موف��ق دارند و توسعه و پیاده سازی برنام��ه ه��ایی ک��ه از این فن آوری اس��تفاده کنن��د س��خت ت��ر

است .

20

Page 21: خلاصه ساز اتوماتیک متن

استخراج در مقابل چکیده روش های مبتنی بر استخراج بس�یار آس�ان ت��ر و قاب��ل انطب�اق ت�ر ب�رای س�ندهای ب�زرگ هستند )نسبت به چکی��ده( ام��ا ممکن اس��ت نتیج��ه خالص��ه خیلی منس��جم نباش��د و ح��تی ممکن است بی ربط باشد. از سوی دیگر روش چکیده ، خالصه هایی را ارائه می دهد که اغلب حاوی بخش های غنی و مهم متن منبع است و از آنجایی که خالص��ه آن ب��ه محت��وای متن اشاره می کند نرخ فشرده سازی آن بسیار باالس��ت و مش��کل انس��جام در آن وج��ود ندارد. سیستم هایی که مبتنی بر این روش هستند به مراتب بای��د قدرتمن��د ت��ر از سیس��تم هایی باشند که از روش استخراج استفاده می کنند. ب��ه ط��ور کلی روش مبت��نی ب��ر دانش خواس��تار من��ابع تم��ام عی��ار دانش ب��رای اج��رای گس��ترده برنام��ه اس��ت . در نه��ایت تالش

روش ب��ا هم و ب��ه ص��ورت ترکی��بی2محققان به این س��مت س��وق پی��دا ک��رده ک��ه از ه��ر استفاده کنند. برای اینکه هم از روش های آماری و هم از روش های مبتنی بر دانش برای

به دست آوردن بهترین نتیجه استفاده کنند.

روش های ارزیابی

روش های ارزیابی خالصه ، باید تعیین کند که خالصه نسبت به منبع مفی��د ب��وده و مطمئن نوع ارزیابی وجود دارد .2است یا خیر در حال حاضر

باطن و معیارهای کاربر را مورد قضاوت قرار می دهد و کیفیت خالص��ه را مینوع اول:سنجد . مثل انسجام و خوانایی .

ارزش��یابی ظ��اهری اس��ت. در این ن��وع ، قض��اوت ک��اربران درب��اره ی کیفیتنWوع دوم: خالصه با توجه به تاثیر آن است. به عن��وان مث��ال اینک��ه خالص��ه بتوان��د ج��واب س��واالت را

نسبت به متن اصلی سریع تر بدهد.

21

Page 22: خلاصه ساز اتوماتیک متن

نتیجه گیری

ترجمه ماشینی و خالصه سازی آن هنوز در مقایسه با انسان ، بس��یار دارای فاص��له و اختالف است اما به هر حال با وجود حجم باالی مطالب باید خالصه سازی توسط ماشین ب��ه س�طحی مطلوب برسد. انواع مختلفی از خالصه سازی ها بسته به کاربردهای مختلف مثل خالصه ساز

( وجود دارند. سیستم های خالصه سازی قادر هستند تا برای ه��ر ک��اربردیqueryپرس و جو ) با توجه به نیازها، خالصه سازی را انجام دهند. خالصه سازی اسناد چند رسانه ای مث��ل فیلم و

گ��زارش متف��اوت10عکس هم امکان پذیر است. در نظر بگیرید که برای یک اتفاق همزمان سند10رسیده است . حال یک خالصه ساز خوب باید این توان را داشته باشد تا همزمان هر

سند را ارائ��ه ده��د. این ام��ر10را مورد بررسی قرار دهد. و خالصه ای از مطالب موجود در به خالصه سازی چند رسانه ای معروف است که در مقابل خالصه سازی تک سندی ق��رار می گیرد. بزرگترین چالش برای خالصه سازی متن، خالصه کردن منابعی از جمله ص��فحات وب و پایگاه داده هاست که برای کاربردهای خاص نیاز است و همان طور ک�ه در قس�مت ه�ای ب��اال نیز ذکر شد از خالصه سازی متن می توان برای خالصه سازی پرونده های پزش��کی بیم��اران، سرویس های صوتی برای ناشنوایان، بازیابی اطالعات ، مرتب سازی اس��ناد ، خالص��ه س��ازی

XMLاسناد , HTMLن��رم اف��زار خالصه سازی فایل های صوتی و تصویری و ... استفاده کرد . خالصه سازی متن باید در کمترین زم��ان خالص��ه ای ب��ا ح��داقل تف��اوت ایج��اد کن��د روش ه��ای خالصه سازی در حال تالش برای نزدیک شدن به خالصه هایی هستند که اطالعات گرا هس��تند و در پایان دو وب س��ایت یکی فارس��ی و یکی انگلیس��ی ک��ه در این زمین��ه فع��الیت دارن��د ن��یز

معرفی می کنم.

Farda faraz

22

Page 23: خلاصه ساز اتوماتیک متن

text compactor

23

Page 24: خلاصه ساز اتوماتیک متن

منابع و مآخذ

1-Automatic summarization, From Wikipedia, the free encyclopedia

2 -Automatic Text Summarization(The state of the art 2007 and new challenges) , Katedra informatiky a výpoèetní techniky, FAV,ZÈU - Západoèeská Univerzita v Plzni, Univerzitní 22, 306 14 Plzeò , fjezek ka, [email protected]

3-A Survey of Text Summarization ExtractiveTechniques , Vishal Gupta , University Institute of Engineering & Technology, Computer Science & Engineering, Panjab University Chandigarh, India, Email: [email protected] OF EMERGING TECHNOLOGIES IN WEB INTELLIGENCE, VOL. 2, NO. 3, AUGUST 2010.

4-The Challenges of Automatic Summarization , Researchers are investigating summarization tools and methods that automatically extract or abstract content from a range of informationsources, including multimedia.

5 -Abstract (summary) From Wikipedia, the free encyclopedia

6 -Journal of Biology 2004, 3:8 doi:10.1186/jbiol2 , The electronic version of this article is the complete one and can be found online at: http://jbiol.com/content/3/2/8

7 -tf–idf From Wikipedia, the free encyclopedia

24