Upload
livi
View
39
Download
3
Embed Size (px)
DESCRIPTION
دانشكده مهندسي كامپيوتر و فناوري اطلاعات. عنوان پاياننامه:. Hybrid method to improve text summarization. ارائه روشي ترکيبي براي بهبود خلاصه سازي متن. دانشجو: علي سبطي استاد راهنما: دکتر احمد عبداللهزاده. سهشنبه 9 تیر 1388. - PowerPoint PPT Presentation
Citation preview
ارائه روشي ترکيبي براي بهبود سازي متن خالصه
علي سبطي دانشجو:دکتر احمد عبدالله زادهاستاد راهنما:
عنوان :پايان نامه
Hybrid method to improve text summarization
Amirkabir University of Technology, Computer Engineering Faculty
دانشكده مهندسي كامپيوتر و فناوري اطالعات
1388 تیر 9سه شنبه
به ن�ام خداون�د بخش�نده و مهربان
2
Amirkabir University of TechnologyComputer Engineering Faculty
عناوين مورد بحث
تعريف خالصه سازیکاربردهای خالصه سازیانواع خالصه سازیديدگاه های موجود در خالصه سازیسازی شماي کلي يک سيستم خالصه شباهت لغ<وی درWordNetس<ازی )اس<تفاده ش<ده در خالصه
برپايه محوريت جمله( اس<تفاده ازWordNet در خالص<ه س<ازی متن برپاي<ه مح<وريت
جملهروشی جديد برای امتيازدهی جمله در خالصه سازی متنمقايسه روش های انجام شدهنتيجه گيریمراجع
3
Amirkabir University of TechnologyComputer Engineering Faculty
تعريف خالصه سازی
س<ازي متن عب<ارت اس<ت از فراين<د خالصهمنب<ع ي<ک اطالع<ات مهماي از تولي<د عص<اره
ب<ه منظ<ور تولي<د نس<خه خالص<ه ي<ا من<ابع و خ<اص ک<اربر ي<ا ک<اربرانش<ده ب<راي ي<ک
(Mani 99ص )وظيفه يا وظايفي خابخش با اهميت متنمنبع يا منابعکاربر يا کاربر خاصوظيفه يا وظايفي خاص
4
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی برپايه جملهمحوريت جمله
شباهت لغوی WordNetدر
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
کاربردهای خالصه سازی متن
5
Amirkabir University of TechnologyComputer Engineering Faculty
توليد عناوين و سرمطلب هاتوليد سرفصل مطالب براي دانش آموزانتهيه صورت جلسه... مرور بر روي کتاب، سي دي و فيلم وهاي تلويزيوني براي ارائه توضيح راهنماي برنامه
مختصري از برنامه هاها و رزومه و.... نوشتن زندگي نامه بريدن بخش کوتاهي از سخنراني براي پخش در
هاي خبري تلويزيوني برنامهشرح وقايع تاريخي به ترتيب زماني و مختصر
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی برپايه جملهمحوريت جمله
شباهت لغوی WordNetدر
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
تقسيم بندی خالصه سازي
6
Amirkabir University of TechnologyComputer Engineering Faculty
استخراجی
سازی خالصه
انتزاعي
بخش خالصه آگاهیخالصه اخباری
خالصه گرا خالصه پرسشعمومی
اطالعات پس زمينه اطالعات و اخبار جديد
AbstractionExtraction
IndicativeInformative
Query-basedGeneric
Just-the-news Background
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی برپايه جملهمحوريت جمله
شباهت لغوی WordNetدر
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
و بخش آگ<اهی ب<رای )مث<ال س<ازي خالص<ه بن<دی تقس<يم اخباری(
7
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی برپايه جملهمحوريت جمله
شباهت لغوی WordNetدر
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
اخباری
آگاهی بخش
ديدگاه هاي موجود در خالصه سازی
8
Amirkabir University of TechnologyComputer Engineering Faculty
ديدگاه ها( زبانشناسی ذهنPsycholinguistics)( زبانشناسی محاسباتیComputational linguistic)
:متودولوژي مورد استفاده مانند آماري، بر پايه قانون، الگوهاهاي مختلف هوش مصنوعي و روش،بازيابي اطالعات
غيره ...
:بسامد واژگاني، موقعيت جمله، عموميت متدها و تکنيک ها محتوا و ...
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی برپايه جملهمحوريت جمله
شباهت لغوی WordNetدر
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
ديدگاه هاي محاسباتی
9
Amirkabir University of TechnologyComputer Engineering Faculty
:باال به پايين :اطالعات خاصنياز کاربران :يک معيار خاص جهت جستجونياز سيستم ،دريافت يک درخواست و پيدا کردن بهترين الگو و )استخراج اطالعات
پرکردن الگوي يافت شده و در نهايت توليد محتواي خالصه با استفاده (از اطالعات الگو
:پايين به باال:هر نوع اطالعات مهمنياز کاربران :هاي دهي به قسمت يک معيار عمومي براي اولويتنياز سيستم
مختلف متن ،پيدا کردن عبارت يا عبارات )استفاده از متدهای بازيابی اطالعات
(مرتبط از يک يا چندسند
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی برپايه جملهمحوريت جمله
شباهت لغوی WordNetدر
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
ديدگاه هاي محاسباتی )ادامه(
10
Amirkabir University of TechnologyComputer Engineering Faculty
استخراج اطالعات / پردازش زبان طبيعي
سعي در فهم متن، ديدگاه: بازنمايي محتوا با استفاده از
نشان گذاري عميق و سرانجام دستکاري آن.قوانيني براي آناليز احتياجات:
و دستکاري در کليه سطوح.کيفيت بهتر، نقاط قوت:
پشتيباني از چکيده برداري و توليد جمله.
سرعت، ضعف نقاط ضعف: در خالصه سازي مقاوم براي
مستندات در دامنه هاي .موضوعي مختلف
بازيابي اطالعات / روش هاي آماريدر سطح لغوي عمل ديدگاه:
کرده و از بسامد لغوي و ترتيب استفاده مي کند.
حجم وسيعي از احتياجات: متون
مقاوم، مناسب نقاط قوت: براي خالصه سازي پرسش گرا
کيفيت پايين تر، نقاط ضعف: ناتواني عمل در سطح معاني
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی برپايه جملهمحوريت جمله
شباهت لغوی WordNetدر
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
شماي کلي يک سيستم خالصه سازی
11
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی برپايه جملهمحوريت جمله
شباهت لغوی WordNetدر
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)اس<تفاده ش<ده در خالصه س<ازی WordNetشباهت لغ<وی در برپايه محوريت جمله(
12
Amirkabir University of TechnologyComputer Engineering Faculty
E n tity
O b je c t
Ar tif ac t
S tr u c tu r e I n s tr u m en ta lity
A re a C o n v ey an c e
Ro o m Veh ic le
C o m p ar tm en t
Ca rGo n d o la
Ca rEle v a to r_ c a r
A irs h ip Ele v a to r
W h eeled _ v eh ic le M o to r _ v eh ic le
Ca rRa ilw a y _ c a r
Ca rA u to mo b ile
C ab o o s e F r e ig h t_ c ar
S u s p en s io n
T r a in Co u p e S ed an T ax i
E n g in e
R ear _ w in d o w
I S - A ( Hy p o n y m )
Has - P ar t ( Ho lo n y m )
P ar t- o f ( M er o n y m )
M em b er - o f ( M er o n y m )
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet)2 شباهت لغوي در
13
Amirkabir University of TechnologyComputer Engineering Faculty
( محتوای اطالعاتیInformation Content) میزان خاص بودن یک مفهوم را در دامنه موضوعی خود نشان می
دهدباشد يک مفهوم با محتواي اطالعاتي باال، بسيار خاص مي مفاهيمي با محتواي اطالعاتي پايين داراي معاني عمومي و کلي و
درجه خاص بودن کمتري برخوردارندمفهومcarving fork به معني کندن محل انشعاب داراي محتواي
اطالعاتي باال مفهومentity.داراي محتواي اطالعاتي پاييني است ))(log()( conceptPconceptIC
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )3شباهت لغوي در
14
Amirkabir University of TechnologyComputer Engineering Faculty
( محتوای اطالعاتیInformation Content) مثال: در یک پیکره کلمهbank 20 بار
ظاهر شده :دو معنیriver bank و financial bank مسئله شمارشSenseهای مختلف
تقسیم بر تعدادsenseها
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )4شباهت لغوي در
15
Amirkabir University of TechnologyComputer Engineering Faculty
( محتوای اطالعاتیInformation Content) مثال از محاسبهIC
فرض کنید بخواهیم محتوای اطالعاتیvehicle را محاسبه کنیم شمارش به چه معناست؟ 10000تعداد کلمات پیکره
IC(vehicle) = -log(75/10000) = 2.12IC(caboose) = -log(10/10000) = 3IC(freight car) = -log(1/10000) = 4IC(coupe) = -log(14/10000) = 2.85IC(sedan) = -log(16/10000) = 2.82IC(taxi) = -log(34/10000) = 2.46
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )5شباهت لغوي در
16
Amirkabir University of TechnologyComputer Engineering Faculty
Resnik : ميزان شباهت دو مفهوم عبارتست از مقدار اطالعات يااند محتواي اطالعاتي که آن دو مفهوم به اشتراک گذاشته
محتواي اطالعاتي نزديکترين مفهومي در ساختار سلسله مراتبي که دو مفهوم، در زير آن قرار گرفته باشند.
نزديکترين رده بند مشترک
Lowest Common Subsumer )LCS(
Simres(c1, c2)=IC(lcs(c1, c2))
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )6شباهت لغوي در
17
Amirkabir University of TechnologyComputer Engineering Faculty
Jiang-Conrath :distjcn)c1, c2(= IC)c1(+ IC)c2(-2*IC)lcs)c1, c2((
Lin:
),(
1),(
2121 ccdist
ccrelatedjcn
jcn
)()(
)),((2),(
21
2121 cICcIC
cclcsICccrelated lin
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )7شباهت لغوي در
18
Amirkabir University of TechnologyComputer Engineering Faculty
Hirst-St.Onge :چهار نوع ارتباط
، ضعیفنسبتا قویفوق قوی ، قوی ، روابط موجود درWordNet
افقي، روبه باال و رو به پايين
)____(__ directioninchangesofnumberklengthpathCweightpath
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )8شباهت لغوي در
19
Amirkabir University of TechnologyComputer Engineering Faculty
معیار جدید برای محاسبهIC مفاهيمي که در اين ساختار سلسله مراتبی در عمق بيشتر و
والد بيشتري هستند داراي محتواي اطالعاتي داراي مفاهيم هم بيشتري هستند ICبيشتر و در نتيجه داراي مقدار
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet)9 شباهت لغوي در
20
Amirkabir University of TechnologyComputer Engineering Faculty
8.2778149
1
13
1
42
1
36
1
10
1
9
1)(
LogBoxIC
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )10شباهت لغوي در
21
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )11شباهت لغوي در
22
Amirkabir University of TechnologyComputer Engineering Faculty
Pairs of words HJ Ours LCS depth
Path (LCSdepth+1)
/(path+1)
car –automobile 0.98 1 8 0 9
gem – jewel 0.96 1 6 0 7
Journey - voyage 0.96 0.93 5 1 3
boy – lad 0.94 0.93 4 1 2.5
coast – shore 0.92 0.96 4 1 2.5
asylum -madhouse 0.90 1 7 1 4
Magician – wizard 0.87 1 4 0 5
midday – noon 0.85 1 7 0 8
furnace – stove 0.77 0.42 2 10 0.27
food – fruit 0.77 0.17 0 7 0.12
bird – cock 0.76 0.92 7 1 10
bird – crane 0.74 0.84 7 3 2
tool – implement 0.73 0.89 4 1 2.5
brother –monk 0.70 0.41 2 5 0.5
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )12شباهت لغوي در
23
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )13شباهت لغوي در
24
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )14شباهت لغوي در
25
Amirkabir University of TechnologyComputer Engineering Faculty
32
1
2)(23
22
22
22
21
1
2)(21
11
11
11
1
5exp1
55
55exp1
55
5
)(
22
11
lkx
lll
kxandkx
lkxandkx
lll
kxandkx
lkx
xf
kx
kx
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
)WordNet )15شباهت لغوي در
26
Amirkabir University of TechnologyComputer Engineering Faculty
Similarity measure correlationJiang and Conrath 0.695
Hirst St.Onge 0.689
Leacock Chodorow 0.821
Lin 0.823
Resnik 0.775
Wu and Palmer 0.803
Patwardhan and Pedersen 0.77
Our Similarity Measure 0.87
مقايسه با معيارهای ديگر
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
از گ<راف WordNetاس<تفاده برپاي<ه متن س<ازی خالص<ه در شباهت )محوريت جمله(
27
Amirkabir University of TechnologyComputer Engineering Faculty
در خالصه سازی متن بر پایه نظریه گراف ها، ابتدابرای جمالت موجود در متن یک گراف شباهت
تشکیل می شود..در این گراف رئوس نشان دهنده جمالت هستند وزن یال ها میزان شباهت دو جمله را نشان می
دهند.
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
از گ<راف WordNetاس<تفاده برپاي<ه متن س<ازی خالص<ه در (2شباهت )
روش این در مس<ئله مهم<ترین و اولین بن<ابراین تعیین معیار شباهت می باشد.
تعریفidf: مق<دارidf براب<ر مت<ون از ای مجموع<ه در کلم<ه ی<ک ب<رای
است با:idf(term)= -log(n/N)
م<ورد نظ<ر term براب<ر اس<ت ب<ا تع<داد متن ه<ایی ک<ه nکه در آن تع<داد ک<ل مت<ون را تش<کیل می ده<د Nدر آنه<ا تک<رار ش<ده و
ک<ه در کلی<ه مت<ون آم<ده اس<ت دارای the )ب<رای مث<ال کلم<ه م<ورد term ص<فر می باش<د ک<ه م<یزان اهمی<تی ب<رای idfمق<دار
نظر تلقی می شد(
28
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
از گ<راف WordNetاس<تفاده برپاي<ه متن س<ازی خالص<ه در (3شباهت )
برای نش<ان دادن ش<باهت دو جمل<ه م<ا ب<ا اس<تفاده م<دل ک<ردن در نظ<ر می جمل<ه ی<ک ب<ردار، ب<رای ه<ر ب<رداری فض<ایجمل<ه در
گیریم برداری ک<ه ه<ر ی<ک از مولف<ه ه<ای آن مع<ادل ی<ک کلم<ه از ک<ل
می باشد.بسیار زیادمتون ما می باشد. که طبعا ابعاد بردار بردار مرب<وط ب<ه ه<ر جمل<ه براب<ر اس<ت ب<ا ب<رداری ب<ا ابع<اد ب<ردار
ب<ا اس<ت براب<ر آن ه<ای مولف<ه و کلم<هپیش<ین وق<وع تع<داد idf در مق<دار ض<ربمتن<اظر ب<ا آن مولف<ه در جمل<ه م<ورد نظ<ر
.آن کلمه:مثال
(ac,ad,fg,de,yy,…) :جمله فرضی (ac fg yy ac) :بردار متناظر (2*10 , 0 , 1*7 , 0 , 1*4)29
Amirkabir University of TechnologyComputer Engineering Faculty
term idf
ac 10
ad 5
fg 7
de 6
yy 4
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
از گ<راف WordNetاس<تفاده برپاي<ه متن س<ازی خالص<ه در (4شباهت )
ت<وان می ش<د م<دل ب<ردار بص<ورت جمل<ه ی<ک اینک<ه از بع<د ش<باهت دو جمل<ه را از ش<باهت کسینوس<ی دو ب<ردار بدس<ت
آورد که بصورت اصالح شده زیر ارائه گردیده است:
ان<دازه ط<ول کلم<ات ب<ه را ی<ک جمل<ه ب<ردار آن ط<ول در که هم<ان جمل<ه در نظ<ر گرفت<ه )چ<ون مولف<ه ه<ای دیگ<ر ص<فر ب<وده
که در فرمول اثرگذار نمی باشد(
)مثال )نقطه ضعف ……. Information …..
….. data ……………
30
Amirkabir University of TechnologyComputer Engineering Faculty
2
,
2
,
2
, ,,
)()(
)(.),(sin
yy yyyxx xxx
yxw wywxw
i iii iiidftfidftf
idftftf
YX
YXyxeSimCo
WNsim(information,data)=0.95
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
از گ<راف WordNetاس<تفاده برپاي<ه متن س<ازی خالص<ه در (5شباهت )
اص<الحی ک<ه در فرم<ول پیش<ین ب<رای محاس<بهش<باهت دو جمل<ه ص<ورت گرفت<ه ب<ا اس<تفاده از
می باشدWordNetشباهت دو کلمه در از اس<تفاده ب<ا ورودی ه<ای ، WordNetمتن
Stem.می شوند ط<ول ب<ا جمل<هبرداری دو ط<ول مجم<وع
تش<کیل و بج<ای محاس<به تع<داد تک<رار ی<ک کلم<ه آن WordNetدر جمل<ه، م<یزان ش<باهت ب<ر پای<ه
مجم<وع کلم<ه ب<ا کلی<ه کلم<ات دیگ<ر محاس<به و قرار داده می شود.به عنوان تعداد تکرار
از تنه<ا ک<ه اس<امی برای س<ادگی کلم<اتی و م<یزان آس<تانهidfدارای ح<د ی<ک از ب<االتری
است استفاده شده است.
31
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
از گ<راف WordNetاس<تفاده برپاي<ه متن س<ازی خالص<ه در (6شباهت )
32
Amirkabir University of TechnologyComputer Engineering Faculty
2
,
2
,
2
,,
)ˆ()ˆ(
)(ˆˆ),(sin
yy yyyxx xxx
yxw wywxw
i iii iiidfftidfft
idfftftyxeSimCo
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
روشی جديد برای امتيازدهی جمله در خالصه سازی متن
در روشCentroid-base ابت<دا idf ک<ل کلم<ات محاس<به و مجم<وع از جمل<ه ی<ک امتی<از تع<یین ب<رای idfس<پس
جمل<ه اهمیت م<یزان عن<وان ب<ه جمل<ه آن کلم<ات استفاده می شود.
هم<انطور ک<ه قبال گف<تیم اگ<رn/N را احتم<ال وق<وع ی<ک کلم<ه بن<امیم، کلم<ه ب<ا احتم<ال وق<وع کم<تر از اهمیت
بیشتری برخوردار است این تعمیم از ک<ردیم م<ا س<عی پیش<نهادی روش در
ایده استفاده کنیم: جمل<ه ای ب<ا احتم<ال وق<وع کم<تر از اهمیت بیش<تری برخ<وردار
است را جمل<ه ی<ک وق<وع تع<داد اگ<ر ع<ادی ح<الت در
ه<ر جمل<ه فق<ط در ش<مارش ک<نیم طبع<ا در کلی<ه م<وارد N/1 آن براب<ر n/N وق<وع می یاب<د. ک<ه مق<دار ی<ک متنمی شود
33
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
روش<ی جدي<د ب<رای امتي<ازدهی جمل<ه در خالص<ه س<ازی متن (2)
در دامن<ه م<ذکور در دس<ترس ب<ود بی نه<ایت متناگ<ر این روش خ<وب ب<ود چ<ون حتم<ا وق<وع عین<ا ی<ک جمل<ه
ممکن می شد.
ریاض<ات ق<انون مع<روف ی<ک از اس<تفاده ب<ا بن<ابراین این روش را اصالح می کنیم
34
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
روش<ی جدي<د ب<رای امتي<ازدهی جمل<ه در خالص<ه س<ازی متن (3)
تعریف ویژگیهم وقوعی دوتاییهم وقوعی سه تاییهم وقوعی چهارتایی
مثال:Systematic recovery of data from the memory bank of a computer.
تایی2هم وقوعی )Systematic, recovery( )Recovery, computer( )Data, bank(
هاي وقوعي دوتايي کلمات یک جمله عبارتست از انتخاب همدوتايي از جمله و بررسي اينکه در چند متن دو کلمه مذکور با
اند.واقع شده هم35
Amirkabir University of TechnologyComputer Engineering Faculty
تایی3هم وقوعی )systematic, data, computer(
تایی4هم وقوعی
)recovery, memory, bank, computer(
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
روش<ی جدي<د ب<رای امتي<ازدهی جمل<ه در خالص<ه س<ازی متن (4)
:اصل شمول و عدم شمولدر حالت دوتایی
حالت تعمیم یافته
36
Amirkabir University of TechnologyComputer Engineering Faculty
pp
piiiiii
piiii
piip
AAAAAA
AAAAAA
211
1
1121
)1(321
321
21
21
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
روش<ی جدي<د ب<رای امتي<ازدهی جمل<ه در خالص<ه س<ازی متن (5)
کلم<ه س<ه ای جمل<ه در کنی<د ف<رض و memoryمث<ال: data و computer وج<ود داش<ته باش<د و توزی<ع آنه<ا در متن ه<ا در نم<ودار
ون زیر آمده باشد
37
Amirkabir University of TechnologyComputer Engineering Faculty
91222455321323121321321
AAAAAAAAAAAAAAA
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
روش<ی جدي<د ب<رای امتي<ازدهی جمل<ه در خالص<ه س<ازی متن (6)
:با جابجایی دو طرف رابطه داریم
قاب<ل ب<اال رابط<ه بوس<یله جمل<ه، ی<ک وق<وع احتم<ال بن<ابراین انته<ا ت<ا اگ<ر رابط<ه را این اس<ت ک<ه نکت<ه باش<د. محاس<به می
احمتم<ال ب<ه دهیم م<ا N/1ادام<ه مطل<وب ک<ه رس<ید خ<واهیم نیس<ت. در نتیج<ه این فرم<ول را ت<ا نقط<ه ای محاس<به و متوق<ف می ک<نیم ک<ه در واق<ع گ<ویی بی نه<ایت جمل<ه در دس<ترس داریم ک<ه در آن جمل<ه م<ورد نظ<ر م<ا بص<ورت قاب<ل مالحظ<ه ای عین<ا
تکرار گردیده
38
Amirkabir University of TechnologyComputer Engineering Faculty
)(321
321
21
21111
2121
piii
iiipii
iipi
i
pp
AAAAAA
AAAAAA
وقوعي هميکيي
وقوعي همدوتايي
وقوعي همتايي سه
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
روش<ی جدي<د ب<رای امتي<ازدهی جمل<ه در خالص<ه س<ازی متن (7)
ساختمان داده اس<تفاده ش<دهی<ک از اس<تفاده hashtableب<ا
می باشد
سرعت باالی دستیابی
از اس<تفاده ب<ا وق<وعی هم کلم<<ه ه<<ر روب<<ری لیس<<ت
بدست می آید
39
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
Key=(word) Value=(Docs id)
"computer" {1,2,5,7,8,20}
"memory" {4,6,8}
"data" {3,9,13,16}
"text" {1,2,4,7,14}
"information" {2,5,8,10,13,20,25,30}
"system" {1,2,3,5,7,25}
روش<ی جدي<د ب<رای امتي<ازدهی جمل<ه در خالص<ه س<ازی متن (8)
نقط<ه اتم<ام محاس<بات ب<ا انج<ام آزمایش<ات و بررس<ی ک<ارایی ت<ایی انتخ<اب گردی<ده ک<ه از لح<اظ 4خالص<ه س<ازی هم وق<وعی
محاسباتی نیز معقول می باشد.انتخ<اب این نقط<ه بص<ورت نم<ودار دقت خالص<ه س<ازی ب<ه جهت
زیر است:
40
Amirkabir University of TechnologyComputer Engineering Faculty
18.5 18.9 19 19.5 2018.1 18
25 25.7 26.4 26.1 2725.9 25.4
0
5
10
15
20
25
30
1 2 3 4 5 6 7
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
مقايسه روش های انجام شده
41
Amirkabir University of TechnologyComputer Engineering Faculty
20%
10%
-F
Measu
re
00
100.
200.
300.
CR=
داده هایSUMMAC مقاله در زمینه 187 که شامل زبانشناسی
برای ارزیابی از بسته نرم افزاریROUGE استفاده شده است
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
نتيجه گيری
تعاریفي در خصوص خالصه سازی شباهت لغوی درWordNetتعریف شباهت لغوی جدید اس<تفاده از ش<باهت لغ<وی تعری<ف ش<ده در خالص<ه
از اس<<تفاده ب<<ا جمل<<ه مح<وریت برپای<<ه س<<ازی بازنمایی گرافی
تعریف ویژگی های هم وقوعی از مراتب مختلف ترکیب این وی<ژگی ه<ا ب<ا اس<تفاده از اص<ل ش<مول و
عدم شمول تعریف معیارidfبرای جمله مقایسه روش های ارائه شده و روش های پیشین
42
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
مراجع
1. Mani, I. and M. Maybury. 1999. Advances in Automatic Text Summarization. The MIT Press.
2. Luhn, H.P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 159–165.
3. Edmundson, H.P. 1968. New Methods in Automatic Extraction. Journal of the ACM 16(2), 264–285.
4. Kupiec, J., J. Pedersen, and F. Chen. 1995. A Trainable Document Summarizer. In Proceedings of the Eighteentha Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR), 68–73. Seattle, WA.
5. Mani, I., E. Bloedorn, and B. Gates. 1998. Using Cohesion and Coherence Models for Text Summarization. In Working Notes of the AAAI’98 Spring Symposium on Intelligent Text Summarization, 69–76. Stanford, CA.
6. Hovy, E. and D. Marcu. 1998. Automated Text summarization Tutorial, COLING/ACL, Institute University of Southern California, CA 90292.
7. Fellbaum, C. 1998. “WordNet: An Electronic Lexical Database”. MIT Press, Cambridge, USA.
8. Sebti, A. and A.A. Barfroush. 2008. A new word sense similarity measure in wordnet, International Multiconference on Computer Science and Information Technology, IEEE , Poland. 369-373.
9. Garside, R. 1987. The CLAWS Tagging System. The Computational Analysis of English: A Corpus-based Approch, London: Longman.
10. DeRose, S. 1988. Grammatical category disambiguation by statistical optimization. Computational Linguistics, 14:31-39.
11. Lovins, J.B. 1968. Development of a stemming algorithm. Mechanical Translation and Computational Linguistics 11:22–31.
12. Porter, M.F. 1980. An algorithm for suffix stripping, Program, Vol. 14 No.3, pp. 130-137.
13. Baxendale, P.B. 1958. Machine-Made Index for Technical Literature—An Experiment. IBM Journal (October) 354–361.
14. Kupiec, J., J. Pedersen, and F. Chen. 1995. A Trainable Document Summarizer. In Proceedings of the Eighteenth Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR), 68–73. Seattle, WA.
15. Teufel, S. and M. Moens. 1997. Sentence Extraction as a Classification Task. In Proceedings of the Workshop on Intelligent Scalable Summarization. ACL/EACL Conference, 58–65. Madrid, Spain.
16. Lin, C-Y. and E.H. Hovy. 1997. Identifying Topics by Position. In Proceedings of the Applied Natural Language Processing Conference (ANLP-97), 283–290. Washington.
17. Luhn, H.P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 159–165.
18. Benbrahim, M. and K. Ahmad. 1994. Computer-aided lexical cohesion analysis and text abridgement. Technical Report CS-94-11, School of ECM, University of Surrey.
43
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
مراجع
19. Mitra M., A. Singhal, and C. Buckley. 1997. Automatic Text Summarization by Paragraph Extraction. In Proceedings of the Workshop on Intelligent Scalable Summarization at the ACL/EACL Conference, 39–46. Madrid, Spain.
20. Barzilay, R. and M. Elhadad. 1997. Using Lexical Chains for Text Summarization. In Proceedings of the Workshop on Intelligent Scalable Text Summarization at the ACL/EACL Conference, 10–17. Madrid, Spain.
21. Kruengkrai, C., C. Jaruskulchai. 2003. Generic Text Summarization Using Local and Global Properties of Sentences. Web Intelligence. 201-206.
22. Marcu, D. 1997. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts. Ph.D. diss. University of Toronto.
23. Paice, C. 1990. Constructing literature abstracts by computer: techniques and prospects. Information Processing and Management, 26 (1), 171-186.
24. Arun Kumar, P. , K. Praveen Kumar. T. Someswara Rao, P. Krishna Reddy. 2005. An Improved Approach to Extract Document Summaries Based on Popularity. DNIS 2005: 310-318.
25. Kiani, A., M.R. Akbarzadeh. 2006. Intelligent Extractive Text Summarization Using Fuzzy Inference Systems, Proceeding of the Second IEEE Conference on Intelligent Engineering, pp.149-153, April 15.
26. Kiani-B, A. M.R. Akbarzadeh-T. 2006. Automatic Text Summarization Using: Hybrid Fuzzy GA-GP. In Gary G. Yen and Lipo Wang and Piero Bonissone and Simon M. Lucas editors, Proceedings of the 2006 IEEE Congress on Evolutionary Computation, pages 5465-5471, Vancouver.
27. Lin, CY. 1999. Training a Selection Function for Extraction. In the 8th International Conference on Information and Knowledge Management (CIKM 99), Kansa City, Missouri.
28. Saggion H., D. Radev, S. Teufel, and W. Lam. 2002. Meta-Evaluation of Summaries in a Cross-Lingual Environment Using Content-Based Metrics. In Proceedings of COLING-2002, Taipei,Taiwan.
29. Papineni, K., S. Roukos, T. Ward, and W.-J. Zhu. 2001. BLEU: a Method for Automatic Evaluation of Machine Translation. IBM Research Report RC22176 (W0109-022).
30. Lin, C.Y. and E.H. Hovy. 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton.
31. Radev, D.R., H. Jing, and M. Budzikowska. 2000. Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies. In ANLP/NAACL Workshop on Summarization Seattle, WA.
32. Page, L., S. Brin, R. Motwani, and T. Winograd. 1998. The pagerank citation ranking: Bringing order to the web. Technical report, Stanford University, Stanford, CA.
44
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
مراجع
33. Brin, S., L. Page. 1998. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(1–7), 107–117.
34. Erkan, G., D.R. Radev. 2004. LexRank: Graph-based Centrality as Salience in Text Summarization, Journal of Artificial Intelligence Research 22.
35. Resnik, P. 1999. Semantic Similarity in a Taxonomy: An Information-Based Measure and Its Application to Problems of Ambiguity in Natural Language. J. Artificial Intelligence Research, vol. 11, pp. 95-130.
36. Buckley, C., J. Salton, J. Allen and A. Singhal. 1995. Automatic query expansion using Smart: TREC 3. In The third Text Retrieval Conference, Gaithersburg, MD.
37. Vechtomova, O. and S. Robertson. 2000. Integration of collocation statistics into the probabilistic retrieval model. In 22nd Annual Colloquium on Information Retrieval Research, Cambridge, England.
38. Xu, J., and B. Croft. 2000. Improving the effectiveness of information retrieval. ACM Transactions on Information Systems, 18(1):79-112.
39. Budanitsky, A. and G. Hirst. 2001. Semantic Distance in WordNet: An Experimental, Application-Oriented Evaluation of Five Measures. Proc. Workshop WordNet and Other Lexical Resources, Second Meeting North Am. Chapter Assoc. for Computational Linguistics.
40. Kozima, H. 1994. Computing Lexical Cohesion as a Tool for Text Analysis. doctoral thesis, Computer Science and Information Math, Graduate School of Electro-Comm., Univ. of Electro-Comm.
41. Srihari, R.K., Z.F. Zhang, and A.B. Rao. 2000. Intelligent Indexing and Semantic Retrieval of Multimodal Documents. Information Retrieval, vol. 2, pp. 245-275.
42. Hindle, D. 1990. Noun Classification from Predicate-Argument Structures. Proceedings of the 28th Annual Meeting of the Association for Computational Linguistics, ACL28’90, 268-275.
43. Grefenstette, G. 1992. Use of Syntactic Context to Produce Term Association Lists for Text Retrieval. Proceedings of the 15th Annual International Conference on Research and Development in Information Retrieval, SIGIR’92.
44. Lesk, M. 1986. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone. In Proceedings of the SIGDOC Conference, Toronto, 1986.
45. Banerjee, S. and T. Pedersen. 2003. Extended gloss overlaps as a measure of semantic relatedness. In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence, pages 805–810, Acapulco, Mexico.
46. Quilian, M.R. 1968 Semantic memory. Semantic Information Processing. pages 216–270.
47. Wu, Z. and M. Palmer. 1994. Verb semantics and lexical selection. In 32nd. Annual Meeting of the Association for Computational Linguistics. pages 133 –138, New Mexico State University, Las Cruces, New Mexico.
45
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
مراجع
48. Leacock, C. and M. Chodorow. 1998. Combining local context and WordNet similarity for word sense identification. In Fellbaum, pp. 265–283.
49. Resnik, P. 1995. Using information content to evaluate semantic similarity. In Proceedings of the 14th International Joint Conference on Artificial Intelligence, pages 448–453, Montreal.
50. Jiang, J. and D. Conrath. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference on Research in Computational Linguistics, Taiwan.
51. Lin, D. 1998. An information-theoretic definition of similarity. In Proceedings of the 15th International Conference on Machine Learning,Madison, WI.
52. Hirst, G. and D. St-Onge. 1998. Lexical chains as representations of context for the detection and correction of malapropisms. In Fellbaum, pp. 305–332.
53. Resnik P. 1998. WordNet and class-based probabilities. In C. Fellbaum, editor, Word-Net: An electronic lexical database, pages 239-263. MIT Press.
54. Miller, G. and W. Charles. 1991. Contextual correlates of semantic Similarity. Language and Cognitive Processes, 1–28.
55. wn-similarity.sourceforge.net
56. www.nltk.org
57. opennlp.sourceforge.net
46
Amirkabir University of TechnologyComputer Engineering Faculty
مراجع نتيجه گيری
مقايسه روش ها
Idfخالصه سازی جملهبرپايه محوريت
جمله
شباهت لغوی در WordNet
شمای کلی
ديدگاه ها
انواع
کاربردها
تعريف
با تشکر از خداوند که قدرت انديشيدن را در ذهن هايمان نهاد و هر چه داريم از اوست
با تشکر از استاد دلسوزم
با تشکر از همه دوستانی که اینجانب را تحمل 47نمودند و تشریف آوردند
Amirkabir University of TechnologyComputer Engineering Faculty
؟48
Amirkabir University of TechnologyComputer Engineering Faculty