41
(TEXT MINING) ويا ك ن ت م اح ب ص مرا سا هار ب88

(text mining) متن كاوي

  • Upload
    sibyl

  • View
    234

  • Download
    16

Embed Size (px)

DESCRIPTION

(text mining) متن كاوي. سارا مصباح بهار 88. فهرست مطالب. مقدمه مشكلات هدف متن كاوي كاربردهاي متن كاوي فرآيند متن كاوي يافتن روابط ( Rajman_97 ) روش TextMiner ( Karanikas_2000 ) روش DIScoTEX ( Kanya_07, Mooney_05 ) بهبود روش DIScoTEX ( Kanya_07, Mooney_05 ). - PowerPoint PPT Presentation

Citation preview

Page 1: (text mining)  متن كاوي

(TEXT MINING) متنكاوي

مصباح سارا

88بهار

Page 2: (text mining)  متن كاوي

مطالب فهرستمقدمهمشكالت كاوي متن هدف كاوي متن كاربردهاي كاوي متن فرآيند( روابط (Rajman_97يافتن روشTextMiner (Karanikas_2000) روشDIScoTEX (Kanya_07, Mooney_05 ) روش DIScoTEX (Kanya_07, Mooney_05 )بهبود

Page 3: (text mining)  متن كاوي

بخش اين توضيحات براي منابع M. Rajman.

Text Mining, knowledge extraction from unstructured textual data. Proc. of EUROSTAT Conference, Francfort (Deutchland), may, 1997

Data mining Concepts and Techniques: jiawei Han and Micheline kamber

Page 4: (text mining)  متن كاوي

مقدمه پايگاه در اطالعات از اي مالحظه قابل بخش بودن موجود

متني هاي داده

تعريف يافته ساخت غير ي دادها از مفيد اطالعات mو مفهوم استخراج يافته ساخت غير متن در الگو جستجوي

:،خبري مقاالت .....paperمثال هاو ايميل ها، كتاب ها،

: غير متني هاي داده پايگاه در شده ذخيره اطالعات نوعساختيافته

:سند يك گرفتن نظر در مثال

Page 5: (text mining)  متن كاوي

).. ادامه ) مقدمه: كاوي متن براي شده پيشنهاد هاي تكنيك

مفهومي ساختارهاي كردن هاassociation ruleكاوش گيري تصميم هاي درخت قوانين استنتاج هاي روش اطالعات بازيابي ي ها تكنيك

Page 6: (text mining)  متن كاوي

مشكل از هستند 80بيش متن صورت به اطالعات درصد مشكل

بودن ساختيافته غير اطالعات از دانش دريافت شود مي حاصل اطالعات از كه دانشي كمبود كاوي داده در عاميت وجود عدم

:هستند اي رابطه هاي داده پايگاه فرم به اطالعات فرض اطالعات بازيابي

دانش نه و كاربر نياز به توجه با مستندات ترين مرتبط بازيابي :ها ايميل سابقه كردن ثبت مثال

از زيادي حجم براي سنتي اطالعات بازيابي هاي تكنيك بودن ناكارآمدساختيافته غير اطالعات

كم مربوط سندهاي بازيابي

غير يا يافته ساخت نيمه متن از دانش كردن كشفساختيافته

Page 7: (text mining)  متن كاوي

هدف متني هاي داده پايگاه كردن پردازش بودن، فرسا طاقت

دستي صورت به ساختيافته غير متن معني درك كردن اتوماتيك ،مختلف سندهاي مقايسه براي كارآمد ابزارهايي به نياز

الگوها يافتن بودن، مربوط اساس بر سندها كردن مرتبزياد حجم با ساختيافته غير هاي داده براي

كاوي متن براي مختلف هاي نامText miningText data miningKnowledge Discovery in Text

Page 8: (text mining)  متن كاوي

كاوي متن كاربردها بازيابي و جستجوClustering وclassification سازي خالصه روابط استخراجPOS(Part of Speech Tagging)

Page 9: (text mining)  متن كاوي

)... ادامه ) كاوي متن كاربردهاي اطالعات بازيابي و جستجو

متن از استفاده با اطالعات بازيابي و جستجو زمينه در جديد هاي روشكاوي

: كاربر نياز به توجه با متون ترين مرتبط بازيابي اطالعات بازيابي هدف بر machine learningو NLPمبتني بر مبتني هاي روش از استفاده با شده ساخته دانش پايگاه يك به نياز

NLP اسناد روي بر آماري هاي روش وClustering

كاربر نظر مورد اطالعات سريعتر يافتن به كمك اسناد مجموعه از كلي نگاه دادن مجموعه داشتن بدون اتوماتيك صورت به ها كالس trainingساختن

Classification مفاهيم از اي شده تعريف پيش از هاي كالس داشتن ها كالس از يكي به جديد سندهاي كردن نگاشت

Page 10: (text mining)  متن كاوي

)... ادامه ) كاوي متني كاربردهايPOS

طبيعي هاي زبان پردازش در مهمي نقش داشتن :سيستم GATEمثال

جمالت گذاري برچسب براي ابزاري ... متن يك در و اشخاص نام جغرافيايي، موقعيتهاي نام كردن پيدا

Page 11: (text mining)  متن كاوي

كاوي متن فرآيند اسناد پردازش پيش فاز

سند بر مبتني اسناد براي بهتري نمايش ي نحوه ساختيافته نيمه و مياني فرمت يك به اسناد تبديل هرentity است سند يك نهايتا نمايش اين در

مفهوم بر مبتني و سند در موجود معاني و مفاهيم سند، نمايش به بخشيدن بهبود

.... و ها آن ميان ارتباط سندها از شده استخراج مفاهيم با داشتن كار و سر

اسناد نمايش مياني هاي فرمت از دانش استخراج فاز..... : mو بندي طبقه بندي، گرو سند بر مبتني نمايش : و مفاهيم ميان روابط يافتن براي مفهوم بر مبتني نمايش

آنتولوژي اتوماتيك ساختن پردازش پيش گام عنوان به اطالعات استخراج از استفاده

Page 12: (text mining)  متن كاوي

روابط ) (RAJMAN_97يافتن: كلمات از اي مجموعه: شده ايندكس ميتندات از اي مجموعه رابطه با فرض

: كليدي كلمات از اي مجموعه : مستندات تمام Tدر tمجموعه[w :]براي پوششي wمجموعه

زوج هر ازاي است كه( W,w)به لغات از اي مجموعهشكل به و شود مي خوانده رابطه قانون يك و

شود مي داده نمايش

},...,,{ 21 wnwwA

},...,,{ 21 ntttT

).(At i

AW

)(AtW

AW WAw \

)(: wWR

Page 13: (text mining)  متن كاوي

).. ادامه ) روابط يافتن داريم فرض با

: گرفتن نظر در با رابطه، از پشتيباني Tميزان : گرفتن نظر در با رابطه، از اطمينان Tميزان

هدف

مقدار كه قوانين فتن ميزاني C(R,T)و S(R,T)يا از ها آنباشد بيشتر

)(: wWR

}{),( wWTR S

w

wWTR

),(C

Page 14: (text mining)  متن كاوي

منبع Haralampos Karanikas, et.al. An Approach to Text Mining using Information Extraction, 2000

Page 15: (text mining)  متن كاوي

TEXTMINERروش كردن و termاستخراج پيدا eventها براي سند هر هاي

ها ويژگي كردن عمل هر miningانجام شده استخراج هاي ويژگي روي

سند: سيستم هاي كامپوننت

Text Analysis Component : در شده ذخيره ساختيافته داده به سندها ساختيافته نيمه داده دادن تغيير

داده پايگاهData mining component

اول كامپوننت خروجي روي بر كاوي داده هاي تكنيك كردن اعمال روش اين اهداف

: در سندها كردن بندي طبقه موجود اطالعات همه كردن مديريتcategory مناسب هاي

Mine مفيد دانش كردن كشف براي داده كردن

Page 16: (text mining)  متن كاوي

TEXTMINERمعماري

Page 17: (text mining)  متن كاوي

)TEXTMINERروش اطالعات ( استخراج ( هاي داده پايگاه طبيعي زبان هاي متن كردن نگاشت

)... نمايش يك به هاو ايميل وب، صفحات مقاالت، متني،شده تعريف پيش از و ساختيافته

كه هايي قالب به طبيعي زبان هاي متن كردن نگاشتدهند مي نشان را متن كليدي اطالعات از منتخبي

انجام براي داده پايگاه در آنها ذخيره و اطالعات استخراج..... و سازي خالصه كاوش، جو، و پرس

Page 18: (text mining)  متن كاوي

) مالي ) دامنه مثالEvent مالي دامنه يك براي هاي نام به جدولي در اطالعات داري Event typeنگه

برايevent ، take-over هر براي شده توصيف صفت مختلفي تعداد دادن eventقرار :،تاريخ نوع company targeصفات ،take-over...و

Page 19: (text mining)  متن كاوي

...(TEXT MINERروش ادامه ) استخراج از بعد زير شكل به جدولي كردن هاeventپر

Event شده mاستخراج هاي كالسترينگ الگوريتم براي ورودي عنوان بmه زير جدول ساختن داده پايگاه در ركودها عنوان به سندmها گرفتن نmظر در گرفتن نظر ركورد term/eventدر صmفات عنوان به سند هر هاي

كالسترينگ الگوريتم براي ورودي داده

Page 20: (text mining)  متن كاوي

(TEXT MINERروش كالسترينگ ) الگوريتم حاصل داده پايگاه روي بر كالسترينگ الگوريتم اعمال اسناد از اي مجموعه از هايي زيرمجموعه ايجاد اسناد مجموعه در ساختار كشف گروه يك در دارند مشترك هاي ويژگي كه سندهايي دادن قرار ها داده از ديدكلي دادن مربوط اطالعات يافتن كردن، آسان در كالسترينگ از : taskاستفاده آناليز ديگر relevanceهاي ،

classification.................... و كالسترينگ الگوريتم انتخاب

و داده مجموعه نوع به taskوابسته ها كالسترينگ ترين معروف

Binary relational clustering مراتبي سلسله كالستريگ

Page 21: (text mining)  متن كاوي

).. ادامه ) كالسترينگ الگوريmتم فاصله بر مبتني كالسترينگ آناليز نبودن كاراConceptual clustering

نيستند عددي شباهت با اشيا از اي مجموعه تنها ها كالستر صفات توصيفات از اي مجموعه اشيا كالسترهاي توصيف براي توصيف زبان يك بندي رده كيفيت معيار يكهدف

كيفيت معيار كردن بيشينه كالسترها از عمومي توصيفات كردن تعيين

هاي داده براي كالسترينگ هاي روش از استفادهcategorical

Page 22: (text mining)  متن كاوي

).. ادامه ) كالسترينگ الگوريmتم بولين صفات با داده پايگاه در سندها نمايش

يك با صفت هر بودن event/termمتناظر شامل سند صفت term/eventاگر باشد trueمتناظر

است

از لينك )Rockالگوريتم frameforkاستفاده مفهوم ,RIوRC)Link(pi, pj) :بين مشترك هاي همسايه تعداد pjو piبيانگر

با سندهايي گرفتن قرار و كالسترينگ الگوريتم از استفادهمشابه ) كالستر( term/eventالگوهاي يك در ها

Page 23: (text mining)  متن كاوي

CLASSIFICATIONالگوريتم از آمده دست به توصيفات از بعد بندي رده اعمال

كالسترينگ

كالسترينگ از حاصل نتايج بيشتر معتبرسازي

شده كشف دانش از بهتر برداري بهره

گيري تصميم درخت الگوريتم مفاهيم از مراتبي سلسله بازيابي شده كشف توصيفات درستي كردن تست

Page 24: (text mining)  متن كاوي

منبع N. Kanya*, S. Geetha “INFORMATION EXTRACTION -A TEXT MININGAPPROACH”

2007 produced IEEE

“Text mining with Informatin Exteraction” Raymond J. Mooney and Un Yong Nahm 2005

Page 25: (text mining)  متن كاوي

DISCOTEX (DISCOVERY FORM TEXT EXTRACTION)

: كردن يكپارچه اطالعات استخراج (IEشده )learnسيستم

تر يافته ساخت داده به متن سندهاي تبديل داده از خاصي هاي بخش كردن جستجو

( استاندارد قوانين كردن استنتاج (KDDماجولMine ماجول از حاصل شده يافته ساخت داده پايگاه براي IEكردن

عالقه مورد روابط يافتن از كه اطالعاتي كردن بيني پيش و آمده دست به قوانين از استفاده

شوند مي استخراج جديد سندهاي از متدهاي applicationاستفاده و آماري machine learningهاي

Page 26: (text mining)  متن كاوي

DISCOTEX ) ادامه)

چارچوب از كلي بر mineديد مبتني متن IEكردن

سيستم يك :IEساختن متدهاي از كردن machine learninاستفاده اتوماتيك براي

هاي سيستم IEساخت ها داده استخراج سند، كمي تعداد كردن توصيف دستي صورت به

سيستم استنتاج آن، به IEاز آن اعمال و قبولي قابل دقت باسندها از بزرگي مجموعه

خطاست شامل اتوماتيك صورت به شده استخراج داده پايگاه

Page 27: (text mining)  متن كاوي

DISCOTEX ) ادامه) ”نويز داراي داده پايگاه از شده كشف دانش reliabityآيا

تميز داده پايگاه يك از شده كشف دانش از كمتر خيلي آن“ است؟ تر

هدفIE طبيعي زبان به متن يك در خاص داده كردن پيدا يك صورت به ها داده templateنمايش

Template دامنه براي شده job-posting پر

Page 28: (text mining)  متن كاوي

DISCOTEX ) ادامه) از كننده machine learningاستفاده استخراج ساختن براي

ها

سيستم دو از state-of-the-artاستفادهRAPIER(Robust Automated Production of Information

Exteraction Rules)BWI(Boosted Wrapper induction)

سيستم :IEخروجي از اي ها Slotمجموعه

اطالعات استخراج الگوهاي بردن كار به يافته ساخت و سرچ قابل داده پايگاه يك

Page 29: (text mining)  متن كاوي

DISCOTEX ) ادامه)

هاي تكنيك داده KDDاعمال پايگاه روي بر استانداردشده نتيجه

Training با شده توصيف سندهاي از اي مجموعه رويها قالب

برايslot ، platform پركننده :Wnidows XPداريمWin XP ، WinXP ، MS Win XP

كردن از termتبديل قبل مقدار يك به قوانين mineها كردنها داده از

با مترادف هاي واژه شامل ديكشنري يك از 111استفادهشي

از C4.5Rulesاستفاده ، RIPPER وAPRIORI برايها داده از قوانين كشف

Page 30: (text mining)  متن كاوي

DISCOTEX ) ادامه)APRIORI

كردن كاوش براي به association ruleالگوريتمي توجه با هاmin sup وmin confidence

RIPPER شدن درك سادگي به گيري تصميم درخت از بهتر در شدن سازي پياده سادگي prologبه نويز داراي هاي داده براي كارا الگوريتمي

مقادير بين روابط كردن قوانين Slotتوصيف فرم به هامثال

Page 31: (text mining)  متن كاوي

DISCOTEX ).. ادامه)قوانين داده mineنمونه پايگاه يك از resunes 600شده

خبري) گروه از USENETاز استفاده (BWIبا

قوانين با mineنمونه داده پايگاه يك از گروه ) job 600شدهاز( USENETخبري استفاده C4.5RULESو RAPIERبا

Page 32: (text mining)  متن كاوي

DISCOTEX) ارزيابي ) شده كشف دانش دقت گيري اندازه هاي پركننده كردن بيني پيش براي قوانيني كردن استنتاج

Slotها ارزيابي معيارهاي

Precision

Recall

F-measure

Page 33: (text mining)  متن كاوي

نتايج توسط نامربوط سندهاي كردن bag-of-wordحذف

Naïve-Bayes text categorizer پايگاه ساختن از قبلسيستم توسط IEداده

Precision برايclassifier: 98 درصد Recall برايclassifier

Train كردنRAPIER شده 60روي گذاري برچسب سندPrecision : درصد 91.9استخراج Recall : درصد 52.4استخراج

Page 34: (text mining)  متن كاوي

نهايي سيستم كلي معماري

Page 35: (text mining)  متن كاوي

ارزيmابي نتايج

Page 36: (text mining)  متن كاوي

IEبهبود قوانین از کردن بینی ÷ mineاستفاده یش برای شده

بیشتر های پرکننده استخراج رفته دست از اطالعات کردن بینی پیش

ارزیابی برای معیار IEدوPrecisionRecall

الگوریتم دادن کردن recallبهبود قربانی precisionبدون : مثال کردن استخراج نکردن کردن استخراج ,Slotبه mobileاضافه

area

Page 37: (text mining)  متن كاوي

....(IEبهبود ادامه)الگوریتم

( مترادفی یا آن وجود صورت در قالب به پرکننده کردن اضافه ) سند در mآن mاز

برای کد قوانین mineشبه کردن

Page 38: (text mining)  متن كاوي

....(IEبهبود ادامه) بهبود برای کد قوانین recallشبه از استفاده mineبا

شده

Page 39: (text mining)  متن كاوي

یافته بهبود روش ارزیابی تست مجموعه

Computer-science job posting 600 hand-labeled خبری گروه در شده آوری austinجمع

4000 نشده تفسیر سندنتایج

Page 40: (text mining)  متن كاوي

نتايج ميانگينf-measure تا 86.4بين درصد 88.1درصد افزايشrecall گذاري برچسب هاي نمونه افزايش با

نشده كاهشprecision افزايش recallباMatching filler عنوان baselineبه

Page 41: (text mining)  متن كاوي

منابع Haralampos Karanikas, et.al. An Approach to Text Mining using Information Extraction, 2000

N. Kanya*, S. Geetha “INFORMATION EXTRACTION -A TEXT MININGAPPROACH” 2007 produced IEEE

Raymond J. Mooney and Un Yong Nahm 2005 “Text mining with Informatin Exteraction”

M. Rajman. Text Mining, knowledge extraction from unstructured textual data. Proc. of EUROSTAT Conference, Francfort (Deutchland), may, 1997

Data mining Concepts and Techniques: jiawei Han and Micheline kamber