(text mining) متن كاوي

(TEXT MINING) متنكاوي

مصباح سارا

88بهار

مطالب فهرستمقدمهمشكالت كاوي متن هدف كاوي متن كاربردهاي كاوي متن فرآيند( روابط (Rajman_97يافتن روشTextMiner (Karanikas_2000) روشDIScoTEX (Kanya_07, Mooney_05 ) روش DIScoTEX (Kanya_07, Mooney_05 )بهبود

بخش اين توضيحات براي منابع M. Rajman.

Text Mining, knowledge extraction from unstructured textual data. Proc. of EUROSTAT Conference, Francfort (Deutchland), may, 1997

Data mining Concepts and Techniques: jiawei Han and Micheline kamber

http://ece.ut.ac.ir/DBRG/seminars/SpecialDB/2005/Vazifedoust-Bayat/Alireza/Read/TextMining,knowledgeextractionfromunstructuredtextualdata.pdf

مقدمه پايگاه در اطالعات از اي مالحظه قابل بخش بودن موجود

متني هاي داده

تعريف يافته ساخت غير ي دادها از مفيد اطالعات mو مفهوم استخراج يافته ساخت غير متن در الگو جستجوي

:،خبري مقاالت .....paperمثال هاو ايميل ها، كتاب ها،

: غير متني هاي داده پايگاه در شده ذخيره اطالعات نوعساختيافته

:سند يك گرفتن نظر در مثال

).. ادامه ) مقدمه: كاوي متن براي شده پيشنهاد هاي تكنيك

مفهومي ساختارهاي كردن هاassociation ruleكاوش گيري تصميم هاي درخت قوانين استنتاج هاي روش اطالعات بازيابي ي ها تكنيك

مشكل از هستند 80بيش متن صورت به اطالعات درصد مشكل

بودن ساختيافته غير اطالعات از دانش دريافت شود مي حاصل اطالعات از كه دانشي كمبود كاوي داده در عاميت وجود عدم

:هستند اي رابطه هاي داده پايگاه فرم به اطالعات فرض اطالعات بازيابي

دانش نه و كاربر نياز به توجه با مستندات ترين مرتبط بازيابي :ها ايميل سابقه كردن ثبت مثال

از زيادي حجم براي سنتي اطالعات بازيابي هاي تكنيك بودن ناكارآمدساختيافته غير اطالعات

كم مربوط سندهاي بازيابي

غير يا يافته ساخت نيمه متن از دانش كردن كشفساختيافته

هدف متني هاي داده پايگاه كردن پردازش بودن، فرسا طاقت

دستي صورت به ساختيافته غير متن معني درك كردن اتوماتيك ،مختلف سندهاي مقايسه براي كارآمد ابزارهايي به نياز

الگوها يافتن بودن، مربوط اساس بر سندها كردن مرتبزياد حجم با ساختيافته غير هاي داده براي

كاوي متن براي مختلف هاي نامText miningText data miningKnowledge Discovery in Text

كاوي متن كاربردها بازيابي و جستجوClustering وclassification سازي خالصه روابط استخراجPOS(Part of Speech Tagging)

)... ادامه ) كاوي متن كاربردهاي اطالعات بازيابي و جستجو

متن از استفاده با اطالعات بازيابي و جستجو زمينه در جديد هاي روشكاوي

: كاربر نياز به توجه با متون ترين مرتبط بازيابي اطالعات بازيابي هدف بر machine learningو NLPمبتني بر مبتني هاي روش از استفاده با شده ساخته دانش پايگاه يك به نياز

NLP اسناد روي بر آماري هاي روش وClustering

كاربر نظر مورد اطالعات سريعتر يافتن به كمك اسناد مجموعه از كلي نگاه دادن مجموعه داشتن بدون اتوماتيك صورت به ها كالس trainingساختن

Classification مفاهيم از اي شده تعريف پيش از هاي كالس داشتن ها كالس از يكي به جديد سندهاي كردن نگاشت

)... ادامه ) كاوي متني كاربردهايPOS

طبيعي هاي زبان پردازش در مهمي نقش داشتن :سيستم GATEمثال

جمالت گذاري برچسب براي ابزاري ... متن يك در و اشخاص نام جغرافيايي، موقعيتهاي نام كردن پيدا

كاوي متن فرآيند اسناد پردازش پيش فاز

سند بر مبتني اسناد براي بهتري نمايش ي نحوه ساختيافته نيمه و مياني فرمت يك به اسناد تبديل هرentity است سند يك نهايتا نمايش اين در

مفهوم بر مبتني و سند در موجود معاني و مفاهيم سند، نمايش به بخشيدن بهبود

.... و ها آن ميان ارتباط سندها از شده استخراج مفاهيم با داشتن كار و سر

اسناد نمايش مياني هاي فرمت از دانش استخراج فاز..... : mو بندي طبقه بندي، گرو سند بر مبتني نمايش : و مفاهيم ميان روابط يافتن براي مفهوم بر مبتني نمايش

آنتولوژي اتوماتيك ساختن پردازش پيش گام عنوان به اطالعات استخراج از استفاده

روابط ) (RAJMAN_97يافتن: كلمات از اي مجموعه: شده ايندكس ميتندات از اي مجموعه رابطه با فرض

: كليدي كلمات از اي مجموعه : مستندات تمام Tدر tمجموعه[w :]براي پوششي wمجموعه

زوج هر ازاي است كه( W,w)به لغات از اي مجموعهشكل به و شود مي خوانده رابطه قانون يك و

شود مي داده نمايش

},...,,{ 21 wnwwA

},...,,{ 21 ntttT

).(At i

AW

)(AtW

AW WAw \

)(: wWR

).. ادامه ) روابط يافتن داريم فرض با

: گرفتن نظر در با رابطه، از پشتيباني Tميزان : گرفتن نظر در با رابطه، از اطمينان Tميزان

هدف

مقدار كه قوانين فتن ميزاني C(R,T)و S(R,T)يا از ها آنباشد بيشتر

)(: wWR

}{),( wWTR S

w

wWTR

),(C

منبع Haralampos Karanikas, et.al. An Approach to Text Mining using Information Extraction, 2000

http://ece.ut.ac.ir/DBRG/seminars/SpecialDB/2005/Vazifedoust-Bayat/Alireza/Read/AnapproachtoTextMiningUsingInformationEXtraction.pdf

TEXTMINERروش كردن و termاستخراج پيدا eventها براي سند هر هاي

ها ويژگي كردن عمل هر miningانجام شده استخراج هاي ويژگي روي

سند: سيستم هاي كامپوننت

Text Analysis Component : در شده ذخيره ساختيافته داده به سندها ساختيافته نيمه داده دادن تغيير

داده پايگاهData mining component

اول كامپوننت خروجي روي بر كاوي داده هاي تكنيك كردن اعمال روش اين اهداف

: در سندها كردن بندي طبقه موجود اطالعات همه كردن مديريتcategory مناسب هاي

Mine مفيد دانش كردن كشف براي داده كردن

TEXTMINERمعماري

)TEXTMINERروش اطالعات ( استخراج ( هاي داده پايگاه طبيعي زبان هاي متن كردن نگاشت

)... نمايش يك به هاو ايميل وب، صفحات مقاالت، متني،شده تعريف پيش از و ساختيافته

كه هايي قالب به طبيعي زبان هاي متن كردن نگاشتدهند مي نشان را متن كليدي اطالعات از منتخبي

انجام براي داده پايگاه در آنها ذخيره و اطالعات استخراج..... و سازي خالصه كاوش، جو، و پرس

) مالي ) دامنه مثالEvent مالي دامنه يك براي هاي نام به جدولي در اطالعات داري Event typeنگه

برايevent ، take-over هر براي شده توصيف صفت مختلفي تعداد دادن eventقرار :،تاريخ نوع company targeصفات ،take-over...و

...(TEXT MINERروش ادامه ) استخراج از بعد زير شكل به جدولي كردن هاeventپر

Event شده mاستخراج هاي كالسترينگ الگوريتم براي ورودي عنوان بmه زير جدول ساختن داده پايگاه در ركودها عنوان به سندmها گرفتن نmظر در گرفتن نظر ركورد term/eventدر صmفات عنوان به سند هر هاي

كالسترينگ الگوريتم براي ورودي داده

(TEXT MINERروش كالسترينگ ) الگوريتم حاصل داده پايگاه روي بر كالسترينگ الگوريتم اعمال اسناد از اي مجموعه از هايي زيرمجموعه ايجاد اسناد مجموعه در ساختار كشف گروه يك در دارند مشترك هاي ويژگي كه سندهايي دادن قرار ها داده از ديدكلي دادن مربوط اطالعات يافتن كردن، آسان در كالسترينگ از : taskاستفاده آناليز ديگر relevanceهاي ،

classification.................... و كالسترينگ الگوريتم انتخاب

و داده مجموعه نوع به taskوابسته ها كالسترينگ ترين معروف

Binary relational clustering مراتبي سلسله كالستريگ

).. ادامه ) كالسترينگ الگوريmتم فاصله بر مبتني كالسترينگ آناليز نبودن كاراConceptual clustering

نيستند عددي شباهت با اشيا از اي مجموعه تنها ها كالستر صفات توصيفات از اي مجموعه اشيا كالسترهاي توصيف براي توصيف زبان يك بندي رده كيفيت معيار يكهدف

كيفيت معيار كردن بيشينه كالسترها از عمومي توصيفات كردن تعيين

هاي داده براي كالسترينگ هاي روش از استفادهcategorical

).. ادامه ) كالسترينگ الگوريmتم بولين صفات با داده پايگاه در سندها نمايش

يك با صفت هر بودن event/termمتناظر شامل سند صفت term/eventاگر باشد trueمتناظر

است

از لينك )Rockالگوريتم frameforkاستفاده مفهوم ,RIوRC)Link(pi, pj) :بين مشترك هاي همسايه تعداد pjو piبيانگر

با سندهايي گرفتن قرار و كالسترينگ الگوريتم از استفادهمشابه ) كالستر( term/eventالگوهاي يك در ها

CLASSIFICATIONالگوريتم از آمده دست به توصيفات از بعد بندي رده اعمال

كالسترينگ

كالسترينگ از حاصل نتايج بيشتر معتبرسازي

شده كشف دانش از بهتر برداري بهره

گيري تصميم درخت الگوريتم مفاهيم از مراتبي سلسله بازيابي شده كشف توصيفات درستي كردن تست

منبع N. Kanya*, S. Geetha “INFORMATION EXTRACTION -A TEXT MININGAPPROACH”

2007 produced IEEE

“Text mining with Informatin Exteraction” Raymond J. Mooney and Un Yong Nahm 2005

DISCOTEX (DISCOVERY FORM TEXT EXTRACTION)

: كردن يكپارچه اطالعات استخراج (IEشده )learnسيستم

تر يافته ساخت داده به متن سندهاي تبديل داده از خاصي هاي بخش كردن جستجو

( استاندارد قوانين كردن استنتاج (KDDماجولMine ماجول از حاصل شده يافته ساخت داده پايگاه براي IEكردن

عالقه مورد روابط يافتن از كه اطالعاتي كردن بيني پيش و آمده دست به قوانين از استفاده

شوند مي استخراج جديد سندهاي از متدهاي applicationاستفاده و آماري machine learningهاي

DISCOTEX ) ادامه)

چارچوب از كلي بر mineديد مبتني متن IEكردن

سيستم يك :IEساختن متدهاي از كردن machine learninاستفاده اتوماتيك براي

هاي سيستم IEساخت ها داده استخراج سند، كمي تعداد كردن توصيف دستي صورت به

سيستم استنتاج آن، به IEاز آن اعمال و قبولي قابل دقت باسندها از بزرگي مجموعه

خطاست شامل اتوماتيك صورت به شده استخراج داده پايگاه

DISCOTEX ) ادامه) ”نويز داراي داده پايگاه از شده كشف دانش reliabityآيا

تميز داده پايگاه يك از شده كشف دانش از كمتر خيلي آن“ است؟ تر

هدفIE طبيعي زبان به متن يك در خاص داده كردن پيدا يك صورت به ها داده templateنمايش

Template دامنه براي شده job-posting پر

DISCOTEX ) ادامه) از كننده machine learningاستفاده استخراج ساختن براي

ها

سيستم دو از state-of-the-artاستفادهRAPIER(Robust Automated Production of Information

Exteraction Rules)BWI(Boosted Wrapper induction)

سيستم :IEخروجي از اي ها Slotمجموعه

اطالعات استخراج الگوهاي بردن كار به يافته ساخت و سرچ قابل داده پايگاه يك

DISCOTEX ) ادامه)

هاي تكنيك داده KDDاعمال پايگاه روي بر استانداردشده نتيجه

Training با شده توصيف سندهاي از اي مجموعه رويها قالب

برايslot ، platform پركننده :Wnidows XPداريمWin XP ، WinXP ، MS Win XP

كردن از termتبديل قبل مقدار يك به قوانين mineها كردنها داده از

با مترادف هاي واژه شامل ديكشنري يك از 111استفادهشي

از C4.5Rulesاستفاده ، RIPPER وAPRIORI برايها داده از قوانين كشف

DISCOTEX ) ادامه)APRIORI

كردن كاوش براي به association ruleالگوريتمي توجه با هاmin sup وmin confidence

RIPPER شدن درك سادگي به گيري تصميم درخت از بهتر در شدن سازي پياده سادگي prologبه نويز داراي هاي داده براي كارا الگوريتمي

مقادير بين روابط كردن قوانين Slotتوصيف فرم به هامثال

DISCOTEX ).. ادامه)قوانين داده mineنمونه پايگاه يك از resunes 600شده

خبري) گروه از USENETاز استفاده (BWIبا

قوانين با mineنمونه داده پايگاه يك از گروه ) job 600شدهاز( USENETخبري استفاده C4.5RULESو RAPIERبا

DISCOTEX) ارزيابي ) شده كشف دانش دقت گيري اندازه هاي پركننده كردن بيني پيش براي قوانيني كردن استنتاج

Slotها ارزيابي معيارهاي

Precision

Recall

F-measure

نتايج توسط نامربوط سندهاي كردن bag-of-wordحذف

Naïve-Bayes text categorizer پايگاه ساختن از قبلسيستم توسط IEداده

Precision برايclassifier: 98 درصد Recall برايclassifier

Train كردنRAPIER شده 60روي گذاري برچسب سندPrecision : درصد 91.9استخراج Recall : درصد 52.4استخراج

نهايي سيستم كلي معماري

ارزيmابي نتايج

IEبهبود قوانین از کردن بینی ÷ mineاستفاده یش برای شده

بیشتر های پرکننده استخراج رفته دست از اطالعات کردن بینی پیش

ارزیابی برای معیار IEدوPrecisionRecall

الگوریتم دادن کردن recallبهبود قربانی precisionبدون : مثال کردن استخراج نکردن کردن استخراج ,Slotبه mobileاضافه

area

....(IEبهبود ادامه)الگوریتم

( مترادفی یا آن وجود صورت در قالب به پرکننده کردن اضافه ) سند در mآن mاز

برای کد قوانین mineشبه کردن

....(IEبهبود ادامه) بهبود برای کد قوانین recallشبه از استفاده mineبا

شده

یافته بهبود روش ارزیابی تست مجموعه

Computer-science job posting 600 hand-labeled خبری گروه در شده آوری austinجمع

4000 نشده تفسیر سندنتایج

نتايج ميانگينf-measure تا 86.4بين درصد 88.1درصد افزايشrecall گذاري برچسب هاي نمونه افزايش با

نشده كاهشprecision افزايش recallباMatching filler عنوان baselineبه

منابع Haralampos Karanikas, et.al. An Approach to Text Mining using Information Extraction, 2000

N. Kanya*, S. Geetha “INFORMATION EXTRACTION -A TEXT MININGAPPROACH” 2007 produced IEEE

Raymond J. Mooney and Un Yong Nahm 2005 “Text mining with Informatin Exteraction”

M. Rajman. Text Mining, knowledge extraction from unstructured textual data. Proc. of EUROSTAT Conference, Francfort (Deutchland), may, 1997

Data mining Concepts and Techniques: jiawei Han and Micheline kamber

http://ece.ut.ac.ir/DBRG/seminars/SpecialDB/2005/Vazifedoust-Bayat/Alireza/Read/AnapproachtoTextMiningUsingInformationEXtraction.pdf

http://ece.ut.ac.ir/DBRG/seminars/SpecialDB/2005/Vazifedoust-Bayat/Alireza/Read/TextMining,knowledgeextractionfromunstructuredtextualdata.pdf

Documents

(text mining) متن كاوي