36
ﺧﺪا ﻧﺎم ﺑﻪ ا ﻣﻘﺪﻣﻪ ي ﻛﺎو داده ﺑﺮ ي اﻛﺘﺸﺎف و داﻧﺶ ﻛﻨﻨﺪﮔﺎن ﺗﻬﻴﻪ: ﻗﺪﻳﻤﻲ ﻳﻮﺣﻨﺎ ﻋﺒﺎﺳﻲ ﻋﻠﻲ ﭘﺎﺷﺎﻳﻲ ﻛﺎوه

مقدمه ای بر داده کاوی و اکتشاف دانش

Embed Size (px)

DESCRIPTION

يوحنا قديمی علي عباسی کاوه پاشایی

Citation preview

Page 1: مقدمه ای بر داده کاوی و اکتشاف دانش

به نام خدا

و اكتشاف ي بر داده كاويمقدمه ا دانش

يوحنا قديمي: تهيه كنندگان

علي عباسي

كاوه پاشايي

Page 2: مقدمه ای بر داده کاوی و اکتشاف دانش

مقدمه ذخيره شده ي داده ها ي و حجم باالي پايگاهيامروزه با گسترش سيستم ها

ذخيره شدهي است تا بتوان داده هايدر اين سيستم ها ، نياز به ابزار . پردازش كرد و اطالعات حاصل از اين پردازش را در اختيار كاربران قرار داد

ي گوناگون گزارش گيري و ابزارهاSQL ساده در يبا استفاده ار پرسش ها را در اختيار كاربران قرار داد تا بتوانند به نتيجه ي توان اطالعاتي ، ميمعمول كه حجم ينها بپردازند اما وقت ميان آي در مورد داده ها و روابط منطقيگير

توانند يداده ها باال باشد ، كاربران هر چند زبر دست و با تجربه باشند نم مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به يالگوها

بسيار باال ي و مادي انسانياين كار هم با شند ، هزينه عمليات از نظر نيرو .است كنند و سپس بر اساس ي را مطرح ميگر كاربران معموال فرضيه ا ديياز سو

كه امروزه ي پردازند ، در حاليگزارشات مشاهده شده به اثبات يا رد فرضيه م با كمترين ي بپردازند يعن1 است كه اصطالحا به كشف دانشينياز به روشهاي

.ن نمايند را بياي منطقيدخالت كاربر و به صورت خودكار الگوها و رابطه ها مفيد ي از مهمترين اين روشها است كه به وسيله آن الگوهاي يك2يداده كاو

را در ي شوند و اطالعاتيدر داده ها با حداقل دخالت كاربران شناخته م دهند تا براساس آنها تصميمات مهم و ياختيار كاربران و تحليل گران قرار م

. در سازمانها اتخاذ شوند يحيات استفاده 3 داده هاي از علم آمار به نام تحليل اكتشافي از بخشيودر داده كا

شود كه در آن بر كشف اطالعات نهفته و ناشناخته از درون حجم انبوه يم ي و يادگيري با هوش مصنوعيعالوه بر اين داده كاو. شود يداده ها تاكيد م

1 Knowledge Discovery 2 Data Mining 3 Exploratory Data Analysis

Page 3: مقدمه ای بر داده کاوی و اکتشاف دانش

يده كاو توان گفت در داي دارد ، بنابراين ميماشين نيز ارتباط تنگاتنگ ماشين و علم آمار را در ي ، يادگيري پايگاه داده ها ، هوش مصنوعيتئوريها . فراهم شود ي آميزند تا زمينه كاربرديهم م

شود كه با ي به كار برده مي زمانيبايد توجه داشت كه اصطالح داده كاو يدر تمام. از داده ها ، در حد مگا يا ترابايت ، مواجه باشيم يحجم بزرگ

. بر اين مطلب تاكيد شده است يمنابع داده كاو به يهر چه حجم داده ها بيشتر و روابط ميان آنها پيچيده تر باشد دسترس

به عنوان ي شود و نقش داده كاوياطالعات نهفته در ميان داده ها مشكلتر م . گردد ي كشف دانش ، روشن تر مي از روشهاييك

يمفاهيم پايه در داده كاو. شود ي مفيد از ميان داده ها اشاره مي معموال به كشف الگوهايه كاودر داد

در داده ها است كه ارتباط ميان يك زير ي مفيد ، مدليمنظور از الگو كند و معتبر ، ساده ، قابل فهم و جديد يمجموعه از داده ها را توصيف م

.است يتعريف داده كاو

يدر برخ. ارائه شده اند ياده كاو دي برايدر متون آكادميك تعاريف گوناگون كه كاربران را قادر به ارتباط مستقيم ي در حد ابزارياز اين تعاريف داده كاو

ديگر ، ي گرديده است و در برخي سازد معرفيبا حجم عظيم داده ها م. شود موجود است يتعاريف دقيقتر كه درآنها به كاوش در داده ها توجه م

:ارتند از از اين تعاريف عبيبرخ عبارت است از فرايند استخراج اطالعات معتبر ، از پيش يداده كاو •

بزرگ و يناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده ها ]1[ . مهمي تجاري در فعاليت هاياستفاده از آن در تصميم گير

يه و تحليل پايگاه به فرايند نيم خودكار تجزياصطالح داده كاو • .]2[ شود ي مفيد اطالق مي بزرگ به منظور يافتن الگوهايداده ها

Page 4: مقدمه ای بر داده کاوی و اکتشاف دانش

ي يافتن الگوهايي جستجو در يك پايگاه داده ها براي يعنيداده كاو • ]3[.ميان داده ها

جديد از استخراج دانش كالن ، قابل استناد و ي يعنيداده كاو • . بزرگ يپايگاه داده ها

قابل مشاهده ي تجزيه و تحليل مجموعه داده هاي يعنيداده كاو • . يافتن روابط مطمئن بين داده ها يبرا

شود ، تقريبا در ي مشاهده ميهمانگونه كه در تعاريف گوناگون داده كاوين بي چون استخراج دانش ، تحليل و يافتن الگوي تعاريف به مفاهيميتمام

.داده ها اشاره شده است يتاريخچه داده كاو

ي عملي از مقاالت ، كنفرانس ها و رساله ها ي موضوع بسيارياخيرا داده كاو ي نداشت وبه كار برده نميشده است ، اما اين واژه تا اوايل دهه نود مفهوم

.شد ي جمع آوري ايجاد سيستم ها ي برايدر دهه شصت و پيش از آن زمينه هاي

در اين زمينه انجام پذيرفت كه منجر ي مديريت داده ها ايجاد شد و تحقيقاتو . مديريت پايگاه داده ها گرديد ي و ايجاد سيستم هايبه معرف

و ي ، شبكه اي پايگاه سلسله مراتبي براي داده ايايجاد و توسعه مدلها همچون شاخص ي مفاهيمي در دهه هفتاد ، منجر به معرفيبخصوص رابطه ا

در اوايل SQL داده ها و در نهايت ايجاد زبان پرسش ي و سازماندهيگذار مورد نظر ي اطالعاتيدهه هشتاد گرديد تا كاربران بتوانند گزارشات و فرمها

.خود را ، از اين طريق ايجاد نمايند ي شي پيشرفته در دهه هشتاد و ايجاد پايگاه هاي پايگاهيتوسعه سيستم ها شدن اين ي باعث توسعه همه جانبه و كاربرد5 و فعال4گرا ، كاربرد گرا

همچون ي هايDBMSبدين ترتيب . سيستم ها در سراسر جهان گرديد

4 Application Oriented 5 Active DBMS

Page 5: مقدمه ای بر داده کاوی و اکتشاف دانش

DB2 ، Oracle ، Sybase ، ...از اطالعات با يايجاد شدند و حجم زياد شايد بتوان مهمترين . استفاده از اين سيستم ها مورد پردازش قرار گرفتند

) 6KDD( را مبحث كشف دانش از پايگاه داده ها يده كاو دايجنبه در معرف بصورت مترادف مورد KDD و DM موارد ي كه در بسياريدانست بطور

. گيرند ياستفاده قرار م ذكر شد ، هدف از جستجو و كشف يهمانطور كه در تعريف داده كاو

است ، ي در پايگاه داده ها و استفاده از آنها در اخذ تصميمات حياتيالگوهاي است كه در نهايت KDD از فرايند ي بخشDM توان گفت كه يبنابراين م

در فرايند كشف ي نقش داده كاو1-1 شكل DSS7 يبه ايجاد سيستم ها]4[. دهد يدانش از پايگاه داده ها را نشان م

توسط KDD در زمينه IJCAI 8 در كارگاهي اولين بار مفهوم داده كاويبراShapir ي ، كارگاهها1994 تا 1991 يبه دنبال آن در سالها. مطرح گرديد KDDكه ي را در اين شاخه از علم ارائه كردند بطوري مفاهيم جديد توان آنها را در شكل ي از علوم و مفاهيم با آن مرتبط گرديدند كه ميبسيار

. مشاهده نمود 2-1 : عبارتند از ي واقعيطها در محيي داده كاوي از كاربردهايبرخ

توان به ي است كه مي كالسيك داده كاوياز كاربردها : يخرده فروش .1 : موارد زير اشاره كرد

خريد مشتريان يتعيين الگوها • تجزيه و تحليل سبد خريد بازار •فروش ( ميزان خريد مشتريان از طريق پستيپيشگوي •

) يالكترونيك :يبانكدار .2

ي اعتباري از طريق كارتهايبردار كالهي الگوهايپيش بين •

6 Knowledge Discovery From Database 7 Decision Support System 8 Workshop

Page 6: مقدمه ای بر داده کاوی و اکتشاف دانش

تشخيص مشتريان ثابت • ي بر اساس گروههاي اعتباريتعيين ميزان استفاده از كارتها •

ياجتماع :بيمه .3

يتجزيه و تحليل دعاو • جديد توسط مشتريان ي ميزان خريد بيمه نامه هايپيشگوي •

:يپزشك .4مال ميزان موفقيت اعيتعيين نوع رفتار با بيماران و پيشگوي •

يجراح ي در برخورد با بيماريهاي درمانيتعيين ميزان موفقيت روشها •

سخت مراحل فرايند كشف دانش از پايگاه داده ها

:فرايند كشف دانش از پايگاه داده ها شامل پنج مرحله است كه عبارتند از 9انبارش داده ها .1 انتخاب داده ها .2 تبديل داده ها .3 كاوش در داده ها .4 جه تفسير نتي .5

از مراحل اين فرايند است كه ي يكي شود داده كاويهمانگونه كه مشاهده م كند ي در كشف دانش از داده ها ايفا ميبه عنوان بخش چهارم آن نقش مهم

. انبارش داده ها •

به ي است كه در داده كاوي از ملزوماتيوجود اطالعات صحيح و منسجم يك غلط و يالعات صحيح باعث نتيجه گيراشتباه و عدم وجود اط. آن نيازمنديم

9 Data Warehousing

Page 7: مقدمه ای بر داده کاوی و اکتشاف دانش

گردد و منتج به نتايج يدر نتيجه اخذ تصميمات ناصحيح در سازمانها م . آن كم نيستند ي خواهد گرديد كه نمونه هايخطرناك

در اينگونه سازمانها معموال . هستند 10ياكثر سازمانها دچار يك خال اطالعات گوناگون ي و مديريت هاير در طول زمان و با معماي اطالعاتيسيستم ها

مشاهده ي يكپارچه و مشخصي كه سازمان اطالعاتيساخته شده اند ، به طور به اطالعات خالصه و مهم در ي فرايند داده كاويعالوه بر اين برا. گردد ينم

. نيازمنديم ي حياتيزمينه تصميم گيريهاجهت هدف از فرايند انبارش داده ها فراهم كردن يك محيط يكپارچه

در اين فرايند ، اطالعات تحليلي و موجز در دوره . پردازش اطالعات است شود تا بتوان از آنها در فرايند ي و ذخيره مي سازماندهي مناسب زمانيهابه طور . است ، استفاده شود ي كه از ملزومات آن داده كاوي تصميم گيريها : گردد ي انبار داده ها ارائه مي تعريف زير برايكل

و 13 ، متغير در زمان12 ، مجتمع11ي است موضوعيانبار داده ها ، مجموعه ا ي از فرايند مديريت تصميم گيري از داده ها كه به منظور پشتيبان14پايدار

]1[. گيرد يمورد استفاده قرار م يون گوناگي است كه مقاله ها و رساله ها يانبارش داده ها خود موضوع مفصل

با اين فرايند به يدر اين فصل به منظور آشناي. در مورد آن نگاشته شده اند . شد يآن اشاره ا

انتخاب داده ها • از داده ها است كه همه آنها در يانبار داده ها شامل انواع مختلف و گوناگون

مورد ي بايد داده ها ي فرايند داده كاويبرا. مورد نياز نيستند يداده كاو مربوط به سيستم يبه عنوان مثال در يك پايگاه داده ها. انتخاب شوند نياز

آنها ، ي در مورد خريد مشتريان ، خصوصيات آماري ، اطالعاتيفروشگاه

10 Information Gap 11 Subject Oriented 12 Integrated 13 Time Variant 14 NonVolatile

Page 8: مقدمه ای بر داده کاوی و اکتشاف دانش

تعيين نحوه يبرا. وجود دارند ... و يتامين كنندگان ، خريد ، حسابداريات در مورد خريد مشتريان و خصوصيچيدن قفسه ها تنها به داده ها ي

نياز به كاوش در تمام محتويات پايگاه ي در موارديحت. آنها نياز است يآمار از ينيست بلكه ممكن است به منظور كاهش هزينه عمليات ، نمونه هاي

. عناصر انتخاب و كاوش شوند تبديل داده ها •

مورد كاوش ي مورد نياز انتخاب شدند و داده ها ي كه داده هايهنگامنوع . داده ها نياز است ي روي، معمال به تبديالت خاصمشخص گرديدند

يتبديالت: دارد ي مورد استفاده بستگيتبديل به عمليات و تكنيك داده كاو به نوع ديگر تا تبديالت پيچيده تر همچون يساده همچون تبديل نوع داده ا

. صفات موجود ي روي و منطقي رياضيتعريف صفات جديد با انجام عملياتها اوش در داده ها ك •

مورد ي داده كاوي تبديل شده با استفاده از تكنيكها و عملياتهايداده ها . مورد نظر كشف شوند ي گيرند تا الگوهايكاوش قرار م تفسير نتيجه •

اطالعات استخراج شده با توجه به هدف كاربر تجزيه و تحليل و بهترين نتايج و يا يبصورت منطق(ارائه نتيجه هدف از اين مرحله تنها . گردند يمعين منيست ، بلكه پااليش اطالعات ارايه شده به كاربر نيز از اهداف مهم ) ينمودار

.اين مرحله است ي داده كاويعملياتها

]1[ شود كه عبارتند از ي انجام مي ، چهار عمل اصليدر داده كاو كنندهي پيشگوييمدلساز .1 ه داده ها تقطيع پايگا .2 تحليل پيوند .3 تشخيص انحراف .4

Page 9: مقدمه ای بر داده کاوی و اکتشاف دانش

كاربرد ي از آنها در پياده سازي مذكور ، يك يا بيش از يكي اصلياز عملياتها ي كاربرد هايبه عنوان مثال برا. شوند ي استفاده مي گوناگون داده كاويها

شود در ي معموال از عمليات تقطيع و تحليل پيوند استفاده ميخرده فروش توان از هر يك از چهار عمليات ي ، مي تشخيص كالهبرداري كه برايحال

يك ي از عملياتها براي توان از دنباله ايعالوه برا ين م. مذكور استفاده نمود مشتريان ، ابتدا پايگاه تقطيع ي شناساييمثال برا. منظور خاص استفاده كرد

يال م كننده در قطعات ايجاد شده اعمي پيشگويي شود و سپس مدلسازيم .گردد

ي عملياتهاي پياده سازي ، راههاي داده كاويتكنيكها ، روشها و الگوريتمهااگر چه هر عمليات نقاط ضعف و قوت خود را دارد ، . هستند يداده كاو ، انتخاب ي خاصي عملياتها را بر اساس معيارهاي گوناگون داده كاويابزارها

:اين معيارها عبارتند از . كنند يم ي وروديب با نوع داده هاتناس • ي داده كاويشفافيت خروج • مقاومت در مقابل اشتباه در مقادير داده ها • يميزان صحت خروج • داده ها ي كار كردن با حجم بااليتواناي • چهار گانه مشخص ي وابسته به هر يك از عملياتهايرتكنيكهايدر جدول ز

شده اند

Page 10: مقدمه ای بر داده کاوی و اکتشاف دانش

ي داده كاويتكنيك ها نام عمليات مقداري ، پيشگوييرده بند كنندهي پيشگوييمدلساز

ي ، خوشه بندي آماريخوشه بند تقطيع پايگاه داده ها ي متوالي ، كشف الگوهايكشف بستگ تحليل پيوند

مشابه ي زماني، كشف دنباله ها آمار ، تجسم مدل تشخيص انحراف

ي داده كاويعملياتها و تكنيكها ه كنندي پيشگوييمدلساز انسان در به كار بردن ي كننده ، شبيه تجربه يادگيري پيشگوييمدلساز

در اين . ايجاد يك مدل از خصوصيات مهم پديده ها است يمشاهدات برا ي و قابليت تطبيق داده هاي واقعي و تعميم دنياي واقعيروش از تعميم دنيا

. شود ي ، استفاده ميجديد با يك قالب كل موجود ، خصوصيات ين با تحليل يك پايگاه داده ها توايدر اين مدل ، م

ياين مدل با استفاده از روش يادگير. داده را تعيين كرد يمجموعه هادر فاز آموزش . نظارت شده، شامل دو فاز آموزش و آزمايش ايجاد شده است

ي ساخته مي ، مدلي سابقه اي از داده هاي عظيميبا استفاده از نمونه ها يدر فاز آزمايش اين مدل رو. گو يند يه آن مجموعه آموزششود كه كه ب

شود تا صحت و ي قرار ندارند ، اعمال مي كه در مجموعه آموزشيداده هاي .خصو صيات آن تاييد گردد

توان به مديريت مشتريان ، تصويب اعتبار ، ي عمده اين مدل مياز كاربردها . كرد اشاره... و ي مستقيم در خرده فروشيبازارياب

تقطيع پايگاه داده ها از قطعات يا يهدف از تقطيع پايگاه داده ها ، تقسيم آن به تعداد نامعين

ي كه خصوصياتي ركوردهايي مشابه است ، يعني از ركوردها15يخوشه هاي

15 Clusters

Page 11: مقدمه ای بر داده کاوی و اکتشاف دانش

اين ي داخليپيوستگ. توان آنها را همگن فرض كرد يمشابه دارند و م ي ميان آنها كم مي خارجيبستگ كه هميقطعات بسيار زياد است در حال

. باشد تعيين ي نظارت نشده برايدر اين مدل بر خالف مدل قبل ، از يادگير

دقت تقطيع . شود ي استفاده مي ممكن از جمعيت داده ايزيرشاخه ها ديگر كمتر است ، بنابراين در مقابل خصوصيات يپايگاه داده ها از روشها

. دهد ي از خود نشان مير ، حساسيت كمتينامربوط و افزونگ... مستقيم و ي مشتريان ، بازاريابي توان به شناسايي اين روش مياز كاربردها ]1[. شود ي از تقطيع پايگاه داده ها ديده مي مثال1-4در شكل . اشاره كرد

100 مشاهده است كه در آن 200در اين مثال ، پايگاه داده ها شامل ي شش بعد ميداده ها دارا. هستند ي اسكناس واقع100 و ياسكناس تقلب

با استفاده از . باشند كه هر بعد مربوط به يك معيار از اندازه اسكناس ها است معتبر و ي متناظر با اسكناسهاي توان خوشه هايتقطيع پايگاه داده ها م

د دارند و اين بدان وجوي تقلبيدو خوشه از اسكناسها. را تشخيص داد يتقلب ي تقلبي است كه حداقل دو گروه مبادرت به توليد و چاپ اسكناسهايمعن . كنند يم

مرتبط است كه در ان از فاصله ميان يتقطيع پايگاه داده ها با آمارگير در خوشه ها ، جهت تجزيه و ي وروديركوردها و درصد قرار گرفتن داده ها

. شود يتحليل استفاده م وندتحليل پي

ي ميان ركوردها و يا مجموعه ا16ي مرسوم به بستگيدر اين روش پيوند هايسه رده ويژه از تحليل پيوند وجود دارند كه . شوند ي مياز ركوردها بازشناس

:عبارتند از 17يكشف بستگ .1

16 Association 17 Association Discovery

Page 12: مقدمه ای بر داده کاوی و اکتشاف دانش

18ي متواليكشف الگوها .2 19 مشابهي زمانيكشف دنباله ها .3

18 Sequential Pattern Discovery 19 Similar time Sequences

Page 13: مقدمه ای بر داده کاوی و اکتشاف دانش

: گردند يم ي دو پارامتر معرفي قوانين وابستگيبرا از جمعيت است كه در يك قاعده ، هم يكسر : 20يدرجه پشتيبان .1

از تراكنشها كه شامل همه يدر واقع درصد. را دارند يمقدم و هم تالفرض كنيم كه تنها در . باشند ياقالم ظاهر شده در مقدم و تال

با هم باشند ، ي خريد ، شير و پيچ گوشتياز تراكنشها/ . % 0001 بسيار " شير → ي پيچ گوشت" قانون ي براي درجه پشتيبانبنابراين

اثبات رابطه ي براي دهد كه مدركياين مساله نشان م. پايين است . وجود ندارد " ي پيچ گوشت" و " شير "ميان

از موارد ي ، كسريدر يك جمعيت مورد بررس : 21درجه اطمينان .2 نيز در آنها ي، تال مقدم قاعده در آنها ظاهر شده است ياست كه وقت اگر درجه " نان → پنير "به عنوان مثال در قانون . وجود دارد

خريد ، اگر نان وجود داشته باشد ، يتراكنشها% 80اطمينان برابر بايد توجه داشت كه مقدار درجه اطمينان با . پنير نيز وجود دارد

. در قاعده ، ممكن است به شدت تغيير كند يتعويض مقدم و تال

داده امروزه به ترا بايت رسيده است اين پايگاه داده به يگاه هايدامنه اندازه پاشد ي كه به صورت ناشناخته در آن تعبيه گرديده مي بايهمراه اطالعات فراوان

به يمساله اين است كه چگونه مي توان از ميان اين جنگل عظيم اطالعاتاج نمود؟با استفاده از داده را استنتي پيچيده آن اطالعاتيهمراه درختها

بدست ينه را كم نمود و در عوض بازدهي بيشتري مي توان اين هزيكاو دارند با استفاده از اين روش ي سعي شماري بيدر حال حاضر شركتها.آورد

د ارائه دهند تا فروش آنها باالتر ي خري برايبه مشتريان خود پيشنهادات بهتر .د از اين طريق كمينه گرددرفته و در عوض ضرر و زيان موجو

20 Support 21 Confidence

Page 14: مقدمه ای بر داده کاوی و اکتشاف دانش

است كه طي آن با استفاده از انواع مختلف ابزار تحليل ي فرآينديداده كاو موجود كه ممكن است يان داده هايداده به دنبال كشف الگوها و ارتباطات م

. باشديگاه داده گردند مي از پايمنجر به استخراج اطالعات جديد توضيح و شرح مشخص داده يده در داده كاون وساده ترين گام تحليل داياول تواند به ي باشد كه اين كار ميم) داده وانحراف استاندارد كلمهياز جمله معن(

يين كلمه ارتباط معناي كه با اين كلماتيوهمچنييله نمدارها و گراف هايوس جستجو و انتخاب داده درست يجه جمع آوري دارند انجام گردد در نيكينزد . باشدي مياتيار مهم و حي بسن بخشيدر اش يك مدل پيد ي دهد شما باي انجام نمي كار خاصيين كار به تنهاياما ا

د يج دانش به دست آورده شده بسازي كه از نتايي كننده بر اساس الگهاينيبك مدل ي سازگار است يا ان مدل با نمونه اصليد كه آيش كنيسپس آزما]1[. داشته باشديند با جهان واقع تفاوت چندايخوب نبا

ي ميص صحت وسقم عملكرد مدل بصورت تجربيز تشخين گام نيآخرك ي كه به ييان وپاسخ هايك بانك مربوط به مشتري مثال از يبرا.باشدم

يد كه بر اساس آن مشخص مي سازيك مدل ميشنهاد خاص داده اند يپشنهاد مانند يك پي را با يكين نزديشتريشود كه كدام حدس وانتظار ب

ا يد ين حدس اعتماد كنيد بر اي توانيا شما مينكه آي دارد و ايشنهاد قبليپ نه؟

:DataMiningقابليتهاي بايد توجه داشته باشيد كه داده كاوي يك ابزار جادويي نيست كه بتواند در پايگاه داده شما به دنبال الگوهاي جالب بگردد و اگر به الگويي جديدي

برخورد كرد آن را به شما اعالم كند بلكه صرفا الگوها و روابط بين داده ها را بنابراين الگوهايي كه به اين . به شما اعالم مي كند بدون توجه به ارزش آنها

به عنوان مثال . وسيله كشف مي شوند بايد با جهان واقع تطابق داشته باشند $50/000يي كه بطور مثال بين داده كاوي مي تواند با تعيين نرخ در آمدها

است كه براي خريد روزنامه خاصي در ميان فروشندگان است $65/000و

Page 15: مقدمه ای بر داده کاوی و اکتشاف دانش

تعيين كند كه اكثر كاالهاي مورد نياز مردم چه رنجي از قيمت بوده وكدام ها هستند؟

به اين ترتيب شما مي توانيد از هدف خريد مردم بدون اينكه فاكتورهايي در نظر بگيريد مطلع شويد؟براي خريد كاالهاي خود

براي تضمين بدست آمدن نتايج با معني الزم است كه شما بتوانيد داده هاي به ( خود را تحليل كنيد كيفيت خروجي شما به اطالعات خارج از پايگاه داده

عنوان مثال داده اي باارزشي كه متفاوت از داده هاي نوعي در پايگاه داده ارتباط يا با ارتباط نزديك به بقيه پايگاه ستونهاي ظاهرا بي ) شماست

الگوريتم بر .بستگي نزديكي دارند ) مانند تاريخ توليد يا انقضاي كاال(دادهاما غير عاقالنه است . اساس حساسيتشان به داده ها روشهاي متفاوتي دارند

كه به محصول داده كاوي صرفا به براي تمام تصميم گيري هايمان تكيه .كنيم

. وي بطور اتوماتيك و بدون رهنمايي قادر به كشف راه حل ها نيستداده كاكمك به ارتقاي پاسخ دهي "شما ترجيحا به جاي بيان يك هدف مبهم مانند

شما بايد از داده كاوي براي يافتن خصيصه " من mailبه در خواست ها هاي افرادي كه

به درخواست هاي شما پاسخ مي دهند ): 1( ت هاي شما پاسخ داده و خريد زيادي مي كنند به درخواس): 2(

الگو هايي كه داده كاوي براي يافتن به اين دو هدف استفاده . استفاده كنيد .مي كنند متفاوت است

اگر چه يك ابزار خوب براي داده كاوي شما را از پيچيدگي هاي تكنيكهاي ه انتخاب آماري راحت مي سازد اما به شما براي فهميدن كار هاي ابزاري ك

. كرده ايد و همچنين الگوريتمهايي كه بر پايه آن كار مي كند نيازمند استانتخابي كه شما براي ابزار مورد نياز انجام مي دهيد و بهينه سازي هايي را كه

]2[.شما انجام مي دهيد در دقت و سرعت كار بسيار تاثير دارد :ها داده كاوي و انبار داده

Page 16: مقدمه ای بر داده کاوی و اکتشاف دانش

اغلب داده اي كه مورد كاوش قرار مي گيرد ابتدا از يك انبار داده آماده شده . اين كار مزاياي زيادي دارد. به داخل يك پايگاه داده كاوي سرازير مي شود

پايگاه داده كاوي مي تواند به جاي يك انبار فيزيكي داده يك انبار منطقي از بتواند دامنه هاي منابع اضافي DBMSبه شرط آنكه انبار داده. داده ها باشد

:روند شرح داده شده در شكل زير آمده است. از داده كاوي را نيز پوشش دهد

OLAPداده كاوي و :يكي از سوالهاي رايج در ميان متخصصان پردازش داده در مورد تفاوت ميان

on-lineپردازش آناليزي ( ) .داده كاوي و OLAPOlapپرس وجو هاي سنتي و . الب ابزارهاي تصميم گيري است قسمتي از ق

از olap.ابزارهاي گزارش گيري كه چه چيزي در داخل يك پايگاه داده است .اين فراتر ميرود و براي جواب دادن به علت درستي برخي موارد استفاده دارد

آمار و يادگيري ماشين , داده كاوي وش مصنوعي را در خود جاي داده داده كاوي فوايدي از پيشرفتهاي رشته ه

است كه هم شامل قواعدي براي مسائل تشخيص الگو و طبقه بندي مي باشد وهم ارتباطاتي كه از طريق كاربرد شبكه هاي عصبي و درختهاي تصميم

.گيري براي فهم مسائل صورت مي گيرد مي باشد

Geographic Data Mart

Data Warehouse

Analysis Data Mart

Data Mining Data Mart

Data Sources

Page 17: مقدمه ای بر داده کاوی و اکتشاف دانش

شبكه داده كاوي در اين زمينه داراي الگوريتم هاي نسبتا جديدي مانندعصبي و درخت تصميم ورهيافت هاي جديدي براي الگوريتم هاي قديميتر

.مانند الگوريتم هاي تفكيك كننده داردنكته مهم آنكه داده كاوي كاربرد اين تكنيكها را براي مسائل تجاري مشابه باال به طريقي كه اين تكنيكها را براي كاربر خبره دانش و آمارگير متخصص

.ازد استفاده مي شودقابل دسترس س كاربردهاي داده كاوي

.داده كاوي به سرعت در حال محبوبيت است به خاطر كمك هاي اساسي آنسازمانهاي زيادي در حال استفاده از داده كاوي براي كمك به مديريت تمام

افزايش سود , فازهاي ارتباط با مشتري شامل به دست آوردن مشتريان جديدبا تعيين .وجود و حفظ كردن مشتريان خوب هستنداز طريق مشتريان م

مشخصات يك مشتري خوب يك شركت مي تواند با همان مشخصات اهداف با پرونده سازي براي مشتري كه يك . آينده خويش را پيش بيني كند

محصول خاص را خردي مي نمايد اين شركت مي تواند توجه خود را به نكرده اند معطوف دارد با پرونده مشتريان مشابهي كه از اين محصول خريد

سازي براي مشترياني كه اين سازمان را ترك كرده اند يك شركت مي تواند مشترياني را كه خطر رفتن آنها نيز وجود دارد را نگه دارد چرا كه نگهداري يك مشتري موجود بسيار كم هزينه تر از بدست آوردن يك مشتري جديد

شهايي را از طريق بررسي يك طيف وسيعي از داده كاوي ارز. هزينه مي بردشركتهاي ارتباطات از راه دور و كارت هاي .كارخانه ها پيشنهاد مي كند

اعتباري دو شاخه بزرگ در استفاده از داده كاوي براي تشخيص استفاده كاله شركتهاي بيمه و درآمد هم عالقمند به . بردارانه از خدمات آنها مي باشند

كاربردهاي . تكنولوژي براي كاهش كاله برداري مي باشنداستفاده از اين دارويي نواحي مفيد ديگري هستند كه داده كاوي در آنها دست دارد داده

آزمايش هاي دارويي , كاوي مي تواند براي تشخيص تاثير اعمال جراحيشركتهايي كه در خريد و فروشهاي مالي فعاليت مي . ودرمان استفاده گردد

Page 18: مقدمه ای بر داده کاوی و اکتشاف دانش

كاوي براي تعيين شاخصه هاي بازار و صنعت براي تشخيص كنند از دادهخرده فروشها از داده كاوي براي تصميم در . كارايي درآمد استفاده مي كنند

مورد اينكه كدام محصول در فروشگاه ها در آمد زاست به منظور دسترسي به شركتهاي دارويي در . ارتقاي كيفيت كار خود استفاده بيشتري مي نمايند

كاوش پايگاههاي داده بزرگي از تركيبات شيميايي و مواد ژنتيكي براي حال ]1[.كشف مواد كه مي توانند گزينه خوبي براي ساخت به عنوان دارو باشند

:داده كاوي موفقاول اينكه يك فرموله . دو نكته براي موفق بودن يك داده كاوي وجود دارد

دومين نكته استفاده از . ساله اي است كه شما بايد حل كنيدسازي دقيق از مپس از انتخاب داده اي كه در دسترس شماست يا شايد . داده صحيح است

ن را به روشهايي انتقال آخريد داده خارجي شما ممكن است نيازمند شويد .داده يا دسته بندي كنيد

:تحليل ارتباطات اكتشاف داده است كه مي تواند به يك رهيافت توصيفي برايتحليل ارتباط دو رهيافت . ارتباطات ميان مقادير در پايگاه داده كمك نمايديمشخص ساز

مي ي و اكتشاف توالي اكتشاف ارتباطي رسيدن به تحليل ارتباطيعام براد با هم در يك ي را كه باي را در مورد مواردياكتشاف ارتباطات قوانين.باشد

ك نمونه يتحليل سبد عرضه .تراكنش خريد را مي ِابدرويداد ظاهرشوند مانند ه كشف ارتباط يبار شبي بسيكشف توال. باشديشناخته شده از كشف ارتباط م

ك يك ارتباط است كه در طول ي ينجا توالين نكته كه در اياست با توجه به ا .ردي گي صورت ميبازه زمان

Page 19: مقدمه ای بر داده کاوی و اکتشاف دانش

ا طرف سمت ي مقدم A شود كه به ي نوشته مA=>Bارتباطات به صورت ي مثال در قانون ارتباطيبرا.ندي گويا طرف سمت راست مي ي تالBچپ و به

د يخر" جمله مقدم "خ بخرندي توانند ميك چكش بخرند آنگاه مياگر مردم " . باشدي م"خيد ميخر" ي و جمله تال"چكش ازموارد خاص يستيا لي را كه شامل مورد ي ميتوان نسبت تراكنشهاييبراحت

كه در اطنجا موارد ميخ ها و چكش (ا شمردن آنها تعيين كرد باشد بيمك يك نوع ارتباط خاص كه در يتعداد موجود از .را تعيين كرد) باشديهام ياگر برا.ندي گويوع آن مورد ميا شي ي رسد را موجوديگاه داده به نظر ميپا

"خ و چكشيم" آن شامل ي تا15تراكنش 1000مثال گفته شود كه از هر ك در يمثال ( كميك موجودي.خواهد بود%1,5ن ارتباط ي اي باشد موجوديمگاه داده چندان ين باشد كه ان ارتباط خاص در پايانگر اي تواند بيم) ونيليم

.ستيمهم ن متناسب دفعات اتفاق موارد و يد به فراوانين معنا دار ما باي كشف قوانيبرا چند بار B مورد Aاتفاق مورد باداشتن تعداد دفعات .ميز بنگريباتشان نيترك

كه مردم يهنگام"م ينين است كه ببيگر سوال اي افتد؟به عبارت دياتفاق مگر ي خرند؟ عبارت ديخ هم مين افراد مي خرند چه تعداد از ايك چكش مي

.نان نام داردي اطمي شرطينيش بين پي ايبرا يشتر برايبات ير و با جزئي مان رابه صورت زيگاه داده فرضيد پايفرض كن

:ميريم در نظر بگين مفاهيان ايب 1000: سخت افزار يتمام تراكنشها 50: باشدي م"چكش " كه شامل ييتعداد تراكنشها 80: باشدي م"خيم" كه شامل ييتعداد تراكنشها 20: باشدي م"تخته " كه شامل ييتعداد تراكنشها 15: باشديم"خ و چكشي م" كه شامل ييتعداد تراكنشها

10: باشدي م"خ و تخته ي م" كه شامل ييتراكنشهاتعداد 10: باشدي م" چكش و تخته" كه شامل ييتعداد تراكنشها

Page 20: مقدمه ای بر داده کاوی و اکتشاف دانش

5: باشدي م"خ ي چكش و تخته و م" كه شامل ييتعداد تراكنشها :ميحال قادر به محاسبه ا

%1,5="خ و چكشيم" يموجود %0,5="خ و چكش وتختهي م" يموجود

%30= "خيم>=چكش"نان يدرصد اطم %19 = " چكش>=خي م"نان يدرصد اطم %33 = "تخته>=خي چكش و م"نان يدرصد اطم %25 ="خ ي چكش و م>= تخته"نان يدرصد اطم

%) 30(خ هم بخرديك خرنده چكش مينكه يم كه احتمال ايني بين ما ميبنابرا

خرد چكش هم يخ مي كه ميشتر از احتمال آن است كه فرديبك قانون با ي بزرگ است كه يخ به اندازه ايو مارتباط چكش %).19(بخرد . باشديمعن

Lift)ك ارتباط ي قدرت يري اندازه گيارهاي از معيكي) شرفتينسبتا پفتد ي اتفاق بBنكه ي بر احتمال اAر اتفاقات ي بزرگتر باشد تاثliftهر چه .است

بصورت نسبت lift.شتر استيب : شودي م محاسبهB يم بر فراوانيتقس) A=>Bنان ياطم(

: مثال مايبراLift "3,75 :"خيم>=چكش Lift "16,5:"تخته >=خ ي چكش و م داده هنگام شمارش ين را با معادل مرتب سازين قواني ارتباط ايتمهايالگور. كنند مي يابد را محاسبه ينان و موجودي توانند درصد اطمي كه ميدفعات

باشند يكي از معيارهاي اثراتي كه هر يك از اين قوانين مي توانند داشتهاين معيار مهم است زيرا كه نتايج تركيبي بسيار . تفاوت اين الگوريتم هاست

زيادي از تعداد بي شماري از قوانين بدست مي آيد حتي براي سبد هاي و , فاكتورهاي ايمن, برخي از الگوريتمها يك پايگاه داده از قوانين. خريد

Page 21: مقدمه ای بر داده کاوی و اکتشاف دانش

ال تمام ارتباطاتي كه در آن كلمه بستني براي مث(فراهم آوردن امكان جستجورا )را دارند نشان بده%80در قوانين به عنوان نتيجه آمده و فاكتوري برابر

.ايجاد مي نماينداغلب تصميم گيري در مورد كار با قوانيني كه شما كشف كرده ايد دشوار

به عنوان مثال در يك نقشه خريد براي مشتريان در يك فروشگاه .استادن تمام اجناس مرتبط منطقي به صورت فيزيكي در كنار يكديگر قرارد

مشتريان ممكن است –ممكن است ارزش كامل سبد خريد را كاهش دهد در مجموع ارزش كمتري خريد كنند چون آنها بر خالف نقشه خريد مورد نظر شما در حين راه رفتن در مغازه اجناس مورد دلخواه خود را خريد مي

ن حالتي تقريب و تحليل ارتباطات معموال براي بدست آوردن در چني. كنند .هر گونه سودي از قوانين مرتبط با هم مورد نياز خواهد بود

. روشهاي گرافيكي مي توانند در نمايش ساختار ارتباطات نقش داشته باشند. در شكل زير هر يك از دواير يك مقدار يا يك رويداد را نمايش مي دهد

خطوط . يان اين دايره ها يك ارتباط را نشان مي دهندخطوط ارتباطي م]4[.كلفت تر ارتباطات قوي تر و فراوان تري را نمايش مي دهند

سلسله مراتبي از انتخاب ها

هدف داده كاوي توليد دانش جديدي است كه كاربر بتواند بر اساس آن كار ه ساختن مدلي از جهان واقعي بر پايه داده اين كار بوسيل. خود را جلو برد

Page 22: مقدمه ای بر داده کاوی و اکتشاف دانش

هايي كه از منابع گوناگون بدست مي آيد صورت گيرد كه اين منابع مي تواند اطالعات نمايش , تاريخ مربوط به هر مشتري, شامل تراكنشهاي هماهنگ

داده كنترل فرآيند و پايگاه داده هاي مرتبط خارجي مانند اطالعات , گرافيكينتيجه مدل سازي يك سري توضيحات در مورد الگوها . باشد ... اعتبار اداري و

و ارتباطات داده اي كه مي تواند به صورت مطمئني جهت پيش بيني آينده .مورد استفاده قرار گيرد

براي جلوگيري از سرگرداني در مراحل مختلف داده كاوي ايجاد تصويري از ند آن هستيد در ذهن قبل از سلسله مراتبي از انتخابات و تصميم ها كه نياز م

:شروع كار به شما كمك خواهد كرد هدف كار- نوع پيش بيني - نوع مدل انتخابي- الگوريتم- محصول-

:اولين گام مشخص نمودن هدف كار مي باشد هدف نهايي از جستجوي اين داده چيست؟ براي مثال جهت يافتن الگوهاي

شما كمك كند مشتريان خود را حفظ مفيدي در داده خود براي اين كه به كنيد شما بايد يك مدل براي پيش بيني سودبخشي به مشتري و مدل . ديگري براي شناسايي مشترياني كه آنجا را ترك كرده اند طراحي كنيد

دانش شما از احتياجات و اهداف سازمانتان شما را به سمت فرموله كردن .اهداف مدلهايتان راهنمايي خواهد كرد

م بعدي تصميم در مورد انتخاب نوعي پيش بيني كه از همه مناسب تر گا :است مي باشد

Page 23: مقدمه ای بر داده کاوی و اکتشاف دانش

تعيين اين كه اين مورد خاص در كدام كالس يا دسته قرار : طبقه بندي) 1( .مي گيرد

اگر متغيري (حدس زدن اينكه يك متغير چه مقدار عددي خواهد داشت) 2(در ).ي زماني ناميده مي شودباشد كه با زمان تغيير كند اين كار حدس سريها

مثال باال شما مي توانيد از اين حدس براي پيش بيني مقدار سوددهي و طبقه بندي براي پيش بيني اينكه كدام مشتريان ممكن است خريد شما را

.ترك كنند استفاده كنيد :حاال نوبت به نوع مدل مي رسد

ذكر و يك كه عبارت است از يك شبكه عصبي براي انجام حدس فوق المدلهاي آماري سنتي نيز براي انتخاب از . درخت تصميم براي طبقه بندي

. تحليل تفكيكي و حدس منطقي وجود دارد, مدلهاي معمولي خطي الگوريتمها و مدلهاي (مهمترين نوع اين مدلها براي داده كاوي در بخش بعد

.توضيح داده مي شود)داده كاويشما مي . دلهايتان در دسترس هستندالگوريتمهاي زيادي براي ساخت م

براي درخت . توانيد با استفاده از توابع شعاعي يا انتشاري شبكه عصبي بسازيد يكي cart ,c5.0 ,Quest,CHAIDتصميم شما مي توانيد از ميان طرق

برخي از اين الگوريتم ها در مدلها و الگوريتمهاي داده كاوي . را انتخاب كنيد .توضيح داده شده است

هنگام انتخاب يك محصول داده كاوي بايد توجه داشت كه اين محصوالت پياده سازيهاي مختلفي از يك الگوريتم خاص دارند حتي اگر اين الگوريتم

اين تفاوتها در پياده سازي مي تواند بر . براي همه آنها نام يكساني داشته باشد ذخيره داده و روي مشخصه هاي قابل استفاده مانند استفاده از حافظه و

.همچنين بر روي مشخصه هاي كارايي مانند سرعت و دقت تاثير بگذارندبسياري از اهداف تجاري به بهترين شكل به وسيله ساخت انواع مختلفي از

شما ممكن است . مدلها با استفاده از الگوريتمهاي مختلف به دست مي آيند

Page 24: مقدمه ای بر داده کاوی و اکتشاف دانش

ر نباشيد تعيين كنيد كدام تا زماني كه راه هاي مختلفي را امتحان نكنيد قاد]1[.نوع مدل بهترين است

طبقه بندي

مسائل طبقه بندي به شناسايي خصوصياتي منجر مي شوند كه مشخص مي فهم داده ي تواند براياين الگو هم م.نمايند هر مورد به كدام گروه تعلق دارد

ه جديد چگونه كار مي كند پيش بيني اينكه هر نمونيموجود و هم برا پيش بيني كنيد كه آيا مثال شما ممكن است بخواهيديبرا .استفاده شود به درخواست يك ميل مستقيم كه ممكن است به ي پاسخگويياشخاص برا

شوند يا ي توانند گروه بندييك دستگاه تلفن با مسافت زياد آسيب برساند م . شوندي بايد گروه بندي يك عمل جراحيبرا

يله امتحان كردن داده طبقه بندي را بوسي طبقه بندي مدلهايداده كاو نيا . كنديجاد ميش گو اي پيك الگويافتن يتا يو نها) موارد(شده

موارد موجود مي تواند از يك پايگاه داده تاريخي ناشي شود مانند اطالعات افرادي كه تحت معالجه دارويي خاصي هستند و يا به سمت يك خدمت با

يا اينكه از تجربه هايي كه طي آن يك نمونه از .مسافت دور جذب شده اندتمام پايگاه داده در جهان واقعي تست شده باشد و نتايج آن براي ايجاد يك

براي مثال يك نمونه از ليستي . منتج شود گروه بند استفاده شده باشند رساني براي از پيامها به عنوان پيشنهاد فرستاده خواهد شد و نتايج پيام

ساخت يك مدل طبقه بندي جهت بكار گرفته شدن در تمام پايگاه داده .استفاده خواهد شد حدس بازگشتي

حدس بازگشتي از داده هاي موجود براي پيش بيني اين كه مقادير داده هاي در ساده ترين حالت حدس مذكور از . ديگر چه خواهد بود استفاده مي كند

متاسفانه بسياري از . حدس خطي استفاده مي كندتكنيكهاي آماري مانندبراي نمونه مقادير . مسائل جهان واقع تصويري خطي از مقادير قبلي نيستند

Page 25: مقدمه ای بر داده کاوی و اکتشاف دانش

ارزش سهام و نرخ ورشكستگي محصول براي پيش بيني , ارزش فروش, فروشسخت مي باشد زيرا آنها ممكن است بر فعل و انفعاالت پيچيده حاصل از

بنابراين تكنيكهاي پيچيده تري . ني كننده متكي باشندچندين متغير پيش بيانواع مدل . ممكن است براي پيش بيني متغيرهاي آينده ضروري باشند

يكسان اغلب مي توانند هم براي حدس بازگشتي وهم براي طبقه بندي درختهاي حدس (CARTبراي مثال الگوريتم درخت تصميم . استفاده شوندت درختهاي حدس و هم براي ساخت درختهاي هم براي ساخ)وطبقه بندي

شبكه هاي عصبي هم مي توانند هر دو نوع مدل . طبقه بندي به كار مي رود .نام برده شده را ايجاد نمايند

سري هاي زمانيسري هاي زماني پيش بيني كننده مقاديري را كه هنوز مقدارشان مشخص

. يش بيني مي كنندنيست بر اساس يك سري از پيشگوهاي متغير با زمان پمانند حدس بازگشتي اين روش هم از نتايج معلوم قبلي براي اعمال

مدلها بايد خواص منحصر بفرد زمان . پيشگويي هاي بعدي اش بهره مي بردعلي الخصوص سلسله مراتب دوره هاي زماني مانند دوره هاي فصلي تاثيرات

ص مانند تطبيق تقويمي مانند تعطيالت محاسبات تاريخي و مالحظات خا .گذشته با حال را ذخيره نمايند

مدلها و الگوريتمهاي داده كاوي حال بياييد برخي از الگوريتمها و مدلهايي را كه براي كاوش داده استفاده مي

اغلب محصوالت از انواع گوناگوني از الگوريتمها كه در . شود را بررسي كنيمبه همراه پياده سازي خاص آنها كه علم كامپيوتر يا مقاالت آماري ارائه شده

براي مثال . جهت رسيدن به هدف فروشنده مي باشد استفاده مي نمايند يا CARTبسياري از فروشندگان نسخه هايي از درختهاي تصميم

CHAID را به همراه امكاناتي براي كار بر روي كامپيوترهاي موازي مي ص خود دارند كه گرچه برخي از فروشندگان الگوريتمهاي مخت. فروشند

Page 26: مقدمه ای بر داده کاوی و اکتشاف دانش

ممكن است وابستگي ها يا امكانات اضافي نداشته باشد اما مي تواند خوب كار .كند

شايد مهمترين نكنه اي باشد كه هيچ مدل يا الگوريتمي نمي تواند و نبايد به براي هر مساله داده شده طبيعت داده استفاده شده بر . تنهايي استفاده شود

لگوريتمهايي كه شما بر مي گزينيد تاثير خواهد روي انتخاب مدلها و ا. نمي توان هيچ مدل يا الگوريتمي را در اين زمينه بهترين ناميد. گذاشت

نتيجتا شما به يك سري ابزار و تكنولوژي جهت يافتن بهترين مدل ممكنه ]3[.نياز خواهيد داشت

شبكه هاي عصبيخاصي مورد استفاده اند چرا كه آنها ابزاري موثر شبكه هاي عصبي به طور

براي مدلسازي مسائل بزرگ و پيچيده كه ممكن است در آنها صدها متغير شبكه .(پيش بيني كننده كه فعل و انفعاالت زيادي دارند وجود داشته باشد

شبكه هاي .)هاي عصبي زيستي بطور غير قابل مقايسه اي پيچيده تر هستندكه در آنها ( در مسائل طبقه بندي يا حدسهاي بازگشتيعصبي مي توانند

.استفاده شوند) متغير خروجي پيوسته استيك شبكه عصبي با يك اليه داخلي شروع مي شود كه در آن هر گره به يك

اين گره هاي ورودي به يك تعداد از گره ها . متغير پيشگو منسوب مي گردديه پنهان مي توانند به گره هايي گره ها در ال.در اليه پنهان متصل مي شوند

اليه خروجي خود . در يك اليه پنهان ديگر يا به يك اليه خروجي متصل شود .شامل يك يا بيشتر متغيرهاي جواب مي باشد

Page 27: مقدمه ای بر داده کاوی و اکتشاف دانش

يك شبكه عصبي با يك اليه پنهان

درخت هاي انتخابدرخت هاي انتخاب راهي براي نمايش يك سري از قوانين كه به يك كالس

براي مثال شما ممكن است بخواهيد . دار منجر مي شود مي باشنديا مقشكل . درخواستهاي وام را برحسب ريسك اعتبار خوب يا بد طبقه بندي كنيد

بعد يك مدل ساده از يك درخت انتخاب به همراه توضيح در مورد تمام بسته ل شاخه ها و برگهاي آن كه اين مساله را ح, هاي پايه آن يعني گره انتخاب

.مي كند نشان مي دهد

اولين بسته گره بااليي تصميم يا ريشه مي باشد كه يك بررسي جهت

گره ريشه در اين مثال . برقراري شرط خاصي مي نمايد“Income>$40,000”نتايج اين بررسي منجر مي شود كه . مي باشد

درخت به دوشاخه تقسيم گرددكه هر يك نشان دهنده جوابهاي ممكن

Page 28: مقدمه ای بر داده کاوی و اکتشاف دانش

ن مورد بررسي شرط مذكور مي تواند داراي جواب خير يا بله باشد در اي.است .در نتيجه دو شاخه داريم

براساس نوع الگوريتم هر گره مي تواند دو يا تعداد بيشتري شاخه داشته درختهايي با تنها دوشاخه در هر گره توليد مي CARTبراي مثال . باشد .چنين درختي يك درخت دودويي مي باشد.كنداي مختلف درخت تصميم بطور عمومي در داده كاوي براي كاوش داده و مدله

براي استنتاج درخت و قوانين آن كه براي پيش بيني مورد استفاده قرار مي يك تعداد از الگوريتمهاي مختلف مي توانند براي . گيرد استفاده مي شوند

بكار C5.0 و CHAID, CART,Questساخت درختهاي تصميم شامل .روند

اندازه درخت مي تواند از طريق قوانين متوقف شونده كه رشد درخت را ]3[.محدود مي كنند كنترل شود

استنتاج قانوناستنتاج قانون روشي براي بدست آوردن يك سري از قوانين براي طبقه بندي

وليد اگرچه درختهاي تصميم مي توانند يك سري قوانين ت. موارد مي باشدكنند روشهاي استنتاج قانون يك مجموعه از قوانين وابسته كه ضرورتا

چون استنتاج كننده قوانين . درختي تشكيل نمي دهند را توليد مي نمايدلزوما انشعابي در هر سطح قرار نمي دهد و مي تواند گام بعدي را تشخيص

ه بندي دهد گاهي اوقات مي تواند الگوهاي مختلف و بهتري را براي طبقبرخالف درختان قوانين توليدي ممكن است تمام حالتهاي ممكن را . بيابد

ندهند .پوشش الگوريتمهاي ژنتيك

الگوريتمهاي ژنتيك براي يافت الگوها استفاده نمي شود بلكه بيشتر به منظور راهنمايي در مورد فرآيند يادگيري الگوريتمهاي داده كاوي مانند شبكه هاي

الگوريتمهاي ژنتيك به عنوان يك متد . اده قرار مي گيردعصبي مورد استف

Page 29: مقدمه ای بر داده کاوی و اکتشاف دانش

جهت انجام يك جستجوي هدايت شده براي مدلهاي خوب در فضاي حل . مساله عمل مي كند

الگوريتمهاي ژنتيك ناميده مي شوند چون بطور بي قاعده اي , اين الگوريتمهاات الگوي تكامل زيستي كه در آن اعضاي يك نسل بر سر انتقال خصوصي

خود به نسل بعد رقابت مي كنند تا نهايتا بهترين مدل يافت شود را دنبال اطالعاتي كه بايد انتقال داده شود در قالب كروموزمها كه شامل . مي كنند

.پارامترهايي براي ساختن مدل مي باشد قرار مي گيرد فرآيند داده كاوي مدلهاي فرآيند

براي داده كاوي موفق ضروري است با توجه به اينكه يك فرآيند سيستماتيك بسياري از فروشندگان و همفكران مشاور آنها يك مدل فرآيند براي راهنمايي كاربر خود كه از طريق يك سري مراحل مشخص او را به نتايج خوبي هدايت

از مراحل پنجگانه تشخيص SPSSبراي مثال . خواهد كرد طراحي كردند, جستجو, از مراحل نمونه گيريSASدسترسي تحليل عمل و اتوماسيون و

.مدل سازي و تعيين استفاده مي نمايد, تغيير و بهبود NCRاخيرا ائتالف فروشندگان وكاربران شامل سيستمهاي مهندسي

در حال ساختن يك OHRA و بانك SPSSراه حلهاي جامع, كپنهاك (CRISP-DM)فرآيند خاص كه به فرآيند استاندارد صنعتي داده كاوي

اين فرآيند براي پردازش مدلهاي شركتهاي ديگر كه .وسوم است مي باشندماين فرآيند شروع خوبي براي . يك كاره يا دو كاره هستند يكسان مي باشد

]1[.كمك به مردم جهت فهم مراحل ضروري در داده كاوي موفق مي باشد مدل فرآيند دو سويهه در زير توضيح داده شده است برخي از موارد پيش مدل فرآيند دو سويه ك

. به ارث مي بردCRISP-DMبيني را از مدل :گامهاي اصلي داده كاوي جهت كشف دانش عبارتند از

Page 30: مقدمه ای بر داده کاوی و اکتشاف دانش

تعريف مساله -1 ساختن پايگاه داده مربوط به داده كاوي -2 جستجوي داده -3 آماده ساختن داده براي مدل سازي -4 ساختن مدل -5 ارزيابي مدل -6 ونتايجساخت مدل -7

.به سراغ اين گامها مي رويم تا فرآيند كشف دانش را بهتر متوجه شويم تعريف مساله - 1

. در ابتداي امر پيش زمينه كشف دانش فهم درست داده و مساله مي باشدبدون اين فهم درست هيچ الگوريتمي صرف نظر از خبره بودن آن نمي

شما قادر نخواهيد تواند نتيجه مطمئني براي شما حاصل نمايد و همچنين بود كه مسائلي را كه سعي در حل آن داريد تعريف كرده و همچنين داده

. يا نتايج را به طور صحيح تفسير نمائيد را جهت كاوش آماده نموده وبراي استفاده بهتر از داده كاوي شما بايد يك بيان واضح از هدف خود

]1[.داشته باشيد ك پايگاه داده داده كاويساختن ي

اين گام به همراه دو گام بعدي هسته آماده سازي داده را تشكيل مي در مجموع گامهاي گفته شده وقت و كار بيشتري از ساير گامها مي . دهندممكن است شما گامهاي تكراري در آماده سازي داده و ساختن مدل . برند

ه نكته اي برسيد كه شما داشته باشيد چرا كه در هر مرحله ممكن است ب اين گامهاي آماده سازي داده مي .را بر آن دارد داده خود را بهبود بخشيد

وقت و كار از تمام فرآيند كشف دانش را به خود % 90تا % 50تواند .اختصاص دهد

Page 31: مقدمه ای بر داده کاوی و اکتشاف دانش

بر . داده اي كه مي خواهد كاوش شود بايد در يك پايگاه داده ذخيره شودداده و استفاده هايي كه قرار است از آن شود پيچيدگي , اساس مقدار داده

. براي اين كار كافي استSpreadSheetيك فايل معمولي و يا يك . به احتمال زياد شما مي خواهيد داده موجود در انباره داده را تغيير دهيد

به عالوه شما ممكن است بخواهيد فيلدهاي جديدي كه از فيلدهاي اين يكي از داليل .نبار داده خود بيافزاييدموجود محاسبه شده است را به ا

.استفاده از يك پايگاه داده جداگانه استدليل ديگر براي اين كار آن است كه انبار داده هاي يكي شده ممكن است به آساني انواع جستجوهايي را كه شما براي فهم داده به آنها نياز داريد

گزارشات , الصه مي كندمانند پرس و جوهايي كه داده را خ. انجام ندهد .چند بعدي و بسياري از انواع ديگر از گرافها يا مصورات

و دليل آخر اينكه شما ممكن است بخواهيد اين داده را در يك سيستم مديريت پايگاه داده به همراه يك طراحي فيزيكي متفاوت از انبار داده

يگاه داده مردم به طور روز افزوني در حال انتخاب پا. خود ذخيره كنيدهاي خاص منظوره اي هستند كه اين نيازهاي داده كاوي را به نحو

به هرحال اگر داده موجود در انبار داده شما اجازه . مناسبي حمايت كندمي دهد كه مراكز منطقي داده اي ايجادكنيد و اگر شما مي توانيد

خود را تقاضاي داده كاوي را ارضا نماييد پايگاه داده شما به خوبي وظيفه]2[.انجام مي دهد

:مراحل الزم براي ساخت يك پايگاه داده داده كاوي به شكل زير مي باشد جمع آوري داده ها -1 توضيح داده ها -2 انتخاب داده ها -3 تعيين كيفيت داده ها و پاك كردن آن -4 تثبيت و يكپارچگي -5

Page 32: مقدمه ای بر داده کاوی و اکتشاف دانش

يحي در مورد داده داده هايي كه خود بيانگر توض(ساختن فوق داده -6 .)هاي موجود مي باشند

باركردن پايگاه داده مربوط به داده كاوي -7 نگهداري پايگاه داده مربوط به داده كاوي -8

.اين كارها ممكن است لزوما به همين ترتيب گفته شده انجام نگردند جستجوي داده

به بخش توضيح داده براي داده كاوي كه توضيح مختصري راجع به تجزيه و تحليل ارتباط و ديگر وسايل جستجوي داده مي باشد , اشكال

.نگاهي بياندازيدهدف شناسايي مهمترين فيلدها در پيش بيني نتيجه و تعيين اينكه كدام

.يك از داده هاي بدست آمده مفيد مي باشد استدر يك مجموعه داده اي با صدها يا حتي هزاران ستون جستجوي داده

يك واسط مناسب و جواب كامپيوتر سريع . ن بر باشدمي تواند كار و زمادر اين فاز مهم و حياتي مي باشند زيرا هنگامي كه شما براي دريافت

دقيقه صبر كنيد ماهيت جستجوي 20پاسخ برخي گراف ها مجبور باشيد .شما به كلي تغيير خواهد كرد

آماده سازي داده براي مدل سازيچهار قسمت . ه قبل از ساخت مدلهاستاين آخرين گام آماده سازي داد

:مهم در اين مرحله وجود دارد انتخاب متغيرها -1 انتخاب سطرها -2 ساختن متغيرهاي جديد -3 تغيير شكل متغيرها -4

Page 33: مقدمه ای بر داده کاوی و اکتشاف دانش

ساختن مدل داده كاويمهمترين مساله براي يادآوري در مورد ساخت مدل آن است كه اين كار يك

جايگزين جهت يافتن شما براي جستجو به مدلهاي . فرآيند تكراري استآنچه كه شما در جستجوي . سودمندترين آنها جهت حل مسائلتان نياز داريد

يك مدل مناسب ياد مي گيريد مي تواند شما را به بازگشتن به عقب و انجام برخي تغييرات در داده مورد استفاده خود و حتي بهبود بيان ساله راهنمايي

.كندبيني كه مي خواهيد انجام دهيد تصميم هنگامي كه شما در مورد نوع پيش

.گرفتيد بايد يك نوع مدل براي ساخت تصميم خود انتخاب كنيدآماده سازي و آزمايش مدل داده كاوي احتياج به اين دارد كه داده به حداقل

يكي براي آماده كردن مدل و ديگري جهت تست مدل : دو گروه شكسته شودتست متفاوتي استفاده ننمائيد دقت مدل اگر شما از آماده سازي و . مربوطه

]1[.خواهد بود تائيد اعتبارساده

براي انجام اين كار . پايه اي ترين روش تست داده تاييد اعتبار ساده مي باشدچون درصدي از پايگاه داده را به عنوان يك تست پايگاه داده كنار بگذاريد و

اين درصد . برآورد و ساخت مدل استفاده ننمائيدبه هر صورت از آن در . مي باشد33 تا 5معموال بين

ارزيابي و تفسير تاييد اعتبار مدل

بعد از ساخت يك مدل شما بايد نتايج آن را ارزيابي نموده و همچنين اهميت .آن را نيز توضيح دهيد

ماتريسهاي پيچيدگيار مفيدي براي فهم نتايج براي مسائل طبقه بندي يك ماتريس پيچيدگي ابز

مجازي را در )گروه(يك ماتريس پيچيدگي تعداد مقادير كالس . مي باشد

Page 34: مقدمه ای بر داده کاوی و اکتشاف دانش

نه تنها . پيش بيني شده نشان مي دهد) گروه(مقايسه با تعداد مقادير كالسچگونگي پيش بيني مدل توسط اين ماتريس نشان داده مي شود بلكه نشان

ستونها . ارد اشتباه ضروري استدهنده جزئياتي است كه براي نشان دادن مو. كالسهاي مجازي و سطرها كالسهاي پيش بيني شده را نشان مي دهند. بنابراين قطرهاي اين ماتريس بيانگر تمام پيش بيني هاي درست مي باشند

را به B تا كالس 46 تا از 38در ماتريس پيچيدگي مي بينيد كه مدل ما 2. آنها اشتباها كالس بندي شده اند تا از8درستي پيش بيني كرده است اما

C تا به عنوان كالس 6 و . مي باشندتا به عنوان كالس A

در حاالت خاص اگر قيمت هاي گوناگون با اشتباهات مختلفي در ارتباط باشند يك مدل با دقت كمتر ممكن است بر يك مدل با دقت بيشتر و در

ايجاد مي كند ترجيح داده ضمن قيمت بيشتر به خاطر انواع اشتباهاتي كه براي مثال فرض كنيد در ماتريس باال هر جواب درست قيمتي معادل . شودBبراي كالس , دالر 5 دالر و هر جواب نادرست براي كالس 10 A 10 دالر

بنابراين هزينه شبكه اي ماتريس . دالر داشته باشدC 20و براي كالس :معادل

.خواهد داشت

كاهش پيدا كرده است % 79دقت تا . د را در نظر بگيريداما ماتريس شكل بعهنگامي كه همان قيمتهاي قبلي را بر روي اين ماتريس اعمال كنيم هزينه

:كل برابر

Page 35: مقدمه ای بر داده کاوی و اکتشاف دانش

بنابراين اگر بخواهيد مقدار ارزشي مدل را بيشينه كنيد بهتر است كه مدلي ]4[.ائيدبا دقت كمتر ولي در عوض با ارزش شبكه اي بيشتر انتخاب نم

ايجاد معماري مدل و نتايجهنگامي كه يك مدل ساخته و تاييد اعتبار مي شود مي تواند در دو راه اصلي

راه اول براي تحليل گر است كه اعمالي را بر اساس . مورد استفاده قرار گيردمدلها در راه دوم بكاربردن . ديد ساده از مدل و نتايج آن معرفي مي كند

اين مدل مي تواند براي مشخص نمودن . مجموعه داده اي مختلف استركوردها بر اساس گروه بنديشان و يا مقدار دهي يك امتياز مثال احتمال

.انجام يك عمل استفاده گرددهنگام به دست آوردن يك كاربرد پيچيده داده كاوي اغلب اگر چه بخش

براي مثال دانشي كه از . اب مي آيدبحراني اما كوچك پروژه نهايي به حسداده كاوي كشف مي شود مي تواند با دانش متخصصان داده و تراكنشهاي

در يك سيستم تشخيص فرآيند الگوهاي موجود فرآيند . ورودي تركيب شودهنگامي كه موارد مفروض اين . مي توانند با الگوهاي كشف شده تلفيق شوند

نندگان فرستاده مي شوند بررسي كنندگان فرآيند براي ارزيابي به بررسي كممكن است نياز داشته باشند كه به ركوردهايي در پايگاه داده كه مربوط به

.قسمتهاي ادعا شده توسط يك سازنده است دسترسي پيدا كنندبه طور كلي مراحلي كه توضيح داده شد براي انجام هر فرآيند داده كاوي

.الزم به نظر مي رسد

Page 36: مقدمه ای بر داده کاوی و اکتشاف دانش

:و مراجع بعامن[1] Introduction to Data Mining and Knowledge Discovery By Two Crows Corporation [2] Jeffery W. Seifert , Analyst in information science and Technology Policy, ‘ Data Mining : An Overview ‘ December 2004. [3] David J. HAND , Data Mining: Statistics and More? , December 2002. [4] Eamonn Keogh , Stefano Lonardi , Chotirat Ann Ratanamahatana , ‘Towards Parameter-Free Data Mining ‘ Semtember 2005.