36
ر مهرسا ا د پ ی ح و ه ئ وع ارا ض و م: ده کاوی دا ز ی ئ ا پ93

Parsamehr datamining

Embed Size (px)

Citation preview

Page 1: Parsamehr datamining

وحید پارسامهر

:موضوع ارائه داده

کاوی

93پاییز

Page 2: Parsamehr datamining

مقدمهدر دنياي�ي زندگ�ي ميكني�م ك�ه اطالعات ارزش زيادي براي م�ا دارند. ب�ا افزاي�ش حجم در بتوانند ك�ه ابزارهاي�ي ب�ه العاده فوق نياز اينترن�ت، روي دردس�ترس اطالعات

منابع كمك كنند كامال محسوس است.جستجو، فيلتر نمودن و مديريت

Page 3: Parsamehr datamining

مقدمهاسناد و اينترن�ت افزون روز گس�ترش ب�ه توج�ه ب�ا ابزارهاي�ي براي مديري�ت و استخراج ب�ه نياز ديجيتال

اطالعات مفي�د از ميان حج�م عظي�م داده ه�ا افزايش رايانه علوم متخص�صين رو اي�ن از اس�ت. يافت�ه روشهاي�ي را ب�ه منظور س�اخت مدلهاي�ي ك�ه كار طبقه بندي خودكار اسناد را انجام ميدهند، ارائه داده اند. با پيداي�ش علوم داده كاوي و ب�ه كارگيري آمار، توج�ه به

اين گونه روشها به سرعت افزايش يافت.

Page 4: Parsamehr datamining
Page 5: Parsamehr datamining

هدف اصلي داده كاوي

بدست آوردن الگوهايي با ارزش از ميان حجم انبوه داده ها

مي باشد.

Page 6: Parsamehr datamining

Data Mining چيست؟

Data Mining عبارت اس�ت از اقتباس ي�ا اس�تخراج دان�ش از مجموعه ای از ، ديگ�ر بيان ب�ه ، ه�ا از Data Miningداده استفاده ب�ا ک�ه اس�ت فرايندی

تکنيکهای هوشمند، دانش را از مجموعه ای از داده ها استخراج می ک�ند.

Data Mining از س�اخت مدل های تحليل�ی ، دس�ته بندی و پي�ش بينی اطالعات و ارائه نتايج با استفاده از ابزارهای مرتبط استفاده می ک�ند.

بتواند عمل استخراج دانش را بخوبی انجام Data Miningبرای اينکه الگوريتم ده�د، نياز ب�ه ي�ک س�ری پي�ش پردازش ه�ا بر روی مجموع�ه آموزش�ی و ي�ک سری

پس پردازش ها بر روی الگوهای استخراج شده دارد.

Page 7: Parsamehr datamining

Data Miningمراحل : در اي�ن مرحل�ه داده های غي�ر معت�بر از مجموعه داده های پاک س1ازی داده ه1ا

آموزش�ی خارج م�ی شوند. داده های دارای نوي�ز، اطالعات ناکام�ل و ... نمونه هايی از داده هايی هستند که با يد پاکسازی در مورد آنها انجام گ�ردد.

: در اي�ن مرحل�ه، مناب�ع چندگان�ه داده ای ب�ا ه�م ترکيب يکپارچ1ه س1ازی داده ه1امی شوند.

از س�اير داده ها Data Mining : داده های مرتب�ط ب�ه فراين�د انتخاب داده ه1انيز از فراين�د کاه�ش اطالعات توان بخش�ی را م�ی اي�ن مبح�ث جدا م�ی شود.

دانست. در می Data Mining: داده ه�ا ب�ه قالب�ی قاب�ل اس�تفاده برای تبدي1ل داده ه1ا

آيند. از اعمالی که در اين مرحله صورت می گيرد ، می توان به خالصه سازی و يا محاسبه مقادير تجمعی اشاره کرد.

Data Mining: و ها روش از اس�تفاده ب�ا آ�ن در ک�ه فراين�د اص�لی بخ�ش تکنيکهای خاص ، استخراج الگو های دانش صورت می گيرد.

: تشخي�ص الگ�و های ص�حيح مورد نظ�ر ، از ساير الگ�و ه�ا در اين ارزياب1ی الگوهامرحل�ه انجام م�ی شود. ص�حت الگوه�ا بر اس�اس ي�ک س�ری معيار های جذابيت

سنجيده می شود.دان1ش به بازنماي1ی اس�تخراج شده دان�ش ارائ�ه منظور ب�ه بخ�ش اي�ن در :

کاربر ، از يک سری ابزارهای بصری سازی استفاده می گردد.

Page 8: Parsamehr datamining
Page 9: Parsamehr datamining

کاهش اطالعاتکاهش اطالعات عبارت است از توليد يک مجموعه کوچکتر از داده های اوليه که تحت

روی اطالعات Data Mining نتاي1ج تقريب1ا يکس1انی ب1ا نتايج Data Miningعمليات اوليه به دست می دهد.

Dataاي1ن عم1ل را م1ی توان از طري1ق حذف خص1يصه های غي1ر مرتب1ط با نوع عمليات Mining.مورد نظر انجام داد

حذف خص1يصه های مرتب1ط ک1ه در اث1ر اشتباه در ارزياب1ی ميزان ارتباط آنه1ا با عمليات Data Mining انجام می گيرد، می توان1د منج1ر به ناکارآمدی فرايند Data Mining و

استخراج قوانين ناقص و در نتيجه بی ارزش شود. را به Data Miningعدم حذف خص1ايص غي1ر مرتب1ط م1ی توان1د زمان انجاخ1م عمليات

طرز قابل مالحظه ای افزايش دهد. وجود دارد:Data Miningسه روش کلی برای انتخاب خصايص مرتبط با

دارد، را ارتباط بيشترين ک1ه ای خص1يصه مرحل1ه ه1ر در رونده: پي1ش انتخاب برگزيده می شود.

دارد، را ارتباط کمترين ک1ه ای خص1يصه مرحل1ه ه1ر در رونده: عق1ب انتخاب انتخاب و حذف می شود.

روش ترکيبی : ترکيب هر دو روش پيش رونده و پس روندهس1لسله مرات1ب مفهوم1ی: روش1ی برای کاه1ش تعداد مقادي1ر ممک1ن برای ي1ک خصيصه ارائ1ه م1ی ده1د، اگ1ر چ1ه داده های خروج1ی کل1ی ت1ر بوده و فاق1د برخ1ی جزئيات هستند، ام1ا اي1ن داده ه1ا بس1يار س1اده ت1ر بوده و در س1طح تجريدی باالتری نس1بت به داده های

اوليه قرار دارند.

Page 10: Parsamehr datamining

عمليات برای نياز مورد Dataاطالعات Mining

: بان�ک اطالعات�ی ممک�ن است Data Miningداده های مرتب1ط ب1ا فراين1د ب�ا فرايند آنه�ا تنه�ا بخ�ش ک�وچک�ی از شام�ل تعداد زيادی از رک�ورد ه�ا باش�د ک�ه

Data Mining بايد اطالع�ات از بخ�ش اي�ن کردن مشخ�ص هس�تند. مرتب�ط توسط کاربر انجام گيرد.

: نوع روتي�ن هاي�ی ک�ه بايد بر روی داده نوع دانش1ی ک1ه باي1د اس1تخراج شودهای انتخاب شده اع�مال شوند، بايد مشخص گردد.

: کاربران می توانند، با مشخ�ص کردن دانش زمينه ای فرايند دان1ش زمينه ایData Mining رفتار مورد در کاربر حدس نمونه برای نماين�د، هداي�ت را

اطالعات.ارزياب1ی دان1ش اس1تخراج شده در معيارهای معياره�ا ممک�ن است اي�ن :

، روی Data Mining و ي�ا پس از پايان Data Miningزمان اجرای فراين�د دانش استخراج شده اع�مال شده و بخش ارزشمند دانش را مشخص نمايند.

: نماي�ش دانش و قواني�ن استخراج شده در نحوه ارائ1ه دان1ش اس1تخراج شدهقالب های مختلفی نظير جدول ، نمودار ، درخت تصميم گيری و ...

Page 11: Parsamehr datamining

Data Miningروشهای مختلف

اين روشها بطور کلی به دو دسته زير تقسيم می شوند:(Prediction Method)الگوريتمهای يادگيری با نظارت

Description Methodsالگوريتمهای يادگيری بدون نظارت( )از ب�ا نظارت هدف يادگيری الگوريتمهای مشخص Data Miningدر

اس�ت و م�ی داني�م ک�ه ب�ه دنبال چ�ه نوع دانش�ی م�ی گرديم. مانن�د دسته بندی.

نيست. شده تعري�ف کامال هدف نظارت، بدون يادگيری روشهای در مانند خوشه بندی.

Page 12: Parsamehr datamining

برای شده گرفته بکار Knowledgeروشهای Discovery

در اي�ن روش ي�ک نمونه : (Classification [Predictive])دس1ته بندیبه يکی از چند دسته از پيش تعريف شده دسته بندی می شود.

پی�ش بین�ی ی�ک مقدار متغیر (: Regression [Predictive]) رگرس1يون مبنی بر متغیرهای دیگر .

ي�ک دس�ته داده را ب�ه يکی :Clustering [Descriptive]) )خوش1ه بندی از چند خوشه نگاشت می کند. خوشه ها گروه بنديهای دسته های داده

ای هستند که بر اساس شباهت برخی از معيارها بوجود می آيند.وابستگی قواع111د Association Rule Discovery) کش111ف

[Descriptive]:) رواب�ط وابس�تگی بي�ن خص�يصه های مختل�ف را بيان می کند.

الگوهای دنبال�ه ای همچون س�ريهای زمانی را مدل تحلي1ل دنبال1ه :می کند.

Page 13: Parsamehr datamining

Classification: Application 1

(: Direct Marketingهدایت بازاریابی )اهداف :

مصرف • از گروه�ی یاب�ی موقعی�ت ب�ا پس�ت ی هزین�ه کاه�ش کنندگان .

روش کار : اس�تفاده از اطالعات ی�ک محص�ول ک�ه قبال تولی�د شده به منظور •

استفاده در نمونه های جدید .م�ا ب�ا توج�ه ب�ه اطالعات موجود بدانی�م ک�ه چ�ه فردی بیشت�ر چه •

چیزهایی را می خرد و چه چیزهایی را نمی خرد.به • مربوط اطالعات و مختل�ف آماری نمودارهای آوری جم�ع

تعامالت مشتری و شرکت .

Page 14: Parsamehr datamining

Classification: Application 2

(:Fraud Detectionشناسایی تخلف )اهداف :

.شناسایی موارد کاله برداری در معامالت کارتهای اعتباری •روش کار :

استفاده از اطالعات مع�امالت کارتهای اعتباری و اطالعات دارنده ی آن .•برچسب زدن به معامالت گذشته به عنوان کالهبرداری یا معامالت نسبتا خوب.•شناسایی یک مدل برای یک رده از معامالت•اس�تفاده از ای�ن مدل برای تشخی�ص کاله�بردای با مشاهده ی معامالت کارت •

اعتباری شخص .

Page 15: Parsamehr datamining

Regression

پیش بینی یک مقدار متغیر مبنی بر متغیرهای دیگر .

مثال : هزینه • مبنای بر جدی�د محص�ول ی�ک فروش مقدار بین�ی پی�ش

تبلیغات پیش بینی سرعت باد به عنوان یک تابع از دما ، رطوبت ، فشار •

هوا وغیره .

Page 16: Parsamehr datamining

•Example training database• Two predictor attributes:Age and Car-type (Sport,Minivan and Truck)• Spent indicates how muchperson spent during a recentvisit to the web site• Dependent attribute isnumerical

Regression Example

Page 17: Parsamehr datamining

Clustering: Application 1

(:Market Segmentationتقسیم بازار)اهداف :

تقس�یم بازار ب�ه زی�ر مجموع�ه های مس�تقل ،مبتن�ی بر مصرف •بازار یک ع�نوان ب�ه بتوان�د زی�ر مجموع�ه ه�ر ک�ه ،جای�ی کنندگان

.مستقل انتخاب شودروش کار :

ی • پایه بر کنندگان مص�رف مختل�ف مشخص�ات آوری جم�ع موقعیت جغرافیایی .

یافتن گروه مصرف کنندگان مشابه•اندازه گیری کیفی�ت گروه ب�ا مشاهده ی الگوهای خری�د مصرف •

کنندگان در یک گروه در مقابل الگوهای دیگر گروه ها .

Page 18: Parsamehr datamining

Clustering: Application 2

( :Document Clusteringخوشه بندی اسناد )اهداف :

برای پیدا کردن گروه�ی از اس�ناد ک�ه از لحاظ ظاه�ر شدن کلمات مه�م در آنها • شبیه به هم هستند

روش کار :برای تشخی�ص عبارات�ی ک�ه در س�ند ب�ه طور متوال�ی تکرار میشون�د . تشکی�ل یک •

در مقیاس از استفاده . مختل�ف عبارات فراوان�ی پای�ه ی بر همانندی مقیاس خوشه بندی .

Page 19: Parsamehr datamining

Association Rule Discovery: Application 1

( :Inventory Management)مدیریت داراییاهداف :

ی�ک شرک�ت تعمی�ر وس�ایل مص�رف کنندگان خواس�تار پی�ش بینی •ت�ا همیش�ه ماشین های تعمیرات مص�رف کنندگان اس�ت ماهی�ت

سرویس دهنه اش را مجهز نگه دارد .روش کار :

ابزاره�ا و قطع�ه های�ی ک�ه که در تع�میرات • پردازش داده ه�ا – قبل�ی در مکان های متفاوت نیاز شده اس�ت – و کشف الگوهای

رخدادهای مختلف .

Page 20: Parsamehr datamining

Data Mining Software

INSIGHTFUL MINERAngoss Knowledge ACCESS ARMiner Eudaptics Viscovery Goal TV MDR Viscovery SOMineSPSS

Page 21: Parsamehr datamining

های سيستم Dataمشکالت Mining

ب�ا آن Data Miningدو مشک�ل اص�لی ک�ه اکث�ر س�يستم های مواجه هستند، عبارتند از:

حجم باالی داده های آموزشیوجود عدم قطعيت در اطالع�ات

برای رف�ع مشکالت�ی ک�ه اي�ن س�يستم ه�ا در برخورد با داده های حجيم دارند، معموال روشهای زير استفاده می گردند:

طراح�ی الگوريت�م های س�ريع: ک�اه�ش پيچيدگيه�ا، بهين�ه سازی، موازی سازی

کاهش حجم داده ها: نمونه گيری ، گسسته سازی، کاهش ابعاد و ...بکارگيری ي�ک ارائ�ه رابط�ه ای: اس�تفاده از قابليتهای ذخيره و بازيابی

اطالعات در پايگاههای داده

Page 22: Parsamehr datamining

امکانات س1يستم های مديريت پايگاه داده ها

پايگاههای مديريت س�يستمهای امکانات بکارگيری برای ، مجموعه Data Miningداده ب�ه منظور افزودن قابلي�ت

عملياتهای زير را می توان انجام داد: و ساير اشياء پايگاههای داده برای افزودن SQLبکارگيری زبان

به سيستم مديريت پايگاه دادهData Miningقابليت برای پشتيبانی SQLطراح�ی و ايجاد ي�ک زبان پرس و ج�و همانن�د

Data Miningاز انجام فع�اليتهای مختلف توس�ع�ه مجموع�ه ای از عبارات ب�ه منظور پوش�ش دادن مجموعه

Data Miningعمليات

Page 23: Parsamehr datamining

وجود عدم قطعيت در اطالعات

داده هاي عمليات�ی موجود در س�يستم های اطالعاتی معموال دارای عدم قطعي�ت هس�تند. عدم قطعي�ت م�ی توان�د ب�ه اشکال مختلفی در

پايگاههای داده ظهور کند.دو دسته ب�ه داده پايگاه در س�يستمهای کل�ی عدم قطعي�ت بطور

تقسيم می شوند:که اس�ت هاي�ی خص�يصه منظور نامشخ�ص(: )مقادي�ر ناکام�ل اطالعات

مقداری برای آنها ثبت نشده است.بوجود يا نادرس�ت گ�يری اندازه اث�ر در ک�ه اطالعات�ی ناس�ازگار: اطالعات آمدن نوي�ز در داده ه�ا ايجاد شده باش�د و مقادي�ر ثب�ت شده ب�ا مقادي�ر واقعی

برابر نباشند.

Page 24: Parsamehr datamining

كشف دانش و داده كاوي افراد زيادي داده كاوي را مثال�ي مترادف ب�ا عبارات�ي متداول همچون كشف دانش در

ميدانن�د، در حال�ي ك�ه داده كاوي تنه�ا يك�ي از مراح�ل ضروري در فرايند پايگاه داده

كشف دانش در پايگاه داده است.

Page 25: Parsamehr datamining

مراحل کشف دانش. درك فضاي مسئله1. شناخت داده2. تهيه داده3. داده كاوي4. ارزيابي دانش كشف شده5. استفاده از دانش كشف شده6

Page 26: Parsamehr datamining

مراحل تبدیل داده ها به دانش

Page 27: Parsamehr datamining

ویژگی های داده کاوی. به فرضیه احتیاجی ندارد .1

. ابزارهای داده کاوی از انواع مختلف داده ها ) نه تنها عددی( می توانند استفاده کنند .2

. الگوریتم های داده کاوی به طور اتوماتیک روابط را ایجاد می کنند .3

. داده کاوی به داده های صحیح و درست نیاز دارد .4

. نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان انها به مدیران دارد .5

کشف و فشرده س1ازی داده ه1ا ، حذف داده های ب1ی ارزش . اس�اس داده کاوی برمبنای س�ه فعالی�ت اص�لی 6است . الگوها

Page 28: Parsamehr datamining

کاربردهای داده کاویخرده فروشی :

─ تعیین الگوهای خرید مشتریان ─ تجزیه و تحلیل سبد خرید بازار

─پیشگویی میزان خرید مشتریان ازطریق پست ) فروش الکترونیکی (

Page 29: Parsamehr datamining

کاربردهای داده کاویبیمه :

─تجزیه و تحلیل دعاوی ─ پیشگوی�ی میزان خری�د بیم�ه نام�ه های جدی�د توسط

مشتریان

Page 30: Parsamehr datamining

کاربردهای داده کاویپزشکی :

─تعیین نوع رفتار با بیماران وپیشگویی میزان موفقیت عمل های جراحی ─تعیین میزان موفقیت روش های درمانی دربرخورد با بیماری های سخت

Page 31: Parsamehr datamining

کاربردهای داده کاویبانکداری :

─پیش بینی الگوهای کالهبرداری ازطریق کارت های اعتباری ─تشخیص مشتریان ثابت

─تعیین میزان استفاده از کارت های اعتباری براساس گروه های اجتماعی

Page 32: Parsamehr datamining

کاربردهای داده کاوی• متن کاوی

• تصویر کاوی

• سیستم هواشناسی

• صنعت و بازار کار

و...

Page 33: Parsamehr datamining

شرکت ها و سازمان های اجرا کننده در ایران

به طور مشخص پروژه هایی که دارای نتایج کامال ملموس می باشند شامل موارد ذیل است:. بانکها و موسسات مالی و اعتباری1. مراکز ارائه خدمات بیمه2. بورس و سهام و شرکت های فعال در این حوزه3. شرکت ها و سازمان های تولیدی4. شرکت� های ارائه دهنده خدمات )به طور ویژه فروشگاه های زنجیره ایی و بزرگ(5. مراکز آموزشی6. مدیریت منابع انسانی7. مدیریت ریسک8. هتل داری9

Page 34: Parsamehr datamining

منافع پیاده سازی داده کاوی در سازمان های ایرانی

-پیش بینی تقاضاهای آینده خرید از طرف مشتریان- پیش بینی تقاضاهای آینده جهت نیازمندی های آینده خدمات

- دسته بندی انواع مشتریان )خوشه بندی(-کمک به مدیران در تصمیم گیری

-بهبود امر بازاریابی، مشتری یابی و ...

Page 35: Parsamehr datamining

معایب داده کاوی

حریم مهمترین ایرادی که بر داده کاوی وارد شده است بحث میباشدخصوصی

Page 36: Parsamehr datamining

باتشکر1 از توجه شما