Parsamehr datamining

Preview:

Citation preview

وحید پارسامهر

:موضوع ارائه داده

کاوی

93پاییز

مقدمهدر دنياي�ي زندگ�ي ميكني�م ك�ه اطالعات ارزش زيادي براي م�ا دارند. ب�ا افزاي�ش حجم در بتوانند ك�ه ابزارهاي�ي ب�ه العاده فوق نياز اينترن�ت، روي دردس�ترس اطالعات

منابع كمك كنند كامال محسوس است.جستجو، فيلتر نمودن و مديريت

مقدمهاسناد و اينترن�ت افزون روز گس�ترش ب�ه توج�ه ب�ا ابزارهاي�ي براي مديري�ت و استخراج ب�ه نياز ديجيتال

اطالعات مفي�د از ميان حج�م عظي�م داده ه�ا افزايش رايانه علوم متخص�صين رو اي�ن از اس�ت. يافت�ه روشهاي�ي را ب�ه منظور س�اخت مدلهاي�ي ك�ه كار طبقه بندي خودكار اسناد را انجام ميدهند، ارائه داده اند. با پيداي�ش علوم داده كاوي و ب�ه كارگيري آمار، توج�ه به

اين گونه روشها به سرعت افزايش يافت.

هدف اصلي داده كاوي

بدست آوردن الگوهايي با ارزش از ميان حجم انبوه داده ها

مي باشد.

Data Mining چيست؟

Data Mining عبارت اس�ت از اقتباس ي�ا اس�تخراج دان�ش از مجموعه ای از ، ديگ�ر بيان ب�ه ، ه�ا از Data Miningداده استفاده ب�ا ک�ه اس�ت فرايندی

تکنيکهای هوشمند، دانش را از مجموعه ای از داده ها استخراج می ک�ند.

Data Mining از س�اخت مدل های تحليل�ی ، دس�ته بندی و پي�ش بينی اطالعات و ارائه نتايج با استفاده از ابزارهای مرتبط استفاده می ک�ند.

بتواند عمل استخراج دانش را بخوبی انجام Data Miningبرای اينکه الگوريتم ده�د، نياز ب�ه ي�ک س�ری پي�ش پردازش ه�ا بر روی مجموع�ه آموزش�ی و ي�ک سری

پس پردازش ها بر روی الگوهای استخراج شده دارد.

Data Miningمراحل : در اي�ن مرحل�ه داده های غي�ر معت�بر از مجموعه داده های پاک س1ازی داده ه1ا

آموزش�ی خارج م�ی شوند. داده های دارای نوي�ز، اطالعات ناکام�ل و ... نمونه هايی از داده هايی هستند که با يد پاکسازی در مورد آنها انجام گ�ردد.

: در اي�ن مرحل�ه، مناب�ع چندگان�ه داده ای ب�ا ه�م ترکيب يکپارچ1ه س1ازی داده ه1امی شوند.

از س�اير داده ها Data Mining : داده های مرتب�ط ب�ه فراين�د انتخاب داده ه1انيز از فراين�د کاه�ش اطالعات توان بخش�ی را م�ی اي�ن مبح�ث جدا م�ی شود.

دانست. در می Data Mining: داده ه�ا ب�ه قالب�ی قاب�ل اس�تفاده برای تبدي1ل داده ه1ا

آيند. از اعمالی که در اين مرحله صورت می گيرد ، می توان به خالصه سازی و يا محاسبه مقادير تجمعی اشاره کرد.

Data Mining: و ها روش از اس�تفاده ب�ا آ�ن در ک�ه فراين�د اص�لی بخ�ش تکنيکهای خاص ، استخراج الگو های دانش صورت می گيرد.

: تشخي�ص الگ�و های ص�حيح مورد نظ�ر ، از ساير الگ�و ه�ا در اين ارزياب1ی الگوهامرحل�ه انجام م�ی شود. ص�حت الگوه�ا بر اس�اس ي�ک س�ری معيار های جذابيت

سنجيده می شود.دان1ش به بازنماي1ی اس�تخراج شده دان�ش ارائ�ه منظور ب�ه بخ�ش اي�ن در :

کاربر ، از يک سری ابزارهای بصری سازی استفاده می گردد.

کاهش اطالعاتکاهش اطالعات عبارت است از توليد يک مجموعه کوچکتر از داده های اوليه که تحت

روی اطالعات Data Mining نتاي1ج تقريب1ا يکس1انی ب1ا نتايج Data Miningعمليات اوليه به دست می دهد.

Dataاي1ن عم1ل را م1ی توان از طري1ق حذف خص1يصه های غي1ر مرتب1ط با نوع عمليات Mining.مورد نظر انجام داد

حذف خص1يصه های مرتب1ط ک1ه در اث1ر اشتباه در ارزياب1ی ميزان ارتباط آنه1ا با عمليات Data Mining انجام می گيرد، می توان1د منج1ر به ناکارآمدی فرايند Data Mining و

استخراج قوانين ناقص و در نتيجه بی ارزش شود. را به Data Miningعدم حذف خص1ايص غي1ر مرتب1ط م1ی توان1د زمان انجاخ1م عمليات

طرز قابل مالحظه ای افزايش دهد. وجود دارد:Data Miningسه روش کلی برای انتخاب خصايص مرتبط با

دارد، را ارتباط بيشترين ک1ه ای خص1يصه مرحل1ه ه1ر در رونده: پي1ش انتخاب برگزيده می شود.

دارد، را ارتباط کمترين ک1ه ای خص1يصه مرحل1ه ه1ر در رونده: عق1ب انتخاب انتخاب و حذف می شود.

روش ترکيبی : ترکيب هر دو روش پيش رونده و پس روندهس1لسله مرات1ب مفهوم1ی: روش1ی برای کاه1ش تعداد مقادي1ر ممک1ن برای ي1ک خصيصه ارائ1ه م1ی ده1د، اگ1ر چ1ه داده های خروج1ی کل1ی ت1ر بوده و فاق1د برخ1ی جزئيات هستند، ام1ا اي1ن داده ه1ا بس1يار س1اده ت1ر بوده و در س1طح تجريدی باالتری نس1بت به داده های

اوليه قرار دارند.

عمليات برای نياز مورد Dataاطالعات Mining

: بان�ک اطالعات�ی ممک�ن است Data Miningداده های مرتب1ط ب1ا فراين1د ب�ا فرايند آنه�ا تنه�ا بخ�ش ک�وچک�ی از شام�ل تعداد زيادی از رک�ورد ه�ا باش�د ک�ه

Data Mining بايد اطالع�ات از بخ�ش اي�ن کردن مشخ�ص هس�تند. مرتب�ط توسط کاربر انجام گيرد.

: نوع روتي�ن هاي�ی ک�ه بايد بر روی داده نوع دانش1ی ک1ه باي1د اس1تخراج شودهای انتخاب شده اع�مال شوند، بايد مشخص گردد.

: کاربران می توانند، با مشخ�ص کردن دانش زمينه ای فرايند دان1ش زمينه ایData Mining رفتار مورد در کاربر حدس نمونه برای نماين�د، هداي�ت را

اطالعات.ارزياب1ی دان1ش اس1تخراج شده در معيارهای معياره�ا ممک�ن است اي�ن :

، روی Data Mining و ي�ا پس از پايان Data Miningزمان اجرای فراين�د دانش استخراج شده اع�مال شده و بخش ارزشمند دانش را مشخص نمايند.

: نماي�ش دانش و قواني�ن استخراج شده در نحوه ارائ1ه دان1ش اس1تخراج شدهقالب های مختلفی نظير جدول ، نمودار ، درخت تصميم گيری و ...

Data Miningروشهای مختلف

اين روشها بطور کلی به دو دسته زير تقسيم می شوند:(Prediction Method)الگوريتمهای يادگيری با نظارت

Description Methodsالگوريتمهای يادگيری بدون نظارت( )از ب�ا نظارت هدف يادگيری الگوريتمهای مشخص Data Miningدر

اس�ت و م�ی داني�م ک�ه ب�ه دنبال چ�ه نوع دانش�ی م�ی گرديم. مانن�د دسته بندی.

نيست. شده تعري�ف کامال هدف نظارت، بدون يادگيری روشهای در مانند خوشه بندی.

برای شده گرفته بکار Knowledgeروشهای Discovery

در اي�ن روش ي�ک نمونه : (Classification [Predictive])دس1ته بندیبه يکی از چند دسته از پيش تعريف شده دسته بندی می شود.

پی�ش بین�ی ی�ک مقدار متغیر (: Regression [Predictive]) رگرس1يون مبنی بر متغیرهای دیگر .

ي�ک دس�ته داده را ب�ه يکی :Clustering [Descriptive]) )خوش1ه بندی از چند خوشه نگاشت می کند. خوشه ها گروه بنديهای دسته های داده

ای هستند که بر اساس شباهت برخی از معيارها بوجود می آيند.وابستگی قواع111د Association Rule Discovery) کش111ف

[Descriptive]:) رواب�ط وابس�تگی بي�ن خص�يصه های مختل�ف را بيان می کند.

الگوهای دنبال�ه ای همچون س�ريهای زمانی را مدل تحلي1ل دنبال1ه :می کند.

Classification: Application 1

(: Direct Marketingهدایت بازاریابی )اهداف :

مصرف • از گروه�ی یاب�ی موقعی�ت ب�ا پس�ت ی هزین�ه کاه�ش کنندگان .

روش کار : اس�تفاده از اطالعات ی�ک محص�ول ک�ه قبال تولی�د شده به منظور •

استفاده در نمونه های جدید .م�ا ب�ا توج�ه ب�ه اطالعات موجود بدانی�م ک�ه چ�ه فردی بیشت�ر چه •

چیزهایی را می خرد و چه چیزهایی را نمی خرد.به • مربوط اطالعات و مختل�ف آماری نمودارهای آوری جم�ع

تعامالت مشتری و شرکت .

Classification: Application 2

(:Fraud Detectionشناسایی تخلف )اهداف :

.شناسایی موارد کاله برداری در معامالت کارتهای اعتباری •روش کار :

استفاده از اطالعات مع�امالت کارتهای اعتباری و اطالعات دارنده ی آن .•برچسب زدن به معامالت گذشته به عنوان کالهبرداری یا معامالت نسبتا خوب.•شناسایی یک مدل برای یک رده از معامالت•اس�تفاده از ای�ن مدل برای تشخی�ص کاله�بردای با مشاهده ی معامالت کارت •

اعتباری شخص .

Regression

پیش بینی یک مقدار متغیر مبنی بر متغیرهای دیگر .

مثال : هزینه • مبنای بر جدی�د محص�ول ی�ک فروش مقدار بین�ی پی�ش

تبلیغات پیش بینی سرعت باد به عنوان یک تابع از دما ، رطوبت ، فشار •

هوا وغیره .

•Example training database• Two predictor attributes:Age and Car-type (Sport,Minivan and Truck)• Spent indicates how muchperson spent during a recentvisit to the web site• Dependent attribute isnumerical

Regression Example

Clustering: Application 1

(:Market Segmentationتقسیم بازار)اهداف :

تقس�یم بازار ب�ه زی�ر مجموع�ه های مس�تقل ،مبتن�ی بر مصرف •بازار یک ع�نوان ب�ه بتوان�د زی�ر مجموع�ه ه�ر ک�ه ،جای�ی کنندگان

.مستقل انتخاب شودروش کار :

ی • پایه بر کنندگان مص�رف مختل�ف مشخص�ات آوری جم�ع موقعیت جغرافیایی .

یافتن گروه مصرف کنندگان مشابه•اندازه گیری کیفی�ت گروه ب�ا مشاهده ی الگوهای خری�د مصرف •

کنندگان در یک گروه در مقابل الگوهای دیگر گروه ها .

Clustering: Application 2

( :Document Clusteringخوشه بندی اسناد )اهداف :

برای پیدا کردن گروه�ی از اس�ناد ک�ه از لحاظ ظاه�ر شدن کلمات مه�م در آنها • شبیه به هم هستند

روش کار :برای تشخی�ص عبارات�ی ک�ه در س�ند ب�ه طور متوال�ی تکرار میشون�د . تشکی�ل یک •

در مقیاس از استفاده . مختل�ف عبارات فراوان�ی پای�ه ی بر همانندی مقیاس خوشه بندی .

Association Rule Discovery: Application 1

( :Inventory Management)مدیریت داراییاهداف :

ی�ک شرک�ت تعمی�ر وس�ایل مص�رف کنندگان خواس�تار پی�ش بینی •ت�ا همیش�ه ماشین های تعمیرات مص�رف کنندگان اس�ت ماهی�ت

سرویس دهنه اش را مجهز نگه دارد .روش کار :

ابزاره�ا و قطع�ه های�ی ک�ه که در تع�میرات • پردازش داده ه�ا – قبل�ی در مکان های متفاوت نیاز شده اس�ت – و کشف الگوهای

رخدادهای مختلف .

Data Mining Software

INSIGHTFUL MINERAngoss Knowledge ACCESS ARMiner Eudaptics Viscovery Goal TV MDR Viscovery SOMineSPSS

های سيستم Dataمشکالت Mining

ب�ا آن Data Miningدو مشک�ل اص�لی ک�ه اکث�ر س�يستم های مواجه هستند، عبارتند از:

حجم باالی داده های آموزشیوجود عدم قطعيت در اطالع�ات

برای رف�ع مشکالت�ی ک�ه اي�ن س�يستم ه�ا در برخورد با داده های حجيم دارند، معموال روشهای زير استفاده می گردند:

طراح�ی الگوريت�م های س�ريع: ک�اه�ش پيچيدگيه�ا، بهين�ه سازی، موازی سازی

کاهش حجم داده ها: نمونه گيری ، گسسته سازی، کاهش ابعاد و ...بکارگيری ي�ک ارائ�ه رابط�ه ای: اس�تفاده از قابليتهای ذخيره و بازيابی

اطالعات در پايگاههای داده

امکانات س1يستم های مديريت پايگاه داده ها

پايگاههای مديريت س�يستمهای امکانات بکارگيری برای ، مجموعه Data Miningداده ب�ه منظور افزودن قابلي�ت

عملياتهای زير را می توان انجام داد: و ساير اشياء پايگاههای داده برای افزودن SQLبکارگيری زبان

به سيستم مديريت پايگاه دادهData Miningقابليت برای پشتيبانی SQLطراح�ی و ايجاد ي�ک زبان پرس و ج�و همانن�د

Data Miningاز انجام فع�اليتهای مختلف توس�ع�ه مجموع�ه ای از عبارات ب�ه منظور پوش�ش دادن مجموعه

Data Miningعمليات

وجود عدم قطعيت در اطالعات

داده هاي عمليات�ی موجود در س�يستم های اطالعاتی معموال دارای عدم قطعي�ت هس�تند. عدم قطعي�ت م�ی توان�د ب�ه اشکال مختلفی در

پايگاههای داده ظهور کند.دو دسته ب�ه داده پايگاه در س�يستمهای کل�ی عدم قطعي�ت بطور

تقسيم می شوند:که اس�ت هاي�ی خص�يصه منظور نامشخ�ص(: )مقادي�ر ناکام�ل اطالعات

مقداری برای آنها ثبت نشده است.بوجود يا نادرس�ت گ�يری اندازه اث�ر در ک�ه اطالعات�ی ناس�ازگار: اطالعات آمدن نوي�ز در داده ه�ا ايجاد شده باش�د و مقادي�ر ثب�ت شده ب�ا مقادي�ر واقعی

برابر نباشند.

كشف دانش و داده كاوي افراد زيادي داده كاوي را مثال�ي مترادف ب�ا عبارات�ي متداول همچون كشف دانش در

ميدانن�د، در حال�ي ك�ه داده كاوي تنه�ا يك�ي از مراح�ل ضروري در فرايند پايگاه داده

كشف دانش در پايگاه داده است.

مراحل کشف دانش. درك فضاي مسئله1. شناخت داده2. تهيه داده3. داده كاوي4. ارزيابي دانش كشف شده5. استفاده از دانش كشف شده6

مراحل تبدیل داده ها به دانش

ویژگی های داده کاوی. به فرضیه احتیاجی ندارد .1

. ابزارهای داده کاوی از انواع مختلف داده ها ) نه تنها عددی( می توانند استفاده کنند .2

. الگوریتم های داده کاوی به طور اتوماتیک روابط را ایجاد می کنند .3

. داده کاوی به داده های صحیح و درست نیاز دارد .4

. نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان انها به مدیران دارد .5

کشف و فشرده س1ازی داده ه1ا ، حذف داده های ب1ی ارزش . اس�اس داده کاوی برمبنای س�ه فعالی�ت اص�لی 6است . الگوها

کاربردهای داده کاویخرده فروشی :

─ تعیین الگوهای خرید مشتریان ─ تجزیه و تحلیل سبد خرید بازار

─پیشگویی میزان خرید مشتریان ازطریق پست ) فروش الکترونیکی (

کاربردهای داده کاویبیمه :

─تجزیه و تحلیل دعاوی ─ پیشگوی�ی میزان خری�د بیم�ه نام�ه های جدی�د توسط

مشتریان

کاربردهای داده کاویپزشکی :

─تعیین نوع رفتار با بیماران وپیشگویی میزان موفقیت عمل های جراحی ─تعیین میزان موفقیت روش های درمانی دربرخورد با بیماری های سخت

کاربردهای داده کاویبانکداری :

─پیش بینی الگوهای کالهبرداری ازطریق کارت های اعتباری ─تشخیص مشتریان ثابت

─تعیین میزان استفاده از کارت های اعتباری براساس گروه های اجتماعی

کاربردهای داده کاوی• متن کاوی

• تصویر کاوی

• سیستم هواشناسی

• صنعت و بازار کار

و...

شرکت ها و سازمان های اجرا کننده در ایران

به طور مشخص پروژه هایی که دارای نتایج کامال ملموس می باشند شامل موارد ذیل است:. بانکها و موسسات مالی و اعتباری1. مراکز ارائه خدمات بیمه2. بورس و سهام و شرکت های فعال در این حوزه3. شرکت ها و سازمان های تولیدی4. شرکت� های ارائه دهنده خدمات )به طور ویژه فروشگاه های زنجیره ایی و بزرگ(5. مراکز آموزشی6. مدیریت منابع انسانی7. مدیریت ریسک8. هتل داری9

منافع پیاده سازی داده کاوی در سازمان های ایرانی

-پیش بینی تقاضاهای آینده خرید از طرف مشتریان- پیش بینی تقاضاهای آینده جهت نیازمندی های آینده خدمات

- دسته بندی انواع مشتریان )خوشه بندی(-کمک به مدیران در تصمیم گیری

-بهبود امر بازاریابی، مشتری یابی و ...

معایب داده کاوی

حریم مهمترین ایرادی که بر داده کاوی وارد شده است بحث میباشدخصوصی

باتشکر1 از توجه شما