Click here to load reader
Upload
banking-and-
View
1.667
Download
3
Embed Size (px)
Citation preview
مقدمه ای بر داده کاوی
94- شهریورمهدی نصیری
چرا داده کاوی- رشد نمایی حجم داده
ک%ه رايان%ه در تحلي%ل و ذخيره س%ازي داده ه%ا مورد استفاده و بهره برداری 1950از •س%ال ت%ا گرف%ت، با 1970قرار گردید. برابر دو ه%ا داده پايگاه در ه%ا داده حج%م
ه%ر دو س%ال يکبار حج%م داده ها، دو 1990پیشرف%ت ف%ن آوري اطالعات ه%ر س%ال (TAN94)برابر شد.
(IBM 2011) درصد دادگان مربوط به دو سال اخیر است.90•
(PETERSEN 2012) خواهد رسید.2020 زتابایت در 40 زتابایت به 3.2حجم دادگان •
(MULCAHY 2014) سال یکبار دو برابر می شود.1.2حجم دادگان هر •
(VASANTH2014 وب سایت خبری ایجاد می شود.)1.57هر دقیقه • 2010داده تولیدی در ی%ک روز دو برابر ک%ل داده تولیدی از عص%ر یخبندان س%وم تا •
(SHMIDTE2012است.) در فی%س بوک و .... ثب%ت می شود LIKE میلیون 1.8 میلیون می%ل، 204ه%ر دقیق%ه •
(QMEE2013).
تاثیرگذارترین سال آینده 10تا
چرا داده کاویرشد نمایی داده•نیاز به استخراج اطالعات از داده برای تصمیم گیری بهتر•تعداد متخصصين تحليل داده با اين سرعت هماهنگ نیست.•ب%ا رايانه هاي موجود • امکان تحلي%ل و اس%تخراج اطالعات ب%ا روش هاي معمول آماري از دل انبوه داده مس%تلزم مدته%ا کار
است.رایانه ها ارزانتر و قویتر می شوند.•شدت رقابت% قوی برای فراهم کردن بهتر سرویس دهی به مشتری زیاد است.•پايگاه داده ه%ا براي مديران، برنام%ه ريزان، پژوهشگران و... جه%ت% تص%ميم گيري هاي راه%بردي، تهي%ه گزارش هاي مختلف، •
توصيف وضعيت جاري خود و... مي تواند مفيد باشد.
تعریف داده کاویداده کاوی
آمار
هوش مصنوعی
تشخیص
الگو و محاسبات نرم
یادگیری ماشین
پایگاه داده
کشف دانش باارزش و غیرمنتظره از مجموعه وسیعی از داده
تفاوت داده کاوی و بازیابی داده داده کاوی ((IRبازیابی داده
بدون زمینه شناختی از قبل می تواند صورت گیرد
بر اساس ساختار پایگاه داده مشخص می شود معیارها
می تواند به کلی متفاوت از ساختار پایگاه داده تحلیل باشد
همواره زیرمجموعه ای از پایگاه داده تحلیل و منطبق بر ساختار آن است نتایج
برای فرایند استخراج دانش نیاز به پاکسازی و فیلترینگ داده است.
داده همانگونه که ذخیره میشود بازیابی می گردد پردازش
با احتمال مشخص کامال دقیق دقت نتایج
تفاوت داده کاوی و آمارداده کاوی آمار
عدم نیاز به فرضیه و قادر به کشف الگوها نیاز به فرضیه تحقیق صورت مساله
پایین به باال باال به پایین نوع تحلیلکشف اطالعاتی که مورد توجه نبوده اند گسترش آگاهی در مورد پدیده مورد
توجه هدفبرای داده های بسیار بزرگ شکل گرفته تنها بر روی حجم داده محدود کارا
است کاراییتوانایی بهره گیری از داده نامرتب )نظیر داده
اینترنت(نیاز به ساختارهای مرسوم و کالسیک
ذخیره سازی دادهوابستگی به ساختار داده
نمونه مرجع مشاهده ای تجربی اساس جمع آوری داده
بسیار زمان بر است و یا به کلی جواب برای داده های بسیار بزرگ شکل گرفتهنمی دهد
گزارش گیری از داده انبوه
با احتمال مشخص دقیق دقت نتایج
به صورت جوکتعریف داده کاوی
باشد= آمار3اگر تعداد متغ%یرها بیشتر از • باشد= یادگیری ماشینNP-HARDاگر مساله •اگر مساله محدود باشد= هوش مصنوعی•اگر ندانیم در ک%جا دنبال چی هستیم= داده کاوی•
آنچه که داده کاوی نیست
گزارش های مرسوم•گزارش های نتیجه اثبات فرضیه•
وظایف داده کاوی
(CRISP)فرآیند داده کاوی
چالش های داده کاویدامنه ابع%اد داده•پیچیدگی و همگن بودن داده•کیفیت داده•توزیع داده•محرمانگی داده•داده جریانی•سخت افزار و نرم افزار الزم و موقع%یت بانک اطالعاتی•در دسترس بودن نیروی انسانی ماهر در داده کاوی •ضع%ف ذات%ی نهفت%ه در ابزارهای نظری مث%ل مانن%د یادگیری ماشین%ی و الگوریتم •
های ژنتیکی به کار گرفته شده در فعالیت های داده کاوی
-2007مهمترین چالش های داده کاوی 2013
کثیف بودن داده)چالشی ترین موضوع(• چالش اول(4ارائه داده کاوی و کاربرد آن به دیگران)جز • چالش اول(3سخت بودن دسترسی به داده ها)جز •
چالش های داده کاوی
پیدا کردن سوزن در انبار کاه در زمان کم
شبکه اجتماعی وداده کاوی
شبکه اجتماعی وداده کاوی
کاربرد داده کاویتحلیل توصیفی افکارسنجی•کاوی)• اجتماعی (REALITY MININGواقعی�ت رفتاری الگوی کش�ف :
افراد از طریق ارتباط بی سیمپیش بینی رفتار•(MIT 2008) تکنولوژی برتر تغییر سبک زندگی10ارائه به عنوان یکی از •
بانک•ارتباط با مشتری•ریسک•مدیریت ابزار•
مثالهایی از کاربردهای داده کاویارتباط بین موارد گارانتی در طول زمان•استفاده از ویژگیهای بازسازی خودرو در کشور چین، به منظور کمک به بهتر شدن •
تولیداتتشخیص و پیش بینی بیماریهای خاص•ارتباط با مشتری مانند کتابخانه•
برای پیش بینی روند بازگشت منابع•برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده•
رده بندی مشتریان در توریسم•رده دارای انعطاف بیشتر به خاطر محدودیت مالی•مقصد مشخص و قیمت پایین تر•
تحلیل عالیق مشتریان•پیش بینی انتخابات مجلس یا ریاست جمهوری•
مثالهایی از کاربردهای داده کاویتحلیل بورس•
پیش بینی قیمت•ارتباط مثبت و منفی سهام ها در تاثیرگذاری قیمت•
تحلیل صادرات و واردات)گمرک(•بهینه سازی پروازهای هوایی•تحلیل وضعیت آب و هوا•کشاورزی•
پیش بینی تخمیر•کشف بیماری از صداهای حیوانات•بهینه سازی استفاده از آفت کش ها •
بیمه•مالیات•
پیش بینی مالیات برای اختصاص منابع درآمدی•تقلب مالیات•
کاربرد داده کاوی میلیارد دالر 28.5 تخمین دو برابری از 2017 تا 2015درآمد از •
(2014 اکتبر ANMOL RAJPUROHIT 30 میلیارد دالر)50.1به میلیارد 3.4 میلیارد دالر به 1.4 از NO SQLدر حوزه هادوپ و •
دالر برابر آن غیر مستقیم در 3 میلیون شغل مستقیم و 1.9ایجاد •
در آمریکا2015سال
کالن داده
کالن داده
کالن داده
کالن داده
کالن داده
2014ابزارهای برتر از دید گارتنر
ابزارها
ابزارها
ابزارها
ابزارها
ابزارها
ابزارها
Rو پایتون
نرم افزارهای پر کاربرد در سال 2013
کاربردهای داده کاوی در صنعت در 2010سال
پرکاربردترین صنعت ها در داده 2012CRM/Consumer analytics (56)کاوی در سال 28.6%
25.0%
Health care/ HR (32) 16.3% 16.7%
Retail (29) 14.8% 10.5%
Banking (28) 14.3% 18.9%
Education (28) 14.3% 16.2%
Advertising (26) 13.3% 7.0%
Fraud Detection (25) 12.8% 14.0%
Social Media / Social Networks (24) 12.2% 13.2%
Science (23) 11.7% 13.6%
Finance (20) 10.2% 11.4%
Direct Marketing/ Fundraising (19) 9.7% 12.3%
و 2013فعالیت داده کاوان در 2011
2011 و 2013مقایسه کاربردها در
?
آنها که خوانده ام همه از یاد من برفت
... اال حدیث دوست
با تشکر