72
1 םםםםם םםםםםם

כריית נתונים

  • Upload
    roxy

  • View
    81

  • Download
    6

Embed Size (px)

DESCRIPTION

כריית נתונים. כריית נתונים. אנטיליגנציה עסקית ( BI ) סטטיסטיקה יישום חשוב של מחסן אלגוריתמים לומדים. מטרת כלי ה- Data mining. - PowerPoint PPT Presentation

Citation preview

Page 1: כריית נתונים

1

כריית נתונים

Page 2: כריית נתונים

2

כריית נתונים

(BI עסקית )אנטיליגנציה•

סטטיסטיקה•

חשוב של מחסןיישום•

לומדיםאלגוריתמים •

Page 3: כריית נתונים

3

Data miningמטרת כלי ה-

המטרה:•קשרים, הקבצות, מגמות, * גילוי

חוקים ידערכישת*

על מנת:•להחלטה עסקית * הפיכת ידע

רכישת יתרון * אסטרטגי

Page 4: כריית נתונים

4

כריית נתונים

- בכריית זהבכמו •

קיימיםהקשרים •

נסתריםאך •

Page 5: כריית נתונים

5

טכנולוגיות מחשוביות ואלגוריתמים

לכל הצרכים ?שיטה אחת•

שונותלבעיותשונות - טכניקות •

– הבנה והתאמהאתגר•

Page 6: כריית נתונים

6

- BI - השגת ידעKnowledge

)מה קורה (הבנהלא רק •

אחד קדימהצעד•

חיזוי קדימה•

Page 7: כריית נתונים

7

BI - השגת ידע Knowledge

הלקוחות הפוטנציאלים למוצר החדש ?מי הם•

תיעדוףבחירה לפי •

?לפרסםאיך •

לנקוט ?אמצעי מכירהבאיזה •

Page 8: כריית נתונים

8

BI - השגת ידעKnowledge

•UPA

•Understand

•Predict

•Act •ONLINE – REAL TIME

Page 9: כריית נתונים

9

EFM–Enterprise Feedback Management

•Approach

ממוקד לקוחארגון •

המגע עם הלקוחערךמיקוד על •

להחלטות הארגון שותף הלקוח•

- דו-כיווניתתקשורת • * מהנתונים לכיוון הלקוח

* מהלקוח לבסיס הנתונים )השלמת נתונים(

Page 10: כריית נתונים

10

EFM–Enterprise Feedback Management

מחכה אימייללאחר ביקור בתחנת שירות – •

על טיב השירותנשאלהלקוח •

לקוחלתמונת הלקוח מצורפות תובנות•

לקוחלתמונת מצורפות תשובותיו לסקרים•

Page 11: כריית נתונים

11

EFM–Enterprise Feedback Management

נתונים "רכים" וכן "נתונים קשים"נשמרים: •

עסקית פעילות"קשים" - נתוני •

מחשבות/השקפות/דעות"רכים" - •

וקבועיםיציביםנתונים "רכים" יותר •

דירה מעבר בגלל נטישהיתכן שארעה •

משתנות אינן - והעדפה השקפהאבל •

Page 12: כריית נתונים

12

דוגמא: בנק

שאלותמי שנכנס לאתר – נשאל •

יקבל הצעותבפעם הבאה כשיכנס לאתר •ספציפיות

הלקוחהמתאימות לתמונתהצעות •

Page 13: כריית נתונים

13

Yamaha Motorsדוגמא:

האופנוע הבאתכונות את קובע הלקוח רצון•

בעזרת סקרים מתכננים - • כידון *

אגזוז * צבע *

מראה *

Page 14: כריית נתונים

14

סוגי בעיות

,Predictive Analytics חיזויבעיות •Classification / Forecasting

לפי אשכולות – פילוחבעיות •Clustering

– רצף פעילויותמציאת • Association Analysis

Page 15: כריית נתונים

15

הנתונים שבמחסן

מטויביםנתונים •

טיוב - ?•

- איכותיים לאנתונים • מוטעותמסקנות *

שגויות * החלטות

Page 16: כריית נתונים

16

תהליך ניתוח מבוסס גילוי

הנחותאין •

גדולבסיס נתונים •

- הצפת • קשרים, הקבצות, תבניות וחוקים

Page 17: כריית נתונים

17

דוגמא

: הגדרת אוכלוסיית לקוחות מטרה•מכירות מבצעל

שונות הקבצותגילוי •

מי הקבוצה המתאימה אין הנחה•למבצע

ההחלטהבסיום - •

Page 18: כריית נתונים

18

יישומים, טכניקות, ואלגוריתמים

Page 19: כריית נתונים

19

יישומים המכירותתחום•

Page 20: כריית נתונים

20

יישומים

(: Customer Profiling )פילוח לקוחות• פרופיל *

הלקוחות - - זיהוי ? - הגדרה ?

?טכניקה *

?- מטרה *

Page 21: כריית נתונים

21

יישומים

ניתוח נטישה•

•( Churn Management) ובין פעילות נתוני בין קשרים•

נטישה

הנטישהסיבות זיהוי •

לקוח נוטש תכונותזיהוי •

Page 22: כריית נתונים

22

ניתוח נטישה

? לעשותמה ניתן •גיוס – עלות שימורעלות •כפונקציה של מידת הצ'יפור •

לנטישהההסתברות ? דוגמא:• ? טכניקה•

Page 23: כריית נתונים

23

יישומים

ניתוח סל קניות••(Market Basket Analysis) של לקוחות הרגלי הקנייהניתוח • המטרה:•

לאורך זמן לקוח – מוצרים * * מוצרים

יחדהנרכשים ההבנה מסייעת: ?•

Page 24: כריית נתונים

24

ניתוח סל קניות

ההבנה מסייעת: • * קביעת רמות

מלאי המדפיםשטח * תכנון

* מוצרים על מדפיםהצגת

? טכניקה:•

Page 25: כריית נתונים

25

יישומים

שיווק ממוקד•

•(Targeted Marketing) אמצעי שיווקניתוח צורות שונות של •

קניהשהביאו בעבר לבצוע

?המטרה:•

Page 26: כריית נתונים

26

שיווק ממוקד - מטרות לסוגי אמצעי השיווקהתאמת •

דיוור הלקוחות * * ישירים

קטלוגים אתר הבית* תכנון

מספר סוכנים * תכנון של ?תכונותזיהוי *

Page 27: כריית נתונים

27

יישומים

איתור הונאות••(Fraud Detection): בנקאות, מסחר בניירות תחומים•

ערך, טלקומוניקציה, ביטוח, ושירותי בריאות

: ?יישומים•

Page 28: כריית נתונים

28

איתור הונאותיישומים: •

* כרטיסי אשראי * שיחות טלפון * מונה חשמל

* מונה מים

Page 29: כריית נתונים

29

יישומים

דירוג אשראי-ניהול סיכוני אשראי•

•( Credit Scoring)

2 באזלתקנות רגולטוריות •

במתן אשראי סיכונים זיהוי •

לשנות את זיהוי לקוחות העומדים • האשראי שלהםדירוג

Page 30: כריית נתונים

30

יישומים

יישומי ביטוח ובריאות •

•(Insurance and Health Care)

מבוטחיםתביעות ניתוח •

ההסתברות•

התביעה תוחלת•

הוגנתפרמיית•

Page 31: כריית נתונים

31

יישומי ביטוח ובריאות

טיפולים רפואייםזיהוי •ביחדהמתבצעים

מוצלחים למצבי טפוליםזיהוי •מסוימתמחלה

Page 32: כריית נתונים

32

יישומים

בקרת איכות•

•( Quality Control)

הייצור בקווי תקלותניתוח •

לתקלות גורמים חיזוי•

Page 33: כריית נתונים

33

טכניקות

הצגה ויזואלית של הנתונים•

•( Visualization)

גרפים - תרשימים•

תלת-מימדית - הצגה צבעים • Scatter )דיאגרמת פיזורטכניקה נפוצה - •

Diagram)

פיזור הנתוניםדיאגראמת דו מימדית המציגה •לפי שני פרמטרים

Page 34: כריית נתונים

34

דוגמא לדיאגרמת פיזור

מה ניתן ללמוד?•

Page 35: כריית נתונים

35

טכניקות מציאת רצף של פעילויות•

( Association Rules)

נתונים אחרים עם הקשורים נתוניםזיהוי •

חוקיות הסתברותיתהצגת •

כללו גבינת צאן מרכישות בהן נרכשה 80% • שומןמעדן חלב דלגם רכישת

עוד ?•

ניתוח סל הקניותמתאימה לבעיות מסוג •

Page 36: כריית נתונים

36

מציאת רצף של פעילויות( Association Rules)

לעיתון מנוי מהלקוחות להם 92%•במוסיקה - ומנוי העוסק "גלובס"

יש להם גם במכוניותמנוי לירחון העוסק

Page 37: כריית נתונים

37

טכניקות

ניתוח סדר הופעה•

• Sequence Based Analysis

העסקאות על סדר ביצועהבנת – ציר הזמן

מטרה: ?–

לדוגמא: ? -

Page 38: כריית נתונים

38

מטרה

לגבי תבנית ההתנהגותהבנת –קרות אירוע מסוים )רכישת מוצר באינטרנט(

קרות האירוע מראש לצפותכדי

בעתיד

Page 39: כריית נתונים

39

דוגמאות

של לינקים המביא מסלול מנצח•

בפועל לביצוע קניה

Page 40: כריית נתונים

40

דוגמאות

למחלה מוצלחים תהליכי טיפולאיתור -

תרופותממתן הסתבכויות זיהוי -

ניתן - ההסתברות xטיפול "אם אזי "%p לאחר חודש הינה yלהופעת דלקת

מניה - מ- x"אם ביותר עולה בעוד 20% מניה אזי יורד המניות תעלה yמדד

"%pכעבור שבוע בהסתברות

Page 41: כריית נתונים

41

טכניקות

ניתוח אשכולות••(Cluster Analysis)אשכולות אוכלוסייה לאוסף פילוח•בין אובייקטים השייכים לכל דמיון •

אשכול ?המטרה:•

Page 42: כריית נתונים

42

תהליך בניית האשכולותאלגוריתם - •

דפוס התנהגות מגדיר * אשכולות בונה *

* לקוחות משייך

מאפיינים * מזהה הבנה הבנת תוצאות ההקבצה מחייבת •

בנתונים

Page 43: כריית נתונים

43

תהליך בניית האשכולות

Page 44: כריית נתונים

44

טכניקות

(Classification )סיווג •

נפוץ •

תהליך חיזוי•

מודל סיווג ע"פ היסטוריה•

הקבצות ידועות•

יישומים: ?•

Page 45: כריית נתונים

45

(Classification )סיווג

יישומים:• * כשל

אשראי תהליך ייצור * כשל

הונאות *

נטישה *

Page 46: כריית נתונים

46

(Classification )סיווג

אלגוריתמים - סוגי • איזה ? רגרסיה *

* עצי החלטות

* רשתות עצביות

Page 47: כריית נתונים

47

אלגוריתמים

(Decision Tree ) עצי החלטה• העיקרון:•

גורמים זיהוי * חיפוש תכונה/פרמטר ז"א: *

התנהגות המנבאתע"פ חשיבות מיון *

עץ - הצגה *

Page 48: כריית נתונים

48

Page 49: כריית נתונים

49

אוסף של כללי החלטה•Rules for 1 - contains 4 rule(s)

•Rule 1 for 1 • if AGE = 2• and PAY_WEEK = 2.0• then 1

•Rule 2 for 1

• if CLASS = 1• and PAY_WEEK = 2.0• then 1

•Rules for 0 - contains 2 rule(s)

•Rule 1 for 0 • if PAY_WEEK = 1.0• then 0

•Rule 2 for 0 • if AGE = 1• then 0

Page 50: כריית נתונים

50

שלבים בשימוש בעצי החלטות

- (Decision Tree Induction) בנית העץ•לקוחות פוטנציאלים סיווג

שהפכו * *

שלא הפכו עץ החלטותבונה - האלגוריתם

Page 51: כריית נתונים

51

שלבים בשימוש בעצי החלטות

בדיקת סבירות ופישוט העץ • ( Tree Pruning – )

ענפים איחוד - כיצד?

ענפים פיצול - כיצד?

Page 52: כריית נתונים

52

שלבים בשימוש בעצי החלטות

- מומחים ע"י ביצוע• *

האימון מכירים נתוני * מסוגלים

התוצאותלבדוק איכות

Page 53: כריית נתונים

53

שלבים בשימוש בעצי החלטות

מדגם נוסףהפעלת המודל על •

? הסיבה

Page 54: כריית נתונים

54

שלבים בשימוש בעצי החלטות

( Decision making)קבלת החלטות •כל המודל לגבי הפעלת *

פוטנציאלי לקוחהסיכויים שלא * ניתוח

יחזיר אשראי

Page 55: כריית נתונים

55

עצי החלטה – יתרונות וחסרונות

יתרונות:• להבנה * נוחים וקלים

גבוהה דיוק * רמת (לפעמים..)

פשוט) (אלגוריתם לבניית העץ זמן קצר*

חסרונות:•פישוט הדורש מסועף * עץ

Page 56: כריית נתונים

56

עצי החלטה - אלגוריתמים

המקור: מחקר שבוצע באוניברסיטת משיגן • AID )Automatic Interactionונקרא:

Detection(

•CHAID – Chi Squared AID

•ID5

•C5.0

•GINI

Page 57: כריית נתונים

57

אלגוריתמים ומודלים - רשתות עצביות

(Neural Networks )רשתות עצביות•

לפתרון אינטליגנציה מלאכותיתענף חדש של •סיווגבעיות

לימוד עצמימבוסס על מבנה מתמטי בעלי יכולת •

הינו רשת עצבית המורכבת ממספר ענק המוח• המחוברים אחד עם השני באמצעות נוירוניםשל

( וכך מתקבלת רשת Synapsesסינפסות )עצבית ענקית

למידהמנגנון זה מאפשר מורכבות: •

Page 58: כריית נתונים

58

נוירון טבעי

Page 59: כריית נתונים

59

רשת עצבית

Page 60: כריית נתונים

60

רשתות עצביות

המבנה שימש חוקרים לבניית מכונות בעלות •יכולת למידה

מבוסס על אוסף צמתים המחולקים ל- • המזרימים את צמתי קלט *

צמתי נתוני הקלט * המשתתפים בתהליך פתרון הבעיה ביניים

המציגים התוצאות צמתי פלט *

הצמתים המחוברים ביניהם ברשת גדולה•

Page 61: כריית נתונים

61

שלבים בשימוש ברשת

השימוש ברשת מורכב משני שלבים: • בו מציגים לרשת האימון * שלב

ומאמנים הרשת אוסף דוגמאות מהעבר לפתור בעיות סיווג

מקרים בו מציגים הפענוח * שלב ומסווגים אותם )מבצעים בהם פעולות חדשים

חיזוי(

Page 62: כריית נתונים

62

F

Page 63: כריית נתונים

63

נוירון מלאכותישל הנוירון - הסכום עוצמת ההפעלה•

המשוקלל של כל הקלטים - (Activation Function) פונקצית הפעלה•

לפונקצית ערך עוצמת ההפעלה מוזןשבבסיס כל נוירון ההפעלה

תוצאת פונקצית ההפעלה - הפלט של הנוירון•הפלט של כל נוירון נורה קדימה ומוזן כקלט •

לכל אחד מהנוירונים בשכבה הבאה של הרשת: השכבה הבאה יכולה להיות•

)ביניים( חישוב * שכבת פלט * שכבת

Page 64: כריית נתונים

64

עוצמת הפעלה

Page 65: כריית נתונים

65

Page 66: כריית נתונים

66

פונקצית הפעלה מסוג מדרגה)Step(

מערך גדולה אם עוצמת ההפעלה 1מעבירה •Tמסוים

מערך קטנה אם עוצמת ההפעלה 0מעבירה •מסוים

השפעה של סינפסה מציין שלילימשקל • של נוירון מסוים על הבא אחריומעכבת

Page 67: כריית נתונים

67

בחירת פונקצית הפעלה

הקובעים את פונקציתקיים אלגוריתמים •ההפעלה שבבסיס כל נוירון ברשת

הקביעה על סמך: • הקלט מספר יחידות *

הקלט סוג יחידות *התוצאות המתקבלות *

בקבוצת האימון על פני ציר הזמן

)ערכי Tערכי ה-אם נקבע פונקצית מדרגה – • על פי אלגוריתמיםסף( נקבעים אף הם

מתאימים

Page 68: כריית נתונים

68

מימוש אופרטורים בוליאנים בעזרת פונקצית מדרגה

Page 69: כריית נתונים

69

Page 70: כריית נתונים

70

- רשת היישום הראשון ברשת עצביתPerceptron

נבנתה רשת עצבית בשם 50בשנות ה-•Perceptron

אין לה שכבות ביניים רק שכבת קלט ושכבת •פלט

Page 71: כריית נתונים

71

Hiddenרשת עם שכבות ביניים (Layers(

החלו לפתח רשתות המבוססות 80בשנות ה-• )שכבות נסתרות( שכבות בינייםעל *

* Back Propagationאלגוריתם

Page 72: כריית נתונים

72

”רשתות עם "שכבות נסתרות

שכבות רשת המכילה בנוסף לשכבת הפלט •( Hidden Layers )נסתרות

בכל שכבה קיים נוירון אחד או מספר נוירונים•

של המידע בתוך לעיבוד פנימימשמשות •הרשת

נוירוני שכבת הפלט, השכבות הנסתרות •מחוברים ביניהםויחידות הקלט

)החיזוי( של הרשת מוסיף לכח החישוב•