31
-- עעעעע עעעעClustering ע"ע עעע עעעעעעע

כריית מידע -- Clustering

Embed Size (px)

DESCRIPTION

כריית מידע -- Clustering. ד"ר אבי רוזנפלד. הרעיון הכללי: דברים דומים הם דומים. איך נאסוף דברים דומים Regression, Classification (Supervised), k- nn Clustering (Unsupervised) k- meand Partitioning Algorithms (k-mean), Hierarchical Algorithms שאלות פתוחות: איך להגדיר "קירבה" מרחק Euclidean - PowerPoint PPT Presentation

Citation preview

Page 1: כריית מידע --  Clustering

מידע -- Clusteringכריית

רוזנפלד" אבי ר ד

Page 2: כריית מידע --  Clustering

: הם דומים דברים הכללי הרעיוןדומים

דומים • דברים נאסוף איך–Regression, Classification (Supervised), k-nn– Clustering (Unsupervised) k-meand–Partitioning Algorithms (k-mean), Hierarchical

Algorithms•" " : קירבה להגדיר איך פתוחות שאלות

Euclideanמרחק – Manhattan (Judea Pearl)מרחק –אחריות – אופציות הרבה

)||...|||(|),( 22

22

2

11 pp jx

ix

jx

ix

jx

ixjid

Page 3: כריית מידע --  Clustering

השאלה סימן את לסווג ?איך

Page 4: כריית מידע --  Clustering

K-Nearest Neighborאמת • בזמן הסיווג את model freeבודקיםהשכנים • מספר את לקבוע צריכיםמהנקודה • המרחק לפי שקלול יש כלל בדרךדומה Case Based Reasoningאו CBRגם •לפי ) • משקל איזשהו או הרוב לפי הולכים בסיווג

הקרבה(איזשהו ) • או הרוב לפי יהיה הערך ברגרסיה

) הקרבה לפי משקל

Page 5: כריית מידע --  Clustering

1-Nearest Neighbor

Page 6: כריית מידע --  Clustering

3-Nearest Neighbor

Page 7: כריית מידע --  Clustering

7

k NEAREST NEIGHBOR

• Choosing the value of k:– If k is too small, sensitive to noise points– If k is too large, neighborhood may include points from other

classes– Choose an odd value for k, to eliminate ties

k = 3: Belongs to triangle class

k = 7: Belongs to square class

ICDM: Top Ten Data Mining Algorithms k nearest neighbor classification December 2006

?

k = 1: Belongs to square class

8

Page 8: כריית מידע --  Clustering

Remarks+Highly effective inductive inference method for

noisy training data and complex target functions

+Target function for a whole space may be described as a combination of less complex local approximations

+Learning is very simple- Classification is time consuming

Page 9: כריית מידע --  Clustering

Clustering K-MEAN: האלגוריתם הבסיסי ל Kבחר ערך רצוי של אשכולות: 1. Kמתוך אוכלוסיית המדגם שנבחרה (להלן הנקודות), בחר2.

נקודות אקראיות. נקודות אלו הם המרכזים ההתחלתיים של )Seedsהאשכולות(

קבע את המרחק האוקלידי של כל הנקודות מהמרכזים שנבחרו3.

K כל נקודה משויכת למרכז הקרוב אליה ביותר. בצורה זו קיבלנו 4.אשכולות זרים זה לזה.

בכל אשכול: קבע נקודות מרכז חדשה על ידי חישוב הממוצע 5.של כל הנקודות באשכול

אם נקודת המרכז שווה לנקודה הקודמת התהליך הסתיים , 6.3אחרת חזור ל

Page 10: כריית מידע --  Clustering
Page 11: כריית מידע --  Clustering
Page 12: כריית מידע --  Clustering
Page 13: כריית מידע --  Clustering
Page 14: כריית מידע --  Clustering

נקודות6דוגמא עם

Instance X Y

1 1.0 1.5

2 1.0 4.5

3 2.0 1.5

4 2.0 3.5

5 3.0 2.5

6 5.0 6.0

Page 15: כריית מידע --  Clustering

נקודות6דוגמא עם

Page 16: כריית מידע --  Clustering

1איטרציה C1,C2 להלן 1,3באופן אקראי נבחרו הנקודות •3,4,5,6 נבחרו הנקודות C2. למרכז 1,2 נבחרות נקודות C1למרכז •Distance= √(x1-x2)² + ( y1-y2 ( ²נוסחת המרחק: •

C1המרחק מ C2המרחק מ

0.00 1.00

3.00 3.16

1.00 0.00

2.24 2.00

2.24 1.41

6.02 5.41

Page 17: כריית מידע --  Clustering

בחירת מרכזים חדשים

C1ל •–X=(1.0+1.0)/2=1.0–Y=(1.5+4.5)/2=3.0

C2ל •–X=(2.0+2.0+3.0+5.0)/4.0=3.0–Y=(1.5+3.5+2.5+6.0)/4.0=3.375

Page 18: כריית מידע --  Clustering

2איטרציה C1(1.0, 3.0) C2(3.0, 3.375)נקודות המרכז החדשות: •4,5,6 יצטרפו : C2 ל 1,2,3 יצטרפו הנקודות: C1ל •

C1המרחק מ C2המרחק מ

1.5 2.74

1.5 2.29

1.8 2.125

1.12 1.01

2.06 0.875

5.00 3.30

Page 19: כריית מידע --  Clustering

התוצאה הסופית

Page 20: כריית מידע --  Clustering

CS583, Bing Liu, UIC 20

עם k-meansבעיותמראש • להגדיר המשתמש Kעלהממוצע • את לחשב שניתן מניחל • רגיש outliersמאוד

–Outliers מהאחרים הרחוקות נקודות הם–... טעות סתם להיות יכול

Page 21: כריית מידע --  Clustering

CS583, Bing Liu, UIC 21

של OUTLIERדוגמא

Page 22: כריית מידע --  Clustering

22

Euclideanמרחק

• Euclidean distance:

• Properties of a metric d(i,j):–d(i,j) 0–d(i,i) = 0–d(i,j) = d(j,i)–d(i,j) d(i,k) + d(k,j)

)||...|||(|),( 22

22

2

11 pp jx

ix

jx

ix

jx

ixjid

Page 23: כריית מידע --  Clustering

CS583, Bing Liu, UIC 23

Hierarchical Clustering• Produce a nested sequence of clusters, a tree, also

called Dendrogram.

Page 24: כריית מידע --  Clustering

CS583, Bing Liu, UIC 24

Types of hierarchical clustering• Agglomerative (bottom up) clustering: It builds the

dendrogram (tree) from the bottom level, and – merges the most similar (or nearest) pair of clusters – stops when all the data points are merged into a single cluster

(i.e., the root cluster).

• Divisive (top down) clustering: It starts with all data points in one cluster, the root. – Splits the root into a set of child clusters. Each child cluster is

recursively divided further – stops when only singleton clusters of individual data points

remain, i.e., each cluster with only a single point

Page 25: כריית מידע --  Clustering

CS583, Bing Liu, UIC 25

Agglomerative clustering

It is more popular then divisive methods.• At the beginning, each data point forms a

cluster (also called a node). • Merge nodes/clusters that have the least

distance.• Go on merging• Eventually all nodes belong to one cluster

Page 26: כריית מידע --  Clustering

CS583, Bing Liu, UIC 26

Agglomerative clustering algorithm

Page 27: כריית מידע --  Clustering

CS583, Bing Liu, UIC 27

An example: working of the algorithm

Page 28: כריית מידע --  Clustering

CS583, Bing Liu, UIC 28

Measuring the distance of two clusters

• A few ways to measure distances of two clusters.

• Results in different variations of the algorithm.– Single link– Complete link– Average link– Centroids– …

Page 29: כריית מידע --  Clustering

CS583, Bing Liu, UIC 29

Single link method• The distance between two

clusters is the distance between two closest data points in the two clusters, one data point from each cluster.

• It can find arbitrarily shaped clusters, but– It may cause the

undesirable “chain effect” by noisy points

Two natural clusters are split into two

Page 30: כריית מידע --  Clustering

CS583, Bing Liu, UIC 30

Complete link method• The distance between two clusters is the distance of

two furthest data points in the two clusters. • It is sensitive to outliers because they are far away

Page 31: כריית מידע --  Clustering

EM Algorithm

• Initialize K cluster centers• Iterate between two steps

– Expectation step: assign points to clusters

–Maximation step: estimate model parameters

j

jijkikki cdwcdwcdP ) |Pr() |Pr() (

m

ik

ji

kiik cdP

cdPd

m 1 ) (

) (1

N

cdw i

ki

k

) Pr(