35
- ללללל- לללללclustering clustering Clustering ללל לללל ללללל ללללל לללללללל , ללל לללל לל ללללל לל לללללל .

אשכול - clustering

Embed Size (px)

DESCRIPTION

אשכול - clustering. Clustering הוא תחום הקשור לבינה מלאכותית , ותת תחום של למידה לא מבוקרת. Exp 2. Exp 3. כמה גן מבוטא בכל ניסוי. E 2. E 3. E 1. Gene 1. Gene 2. Exp 1. Gene N. איך בודקים דמיון פנימי בין שני נקודות. Peter. Piotr. 0.23. 3. 342.7. Norms. הגדרה יבשה של נורמה. - PowerPoint PPT Presentation

Citation preview

Page 1: אשכול -  clustering

clusteringclusteringאשכול - אשכול -

Clustering הוא תחום הקשור לבינה מלאכותית , ותת תחום של למידה לא מבוקרת .

Page 2: אשכול -  clustering

כמה גן מבוטא בכל ניסוי

Gene 1

Gene 2

Gene N

Exp 1

E 1

Exp 2

E 2

Exp 3

E 3

Page 3: אשכול -  clustering

איך בודקים דמיון פנימי בין שני נקודות

0.23 3 342.7

Peter Piotr

Page 4: אשכול -  clustering

Norms

1

nk

kik

i

V v

הגדרה יבשה של נורמה

11

2 2 222

1

4 1 4 3 8

3

1 4 3 26

1 4 31 4 3 4 (

4 4 4

4 (0 1 0) 4

V V

V

V

Page 5: אשכול -  clustering

וקטורים שני בין מרחק

מוגדר להיות נורמה מאיזשהו מימד בין שני הוקטורים

Page 6: אשכול -  clustering

1. Euclidean distance: D(X,Y)=sqrt[(x1-y1)2+(x2-y2)2+…(xn-yn)2]2. (Pearson) Correlation coefficient R(X,Y)=1/n*∑[(xi-E(x))/x *(yi-E(y))/y] x= sqrt(E(x2)-E(x)2); E(x)=expected value of x R=1 if x=y 0 if E(xy)=E(x)E(y) 3. Norm 1 D(X,Y)=|x1-y1|+|x2-y2|+…|(xn-yn)|4. Norm inf D(X,Y)=maxi(|xn-yn|)

הגדרות מרחק

Page 7: אשכול -  clustering

-מרחק בין וקטורים-מרחק בין וקטוריםדמיון בין פרטיםדמיון בין פרטים

פרמטרים על סמך מגדירים וקטור המקבל מאפיינים קבועים מראש

v=[dress color,earings,height,hair,weight]Patty =[ 3, 2, 1.7, 4, 65 ]Salma= [4 , 1, 1.7, 3 ,65 ]Marge=[5, 0, 1.6, 6, 60]

|| Patty-Salma||1 = 1+1+0+1+0 = 3 || Patty-Marge||1 = 2+2+0.1+2+5 = 11.1 || Salma-Marge||1 = 1+1+0.1+3+5 = 10.1|| Patty-Salma|| ∞= 1|| Patty-Marge|| ∞ = 5 || Salma-Marge|| ∞ = 5

מרחק זה נקרא מרחק עריכה edit distance

Page 8: אשכול -  clustering

דרכים למציאת דמיון בין פרטיםדרכים למציאת דמיון בין פרטים

מגדירים וקטור המקבל את ציון הדמיון על פי פרמטרים שאנחנו קובעים

The distance between Patty and Selma1 , שינוי צבע שמלה point1 , שינוי צורת עגילים point1, שינוי בצורת השיער point

0 point גובה שונה 0 point משקל שונה

D(Patty,Selma) = 3

The distance between Marge and Selma.1 , שינוי צבע שמלה point1 , שינוי צורת עגילים point0.1 גובה שונה point3 שינוי בצורת השיער point5, משקל point

D(Marge,Selma) = 10.1

מרחק זה נקרא מרחק עריכה edit distance

Page 9: אשכול -  clustering

Data Clustering

Page 10: אשכול -  clustering

School Employees Simpson's Family Males Females

??איך מפרידים לקבוצותאיך מפרידים לקבוצות

Page 11: אשכול -  clustering

Partitional ClusteringPartitional Clustering• Nonhierarchical, each instance is placed in

exactly one of K nonoverlapping clusters.

• Since only one set of clusters is output, the user normally has to input the desired number of clusters K.

Page 12: אשכול -  clustering

k-meansאלגוריתם באקראי / לא באקראיk קבע מס' מרכזים •

שייך כל נקודה למרכז הקרוב אליה ע"פ פונקצית •המרחק שהגדרת

החדש ע"פ מרכז הכובד של האשכול kקבע את ה•שנוצר

המשך עד להתכנסות המרכזים•

Page 13: אשכול -  clustering

0

1

2

3

4

5

0 1 2 3 4 5

K-means Clustering: Step 1K-means Clustering: Step 1Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2

k3

Page 14: אשכול -  clustering

0

1

2

3

4

5

0 1 2 3 4 5

K-means Clustering: Step 2K-means Clustering: Step 2Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2

k3

Page 15: אשכול -  clustering

0

1

2

3

4

5

0 1 2 3 4 5

K-means Clustering: Step 3K-means Clustering: Step 3Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2

k3

Page 16: אשכול -  clustering

0

1

2

3

4

5

0 1 2 3 4 5

K-means Clustering: Step 4K-means Clustering: Step 4Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2

k3

Page 17: אשכול -  clustering

0

1

2

3

4

5

0 1 2 3 4 5

expression in condition 1

exp

ress

ion

in c

on

dit

ion

2

K-means Clustering: Step 5K-means Clustering: Step 5Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2 k3

Page 18: אשכול -  clustering

Hierarchical clusteringE1 E2 E3

Page 19: אשכול -  clustering

אשכול היררכיאשכול היררכי

HierarchicalHierarchical PartitionalPartitional

Page 20: אשכול -  clustering

Peter

Piter

Pioter

Piotr

Substitution (i for e)

Insertion (o)

Deletion (e)

Edit DistanceEdit DistanceHow similar are the names “Peter” and “Piotr”?Assume the following cost function

Substitution 1 UnitInsertion 1 UnitDeletion 1 Unit

D(Peter,Piotr) is 3

Pio

tr P

yotr

Pet

ros

Pie

tro

Pedr

o P

ierr

e P

iero

Pet

er

Page 21: אשכול -  clustering

Pio

tr P

yotr

Pet

ros

Pie

tro

Ped

ro P

ierr

e P

iero

Pet

erP

eder

Pek

a P

eada

r

Pedro (Portuguese/Spanish)Petros (Greek), Peter (English), Piotr (Polish), Peadar (Irish), Pierre (French), Peder (Danish), Peka (Hawaiian), Pietro (Italian), Piero (Italian Alternative), Petr (Czech), Pyotr (Russian)

Page 22: אשכול -  clustering

Pio

tr P

yotr

Pet

ros

Pie

tro

Ped

ro P

ierr

e P

iero

Pet

erP

eder

Pek

a P

eada

r

Pedro (Portuguese/Spanish)Petros (Greek), Peter (English), Piotr (Polish), Peadar (Irish), Pierre (French), Peder (Danish), Peka (Hawaiian), Pietro (Italian), Piero (Italian Alternative), Petr (Czech), Pyotr (Russian)

Page 23: אשכול -  clustering

מרחק בין אשכולותמרחק בין אשכולות dendogramdendogram - -בניית בניית

• Single linkage (nearest neighbor):Single linkage (nearest neighbor): המרחק בין האשכולות מוגדר על שני הנקודות הכי קרובות•

•Complete linkage (furthest neighbor):Complete linkage (furthest neighbor):המרחק בין האשכולות מוגדר על שני הנקודות הכי רחוקות•

• Group average linkageGroup average linkage:המרחק מוגדר להיות בין שני המרכזים )ממוצע של כל אשכול(•

Page 24: אשכול -  clustering

0 6 8 5 7

0 2 4 4

0 3 3

0 1

0

D( , ) = 6

D( , ) = 1

DENDOGRAMבניית

Page 25: אשכול -  clustering

0 6 8 5

0 2 4

0 3

0

D( , )=2

Page 26: אשכול -  clustering

D( , )=3

0 6 5

0 3

0

Page 27: אשכול -  clustering

בונים את העץ מלמטה ועולים כלפי מעלה

בחר את המרחק הקצר ביותר

בחר את המרחק הקצר ביותר

בחר את המרחק הקצר ביותר

Page 28: אשכול -  clustering
Page 29: אשכול -  clustering

Outlier

הוספת נקודה של טעות לא תפגע באשכול הקודםהוספת נקודה של טעות לא תפגע באשכול הקודם

Page 30: אשכול -  clustering

דוגמא ממבחן)בשיעור(

) clusteringאשכולות (נתונות הנקודות המסומנות1.

.a אשכולות3 אשכולות ועם 2בצע אשכול הררכי עם

.b בצעk-means אשכולות4 אשכולות ועם 2עם

.c פרט את את שלבי אלגוריתם הfuzzy – k mean

Page 31: אשכול -  clustering

Matlab….

Page 32: אשכול -  clustering

' לגרף הנק העברת• ' במישור הנק את קבענקודות • זוג כל בין מרחק קבע

0 1 1.5 2 5 6 7 9

1 0 2 1 6.5 6 8 8

1.5 2 0 1 4 4 6 5.5

.

.

.

n-D data pointsgraph

representationdistance matrix

Page 33: אשכול -  clustering

מינימאלי פורש (MST)עץלסט • אותו והכנס מקור קודקוד (Aקבע עץ )בסט • הקודקוד את ( Bמצא קרוב ) הכי אשר בגרף הקודקודים שאר

(A)לעץ בסט • קודקודים ישארו שלא עד התהליך על Bחזור

Page 34: אשכול -  clustering

דוגמא

4

10

6

7

35

8

(e)

4

7

35

(b)

4 4

(c)

7

4

3

(d)

7

(a)

Page 35: אשכול -  clustering

clustringמציאת

• ) של ) בפונקציה צומת של הוספה כל בעץ ההתקדמות כיוון את קבעשהוספה הקשת משקל

מייצג "עמק"כל • clusterבגרף