אשכול - clustering

Preview:

DESCRIPTION

אשכול - clustering. Clustering הוא תחום הקשור לבינה מלאכותית , ותת תחום של למידה לא מבוקרת. Exp 2. Exp 3. כמה גן מבוטא בכל ניסוי. E 2. E 3. E 1. Gene 1. Gene 2. Exp 1. Gene N. איך בודקים דמיון פנימי בין שני נקודות. Peter. Piotr. 0.23. 3. 342.7. Norms. הגדרה יבשה של נורמה. - PowerPoint PPT Presentation

Citation preview

clusteringclusteringאשכול - אשכול -

Clustering הוא תחום הקשור לבינה מלאכותית , ותת תחום של למידה לא מבוקרת .

כמה גן מבוטא בכל ניסוי

Gene 1

Gene 2

Gene N

Exp 1

E 1

Exp 2

E 2

Exp 3

E 3

איך בודקים דמיון פנימי בין שני נקודות

0.23 3 342.7

Peter Piotr

Norms

1

nk

kik

i

V v

הגדרה יבשה של נורמה

11

2 2 222

1

4 1 4 3 8

3

1 4 3 26

1 4 31 4 3 4 (

4 4 4

4 (0 1 0) 4

V V

V

V

וקטורים שני בין מרחק

מוגדר להיות נורמה מאיזשהו מימד בין שני הוקטורים

1. Euclidean distance: D(X,Y)=sqrt[(x1-y1)2+(x2-y2)2+…(xn-yn)2]2. (Pearson) Correlation coefficient R(X,Y)=1/n*∑[(xi-E(x))/x *(yi-E(y))/y] x= sqrt(E(x2)-E(x)2); E(x)=expected value of x R=1 if x=y 0 if E(xy)=E(x)E(y) 3. Norm 1 D(X,Y)=|x1-y1|+|x2-y2|+…|(xn-yn)|4. Norm inf D(X,Y)=maxi(|xn-yn|)

הגדרות מרחק

-מרחק בין וקטורים-מרחק בין וקטוריםדמיון בין פרטיםדמיון בין פרטים

פרמטרים על סמך מגדירים וקטור המקבל מאפיינים קבועים מראש

v=[dress color,earings,height,hair,weight]Patty =[ 3, 2, 1.7, 4, 65 ]Salma= [4 , 1, 1.7, 3 ,65 ]Marge=[5, 0, 1.6, 6, 60]

|| Patty-Salma||1 = 1+1+0+1+0 = 3 || Patty-Marge||1 = 2+2+0.1+2+5 = 11.1 || Salma-Marge||1 = 1+1+0.1+3+5 = 10.1|| Patty-Salma|| ∞= 1|| Patty-Marge|| ∞ = 5 || Salma-Marge|| ∞ = 5

מרחק זה נקרא מרחק עריכה edit distance

דרכים למציאת דמיון בין פרטיםדרכים למציאת דמיון בין פרטים

מגדירים וקטור המקבל את ציון הדמיון על פי פרמטרים שאנחנו קובעים

The distance between Patty and Selma1 , שינוי צבע שמלה point1 , שינוי צורת עגילים point1, שינוי בצורת השיער point

0 point גובה שונה 0 point משקל שונה

D(Patty,Selma) = 3

The distance between Marge and Selma.1 , שינוי צבע שמלה point1 , שינוי צורת עגילים point0.1 גובה שונה point3 שינוי בצורת השיער point5, משקל point

D(Marge,Selma) = 10.1

מרחק זה נקרא מרחק עריכה edit distance

Data Clustering

School Employees Simpson's Family Males Females

??איך מפרידים לקבוצותאיך מפרידים לקבוצות

Partitional ClusteringPartitional Clustering• Nonhierarchical, each instance is placed in

exactly one of K nonoverlapping clusters.

• Since only one set of clusters is output, the user normally has to input the desired number of clusters K.

k-meansאלגוריתם באקראי / לא באקראיk קבע מס' מרכזים •

שייך כל נקודה למרכז הקרוב אליה ע"פ פונקצית •המרחק שהגדרת

החדש ע"פ מרכז הכובד של האשכול kקבע את ה•שנוצר

המשך עד להתכנסות המרכזים•

0

1

2

3

4

5

0 1 2 3 4 5

K-means Clustering: Step 1K-means Clustering: Step 1Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2

k3

0

1

2

3

4

5

0 1 2 3 4 5

K-means Clustering: Step 2K-means Clustering: Step 2Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2

k3

0

1

2

3

4

5

0 1 2 3 4 5

K-means Clustering: Step 3K-means Clustering: Step 3Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2

k3

0

1

2

3

4

5

0 1 2 3 4 5

K-means Clustering: Step 4K-means Clustering: Step 4Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2

k3

0

1

2

3

4

5

0 1 2 3 4 5

expression in condition 1

exp

ress

ion

in c

on

dit

ion

2

K-means Clustering: Step 5K-means Clustering: Step 5Algorithm: k-means, Distance Metric: Euclidean Distance

k1

k2 k3

Hierarchical clusteringE1 E2 E3

אשכול היררכיאשכול היררכי

HierarchicalHierarchical PartitionalPartitional

Peter

Piter

Pioter

Piotr

Substitution (i for e)

Insertion (o)

Deletion (e)

Edit DistanceEdit DistanceHow similar are the names “Peter” and “Piotr”?Assume the following cost function

Substitution 1 UnitInsertion 1 UnitDeletion 1 Unit

D(Peter,Piotr) is 3

Pio

tr P

yotr

Pet

ros

Pie

tro

Pedr

o P

ierr

e P

iero

Pet

er

Pio

tr P

yotr

Pet

ros

Pie

tro

Ped

ro P

ierr

e P

iero

Pet

erP

eder

Pek

a P

eada

r

Pedro (Portuguese/Spanish)Petros (Greek), Peter (English), Piotr (Polish), Peadar (Irish), Pierre (French), Peder (Danish), Peka (Hawaiian), Pietro (Italian), Piero (Italian Alternative), Petr (Czech), Pyotr (Russian)

Pio

tr P

yotr

Pet

ros

Pie

tro

Ped

ro P

ierr

e P

iero

Pet

erP

eder

Pek

a P

eada

r

Pedro (Portuguese/Spanish)Petros (Greek), Peter (English), Piotr (Polish), Peadar (Irish), Pierre (French), Peder (Danish), Peka (Hawaiian), Pietro (Italian), Piero (Italian Alternative), Petr (Czech), Pyotr (Russian)

מרחק בין אשכולותמרחק בין אשכולות dendogramdendogram - -בניית בניית

• Single linkage (nearest neighbor):Single linkage (nearest neighbor): המרחק בין האשכולות מוגדר על שני הנקודות הכי קרובות•

•Complete linkage (furthest neighbor):Complete linkage (furthest neighbor):המרחק בין האשכולות מוגדר על שני הנקודות הכי רחוקות•

• Group average linkageGroup average linkage:המרחק מוגדר להיות בין שני המרכזים )ממוצע של כל אשכול(•

0 6 8 5 7

0 2 4 4

0 3 3

0 1

0

D( , ) = 6

D( , ) = 1

DENDOGRAMבניית

0 6 8 5

0 2 4

0 3

0

D( , )=2

D( , )=3

0 6 5

0 3

0

בונים את העץ מלמטה ועולים כלפי מעלה

בחר את המרחק הקצר ביותר

בחר את המרחק הקצר ביותר

בחר את המרחק הקצר ביותר

Outlier

הוספת נקודה של טעות לא תפגע באשכול הקודםהוספת נקודה של טעות לא תפגע באשכול הקודם

דוגמא ממבחן)בשיעור(

) clusteringאשכולות (נתונות הנקודות המסומנות1.

.a אשכולות3 אשכולות ועם 2בצע אשכול הררכי עם

.b בצעk-means אשכולות4 אשכולות ועם 2עם

.c פרט את את שלבי אלגוריתם הfuzzy – k mean

Matlab….

' לגרף הנק העברת• ' במישור הנק את קבענקודות • זוג כל בין מרחק קבע

0 1 1.5 2 5 6 7 9

1 0 2 1 6.5 6 8 8

1.5 2 0 1 4 4 6 5.5

.

.

.

n-D data pointsgraph

representationdistance matrix

מינימאלי פורש (MST)עץלסט • אותו והכנס מקור קודקוד (Aקבע עץ )בסט • הקודקוד את ( Bמצא קרוב ) הכי אשר בגרף הקודקודים שאר

(A)לעץ בסט • קודקודים ישארו שלא עד התהליך על Bחזור

דוגמא

4

10

6

7

35

8

(e)

4

7

35

(b)

4 4

(c)

7

4

3

(d)

7

(a)

clustringמציאת

• ) של ) בפונקציה צומת של הוספה כל בעץ ההתקדמות כיוון את קבעשהוספה הקשת משקל

מייצג "עמק"כל • clusterבגרף

Recommended