32
Mere sliˇ cnosti Nenad Miti´ c Matematiˇ cki fakultet [email protected]

Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnosti

Nenad MiticMatematicki fakultet

[email protected]

Page 2: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.2

Uvod

• Kako odrediti slicnost/razlicitostobjekata, obrazaca, atributa,dogadjaja....

• Podaci razlicitog tipa i strukture• Zavisnost od tipa, raspodele,

dimenzionalnosti podataka, ...• Cesto se meri vrednostima u intervalu

[0,1]• Funkcije slicnosti - veca vrednost veca

slicnost

Page 3: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.3

Uvod - nastavak

• Razlicitost -numericka mera koliko sudva objekata, ... razliciti

• Najmanja razlicitost je cesto 0; gornjagranica varira

• Kao sinonim koristi se i terminrastojanje

• Funkcije rastojanja - manja vrednostveca slicnost

Termin blizina (eng. proximity) oznacava ilislicnost ili razlicitost

Page 4: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.4

Uvod - nastavak

Primeri slicnost/razlicitosti atributa p i q

Tip atributa Slicnost Razlicitost

Nominalni s =

{1 ako p = q0 ako p 6= q

d =

{1 ako p 6= q0 ako p = q

Redni s = 1− |p−q|n−1 d = |p−q|

n−1vrednosti se preslikavaju u skup [0, n − 1] gde je n broj vrednosti

Intervalni ili s = −d , s = 11+d , d = |p − q|

razmerni s = 1− d−mindmaxd−mind

Page 5: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.5

Mera i metrika

Funkcija rastojanja d je metrika ako važi

1 Pozitivna odredjenost• d(p,q) ≥ 0 ∀ p,q• d(p,q) = 0 akko p = q

2 Simetrija: d(p,q) = d(q,p) ∀ p,q

3 Nejednakost trougla:d(p, r) ≤ d(p,q) + d(q, r) ∀ p,q, r

Page 6: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.6

Ultrametrika

Ako je funkcija rastojanja d metrika i akovaži

d(p, r) ≤ max{d(p,q),d(q, r)} ∀ p,q, r

tada je funkcija d ultrametrika

Primeri mear• koje jesu metrika/ultrametrika?• koje nisu metrika/ultrametrika?

Page 7: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.7

Mere slicnosti za kvantitativne podatke

Rastojanje izmedju dve tacke u n dimenzionomprostoru X = (x1, x2, ..., xn) i Y = (y1, y2, ..., yn)

• Hamingovo rastojanje

Hamming(X ,Y ) =n∑

i=1

qi gde je qi =

{1, ako xi 6= yi

0, inace

• Najcešce korišcena mera je rastojanjeMinkovskog ili Lp mera

Dist(X ,Y ) =

(n∑

i=1

| xi − yi |p)1/p

Page 8: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.8

Rastojanje Minkovskog

Specijalni slucajevi• p = 1 - Gradski blok (taksi, Menhetn, ...)

• p = 2 - Euklidsko rastojanje

• p →∞ supremum rastojanje (Lmax ,L∞ norma)= max1≤i≤n|xi − yi |

• Ne mešati n (broj dimenzija podatka) i p(velicinu parametra)

Page 9: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.9

Rastojanje Minkovskog - nedostaci

Nije pogodno za primenu• kod retkih višedimenzionih podatka sa

nepoznatom raspodelom, šumovima,...

• ako postoje lokalno irelevantni atributi(primer: analiza krvi za pacijente odrazlicitih bolesti) zbog šuma koji sekumulira pri izracunavanju

Page 10: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.10

Mahalanobisovo rastojanje

Maha(X ,Y ) =

√(X − Y )Σ−1(X − Y )T

gde je Σ−1 inverzna matrica matricekovarijansi podataka

Page 11: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.11

Uticaj raspodele na rastojanje

Medjusobno rastojanje tacakaA(−6.8,−2.9) i B(6.8,3.1)

Euklidsko rastojanje tacaka je 14.7, aMahalanobisovo 6

Page 12: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.12

Mahalanobisovo rastojanje

Korisno je kada važi• atributi su u korelaciji• atributi imaju razlicite opsege vrednosti

(razlicite varijanse)• raspodela podataka je približno

normalna (Gausova)

Page 13: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.13

Mere slicnosti za kategoricke podatke

Slicnost dva podatka X = (x1, x2, ..., xn) iY = (y1, y2, ..., yn) sa kategorickimatributima se može definisati preko slicnostinjihovih pojedinacnih atributa

Sim(X ,Y ) =n∑

i=1

S(xi , yi)

Page 14: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.14

Mere slicnosti za kategoricke podatke

• Najjednostavniji slucaj:

S(xi , yi) =

{1 ako xi = yi

0 inace

• Ne uzima se u obzir relativnafrekvencija atributa

• Koristi se agregiranje statistickihosobina

• Manje frekventne uparene vrednostiimaju vecu težinu

Page 15: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.15

Slicnost atributa

Neka je pk (x) kolicnik broja slogova u kojima k -tiatribut uzima vrednost x

Mere koje ukljucuju frekvenciju su• Inverzna ucestalost pojavljivanja

S(xi , yi) =

{1/pk (xi)

2, ako xi = yi

0, inace

• ’Pojavljivanje je dobro’. Veca slicnost je kada jevrednost manje ucestala

S(xi , yi) =

{1− pk (xi)

2, ako xi = yi

0, inace

Page 16: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.16

Inverzna frekvencija dokumenata

• Slicnost dva dokumenta se bolje ocenjuje akose koriste reci koje su zajednicke

• Za normalizaciju se koristi funkcija brojadokumenata ni u kome se javlja rec i uukupnom broju dokumenata n:

idi = log(n/ni)

• Za smanjenje mogucnosti da cesta pojavaneke reci utice na slicnost mogu da se koristefunkcije

f (xi) = sqrt(xi)

f (xi) = log(xi)

Page 17: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.17

Inverzna frekvencija dokumenata

• normalizovana frekvencija za i-tu rec može dase definiše kao

h(xi) = f (xi) · idi

• Kosinusno i prošireno Žakardovo rastojanje sanormalizovanom frekvencijom reci su

cos(X ,Y ) =

d∑i=1

h(xi)× h(yi)√d∑

i=1h(xi)2 ×

√d∑

i=1h(yi)2

J(X ,Y ) =

d∑i=1

h(xi)× h(yi)

d∑i=1

h(xi)2 +d∑

i=1h(yi)2 −

d∑i=1

h(xi)× h(yi)

Page 18: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.18

Rastojanje Minkovskog sa težinama

U slucaju da je potrebno dodeliti težinskefaktore ai atributima i

Dist(X ,Y ) =

(d∑

i=1

ai× | xi − yi |p)1/p

Page 19: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.19

Podaci sa kvantitativnim i kategorickimatributima

Slicnost dva sloga X = (X n,X c) i Y = (Y n,Y c)

Sim(X ,Y ) = λ× NumSim(X n,Y n))+

(1− λ)× CatSim(X c,Y c))

gde λ odredjuje relativnu važnostkategorickih i numerickih atributa

Page 20: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.20

Mere slicnosti podataka sa tekstualnim ibinarnim atributima

Slicnost dva sloga X = (x1, x2, ..., xd) iY = (y1, y2, ..., yd) sa binarnim atributima semože definisati preko sledecih vrednosti

• M01=broj atributa koji su jednaki 0 u X i 1 u Y

• M10=broj atributa koji su jednaki 1 u X i 0 u Y

• M00=broj atributa koji su jednaki 0 u X i 0 u Y

• M11=broj atributa koji su jednaki 1 u X i 1 u Y

Page 21: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.21

SMC i Žakardovi koeficijenti

• Jednostavno uparivanje koeficijenata (SMC)SMC=broj uparenih/broj atributa =(M11 + M00)/(M01 + M10 + M11 + M00)

• Žakardovi koeficijenti. Koriste se u slucajuasimetricnih atributa (samo prisustvo ne-nulase smatra važnim)J=broj parova 11/broj atributa gde nisu obevrednosti 0 = M11/(M01 + M10 + M11)

Page 22: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.22

Prošireni Žakardovi koeficijenti(koeficijenti Tanimoto-a)

• Varijanta Žakardovih koeficijenata primenljivana atribute sa neprekidnim i prebrojivimvrednostima

• U slucaju atributa sa binarnim vrednostimaredukuje se na Žakardove koeficijente

T (X ,Y ) =X • Y

||X ||2 + ||Y ||2 − X • Y

Page 23: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.23

Kosinusna slicnost

Ako su X = (x1, x2, ..., xn) i Y = (y1, y2, ..., yn) dvavektora dokumenata tada se njihova slicnost možeodrediti pomocu kosinusne slicnosti

cos(X ,Y ) =X • Y

||X || × ||Y ||odnosno

cos(X ,Y ) =

d∑i=1

xi × yi√(

d∑i=1

x2i )×

√(

d∑i=1

y2i )

Page 24: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.24

Kosinusna slicnost

Koristi se kod velikog broja parova tipa ’00’ pri cemumože da bude primenjena i na ne-binarne vektore(npr. poredenje slicnosti dva dokumenta po recimakoje se javljaju u njima)

Primer:d1 = 3 2 0 5 0 0 0 2 0 0d2 = 1 0 0 0 0 0 0 1 0 2d1 · d2 = 3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2 = 5

||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42)0.5 = 6.481

||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)0.5 = (6)0.5 = 2.245

cos(d1,d2) = 0.3150

Page 25: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.25

Korelacija

Korelacija dva objekta koji imaju binarne ilineprekidne atribute je mera linearnog odnosaizmedu njihovih atributa

ρxy = covxy/(σx ∗ σy )

kovarijansa(x , y) = covxy =1

n − 1

n∑k=1

(xk − x)(yk − y)

standardna devijacija(x) = σx =

√√√√ 1n − 1

n∑k=1

(xk − x)

srednja vrednost(x) = x =1n

n∑k=1

xk

Page 26: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.26

Mere na osnovu gustina

Ako je korelacija =1 (-1)→ perfektni pozitivan(negativan) linearni odnos xk = ayk + b

Page 27: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.27

Slicnost diskretnih podataka

Edit rastojanje, rastojanje za transformacijeX = (x1, x2, ..., xm) i Y = (y1, y2, ..., yn). Zaprvih i simbola iz X i prvih j simbola iz Y

Edit(i , j) = min

Edit(i − 1, j) + cena brisanjaEdit(i , j − 1) + cena umetanjaEdit(i − 1, j − 1) + Iij × cena zamene

gde je Iij indikator da li su jednaki i-tisimbol X i j-ti simbol Y

Primer: ababababab i bababababa

Page 28: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.28

Slicnost diskretnih podataka

Odredjivanje najduže zajednicke podniske zaX = (x1, x2, ..., xm) i Y = (y1, y2, ..., yn). Za prvih isimbola iz X i prvih j simbola iz Y , u oznaci X i i Y i

LCSS(i , j) = max

LCSS(i − 1, j − 1) + 1 ako xi = yi

Edit(i − 1, j) xi nije uparenoEdit(i , j − 1) yj nije upareno

Primer: agbfcgdhei i afbgchdiei

Page 29: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.29

Mere na osnovu informacija

• Neke mere slicnosti su zasnovane nateoriji informacija

• Entropija• X - dogadaj sa n mogucih ishoda x1, ..., xn• verovatnoca ishoda je p1, ...,pn• Entropija dogadaja X je

H(X ) = −n∑

i=1

pi log2pi

• H(X ) ∈ [0, log2n] i predstavlja meru kolikobitova je potrebno u proseku zapredstavljanje dogadaja X

Page 30: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.30

Mere na osnovu gustina

• Meri se stepen bliskosti objekata unekom oblasti

• Koncept gustine se koristi uklasterovanju i otkrivanju anomalija

• Najcešce se koriste• Euklidska gustina - broj tacaka po jedinici

površine/zapremine• Gustina verovatnoca - procena

distribucije podataka na osnovu izgleda• Graf zasnovane gustine - na osnovu

povezanosti

Page 31: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.31

Mere na osnovu gustina

Primer: Euklidska gustina zasnovana na celijama -podela regiona na neki broj celija i definisanjegustine preko broja tacaka u celijama

Page 32: Mere slicnostiˇ - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/2.Mere_slicnosti.pdfMere sliˇcnosti Uvod Mera i metrika Mere - multidimenzioni podaci Mere sliˇcnosti za

Mere slicnostiUvod

Mera i metrika

Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke

Mere slicnosti zakategoricke podatke

Podaci sa kvantitativnim ikategorickim atributima

Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima

SMC i Žakardovi koeficijenti

Prošireni Žakardovikoeficijenti

Kosinusna slicnost

Mere korelacije izmeduobjekata

Mere - diskretnipodaciSlicnost diskretnih podataka

Mere na osnovuinformacija

Mere na osnovugustina

1.32

Mere na osnovu gustina

Primer: Euklidska gustina zasnovana na centru -broj celija na odredenoj udaljenosti od centralnetacke