View
11
Download
0
Category
Preview:
Citation preview
Mere slicnosti
Nenad MiticMatematicki fakultet
nenad@matf.bg.ac.rs
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.2
Uvod
• Kako odrediti slicnost/razlicitostobjekata, obrazaca, atributa,dogadjaja....
• Podaci razlicitog tipa i strukture• Zavisnost od tipa, raspodele,
dimenzionalnosti podataka, ...• Cesto se meri vrednostima u intervalu
[0,1]• Funkcije slicnosti - veca vrednost veca
slicnost
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.3
Uvod - nastavak
• Razlicitost -numericka mera koliko sudva objekata, ... razliciti
• Najmanja razlicitost je cesto 0; gornjagranica varira
• Kao sinonim koristi se i terminrastojanje
• Funkcije rastojanja - manja vrednostveca slicnost
Termin blizina (eng. proximity) oznacava ilislicnost ili razlicitost
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.4
Uvod - nastavak
Primeri slicnost/razlicitosti atributa p i q
Tip atributa Slicnost Razlicitost
Nominalni s =
{1 ako p = q0 ako p 6= q
d =
{1 ako p 6= q0 ako p = q
Redni s = 1− |p−q|n−1 d = |p−q|
n−1vrednosti se preslikavaju u skup [0, n − 1] gde je n broj vrednosti
Intervalni ili s = −d , s = 11+d , d = |p − q|
razmerni s = 1− d−mindmaxd−mind
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.5
Mera i metrika
Funkcija rastojanja d je metrika ako važi
1 Pozitivna odredjenost• d(p,q) ≥ 0 ∀ p,q• d(p,q) = 0 akko p = q
2 Simetrija: d(p,q) = d(q,p) ∀ p,q
3 Nejednakost trougla:d(p, r) ≤ d(p,q) + d(q, r) ∀ p,q, r
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.6
Ultrametrika
Ako je funkcija rastojanja d metrika i akovaži
d(p, r) ≤ max{d(p,q),d(q, r)} ∀ p,q, r
tada je funkcija d ultrametrika
Primeri mear• koje jesu metrika/ultrametrika?• koje nisu metrika/ultrametrika?
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.7
Mere slicnosti za kvantitativne podatke
Rastojanje izmedju dve tacke u n dimenzionomprostoru X = (x1, x2, ..., xn) i Y = (y1, y2, ..., yn)
• Hamingovo rastojanje
Hamming(X ,Y ) =n∑
i=1
qi gde je qi =
{1, ako xi 6= yi
0, inace
• Najcešce korišcena mera je rastojanjeMinkovskog ili Lp mera
Dist(X ,Y ) =
(n∑
i=1
| xi − yi |p)1/p
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.8
Rastojanje Minkovskog
Specijalni slucajevi• p = 1 - Gradski blok (taksi, Menhetn, ...)
• p = 2 - Euklidsko rastojanje
• p →∞ supremum rastojanje (Lmax ,L∞ norma)= max1≤i≤n|xi − yi |
• Ne mešati n (broj dimenzija podatka) i p(velicinu parametra)
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.9
Rastojanje Minkovskog - nedostaci
Nije pogodno za primenu• kod retkih višedimenzionih podatka sa
nepoznatom raspodelom, šumovima,...
• ako postoje lokalno irelevantni atributi(primer: analiza krvi za pacijente odrazlicitih bolesti) zbog šuma koji sekumulira pri izracunavanju
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.10
Mahalanobisovo rastojanje
Maha(X ,Y ) =
√(X − Y )Σ−1(X − Y )T
gde je Σ−1 inverzna matrica matricekovarijansi podataka
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.11
Uticaj raspodele na rastojanje
Medjusobno rastojanje tacakaA(−6.8,−2.9) i B(6.8,3.1)
Euklidsko rastojanje tacaka je 14.7, aMahalanobisovo 6
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.12
Mahalanobisovo rastojanje
Korisno je kada važi• atributi su u korelaciji• atributi imaju razlicite opsege vrednosti
(razlicite varijanse)• raspodela podataka je približno
normalna (Gausova)
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.13
Mere slicnosti za kategoricke podatke
Slicnost dva podatka X = (x1, x2, ..., xn) iY = (y1, y2, ..., yn) sa kategorickimatributima se može definisati preko slicnostinjihovih pojedinacnih atributa
Sim(X ,Y ) =n∑
i=1
S(xi , yi)
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.14
Mere slicnosti za kategoricke podatke
• Najjednostavniji slucaj:
S(xi , yi) =
{1 ako xi = yi
0 inace
• Ne uzima se u obzir relativnafrekvencija atributa
• Koristi se agregiranje statistickihosobina
• Manje frekventne uparene vrednostiimaju vecu težinu
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.15
Slicnost atributa
Neka je pk (x) kolicnik broja slogova u kojima k -tiatribut uzima vrednost x
Mere koje ukljucuju frekvenciju su• Inverzna ucestalost pojavljivanja
S(xi , yi) =
{1/pk (xi)
2, ako xi = yi
0, inace
• ’Pojavljivanje je dobro’. Veca slicnost je kada jevrednost manje ucestala
S(xi , yi) =
{1− pk (xi)
2, ako xi = yi
0, inace
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.16
Inverzna frekvencija dokumenata
• Slicnost dva dokumenta se bolje ocenjuje akose koriste reci koje su zajednicke
• Za normalizaciju se koristi funkcija brojadokumenata ni u kome se javlja rec i uukupnom broju dokumenata n:
idi = log(n/ni)
• Za smanjenje mogucnosti da cesta pojavaneke reci utice na slicnost mogu da se koristefunkcije
f (xi) = sqrt(xi)
f (xi) = log(xi)
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.17
Inverzna frekvencija dokumenata
• normalizovana frekvencija za i-tu rec može dase definiše kao
h(xi) = f (xi) · idi
• Kosinusno i prošireno Žakardovo rastojanje sanormalizovanom frekvencijom reci su
cos(X ,Y ) =
d∑i=1
h(xi)× h(yi)√d∑
i=1h(xi)2 ×
√d∑
i=1h(yi)2
J(X ,Y ) =
d∑i=1
h(xi)× h(yi)
d∑i=1
h(xi)2 +d∑
i=1h(yi)2 −
d∑i=1
h(xi)× h(yi)
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.18
Rastojanje Minkovskog sa težinama
U slucaju da je potrebno dodeliti težinskefaktore ai atributima i
Dist(X ,Y ) =
(d∑
i=1
ai× | xi − yi |p)1/p
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.19
Podaci sa kvantitativnim i kategorickimatributima
Slicnost dva sloga X = (X n,X c) i Y = (Y n,Y c)
Sim(X ,Y ) = λ× NumSim(X n,Y n))+
(1− λ)× CatSim(X c,Y c))
gde λ odredjuje relativnu važnostkategorickih i numerickih atributa
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.20
Mere slicnosti podataka sa tekstualnim ibinarnim atributima
Slicnost dva sloga X = (x1, x2, ..., xd) iY = (y1, y2, ..., yd) sa binarnim atributima semože definisati preko sledecih vrednosti
• M01=broj atributa koji su jednaki 0 u X i 1 u Y
• M10=broj atributa koji su jednaki 1 u X i 0 u Y
• M00=broj atributa koji su jednaki 0 u X i 0 u Y
• M11=broj atributa koji su jednaki 1 u X i 1 u Y
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.21
SMC i Žakardovi koeficijenti
• Jednostavno uparivanje koeficijenata (SMC)SMC=broj uparenih/broj atributa =(M11 + M00)/(M01 + M10 + M11 + M00)
• Žakardovi koeficijenti. Koriste se u slucajuasimetricnih atributa (samo prisustvo ne-nulase smatra važnim)J=broj parova 11/broj atributa gde nisu obevrednosti 0 = M11/(M01 + M10 + M11)
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.22
Prošireni Žakardovi koeficijenti(koeficijenti Tanimoto-a)
• Varijanta Žakardovih koeficijenata primenljivana atribute sa neprekidnim i prebrojivimvrednostima
• U slucaju atributa sa binarnim vrednostimaredukuje se na Žakardove koeficijente
T (X ,Y ) =X • Y
||X ||2 + ||Y ||2 − X • Y
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.23
Kosinusna slicnost
Ako su X = (x1, x2, ..., xn) i Y = (y1, y2, ..., yn) dvavektora dokumenata tada se njihova slicnost možeodrediti pomocu kosinusne slicnosti
cos(X ,Y ) =X • Y
||X || × ||Y ||odnosno
cos(X ,Y ) =
d∑i=1
xi × yi√(
d∑i=1
x2i )×
√(
d∑i=1
y2i )
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.24
Kosinusna slicnost
Koristi se kod velikog broja parova tipa ’00’ pri cemumože da bude primenjena i na ne-binarne vektore(npr. poredenje slicnosti dva dokumenta po recimakoje se javljaju u njima)
Primer:d1 = 3 2 0 5 0 0 0 2 0 0d2 = 1 0 0 0 0 0 0 1 0 2d1 · d2 = 3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42)0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)0.5 = (6)0.5 = 2.245
cos(d1,d2) = 0.3150
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.25
Korelacija
Korelacija dva objekta koji imaju binarne ilineprekidne atribute je mera linearnog odnosaizmedu njihovih atributa
ρxy = covxy/(σx ∗ σy )
kovarijansa(x , y) = covxy =1
n − 1
n∑k=1
(xk − x)(yk − y)
standardna devijacija(x) = σx =
√√√√ 1n − 1
n∑k=1
(xk − x)
srednja vrednost(x) = x =1n
n∑k=1
xk
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.26
Mere na osnovu gustina
Ako je korelacija =1 (-1)→ perfektni pozitivan(negativan) linearni odnos xk = ayk + b
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.27
Slicnost diskretnih podataka
Edit rastojanje, rastojanje za transformacijeX = (x1, x2, ..., xm) i Y = (y1, y2, ..., yn). Zaprvih i simbola iz X i prvih j simbola iz Y
Edit(i , j) = min
Edit(i − 1, j) + cena brisanjaEdit(i , j − 1) + cena umetanjaEdit(i − 1, j − 1) + Iij × cena zamene
gde je Iij indikator da li su jednaki i-tisimbol X i j-ti simbol Y
Primer: ababababab i bababababa
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.28
Slicnost diskretnih podataka
Odredjivanje najduže zajednicke podniske zaX = (x1, x2, ..., xm) i Y = (y1, y2, ..., yn). Za prvih isimbola iz X i prvih j simbola iz Y , u oznaci X i i Y i
LCSS(i , j) = max
LCSS(i − 1, j − 1) + 1 ako xi = yi
Edit(i − 1, j) xi nije uparenoEdit(i , j − 1) yj nije upareno
Primer: agbfcgdhei i afbgchdiei
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.29
Mere na osnovu informacija
• Neke mere slicnosti su zasnovane nateoriji informacija
• Entropija• X - dogadaj sa n mogucih ishoda x1, ..., xn• verovatnoca ishoda je p1, ...,pn• Entropija dogadaja X je
H(X ) = −n∑
i=1
pi log2pi
• H(X ) ∈ [0, log2n] i predstavlja meru kolikobitova je potrebno u proseku zapredstavljanje dogadaja X
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.30
Mere na osnovu gustina
• Meri se stepen bliskosti objekata unekom oblasti
• Koncept gustine se koristi uklasterovanju i otkrivanju anomalija
• Najcešce se koriste• Euklidska gustina - broj tacaka po jedinici
površine/zapremine• Gustina verovatnoca - procena
distribucije podataka na osnovu izgleda• Graf zasnovane gustine - na osnovu
povezanosti
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.31
Mere na osnovu gustina
Primer: Euklidska gustina zasnovana na celijama -podela regiona na neki broj celija i definisanjegustine preko broja tacaka u celijama
Mere slicnostiUvod
Mera i metrika
Mere -multidimenzionipodaciMere slicnosti zakvantitativne podatke
Mere slicnosti zakategoricke podatke
Podaci sa kvantitativnim ikategorickim atributima
Mere - tekstualni ibinarni podaciMere slicnosti podataka satekstualnim i binarnimatributima
SMC i Žakardovi koeficijenti
Prošireni Žakardovikoeficijenti
Kosinusna slicnost
Mere korelacije izmeduobjekata
Mere - diskretnipodaciSlicnost diskretnih podataka
Mere na osnovuinformacija
Mere na osnovugustina
1.32
Mere na osnovu gustina
Primer: Euklidska gustina zasnovana na centru -broj celija na odredenoj udaljenosti od centralnetacke
Recommended