21
Analiza tokova dokumenata u kompleksnim mrežama Diplomski rad Radić Milorad 3557 Mentor: prof. Dr Milorad K. Banjanin Univerzitet u Novom Sadu Fakultet Tehničkih Nauka Saobraćajni odsek Poštanski saobraćaj i telekomunikacije

Analiza tokova dokumenata u kompleksnim mrežama

Embed Size (px)

DESCRIPTION

Univerzitet u Novom Sadu Fakultet Tehničkih Nauka Saobraćajni odsek Poštanski saobraćaj i telekomunikacije. Analiza tokova dokumenata u kompleksnim mrežama. Diplomski rad. Radić Milorad 3557. Mentor: prof. Dr Milorad K. Banjanin. TEKST ZADATKA. - PowerPoint PPT Presentation

Citation preview

Page 1: Analiza tokova dokumenata u kompleksnim mrežama

Analiza tokova dokumenata u kompleksnim mrežama

Diplomski rad

Radić Milorad

3557

Mentor: prof. Dr Milorad K. Banjanin

Univerzitet u Novom SaduFakultet Tehničkih NaukaSaobraćajni odsekPoštanski saobraćaj i telekomunikacije

Page 2: Analiza tokova dokumenata u kompleksnim mrežama

Mreža je sistem čvorova i linkova koji ih povezuju, pri čemu broj linkova vezanih za jedan čvor definiše stepen čvora

Mreža je sistem čvorova i linkova koji ih povezuju, pri čemu broj linkova vezanih za jedan čvor definiše stepen čvoraKod kompleksnih mreža te međupovezanosti nisu slučajne već su opisane zakonima, tako da kompleksna mreža ili graf ima specifične topološke karakteristike.

Kod kompleksnih mreža te međupovezanosti nisu slučajne već su opisane zakonima, tako da kompleksna mreža ili graf ima specifične topološke karakteristike.

Osnovna svrha mreže je prenošenje informacija najčešće organizovanih u dokumentima- osnovnim informacionim jedinicama koje se prenose kroz mrežu.

Osnovna svrha mreže je prenošenje informacija najčešće organizovanih u dokumentima- osnovnim informacionim jedinicama koje se prenose kroz mrežu.

Mreže se predstavljaju u procesu vizuelizacije informacija, koji se sastoji od strukturnog modelovanja i grafičkog predstavljanja.

Mreže se predstavljaju u procesu vizuelizacije informacija, koji se sastoji od strukturnog modelovanja i grafičkog predstavljanja.

TEKST ZADATKA

Page 3: Analiza tokova dokumenata u kompleksnim mrežama

PRIMENITI metodološku proceduru, tehničke, tehnološke, opšte lingvističke i jezičke standarde i kriterijume u izradi rada kao i TQM standarde FTN-a.

PRIMENITI metodološku proceduru, tehničke, tehnološke, opšte lingvističke i jezičke standarde i kriterijume u izradi rada kao i TQM standarde FTN-a.

U istraživačko-analitičkoj obradi tematskog zadatka ovog rada potrebno je :

OPSERVIRATI integrisane rezultate prethodnih istraživanja sa analizom modela sličnosti među dokumentima i otkrivanjem orijentira u web lokalitetu.

OPSERVIRATI integrisane rezultate prethodnih istraživanja sa analizom modela sličnosti među dokumentima i otkrivanjem orijentira u web lokalitetu.

ANALIZIRATI i KOMPARIRATI osobine i primere algoritama za vizuelizacije struktura i velikih mreža i ulogu virtuelnih struktura u povezivanju dokumenata u mrežnim tokovima.

ANALIZIRATI i KOMPARIRATI osobine i primere algoritama za vizuelizacije struktura i velikih mreža i ulogu virtuelnih struktura u povezivanju dokumenata u mrežnim tokovima.

ISTRAŽITI i OBRAZLOŽITI identifikovane koncepte koji figurišu u naslovu i tekstu zadatka sa posebnim osvrtom na algoritamsku vizuelizaciju velikih mreža i različitih dinamičkih procesa u kompleksnim mrežama.

ISTRAŽITI i OBRAZLOŽITI identifikovane koncepte koji figurišu u naslovu i tekstu zadatka sa posebnim osvrtom na algoritamsku vizuelizaciju velikih mreža i različitih dinamičkih procesa u kompleksnim mrežama.

Page 4: Analiza tokova dokumenata u kompleksnim mrežama

METODOLOŠKE OSNOVE RADA

Probl

em

istr

aživan

j

a

Preopterećenje mreža dokumentima

Kako predstaviti i analizirati kompleksne mreže? Predm

et

istraživanja

Modeli kompleksnih mrežaDokumenti u mrežnim tokovima

Eficijentno vizuelizovanje mrežaOptimizacija tokova dokumenata

Aktuelnost i primenljivost analize kompleksnih mrežaPovezanost čvorova linkovima u kompleksnim mrežama nije slučajna

Cilj

istr

aživ

anj

aHipoteze u

istraživanja

Nač

in

istr

aživ

anj

a

Desk metode

Timske interakcije

Opravdanost

istraživanja

Primenljivost na mreže realnog svetaPrimenom se ubrazavaju mnogi procesi

Page 5: Analiza tokova dokumenata u kompleksnim mrežama

Sistem ili grupa međusobno povezanih elemenata. Sistem ili grupa međusobno povezanih elemenata.

U mrežama se pojavljuje sve veći broj dokumenata, pa one nužno postaju nužno sve kompleksnije i komplikovanije.

Dokument je osnovna jedinica informacija

koja se prenosi kroz mrežu

tekstzvuk

grafika

hiperlink

multimedijalni sadržaj

Dokument je fajl kreiran korišćenjem

neke aplikacije

Page 6: Analiza tokova dokumenata u kompleksnim mrežama

Slučajna raspodela čvorova?

1

ii

jk

kk

eCi

1

ii

jk

kk

eCi

Hijerarhijska strukturaHijerarhijska struktura

Klasifikacija čvorovaKlasifikacija čvorova

Visok koeficijent grupisanjaVisok koeficijent grupisanja

Specifična raspodela stepena čvoraSpecifična raspodela stepena čvora

Veza j-k

Stepen čvora i

ik

j

Broj linkova koji su povezani na čvor iBroj linkova koji su povezani na čvor i

kkP )(npr.

Struktura zajednice na više nivoaStruktura zajednice na više nivoa

Kompleksnost mreže predstavlja broj čvorova i alternativnih staza koje postoje u okviru mreže, kao i raznovrsnost prenosnih medija, opreme, protokola, te hardverske i softverske opreme koja se koristi u mreži.

Kompleksnost mreže predstavlja broj čvorova i alternativnih staza koje postoje u okviru mreže, kao i raznovrsnost prenosnih medija, opreme, protokola, te hardverske i softverske opreme koja se koristi u mreži.

Page 7: Analiza tokova dokumenata u kompleksnim mrežama

(scale-free networks)

Naučne kolaborativne mreže

Web

karakterišu se kosom raspodelom koja se matematički može opisati

zakonom snage (power law)

karakterišu se kosom raspodelom koja se matematički može opisati

zakonom snage (power law)

Verovatnoća pronalaženja čvora sak linkova prema drugim čvorovima je k-y

Verovatnoća pronalaženja čvora sak linkova prema drugim čvorovima je k-y

stepen čvora

eksponent y se dobija empirijski (1.5 za mreže reči, 2.5 za kolaborativne mreže...)

5 hub-ova povezano sa 60% čvorova

jji

ikkgs

),(

)(max

)()(s

gsgS

ε skup svih linkova, a i i j čvorovi

Neskalirani parametar

S(g) → 1 neskalirani

graf

Page 8: Analiza tokova dokumenata u kompleksnim mrežama

(small-world networks)

Klasa grafova u kojoj većina čvorova nisu u susedstvu, ali se iz svakog od njih do nekog drugog može doći malim brojem koraka

Klasa grafova u kojoj većina čvorova nisu u susedstvu, ali se iz svakog od njih do nekog drugog može doći malim brojem koraka

Mala prosečna staza između dva čvoraMala prosečna staza između dva čvoraVisok koeficijent grupisanjaVisok koeficijent grupisanja

Page 9: Analiza tokova dokumenata u kompleksnim mrežama

Geometrijski graf sa radijusom r je graf sa skupom čvorova V i skupom linkova )||0(),(|},{{ rvuiVvuvuE

Kompletan graf – direktna veza između svih tačaka

Cilj – proređena mreža male dilatacije

Cilj – proređena mreža male dilatacije

(geometric networks)

Page 10: Analiza tokova dokumenata u kompleksnim mrežama

Dizajniranje mreže

dodavanje jednog novog čvora u jednom trenutku i njegovo povezivanje sa slučajno izabranim čvorom iz postojeće mreže

bez prioritetaRezultujuće mreže teže da imaju eksponencijalnu

raspodelu, pa se nazivaju se eksponencijalno rastuće mreže!

rich-get-richer efekat (obogaćivanje bogatog ; Matthew-ov efekat ili kumulativna prednost)

novi link se ne dodaje proizvoljnom čvoru već čvoru koji već ima najviše linkova Koristi se za neskalirane mreže – eksponent y=3 (k-

y)good-get-richer efekat (obogaćivanje dobrog)

Oslanja se na pogodnost čvora da primi novi čvor, a ne na popularnost čvorova

Page 11: Analiza tokova dokumenata u kompleksnim mrežama

Dizajniranje mreže u formi razgranatih stabala!

Ukupna dužina svih linkova u mreži

Najveća udaljenost između dva čvora u mreži

Najveći odnos mrežne i Euklidove udaljenosti

Minimum spanning tree (MST) Minimalno razgranato stablo

Stablo sa minimalnom

težinom

Prvo se pronalaži Planarno MST (u ravni), a zatim se generalizuje kao Višedimenzionalno MST

Za dati graf, razgranato stablo je podgraf, koji predstavlja stablo koje povezuje sve čvorove zajedno.Za dati graf, razgranato stablo je podgraf, koji predstavlja stablo koje povezuje sve čvorove zajedno.

Isti graf može imati mnogo različitih razgranatih stabala.

9

9

47 9 3

6

9

98

9

3

8

18

10

41

54

2

Page 12: Analiza tokova dokumenata u kompleksnim mrežama

Skalabilnost je sposobnost za očuvanje originalnog integriteta, konzistentnosti i semantičke povezanosti sa mrežnom predstavom implicitne strukture.

Skalabilnost je sposobnost za očuvanje originalnog integriteta, konzistentnosti i semantičke povezanosti sa mrežnom predstavom implicitne strukture.

Skalabilnost mrežeDva

aspekta skalabilnost

i mreže

velika mreža se može podeliti na veći broj manjih

mreža algoritmima dinamičkog grupisanja

velika mreža se može podeliti na veći broj manjih

mreža algoritmima dinamičkog grupisanja

Mnogo zahtevnijaMnogo zahtevnija

N čvorova

N2 linkova

Mreže sa velikom gustinom je jako teško vizuelizovati i

analizirati.

postavljanje praga težine linka i zadržavanje samo linkova sa većom težinom od praga

Najpopularniji načini za redukciju broja linkova su:

jednostavan

laka implementacija

ne obuhvata unutrašnju strukturu mreže

suština originalne mreže neće biti očuvana

Ekstrakcija minimalnog razgranatog stabla (MST – Minimum Spanning Tree) iz mreže sa N čvorova

zadržavamo N-1 linkovaSkaliranje Pathfinder mreže (PFNET)

Page 13: Analiza tokova dokumenata u kompleksnim mrežama

Pathfinder smanjuje broj linkova originalne mreže, a pri tome svi čvorovi ostaju netaknuti

Cilj primene Pathfinder algoritma je da skrati gustu mrežu na njenu osnovnu strukturu.

PFNET (Pathfinder mreža)

To je mehanizam redukcije linkova koji čuva najvažnije semantičke relacije. Ključna pretpostavka je uslov nejednakosti trougla.

To je mehanizam redukcije linkova koji čuva najvažnije semantičke relacije. Ključna pretpostavka je uslov nejednakosti trougla.

Nejednakost trougla se matematički definiše:

qjwwrj

ik

rkkij

,...,3,2

11

1,

qjww

rj

ik

rkkij

,...,3,2

11

1,

wij težina direktne staze između i i j wk,k+1 je težina staze između k i k+1 .

A C

B

Topologija PFNET-a je određena sa dva

parametra q i r i odgovarajuća mreža je označena kao PFNET (r,q).

Topologija PFNET-a je određena sa dva

parametra q i r i odgovarajuća mreža je označena kao PFNET (r,q).

Parametar q specificira maksimalnu dužinu staze

koja učestvuje u testu nejednakosti trougla.

Parametar r je Minkovski metrički parametar za

izračunavanje dužine staze

Vrednost q može biti bilo

koji ceo broj između 2 i N-1, gde je N broj čvorova u mreži

Vrednost q može biti bilo

koji ceo broj između 2 i N-1, gde je N broj čvorova u mreži

Page 14: Analiza tokova dokumenata u kompleksnim mrežama

Transformiše inicijalnu predstavu

strukture u grafičku.

Transformiše inicijalnu predstavu

strukture u grafičku.

detektujedetektuje

izvlačiizvlači

pojednostavljujepojednostavljuje

Rešenje:

Šta čini osnovnu strukturu kompleksne mreže i kolekcije dokumenata?Algoritmi za crtanje grafova

Page 15: Analiza tokova dokumenata u kompleksnim mrežama

OSNOVNI KONCEPTI:

Semantičko rastojanje

Sličnost

Zahtev za pretragom

Odgovor na

pretragu

Relevantnost ispitujemo Modelom semantičkog

rastojanja

Semantičko rastojanje između dva entiteta (u konkretnom slučaju – dokumenta) definisano je kao broj koraka od jednog do drugog duž postojećih linkova(veza) u strukturi.

Semantičko rastojanje između dva entiteta (u konkretnom slučaju – dokumenta) definisano je kao broj koraka od jednog do drugog duž postojećih linkova(veza) u strukturi.

Page 16: Analiza tokova dokumenata u kompleksnim mrežama

Neophodno odrediti rastojanje između dve tačke podataka.

Prema nekim merilima sličnosti dokumenti su grupisani.

Grafo-teoretski algoritmiGrafo-teoretski algoritmi

Jednosmerni algoritmiJednosmerni algoritmi

Iterativni algoritmiIterativni algoritmi

Algoritam inkrementalnog

grupisanja kontinualno ažurira postojeće grupe.

Algoritam inkrementalnog

grupisanja kontinualno ažurira postojeće grupe.

Koncept pokrivenog koeficijenta (CC) omogućava merenje sličnosti između dokumenata. Koncept pokrivenog koeficijenta (CC) omogućava merenje sličnosti između dokumenata.

m

n

D

m

m

C

Svako cij (i<j, j<m) u matrici C označava verovatnoću selekcije bilo kog pojma koji se pojavljuje u dokumentu di iz dokumenta dj. Verovatnoća je definisana sledećom relacijom:

n

kjkkikiij ddxC

1

sličnostsličnost

αi i βk su recipročne vrednosti sume i-te vrste i sume k-te kolone, respektivno. Rastavljajući koeficijent predstavlja meru koliko je

dokument di različit od svih drugih dokumenata Rastavljajući koeficijent predstavlja meru koliko je dokument di različit od svih drugih dokumenata

Page 17: Analiza tokova dokumenata u kompleksnim mrežama

Virtuelna struktura ima za cilj da vizuelizaciju informacija predstavi korisnicima u grafičkoj i vizuelno razumljivoj formi.

Termin „virtuelna“naglašava da struktura ne postoji u originalnom podatku u lako dostupnoj formi.Automatski

hipertekst linkovi

Dva dokumenta su povezana...

Dva dokumenta su povezana...

VIRTUELNE STRUKTURE

Vektorski prostor

Dokumenti su predstavljeni kao vektori.

gde je N broj dokumenata u kolekciji, tfik je broj pojavljanja termina Tk u dokumentu Di, a nk je broj dokumenata u kojima se termin pojavljuje.

kikik n

Ntfv log

Moguće je izračunati relevantnost dokument-dokument, korišćenjem termina koji se u njima pojavljuju. Težina termina Tk u dokumentu Di je definisana kao wik sledećim relacijama:

t

j ij

ikik

v

vw

1

2

Semantički prostor je zasnovan na velikoj matrici termin × dokument.

Svaki element matrice je broj pojavljivanja

termina u dokumentu.

Leksički lanac je niz semantički povezanih reči koje se pojavljuju u dokumentu

Blizina dokumenta je definisana na osnovu sličnosti između dokumenata. Sličnost dokumenata povezivanjem hiperlinkovima je definisana sledećom relacijom:

Blizina dokumenta je definisana na osnovu sličnosti između dokumenata. Sličnost dokumenata povezivanjem hiperlinkovima je definisana sledećom relacijom:

N

kik

ijlinkij

link

linksim

1

N

kik

ijlinkij

link

linksim

1

broj hiperlinkova od dokumenta Di do Dj u kolekciji od N dokumenata

Page 18: Analiza tokova dokumenata u kompleksnim mrežama

Čvorovi koji su važni za lokalitet nazivaju se ORIJENTIRI u Web lokalitetu.

dubina u hijerarhijidubina u hijerarhiji

Čvor sa visokim stepenom povezivosti treba da bude označen kao orijentir.

Frekventniji čvorovi su posećeni, i verovatnije je da takav čvor treba da bude orijentir.

kolekcija Web dokumenata

Dokumenti na određenom HTTP serveru, rezultati pretrage nekog Web pretraživača...

Dokumenti na određenom HTTP serveru, rezultati pretrage nekog Web pretraživača...

povezivostpovezivost

frekvencija pristupafrekvencija pristupa

Definisana brojem čvorova koji se mogu dostići iz određenog čvora sa ne više od dva linka.

drugostepena povezivostdrugostepena povezivost

http://en.wikipedia.org/wiki/Complex_network

1 2 3

dubineipovezivost dubinapristup

pristup

povezivost

povezivostčvor

pristupa

1

maxmax dubineipovezivost dubinapristup

pristup

povezivost

povezivostčvor

pristupa

1

maxmax

Page 19: Analiza tokova dokumenata u kompleksnim mrežama

OSNOVNI KONCEPTI:

Prostorni raspored (layout)

Algoritmi za crtanje grafova

Najtradicionalniji način za predstavljanja mreže je korišćenje čvor-i-link grafičkih predstava.

Najtradicionalniji način za predstavljanja mreže je korišćenje čvor-i-link grafičkih predstava.

Algoritamsko crtanje mreža uz pridržavanje estetskih kriterijuma. Velika pažnja se poklanja eficijentnosti algoritama i jasnoći krajnjih rezultata.

Algoritamsko crtanje mreža uz pridržavanje estetskih kriterijuma. Velika pažnja se poklanja eficijentnosti algoritama i jasnoći krajnjih rezultata. Problemi pri predstavljanju mreža:skriveni čvorovi i linkoviskriveni čvorovi i linkovi

nejasne granice između mreže i njene okolinenejasne granice između mreže i njene okolinestrukturne izmene i izmene u čvorovima i

linkovimastrukturne izmene i izmene u čvorovima i linkovimaznačaj slabih vezaznačaj slabih veza

strukturne rupe u mrežistrukturne rupe u mreži

Estetski kriterijumi koje treba uvažiti pri grafičkom predstavljanju:

SimetričnostSimetričnostRavnomerna distribucija čvorovaRavnomerna distribucija čvorova

Uniformna dužina linkovaUniformna dužina linkova

Minimizacija preklapanja linkovaMinimizacija preklapanja linkova

Page 20: Analiza tokova dokumenata u kompleksnim mrežama

Najpoznatije tehnike za crtanje grafova su:

algoritmi za crtanje usmerenih grafovaalgoritmi za crtanje usmerenih grafova

algoritmi sa ugrađenom oprugomalgoritmi sa ugrađenom oprugom

Primarni cilj ovog tipa tehnika je da algoritamski optimizuje uređenje čvorova mreže, tako da u konačnom geometrijskom modelu snažno povezani čvorovi budu bliži jedni drugima, a slabije povezani čvorovi udaljeni.

Snaga veze između dva čvora obično se meri konceptualnom sličnošću, računskom povezanošću ili uslovnim verovatnoćama.

Layo

ut

proc

es

Dobar estetski izgled layouta

dobro slaganje vizuelizovanog modela i podataka osnovne

mrežeNedovoljno skalabilni

Brži

Skalabilniji

Za neusmerene grafove

Čvorovi kao čelični prstenovi Linkovi -

opruge

Prema udaljenosti i osobinama povezujućeg prostora.

Sile

odbijanja

Sile privlačenjaSa smanjenjem energije sistema opruga, graf se približava

optimumu Sa smanjenjem energije sistema opruga, graf se približava optimumu

2/)(

)log()(

dkdf

dkdf

rr

aa

2/)(

)log()(

dkdf

dkdf

rr

aa

Kamada-Kawai algoritam Minimizuje broj preklapanja među linkovimaČvorovi i linkovi uniformno distribuirani

Fruchterman i Reingold

Uniformna dužina linkova

k

ddf a

2

)(

d

kdf r

2

)(

Page 21: Analiza tokova dokumenata u kompleksnim mrežama