Upload
finn-mack
View
75
Download
2
Embed Size (px)
DESCRIPTION
Univerzitet u Novom Sadu Fakultet Tehničkih Nauka Saobraćajni odsek Poštanski saobraćaj i telekomunikacije. Analiza tokova dokumenata u kompleksnim mrežama. Diplomski rad. Radić Milorad 3557. Mentor: prof. Dr Milorad K. Banjanin. TEKST ZADATKA. - PowerPoint PPT Presentation
Citation preview
Analiza tokova dokumenata u kompleksnim mrežama
Diplomski rad
Radić Milorad
3557
Mentor: prof. Dr Milorad K. Banjanin
Univerzitet u Novom SaduFakultet Tehničkih NaukaSaobraćajni odsekPoštanski saobraćaj i telekomunikacije
Mreža je sistem čvorova i linkova koji ih povezuju, pri čemu broj linkova vezanih za jedan čvor definiše stepen čvora
Mreža je sistem čvorova i linkova koji ih povezuju, pri čemu broj linkova vezanih za jedan čvor definiše stepen čvoraKod kompleksnih mreža te međupovezanosti nisu slučajne već su opisane zakonima, tako da kompleksna mreža ili graf ima specifične topološke karakteristike.
Kod kompleksnih mreža te međupovezanosti nisu slučajne već su opisane zakonima, tako da kompleksna mreža ili graf ima specifične topološke karakteristike.
Osnovna svrha mreže je prenošenje informacija najčešće organizovanih u dokumentima- osnovnim informacionim jedinicama koje se prenose kroz mrežu.
Osnovna svrha mreže je prenošenje informacija najčešće organizovanih u dokumentima- osnovnim informacionim jedinicama koje se prenose kroz mrežu.
Mreže se predstavljaju u procesu vizuelizacije informacija, koji se sastoji od strukturnog modelovanja i grafičkog predstavljanja.
Mreže se predstavljaju u procesu vizuelizacije informacija, koji se sastoji od strukturnog modelovanja i grafičkog predstavljanja.
TEKST ZADATKA
PRIMENITI metodološku proceduru, tehničke, tehnološke, opšte lingvističke i jezičke standarde i kriterijume u izradi rada kao i TQM standarde FTN-a.
PRIMENITI metodološku proceduru, tehničke, tehnološke, opšte lingvističke i jezičke standarde i kriterijume u izradi rada kao i TQM standarde FTN-a.
U istraživačko-analitičkoj obradi tematskog zadatka ovog rada potrebno je :
OPSERVIRATI integrisane rezultate prethodnih istraživanja sa analizom modela sličnosti među dokumentima i otkrivanjem orijentira u web lokalitetu.
OPSERVIRATI integrisane rezultate prethodnih istraživanja sa analizom modela sličnosti među dokumentima i otkrivanjem orijentira u web lokalitetu.
ANALIZIRATI i KOMPARIRATI osobine i primere algoritama za vizuelizacije struktura i velikih mreža i ulogu virtuelnih struktura u povezivanju dokumenata u mrežnim tokovima.
ANALIZIRATI i KOMPARIRATI osobine i primere algoritama za vizuelizacije struktura i velikih mreža i ulogu virtuelnih struktura u povezivanju dokumenata u mrežnim tokovima.
ISTRAŽITI i OBRAZLOŽITI identifikovane koncepte koji figurišu u naslovu i tekstu zadatka sa posebnim osvrtom na algoritamsku vizuelizaciju velikih mreža i različitih dinamičkih procesa u kompleksnim mrežama.
ISTRAŽITI i OBRAZLOŽITI identifikovane koncepte koji figurišu u naslovu i tekstu zadatka sa posebnim osvrtom na algoritamsku vizuelizaciju velikih mreža i različitih dinamičkih procesa u kompleksnim mrežama.
METODOLOŠKE OSNOVE RADA
Probl
em
istr
aživan
j
a
Preopterećenje mreža dokumentima
Kako predstaviti i analizirati kompleksne mreže? Predm
et
istraživanja
Modeli kompleksnih mrežaDokumenti u mrežnim tokovima
Eficijentno vizuelizovanje mrežaOptimizacija tokova dokumenata
Aktuelnost i primenljivost analize kompleksnih mrežaPovezanost čvorova linkovima u kompleksnim mrežama nije slučajna
Cilj
istr
aživ
anj
aHipoteze u
istraživanja
Nač
in
istr
aživ
anj
a
Desk metode
Timske interakcije
Opravdanost
istraživanja
Primenljivost na mreže realnog svetaPrimenom se ubrazavaju mnogi procesi
Sistem ili grupa međusobno povezanih elemenata. Sistem ili grupa međusobno povezanih elemenata.
U mrežama se pojavljuje sve veći broj dokumenata, pa one nužno postaju nužno sve kompleksnije i komplikovanije.
Dokument je osnovna jedinica informacija
koja se prenosi kroz mrežu
tekstzvuk
grafika
hiperlink
multimedijalni sadržaj
Dokument je fajl kreiran korišćenjem
neke aplikacije
Slučajna raspodela čvorova?
1
ii
jk
kk
eCi
1
ii
jk
kk
eCi
Hijerarhijska strukturaHijerarhijska struktura
Klasifikacija čvorovaKlasifikacija čvorova
Visok koeficijent grupisanjaVisok koeficijent grupisanja
Specifična raspodela stepena čvoraSpecifična raspodela stepena čvora
Veza j-k
Stepen čvora i
ik
j
Broj linkova koji su povezani na čvor iBroj linkova koji su povezani na čvor i
kkP )(npr.
Struktura zajednice na više nivoaStruktura zajednice na više nivoa
Kompleksnost mreže predstavlja broj čvorova i alternativnih staza koje postoje u okviru mreže, kao i raznovrsnost prenosnih medija, opreme, protokola, te hardverske i softverske opreme koja se koristi u mreži.
Kompleksnost mreže predstavlja broj čvorova i alternativnih staza koje postoje u okviru mreže, kao i raznovrsnost prenosnih medija, opreme, protokola, te hardverske i softverske opreme koja se koristi u mreži.
(scale-free networks)
Naučne kolaborativne mreže
Web
karakterišu se kosom raspodelom koja se matematički može opisati
zakonom snage (power law)
karakterišu se kosom raspodelom koja se matematički može opisati
zakonom snage (power law)
Verovatnoća pronalaženja čvora sak linkova prema drugim čvorovima je k-y
Verovatnoća pronalaženja čvora sak linkova prema drugim čvorovima je k-y
stepen čvora
eksponent y se dobija empirijski (1.5 za mreže reči, 2.5 za kolaborativne mreže...)
5 hub-ova povezano sa 60% čvorova
jji
ikkgs
),(
)(max
)()(s
gsgS
ε skup svih linkova, a i i j čvorovi
Neskalirani parametar
S(g) → 1 neskalirani
graf
(small-world networks)
Klasa grafova u kojoj većina čvorova nisu u susedstvu, ali se iz svakog od njih do nekog drugog može doći malim brojem koraka
Klasa grafova u kojoj većina čvorova nisu u susedstvu, ali se iz svakog od njih do nekog drugog može doći malim brojem koraka
Mala prosečna staza između dva čvoraMala prosečna staza između dva čvoraVisok koeficijent grupisanjaVisok koeficijent grupisanja
Geometrijski graf sa radijusom r je graf sa skupom čvorova V i skupom linkova )||0(),(|},{{ rvuiVvuvuE
Kompletan graf – direktna veza između svih tačaka
Cilj – proređena mreža male dilatacije
Cilj – proređena mreža male dilatacije
(geometric networks)
Dizajniranje mreže
dodavanje jednog novog čvora u jednom trenutku i njegovo povezivanje sa slučajno izabranim čvorom iz postojeće mreže
bez prioritetaRezultujuće mreže teže da imaju eksponencijalnu
raspodelu, pa se nazivaju se eksponencijalno rastuće mreže!
rich-get-richer efekat (obogaćivanje bogatog ; Matthew-ov efekat ili kumulativna prednost)
novi link se ne dodaje proizvoljnom čvoru već čvoru koji već ima najviše linkova Koristi se za neskalirane mreže – eksponent y=3 (k-
y)good-get-richer efekat (obogaćivanje dobrog)
Oslanja se na pogodnost čvora da primi novi čvor, a ne na popularnost čvorova
Dizajniranje mreže u formi razgranatih stabala!
Ukupna dužina svih linkova u mreži
Najveća udaljenost između dva čvora u mreži
Najveći odnos mrežne i Euklidove udaljenosti
Minimum spanning tree (MST) Minimalno razgranato stablo
Stablo sa minimalnom
težinom
Prvo se pronalaži Planarno MST (u ravni), a zatim se generalizuje kao Višedimenzionalno MST
Za dati graf, razgranato stablo je podgraf, koji predstavlja stablo koje povezuje sve čvorove zajedno.Za dati graf, razgranato stablo je podgraf, koji predstavlja stablo koje povezuje sve čvorove zajedno.
Isti graf može imati mnogo različitih razgranatih stabala.
9
9
47 9 3
6
9
98
9
3
8
18
10
41
54
2
Skalabilnost je sposobnost za očuvanje originalnog integriteta, konzistentnosti i semantičke povezanosti sa mrežnom predstavom implicitne strukture.
Skalabilnost je sposobnost za očuvanje originalnog integriteta, konzistentnosti i semantičke povezanosti sa mrežnom predstavom implicitne strukture.
Skalabilnost mrežeDva
aspekta skalabilnost
i mreže
velika mreža se može podeliti na veći broj manjih
mreža algoritmima dinamičkog grupisanja
velika mreža se može podeliti na veći broj manjih
mreža algoritmima dinamičkog grupisanja
Mnogo zahtevnijaMnogo zahtevnija
N čvorova
N2 linkova
Mreže sa velikom gustinom je jako teško vizuelizovati i
analizirati.
postavljanje praga težine linka i zadržavanje samo linkova sa većom težinom od praga
Najpopularniji načini za redukciju broja linkova su:
jednostavan
laka implementacija
ne obuhvata unutrašnju strukturu mreže
suština originalne mreže neće biti očuvana
Ekstrakcija minimalnog razgranatog stabla (MST – Minimum Spanning Tree) iz mreže sa N čvorova
zadržavamo N-1 linkovaSkaliranje Pathfinder mreže (PFNET)
Pathfinder smanjuje broj linkova originalne mreže, a pri tome svi čvorovi ostaju netaknuti
Cilj primene Pathfinder algoritma je da skrati gustu mrežu na njenu osnovnu strukturu.
PFNET (Pathfinder mreža)
To je mehanizam redukcije linkova koji čuva najvažnije semantičke relacije. Ključna pretpostavka je uslov nejednakosti trougla.
To je mehanizam redukcije linkova koji čuva najvažnije semantičke relacije. Ključna pretpostavka je uslov nejednakosti trougla.
Nejednakost trougla se matematički definiše:
qjwwrj
ik
rkkij
,...,3,2
11
1,
qjww
rj
ik
rkkij
,...,3,2
11
1,
wij težina direktne staze između i i j wk,k+1 je težina staze između k i k+1 .
A C
B
Topologija PFNET-a je određena sa dva
parametra q i r i odgovarajuća mreža je označena kao PFNET (r,q).
Topologija PFNET-a je određena sa dva
parametra q i r i odgovarajuća mreža je označena kao PFNET (r,q).
Parametar q specificira maksimalnu dužinu staze
koja učestvuje u testu nejednakosti trougla.
Parametar r je Minkovski metrički parametar za
izračunavanje dužine staze
Vrednost q može biti bilo
koji ceo broj između 2 i N-1, gde je N broj čvorova u mreži
Vrednost q može biti bilo
koji ceo broj između 2 i N-1, gde je N broj čvorova u mreži
Transformiše inicijalnu predstavu
strukture u grafičku.
Transformiše inicijalnu predstavu
strukture u grafičku.
detektujedetektuje
izvlačiizvlači
pojednostavljujepojednostavljuje
Rešenje:
Šta čini osnovnu strukturu kompleksne mreže i kolekcije dokumenata?Algoritmi za crtanje grafova
OSNOVNI KONCEPTI:
Semantičko rastojanje
Sličnost
Zahtev za pretragom
Odgovor na
pretragu
Relevantnost ispitujemo Modelom semantičkog
rastojanja
Semantičko rastojanje između dva entiteta (u konkretnom slučaju – dokumenta) definisano je kao broj koraka od jednog do drugog duž postojećih linkova(veza) u strukturi.
Semantičko rastojanje između dva entiteta (u konkretnom slučaju – dokumenta) definisano je kao broj koraka od jednog do drugog duž postojećih linkova(veza) u strukturi.
Neophodno odrediti rastojanje između dve tačke podataka.
Prema nekim merilima sličnosti dokumenti su grupisani.
Grafo-teoretski algoritmiGrafo-teoretski algoritmi
Jednosmerni algoritmiJednosmerni algoritmi
Iterativni algoritmiIterativni algoritmi
Algoritam inkrementalnog
grupisanja kontinualno ažurira postojeće grupe.
Algoritam inkrementalnog
grupisanja kontinualno ažurira postojeće grupe.
Koncept pokrivenog koeficijenta (CC) omogućava merenje sličnosti između dokumenata. Koncept pokrivenog koeficijenta (CC) omogućava merenje sličnosti između dokumenata.
m
n
D
m
m
C
Svako cij (i<j, j<m) u matrici C označava verovatnoću selekcije bilo kog pojma koji se pojavljuje u dokumentu di iz dokumenta dj. Verovatnoća je definisana sledećom relacijom:
n
kjkkikiij ddxC
1
sličnostsličnost
αi i βk su recipročne vrednosti sume i-te vrste i sume k-te kolone, respektivno. Rastavljajući koeficijent predstavlja meru koliko je
dokument di različit od svih drugih dokumenata Rastavljajući koeficijent predstavlja meru koliko je dokument di različit od svih drugih dokumenata
Virtuelna struktura ima za cilj da vizuelizaciju informacija predstavi korisnicima u grafičkoj i vizuelno razumljivoj formi.
Termin „virtuelna“naglašava da struktura ne postoji u originalnom podatku u lako dostupnoj formi.Automatski
hipertekst linkovi
Dva dokumenta su povezana...
Dva dokumenta su povezana...
VIRTUELNE STRUKTURE
Vektorski prostor
Dokumenti su predstavljeni kao vektori.
gde je N broj dokumenata u kolekciji, tfik je broj pojavljanja termina Tk u dokumentu Di, a nk je broj dokumenata u kojima se termin pojavljuje.
kikik n
Ntfv log
Moguće je izračunati relevantnost dokument-dokument, korišćenjem termina koji se u njima pojavljuju. Težina termina Tk u dokumentu Di je definisana kao wik sledećim relacijama:
t
j ij
ikik
v
vw
1
2
Semantički prostor je zasnovan na velikoj matrici termin × dokument.
Svaki element matrice je broj pojavljivanja
termina u dokumentu.
Leksički lanac je niz semantički povezanih reči koje se pojavljuju u dokumentu
Blizina dokumenta je definisana na osnovu sličnosti između dokumenata. Sličnost dokumenata povezivanjem hiperlinkovima je definisana sledećom relacijom:
Blizina dokumenta je definisana na osnovu sličnosti između dokumenata. Sličnost dokumenata povezivanjem hiperlinkovima je definisana sledećom relacijom:
N
kik
ijlinkij
link
linksim
1
N
kik
ijlinkij
link
linksim
1
broj hiperlinkova od dokumenta Di do Dj u kolekciji od N dokumenata
Čvorovi koji su važni za lokalitet nazivaju se ORIJENTIRI u Web lokalitetu.
dubina u hijerarhijidubina u hijerarhiji
Čvor sa visokim stepenom povezivosti treba da bude označen kao orijentir.
Frekventniji čvorovi su posećeni, i verovatnije je da takav čvor treba da bude orijentir.
kolekcija Web dokumenata
Dokumenti na određenom HTTP serveru, rezultati pretrage nekog Web pretraživača...
Dokumenti na određenom HTTP serveru, rezultati pretrage nekog Web pretraživača...
povezivostpovezivost
frekvencija pristupafrekvencija pristupa
Definisana brojem čvorova koji se mogu dostići iz određenog čvora sa ne više od dva linka.
drugostepena povezivostdrugostepena povezivost
http://en.wikipedia.org/wiki/Complex_network
1 2 3
dubineipovezivost dubinapristup
pristup
povezivost
povezivostčvor
pristupa
1
maxmax dubineipovezivost dubinapristup
pristup
povezivost
povezivostčvor
pristupa
1
maxmax
OSNOVNI KONCEPTI:
Prostorni raspored (layout)
Algoritmi za crtanje grafova
Najtradicionalniji način za predstavljanja mreže je korišćenje čvor-i-link grafičkih predstava.
Najtradicionalniji način za predstavljanja mreže je korišćenje čvor-i-link grafičkih predstava.
Algoritamsko crtanje mreža uz pridržavanje estetskih kriterijuma. Velika pažnja se poklanja eficijentnosti algoritama i jasnoći krajnjih rezultata.
Algoritamsko crtanje mreža uz pridržavanje estetskih kriterijuma. Velika pažnja se poklanja eficijentnosti algoritama i jasnoći krajnjih rezultata. Problemi pri predstavljanju mreža:skriveni čvorovi i linkoviskriveni čvorovi i linkovi
nejasne granice između mreže i njene okolinenejasne granice između mreže i njene okolinestrukturne izmene i izmene u čvorovima i
linkovimastrukturne izmene i izmene u čvorovima i linkovimaznačaj slabih vezaznačaj slabih veza
strukturne rupe u mrežistrukturne rupe u mreži
Estetski kriterijumi koje treba uvažiti pri grafičkom predstavljanju:
SimetričnostSimetričnostRavnomerna distribucija čvorovaRavnomerna distribucija čvorova
Uniformna dužina linkovaUniformna dužina linkova
Minimizacija preklapanja linkovaMinimizacija preklapanja linkova
Najpoznatije tehnike za crtanje grafova su:
algoritmi za crtanje usmerenih grafovaalgoritmi za crtanje usmerenih grafova
algoritmi sa ugrađenom oprugomalgoritmi sa ugrađenom oprugom
Primarni cilj ovog tipa tehnika je da algoritamski optimizuje uređenje čvorova mreže, tako da u konačnom geometrijskom modelu snažno povezani čvorovi budu bliži jedni drugima, a slabije povezani čvorovi udaljeni.
Snaga veze između dva čvora obično se meri konceptualnom sličnošću, računskom povezanošću ili uslovnim verovatnoćama.
Layo
ut
proc
es
Dobar estetski izgled layouta
dobro slaganje vizuelizovanog modela i podataka osnovne
mrežeNedovoljno skalabilni
Brži
Skalabilniji
Za neusmerene grafove
Čvorovi kao čelični prstenovi Linkovi -
opruge
Prema udaljenosti i osobinama povezujućeg prostora.
Sile
odbijanja
Sile privlačenjaSa smanjenjem energije sistema opruga, graf se približava
optimumu Sa smanjenjem energije sistema opruga, graf se približava optimumu
2/)(
)log()(
dkdf
dkdf
rr
aa
2/)(
)log()(
dkdf
dkdf
rr
aa
Kamada-Kawai algoritam Minimizuje broj preklapanja među linkovimaČvorovi i linkovi uniformno distribuirani
Fruchterman i Reingold
Uniformna dužina linkova
k
ddf a
2
)(
d
kdf r
2
)(