Upload
walda
View
41
Download
0
Embed Size (px)
DESCRIPTION
Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW. Marek Kopel. Wydziałowy Zakład Systemów Informacyjnych. Plan wystąpienia. Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania - PowerPoint PPT Presentation
Citation preview
Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW
Marek Kopel
Wydziałowy Zakład Systemów Informacyjnych
2
Plan wystąpienia
Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania Kierunki dalszych badań
3
4
5
6
7
8
9
Wyszukiwanie w WWW
Dokumenty tekstowe– przeszukiwanie pełno-tekstowe, meta-tagi
Obrazki– nazwa pliku, adres, tekst wokół obrazka
Usenet (grupy dyskusyjne)– od razu zaindeksowane czasowo i tematycznie
Katalogi– indeksowane przez ludzi
10
Wspomaganie wyszukiwania
Indeksowanie– słowa kluczowe– meta-tagi– indeksowanie innych indeksów
Rankowanie– keywords w adresie, – linki kierujące do dokumentu– meta-tag <-> treść, – opis linka <-> treść docelowa
Profilowanie użytkownika (personalizacja)– wybieranie na podstawie preferencji (np. kolekcji)
Badanie spójności ?
11
Model Boolowski
zbiór terminów T, zbiór D dokumentów WWW, zbiór pytań Q,
funkcja opisująca (indeksująca): :D2T-,
funkcja wyszukująca::Q 2D.
Zwykle pytanie ma postać:
Mtttq ...21
12
Waga terminu w dokumencie
Wyraża istotność terminu dla tematyki dokumentu
Różne sposoby obliczania
Najczęściej modyfikacje TF-IDF, czyli
liczba wystąpień terminu / wszystkich terminów w dokumencie
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5
termin
wag
a
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5
termin
wag
a
13
Model wektorowy
zbiór terminów T = {t1, …, tn}, zbiór D dokumentów WWW, zbiór pytań Q,
d = <d1, …, dn>,di – waga i-tego terminu w dokumencie,
q = <q1, …, qn>,qi – waga i-tego terminu w pytaniu,
:Q ord(2D)
14
15
Model z profilem użytkownika
zbiory T, D, Q, funkcje , zbiór profili P,
wyszukiwanie : :QP ord(2D) – wyszukiwanie bezpośrednie.
:P 2D – filtrowanie,
(p) DP
:Q ord( ) – wyszukiwanie z zbiorze DP.PD2
16
Model z funkcją spójności
DD’
D’ D
17
Autonomous Citation Indexing
głównie prace naukowe odkrywanie powiązań między dokumentami
na podstawie cytowań (bibliografia) ograniczanie znajdywania duplikatów
poprzez analizę grafu cytowań
(http://citeseer.nj.nec.com/cs)
- system wykorzystujący ACI
18
Metody heurystyczne
Probabilistic Latent Semantic Analysis – określa prawdopodobieństwo tematyki dokumentu na podstawie terminów w nim
występujących
Probabilistic Hyperlink-Induced Topic Search– używa analiz bibliometrycznych– określa tematyki kolekcji dokumentów oraz autorów związanych z tymi tematykami
Probabilistic Model of Document Content and Hypertext Connectivity – łączy zorientowaną na terminy metodę PLSA oraz zorientowaną na cytowania
metodę PHITS– identyfikacja tematyki – identyfikacja dokumentów reprezentatywnych – predykcję nawigacji
19
Context Focused Crawler
indeksowanie dokumentów webowych relewantnych do predefiniowanego zbioru tematów
omijanie nierelewantnych obszarów sieci tworzenie grafu kontekstowego poprzez:
– indeksowanie dokumentów - TF-IDF– przypisywanie do warstw grafu konkekstowego -
Naive Bayes Classifier
20
Model z funkcją spójności c.d.
s: 2D+ - funkcja spójności,
r: 2D2D - funkcja zawężająca,
taka, że:
r(Dq )Dq
s(r(Dq ))>s(Dq)
D
r(D)
r(r(D))
21
Sąsiedztwo hiperlinków
di
xxxx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx xxx x xxx xxxx xxx x xxxx xxxx xxx xxx xx xxxxx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xx
dj
xxxx xx xxx x xxxx xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xxxxxx x x xx x xxx x xxxxxx xx xxxxx xx xxxxx xxx xx xxxxx x x x xx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx x x xxxxx xxx xx xxx x xxx xx x xxxx x xxxx
kijl
gjil
hijl
22
Spójność
Mamy: zbiór dokumentów D={d1,...,dN}, zbiór terminów T={t1,...,tM}.
Powiązaniem dokumentu di z dokumentem dj ze względu na hiperlink i termin tm nazywamy:
),min(
0,...,0,,0,...,0
mmm
mm
jikij
kij
kij
dew
wW
kijl
gdzie: - liczba terminów tm w sąsiedztwie hiperlinka
- liczba terminów tm w dokumencie djm
m
j
i
d
e kijl
23
Spójność c.d.
didj
kijl tm
24
Spójność c.d.
didj
hijl
kijl tm
tm
25
Spójność c.d.
Powiązaniem dokumentu di z dokumentem dj ze względu na
termin tm nazywamy wektor:
P
p
pijij
ijij
mm
mm
ww
wW
1
0,...,0,,0,...,0gdzie:
26
Spójność c.d.
didj
hijl
kijl tm
tm
gjiltm
27
Spójność c.d.
Powiązaniem dokumentu di i dokumentu dj ze względu na termin tm nazywamy wektor:
mmm
mm
jiijji
jiij
www
wW
},{
},{ 0,...,0,,0,...,0gdzie:
28
Spójność c.d.
didj
hijl
kijl tm
tm
gjiltm
29
Spójność c.d.
Powiązaniem dokumentu di i dokumentu dj nazywamy wektor:
Mjijiji wwW },{},{},{ ,...,
1
30
Spójność c.d.
Spójnością kolekcji dokumentów D nazywamy wektor:
Miarą spójności kolekcji nazywamy funkcję:
gdzie:
σ – odchylenie standardowe składowych wektora spójności kolekcji,
– średnia składowych wektora spójności kolekcji
di
dk
W{i,j}
W{i,k}
dj
MDD
N
ji
N
j ji
D wwN
WW ,...,
1
1 , }{
iM DDDD wwwWs },...,{)(1
iDw
31
Przykład 1
Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentów D ={d1, d2, d3, d4} oraz wektory spójności dokumentów:
WD = <1,5; 0,5; 1; 1,25; 1,75>
s(WD) ≈ 1,68
W{1,2} = <2, 0, 1, 1, 2>W{1,3} = <0, 2, 1, 0, 3>W{1,4} = <1, 0, 1, 2, 0>
W{2,3} = <2, 0, 1, 1, 2>W{2,4} = <0, 0, 0, 1, 0>W{3,4} = <1, 0, 0, 0, 0>
1,89
<1,3; 0,6; 1; 0,6; 2,3>
32
Przykład 1
Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentów D ={d1, d2, d3, d4} oraz wektory spójności dokumentów:
WD = <1,5; 0,5; 1; 1,25; 1,75>
s(WD) ≈ 1,68
W{1,2} = <2, 0, 1, 1, 2>W{1,3} = <0, 2, 1, 0, 3>W{1,4} = <1, 0, 1, 2, 0>
W{2,3} = <2, 0, 1, 1, 2>W{2,4} = <0, 0, 0, 1, 0>W{3,4} = <1, 0, 0, 0, 0>
0,91
<1; 0; 0,3; 0,6; 0,6>
33
Problem 1
d5
d3
d6
d8
34
Wektory w przestrzeni
Cos(90°)=0
- ortogonalne
Cos(0°)=1
35
Zgodność tematyczna
Zgodnością tematyczną kolekcji D1 i D2 nazywamy funkcję:
u: 2Dx2D+
gdzie:
- wektory spójności kolekcji kolekcji D1 i D2
N
iD
N
iD
N
iDD
DD
ii
ii
ww
wwWWDDu
1
2
1
2
121
21
21
21),cos(),(
21, DD WW
36
Przykład 2
Mamy zbiór terminów T={t1, t2, t3, t4, t5, t6, t7, t8, t9, t10} i wektory spójności tematycznej trzech kolekcji D1, D2 i D3:
= <4, 0, 4, 0, 6, 2, 0, 0, 1, 0>= <0, 5, 0, 4, 3, 0, 0, 4, 0, 0>= <4, 0, 2, 1, 3, 4, 0, 1, 0, 2>
u(D1, D2 )=
u(D2 , D3)=
u(D1, D3)=
26,06673
18
82,05173
50
29,05166
17
1DW
2DW
3DW
37
Problem 2
Automatyczne tworzenie katalogów WWW
38
Problem 3
porównanie spójności:
s(D1) ? s(D2) ? s(D3)
porównanie zgodności tematycznej:
u(D1 , D2) ? u(D2 , D3) ? u(D1 , D3)
D1D2 D3
1 2
s(D3)s(D2)s(D1)
3 t
39
Literatura
Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus Methods for Solving Inconsistency of Replicated Data in Distributed Systems. Distributed Parallel Databases 2003 vol. 14 nr 1, p. 53-69
Daniłowicz, Czesław, Jankowski, Łukasz, Nguyen, Ngoc Thanh: Consistency measures of agent knowledge in multiagent systems. Proceedings of the 14th International Conference on Systems Science. Eds Zdzisław Bubnicki, Adam Grzech. Wrocław: Oficyna Wydawnicza PWroc. 2001 p. 390-398
Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus-based methods for restoring consistency of replicated data. Inteligent Information Systems. Proceedings of the IIS '2000 Symposium. Mieczysław Kłopotek, Maciej Michalewicz, Sławomir T. Wierzchoń [eds]. Heidelberg; New York: Physica-Verlag 2000 p. 325-335
Gerhard Weikum: Extending Transaction Management To Capture More Consistency With Better Performance (1993)
Haerder, T., Reuter, A., Principles of Transaction–Oriented Database Recovery, ACM Computing Surveys Vol.15 No.4, 1983
Guido Moerkotte, Peter C. Lockemann: Reactive Consistency Control in Deductive Databases (1991), ACM Transactions on Database Systems
Ernest Teniente, Antoni Olivé: Updating Knowledge Bases while Maintaining their Consistency (1995), VLDB Journal: Very Large Data Bases
40
Literatura c.d.
Martin Decker, Guido Moerkotte, Joachim Posegga: Consistency Driven Planning (1996), Portuguese Conference on Artificial Intelligence
Wojciech Cellary, Genevieve Jomier: Consistency of Versions in Object-Oriented Databases (1990)
M. Raynal, A. Schiper: A Suite Of Formal Definitions For Consistency Criteria In Distributed Shared Memories (1996),Proceedings Int Conf on Parallel and Distributed Computing (PDCS'96) http://citeseer.nj.nec.com/raynal96suite.html
Kourosh Gharachorloo, Daniel Lenoski, James Laudon, Phillip Gibbons, Anoop Gupta, John Hennessy: Memory Consistency and Event Ordering in Scalable Shared-Memory Multiprocessors (1990), 25 Years ISCA: Retrospectives and Reprints
Yvan G. Leclerc, Q.-Tuan Luong, P. Fua: Measuring the Self-Consistency of Stereo Algorithms (2000), ECCV (1) http://citeseer.nj.nec.com/leclerc00measuring.html
Chengjie Liu, Pei Cao: Maintaining Strong Cache Consistency in the World-Wide Web (1998), International Conference on Distributed Computing Systems
Yvon Kermarrec, Alberto Soleto: Managing document consistency over the Web or managing documents duplication
C.A.S. Santos, P.N.M. Sampaio, J.P. Courtiat: Revisiting the concept of hypermedia document consistency (1999), LAAS - CNRS 7 Av. du Colonel... ACM Multimedia (2)
Dziękuję za uwagę