Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

Preview:

DESCRIPTION

Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW. Marek Kopel. Wydziałowy Zakład Systemów Informacyjnych. Plan wystąpienia. Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania - PowerPoint PPT Presentation

Citation preview

Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

Marek Kopel

Wydziałowy Zakład Systemów Informacyjnych

2

Plan wystąpienia

Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania Kierunki dalszych badań

3

4

5

6

7

8

9

Wyszukiwanie w WWW

Dokumenty tekstowe– przeszukiwanie pełno-tekstowe, meta-tagi

Obrazki– nazwa pliku, adres, tekst wokół obrazka

Usenet (grupy dyskusyjne)– od razu zaindeksowane czasowo i tematycznie

Katalogi– indeksowane przez ludzi

10

Wspomaganie wyszukiwania

Indeksowanie– słowa kluczowe– meta-tagi– indeksowanie innych indeksów

Rankowanie– keywords w adresie, – linki kierujące do dokumentu– meta-tag <-> treść, – opis linka <-> treść docelowa

Profilowanie użytkownika (personalizacja)– wybieranie na podstawie preferencji (np. kolekcji)

Badanie spójności ?

11

Model Boolowski

zbiór terminów T, zbiór D dokumentów WWW, zbiór pytań Q,

funkcja opisująca (indeksująca): :D2T-,

funkcja wyszukująca::Q 2D.

Zwykle pytanie ma postać:

Mtttq ...21

12

Waga terminu w dokumencie

Wyraża istotność terminu dla tematyki dokumentu

Różne sposoby obliczania

Najczęściej modyfikacje TF-IDF, czyli

liczba wystąpień terminu / wszystkich terminów w dokumencie

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5

termin

wag

a

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5

termin

wag

a

13

Model wektorowy

zbiór terminów T = {t1, …, tn}, zbiór D dokumentów WWW, zbiór pytań Q,

d = <d1, …, dn>,di – waga i-tego terminu w dokumencie,

q = <q1, …, qn>,qi – waga i-tego terminu w pytaniu,

:Q ord(2D)

14

15

Model z profilem użytkownika

zbiory T, D, Q, funkcje , zbiór profili P,

wyszukiwanie : :QP ord(2D) – wyszukiwanie bezpośrednie.

:P 2D – filtrowanie,

(p) DP

:Q ord( ) – wyszukiwanie z zbiorze DP.PD2

16

Model z funkcją spójności

DD’

D’ D

17

Autonomous Citation Indexing

głównie prace naukowe odkrywanie powiązań między dokumentami

na podstawie cytowań (bibliografia) ograniczanie znajdywania duplikatów

poprzez analizę grafu cytowań

(http://citeseer.nj.nec.com/cs)

- system wykorzystujący ACI

18

Metody heurystyczne

Probabilistic Latent Semantic Analysis – określa prawdopodobieństwo tematyki dokumentu na podstawie terminów w nim

występujących

Probabilistic Hyperlink-Induced Topic Search– używa analiz bibliometrycznych– określa tematyki kolekcji dokumentów oraz autorów związanych z tymi tematykami

Probabilistic Model of Document Content and Hypertext Connectivity – łączy zorientowaną na terminy metodę PLSA oraz zorientowaną na cytowania

metodę PHITS– identyfikacja tematyki – identyfikacja dokumentów reprezentatywnych – predykcję nawigacji

19

Context Focused Crawler

indeksowanie dokumentów webowych relewantnych do predefiniowanego zbioru tematów

omijanie nierelewantnych obszarów sieci tworzenie grafu kontekstowego poprzez:

– indeksowanie dokumentów - TF-IDF– przypisywanie do warstw grafu konkekstowego -

Naive Bayes Classifier

20

Model z funkcją spójności c.d.

s: 2D+ - funkcja spójności,

r: 2D2D - funkcja zawężająca,

taka, że:

r(Dq )Dq

s(r(Dq ))>s(Dq)

D

r(D)

r(r(D))

21

Sąsiedztwo hiperlinków

di

xxxx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx xxx x xxx xxxx xxx x xxxx xxxx xxx xxx xx xxxxx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xx

dj

xxxx xx xxx x xxxx xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xxxxxx x x xx x xxx x xxxxxx xx xxxxx xx xxxxx xxx xx xxxxx x x x xx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx x x xxxxx xxx xx xxx x xxx xx x xxxx x xxxx

kijl

gjil

hijl

22

Spójność

Mamy: zbiór dokumentów D={d1,...,dN}, zbiór terminów T={t1,...,tM}.

Powiązaniem dokumentu di z dokumentem dj ze względu na hiperlink i termin tm nazywamy:

),min(

0,...,0,,0,...,0

mmm

mm

jikij

kij

kij

dew

wW

kijl

gdzie: - liczba terminów tm w sąsiedztwie hiperlinka

- liczba terminów tm w dokumencie djm

m

j

i

d

e kijl

23

Spójność c.d.

didj

kijl tm

24

Spójność c.d.

didj

hijl

kijl tm

tm

25

Spójność c.d.

Powiązaniem dokumentu di z dokumentem dj ze względu na

termin tm nazywamy wektor:

P

p

pijij

ijij

mm

mm

ww

wW

1

0,...,0,,0,...,0gdzie:

26

Spójność c.d.

didj

hijl

kijl tm

tm

gjiltm

27

Spójność c.d.

Powiązaniem dokumentu di i dokumentu dj ze względu na termin tm nazywamy wektor:

mmm

mm

jiijji

jiij

www

wW

},{

},{ 0,...,0,,0,...,0gdzie:

28

Spójność c.d.

didj

hijl

kijl tm

tm

gjiltm

29

Spójność c.d.

Powiązaniem dokumentu di i dokumentu dj nazywamy wektor:

Mjijiji wwW },{},{},{ ,...,

1

30

Spójność c.d.

Spójnością kolekcji dokumentów D nazywamy wektor:

Miarą spójności kolekcji nazywamy funkcję:

gdzie:

σ – odchylenie standardowe składowych wektora spójności kolekcji,

– średnia składowych wektora spójności kolekcji

di

dk

W{i,j}

W{i,k}

dj

MDD

N

ji

N

j ji

D wwN

WW ,...,

1

1 , }{

iM DDDD wwwWs },...,{)(1

iDw

31

Przykład 1

Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentów D ={d1, d2, d3, d4} oraz wektory spójności dokumentów:

WD = <1,5; 0,5; 1; 1,25; 1,75>

s(WD) ≈ 1,68

W{1,2} = <2, 0, 1, 1, 2>W{1,3} = <0, 2, 1, 0, 3>W{1,4} = <1, 0, 1, 2, 0>

W{2,3} = <2, 0, 1, 1, 2>W{2,4} = <0, 0, 0, 1, 0>W{3,4} = <1, 0, 0, 0, 0>

1,89

<1,3; 0,6; 1; 0,6; 2,3>

32

Przykład 1

Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentów D ={d1, d2, d3, d4} oraz wektory spójności dokumentów:

WD = <1,5; 0,5; 1; 1,25; 1,75>

s(WD) ≈ 1,68

W{1,2} = <2, 0, 1, 1, 2>W{1,3} = <0, 2, 1, 0, 3>W{1,4} = <1, 0, 1, 2, 0>

W{2,3} = <2, 0, 1, 1, 2>W{2,4} = <0, 0, 0, 1, 0>W{3,4} = <1, 0, 0, 0, 0>

0,91

<1; 0; 0,3; 0,6; 0,6>

33

Problem 1

d5

d3

d6

d8

34

Wektory w przestrzeni

Cos(90°)=0

- ortogonalne

Cos(0°)=1

35

Zgodność tematyczna

Zgodnością tematyczną kolekcji D1 i D2 nazywamy funkcję:

u: 2Dx2D+

gdzie:

- wektory spójności kolekcji kolekcji D1 i D2

N

iD

N

iD

N

iDD

DD

ii

ii

ww

wwWWDDu

1

2

1

2

121

21

21

21),cos(),(

21, DD WW

36

Przykład 2

Mamy zbiór terminów T={t1, t2, t3, t4, t5, t6, t7, t8, t9, t10} i wektory spójności tematycznej trzech kolekcji D1, D2 i D3:

= <4, 0, 4, 0, 6, 2, 0, 0, 1, 0>= <0, 5, 0, 4, 3, 0, 0, 4, 0, 0>= <4, 0, 2, 1, 3, 4, 0, 1, 0, 2>

u(D1, D2 )=

u(D2 , D3)=

u(D1, D3)=

26,06673

18

82,05173

50

29,05166

17

1DW

2DW

3DW

37

Problem 2

Automatyczne tworzenie katalogów WWW

38

Problem 3

porównanie spójności:

s(D1) ? s(D2) ? s(D3)

porównanie zgodności tematycznej:

u(D1 , D2) ? u(D2 , D3) ? u(D1 , D3)

D1D2 D3

1 2

s(D3)s(D2)s(D1)

3 t

39

Literatura

Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus Methods for Solving Inconsistency of Replicated Data in Distributed Systems. Distributed Parallel Databases 2003 vol. 14 nr 1, p. 53-69

Daniłowicz, Czesław, Jankowski, Łukasz, Nguyen, Ngoc Thanh: Consistency measures of agent knowledge in multiagent systems. Proceedings of the 14th International Conference on Systems Science. Eds Zdzisław Bubnicki, Adam Grzech. Wrocław: Oficyna Wydawnicza PWroc. 2001 p. 390-398

Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus-based methods for restoring consistency of replicated data. Inteligent Information Systems. Proceedings of the IIS '2000 Symposium. Mieczysław Kłopotek, Maciej Michalewicz, Sławomir T. Wierzchoń [eds]. Heidelberg; New York: Physica-Verlag 2000 p. 325-335

Gerhard Weikum: Extending Transaction Management To Capture More Consistency With Better Performance (1993)

Haerder, T., Reuter, A., Principles of Transaction–Oriented Database Recovery, ACM Computing Surveys Vol.15 No.4, 1983

Guido Moerkotte, Peter C. Lockemann: Reactive Consistency Control in Deductive Databases (1991), ACM Transactions on Database Systems

Ernest Teniente, Antoni Olivé: Updating Knowledge Bases while Maintaining their Consistency (1995), VLDB Journal: Very Large Data Bases

40

Literatura c.d.

Martin Decker, Guido Moerkotte, Joachim Posegga: Consistency Driven Planning (1996), Portuguese Conference on Artificial Intelligence

Wojciech Cellary, Genevieve Jomier: Consistency of Versions in Object-Oriented Databases (1990) 

M. Raynal, A. Schiper: A Suite Of Formal Definitions For Consistency Criteria In Distributed Shared Memories (1996),Proceedings Int Conf on Parallel and Distributed Computing (PDCS'96) http://citeseer.nj.nec.com/raynal96suite.html

Kourosh Gharachorloo, Daniel Lenoski, James Laudon, Phillip Gibbons, Anoop Gupta, John Hennessy: Memory Consistency and Event Ordering in Scalable Shared-Memory Multiprocessors (1990), 25 Years ISCA: Retrospectives and Reprints

Yvan G. Leclerc, Q.-Tuan Luong, P. Fua: Measuring the Self-Consistency of Stereo Algorithms (2000), ECCV (1) http://citeseer.nj.nec.com/leclerc00measuring.html

Chengjie Liu, Pei Cao: Maintaining Strong Cache Consistency in the World-Wide Web (1998), International Conference on Distributed Computing Systems

Yvon Kermarrec, Alberto Soleto: Managing document consistency over the Web or managing documents duplication

C.A.S. Santos, P.N.M. Sampaio, J.P. Courtiat: Revisiting the concept of hypermedia document consistency (1999), LAAS - CNRS 7 Av. du Colonel... ACM Multimedia (2)

Dziękuję za uwagę

Recommended