41
Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW Marek Kopel Wydziałowy Zakład Systemów Informacyjnych

Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

  • Upload
    walda

  • View
    41

  • Download
    0

Embed Size (px)

DESCRIPTION

Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW. Marek Kopel. Wydziałowy Zakład Systemów Informacyjnych. Plan wystąpienia. Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania - PowerPoint PPT Presentation

Citation preview

Page 1: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

Marek Kopel

Wydziałowy Zakład Systemów Informacyjnych

Page 2: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

2

Plan wystąpienia

Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania Kierunki dalszych badań

Page 3: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

3

Page 4: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

4

Page 5: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

5

Page 6: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

6

Page 7: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

7

Page 8: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

8

Page 9: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

9

Wyszukiwanie w WWW

Dokumenty tekstowe– przeszukiwanie pełno-tekstowe, meta-tagi

Obrazki– nazwa pliku, adres, tekst wokół obrazka

Usenet (grupy dyskusyjne)– od razu zaindeksowane czasowo i tematycznie

Katalogi– indeksowane przez ludzi

Page 10: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

10

Wspomaganie wyszukiwania

Indeksowanie– słowa kluczowe– meta-tagi– indeksowanie innych indeksów

Rankowanie– keywords w adresie, – linki kierujące do dokumentu– meta-tag <-> treść, – opis linka <-> treść docelowa

Profilowanie użytkownika (personalizacja)– wybieranie na podstawie preferencji (np. kolekcji)

Badanie spójności ?

Page 11: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

11

Model Boolowski

zbiór terminów T, zbiór D dokumentów WWW, zbiór pytań Q,

funkcja opisująca (indeksująca): :D2T-,

funkcja wyszukująca::Q 2D.

Zwykle pytanie ma postać:

Mtttq ...21

Page 12: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

12

Waga terminu w dokumencie

Wyraża istotność terminu dla tematyki dokumentu

Różne sposoby obliczania

Najczęściej modyfikacje TF-IDF, czyli

liczba wystąpień terminu / wszystkich terminów w dokumencie

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5

termin

wag

a

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5

termin

wag

a

Page 13: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

13

Model wektorowy

zbiór terminów T = {t1, …, tn}, zbiór D dokumentów WWW, zbiór pytań Q,

d = <d1, …, dn>,di – waga i-tego terminu w dokumencie,

q = <q1, …, qn>,qi – waga i-tego terminu w pytaniu,

:Q ord(2D)

Page 14: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

14

Page 15: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

15

Model z profilem użytkownika

zbiory T, D, Q, funkcje , zbiór profili P,

wyszukiwanie : :QP ord(2D) – wyszukiwanie bezpośrednie.

:P 2D – filtrowanie,

(p) DP

:Q ord( ) – wyszukiwanie z zbiorze DP.PD2

Page 16: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

16

Model z funkcją spójności

DD’

D’ D

Page 17: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

17

Autonomous Citation Indexing

głównie prace naukowe odkrywanie powiązań między dokumentami

na podstawie cytowań (bibliografia) ograniczanie znajdywania duplikatów

poprzez analizę grafu cytowań

(http://citeseer.nj.nec.com/cs)

- system wykorzystujący ACI

Page 18: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

18

Metody heurystyczne

Probabilistic Latent Semantic Analysis – określa prawdopodobieństwo tematyki dokumentu na podstawie terminów w nim

występujących

Probabilistic Hyperlink-Induced Topic Search– używa analiz bibliometrycznych– określa tematyki kolekcji dokumentów oraz autorów związanych z tymi tematykami

Probabilistic Model of Document Content and Hypertext Connectivity – łączy zorientowaną na terminy metodę PLSA oraz zorientowaną na cytowania

metodę PHITS– identyfikacja tematyki – identyfikacja dokumentów reprezentatywnych – predykcję nawigacji

Page 19: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

19

Context Focused Crawler

indeksowanie dokumentów webowych relewantnych do predefiniowanego zbioru tematów

omijanie nierelewantnych obszarów sieci tworzenie grafu kontekstowego poprzez:

– indeksowanie dokumentów - TF-IDF– przypisywanie do warstw grafu konkekstowego -

Naive Bayes Classifier

Page 20: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

20

Model z funkcją spójności c.d.

s: 2D+ - funkcja spójności,

r: 2D2D - funkcja zawężająca,

taka, że:

r(Dq )Dq

s(r(Dq ))>s(Dq)

D

r(D)

r(r(D))

Page 21: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

21

Sąsiedztwo hiperlinków

di

xxxx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx xxx x xxx xxxx xxx x xxxx xxxx xxx xxx xx xxxxx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xx

dj

xxxx xx xxx x xxxx xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xxxxxx x x xx x xxx x xxxxxx xx xxxxx xx xxxxx xxx xx xxxxx x x x xx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx x x xxxxx xxx xx xxx x xxx xx x xxxx x xxxx

kijl

gjil

hijl

Page 22: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

22

Spójność

Mamy: zbiór dokumentów D={d1,...,dN}, zbiór terminów T={t1,...,tM}.

Powiązaniem dokumentu di z dokumentem dj ze względu na hiperlink i termin tm nazywamy:

),min(

0,...,0,,0,...,0

mmm

mm

jikij

kij

kij

dew

wW

kijl

gdzie: - liczba terminów tm w sąsiedztwie hiperlinka

- liczba terminów tm w dokumencie djm

m

j

i

d

e kijl

Page 23: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

23

Spójność c.d.

didj

kijl tm

Page 24: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

24

Spójność c.d.

didj

hijl

kijl tm

tm

Page 25: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

25

Spójność c.d.

Powiązaniem dokumentu di z dokumentem dj ze względu na

termin tm nazywamy wektor:

P

p

pijij

ijij

mm

mm

ww

wW

1

0,...,0,,0,...,0gdzie:

Page 26: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

26

Spójność c.d.

didj

hijl

kijl tm

tm

gjiltm

Page 27: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

27

Spójność c.d.

Powiązaniem dokumentu di i dokumentu dj ze względu na termin tm nazywamy wektor:

mmm

mm

jiijji

jiij

www

wW

},{

},{ 0,...,0,,0,...,0gdzie:

Page 28: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

28

Spójność c.d.

didj

hijl

kijl tm

tm

gjiltm

Page 29: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

29

Spójność c.d.

Powiązaniem dokumentu di i dokumentu dj nazywamy wektor:

Mjijiji wwW },{},{},{ ,...,

1

Page 30: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

30

Spójność c.d.

Spójnością kolekcji dokumentów D nazywamy wektor:

Miarą spójności kolekcji nazywamy funkcję:

gdzie:

σ – odchylenie standardowe składowych wektora spójności kolekcji,

– średnia składowych wektora spójności kolekcji

di

dk

W{i,j}

W{i,k}

dj

MDD

N

ji

N

j ji

D wwN

WW ,...,

1

1 , }{

iM DDDD wwwWs },...,{)(1

iDw

Page 31: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

31

Przykład 1

Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentów D ={d1, d2, d3, d4} oraz wektory spójności dokumentów:

WD = <1,5; 0,5; 1; 1,25; 1,75>

s(WD) ≈ 1,68

W{1,2} = <2, 0, 1, 1, 2>W{1,3} = <0, 2, 1, 0, 3>W{1,4} = <1, 0, 1, 2, 0>

W{2,3} = <2, 0, 1, 1, 2>W{2,4} = <0, 0, 0, 1, 0>W{3,4} = <1, 0, 0, 0, 0>

1,89

<1,3; 0,6; 1; 0,6; 2,3>

Page 32: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

32

Przykład 1

Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentów D ={d1, d2, d3, d4} oraz wektory spójności dokumentów:

WD = <1,5; 0,5; 1; 1,25; 1,75>

s(WD) ≈ 1,68

W{1,2} = <2, 0, 1, 1, 2>W{1,3} = <0, 2, 1, 0, 3>W{1,4} = <1, 0, 1, 2, 0>

W{2,3} = <2, 0, 1, 1, 2>W{2,4} = <0, 0, 0, 1, 0>W{3,4} = <1, 0, 0, 0, 0>

0,91

<1; 0; 0,3; 0,6; 0,6>

Page 33: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

33

Problem 1

d5

d3

d6

d8

Page 34: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

34

Wektory w przestrzeni

Cos(90°)=0

- ortogonalne

Cos(0°)=1

Page 35: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

35

Zgodność tematyczna

Zgodnością tematyczną kolekcji D1 i D2 nazywamy funkcję:

u: 2Dx2D+

gdzie:

- wektory spójności kolekcji kolekcji D1 i D2

N

iD

N

iD

N

iDD

DD

ii

ii

ww

wwWWDDu

1

2

1

2

121

21

21

21),cos(),(

21, DD WW

Page 36: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

36

Przykład 2

Mamy zbiór terminów T={t1, t2, t3, t4, t5, t6, t7, t8, t9, t10} i wektory spójności tematycznej trzech kolekcji D1, D2 i D3:

= <4, 0, 4, 0, 6, 2, 0, 0, 1, 0>= <0, 5, 0, 4, 3, 0, 0, 4, 0, 0>= <4, 0, 2, 1, 3, 4, 0, 1, 0, 2>

u(D1, D2 )=

u(D2 , D3)=

u(D1, D3)=

26,06673

18

82,05173

50

29,05166

17

1DW

2DW

3DW

Page 37: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

37

Problem 2

Automatyczne tworzenie katalogów WWW

Page 38: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

38

Problem 3

porównanie spójności:

s(D1) ? s(D2) ? s(D3)

porównanie zgodności tematycznej:

u(D1 , D2) ? u(D2 , D3) ? u(D1 , D3)

D1D2 D3

1 2

s(D3)s(D2)s(D1)

3 t

Page 39: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

39

Literatura

Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus Methods for Solving Inconsistency of Replicated Data in Distributed Systems. Distributed Parallel Databases 2003 vol. 14 nr 1, p. 53-69

Daniłowicz, Czesław, Jankowski, Łukasz, Nguyen, Ngoc Thanh: Consistency measures of agent knowledge in multiagent systems. Proceedings of the 14th International Conference on Systems Science. Eds Zdzisław Bubnicki, Adam Grzech. Wrocław: Oficyna Wydawnicza PWroc. 2001 p. 390-398

Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus-based methods for restoring consistency of replicated data. Inteligent Information Systems. Proceedings of the IIS '2000 Symposium. Mieczysław Kłopotek, Maciej Michalewicz, Sławomir T. Wierzchoń [eds]. Heidelberg; New York: Physica-Verlag 2000 p. 325-335

Gerhard Weikum: Extending Transaction Management To Capture More Consistency With Better Performance (1993)

Haerder, T., Reuter, A., Principles of Transaction–Oriented Database Recovery, ACM Computing Surveys Vol.15 No.4, 1983

Guido Moerkotte, Peter C. Lockemann: Reactive Consistency Control in Deductive Databases (1991), ACM Transactions on Database Systems

Ernest Teniente, Antoni Olivé: Updating Knowledge Bases while Maintaining their Consistency (1995), VLDB Journal: Very Large Data Bases

Page 40: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

40

Literatura c.d.

Martin Decker, Guido Moerkotte, Joachim Posegga: Consistency Driven Planning (1996), Portuguese Conference on Artificial Intelligence

Wojciech Cellary, Genevieve Jomier: Consistency of Versions in Object-Oriented Databases (1990) 

M. Raynal, A. Schiper: A Suite Of Formal Definitions For Consistency Criteria In Distributed Shared Memories (1996),Proceedings Int Conf on Parallel and Distributed Computing (PDCS'96) http://citeseer.nj.nec.com/raynal96suite.html

Kourosh Gharachorloo, Daniel Lenoski, James Laudon, Phillip Gibbons, Anoop Gupta, John Hennessy: Memory Consistency and Event Ordering in Scalable Shared-Memory Multiprocessors (1990), 25 Years ISCA: Retrospectives and Reprints

Yvan G. Leclerc, Q.-Tuan Luong, P. Fua: Measuring the Self-Consistency of Stereo Algorithms (2000), ECCV (1) http://citeseer.nj.nec.com/leclerc00measuring.html

Chengjie Liu, Pei Cao: Maintaining Strong Cache Consistency in the World-Wide Web (1998), International Conference on Distributed Computing Systems

Yvon Kermarrec, Alberto Soleto: Managing document consistency over the Web or managing documents duplication

C.A.S. Santos, P.N.M. Sampaio, J.P. Courtiat: Revisiting the concept of hypermedia document consistency (1999), LAAS - CNRS 7 Av. du Colonel... ACM Multimedia (2)

Page 41: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

Dziękuję za uwagę