Upload
janne-peltola
View
538
Download
3
Embed Size (px)
DESCRIPTION
TKK:n kurssilla T-61.2020 pidetty esitys PageRank- ja HITS-algoritmien vertailusta.
Citation preview
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
T-61.2020:Haku verkosta
Janne Peltola & Arto Merilainen
5.3.2008
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
1 TaustaMaaritelmiaOngelma
2 AlgoritmejaHITSPageRank
3 TuloksetKuvatJohtopaatokset
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
MaaritelmiaOngelma
Verkko
Verkko on pari (V , E ), missa V sisaltaa verkon solmut ja Everkon kaaret. Kaari yhdistaa kaksi solmua. Verkko onsuunnattu, jos kaari on jarjestetty pari.
Verkoilla voidaan mallintaa
• topologiaa (tiekartta)
• vuorovaikutussuhteita (sosiaaliset verkostot)
• riippuvuussuhteita (projektin tehtavaverkko)
• todennakoisyysjakaumia (Bayes-verkot)
• ...
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
MaaritelmiaOngelma
Haku verkosta
Haluamme loytaa verkosta tiettyja ehtoja vastaavan solmun.Tassa tapauksessa verkko on WWW, eli haluamme loytaaverkkosivun, joka:
• sisaltaa hakutermin ja
• on semanttisesti olennainen.
Ongelman ratkaisee mm. Google...
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
MaaritelmiaOngelma
Aineisto
Vuoden 2004 presidentinvaaleissa kerattiin poliittisten blogienkeskustelusta aineisto:
• sivujen A ja B valilla on kaari, jos A viittaa B:hen
• kaaret ovat suunnattuja (A viittaa B:hen)
• blogit luokitellaan oikeisto-vasemmistoakselilla
Milla blogeilla onauktoriteettia?
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
MaaritelmiaOngelma
Aineisto
Vuoden 2004 presidentinvaaleissa kerattiin poliittisten blogienkeskustelusta aineisto:
• sivujen A ja B valilla on kaari, jos A viittaa B:hen
• kaaret ovat suunnattuja (A viittaa B:hen)
• blogit luokitellaan oikeisto-vasemmistoakselilla
Milla blogeilla onauktoriteettia?
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
Keskukset ja auktoriteetit
• Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
• Hyva keskus viittaa moniin auktoriteetteihin
• Moni keskus viittaa hyvaan auktoriteettiin
• Kyseessa on kehamaaritelma
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
Keskukset ja auktoriteetit
• Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
• Hyva keskus viittaa moniin auktoriteetteihin
• Moni keskus viittaa hyvaan auktoriteettiin
• Kyseessa on kehamaaritelma
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
Keskukset ja auktoriteetit
• Jaetaan verkon solmut keskuksiin ja auktoriteetteihin
• Hyva keskus viittaa moniin auktoriteetteihin
• Moni keskus viittaa hyvaan auktoriteettiin
• Kyseessa on kehamaaritelma
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
HITS (1/2)
Maaritellaan kaksi operaatiota:
I : x 〈p〉 ←−∑
q:(q,p)∈E
y 〈q〉 (1)
O : y 〈p〉 ←−∑
q:(p,q)∈E
x 〈q〉 (2)
• I: auktoriteetti syntyy viereisista keskuksista
• O: keskeisyys syntyy auktoriteetista
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
HITS (2/2)
Input: Verkko G , k ∈ NOutput: x 〈v〉 = xk , y 〈v〉 = yk
z = (1, 1, ..., 1) ∈ Rn;x0 ← z ;y0 ← z ;for i ← 1 to k do
x ′i ← I(xi−1, yi−1);y ′i ← O(x ′i , yi−1);xi ← Normalisoi (x ′i );yi ← Normalisoi (y ′i );
end
Ratkaistavissa myos lineaarialgebralla!
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
Satunnainen surffaaja
• Oletetaan satunnainensurffaaja
• Surffaaja siirtyysatunnaiselle linkitetyllesivulle
• Surffaaja saattaa tylsistyaja pompata jonnekinaivan muualle
• Mihin surffaajatodennakoisesti paatyy?
A
��
// B // C
D // E
??~~~~~~~
__@@@@@@@
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
Satunnainen surffaaja
• Oletetaan satunnainensurffaaja
• Surffaaja siirtyysatunnaiselle linkitetyllesivulle
• Surffaaja saattaa tylsistyaja pompata jonnekinaivan muualle
• Mihin surffaajatodennakoisesti paatyy?
A
��
// B // C
D // E
??~~~~~~~
__@@@@@@@
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
Satunnainen surffaaja
• Oletetaan satunnainensurffaaja
• Surffaaja siirtyysatunnaiselle linkitetyllesivulle
• Surffaaja saattaa tylsistyaja pompata jonnekinaivan muualle
• Mihin surffaajatodennakoisesti paatyy?
A
��
// B // C
D // E
??~~~~~~~
__@@@@@@@
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
Satunnainen surffaaja
• Oletetaan satunnainensurffaaja
• Surffaaja siirtyysatunnaiselle linkitetyllesivulle
• Surffaaja saattaa tylsistyaja pompata jonnekinaivan muualle
• Mihin surffaajatodennakoisesti paatyy?
A
��
// B // C
D // E
??~~~~~~~
__@@@@@@@
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
PageRank
• Aluksi jokainen sivu on yhta todennakoinen
• Todennakoisyys virtaa linkkien kautta
• Paljon linkkeja → korkea todennakoisyys
• Umpikuja → siirtyma minne vain
PR(x) =1− d
N+ d
∑a:(a,x)∈V
PR(a)
L(a), (3)
Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
PageRank
• Aluksi jokainen sivu on yhta todennakoinen
• Todennakoisyys virtaa linkkien kautta
• Paljon linkkeja → korkea todennakoisyys
• Umpikuja → siirtyma minne vain
PR(x) =1− d
N+ d
∑a:(a,x)∈V
PR(a)
L(a), (3)
Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
PageRank
• Aluksi jokainen sivu on yhta todennakoinen
• Todennakoisyys virtaa linkkien kautta
• Paljon linkkeja → korkea todennakoisyys
• Umpikuja → siirtyma minne vain
PR(x) =1− d
N+ d
∑a:(a,x)∈V
PR(a)
L(a), (3)
Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
PageRank
• Aluksi jokainen sivu on yhta todennakoinen
• Todennakoisyys virtaa linkkien kautta
• Paljon linkkeja → korkea todennakoisyys
• Umpikuja → siirtyma minne vain
PR(x) =1− d
N+ d
∑a:(a,x)∈V
PR(a)
L(a), (3)
Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
HITSPageRank
PageRank
• Aluksi jokainen sivu on yhta todennakoinen
• Todennakoisyys virtaa linkkien kautta
• Paljon linkkeja → korkea todennakoisyys
• Umpikuja → siirtyma minne vain
PR(x) =1− d
N+ d
∑a:(a,x)∈V
PR(a)
L(a), (3)
Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
KuvatJohtopaatokset
PageRank
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
KuvatJohtopaatokset
HITS
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta
T-61.2020:Haku
verkosta
Janne Peltola& Arto
Merilainen
Sisalto
Tausta
Maaritelmia
Ongelma
Algoritmeja
HITS
PageRank
Tulokset
Kuvat
Johtopaatokset
SisaltoTausta
AlgoritmejaTulokset
KuvatJohtopaatokset
Johtopaatoksia
• HITS- ja PageRank-arvojen korrelaatio olematonta (-0,01ja 0,03)
• PageRank-tulokset luontevia
• HITS tuntuu nostavan esiin aggregaattoreita
• Vahva korrelaatio hubien ja auktoriteettien valilla (0,70)
• Outo havainto: auktoriteettien ja out-degreen korrelaatio0,48
Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta