Las Mat de PageRank Slides

Embed Size (px)

Citation preview

  • 7/25/2019 Las Mat de PageRank Slides

    1/64

    Las Matematicas de PageRank

    y otros metodos de busqueda web

    Eustasio del Barrio

    Universidad de Valladolid. IMUVA.

    Marzo, 2013

    Eustasio del Barrio Las Matematicas de PageRank 1 / 31

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    2/64

    Plan

    Plan

    1 Busqueda de informacion

    Eustasio del Barrio Las Matematicas de PageRank 2 / 31

    http://goforward/http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    3/64

    Plan

    Plan

    1 Busqueda de informacion

    2 Motores de busqueda

    Eustasio del Barrio Las Matematicas de PageRank 2 / 31

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    4/64

    Plan

    Plan

    1 Busqueda de informacion

    2 Motores de busqueda

    3 Analisis de enlaces

    Eustasio del Barrio Las Matematicas de PageRank 2 / 31

    Pl

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    5/64

    Plan

    Plan

    1 Busqueda de informacion

    2 Motores de busqueda

    3 Analisis de enlaces

    4 Conclusiones

    Eustasio del Barrio Las Matematicas de PageRank 2 / 31

    Pl

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    6/64

    Plan

    Plan

    1 Busqueda de informacion

    2 Motores de busqueda

    3 Analisis de enlaces

    4 Conclusiones

    5 Referencias

    Eustasio del Barrio Las Matematicas de PageRank 2 / 31

    Busqueda de informacion

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    7/64

    Busqueda de informacion

    Busqueda de informacion: (pre)historia

    Busqueda de informacion (IR) = busqueda en coleccion de documentos

    de informacion particular (consulta)

    A.C.: colecciones pequenas; etiquetas en rollos de papiro

    A.C.: papiro pergamino; formato libro

    Siglo XII: invencion del papel; colecciones en monasterios;organizacion por secciones; listas de documentos

    1450: Gutemberg, imprenta

    Siglo XVIII: primeras bibliotecas publicas; busqueda orientada

    1872: clasificacion decimal (Dewey)

    1900: Catalogo de tarjetas (por autor, ttulo)

    1940-1950: Ordenador

    1989: nacimiento del www (Berner-Lee)

    Eustasio del Barrio Las Matematicas de PageRank 3 / 31

    Motores de busqueda

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    8/64

    Motores de busqueda

    El metodo SMART

    1960s; implementado en IBM 7094 & IBM 360

    Basado en metodos matriciales (matrices termino-documento)

    Comienza con diccionario de terminos (palabras o expresiones)

    Se indexa cada documento

    frecuencia fi,j = #veces termino i aparece en documento j

    Matriz termino-documento

    Eustasio del Barrio Las Matematicas de PageRank 4 / 31

    Motores de busqueda

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    9/64

    Motores de busqueda

    Vector de consulta:

    qT = [q1, . . . , q m] qi =

    1 si termino i presente en consulta0 si no

    Es el documento i una buena respuesta a la consulta?

    Esta el vector qcerca de la columna Ai?

    Se usa i = cos i = qTAiqAi

    Se ordenan documentos por i crecienteSe sugiere documento i a usuario si i tol

    Mejoras posibles comprimiendo matriz A(Dumais, 1989,1994; Bel Labs)

    Eustasio del Barrio Las Matematicas de PageRank 5 / 31

    Motores de busqueda

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    10/64

    Motores de busqueda

    Busqueda de informacion: metodos antiguos

    Ventajas

    Encuentran conexiones ocultas

    Pueden usarse para identificar clusters de documentos (textmining)

    Funcionan bien en coleccionespequenas + homogeneas +

    estaticas

    Inconvenientes

    Ranking dependiente de consulta (recalculado para cada consulta)

    Solo usa contenido semantico (vctima facil de spam, estructurade enlaces ignorada)

    Dficil anadir/borrar documentos

    Compresion optima no sencilla

    Eustasio del Barrio Las Matematicas de PageRank 6 / 31

    Motores de busqueda

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    11/64

    q

    Busqueda indexada en web

    Eustasio del Barrio Las Matematicas de PageRank 7 / 31

    Motores de busqueda

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    12/64

    q

    Busqueda indexada en web (pre 1998)

    patrulla fronteriza: 4; 567; 809; 1103; . . . (8,700,000 en total)

    Hezbollah: 9; 12; 339; 942; 15158; . . . (15,100,000 en total)

    calentamiento global: 178; 12980; 445532; . . . (33,200,000 en total)

    demasiados enlaces por busqueda

    facil spam

    Yahoo:jerarquas de sitios web, organizacion humana

    Eustasio del Barrio Las Matematicas de PageRank 8 / 31

    Motores de busqueda

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    13/64

    Cuando se proclamo que la Biblioteca abarcaba todos los

    libros, la primera impresion fue de extravagante felicidad.

    Todos los hombres se sintieron senores de un tesoro intacto y

    secreto. No haba problema personal o mundial cuya

    elocuente solucion no existiera: en algun hexagono.

    . . . A la desaforada esperanza, sucedio, como es natural, unadepresion excesiva. La certidumbre de que algun anaquel en

    algun hexagono encerraba libros preciosos y de que esos libros

    preciosos eran inaccesibles, parecio casi intolerable. Una secta

    blasfema sugirio que cesaran las buscas. . .

    Eustasio del Barrio Las Matematicas de PageRank 9 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    14/64

    1998: hiperenlaces en accion

    Nuevos metodos combinan ranking IR con nuevo ranking depopularidad

    La web es diferente de otras colecciones de documentos

    es enorme

    es dinamica

    carece de organizacion centralizada

    tiene hiperenlaces

    Eustasio del Barrio Las Matematicas de PageRank 10 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    15/64

    Elementos de un motor de busqueda web

    Eustasio del Barrio Las Matematicas de PageRank 11 / 31

    Analisis de enlaces

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    16/64

    Modulo de ranking:genera ranking de popularidad

    mide importancia de cada pagina

    medida independiente de consulta, basada en estructura de enlaces

    calculado offline, antes de atender consultas de usuarios

    algoritmo PageRank de Google se impuso a competidores

    Google PageRank = Google $$$

    Eustasio del Barrio Las Matematicas de PageRank 12 / 31

    Analisis de enlaces

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    17/64

    Eustasio del Barrio Las Matematicas de PageRank 13 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    18/64

    Google PageRank: Lawrence Page & Sergey Brin, 1998

    Idea

    Crear ranking r(P) independiente de consultaCalculos off-line; ahorro computacion en consultas

    La web vota con in-links; in-links de sitios importantes pesan mas

    in-links de sitio con muchos out-links pesan menos

    Eustasio del Barrio Las Matematicas de PageRank 14 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    19/64

    El algoritmo PageRank

    r(P) =QBP

    r(Q)

    |Q|

    BP paginas con enlaces a P; |Q| numero de paginas enlazadas desde Q

    Eustasio del Barrio Las Matematicas de PageRank 15 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    20/64

    El algoritmo PageRank

    r(P) =QBP

    r(Q)

    |Q|

    BP paginas con enlaces a P; |Q| numero de paginas enlazadas desde Q

    Metodo iterativo: inicialmente r0(P) = 1n

    para todas paginas

    P1, . . . , P n

    r1(P) =QBP

    r0(Q)

    |Q|

    r2(P) =QBP

    r1(Q)

    |Q|

    ...

    Eustasio del Barrio Las Matematicas de PageRank 15 / 31

    Analisis de enlaces

    T

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    21/64

    Tras iteracionk, Tk = [rk(P1), . . . , rk(Pn)],

    Tk+1=TkH, hi,j =

    1/|Pi| si i j

    0 si no

    Vector PageRank T = lmk Tk =TH (autovector de H)

    si el lmite existe

    Eustasio del Barrio Las Matematicas de PageRank 16 / 31

    Analisis de enlaces

    T

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    22/64

    Tras iteracionk, Tk = [rk(P1), . . . , rk(Pn)],

    Tk+1=TkH, hi,j =

    1/|Pi| si i j

    0 si no

    Vector PageRank T = lmk Tk =TH (autovector de H)

    si el lmite existese estabilizan los iterantes?

    Eustasio del Barrio Las Matematicas de PageRank 16 / 31

    Analisis de enlaces

    T [ ( ) ( )]

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    23/64

    Tras iteracionk, Tk = [rk(P1), . . . , rk(Pn)],

    Tk+1=TkH, hi,j =

    1/|Pi| si i j

    0 si no

    Vector PageRank T = lmk Tk =TH (autovector de H)

    si el lmite existese estabilizan los iterantes?

    mide realmente la importancia de las paginas?

    Eustasio del Barrio Las Matematicas de PageRank 16 / 31

    Analisis de enlaces

    T i i k T [ (P ) (P )]

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    24/64

    Tras iteracionk, Tk = [rk(P1), . . . , rk(Pn)],

    Tk+1=TkH, hi,j =

    1/|Pi| si i j

    0 si no

    Vector PageRank T = lmk Tk =TH (autovector de H)

    si el lmite existese estabilizan los iterantes?

    mide realmente la importancia de las paginas?

    Eustasio del Barrio Las Matematicas de PageRank 16 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    25/64

    El modelo del internauta aleatorio

    Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

    Xn = pagina visitada en instante n

    Eustasio del Barrio Las Matematicas de PageRank 17 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    26/64

    El modelo del internauta aleatorio

    Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

    Xn = pagina visitada en instante n

    Eustasio del Barrio Las Matematicas de PageRank 17 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    27/64

    El modelo del internauta aleatorio

    Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

    Xn = pagina visitada en instante n

    Eustasio del Barrio Las Matematicas de PageRank 17 / 31

    Analisis de enlaces

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    28/64

    El modelo del internauta aleatorio

    Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

    Xn = pagina visitada en instante n

    Eustasio del Barrio Las Matematicas de PageRank 17 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    29/64

    El modelo del internauta aleatorio

    Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

    Xn = pagina visitada en instante n

    Eustasio del Barrio Las Matematicas de PageRank 17 / 31

    Analisis de enlaces

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    30/64

    Xn es unacadena de Markov

    P2 es un estado absorbente (dangling node; pagina sin enlaces)

    T = [0, 1, 0, 0, 0, 0]; P2 es un sumidero de ranking

    Ranking no resulta interesante

    Dangling nodes no cortan navegacion de internautas reales;

    permitimos salto al azar

    Cambiamos filas de ceros por eT

    n = [ 1

    n, . . . , 1

    n]

    Eustasio del Barrio Las Matematicas de PageRank 18 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    31/64

    Ses una matriz estocastica, m. de transicion de una cadena de Markov

    T =TS Tdistribucion estacionaria

    La web no es fuertemente conexa; Sno es irreducible (hay i j)

    Puede haber ciclos: i j i

    Teorema

    SiS irreducible y aperiodica existe una unica distribucion estacionaria,T. Ademas

    Tk independientemente deT0

    Eustasio del Barrio Las Matematicas de PageRank 19 / 31

    Analisis de enlaces

    L i G l

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    32/64

    La matriz Google

    Solucion a problemas: permitir salto aleatorio desde cualquier pagina

    G= S+ (1 )ee

    T

    n

    G es irreducible y aperiodica tiene distribucion estacionaria unica

    j = proporcion de tiempo que el internauta aleatorio pasa en pagina j

    Eustasio del Barrio Las Matematicas de PageRank 20 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    33/64

    Algunos aspectos importantes

    En la Web real n 1012

    La matriz de hiperenlaces es dispersa (menos de 10 out-links en media)

    Aun as almacenamiento de G costoso y calculo de Tk+1 tambien

    Cada iteracion requiere 1024 operaciones

    Eustasio del Barrio Las Matematicas de PageRank 21 / 31

    Analisis de enlaces

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    34/64

    Algunos aspectos importantes

    En la Web real n 1012

    La matriz de hiperenlaces es dispersa (menos de 10 out-links en media)

    Aun as almacenamiento de G costoso y calculo de Tk+1 tambien

    Cada iteracion requiere 1024 operaciones

    Pero hay buenas noticias

    Teorema j

    |(k)j j | 2

    k

    Si = 0.85, 50-100 iteraciones garantizan buena aproximacion(103 107)independiente de dimension!!

    El resto de la historia es conocido

    Eustasio del Barrio Las Matematicas de PageRank 21 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    35/64

    Eustasio del Barrio Las Matematicas de PageRank 22 / 31

    Analisis de enlaces

    http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    36/64

    HITS(Hypertext Induced Topic Selection, Jon Kleinberg, 1997)

    Distincion entre autoridades y distribuidores (hubs)

    Eustasio del Barrio Las Matematicas de PageRank 23 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    37/64

    HITS(Hypertext Induced Topic Selection, Jon Kleinberg, 1997)

    Distincion entre autoridades y distribuidores (hubs)

    Buenas autoridades enlazadas desde buenos hubs

    Eustasio del Barrio Las Matematicas de PageRank 23 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    38/64

    HITS(Hypertext Induced Topic Selection, Jon Kleinberg, 1997)

    Distincion entre autoridades y distribuidores (hubs)

    Buenas autoridades enlazadas desde buenos hubs

    Buenos hubs enlazan a buenas autoridades

    Eustasio del Barrio Las Matematicas de PageRank 23 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    39/64

    HITS(Hypertext Induced Topic Selection, Jon Kleinberg, 1997)

    Distincion entre autoridades y distribuidores (hubs)

    Buenas autoridades enlazadas desde buenos hubs

    Buenos hubs enlazan a buenas autoridades

    Eustasio del Barrio Las Matematicas de PageRank 23 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    40/64

    HITS

    ai = puntuacion como autoridad para pagina Pi

    hi = puntuacion como hub para pagina Pi

    Eustasio del Barrio Las Matematicas de PageRank 24 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    41/64

    HITS

    ai = puntuacion como autoridad para pagina Pi

    hi = puntuacion como hub para pagina Pi

    Inicialmente hi = 1; h0=

    1...

    1

    Eustasio del Barrio Las Matematicas de PageRank 24 / 31

    Analisis de enlaces

    http://goforward/http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    42/64

    HITS

    ai = puntuacion como autoridad para pagina Pi

    hi = puntuacion como hub para pagina Pi

    Inicialmente hi = 1; h0=

    1...

    1

    Puntuacion inicial de autoridad ai =

    j:PjPihi; a1=

    a1...

    an

    =LTh0

    Eustasio del Barrio Las Matematicas de PageRank 24 / 31

    Analisis de enlaces

    http://goforward/http://find/http://goback/
  • 7/25/2019 Las Mat de PageRank Slides

    43/64

    HITS

    ai = puntuacion como autoridad para pagina Pi

    hi = puntuacion como hub para pagina Pi

    Inicialmente hi = 1; h0=

    1...

    1

    Puntuacion inicial de autoridad ai =

    j:PjPihi; a1=

    a1...

    an

    =LTh0

    Li,j =

    1, Pi Pj0, Pi Pj

    Eustasio del Barrio Las Matematicas de PageRank 24 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    44/64

    HITS

    Se refina puntuacion hub: hi =

    j:PiPjaj ; h1=La1

    Eustasio del Barrio Las Matematicas de PageRank 25 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    45/64

    HITS

    Se refina puntuacion hub: hi =

    j:PiPjaj ; h1=La1

    En pasos sucesivos a2=LTh1, h2=La2, . . .

    Eustasio del Barrio Las Matematicas de PageRank 25 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    46/64

    HITS

    Se refina puntuacion hub: hi =

    j:PiPjaj ; h1=La1

    En pasos sucesivos a2=LTh1, h2=La2, . . .

    A= L

    T

    L matriz de autoridades a

    k+1=Aak

    H=LLT matriz de hubs hk+1=Hhk

    Eustasio del Barrio Las Matematicas de PageRank 25 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    47/64

    HITS

    Se refina puntuacion hub: hi =

    j:PiPjaj ; h1=La1

    En pasos sucesivos a2=LTh1, h2=La2, . . .

    A= LTL matriz de autoridades ak+1

    =Aak

    H=LLT matriz de hubs hk+1=Hhk

    ak a; hk h; autovectores

    Eustasio del Barrio Las Matematicas de PageRank 25 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    48/64

    HITS

    Se refina puntuacion hub: hi =

    j:PiPjaj ; h1=La1

    En pasos sucesivos a2=LTh1, h2=La2, . . .

    A= LTL matriz de autoridades ak+1

    =Aak

    H=LLT matriz de hubs hk+1=Hhk

    ak a; hk h; autovectores

    a,h no bien definidos si A, H reducibles

    Eustasio del Barrio Las Matematicas de PageRank 25 / 31

    Analisis de enlaces

    Problema reducido si se calculan a,h sobre grafo asociado a

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    49/64

    query+vecinos

    Eustasio del Barrio Las Matematicas de PageRank 26 / 31

    Analisis de enlaces

    Problema reducido si se calculan a,h sobre grafo asociado a

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    50/64

    query+vecinos

    HITS da dos rankings interesantes

    Eustasio del Barrio Las Matematicas de PageRank 26 / 31

    Analisis de enlaces

    Problema reducido si se calculan a,h sobre grafo asociado a

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    51/64

    query+vecinos

    HITS da dos rankings interesantes

    ranking es query-dependent; demasiada computacion por consulta

    Eustasio del Barrio Las Matematicas de PageRank 26 / 31

    Analisis de enlaces

    Problema reducido si se calculan a,h sobre grafo asociado ai

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    52/64

    query+vecinos

    HITS da dos rankings interesantes

    ranking es query-dependent; demasiada computacion por consulta

    A, Hno estocasticas; modificaciones posibles

    Eustasio del Barrio Las Matematicas de PageRank 26 / 31

    Analisis de enlaces

    Problema reducido si se calculan a,h sobre grafo asociado a+ i

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    53/64

    query+vecinos

    HITS da dos rankings interesantes

    ranking es query-dependent; demasiada computacion por consulta

    A, Hno estocasticas; modificaciones posibles

    SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)

    Eustasio del Barrio Las Matematicas de PageRank 26 / 31

    Analisis de enlaces

    Enganando a PageRank

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    54/64

    PageRank asume buena fe en enlaces y paginas (dont be evil)

    Eustasio del Barrio Las Matematicas de PageRank 27 / 31

    Analisis de enlaces

    Enganando a PageRank

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    55/64

    PageRank asume buena fe en enlaces y paginas (dont be evil)

    Manipular PageRank puede producir beneficios (rendimientopublicitario, divertirse un poco,. . . )

    Eustasio del Barrio Las Matematicas de PageRank 27 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    56/64

    Eustasio del Barrio Las Matematicas de PageRank 28 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    57/64

    Eustasio del Barrio Las Matematicas de PageRank 28 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    58/64

    Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

    Eustasio del Barrio Las Matematicas de PageRank 29 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    59/64

    Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

    Bomba desactivada; otras debilidades descubiertas

    Eustasio del Barrio Las Matematicas de PageRank 29 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    60/64

    Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

    Bomba desactivada; otras debilidades descubiertas

    El vector PageRank es estable; el ranking, no

    Eustasio del Barrio Las Matematicas de PageRank 29 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    61/64

    Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

    Bomba desactivada; otras debilidades descubiertas

    El vector PageRank es estable; el ranking, no

    SEOs, link farms

    Eustasio del Barrio Las Matematicas de PageRank 29 / 31

    Analisis de enlaces

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    62/64

    Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

    Bomba desactivada; otras debilidades descubiertas

    El vector PageRank es estable; el ranking, no

    SEOs, link farms

    Efecto de link farms controlable (?) analizando grafo

    Eustasio del Barrio Las Matematicas de PageRank 29 / 31

    Conclusiones

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    63/64

    Matematicas resuelven problemas; soluciones utiles en problemasconcretos

    Historia no terminada: link farms, SEO, Google Panda, GooglePenguin,. . .

    Machine learning, BigData, Social Netwokrs, . . . areas activas deinvestigacion matematica/estadstica/informatica teorica yaplicada

    Tambien una gran fuente de empleo

    Eustasio del Barrio Las Matematicas de PageRank 30 / 31

    Referencias

    Libros:

    http://find/
  • 7/25/2019 Las Mat de PageRank Slides

    64/64

    Langville, A. N. y Meyer, C. D. (2006). Googles PageRank and

    Beyond: The Science of Search Engine Rankings. Princeton Univ. Press.Manning, C.D., Raghavan, P. y Schutze, H. (2008). Introduction toInformation Retrieval, Cambridge University Press.

    Bonato, A. (2008). A Course on the Web Graph. A.M.S. - Graduate

    Studies in Mathematics.

    Algorithms and Models for the Web-Graph. Lecture Notes in Computer

    Science. Springer. (9o workshop en 2012)

    Artculo:

    Langville, A. N. y Meyer, C. D. (2003). Deeper inside pagerank.Internet Mathematics, 1, 335380.

    Eustasio del Barrio Las Matematicas de PageRank 31 / 31

    http://find/