Upload
doankhanh
View
217
Download
0
Embed Size (px)
Citation preview
El Álgebra Lineal detrás de los buscadoresde internet
Carlos D’Andrea
26 / 09 / 2012
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Bloques temáticos de Álgebra (EI)
Sistemas lineales de ecuacionesMatrices & determinantesEspacios vectorialesSubespacios, transformaciones lineales, ...PolinomiosNúmeros complejosVectores y valores propios – Diagonalización
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Álgebra Lineal en la Informática
Agrupamiento y clasificación de datosProgramación gráficaRedes socialesSistemas de recomendaciónReconocimiento de formas (música, huellas, fotografías)Inteligencia artificial
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
¡Todo esto lo verán después!
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
El álgebra lineal detrás de
Google es una variación de la palabra “googol”, que es elnúmero 10100
Es un buscador de internetFue diseñado en 1998 por dos alumnos de doctorado eninformática en Stanford: Sergei Brin y Lawrence PageAtiende alrededor de 200.000.000 de consultas diarias, tienemás de 54.000 empleados en todo el mundo
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
¿Qué es un buscador de internet?
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Trabajo básico de un buscador de internet
1 “Censar” las páginas de internet de acceso público2 Indexar los datos censados de acuerdo a su importancia con
respecto a las palabras claves3 Ordenar estos datos de acuerdo a su importancia conrespecto a las palabras claves
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
El algoritmo “PageRank”
Califica páginas indexadas de acuerdo a su “importancia”dentro de la redMarca registrada de GoogleLleva su nombre debido a su inventor Larry Page
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
El modelo PageRank
El universo de páginas de internet públicas es un gran grafodirigido donde
cada página web es un nodohay una arista orientada entre páginas que citan a otraspáginas
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
La “importancia” de una página web
Es alta sila citan muchas páginasLa citan páginas “importantes”
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Postulado PageRank
La importancia xj de la página Pj es proporcional a la sumade las importancias de las páginas que enlazan con Pj
0 · x1 +1 · x2 +1 · x3 +1 · x4 +1 · x5 = λ x10 · x1 +0 · x2 +1 · x3 +1 · x4 +1 · x5 = λ x21 · x1 +0 · x2 +0 · x3 +0 · x4 +1 · x5 = λ x30 · x1 +0 · x2 +1 · x3 +0 · x4 +0 · x5 = λ x41 · x1 +0 · x2 +0 · x3 +1 · x4 +0 · x5 = λ x5
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Un poco de Álgebra lineal
Si MI es la matriz de adyacencia del grafo de internet, entonces
MTI · x = λ · x
MI =
0 0 1 0 11 0 0 0 01 1 0 1 01 1 0 0 11 1 1 0 0
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
¡Vectores y valores propios!
MTI · x = λ · x
λ es la constante de proporcionalidad ↔ un valor propio deMT
I
x = (x1, x2, . . . , xN) es el vector de “importancias” de laspáginas censadas ↔ un vector propio de MT
I (asociado a λ)
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
“Democratizando” el modelo
Cada página tiene voto igual a 1 ↔ Matrices estocásticas
MI ,E =
0 0 1
2 0 12
1 0 0 0 013
13 0 1
3 013
13 0 0 1
313
13
13 0 0
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Una sesión de Mathematica
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
¿Es verdad que...
siempre tiene valores propios reales MTI ,E?
siempre hay un vector propio con todas sus coordenadas nonegativas?hay única solución a este problema???
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Eso no es... verdad
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Teorema (Perron– Frobenius (1907–1912))
Supongamos que M tiene entradas no negativas y además esirreducible. Entonces
existe un valor propio simple λ > 0 tal que M · x = λ · x, conx > 0este valor propio es mayor o igual, en módulo, que todos losdemás valores propios de Mcualquier otro vector propio positivo de M es un múltiploescalar de x
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Matrices irreducibles
Una matriz cuadrada se dice irreducible si no existe ningunapermutación de sus filas y columnas que la transforme en(
M11 A12
0 M22
),
con M11 y M22 matrices cuadradas
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Matriz irreducible ↔ grafo “fuertemente” conexo
Si se trata de la matriz de incidencia de un grafo dirigido, serirreducible significa que dos nodos cualesquiera estan conectadospor un camino (dirigido)
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
¿Es el grafo de internet fuertemente conexo?
¡Ni siquiera es conexo!Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Solución “a la Google”
“Perturbamos” la matriz MI ,E y la hacemos irreducible:
McI ,E := c MI ,E + (1− c)U
c es un parámetro entre 0 y 1 (cgoogle ≈ 0, 85)
U =
1N
1N . . . 1
N...
......
...1N
1N . . . 1
N
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Corolario: todo grafo dirigido tiene su importancia
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
0, 85
0 1 0 0 0 00 0 1
212 0 0
0 0 0 0 0 00 0 0 0 1
212
0 0 0 0 0 10 0 1 0 0 0
+ 0, 15
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
=
0, 025 0, 875 0, 025 0, 025 0, 025 0, 0250, 025 0, 025 0, 45 0, 45 0, 025 0, 0250, 025 0, 025 0, 025 0, 025 0, 025 0, 0250, 025 0, 025 0, 025 0, 025 0, 45 0, 450, 025 0, 025 0, 025 0, 025 0, 025 0, 8750, 025 0, 025 0, 875 0, 025 0, 025 0, 025
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Del existencialismo al Cálculo
El grafo de internet tiene más de un billón de nodos.... ¿cómo secalcula el vector propio de importancias?
Métodos NuméricosCarlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Teorema 1 (Perron, 1907)
Si M tiene todos sus coeficientes positivos, entoncesexiste un valor propio simple λ > 0 tal que M · x = λ · x, conx > 0este valor propio es mayor, en módulo, que todos los demásvalores propios de Mcualquier otro vector propio positivo de M es un múltiploescalar de x
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Método de las potencias (usado por Google)
Si hay un único valor propio λ de módulo máximo entonces,consideremos la siguiente sucesión
x0= cualquier vector de RN
xn+1 = M·xn‖M·xn‖
Entonceslimn→∞xn = x
limn→∞‖M·xn‖‖xn‖ = λ
con probabilidad 1
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Google y PageRank
El objetivo de Brin y Page era que al menos una de las diezprimeras páginas que se muestren contenga información útilpara el que consultaEn mayo de 2011 Google consiguió superar los mil millones devisitantes por mesEn el último reporte anual (2011) los activos de la compañíaestaban valorados en U$D 37.905.000.000El algoritmo PageRank fue patentado por la Universidad deStanford, y Google tiene derechos exclusivos sobre esa patente.Desde febrero de 2011 Google utiliza “Google Panda”, lasegunda generación del PageRank
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
Otras aplicaciones del PageRank
Clasificación para las eliminatorias de la NBAModelos de evolución de ecosistemasAnálisis de redes de proteínasAlternativa al ISI impact factor
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
“The $25, 000, 000, 000 Eigenvector: The LinearAlgebra behind Google”, Kurt Bryan & Tanya Leise, SiamReview 48 (3), 569–581, 2006“Les Matemàtiques de Google: l’algorismePageRank”, Joan Gimbert, Butlletí de la Societat Catalana deMatemàtiques, Vol 26, 1, 2011, 29–55“El secreto de Google y el Álgebra Lineal”, P.Fernández, Bol. Soc. Esp. Mat. Apl. 30 (2004), 115–141
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
¿Qué hemos aprendido hoy?
Álgebra linealTeoría de grafosMatrices estocásticasCálculo numéricoAnálisis funcionalAlgoritmos de búsqueda
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
¿Qué es la ingeniería?
... es la actividadde trasformar elconocimiento enalgo práctico
Carlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet
http://atlas.mat.ub.es/personals/dandreaCarlos D’Andrea
El Álgebra Lineal detrás de los buscadores de internet