16
Daniel Atuesta Rodríguez PageRank: El Algoritmo de Google

Page rank el algoritmo de google

Embed Size (px)

Citation preview

Page 1: Page rank  el algoritmo de google

Daniel Atuesta Rodríguez

PageRank: El Algoritmo de Google

Page 2: Page rank  el algoritmo de google

Contenido

Introducción 3

¿Qué es PageRank? 3

Escala del PageRank 4

¿Cómo funciona? 5

¿Cómo Google Indexa los Resultados? 6

¿Para qué sirve el PageRank? 14

Conclusiones 15

Referencias 16

Page 3: Page rank  el algoritmo de google

3 I PageRank: El Algoritmo de Google

Introducción El termino PageRank hace referencia a una patente de Google, que fue creada e introducida por Larry Page y Sergey Brin (Desarrolladores de Google) en el año 1999. Dicha patente se basa en una serie de algoritmos matemáticos los cuales son utilizados para ordenar de forma numérica la importancia de las distintas paginas web que se pueden encontrar en el motor de búsqueda. Google asigna un valor numérico a cada uno de los enlaces que apuntan a una página y la suma de todos estos da el PageRank. Es una medida que va del cero al diez y así se conoce la relevancia de una página web que utiliza Google.

¿Qué es PageRank?

El PageRank es un sistema de valoración para medir la relevancia de una página web teniendo en cuenta la cantidad y la calidad de los enlaces que apunten a la página web.

El PageRank es utilizado por Google para determinar la relevancia de una página web. Cuantos mas votos tenga una página web, mas importante es para Google.

Page 4: Page rank  el algoritmo de google

4 I PageRank: El Algoritmo de Google

Escala del PageRank

Imagen 1, tomada de: http://seoafeira.com

Breve explicación de la escala del PageRank:

La escala del PageRank es exponencial, lo cual significa que cada ranking vale diez veces el anterior esto en términos de importancia (Vale la pena aclarar que es un valor aproximado). Lo que quiere decir que para tener un nivel cero de PR1 se debe tener una sola unidad de esfuerzo, para subir a PR nivel dos diez unidades de esfuerzo, para subir a PR nivel tres cien unidades de esfuerzo y así de forma sucesiva.

Aclarando esta interpretación, Google muestra una escala de uno a diez, la cual se puede interpretar de PR0 a PR10.

• PR0: La página está pendiente para ser evaluada e inspeccionada o ha sido penalizada.

1 PR: PageRank

Page 5: Page rank  el algoritmo de google

5 I PageRank: El Algoritmo de Google

• PR1: Este nivel de PageRank significa que la página ha sido evaluada e indexada y que parece ser correcta.

• PR2: La página web tiene potencial. • PR3: El PR3 significa que la página web tiene un buen contenido en su campo. • PR4: Este nivel de PageRank ya se refiere a paginas con notable relevancia y

consolidación, ya que deben ser destacadas del resto en su campo. • PR5: En este nivel es más probable salir en el primer puesto de las búsquedas

de Google. • PR6, PR7 y PR8: En este nivel del ranking es innegable la relevancia e

importancia de una pagina web en su campo. • PR9 y PR10: En este ranking solo están los grandes como Adobe, YouTube,

Google, etc. La valoración que existe entre todas las paginas de la World Wide Web asciende o desciende acorde a esta valoración.

¿Cómo Funciona? El PageRank tiene un orden, en el cual utiliza un sistema de links como indicador de relevancia de una página web determinada. Explicando brevemente lo anterior, Google interpreta un link de una página web “X” a una página web “Y” como si fuera un voto para la “Y”, pero también tiene en cuenta cuál es la página web que da el voto, lo que quiere decir que los votos de las paginas web con PageRank alto ayudan a destacar en ella otras paginas web. Cada link que apunta a una página web suma una cantidad numérica la cual calcula Google y de esta forma se aplica el PageRank. Es preciso resaltar que no solamente el número de links a una página web influye en el PageRank de esta, sino que se consideran también otro tipo de factores:

Page 6: Page rank  el algoritmo de google

6 I PageRank: El Algoritmo de Google

Por otra parte recientemente este algoritmo se ha actualizado y se denomina HUMMINGBIRD, este nombre fue escogido gracias a su rapidez.

¿Cómo Google Indexa los Resultados? Algoritmo inicial del PageRank

Donde:

• es el PageRank de la página A.

• d es un factor de amortiguación que tiene un valor entre 0 y 1.

Imagen 2, tomada de: http://www.educadictos.com

Page 7: Page rank  el algoritmo de google

7 I PageRank: El Algoritmo de Google

• son los valores de PageRank que tienen cada una de las páginas i que enlazan a A.

C(i) es el número total de enlaces salientes de la página i (sean o no hacia A).

Análisis de como Google indexa los resultados, con algunos ejemplos hipotéticos.

• Wikipedia

• PodMathCast

• Youtube

• Facebook

• Uplamatemática

Se asigna un 1 cuando una pagina esta relacionada con otra, como por ejemplo Wikipedia esta siendo llamada desde Youtube por medio de un link. En el caso contrario se asigna 0, en el caso de este ejemplo no existe ninguna relación desde Wikipedia hacia Podmathcast. Además cuando la pagina esta relacionada con sigo misma también se asigna 0. Como por ejemplo Wikipedia esta siendo relacionada con Wikipedia.

Page 8: Page rank  el algoritmo de google

8 I PageRank: El Algoritmo de Google

Completando la tabla, cuya diagonal serán solo ceros.

Esta matriz, ahora se identificara con la letra ℳ.

ℳ =

0 0 1 1 10 0 0 0 11 0 0 1 11 0 1 0 01 1 0 0 0

Luego se suman cada una de los términos (Columnas) de la matriz.

ℳ =

0 0 1 1 10 0 0 0 11 0 0 1 11 0 1 0 01 1 0 0 0

3 1 2 2 3

Page 9: Page rank  el algoritmo de google

9 I PageRank: El Algoritmo de Google

Se divide cada elemento de la matriz por la suma de la columna, la cual corresponda y de esta manera se obtendrá una matriz que se identifica con la letra M’.

ℳ ! =

0 0 1 2 1 2 1 30 0 0 0 1 31 3 0 0 1 2 1 31 3 0 1 2 0 01 3 1 0 0 0

El siguiente paso es encontrar los valores de un vector 𝓿 que represente el PageRank de cada una de las paginas. Como no se sabe cuanto vale, solo se muestran cinco valores para cada una de las paginas.

𝓋 = a, b, c, d, e

Asignación de letras según el orden que se asigno en la tabla de doble entrada:

• Wikipedia: a

• PodMathCast: b

• Youtube: c

• Facebook: d

• Uplamatemática: e

Este problema se llevara a uno de autovalores y autovectores, en donde 𝓿 es el autovector y λ el autovalor el cual es un número real.

Multiplicar la matriz ℳ! por el vector 𝓋.

Page 10: Page rank  el algoritmo de google

10 I PageRank: El Algoritmo de Google

ℳ! 𝓋 = 𝜆 𝐼!𝓋

Donde: 𝝀 ∈ ℝ

Se suma el inverso aditivo a λ Identidad de la derecha, obteniendo el resultado:

Suma del inverso de 𝜆 𝐼!𝓋

ℳ ! 𝓋 − λ I!𝓋 = λ I!𝓋 − λ I!𝓋

El cual se factoriza por el vector V

Reordenar términos =0

ℳ ! 𝓋 − 𝜆 𝐼!𝓋 = 𝜆 𝐼!𝓋 − 𝜆 𝐼!𝓋 Se factoriza por el vector 𝓋

(ℳ ! − λ I!)𝓋 = 0

Esto pertenece a un sistema homogéneo.

Reemplazando las matrices y el vector correspondiente en la ecuación se obtiene lo siguiente.

0 0 1 2 1 2 1 30 0 0 0 1 31 3 0 0 1 2 1 31 3 0 1 2 0 01 3 1 0 0 0

λ 0 0 0 00 λ 0 0 00 0 λ 0 00 0 0 λ 00 0 0 0 λ

abcde

= 0

Page 11: Page rank  el algoritmo de google

11 I PageRank: El Algoritmo de Google

Se resta la matriz ℳ ! a la matriz Identidad 𝝀

−λ 0 1 2 1 2 1 30 −λ 0 0 1 31 3 0 −λ 1 2 1 31 3 0 1 2 −λ 01 3 1 0 0 −λ

abcde

= 0

Luego se determina el valor de ℳ ! y de 𝜆 𝐼! para hallar el valor de 𝜆

ℳ ! − 𝜆 𝐼! =

−𝜆 0 1 2 1 2 1 30 −𝜆 0 0 1 31 3 0 −𝜆 1 2 1 31 3 0 1 2 −𝜆 01 3 1 0 0 −𝜆

Se iguala a cero

ℳ ! − λ I! =

−λ 0 1 2 1 2 1 30 −λ 0 0 1 31 3 0 −λ 1 2 1 31 3 0 1 2 −λ 01 3 1 0 0 −λ

= 0

Se obtiene el siguiente polinomio de la operación anterior.

λ! +37λ!

36+2λ!

9+7λ36

−118

= 0

De lo anterior se obtienen 5 posibles valores de 𝝀

λ! = 1

Page 12: Page rank  el algoritmo de google

12 I PageRank: El Algoritmo de Google

λ! = −23

λ! = −12

λ! = −13

λ! =13

De los posibles valores, se toma cuyo valor absoluto sea el mayor, en este caso λ! = 1

λ = Max λ! = λ! = 1

Ya que se encontró el valor de 𝛌, reemplazando en el resultado anterior, en donde se obtiene

ℳ ! − 𝜆 𝐼!

−1 0 1 2 1 2 1 30 −1 0 0 1 31 3 0 −1 1 2 1 31 3 0 1 2 −1 01 3 1 0 0 −1

Ahora se multiplica por el vector 𝓋

ℳ ! − λ I! 𝓋 = 0

Page 13: Page rank  el algoritmo de google

13 I PageRank: El Algoritmo de Google

−1 0 1 2 1 2 1 30 −1 0 0 1 31 3 0 −1 1 2 1 31 3 0 1 2 −1 01 3 1 0 0 −1

abcde

= 0

Se resuelve

ℳ ! − 𝜆 𝐼! 𝓋 = 0

−𝑎 + 𝑐 2 + 𝑒 3 + 𝑑 2−𝑏 + 𝑒 3

𝑎 3 − 𝑐 + 𝑒 3 + 𝑑 2𝑎 + 3 + 𝑐 2 − 𝑑𝑎 3 + 𝑏 − 𝑒

= 0

De esta manera, se ha obtenido un vector que representa cinco incógnitas y cinco ecuaciones igualadas a 0.

−𝑎 + 𝑐 2 + 𝑒 3 + 𝑑 2 = 0−𝑏 + 𝑒 3 = 0

𝑎 3 − 𝑐 + 𝑒 3 + 𝑑 2 = 0𝑎 + 3 + 𝑐 2 − 𝑑 = 0𝑎 3 + 𝑏 − 𝑒 = 0

Las soluciones al sistema de ecuaciones anterior son las siguientes

a = 6b = 1

c = 16/3d = 14/3e = 3

Page 14: Page rank  el algoritmo de google

14 I PageRank: El Algoritmo de Google

Se reemplazan los valores obtenidos en el vector de incógnitas que planteamos al principio.

𝓋 = 𝑎, 𝑏, 𝑐,𝑑, 𝑒

𝓋 = 6, 1,163,143, 3

Sin embargo Google ordena de mayor a menor estos valores. De esta manera se le da un orden a las páginas.

𝓋 = a, c, d, e, b

𝓋 = 6,163,143, 3,1

Primer lugar a Wikipedia, segundo lugar Youtube, tercer lugar Facebook, cuarto UplaMatematica y finalmente PodMathCast.

Este es un proceso que en la realidad Google lo realiza con millones de páginas, lo hace a través de un método numérico.

¿Para qué sirve el PageRank? La calidad del contenido de una pagina web es algo que se debe tener en cuenta todo el tiempo cuando se navega en la Red. Precisamente el PageRank ayuda a conocer la relevancia de una pagina web y poder confiar en la excelencia del contenido incluido en la mencionada página web.

Page 15: Page rank  el algoritmo de google

15 I PageRank: El Algoritmo de Google

• El PageRank es uno de los factores primordiales del algoritmo de Google, que sirve para que una página salga más arriba en los resultados de este motor de búsqueda.

• Google indexa mas contenido de una página web si esta tiene PageRank alto.

• Por medio del PageRank se puede conocer la relevancia que tiene para Google una página web.

• La relevancia de cada página web en el PageRank depende de los links que incluye o recibe.

Conclusiones En este punto vale la pena mencionar que Google posee componentes (Googlebot) para detectar cuando una página usa procesos ilegales para mejorar su posicionamiento. De todas formas, lo mas útil es que muchas páginas web enlacen a otra pagina web y seria mejor si son relevantes y de la misma materia.

En conclusión Google usa el PageRank como una tecnología que mide la relevancia de las paginas web ya que una página web con relevancia vale mucho más que una página web que no la tiene, debido a que posicionarse en un PR alto, se debe mas a la calidad que a la cantidad, pues cuantos mas enlaces apunten a una pagina web mas alto será el PR.

Page 16: Page rank  el algoritmo de google

16 I PageRank: El Algoritmo de Google

Referencias

• Qué es el Pagerank y para qué sirve. Tomado de: http://seoafeira.com

• Jean Carlo Rodríguez (2014). La importancia del PageRank. Tomado de: http://www.weblogseo.com/la-importancia-del-pagerank/

• Page, Lawrence and Brin, Sergey and Motwani, Rajeev and Winograd, Terry (1999) The PageRank Citation Ranking: Bringing Order to the Web. Unique to ILPubs Technical Report. Stanford InfoLab. Tomado de: http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf

• Montserrat Peñarroya Helena Casas (2014-2015). Cómo ser primeros en Google sin pagar: Posicionamiento natural en buscadores. Tomado de: https://books.google.es/books?id=3rBhCgAAQBAJ&pg=PT47&dq=articulo+de+algoritmo+de+google+pagerank&hl=es-419&sa=X&ved=0CC0Q6AEwAWoVChMItcy3sKjqyAIVi4YaCh1vyQ8A#v=onepage&q=articulo%20de%20algoritmo%20de%20google%20pagerank&f=false

• Francisco J. Gayet Canós. ¿Crisis? Ni en tu casa ni en la mía. Tomado de: https://books.google.es/books?id=l--SAwAAQBAJ&pg=PA133&lpg=PA133&dq=cual+es+el+objetivo+del+pagerank+de+google&source=bl&ots=TBuANqcnxs&sig=EHXpSi6O-2_6bh5tu04OsBopcrQ&hl=es-419&sa=X&ved=0CFQQ6AEwCGoVChMIgbb2mMnqyAIVgg4aCh2MrALl#v=onepage&q=cual%20es%20el%20objetivo%20del%20pagerank%20de%20google&f=false