Javier Lorente Seonthebeach 2016

Preview:

Citation preview

Optimiza tu crawl budget desde la nube

#seonthebeach 2016

Javier Lorente Murillo

@javier_lorente

URLs totalesURLs rastreables

URLs rastreadas

URLs indexables

URLs indexadasURL

s posicionada

s

Pirámide con los tipos de URLs

Optimización básica• Todas las URLs de un servidor deben devolver un código de servidor

200, 301 o 404/410. Nada más, el resto = error.• Todos los links presentes en una web, deben apuntar a un 200.

TODOS, no deberíamos tener un solo link apuntando a una 301.• No debe haber 2 o más URLs con un alto % de contenido demasiado

parecido ni thin content.• Todas las URLs deberían llevar un canonical absoluto hacia si mismas.• Los trackins, etc. Mejor tras una # antes de la ? Pero, ojo! Mídelo.

Optimización Intermedia• Probamos diferentes configuraciones de rastreo

• Todo abierto, paginaciones con rel prev/next…• Nofollow para enlaces internos (crawl sculpting)• ¿Incluir meta noindex en algunos contenidos?• URLs o directorios capados mediante robots.txt• Mover contenidos a otros niveles de profundidad…

• ¿Nofollow, noindex, robots.txt, etc dinámicos en función de parámetros?..

Probar > medir > fallar > “corregir” > probar > volver a medir…

Las herramientas para más usadas

Botify & Deepcrawl & OnCrawl

• Son los 3 crawlers en la nube más potentes del mercado.

• Todas se conectan con Google Analytics & Search Console.

• Todas Segmentan las URLs, incluso con regex.

• Todas tienen URL Explorers más o menos avanzados.

Deepcrawl• De momento, la única capaz de rastrear una IP personalizada• La versión 3.0 que acaban de lanzar recientemente es muy potente y

no tiene nada que envidiar a Botify. Salvo la extensión de Chrome.• Rastrea Open Graphs, Twitter Cards, y ¿schema próximamente?• Rastrea las paginaciones con un filtro por defecto “exceptuando la 1ª”

Deepcrawl: configuración rastreo

Deepcrawl: rastrear dominios adicionales

Deepcrawl: rastrear recursos adicionales

Botify• Probablemente la herramienta más potente, con permiso de la v3 de

Deepcrawl. He visto rastreos a más de 150 URLs/s y de más de 50MM

• No tiene Open Graph, Twitter Cards ni Schema.org

• No existe posibilidad de NO rastrear el HTML de un error 404

• Tiene una extensión para Chrome maravillosa, una vez rastreado.

Botify: Informes muy visuales & URL Explorer

Botify: Chrome Extension

Oncrawl: Grupos automáticos & schema.org

Oncrawl: n-gramas

Safecont

Optimizer de Sistrix• Al igual que OnPage.org o Site Audit de SEMRUSH, no son

herramientas de rastreo específicas como las otras tres.

• Sin embargo, tiene la funcionalidad más potente de todas las vistas:

El BUSCADOR de código fuente

Para que sea perfecto solo tienen que agregar lógica booleana & export

La clave de la optimización avanzada

Oncrawl Log Analytics

Botify Log Analyzer

¿Qué echo en falta en las herramientas?

Una herramienta que no requiera rerastrear todo cada vez que plantee un cambio de estructura. Ejemplo: La posibilidad de simular niveles de profundidad medios con un robots.txt virtual.

¿Y algo que sea más fácil de programar?

Un script que te garantice que una migración va a ir bien:

- Se conecte a Google Analytics & Search Console & otras APIs para extraer las URLs que deberían redirigirse de tu dominio.

- Compruebe que efectivamente todas las URLs redirigen en un solo salto mediante una 301 a un 200, origen y destino son iguales y si tenías contenido pandalizable, devuelva error en origen ahorrándonos el casi siempre presente salto 301 > 404

¿Y entre los SEOs?

Demasiada reticencia en mucha gente a la hora de eliminar (o capar con robots) el contenido sin tráfico desde buscadores en los últimos tiempos

Para SEO es mejor no tener nada que URLs rastreadas y no posicionadas

GRACIAS

@javier_lorente

Recommended