▷¿Qué es el rastreo web en el SEO? Guía para dummies

Hace unos días tomaba un café con dos amigos: María (consultora de sostenibilidad y ajena al mundo SEO) y Antonio (experto en edición de vídeo y buen conocedor del SEO y del marketing digital).

La conversación acabó derivando hacia temas relacionados con la optimización web y el growth hacking. No faltaron términos como rastrear, desindexar, escrapear o rankear.

En un momento dado, María-que nos había estado escuchando con cara de extrañeza-no aguantó más y lanzó un "Estoy flipando. No entiendo nada."

Mi buena amiga no estaba familiarizada con nuestro peculiar argot.

El DRAE define el vocablo argot como "Jerga, jerigonza" y como "lenguaje especial entre personas de un mismo oficio o actividad."

Pues bien, uno de los grandes defectos de los SEOs y, en general, de cualquier oficio eminentemente técnico es dar por hecho que los clientes entienden nuestro argot.

A través de este blog trataré de explicar conceptos SEO de una manera resumida, simple y accionable, para que personas como María puedan entenderlos e incluso aplicarlos en sus proyectos web.

Hoy es el turno del concepto del rastreo web: la piedra fundacional del llamado SEO técnico.

¡Vamos allá!

Tabla de contenidos

¿Qué es el rastreo web?

¿Quién realiza el rastreo web?

¿Para qué sirve el rastreo web?

¿Cómo funciona exactamente el rastreo?

¿Cómo podemos optimizar el rastreo de una web?

Conclusión

¿Qué es el rastreo web?

En entre otras acepciones, mi querido DRAE define rastrear como "inquirir, indagar o averiguar algo, discurriendo por conjeturas o señales" y como "someter una zona a un examen detenido en busca de algo o de alguien".

Si proyectamos este concepto sobre el mundo web, podríamos concluir que es la acción de detectar y reconocer webs desarrollada por un bot con diversos fines.

"Eeeepa, Jaime, ¿y qué es un bot?"

Sigue leyendo.

¿Quién realiza el rastreo web?

Un bot, también llamado rastreador, araña o robot, es un programa informático automatizado que explora Internet en busca de todas las webs existentes (como ésta).

A esta acción de rastrear lo llamamos crawling o crawleo y es una labor que realizan continuamente los bots de los motores de búsquedas a través de las URLs (ej. https://www.webdeejemplo.com).

Nota: no solo los buscadores tienen crawlers. También ciertas herramientas cuentan con bots para reconocer estas webs con propósitos no siempre nobles.

El principal buscador de la actualidad es Google (¡más del 90% de las búsquedas proceden de él!), quien tiene diferentes rastreadores según el tipo de contenido:

Googlebot: el principal, encargado de reconocer sitios tanto en vista móvil como escritorio y archivos tan diversos como PDF, DOC, PPT...
Googlebot-Image: para imágenes y productos que dependen de imágenes.
Googlebot-News: para rastrear artículos de noticias.
Googlebot-Video: para vídeos y productos que dependen de videos.
...

Si quieres profundizar, puedes echar un vistazo a este artículo de Google que explica sus diferentes bots y su funcionamiento.

Otros buscadores minoritarios como Bing o Baidu también tienen sus propios bots con su correspondiente user agent (su "nombre" por así decirlo). En concreto, Bingbot y Baidu Spider.

"Vale,vale. ¿Y todo esto para qué?"

Tranqui. Sigue leyendo.

¿Para qué sirve el rastreo web?

Piensa en las URLs como la dirección de correo postal de tu web.

De la misma manera que el repartidor de Amazon sigue estos datos para encontrar tu domicilio y entregarte tu nueva freidora de aceite, los bots siguen esta URL para detectar tu web, entrar en ella (o no), entender su contenido, incluirlo (o no) en su índice para finalmente mostrarlo (o no) en los resultados de búsqueda.

En otras palabras, los buscadores rastrean, analizan e indexan para luego clasificar tu web según si resuelve mejor o peor la intención de búsqueda de un usuario. Grosso modo.

Y todo eso empieza por el dichoso crawling de los bots.

"Mmmm, creo que ya lo voy pillando, Jaime. Cuéntame más."

¿Cómo funciona exactamente el rastreo?

La función primordial de los bots de los buscadores pasa, por tanto, por hallar URLs.

¿Dónde las encuentra? Principalmente por los siguientes medios:

Enlaces externos presentes en otras webs y enlaces internos dentro de una misma web. En concreto, todo lo que aparezca en el código fuente de una web (el famoso código HTML) precedido por la etiqueta etiquetas <a href> será interpretado como una URL y será seguido por estos bots.
Sitemaps (un listado de las URLs rastreables de una web)
Revisitando URLs que ya conoce.

En los dos primeros casos, hablaremos de Descubrimiento, mientras que en el último hablaremos de Actualización.

El objeto de este rastreo, junto con su frecuencia, velocidad y volumen, viene determinado por los famosos algoritmos y dependerá del servidor donde esté alojada nuestra web, del estado de la red, de las reglas que introduzcamos en el archivo Robots.txt (algo así como el control de accesos de una discoteca pero en nuestra web), etc.

Te dejo con un vídeo de Matt Cuts (antiguo jefe del área antispam de Google) desarrollando esta idea:

Click para ver

Nota: Recuerda que el vídeo de Matt hace referencia al sistema de rastreo de Google, pero cada buscador tiene sus particularidades.

¿Cómo podemos optimizar el rastreo de una web?

Llegados a este punto, la tentación de que cualquier SEO sería ofrecer un listado de acciones de mejora a modo de checklist.

Error

Antes de acometer cualquier acción SEO, hemos de plantearnos si realmente lo que pretendemos mejorar está suponiendo un problema relevante en nuestra web.

De la misma manera que un médico realiza un diagnóstico para luego prescribir un tratamiento, un SEO debería analizar la dimensión de un problema para luego definir acciones de mejora. Para ello, resulta fundamental segmentar y priorizar por objetivos de negocio.

Click to Post

Así, una buena idea pasaría por agrupar la totalidad de las URL de nuestra web según distintos criterios (como zonas de las web, tipo de contenido o cualquier otro que nos resulte útil) para después ir filtrando las URLs de cada segmento con la misma lógica que el funcionamiento del buscador.

Para ello, haremos uso de herramientas que simulan el comportamiento de los bots de los buscadores (crawlers), como Screaming Frog, Lumar o Sitebulb, en paralelo a una configuración de los segmentos en las herramientas de analítica, como Google Analytics 4 y Google Search Console.

Si trabajamos los datos de estas herramientas, obtendremos una idea más visual y detallada del estado de todas los elementos del SEO técnico, incluido el rastreo.

Captura real de una auditoría SEO

En el supuesto de la imagen, observamos que casi el 25% de las URLs subidas al Sitemap ofrecen un código respuesta diferente al 200 (el normal, para que no entendamos), concentrándose principalmente en dos segmentos estratégicos de la web.

¿Deberíamos revisarlas? Dependerá de si hay otras acciones más relevantes y del impacto previsible en el negocio. Bienvenido al mundo de la priorización.

Como ves, esta visión estratégica del SEO va mucho más allá de las típicas acciones aleatorias y genéricas que rondan por la web del tipo: optimiza el robots.txt, elimina páginas huérfanas, revisa la arquitectura web, etc.

Nota: esto aplica no sólo para el rastreo, sino para cualquier área del puzzle SEO (mi metodología de trabajo heredada de Webpositer de la que te hablaré algún día).

Conclusión

El rastreo es la piedra fundacional del SEO, pues el funcionamiento de los motores de búsqueda parte de la premisa de que sus bots accedan a nuestra web.

Su optimización y seguimiento deben ser, por tanto, una prioridad para cualquier profesional del SEO.

Sin embargo, no hemos de contemplarlo de manera aislada, sino como parte de una estrategia global que tenga en cuenta las prioridades del negocio.

Sólo así podremos poner el foco en las acciones más relevantes y evitar perder destinar recursos a acciones que no se traducirán en resultados reales.

¿Lo entiendes ahora, María?

Share0

Tweet0

Share0

Sobre el autor, JR Carlón

Consultor SEO y diseñador web freelance. Creo que la mejor optimización es la de uno mismo. En los días que Google no hace un update, puedes encontrarme jugando capoeira o entrenando em mi home gym.