Introducción al "Crawling December" de Google Search Central
Google Search Central ha lanzado una nueva serie titulada "Crawling December" con el objetivo de ofrecer perspectivas detalladas sobre cómo Googlebot rastrea e indexa las páginas web. Durante este mes, Google publicará un artículo semanal explorando diversos aspectos del proceso de rastreo que, aunque no se discuten frecuentemente, tienen un impacto significativo en el rastreo de sitios web.
El primer artículo de la serie aborda los fundamentos del rastreo y revela detalles esenciales, aunque menos conocidos, sobre cómo Googlebot maneja los recursos de las páginas y gestiona los presupuestos de rastreo.
Fundamentos del Rastreo
Las páginas web actuales son complejas debido al uso avanzado de JavaScript y CSS, lo que las hace más difíciles de rastrear en comparación con las antiguas páginas solo HTML. Googlebot funciona como un navegador web, pero según un cronograma diferente.
Cuando Googlebot visita una página web, primero descarga el HTML desde la URL principal, que puede enlazar a JavaScript, CSS, imágenes y videos. Luego, el Servicio de Renderizado Web (WRS) de Google utiliza Googlebot para descargar estos recursos y crear la vista final de la página.
Aquí están los pasos en orden:
- Descarga inicial de HTML
- Procesamiento por el Servicio de Renderizado Web
- Obtención de recursos
- Construcción de la página final
Gestión del Presupuesto de Rastreo
Rastrear recursos adicionales puede reducir el presupuesto de rastreo del sitio web principal. Para ayudar con esto, Google indica que "WRS intenta almacenar en caché cada recurso (JavaScript y CSS) utilizado en las páginas que renderiza".
Es importante destacar que la caché del WRS dura hasta 30 días y no se ve influenciada por las reglas de caché HTTP establecidas por los desarrolladores.
Esta estrategia de almacenamiento en caché ayuda a ahorrar el presupuesto de rastreo del sitio.
Recomendaciones
Este artículo ofrece consejos a los propietarios de sitios sobre cómo optimizar su presupuesto de rastreo:
- Reducir el Uso de Recursos: Utiliza menos recursos para crear una buena experiencia de usuario. Esto ayuda a ahorrar presupuesto de rastreo al renderizar una página.
- Alojar Recursos por Separado: Coloca los recursos en un nombre de host diferente, como un CDN o subdominio. Esto puede ayudar a trasladar la carga del presupuesto de rastreo fuera de tu sitio principal.
- Usar Parámetros de Rompimiento de Caché con Cuidado: Ten cuidado con los parámetros de rompimiento de caché. Cambiar las URL de los recursos puede hacer que Google los revise nuevamente, incluso si el contenido es el mismo. Esto puede desperdiciar tu presupuesto de rastreo.
Además, Google advierte que bloquear el rastreo de recursos con robots.txt puede ser riesgoso.
Si Google no puede acceder a un recurso necesario para el renderizado, podría tener dificultades para obtener el contenido de la página y clasificarlo adecuadamente.
Herramientas de Monitoreo
El equipo de Search Central afirma que la mejor manera de ver qué recursos está rastreando Googlebot es revisando los registros de acceso brutos del sitio. Puedes identificar a Googlebot por su dirección IP utilizando los rangos publicados en la documentación de desarrolladores de Google.
Por Qué Esto Importa
Este post aclara tres puntos clave que impactan cómo Google encuentra y procesa el contenido de tu sitio:
- La gestión de recursos afecta directamente tu presupuesto de rastreo, por lo que alojar scripts y estilos en CDNs puede ayudar a preservarlo.
- Google almacena recursos durante 30 días, independientemente de tus configuraciones de caché HTTP, lo que ayuda a conservar tu presupuesto de rastreo.
- Bloquear recursos críticos en robots.txt puede ser contraproducente al impedir que Google renderice correctamente tus páginas.
Comprender estos mecanismos ayuda a los SEOs y desarrolladores a tomar mejores decisiones sobre alojamiento de recursos y accesibilidad, decisiones que impactan directamente en la eficacia con la que Google puede rastrear e indexar sus sitios.
Preguntas Frecuentes (FAQ)
- ¿Qué es Googlebot?
Googlebot es el rastreador web de Google que encuentra y recupera páginas web para agregarlas al índice de Google. - ¿Qué es un presupuesto de rastreo?
Es la cantidad de recursos que Google asigna para rastrear un sitio web. Administrarlo eficazmente puede mejorar la visibilidad del sitio en los resultados de búsqueda. - ¿Cómo puedo mejorar el rastreo de mi sitio web?
Optimiza el uso de recursos, aloja archivos en CDNs y asegúrate de que los archivos críticos no estén bloqueados por robots.txt. - ¿Qué es el Servicio de Renderizado Web (WRS) de Google?
Es un sistema que Google usa para descargar y procesar recursos como JavaScript y CSS para renderizar páginas web de manera similar a como lo haría un navegador moderno.Comprender y aplicar estas prácticas no solo mejorará el rastreo de tu sitio sino también su posición en los resultados de búsqueda, haciendo que tu contenido sea más accesible y visible para los usuarios en todo el mundo.