
Photo by Kindel Media
Si administrás dominios con tráfico orgánico relevante, ya tenés visitas de bots de IA en tus server logs. Probablemente desde hace más de un año. La pregunta no es si están ahí, están. La pregunta es si estás leyendo esas visitas, y si lo que leés te dice algo útil.
Este artículo es para equipos de SEO en agencias que ya entienden el stack técnico y quieren una lectura operativa de los crawlers de IA: cómo identificarlos, qué patrones tienen, en qué se diferencian de Googlebot, y qué implicancias tiene cada diferencia para la estrategia GEO de los clientes que gestionás.
Los crawlers que importan hoy
Hay cinco bots de IA que tienen presencia real y frecuencia de crawl verificable en dominios con tráfico orgánico en LATAM:
GPTBot — el crawler de OpenAI. Alimenta el índice de búsqueda web de ChatGPT y contribuye al pre-entrenamiento de modelos futuros. Es el bot con mayor frecuencia de crawl documentada y el que más impacto tiene en citaciones de ChatGPT Search. User agent: GPTBot/1.1.
ClaudeBot — el crawler de Anthropic. Activo desde mediados de 2023, frecuencia de crawl más conservadora que GPTBot pero con presencia verificable en dominios B2B. User agent: Claude-Web/1.0 (variantes según versión).
PerplexityBot — el crawler de Perplexity AI. De los tres, el que tiene la frecuencia más alta relativa a su base de usuarios — Perplexity depende más del RAG en tiempo real que de un índice propietario profundo, lo que significa que crawlea más activamente para cada query. User agent: PerplexityBot/1.0.
Google-Extended — la extensión de Googlebot específica para alimentar Gemini y Google AI Overviews. Comparte infraestructura con el Googlebot principal pero tiene su propio user agent y puede ser controlado independientemente. User agent: Google-Extended.
Amazonbot — el crawler de Amazon, relevante para Alexa y los modelos de lenguaje propios de AWS. Menor impacto en citaciones B2B por ahora, pero con presencia creciente. User agent: Amazonbot.
Cómo identificarlos en los logs
La lectura de server logs para bots de IA es análoga a la lectura para Googlebot, con una diferencia importante: los volúmenes son menores y la frecuencia es menos predecible, así que los patrones no saltan tan fácilmente en un análisis de alto nivel. Hay que filtrar explícitamente.
En un archivo de log Apache o Nginx estándar, buscás por user agent:
bash
# GPTBot
grep -i "GPTBot" /var/log/nginx/access.log
# ClaudeBot
grep -i "ClaudeBot\|Claude-Web" /var/log/nginx/access.log
# PerplexityBot
grep -i "PerplexityBot" /var/log/nginx/access.log
# Google-Extended
grep -i "Google-Extended" /var/log/nginx/access.log
Para un análisis de frecuencia y timing, lo más útil es extraer timestamp + URL + user agent y procesarlo en una hoja de cálculo o con un script básico. Lo que buscás:
- Intervalo entre visitas: cuántos días pasan entre crawls del mismo bot al mismo dominio
- Páginas priorizadas: qué URLs crawlea primero en cada visita — eso te dice qué está considerando como contenido relevante
- Profundidad de crawl: cuántas páginas por sesión de crawl, y si llegó a páginas de producto/servicio o solo a las de entrada
El intervalo entre visitas es el dato más estratégico para GEO: te dice cuánto tiempo tenés entre el momento en que publicás contenido nuevo o actualizás schema y el momento en que el bot lo incorpora a su índice.
En qué se diferencian de Googlebot, y por qué esa diferencia importa
Los SEOs están acostumbrados a la lógica de Googlebot: crawl budget, priorización por PageRank, respeto por robots.txt, señales de frescura. Los bots de IA comparten algunas de esas características pero divergen en aspectos que cambian completamente la estrategia de optimización.
Diferencia 1: El objetivo del crawl
Googlebot crawlea para indexar y rankear. GPTBot y sus equivalentes crawlean para alimentar un modelo de lenguaje, el objetivo no es encontrar páginas relevantes para una query, sino extraer conocimiento estructurado sobre entidades, conceptos y relaciones.
En términos prácticos: Googlebot valora la autoridad de la página (DA, backlinks, signals de engagement). Los bots de IA valoran la legibilidad semántica del contenido, cuán claramente el texto define qué es tu empresa, qué hace, para quién, y cuáles son sus diferenciadores. Un dominio con DA 30 pero con schema JSON-LD bien implementado y contenido denso en entidades puede ser mejor fuente para un LLM que un dominio con DA 70 con contenido genérico y sin estructura semántica.
Diferencia 2: La frecuencia de crawl es menos predecible y más sensible al contenido
Googlebot tiene patrones de crawl relativamente estables que los SEOs aprendieron a anticipar. Los bots de IA tienen frecuencias más variables y hay evidencia de que la frecuencia aumenta cuando el dominio produce contenido nuevo con regularidad y cuando ese contenido es citado por otros dominios.
En dominios que monitoreamos con Lotus, los intervalos de GPTBot varían entre 7 y 21 días dependiendo de la actividad de contenido del dominio. Los dominios con publicación consistente y alta densidad de entidades estructuradas reciben visitas más frecuentes.
Diferencia 3: El manejo de robots.txt
GPTBot, ClaudeBot y PerplexityBot respetan robots.txt — esto está documentado por las tres compañías. Pero la directiva que los controla no es la misma que controla a Googlebot. Podés bloquear GPTBot explícitamente sin afectar el crawl de Google:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
Esto es relevante para clientes que tienen razones para no querer que su contenido alimente modelos de lenguaje, por ejemplo, dominios con contenido propietario que no quieren ver sintetizado por ChatGPT. La decisión no es trivial: bloquear el bot elimina también la posibilidad de ser citado.
Diferencia 4: No leen JavaScript por defecto
Googlebot ejecuta JavaScript, no perfectamente, pero lo hace. La mayoría de los bots de IA crawlean en modo simplificado: ven el HTML estático, no el contenido renderizado por JS. Si el sitio de un cliente depende de React, Vue o frameworks similares para renderizar contenido crítico y no tiene SSR o SSG configurado, ese contenido es invisible para los crawlers de IA aunque esté perfectamente indexado por Google.
Es uno de los gaps técnicos más comunes que encontramos en auditorías GEO de dominios con buen SEO pero baja citación en LLMs.
Lo que podés leer en los patrones de crawl
Una vez que tenés los logs filtrados y la frecuencia establecida, hay tres lecturas operativas que deberían informar tu estrategia GEO:
Lectura 1: ¿El bot está llegando a las páginas que importan?
Si GPTBot está crawleando el blog pero no las páginas de producto o servicio, el LLM tiene información sobre los temas que el cliente escribe, pero no sobre lo que vende. El schema de producto, los diferenciadores, el área de mercado, todo eso queda fuera del contexto RAG.
La solución no es solo publicar más contenido. Es asegurarse de que las páginas de mayor valor semántico estén enlazadas internamente desde las páginas que el bot ya visita, y que tengan el schema correcto para que el bot entienda su relevancia.
Lectura 2: ¿Cuánto tiempo después del crawl aparece el cambio en las respuestas del LLM?
Este es el dato más valioso para calibrar el ciclo de optimización GEO. Si publicás una actualización de schema el día 1, GPTBot la crawlea el día 8, y podés verificar que ChatGPT incorporó la información actualizada alrededor del día 12-15, tenés el ciclo completo medido.
Eso te permite planificar: si el cliente va a lanzar un producto nuevo o tiene un evento de industria, la optimización GEO tiene que estar implementada al menos un ciclo de crawl antes para que los LLMs la tengan disponible en el momento relevante.
Lectura 3: ¿La frecuencia de crawl está aumentando o disminuyendo?
Una caída en la frecuencia de visita de GPTBot puede indicar que el dominio dejó de producir contenido nuevo, que el bot encontró demasiados errores en visitas anteriores, o que el contenido existente no tiene suficiente densidad semántica para justificar crawls frecuentes.
Un aumento en la frecuencia generalmente correlaciona con publicación activa de contenido estructurado. Es una señal positiva, pero hay que cruzarla con las páginas visitadas para confirmar que el bot está llegando al contenido de valor y no solo al blog.
robots.txt y llms.txt: los dos archivos que definen tu política con los bots de IA
La mayoría de los dominios que auditamos tiene una de dos configuraciones para los bots de IA: o los tienen bloqueados sin haberlo decidido conscientemente (heredado de una directiva Disallow: / genérica), o los tienen sin ninguna política explícita.
Ninguna de las dos es una estrategia.
robots.txt: la decisión de permitir o bloquear cada bot de IA debería ser explícita y documentada. Para dominios B2B con estrategia GEO activa, la configuración por defecto debería ser permitir todos los bots de IA relevantes y controlar qué secciones pueden crawlear — por ejemplo, bloqueando áreas de cliente o contenido interno pero permitiendo todo el contenido público.
llms.txt: es el archivo complementario — no controla el acceso del bot, sino que le da instrucciones sobre cómo interpretar el dominio. Qué es la empresa, cuáles son sus productos, cuál es la audiencia, qué páginas son las más relevantes para entender la propuesta de valor. Es el equivalente de un sitemap semántico para LLMs.
La combinación de un robots.txt con política explícita para bots de IA y un llms.txt bien estructurado es el punto de entrada mínimo para cualquier auditoría GEO. Sin los dos, el trabajo de optimización de contenido y schema tiene un techo bajo — el bot puede crawlear bien pero sin el contexto narrativo que llms.txt provee, la representación que el modelo construye de la empresa es incompleta.
El dato operativo que más subestiman los equipos de SEO
La frecuencia de crawl de los bots de IA no es solo un dato de monitoreo. Es la variable que define el ciclo de intervención GEO.
En SEO, el ciclo de Googlebot es relativamente conocido y estable — los equipos planifican las actualizaciones de contenido con esa cadencia en mente. En GEO, el ciclo equivalente es la frecuencia de crawl del bot más relevante para la categoría del cliente.
Para un cliente en una categoría donde ChatGPT es el LLM dominante para las queries de compra, GPTBot crawleando cada 11 días significa que tenés 11 días entre cada oportunidad de actualizar lo que el modelo sabe sobre ese cliente. Si el competidor del cliente actualizó su schema ayer, va a tardar hasta 11 días en que GPTBot lo procese y eventualmente más en que el cambio se refleje en las respuestas de ChatGPT.
Esa ventana es tiempo de respuesta. Y el equipo que la está midiendo tiene una ventaja operativa real sobre el que no.
Lotus monitorea la frecuencia y el comportamiento de crawl de GPTBot, ClaudeBot, PerplexityBot, Google-Extended y Amazonbot para cada dominio cliente, y genera alertas cuando un competidor recibe un crawl que puede indicar cambios en su optimización GEO. Si trabajás en una agencia y querés ver cómo funciona en un dominio concreto, podés solicitarlo en lotus.clicon.app.
Martín Endara es fundador de Clicon y creador de Lotus, el primer AI Revenue Protection Engine para empresas B2B en LATAM. Con más de 15 años de experiencia en marketing digital y tecnología, trabaja con agencias en LATAM que quieren agregar GEO a su oferta de servicios.
¿Querés recibir insights sobre GEO, LLMs y el futuro del marketing B2B? Suscribite al blog de Clicon.