Guía técnica: Robots.txt, el Portero

Si el Sitemap es el mapa que le entregas al visitante, el Robots.txt es el equipo de seguridad que decide quién entra y a qué zonas restringidas.

Muchos negocios subestiman este archivo de texto plano (.txt), pero como Business Engineer, debes verlo bajo una óptica de eficiencia de capital. Cada visita de un bot consume CPU, memoria y ancho de banda. Si Googlebot gasta su tiempo (y tu dinero) rastreando páginas inútiles, no tendrá presupuesto para indexar tus productos nuevos.

Gestionar el robots.txt no es solo SEO; es gestión de infraestructura, seguridad y Crawl Budget.

El concepto clave: Crawl Budget (presupuesto de rastreo)

Google no tiene recursos infinitos. Asigna un “presupuesto” de tiempo y peticiones a tu sitio basado en tu autoridad (PageRank) y la velocidad de tu servidor.

Si tienes un E-commerce con 10.000 productos, pero tu arquitectura genera 1 millón de URLs basura por filtros (?color=rojo&talla=L&orden=precio), Google gastará su presupuesto en esa “basura” y dejará tus fichas de producto principales sin actualizar.

El Robots.txt es la herramienta para decirle a Google: “No pierdas tiempo aquí, enfócate en lo que genera ventas”.

Sintaxis y lógica de negocio

El archivo vive estrictamente en la raíz (tudominio.com/robots.txt). Su estructura se basa en “grupos” de instrucciones dirigidas a agentes específicos.

1
User-agent: *
2
Disallow: /admin/
3
Allow: /admin/login.php

Los comandos esenciales

User-agent:: A quién le hablas.
- *: A todos los bots (comodín).
- Googlebot: Al rastreador principal de Google.
- GPTBot: Al rastreador de OpenAI (ChatGPT).
Disallow:: Dónde NO pueden entrar.
Allow:: Una excepción dentro de una carpeta bloqueada (solo Google y Bing entienden esto bien).
Sitemap:: La ubicación de tu mapa XML (fundamental para cerrar el ciclo de descubrimiento).

El matiz técnico: La barra inclinada (`/`)

Aquí es donde los principiantes fallan. La precisión importa:

Disallow: /fish -> Bloquea /fish, /fish.html, /fishing, /fisherprice.
Disallow: /fish/ -> Bloquea solo la carpeta /fish/ y su contenido.

Consejo

Si quieres bloquear una carpeta, usa siempre la barra al final para evitar bloquear URLs parecidas por accidente.

Estrategias de bloqueo avanzadas

Aquí pasamos de la teoría a la táctica de mercado.

1. E-commerce: La guerra contra los parámetros

Las tiendas online sangran presupuesto de rastreo por la navegación por facetas. Debes bloquear los parámetros que no cambian el contenido SEO.

1
User-agent: *
2
# Bloquear filtros de ordenamiento y visualización
3
Disallow: /*?sort=
4
Disallow: /*?order=
5
Disallow: /*?limit=
6
# Bloquear identificadores de sesión (Session IDs)
7
Disallow: /*?sid=
8
# Bloquear búsquedas internas (Google odia indexar resultados de búsqueda)
9
Disallow: /buscar/

2. Protección de propiedad intelectual (Anti-AI)

En 2026, la preocupación es que las IAs se entrenen con tu contenido sin darte tráfico a cambio. Si tu modelo de negocio depende de la exclusividad de tus datos (ej. medios, consultoras), bloquea a los recolectores.

1
User-agent: GPTBot
2
Disallow: /
3

4
User-agent: CCBot
5
Disallow: /
6

7
User-agent: Google-Extended
8
Disallow: /

Nota

Google-Extended permite que tu sitio aparezca en la búsqueda de Google (Gemini Search), pero evita que usen tus datos para entrenar modelos futuros.

3. Contra-inteligencia (Bloquear herramientas SEO)

Herramientas como Ahrefs, Semrush o Majestic rastrean tu web agresivamente para vender esos datos a tu competencia (backlinks, keywords, estructura).

Beneficio 1: Reduces carga del servidor (son bots muy agresivos).
Beneficio 2: Dificultas que la competencia audite tu estrategia fácilmente.

1
User-agent: AhrefsBot
2
Disallow: /
3

4
User-agent: SemrushBot
5
Disallow: /

La jerarquía de poder (cómo lee Google las reglas)

Este es el error técnico más común. Google no lee el archivo de arriba a abajo parando en la primera coincidencia (como un firewall tradicional). Google sigue la regla más específica (la más larga).

El conflicto:

1
User-agent: *
2
Disallow: /productos/  (Bloquea toda la carpeta)
3
Allow: /productos/zapatillas/ (Permite esta subcarpeta)

En este caso, aunque Disallow está primero, Google entrará a /zapatillas/ porque la regla Allow tiene más caracteres (es más específica). Gana la longitud, no el orden.

Errores que destruyen negocios

El desastre del entorno de pruebas (Staging): Es el clásico error de “copiar y pegar”. El equipo de desarrollo configura Disallow: / en el entorno de pruebas para evitar que Google indexe una web a medio terminar (correcto), pero luego despliegan ese mismo archivo a producción sin eliminar la línea.
- Consecuencia: Le ordenas a Google que elimine todo tu negocio de sus resultados.
Parece caricaturesco, pero sucede en las grandes ligas. En un próximo post hablaré de cómo viví este suceso con VTR, una de las Telcos más grandes de Latam. Como líder del proyecto SEO para VTR desde la consultora externa, tuve que gestionar la crisis de una desindexación masiva causada por el equipo de TI de VTR. Spoiler: recuperarse no es instantáneo.
Bloquear recursos de renderizado: Nunca bloquees carpetas /css/, /js/ o /fonts/. Google necesita “ver” la página tal como la ve un usuario. Si bloqueas el CSS, Google verá tu web como un texto roto de 1995 y te penalizará por mala experiencia móvil (“Mobile Friendly”: No).
Seguridad por oscuridad: El archivo robots.txt es público. No escondas tu /admin-secreto-financiero/ aquí, porque estás anunciando a los hackers exactamente dónde está la puerta trasera. Protege esas carpetas a nivel de servidor, no con un archivo de texto.

Validación y flujo de trabajo

Antes de subir cambios a producción, verifica la sintaxis. Un error de dedo (typo) puede costar millones en ventas perdidas.

Importante (Protocolo de Seguridad)

Edita el archivo en local.
Pásalo por el Validador de robots.txt en Google Search Console.
Sube el archivo.
Crucial: Revisa el informe de “Páginas bloqueadas” en GSC una semana después para asegurar que no bloqueaste nada vital por error.

Hacks: arquitectura y defensa activa

Aquí es donde nos separamos de los aficionados. En un entorno empresarial, el robots.txt no debería ser un archivo estático, sino una pieza de software dinámica.

1. El “kill-switch” automático (la solución al error humano)

Para evitar el desastre de desindexación (caso VTR), la solución es programática. El archivo debe generarse al vuelo leyendo las variables de entorno.

La lógica (pseudocódigo backend):

1
const env = process.env.ENVIRONMENT; // 'production' o 'staging'
2

3
if (env === 'production') {
4
  serveRobotsTxt({
5
    UserAgent: '*',
6
    Disallow: ['/admin/'],
7
    Sitemap: 'https://tudominio.com/sitemap.xml'
8
  });
9
} else {
10
  // En Staging: BLOQUEO TOTAL AUTOMÁTICO
11
  serveRobotsTxt({
12
    UserAgent: '*',
13
    Disallow: ['/']
14
  });
15
}

Importante (Advertencia Crítica: Caché)

Si implementas esto, debes purgar la caché de tu CDN (Cloudflare/AWS) automáticamente en cada despliegue (Deploy). Si no, podrías subir a producción y que el CDN siga sirviendo la versión antigua bloqueada de Staging durante horas.

2. El “Honeypot” (trampa para scrapers)

Los bots maliciosos ignoran el Disallow. Podemos usarlo para identificarlos.

La estrategia segura:

La trampa: Crea una ruta /trampa-bots/ y bloquéala en tu robots.txt.
El cebo: Coloca un enlace en el footer. No uses display: none (Google lo odia). Usa una clase CSS que mueva el enlace fuera de la pantalla (position: absolute; left: -9999px;).
La acción: Si una IP visita esa URL, no la bloquees de inmediato (podría ser un antivirus o un pre-fetcher del navegador).
- Nivel 1: Márcala como sospechosa (Log).
- Nivel 2: Si esa IP hace 10 peticiones más en menos de un segundo, entonces bloquéala en el Firewall.

El resultado: Filtras el tráfico basura sin afectar a Googlebot (que respeta las reglas y no entrará) ni a usuarios reales (que no ven el enlace).