¿Qué es el Robots.txt y cómo configurarlo?

Escrito por: Agencia SEOlogy
¿Qué es el Robots.txt y cómo configurarlo? - SEOlogy Agencia

¡Bienvenido a SEOlogy, la agencia SEO que debiste contratar desde el principio! Si eres un apasionado de la tecnología y de la web, o si tienes una página en línea y necesitas ponerla a funcionar, seguro necesitarás saber qué es el archivo de robots.txt, para qué sirve y cómo lo puedes configurar.

Aquí trataremos todos los temas necesarios para que entiendas a la perfección qué es el robot.txt. ¡Empecemos!

¿Qué es el archivo robots.txt?

Cuando tenemos un sitio web, necesitamos que Google pueda entrar a las páginas de nuestro interés para rastrearlas.

Eso es un archivo robots.txt que está en nuestro dominio y que contiene toda la información que nos interesa que Google conozca.

Además, este archivo también se usa para impedirle a los rastreadores de Google que entren a los lugares de nuestra web que no queremos.

Según Google, esta es la definición exacta de los robots.txt: «Un archivo robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio web por sección y por tipos específicos de rastreadores web (como los rastreadores móviles o los rastreadores de ordenador)».

¿Para qué sirve el archivo robots txt?

Además de la función principal del robot.txt, aquí te contamos las especialidades:

  1. Controla el acceso a los archivos de imagen: Un archivo de robot.txt evita que las imágenes de la web aparezcan como resultados de búsqueda individuales.
  2. Controla el acceso a las páginas web: Además de bloquear el acceso a las páginas restringidas o irrelevantes, también ayuda a que el servidor no se abrume por la cantidad de resultados.
  3. Bloquear el acceso a los archivos de recursos: Robots.txt también puede bloquear el acceso a comandos y archivos de estilos poco importantes.

¿Cómo funciona robots.txt?

Robots.txt funciona de una manera mucho más simple de lo que uno se podría imaginar.

Partamos de que son líneas de código que le entregan recomendaciones, no órdenes, a los robots de Google para explicarle qué debe revisar y qué no.

Comandos de robots.txt

Para poder crear un archivo de robots.txt y para entender cómo funciona, hay que conocer los 4 grandes comandos. Aquí te los presentamos:

Comando disallow

Este comando es el encargado de decidir cuál son las páginas que no deben incluirse en los resultados de búsqueda en la SERP.

Para guiar a los robots de Google a que no accedan a la página “beta.php” de tu sitio, este es el comando que debes utilizar:

Disallow: /beta.php

También puedes bloquear el acceso a carpetas específicas con este comando:

Disallow: / archivos /

Existe la posibilidad de restringir el ingreso a un contenido en particular a través de la limitación del acceso a aquellos elementos que empiezan con una letra específica. Por ejemplo, si se desea impedir el acceso a todos los archivos y directorios que inicien con la letra “a”, se podría utilizar el siguiente comando:

Disallow: / a

Comando allow

Este es exactamente lo contrario al comando anterior: le cuenta a Google que páginas deseas indexar y mostrar en los resultados de búsqueda.

Si no tienes comando allow or disallow, las páginas se indexarán por configuracipon predeterminada, por lo que te recomendamos solo usarlo para indicar una páginas, archivo o carpeta específica dentro de un directorio bloqueado.

En caso de que se requiera restringir el acceso a una carpeta específica, pero a la vez permitir el ingreso a una página determinada, se puede utilizar un comando como el siguiente:

Disallow: / archivos /

Allow: /files/products.php

Si se desea bloquear el acceso a la carpeta “archivos”, pero se necesita permitir el acceso a la página “productos.php”, se puede utilizar el siguiente comando:

Disallow: / archivos /

Allow: / archivos / proyectos /

Comando sitemap

Este era uno de los comandos más útiles: le cuentas a Google cuál es tu sitemap.

Sin embargo, ha caído en desuso porque se puede hacer de maneras mucho más sencillas.

Comando user-agent

Es posible establecer instrucciones particulares para cada robot de búsqueda del mercado dentro del archivo robots.txt mediante la utilización del comando User-agent, que permite identificar a qué robot se está haciendo referencia.

Si se desea conocer el nombre específico de cada User-agent, se puede consultar la base de datos de Web Robots, la cual presenta un listado de los robots de búsqueda más destacados de la industria.

Es importante destacar que Googlebot es el robot de búsqueda principal utilizado por el motor de búsqueda de Google.

Si quieres darle órdenes específicas, el comando que debes ingresar en tu robots.txt sería este:

User-agent: Googlebot

En cambio, si quieres dejar órdenes específicas para el robot de búsqueda de Bing, el comando es este:

User-agent: Bingbot

¿Cómo crear robots.txt?

Para crear un robots.txt debes tener acceso a la raíz del dominio y subir el archivo en formato de texto (txt).

Cuando esté subido con todos los comandos necesarios, revisa que esté bien configurado en Google Search Console.

Tabla de Contenidos
    Add a header to begin generating the table of contents
    Scroll to Top