El robots.txt es un archivo de texto que se usa para indicar a los rastreadores de los motores de búsqueda qué páginas o archivos de un sitio web pueden o no pueden acceder. El robots.txt se coloca en la raíz del sitio web, por ejemplo, www.ejemplo.com/robots.txt.
Este archivo sigue el estándar de exclusión de robots y contiene una o más reglas. Las funciones principales son: primero especifican el agente de usuario (el nombre del rastreador), segundo indica el camino que se permite o se bloquea y tercero indican la ruta (opcional) de la ubicación del mapa del sitio.
Este útil archivo se usa principalmente para evitar sobrecargar el sitio web con solicitudes de los rastreadores. También sirve para evitar que se indexen páginas o archivos no importantes o similares.Antes de entrar en materia, es importante que refresquemos los conceptos sobre user-agent y un sitemap.
Un user-agent es un software que se comunica con los servidores en una red. Adicionalmente actúa como un intermediario entre el usuario y el servidor web, al igual que un agente humano. El user-agent envía una cadena de caracteres que identifica el tipo, la versión, el sistema operativo y otras características del software. Esto permite al servidor web adaptar el contenido o el formato de la página web según las capacidades o preferencias del user-agent.
Mientras que el sitepmap es un archivo que muestra la estructura de un sitio web, incluyendo las páginas, las imágenes y los archivos que lo componen. Un sitemap ayuda a los motores de búsqueda a encontrar e indexar el contenido de un sitio web, lo que mejora su visibilidad y posicionamiento.
Pasos para crear un archivo robots.txt
Para crear un archivo robots.txt para tu sitio web, puedes seguir estos pasos:
Abre un editor de texto. Por ejemplo, el bloc de notas de Windows.
Establece el user-agent. Es el nombre del rastreador al que quieres dirigirte. Puedes usar un asterisco (*) para referirte a todos los rastreadores. Por ejemplo: User-agent: *
Redacta cada una de las reglas. Cada una de las reglas que debe interpretar el user-agent. Puedes usar el comando Disallow para bloquear el acceso a una página o un directorio específico, o el comando Allow para permitir el acceso. Por ejemplo: Disallow: /admin/ (bloquea el acceso al directorio admin) Allow: /blog/ (permite el acceso al directorio blog).
Añade la ruta del sitemap de tu sitio, si tienes uno. El sitemap es un archivo que contiene la estructura y las URLs de tu sitio web. Ayuda a los rastreadores a encontrar e indexar todas las páginas de tu sitio. Puedes usar el comando Sitemap para indicar la ubicación del sitemap. Por ejemplo: Sitemap: https://www.ejemplo.com/sitemap.xml
Guarda el archivo con el nombre robots.txt. Una vez guardado súbelo inmediatamente a la raíz de tu sitio web, usando un cliente FTP o el panel de control de tu hosting.
Consideraciones importantes
Es importante destacar que el archivo robots.txt no es un mecanismo para ocultar completamente una página o un archivo de los resultados de búsqueda; dado que podría seguir apareciendo si hay otros enlaces que apuntan a él. En realidad, si deseas bloquear una página o un archivo de los resultados de búsqueda, se deben usar otros métodos. Por ejemplo; la protección con contraseña o la etiqueta noindex; o tambien puedes retirar la URL con Google Search Console.
Por último, no olvides comprobar que el archivo robots.txt funciona correctamente. Para hacer esa revisión solo debes acceder a la URL de tu sitio web con la siguiente estructura www.ejemplo.com/robots.txt desde tu navegador.