¿Qué es el archivo robots y por qué debería importarte?
Si has decidido crear tu propio sitio web, hay por lo menos una cosa que necesitas saber: qué es el archivo robots o robots.txt.
Este artículo te enseñará todo lo que necesitas saber sobre este archivo: cómo crearlo, cómo funciona y por qué es importante para tu sitio. También veremos algunos errores comunes que la gente comete con su archivo robots y cómo se pueden evitar. ¿Preparado? Vamos allá.
Qué es el archivo robots.txt
Los buscadores de Internet como Google trabajan con una serie de bots que acceden a los sitios web para buscar información y publicarla en sus motores de búsqueda, lo que es conocido normalmente como rastreo e indexación. Estos bots también son conocidos como arañas o spiders, robots o crawlers.
Robots.txt es un archivo basado en texto cuyo objetivo es proporcionarles a los buscadores una guía adecuada de cómo se ubican los contenidos en tu sitio web a la hora de indexar las páginas web, por lo que ayuda a tus sitios web a mejorar su rendimiento en los resultados de búsqueda, protegiendo los recursos más relevantes para tu negocio y manteniendo la experiencia de navegación óptima para tus usuarios.
Por qué es importante el robots.txt
Si aún no has creado tu propio archivo robots.txt, deberías crear uno ahora. No solo proporciona a los motores de búsqueda una guía sobre las partes de tu sitio que deben seguir, sino que también garantiza que los bots no indexen accidentalmente páginas webs privadas o protegidas por contraseña. Limitarás, por lo tanto, la información que quieres mostrar, impidiendo que puedan ser encontrados datos personales privados.
Al poder usar este archivo para impedir el acceso a aquellos tipos de bots maliciosos que solamente sobrecargan tu servidor con una elevada cantidad de peticiones, ayudas tamibén a que tu sitio web sea más fluido. Esto mejora tu posicionamiento en Internet así como la experiencia de navegación de tus usuarios.
Cómo crear y utilizar un archivo robots.txt
Antes de que puedas entender cómo utilizar un archivo robots.txt, primero debes saber cómo crear uno.
Puedes generar este archivo tú mismo usando un editor de texto. Todo lo que tienes que hacer es abrir un editor de texto y crear las directivas utilizando los comandos para ello:
User-Agent: (Spider Name)
Disallow: (Ruta)
El “Spider Name” es el nombre del robot buscador, aunque puedes poner “*” para indicar TODOS los buscadores.
La “Ruta”, es el nombre del archivo o carpeta que NO se quiere indexar.
También dispones de otras directivas para controlar el tiempo de acceso como: crawl-delay (indica el tiempo que debe pasar entre cada acceso), visit-time (horas de acceso permitidas a los bots) y request-rate (cada cuantos minutos puede un bot realizar una petición).
Una vez que hayas introducido esta información, guárdala como “robots.txt” y asegúrate de que se encuentra en el directorio raíz de tu sitio (el mismo nivel que tu sitio web). En cdmon esto significa la carpeta /web/.
Para que un archivo robots.txt sea útil, deberás proporcionar diferentes directivas en forma de reglas basadas en los comandos anteriores. Por ejemplo, el archivo robots.txt por defecto de cdmon:
User-agent: *
Crawl-delay: 60
En este caso se le indica a todos los bots que deben esperar 60 segundos entre cada acceso.
Errores comunes con el robots.txt
La mayoría de las personas que utilizan el archivo robots.txt cometen uno o varios de los siguientes errores comunes:
Usar el archivo robots.txt en lugar de Google Search Console
Las antiguas herramientas para webmaster de Google (actualmente Google Search Console), incluyen funciones como las que se pueden realizar con un archivo robots.txt, como el bloqueo de arañas y la configuración de límites de rastreo.
Esto es especialmente importante para Googlebot, el responsable de indexar tu sitio web en Google, ya que se trata de uno de los pocos rastreadores que no se ve afectado por el archivo robots.txt.
Por lo tanto, si utilizas GSC, es posible que no necesites un archivo robots.txt independiente.
No bloquear directorios específicos
Si tiene secciones de su sitio que no están destinadas a ser indexadas por los motores de búsqueda, deberás incluirlas en el archivo robots.txt para que los rastreadores no las rastreen y encuentren otras páginas de su sitio que tampoco deberían ser indexadas.
Por ejemplo, si tienes una carpeta o un apartado de la web privado que solo es accesible mediante usuario y contraseña y que, por lo tanto, no quieres que se indexe, deberás añadirlo a las directivas Disallow del archivo robots.txt. Si dejas estos directorios abiertos a las arañas de rastreo, es posible que se topen con un contenido que no deberían ver y lo indexen de todos modos.
No actualizar el archivo robots.txt
Es posible que dispongas ya de un archivo robots.txt, pero no lo hayas actualizado en un tiempo.
Imagina que cuando lo creaste especificaste los bots que querías bloquear, pero hace ya varios años de eso. Cada año aparecen nuevos crawlers que pueden estar ralentizando tu página web, por lo que si no actualizas tu archivo robots.txt para añadirlos estos podrán acceder libremente y sobrecargar tu servidor.
También puede ser que se hayan generado nuevas secciones que se quieran excluir, pero no se haya añadido al archivo robots.txt. Esto puede parecer un simple error, pero puede tener consecuencias importantes para tu sitio. Si se olvida de añadir una nueva sección para cada página que desees excluir, todas las páginas de tu sitio serán rastreadas e indexadas por los motores de búsqueda.
Si tienes información sensible en tu sitio web, esto podría ser problemático porque es probable que al menos una de esas páginas sensibles aparezca en los resultados de búsqueda del nombre de tu empresa.
Es importante que mantengas este archivo actualizado con cualquier cambio realizado, así que te recomendamos revisar nuestra support con más información para configurar dicho archivo.