Cuando hablamos de SEO una de las cosas más importantes que se nos viene a la cabeza y algo imprescindible es generar el archivo Robots.txt. Antes que nada hemos de estar seguros de lo que hacemos, de lo contrario podemos denegar el acceso a todo tipo de Robots que intenten llegar a nuestra web, lo que haría que todo nuestro trabajo SEO no sirviera para nada.
¿Qué es?
El archivo Robots.txt es un archivo que se coloca en la raíz de nuestro sitio web y es el que le indica a los bots (arañas) qué partes de nuestra web debe rastrear y a qué partes le denegamos el acceso. Los bots suelen hacer caso a estas indicaciones aunque hay otros que las ignoran. También podremos elegir qué bots queremos que rastren nuestro sitio y cuáles no. (Os enseñaré cómo hacerlo más adelante)
¿Para qué sirve?
Una de las grandes utilidades de nuestro archivo Robots.txt es que le podemos indicar dónde se encuentran los sitemaps de nuestra web, así que además de subirlo a través de Search Console podemos facilitarle la vida a los bots/arañas de los motores de búsqueda e incluírselo. Además, gracias a este archivo podremos bloquearle a los bots el acceso a zonas de nuestra web que por algún motivo no queremos indexarlas.
En conclusión, sirve para tener un control “absoluto” de la información que queremos que sea indexada y la que no. Y lo digo entre comillas ya que como antes he mencionado, hay bots que ni se miran el archivo Robots.txt y lo único que hacen es seguir los enlaces que encuentren hacia nuestro sitio web.
Algunos de los parámetros más utilizados:
– User-agent: Aquí indicaremos qué bots queremos que rastren nuestra web y cuáles no.
– Disallow: Podemos especificar una barra / para bloquear el acceso a todo el sitio o indicar la ruta que queremos bloquear.
– Allow: Sirve para permitir el acceso, es útil cuando queremos añadir ciertas exclusiones a un disallow, es decir, para hacer excepciones de lo dicho anteriormente.
– Sitemap: Indicaremos en que URL se encuentra nuestro sitemap, incluso podemos poner varios en caso tengamos uno de imágenes.
– Crawl-delay: Podremos especificar un número de segundos de espera entre cada página revisada por el bot.
Algunos ejemplos:
Si quieres bloquear el acceso a todos los bots:
User-Agent: *
Disallow: /
Si quieres bloquear el acceso solo, por ejemplo, al bot de Google:
User-agent: Googlebot
Disallow: /
Si quieres bloquear el acceso a la araña de Google pero solo a una parte de la web determinada:
User-agent: Googlebot
Disallow: /nopermitiracceso/
Siguiendo con el ejemplo de antes pero además bloqueando el acceso a las subpáginas de esa URL, utilizaremos el comodín *
User-agent: Googlebot
Disallow: /nopermitiracceso/*
Y para indicar la dirección de nuestro sitemap utilizaremos:
Sitemap: https://www.mipaginaweb.com/sitemap.xml
Para finalizar el breve, pero espero que productivo post, os dejo un ejemplo bastante curioso para que vosotros mismo descifréis qué pretenden conseguir…
https://www.casareal.es/robots.txt
Y el Robots.txt que veremos será el siguiente:
User-agent: *
Disallow:
Disallow: /_*/
Disallow: /ES/FamiliaReal/Urdangarin/
Disallow: /CA/FamiliaReal/Urdangarin/
Disallow: /EU/FamiliaReal/Urdangarin/
Disallow: /GL/FamiliaReal/Urdangarin/
Disallow: /VA/FamiliaReal/Urdangarin/
Disallow: /EN/FamiliaReal/Urdangarin/
Sitemap: https://www.casareal.es/sitemap.xml
¿Qué opináis?