La Importancia de llamarse robot.txt

Primero, ¿Sabéis para que sirve el archivo robot.txt no? Entiendo que si habéis llegado aquí, no es por que tenéis ganas de leer lo que sea, para eso están los botes de champú. Bueno con respecto a la pregunta anterior, el archivo robot.txt podríamos decir que no es imprescindible, o sea los bots de Google te van a encontrar de todas formas, pero…. con el robot.txt le podemos decir qué queremos que visite y qué no queremos que vea. Así que algo si que nos va a ayudar ¿no?.

Otra cosa importante es que en el robot.txt es donde los bots de Google buscan el archivo sitemap.xml que como todos sabemos es el mapa de nuestro sitio, no es lo mismo que el bot entre a lo loco que con un mapita, donde va a parar.

Bueno, ya sabemos el porqué debemos de crear este archivito de los cojones, otro más a la lista.

¿Sabemos donde debe de estar alojado robot.txt?

Esto es más fácil que hacer un niño. Si tenéis Yoast SEO, éste habrá creado un robot.txt básico que luego editaremos para que haga lo que queremos de se la siguiente manera:

Si no tenéis el plugin y lo queréis hacer manualmente podemos hacerlo subiéndolo al directorio raíz donde tengamos la web, esto podemos hacerlo con FileZilla o cualquier gestor de sitios FTP y el archivo podemos crearlo con cualquier editor de texto plano.

Otra forma sería entrando en el Administrador de Archivos de nuestro Cpanel y desde el directorio raíz hacer clic en el botón de arriba a la izquierda que dice +Archivo, le damos el nombre robot.txt y escribimos nuestro código ahí.

¿Hay un robot.txt valido para WordPress qué usar como patrón?

Pues la respuesta es si. WPHardening creó un robot.txt cuyo cometido principal es optimizar la Seguridad en WordPress y del que podemos partir como modelo par nuestro robot.txt. Ahora está en nuestra mano desactivar bots que no queremos que nos rastreen o bloqueando archivos y carpetas que tengan contenido privado.

#robots de Mora Estudio Creativo #es necesario personalizar algunas opciones # Bloqueo basico # puede dar problemas por bloqueo de recursos en Google Web Toolkit User-agent: * # Permisos Allow: /wp-content/uploads/* Allow: /wp-content/*.js Allow: /wp-content/*.css Allow: /wp-includes/*.js Allow: /wp-includes/*.css # Bloqueos Disallow: /cgi-bin Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /*/attachment/ Disallow: /tag/*/page/ Disallow: /tag/*/feed/ Disallow: /page/ Disallow: /comments/ Disallow: /xmlrpc.php Disallow: /?attachment_id* # URL dinamicas Disallow: /*? #Busquedas User-agent: * Disallow: /?s= Disallow: /search # Trackbacks User-agent: * Disallow: /trackback Disallow: /*trackback Disallow: /*trackback* Disallow: /*/trackback # Feeds para crawlers User-agent: * Allow: /feed/$ Disallow: /feed/ Disallow: /comments/feed/ Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ # Ralentizamos algunos bots que se suelen volver locos User-agent: noxtrumbot Crawl-delay: 20 User-agent: msnbot Crawl-delay: 20 User-agent: Slurp Crawl-delay: 20 # Bloqueo de bots y crawlers poco utiles User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / # Previene problemas de recursos bloqueados en Google Webmaster Tools User-Agent: Googlebot Allow: /*.css$ Allow: /*.js$ # En condiciones normales este es el sitemap CON YOAST SEO Sitemap: https://TUWEB.com/sitemap_index.xml

Probar nuestro robot.txt

Bueno ahora toca ver si nuestro robot.txt pasa la prueba de Google Search Console, esto lo haremos con esta herramienta: Probador de robot.txt

Vaya por Dios, muy pro muy pro y resulta que me aparecen 3 advertencias en tu robot.txt. Eh! Eh! Advertencia, que no errores, estas son debidas a que Google no identifica el parametro Crawl Delay, este parámetro se encarga de establecer los segundos que el robot va a detenerse en cada solicitud, lo que viene siendo una «tasa límite» o sea este parámetro establecería la velocidad con la que un bot rastrea el sitio web.[/vc_column_text][/vc_column][/vc_row]