Back to top

MORÄ Estudio Creativo

  /  Desarrollo Web   /  Robot TXT – Para WordPress
robot-txt-actualizado-para-wordpress-2020-2021

Robot TXT – Para WordPress

La Importancia de llamarse robot.txt

Primero, ¿Sabéis para que sirve el archivo robot.txt no? Entiendo que si habéis llegado aquí, no es por que tenéis ganas de leer lo que sea, para eso están los botes de champú. Bueno con respecto a la pregunta anterior, el archivo robot.txt podríamos decir que no es imprescindible, o sea los bots de Google te van a encontrar de todas formas, pero…. con el robot.txt le podemos decir qué queremos que visite y qué no queremos que vea. Así que algo si que nos va a ayudar ¿no?.

Otra cosa importante es que en el robot.txt es donde los bots de Google buscan el archivo sitemap.xml que como todos sabemos es el mapa de nuestro sitio, no es lo mismo que el bot entre a lo loco que con un mapita, donde va a parar.

Bueno, ya sabemos el porqué debemos de crear este archivito de los cojones, otro más a la lista.

¿Sabemos donde debe de estar alojado robot.txt?

Esto es más fácil que hacer un niño. Si tenéis Yoast SEO, éste habrá creado un robot.txt básico que luego editaremos para que haga lo que queremos  de se la siguiente manera:

 

Si no tenéis el plugin y lo queréis hacer manualmente podemos hacerlo subiéndolo al directorio raíz donde tengamos la web, esto podemos hacerlo con FileZilla o cualquier gestor de sitios FTP y el archivo podemos crearlo con cualquier editor de texto plano.

Otra forma sería entrando en el Administrador de Archivos de nuestro Cpanel y desde el directorio raíz hacer clic en el botón de arriba a la izquierda que dice +Archivo, le damos el nombre robot.txt y escribimos nuestro código ahí.

¿Hay un robot.txt valido para WordPress qué usar como patrón?

Pues la respuesta es si. WPHardening creó un robot.txt cuyo cometido principal es optimizar la Seguridad en WordPress y del que podemos partir como modelo par nuestro robot.txt. Ahora está en nuestra mano desactivar bots que no queremos que nos rastreen o bloqueando archivos y carpetas que tengan contenido privado.


#robots de Mora Estudio Creativo
#es necesario personalizar algunas opciones 


# Bloqueo basico 
# puede dar problemas por bloqueo de recursos en Google Web Toolkit
User-agent: *
# Permisos 
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
# Bloqueos
Disallow: /cgi-bin
Disallow: /wp-content/plugins/ 
Disallow: /wp-content/themes/ 
Disallow: /wp-includes/ 
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*

# URL dinamicas
Disallow: /*?


#Busquedas
User-agent: *
Disallow: /?s= 
Disallow: /search


# Trackbacks
User-agent: *
Disallow: /trackback
Disallow: /*trackback
Disallow: /*trackback*
Disallow: /*/trackback


# Feeds para crawlers
User-agent: *
Allow: /feed/$ 
Disallow: /feed/ 
Disallow: /comments/feed/
Disallow: /*/feed/$ 
Disallow: /*/feed/rss/$ 
Disallow: /*/trackback/$ 
Disallow: /*/*/feed/$ 
Disallow: /*/*/feed/rss/$ 
Disallow: /*/*/trackback/$ 
Disallow: /*/*/*/feed/$ 
Disallow: /*/*/*/feed/rss/$ 
Disallow: /*/*/*/trackback/$


# Ralentizamos algunos bots que se suelen volver locos
User-agent: noxtrumbot
Crawl-delay: 20
User-agent: msnbot
Crawl-delay: 20
User-agent: Slurp
Crawl-delay: 20


# Bloqueo de bots y crawlers poco utiles
User-agent: MSIECrawler
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: Orthogaffe 
Disallow: / 
User-agent: UbiCrawler 
Disallow: / 
User-agent: DOC 
Disallow: / 
User-agent: Zao 
Disallow: / 
User-agent: sitecheck.internetseer.com 
Disallow: / 
User-agent: Zealbot 
Disallow: / 
User-agent: MSIECrawler 
Disallow: / 
User-agent: SiteSnagger 
Disallow: / 
User-agent: WebStripper 
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: Fetch 
Disallow: / 
User-agent: Offline Explorer 
Disallow: / 
User-agent: Teleport 
Disallow: / 
User-agent: TeleportPro 
Disallow: / 
User-agent: WebZIP 
Disallow: / 
User-agent: linko 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: Xenu 
Disallow: / 
User-agent: larbin 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: ZyBORG 
Disallow: / 
User-agent: Download Ninja 
Disallow: / 
User-agent: wget 
Disallow: / 
User-agent: grub-client 
Disallow: / 
User-agent: k2spider 
Disallow: / 
User-agent: NPBot 
Disallow: / 
User-agent: WebReaper 
Disallow: /


# Previene problemas de recursos bloqueados en Google Webmaster Tools
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$


# En condiciones normales este es el sitemap CON YOAST SEO
Sitemap: https://TUWEB.com/sitemap_index.xml

Probar nuestro robot.txt

Bueno ahora toca ver si nuestro robot.txt pasa la prueba de Google Search Console, esto lo haremos con esta herramienta: Probador de robot.txt

Vaya por Dios, muy pro muy pro y resulta que me aparecen 3 advertencias en tu robot.txt. Eh! Eh! Advertencia, que no errores, estas son debidas a que Google no identifica el parametro Crawl Delay, este parámetro se encarga de establecer los segundos que el robot va a detenerse en cada solicitud, lo que viene siendo una “tasa límite” o sea este parámetro establecería la velocidad con la que un bot rastrea el sitio web.

Leave a comment:

logo-mora-estudio-creativo-web
Siguenos