+34 638350949info@seoparaweb.es

Archivo robots.txt: cómo optimizarlo para el SEO

El archivo robots.txt puede dar acceso o bloquear los bots de los buscadores a la hora de rastrear una web

La presencia de una web en la red depende de que sea indexada por los buscadores.

Todos los buscadores utilizan “bots” característicos del user-agent (o sea el software encargado de rastrear la web) para rastrear los sitios web, operación que llevan a cabo las que se llaman “arañas”, las cuales recorren todo el código de una página y se mueven por ella a través de los enlaces internos.

Además de los user agents más conocidos (cómo Googlebot de Google, Bingbot de Bing y Yahoo, o Baidu del homónimo buscador chino), existen otros miles que se definen por las más diversas categorías de sitios a los que acceden.

Cuando los bots llegan a un sitio web, pueden navegar por él a través de los enlaces, llegando también a carpetas críticas que no queremos que se indexen: bien porque contienen información privada, o bien porque no deberían aparecer en Google, dada su poca relevancia.

Seguramente tengas en tu web carpetas o páginas de este tipo:

1)     la página de Términos y Condiciones, u otras parecidas: no tienen porque indexarse, es simple información legal para el usuario, no queremos que nadie nos encuentre en Google por esa página;

2)     las carpetas subidas al servidor hace 3 mil años, que incluyen archivos que no se utilizan en la web, y siempre se quedaron allí (html, maquetas, docs, pdfs, etc. ya completamente olvidados);

3)     las carpetas de plug-ins o aplicaciones que sirven para el funcionamiento de la web, pero no han de ser indexadas Para todos estos casos, el archivo robots.txt cumple perfectamente con las funciones que necesitamos.

CÓMO CREAR EL ARCHIVO ROBOTS.TXT: EL CÓDIGO

En el bloc de notas de tu ordenador, incluye estos códigos, guarda el archivo con la extensión .txt y súbelo al servidor en la carpeta raíz de tu web.

Éstas son las instrucciones más frecuentes y útiles:

1)     Permitir acceso a todos los bots a todo el contenido:

User-agent: *

Allow: /

El asterisco * recoge todos los user-agents existentes, y la barra / indica el acceso a toda la web, desde la carpeta raíz.

De base, esta instrucción debería estar presente siempre, seguida por los detalles de aquellos bots, carpetas o páginas, a las que no queremos dar permisos.

 

2)     Denegar acceso a todos los bots al contenido de determinadas carpetas:

User-agent: *

Disallow: /tucarpeta/

En WordPress por ejemplo, es mejor denegar el acceso a las siguientes carpetas:

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/cache/

Disallow: /wp-content/themes/

3)     Denegar acceso a un User-agent determinado:

User-agent: Baidu

Disallow: /

Esta instrucción es fundamental si te das cuenta de que existe un bot malicioso que está rastreando tu web para conseguir datos confidenciales o realizar otras acciones ilegales.

 

4)     Denegar acceso a todos los User-agent a una página determinada:

User-agent: *

Disallow: www.tuweb.com/tupagina.html

 

5)     Denegar acceso a todos los subdominios de una web:

User-agent: *

Disallow: *.tuweb.com$

Ésta es una simple expresión regular: el asterisco recoge todo lo que precede ‘.tuweb.com’ y el símbolo del dólar $ indica que nada puede seguir ‘.tuweb.com’.

De esta forma estamos bloqueando cualquier página cuya URL presente algo antes de .tuweb.com, cómo por ejemplo cualquier subdominio (es.tuweb.com) o incluso la duplicidad (www.tuweb.com), lo que es bueno para el posicionamiento web.

 

Así que, sumando todas estos comandos, tu archivo para los robots quedaría como sigue:

User-agent: *

Allow: /

User-agent: *

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/cache/

Disallow: /wp-content/themes/

User-agent: Baidu

Disallow: /

User-agent: *

Disallow: www.tuweb.com/tupagina.html

User-agent: *

Disallow: *.tuweb.com$

CÓMO PROBAR EL ROBOTS.TXT EN WEBMASTER TOOLS

Tras haber subido al servidor el archivo, accede a Webmaster Tools y entra en “Probador de robots”.

Allí verás el contenido del archivo recién creado, y tienes la opción de testearlo, incluyendo la página web que quieras para ver si pasaría el filtro de las instrucciones dadas a los User agents.

Probador de robots de Webmaster Tools

OTRA OPCIÓN PARA DAR INSTRUCCIONES A LOS ROBOTS: INDEX Y NOINDEX

Para páginas individuales o enlaces específicos, es posible dar instrucciones a los robots directamente desde el código fuente de la página, utilizando las metaetiquetas o metatags:

1)     Permisos que se aplican a una página entera (una URI, no a todo el sitio web):

 <meta name=”robots” content=”noindex”>

indica que los robots no deben indexar la página

<meta name=”robots” content=”noindex, follow”>

indica que los robots no deben indexar la página pero pueden utilizar los enlaces para moverse y transmitir page-rank

<meta name=”robots” content=”index, nofollow”>

indica que los robots deben indexar la página per no seguir los enlaces

<meta name=”robots” content=”index, follow”>

indica que los robots deben indexar la página y seguir los enlaces (que es el comportamiento por defecto de los robots a falta de otros comandos; aún así se suele incluir)

 

2)     Permisos aplicados a enlaces específicos:

<a href=”tupagina.html” rel=”nofollow”>

indica que los robots no deben seguir el enlace ni transmitir page rank

 <a href=”tupagina.html” rel=”follow”>

indica que los robots deben seguir el enlace y transmitir page rank.

Artículos recomendados

Deja un comentario

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies. Para mayor información consulte nuestros Términos y Condiciones

ACEPTAR