robots.txt

robots.txt es un archivo que se sitúa en la raíz de nuestro sitio web y permite indicar a los robots que pueblan internet qué páginas no queremos que sean indexadas. Una primera puntualización es que estas reglas no son más que sugerencias, no pueden impedir a bots con intenciones poco honestas el acceder a tu web y consumir tu ancho de banda, este sería un trabajo para .htaccess, aunque se puede utilizar una herramienta del tipo Bad Behavior que banea a una serie de robots que ignoran el archivo robots.txt, y que en próximas versiones los detectará automáticamente.

El carecer de un archivo robots.txt hace que los bots intenten indexar todo el contenido del sitio por defecto, incluyendo imágenes, scripts y archivos que puede que no nos interese que sean indexados, pero además, incluso en el hipotético caso de que queramos que todo el contenido de la web sea indexado, puede ser interesante crear un archivo robots.txt, ya que en el caso de que este no exista, el bot accederá a la página de error 404, con el consiguiente gasto de ancho de banda si ésta es algo pesada.

El archivo robots.txt consiste en directivas User-agent, que, como su nombre indica, identifican a un robot basándose en su user agent y listas de directivas Disallow, que indican qué archivos o directorios no deben ser indexados. Por ejemplo, el siguiente archivo:
User-agent: *
Disallow: /privado/
Disallow: /imagenes/
User-agent: TeleportPro
Disallow: /

bloquearía el acceso a los directorios privado e imágenes para todos los robots, y todos los archivos para TeleportPro.

Como último apunte, hay que tener en cuenta que algunos buscadores pueden interpretar un robots.txt vacío como una indicación de que no queremos que se indexe ninguna página, por lo que si creamos este archivo en nuestro sitio, el contenido mínimo debería ser:
User-agent: *
Disallow:

que indica que todos los archivos se pueden indexar.

12 comentarios en «robots.txt»

  1. Un post muy interesante, tanto este como el del htaccess. Yo mas o menos ya sabia de que eran cada uno pero nunca esta mal refrescar la memoria, y para la gente que no los conozca seguro que sera una valiosa informacion.

    Un saludo
    Coco

  2. Yo llevo utilizando el robots.txt desde que se salió el buscador de MSN porque me volvía todos los días a indexar el sitio completo y era una pasada el ancho de banda que consumía el solo. Lo que estoy buscando (tampoco con mucho entusiasmo…) es una forma de bloquear determinados posts para que no sean indexados. No pudo hacerlo con archivos .htacess porque el server no me deja subirlos. ¿Funcionaría una directiva del estilo

    Disallow: /post.php?id=159

    Tengo que probar…

  3. actualización, iOne. parece ser que hay algunos bots que si lo aceptan y otros que no. no se cual será el caso de googlebot, pero supongo que si lo entenderá. aunque por si acaso, yo no haría experimentos sin estar seguro

  4. Si, seguro que para muchos no funciona, sobre todo los menos extendidos. De todas formas, el robots.txt no es un estándar por lo que todo esto no deja de ser un trabajo «en el aire».

    He visto esta página:

    http://www.robotstxt.org/

    Tiene una FAQ que vale la pena echarle un vistazo. Además, he visto que

    Disallow: index.htm

    puede funcionar, por lo que

    Disallow: /post.php?id=159

    no debería tener ningún problema (para los bots que respeten el archivo, claro)

  5. Pingback: Webmaster Libre » Archivo del weblog » Generadores de archivos Robots.txt

  6. Pingback: despuesdegoogle » Archivo del weblog » robots.txt (3)

  7. Pingback: Proletarium — Más sobre filtros en Google

  8. ojala resulte estoy tratando de incluir mi sitio en el losw buscadores pero no aparece en ningun lado-

    User-agent: *
    Disallow:

    hice el archivo robots.txt con esos datos para que lo tomen todos y todos los archivos
    esta bien????????

  9. para iOne (comentario #4, por cierto, no estaría mal tener numerados los comentarios):

    Cuando dices mucho ancho de banda, ¿cuánto? Si MSN te visita todos los días es que algo «bueno» está viendo en tí, ¿no? Salvo que sea algo exagerado yo lo permitiría. En teoría si te indexan mucho es por que ven que cambias mucho, y supongo que mejorará tu posicionamiento.

    Otra cosa diferente son los agents tipo: I AM A SPAMMER (¿habeis recibido alguno?), y así, que supongo que estarán rastreando en busca de emails… para luego ya sabeis que.

  10. Esto de los robots.txt es muy interesante, les invito a que utilicen el GsiteCrawler, que genera automaticamente el sitemap de google, el urllist del yahoo y el archivo robots.txt, es freeware y es muy bueno

Responder a alx Cancelar respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.