robots.txt

Publicado por Zootropoel 4 mayo 2005

robots.txt es un archivo que se sitúa en la raíz de nuestro sitio web y permite indicar a los robots que pueblan internet qué páginas no queremos que sean indexadas. Una primera puntualización es que estas reglas no son más que sugerencias, no pueden impedir a bots con intenciones poco honestas el acceder a tu web y consumir tu ancho de banda, este sería un trabajo para .htaccess, aunque se puede utilizar una herramienta del tipo Bad Behavior que banea a una serie de robots que ignoran el archivo robots.txt, y que en próximas versiones los detectará automáticamente.

El carecer de un archivo robots.txt hace que los bots intenten indexar todo el contenido del sitio por defecto, incluyendo imágenes, scripts y archivos que puede que no nos interese que sean indexados, pero además, incluso en el hipotético caso de que queramos que todo el contenido de la web sea indexado, puede ser interesante crear un archivo robots.txt, ya que en el caso de que este no exista, el bot accederá a la página de error 404, con el consiguiente gasto de ancho de banda si ésta es algo pesada.

El archivo robots.txt consiste en directivas User-agent, que, como su nombre indica, identifican a un robot basándose en su user agent y listas de directivas Disallow, que indican qué archivos o directorios no deben ser indexados. Por ejemplo, el siguiente archivo:
User-agent: * Disallow: /privado/ Disallow: /imagenes/ User-agent: TeleportPro Disallow: /
bloquearía el acceso a los directorios privado e imágenes para todos los robots, y todos los archivos para TeleportPro.

Como último apunte, hay que tener en cuenta que algunos buscadores pueden interpretar un robots.txt vacío como una indicación de que no queremos que se indexe ninguna página, por lo que si creamos este archivo en nuestro sitio, el contenido mínimo debería ser:
User-agent: * Disallow:
que indica que todos los archivos se pueden indexar.

Relacionado

12 comentarios en «robots.txt»

Coco dice:
4 mayo 2005 en 11:58 pm

Un post muy interesante, tanto este como el del htaccess. Yo mas o menos ya sabia de que eran cada uno pero nunca esta mal refrescar la memoria, y para la gente que no los conozca seguro que sera una valiosa informacion.

Un saludo
Coco

Responder
iOne dice:
5 mayo 2005 en 5:44 pm

Yo llevo utilizando el robots.txt desde que se salió el buscador de MSN porque me volvía todos los días a indexar el sitio completo y era una pasada el ancho de banda que consumía el solo. Lo que estoy buscando (tampoco con mucho entusiasmo…) es una forma de bloquear determinados posts para que no sean indexados. No pudo hacerlo con archivos .htacess porque el server no me deja subirlos. ¿Funcionaría una directiva del estilo

Disallow: /post.php?id=159

Tengo que probar…

Responder
Zootropo dice:
5 mayo 2005 en 6:38 pm

pues no estoy 100% seguro porque no lo he probado, pero he visto gente que lo tiene así iOne, asi que supongo que si fucionará

Responder
iOne dice:
6 mayo 2005 en 6:44 pm

Lo probaré, lo probaré 🙂

Responder
Zootropo dice:
6 mayo 2005 en 7:05 pm

actualización, iOne. parece ser que hay algunos bots que si lo aceptan y otros que no. no se cual será el caso de googlebot, pero supongo que si lo entenderá. aunque por si acaso, yo no haría experimentos sin estar seguro

Responder
iOne dice:
9 mayo 2005 en 1:33 pm

Si, seguro que para muchos no funciona, sobre todo los menos extendidos. De todas formas, el robots.txt no es un estándar por lo que todo esto no deja de ser un trabajo «en el aire».

He visto esta página:

http://www.robotstxt.org/

Tiene una FAQ que vale la pena echarle un vistazo. Además, he visto que

Disallow: index.htm

puede funcionar, por lo que

Disallow: /post.php?id=159

no debería tener ningún problema (para los bots que respeten el archivo, claro)

Responder
Pingback: Webmaster Libre » Archivo del weblog » Generadores de archivos Robots.txt
Pingback: despuesdegoogle » Archivo del weblog » robots.txt (3)
Pingback: Proletarium — Más sobre filtros en Google
alx dice:
2 noviembre 2006 en 5:34 pm

ojala resulte estoy tratando de incluir mi sitio en el losw buscadores pero no aparece en ningun lado-

User-agent: *
Disallow:

hice el archivo robots.txt con esos datos para que lo tomen todos y todos los archivos
esta bien????????

Responder
luisa dice:
3 octubre 2007 en 9:05 am

para iOne (comentario #4, por cierto, no estaría mal tener numerados los comentarios):

Cuando dices mucho ancho de banda, ¿cuánto? Si MSN te visita todos los días es que algo «bueno» está viendo en tí, ¿no? Salvo que sea algo exagerado yo lo permitiría. En teoría si te indexan mucho es por que ven que cambias mucho, y supongo que mejorará tu posicionamiento.

Otra cosa diferente son los agents tipo: I AM A SPAMMER (¿habeis recibido alguno?), y así, que supongo que estarán rastreando en busca de emails… para luego ya sabeis que.

Responder
Rolando Maldonado dice:
16 diciembre 2007 en 5:10 pm

Esto de los robots.txt es muy interesante, les invito a que utilicen el GsiteCrawler, que genera automaticamente el sitemap de google, el urllist del yahoo y el archivo robots.txt, es freeware y es muy bueno

Responder

Responder a alx Cancelar respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Compártelo:

Relacionado

12 comentarios en «robots.txt»

Responder a alx Cancelar respuesta