2 may. 2015

Hablemos de robots

No, no voy a hablar de robots como algo mecánico o artificial, sino del archivo robots.txt que lo que hace es ocultar ciertas partes de una página a los motores de búsqueda

Si nosotros queremos buscar por ejemplo indultos, correcciones de errores, sentencias.... casi terminamos antes buscando en lo que el BOE o cualquier otra página quiere ocultar que en Google.

Para ello sólo tenemos que escribir la dirección de la página seguida de /robots.txt  y de esta manera podremos acceder a toda esa información que si bien está en Internet, no está indexada por los buscadores

Parte del fichero robots.txt del BOE
Pero el BOE no es la única página que usa este archivo, algunas simplemente la usan para no indexar páginas que ya no son útiles, otros para "ocultar" información, por ejemplo la Casa Real tiene deshabilitada la parte de la web sobre Urdangarín, aunque no entiendo muy bien la razón porque cuando entras te encuentras con esto


Mirando las páginas de los partidos lo que parece que no quieren que los buscadores encuentren son las páginas de Login y similares, lo cual tiene mucha lógica (decepción, yo que pensaba que me iba a encontrar con algo entretenido...)


Las webs de las cadenas de televisión lo que ponen en estos ficheros son los enlaces a series o programas que ya no están en antena

Visto lo visto, desde luego la más entretenida es la del BOE, así que si un día estáis aburridos, ya sabéis, añadir a la página por la que estáis navegando /robots.txt y a ver que os encontráis ;-)


2 comentarios :

  1. Como siempre, entrada muy útil :-) Y ahora, a ver si me pongo al día con tu blog :-)

    ResponderEliminar
    Respuestas
    1. Y como siempre, gracias por tu comentario. Te aviso q los post q tienes pendientes útiles como tal no lo son, entretenidos... si ;-)

      Eliminar