Archivo por meses: marzo 2017

Archivo Robots.txt, qué es y como crearlo

El estándar de exclusión de robots, también conocido como el protocolo de exclusión de robots o simplemente archivo robots.txt, es un estándar utilizado por los sitios web para comunicarse con rastreadores web y otros robots web. La norma especifica cómo informar al robot web acerca de qué áreas del sitio web no deben ser procesadas ni escaneadas.

Los robots suelen ser utilizados por los motores de búsqueda para categorizar los sitios web. No todos los robots cooperan con el estándar; Las cosechadoras de correo electrónico, los spambots, el malware y los robots que analizan vulnerabilidades de seguridad pueden incluso comenzar con las partes del sitio web donde se les ha dicho que se mantengan al margen. El estándar es diferente, pero puede ser utilizado junto con, Sitemaps, un estándar de inclusión de robots para sitios web.

Archivo Robots.txt

 

¿Cómo funciona el archivo Robots.txt?

El archivo robots.txt es un archivo de texto simple que se utiliza para informar a Googlebot acerca de las áreas de un dominio que puede rastrearse por el motor de búsqueda y las que no. Además, también se puede incluir una referencia al sitemap XML en el archivo robots.txt.

Antes de que el bot del motor de búsqueda inicie la indexación, primero busca en el directorio raíz del archivo robots.txt y lee las especificaciones dadas allí. Para ello, el archivo de texto se debe guardar en el directorio raíz del dominio y se le asigna el nombre: robots.txt.

 

¿Cómo crear un archivo Robots.txt?

El archivo robots.txt puede ser creado simplemente con un editor de texto. Cada archivo consta de dos bloques. En primer lugar, se especifica el agente de usuario al que debe aplicarse la instrucción y, a continuación, se sigue un comando “Desactivar”, después del cual se enumeran las URL que se van a excluir del rastreo.

El usuario siempre debe comprobar la exactitud del archivo robots.txt antes de subirlo al directorio raíz del sitio web. Incluso el menor de los errores puede hacer que el bot de ignorar las especificaciones y, posiblemente, incluir páginas que no deben aparecer en el índice del motor de búsqueda.

Para más información le recomendamos visitar Robots.txt donde encontrará varios ejemplos de cómo crear su archivo Robots.txt, comandos principales, un  y un validador.