Los Robots exclusión Protocolo

Robots , en el contexto de Internet, medios de programa de software que escanea una página web para recoger información. Estos no son los virus - no hay código colocado en su máquina , y cuando el robot ha terminado con su sitio web, no hay ninguna evidencia de que el robot estaba allí. El proceso de recolección de información no es necesariamente perjudicial - que podría beneficiarse de la visita. El Protocolo de Exclusión de Robots (REP ) le permite tener un cierto control sobre el proceso. Historia

La idea REP comenzó en 1994 con un grupo de lectores robot ( [email protected] ) como una forma de guiar a los robots a través de sitios web. La idea básica era la instalación de un archivo corto con el nombre conocido y la ubicación indica al robot dónde buscar. Estas direcciones probablemente serán ignorados por robots malévolos , pero podrían ser utilizados por robots benignos para salvarlos algún tiempo examinando sólo algunos de sus archivos . El protocolo básico fue mejorado en 2008 por un gran número de las principales empresas de Internet como Yahoo y Google .
Benigna Robots

Hay algunos robots que realmente desea visitar su sitio web. Por ejemplo , los motores de búsqueda utilizan robots para indexar la Internet. A partir de una única dirección de Internet , el robot clasifica ese sitio web y mantiene una lista de todos los enlaces que se encuentran en el sitio web . A continuación, el robot se cae de la lista de direcciones de sitios web recogidos. Como la lista de nuevos sitios web creados cada mes están a disposición del público , hay una acumulación de sitios web para comprobar que mantiene a los robots trabajando día y noche . Usted quiere que estas visitas robot porque desea que los motores de búsqueda para conocer y clasificar su sitio web para que los clientes potenciales puedan encontrar a través de motores de búsqueda.

Robots Malevolent

Los robots también se pueden utilizar para los propósitos destructivos . Por ejemplo , los robots pueden compilar una lista de direcciones de correo electrónico en un índice por intereses. Para ello , buscan cualquier cosa que tiene un símbolo " @" y tomar la cuerda alrededor de ella que está obligado por espacios. Por eso usted verá algunos profesores de informática dan su dirección como Professor.Abc { arroba} University.edu - se trata de frustrar los malvados robots . Para clasificar su dirección de correo electrónico de acuerdo a los intereses, el robot se ve en la declaración META , que forma parte del código detrás de cada sitio web.
REP Sintaxis

Los robots archivo . txt se instala en un directorio . Si su sitio web es www.widgits.com , la ruta de acceso al archivo robots.txt será www.widgits.com /robots.txt . La primera línea del fichero será "user -agent: " y la siguiente línea será " Disallow: " - la primera línea selecciona la población de robots y la segunda línea muestra los directorios que están fuera de los límites . El uso de " ; " para indicar un salto de línea , "user -id: * , /abc /" son las dos afirmaciones de línea que dirigen a todos los robots para evitar que el directorio de abc . Para permitir SearchBot para examinar todo, pero prohibir todos los otros robots, el código sería "user -id: SearchBot ; Disallow: , ID de usuario : * ; Disallow: /" - * significa todos los robots, /quiere decir que todos los directorios y espacio en blanco significa que no hay directorios .