navegador Web que responde a los comandos de programación
Lenguaje de programación con acceso al disco de lectura y escritura y las funciones de base de datos
Mostrar más instrucciones
1
inicializar programa con la página web inicial que desea descargar . Agregue la dirección URL de la página a una nueva tabla de base de datos de URLs.
2
Enviar un comando al explorador web instruir a recoger esta página web, y guardarlo en un disco. Mueva el puntero base de datos a un paso más allá de la URL que acaba de descargar , que ahora se apuntan a la final de la tabla .
3
Leer la página web en el programa, y analizar por enlaces a páginas Web adicionales . Esto suele hacerse mediante la búsqueda de la cadena de texto "http://", y capturar el texto entre esta cadena y un carácter de terminación (por ejemplo, "", " . " O ">") . Agrega estos enlaces a la tabla de base de datos URL , el puntero de base de datos debe permanecer en la cima de esta nueva lista
4
prueba las entradas de la tabla de base de datos para la singularidad , y eliminar cualquier URL que aparece más de una vez . .
5
Si desea aplicar un filtro de URL ( por ejemplo, para evitar la descarga de páginas de sitios en diferentes dominios ) , se aplica ahora a la tabla de base de datos URL y eliminar cualquier URL que no desea para descargar .
6
Configurar un bucle de programación para su araña vuelve a la etapa 2. Esto forma recursiva descargar todas las URL se encuentra con su araña . Extracción de URL duplicadas asegura que la araña finalizará correctamente cuando se llega a la última dirección URL única .