“Conocimiento Programación>Lenguajes De Programación

Cómo hacer un Web Bot

2011/12/6
Los motores de búsqueda , como Google o Yahoo! , tire de las páginas web en sus resultados de búsqueda mediante el uso de robots de Web (también a veces llamado arañas o crawlers ) , que son programas que exploran el Internet y sitios web de índices en una base de datos. Bots Web pueden hacer uso de los lenguajes de programación , incluyendo C , Perl , Python y PHP, todo lo cual permiten a los ingenieros de software para escribir scripts que llevan a cabo tareas de procedimiento , como la exploración Web y la indexación . Instrucciones
1

Abra una aplicación de edición de texto sin formato , como el Bloc de notas , que se incluye con Microsoft Windows o TextEdit de Mac OS X, en la que se autor de una aplicación Web bot Python.

2

Iniciar la secuencia de comandos Python mediante la inclusión de las siguientes líneas de código , y la sustitución de la dirección URL de ejemplo con la dirección URL del sitio web que desea analizar y el nombre de la base de datos de ejemplo, con la base de datos que se almacena los resultados :

importación urllib2 , re, stringenter_point = ' http://www.exampleurl.com ' nombre_bd = ' example.sql '
3

incluye las siguientes líneas de código a definir la secuencia de operaciones que el bot web seguirá :

def uniq ( ss ) : set = { } mapa ( set.__setitem__ , SEC , []) set.keys retorno ()

4

obtener las direcciones URL en la estructura de la página web mediante el uso de las siguientes líneas de código:

definición geturls ( url ) : items = [ ] request = urllib2.Request ( url ) request.add.header ( 'Usuario ', ' Bot_name ;) ) content = urllib2.urlopen ( petición). read () items = re.findall ( " href = " http://. ? " ' , contenido) urls = [ ] regreso urls
5

Definir la base de datos que el bot web usará y especificar qué tipo de información se debe guardar para terminar haciendo que el bot web:

db = open ( nombre_bd , 'a') allurls = uniq ( geturls ( enter_point ) )
6

Guardar el documento de texto y subirlo a un servidor o un ordenador con conexión a internet donde se puede ejecutar el script y comenzar a escanear páginas web.

Lenguajes De Programación
Cómo calcular el porcentaje de cambio en SAS
¿Cuál es el propósito de las utilidades de traducción del idioma?
¿Cuándo se creó el International Journal of Computer Processing Languages?
¿Qué computadora debo comprar si quiero aprender la programación?
Cuáles son los beneficios de las pruebas de caja blanca
Cómo iniciar la programación en ensamblador
Cómo determinar la longitud de cadena de texto B
Las diferencias de Perl y PHP
Conocimiento de la computadora © http://www.ordenador.online