“Conocimientos Programación>Lenguajes De Programación

Cómo hacer un Web Bot

2012/6/5
Los motores de búsqueda , como Google o Yahoo! , tire de las páginas web en sus resultados de búsqueda mediante el uso de robots de Web (también a veces llamado arañas o crawlers ) , que son programas que exploran el Internet y sitios web de índices en una base de datos. Bots Web pueden hacer uso de los lenguajes de programación , incluyendo C , Perl , Python y PHP, todo lo cual permiten a los ingenieros de software para escribir scripts que llevan a cabo tareas de procedimiento , como la exploración Web y la indexación . Instrucciones
1

Abra una aplicación de edición de texto sin formato , como el Bloc de notas , que se incluye con Microsoft Windows o TextEdit de Mac OS X, en la que se autor de una aplicación Web bot Python.

2

Iniciar la secuencia de comandos Python mediante la inclusión de las siguientes líneas de código , y la sustitución de la dirección URL de ejemplo con la dirección URL del sitio web que desea analizar y el nombre de la base de datos de ejemplo, con la base de datos que se almacena los resultados :

importación urllib2 , re, stringenter_point = ' http://www.exampleurl.com ' nombre_bd = ' example.sql '
3

incluye las siguientes líneas de código a definir la secuencia de operaciones que el bot web seguirá :

def uniq ( ss ) : set = { } mapa ( set.__setitem__ , SEC , []) set.keys retorno ()

4

obtener las direcciones URL en la estructura de la página web mediante el uso de las siguientes líneas de código:

definición geturls ( url ) : items = [ ] request = urllib2.Request ( url ) request.add.header ( 'Usuario ', ' Bot_name ;) ) content = urllib2.urlopen ( petición). read () items = re.findall ( " href = " http://. ? " ' , contenido) urls = [ ] regreso urls
5

Definir la base de datos que el bot web usará y especificar qué tipo de información se debe guardar para terminar haciendo que el bot web:

db = open ( nombre_bd , 'a') allurls = uniq ( geturls ( enter_point ) )
6

Guardar el documento de texto y subirlo a un servidor o un ordenador con conexión a internet donde se puede ejecutar el script y comenzar a escanear páginas web.

Lenguajes De Programación
Cómo crear un usuario en Oracle SQL
Propiedades de algoritmos
Diferentes parcelas del color en MATLAB
Cómo reemplazar un carácter con código ASCII Equivalente
Cómo convertir VHD de Acronis
Video Studio Tutorial
¿Qué es un bucle infinito en un Mac
Cómo terminar un bucle finito
Conocimientos Informáticos © http://www.ordenador.online