“Conocimientos Programación>Python Programming

Cómo utilizar Html5lib en Python

2015/11/30
El lenguaje de programación Python puede soportar 5 sitios web HTML usando la biblioteca Html5lib . Esta biblioteca le permite escribir scripts de Python que analizan HTML 5 páginas con una estructura de árbol . Estructuras de árbol son vistas jerárquicas de elementos de la página web. Acceso a elementos de la página web se realiza usando un andador árbol. El árbol walker ' camina ' a ​​lo largo de las conexiones de los nodos del árbol , y pueden recorrer todo el árbol. Usted puede utilizar Python con ' Html5lib ' para abrir , ver e imprimir una página web HTML 5 . Cosas que necesitará
Python 3.2 lenguaje de programación con el módulo Html5lib
Mostrar más instrucciones
1

Abra el editor de texto IDLE en Archivos de programa ( o aplicaciones para Macintosh ) en el directorio de Python. Se abrirá un archivo de código fuente en blanco
2

Importación del módulo " Html5lib " por escrito las siguientes declaraciones en la parte superior del archivo de código fuente: .

Importación html5lib
< p > de treebuilders importación html5lib , treewalkers , serializador

importación urllib2
3

Crear un nuevo analizador de HTML 5 , que va a utilizar para leer una página web HTML. Declarar un nuevo analizador escribiendo lo siguiente:

parser = html5lib.HTMLParser ()
4

Abra una página web pasando su nombre en la función urllib2.urlopen . Por ejemplo, si desea abrir " www.website_adddress.com ", escriben lo siguiente: .

URL = urllib2.urlopen ( " http://www.website_address.com ") read ()
página 5

Pase el sitio web en el HTML 5 parser para recibir una representación de árbol . Guardar esta representación en una variable llamada " árbol " por escrito la siguiente declaración :

árbol = parser.parse (URL )
6

Crear un walker árbol como este :

TreeWalker = treewalkers.getTreeWalker ( " libertad ")
7

Paseo por el árbol usando el andador árbol. El walker árbol devolverá un flujo de información que descubre en la página web HTML 5 . Caminar a través del árbol , escriba lo siguiente:
stream

= TreeWalker ( árbol)
8

serializar la corriente para que pueda fácilmente la salida a la consola . Usted puede serializar el flujo usando las siguientes dos declaraciones :

serie = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )
salida

= serial.serialize (corriente ) baratos en 9

Iterar a través de la producción en serie de la corriente así:

para el elemento de salida :
10

sangría de la línea inmediatamente después de la declaración anterior y escribir una función de impresión , como esto:

impresión (elemento)
11

Ejecute el programa presionando F5. La secuencia de comandos se abrirá a continuación, analizar una página web HTML 5 . La secuencia de comandos serializa la estructura de árbol de la página y la envía a la consola. La producción variará en función de la página web seleccionada , pero puede ser algo como esto :



< /head>


Bienvenido a una página web!

< /body>

< /html>


Python Programming
Cómo hacer una función de evaluación en Python
Cómo utilizar el Súmate y Dividir funciones en Python Programación
Cómo hacer un bucle de repetición en Python
Cómo quitar un texto en Python
Cómo unirse a las listas en Python
Cómo crear un gráfico en Python
Cómo editar pyo y PYC PYC
Cómo convertir CSV a HTML en Python
Conocimientos Informáticos © http://www.ordenador.online