“Conocimientos Programación>Python Programming

Cómo: Regex para analizar XML

2011/2/20
Parsing XML representa un desafío para los aspirantes a texto analizador debido a la extensibilidad de XML. Convenciones de formato XML son de naturaleza jerárquica , es decir, algunas etiquetas dominan otras etiquetas . Expresiones regulares ( expresiones regulares ) identifican patrones de texto XML - Una expresión regular para coincidir etiquetas XML coincidirá con todo dentro de las etiquetas xml < > , pero no se mostrará a la organización jerárquica de estas etiquetas. Es posible separar la estructura de etiquetas del texto utilizando el lenguaje de programación Python y el paquete Kit de herramientas de lenguaje natural , que incorpora las expresiones regulares y la manipulación de texto y puede mostrar las etiquetas XML y su organización . Instrucciones
1

Abra una ventana de terminal y escriba el comando " python- v " en el indicador para comprobar la presencia y la versión de Python en el equipo. Ir a la página de inicio NLTK y descargar el paquete de instalación NLTK correspondiente a su sistema operativo. Compruebe que NLTK está instalado correctamente escribiendo el comando " >>> import NLTK " en el prompt de Python.
2

Tipo ">>> nltk.download ()" para abrir una ventana. Seleccione la fila denominada "todos" y haga clic en el botón de descarga. Esto descargará una serie de textos para NLTK para trabajar, entre ellos la obra de Shakespeare " El mercader de Venecia " formateado con etiquetas XML especiales para obras de teatro.
3

Importe el Mercader de Venecia etiquetado en XML con el siguiente comando en el prompt de Python :

>>> merchant_file = nltk.data.find ( ' corpora /shakespeare /merchant.xml ' )

Asigne al archivo un variable, de manera que se puede manipular con comandos de Python : .

>>> prima = open ( merchant_file ) read ()

Sólo para asegurarse de que está ahí , entre el el siguiente comando para ver los primeros 168 caracteres : .

>>> print prima [ 0:168 ]

verá las etiquetas de encabezado XML y las etiquetas especiales de reproducción XML
Página 4

Escriba el siguiente comando en el prompt de Python :

>>> from nltk.etree.ElementTree importación elementtree

y pulse "Return ", entonces escriba lo siguiente en el prompt de Python : . el comando parse

>>> comerciante = elementtree () parse ( merchant_file )

permite al usuario ver las etiquetas XML y su contenido . Para construir una visión jerárquica de etiquetas XML correctamente anidados , introduzca el siguiente comando en el prompt de Python :

>>> merchant.getchildren ()

Esto mostrará todos los XML especial jugar a las etiquetas en el orden jerárquico. La salida de este comando debe ser similar a esto:

[ TITULO , PERSONAE , SCNDESCR , PLAYSUBT , < ; ACT Elemento en 22cc0f8 > , ACT , ACT , ACT , ACT ]


Página anterior:
Python Programming
¿Cómo deshacerse de los soportes en Python Matriz
Cómo convertir una lista en un conjunto en Python
Cómo establecer la ruta Python
Función externa y alcance en Python
Cómo hacer una copia de un objeto con Python
Cómo utilizar la cuerda en Python
Tipos enumerados en Python
Cómo controlar un shell de Unix con Python
Conocimientos Informáticos © http://www.ordenador.online