1. Uso de "Buscar" (reemplazar "(limitado y tedioso) del escritor de OpenOffice:
Este método es factible para un archivo más pequeño, pero muy poco práctico para un archivo HTML de 100 páginas.
* import: Abra el archivo HTML en OpenOffice Writer. Probablemente preservará el formato, incluidos los encabezados.
* Buscar y reemplazar (iterativo): Realice una operación "Buscar y reemplazar".
* encontrar: ``
.*?
`(Esto encuentra todo entre '`y`
`Etiquetas. El `.*?` ¿Es una expresión regular no verde para evitar que coincidan accidentalmente múltiples ``secciones)
* Reemplazar: Mantenga este campo vacío. Haga clic en "Reemplace todo". Esto eliminará el contenido pero * no * el encabezado. Repita para `
`etiquetas.
* Repita: Luego deberá eliminar manualmente todo * excepto * los encabezados. Esto lleva mucho tiempo para un archivo grande.
2. Uso de OpenOffice Calc y expresiones regulares (más avanzadas, pero potencialmente mejor):
Este enfoque está más automatizado, pero requiere cierta familiaridad con las expresiones regulares y las funciones de hoja de cálculo.
* import (como texto): Abra el archivo HTML en OpenOffice Calc. Importarlo como texto plano, no HTML, para evitar el formato de problemas. Probablemente se importará como una célula única y muy larga.
* divide el texto: Use la función `TextSplit` (disponible en versiones más nuevas de OpenOffice) para dividir el texto en líneas basado en un delimitador como los retornos de carro (` \ n`). Esto le dará una línea por línea de código HTML (aproximadamente).
* Expresiones regulares (con `regex`): Use la función `regex` de OpenOffice (similar a la` regexmatch` o 'regexextract` de Excel dependiendo de su versión) dentro de una nueva columna. La fórmula debe extraer el texto del encabezado. Un ejemplo:`=regex (a1",
(.*?)
|(.*?)
"; 2)`* Esta fórmula busca `
`o` `Etiquetas, capturando el contenido dentro. El `|` actúa como un operador "o". El `(.*?)` Captura el contenido de manera no verde. El `2` extrae el segundo grupo de captura; Si tan solo ` `se descubrió que sería una cadena vacía.
`se descubrió que sería una cadena vacía.
* Filtro y limpio: Filtro para que las celdas no vacías eliminen las entradas sin encabezados encontrados. Todavía necesitará una limpieza manual para eliminar cualquier espacio en blanco adicional o caracteres callejeros de los resultados.
3. Uso de herramientas externas (recomendadas):
Este es, con mucho, el método más fácil y eficiente para un archivo grande. Use una herramienta de procesamiento de texto dedicada o lenguaje de secuencias de comandos como Python:
* Python con 'hermosa sopa': Python, con la biblioteca 'Hermosa sopa', es excelente para analizar HTML. Un script corto puede extraer solo las etiquetas `H2` y` H3` y su contenido. Muchos tutoriales en línea muestran cómo hacer esto.
Ejemplo de script python:
`` `Python
de bs4 import beautifulsoup
con Open ("Your_100page_html_file.html", "r", encoding ="utf-8") como F:
html =f.read ()
sopa =beautifulsoup (html, "html.parser")
encabezados =[]
para H2 en sopa.find_all ("H2"):
headings.append (h2.text.strip ())
para H3 en sopa.find_all ("H3"):
headings.append (h3.text.strip ())
con Open ("extraído_headings.txt", "w", encoding ="utf-8") como OutFile:
para ir en los encabezados:
Outfile.write (encabezado + "\ n")
imprimir ("encabezados extraídos a extraer_headings.txt")
`` `` ``
Recuerde reemplazar `" Your_100page_html_file.html "` con su nombre de archivo real. Deberá instalar 'Sopa hermosa':'Pip instale beautifulsoup4`
El enfoque de Python se recomienda encarecidamente por su eficiencia y precisión. Los métodos de OpenOffice son significativamente más engorrosos para un archivo de este tamaño.