“Conocimiento Computadora>Software

Cómo extraer texto de un documento PDF

Puede ser muy frustrante intentar extraer texto de un archivo PDF para usarlo en otra aplicación. No es raro que los gráficos se interpongan en el camino o que el diseño del documento dificulte que la prueba se transfiera en oraciones significativas. Aunque no es imposible extraer texto con un enfoque de copiar y pegar, puede llevar mucho tiempo y no permite que el texto del archivo PDF se exporte como un formato diferente. Sin embargo, existen algunas formas de extraer texto de un archivo PDF.

Extraer texto con Acrobat Reader

Paso 1

Abra el archivo en Acrobat Reader. En Windows, seleccione "Archivo -> Exportar documento a texto", asigne un nombre al documento y guárdelo.

Paso 2

Copie el texto en un sistema operativo Mac o Linux accediendo al menú Ver y seleccionando " Continuo "o" Orientación continua ". (El primero le proporcionará el texto en una columna, mientras que el segundo formateará el texto como páginas en paralelo). Vaya a "Editar -> Seleccionar todo" y luego "Editar -> Copiar".

Use la herramienta Seleccionar si solo desea extraer parte del texto. Haga clic en la herramienta "Selección de texto" y luego elija la información que desee. En un documento formateado en varias columnas, primero deberá usar la herramienta "Seleccionar columna". Vaya a "Editar -> Copiar".

Convertir PDF a HTML

Paso 1

Use Gmail como acceso directo. Adjunte el archivo PDF a un correo electrónico y envíelo a su cuenta de Gmail. Cuando abra el correo electrónico, verá una serie de opciones junto al archivo adjunto. Elija "Ver como HTML" y guarde el archivo que se abre en una ventana separada. Aunque no podrá ver ningún gráfico, el archivo HTML conservará el formato de texto del documento.

Paso 2

Extraiga y convierta archivos en la línea de comandos. Los usuarios de Linux pueden usar un comando de conversión básico que cambiará un archivo .pdf a un archivo .txt: "pdftotext filename.pdf". Asegúrese de reemplazar el nombre del archivo con el nombre del archivo PDF.

Descargue un programa de conversión de PDF a texto. Hay una serie de programas de código abierto y gratuitos disponibles, como PDFBox y Easy PDF to Text Converter (ver Recursos a continuación). Muchos de estos programas también pueden convertir archivos PDF a HTML.

Consejos

Determine si el documento está formateado para contener texto y gráficos. El enfoque de Adobe Acrobat solo funcionará si el archivo PDF contiene ambos; no funcionará solo para archivos con imágenes. En algunos casos, el texto en un documento PDF está formateado como una imagen. Esto sucede a menudo cuando se escanea un documento original y se crea un archivo PDF a partir de la imagen escaneada.

Esté preparado para volver a formatear parte del texto cuando use Acrobat Reader. Esta forma de extracción simplemente exporta el archivo PDF a un archivo de texto; no retendrá necesariamente el formato. Sin embargo, si solo necesita usar las palabras, esto no debería ser un problema.

Elementos que necesitará

Archivo PDF

Adobe Acrobat Reader

Cuenta de Gmail (opcional)

Software de conversión de PDF a texto (opcional)

[Cómo extraer texto de un documento PDF] URL: http://www.ordenador.online/computadora/Software/257353.html

Software
Cómo convertir Excel a texto separado por comas
Control C en Expect Script
Comparación de programas de software antivirus: AVG, McAfee y NOD32
¿Cuál es la diferencia entre el almacenamiento en búfer y la transmisión?
Cómo importar un JPEG en un archivo de Photoshop existente
Recuperación de contraseña EXE
Cómo abrir el símbolo del sistema en Windows Mobile 6.0
Cómo convertir un JPEG en un tema para Windows
Conocimiento de la computadora © http://www.ordenador.online