“Conocimientos software>Formato de Documento Portátil

Cómo leer archivos PDF en Java

2013/8/21
No es difícil de leer archivos PDF en Java que utilizan bibliotecas que están fácilmente disponibles . Lectura de archivos PDF le permite escribir programas en Java que pueden procesar el texto en esos archivos . Una de las opciones para la lectura de archivos PDF es la biblioteca PDFBox libre, de código abierto disponible en Apache . La plataforma de desarrollo Eclipse Java hace que este trabajo sea más fácil y gestiona las bibliotecas que se descarga . Usted debe estar familiarizado con la programación Java para hacer uso de estas bibliotecas Java. Instrucciones
Reúna librerías necesarias
1

Descargar el JDK de Java desde el sitio web de Sun. Este es un archivo ejecutable que se puede instalar en su sistema mediante la ejecución . Hay versiones disponibles para Windows , Mac y Linux. Haga clic en " Download \\ " botón rojo \\. Guardar un archivo llamado \\ " jdk- 6uxx -windows- xxx.exe \\ " cuando se le solicite . Guarde el archivo y haga doble clic en él para iniciar la instalación de Java .
2

Descargar el sistema de desarrollo de Eclipse y descomprimirlo en un directorio de nivel superior. Seleccione \\ "Eclipse IDE para desarrolladores de Java . \\ " Esto iniciará la descarga de \\ "eclipse -java -galileo - SR2- win32.zip . \\ " Haga doble clic en el archivo para descomprimirlo después de la descarga completar . Seleccione la \\ "C: \\ " . Ubicación del directorio raíz para descomprimir Eclipse
3

Start Eclipse haciendo doble clic en \\ " eclipse.exe \\ " en el directorio acaba de crear por descomprimir el archivo zip eclipse. En el sistema de Eclipse , cree un proyecto denominado \\ " PrintPDF . \\ " Seleccione \\ "Archivo \\ " y luego \\ "Nuevo \\ " entonces \\ " proyecto Java. \\ " Escriba el nombre del proyecto \\ " ; PrintPDF \\ "en el cuadro de diálogo que aparece. Asegúrese de que se selecciona el botón de radio que dice \\ "Crear carpetas separadas para los archivos de origen y de clase. \\ " Click \\ "Finalizar \\".
4

Crear un \\ " lib " carpeta en su \\ " \\ proyecto PrintPDF \\ " . Haga clic en el \\ " PrintPDF \\ " del proyecto y seleccione \\ "Nuevo \\ " y \\ " carpeta. \\ " Introduzca el nombre de \\ " lib \\ " y haga clic en \\ " Finalizar. \\ "
5

Descargar Apache \\ " PDFBox.jar \\ "del sitio de Apache y copiarlo en el directorio lib que acaba de crear . En la misma página web, descargar el " \\ fontbox - nn.jar " archivo \\ y el archivo \\ " jempbox - nn.jar \\ " . En cada caso, al hacer clic en ese archivo jar, que le llevará a una página donde puede seleccionar uno de varios servidores que pueden proporcionar este archivo. Elija cada uno de ellos y cada archivo jar se descargará . Copie todos los archivos jar en el directorio lib que acaba de crear .
6

Descargar el paquete log4j.jar Apache en la misma forma y copiar el archivo log4j.jar en el directorio. La biblioteca PDFBox Apache utiliza esta biblioteca de registro de Apache, por lo que este archivo tiene que estar presente .
7

Descargar el paquete Commons Descubrimiento Apache como un archivo zip. Haga doble clic en el archivo zip , seleccione el \\ " commons -discovery - nn.jar \\ " y extraerlo en el directorio lib .
8

En Eclipse, haga clic en el \\ " lib \\ " del directorio y pulse \\ " F5 . \\ " Asegúrese de que todos los archivos jar que agregó son mostradas.
9

Haga clic derecho en el proyecto PrintPDF y seleccione \\ " Propiedades . \\ " seleccione \\ " Ruta Java Build \\ "y seleccione el \\ " Libraries \\ "ficha. Haga clic en \\ " Añadir tarros \\ " y vaya al directorio lib que acaba de crear y añada \\ " commons-logging - nn.jar \\ " \\ " fontbox - nn.jar \\", \\ " ; . jempbox - nn.jar , \\ "\\" log4j - nn.jar , \\ "y \\ " PDFBox - nn.jar \\ "Haga clic en \\ " Aceptar \\ "
< br . >
Escriba el código para leer PDFs
10

Haga clic derecho en la carpeta \\ "src \\ " de la \\ " PrintPDF \\ " del proyecto y seleccione \\ "Nuevo \\ "y el \\ " paquete \\ ". Cree un paquete utilizando cualquier nombre significativo. Por ejemplo , el nombre del paquete \\ " com.pdf.util . \\ " Click \\ "Finalizar \\".
11

Haga clic en el nombre del paquete que acaba de crear y seleccione \\ "Nuevo \\ " y \\ "Class . \\ " Crear una clase llamada \\ " PDFTextParser . \\ " Asegúrese de hacer clic en la casilla marcada \\ " public static void main ... \\ " para que el sistema creará un método \\ " principal \\ " .
12

Editar el método \\ " principal \\ " en el " PDFTextParser \\ " \\ clase para contener el siguiente código :

public static void main ( String args [ ] ) {
PDFTextParser pdf = new PDFTextParser ( \\ " data /javaPDF.pdf \\ ") < resultados br /> GO
//impresión hacia fuera
System.out.println ( pdf.getParsedText ())

GO }
,
Tenga en cuenta que el archivo que desea imprimir se explica en el constructor para PDFTextParser ( \\ " data /JavaPDF.pdf \\ ") . Podría ser tan fácilmente un argumento de línea de comandos:

PDFTextParser pdf = new PDFTextParser ( argv [ 0 ] )

GO < br /> o seleccionados de una interfaz GUI.

Se crea una instancia de la clase PDFTextParser , y luego llama a su método \\ " getParsedText \\ " .
13

Inserte el siguiente código justo debajo de la línea de primera clase \\ " PDFTextParser public class \\ " que se ha creado para usted.

analizador PDFParser privado = null
GO

texto //Extracto del documento PDF
PDFTextParser público ( string nombre_archivo ) {
file = new archivo (nombrearchivo )
; (! file.isFile () ) GO

si { System.err.println ( \\ "Archivo \\ " + fileName + \\ . " no existe \\ ")

GO }
//Crear instancia del analizador PDF

try { parser = new PDFParser ( nueva FileInputStream (archivo) )

GO } catch ( IOException e) {
System.err.println ( \\ " No se puede abrir Analizador PDF . \\ " + e.getMessage () )

GO } }

//--------------------- ----------
cadena getParsedText pública () {
PDDocument pdDoc = null

GO COSDocument cosDoc = null; < br /> cadena parsedText = null;
GO


try { PDFTextStripper pdfStripper = new PDFTextStripper ()
GO < br /> parser.parse ()

GO cosDoc = parser.getDocument ()

GO pdDoc = new PDDocument ( cosDoc ) < br /> GO

//lista de todas las páginas de obtener
lista list = pdDoc.getDocumentCatalog () . getAllPages ( )
IR < br />
//en cuenta que usted puede imprimir las páginas que desee
//al elegir diferentes valores de la página de inicio y fin
pdfStripper.setStartPage ( 1 ) ;
int longitud = list.size (); //Número total de páginas
pdfStripper.setEndPage (longitud ) //última página
< br /> //obtener el texto de las páginas seleccionadas
parsedText = pdfStripper.getText ( pdDoc )

GO } catch ( IOException e) {
System.err
. println ( \\ " Una excepción ocurrió en analizar el documento PDF . \\ "
+ e.getMessage ()) GO

;} finally { try {

if (! cosDoc = null)
cosDoc.close ()

GO if ( pdDoc ! = null)
pdDoc.close ()

GO } catch ( IOException e) {
e.printStackTrace () < br /> GO
}
}
regreso parsedText

} GO
14

Ejecute el programa. Haga clic en la clase PDFTextParser y haga clic en \\ " Ejecutar como \\ " y luego en \\ " programa Java. \\ " El programa se debe ejecutar e imprimir el contenido de texto del archivo PDF que ha introducido en el código.
reprimir log4j inicio mensaje de error
15

Crear un archivo de configuración para suprimir el sistema de registro de mensajes de error log4j de Java creado cuando no puede encontrar un archivo de configuración cuando se inicia. Haga clic derecho en la carpeta \\ "src \\ " del proyecto PrintPDF y seleccione \\ "Nuevo \\ " y \\ "Archivo \\ ". Nombre del archivo \\ " log4j.properties \\ " Eclipse mostrará una pantalla en blanco para el nuevo archivo .
16

pegue las líneas siguientes a la pantalla en blanco que representa el " log4j.properties \\ " \\ archivo.

; # Establezca el nivel de registrador de la raíz a depurar y su único appender a A1
log4j.rootLogger = WARN , A1

# A1 está dispuesto a ser un ConsoleAppender < . . br /> log4j.appender.A1 = org.apache.log4j.ConsoleAppender

# A1 utiliza PatternLayout .
log4j.appender.A1.layout = org.apache . log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern =% - 4r [% t ]% - 5p % c % x -% m % n
17

Save the \\ " log4j.properties \\ " archivo. La presencia de este archivo en el nivel superior \\ "src \\ " directorio suprimir el mensaje de inicio de log4j y los mensajes de registro triviales. El sistema log4j imprimirá sólo los errores actuales.

Formato de Documento Portátil
Cómo editar archivos PDF en Linux
Cómo eliminar datos en un formulario PDF
Cómo cambiar PDF a JPEG Imágenes
¿Cómo reparar un archivo PDF
Cómo eliminar texto en un PDF con Adobe Acrobat Pro
Cómo crear archivos PDF a partir de documentos editables escaneados
Cómo crear archivos libres de impresora PDF
Conversión de archivos de PDF a Word
Conocimientos Informáticos © http://www.ordenador.online