“Conocimientos software>Formato de Documento Portátil

Cómo indizar y buscar un archivo PDF en Java Con Lucene

2011/9/14
Apache Lucene es un motor de búsqueda de texto de la biblioteca con todas las funciones escritas en Java. Usted puede utilizar Lucene para indexar y buscar cualquier tipo de documento de texto. Para convertir un formato de documento portátil (PDF) en un formato de texto que puede Lucene índice , puede utilizar la clase de código abierto PDFBox que tiene métodos especiales específicamente para Lucene. Sólo es necesario que el nombre del archivo PDF a PDFBox y obtener un objeto del documento Lucene que se puede agregar al índice y buscó al igual que cualquier archivo de texto. Instrucciones
1

Seleccione un analizador de Lucene para utilizar en la creación del índice, por ejemplo, " StandardAnalyzer . " Crear un objeto " IndexWriter " para manejar la adición de nuevos elementos en el índice , por ejemplo :

IndexWriter myWriter = new IndexWriter ( "index" , nuevo StandardAnalyzer () , true) ;
2 < p > Llamada " LucenePDFDocument " para obtener un objeto de documento Lucene de su archivo PDF . Agregar otros campos clave para el objeto y agregar el objeto con el índice de Lucene. Por ejemplo :

Documento PDFDoc = LucenePDFDocument.getDoument (filename ) ;

pdfDoc.add ( nueva Field ( "title" , pdf.getTitle (), Field.Store.YES , Campo . Index.TOKENIZED ));

pdfDoc.add ( nueva Field ( "autor " , pdf.getAuthor (), Field.Store.YES , Field.Index.TOKENIZED ));

myWriter . addDocument ( PDFDoc ) ;
3

Utilice la clase " buscadores " para buscar el índice de Lucene. " Buscadores " devuelve un objeto Lucene " Hits" con una lista de objetos " Hit " . Por ejemplo :

buscadores Mysearch = new buscadores ();

Impactos myHits = mySearch.performSearch ( buscarTexto ) ;

System.out.println ( " Documentos encontrados: " + myHits.length ());
4

Iterar a través de los objetos " éxito" para obtener más información acerca de cada partido . Los objetos " éxito" se ordenan por relevancia en la búsqueda , y también se puede obtener la puntuación de búsqueda en relación con " getScore (). " Por ejemplo :

Iterator ITR = myHits.iterator ();

while ( itr.hasNext ()) {

Hit theHit = itr.next () ;

documento theDoc = theHit.getDocument ();

System.out.println ( theDoc.get ( "title" ) + " - " + theHit.getScore ());

}

Formato de Documento Portátil
Guardar archivos en formato PDF
Cómo importar un archivo PDF en OpenOffice
Cómo crear un PDF para Snow Leopard
Cómo escanear un documento de carta en un archivo PDF
Cómo hacer un archivo PDF de una página escaneada
Cómo convertir archivos PDF a archivos Overture
¿Cómo extraer la fuente a partir de archivos PDF
Cómo cambiar un archivo eps en un archivo JPEG o PDF
Conocimientos Informáticos © http://www.ordenador.online