Alexander A. E.Django developer

Etiqueta: pdf

Herramientas para extraer texto de archivos PDF

Algunos casos de uso en los que se requiera extraer texto de archivos pdf pueden ser:

  • ejecutar análisis de curriculums vitae (hojas de vida)
  • para permitir la búsqueda por contenidos en un archivo
  • obtención de los datos de contacto de empresas desde boletas o facturas de pago
  • conversión a un formato más amigable para su presentación en la web (html) entre otros

A continuación, 3 herramientas que se pueden utilizar para extraer texto de archivos PDF:

1. PDFMiner (python):

Enlace …

Feb
12

PyFPDF

PyFPDF es una librería1 que genera documentos PDF mediante python. Es un port de FPDF, el cual está escrito en PHP.

Mientras revisaba el código de este paquete (el cual no es muy complicado de entender, al menos en parte) hice un ejemplo en el que se hace uso del:

  • encabezado y pie de página
  • propiedades del documento (autor, título)
  • manejo de tipografías (tamaño de texto y estilos incluidos)
  • una tabla con contenidos de productos, cantidades y precios (similar …
Nov
03

1