Extraer información de un PDF


A veces nos llega a las manos un pdf que han generado a partir de escanear un documento, y lo han hecho con tan poco tino que toda la información llega como una imagen. Si queremos reaprovechar la información la tenemos que volver a escribir a mano. La opción es pasar el pdf por un sistema de reconocimiento de caracteres (OCR) y aprovechar lo que podamos.
En este post he encontrado varias opciones de servicios on-line que podemos usar. Sólo he probado dos:

Magnifico para una única página. El proceso consta de dos partes, subir la imagen y después -tras introducir un CAPTCHA- iniciar el reconocimiento y descargar el documento. Por lo poco que he probado reconoce muy bien el texto y mantiene el formato.
Problema: sólo transforma la primera página y la versión gratis sólo admite unas 15 transformaciones al día.

Google Docs
Como siempre practico y sencillo. Basta subir un documento pdf e indicar en las opciones que extraiga el texto del pdf. El resultado es un documento compuesto por las páginas del pdf en imagen y el texto extraído  Es un poco incomodo, pero resulta practico.

Compartir
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *