Grazie all'ottimo pdftotext, riesco ad estrarre e ad eleborare dati da una gran quantità di file pdf. Questi file pdf, creati perlopiù con la funzione "stampa su file" da documenti che originariamente erano in altri vari formati, apparentemente contengono solo elementi di testo; tuttavia mi accorgo che alcuni campi vengono identificati come immagini, e infatti non vengono letti da pdftotext. In rete ho trovato suggerimenti per applicare la tecnologia OCR ai miei documenti pdf, tuttavia tutti prevedono che i documenti vengano importati nel software OCR e quindi "trattati" uno ad uno. Esiste un sistema per fare ciò da riga di comando, in modo da agire contemporaneamente su un gran numero di files?

chiesto 02 Lug '15, 15:29

piccolo%20principiante's gravatar image

piccolo prin...
157132027

1

Mah, tesseract è a linea di comando...

(02 Lug '15, 15:40) dadexix86 ♦♦ dadexix86's gravatar image

Mi scuso per la superficialità, provo subito...

(02 Lug '15, 18:22) piccolo prin... piccolo%20principiante's gravatar image

tieni presente che comunque un testo recuperato con metodo OCR va poi integralmente ricontrollato da un essere umano, perché sono sempre presenti degli errori di interpretazione.

(02 Lug '15, 19:16) enzotib ♦♦ enzotib's gravatar image
Scrivi tu la prima risposta!
abilita/disabilita anteprima

Segui questa domanda

Via email:

Una volta eseguito l'accesso potrai iscriverti a tutti gli aggiornamenti qui

Via RSS:

Risposte

Risposte e commenti

Basi di markdown

  • *corsivo* o __corsivo__
  • **grassetto** o __grassetto__
  • collegamento:[testo](http://url.com/ "titolo")
  • immagine?![alt testo](/path/img.jpg "titolo")
  • elenco numerato: 1. Foo 2. Bar
  • per aggiungere un'interruzione di riga, aggiungi due spazi a fine riga e premi «Invio»
  • è supportato anche semplice HTML

Tag:

×93
×1
×1

domanda posta: 02 Lug '15, 15:29

domanda visualizzata: 418 volte

ultimo aggiornamento: 02 Lug '15, 19:16

Chiedi è un servizio di supporto gestito da Ubuntu-it. Contattaci!

powered by OSQAPostgreSQL database
Ubuntu e Canonical sono marchi registrati da Canonical Ltd.