1
1

Buongiorno a tutti. Esiste un modo a riga di comando di estrarre dati da un documento .pdf ed incollarli in un file di testo? Obiettivo di tutto ciò sarebbe la creazione di uno script per estrarre dati da più .pdf e rielaborarli. (Il passaggio successivo sarà la scrittura dei dati elaborati in un nuovo .pdf, ma questo sarà eventualmente oggetto di un'altra domanda.)

Grazie in anticipo per l'attenzione.

chiesto 11 Nov '14, 11:46

piccolo%20principiante's gravatar image

piccolo prin...
157132027


Ecco una possibile soluzione:

#!/bin/bash

# per ogni file PDF presente nella directory /path
for f in /path/*.pdf; do

  #prende il nome del file senza path
  g="${f##*/}"

  # toglie anche l'estensione .pdf
  g="${g%.pdf}"

  # estrae il testo e salva l'output con l'estensione .txt nella directory corrente
  pdftotext "$f" "$g".txt

done

# concatena tutti i file di testo nella directory corrente e converte l'output in PDF 
cupsfilter <(cat *.txt) > output.pdf
coll. permanente

ha risposto 11 Nov '14, 12:09

enzotib's gravatar image

enzotib ♦♦
14.0k112186

modificato 11 Nov '14, 12:10

Grazie della prontissima risposta!! Provo quanto prima.

(11 Nov '14, 12:27) piccolo prin... piccolo%20principiante's gravatar image

@piccolo-principiante: non usare le risposte, usa i commenti.

(11 Nov '14, 12:35) enzotib ♦♦ enzotib's gravatar image

Ok, provato... era proprio ciò che mi serviva. Grazie anche per aver indicato nei commenti l'effetto di ogni comando

(11 Nov '14, 20:50) piccolo prin... piccolo%20principiante's gravatar image
La tua risposta
abilita/disabilita anteprima

Segui questa domanda

Via email:

Una volta eseguito l'accesso potrai iscriverti a tutti gli aggiornamenti qui

Via RSS:

Risposte

Risposte e commenti

Basi di markdown

  • *corsivo* o __corsivo__
  • **grassetto** o __grassetto__
  • collegamento:[testo](http://url.com/ "titolo")
  • immagine?![alt testo](/path/img.jpg "titolo")
  • elenco numerato: 1. Foo 2. Bar
  • per aggiungere un'interruzione di riga, aggiungi due spazi a fine riga e premi «Invio»
  • è supportato anche semplice HTML

Tag:

×139
×93
×49
×27

domanda posta: 11 Nov '14, 11:46

domanda visualizzata: 1,389 volte

ultimo aggiornamento: 11 Nov '14, 20:50

Chiedi è un servizio di supporto gestito da Ubuntu-it. Contattaci!

powered by OSQAPostgreSQL database
Ubuntu e Canonical sono marchi registrati da Canonical Ltd.