A volte, come adesso, mi capita di avere dei files PDF dai quali vorrei copiare del testo, ma ciò non risulta possibile. Mi sapreste indicare uno o più programmi che consentano di superare questa limitazione?
LibreOffice consente di aprire files PDF in formato testo, ma mi sembra che anche in quel caso non si possano copiare singole frasi del testo.

chiesto 10 Oct '14, 13:48

Mariu's gravatar image

Mariu
56222227

modificato 10 Oct '14, 14:49

enzotib's gravatar image

enzotib ♦♦
14.1k113187

Ok. Adesso vorrei far scannerizzare un documento, quindi si tratterà di un file di immagini. Poi vorrei selezionare/copiare del testo del documento e incollare su un altro. Quindi torno al problema (caso uno citato da @enzotib .Può essere compiuta questa operazione, come mi è stato detto, usando il programma YAGF (l'ho trovato in Ubuntu Software Center digitando "Tesseract"? O devo scaricare un altro programma? Siete sicuri che l'operazione avrà successo? (vorrei esserne sicuro prima di pagare la copisteria per la scannerizzazione)

(22 Oct '14, 21:46) Mariu Mariu's gravatar image

Normalmente questa operazione è possibile. Se non ci riesci ci possono essere due motivi:

  1. Il file PDF non contiene testo ma immagini, ed il testo che vedi è contenuto in queste immagini. Questo è quello che succede per esempio se fai una scansione di un documento. In questo caso potresti ricorrere ad un programma di estrazione del testo, un cosiddetto OCR (Optical Character Recognition), come per esempio Tesseract.
  2. il file PDF è protetto rispetto a questa operazione. Questa cosa credo sia poco probabile, raramente mi è capitato di vederla. Cosa si possa fare in questo caso non lo so, probabilmente ci saranno dei programmi in grado di superare la protezione, ma non li conosco. Anche in questo caso il metodo OCR descritto al punto 1 potrebbe aiutare a risolvere il problema.
coll. permanente

ha risposto 10 Oct '14, 14:48

enzotib's gravatar image

enzotib ♦♦
14.1k113187

modificato 10 Oct '14, 15:18

Si tratta del secondo caso - almeno stavolta - e non è la prima volta che mi capita. Anche convertire da pdf a file di scrittura (ho provato con libreoffice) risolverebbe la cosa, vero?

Non capisco questo passaggio:

"Un sotterfugio potrebbe essere quello di stampare il documento su file PDF anziché su stampante e poi applicare il metodo OCR descritto al punto 1" (il file è già pdf...protetto, a quanto pare)

(10 Oct '14, 15:09) Mariu Mariu's gravatar image

NON risolverebbe.. (grazie per la risposta cmq!)

(10 Oct '14, 15:10) Mariu Mariu's gravatar image

Ho scaricato YAGF, infatti, e non riesce ad aprirmi il file pdf in questione

(10 Oct '14, 15:11) Mariu Mariu's gravatar image

@Mariu: ho modificato un po' il punto 2., togliendo il riferimento alla stampa, che probabilmente è inutile.

(10 Oct '14, 15:18) enzotib ♦♦ enzotib's gravatar image

@Mariu: se è un documento pubblico, si potrebbe avere un link in modo da provare?

(10 Oct '14, 15:20) enzotib ♦♦ enzotib's gravatar image

Ho fatto un download da un sito. Non credo posso postarlo qui

(10 Oct '14, 16:20) Mariu Mariu's gravatar image

@Mariu: a meno che non sia spam o qualcosa di compromettente o disdicevole, allora postalo tranquillamente in un commento.

(10 Oct '14, 16:46) enzotib ♦♦ enzotib's gravatar image

Ok. Adesso vorrei far scannerizzare un documento, quindi si tratterà di un file di immagini. Poi vorrei selezionare/copiare del testo del documento e incollare su un altro. Quindi torno al problema (caso uno citato da @enzotib .Può essere compiuta questa operazione, come mi è stato detto, usando il programma YAGF (l'ho trovato in Ubuntu Software Center digitando "Tesseract"? O devo scaricare un altro programma? Siete sicuri che l'operazione avrà successo? (vorrei esserne sicuro prima di pagare la copisteria per la scannerizzazione)

(22 Oct '14, 21:48) Mariu Mariu's gravatar image

@Mariu: yagf è solo una interfaccia grafica per tesseract e/o per un altro programma simile che si chiama cuneiform. I programmi di OCR non funzionano mai perfettamente, nel senso che poi il testo che producono va rivisto attentamente perché ci sono sempre degli errori qua e là. La qualità del riconoscimento dipende anche dalla qualità grafica del documento originale. In ogni caso il successo dell'operazione non te lo posso assicurare, ma ormai gli scanner si trovano su ogni stampante multifunzione, sei sicuro di dover necessariamente ricorrere ad un servizio a pagamento?

(23 Oct '14, 07:41) enzotib ♦♦ enzotib's gravatar image

grazie. Come installo il pacchetto tesseract allora? Se in Ubuntu Software Center digito "tesseract" compare solo Yagf e Slimrat file downloader

(23 Oct '14, 11:51) Mariu Mariu's gravatar image

allora? :-)

(24 Oct '14, 10:38) Mariu Mariu's gravatar image

@Mariu, per installare tesseract puoi installare direttamente yagf che dipende da tesseract, inoltre ti conviene anche installare un dizionario italiano:

sudo apt-get install yagf aspell-it
(24 Oct '14, 11:12) enzotib ♦♦ enzotib's gravatar image

Il programma predefinito per l'apertura dei file PDF è Evince.
Dovresti poter selezionare del testo come in un qualsiasi programma e poi cliccando con il tasto destro del mouse c'è l'opzione copia.
A questo punto incolli il testo in un nuovo documento, per esempio in LibreOffice.

coll. permanente

ha risposto 10 Oct '14, 14:03

bobotm's gravatar image

bobotm
20124

modificato 10 Oct '14, 14:40

enzotib's gravatar image

enzotib ♦♦
14.1k113187

La tua risposta
abilita/disabilita anteprima

Segui questa domanda

Via email:

Una volta eseguito l'accesso potrai iscriverti a tutti gli aggiornamenti qui

Via RSS:

Risposte

Risposte e commenti

Basi di markdown

  • *corsivo* o __corsivo__
  • **grassetto** o __grassetto__
  • collegamento:[testo](http://url.com/ "titolo")
  • immagine?![alt testo](/path/img.jpg "titolo")
  • elenco numerato: 1. Foo 2. Bar
  • per aggiungere un'interruzione di riga, aggiungi due spazi a fine riga e premi «Invio»
  • è supportato anche semplice HTML

Tag:

×30
×15
×2

domanda posta: 10 Oct '14, 13:48

domanda visualizzata: 5,117 volte

ultimo aggiornamento: 24 Oct '14, 11:12

Chiedi è un servizio di supporto gestito da Ubuntu-it. Contattaci!

powered by OSQAPostgreSQL database
Ubuntu e Canonical sono marchi registrati da Canonical Ltd.