A volte, come adesso, mi capita di avere dei files PDF dai quali vorrei copiare del testo, ma ciò non risulta possibile. Mi sapreste indicare uno o più programmi che consentano di superare questa limitazione? |
Normalmente questa operazione è possibile. Se non ci riesci ci possono essere due motivi:
Si tratta del secondo caso - almeno stavolta - e non è la prima volta che mi capita. Anche convertire da pdf a file di scrittura (ho provato con libreoffice) risolverebbe la cosa, vero? Non capisco questo passaggio: "Un sotterfugio potrebbe essere quello di stampare il documento su file PDF anziché su stampante e poi applicare il metodo OCR descritto al punto 1" (il file è già pdf...protetto, a quanto pare) NON risolverebbe.. (grazie per la risposta cmq!) Ho scaricato YAGF, infatti, e non riesce ad aprirmi il file pdf in questione @Mariu: ho modificato un po' il punto 2., togliendo il riferimento alla stampa, che probabilmente è inutile. @Mariu: se è un documento pubblico, si potrebbe avere un link in modo da provare? Ho fatto un download da un sito. Non credo posso postarlo qui @Mariu: a meno che non sia spam o qualcosa di compromettente o disdicevole, allora postalo tranquillamente in un commento. Ok. Adesso vorrei far scannerizzare un documento, quindi si tratterà di un file di immagini. Poi vorrei selezionare/copiare del testo del documento e incollare su un altro. Quindi torno al problema (caso uno citato da @enzotib .Può essere compiuta questa operazione, come mi è stato detto, usando il programma YAGF (l'ho trovato in Ubuntu Software Center digitando "Tesseract"? O devo scaricare un altro programma? Siete sicuri che l'operazione avrà successo? (vorrei esserne sicuro prima di pagare la copisteria per la scannerizzazione) @Mariu: yagf è solo una interfaccia grafica per tesseract e/o per un altro programma simile che si chiama cuneiform. I programmi di OCR non funzionano mai perfettamente, nel senso che poi il testo che producono va rivisto attentamente perché ci sono sempre degli errori qua e là. La qualità del riconoscimento dipende anche dalla qualità grafica del documento originale. In ogni caso il successo dell'operazione non te lo posso assicurare, ma ormai gli scanner si trovano su ogni stampante multifunzione, sei sicuro di dover necessariamente ricorrere ad un servizio a pagamento? grazie. Come installo il pacchetto tesseract allora? Se in Ubuntu Software Center digito "tesseract" compare solo Yagf e Slimrat file downloader allora? :-) @Mariu, per installare tesseract puoi installare direttamente yagf che dipende da tesseract, inoltre ti conviene anche installare un dizionario italiano:
5 su 12
mostra altri 7 commenti
|
Il programma predefinito per l'apertura dei file PDF è Evince. |
Segui questa domanda
Via email:Una volta eseguito l'accesso potrai iscriverti a tutti gli aggiornamenti qui
Via RSS:Basi di markdown
- *corsivo* o __corsivo__
- **grassetto** o __grassetto__
- collegamento:[testo](http://url.com/ "titolo")
- immagine?
- elenco numerato: 1. Foo 2. Bar
- per aggiungere un'interruzione di riga, aggiungi due spazi a fine riga e premi «Invio»
- è supportato anche semplice HTML
Tag:
domanda posta: 10 Oct '14, 13:48
domanda visualizzata: 5,378 volte
ultimo aggiornamento: 24 Oct '14, 11:12
Ok. Adesso vorrei far scannerizzare un documento, quindi si tratterà di un file di immagini. Poi vorrei selezionare/copiare del testo del documento e incollare su un altro. Quindi torno al problema (caso uno citato da @enzotib .Può essere compiuta questa operazione, come mi è stato detto, usando il programma YAGF (l'ho trovato in Ubuntu Software Center digitando "Tesseract"? O devo scaricare un altro programma? Siete sicuri che l'operazione avrà successo? (vorrei esserne sicuro prima di pagare la copisteria per la scannerizzazione)