Live chat
Inizia una sessione di chat con Qabiria!Twitter Updates
qabiria:
Making quick reference information mobile http://t.co/7n7eNHPV
qabiria:
Is Automated Speech Recognition the new lingua franca? http://t.co/UdmvrylU
qabiria:
The Queen's English: changes through the years - Telegraph http://t.co/RLUyWpmg
Powered by Twitter Feed
Abbonati agli articoli
Articoli collegati
Richiedi un preventivo
Utilizza il formulario di contatto per richiederci un preventivo personalizzato.
|
Quando si riceve un testo da tradurre in formato PDF per poterlo conteggiare e tradurre è necessario convertirlo in formato editabile, seguendo strategie diverse a seconda della sua struttura.I file in formato PDF sono fra i nemici più temuti dai professionisti della traduzione. Per poter analizzare o tradurre con un sistema di traduzione assistita un PDF è necessario convertirlo in un formato editabile. Questa conversione può risultare più o meno difficile (o addirittura impossibile) a seconda del tipo di PDF ricevuto. Saper distinguere a prima vista i vari tipi di PDF è essenziale per applicare il corretto procedimento di conversione e usare il giusto strumento, minimizzando il tempo che intercorre fra la ricezione del file e l’effettivo inizio della traduzione.PDF è l’abbreviatura di Portable Document Format, un formato di file sviluppato da Adobe nel 1993 che consente di rappresentare documenti in modo indipendente dall’hardware e dal software utilizzati per generarli o per visualizzarli. In definitiva un PDF viene visualizzato e renderizzato allo stesso modo indipendentemente dal computer utilizzato. Tale caratteristica ha reso questo formato uno dei metodi preferiti di condivisione di documenti. Per molte persone creare un PDF di un documento è diventato l’equivalente di «fare una fotocopia virtuale» dello stesso, con tutti i vantaggi che ciò comporta in termini di praticità, ma senza contare gli svantaggi che si manifestano quando è necessario modificare o tradurre il PDF stesso. quando si riceve un file pdf bisogna innanzi tutto verificare la natura del suo contenuto. Un PDF può contenere elementi di vario tipo. Alcuni elementi non appartengono al testo visibile: sono le cosiddette «proprietà», ovvero il nome dell’autore, il titolo, etc. Gli altri invece costituiscono il documento vero e proprio e generalmente sono: testo, immagini bitmap (fotografie), grafici vettoriali (linee, alcuni tipi di diagrammi). Ai nostri fini è importante verificare se il testo del documento appare come tale, ovvero se può essere selezionato. Per saperlo basta aprire il documento con Adobe Reader (o con qualunque altro visualizzatore di PDF) e fare clic sull’apposita icona di selezione testo nella barra strumenti, oppure aumentare lo zoom del documento. Se a un certo punto il testo appare sfocato e scalettato significa che ci troviamo di fronte a una scansione. Al contrario, se è possibile selezionare il testo o se aumentando lo zoom esso non perde risoluzione, significa che il PDF è stato generato da un’applicazione. Alcuni programmi di scansione abbinati agli scanner sono in grado di produrre documenti PDF che preservano l’aspetto della pagina digitalizzata, ma che riconoscono allo stesso tempo il testo. In questi casi, il testo è selezionabile, benché la pagina appaia come una copia esatta del documento cartaceo da cui deriva. In questi casi è consigliabile controllare l’ortografia e l’esattezza del testo, perché l’OCR ha un certo margine di errore. Per conoscere quale applicazione ha generato il PDF bisogna premere CTRL+D (oppure File | Document Properties) e leggere quanto contenuto nella scheda Description. Alla voce Application dovrebbe comparire il nome del programma usato per creare il PDF. A questo punto l’ideale sarebbe chiedere al cliente di spedire il file editabile, specificando che si è certi della sua esistenza (avendolo appena letto nelle proprietà del documento stesso). Di solito un modo per convincere il cliente è affermare che gli si farà pagare una maggiorazione per coprire i costi del processo di conversione. Evidentemente questo tipo di trattativa dipende dal rapporto instaurato con il cliente e dal potere di negoziazione in ogni specifico caso. In tutta onestà, può anche darsi, soprattutto nel caso di organizzazioni multinazionali, che il file editabile non sia effettivamente a disposizione di chi invia il PDF. Spesso i servizi di DTP vengono realizzati presso la sede centrale e le filiali ricevono soltanto i PDF finali da stampare in loco. La traduzione può essere una necessità sorta successivamente e dunque risalire alla fonte originale può risultare alquanto laborioso. Se, nonostante gli sforzi, non si ha a disposizione il file originale, esistono varie opzioni per esportare il testo. È bene sottolineare fin d’ora che nessuna darà come risultato un file perfettamente identico all’originale, soprattutto se esso contiene immagini bitmap e un certo grado di formattazione, senza contare il tipo di carattere utilizzato per il testo. Il metodo scelto, e quindi il grado di precisione, dipende anche dalla finalità dell’estrazione del testo. I casi sono due:
Se non si possiede Adobe Acrobat:
se si desidera mantenere il formato ci sono due opzioni: o usare uno dei numerosissimi programmi che convertono PDF in Word o usare direttamente un programma di OCR (FineReader, OmniPage, ReadIris, ecc.) In linea di massima ci permettiamo di sconsigliare i programmi che garantiscono una conversione diretta senza intervento dell’utente. Questi programmi di solito creano documenti Word che mantengono visivamente l’apparenza dei PDF originali, ma raggiungono questo risultato mediante una formattazione complicatissima piena di cornici di testo, intervalli di sezione, colonne, stili, interlinea. Appena si interviene sul documento, per esempio cancellando una frase o aprendolo con un programma di traduzione assistita, il formato si scompone e il più delle volte è umanamente impossibile lavorarci. Perciò consigliamo di eseguire la conversione con un programma di OCR (quello che ci ha dato i migliori risultati è Abbyy FineReader), modificando manualmente le impostazioni predefinite, ovvero indicando al programma la distribuzione dei vari elementi sulla pagina. Per ulteriori informazioni su come ottimizzare il funzionamento di FineReader vi rimandiamo all’articolo «Riconoscimento ottico dei caratteri con Abbyy FineReader». Se il formato non soltanto va mantenuto, ma il cliente ha la necessità di ricostruire completamente il file, (sempre nel caso in cui non esiste più il file che ha originato il PDF), ci sono due possibilità:
Se si deve invece lavorare in un programma di DTP (Quark, InDesign, etc.) va usato il PDF originale come modello sullo sfondo. Raccomandiamo la lettura del seguente articolo per ulteriori dettagli: http://www.proz.com/translation-articles/articles/560/1/Translation-and-DTP-of-a-PDF-File Chi non desidera investire nell’acquisto di un OCR perché ne farebbe soltanto un uso saltuario, può ricorrere a uno dei vari convertitori online, come Zamzar (http://www.zamzar.com). Quanto esposto finora si applica, lo ripetiamo, a PDF generati da applicazioni. Nel caso in cui il testo contenuto nel PDF sia costituito da immagini (tipico caso di un fax ricevuto e poi digitalizzato con uno scanner) l’unico modo di esportarlo a un formato editabile è usando un programma di OCR. Una complicazione aggiuntiva è rappresentata dagli eventuali livelli di sicurezza posseduti dal PDF da manipolare. È infatti possibile impostare due livelli di sicurezza mediante una «user password» e mediante una «owner password». La prima impedisce l’apertura del documento stesso, mentre la seconda restringe una o varie operazioni, come la stampa, la copia del testo, eventuali modifiche, l’aggiunta di note, ecc. Dunque, se l’autore del PDF ha scelto di restringere le operazioni mediante password, sarà impossibile usare i vari metodi descritti in precedenza. È necessario contattare il cliente e sollecitare l’invio della password. Nel caso ciò sia impossibile, è bene sapere che esistono numerosi strumenti in grado di decifrare rapidamente le «owner password». Basta cercare su Google «PDF crack» (addirittura si trovano strumenti online, come http://www.ensode.net/pdf-crack.jsf ). Il discorso è molto più complicato nel caso di «user password» che impediscono l’apertura del PDF; in questo caso i programmi ricorrono a metodi «basati sulla forza bruta» che possono impiegare ore, se non giorni, a decifrare la chiave. Si noti che il ricorso a questi strumenti può contravvenire i diritti di proprietà e in nessun caso Qabiria ne incoraggia l’utilizzo.
Bookmark
Email This
Trackback(0)TrackBack URI for this entryCommenti (8)RSS feed Comments...
ciao, mi e' piaciuto molto, anche se e' un po' lunghetto... i link esterni sono comunque molto interessanti.
,
febrero 13, 2009
...
Un artículo escrito con claridad y muy completo. Felicidades. Pienso que, sin embargo, los traductores deberíamos ofrecer esta conversión como un servicio añadido. Hay un artículo muy interesante al respecto en la web de unos traductores australianos (a ver si encuentro el enlace). Dado que el volumen de trabajo que implican estas conversiones es elevado, deberíamos poner al cliente en la disyuntiva de recibir el texto sin formateos o de pagar por la conversión. La forma: al recibir el encargo convertir 1 ó 2 páginas y enviárselas al cliente diciéndole que por "x euros" más puedes entregarle la traducción formateada casi igual que el original. Cuando el cliente ve el "x euros más" le falta tiempo para buscar el archivo fuente. Si tiene mucho interés en la conversión y no dispone del archivo original, que pague.
Para mi propia vergüenza, no me he aplicado el cuento y sigo convirtiendo documentos sin cobrar por ello a mis clientes.
,
enero 24, 2010
...
Gracias, Michael. Efectivamente, muy a menudo el simple hecho de mencionar un "recargo por conversión" tiene el efecto de que aparezcan de la nada los archivos fuente que generaron el PDF...
,
enero 24, 2010
...
For free you can use gDoc Creator to convert pdf files to word. One of the convert to Word options in the software is to retain text flow so that it is easily editable. It may be of use to you and I would be interested in your comments about it. Here's a link to the product page: http://bit.ly/5SFT2h
,
febrero 03, 2010
...
Thanks a lot for sharing the information, Graeme. Actually, there are dozens of programs that claim to easily convert from PDF to Word. However, the scope of this article is just the opposite. We weren't looking for a "quick and dirty" solution, but for the better way of producing a Word document while keeping in control of the format during the conversion. From our experience, the only way to achieve this is using the advanced features of plain OCR software, not out-of-the-box solutions.
,
febrero 04, 2010
...
Has anyone tried Infix for searchable PDFs? http://www.iceni.com/infix-Translate.htm
Just wondering...
,
abril 19, 2011
Scrivi commento |
Leggi le ultime notizie sul blog!
- 18000 film tradotti in mezz'ora
- Guida a Transifex per il management di progetti di traduzione
- Qabiria sponsorizza lo sviluppo del CAT OmegaT
- Lezione di project management all'università Pablo de Olavide
- The Big Wave ci pubblica un articolo sul ruolo degli standard nel settore della traduzione
- 3 semplicissime tecniche di gestione del tempo per aumentare la produttività





Veramente omnicomprensivo e chiaro - grazie! 

