Com traduir un PDF escanejat: la guia completa d'OCR + traducció

Els PDF escanejats contenen imatges de text, no text real; per això Google Translate els retorna sense canvis. Aquí tens el pipeline d'OCR + IA que ho resol.

BookTranslator Team

Guies de traducció2026-02-2812 min read

Resposta ràpida: un PDF escanejat necessita OCR abans de traduir-se

Per traduir un PDF escanejat, primer aplica-hi OCR per convertir les imatges de les pàgines en text seleccionable. Després tradueix el PDF processat amb OCR amb un traductor de documents com PDF Translator. Si et saltes l'OCR, moltes eines de traducció et tornaran el fitxer original sense canvis, es deixaran pàgines o només traduiran les parts que ja contenen una capa de text.

Fes servir aquest flux de treball:

Obre el PDF i intenta seleccionar una frase.
Si no pots seleccionar text, aplica-hi OCR.
Revisa el text extret per l'OCR abans de traduir-lo.
Puja el PDF processat amb OCR a PDF Translator.
Revisa la traducció comparant-la amb l'escaneig original.

Si el teu PDF ja té text seleccionable i el problema és conservar el disseny, fes servir la guia per traduir un PDF sense perdre el format.

Per què els PDF escanejats fallen a les eines de traducció

Un PDF escanejat sovint és només un conjunt d'imatges de pàgina dins d'un contenidor PDF. Una persona hi pot veure paraules, però és possible que el fitxer no contingui text real que el programari pugui extreure.

Això crea un error molt simple:

Tipus de fitxer	Què veu el traductor	Què passa
PDF basat en text	Text més dades de maquetació	La traducció pot començar immediatament.
PDF escanejat només imatge	Imatges de les pàgines	Primer cal OCR.
PDF amb text sobre imatge	Imatge escanejada més capa OCR oculta	La traducció pot funcionar, però els errors d'OCR n'afecten la qualitat.

La prova més útil no és tècnica:

Obre el PDF.
Intenta ressaltar paraules individuals.
Copia una frase.
Enganxa-la en un editor de text.

Si la frase s'enganxa correctament, el PDF té una capa de text. Si no s'enganxa res, o tota la pàgina es comporta com una sola imatge, el PDF necessita OCR.

L'OCR no és opcional

OCR vol dir reconeixement òptic de caràcters. Llegeix text d'una imatge i crea text llegible per a màquines. En la traducció de PDF, l'OCR acostuma a crear una capa de text invisible sobre la pàgina escanejada.

Aquesta capa de text es converteix en la font de la traducció. Si l'OCR comet errors, la traducció hereta aquests errors.

Errors habituals d'OCR:

Error d'OCR	Risc per a la traducció
`rn` llegit com a `m`	Les paraules canvien de significat.
`1` llegit com a `l`	Números, referències o codis queden malament.
`O` llegit com a `0`	IDs, fórmules i noms es poden trencar.
Accents perduts	Noms i termes es tornen imprecisos.
Columnes fusionades	Les frases es tradueixen en l'ordre equivocat.
Cel·les de taula llegides fila a fila de manera incorrecta	Les etiquetes de les dades ja no coincideixen amb els valors.
Notes al peu tractades com a text principal	Les citacions i les notes passen a un context incorrecte.

Per això és important revisar l'OCR. No tradueixis un document escanejat fins que hagis comprovat puntualment el text extret.

El flux de treball: primer OCR

Pas 1: identifica el tipus de PDF

Intenta seleccionar text. Si la selecció funciona, potser no necessites OCR. Si falla, tracta el fitxer com si només fos una imatge.

Inspecciona també la pàgina visualment:

Les pàgines tortes suggereixen un escaneig.
La textura grisa del paper suggereix un escaneig.
Les ombres a prop del llom suggereixen un llibre fotografiat.
El contrast irregular suggereix una fotocòpia.
Si la cerca no troba paraules visibles, probablement no hi ha cap capa de text.

Pas 2: millora l'escaneig si és possible

La qualitat de l'OCR comença amb la qualitat de la imatge. Si pots tornar a escanejar, fes-ho abans de perdre temps corregint errors d'OCR.

Fes servir aquesta llista de comprovació de qualitat d'imatge:

Escaneja amb una resolució prou alta per al text petit.
Mantén les pàgines planes i rectes.
Evita ombres a prop del llom.
Retalla les vores de la taula, els dits o el soroll de fons.
Fes servir un contrast alt entre el text i la pàgina.
Assegura't que tota la línia sigui visible.
Fes servir l'orientació correcta de la pàgina.
No comprimeixis tant la imatge que les lletres quedin borroses.

En llibres antics i fotocòpies, les millores més importants solen venir de redreçar la pàgina, corregir el contrast i tornar a escanejar les pàgines desenfocades.

Pas 3: aplica OCR

Tria una eina d'OCR segons el document, no segons la marca.

Opció d'OCR	Millor per a	Vigila amb
Adobe Acrobat OCR	Escaneigs empresarials generals i neteja de PDF	Comprova l'accés del teu pla actual abans de dependre'n.
ABBYY FineReader	Escaneigs complexos, taules, columnes i dissenys difícils	Encara requereix revisió manual.
Tesseract o OCRmyPDF	Fluxos d'OCR locals, tècnics i repetibles	Requereix comoditat amb eines de línia d'ordres.
Eines d'OCR en línia	Fitxers ocasionals de baix risc	La privacitat, els límits de fitxer i la qualitat varien.
Apps d'escaneig per a mòbil	Capturar un nou escaneig ràpidament	La distorsió de perspectiva pot perjudicar l'OCR.

Per a contractes privats, historials mèdics, documents financers, manuscrits inèdits o treball acadèmic en revisió, és millor fer servir un flux d'OCR local o un entorn de confiança. No pugis escaneigs sensibles a llocs gratuïts d'OCR a l'atzar.

Pas 4: revisa el text extret per l'OCR

Revisa abans de traduir, no després. Copia text de diverses pàgines difícils i comprova si es pot llegir bé.

Pàgines de mostra que convé inspeccionar:

La portada.
Una pàgina de cos de text dens.
Una pàgina amb taules.
Una pàgina amb notes al peu.
Una pàgina amb lletra petita.
Una pàgina amb segells, escriptura a mà o notes al marge.
Una pàgina en cada idioma si el document és multilingüe.

Busca-hi:

Paràgrafs que falten.
Columnes fusionades.
Paraules trencades.
Caràcters incorrectes.
Diacrítics perduts.
Etiquetes de taula separades dels valors.
Capçaleres inserides dins del cos del text.
Números de pàgina barrejats amb frases.

Si la qualitat de l'OCR és dolenta, corregeix-la abans de traduir. Un traductor no pot recuperar de manera fiable un significat que l'OCR no ha capturat mai.

Pas 5: tradueix el PDF processat amb OCR

Quan el PDF ja té una capa de text neta, puja'l a PDF Translator. Ara la traducció ja pot treballar amb text en lloc d'imatges de pàgina.

Després de traduir, compara:

L'escaneig original
La capa de text de l'OCR
El PDF traduït

Aquesta revisió en tres vies t'ajuda a identificar si un error ve de l'OCR o de la traducció. Si el text de l'OCR és incorrecte, torna a executar l'OCR. Si el text de l'OCR és correcte però la traducció és incorrecta, corregeix la traducció.

Pas 6: revisa el contingut d'alt risc

Els documents escanejats sovint contenen exactament el tipus de contingut que necessita una revisió acurada: contractes antics, formularis governamentals, articles acadèmics, manuals, documents històrics i pàgines de llibres.

Revisa manualment aquests elements:

Noms
Dates
Números
Adreces
Codis de producte
Referències legals
Citacions
Etiquetes de taula
Unitats
Equacions
Peus d'imatge
Notes al peu

Per a fitxers de recerca i acadèmics, llegeix també la guia sobre traduir articles acadèmics de recerca, perquè els PDF acadèmics escanejats afegeixen riscos de citació i de maquetació als riscos propis de l'OCR.

Exemples d'errors, costat a costat

Fes servir aquesta taula mentre revises la sortida de l'OCR.

L'escaneig original probablement mostra	Mala sortida d'OCR	Per què és important
`modern`	`modem`	El significat canvia completament.
`Section 10`	`Section IO`	Les referències legals o tècniques es poden trencar.
`2026`	`2O26`	Les dates i els IDs es tornen poc fiables.
`patient`	`patlent`	Els termes mèdics o tècnics queden malament.
Dues columnes separades	Un paràgraf fusionat	La traducció llegeix les frases en l'ordre equivocat.
Fila de taula amb etiquetes i valors	Una sola línia de text barrejat	Les dades ja no corresponen a l'etiqueta correcta.
Marca de nota al peu `1`	Lletra `l`	Les notes poden quedar associades a la frase equivocada.

Si veus aquests errors a la capa d'OCR, corregeix l'OCR abans de traduir.

Quina eina hauries de fer servir?

Tria segons la dificultat del document.

Document	Camí recomanat
Escaneig empresarial net	OCR a Acrobat o una altra eina d'OCR fiable, i després PDF Translator.
Escaneig d'un llibre antic	Redreça'l i millora'n el contrast, aplica OCR amb cura i després tradueix-lo.
Escaneig d'un article acadèmic	OCR, revisió d'equacions/citacions/taules i després traducció amb revisió de maquetació.
Notes manuscrites	Pot caldre una transcripció manual abans de traduir.
Document personal senzill	L'OCR en línia pot ser acceptable si el risc de privacitat és baix.
Document sensible	Fes servir OCR local o un flux controlat i de confiança.

Si vols una comparativa més àmplia d'eines, consulta la guia dels millors traductors de PDF del 2026.

Problemes habituals dels PDF escanejats

Pàgines de baixa resolució

Els escaneigs de baixa resolució desdibuixen les lletres entre si. L'OCR pot confondre rn i m, cl i d, o la puntuació amb la pols.

Solució: torna a escanejar si és possible. Si no, augmenta el contrast i prova l'OCR una altra vegada.

Pàgines torçades o corbades

Els escaneigs de llibres sovint es corben a prop del llom. L'OCR llegeix malament les línies corbades i pot reordenar el text.

Solució: aplana la pàgina, torna a escanejar-la o fes servir una eina d'OCR amb funcions de redreçament i correcció de deformació.

Maquetació amb diverses columnes

L'OCR pot fusionar les columnes esquerra i dreta en un sol flux de frases.

Solució: inspecciona l'ordre de lectura abans de traduir. Els articles acadèmics requereixen una atenció especial en aquest punt.

Taules

Les taules són difícils perquè l'OCR ha de detectar tant el text com l'estructura. Una taula pot semblar correcta visualment mentre que la capa de text és incorrecta.

Solució: copia el text de l'OCR de la taula i confirma que les etiquetes continuen coincidint amb els valors.

Escriptura a mà i signatures

L'OCR per a text imprès és molt més fiable que el reconeixement d'escriptura manuscrita. Les notes manuscrites al marge, les signatures i els formularis emplenats es poden ometre o quedar malmesos.

Solució: transcriu manualment qualsevol text manuscrit essencial abans de traduir.

Idiomes barrejats

L'OCR funciona millor quan coneix l'idioma d'origen. Un escaneig amb anglès, francès i xinès pot fallar si l'OCR està configurat per a un sol idioma.

Solució: tria tots els idiomes rellevants de l'OCR si l'eina ho permet, i després comprova puntualment cada secció lingüística.

Llista de comprovació de privacitat i seguretat

Abans de pujar un PDF escanejat a qualsevol lloc, pregunta't:

El document conté dades personals?
Inclou material mèdic, legal, financer, acadèmic o inèdit?
Està cobert per un acord amb un client o per una política del centre educatiu?
Es permet fer servir un servei d'OCR en línia per a aquest document?
En canvi, necessites un flux local?
Pots eliminar les pàgines que no cal traduir?

Els PDF escanejats sovint són sensibles perquè provenen de contractes, identificacions, formularis, esborranys de recerca i arxius interns. Tracta les decisions de pujada a serveis d'OCR igual que tractaries el document original.

FAQ

Com tradueixo un PDF escanejat?

Primer aplica OCR per crear una capa de text, revisa la sortida de l'OCR i després tradueix el PDF processat amb OCR amb PDF Translator. No et saltis el pas de revisió de l'OCR.

Per què Google Translate no ha traduït el meu PDF escanejat?

És possible que el PDF només contingui imatges. Si no hi ha cap capa de text, Google Translate no té text per extreure. Primer aplica OCR i després tradueix-lo. El flux de treball específic de Google s'explica a la guia de PDF amb Google Translate.

Pot ChatGPT traduir un PDF escanejat?

ChatGPT pot ajudar amb imatges individuals o amb text ja extret, però un PDF escanejat de diverses pàgines continua necessitant OCR i revisió. Per a un flux complet de document, primer OCR i després un flux de traducció de PDF.

Quina és la millor eina d'OCR per a PDF escanejats?

Depèn del document. Acrobat i les eines del tipus ABBYY són útils per a escaneigs generals i complexos. Tesseract o OCRmyPDF són útils per a fluxos tècnics locals. L'OCR en línia pot anar bé per a fitxers simples i de baix risc, però la privacitat i la qualitat varien.

L'OCR pot conservar el format?

L'OCR pot crear una capa de text i de vegades recuperar l'ordre de lectura, però això no és el mateix que conservar la maquetació traduïda original. Després de l'OCR, fes servir un flux de traducció de PDF i revisa la sortida comparant-la amb l'original.

I si la qualitat de l'OCR és dolenta?

Millora l'escaneig abans de traduir. Torna a escanejar si és possible, redreça les pàgines, augmenta el contrast, retalla el soroll visual, tria l'idioma correcte per a l'OCR i torna a revisar les pàgines difícils.

Entrades relacionades

Guies de traducció

Com traduir un PDF sense perdre el format (Guia 2026)

2026-03-2014 min read

Consells i recursos

Les millors eines de traducció de PDF el 2026: una comparació honesta

2026-02-2816 min read

Casos d'ús

Com traduir articles de recerca acadèmica: preservant equacions, citacions i format

2026-02-2813 min read

Guies de traducció

Com utilitzar Google Translate per a PDFs: guia completa (2026)

2026-03-209 min read