Com traduir un PDF escanejat: la guia completa d'OCR + traducció
Els PDF escanejats contenen imatges de text, no text real; per això Google Translate els retorna sense canvis. Aquí tens el pipeline d'OCR + IA que ho resol.
Resposta ràpida: un PDF escanejat necessita OCR abans de traduir-se
Per traduir un PDF escanejat, primer aplica-hi OCR per convertir les imatges de les pàgines en text seleccionable. Després tradueix el PDF processat amb OCR amb un traductor de documents com PDF Translator. Si et saltes l'OCR, moltes eines de traducció et tornaran el fitxer original sense canvis, es deixaran pàgines o només traduiran les parts que ja contenen una capa de text.
Fes servir aquest flux de treball:
- Obre el PDF i intenta seleccionar una frase.
- Si no pots seleccionar text, aplica-hi OCR.
- Revisa el text extret per l'OCR abans de traduir-lo.
- Puja el PDF processat amb OCR a PDF Translator.
- Revisa la traducció comparant-la amb l'escaneig original.
Si el teu PDF ja té text seleccionable i el problema és conservar el disseny, fes servir la guia per traduir un PDF sense perdre el format.
Per què els PDF escanejats fallen a les eines de traducció
Un PDF escanejat sovint és només un conjunt d'imatges de pàgina dins d'un contenidor PDF. Una persona hi pot veure paraules, però és possible que el fitxer no contingui text real que el programari pugui extreure.
Això crea un error molt simple:
| Tipus de fitxer | Què veu el traductor | Què passa |
|---|---|---|
| PDF basat en text | Text més dades de maquetació | La traducció pot començar immediatament. |
| PDF escanejat només imatge | Imatges de les pàgines | Primer cal OCR. |
| PDF amb text sobre imatge | Imatge escanejada més capa OCR oculta | La traducció pot funcionar, però els errors d'OCR n'afecten la qualitat. |
La prova més útil no és tècnica:
- Obre el PDF.
- Intenta ressaltar paraules individuals.
- Copia una frase.
- Enganxa-la en un editor de text.
Si la frase s'enganxa correctament, el PDF té una capa de text. Si no s'enganxa res, o tota la pàgina es comporta com una sola imatge, el PDF necessita OCR.
L'OCR no és opcional
OCR vol dir reconeixement òptic de caràcters. Llegeix text d'una imatge i crea text llegible per a màquines. En la traducció de PDF, l'OCR acostuma a crear una capa de text invisible sobre la pàgina escanejada.
Aquesta capa de text es converteix en la font de la traducció. Si l'OCR comet errors, la traducció hereta aquests errors.
Errors habituals d'OCR:
| Error d'OCR | Risc per a la traducció |
|---|---|
rn llegit com a m | Les paraules canvien de significat. |
1 llegit com a l | Números, referències o codis queden malament. |
O llegit com a 0 | IDs, fórmules i noms es poden trencar. |
| Accents perduts | Noms i termes es tornen imprecisos. |
| Columnes fusionades | Les frases es tradueixen en l'ordre equivocat. |
| Cel·les de taula llegides fila a fila de manera incorrecta | Les etiquetes de les dades ja no coincideixen amb els valors. |
| Notes al peu tractades com a text principal | Les citacions i les notes passen a un context incorrecte. |
Per això és important revisar l'OCR. No tradueixis un document escanejat fins que hagis comprovat puntualment el text extret.
El flux de treball: primer OCR
Pas 1: identifica el tipus de PDF
Intenta seleccionar text. Si la selecció funciona, potser no necessites OCR. Si falla, tracta el fitxer com si només fos una imatge.
Inspecciona també la pàgina visualment:
- Les pàgines tortes suggereixen un escaneig.
- La textura grisa del paper suggereix un escaneig.
- Les ombres a prop del llom suggereixen un llibre fotografiat.
- El contrast irregular suggereix una fotocòpia.
- Si la cerca no troba paraules visibles, probablement no hi ha cap capa de text.
Pas 2: millora l'escaneig si és possible
La qualitat de l'OCR comença amb la qualitat de la imatge. Si pots tornar a escanejar, fes-ho abans de perdre temps corregint errors d'OCR.
Fes servir aquesta llista de comprovació de qualitat d'imatge:
- Escaneja amb una resolució prou alta per al text petit.
- Mantén les pàgines planes i rectes.
- Evita ombres a prop del llom.
- Retalla les vores de la taula, els dits o el soroll de fons.
- Fes servir un contrast alt entre el text i la pàgina.
- Assegura't que tota la línia sigui visible.
- Fes servir l'orientació correcta de la pàgina.
- No comprimeixis tant la imatge que les lletres quedin borroses.
En llibres antics i fotocòpies, les millores més importants solen venir de redreçar la pàgina, corregir el contrast i tornar a escanejar les pàgines desenfocades.
Pas 3: aplica OCR
Tria una eina d'OCR segons el document, no segons la marca.
| Opció d'OCR | Millor per a | Vigila amb |
|---|---|---|
| Adobe Acrobat OCR | Escaneigs empresarials generals i neteja de PDF | Comprova l'accés del teu pla actual abans de dependre'n. |
| ABBYY FineReader | Escaneigs complexos, taules, columnes i dissenys difícils | Encara requereix revisió manual. |
| Tesseract o OCRmyPDF | Fluxos d'OCR locals, tècnics i repetibles | Requereix comoditat amb eines de línia d'ordres. |
| Eines d'OCR en línia | Fitxers ocasionals de baix risc | La privacitat, els límits de fitxer i la qualitat varien. |
| Apps d'escaneig per a mòbil | Capturar un nou escaneig ràpidament | La distorsió de perspectiva pot perjudicar l'OCR. |
Per a contractes privats, historials mèdics, documents financers, manuscrits inèdits o treball acadèmic en revisió, és millor fer servir un flux d'OCR local o un entorn de confiança. No pugis escaneigs sensibles a llocs gratuïts d'OCR a l'atzar.
Pas 4: revisa el text extret per l'OCR
Revisa abans de traduir, no després. Copia text de diverses pàgines difícils i comprova si es pot llegir bé.
Pàgines de mostra que convé inspeccionar:
- La portada.
- Una pàgina de cos de text dens.
- Una pàgina amb taules.
- Una pàgina amb notes al peu.
- Una pàgina amb lletra petita.
- Una pàgina amb segells, escriptura a mà o notes al marge.
- Una pàgina en cada idioma si el document és multilingüe.
Busca-hi:
- Paràgrafs que falten.
- Columnes fusionades.
- Paraules trencades.
- Caràcters incorrectes.
- Diacrítics perduts.
- Etiquetes de taula separades dels valors.
- Capçaleres inserides dins del cos del text.
- Números de pàgina barrejats amb frases.
Si la qualitat de l'OCR és dolenta, corregeix-la abans de traduir. Un traductor no pot recuperar de manera fiable un significat que l'OCR no ha capturat mai.
Pas 5: tradueix el PDF processat amb OCR
Quan el PDF ja té una capa de text neta, puja'l a PDF Translator. Ara la traducció ja pot treballar amb text en lloc d'imatges de pàgina.
Després de traduir, compara:
- L'escaneig original
- La capa de text de l'OCR
- El PDF traduït
Aquesta revisió en tres vies t'ajuda a identificar si un error ve de l'OCR o de la traducció. Si el text de l'OCR és incorrecte, torna a executar l'OCR. Si el text de l'OCR és correcte però la traducció és incorrecta, corregeix la traducció.
Pas 6: revisa el contingut d'alt risc
Els documents escanejats sovint contenen exactament el tipus de contingut que necessita una revisió acurada: contractes antics, formularis governamentals, articles acadèmics, manuals, documents històrics i pàgines de llibres.
Revisa manualment aquests elements:
- Noms
- Dates
- Números
- Adreces
- Codis de producte
- Referències legals
- Citacions
- Etiquetes de taula
- Unitats
- Equacions
- Peus d'imatge
- Notes al peu
Per a fitxers de recerca i acadèmics, llegeix també la guia sobre traduir articles acadèmics de recerca, perquè els PDF acadèmics escanejats afegeixen riscos de citació i de maquetació als riscos propis de l'OCR.
Exemples d'errors, costat a costat
Fes servir aquesta taula mentre revises la sortida de l'OCR.
| L'escaneig original probablement mostra | Mala sortida d'OCR | Per què és important |
|---|---|---|
modern | modem | El significat canvia completament. |
Section 10 | Section IO | Les referències legals o tècniques es poden trencar. |
2026 | 2O26 | Les dates i els IDs es tornen poc fiables. |
patient | patlent | Els termes mèdics o tècnics queden malament. |
| Dues columnes separades | Un paràgraf fusionat | La traducció llegeix les frases en l'ordre equivocat. |
| Fila de taula amb etiquetes i valors | Una sola línia de text barrejat | Les dades ja no corresponen a l'etiqueta correcta. |
Marca de nota al peu 1 | Lletra l | Les notes poden quedar associades a la frase equivocada. |
Si veus aquests errors a la capa d'OCR, corregeix l'OCR abans de traduir.
Quina eina hauries de fer servir?
Tria segons la dificultat del document.
| Document | Camí recomanat |
|---|---|
| Escaneig empresarial net | OCR a Acrobat o una altra eina d'OCR fiable, i després PDF Translator. |
| Escaneig d'un llibre antic | Redreça'l i millora'n el contrast, aplica OCR amb cura i després tradueix-lo. |
| Escaneig d'un article acadèmic | OCR, revisió d'equacions/citacions/taules i després traducció amb revisió de maquetació. |
| Notes manuscrites | Pot caldre una transcripció manual abans de traduir. |
| Document personal senzill | L'OCR en línia pot ser acceptable si el risc de privacitat és baix. |
| Document sensible | Fes servir OCR local o un flux controlat i de confiança. |
Si vols una comparativa més àmplia d'eines, consulta la guia dels millors traductors de PDF del 2026.
Problemes habituals dels PDF escanejats
Pàgines de baixa resolució
Els escaneigs de baixa resolució desdibuixen les lletres entre si. L'OCR pot confondre rn i m, cl i d, o la puntuació amb la pols.
Solució: torna a escanejar si és possible. Si no, augmenta el contrast i prova l'OCR una altra vegada.
Pàgines torçades o corbades
Els escaneigs de llibres sovint es corben a prop del llom. L'OCR llegeix malament les línies corbades i pot reordenar el text.
Solució: aplana la pàgina, torna a escanejar-la o fes servir una eina d'OCR amb funcions de redreçament i correcció de deformació.
Maquetació amb diverses columnes
L'OCR pot fusionar les columnes esquerra i dreta en un sol flux de frases.
Solució: inspecciona l'ordre de lectura abans de traduir. Els articles acadèmics requereixen una atenció especial en aquest punt.
Taules
Les taules són difícils perquè l'OCR ha de detectar tant el text com l'estructura. Una taula pot semblar correcta visualment mentre que la capa de text és incorrecta.
Solució: copia el text de l'OCR de la taula i confirma que les etiquetes continuen coincidint amb els valors.
Escriptura a mà i signatures
L'OCR per a text imprès és molt més fiable que el reconeixement d'escriptura manuscrita. Les notes manuscrites al marge, les signatures i els formularis emplenats es poden ometre o quedar malmesos.
Solució: transcriu manualment qualsevol text manuscrit essencial abans de traduir.
Idiomes barrejats
L'OCR funciona millor quan coneix l'idioma d'origen. Un escaneig amb anglès, francès i xinès pot fallar si l'OCR està configurat per a un sol idioma.
Solució: tria tots els idiomes rellevants de l'OCR si l'eina ho permet, i després comprova puntualment cada secció lingüística.
Llista de comprovació de privacitat i seguretat
Abans de pujar un PDF escanejat a qualsevol lloc, pregunta't:
- El document conté dades personals?
- Inclou material mèdic, legal, financer, acadèmic o inèdit?
- Està cobert per un acord amb un client o per una política del centre educatiu?
- Es permet fer servir un servei d'OCR en línia per a aquest document?
- En canvi, necessites un flux local?
- Pots eliminar les pàgines que no cal traduir?
Els PDF escanejats sovint són sensibles perquè provenen de contractes, identificacions, formularis, esborranys de recerca i arxius interns. Tracta les decisions de pujada a serveis d'OCR igual que tractaries el document original.
FAQ
Com tradueixo un PDF escanejat?
Primer aplica OCR per crear una capa de text, revisa la sortida de l'OCR i després tradueix el PDF processat amb OCR amb PDF Translator. No et saltis el pas de revisió de l'OCR.
Per què Google Translate no ha traduït el meu PDF escanejat?
És possible que el PDF només contingui imatges. Si no hi ha cap capa de text, Google Translate no té text per extreure. Primer aplica OCR i després tradueix-lo. El flux de treball específic de Google s'explica a la guia de PDF amb Google Translate.
Pot ChatGPT traduir un PDF escanejat?
ChatGPT pot ajudar amb imatges individuals o amb text ja extret, però un PDF escanejat de diverses pàgines continua necessitant OCR i revisió. Per a un flux complet de document, primer OCR i després un flux de traducció de PDF.
Quina és la millor eina d'OCR per a PDF escanejats?
Depèn del document. Acrobat i les eines del tipus ABBYY són útils per a escaneigs generals i complexos. Tesseract o OCRmyPDF són útils per a fluxos tècnics locals. L'OCR en línia pot anar bé per a fitxers simples i de baix risc, però la privacitat i la qualitat varien.
L'OCR pot conservar el format?
L'OCR pot crear una capa de text i de vegades recuperar l'ordre de lectura, però això no és el mateix que conservar la maquetació traduïda original. Després de l'OCR, fes servir un flux de traducció de PDF i revisa la sortida comparant-la amb l'original.
I si la qualitat de l'OCR és dolenta?
Millora l'escaneig abans de traduir. Torna a escanejar si és possible, redreça les pàgines, augmenta el contrast, retalla el soroll visual, tria l'idioma correcte per a l'OCR i torna a revisar les pàgines difícils.