BookTranslator
BookTranslator

Com traduir un PDF escanejat: la guia completa d'OCR + traducció

Els PDF escanejats contenen imatges de text, no text real; per això Google Translate els retorna sense canvis. Aquí tens el pipeline d'OCR + IA que ho resol.

BookTranslator

BookTranslator Team

Guies de traducció12 min read

Resposta ràpida: un PDF escanejat necessita OCR abans de traduir-se

Per traduir un PDF escanejat, primer aplica-hi OCR per convertir les imatges de les pàgines en text seleccionable. Després tradueix el PDF processat amb OCR amb un traductor de documents com PDF Translator. Si et saltes l'OCR, moltes eines de traducció et tornaran el fitxer original sense canvis, es deixaran pàgines o només traduiran les parts que ja contenen una capa de text.

Fes servir aquest flux de treball:

  1. Obre el PDF i intenta seleccionar una frase.
  2. Si no pots seleccionar text, aplica-hi OCR.
  3. Revisa el text extret per l'OCR abans de traduir-lo.
  4. Puja el PDF processat amb OCR a PDF Translator.
  5. Revisa la traducció comparant-la amb l'escaneig original.

Si el teu PDF ja té text seleccionable i el problema és conservar el disseny, fes servir la guia per traduir un PDF sense perdre el format.

Per què els PDF escanejats fallen a les eines de traducció

Un PDF escanejat sovint és només un conjunt d'imatges de pàgina dins d'un contenidor PDF. Una persona hi pot veure paraules, però és possible que el fitxer no contingui text real que el programari pugui extreure.

Això crea un error molt simple:

Tipus de fitxerQuè veu el traductorQuè passa
PDF basat en textText més dades de maquetacióLa traducció pot començar immediatament.
PDF escanejat només imatgeImatges de les pàginesPrimer cal OCR.
PDF amb text sobre imatgeImatge escanejada més capa OCR ocultaLa traducció pot funcionar, però els errors d'OCR n'afecten la qualitat.

La prova més útil no és tècnica:

  1. Obre el PDF.
  2. Intenta ressaltar paraules individuals.
  3. Copia una frase.
  4. Enganxa-la en un editor de text.

Si la frase s'enganxa correctament, el PDF té una capa de text. Si no s'enganxa res, o tota la pàgina es comporta com una sola imatge, el PDF necessita OCR.

L'OCR no és opcional

OCR vol dir reconeixement òptic de caràcters. Llegeix text d'una imatge i crea text llegible per a màquines. En la traducció de PDF, l'OCR acostuma a crear una capa de text invisible sobre la pàgina escanejada.

Aquesta capa de text es converteix en la font de la traducció. Si l'OCR comet errors, la traducció hereta aquests errors.

Errors habituals d'OCR:

Error d'OCRRisc per a la traducció
rn llegit com a mLes paraules canvien de significat.
1 llegit com a lNúmeros, referències o codis queden malament.
O llegit com a 0IDs, fórmules i noms es poden trencar.
Accents perdutsNoms i termes es tornen imprecisos.
Columnes fusionadesLes frases es tradueixen en l'ordre equivocat.
Cel·les de taula llegides fila a fila de manera incorrectaLes etiquetes de les dades ja no coincideixen amb els valors.
Notes al peu tractades com a text principalLes citacions i les notes passen a un context incorrecte.

Per això és important revisar l'OCR. No tradueixis un document escanejat fins que hagis comprovat puntualment el text extret.

El flux de treball: primer OCR

Pas 1: identifica el tipus de PDF

Intenta seleccionar text. Si la selecció funciona, potser no necessites OCR. Si falla, tracta el fitxer com si només fos una imatge.

Inspecciona també la pàgina visualment:

  • Les pàgines tortes suggereixen un escaneig.
  • La textura grisa del paper suggereix un escaneig.
  • Les ombres a prop del llom suggereixen un llibre fotografiat.
  • El contrast irregular suggereix una fotocòpia.
  • Si la cerca no troba paraules visibles, probablement no hi ha cap capa de text.

Pas 2: millora l'escaneig si és possible

La qualitat de l'OCR comença amb la qualitat de la imatge. Si pots tornar a escanejar, fes-ho abans de perdre temps corregint errors d'OCR.

Fes servir aquesta llista de comprovació de qualitat d'imatge:

  • Escaneja amb una resolució prou alta per al text petit.
  • Mantén les pàgines planes i rectes.
  • Evita ombres a prop del llom.
  • Retalla les vores de la taula, els dits o el soroll de fons.
  • Fes servir un contrast alt entre el text i la pàgina.
  • Assegura't que tota la línia sigui visible.
  • Fes servir l'orientació correcta de la pàgina.
  • No comprimeixis tant la imatge que les lletres quedin borroses.

En llibres antics i fotocòpies, les millores més importants solen venir de redreçar la pàgina, corregir el contrast i tornar a escanejar les pàgines desenfocades.

Pas 3: aplica OCR

Tria una eina d'OCR segons el document, no segons la marca.

Opció d'OCRMillor per aVigila amb
Adobe Acrobat OCREscaneigs empresarials generals i neteja de PDFComprova l'accés del teu pla actual abans de dependre'n.
ABBYY FineReaderEscaneigs complexos, taules, columnes i dissenys difícilsEncara requereix revisió manual.
Tesseract o OCRmyPDFFluxos d'OCR locals, tècnics i repetiblesRequereix comoditat amb eines de línia d'ordres.
Eines d'OCR en líniaFitxers ocasionals de baix riscLa privacitat, els límits de fitxer i la qualitat varien.
Apps d'escaneig per a mòbilCapturar un nou escaneig ràpidamentLa distorsió de perspectiva pot perjudicar l'OCR.

Per a contractes privats, historials mèdics, documents financers, manuscrits inèdits o treball acadèmic en revisió, és millor fer servir un flux d'OCR local o un entorn de confiança. No pugis escaneigs sensibles a llocs gratuïts d'OCR a l'atzar.

Pas 4: revisa el text extret per l'OCR

Revisa abans de traduir, no després. Copia text de diverses pàgines difícils i comprova si es pot llegir bé.

Pàgines de mostra que convé inspeccionar:

  • La portada.
  • Una pàgina de cos de text dens.
  • Una pàgina amb taules.
  • Una pàgina amb notes al peu.
  • Una pàgina amb lletra petita.
  • Una pàgina amb segells, escriptura a mà o notes al marge.
  • Una pàgina en cada idioma si el document és multilingüe.

Busca-hi:

  • Paràgrafs que falten.
  • Columnes fusionades.
  • Paraules trencades.
  • Caràcters incorrectes.
  • Diacrítics perduts.
  • Etiquetes de taula separades dels valors.
  • Capçaleres inserides dins del cos del text.
  • Números de pàgina barrejats amb frases.

Si la qualitat de l'OCR és dolenta, corregeix-la abans de traduir. Un traductor no pot recuperar de manera fiable un significat que l'OCR no ha capturat mai.

Pas 5: tradueix el PDF processat amb OCR

Quan el PDF ja té una capa de text neta, puja'l a PDF Translator. Ara la traducció ja pot treballar amb text en lloc d'imatges de pàgina.

Després de traduir, compara:

  • L'escaneig original
  • La capa de text de l'OCR
  • El PDF traduït

Aquesta revisió en tres vies t'ajuda a identificar si un error ve de l'OCR o de la traducció. Si el text de l'OCR és incorrecte, torna a executar l'OCR. Si el text de l'OCR és correcte però la traducció és incorrecta, corregeix la traducció.

Pas 6: revisa el contingut d'alt risc

Els documents escanejats sovint contenen exactament el tipus de contingut que necessita una revisió acurada: contractes antics, formularis governamentals, articles acadèmics, manuals, documents històrics i pàgines de llibres.

Revisa manualment aquests elements:

  • Noms
  • Dates
  • Números
  • Adreces
  • Codis de producte
  • Referències legals
  • Citacions
  • Etiquetes de taula
  • Unitats
  • Equacions
  • Peus d'imatge
  • Notes al peu

Per a fitxers de recerca i acadèmics, llegeix també la guia sobre traduir articles acadèmics de recerca, perquè els PDF acadèmics escanejats afegeixen riscos de citació i de maquetació als riscos propis de l'OCR.

Exemples d'errors, costat a costat

Fes servir aquesta taula mentre revises la sortida de l'OCR.

L'escaneig original probablement mostraMala sortida d'OCRPer què és important
modernmodemEl significat canvia completament.
Section 10Section IOLes referències legals o tècniques es poden trencar.
20262O26Les dates i els IDs es tornen poc fiables.
patientpatlentEls termes mèdics o tècnics queden malament.
Dues columnes separadesUn paràgraf fusionatLa traducció llegeix les frases en l'ordre equivocat.
Fila de taula amb etiquetes i valorsUna sola línia de text barrejatLes dades ja no corresponen a l'etiqueta correcta.
Marca de nota al peu 1Lletra lLes notes poden quedar associades a la frase equivocada.

Si veus aquests errors a la capa d'OCR, corregeix l'OCR abans de traduir.

Quina eina hauries de fer servir?

Tria segons la dificultat del document.

DocumentCamí recomanat
Escaneig empresarial netOCR a Acrobat o una altra eina d'OCR fiable, i després PDF Translator.
Escaneig d'un llibre anticRedreça'l i millora'n el contrast, aplica OCR amb cura i després tradueix-lo.
Escaneig d'un article acadèmicOCR, revisió d'equacions/citacions/taules i després traducció amb revisió de maquetació.
Notes manuscritesPot caldre una transcripció manual abans de traduir.
Document personal senzillL'OCR en línia pot ser acceptable si el risc de privacitat és baix.
Document sensibleFes servir OCR local o un flux controlat i de confiança.

Si vols una comparativa més àmplia d'eines, consulta la guia dels millors traductors de PDF del 2026.

Problemes habituals dels PDF escanejats

Pàgines de baixa resolució

Els escaneigs de baixa resolució desdibuixen les lletres entre si. L'OCR pot confondre rn i m, cl i d, o la puntuació amb la pols.

Solució: torna a escanejar si és possible. Si no, augmenta el contrast i prova l'OCR una altra vegada.

Pàgines torçades o corbades

Els escaneigs de llibres sovint es corben a prop del llom. L'OCR llegeix malament les línies corbades i pot reordenar el text.

Solució: aplana la pàgina, torna a escanejar-la o fes servir una eina d'OCR amb funcions de redreçament i correcció de deformació.

Maquetació amb diverses columnes

L'OCR pot fusionar les columnes esquerra i dreta en un sol flux de frases.

Solució: inspecciona l'ordre de lectura abans de traduir. Els articles acadèmics requereixen una atenció especial en aquest punt.

Taules

Les taules són difícils perquè l'OCR ha de detectar tant el text com l'estructura. Una taula pot semblar correcta visualment mentre que la capa de text és incorrecta.

Solució: copia el text de l'OCR de la taula i confirma que les etiquetes continuen coincidint amb els valors.

Escriptura a mà i signatures

L'OCR per a text imprès és molt més fiable que el reconeixement d'escriptura manuscrita. Les notes manuscrites al marge, les signatures i els formularis emplenats es poden ometre o quedar malmesos.

Solució: transcriu manualment qualsevol text manuscrit essencial abans de traduir.

Idiomes barrejats

L'OCR funciona millor quan coneix l'idioma d'origen. Un escaneig amb anglès, francès i xinès pot fallar si l'OCR està configurat per a un sol idioma.

Solució: tria tots els idiomes rellevants de l'OCR si l'eina ho permet, i després comprova puntualment cada secció lingüística.

Llista de comprovació de privacitat i seguretat

Abans de pujar un PDF escanejat a qualsevol lloc, pregunta't:

  • El document conté dades personals?
  • Inclou material mèdic, legal, financer, acadèmic o inèdit?
  • Està cobert per un acord amb un client o per una política del centre educatiu?
  • Es permet fer servir un servei d'OCR en línia per a aquest document?
  • En canvi, necessites un flux local?
  • Pots eliminar les pàgines que no cal traduir?

Els PDF escanejats sovint són sensibles perquè provenen de contractes, identificacions, formularis, esborranys de recerca i arxius interns. Tracta les decisions de pujada a serveis d'OCR igual que tractaries el document original.

FAQ

Com tradueixo un PDF escanejat?

Primer aplica OCR per crear una capa de text, revisa la sortida de l'OCR i després tradueix el PDF processat amb OCR amb PDF Translator. No et saltis el pas de revisió de l'OCR.

Per què Google Translate no ha traduït el meu PDF escanejat?

És possible que el PDF només contingui imatges. Si no hi ha cap capa de text, Google Translate no té text per extreure. Primer aplica OCR i després tradueix-lo. El flux de treball específic de Google s'explica a la guia de PDF amb Google Translate.

Pot ChatGPT traduir un PDF escanejat?

ChatGPT pot ajudar amb imatges individuals o amb text ja extret, però un PDF escanejat de diverses pàgines continua necessitant OCR i revisió. Per a un flux complet de document, primer OCR i després un flux de traducció de PDF.

Quina és la millor eina d'OCR per a PDF escanejats?

Depèn del document. Acrobat i les eines del tipus ABBYY són útils per a escaneigs generals i complexos. Tesseract o OCRmyPDF són útils per a fluxos tècnics locals. L'OCR en línia pot anar bé per a fitxers simples i de baix risc, però la privacitat i la qualitat varien.

L'OCR pot conservar el format?

L'OCR pot crear una capa de text i de vegades recuperar l'ordre de lectura, però això no és el mateix que conservar la maquetació traduïda original. Després de l'OCR, fes servir un flux de traducció de PDF i revisa la sortida comparant-la amb l'original.

I si la qualitat de l'OCR és dolenta?

Millora l'escaneig abans de traduir. Torna a escanejar si és possible, redreça les pàgines, augmenta el contrast, retalla el soroll visual, tria l'idioma correcte per a l'OCR i torna a revisar les pàgines difícils.