BookTranslator
BookTranslator

Cossí tradusir un PDF escanejat: la guia completa d'OCR + traduccion

Los PDF escanejats contenon d'imatges de tèxte, pas de tèxte vertadièr — aquò explica perqué Google Translate los torna sens cap de cambiament. Aquí tenètz lo pipeline OCR + IA que resòl aquò.

BookTranslator

BookTranslator Team

Guidas de traduccion12 min read

Responsa rapida: un PDF escanejat a besonh d'OCR abans la traduccion

Per tradusir un PDF escanejat, lançatz d'en primièr l'OCR per transformar las imatges de las paginas en tèxte seleccionable. Puèi tradusissètz lo PDF tractat per l'OCR amb un traductor de documents coma PDF Translator. Se sautatz l'OCR, fòrça aisinas de traduccion tornaràn lo fichièr original sens cap de cambiament, mancaràn de paginas o tradusiràn sonque las partidas que contenon ja una capa de tèxte.

Utilizatz aqueste flux de trabalh:

  1. Dobrissètz lo PDF e ensajatz de seleccionar una frasa.
  2. Se podètz pas seleccionar lo tèxte, lançatz l'OCR.
  3. Revisatz lo tèxte sortit de l'OCR abans de tradusir.
  4. Telecargatz lo PDF tractat per l'OCR dins PDF Translator.
  5. Comparatz la version traducha amb l'escanejat original.

Se vòstre PDF a ja de tèxte seleccionable e que lo problèma es de preservar la mesa en pagina, utilizatz la guida per tradusir un PDF sens pèrdre lo formatatge.

Perqué los PDF escanejats fracassan dins las aisinas de traduccion

Un PDF escanejat es sovent sonque un ensemble d'imatges de paginas dins un contenidor PDF. La pagina pòt mostrar de mots a un èsser uman, mas lo fichièr pòt pas conténer de tèxte vertadièr que lo logicial pòsca extraire.

Aquò crea una causa simpla de fracàs:

File typeWhat the translator seesWhat happens
PDF basat sus tèxteTèxte e donadas de mesa en paginaLa traduccion pòt començar immediatament.
PDF escanejat sonque amb imatgesImatges de paginasL'OCR es necessari d'en primièr.
PDF amb tèxte sus imatgeImatge escanejada + capa de tèxte OCR amagadaLa traduccion pòt foncionar, mas las errors d'OCR afèctan la qualitat.

La pròva mai utila es pas tecnica:

  1. Dobrissètz lo PDF.
  2. Ensajatz de metre en susbrilhança de mots individuals.
  3. Copiatz una frasa.
  4. Pegatz-la dins un editor de tèxte.

Se la frasa se pega corrèctament, lo PDF a una capa de tèxte. Se res se pega, o se tota la pagina se compòrta coma una sola imatge, lo PDF a besonh d'OCR.

L'OCR es pas opcional

OCR significa reconeissença optica de caractèrs. Legís lo tèxte d'una imatge e crea de tèxte legible per la maquina. Per la traduccion de PDF, l'OCR crea en general una capa de tèxte invisibla sus la pagina escanejada.

Aquela capa de tèxte ven la font de la traduccion. Se l'OCR fa d'errors, la traduccion ereta d'aquelas errors.

Errors frequentas d'OCR:

OCR mistakeTranslation risk
rn legit coma mLos mots cambian de sens.
1 legit coma lLos nombres, referéncias o còdes venon fausses.
O legit coma 0IDs, formulas e noms se pòdon rompre.
Accents perdutsLos noms e los tèrmes venon imprecises.
Colomnas fusionadasLas frasas se traduson dins lo marrit òrdre.
Cellulas de taula legidas linha per linha de biais incorrècteLas etiquetas de donadas correspondon pas mai a las valors.
Nòtas de pè de pagina tractadas coma tèxte principalLas citacions e las nòtas se desplaçan dins lo marrit contèxt.

Es per aquò que l'etapa de revision de l'OCR es importanta. Tradusissètz pas un document escanejat abans d'aver verificat per mostras lo tèxte extrech.

Lo flux de trabalh ont l'OCR ven d'en primièr

Etapa 1: identificar lo tipe de PDF

Ensajatz de seleccionar lo tèxte. Se la seleccion fonciona, vos farà benlèu pas mestièr d'OCR. Se la seleccion fracassa, tractatz lo fichièr coma un document sonque amb imatges.

Examinatz tanben la pagina visualament:

  • De paginas de travèrs suggèrisson un escanejat.
  • Una textura de papièr grisa suggèrís un escanejat.
  • D'ombrajadas près de la reliadura suggèrisson un libre fotografiat.
  • Un contraste irregular suggèrís una fotocòpia.
  • Se la recèrca tròba pas los mots visibles, aquò suggèrís qu'i a pas cap de capa de tèxte.

Etapa 2: melhorar l'escanejat se possible

La qualitat de l'OCR comença amb la qualitat de l'imatge. Se podètz tornar escanejar, fasètz-o abans de passar de temps a reparar las errors d'OCR.

Utilizatz aquesta lista de contraròtle de qualitat d'imatge:

  • Escanejatz a una resolucion pro nauta per lo tèxte pichon.
  • Gardatz las paginas planas e drechas.
  • Evitatz las ombras près de la reliadura.
  • Retalhatz los bòrds de la taula, los dets o lo bruch de fons.
  • Utilizatz un contraste fòrt entre lo tèxte e la pagina.
  • Gardatz tota la linha visibla.
  • Utilizatz l'orientacion corrècta de la pagina.
  • Comprimitz pas l'imatge al punt que las letras vengon flosas.

Per los libres vièlhs e las fotocòpias, los melhors gains venon en general del redreçament, de la correccion del contraste e del reescanejat de las paginas fòra de fuòc.

Etapa 3: lançar l'OCR

Causissètz una aisina OCR en foncion del document, pas de la marca.

OCR optionBest forWatch out for
OCR d'Adobe AcrobatEscanejats professionals generals e netejatge de PDFVerificatz l'accès de vòstre abonament actual abans de comptar dessús.
ABBYY FineReaderEscanejats complèxes, taulas, colomnas e mesas en pagina dificilasDemanda totjorn una revision manuala.
Tesseract or OCRmyPDFFluxes de trabalh OCR locals, tecnics e repetiblesCal èsser a l'aise amb las aisinas de linha de comanda.
Aisinas OCR en linhaFichièrs ocasionals e de risc febleLa privadesa, los limits de fichièr e la qualitat varian.
Aplicacions d'escanejat sus telefònCapturar rapidament un novèl escanejatLa distorsion de perspectiva pòt degradar l'OCR.

Per de contractes privats, de dorsièrs medicaus, de documents financièrs, de manuscrits pas publicats o de trabalhs academics en cors d'evaluacion, privilegiatz un flux de trabalh OCR local o un environament de fisança. Telecargatz pas d'escanejats sensibles sus de sites OCR gratuits qualssevols.

Etapa 4: revisar lo tèxte OCR

Revisatz abans la traduccion, pas aprèp. Copiatz de tèxte de mantunas paginas dificilas e verificatz se demòra legible.

Paginas d'inspectar per mostras:

  • La pagina de títol.
  • Una pagina fòrça cargada de tèxte corrent.
  • Una pagina amb taula.
  • Una pagina amb nòtas de pè de pagina.
  • Una pagina amb tèxte pichon.
  • Una pagina amb tampons, escritura manuscrita o nòtas en marge.
  • Una pagina dins cada lenga se lo document es multilingüe.

Cercatz:

  • Paragrafes mancants.
  • Colomnas fusionadas.
  • Mots fragmentats.
  • Caractèrs fausses.
  • Diacritics perduts.
  • Etiquetas de taula separadas de las valors.
  • Entèstas inseridas dins lo tèxte principal.
  • Nombres de pagina mesclats dins las frasas.

Se la qualitat de l'OCR es marrida, corregissètz aquò abans la traduccion. Un traductor pòt pas recuperar de biais fisable un sens que l'OCR a pas jamai captat.

Etapa 5: tradusir lo PDF tractat per l'OCR

Un còp que lo PDF a una capa de tèxte pròpra, telecargatz-lo dins PDF Translator. L'etapa de traduccion pòt ara trabalhar sus de tèxte puslèu que sus d'imatges de paginas.

Aprèp la traduccion, comparatz:

  • Escanejat original
  • Capa de tèxte OCR
  • PDF traduch

Aquesta revision en tres sens ajuda a identificar se l'error ven de l'OCR o de la traduccion. Se lo tèxte OCR es marrit, relançatz l'OCR. Se lo tèxte OCR es corrècte mas que la traduccion es marrida, corregissètz la traduccion.

Etapa 6: revisar lo contengut a risc naut

Los documents escanejats contenon sovent justament lo contengut que demanda una revision acurada: contractes ancians, formularis administratius, articles academics, manuals, documents istorics e paginas de libres.

Revisatz manualament aquestes elements:

  • Noms
  • Datas
  • Nombres
  • Adreças
  • Còdes produch
  • Referéncias juridicas
  • Citacions
  • Etiquetas de taula
  • Unitats
  • Equacions
  • Legendas
  • Nòtas de pè de pagina

Per los fichièrs de recèrca e academics, legissètz tanben la guida per tradusir d'articles de recèrca academica, perque los PDF academics escanejats apondon de riscs de citacion e de mesa en pagina en mai del risc d'OCR.

Exemples d'errors comparats

Utilizatz aquesta taula pendent la revision de la sortida OCR.

Original scan likely showsBad OCR outputWhy it matters
modernmodemLo sens cambia completament.
Section 10Section IOLas referéncias juridicas o tecnicas pòdon venir falsas.
20262O26Datas e IDs venon pas fisables.
patientpatlentLos tèrmes medicaus o tecnics venon fausses.
Doas colomnas separadasUn sol paragraf fusionatLa traduccion legís las frasas dins lo marrit òrdre.
Linha de taula amb etiquetas e valorsUna sola linha de tèxte mesclatLas donadas correspondon pas mai a la bona etiqueta.
Marca de nòta de pè de pagina 1Letra lLas nòtas se pòdon estacar a la marrida frasa.

Se vesètz aquelas errors dins la capa OCR, corregissètz l'OCR abans de tradusir.

Quina aisina cal utilizar?

Causissètz segon la dificultat del document.

DocumentRecommended path
Escanejat professional netLançatz l'OCR dins Acrobat o dins una autra aisina OCR fisabla, puèi PDF Translator.
Escanejat de libre ancianRedreçatz e melhoratz lo contraste, fasètz l'OCR amb suenh, puèi tradusissètz.
Escanejat d'article academicOCR, revisatz equacions/citacions/taulas, puèi tradusissètz amb revision de la mesa en pagina.
Nòtas manuscritasUna transcripcion manuala pòt èsser necessària abans la traduccion.
Document personal simpleL'OCR en linha pòt èsser acceptable se lo risc de privadesa es feble.
Document sensibleUtilizatz un OCR local o un flux de trabalh contrarotlat e de fisança.

Se volètz una comparason d'aisinas mai larga, consultatz la guida dels melhors traductors PDF de 2026.

Problèmas frequents dels PDF escanejats

Paginas de bassa resolucion

Los escanejats de bassa resolucion rendent las letras confusas. L'OCR pòt confondre rn amb m, cl amb d, o la ponctuacion amb de tacas de polvera.

Solucion: tornatz escanejar se possible. Se non, aumentatz lo contraste e ensajatz tornarmai l'OCR.

Paginas de travèrs o corbadas

Los escanejats de libres se corban sovent près de la reliadura. L'OCR legís mal las linhas corbadas e pòt tornar ordenar lo tèxte.

Solucion: aplatissètz la pagina, tornatz escanejar, o utilizatz una aisina OCR amb redreçament e correccion de deformacion.

Mesa en pagina a mantunas colomnas

L'OCR pòt fusionar las colomnas d'esquèrra e de drecha dins un sol flux de frasas.

Solucion: verificatz l'òrdre de lectura abans la traduccion. Los articles academics demandan una atencion especiala aquí.

Taulas

Las taulas son dificil as perque l'OCR deu detectar a l'encòp lo tèxte e l'estructura. Una taula pòt semblar corrècta visualament mentre que la capa de tèxte es falsa.

Solucion: copiatz lo tèxte OCR de la taula e confirmatz que las etiquetas correspondon encara a las valors.

Escritura manuscrita e signaturas

L'OCR de tèxte imprimit es fòrça mai fisable que la reconeissença d'escritura manuscrita. Las nòtas manuscritas en marge, las signaturas e los formularis emplenats pòdon èsser ignorats o mal interpretats.

Solucion: transcrivètz manualament l'escritura essenciala abans la traduccion.

Lengas mescladas

L'OCR fonciona melhor quand coneis la lenga font. Un escanejat amb anglés, francés e chinés pòt fracassar se l'OCR es configurat per una sola lenga.

Solucion: causissètz totas las lengas OCR pertinentas se l'aisina las supòrta, puèi verificatz per mostras cada seccion lingüistica.

Lista de contraròtle de privadesa e seguretat

Abans de telecargar un PDF escanejat ont que siá, pausatz-vos aquò:

  • Lo document conten de donadas personalas?
  • Inclutz de material medical, juridic, financier, academic o pas publicat?
  • Es cobèrt per un acòrd client o per una politica d'establiment?
  • Un servici OCR en linha es autorizat per aqueste document?
  • Vos cal puslèu un flux de trabalh local?
  • Podètz suprimir las paginas que fan pas mestièr d'èsser traduchas?

Los PDF escanejats son sovent sensibles perque venon de contractes, de pèças d'identitat, de formularis, d'esboces de recèrca e d'archius intèrnes. Tractatz las decisions de telecargament per l'OCR coma tractariatz lo document original.

FAQ

Cossí tradusir un PDF escanejat?

Lançatz d'en primièr l'OCR per crear una capa de tèxte, revisatz la sortida OCR, puèi tradusissètz lo PDF tractat per l'OCR amb PDF Translator. Sautatz pas l'etapa de revision de l'OCR.

Perqué Google Translate a pas tradusit mon PDF escanejat?

Lo PDF pòt èsser sonque una imatge. Se i a pas cap de capa de tèxte, Google Translate a pas de tèxte d'extraire. Utilizatz d'en primièr l'OCR, puèi tradusissètz. Lo flux de trabalh especific a Google es explicat dins la guida de Google Translate per los PDF.

ChatGPT pòt tradusir un PDF escanejat?

ChatGPT pòt ajudar sus d'imatges individualas o de tèxte extrech, mas un PDF escanejat de mantunas paginas a totjorn besonh d'OCR e de revision. Per un flux de trabalh complet sus un document entièr, fasètz d'en primièr l'OCR, puèi utilizatz un flux de traduccion de PDF.

Quina es la melhora aisina OCR per los PDF escanejats?

Aquò depend del document. Acrobat e las aisinas del tipe ABBYY son utilas per los escanejats generals e complèxes. Tesseract o OCRmyPDF son utils per de fluxes de trabalh locals e tecnics. L'OCR en linha pòt convenir per de fichièrs simples e de risc feble, mas la privadesa e la qualitat varian.

L'OCR pòt preservar lo formatatge?

L'OCR pòt crear una capa de tèxte e, de còps, recuperar l'òrdre de lectura, mas aquò es pas çò meteis que preservar la mesa en pagina originala un còp traducha. Aprèp l'OCR, utilizatz un flux de traduccion PDF e revisatz la sortida en fàcia de l'original.

E se la qualitat de l'OCR es marrida?

Melhoratz l'escanejat abans de tradusir. Tornatz escanejar se possible, redreçatz las paginas, aumentatz lo contraste, retalhatz lo bruch visual, causissètz la lenga OCR corrècta e revisatz tornarmai las paginas dificilas.