Cossí tradusir un PDF escanejat: la guia completa d'OCR + traduccion

Los PDF escanejats contenon d'imatges de tèxte, pas de tèxte vertadièr — aquò explica perqué Google Translate los torna sens cap de cambiament. Aquí tenètz lo pipeline OCR + IA que resòl aquò.

BookTranslator Team

Guidas de traduccion2026-02-2812 min read

Responsa rapida: un PDF escanejat a besonh d'OCR abans la traduccion

Per tradusir un PDF escanejat, lançatz d'en primièr l'OCR per transformar las imatges de las paginas en tèxte seleccionable. Puèi tradusissètz lo PDF tractat per l'OCR amb un traductor de documents coma PDF Translator. Se sautatz l'OCR, fòrça aisinas de traduccion tornaràn lo fichièr original sens cap de cambiament, mancaràn de paginas o tradusiràn sonque las partidas que contenon ja una capa de tèxte.

Utilizatz aqueste flux de trabalh:

Dobrissètz lo PDF e ensajatz de seleccionar una frasa.
Se podètz pas seleccionar lo tèxte, lançatz l'OCR.
Revisatz lo tèxte sortit de l'OCR abans de tradusir.
Telecargatz lo PDF tractat per l'OCR dins PDF Translator.
Comparatz la version traducha amb l'escanejat original.

Se vòstre PDF a ja de tèxte seleccionable e que lo problèma es de preservar la mesa en pagina, utilizatz la guida per tradusir un PDF sens pèrdre lo formatatge.

Perqué los PDF escanejats fracassan dins las aisinas de traduccion

Un PDF escanejat es sovent sonque un ensemble d'imatges de paginas dins un contenidor PDF. La pagina pòt mostrar de mots a un èsser uman, mas lo fichièr pòt pas conténer de tèxte vertadièr que lo logicial pòsca extraire.

Aquò crea una causa simpla de fracàs:

File type	What the translator sees	What happens
PDF basat sus tèxte	Tèxte e donadas de mesa en pagina	La traduccion pòt començar immediatament.
PDF escanejat sonque amb imatges	Imatges de paginas	L'OCR es necessari d'en primièr.
PDF amb tèxte sus imatge	Imatge escanejada + capa de tèxte OCR amagada	La traduccion pòt foncionar, mas las errors d'OCR afèctan la qualitat.

La pròva mai utila es pas tecnica:

Dobrissètz lo PDF.
Ensajatz de metre en susbrilhança de mots individuals.
Copiatz una frasa.
Pegatz-la dins un editor de tèxte.

Se la frasa se pega corrèctament, lo PDF a una capa de tèxte. Se res se pega, o se tota la pagina se compòrta coma una sola imatge, lo PDF a besonh d'OCR.

L'OCR es pas opcional

OCR significa reconeissença optica de caractèrs. Legís lo tèxte d'una imatge e crea de tèxte legible per la maquina. Per la traduccion de PDF, l'OCR crea en general una capa de tèxte invisibla sus la pagina escanejada.

Aquela capa de tèxte ven la font de la traduccion. Se l'OCR fa d'errors, la traduccion ereta d'aquelas errors.

Errors frequentas d'OCR:

OCR mistake	Translation risk
`rn` legit coma `m`	Los mots cambian de sens.
`1` legit coma `l`	Los nombres, referéncias o còdes venon fausses.
`O` legit coma `0`	IDs, formulas e noms se pòdon rompre.
Accents perduts	Los noms e los tèrmes venon imprecises.
Colomnas fusionadas	Las frasas se traduson dins lo marrit òrdre.
Cellulas de taula legidas linha per linha de biais incorrècte	Las etiquetas de donadas correspondon pas mai a las valors.
Nòtas de pè de pagina tractadas coma tèxte principal	Las citacions e las nòtas se desplaçan dins lo marrit contèxt.

Es per aquò que l'etapa de revision de l'OCR es importanta. Tradusissètz pas un document escanejat abans d'aver verificat per mostras lo tèxte extrech.

Lo flux de trabalh ont l'OCR ven d'en primièr

Etapa 1: identificar lo tipe de PDF

Ensajatz de seleccionar lo tèxte. Se la seleccion fonciona, vos farà benlèu pas mestièr d'OCR. Se la seleccion fracassa, tractatz lo fichièr coma un document sonque amb imatges.

Examinatz tanben la pagina visualament:

De paginas de travèrs suggèrisson un escanejat.
Una textura de papièr grisa suggèrís un escanejat.
D'ombrajadas près de la reliadura suggèrisson un libre fotografiat.
Un contraste irregular suggèrís una fotocòpia.
Se la recèrca tròba pas los mots visibles, aquò suggèrís qu'i a pas cap de capa de tèxte.

Etapa 2: melhorar l'escanejat se possible

La qualitat de l'OCR comença amb la qualitat de l'imatge. Se podètz tornar escanejar, fasètz-o abans de passar de temps a reparar las errors d'OCR.

Utilizatz aquesta lista de contraròtle de qualitat d'imatge:

Escanejatz a una resolucion pro nauta per lo tèxte pichon.
Gardatz las paginas planas e drechas.
Evitatz las ombras près de la reliadura.
Retalhatz los bòrds de la taula, los dets o lo bruch de fons.
Utilizatz un contraste fòrt entre lo tèxte e la pagina.
Gardatz tota la linha visibla.
Utilizatz l'orientacion corrècta de la pagina.
Comprimitz pas l'imatge al punt que las letras vengon flosas.

Per los libres vièlhs e las fotocòpias, los melhors gains venon en general del redreçament, de la correccion del contraste e del reescanejat de las paginas fòra de fuòc.

Etapa 3: lançar l'OCR

Causissètz una aisina OCR en foncion del document, pas de la marca.

OCR option	Best for	Watch out for
OCR d'Adobe Acrobat	Escanejats professionals generals e netejatge de PDF	Verificatz l'accès de vòstre abonament actual abans de comptar dessús.
ABBYY FineReader	Escanejats complèxes, taulas, colomnas e mesas en pagina dificilas	Demanda totjorn una revision manuala.
Tesseract or OCRmyPDF	Fluxes de trabalh OCR locals, tecnics e repetibles	Cal èsser a l'aise amb las aisinas de linha de comanda.
Aisinas OCR en linha	Fichièrs ocasionals e de risc feble	La privadesa, los limits de fichièr e la qualitat varian.
Aplicacions d'escanejat sus telefòn	Capturar rapidament un novèl escanejat	La distorsion de perspectiva pòt degradar l'OCR.

Per de contractes privats, de dorsièrs medicaus, de documents financièrs, de manuscrits pas publicats o de trabalhs academics en cors d'evaluacion, privilegiatz un flux de trabalh OCR local o un environament de fisança. Telecargatz pas d'escanejats sensibles sus de sites OCR gratuits qualssevols.

Etapa 4: revisar lo tèxte OCR

Revisatz abans la traduccion, pas aprèp. Copiatz de tèxte de mantunas paginas dificilas e verificatz se demòra legible.

Paginas d'inspectar per mostras:

La pagina de títol.
Una pagina fòrça cargada de tèxte corrent.
Una pagina amb taula.
Una pagina amb nòtas de pè de pagina.
Una pagina amb tèxte pichon.
Una pagina amb tampons, escritura manuscrita o nòtas en marge.
Una pagina dins cada lenga se lo document es multilingüe.

Cercatz:

Paragrafes mancants.
Colomnas fusionadas.
Mots fragmentats.
Caractèrs fausses.
Diacritics perduts.
Etiquetas de taula separadas de las valors.
Entèstas inseridas dins lo tèxte principal.
Nombres de pagina mesclats dins las frasas.

Se la qualitat de l'OCR es marrida, corregissètz aquò abans la traduccion. Un traductor pòt pas recuperar de biais fisable un sens que l'OCR a pas jamai captat.

Etapa 5: tradusir lo PDF tractat per l'OCR

Un còp que lo PDF a una capa de tèxte pròpra, telecargatz-lo dins PDF Translator. L'etapa de traduccion pòt ara trabalhar sus de tèxte puslèu que sus d'imatges de paginas.

Aprèp la traduccion, comparatz:

Escanejat original
Capa de tèxte OCR
PDF traduch

Aquesta revision en tres sens ajuda a identificar se l'error ven de l'OCR o de la traduccion. Se lo tèxte OCR es marrit, relançatz l'OCR. Se lo tèxte OCR es corrècte mas que la traduccion es marrida, corregissètz la traduccion.

Etapa 6: revisar lo contengut a risc naut

Los documents escanejats contenon sovent justament lo contengut que demanda una revision acurada: contractes ancians, formularis administratius, articles academics, manuals, documents istorics e paginas de libres.

Revisatz manualament aquestes elements:

Noms
Datas
Nombres
Adreças
Còdes produch
Referéncias juridicas
Citacions
Etiquetas de taula
Unitats
Equacions
Legendas
Nòtas de pè de pagina

Per los fichièrs de recèrca e academics, legissètz tanben la guida per tradusir d'articles de recèrca academica, perque los PDF academics escanejats apondon de riscs de citacion e de mesa en pagina en mai del risc d'OCR.

Exemples d'errors comparats

Utilizatz aquesta taula pendent la revision de la sortida OCR.

Original scan likely shows	Bad OCR output	Why it matters
`modern`	`modem`	Lo sens cambia completament.
`Section 10`	`Section IO`	Las referéncias juridicas o tecnicas pòdon venir falsas.
`2026`	`2O26`	Datas e IDs venon pas fisables.
`patient`	`patlent`	Los tèrmes medicaus o tecnics venon fausses.
Doas colomnas separadas	Un sol paragraf fusionat	La traduccion legís las frasas dins lo marrit òrdre.
Linha de taula amb etiquetas e valors	Una sola linha de tèxte mesclat	Las donadas correspondon pas mai a la bona etiqueta.
Marca de nòta de pè de pagina `1`	Letra `l`	Las nòtas se pòdon estacar a la marrida frasa.

Se vesètz aquelas errors dins la capa OCR, corregissètz l'OCR abans de tradusir.

Quina aisina cal utilizar?

Causissètz segon la dificultat del document.

Document	Recommended path
Escanejat professional net	Lançatz l'OCR dins Acrobat o dins una autra aisina OCR fisabla, puèi PDF Translator.
Escanejat de libre ancian	Redreçatz e melhoratz lo contraste, fasètz l'OCR amb suenh, puèi tradusissètz.
Escanejat d'article academic	OCR, revisatz equacions/citacions/taulas, puèi tradusissètz amb revision de la mesa en pagina.
Nòtas manuscritas	Una transcripcion manuala pòt èsser necessària abans la traduccion.
Document personal simple	L'OCR en linha pòt èsser acceptable se lo risc de privadesa es feble.
Document sensible	Utilizatz un OCR local o un flux de trabalh contrarotlat e de fisança.

Se volètz una comparason d'aisinas mai larga, consultatz la guida dels melhors traductors PDF de 2026.

Problèmas frequents dels PDF escanejats

Paginas de bassa resolucion

Los escanejats de bassa resolucion rendent las letras confusas. L'OCR pòt confondre rn amb m, cl amb d, o la ponctuacion amb de tacas de polvera.

Solucion: tornatz escanejar se possible. Se non, aumentatz lo contraste e ensajatz tornarmai l'OCR.

Paginas de travèrs o corbadas

Los escanejats de libres se corban sovent près de la reliadura. L'OCR legís mal las linhas corbadas e pòt tornar ordenar lo tèxte.

Solucion: aplatissètz la pagina, tornatz escanejar, o utilizatz una aisina OCR amb redreçament e correccion de deformacion.

Mesa en pagina a mantunas colomnas

L'OCR pòt fusionar las colomnas d'esquèrra e de drecha dins un sol flux de frasas.

Solucion: verificatz l'òrdre de lectura abans la traduccion. Los articles academics demandan una atencion especiala aquí.

Taulas

Las taulas son dificil as perque l'OCR deu detectar a l'encòp lo tèxte e l'estructura. Una taula pòt semblar corrècta visualament mentre que la capa de tèxte es falsa.

Solucion: copiatz lo tèxte OCR de la taula e confirmatz que las etiquetas correspondon encara a las valors.

Escritura manuscrita e signaturas

L'OCR de tèxte imprimit es fòrça mai fisable que la reconeissença d'escritura manuscrita. Las nòtas manuscritas en marge, las signaturas e los formularis emplenats pòdon èsser ignorats o mal interpretats.

Solucion: transcrivètz manualament l'escritura essenciala abans la traduccion.

Lengas mescladas

L'OCR fonciona melhor quand coneis la lenga font. Un escanejat amb anglés, francés e chinés pòt fracassar se l'OCR es configurat per una sola lenga.

Solucion: causissètz totas las lengas OCR pertinentas se l'aisina las supòrta, puèi verificatz per mostras cada seccion lingüistica.

Lista de contraròtle de privadesa e seguretat

Abans de telecargar un PDF escanejat ont que siá, pausatz-vos aquò:

Lo document conten de donadas personalas?
Inclutz de material medical, juridic, financier, academic o pas publicat?
Es cobèrt per un acòrd client o per una politica d'establiment?
Un servici OCR en linha es autorizat per aqueste document?
Vos cal puslèu un flux de trabalh local?
Podètz suprimir las paginas que fan pas mestièr d'èsser traduchas?

Los PDF escanejats son sovent sensibles perque venon de contractes, de pèças d'identitat, de formularis, d'esboces de recèrca e d'archius intèrnes. Tractatz las decisions de telecargament per l'OCR coma tractariatz lo document original.

FAQ

Cossí tradusir un PDF escanejat?

Lançatz d'en primièr l'OCR per crear una capa de tèxte, revisatz la sortida OCR, puèi tradusissètz lo PDF tractat per l'OCR amb PDF Translator. Sautatz pas l'etapa de revision de l'OCR.

Perqué Google Translate a pas tradusit mon PDF escanejat?

Lo PDF pòt èsser sonque una imatge. Se i a pas cap de capa de tèxte, Google Translate a pas de tèxte d'extraire. Utilizatz d'en primièr l'OCR, puèi tradusissètz. Lo flux de trabalh especific a Google es explicat dins la guida de Google Translate per los PDF.

ChatGPT pòt tradusir un PDF escanejat?

ChatGPT pòt ajudar sus d'imatges individualas o de tèxte extrech, mas un PDF escanejat de mantunas paginas a totjorn besonh d'OCR e de revision. Per un flux de trabalh complet sus un document entièr, fasètz d'en primièr l'OCR, puèi utilizatz un flux de traduccion de PDF.

Quina es la melhora aisina OCR per los PDF escanejats?

Aquò depend del document. Acrobat e las aisinas del tipe ABBYY son utilas per los escanejats generals e complèxes. Tesseract o OCRmyPDF son utils per de fluxes de trabalh locals e tecnics. L'OCR en linha pòt convenir per de fichièrs simples e de risc feble, mas la privadesa e la qualitat varian.

L'OCR pòt preservar lo formatatge?

L'OCR pòt crear una capa de tèxte e, de còps, recuperar l'òrdre de lectura, mas aquò es pas çò meteis que preservar la mesa en pagina originala un còp traducha. Aprèp l'OCR, utilizatz un flux de traduccion PDF e revisatz la sortida en fàcia de l'original.

E se la qualitat de l'OCR es marrida?

Melhoratz l'escanejat abans de tradusir. Tornatz escanejar se possible, redreçatz las paginas, aumentatz lo contraste, retalhatz lo bruch visual, causissètz la lenga OCR corrècta e revisatz tornarmai las paginas dificilas.

Articles relacionats

Guidas de traduccion

Cossí Tradusir un PDF Sens Perdre lo Formatatge (Guida 2026)

2026-03-2014 min read

Conselhs e ressorsas

Las Melhors Aisinas de Traduccion PDF en 2026: Una Comparason Onèsta

2026-02-2817 min read

Cas d'utilizacion

Cossí traduire los articles academics de recèrca: preservar las equacions, las citacions e la mesa en pagina

2026-02-2813 min read

Guidas de traduccion

Cossí far servir Google Translate per los PDF: guida completa (2026)

2026-03-2010 min read