Cossí tradusir un PDF escanejat: la guia completa d'OCR + traduccion
Los PDF escanejats contenon d'imatges de tèxte, pas de tèxte vertadièr — aquò explica perqué Google Translate los torna sens cap de cambiament. Aquí tenètz lo pipeline OCR + IA que resòl aquò.
Responsa rapida: un PDF escanejat a besonh d'OCR abans la traduccion
Per tradusir un PDF escanejat, lançatz d'en primièr l'OCR per transformar las imatges de las paginas en tèxte seleccionable. Puèi tradusissètz lo PDF tractat per l'OCR amb un traductor de documents coma PDF Translator. Se sautatz l'OCR, fòrça aisinas de traduccion tornaràn lo fichièr original sens cap de cambiament, mancaràn de paginas o tradusiràn sonque las partidas que contenon ja una capa de tèxte.
Utilizatz aqueste flux de trabalh:
- Dobrissètz lo PDF e ensajatz de seleccionar una frasa.
- Se podètz pas seleccionar lo tèxte, lançatz l'OCR.
- Revisatz lo tèxte sortit de l'OCR abans de tradusir.
- Telecargatz lo PDF tractat per l'OCR dins PDF Translator.
- Comparatz la version traducha amb l'escanejat original.
Se vòstre PDF a ja de tèxte seleccionable e que lo problèma es de preservar la mesa en pagina, utilizatz la guida per tradusir un PDF sens pèrdre lo formatatge.
Perqué los PDF escanejats fracassan dins las aisinas de traduccion
Un PDF escanejat es sovent sonque un ensemble d'imatges de paginas dins un contenidor PDF. La pagina pòt mostrar de mots a un èsser uman, mas lo fichièr pòt pas conténer de tèxte vertadièr que lo logicial pòsca extraire.
Aquò crea una causa simpla de fracàs:
| File type | What the translator sees | What happens |
|---|---|---|
| PDF basat sus tèxte | Tèxte e donadas de mesa en pagina | La traduccion pòt començar immediatament. |
| PDF escanejat sonque amb imatges | Imatges de paginas | L'OCR es necessari d'en primièr. |
| PDF amb tèxte sus imatge | Imatge escanejada + capa de tèxte OCR amagada | La traduccion pòt foncionar, mas las errors d'OCR afèctan la qualitat. |
La pròva mai utila es pas tecnica:
- Dobrissètz lo PDF.
- Ensajatz de metre en susbrilhança de mots individuals.
- Copiatz una frasa.
- Pegatz-la dins un editor de tèxte.
Se la frasa se pega corrèctament, lo PDF a una capa de tèxte. Se res se pega, o se tota la pagina se compòrta coma una sola imatge, lo PDF a besonh d'OCR.
L'OCR es pas opcional
OCR significa reconeissença optica de caractèrs. Legís lo tèxte d'una imatge e crea de tèxte legible per la maquina. Per la traduccion de PDF, l'OCR crea en general una capa de tèxte invisibla sus la pagina escanejada.
Aquela capa de tèxte ven la font de la traduccion. Se l'OCR fa d'errors, la traduccion ereta d'aquelas errors.
Errors frequentas d'OCR:
| OCR mistake | Translation risk |
|---|---|
rn legit coma m | Los mots cambian de sens. |
1 legit coma l | Los nombres, referéncias o còdes venon fausses. |
O legit coma 0 | IDs, formulas e noms se pòdon rompre. |
| Accents perduts | Los noms e los tèrmes venon imprecises. |
| Colomnas fusionadas | Las frasas se traduson dins lo marrit òrdre. |
| Cellulas de taula legidas linha per linha de biais incorrècte | Las etiquetas de donadas correspondon pas mai a las valors. |
| Nòtas de pè de pagina tractadas coma tèxte principal | Las citacions e las nòtas se desplaçan dins lo marrit contèxt. |
Es per aquò que l'etapa de revision de l'OCR es importanta. Tradusissètz pas un document escanejat abans d'aver verificat per mostras lo tèxte extrech.
Lo flux de trabalh ont l'OCR ven d'en primièr
Etapa 1: identificar lo tipe de PDF
Ensajatz de seleccionar lo tèxte. Se la seleccion fonciona, vos farà benlèu pas mestièr d'OCR. Se la seleccion fracassa, tractatz lo fichièr coma un document sonque amb imatges.
Examinatz tanben la pagina visualament:
- De paginas de travèrs suggèrisson un escanejat.
- Una textura de papièr grisa suggèrís un escanejat.
- D'ombrajadas près de la reliadura suggèrisson un libre fotografiat.
- Un contraste irregular suggèrís una fotocòpia.
- Se la recèrca tròba pas los mots visibles, aquò suggèrís qu'i a pas cap de capa de tèxte.
Etapa 2: melhorar l'escanejat se possible
La qualitat de l'OCR comença amb la qualitat de l'imatge. Se podètz tornar escanejar, fasètz-o abans de passar de temps a reparar las errors d'OCR.
Utilizatz aquesta lista de contraròtle de qualitat d'imatge:
- Escanejatz a una resolucion pro nauta per lo tèxte pichon.
- Gardatz las paginas planas e drechas.
- Evitatz las ombras près de la reliadura.
- Retalhatz los bòrds de la taula, los dets o lo bruch de fons.
- Utilizatz un contraste fòrt entre lo tèxte e la pagina.
- Gardatz tota la linha visibla.
- Utilizatz l'orientacion corrècta de la pagina.
- Comprimitz pas l'imatge al punt que las letras vengon flosas.
Per los libres vièlhs e las fotocòpias, los melhors gains venon en general del redreçament, de la correccion del contraste e del reescanejat de las paginas fòra de fuòc.
Etapa 3: lançar l'OCR
Causissètz una aisina OCR en foncion del document, pas de la marca.
| OCR option | Best for | Watch out for |
|---|---|---|
| OCR d'Adobe Acrobat | Escanejats professionals generals e netejatge de PDF | Verificatz l'accès de vòstre abonament actual abans de comptar dessús. |
| ABBYY FineReader | Escanejats complèxes, taulas, colomnas e mesas en pagina dificilas | Demanda totjorn una revision manuala. |
| Tesseract or OCRmyPDF | Fluxes de trabalh OCR locals, tecnics e repetibles | Cal èsser a l'aise amb las aisinas de linha de comanda. |
| Aisinas OCR en linha | Fichièrs ocasionals e de risc feble | La privadesa, los limits de fichièr e la qualitat varian. |
| Aplicacions d'escanejat sus telefòn | Capturar rapidament un novèl escanejat | La distorsion de perspectiva pòt degradar l'OCR. |
Per de contractes privats, de dorsièrs medicaus, de documents financièrs, de manuscrits pas publicats o de trabalhs academics en cors d'evaluacion, privilegiatz un flux de trabalh OCR local o un environament de fisança. Telecargatz pas d'escanejats sensibles sus de sites OCR gratuits qualssevols.
Etapa 4: revisar lo tèxte OCR
Revisatz abans la traduccion, pas aprèp. Copiatz de tèxte de mantunas paginas dificilas e verificatz se demòra legible.
Paginas d'inspectar per mostras:
- La pagina de títol.
- Una pagina fòrça cargada de tèxte corrent.
- Una pagina amb taula.
- Una pagina amb nòtas de pè de pagina.
- Una pagina amb tèxte pichon.
- Una pagina amb tampons, escritura manuscrita o nòtas en marge.
- Una pagina dins cada lenga se lo document es multilingüe.
Cercatz:
- Paragrafes mancants.
- Colomnas fusionadas.
- Mots fragmentats.
- Caractèrs fausses.
- Diacritics perduts.
- Etiquetas de taula separadas de las valors.
- Entèstas inseridas dins lo tèxte principal.
- Nombres de pagina mesclats dins las frasas.
Se la qualitat de l'OCR es marrida, corregissètz aquò abans la traduccion. Un traductor pòt pas recuperar de biais fisable un sens que l'OCR a pas jamai captat.
Etapa 5: tradusir lo PDF tractat per l'OCR
Un còp que lo PDF a una capa de tèxte pròpra, telecargatz-lo dins PDF Translator. L'etapa de traduccion pòt ara trabalhar sus de tèxte puslèu que sus d'imatges de paginas.
Aprèp la traduccion, comparatz:
- Escanejat original
- Capa de tèxte OCR
- PDF traduch
Aquesta revision en tres sens ajuda a identificar se l'error ven de l'OCR o de la traduccion. Se lo tèxte OCR es marrit, relançatz l'OCR. Se lo tèxte OCR es corrècte mas que la traduccion es marrida, corregissètz la traduccion.
Etapa 6: revisar lo contengut a risc naut
Los documents escanejats contenon sovent justament lo contengut que demanda una revision acurada: contractes ancians, formularis administratius, articles academics, manuals, documents istorics e paginas de libres.
Revisatz manualament aquestes elements:
- Noms
- Datas
- Nombres
- Adreças
- Còdes produch
- Referéncias juridicas
- Citacions
- Etiquetas de taula
- Unitats
- Equacions
- Legendas
- Nòtas de pè de pagina
Per los fichièrs de recèrca e academics, legissètz tanben la guida per tradusir d'articles de recèrca academica, perque los PDF academics escanejats apondon de riscs de citacion e de mesa en pagina en mai del risc d'OCR.
Exemples d'errors comparats
Utilizatz aquesta taula pendent la revision de la sortida OCR.
| Original scan likely shows | Bad OCR output | Why it matters |
|---|---|---|
modern | modem | Lo sens cambia completament. |
Section 10 | Section IO | Las referéncias juridicas o tecnicas pòdon venir falsas. |
2026 | 2O26 | Datas e IDs venon pas fisables. |
patient | patlent | Los tèrmes medicaus o tecnics venon fausses. |
| Doas colomnas separadas | Un sol paragraf fusionat | La traduccion legís las frasas dins lo marrit òrdre. |
| Linha de taula amb etiquetas e valors | Una sola linha de tèxte mesclat | Las donadas correspondon pas mai a la bona etiqueta. |
Marca de nòta de pè de pagina 1 | Letra l | Las nòtas se pòdon estacar a la marrida frasa. |
Se vesètz aquelas errors dins la capa OCR, corregissètz l'OCR abans de tradusir.
Quina aisina cal utilizar?
Causissètz segon la dificultat del document.
| Document | Recommended path |
|---|---|
| Escanejat professional net | Lançatz l'OCR dins Acrobat o dins una autra aisina OCR fisabla, puèi PDF Translator. |
| Escanejat de libre ancian | Redreçatz e melhoratz lo contraste, fasètz l'OCR amb suenh, puèi tradusissètz. |
| Escanejat d'article academic | OCR, revisatz equacions/citacions/taulas, puèi tradusissètz amb revision de la mesa en pagina. |
| Nòtas manuscritas | Una transcripcion manuala pòt èsser necessària abans la traduccion. |
| Document personal simple | L'OCR en linha pòt èsser acceptable se lo risc de privadesa es feble. |
| Document sensible | Utilizatz un OCR local o un flux de trabalh contrarotlat e de fisança. |
Se volètz una comparason d'aisinas mai larga, consultatz la guida dels melhors traductors PDF de 2026.
Problèmas frequents dels PDF escanejats
Paginas de bassa resolucion
Los escanejats de bassa resolucion rendent las letras confusas. L'OCR pòt confondre rn amb m, cl amb d, o la ponctuacion amb de tacas de polvera.
Solucion: tornatz escanejar se possible. Se non, aumentatz lo contraste e ensajatz tornarmai l'OCR.
Paginas de travèrs o corbadas
Los escanejats de libres se corban sovent près de la reliadura. L'OCR legís mal las linhas corbadas e pòt tornar ordenar lo tèxte.
Solucion: aplatissètz la pagina, tornatz escanejar, o utilizatz una aisina OCR amb redreçament e correccion de deformacion.
Mesa en pagina a mantunas colomnas
L'OCR pòt fusionar las colomnas d'esquèrra e de drecha dins un sol flux de frasas.
Solucion: verificatz l'òrdre de lectura abans la traduccion. Los articles academics demandan una atencion especiala aquí.
Taulas
Las taulas son dificil as perque l'OCR deu detectar a l'encòp lo tèxte e l'estructura. Una taula pòt semblar corrècta visualament mentre que la capa de tèxte es falsa.
Solucion: copiatz lo tèxte OCR de la taula e confirmatz que las etiquetas correspondon encara a las valors.
Escritura manuscrita e signaturas
L'OCR de tèxte imprimit es fòrça mai fisable que la reconeissença d'escritura manuscrita. Las nòtas manuscritas en marge, las signaturas e los formularis emplenats pòdon èsser ignorats o mal interpretats.
Solucion: transcrivètz manualament l'escritura essenciala abans la traduccion.
Lengas mescladas
L'OCR fonciona melhor quand coneis la lenga font. Un escanejat amb anglés, francés e chinés pòt fracassar se l'OCR es configurat per una sola lenga.
Solucion: causissètz totas las lengas OCR pertinentas se l'aisina las supòrta, puèi verificatz per mostras cada seccion lingüistica.
Lista de contraròtle de privadesa e seguretat
Abans de telecargar un PDF escanejat ont que siá, pausatz-vos aquò:
- Lo document conten de donadas personalas?
- Inclutz de material medical, juridic, financier, academic o pas publicat?
- Es cobèrt per un acòrd client o per una politica d'establiment?
- Un servici OCR en linha es autorizat per aqueste document?
- Vos cal puslèu un flux de trabalh local?
- Podètz suprimir las paginas que fan pas mestièr d'èsser traduchas?
Los PDF escanejats son sovent sensibles perque venon de contractes, de pèças d'identitat, de formularis, d'esboces de recèrca e d'archius intèrnes. Tractatz las decisions de telecargament per l'OCR coma tractariatz lo document original.
FAQ
Cossí tradusir un PDF escanejat?
Lançatz d'en primièr l'OCR per crear una capa de tèxte, revisatz la sortida OCR, puèi tradusissètz lo PDF tractat per l'OCR amb PDF Translator. Sautatz pas l'etapa de revision de l'OCR.
Perqué Google Translate a pas tradusit mon PDF escanejat?
Lo PDF pòt èsser sonque una imatge. Se i a pas cap de capa de tèxte, Google Translate a pas de tèxte d'extraire. Utilizatz d'en primièr l'OCR, puèi tradusissètz. Lo flux de trabalh especific a Google es explicat dins la guida de Google Translate per los PDF.
ChatGPT pòt tradusir un PDF escanejat?
ChatGPT pòt ajudar sus d'imatges individualas o de tèxte extrech, mas un PDF escanejat de mantunas paginas a totjorn besonh d'OCR e de revision. Per un flux de trabalh complet sus un document entièr, fasètz d'en primièr l'OCR, puèi utilizatz un flux de traduccion de PDF.
Quina es la melhora aisina OCR per los PDF escanejats?
Aquò depend del document. Acrobat e las aisinas del tipe ABBYY son utilas per los escanejats generals e complèxes. Tesseract o OCRmyPDF son utils per de fluxes de trabalh locals e tecnics. L'OCR en linha pòt convenir per de fichièrs simples e de risc feble, mas la privadesa e la qualitat varian.
L'OCR pòt preservar lo formatatge?
L'OCR pòt crear una capa de tèxte e, de còps, recuperar l'òrdre de lectura, mas aquò es pas çò meteis que preservar la mesa en pagina originala un còp traducha. Aprèp l'OCR, utilizatz un flux de traduccion PDF e revisatz la sortida en fàcia de l'original.
E se la qualitat de l'OCR es marrida?
Melhoratz l'escanejat abans de tradusir. Tornatz escanejar se possible, redreçatz las paginas, aumentatz lo contraste, retalhatz lo bruch visual, causissètz la lenga OCR corrècta e revisatz tornarmai las paginas dificilas.