Como traducir un PDF escaneado: a guía completa de OCR + tradución

Os PDF escaneados conteñen imaxes de texto, non texto real — por iso Google Translate devólveos sen cambios. Aquí tes o fluxo de OCR + IA que o soluciona.

BookTranslator Team

Guías de tradución2026-02-2812 min read

Resposta rápida: un PDF escaneado precisa OCR antes de traducirse

Para traducir un PDF escaneado, primeiro executa OCR para converter as imaxes das páxinas en texto seleccionable. Despois traduce o PDF xa procesado con OCR cun tradutor de documentos como Tradutor de PDF. Se omites o OCR, moitas ferramentas de tradución devolverán o ficheiro orixinal sen cambios, saltarán páxinas ou traducirán só as partes que xa conteñen unha capa de texto.

Usa este fluxo de traballo:

Abre o PDF e intenta seleccionar unha frase.
Se non podes seleccionar texto, executa OCR.
Revisa o texto do OCR antes de traducir.
Sube o PDF procesado con OCR a Tradutor de PDF.
Revisa a saída traducida fronte ao escaneo orixinal.

Se o teu PDF xa ten texto seleccionable e o problema é conservar a maquetación, consulta a guía para traducir un PDF sen perder o formato.

Por que os PDF escaneados fallan nas ferramentas de tradución

Un PDF escaneado adoita ser só un conxunto de imaxes de páxina dentro dun contedor PDF. A páxina pode mostrar palabras para unha persoa, pero o ficheiro pode non conter texto real que o software poida extraer.

Isto crea un fallo sinxelo:

Tipo de ficheiro	O que ve o tradutor	O que ocorre
PDF baseado en texto	Texto máis datos de maquetación	A tradución pode comezar de inmediato.
PDF escaneado só con imaxes	Imaxes das páxinas	Primeiro fai falta OCR.
PDF con texto sobre a imaxe	Imaxe do escaneo máis capa de texto OCR oculta	A tradución pode funcionar, pero os erros de OCR afectan á calidade.

A proba máis útil non é técnica:

Abre o PDF.
Tenta seleccionar palabras individuais.
Copia unha frase.
Pégaa nun editor de texto.

Se a frase se pega correctamente, o PDF ten unha capa de texto. Se non se pega nada, ou se toda a páxina se comporta como unha única imaxe, o PDF necesita OCR.

O OCR non é opcional

OCR significa recoñecemento óptico de caracteres. Le texto dunha imaxe e crea texto lexible por máquinas. Para a tradución de PDF, o OCR adoita crear unha capa de texto invisible sobre a páxina escaneada.

Esa capa de texto convértese na fonte da tradución. Se o OCR comete erros, a tradución herda eses erros.

Erros comúns de OCR:

Erro de OCR	Risco na tradución
`rn` lido como `m`	As palabras cambian de significado.
`1` lido como `l`	Números, referencias ou códigos quedan mal.
`O` lido como `0`	Os ID, as fórmulas e os nomes poden romperse.
Acentos perdidos	Os nomes e os termos vólvense imprecisos.
Columnas fusionadas	As frases tradúcense na orde incorrecta.
Celas de táboa lidas incorrectamente fila por fila	As etiquetas dos datos deixan de coincidir cos valores.
Notas ao pé tratadas como texto principal	As citas e notas pasan ao contexto equivocado.

Por iso importa a revisión do OCR. Non traduzas un documento escaneado ata facer comprobacións puntuais do texto extraído.

O fluxo de traballo con OCR primeiro

Paso 1: Identifica o tipo de PDF

Tenta seleccionar texto. Se a selección funciona, pode que non necesites OCR. Se falla, trata o ficheiro como un PDF só con imaxes.

Inspecciona tamén a páxina visualmente:

As páxinas torcidas adoitan indicar un escaneo.
Unha textura de papel gris adoita indicar un escaneo.
As sombras preto do lombo adoitan indicar un libro fotografado.
Un contraste irregular adoita indicar unha fotocopia.
Se a busca non atopa palabras visibles, é probable que non haxa capa de texto.

Paso 2: Mellora o escaneo se é posible

A calidade do OCR empeza pola calidade da imaxe. Se podes volver escanear, faino antes de perder tempo arranxando erros do OCR.

Usa esta lista de control da calidade da imaxe:

Escanea cunha resolución suficientemente alta para o texto pequeno.
Mantén as páxinas planas e rectas.
Evita sombras preto do lombo.
Recorta os bordos da mesa, os dedos ou o ruído do fondo.
Usa un contraste forte entre o texto e a páxina.
Asegúrate de que se vexa toda a liña.
Usa a orientación correcta da páxina.
Non comprimas a imaxe tanto que as letras queden borrosas.

Nos libros antigos e nas fotocopias, as maiores melloras adoitan vir da corrección da inclinación, da corrección do contraste e de volver escanear páxinas desenfocadas.

Paso 3: Executa o OCR

Escolle unha ferramenta de OCR segundo o documento, non segundo a marca.

Opción de OCR	Mellor para	Atención a
Adobe Acrobat OCR	Escaneos empresariais xerais e limpeza de PDF	Comproba o acceso no plan actual antes de depender dela.
ABBYY FineReader	Escaneos complexos, táboas, columnas e maquetacións difíciles	Aínda require revisión manual.
Tesseract ou OCRmyPDF	Fluxos de OCR locais, técnicos e repetibles	Require soltura con ferramentas de liña de comandos.
Ferramentas OCR en liña	Ficheiros ocasionais de baixo risco	A privacidade, os límites de ficheiro e a calidade varían.
Aplicacións de escaneo no móbil	Capturar rapidamente un novo escaneo	A distorsión de perspectiva pode prexudicar o OCR.

Para contratos privados, historias clínicas, documentos financeiros, manuscritos inéditos ou traballos académicos en revisión, prioriza un fluxo de OCR local ou un contorno de confianza. Non subas escaneos sensibles a sitios gratuítos de OCR ao azar.

Paso 4: Revisa o texto do OCR

Revisa antes de traducir, non despois. Copia texto de varias páxinas difíciles e comproba se se pode ler.

Páxinas de mostra que convén inspeccionar:

A páxina de título.
Unha páxina de corpo denso.
Unha páxina con táboas.
Unha páxina con notas ao pé.
Unha páxina con letra pequena.
Unha páxina con selos, escrita a man ou anotacións na marxe.
Unha páxina de cada lingua se o documento é multilingüe.

Busca:

Parágrafos que faltan.
Columnas fusionadas.
Palabras rotas.
Caracteres incorrectos.
Diacríticos perdidos.
Etiquetas de táboas separadas dos valores.
Cabeceiras inseridas no texto principal.
Números de páxina mesturados nas frases.

Se a calidade do OCR é mala, arránxaa antes da tradución. Un tradutor non pode recuperar con fiabilidade un significado que o OCR nunca captou.

Paso 5: Traduce o PDF procesado con OCR

Unha vez que o PDF teña unha capa de texto limpa, súbeo a Tradutor de PDF. O paso de tradución xa pode traballar con texto no canto de imaxes de páxina.

Despois da tradución, compara:

Escaneo orixinal
Capa de texto do OCR
PDF traducido

Esta revisión a tres bandas axúdache a identificar se un erro vén do OCR ou da tradución. Se o texto do OCR está mal, executa o OCR de novo. Se o texto do OCR está ben pero a tradución está mal, corrixe a tradución.

Paso 6: Revisa o contido de alto risco

Os documentos escaneados adoitan conter xusto o tipo de contido que require unha revisión coidadosa: contratos antigos, formularios oficiais, artigos académicos, manuais, documentos históricos e páxinas de libros.

Revisa manualmente estes elementos:

Nomes
Datas
Números
Enderezos
Códigos de produto
Referencias legais
Citas
Etiquetas de táboas
Unidades
Ecuacións
Lendas
Notas ao pé

Para ficheiros de investigación e académicos, le tamén a guía para traducir artigos académicos de investigación, porque os PDF académicos escaneados engaden riscos de citas e maquetación por riba do risco do OCR.

Exemplos comparativos de fallos

Usa esta táboa mentres revisas a saída do OCR.

O escaneo orixinal probablemente mostra	Saída OCR defectuosa	Por que importa
`modern`	`modem`	O significado cambia por completo.
`Section 10`	`Section IO`	As referencias legais ou técnicas poden romperse.
`2026`	`2O26`	As datas e os ID vólvense pouco fiables.
`patient`	`patlent`	Os termos médicos ou técnicos quedan mal.
Dúas columnas separadas	Un parágrafo fusionado	A tradución le as frases na orde incorrecta.
Fila de táboa con etiquetas e valores	Unha única liña de texto mesturado	Os datos xa non se corresponden coa etiqueta correcta.
Marcador de nota ao pé `1`	Letra `l`	As notas poden quedar ligadas á frase equivocada.

Se ves estes erros na capa de OCR, arranxa o OCR antes de traducir.

Que ferramenta debes usar?

Escolle segundo a dificultade do documento.

Documento	Ruta recomendada
Escaneo empresarial limpo	OCR en Acrobat ou noutra ferramenta fiable de OCR, e despois Tradutor de PDF.
Escaneo de libro antigo	Corrixe a inclinación e mellora o contraste, fai o OCR con coidado e despois traduce.
Escaneo de artigo académico	OCR, revisión de ecuacións/citas/táboas e despois tradución con revisión da maquetación.
Notas manuscritas	Pode facer falta unha transcrición manual antes de traducir.
Documento persoal sinxelo	O OCR en liña pode ser aceptable se o risco de privacidade é baixo.
Documento sensible	Usa OCR local ou un fluxo de traballo controlado e de confianza.

Se queres unha comparativa máis ampla de ferramentas, consulta a guía dos mellores tradutores de PDF de 2026.

Problemas comúns dos PDF escaneados

Páxinas de baixa resolución

Os escaneos de baixa resolución emborronan as letras. O OCR pode confundir rn e m, cl e d, ou a puntuación con motas de po.

Solución: volve escanear se é posible. Se non, aumenta o contraste e tenta o OCR outra vez.

Páxinas torcidas ou curvadas

Os escaneos de libros adoitan curvarse preto do lombo. O OCR le mal as liñas curvas e pode reordenar o texto.

Solución: aplana a páxina, volve escanear ou usa unha ferramenta de OCR con corrección da inclinación e da curvatura.

Maquetación con varias columnas

O OCR pode fusionar as columnas esquerda e dereita nunha única secuencia de frases.

Solución: revisa a orde de lectura antes de traducir. Os artigos académicos requiren especial atención aquí.

Táboas

As táboas son difíciles porque o OCR ten que detectar tanto o texto como a estrutura. Unha táboa pode parecer correcta visualmente mentres a capa de texto está mal.

Solución: copia o texto do OCR da táboa e confirma que as etiquetas seguen correspondéndose cos valores.

Escrita a man e sinaturas

O OCR de texto impreso é moito máis fiable ca o recoñecemento de escrita a man. As notas manuscritas nas marxes, as sinaturas e os formularios cubertos poden omitirse ou saír distorsionados.

Solución: transcribe manualmente a escrita esencial antes de traducir.

Linguas mesturadas

O OCR funciona mellor cando coñece a lingua de orixe. Un escaneo con inglés, francés e chinés pode fallar se o OCR está configurado só para unha lingua.

Solución: escolle todas as linguas relevantes do OCR se a ferramenta o permite e despois fai unha comprobación puntual de cada sección por idioma.

Lista de control de privacidade e seguridade

Antes de subir un PDF escaneado a calquera sitio, pregúntate:

O documento contén datos persoais?
Inclúe material médico, legal, financeiro, académico ou inédito?
Está cuberto por un acordo cun cliente ou por unha política do centro educativo?
Está permitido usar un servizo OCR en liña para este documento?
Precisas no canto diso un fluxo de traballo local?
Podes eliminar as páxinas que non precisan tradución?

Os PDF escaneados adoitan ser sensibles porque proceden de contratos, documentos de identidade, formularios, borradores de investigación e arquivos internos. Trata as decisións sobre subir ficheiros a OCR do mesmo xeito que tratarías o documento orixinal.

Preguntas frecuentes

Como traducir un PDF escaneado?

Executa primeiro o OCR para crear unha capa de texto, revisa a saída do OCR e despois traduce o PDF procesado con OCR con Tradutor de PDF. Non omitas o paso de revisión do OCR.

Por que Google Translate non traduciu o meu PDF escaneado?

É posible que o PDF sexa só unha imaxe. Se non hai capa de texto, Google Translate non ten texto que extraer. Usa primeiro OCR e despois traduce. O fluxo de traballo específico de Google explícase na guía de Google Translate para PDF.

Pode ChatGPT traducir un PDF escaneado?

ChatGPT pode axudar con imaxes individuais ou con texto extraído, pero un PDF escaneado de varias páxinas segue precisando OCR e revisión. Para un fluxo de traballo de documento completo, primeiro OCR e despois un fluxo de tradución de PDF.

Cal é a mellor ferramenta OCR para PDF escaneados?

Depende do documento. As ferramentas ao estilo de Acrobat e ABBYY son útiles para escaneos xerais e complexos. Tesseract ou OCRmyPDF resultan útiles para fluxos de traballo técnicos e locais. O OCR en liña pode ir ben para ficheiros simples e de baixo risco, pero a privacidade e a calidade varían.

Pode o OCR conservar o formato?

O OCR pode crear unha capa de texto e ás veces recuperar a orde de lectura, pero non é o mesmo que conservar a maquetación orixinal unha vez traducida. Despois do OCR, usa un fluxo de tradución de PDF e revisa a saída fronte ao orixinal.

E se a calidade do OCR é mala?

Mellora o escaneo antes de traducir. Volve escanear se é posible, corrixe a inclinación das páxinas, aumenta o contraste, recorta o ruído visual, escolle a lingua correcta do OCR e volve revisar as páxinas difíciles.

Publicacións relacionadas

Guías de tradución

Como traducir un PDF sen perder o formato (Guía de 2026)

2026-03-2013 min read

Consellos e recursos

Mellores ferramentas de tradución de PDF en 2026: unha comparación honesta

2026-02-2816 min read

Casos de uso

Como traducir artigos de investigación académica: preservando ecuacións, citas e o formato

2026-02-2813 min read

Guías de tradución

Como usar Google Translate para PDF: guía completa (2026)

2026-03-209 min read