Como traducir un PDF escaneado: a guía completa de OCR + tradución
Os PDF escaneados conteñen imaxes de texto, non texto real — por iso Google Translate devólveos sen cambios. Aquí tes o fluxo de OCR + IA que o soluciona.
Resposta rápida: un PDF escaneado precisa OCR antes de traducirse
Para traducir un PDF escaneado, primeiro executa OCR para converter as imaxes das páxinas en texto seleccionable. Despois traduce o PDF xa procesado con OCR cun tradutor de documentos como Tradutor de PDF. Se omites o OCR, moitas ferramentas de tradución devolverán o ficheiro orixinal sen cambios, saltarán páxinas ou traducirán só as partes que xa conteñen unha capa de texto.
Usa este fluxo de traballo:
- Abre o PDF e intenta seleccionar unha frase.
- Se non podes seleccionar texto, executa OCR.
- Revisa o texto do OCR antes de traducir.
- Sube o PDF procesado con OCR a Tradutor de PDF.
- Revisa a saída traducida fronte ao escaneo orixinal.
Se o teu PDF xa ten texto seleccionable e o problema é conservar a maquetación, consulta a guía para traducir un PDF sen perder o formato.
Por que os PDF escaneados fallan nas ferramentas de tradución
Un PDF escaneado adoita ser só un conxunto de imaxes de páxina dentro dun contedor PDF. A páxina pode mostrar palabras para unha persoa, pero o ficheiro pode non conter texto real que o software poida extraer.
Isto crea un fallo sinxelo:
| Tipo de ficheiro | O que ve o tradutor | O que ocorre |
|---|---|---|
| PDF baseado en texto | Texto máis datos de maquetación | A tradución pode comezar de inmediato. |
| PDF escaneado só con imaxes | Imaxes das páxinas | Primeiro fai falta OCR. |
| PDF con texto sobre a imaxe | Imaxe do escaneo máis capa de texto OCR oculta | A tradución pode funcionar, pero os erros de OCR afectan á calidade. |
A proba máis útil non é técnica:
- Abre o PDF.
- Tenta seleccionar palabras individuais.
- Copia unha frase.
- Pégaa nun editor de texto.
Se a frase se pega correctamente, o PDF ten unha capa de texto. Se non se pega nada, ou se toda a páxina se comporta como unha única imaxe, o PDF necesita OCR.
O OCR non é opcional
OCR significa recoñecemento óptico de caracteres. Le texto dunha imaxe e crea texto lexible por máquinas. Para a tradución de PDF, o OCR adoita crear unha capa de texto invisible sobre a páxina escaneada.
Esa capa de texto convértese na fonte da tradución. Se o OCR comete erros, a tradución herda eses erros.
Erros comúns de OCR:
| Erro de OCR | Risco na tradución |
|---|---|
rn lido como m | As palabras cambian de significado. |
1 lido como l | Números, referencias ou códigos quedan mal. |
O lido como 0 | Os ID, as fórmulas e os nomes poden romperse. |
| Acentos perdidos | Os nomes e os termos vólvense imprecisos. |
| Columnas fusionadas | As frases tradúcense na orde incorrecta. |
| Celas de táboa lidas incorrectamente fila por fila | As etiquetas dos datos deixan de coincidir cos valores. |
| Notas ao pé tratadas como texto principal | As citas e notas pasan ao contexto equivocado. |
Por iso importa a revisión do OCR. Non traduzas un documento escaneado ata facer comprobacións puntuais do texto extraído.
O fluxo de traballo con OCR primeiro
Paso 1: Identifica o tipo de PDF
Tenta seleccionar texto. Se a selección funciona, pode que non necesites OCR. Se falla, trata o ficheiro como un PDF só con imaxes.
Inspecciona tamén a páxina visualmente:
- As páxinas torcidas adoitan indicar un escaneo.
- Unha textura de papel gris adoita indicar un escaneo.
- As sombras preto do lombo adoitan indicar un libro fotografado.
- Un contraste irregular adoita indicar unha fotocopia.
- Se a busca non atopa palabras visibles, é probable que non haxa capa de texto.
Paso 2: Mellora o escaneo se é posible
A calidade do OCR empeza pola calidade da imaxe. Se podes volver escanear, faino antes de perder tempo arranxando erros do OCR.
Usa esta lista de control da calidade da imaxe:
- Escanea cunha resolución suficientemente alta para o texto pequeno.
- Mantén as páxinas planas e rectas.
- Evita sombras preto do lombo.
- Recorta os bordos da mesa, os dedos ou o ruído do fondo.
- Usa un contraste forte entre o texto e a páxina.
- Asegúrate de que se vexa toda a liña.
- Usa a orientación correcta da páxina.
- Non comprimas a imaxe tanto que as letras queden borrosas.
Nos libros antigos e nas fotocopias, as maiores melloras adoitan vir da corrección da inclinación, da corrección do contraste e de volver escanear páxinas desenfocadas.
Paso 3: Executa o OCR
Escolle unha ferramenta de OCR segundo o documento, non segundo a marca.
| Opción de OCR | Mellor para | Atención a |
|---|---|---|
| Adobe Acrobat OCR | Escaneos empresariais xerais e limpeza de PDF | Comproba o acceso no plan actual antes de depender dela. |
| ABBYY FineReader | Escaneos complexos, táboas, columnas e maquetacións difíciles | Aínda require revisión manual. |
| Tesseract ou OCRmyPDF | Fluxos de OCR locais, técnicos e repetibles | Require soltura con ferramentas de liña de comandos. |
| Ferramentas OCR en liña | Ficheiros ocasionais de baixo risco | A privacidade, os límites de ficheiro e a calidade varían. |
| Aplicacións de escaneo no móbil | Capturar rapidamente un novo escaneo | A distorsión de perspectiva pode prexudicar o OCR. |
Para contratos privados, historias clínicas, documentos financeiros, manuscritos inéditos ou traballos académicos en revisión, prioriza un fluxo de OCR local ou un contorno de confianza. Non subas escaneos sensibles a sitios gratuítos de OCR ao azar.
Paso 4: Revisa o texto do OCR
Revisa antes de traducir, non despois. Copia texto de varias páxinas difíciles e comproba se se pode ler.
Páxinas de mostra que convén inspeccionar:
- A páxina de título.
- Unha páxina de corpo denso.
- Unha páxina con táboas.
- Unha páxina con notas ao pé.
- Unha páxina con letra pequena.
- Unha páxina con selos, escrita a man ou anotacións na marxe.
- Unha páxina de cada lingua se o documento é multilingüe.
Busca:
- Parágrafos que faltan.
- Columnas fusionadas.
- Palabras rotas.
- Caracteres incorrectos.
- Diacríticos perdidos.
- Etiquetas de táboas separadas dos valores.
- Cabeceiras inseridas no texto principal.
- Números de páxina mesturados nas frases.
Se a calidade do OCR é mala, arránxaa antes da tradución. Un tradutor non pode recuperar con fiabilidade un significado que o OCR nunca captou.
Paso 5: Traduce o PDF procesado con OCR
Unha vez que o PDF teña unha capa de texto limpa, súbeo a Tradutor de PDF. O paso de tradución xa pode traballar con texto no canto de imaxes de páxina.
Despois da tradución, compara:
- Escaneo orixinal
- Capa de texto do OCR
- PDF traducido
Esta revisión a tres bandas axúdache a identificar se un erro vén do OCR ou da tradución. Se o texto do OCR está mal, executa o OCR de novo. Se o texto do OCR está ben pero a tradución está mal, corrixe a tradución.
Paso 6: Revisa o contido de alto risco
Os documentos escaneados adoitan conter xusto o tipo de contido que require unha revisión coidadosa: contratos antigos, formularios oficiais, artigos académicos, manuais, documentos históricos e páxinas de libros.
Revisa manualmente estes elementos:
- Nomes
- Datas
- Números
- Enderezos
- Códigos de produto
- Referencias legais
- Citas
- Etiquetas de táboas
- Unidades
- Ecuacións
- Lendas
- Notas ao pé
Para ficheiros de investigación e académicos, le tamén a guía para traducir artigos académicos de investigación, porque os PDF académicos escaneados engaden riscos de citas e maquetación por riba do risco do OCR.
Exemplos comparativos de fallos
Usa esta táboa mentres revisas a saída do OCR.
| O escaneo orixinal probablemente mostra | Saída OCR defectuosa | Por que importa |
|---|---|---|
modern | modem | O significado cambia por completo. |
Section 10 | Section IO | As referencias legais ou técnicas poden romperse. |
2026 | 2O26 | As datas e os ID vólvense pouco fiables. |
patient | patlent | Os termos médicos ou técnicos quedan mal. |
| Dúas columnas separadas | Un parágrafo fusionado | A tradución le as frases na orde incorrecta. |
| Fila de táboa con etiquetas e valores | Unha única liña de texto mesturado | Os datos xa non se corresponden coa etiqueta correcta. |
Marcador de nota ao pé 1 | Letra l | As notas poden quedar ligadas á frase equivocada. |
Se ves estes erros na capa de OCR, arranxa o OCR antes de traducir.
Que ferramenta debes usar?
Escolle segundo a dificultade do documento.
| Documento | Ruta recomendada |
|---|---|
| Escaneo empresarial limpo | OCR en Acrobat ou noutra ferramenta fiable de OCR, e despois Tradutor de PDF. |
| Escaneo de libro antigo | Corrixe a inclinación e mellora o contraste, fai o OCR con coidado e despois traduce. |
| Escaneo de artigo académico | OCR, revisión de ecuacións/citas/táboas e despois tradución con revisión da maquetación. |
| Notas manuscritas | Pode facer falta unha transcrición manual antes de traducir. |
| Documento persoal sinxelo | O OCR en liña pode ser aceptable se o risco de privacidade é baixo. |
| Documento sensible | Usa OCR local ou un fluxo de traballo controlado e de confianza. |
Se queres unha comparativa máis ampla de ferramentas, consulta a guía dos mellores tradutores de PDF de 2026.
Problemas comúns dos PDF escaneados
Páxinas de baixa resolución
Os escaneos de baixa resolución emborronan as letras. O OCR pode confundir rn e m, cl e d, ou a puntuación con motas de po.
Solución: volve escanear se é posible. Se non, aumenta o contraste e tenta o OCR outra vez.
Páxinas torcidas ou curvadas
Os escaneos de libros adoitan curvarse preto do lombo. O OCR le mal as liñas curvas e pode reordenar o texto.
Solución: aplana a páxina, volve escanear ou usa unha ferramenta de OCR con corrección da inclinación e da curvatura.
Maquetación con varias columnas
O OCR pode fusionar as columnas esquerda e dereita nunha única secuencia de frases.
Solución: revisa a orde de lectura antes de traducir. Os artigos académicos requiren especial atención aquí.
Táboas
As táboas son difíciles porque o OCR ten que detectar tanto o texto como a estrutura. Unha táboa pode parecer correcta visualmente mentres a capa de texto está mal.
Solución: copia o texto do OCR da táboa e confirma que as etiquetas seguen correspondéndose cos valores.
Escrita a man e sinaturas
O OCR de texto impreso é moito máis fiable ca o recoñecemento de escrita a man. As notas manuscritas nas marxes, as sinaturas e os formularios cubertos poden omitirse ou saír distorsionados.
Solución: transcribe manualmente a escrita esencial antes de traducir.
Linguas mesturadas
O OCR funciona mellor cando coñece a lingua de orixe. Un escaneo con inglés, francés e chinés pode fallar se o OCR está configurado só para unha lingua.
Solución: escolle todas as linguas relevantes do OCR se a ferramenta o permite e despois fai unha comprobación puntual de cada sección por idioma.
Lista de control de privacidade e seguridade
Antes de subir un PDF escaneado a calquera sitio, pregúntate:
- O documento contén datos persoais?
- Inclúe material médico, legal, financeiro, académico ou inédito?
- Está cuberto por un acordo cun cliente ou por unha política do centro educativo?
- Está permitido usar un servizo OCR en liña para este documento?
- Precisas no canto diso un fluxo de traballo local?
- Podes eliminar as páxinas que non precisan tradución?
Os PDF escaneados adoitan ser sensibles porque proceden de contratos, documentos de identidade, formularios, borradores de investigación e arquivos internos. Trata as decisións sobre subir ficheiros a OCR do mesmo xeito que tratarías o documento orixinal.
Preguntas frecuentes
Como traducir un PDF escaneado?
Executa primeiro o OCR para crear unha capa de texto, revisa a saída do OCR e despois traduce o PDF procesado con OCR con Tradutor de PDF. Non omitas o paso de revisión do OCR.
Por que Google Translate non traduciu o meu PDF escaneado?
É posible que o PDF sexa só unha imaxe. Se non hai capa de texto, Google Translate non ten texto que extraer. Usa primeiro OCR e despois traduce. O fluxo de traballo específico de Google explícase na guía de Google Translate para PDF.
Pode ChatGPT traducir un PDF escaneado?
ChatGPT pode axudar con imaxes individuais ou con texto extraído, pero un PDF escaneado de varias páxinas segue precisando OCR e revisión. Para un fluxo de traballo de documento completo, primeiro OCR e despois un fluxo de tradución de PDF.
Cal é a mellor ferramenta OCR para PDF escaneados?
Depende do documento. As ferramentas ao estilo de Acrobat e ABBYY son útiles para escaneos xerais e complexos. Tesseract ou OCRmyPDF resultan útiles para fluxos de traballo técnicos e locais. O OCR en liña pode ir ben para ficheiros simples e de baixo risco, pero a privacidade e a calidade varían.
Pode o OCR conservar o formato?
O OCR pode crear unha capa de texto e ás veces recuperar a orde de lectura, pero non é o mesmo que conservar a maquetación orixinal unha vez traducida. Despois do OCR, usa un fluxo de tradución de PDF e revisa a saída fronte ao orixinal.
E se a calidade do OCR é mala?
Mellora o escaneo antes de traducir. Volve escanear se é posible, corrixe a inclinación das páxinas, aumenta o contraste, recorta o ruído visual, escolle a lingua correcta do OCR e volve revisar as páxinas difíciles.