如何翻译扫描版 PDF:完整 OCR + 翻译指南
扫描版 PDF 包含的是文本图片,而不是真正的文本,这就是为什么 Google 翻译会原样返回文件。下面是能解决这个问题的 OCR + AI 流程。
快速答案:扫描版 PDF 在翻译前必须先做 OCR
要翻译扫描版 PDF,首先要运行 OCR,把页面图像转换成可选中的文本。然后再使用文档翻译工具(如 PDF 翻译器)翻译经过 OCR 处理的 PDF。如果跳过 OCR,很多翻译工具会原样返回原文件、漏掉页面,或者只翻译本来就已经带有文本层的部分。
请使用以下工作流:
- 打开 PDF,并尝试选中其中一句话。
- 如果无法选中文本,就先运行 OCR。
- 在翻译前检查 OCR 提取出的文本。
- 将经过 OCR 处理的 PDF 上传到 PDF 翻译器。
- 对照原始扫描件检查翻译输出。
如果你的 PDF 已经带有可选中的文本,而问题在于保留版式,请参考这篇指南:如何在不丢失格式的情况下翻译 PDF。
为什么扫描版 PDF 会在翻译工具中失败
扫描版 PDF 往往只是把一组页面图像装进了 PDF 容器里。人眼能看到页面上的文字,但文件本身可能并不包含软件可提取的真实文本。
这会导致一个很直接的问题:
| 文件类型 | 翻译器实际看到的内容 | 会发生什么 |
|---|---|---|
| 文本型 PDF | 文本加版式数据 | 可以立即开始翻译。 |
| 纯图片扫描 PDF | 页面图片 | 必须先进行 OCR。 |
| 图像上覆盖文本的 PDF | 扫描图像加隐藏的 OCR 文本层 | 可以翻译,但 OCR 错误会影响质量。 |
最有用的判断方法并不复杂:
- 打开 PDF。
- 尝试高亮单个词语。
- 复制一句话。
- 粘贴到文本编辑器中。
如果粘贴出来的句子是正确的,说明 PDF 有文本层。如果什么都粘贴不出来,或者整页像一张图片一样无法逐字选中,那这个 PDF 就需要先做 OCR。
OCR 不是可选项
OCR 指的是光学字符识别(optical character recognition)。它会从图像中读取文字,并生成机器可读的文本。对于 PDF 翻译来说,OCR 通常会在扫描页面上生成一层不可见的文本层。
翻译实际上依赖的就是这层文本。如果 OCR 出错,翻译也会继承这些错误。
常见的 OCR 错误包括:
| OCR 错误 | 翻译风险 |
|---|---|
把 rn 识别成 m | 单词含义会发生变化。 |
把 1 识别成 l | 数字、引用或代码会出错。 |
把 O 识别成 0 | ID、公式和名称可能出问题。 |
| 重音符号丢失 | 人名和术语会变得不准确。 |
| 多栏内容被合并 | 句子会按错误的顺序被翻译。 |
| 表格单元格按行错误读取 | 数据标签不再与对应数值匹配。 |
| 脚注被当作正文 | 引文和注释会进入错误的上下文。 |
这就是为什么 OCR 审核这一步很关键。在你抽查过提取文本之前,不要直接翻译扫描文档。
先做 OCR 的工作流
第 1 步:判断 PDF 类型
先试着选中文本。如果可以选中,可能不需要 OCR。如果完全无法选中,就应当把这个文件当作纯图像 PDF 处理。
同时也可以从页面外观上判断:
- 页面歪斜通常说明它是扫描件。
- 纸张发灰的纹理通常说明它是扫描件。
- 装订线附近有阴影通常说明它是拍摄的书页。
- 对比度不均通常说明它是复印件。
- 搜索不到肉眼可见的单词通常说明没有文本层。
第 2 步:如果可以,先改善扫描质量
OCR 质量取决于图像质量。如果你可以重新扫描,那要先重扫,而不是事后花时间修补 OCR 错误。
请用这份图像质量清单检查:
- 扫描分辨率要足够高,能清楚识别小字号文字。
- 页面要尽量平整、端正。
- 避免书脊附近出现阴影。
- 裁掉桌边、手指或杂乱背景。
- 保持文字与纸张之间有足够强的对比度。
- 整行文字要完整可见。
- 页面方向要正确。
- 不要把图像压缩得过重,以免字母发糊。
对于旧书和复印件来说,最有效的改进通常来自页面校正、对比度修正,以及重新扫描那些失焦的页面。
第 3 步:运行 OCR
选择 OCR 工具时,优先看文档类型,而不是品牌。
| OCR 方案 | 最适合的场景 | 需要注意的地方 |
|---|---|---|
| Adobe Acrobat OCR | 一般商务扫描件与 PDF 清理 | 使用前先确认当前套餐是否支持。 |
| ABBYY FineReader | 复杂扫描件、表格、多栏和困难版式 | 仍然需要人工检查。 |
| Tesseract 或 OCRmyPDF | 本地、技术型、可重复执行的 OCR 工作流 | 需要熟悉命令行工具。 |
| 在线 OCR 工具 | 低风险、偶尔处理的文件 | 隐私、文件大小限制和质量差异较大。 |
| 手机扫描 App | 快速获取新的扫描件 | 透视变形会影响 OCR 效果。 |
如果是私密合同、医疗记录、财务文件、未出版手稿,或者正在评审中的学术材料,优先使用本地 OCR 工作流或可信的受控环境。不要把敏感扫描件随意上传到陌生的免费 OCR 网站。
第 4 步:检查 OCR 文本
要在翻译前检查,而不是翻译后才看。请从几个较难的页面中复制文本,确认其是否可读。
建议抽查这些页面:
- 标题页。
- 一页正文密集的页面。
- 一页表格页面。
- 一页带脚注的页面。
- 一页小字号页面。
- 一页带印章、手写内容或页边批注的页面。
- 如果文档是多语言的,每种语言都至少抽查一页。
重点看这些问题:
- 段落缺失。
- 多栏合并。
- 单词断裂。
- 字符识别错误。
- 变音符号丢失。
- 表格标签与数值分离。
- 页眉被插入正文。
- 页码混入句子。
如果 OCR 质量很差,先修正再翻译。对于 OCR 根本没有正确提取出来的内容,翻译器并不能可靠地“猜回”原意。
第 5 步:翻译经过 OCR 处理的 PDF
一旦 PDF 拥有了干净的文本层,就把它上传到 PDF 翻译器。此时翻译步骤面对的是文本,而不再只是页面图像。
翻译完成后,请对照以下三项进行检查:
- 原始扫描件
- OCR 文本层
- 翻译后的 PDF
这种三方比对能帮助你判断,错误究竟来自 OCR 还是翻译。如果 OCR 文本错了,就重新做 OCR;如果 OCR 文本是对的,但翻译错了,就修正翻译。
第 6 步:重点审核高风险内容
扫描文档里往往正好包含最需要仔细审核的内容:旧合同、政府表格、学术论文、手册、历史文献和书页。
请人工检查以下项目:
- 人名
- 日期
- 数字
- 地址
- 产品代码
- 法律引用
- 引文
- 表格标签
- 单位
- 公式
- 图注
- 脚注
如果是科研或学术文件,也建议阅读这篇指南:如何翻译学术研究论文,因为扫描版学术 PDF 除了 OCR 风险之外,还额外带有引文和版式方面的风险。
并排查看常见失败示例
在检查 OCR 输出时,可以参考下表。
| 原始扫描件里可能显示的是 | 错误的 OCR 输出 | 为什么这很重要 |
|---|---|---|
modern | modem | 含义会完全改变。 |
Section 10 | Section IO | 法律或技术引用可能失效。 |
2026 | 2O26 | 日期和 ID 会变得不可靠。 |
patient | patlent | 医学或技术术语会出错。 |
| 两个独立栏位 | 一个合并后的段落 | 翻译会按错误顺序读取句子。 |
| 含标签和数值的表格行 | 一整行混杂文本 | 数据不再对应正确的标签。 |
脚注标记 1 | 字母 l | 注释可能会对应到错误的句子。 |
如果你在 OCR 文本层中看到这些错误,请先修正 OCR,再进行翻译。
应该使用哪种工具?
根据文档难度来选择。
| 文档类型 | 推荐路径 |
|---|---|
| 干净的商务扫描件 | 先在 Acrobat 或其他可靠 OCR 工具中做 OCR,再用 PDF 翻译器。 |
| 旧书扫描件 | 先校正页面并提高对比度,认真做 OCR,再翻译。 |
| 学术论文扫描件 | 先做 OCR,检查公式、引文和表格,再结合版式审核进行翻译。 |
| 手写笔记 | 翻译前可能需要先人工转写。 |
| 简单个人文件 | 如果隐私风险较低,可以考虑在线 OCR。 |
| 敏感文档 | 使用本地 OCR 或可信的受控工作流。 |
如果你想看更全面的工具对比,可以参考这篇 最佳 PDF 翻译工具指南。
扫描版 PDF 的常见问题
低分辨率页面
低分辨率扫描会让字母糊成一团。OCR 可能会混淆 rn 和 m、cl 和 d,甚至把标点和灰尘弄混。
解决方法:如果可以就重新扫描;如果不行,就提高对比度后再试一次 OCR。
倾斜或弯曲的页面
书页扫描在书脊附近经常会弯曲。OCR 对弯曲文字的识别效果很差,还可能把文本顺序打乱。
解决方法:压平页面、重新扫描,或使用支持页面校正和去弯曲的 OCR 工具。
多栏版式
OCR 可能会把左右两栏合并成一串连续句子。
解决方法:在翻译前检查阅读顺序。学术论文在这一点上尤其要特别注意。
表格
表格之所以难处理,是因为 OCR 既要识别文字,也要识别结构。表格视觉上看起来可能没问题,但文本层其实已经错了。
解决方法:复制表格里的 OCR 文本,确认标签是否仍然对应正确的数值。
手写内容和签名
印刷体文字的 OCR 可靠性远高于手写识别。页边手写批注、签名和填写过的表单,可能会被漏掉或识别成乱码。
解决方法:在翻译前,先手工转写关键的手写内容。
混合语言
当 OCR 知道源语言是什么时,效果最好。如果扫描件里同时有英文、法文和中文,而 OCR 只设置成一种语言,就很容易失败。
解决方法:如果工具支持,就选择所有相关 OCR 语言,然后分别抽查每个语言部分。
隐私与安全检查清单
在把扫描版 PDF 上传到任何地方之前,先问自己:
- 文档里是否包含个人数据?
- 是否包含医疗、法律、财务、学术或未发布材料?
- 是否受客户协议或学校政策约束?
- 对这份文档来说,是否允许使用在线 OCR 服务?
- 你是否应该改用本地工作流?
- 能否删除那些不需要翻译的页面?
扫描版 PDF 往往很敏感,因为它们常来自合同、证件、表格、研究草稿和内部档案。在决定是否上传做 OCR 时,请像对待原始文档一样谨慎。
FAQ
如何翻译扫描版 PDF?
先运行 OCR 创建文本层,检查 OCR 输出,然后再使用 PDF 翻译器 翻译经过 OCR 处理的 PDF。不要跳过 OCR 审核这一步。
为什么 Google 翻译没有翻译我的扫描版 PDF?
这个 PDF 可能只是图片文件。如果没有文本层,Google 翻译就没有可提取的文字。先做 OCR,再翻译。Google 相关的具体流程可以参考这篇 Google 翻译 PDF 指南。
ChatGPT 能翻译扫描版 PDF 吗?
ChatGPT 也许能帮助处理单张图片或已提取出的文本,但多页扫描版 PDF 仍然需要 OCR 和人工检查。完整文档工作流仍然是先做 OCR,再使用 PDF 翻译流程。
哪种 OCR 工具最适合扫描版 PDF?
这取决于文档类型。Acrobat 和 ABBYY 这类工具适合一般和复杂扫描件。Tesseract 或 OCRmyPDF 适合本地技术型工作流。对于低风险、结构简单的文件,在线 OCR 也可以考虑,但隐私和质量差异较大。
OCR 能保留格式吗?
OCR 可以创建文本层,有时也能恢复阅读顺序,但这和保留翻译后的原始版式并不是一回事。完成 OCR 后,仍然需要使用 PDF 翻译工作流,并对照原文件检查输出。
如果 OCR 质量很差怎么办?
在翻译前先改善扫描质量。如果可以就重新扫描,校正页面倾斜、提高对比度、裁掉杂乱背景、选择正确的 OCR 语言,并再次检查那些困难页面。