如何在不丢失格式的情况下翻译 PDF(2026 指南)
这是一份完整指南,教你在翻译 PDF 时保留版式、表格、图片和字体。我们测试了各种方法和工具,找出了真正有效的做法。
快速答案:根据你的 PDF 类型选择正确的工作流
如果你想在翻译 PDF 时不丢失格式,首先要检查这个 PDF 是否可以选中文本。如果可以,请使用专门的 PDF 翻译工具,例如 书译 PDF 翻译器。如果不可以,请先运行 OCR,再翻译经过 OCR 处理的 PDF。如果你需要最终文档保留分栏、表格、图片、图注、页眉、页脚和页面顺序,就不要把文本复制粘贴到通用翻译器中。
下面是实用的决策表:
| PDF type | Safest workflow | What to avoid |
|---|---|---|
| 可选中文本的 PDF | 上传到 PDF 翻译器,然后检查版式 | 复制粘贴到文本框中。 |
| 扫描版 PDF | 先做 OCR,再翻译 | 把纯图片页面上传到仅支持文本的翻译器。 |
| 学术论文 | 使用 PDF 翻译器,然后检查公式、引用、表格和图表 | 盲目转换成 DOCX。 |
| 简单的单页 PDF | 如果不在意版式,Google 翻译可能就够用了 | 以为输出结果已经可以直接用于展示。 |
| 书籍长度的 PDF | 使用带术语审校的文档工作流 | 逐页手动发送聊天提示词。 |
如果你正在比较工具,可以参考最佳 PDF 翻译器对比。如果你的文件是扫描件,直接查看扫描版 PDF OCR 指南。
为什么 PDF 在翻译时容易损坏格式
PDF 的存储方式并不像 Word 文档。DOCX 文件把段落、标题、列表和表格保存为可编辑的结构。PDF 更接近一张固定画布。文本会按照特定坐标放置在页面上,而且通常被拆分成许多小片段。PDF 看起来可能像普通文档,但在内部,它可能只是由文本块、字体引用、图片、蒙版和坐标组成。
翻译会改变文本长度,这正是版式出问题的地方。
| Source to target | Common layout effect |
|---|---|
| 英语到德语或西班牙语 | 文本通常会变长,因此文本框容易溢出。 |
| 英语到中文或日语 | 文本通常会变短,因此会出现空白区域。 |
| 英语到阿拉伯语或希伯来语 | 书写方向和对齐方式需要特殊处理。 |
| 任何含有长复合术语的语言 | 标题和表格都可能溢出。 |
| 任何扫描页面 | 在运行 OCR 之前,可能根本没有可翻译的文本。 |
一个好的 PDF 翻译工作流必须完成五项任务:
- 检测阅读顺序。
- 区分正文、页眉、图注、表格和脚注。
- 翻译连贯的文本块,而不是零散碎片。
- 把翻译后的文本重新适配回页面。
- 渲染出一个可供审阅的 PDF 输出文件。
大多数失败的工作流只做了中间那一步:提取文本并翻译。这就是为什么文字本身可能是对的,但文档却变得无法使用。
方法 1:使用专门的 PDF 翻译器
最适合:长篇 PDF、客户文档、报告、书籍、手册和学术文件。
当格式很重要时,这是最可靠的起点。专门的 PDF 翻译器就是围绕文档问题设计的:阅读顺序、版式保留、页面结构和输出审阅。
请使用以下工作流:
- 打开 PDF,确认你可以选中文本。
- 将文件上传到 PDF 翻译器。
- 选择源语言和目标语言。
- 翻译文档。
- 将输出与原文对照,重点检查包含表格、标题、图注、脚注和图表的页面。
- 如果文档涉及法律、医疗、金融、学术或正式发布用途,最后再进行人工审核。
这种方法最擅长保留的内容:
- 页面结构
- 段落分组
- 标题
- 图片
- 图注
- 不太碎片化的表格
- 常规多栏布局中的阅读顺序
仍然需要人工检查的内容:
- 密集表格
- 很小的脚注
- 公式
- 手写批注
- 非常狭窄的文本框
- 质量较差的嵌入字体
- 扫描文件中的 OCR 错误
如果你想在选择前先比较工具选项,可以参考我们的PDF 翻译器工具对比。
方法 2:使用 Google 翻译快速理解内容
最适合:不在意版式的短 PDF。
当你只是想知道文档在说什么时,Google 翻译很有用。但如果你需要一份可直接使用的译后 PDF,这并不是最稳妥的工作流。
典型工作流:
- 打开 Google 翻译。
- 选择上传文档选项。
- 上传 PDF。
- 选择源语言和目标语言。
- 翻译并检查输出。
适用场景:
- 短篇纯文本 PDF
- 个人阅读
- 快速理解内容
- 简单备忘录或信件
失效场景:
- 多栏报告
- 表格
- 图表和图注
- 未经过 OCR 的扫描版 PDF
- 页面版式很重要的文件
- 需要在很多页中保持术语一致的文档
如果你特别想使用 Google,可以阅读完整的Google 翻译 PDF 指南。其中解释了网页方法、Google Docs 变通方案,以及在信任输出之前需要检查的失败迹象。
方法 3:用 ChatGPT 处理文本,而不是最终 PDF 版式
最适合:短段落、术语表工作、语气控制和译文审校。
只要 ChatGPT 能获取文本内容,它就可以帮助翻译 PDF。尤其当你的问题不只是“这是什么意思?”,而是“这段内容在目标语言里应该怎么表达?”时,它会特别有用。
适合用 ChatGPT 的场景:
- 翻译一段难句。
- 为特定受众调整语气。
- 在翻译长文档前先建立术语表。
- 审阅译文并标出不自然的表达。
- 用另一种语言解释技术段落。
不适合用 ChatGPT 的场景:
- 重建完整 PDF 版式。
- 逐页翻译整本书。
- 保留表格、图注和页码。
- 在没有可靠 OCR 步骤的情况下处理扫描版 PDF。
- 生成无需人工审核即可分享的最终文件。
针对短段落,可以使用以下提示词:
Translate the following PDF excerpt from [source language] to [target language].
Preserve headings, numbered lists, table labels, citations, and technical terms.
Do not summarize. Do not add new information. If a phrase is ambiguous,
mark it with [review].
如果你想了解完整的 ChatGPT 工作流和提示词,请参考ChatGPT PDF 翻译指南。
方法 4:先把 PDF 转成 DOCX
最适合:你打算手动编辑或重建的文档。
当你需要可编辑文本时,把 PDF 转成 DOCX 会有帮助。但这并不意味着它在格式保留上一定更好。事实上,版式损坏往往就发生在转换这一步。
适合转换的情况:
- 你需要大量编辑译文。
- 你计划手动重建最终版式。
- PDF 很简单,基本以文本为主。
- 你需要的是工作草稿,而不是成品 PDF。
不适合转换的情况:
- 原始 PDF 有复杂表格。
- 文档采用双栏学术排版。
- 文件中有大量图注、脚注或侧栏。
- 最终输出必须逐页匹配原文。
在转换整份文档之前,先测试一页最复杂的页面。如果 DOCX 转换已经把那一页弄坏了,那么译文输出只会继承这种损坏。
方法 5:针对扫描版 PDF,先做 OCR
最适合:复印件、纯图片 PDF、旧书、扫描合同和手机扫描文档。
扫描版 PDF 里包含的是文字图片,不是文字本身。翻译工具无法可靠地翻译像素,它们需要先通过 OCR 创建文本层。
请使用以下工作流:
- 试着在 PDF 中选中文本。
- 如果无法选中,就先运行 OCR。
- 选择正确的 OCR 语言。
- 检查提取出来的文本。
- 翻译经过 OCR 处理的 PDF。
- 重点检查 OCR 敏感区域:数字、姓名、表格、脚注和低对比度文本。
最常见的错误是跳过第 4 步。OCR 错误会变成翻译错误。如果 OCR 把“rn”识别成“m”,或者把“0”识别成“O”,翻译器就会忠实地翻译错误输入。
完整的 OCR 工作流请参考翻译扫描版 PDF指南。
真正重要的前后对照检查
你不需要用同样的细致程度检查每一页。优先挑那些最容易出问题的页面。
| Page element | What to compare after translation | Failure sign |
|---|---|---|
| 标题页 | 标题、副标题、作者姓名、间距 | 文本重叠,或姓名被改动。 |
| 目录 | 标题、编号、页码引用 | 链接或数字缺失。 |
| 双栏部分 | 阅读顺序和栏边界 | 左右两栏混在一起。 |
| 表格 | 行标签、数字、单位、脚注 | 单元格错位或换行消失。 |
| 图注 | 图注是否仍然跟随对应图片 | 图注跑到了错误的图下。 |
| 脚注 | 标记和脚注文本是否对应 | 脚注被并入正文。 |
| 引用 | 作者名、年份、括号 | 引用标点被错误更改。 |
| 公式页 | 公式不变,周围文字被翻译 | 公式被改动或被错误重写。 |
对于学术文档,还可以阅读我们的学术研究论文翻译指南,其中公式、引用和双栏布局是主要风险点。
版式保留检查清单
请在上传前和下载后使用这份清单:
- 你能在源 PDF 中选中文本吗?
- 这个文件是扫描件、数字版 PDF,还是文字叠加在图像上的 PDF?
- 是否有带合并单元格的表格?
- 是否有双栏部分?
- 图注是否与图片绑定?
- 页眉和页脚是有实际意义,还是只是装饰?
- 是否有手写笔记或印章?
- 是否包含公式、引用或代码块?
- 目标语言会明显变长或变短吗?
- 输出是否需要作为成品 PDF 直接分享?
如果最后一个问题的答案是肯定的,就不要依赖纯文本翻译工作流。
常见失败模式与修复方法
| Failure | Why it happens | Fix |
|---|---|---|
| 分栏合并成一个段落 | 工具按坐标读取,而不是按逻辑顺序读取 | 使用 PDF 翻译器,或测试更好的提取工作流。 |
| 表格变成纯文本 | 工具没有检测到表格边界 | 手动检查表格,或重建关键表格。 |
| 扫描页面没有被翻译 | PDF 没有文本层 | 先运行 OCR。 |
| 文本重叠 | 目标语言长度超出原始空间 | 使用支持版式处理的工具,然后检查紧凑区域。 |
| 图注错位 | 图片和图注没有被当作一个整体处理 | 手动检查图表页面。 |
| 脚注并入正文 | 提取步骤丢失了层级结构 | 检查脚注页和引用。 |
| 姓名或数字被改动 | 翻译模型把它们当作普通文本处理 | 添加术语表,或检查高风险实体。 |
| 输出看起来没问题,但意思错了 | 版式保住了,但语言没有 | 重要部分使用双语审校。 |
大多数用户的推荐工作流
- 检查 PDF 是否可以选中文本。
- 如果是扫描件,先运行 OCR 并检查文本层。
- 将 PDF 上传到 PDF 翻译器。
- 翻译整份文档。
- 先检查最难的页面:表格、分栏、图表、脚注和引用。
- 使用 ChatGPT 或人工审校来检查措辞,而不是把它当作版式引擎。
- 将原始 PDF、翻译后的 PDF 和术语表放在一起,便于将来更新。
这个工作流让每种工具各司其职:OCR 负责读取扫描件,PDF 翻译负责保留文档结构,而人工或 LLM 审校负责优化语言表达。
FAQ
在不丢失格式的情况下翻译 PDF,最好的方法是什么?
对于可选中文本的 PDF,请使用专门的 PDF 翻译器。如果 PDF 是扫描件,请先运行 OCR,再翻译经过 OCR 处理的 PDF。如果你需要最终文件仍然是一份保留格式的 PDF,可以先从 PDF 翻译器 开始。
为什么我一翻译 PDF,格式就坏掉了?
PDF 会把文本存储在固定页面上,而且常常是以定位碎片的形式,而不是可编辑段落。翻译会改变文本长度,因此工具必须重建页面布局。基础翻译器通常只会提取并翻译文本,却无法很好地重建版式。
Google 翻译能保留 PDF 版式吗?
它适合快速理解内容,但对于保留最终版式并不可靠。表格、分栏、图片、图注和扫描页面都是常见失败点。如果你仍然想尝试这种工作流,请参考Google 翻译 PDF 指南。
ChatGPT 能翻译 PDF 并保留格式吗?
ChatGPT 可以翻译或润色文本,但不应被当作 PDF 版式保留工具。你可以用它处理短段落、术语表和审校工作。最终文档版式仍应交给 PDF 翻译器来处理。
扫描版 PDF 应该怎么处理?
先运行 OCR。然后在翻译之前检查提取出的文本。关于扫描文件的详细说明,请参考扫描版 PDF 翻译指南。
翻译前我应该先把 PDF 转成 Word 吗?
只有在你打算手动编辑或重建文档时才这样做。转换可能会在翻译开始之前就破坏页面版式。如果你想保留版式,先测试 PDF 翻译这条路线。