书译
书译

如何在不丢失格式的情况下翻译 PDF(2026 指南)

这是一份完整指南,教你在翻译 PDF 时保留版式、表格、图片和字体。我们测试了各种方法和工具,找出了真正有效的做法。

书译团队

翻译指南18 min read

快速答案:根据你的 PDF 类型选择正确的工作流

如果你想在翻译 PDF 时不丢失格式,首先要检查这个 PDF 是否可以选中文本。如果可以,请使用专门的 PDF 翻译工具,例如 书译 PDF 翻译器。如果不可以,请先运行 OCR,再翻译经过 OCR 处理的 PDF。如果你需要最终文档保留分栏、表格、图片、图注、页眉、页脚和页面顺序,就不要把文本复制粘贴到通用翻译器中。

下面是实用的决策表:

PDF typeSafest workflowWhat to avoid
可选中文本的 PDF上传到 PDF 翻译器,然后检查版式复制粘贴到文本框中。
扫描版 PDF先做 OCR,再翻译把纯图片页面上传到仅支持文本的翻译器。
学术论文使用 PDF 翻译器,然后检查公式、引用、表格和图表盲目转换成 DOCX。
简单的单页 PDF如果不在意版式,Google 翻译可能就够用了以为输出结果已经可以直接用于展示。
书籍长度的 PDF使用带术语审校的文档工作流逐页手动发送聊天提示词。

如果你正在比较工具,可以参考最佳 PDF 翻译器对比。如果你的文件是扫描件,直接查看扫描版 PDF OCR 指南

为什么 PDF 在翻译时容易损坏格式

PDF 的存储方式并不像 Word 文档。DOCX 文件把段落、标题、列表和表格保存为可编辑的结构。PDF 更接近一张固定画布。文本会按照特定坐标放置在页面上,而且通常被拆分成许多小片段。PDF 看起来可能像普通文档,但在内部,它可能只是由文本块、字体引用、图片、蒙版和坐标组成。

翻译会改变文本长度,这正是版式出问题的地方。

Source to targetCommon layout effect
英语到德语或西班牙语文本通常会变长,因此文本框容易溢出。
英语到中文或日语文本通常会变短,因此会出现空白区域。
英语到阿拉伯语或希伯来语书写方向和对齐方式需要特殊处理。
任何含有长复合术语的语言标题和表格都可能溢出。
任何扫描页面在运行 OCR 之前,可能根本没有可翻译的文本。

一个好的 PDF 翻译工作流必须完成五项任务:

  1. 检测阅读顺序。
  2. 区分正文、页眉、图注、表格和脚注。
  3. 翻译连贯的文本块,而不是零散碎片。
  4. 把翻译后的文本重新适配回页面。
  5. 渲染出一个可供审阅的 PDF 输出文件。

大多数失败的工作流只做了中间那一步:提取文本并翻译。这就是为什么文字本身可能是对的,但文档却变得无法使用。

方法 1:使用专门的 PDF 翻译器

最适合:长篇 PDF、客户文档、报告、书籍、手册和学术文件。

当格式很重要时,这是最可靠的起点。专门的 PDF 翻译器就是围绕文档问题设计的:阅读顺序、版式保留、页面结构和输出审阅。

请使用以下工作流:

  1. 打开 PDF,确认你可以选中文本。
  2. 将文件上传到 PDF 翻译器
  3. 选择源语言和目标语言。
  4. 翻译文档。
  5. 将输出与原文对照,重点检查包含表格、标题、图注、脚注和图表的页面。
  6. 如果文档涉及法律、医疗、金融、学术或正式发布用途,最后再进行人工审核。

这种方法最擅长保留的内容:

  • 页面结构
  • 段落分组
  • 标题
  • 图片
  • 图注
  • 不太碎片化的表格
  • 常规多栏布局中的阅读顺序

仍然需要人工检查的内容:

  • 密集表格
  • 很小的脚注
  • 公式
  • 手写批注
  • 非常狭窄的文本框
  • 质量较差的嵌入字体
  • 扫描文件中的 OCR 错误

如果你想在选择前先比较工具选项,可以参考我们的PDF 翻译器工具对比

方法 2:使用 Google 翻译快速理解内容

最适合:不在意版式的短 PDF。

当你只是想知道文档在说什么时,Google 翻译很有用。但如果你需要一份可直接使用的译后 PDF,这并不是最稳妥的工作流。

典型工作流:

  1. 打开 Google 翻译。
  2. 选择上传文档选项。
  3. 上传 PDF。
  4. 选择源语言和目标语言。
  5. 翻译并检查输出。

适用场景:

  • 短篇纯文本 PDF
  • 个人阅读
  • 快速理解内容
  • 简单备忘录或信件

失效场景:

  • 多栏报告
  • 表格
  • 图表和图注
  • 未经过 OCR 的扫描版 PDF
  • 页面版式很重要的文件
  • 需要在很多页中保持术语一致的文档

如果你特别想使用 Google,可以阅读完整的Google 翻译 PDF 指南。其中解释了网页方法、Google Docs 变通方案,以及在信任输出之前需要检查的失败迹象。

方法 3:用 ChatGPT 处理文本,而不是最终 PDF 版式

最适合:短段落、术语表工作、语气控制和译文审校。

只要 ChatGPT 能获取文本内容,它就可以帮助翻译 PDF。尤其当你的问题不只是“这是什么意思?”,而是“这段内容在目标语言里应该怎么表达?”时,它会特别有用。

适合用 ChatGPT 的场景:

  • 翻译一段难句。
  • 为特定受众调整语气。
  • 在翻译长文档前先建立术语表。
  • 审阅译文并标出不自然的表达。
  • 用另一种语言解释技术段落。

不适合用 ChatGPT 的场景:

  • 重建完整 PDF 版式。
  • 逐页翻译整本书。
  • 保留表格、图注和页码。
  • 在没有可靠 OCR 步骤的情况下处理扫描版 PDF。
  • 生成无需人工审核即可分享的最终文件。

针对短段落,可以使用以下提示词:

Translate the following PDF excerpt from [source language] to [target language].
Preserve headings, numbered lists, table labels, citations, and technical terms.
Do not summarize. Do not add new information. If a phrase is ambiguous,
mark it with [review].

如果你想了解完整的 ChatGPT 工作流和提示词,请参考ChatGPT PDF 翻译指南

方法 4:先把 PDF 转成 DOCX

最适合:你打算手动编辑或重建的文档。

当你需要可编辑文本时,把 PDF 转成 DOCX 会有帮助。但这并不意味着它在格式保留上一定更好。事实上,版式损坏往往就发生在转换这一步。

适合转换的情况:

  • 你需要大量编辑译文。
  • 你计划手动重建最终版式。
  • PDF 很简单,基本以文本为主。
  • 你需要的是工作草稿,而不是成品 PDF。

不适合转换的情况:

  • 原始 PDF 有复杂表格。
  • 文档采用双栏学术排版。
  • 文件中有大量图注、脚注或侧栏。
  • 最终输出必须逐页匹配原文。

在转换整份文档之前,先测试一页最复杂的页面。如果 DOCX 转换已经把那一页弄坏了,那么译文输出只会继承这种损坏。

方法 5:针对扫描版 PDF,先做 OCR

最适合:复印件、纯图片 PDF、旧书、扫描合同和手机扫描文档。

扫描版 PDF 里包含的是文字图片,不是文字本身。翻译工具无法可靠地翻译像素,它们需要先通过 OCR 创建文本层。

请使用以下工作流:

  1. 试着在 PDF 中选中文本。
  2. 如果无法选中,就先运行 OCR。
  3. 选择正确的 OCR 语言。
  4. 检查提取出来的文本。
  5. 翻译经过 OCR 处理的 PDF。
  6. 重点检查 OCR 敏感区域:数字、姓名、表格、脚注和低对比度文本。

最常见的错误是跳过第 4 步。OCR 错误会变成翻译错误。如果 OCR 把“rn”识别成“m”,或者把“0”识别成“O”,翻译器就会忠实地翻译错误输入。

完整的 OCR 工作流请参考翻译扫描版 PDF指南。

真正重要的前后对照检查

你不需要用同样的细致程度检查每一页。优先挑那些最容易出问题的页面。

Page elementWhat to compare after translationFailure sign
标题页标题、副标题、作者姓名、间距文本重叠,或姓名被改动。
目录标题、编号、页码引用链接或数字缺失。
双栏部分阅读顺序和栏边界左右两栏混在一起。
表格行标签、数字、单位、脚注单元格错位或换行消失。
图注图注是否仍然跟随对应图片图注跑到了错误的图下。
脚注标记和脚注文本是否对应脚注被并入正文。
引用作者名、年份、括号引用标点被错误更改。
公式页公式不变,周围文字被翻译公式被改动或被错误重写。

对于学术文档,还可以阅读我们的学术研究论文翻译指南,其中公式、引用和双栏布局是主要风险点。

版式保留检查清单

请在上传前和下载后使用这份清单:

  • 你能在源 PDF 中选中文本吗?
  • 这个文件是扫描件、数字版 PDF,还是文字叠加在图像上的 PDF?
  • 是否有带合并单元格的表格?
  • 是否有双栏部分?
  • 图注是否与图片绑定?
  • 页眉和页脚是有实际意义,还是只是装饰?
  • 是否有手写笔记或印章?
  • 是否包含公式、引用或代码块?
  • 目标语言会明显变长或变短吗?
  • 输出是否需要作为成品 PDF 直接分享?

如果最后一个问题的答案是肯定的,就不要依赖纯文本翻译工作流。

常见失败模式与修复方法

FailureWhy it happensFix
分栏合并成一个段落工具按坐标读取,而不是按逻辑顺序读取使用 PDF 翻译器,或测试更好的提取工作流。
表格变成纯文本工具没有检测到表格边界手动检查表格,或重建关键表格。
扫描页面没有被翻译PDF 没有文本层先运行 OCR。
文本重叠目标语言长度超出原始空间使用支持版式处理的工具,然后检查紧凑区域。
图注错位图片和图注没有被当作一个整体处理手动检查图表页面。
脚注并入正文提取步骤丢失了层级结构检查脚注页和引用。
姓名或数字被改动翻译模型把它们当作普通文本处理添加术语表,或检查高风险实体。
输出看起来没问题,但意思错了版式保住了,但语言没有重要部分使用双语审校。

大多数用户的推荐工作流

  1. 检查 PDF 是否可以选中文本。
  2. 如果是扫描件,先运行 OCR 并检查文本层。
  3. 将 PDF 上传到 PDF 翻译器
  4. 翻译整份文档。
  5. 先检查最难的页面:表格、分栏、图表、脚注和引用。
  6. 使用 ChatGPT 或人工审校来检查措辞,而不是把它当作版式引擎。
  7. 将原始 PDF、翻译后的 PDF 和术语表放在一起,便于将来更新。

这个工作流让每种工具各司其职:OCR 负责读取扫描件,PDF 翻译负责保留文档结构,而人工或 LLM 审校负责优化语言表达。

FAQ

在不丢失格式的情况下翻译 PDF,最好的方法是什么?

对于可选中文本的 PDF,请使用专门的 PDF 翻译器。如果 PDF 是扫描件,请先运行 OCR,再翻译经过 OCR 处理的 PDF。如果你需要最终文件仍然是一份保留格式的 PDF,可以先从 PDF 翻译器 开始。

为什么我一翻译 PDF,格式就坏掉了?

PDF 会把文本存储在固定页面上,而且常常是以定位碎片的形式,而不是可编辑段落。翻译会改变文本长度,因此工具必须重建页面布局。基础翻译器通常只会提取并翻译文本,却无法很好地重建版式。

Google 翻译能保留 PDF 版式吗?

它适合快速理解内容,但对于保留最终版式并不可靠。表格、分栏、图片、图注和扫描页面都是常见失败点。如果你仍然想尝试这种工作流,请参考Google 翻译 PDF 指南

ChatGPT 能翻译 PDF 并保留格式吗?

ChatGPT 可以翻译或润色文本,但不应被当作 PDF 版式保留工具。你可以用它处理短段落、术语表和审校工作。最终文档版式仍应交给 PDF 翻译器来处理。

扫描版 PDF 应该怎么处理?

先运行 OCR。然后在翻译之前检查提取出的文本。关于扫描文件的详细说明,请参考扫描版 PDF 翻译指南

翻译前我应该先把 PDF 转成 Word 吗?

只有在你打算手动编辑或重建文档时才这样做。转换可能会在翻译开始之前就破坏页面版式。如果你想保留版式,先测试 PDF 翻译这条路线。