書譯
書譯

如何翻譯掃描版 PDF:完整 OCR + 翻譯指南

掃描版 PDF 內含的是文字圖片,而不是實際文字,這就是為什麼 Google 翻譯會原封不動地返回檔案。以下是可解決此問題的 OCR + AI 流程。

書譯團隊

翻譯指南16 min read

快速答案:掃描版 PDF 在翻譯前需要先做 OCR

要翻譯掃描版 PDF,先執行 OCR,將頁面影像轉成可選取的文字。接著使用文件翻譯工具,例如 PDF 翻譯器,來翻譯經過 OCR 處理的 PDF。若跳過 OCR,許多翻譯工具會直接返回未變更的原始檔、漏掉部分頁面,或只翻譯本來就已有文字層的部分。

請使用以下流程:

  1. 打開 PDF,試著選取一句話。
  2. 如果無法選取文字,就先執行 OCR。
  3. 在翻譯前先檢查 OCR 文字。
  4. 將經過 OCR 處理的 PDF 上傳到 PDF 翻譯器
  5. 將翻譯結果與原始掃描檔對照檢查。

如果你的 PDF 已經有可選取的文字,而問題在於保留版面格式,請參考這篇指南:如何在不破壞格式的情況下翻譯 PDF

為什麼掃描版 PDF 會在翻譯工具中失敗

掃描版 PDF 往往只是放在 PDF 容器裡的一組頁面影像。人類看得到頁面上的文字,但檔案本身可能並不包含可供軟體擷取的真正文字。

這就造成了一個很直接的問題:

檔案類型翻譯工具看到什麼會發生什麼
文字型 PDF文字加上版面資料可以立即開始翻譯。
僅含影像的掃描 PDF頁面圖片必須先做 OCR。
影像加文字層的 PDF掃描影像加上隱藏的 OCR 文字層可以翻譯,但 OCR 錯誤會影響品質。

最好用的測試其實不需要任何技術背景:

  1. 打開 PDF。
  2. 試著反白單個字詞。
  3. 複製一句話。
  4. 貼到文字編輯器裡。

如果句子能正確貼上,代表 PDF 有文字層。如果什麼都貼不上,或整頁像一張圖片一樣無法分開選取,這份 PDF 就需要 OCR。

OCR 不是可選項

OCR 是 optical character recognition(光學字元辨識)的縮寫。它會從影像中讀取文字,並建立可供機器讀取的文字。對 PDF 翻譯來說,OCR 通常會在掃描頁面上建立一層不可見的文字層。

這層文字層就是後續翻譯的來源。只要 OCR 出錯,翻譯也會跟著把錯誤帶下去。

常見的 OCR 錯誤:

OCR 錯誤翻譯風險
rn 被辨識成 m單字意思會改變。
1 被辨識成 l數字、參照或代碼會出錯。
O 被辨識成 0ID、公式和名稱可能失真。
重音符號遺失名稱與術語會變得不準確。
欄位被合併句子會以錯誤順序被翻譯。
表格儲存格逐列讀取錯誤資料標籤不再對應正確的數值。
註腳被當成正文引用與註解會被放到錯誤的語境中。

這就是為什麼 OCR 複核這一步很重要。在你抽查過擷取出的文字之前,不要直接翻譯掃描文件。

先做 OCR 的工作流程

第 1 步:辨識 PDF 類型

先試著選取文字。如果能選取,你可能不需要 OCR;如果無法選取,就把這個檔案視為純影像。

也請從視覺上檢查頁面:

  • 頁面傾斜通常表示這是掃描檔。
  • 灰色紙張紋理通常表示這是掃描檔。
  • 書脊附近有陰影通常表示這是拍攝的書頁。
  • 對比不均通常表示這是影本。
  • 搜尋找不到肉眼可見的文字,通常代表沒有文字層。

第 2 步:如果可以,先改善掃描品質

OCR 的品質取決於影像品質。如果可以重新掃描,請先重掃,再花時間修補 OCR 錯誤。

請使用這份影像品質檢查清單:

  • 使用足夠高的解析度掃描,以保留小字。
  • 保持頁面平整且端正。
  • 避免書脊附近出現陰影。
  • 裁掉桌面邊緣、手指或背景雜物。
  • 讓文字與紙面之間保持明顯對比。
  • 確保整行文字都完整可見。
  • 使用正確的頁面方向。
  • 不要把影像壓縮得太嚴重,以免字母變模糊。

對老書與影本來說,最有效的改善通常來自校正傾斜、修正對比,以及重新掃描失焦的頁面。

第 3 步:執行 OCR

依文件類型選擇 OCR 工具,而不是只看品牌。

OCR 選項最適合需注意
Adobe Acrobat OCR一般商務掃描檔與 PDF 清理使用前先確認目前方案是否包含此功能。
ABBYY FineReader複雜掃描檔、表格、分欄與困難版面仍然需要人工複核。
Tesseract or OCRmyPDF本機、技術型、可重複執行的 OCR 工作流程需要熟悉命令列工具。
線上 OCR 工具低風險、偶爾處理的檔案隱私、檔案限制與品質差異很大。
手機掃描 App快速取得新的掃描檔透視變形會影響 OCR 效果。

對於私人合約、病歷、財務文件、未出版手稿,或仍在審查中的學術工作,請優先使用本機 OCR 工作流程或可信任的環境。不要把敏感掃描檔上傳到來路不明的免費 OCR 網站。

第 4 步:檢查 OCR 文字

請在翻譯前複核,不要等到翻譯後。從幾個較難的頁面複製文字,確認它是否可讀。

建議抽查的頁面:

  • 標題頁。
  • 文字密集的正文頁。
  • 表格頁。
  • 含註腳的頁面。
  • 小字頁面。
  • 有印章、手寫內容或頁邊註記的頁面。
  • 如果文件是多語言,每種語言都至少抽查一頁。

請留意:

  • 段落遺失。
  • 欄位被合併。
  • 單字斷裂。
  • 錯誤字元。
  • 變音符號遺失。
  • 表格標籤與數值分離。
  • 頁首被插入正文。
  • 頁碼混進句子裡。

如果 OCR 品質很差,請先修正再翻譯。翻譯工具無法可靠地還原 OCR 根本沒有辨識到的原意。

第 5 步:翻譯經過 OCR 處理的 PDF

當 PDF 具備乾淨的文字層後,將它上傳到 PDF 翻譯器。此時翻譯流程就能處理文字,而不是頁面影像。

翻譯完成後,請對照:

  • 原始掃描檔
  • OCR 文字層
  • 翻譯後的 PDF

這種三方比對能幫助你判斷錯誤究竟來自 OCR 還是翻譯。如果 OCR 文字有誤,就重跑 OCR;如果 OCR 正確但翻譯錯了,就修正翻譯。

第 6 步:複核高風險內容

掃描文件裡常常正好包含最需要仔細檢查的內容:舊合約、政府表單、學術論文、操作手冊、歷史文件與書頁。

請手動複核以下項目:

  • 名稱
  • 日期
  • 數字
  • 地址
  • 產品代碼
  • 法律參照
  • 引用
  • 表格標籤
  • 單位
  • 公式
  • 圖說
  • 註腳

如果是研究或學術文件,也請閱讀學術研究論文翻譯指南,因為掃描版學術 PDF 除了 OCR 風險之外,還會額外帶來引用與版面風險。

並排失敗範例

在複核 OCR 輸出時,可用下表對照。

原始掃描檔可能顯示錯誤的 OCR 輸出為何重要
modernmodem意思完全改變。
Section 10Section IO法律或技術參照可能出錯。
20262O26日期與 ID 會變得不可靠。
patientpatlent醫療或技術術語會出錯。
兩個獨立分欄一個合併段落翻譯會以錯誤順序讀取句子。
含標籤與數值的表格列一行混在一起的文字資料不再對應正確的標籤。
註腳標記 1字母 l註釋可能會連到錯誤的句子。

如果你在 OCR 文字層中看到這些錯誤,請先修正 OCR,再開始翻譯。

該用哪一種工具?

依文件難度選擇。

文件類型建議路徑
清晰的商務掃描檔先用 Acrobat 或其他可靠 OCR 工具做 OCR,再使用 PDF 翻譯器
舊書掃描檔先校正傾斜並提升對比,仔細做 OCR,再翻譯。
學術論文掃描檔先做 OCR,複核公式、引用與表格,再連同版面一起審查翻譯結果。
手寫筆記翻譯前可能需要先手動轉寫。
簡單的個人文件若隱私風險低,可接受使用線上 OCR。
敏感文件使用本機 OCR 或可信任、可控的工作流程。

如果你想看更完整的工具比較,請參考最佳 PDF 翻譯工具指南

掃描版 PDF 的常見問題

低解析度頁面

低解析度掃描會讓字母糊成一團。OCR 可能把 rn 看成 m、把 cl 看成 d,或把標點與灰塵混淆。

解法:如果可以,請重新掃描。不行的話,就提高對比後再試一次 OCR。

傾斜或彎曲的頁面

書籍掃描在書脊附近常會出現彎曲。OCR 對彎曲文字的辨識效果很差,還可能打亂文字順序。

解法:把頁面壓平、重新掃描,或使用具備校正傾斜與去彎曲功能的 OCR 工具。

多欄排版

OCR 可能會把左欄和右欄合併成一串句子。

解法:翻譯前先檢查閱讀順序。學術論文在這裡尤其需要特別注意。

表格

表格很難處理,因為 OCR 不只要辨識文字,還要辨識結構。表格看起來可能沒問題,但文字層其實是錯的。

解法:把表格中的 OCR 文字複製出來,確認標籤仍然對應正確的數值。

手寫內容與簽名

印刷文字的 OCR 可靠度遠高於手寫辨識。手寫頁邊註記、簽名與已填寫的表單,可能會被漏掉或辨識成亂碼。

解法:翻譯前先手動轉寫重要的手寫內容。

混合語言

OCR 在知道來源語言時效果最好。如果一份掃描檔同時有英文、法文和中文,但 OCR 只設定成一種語言,就可能失敗。

解法:如果工具支援,請選擇所有相關 OCR 語言,然後逐一抽查每個語言區段。

隱私與安全檢查清單

在把掃描版 PDF 上傳到任何地方之前,先問自己:

  • 文件是否包含個人資料?
  • 是否包含醫療、法律、財務、學術或未公開內容?
  • 是否受客戶協議或學校政策約束?
  • 這份文件是否允許使用線上 OCR 服務?
  • 你是否其實需要本機工作流程?
  • 是否可以移除不需要翻譯的頁面?

掃描版 PDF 往往很敏感,因為它們常來自合約、證件、表單、研究草稿與內部檔案庫。對待 OCR 上傳決策時,應該和對待原始文件一樣謹慎。

FAQ

如何翻譯掃描版 PDF?

先執行 OCR 建立文字層,檢查 OCR 輸出,然後再用 PDF 翻譯器 翻譯經過 OCR 處理的 PDF。不要跳過 OCR 複核這一步。

為什麼 Google 翻譯沒有翻譯我的掃描版 PDF?

這份 PDF 可能是純影像。如果沒有文字層,Google 翻譯就沒有可擷取的文字。請先做 OCR,再進行翻譯。Google 專用的流程可參考這篇 Google 翻譯 PDF 指南

ChatGPT 可以翻譯掃描版 PDF 嗎?

ChatGPT 也許能協助處理單張圖片或已擷取出的文字,但多頁的掃描版 PDF 仍然需要 OCR 與複核。若要完成整份文件的流程,請先做 OCR,再使用 PDF 翻譯工作流程。

掃描版 PDF 最好的 OCR 工具是什麼?

這取決於文件本身。Acrobat 與 ABBYY 類工具適合一般與複雜掃描檔。Tesseract 或 OCRmyPDF 適合本機技術型工作流程。對低風險且簡單的檔案來說,線上 OCR 也可以,但隱私與品質差異很大。

OCR 能保留格式嗎?

OCR 可以建立文字層,有時也能還原閱讀順序,但這和保留原始翻譯版面不是同一件事。完成 OCR 後,仍要使用 PDF 翻譯工作流程,並將輸出結果與原稿對照檢查。

如果 OCR 品質很差怎麼辦?

在翻譯前先改善掃描品質。如果可以就重新掃描、校正頁面傾斜、提高對比、裁掉雜訊、選擇正確的 OCR 語言,然後再次檢查那些困難頁面。