BookTranslator
BookTranslator

スキャンされたPDFを翻訳する方法:OCR+翻訳の完全ガイド

スキャンPDFに入っているのは実際のテキストではなく、テキストの画像です。だから Google 翻訳ではそのまま返ってくることがあります。ここでは、それを解決する OCR + AI の処理フローを紹介します。

BookTranslator

BookTranslator Team

翻訳ガイド21 min read

結論:スキャンPDFは翻訳前にOCRが必要です

スキャンPDFを翻訳するには、まずOCRを実行して、ページ画像を選択可能なテキストに変換する必要があります。次に、OCR処理済みのPDFを、PDF翻訳ツール のような文書翻訳ツールで翻訳します。OCRを省略すると、多くの翻訳ツールは元のファイルをそのまま返したり、ページを取りこぼしたり、すでにテキスト層がある部分しか翻訳しなかったりします。

次の手順で進めてください。

  1. PDFを開き、文を1つ選択できるか試します。
  2. テキストを選択できない場合は、OCRを実行します。
  3. 翻訳前にOCRテキストを確認します。
  4. OCR処理済みのPDFを PDF翻訳ツール にアップロードします。
  5. 翻訳結果を元のスキャンと照らし合わせて確認します。

PDFにすでに選択可能なテキストがあり、問題がレイアウト維持である場合は、書式を崩さずにPDFを翻訳する方法 のガイドを参照してください。

スキャンPDFが翻訳ツールでうまくいかない理由

スキャンPDFは、多くの場合、PDFコンテナの中にページ画像が並んでいるだけです。人間にはページ上に文字が見えていても、ソフトウェアが抽出できる実際のテキストがファイルに含まれていないことがあります。

その結果、次のような単純な失敗が起きます。

ファイルの種類翻訳ツールから見えるもの起こること
テキストベースのPDFテキストとレイアウト情報すぐに翻訳を開始できる。
画像のみのスキャンPDFページ画像先にOCRが必要。
画像の上にテキスト層があるPDFスキャン画像+非表示のOCRテキスト層翻訳は可能だが、OCRの誤りが品質に影響する。

いちばん実用的な確認方法は、技術的なものではありません。

  1. PDFを開きます。
  2. 個々の単語をハイライトできるか試します。
  3. 文を1つコピーします。
  4. テキストエディタに貼り付けます。

文が正しく貼り付けられるなら、そのPDFにはテキスト層があります。何も貼り付けられない、またはページ全体が1枚の画像のように振る舞うなら、そのPDFにはOCRが必要です。

OCRは必須です

OCRは optical character recognition(光学式文字認識)のことです。画像から文字を読み取り、機械で扱えるテキストを作成します。PDF翻訳では、OCRは通常、スキャンページの上に見えないテキスト層を作成します。

そのテキスト層が翻訳の元データになります。OCRに誤りがあれば、翻訳もその誤りを引き継ぎます。

よくあるOCRの誤認識:

OCRの誤り翻訳上のリスク
rnm と認識される単語の意味が変わる。
1l と認識される数字、参照、コードが誤る。
O0 と認識されるID、数式、名前が壊れる可能性がある。
アクセント記号が落ちる名前や用語が不正確になる。
段組みが結合される文が間違った順序で翻訳される。
表のセルが行単位で誤って読まれるデータラベルと値の対応が崩れる。
脚注が本文として扱われる引用や注記が誤った文脈に入り込む。

だからこそ、OCR確認の工程が重要です。抽出テキストをスポットチェックする前に、スキャン文書を翻訳してはいけません。

OCR先行のワークフロー

ステップ1:PDFの種類を見極める

まずテキストを選択してみてください。選択できるならOCRは不要かもしれません。選択できないなら、そのファイルは画像のみのPDFとして扱います。

あわせてページを目視でも確認してください。

  • ページが傾いているなら、スキャンである可能性が高い。
  • 紙がグレーっぽい質感なら、スキャンである可能性が高い。
  • のど付近に影があるなら、撮影した書籍である可能性が高い。
  • コントラストが不均一なら、コピーの可能性が高い。
  • 目に見える語を検索しても見つからないなら、テキスト層がない可能性が高い。

ステップ2:可能ならスキャン品質を改善する

OCRの精度は画像品質から始まります。再スキャンできるなら、OCRエラーの修正に時間をかける前にやっておくべきです。

画像品質のチェックリスト:

  • 小さい文字も読める十分な解像度でスキャンする。
  • ページを平らにし、まっすぐに保つ。
  • のど付近の影を避ける。
  • 表の縁、指、背景の不要物をトリミングする。
  • 文字と紙面のコントラストをしっかり確保する。
  • 行全体が見える状態にする。
  • ページの向きを正しくする。
  • 文字がぼやけるほど強く画像圧縮しない。

古い本やコピー文書では、効果が大きいのは通常、傾き補正、コントラスト補正、ピンぼけしたページの再スキャンです。

ステップ3:OCRを実行する

OCRツールはブランド名ではなく、文書の内容に合わせて選んでください。

OCRの選択肢向いている用途注意点
Adobe Acrobat OCR一般的な業務スキャンやPDFのクリーンアップ当てにする前に、現在のプランで利用できるか確認する。
ABBYY FineReader複雑なスキャン、表、段組み、難しいレイアウト手動確認は依然として必要。
Tesseract または OCRmyPDFローカルで技術的・再現可能なOCRワークフローコマンドライン操作に慣れている必要がある。
オンラインOCRツールリスクの低い単発ファイルプライバシー、ファイル制限、品質はまちまち。
スマホのスキャンアプリ新しいスキャンを素早く取り込む用途遠近の歪みでOCR精度が落ちることがある。

機密契約、医療記録、財務文書、未公開の原稿、査読中の学術資料については、ローカルOCRワークフローか信頼できる環境を使ってください。機密性の高いスキャンを、出所の分からない無料OCRサイトにアップロードしてはいけません。

ステップ4:OCRテキストを確認する

確認は翻訳後ではなく、翻訳前に行ってください。難しいページをいくつか選び、テキストをコピーして読める状態かを確認します。

確認すべきページの例:

  • タイトルページ
  • 文字が密な本文ページ
  • 表があるページ
  • 脚注があるページ
  • 小さい文字があるページ
  • 印影、手書き、欄外メモがあるページ
  • 多言語文書なら各言語のページ

確認ポイント:

  • 段落が抜けていないか。
  • 段組みが結合されていないか。
  • 単語が途中で壊れていないか。
  • 文字が誤認識されていないか。
  • ダイアクリティカルマークが失われていないか。
  • 表のラベルと値が切り離されていないか。
  • ヘッダーが本文に混入していないか。
  • ページ番号が文の途中に混ざっていないか。

OCRの品質が悪いなら、翻訳前に直してください。OCRが取り込めなかった意味を、翻訳ツールが確実に復元することはできません。

ステップ5:OCR処理済みのPDFを翻訳する

PDFにきれいなテキスト層が入ったら、PDF翻訳ツール にアップロードします。これで翻訳工程は、ページ画像ではなくテキストをもとに処理できます。

翻訳後は、次の3つを見比べてください。

  • 元のスキャン
  • OCRテキスト層
  • 翻訳済みPDF

この3方向の確認によって、エラーの原因がOCRなのか翻訳なのかを切り分けやすくなります。OCRテキストが間違っているならOCRをやり直します。OCRテキストが正しいのに翻訳が間違っているなら、翻訳側を修正します。

ステップ6:リスクの高い内容を確認する

スキャン文書には、ちょうど慎重な確認が必要な内容が多く含まれます。古い契約書、官公庁のフォーム、学術論文、マニュアル、歴史資料、書籍のページなどです。

次の項目は手動で確認してください。

  • 名前
  • 日付
  • 数字
  • 住所
  • 製品コード
  • 法的参照
  • 引用
  • 表のラベル
  • 単位
  • 数式
  • キャプション
  • 脚注

研究資料や学術ファイルについては、学術研究論文を翻訳する方法 のガイドも参照してください。スキャンされた学術PDFは、OCRリスクに加えて、引用とレイアウトのリスクも重なります。

よくある失敗例の対照表

OCR出力を確認するときは、この表を使ってください。

元のスキャンで実際に表示されているもの悪いOCR出力問題になる理由
modernmodem意味がまったく変わってしまう。
Section 10Section IO法的・技術的な参照が壊れる可能性がある。
20262O26日付やIDの信頼性が落ちる。
patientpatlent医療用語や技術用語が誤る。
左右に分かれた2段組み1つに結合された段落文が誤った順序で翻訳される。
ラベルと値を含む表の1行テキストが混ざった1行データが正しいラベルに対応しなくなる。
脚注記号 1文字 l注記が誤った文に紐づく可能性がある。

OCR層でこうしたエラーが見つかったら、翻訳前にOCRを修正してください。

どのツールを使うべきか?

文書の難しさに応じて選びましょう。

文書推奨される進め方
きれいな業務スキャンAcrobat など信頼できるOCRツールでOCRを行い、その後 PDF翻訳ツール を使う。
古い本のスキャン傾き補正とコントラスト改善を行い、慎重にOCRしてから翻訳する。
学術論文のスキャンOCRを行い、数式・引用・表を確認してから、レイアウトを見直しつつ翻訳する。
手書きメモ翻訳前に手動で文字起こしが必要になることがある。
シンプルな個人文書プライバシーリスクが低ければ、オンラインOCRでも許容できることがある。
機密文書ローカルOCRまたは信頼できる管理下のワークフローを使う。

より広い比較が必要なら、おすすめのPDF翻訳ツールガイド を参照してください。

スキャンPDFでよくある問題

低解像度のページ

低解像度のスキャンでは文字がつぶれて見えます。OCRは rnmcld、あるいは句読点と紙面の汚れを取り違えることがあります。

対処法:可能なら再スキャンしてください。無理ならコントラストを上げて、もう一度OCRを試します。

傾いたページや湾曲したページ

書籍のスキャンは、のど付近でページが曲がりがちです。OCRは曲がった行をうまく読めず、テキストの順序を入れ替えてしまうことがあります。

対処法:ページを平らにして再スキャンするか、傾き補正と歪み補正に対応したOCRツールを使います。

複数段組みのレイアウト

OCRは左右の段組みを1つの文の流れに結合してしまうことがあります。

対処法:翻訳前に読み順を確認してください。学術論文では特に注意が必要です。

表が難しいのは、OCRが文字だけでなく構造も検出しなければならないからです。見た目は正しく見えても、テキスト層が間違っていることがあります。

対処法:表からOCRテキストをコピーし、ラベルと値が正しく対応しているか確認してください。

手書き文字と署名

印刷文字のOCRは、手書き認識よりもはるかに信頼性があります。欄外の手書きメモ、署名、記入済みフォームは、見落とされたり文字化けしたりすることがあります。

対処法:重要な手書き部分は、翻訳前に手動で文字起こししてください。

複数言語が混在している場合

OCRは、元言語を把握していると最もよく機能します。英語・フランス語・中国語が混在したスキャンは、OCRの言語設定が1つだけだとうまくいかないことがあります。

対処法:ツールが対応しているなら、関連するOCR言語をすべて選択し、その後、各言語セクションをスポットチェックしてください。

プライバシーとセキュリティのチェックリスト

スキャンPDFをどこかにアップロードする前に、次を確認してください。

  • 個人データが含まれていないか?
  • 医療、法務、財務、学術、未公開の資料が含まれていないか?
  • 顧客契約や学校のポリシーの対象になっていないか?
  • この文書にオンラインOCRサービスを使ってよいか?
  • 代わりにローカルワークフローが必要ではないか?
  • 翻訳不要なページを削除できないか?

スキャンPDFは、契約書、身分証、各種フォーム、研究ドラフト、社内アーカイブなどに由来することが多いため、機密性が高い場合があります。OCRへのアップロード判断は、原本の文書を扱うのと同じ基準で考えてください。

FAQ

スキャンPDFを翻訳するにはどうすればよいですか?

まずOCRを実行してテキスト層を作成し、OCR出力を確認してから、OCR処理済みのPDFを PDF翻訳ツール で翻訳します。OCR確認の工程は省略しないでください。

Google 翻訳がスキャンPDFを翻訳してくれなかったのはなぜですか?

そのPDFは画像のみの可能性があります。テキスト層がなければ、Google 翻訳には抽出できるテキストがありません。まずOCRを行い、その後で翻訳してください。Google 翻訳向けの手順は、Google 翻訳でPDFを翻訳するガイド で詳しく説明しています。

ChatGPTでスキャンPDFを翻訳できますか?

ChatGPTは個別の画像や抽出済みテキストの処理には役立つことがありますが、複数ページのスキャンPDFでは、やはりOCRと確認が必要です。文書全体のワークフローとしては、まずOCRを行い、その後でPDF翻訳の手順を使ってください。

スキャンPDFに最適なOCRツールは何ですか?

文書によります。Acrobat や ABBYY 系のツールは、一般的なスキャンや複雑なスキャンに便利です。Tesseract や OCRmyPDF は、ローカルで技術的なワークフローに向いています。オンラインOCRは、リスクの低いシンプルなファイルなら十分なこともありますが、プライバシーと品質にはばらつきがあります。

OCRで書式は保持できますか?

OCRはテキスト層を作成し、場合によっては読み順を復元できますが、それは翻訳後の元レイアウト保持と同じではありません。OCRの後は、PDF翻訳ワークフローを使い、出力を原本と照らし合わせて確認してください。

OCRの品質が悪い場合はどうすればよいですか?

翻訳前にスキャン品質を改善してください。可能なら再スキャンし、ページの傾きを補正し、コントラストを上げ、不要物をトリミングし、正しいOCR言語を選び、難しいページをもう一度確認します。