BookTranslator
BookTranslator

چگونه یک PDF اسکن‌شده را ترجمه کنیم: راهنمای کامل OCR + ترجمه

PDFهای اسکن‌شده حاوی تصویرِ متن هستند، نه خودِ متن — به همین دلیل Google Translate آن‌ها را بدون تغییر برمی‌گرداند. اینجا فرایند OCR + هوش مصنوعی‌ای را می‌بینید که این مشکل را حل می‌کند.

BookTranslator

BookTranslator Team

راهنماهای ترجمه12 min read

پاسخ سریع: یک PDF اسکن‌شده پیش از ترجمه به OCR نیاز دارد

برای ترجمه یک PDF اسکن‌شده، ابتدا OCR را اجرا کنید تا تصاویر صفحه به متنی قابل انتخاب تبدیل شوند. سپس PDF پردازش‌شده با OCR را با یک مترجم سند مانند مترجم PDF ترجمه کنید. اگر OCR را نادیده بگیرید، بسیاری از ابزارهای ترجمه فایل اصلی را بدون تغییر برمی‌گردانند، بعضی صفحه‌ها را از دست می‌دهند، یا فقط بخش‌هایی را ترجمه می‌کنند که از قبل لایه متنی دارند.

از این روند استفاده کنید:

  1. PDF را باز کنید و سعی کنید یک جمله را انتخاب کنید.
  2. اگر نمی‌توانید متن را انتخاب کنید، OCR را اجرا کنید.
  3. پیش از ترجمه، متن OCR را بازبینی کنید.
  4. PDF پردازش‌شده با OCR را در مترجم PDF بارگذاری کنید.
  5. خروجی ترجمه‌شده را با اسکن اصلی تطبیق دهید.

اگر PDF شما از قبل متن قابل انتخاب دارد و مشکل، حفظ چیدمان است، از راهنمای ترجمه PDF بدون از دست دادن قالب‌بندی استفاده کنید.

چرا PDFهای اسکن‌شده در ابزارهای ترجمه به مشکل می‌خورند

یک PDF اسکن‌شده اغلب فقط مجموعه‌ای از تصاویر صفحه درون یک فایل PDF است. صفحه ممکن است برای انسان واژه‌ها را نشان دهد، اما خود فایل شاید متن واقعی‌ای برای استخراج توسط نرم‌افزار نداشته باشد.

این موضوع یک شکست ساده ایجاد می‌کند:

نوع فایلمترجم چه می‌بیندچه اتفاقی می‌افتد
PDF متنیمتن به‌همراه داده‌های چیدمانترجمه می‌تواند فوراً شروع شود.
PDF اسکن‌شده فقط‌تصویریتصاویر صفحه‌هاابتدا OCR لازم است.
PDF با متن روی تصویرتصویر اسکن به‌همراه لایه متنی پنهان OCRترجمه ممکن است کار کند، اما خطاهای OCR روی کیفیت اثر می‌گذارند.

کاربردی‌ترین آزمون اصلاً فنی نیست:

  1. PDF را باز کنید.
  2. سعی کنید واژه‌های جداگانه را هایلایت کنید.
  3. یک جمله را کپی کنید.
  4. آن را در یک ویرایشگر متن جای‌گذاری کنید.

اگر جمله درست جای‌گذاری شد، PDF یک لایه متنی دارد. اگر چیزی جای‌گذاری نشد، یا کل صفحه مثل یک تصویر واحد رفتار کرد، PDF به OCR نیاز دارد.

OCR اختیاری نیست

OCR یعنی تشخیص نوری نویسه‌ها. متن را از روی تصویر می‌خواند و آن را به متنی قابل‌خواندن برای ماشین تبدیل می‌کند. برای ترجمه PDF، OCR معمولاً یک لایه متنی نامرئی روی صفحه اسکن‌شده ایجاد می‌کند.

آن لایه متنی منبع ترجمه می‌شود. اگر OCR اشتباه کند، ترجمه همان اشتباه‌ها را به ارث می‌برد.

اشتباه‌های رایج OCR:

خطای OCRریسک ترجمه
rn به‌صورت m خوانده می‌شودمعنای واژه‌ها عوض می‌شود.
1 به‌صورت l خوانده می‌شودعددها، ارجاع‌ها، یا کدها اشتباه می‌شوند.
O به‌صورت 0 خوانده می‌شودشناسه‌ها، فرمول‌ها، و نام‌ها ممکن است خراب شوند.
اکسان‌ها حذف می‌شوندنام‌ها و اصطلاحات نادقیق می‌شوند.
ستون‌ها با هم ادغام می‌شوندجمله‌ها با ترتیب اشتباه ترجمه می‌شوند.
سلول‌های جدول اشتباه و سطر‌به‌سطر خوانده می‌شوندبرچسب‌های داده دیگر با مقدارها جور درنمی‌آیند.
پاورقی‌ها به‌عنوان متن اصلی تشخیص داده می‌شوندارجاع‌ها و یادداشت‌ها به بافت اشتباه منتقل می‌شوند.

به همین دلیل مرحله بازبینی OCR مهم است. سند اسکن‌شده را تا وقتی متن استخراج‌شده را به‌صورت نمونه‌ای بررسی نکرده‌اید ترجمه نکنید.

روندی که باید با OCR شروع شود

مرحله 1: نوع PDF را تشخیص دهید

سعی کنید متن را انتخاب کنید. اگر انتخاب متن کار می‌کند، شاید به OCR نیاز نداشته باشید. اگر انتخاب متن کار نمی‌کند، با فایل مثل یک PDF فقط‌تصویری برخورد کنید.

همچنین صفحه را از نظر ظاهری بررسی کنید:

  • صفحه‌های کج معمولاً نشانه اسکن هستند.
  • بافت خاکستری کاغذ معمولاً نشانه اسکن است.
  • سایه‌های نزدیک به عطف معمولاً نشان می‌دهند از یک کتاب عکس گرفته شده است.
  • کنتراست ناهموار معمولاً نشانه فتوکپی است.
  • اگر جست‌وجو واژه‌های قابل‌مشاهده را پیدا نمی‌کند، احتمالاً لایه متنی وجود ندارد.

مرحله 2: اگر می‌توانید، کیفیت اسکن را بهتر کنید

کیفیت OCR از کیفیت تصویر شروع می‌شود. اگر می‌توانید دوباره اسکن کنید، این کار را قبل از صرف وقت برای تعمیر خطاهای OCR انجام دهید.

از این چک‌لیست کیفیت تصویر استفاده کنید:

  • برای متن‌های ریز، با وضوح کافی اسکن کنید.
  • صفحه‌ها را صاف و بدون کجی نگه دارید.
  • از ایجاد سایه نزدیک عطف جلوگیری کنید.
  • لبه‌های میز، انگشت‌ها، یا شلوغی پس‌زمینه را از کادر حذف کنید.
  • بین متن و صفحه کنتراست کافی ایجاد کنید.
  • مطمئن شوید کل خط دیده می‌شود.
  • جهت درست صفحه را حفظ کنید.
  • تصویر را آن‌قدر فشرده نکنید که حروف تار شوند.

برای کتاب‌های قدیمی و فتوکپی‌ها، بیشترین بهبود معمولاً از صاف‌کردن کجی صفحه، اصلاح کنتراست، و اسکن دوباره صفحه‌های خارج از فوکوس به‌دست می‌آید.

مرحله 3: OCR را اجرا کنید

ابزار OCR را بر اساس خود سند انتخاب کنید، نه بر اساس برند.

گزینه OCRبهترین کاربردنکته‌ای که باید مراقبش باشید
Adobe Acrobat OCRاسکن‌های عمومی کسب‌وکار و پاک‌سازی PDFقبل از تکیه روی آن، دسترسی پلن فعلی را بررسی کنید.
ABBYY FineReaderاسکن‌های پیچیده، جدول‌ها، ستون‌ها، و چیدمان‌های دشوارهمچنان به بازبینی دستی نیاز دارد.
Tesseract or OCRmyPDFروندهای OCR محلی، فنی، و تکرارپذیرنیازمند راحتی با ابزارهای خط فرمان است.
Online OCR toolsفایل‌های گاه‌به‌گاه و کم‌ریسکحریم خصوصی، محدودیت فایل، و کیفیت متغیر است.
Phone scanning appsثبت سریع یک اسکن جدیداعوجاج پرسپکتیو می‌تواند به OCR آسیب بزند.

برای قراردادهای خصوصی، پرونده‌های پزشکی، اسناد مالی، دست‌نوشته‌های منتشرنشده، یا کارهای دانشگاهیِ در حال داوری، بهتر است از یک روند OCR محلی یا محیطی قابل‌اعتماد استفاده کنید. اسکن‌های حساس را در سایت‌های OCR رایگان و تصادفی بارگذاری نکنید.

مرحله 4: متن OCR را بازبینی کنید

بازبینی را قبل از ترجمه انجام دهید، نه بعد از آن. متن چند صفحه دشوار را کپی کنید و ببینید آیا خواناست یا نه.

صفحه‌های نمونه برای بررسی:

  • صفحه عنوان.
  • یک صفحه متنی فشرده.
  • یک صفحه دارای جدول.
  • یک صفحه دارای پاورقی.
  • یک صفحه با متن ریز.
  • یک صفحه دارای مهر، دست‌نوشته، یا یادداشت حاشیه‌ای.
  • اگر سند چندزبانه است، یک صفحه از هر زبان.

به این موارد دقت کنید:

  • پاراگراف‌های حذف‌شده.
  • ستون‌های ادغام‌شده.
  • واژه‌های شکسته.
  • نویسه‌های اشتباه.
  • اکسان‌ها یا نشانه‌های اعرابِ از دست‌رفته.
  • برچسب‌های جدول که از مقدارها جدا شده‌اند.
  • سربرگ‌هایی که داخل متن اصلی افتاده‌اند.
  • شماره صفحه‌هایی که داخل جمله‌ها مخلوط شده‌اند.

اگر کیفیت OCR ضعیف است، قبل از ترجمه آن را اصلاح کنید. مترجم نمی‌تواند معنایی را که OCR هرگز ثبت نکرده، با اطمینان بازیابی کند.

مرحله 5: PDF پردازش‌شده با OCR را ترجمه کنید

وقتی PDF یک لایه متنی تمیز دارد، آن را در مترجم PDF بارگذاری کنید. حالا مرحله ترجمه می‌تواند به‌جای تصاویر صفحه، با متن کار کند.

بعد از ترجمه، این سه مورد را با هم مقایسه کنید:

  • اسکن اصلی
  • لایه متنی OCR
  • PDF ترجمه‌شده

این بازبینی سه‌طرفه کمک می‌کند مشخص کنید خطا از OCR آمده یا از ترجمه. اگر متن OCR اشتباه است، OCR را دوباره اجرا کنید. اگر متن OCR درست است اما ترجمه غلط است، ترجمه را اصلاح کنید.

مرحله 6: محتوای پرریسک را بازبینی کنید

اسناد اسکن‌شده اغلب دقیقاً همان محتوایی را در خود دارند که نیازمند بازبینی دقیق است: قراردادهای قدیمی، فرم‌های دولتی، مقاله‌های دانشگاهی، راهنماها، اسناد تاریخی، و صفحه‌های کتاب.

این موارد را دستی بازبینی کنید:

  • نام‌ها
  • تاریخ‌ها
  • عددها
  • نشانی‌ها
  • کدهای محصول
  • ارجاع‌های حقوقی
  • استنادها
  • برچسب‌های جدول
  • واحدها
  • معادله‌ها
  • زیرنویس‌ها
  • پاورقی‌ها

برای فایل‌های پژوهشی و دانشگاهی، همچنین راهنمای ترجمه مقاله‌های پژوهشی دانشگاهی را بخوانید، چون PDFهای دانشگاهیِ اسکن‌شده علاوه بر ریسک OCR، ریسک‌های مربوط به استناد و چیدمان هم دارند.

نمونه‌های خطا در مقایسه کنار هم

هنگام بازبینی خروجی OCR از این جدول استفاده کنید.

اسکن اصلی احتمالاً این را نشان می‌دهدخروجی بد OCRچرا مهم است
modernmodemمعنا کاملاً عوض می‌شود.
Section 10Section IOارجاع‌های حقوقی یا فنی ممکن است خراب شوند.
20262O26تاریخ‌ها و شناسه‌ها غیرقابل‌اعتماد می‌شوند.
patientpatlentاصطلاح‌های پزشکی یا فنی اشتباه می‌شوند.
دو ستون جدایک پاراگراف ادغام‌شدهجمله‌ها با ترتیب اشتباه ترجمه می‌شوند.
یک سطر جدول با برچسب و مقداریک خط واحد از متن مخلوطدیگر داده به برچسب درست وصل نمی‌شود.
نشان پاورقی 1حرف lممکن است یادداشت‌ها به جمله اشتباه وصل شوند.

اگر این خطاها را در لایه OCR می‌بینید، قبل از ترجمه OCR را اصلاح کنید.

از کدام ابزار باید استفاده کنید؟

بر اساس میزان دشواری سند انتخاب کنید.

نوع سندمسیر پیشنهادی
اسکن تمیز کسب‌وکاریOCR در Acrobat یا یک ابزار OCR قابل‌اعتماد دیگر، سپس مترجم PDF.
اسکن کتاب قدیمیکجی صفحه را اصلاح کنید و کنتراست را بهتر کنید، با دقت OCR بگیرید، سپس ترجمه کنید.
اسکن مقاله علمیOCR بگیرید، معادله‌ها/استنادها/جدول‌ها را بازبینی کنید، سپس با بازبینی چیدمان ترجمه کنید.
یادداشت‌های دست‌نویسممکن است قبل از ترجمه به رونویسی دستی نیاز باشد.
سند شخصی سادهاگر ریسک حریم خصوصی پایین است، OCR آنلاین ممکن است قابل‌قبول باشد.
سند حساساز OCR محلی یا یک روند کنترل‌شده و قابل‌اعتماد استفاده کنید.

اگر مقایسه گسترده‌تر ابزارها را می‌خواهید، راهنمای بهترین ابزارهای ترجمه PDF را ببینید.

مشکلات رایج PDFهای اسکن‌شده

صفحه‌های کم‌وضوح

اسکن‌های کم‌وضوح حروف را تار و به‌هم‌چسبیده می‌کنند. OCR ممکن است rn و m، cl و d، یا نشانه‌گذاری و گردوغبار را با هم اشتباه بگیرد.

راه‌حل: اگر می‌توانید دوباره اسکن کنید. اگر نه، کنتراست را بیشتر کنید و OCR را دوباره امتحان کنید.

صفحه‌های کج یا خمیده

اسکن کتاب‌ها اغلب نزدیک عطف خم می‌شود. OCR خطوط خمیده را بد می‌خواند و ممکن است ترتیب متن را به هم بزند.

راه‌حل: صفحه را صاف کنید، دوباره اسکن بگیرید، یا از ابزار OCRی استفاده کنید که کجی و خمیدگی صفحه را اصلاح می‌کند.

چیدمان چندستونه

OCR ممکن است ستون‌های چپ و راست را به یک جریان واحد از جمله‌ها ادغام کند.

راه‌حل: پیش از ترجمه، ترتیب خواندن را بررسی کنید. مقاله‌های دانشگاهی در این بخش به توجه ویژه نیاز دارند.

جدول‌ها

جدول‌ها دشوارند، چون OCR باید هم متن و هم ساختار را تشخیص دهد. ممکن است یک جدول از نظر بصری درست به نظر برسد، اما لایه متنی آن اشتباه باشد.

راه‌حل: متن OCR جدول را کپی کنید و مطمئن شوید برچسب‌ها هنوز با مقدارها جور هستند.

دست‌خط و امضاها

OCR برای متن چاپی بسیار قابل‌اعتمادتر از تشخیص دست‌خط است. یادداشت‌های حاشیه‌ایِ دست‌نویس، امضاها، و فرم‌های پرشده ممکن است جا بیفتند یا به‌هم‌ریخته ثبت شوند.

راه‌حل: دست‌خط مهم را قبل از ترجمه به‌صورت دستی رونویسی کنید.

زبان‌های ترکیبی

OCR وقتی بهترین عملکرد را دارد که زبان مبدأ را بشناسد. یک اسکن شامل انگلیسی، فرانسوی، و چینی ممکن است خراب شود اگر OCR فقط روی یک زبان تنظیم شده باشد.

راه‌حل: اگر ابزار پشتیبانی می‌کند، همه زبان‌های مرتبط را برای OCR انتخاب کنید، سپس هر بخش زبانی را به‌صورت نمونه‌ای بررسی کنید.

چک‌لیست حریم خصوصی و امنیت

قبل از اینکه یک PDF اسکن‌شده را هر جایی بارگذاری کنید، از خودتان بپرسید:

  • آیا سند شامل داده شخصی است؟
  • آیا محتوای پزشکی، حقوقی، مالی، دانشگاهی، یا منتشرنشده دارد؟
  • آیا تحت پوشش قرارداد مشتری یا سیاست دانشگاه است؟
  • آیا استفاده از سرویس OCR آنلاین برای این سند مجاز است؟
  • آیا به‌جای آن به یک روند محلی نیاز دارید؟
  • آیا می‌توانید صفحه‌هایی را که به ترجمه نیاز ندارند حذف کنید؟

PDFهای اسکن‌شده اغلب حساس‌اند، چون از قراردادها، مدارک شناسایی، فرم‌ها، پیش‌نویس‌های پژوهشی، و آرشیوهای داخلی می‌آیند. درباره بارگذاری برای OCR همان‌طور تصمیم بگیرید که درباره خودِ سند اصلی تصمیم می‌گیرید.

پرسش‌های متداول

چطور یک PDF اسکن‌شده را ترجمه کنم؟

ابتدا OCR را اجرا کنید تا یک لایه متنی ساخته شود، خروجی OCR را بازبینی کنید، سپس PDF پردازش‌شده با OCR را با مترجم PDF ترجمه کنید. مرحله بازبینی OCR را حذف نکنید.

چرا Google Translate PDF اسکن‌شده من را ترجمه نکرد؟

ممکن است PDF فقط‌تصویری باشد. اگر لایه متنی وجود نداشته باشد، Google Translate متنی برای استخراج ندارد. ابتدا OCR را اجرا کنید، بعد ترجمه کنید. روند مخصوص Google در راهنمای Google Translate برای PDF پوشش داده شده است.

آیا ChatGPT می‌تواند یک PDF اسکن‌شده را ترجمه کند؟

ChatGPT ممکن است برای تصویرهای جداگانه یا متن استخراج‌شده کمک کند، اما یک PDF اسکن‌شده چندصفحه‌ای همچنان به OCR و بازبینی نیاز دارد. برای روند کامل سند، اول OCR و بعد یک روند ترجمه PDF را به کار ببرید.

بهترین ابزار OCR برای PDFهای اسکن‌شده چیست؟

به خودِ سند بستگی دارد. ابزارهایی مثل Acrobat و ABBYY برای اسکن‌های عمومی و پیچیده مفیدند. Tesseract یا OCRmyPDF برای روندهای فنی و محلی مفید است. OCR آنلاین برای فایل‌های ساده و کم‌ریسک می‌تواند کافی باشد، اما حریم خصوصی و کیفیت متغیر است.

آیا OCR می‌تواند قالب‌بندی را حفظ کند؟

OCR می‌تواند یک لایه متنی بسازد و گاهی ترتیب خواندن را بازیابی کند، اما این با حفظ چیدمان ترجمه‌شده اصلی یکی نیست. بعد از OCR، از یک روند ترجمه PDF استفاده کنید و خروجی را با نسخه اصلی تطبیق دهید.

اگر کیفیت OCR بد باشد چه باید کرد؟

قبل از ترجمه، کیفیت اسکن را بهتر کنید. اگر می‌توانید دوباره اسکن بگیرید، کجی صفحه را اصلاح کنید، کنتراست را افزایش دهید، شلوغی کادر را برش دهید، زبان درست OCR را انتخاب کنید، و صفحه‌های دشوار را دوباره بازبینی کنید.