چگونه یک PDF اسکن‌شده را ترجمه کنیم: راهنمای جامع ترجمه با OCR

PDFهای اسکن‌شده شامل تصویر متن هستند، نه متن واقعی — به همین دلیل است که گوگل ترنسلیت آن‌ها را بدون تغییر برمی‌گرداند. در اینجا خط لوله هوش مصنوعی OCR که این مشکل را حل می‌کند، معرفی شده است.

BookTranslator Team

ترجمه PDF

۹ اسفند ۱۴۰۴12 min read

پاسخ سریع: یک PDF اسکن‌شده قبل از ترجمه به OCR نیاز دارد

برای ترجمه یک PDF اسکن‌شده، ابتدا OCR را اجرا کنید تا تصاویر صفحه به متن قابل انتخاب تبدیل شوند. سپس PDF پردازش‌شده با OCR را با یک مترجم اسناد مانند مترجم PDF ترجمه کنید. اگر OCR را رد کنید، بسیاری از ابزارهای ترجمه، فایل اصلی را بدون تغییر برمی‌گردانند، صفحات را از دست می‌دهند، یا فقط بخش‌هایی را که از قبل دارای لایه متن هستند ترجمه می‌کنند.

از این چرخه کاری استفاده کنید:

فایل PDF را باز کنید و سعی کنید یک جمله را انتخاب کنید.
اگر نمی‌توانید متن را انتخاب کنید، OCR را اجرا کنید.
متن OCR را قبل از ترجمه بررسی کنید.
PDF پردازش‌شده با OCR را در مترجم PDF آپلود کنید.
خروجی ترجمه شده را با اسکن اصلی مقایسه کنید.

اگر PDF شما از قبل دارای متن قابل انتخاب است و مشکل حفظ قالب‌بندی است، از راهنمای ترجمه PDF بدون از دست دادن قالب‌بندی استفاده کنید.

چرا PDFهای اسکن‌شده در ابزارهای ترجمه با شکست مواجه می‌شوند

یک PDF اسکن‌شده اغلب فقط مجموعه‌ای از تصاویر صفحه در داخل یک کانتینر PDF است. ممکن است صفحه کلماتی را به انسان نشان دهد، اما فایل ممکن است حاوی متن واقعی برای استخراج توسط نرم‌افزار نباشد.

این امر یک شکست ساده ایجاد می‌کند:

نوع فایل	آنچه مترجم می‌بیند	چه اتفاقی می‌افتد
PDF مبتنی بر متن	متن به‌اضافه داده‌های قالب‌بندی	ترجمه می‌تواند بلافاصله شروع شود.
PDF اسکن‌شده فقط تصویر	تصاویر صفحات	ابتدا OCR لازم است.
PDF متن روی تصویر	تصویر اسکن به‌اضافه لایه متن پنهان OCR	ترجمه می‌تواند کار کند، اما خطاهای OCR بر کیفیت تأثیر می‌گذارند.

مفیدترین آزمایش فنی نیست:

PDF را باز کنید.
سعی کنید کلمات فردی را برجسته کنید.
یک جمله را کپی کنید.
آن را در یک ویرایشگر متن قرار دهید.

اگر جمله به درستی جای‌گذاری شود، PDF دارای لایه متن است. اگر چیزی جای‌گذاری نشد، یا کل صفحه مانند یک تصویر عمل کرد، PDF به OCR نیاز دارد.

OCR اختیاری نیست

OCR مخفف تشخیص نوری کاراکترها است. این فناوری متن را از یک تصویر می‌خواند و متن قابل خواندن توسط ماشین ایجاد می‌کند. برای ترجمه PDF، OCR معمولاً یک لایه متن نامرئی روی صفحه اسکن‌شده ایجاد می‌کند.

آن لایه متنی به عنوان منبع ترجمه عمل می‌کند. اگر OCR اشتباهی مرتکب شود، ترجمه آن اشتباهات را به ارث می‌برد.

خطاهای رایج OCR:

خطای OCR	خطر ترجمه
خوانده شدن `rn` به عنوان `m`	معنای کلمات تغییر می‌کند.
خوانده شدن `1` به عنوان `l`	اعداد، ارجاعات یا کدها اشتباه می‌شوند.
خوانده شدن `O` به عنوان `0`	شناسه‌ها، فرمول‌ها و نام‌ها ممکن است خراب شوند.
حذف اعراب‌ها و علائم تلفظی	نام‌ها و اصطلاحات نادرست می‌شوند.
ادغام ستون‌ها	جملات به ترتیب اشتباه ترجمه می‌شوند.
خوانده شدن سلول‌های جدول به صورت سطر به سطر به شکل نادرست	برچسب‌های داده دیگر با مقادیر مطابقت ندارند.
در نظر گرفتن پانویس‌ها به عنوان متن اصلی	استنادها و یادداشت‌ها به زمینه اشتباهی منتقل می‌شوند.

به همین دلیل است که مرحله بررسی OCR اهمیت دارد. تا زمانی که متن استخراج‌شده را به صورت تصادفی بررسی نکرده‌اید، یک سند اسکن‌شده را ترجمه نکنید.

چرخه کاری مبتنی بر اولویت OCR

گام ۱: شناسایی نوع PDF

سعی کنید متن را انتخاب کنید. اگر انتخاب کار می‌کند، ممکن است به OCR نیاز نداشته باشید. اگر انتخاب انجام نشد، فایل را به عنوان فقط تصویر در نظر بگیرید.

همچنین صفحه را به صورت بصری بررسی کنید:

صفحات کج نشان‌دهنده اسکن هستند.
بافت کاغذ خاکستری نشان‌دهنده اسکن است.
سایه‌های نزدیک به عطف نشان‌دهنده کتاب عکس‌برداری‌شده است.
کنتراست ناهموار نشان‌دهنده کپی است.
عدم یافتن کلمات قابل مشاهده توسط جستجو نشان‌دهنده عدم وجود لایه متن است.

گام ۲: بهبود اسکن در صورت امکان

کیفیت OCR با کیفیت تصویر شروع می‌شود. اگر می‌توانید مجدداً اسکن کنید، قبل از صرف وقت برای رفع خطاهای OCR این کار را انجام دهید.

از این چک‌لیست کیفیت تصویر استفاده کنید:

با وضوح کافی برای متن‌های کوچک اسکن کنید.
صفحات را صاف و مستقیم نگه دارید.
از ایجاد سایه در نزدیکی عطف خودداری کنید.
لبه‌های جدول، انگشتان یا شلوغی‌های پس‌زمینه را برش دهید.
از کنتراست قوی بین متن و صفحه استفاده کنید.
کل خط را قابل مشاهده نگه دارید.
از جهت‌گیری صحیح صفحه استفاده کنید.
تصویر را به قدری فشرده نکنید که حروف تار شوند.

برای کتاب‌های قدیمی و کپی‌ها، بیشترین دستاوردها معمولاً از صاف کردن، اصلاح کنتراست و اسکن مجدد صفحاتی که خارج از فوکوس هستند حاصل می‌شود.

گام ۳: اجرای OCR

یک ابزار OCR را بر اساس سند انتخاب کنید، نه نام تجاری.

گزینه OCR	بهترین برای	مواردی که باید مراقب آن‌ها بود
Adobe Acrobat OCR	اسکن‌های تجاری عمومی و پاک‌سازی PDF	قبل از اعتماد به آن، دسترسی به طرح فعلی را بررسی کنید.
ABBYY FineReader	اسکن‌های پیچیده، جدول‌ها، ستون‌ها و چیدمان‌های دشوار	همچنان به بررسی دستی نیاز دارد.
Tesseract یا OCRmyPDF	چرخه‌های کاری محلی، فنی و قابل تکرار	به آشنایی با ابزارهای خط فرمان نیاز دارد.
ابزارهای آنلاین OCR	فایل‌های گاه‌به‌گاه با خطر کم	حریم خصوصی، محدودیت‌های فایل و کیفیت متفاوت است.
برنامه‌های اسکن گوشی	ثبت سریع یک اسکن جدید	اعوجاج پرسپکتیو می‌تواند به OCR آسیب برساند.

برای قراردادهای خصوصی، سوابق پزشکی، اسناد مالی، دست‌نویس‌های منتشرنشده، یا کارهای دانشگاهی تحت بررسی، یک چرخه کاری محلی OCR یا یک محیط مطمئن را ترجیح دهید. اسناد حساس را در سایت‌های تصادفی رایگان OCR آپلود نکنید.

گام ۴: بررسی متن OCR

قبل از ترجمه بررسی کنید، نه بعد از آن. متن را از چندین صفحه دشوار کپی کنید و بررسی کنید که آیا قابل خواندن است یا خیر.

صفحات نمونه برای بررسی:

صفحه عنوان.
یک صفحه متنی متراکم.
صفحه جدول.
صفحه‌ای با پانویس.
صفحه‌ای با متن کوچک.
صفحه‌ای با مهر، دست‌نویس یا یادداشت‌های حاشیه‌ای.
یک صفحه به ازای هر زبان اگر سند چندزبانه باشد.

به دنبال موارد زیر باشید:

پاراگراف‌های گم‌شده.
ستون‌های ادغام‌شده.
کلمات شکسته.
کاراکترهای اشتباه.
علائم تلفظی ازدست‌رفته.
برچسب‌های جدول جدا شده از مقادیر.
سرصفحه‌های درج شده در متن اصلی.
شماره صفحات مخلوط شده در جملات.

اگر کیفیت OCR پایین است، آن را قبل از ترجمه اصلاح کنید. یک مترجم نمی‌تواند معانی‌ای را که OCR هرگز ثبت نکرده است به طور قابل اعتماد بازیابی کند.

گام ۵: ترجمه PDF پردازش‌شده با OCR

هنگامی که PDF دارای یک لایه متنی تمیز شد، آن را در مترجم PDF آپلود کنید. اکنون مرحله ترجمه می‌تواند به‌جای تصاویر صفحه، با متن کار کند.

پس از ترجمه، موارد زیر را مقایسه کنید:

اسکن اصلی
لایه متن OCR
PDF ترجمه شده

این بررسی سه‌جانبه به شما کمک می‌کند تشخیص دهید که آیا یک خطا از OCR ناشی شده است یا ترجمه. اگر متن OCR اشتباه است، OCR را دوباره اجرا کنید. اگر متن OCR درست است اما ترجمه اشتباه است، ترجمه را اصلاح کنید.

گام ۶: بررسی محتوای پرخطر

اسناد اسکن‌شده اغلب دقیقاً حاوی محتوایی هستند که نیاز به بررسی دقیق دارند: قراردادهای قدیمی، فرم‌های دولتی، مقالات دانشگاهی، کتابچه‌های راهنما، اسناد تاریخی و صفحات کتاب.

این موارد را به صورت دستی بررسی کنید:

نام‌ها
تاریخ‌ها
اعداد
آدرس‌ها
کدهای محصول
ارجاعات حقوقی
استنادها
برچسب‌های جدول
واحدها
معادلات
زیرنویس‌ها
پانویس‌ها

برای فایل‌های پژوهشی و دانشگاهی، راهنمای ترجمه مقالات پژوهشی دانشگاهی را نیز مطالعه کنید، زیرا PDFهای دانشگاهی اسکن‌شده علاوه بر خطر OCR، خطرات استناد و قالب‌بندی را نیز اضافه می‌کنند.

نمونه‌های شکست جانبی

هنگام بررسی خروجی OCR از این جدول استفاده کنید.

اسکن اصلی احتمالاً نشان می‌دهد	خروجی بد OCR	چرا اهمیت دارد
`modern`	`modem`	معنا به طور کامل تغییر می‌کند.
`Section 10`	`Section IO`	ارجاعات حقوقی یا فنی ممکن است خراب شوند.
`2026`	`2O26`	تاریخ‌ها و شناسه‌ها غیرقابل اعتماد می‌شوند.
`patient`	`patlent`	اصطلاحات پزشکی یا فنی اشتباه می‌شوند.
دو ستون مجزا	یک پاراگراف ادغام‌شده	ترجمه جملات را به ترتیب اشتباهی می‌خواند.
سطر جدول با برچسب‌ها و مقادیر	یک خط واحد از متن مخلوط	داده‌ها دیگر با برچسب درست مطابقت ندارند.
نشانگر پانویس `1`	حرف `l`	یادداشت‌ها ممکن است به جمله اشتباهی متصل شوند.

اگر این خطاها را در لایه OCR مشاهده کردید، قبل از ترجمه، OCR را اصلاح کنید.

از چه ابزاری باید استفاده کنید؟

بر اساس دشواری سند انتخاب کنید.

سند	مسیر پیشنهادی
اسکن تجاری تمیز	OCR در Acrobat یا یک ابزار OCR قابل اعتماد دیگر، سپس مترجم PDF.
اسکن کتاب قدیمی	اصلاح شیب و بهبود کنتراست، OCR با دقت، سپس ترجمه.
اسکن مقاله دانشگاهی	OCR، بررسی معادلات/استنادها/جداول، سپس ترجمه با بررسی قالب‌بندی.
یادداشت‌های دست‌نویس	ممکن است قبل از ترجمه به رونوشت دستی نیاز باشد.
سند شخصی ساده	اگر خطر حریم خصوصی کم باشد، OCR آنلاین ممکن است قابل قبول باشد.
سند حساس	از OCR محلی یا یک چرخه کاری کنترل‌شده قابل اعتماد استفاده کنید.

اگر مقایسه جامع‌تری از ابزارها می‌خواهید، به راهنمای بهترین مترجم PDF مراجعه کنید.

مشکلات رایج PDFهای اسکن‌شده

صفحات با وضوح پایین

اسکن‌های با وضوح پایین حروف را در هم ادغام می‌کنند. OCR ممکن است rn را با m، cl را با d، یا علائم نگارشی را با گرد و غبار اشتباه بگیرد.

راه‌حل: در صورت امکان مجدداً اسکن کنید. اگر امکان‌پذیر نیست، کنتراست را افزایش دهید و دوباره OCR را امتحان کنید.

صفحات کج یا منحنی

اسکن‌های کتاب معمولاً در نزدیکی عطف منحنی می‌شوند. OCR خطوط منحنی را به خوبی نمی‌خواند و ممکن است متن را جابجا کند.

راه‌حل: صفحه را صاف کنید، دوباره اسکن کنید، یا از یک ابزار OCR با قابلیت صاف کردن و اصلاح انحنا استفاده کنید.

چیدمان چندستونی

OCR می‌تواند ستون‌های چپ و راست را در یک جریان جمله واحد ادغام کند.

راه‌حل: ترتیب خواندن را قبل از ترجمه بررسی کنید. مقالات دانشگاهی در اینجا نیاز به توجه ویژه‌ای دارند.

جدول‌ها

جدول‌ها دشوار هستند زیرا OCR باید هم متن و هم ساختار را تشخیص دهد. یک جدول می‌تواند از نظر بصری درست به نظر برسد در حالی که لایه متن اشتباه است.

راه‌حل: متن OCR را از جدول کپی کنید و تأیید کنید که برچسب‌ها همچنان با مقادیر مطابقت دارند.

دست‌نویس و امضاها

OCR متن چاپی بسیار قابل اعتمادتر از تشخیص دست‌نویس است. یادداشت‌های حاشیه‌ای دست‌نویس، امضاها و فرم‌های پرشده ممکن است نادیده گرفته شوند یا مخدوش شوند.

راه‌حل: دست‌نویس‌های ضروری را قبل از ترجمه به صورت دستی تایپ کنید.

زبان‌های مختلط

OCR زمانی بهترین عملکرد را دارد که زبان مبدأ را بشناسد. اسکن با زبان‌های انگلیسی، فرانسوی و چینی ممکن است با شکست مواجه شود اگر OCR فقط روی یک زبان تنظیم شده باشد.

راه‌حل: اگر ابزار پشتیبانی می‌کند، تمام زبان‌های مرتبط OCR را انتخاب کنید، سپس هر بخش زبان را به صورت تصادفی بررسی کنید.

چک‌لیست حریم خصوصی و امنیت

قبل از آپلود کردن یک PDF اسکن‌شده در هر جایی، بپرسید:

آیا سند حاوی داده‌های شخصی است؟
آیا شامل مطالب پزشکی، حقوقی، مالی، دانشگاهی یا منتشرنشده است؟
آیا مشمول توافق‌نامه مشتری یا خط‌مشی مدرسه است؟
آیا خدمات OCR آنلاین برای این سند مجاز است؟
آیا به جای آن به یک چرخه کاری محلی نیاز دارید؟
آیا می‌توانید صفحاتی را که نیازی به ترجمه ندارند حذف کنید؟

PDFهای اسکن‌شده اغلب حساس هستند زیرا از قراردادها، شناسه‌ها، فرم‌ها، پیش‌نویس‌های پژوهشی و آرشیوهای داخلی می‌آیند. با تصمیمات آپلود OCR همان‌طور رفتار کنید که با سند اصلی رفتار می‌کنید.

سوالات متداول

چگونه یک PDF اسکن‌شده را ترجمه کنم؟

ابتدا OCR را اجرا کنید تا یک لایه متنی ایجاد شود، خروجی OCR را بررسی کنید، سپس PDF پردازش‌شده با OCR را با مترجم PDF ترجمه کنید. مرحله بررسی OCR را رد نکنید.

چرا گوگل ترنسلیت PDF اسکن‌شده مرا ترجمه نکرد؟

ممکن است PDF فقط تصویر باشد. اگر لایه متنی وجود نداشته باشد، گوگل ترنسلیت متنی برای استخراج ندارد. ابتدا از OCR استفاده کنید، سپس ترجمه کنید. چرخه کاری اختصاصی گوگل در راهنمای ترجمه PDF گوگل ترنسلیت پوشش داده شده است.

آیا چت‌جی‌پتی می‌تواند یک PDF اسکن‌شده را ترجمه کند؟

چت‌جی‌پتی ممکن است با تصاویر منفرد یا متن استخراج‌شده کمک کند، اما یک PDF اسکن‌شده چندصفحه‌ای همچنان به OCR و بررسی نیاز دارد. برای چرخه کاری کامل سند، ابتدا OCR، سپس از یک چرخه کاری ترجمه PDF استفاده کنید.

بهترین ابزار OCR برای PDFهای اسکن‌شده چیست؟

بستگی به سند دارد. ابزارهای سبک Acrobat و ABBYY برای اسکن‌های عمومی و پیچیده مفید هستند. Tesseract یا OCRmyPDF برای چرخه‌های کاری فنی محلی مفید است. OCR آنلاین می‌تواند برای فایل‌های ساده کم‌خطر مناسب باشد، اما حریم خصوصی و کیفیت متفاوت است.

آیا OCR می‌تواند قالب‌بندی را حفظ کند؟

OCR می‌تواند یک لایه متنی ایجاد کند و گاهی اوقات ترتیب خواندن را بازیابی کند، اما این با حفظ چیدمان ترجمه شده اصلی یکسان نیست. پس از OCR، از یک چرخه کاری ترجمه PDF استفاده کنید و خروجی را با سند اصلی مقایسه کنید.

اگر کیفیت OCR پایین باشد چه باید کرد؟

قبل از ترجمه کیفیت اسکن را بهبود ببخشید. در صورت امکان مجدداً اسکن کنید، صفحات را صاف کنید، کنتراست را افزایش دهید، شلوغی‌ها را برش دهید، زبان صحیح OCR را انتخاب کنید و صفحات دشوار را دوباره بررسی کنید.

آیا OCR روی اسکریپت‌های غیرلاتین مانند هندی یا تامیلی کار می‌کند؟

بله، اما کیفیت موتور بسته به اسکریپت متفاوت است. اسکن‌های دیواناگری، تامیلی، تلوگو و بنگالی به یک موتور OCR آموزش‌دیده روی آن اسکریپت‌ها نیاز دارند و مرحله ترجمه به فونت‌هایی نیاز دارد که آن‌ها را به درستی رندر کنند. یک مترجم سند با OCR داخلی هر دو مرحله را با هم مدیریت می‌کند — برای مثال، ترجمه یک PDF اسکن‌شده از هندی به انگلیسی.