چگونه یک PDF اسکنشده را ترجمه کنیم: راهنمای کامل OCR + ترجمه
PDFهای اسکنشده حاوی تصویرِ متن هستند، نه خودِ متن — به همین دلیل Google Translate آنها را بدون تغییر برمیگرداند. اینجا فرایند OCR + هوش مصنوعیای را میبینید که این مشکل را حل میکند.
پاسخ سریع: یک PDF اسکنشده پیش از ترجمه به OCR نیاز دارد
برای ترجمه یک PDF اسکنشده، ابتدا OCR را اجرا کنید تا تصاویر صفحه به متنی قابل انتخاب تبدیل شوند. سپس PDF پردازششده با OCR را با یک مترجم سند مانند مترجم PDF ترجمه کنید. اگر OCR را نادیده بگیرید، بسیاری از ابزارهای ترجمه فایل اصلی را بدون تغییر برمیگردانند، بعضی صفحهها را از دست میدهند، یا فقط بخشهایی را ترجمه میکنند که از قبل لایه متنی دارند.
از این روند استفاده کنید:
- PDF را باز کنید و سعی کنید یک جمله را انتخاب کنید.
- اگر نمیتوانید متن را انتخاب کنید، OCR را اجرا کنید.
- پیش از ترجمه، متن OCR را بازبینی کنید.
- PDF پردازششده با OCR را در مترجم PDF بارگذاری کنید.
- خروجی ترجمهشده را با اسکن اصلی تطبیق دهید.
اگر PDF شما از قبل متن قابل انتخاب دارد و مشکل، حفظ چیدمان است، از راهنمای ترجمه PDF بدون از دست دادن قالببندی استفاده کنید.
چرا PDFهای اسکنشده در ابزارهای ترجمه به مشکل میخورند
یک PDF اسکنشده اغلب فقط مجموعهای از تصاویر صفحه درون یک فایل PDF است. صفحه ممکن است برای انسان واژهها را نشان دهد، اما خود فایل شاید متن واقعیای برای استخراج توسط نرمافزار نداشته باشد.
این موضوع یک شکست ساده ایجاد میکند:
| نوع فایل | مترجم چه میبیند | چه اتفاقی میافتد |
|---|---|---|
| PDF متنی | متن بههمراه دادههای چیدمان | ترجمه میتواند فوراً شروع شود. |
| PDF اسکنشده فقطتصویری | تصاویر صفحهها | ابتدا OCR لازم است. |
| PDF با متن روی تصویر | تصویر اسکن بههمراه لایه متنی پنهان OCR | ترجمه ممکن است کار کند، اما خطاهای OCR روی کیفیت اثر میگذارند. |
کاربردیترین آزمون اصلاً فنی نیست:
- PDF را باز کنید.
- سعی کنید واژههای جداگانه را هایلایت کنید.
- یک جمله را کپی کنید.
- آن را در یک ویرایشگر متن جایگذاری کنید.
اگر جمله درست جایگذاری شد، PDF یک لایه متنی دارد. اگر چیزی جایگذاری نشد، یا کل صفحه مثل یک تصویر واحد رفتار کرد، PDF به OCR نیاز دارد.
OCR اختیاری نیست
OCR یعنی تشخیص نوری نویسهها. متن را از روی تصویر میخواند و آن را به متنی قابلخواندن برای ماشین تبدیل میکند. برای ترجمه PDF، OCR معمولاً یک لایه متنی نامرئی روی صفحه اسکنشده ایجاد میکند.
آن لایه متنی منبع ترجمه میشود. اگر OCR اشتباه کند، ترجمه همان اشتباهها را به ارث میبرد.
اشتباههای رایج OCR:
| خطای OCR | ریسک ترجمه |
|---|---|
rn بهصورت m خوانده میشود | معنای واژهها عوض میشود. |
1 بهصورت l خوانده میشود | عددها، ارجاعها، یا کدها اشتباه میشوند. |
O بهصورت 0 خوانده میشود | شناسهها، فرمولها، و نامها ممکن است خراب شوند. |
| اکسانها حذف میشوند | نامها و اصطلاحات نادقیق میشوند. |
| ستونها با هم ادغام میشوند | جملهها با ترتیب اشتباه ترجمه میشوند. |
| سلولهای جدول اشتباه و سطربهسطر خوانده میشوند | برچسبهای داده دیگر با مقدارها جور درنمیآیند. |
| پاورقیها بهعنوان متن اصلی تشخیص داده میشوند | ارجاعها و یادداشتها به بافت اشتباه منتقل میشوند. |
به همین دلیل مرحله بازبینی OCR مهم است. سند اسکنشده را تا وقتی متن استخراجشده را بهصورت نمونهای بررسی نکردهاید ترجمه نکنید.
روندی که باید با OCR شروع شود
مرحله 1: نوع PDF را تشخیص دهید
سعی کنید متن را انتخاب کنید. اگر انتخاب متن کار میکند، شاید به OCR نیاز نداشته باشید. اگر انتخاب متن کار نمیکند، با فایل مثل یک PDF فقطتصویری برخورد کنید.
همچنین صفحه را از نظر ظاهری بررسی کنید:
- صفحههای کج معمولاً نشانه اسکن هستند.
- بافت خاکستری کاغذ معمولاً نشانه اسکن است.
- سایههای نزدیک به عطف معمولاً نشان میدهند از یک کتاب عکس گرفته شده است.
- کنتراست ناهموار معمولاً نشانه فتوکپی است.
- اگر جستوجو واژههای قابلمشاهده را پیدا نمیکند، احتمالاً لایه متنی وجود ندارد.
مرحله 2: اگر میتوانید، کیفیت اسکن را بهتر کنید
کیفیت OCR از کیفیت تصویر شروع میشود. اگر میتوانید دوباره اسکن کنید، این کار را قبل از صرف وقت برای تعمیر خطاهای OCR انجام دهید.
از این چکلیست کیفیت تصویر استفاده کنید:
- برای متنهای ریز، با وضوح کافی اسکن کنید.
- صفحهها را صاف و بدون کجی نگه دارید.
- از ایجاد سایه نزدیک عطف جلوگیری کنید.
- لبههای میز، انگشتها، یا شلوغی پسزمینه را از کادر حذف کنید.
- بین متن و صفحه کنتراست کافی ایجاد کنید.
- مطمئن شوید کل خط دیده میشود.
- جهت درست صفحه را حفظ کنید.
- تصویر را آنقدر فشرده نکنید که حروف تار شوند.
برای کتابهای قدیمی و فتوکپیها، بیشترین بهبود معمولاً از صافکردن کجی صفحه، اصلاح کنتراست، و اسکن دوباره صفحههای خارج از فوکوس بهدست میآید.
مرحله 3: OCR را اجرا کنید
ابزار OCR را بر اساس خود سند انتخاب کنید، نه بر اساس برند.
| گزینه OCR | بهترین کاربرد | نکتهای که باید مراقبش باشید |
|---|---|---|
| Adobe Acrobat OCR | اسکنهای عمومی کسبوکار و پاکسازی PDF | قبل از تکیه روی آن، دسترسی پلن فعلی را بررسی کنید. |
| ABBYY FineReader | اسکنهای پیچیده، جدولها، ستونها، و چیدمانهای دشوار | همچنان به بازبینی دستی نیاز دارد. |
| Tesseract or OCRmyPDF | روندهای OCR محلی، فنی، و تکرارپذیر | نیازمند راحتی با ابزارهای خط فرمان است. |
| Online OCR tools | فایلهای گاهبهگاه و کمریسک | حریم خصوصی، محدودیت فایل، و کیفیت متغیر است. |
| Phone scanning apps | ثبت سریع یک اسکن جدید | اعوجاج پرسپکتیو میتواند به OCR آسیب بزند. |
برای قراردادهای خصوصی، پروندههای پزشکی، اسناد مالی، دستنوشتههای منتشرنشده، یا کارهای دانشگاهیِ در حال داوری، بهتر است از یک روند OCR محلی یا محیطی قابلاعتماد استفاده کنید. اسکنهای حساس را در سایتهای OCR رایگان و تصادفی بارگذاری نکنید.
مرحله 4: متن OCR را بازبینی کنید
بازبینی را قبل از ترجمه انجام دهید، نه بعد از آن. متن چند صفحه دشوار را کپی کنید و ببینید آیا خواناست یا نه.
صفحههای نمونه برای بررسی:
- صفحه عنوان.
- یک صفحه متنی فشرده.
- یک صفحه دارای جدول.
- یک صفحه دارای پاورقی.
- یک صفحه با متن ریز.
- یک صفحه دارای مهر، دستنوشته، یا یادداشت حاشیهای.
- اگر سند چندزبانه است، یک صفحه از هر زبان.
به این موارد دقت کنید:
- پاراگرافهای حذفشده.
- ستونهای ادغامشده.
- واژههای شکسته.
- نویسههای اشتباه.
- اکسانها یا نشانههای اعرابِ از دسترفته.
- برچسبهای جدول که از مقدارها جدا شدهاند.
- سربرگهایی که داخل متن اصلی افتادهاند.
- شماره صفحههایی که داخل جملهها مخلوط شدهاند.
اگر کیفیت OCR ضعیف است، قبل از ترجمه آن را اصلاح کنید. مترجم نمیتواند معنایی را که OCR هرگز ثبت نکرده، با اطمینان بازیابی کند.
مرحله 5: PDF پردازششده با OCR را ترجمه کنید
وقتی PDF یک لایه متنی تمیز دارد، آن را در مترجم PDF بارگذاری کنید. حالا مرحله ترجمه میتواند بهجای تصاویر صفحه، با متن کار کند.
بعد از ترجمه، این سه مورد را با هم مقایسه کنید:
- اسکن اصلی
- لایه متنی OCR
- PDF ترجمهشده
این بازبینی سهطرفه کمک میکند مشخص کنید خطا از OCR آمده یا از ترجمه. اگر متن OCR اشتباه است، OCR را دوباره اجرا کنید. اگر متن OCR درست است اما ترجمه غلط است، ترجمه را اصلاح کنید.
مرحله 6: محتوای پرریسک را بازبینی کنید
اسناد اسکنشده اغلب دقیقاً همان محتوایی را در خود دارند که نیازمند بازبینی دقیق است: قراردادهای قدیمی، فرمهای دولتی، مقالههای دانشگاهی، راهنماها، اسناد تاریخی، و صفحههای کتاب.
این موارد را دستی بازبینی کنید:
- نامها
- تاریخها
- عددها
- نشانیها
- کدهای محصول
- ارجاعهای حقوقی
- استنادها
- برچسبهای جدول
- واحدها
- معادلهها
- زیرنویسها
- پاورقیها
برای فایلهای پژوهشی و دانشگاهی، همچنین راهنمای ترجمه مقالههای پژوهشی دانشگاهی را بخوانید، چون PDFهای دانشگاهیِ اسکنشده علاوه بر ریسک OCR، ریسکهای مربوط به استناد و چیدمان هم دارند.
نمونههای خطا در مقایسه کنار هم
هنگام بازبینی خروجی OCR از این جدول استفاده کنید.
| اسکن اصلی احتمالاً این را نشان میدهد | خروجی بد OCR | چرا مهم است |
|---|---|---|
modern | modem | معنا کاملاً عوض میشود. |
Section 10 | Section IO | ارجاعهای حقوقی یا فنی ممکن است خراب شوند. |
2026 | 2O26 | تاریخها و شناسهها غیرقابلاعتماد میشوند. |
patient | patlent | اصطلاحهای پزشکی یا فنی اشتباه میشوند. |
| دو ستون جدا | یک پاراگراف ادغامشده | جملهها با ترتیب اشتباه ترجمه میشوند. |
| یک سطر جدول با برچسب و مقدار | یک خط واحد از متن مخلوط | دیگر داده به برچسب درست وصل نمیشود. |
نشان پاورقی 1 | حرف l | ممکن است یادداشتها به جمله اشتباه وصل شوند. |
اگر این خطاها را در لایه OCR میبینید، قبل از ترجمه OCR را اصلاح کنید.
از کدام ابزار باید استفاده کنید؟
بر اساس میزان دشواری سند انتخاب کنید.
| نوع سند | مسیر پیشنهادی |
|---|---|
| اسکن تمیز کسبوکاری | OCR در Acrobat یا یک ابزار OCR قابلاعتماد دیگر، سپس مترجم PDF. |
| اسکن کتاب قدیمی | کجی صفحه را اصلاح کنید و کنتراست را بهتر کنید، با دقت OCR بگیرید، سپس ترجمه کنید. |
| اسکن مقاله علمی | OCR بگیرید، معادلهها/استنادها/جدولها را بازبینی کنید، سپس با بازبینی چیدمان ترجمه کنید. |
| یادداشتهای دستنویس | ممکن است قبل از ترجمه به رونویسی دستی نیاز باشد. |
| سند شخصی ساده | اگر ریسک حریم خصوصی پایین است، OCR آنلاین ممکن است قابلقبول باشد. |
| سند حساس | از OCR محلی یا یک روند کنترلشده و قابلاعتماد استفاده کنید. |
اگر مقایسه گستردهتر ابزارها را میخواهید، راهنمای بهترین ابزارهای ترجمه PDF را ببینید.
مشکلات رایج PDFهای اسکنشده
صفحههای کموضوح
اسکنهای کموضوح حروف را تار و بههمچسبیده میکنند. OCR ممکن است rn و m، cl و d، یا نشانهگذاری و گردوغبار را با هم اشتباه بگیرد.
راهحل: اگر میتوانید دوباره اسکن کنید. اگر نه، کنتراست را بیشتر کنید و OCR را دوباره امتحان کنید.
صفحههای کج یا خمیده
اسکن کتابها اغلب نزدیک عطف خم میشود. OCR خطوط خمیده را بد میخواند و ممکن است ترتیب متن را به هم بزند.
راهحل: صفحه را صاف کنید، دوباره اسکن بگیرید، یا از ابزار OCRی استفاده کنید که کجی و خمیدگی صفحه را اصلاح میکند.
چیدمان چندستونه
OCR ممکن است ستونهای چپ و راست را به یک جریان واحد از جملهها ادغام کند.
راهحل: پیش از ترجمه، ترتیب خواندن را بررسی کنید. مقالههای دانشگاهی در این بخش به توجه ویژه نیاز دارند.
جدولها
جدولها دشوارند، چون OCR باید هم متن و هم ساختار را تشخیص دهد. ممکن است یک جدول از نظر بصری درست به نظر برسد، اما لایه متنی آن اشتباه باشد.
راهحل: متن OCR جدول را کپی کنید و مطمئن شوید برچسبها هنوز با مقدارها جور هستند.
دستخط و امضاها
OCR برای متن چاپی بسیار قابلاعتمادتر از تشخیص دستخط است. یادداشتهای حاشیهایِ دستنویس، امضاها، و فرمهای پرشده ممکن است جا بیفتند یا بههمریخته ثبت شوند.
راهحل: دستخط مهم را قبل از ترجمه بهصورت دستی رونویسی کنید.
زبانهای ترکیبی
OCR وقتی بهترین عملکرد را دارد که زبان مبدأ را بشناسد. یک اسکن شامل انگلیسی، فرانسوی، و چینی ممکن است خراب شود اگر OCR فقط روی یک زبان تنظیم شده باشد.
راهحل: اگر ابزار پشتیبانی میکند، همه زبانهای مرتبط را برای OCR انتخاب کنید، سپس هر بخش زبانی را بهصورت نمونهای بررسی کنید.
چکلیست حریم خصوصی و امنیت
قبل از اینکه یک PDF اسکنشده را هر جایی بارگذاری کنید، از خودتان بپرسید:
- آیا سند شامل داده شخصی است؟
- آیا محتوای پزشکی، حقوقی، مالی، دانشگاهی، یا منتشرنشده دارد؟
- آیا تحت پوشش قرارداد مشتری یا سیاست دانشگاه است؟
- آیا استفاده از سرویس OCR آنلاین برای این سند مجاز است؟
- آیا بهجای آن به یک روند محلی نیاز دارید؟
- آیا میتوانید صفحههایی را که به ترجمه نیاز ندارند حذف کنید؟
PDFهای اسکنشده اغلب حساساند، چون از قراردادها، مدارک شناسایی، فرمها، پیشنویسهای پژوهشی، و آرشیوهای داخلی میآیند. درباره بارگذاری برای OCR همانطور تصمیم بگیرید که درباره خودِ سند اصلی تصمیم میگیرید.
پرسشهای متداول
چطور یک PDF اسکنشده را ترجمه کنم؟
ابتدا OCR را اجرا کنید تا یک لایه متنی ساخته شود، خروجی OCR را بازبینی کنید، سپس PDF پردازششده با OCR را با مترجم PDF ترجمه کنید. مرحله بازبینی OCR را حذف نکنید.
چرا Google Translate PDF اسکنشده من را ترجمه نکرد؟
ممکن است PDF فقطتصویری باشد. اگر لایه متنی وجود نداشته باشد، Google Translate متنی برای استخراج ندارد. ابتدا OCR را اجرا کنید، بعد ترجمه کنید. روند مخصوص Google در راهنمای Google Translate برای PDF پوشش داده شده است.
آیا ChatGPT میتواند یک PDF اسکنشده را ترجمه کند؟
ChatGPT ممکن است برای تصویرهای جداگانه یا متن استخراجشده کمک کند، اما یک PDF اسکنشده چندصفحهای همچنان به OCR و بازبینی نیاز دارد. برای روند کامل سند، اول OCR و بعد یک روند ترجمه PDF را به کار ببرید.
بهترین ابزار OCR برای PDFهای اسکنشده چیست؟
به خودِ سند بستگی دارد. ابزارهایی مثل Acrobat و ABBYY برای اسکنهای عمومی و پیچیده مفیدند. Tesseract یا OCRmyPDF برای روندهای فنی و محلی مفید است. OCR آنلاین برای فایلهای ساده و کمریسک میتواند کافی باشد، اما حریم خصوصی و کیفیت متغیر است.
آیا OCR میتواند قالببندی را حفظ کند؟
OCR میتواند یک لایه متنی بسازد و گاهی ترتیب خواندن را بازیابی کند، اما این با حفظ چیدمان ترجمهشده اصلی یکی نیست. بعد از OCR، از یک روند ترجمه PDF استفاده کنید و خروجی را با نسخه اصلی تطبیق دهید.
اگر کیفیت OCR بد باشد چه باید کرد؟
قبل از ترجمه، کیفیت اسکن را بهتر کنید. اگر میتوانید دوباره اسکن بگیرید، کجی صفحه را اصلاح کنید، کنتراست را افزایش دهید، شلوغی کادر را برش دهید، زبان درست OCR را انتخاب کنید، و صفحههای دشوار را دوباره بازبینی کنید.