BookTranslator
BookTranslator

اسکین شدہ PDF کا ترجمہ کیسے کریں: مکمل OCR + ترجمہ گائیڈ

اسکین شدہ PDFs میں اصل متن نہیں بلکہ متن کی تصویریں ہوتی ہیں — اسی لیے Google Translate انہیں بغیر تبدیلی کے واپس کر دیتا ہے۔ یہ ہے وہ OCR + AI پائپ لائن جو اس مسئلے کو حل کرتی ہے۔

BookTranslator

BookTranslator Team

ترجمہ گائیڈز13 min read

فوری جواب: اسکین شدہ PDF کے ترجمے سے پہلے OCR ضروری ہے

اسکین شدہ PDF کا ترجمہ کرنے کے لیے پہلے OCR چلائیں تاکہ صفحوں کی تصویروں کو منتخب کیے جا سکنے والے متن میں بدلا جا سکے۔ پھر OCR-پروسیس شدہ PDF کو کسی دستاویز مترجم جیسے PDF مترجم کے ذریعے ترجمہ کریں۔ اگر آپ OCR کو چھوڑ دیتے ہیں تو بہت سے ترجمہ ٹولز اصل فائل کو بغیر تبدیلی کے واپس کر دیں گے، کچھ صفحات چھوڑ دیں گے، یا صرف انہی حصوں کا ترجمہ کریں گے جن میں پہلے سے متن کی تہہ موجود ہو۔

یہ ورک فلو استعمال کریں:

  1. PDF کھولیں اور کسی ایک جملے کو منتخب کرنے کی کوشش کریں۔
  2. اگر آپ متن منتخب نہیں کر سکتے تو OCR چلائیں۔
  3. ترجمہ کرنے سے پہلے OCR متن کا جائزہ لیں۔
  4. OCR-پروسیس شدہ PDF کو PDF مترجم پر اپ لوڈ کریں۔
  5. ترجمہ شدہ آؤٹ پٹ کو اصل اسکین کے ساتھ ملا کر دیکھیں۔

اگر آپ کی PDF میں پہلے سے منتخب کیا جا سکنے والا متن موجود ہے اور مسئلہ لےآؤٹ کو برقرار رکھنے کا ہے، تو فارمیٹنگ کھوئے بغیر PDF کا ترجمہ کرنے والی گائیڈ استعمال کریں۔

اسکین شدہ PDFs ترجمہ ٹولز میں کیوں ناکام ہوتی ہیں

اسکین شدہ PDF اکثر صرف PDF کنٹینر کے اندر صفحوں کی تصویروں کا ایک مجموعہ ہوتی ہے۔ صفحہ انسان کو الفاظ دکھا سکتا ہے، لیکن فائل میں ایسا حقیقی متن موجود نہیں ہوتا جسے سافٹ ویئر نکال سکے۔

اس سے ایک سادہ مسئلہ پیدا ہوتا ہے:

فائل کی قسممترجم کیا دیکھتا ہےکیا ہوتا ہے
متن پر مبنی PDFمتن اور لےآؤٹ ڈیٹاترجمہ فوراً شروع ہو سکتا ہے۔
صرف تصویر والی اسکین شدہ PDFصفحات کی تصویریںپہلے OCR ضروری ہے۔
متن-اوور-امیج PDFاسکین تصویر اور پوشیدہ OCR متن کی تہہترجمہ ممکن ہے، لیکن OCR کی غلطیاں معیار متاثر کرتی ہیں۔

سب سے مفید جانچ تکنیکی نہیں ہے:

  1. PDF کھولیں۔
  2. الگ الگ الفاظ کو ہائی لائٹ کرنے کی کوشش کریں۔
  3. ایک جملہ کاپی کریں۔
  4. اسے کسی ٹیکسٹ ایڈیٹر میں پیسٹ کریں۔

اگر جملہ درست طور پر پیسٹ ہو جائے تو PDF میں متن کی تہہ موجود ہے۔ اگر کچھ بھی پیسٹ نہ ہو، یا پورا صفحہ ایک ہی تصویر کی طرح برتاؤ کرے، تو PDF کو OCR کی ضرورت ہے۔

OCR اختیاری نہیں ہے

OCR کا مطلب optical character recognition ہے۔ یہ تصویر سے متن پڑھتا ہے اور اسے مشین کے قابلِ مطالعہ متن میں بدل دیتا ہے۔ PDF ترجمے کے لیے OCR عموماً اسکین شدہ صفحے کے اوپر ایک غیر مرئی متن کی تہہ بناتا ہے۔

یہ متن کی تہہ پھر ترجمے کا ماخذ بنتی ہے۔ اگر OCR غلطیاں کرے تو ترجمہ بھی انہی غلطیوں کو آگے لے جاتا ہے۔

OCR کی عام غلطیاں:

OCR کی غلطیترجمے کا خطرہ
rn کو m پڑھ لیا جائےالفاظ کا مطلب بدل جاتا ہے۔
1 کو l پڑھ لیا جائےاعداد، حوالہ جات، یا کوڈ غلط ہو سکتے ہیں۔
O کو 0 پڑھ لیا جائےIDs، فارمولے، اور نام خراب ہو سکتے ہیں۔
اعراب یا لہجے کے نشانات غائب ہو جائیںنام اور اصطلاحات غیر درست ہو جاتی ہیں۔
کالم آپس میں مل جائیںجملوں کا ترجمہ غلط ترتیب میں ہوتا ہے۔
جدول کے خانوں کو غلطی سے سطر بہ سطر پڑھا جائےڈیٹا لیبلز کی قدروں سے مطابقت ختم ہو جاتی ہے۔
حواشی کو اصل متن سمجھ لیا جائےحوالہ جات اور نوٹس غلط سیاق میں چلے جاتے ہیں۔

اسی لیے OCR کے جائزے کا مرحلہ اہم ہے۔ جب تک آپ نکالے گئے متن کی اسپاٹ چیکنگ نہ کر لیں، اسکین شدہ دستاویز کا ترجمہ نہ کریں۔

OCR-فرسٹ ورک فلو

مرحلہ 1: PDF کی قسم پہچانیں

متن منتخب کر کے دیکھیں۔ اگر انتخاب کام کرتا ہے تو شاید آپ کو OCR کی ضرورت نہ ہو۔ اگر انتخاب ناکام ہو تو فائل کو صرف تصویر والی سمجھیں۔

صفحے کو بصری طور پر بھی دیکھیں:

  • ٹیڑھے صفحات اسکین ہونے کی علامت ہیں۔
  • سرمئی کاغذی بناوٹ اسکین کی طرف اشارہ کرتی ہے۔
  • ریڑھ کے قریب سایے اس بات کی علامت ہیں کہ کتاب کی تصویر لی گئی ہے۔
  • غیر ہموار کنٹراسٹ فوٹو کاپی کی نشانی ہے۔
  • نظر آنے والے الفاظ کو سرچ سے نہ ملنا اس بات کی علامت ہے کہ متن کی تہہ موجود نہیں۔

مرحلہ 2: اگر ممکن ہو تو اسکین بہتر بنائیں

OCR کا معیار تصویر کے معیار سے شروع ہوتا ہے۔ اگر آپ دوبارہ اسکین کر سکتے ہیں تو OCR کی غلطیاں درست کرنے میں وقت لگانے سے پہلے یہ کریں۔

تصویر کے معیار کی یہ چیک لسٹ استعمال کریں:

  • چھوٹے متن کے لیے کافی زیادہ resolution پر اسکین کریں۔
  • صفحات کو سیدھا اور ہموار رکھیں۔
  • ریڑھ کے قریب سایوں سے بچیں۔
  • جدول کے کنارے، انگلیاں، یا پس منظر کی بے ترتیبی کاٹ دیں۔
  • متن اور صفحے کے درمیان واضح کنٹراسٹ رکھیں۔
  • پوری سطر نظر آنی چاہیے۔
  • صفحے کی درست orientation استعمال کریں۔
  • تصویر کو اتنا زیادہ compress نہ کریں کہ حروف دھندلے ہو جائیں۔

پرانی کتابوں اور فوٹو کاپیوں کے لیے سب سے بڑا فائدہ عموماً deskewing، contrast correction، اور دوبارہ اسکین کرنے سے ہوتا ہے جب صفحات out of focus ہوں۔

مرحلہ 3: OCR چلائیں

OCR ٹول کا انتخاب برانڈ کے بجائے دستاویز کی نوعیت کے مطابق کریں۔

OCR آپشنکس کے لیے بہترینکس چیز سے محتاط رہیں
Adobe Acrobat OCRعمومی کاروباری اسکینز اور PDF صفائیاس پر انحصار سے پہلے موجودہ پلان کی رسائی چیک کریں۔
ABBYY FineReaderپیچیدہ اسکینز، جدولیں، کالم، اور مشکل لےآؤٹسپھر بھی دستی جائزہ درکار ہوتا ہے۔
Tesseract or OCRmyPDFمقامی، تکنیکی، اور دہرائے جا سکنے والے OCR ورک فلوکمانڈ لائن ٹولز کے ساتھ سہولت درکار ہے۔
Online OCR toolsکم خطرے والی کبھی کبھار آنے والی فائلیںرازداری، فائل limits، اور معیار مختلف ہوتے ہیں۔
Phone scanning appsنئی اسکین جلدی حاصل کرنے کے لیےperspective distortion OCR کو خراب کر سکتی ہے۔

نجی معاہدوں، طبی ریکارڈز، مالی دستاویزات، غیر مطبوعہ مسودات، یا زیرِ جائزہ علمی کام کے لیے مقامی OCR ورک فلو یا قابلِ اعتماد ماحول کو ترجیح دیں۔ حساس اسکینز کو بے ترتیب مفت OCR سائٹس پر اپ لوڈ نہ کریں۔

مرحلہ 4: OCR متن کا جائزہ لیں

جائزہ ترجمے سے پہلے لیں، بعد میں نہیں۔ کئی مشکل صفحات سے متن کاپی کریں اور دیکھیں کہ آیا وہ قابلِ مطالعہ ہے یا نہیں۔

نمونے کے طور پر یہ صفحات دیکھیں:

  • سرورق والا صفحہ۔
  • متن سے بھرا ہوا عام صفحہ۔
  • جدول والا صفحہ۔
  • حواشی والا صفحہ۔
  • چھوٹے متن والا صفحہ۔
  • مہروں، ہاتھ کی لکھائی، یا حاشیائی نوٹس والا صفحہ۔
  • اگر دستاویز کثیر لسانی ہو تو ہر زبان کا ایک صفحہ۔

یہ چیزیں تلاش کریں:

  • غائب پیراگراف۔
  • آپس میں ملے ہوئے کالم۔
  • ٹوٹے ہوئے الفاظ۔
  • غلط حروف۔
  • غائب diacritics۔
  • جدول کے لیبلز کا قدروں سے الگ ہو جانا۔
  • body text میں داخل ہو جانے والے headers۔
  • جملوں میں شامل ہو جانے والے page numbers۔

اگر OCR کا معیار خراب ہے تو ترجمے سے پہلے اسے درست کریں۔ مترجم اس معنی کو قابلِ اعتماد طور پر بحال نہیں کر سکتا جسے OCR نے کبھی پکڑا ہی نہ ہو۔

مرحلہ 5: OCR-پروسیس شدہ PDF کا ترجمہ کریں

جب PDF میں صاف متن کی تہہ موجود ہو جائے تو اسے PDF مترجم پر اپ لوڈ کریں۔ اب ترجمہ صفحوں کی تصویروں کے بجائے متن کے ساتھ کام کر سکتا ہے۔

ترجمے کے بعد یہ تین چیزیں ملا کر دیکھیں:

  • اصل اسکین
  • OCR متن کی تہہ
  • ترجمہ شدہ PDF

یہ تین طرفہ جائزہ آپ کو یہ پہچاننے میں مدد دیتا ہے کہ غلطی OCR سے آئی ہے یا ترجمے سے۔ اگر OCR متن غلط ہے تو OCR دوبارہ چلائیں۔ اگر OCR متن درست ہے مگر ترجمہ غلط ہے تو ترجمہ درست کریں۔

مرحلہ 6: زیادہ خطرے والے مواد کا جائزہ لیں

اسکین شدہ دستاویزات میں اکثر وہی مواد ہوتا ہے جسے محتاط جائزے کی ضرورت ہوتی ہے: پرانے معاہدے، سرکاری فارم، علمی مقالات، manuals، تاریخی دستاویزات، اور کتابوں کے صفحات۔

ان چیزوں کا دستی جائزہ لیں:

  • نام
  • تاریخیں
  • اعداد
  • پتے
  • پروڈکٹ کوڈز
  • قانونی حوالہ جات
  • citations
  • جدول کے لیبلز
  • units
  • equations
  • captions
  • footnotes

تحقیقی اور علمی فائلوں کے لیے علمی تحقیقی مقالات کے ترجمے والی گائیڈ بھی پڑھیں، کیونکہ اسکین شدہ academic PDFs میں OCR کے خطرے کے ساتھ حوالہ جات اور لےآؤٹ کے اضافی خطرات بھی شامل ہوتے ہیں۔

ساتھ ساتھ ناکامی کی مثالیں

OCR آؤٹ پٹ کا جائزہ لیتے وقت یہ جدول استعمال کریں۔

اصل اسکین میں غالباً یہ نظر آتا ہےخراب OCR آؤٹ پٹیہ کیوں اہم ہے
modernmodemمعنی مکمل طور پر بدل جاتا ہے۔
Section 10Section IOقانونی یا تکنیکی حوالہ جات خراب ہو سکتے ہیں۔
20262O26تاریخیں اور IDs ناقابلِ اعتماد ہو جاتے ہیں۔
patientpatlentطبی یا تکنیکی اصطلاحات غلط ہو جاتی ہیں۔
دو الگ الگ کالمایک ملا ہوا پیراگرافترجمہ جملوں کو غلط ترتیب میں پڑھتا ہے۔
لیبلز اور قدروں والی جدول کی سطرملی جلی عبارت کی ایک سطرڈیٹا اب درست لیبل سے map نہیں ہوتا۔
حاشیے کا نشان 1حرف lنوٹس غلط جملے کے ساتھ جڑ سکتے ہیں۔

اگر آپ کو OCR تہہ میں یہ غلطیاں نظر آئیں تو ترجمہ کرنے سے پہلے OCR درست کریں۔

آپ کو کون سا ٹول استعمال کرنا چاہیے؟

انتخاب دستاویز کی مشکل کے مطابق کریں۔

دستاویزتجویز کردہ راستہ
صاف کاروباری اسکینAcrobat یا کسی اور قابلِ اعتماد OCR ٹول میں OCR کریں، پھر PDF مترجم استعمال کریں۔
پرانی کتاب کا اسکینdeskew کریں، contrast بہتر بنائیں، احتیاط سے OCR کریں، پھر ترجمہ کریں۔
علمی مقالے کا اسکینOCR کریں، equations/citations/tables کا جائزہ لیں، پھر لےآؤٹ ریویو کے ساتھ ترجمہ کریں۔
ہاتھ سے لکھی ہوئی نوٹسترجمے سے پہلے دستی transcription درکار ہو سکتی ہے۔
سادہ ذاتی دستاویزاگر رازداری کا خطرہ کم ہو تو online OCR قابلِ قبول ہو سکتا ہے۔
حساس دستاویزمقامی OCR یا قابلِ اعتماد controlled workflow استعمال کریں۔

اگر آپ کو وسیع تر ٹول موازنہ چاہیے تو بہترین PDF مترجم گائیڈ دیکھیں۔

اسکین شدہ PDF کے عام مسائل

کم resolution والے صفحات

کم resolution والے اسکین حروف کو آپس میں دھندلا دیتے ہیں۔ OCR rn اور m، cl اور d، یا punctuation اور گرد کو آپس میں گڈمڈ کر سکتا ہے۔

حل: اگر ممکن ہو تو دوبارہ اسکین کریں۔ اگر نہ ہو سکے تو contrast بڑھائیں اور دوبارہ OCR آزمائیں۔

ٹیڑھے یا مڑے ہوئے صفحات

کتابوں کے اسکین اکثر ریڑھ کے قریب مڑ جاتے ہیں۔ OCR مڑی ہوئی سطور کو خراب پڑھتا ہے اور متن کی ترتیب بدل سکتا ہے۔

حل: صفحہ ہموار کریں، دوبارہ اسکین کریں، یا ایسا OCR ٹول استعمال کریں جس میں deskew اور dewarping ہو۔

متعدد کالموں والا لےآؤٹ

OCR بائیں اور دائیں کالموں کو ملا کر ایک ہی جملوں کے سلسلے میں بدل سکتا ہے۔

حل: ترجمے سے پہلے reading order چیک کریں۔ علمی مقالات میں یہاں خاص توجہ درکار ہوتی ہے۔

جدولیں

جدولیں مشکل ہوتی ہیں کیونکہ OCR کو متن اور ساخت دونوں پہچاننی پڑتی ہیں۔ جدول ظاہری طور پر درست لگ سکتی ہے جبکہ متن کی تہہ غلط ہو۔

حل: جدول سے OCR متن کاپی کریں اور تصدیق کریں کہ لیبلز اب بھی درست قدروں سے میل کھاتے ہیں۔

ہاتھ کی لکھائی اور دستخط

چھپے ہوئے متن کا OCR، handwriting recognition کے مقابلے میں کہیں زیادہ قابلِ اعتماد ہوتا ہے۔ حاشیے میں لکھی ہوئی نوٹس، دستخط، اور بھرے ہوئے فارم چھوٹ سکتے ہیں یا بگڑ سکتے ہیں۔

حل: اہم ہاتھ کی لکھائی کو ترجمے سے پہلے دستی طور پر نقل کریں۔

ملی جلی زبانیں

OCR اس وقت بہترین کام کرتا ہے جب اسے ماخذ زبان معلوم ہو۔ ایسا اسکین جس میں English، French، اور Chinese ہوں، اگر OCR صرف ایک زبان پر سیٹ ہو تو ناکام ہو سکتا ہے۔

حل: اگر ٹول سپورٹ کرتا ہو تو تمام متعلقہ OCR زبانیں منتخب کریں، پھر ہر زبان کے حصے کی اسپاٹ چیکنگ کریں۔

رازداری اور سیکیورٹی چیک لسٹ

اسکین شدہ PDF کو کہیں بھی اپ لوڈ کرنے سے پہلے یہ پوچھیں:

  • کیا دستاویز میں ذاتی ڈیٹا موجود ہے؟
  • کیا اس میں طبی، قانونی، مالی، علمی، یا غیر مطبوعہ مواد شامل ہے؟
  • کیا یہ کسی کلائنٹ معاہدے یا اسکول پالیسی کے تحت آتی ہے؟
  • کیا اس دستاویز کے لیے online OCR سروس کی اجازت ہے؟
  • کیا اس کے بجائے آپ کو مقامی workflow کی ضرورت ہے؟
  • کیا آپ وہ صفحات ہٹا سکتے ہیں جنہیں ترجمے کی ضرورت نہیں؟

اسکین شدہ PDFs اکثر حساس ہوتی ہیں کیونکہ وہ معاہدوں، IDs، فارمز، تحقیق کے مسودات، اور اندرونی archives سے آتی ہیں۔ OCR اپ لوڈ کے فیصلوں کو اسی سنجیدگی سے لیں جس سنجیدگی سے آپ اصل دستاویز کے ساتھ برتاؤ کرتے ہیں۔

FAQ

میں اسکین شدہ PDF کا ترجمہ کیسے کروں؟

پہلے OCR چلائیں تاکہ متن کی تہہ بن جائے، OCR آؤٹ پٹ کا جائزہ لیں، پھر OCR-پروسیس شدہ PDF کو PDF مترجم کے ذریعے ترجمہ کریں۔ OCR ریویو کا مرحلہ ہرگز نہ چھوڑیں۔

Google Translate نے میری اسکین شدہ PDF کا ترجمہ کیوں نہیں کیا؟

ممکن ہے PDF صرف تصویر پر مشتمل ہو۔ اگر متن کی تہہ موجود نہیں تو Google Translate کے پاس نکالنے کے لیے متن نہیں ہوگا۔ پہلے OCR استعمال کریں، پھر ترجمہ کریں۔ Google سے متعلق مخصوص workflow Google Translate PDF گائیڈ میں دیا گیا ہے۔

کیا ChatGPT اسکین شدہ PDF کا ترجمہ کر سکتا ہے؟

ChatGPT الگ الگ تصویروں یا نکالے گئے متن میں مدد کر سکتا ہے، لیکن کئی صفحات پر مشتمل اسکین شدہ PDF کے لیے پھر بھی OCR اور جائزہ ضروری ہے۔ مکمل دستاویزی workflow کے لیے پہلے OCR کریں، پھر PDF ترجمہ workflow استعمال کریں۔

اسکین شدہ PDFs کے لیے بہترین OCR ٹول کون سا ہے؟

یہ دستاویز پر منحصر ہے۔ Acrobat اور ABBYY طرز کے ٹولز عمومی اور پیچیدہ اسکینز کے لیے مفید ہیں۔ Tesseract یا OCRmyPDF مقامی تکنیکی workflows کے لیے مفید ہے۔ کم خطرے والی سادہ فائلوں کے لیے online OCR ٹھیک ہو سکتا ہے، لیکن رازداری اور معیار مختلف ہوتے ہیں۔

کیا OCR فارمیٹنگ برقرار رکھ سکتا ہے؟

OCR متن کی تہہ بنا سکتا ہے اور بعض اوقات reading order بھی بحال کر سکتا ہے، لیکن یہ اصل ترجمہ شدہ لےآؤٹ کو محفوظ رکھنے جیسا نہیں ہے۔ OCR کے بعد PDF ترجمہ workflow استعمال کریں اور آؤٹ پٹ کو اصل کے ساتھ ملا کر دیکھیں۔

اگر OCR کا معیار خراب ہو تو کیا کریں؟

ترجمے سے پہلے اسکین بہتر بنائیں۔ اگر ممکن ہو تو دوبارہ اسکین کریں، صفحات کو deskew کریں، contrast بڑھائیں، بے ترتیبی crop کریں، درست OCR زبان منتخب کریں، اور مشکل صفحات کا دوبارہ جائزہ لیں۔