BookTranslator
BookTranslator

স্ক্যান করা PDF কীভাবে অনুবাদ করবেন: সম্পূর্ণ OCR + অনুবাদ গাইড

স্ক্যান করা PDF-এ আসল টেক্সট থাকে না, টেক্সটের ছবি থাকে — তাই Google Translate সেগুলো অপরিবর্তিত ফিরিয়ে দেয়। এই সমস্যার সমাধান করে এমন OCR + AI পাইপলাইন এখানে দেওয়া হলো।

BookTranslator

BookTranslator Team

অনুবাদ নির্দেশিকা11 min read

দ্রুত উত্তর: স্ক্যান করা PDF অনুবাদের আগে OCR দরকার

একটি স্ক্যান করা PDF অনুবাদ করতে হলে, প্রথমে OCR চালিয়ে পৃষ্ঠার ছবিগুলোকে সিলেক্ট করা যায় এমন টেক্সটে রূপান্তর করুন। তারপর পিডিএফ অনুবাদক-এর মতো কোনো document translator দিয়ে OCR-প্রসেসড PDF অনুবাদ করুন। আপনি যদি OCR এড়িয়ে যান, অনেক অনুবাদ টুল মূল ফাইলটি অপরিবর্তিত ফিরিয়ে দেবে, কিছু পৃষ্ঠা বাদ দেবে, অথবা যেসব অংশে আগে থেকেই text layer আছে শুধু সেগুলোকেই অনুবাদ করবে।

এই workflow ব্যবহার করুন:

  1. PDF খুলুন এবং একটি বাক্য সিলেক্ট করার চেষ্টা করুন।
  2. যদি টেক্সট সিলেক্ট করতে না পারেন, OCR চালান।
  3. অনুবাদের আগে OCR করা টেক্সট রিভিউ করুন।
  4. OCR-প্রসেসড PDF পিডিএফ অনুবাদক-এ আপলোড করুন।
  5. অনূদিত আউটপুটটি মূল স্ক্যানের সঙ্গে মিলিয়ে দেখুন।

যদি আপনার PDF-এ আগে থেকেই selectable text থাকে এবং সমস্যা হয় লেআউট অক্ষুণ্ণ রাখা, তাহলে ফরম্যাট না হারিয়ে PDF অনুবাদের গাইড দেখুন।

কেন স্ক্যান করা PDF অনুবাদ টুলে ব্যর্থ হয়

স্ক্যান করা PDF অনেক সময় PDF container-এর ভেতরে রাখা কিছু পৃষ্ঠার ছবিমাত্র। মানুষ পৃষ্ঠায় শব্দ দেখতে পেলেও, সফটওয়্যার extraction করার জন্য ফাইলে হয়তো আসল টেক্সট থাকে না।

এতে একটি সহজ ব্যর্থতা তৈরি হয়:

ফাইলের ধরনঅনুবাদক কী দেখেকী ঘটে
টেক্সট-ভিত্তিক PDFটেক্সট এবং লেআউট ডেটাঅনুবাদ সঙ্গে সঙ্গে শুরু করা যায়।
শুধু-ইমেজ স্ক্যান করা PDFপৃষ্ঠার ছবিআগে OCR দরকার।
ইমেজের ওপর টেক্সট-লেয়ারযুক্ত PDFস্ক্যান ছবি এবং লুকানো OCR text layerঅনুবাদ কাজ করতে পারে, কিন্তু OCR ভুল মানকে প্রভাবিত করে।

সবচেয়ে কার্যকর পরীক্ষা প্রযুক্তিগত নয়:

  1. PDF খুলুন।
  2. আলাদা আলাদা শব্দ highlight করার চেষ্টা করুন।
  3. একটি বাক্য copy করুন।
  4. সেটি একটি text editor-এ paste করুন।

যদি বাক্যটি ঠিকভাবে paste হয়, তাহলে PDF-এ text layer আছে। যদি কিছুই paste না হয়, বা পুরো পৃষ্ঠাটি একটিমাত্র ছবির মতো আচরণ করে, তাহলে PDF-টির OCR দরকার।

OCR ঐচ্ছিক নয়

OCR-এর অর্থ optical character recognition। এটি কোনো ছবির ভেতরের টেক্সট পড়ে machine-readable text তৈরি করে। PDF অনুবাদের ক্ষেত্রে OCR সাধারণত স্ক্যান করা পৃষ্ঠার ওপর একটি অদৃশ্য text layer তৈরি করে।

অনুবাদের উৎস হিসেবে সেই text layer-ই ব্যবহৃত হয়। OCR যদি ভুল করে, অনুবাদ সেই ভুল উত্তরাধিকারসূত্রে পায়।

OCR-এর সাধারণ ভুলগুলো:

OCR-এর ভুলঅনুবাদের ঝুঁকি
rn-কে m হিসেবে পড়াশব্দের অর্থ বদলে যায়।
1-কে l হিসেবে পড়াসংখ্যা, reference, বা code ভুল হয়ে যায়।
O-কে 0 হিসেবে পড়াID, formula, এবং নাম ভেঙে যেতে পারে।
accent চিহ্ন বাদ পড়ানাম ও টার্ম ভুল হয়ে যায়।
কলাম একসঙ্গে মিশে যাওয়াবাক্য ভুল ক্রমে অনুবাদ হয়।
টেবিল সেলগুলো সারি ধরে ভুলভাবে পড়াডেটা label আর value-র মিল থাকে না।
ফুটনোটকে body text হিসেবে ধরাcitation ও note ভুল প্রসঙ্গে চলে যায়।

এই কারণেই OCR review ধাপটি গুরুত্বপূর্ণ। extracted text নমুনা ধরে যাচাই না করে স্ক্যান করা ডকুমেন্ট অনুবাদ করবেন না।

OCR-প্রথম workflow

ধাপ 1: PDF-এর ধরন শনাক্ত করুন

টেক্সট সিলেক্ট করার চেষ্টা করুন। সিলেক্ট করা গেলে হয়তো OCR লাগবে না। সিলেক্ট করা না গেলে ফাইলটিকে শুধু-ইমেজ PDF হিসেবে ধরুন।

এছাড়াও পৃষ্ঠাটি চোখে দেখে পরীক্ষা করুন:

  • বেঁকে থাকা পৃষ্ঠা সাধারণত স্ক্যানের ইঙ্গিত দেয়।
  • ধূসর কাগজের texture স্ক্যানের ইঙ্গিত দেয়।
  • spine-এর কাছে ছায়া থাকলে সেটি বইয়ের ছবি হওয়ার সম্ভাবনা বেশি।
  • অসম contrast photocopy-এর লক্ষণ হতে পারে।
  • দৃশ্যমান শব্দ search-এ না পাওয়া গেলে text layer নেই বোঝায়।

ধাপ 2: সম্ভব হলে স্ক্যানের মান উন্নত করুন

OCR-এর মান শুরু হয় ইমেজের মান থেকে। যদি আবার স্ক্যান করতে পারেন, তাহলে OCR ভুল ঠিক করতে সময় দেওয়ার আগে সেটাই করুন।

এই image-quality checklist ব্যবহার করুন:

  • ছোট টেক্সট পড়ার জন্য যথেষ্ট উচ্চ resolution-এ স্ক্যান করুন।
  • পৃষ্ঠাগুলো সমতল ও সোজা রাখুন।
  • spine-এর কাছে ছায়া এড়িয়ে চলুন।
  • টেবিলের প্রান্ত, আঙুল, বা পেছনের অপ্রয়োজনীয় জিনিস crop করে বাদ দিন।
  • টেক্সট ও পৃষ্ঠার মধ্যে শক্ত contrast রাখুন।
  • পুরো লাইন যেন দৃশ্যমান থাকে।
  • সঠিক page orientation ব্যবহার করুন।
  • ইমেজ এত বেশি compress করবেন না যাতে অক্ষর ঝাপসা হয়ে যায়।

পুরনো বই ও photocopy-র ক্ষেত্রে সবচেয়ে বড় উন্নতি সাধারণত deskewing, contrast correction, এবং blur হওয়া পৃষ্ঠা আবার স্ক্যান করলে আসে।

ধাপ 3: OCR চালান

OCR টুল বেছে নিন ডকুমেন্টের ধরন দেখে, brand দেখে নয়।

OCR বিকল্পযেটির জন্য সবচেয়ে ভালোযে বিষয়গুলো খেয়াল রাখবেন
Adobe Acrobat OCRসাধারণ business scan এবং PDF cleanupএটির ওপর নির্ভর করার আগে আপনার বর্তমান plan-এ access আছে কি না দেখে নিন।
ABBYY FineReaderজটিল স্ক্যান, টেবিল, কলাম, এবং কঠিন লেআউটতবুও manual review দরকার।
Tesseract or OCRmyPDFলোকাল, টেকনিক্যাল, পুনরাবৃত্তিযোগ্য OCR workflowcommand-line tool ব্যবহারে স্বচ্ছন্দতা দরকার।
Online OCR toolsকম-ঝুঁকির, মাঝে মাঝে ব্যবহৃত ফাইলprivacy, file limit, এবং quality ভিন্ন হয়।
Phone scanning appsদ্রুত নতুন স্ক্যান নেওয়াperspective distortion OCR-এর ক্ষতি করতে পারে।

গোপনীয় চুক্তি, medical record, financial document, অপ্রকাশিত manuscript, বা review-এ থাকা academic কাজের ক্ষেত্রে local OCR workflow বা বিশ্বাসযোগ্য controlled environment ব্যবহার করুন। সংবেদনশীল স্ক্যান এলোমেলো free OCR site-এ আপলোড করবেন না।

ধাপ 4: OCR করা টেক্সট রিভিউ করুন

অনুবাদের পরে নয়, অনুবাদের আগেই রিভিউ করুন। কয়েকটি কঠিন পৃষ্ঠা থেকে টেক্সট copy করে দেখুন সেটি পড়ার মতো হয়েছে কি না।

যে নমুনা পৃষ্ঠাগুলো পরীক্ষা করবেন:

  • title page
  • ঘন body text-সমৃদ্ধ একটি পৃষ্ঠা
  • একটি table page
  • footnote-সহ একটি পৃষ্ঠা
  • ছোট টেক্সট থাকা একটি পৃষ্ঠা
  • stamp, handwriting, বা margin note-সহ একটি পৃষ্ঠা
  • ডকুমেন্টটি multilingual হলে প্রতিটি ভাষার অন্তত একটি পৃষ্ঠা

যে বিষয়গুলো খুঁজবেন:

  • অনুপস্থিত paragraph
  • মিশে যাওয়া column
  • ভাঙা শব্দ
  • ভুল character
  • হারিয়ে যাওয়া diacritic
  • value থেকে আলাদা হয়ে যাওয়া table label
  • body text-এর ভেতরে ঢুকে পড়া header
  • বাক্যের সঙ্গে মিশে যাওয়া page number

যদি OCR-এর মান খারাপ হয়, অনুবাদের আগে সেটি ঠিক করুন। OCR কখনও যে অর্থ ধরতেই পারেনি, অনুবাদক সেটি নির্ভরযোগ্যভাবে উদ্ধার করতে পারে না।

ধাপ 5: OCR-প্রসেসড PDF অনুবাদ করুন

PDF-এ পরিষ্কার text layer তৈরি হয়ে গেলে, সেটি পিডিএফ অনুবাদক-এ আপলোড করুন। এখন অনুবাদ ধাপটি page image নয়, টেক্সট নিয়ে কাজ করতে পারবে।

অনুবাদের পরে এগুলো মিলিয়ে দেখুন:

  • মূল স্ক্যান
  • OCR text layer
  • অনূদিত PDF

এই তিনমুখী review আপনাকে বুঝতে সাহায্য করবে ভুলটি OCR থেকে এসেছে নাকি অনুবাদ থেকে। OCR text ভুল হলে OCR আবার চালান। OCR text ঠিক থাকলেও অনুবাদ ভুল হলে অনুবাদ ঠিক করুন।

ধাপ 6: উচ্চ-ঝুঁকির কনটেন্ট রিভিউ করুন

স্ক্যান করা ডকুমেন্টে প্রায়ই ঠিক সেসব জিনিস থাকে যেগুলো সতর্কভাবে রিভিউ করা দরকার: পুরনো চুক্তি, সরকারি ফর্ম, academic paper, manual, historical document, এবং বইয়ের পৃষ্ঠা।

এই বিষয়গুলো হাতে ধরে রিভিউ করুন:

  • নাম
  • তারিখ
  • সংখ্যা
  • ঠিকানা
  • product code
  • আইনি reference
  • citation
  • table label
  • unit
  • equation
  • caption
  • footnote

গবেষণা ও academic ফাইলের জন্য academic research paper অনুবাদের গাইড-টিও পড়ুন, কারণ স্ক্যান করা academic PDF-এ OCR ঝুঁকির পাশাপাশি citation এবং লেআউটের ঝুঁকিও যোগ হয়।

পাশাপাশি দেখা ব্যর্থতার উদাহরণ

OCR output রিভিউ করার সময় এই টেবিল ব্যবহার করুন।

মূল স্ক্যানে সম্ভবত যা আছেখারাপ OCR outputকেন এটি গুরুত্বপূর্ণ
modernmodemঅর্থ পুরোপুরি বদলে যায়।
Section 10Section IOআইনি বা টেকনিক্যাল reference ভেঙে যেতে পারে।
20262O26তারিখ ও ID আর নির্ভরযোগ্য থাকে না।
patientpatlentmedical বা technical term ভুল হয়ে যায়।
আলাদা দুটি columnএকটি মিশে যাওয়া paragraphবাক্য ভুল ক্রমে অনুবাদ হয়।
label ও value-সহ table rowমিশ্র টেক্সটের একটি লাইনডেটা আর সঠিক label-এর সঙ্গে মেলে না।
Footnote marker 1Letter lnote ভুল বাক্যের সঙ্গে যুক্ত হতে পারে।

যদি OCR layer-এ এই ধরনের ভুল দেখেন, অনুবাদের আগে OCR ঠিক করুন।

কোন টুল ব্যবহার করবেন?

ডকুমেন্টের জটিলতা দেখে টুল বেছে নিন।

ডকুমেন্টপ্রস্তাবিত পথ
পরিষ্কার business scanAcrobat বা অন্য কোনো নির্ভরযোগ্য OCR tool-এ OCR করুন, তারপর পিডিএফ অনুবাদক
পুরনো বইয়ের স্ক্যানdeskew করুন, contrast উন্নত করুন, সতর্কভাবে OCR করুন, তারপর অনুবাদ করুন।
academic paper scanOCR করুন, equation/citation/table রিভিউ করুন, তারপর layout review-সহ অনুবাদ করুন।
হাতে লেখা noteঅনুবাদের আগে manual transcription লাগতে পারে।
সাধারণ ব্যক্তিগত ডকুমেন্টprivacy ঝুঁকি কম হলে online OCR গ্রহণযোগ্য হতে পারে।
সংবেদনশীল ডকুমেন্টlocal OCR বা বিশ্বাসযোগ্য controlled workflow ব্যবহার করুন।

বিস্তৃত tool comparison চাইলে সেরা PDF অনুবাদক গাইড দেখুন।

স্ক্যান করা PDF-এর সাধারণ সমস্যা

কম-resolution-এর পৃষ্ঠা

কম-resolution-এর স্ক্যানে অক্ষরগুলো একসঙ্গে ঝাপসা হয়ে যায়। OCR তখন rn আর m, cl আর d, বা বিরামচিহ্ন আর ধুলার দাগ গুলিয়ে ফেলতে পারে।

সমাধান: সম্ভব হলে আবার স্ক্যান করুন। না পারলে contrast বাড়িয়ে আবার OCR চালান।

বেঁকে যাওয়া বা বাঁকানো পৃষ্ঠা

বইয়ের স্ক্যানে spine-এর কাছে পৃষ্ঠা প্রায়ই বাঁকানো থাকে। OCR সেই বাঁকা লাইনগুলো খারাপভাবে পড়ে এবং টেক্সটের ক্রমও পাল্টে দিতে পারে।

সমাধান: পৃষ্ঠা সমতল করুন, আবার স্ক্যান করুন, বা deskew ও dewarping-সমর্থিত OCR tool ব্যবহার করুন।

বহু-কলামের লেআউট

OCR বাম ও ডান column একত্রে মিশিয়ে একটানা বাক্যের stream বানিয়ে ফেলতে পারে।

সমাধান: অনুবাদের আগে reading order পরীক্ষা করুন। academic paper-এর ক্ষেত্রে এখানে বিশেষ মনোযোগ দরকার।

টেবিল

টেবিল কঠিন, কারণ OCR-কে একসঙ্গে টেক্সট ও structure দুটোই শনাক্ত করতে হয়। টেবিল চোখে ঠিক দেখালেও text layer ভুল হতে পারে।

সমাধান: টেবিল থেকে OCR text copy করে নিশ্চিত করুন label এখনও সঠিক value-র সঙ্গেই আছে।

হাতের লেখা ও signature

প্রিন্ট করা টেক্সটের OCR, handwriting recognition-এর তুলনায় অনেক বেশি নির্ভরযোগ্য। হাতে লেখা margin note, signature, এবং পূরণ করা form বাদ পড়তে পারে বা বিকৃত হতে পারে।

সমাধান: জরুরি হাতের লেখা অংশ অনুবাদের আগে হাতে লিখে transcribe করুন।

মিশ্র ভাষা

OCR তখনই সবচেয়ে ভালো কাজ করে যখন এটি source language জানে। English, French, এবং Chinese-সমৃদ্ধ একটি স্ক্যান OCR যদি শুধু একটি ভাষায় সেট করা থাকে, তাহলে ব্যর্থ হতে পারে।

সমাধান: টুল সমর্থন করলে সব প্রাসঙ্গিক OCR language বেছে নিন, তারপর প্রতিটি ভাষার অংশ spot-check করুন।

Privacy এবং Security checklist

স্ক্যান করা PDF কোথাও আপলোড করার আগে নিজেকে জিজ্ঞেস করুন:

  • ডকুমেন্টে কি personal data আছে?
  • এতে কি medical, legal, financial, academic, বা unpublished material আছে?
  • এটি কি client agreement বা school policy-র আওতায় পড়ে?
  • এই ডকুমেন্টের জন্য online OCR service ব্যবহার করা অনুমোদিত কি?
  • এর বদলে কি local workflow দরকার?
  • অনুবাদ দরকার নেই এমন পৃষ্ঠা কি বাদ দিতে পারেন?

স্ক্যান করা PDF প্রায়ই সংবেদনশীল হয়, কারণ সেগুলো চুক্তি, ID, form, research draft, এবং internal archive থেকে আসে। OCR upload-এর সিদ্ধান্তও মূল ডকুমেন্টের মতোই সতর্কতার সঙ্গে নিন।

FAQ

স্ক্যান করা PDF কীভাবে অনুবাদ করব?

প্রথমে OCR চালিয়ে text layer তৈরি করুন, OCR output রিভিউ করুন, তারপর পিডিএফ অনুবাদক দিয়ে OCR-প্রসেসড PDF অনুবাদ করুন। OCR review ধাপটি এড়িয়ে যাবেন না।

Google Translate আমার স্ক্যান করা PDF কেন অনুবাদ করল না?

PDF-টি হয়তো image-only। text layer না থাকলে Google Translate extraction করার মতো কোনো টেক্সট পায় না। আগে OCR করুন, তারপর অনুবাদ করুন। Google-নির্দিষ্ট workflow Google Translate PDF গাইড-এ রয়েছে।

ChatGPT কি স্ক্যান করা PDF অনুবাদ করতে পারে?

ChatGPT আলাদা image বা extracted text নিয়ে সাহায্য করতে পারে, কিন্তু বহু-পৃষ্ঠার স্ক্যান করা PDF-এর জন্য তবুও OCR এবং review দরকার। পুরো document workflow-এর জন্য আগে OCR করুন, তারপর PDF translation workflow ব্যবহার করুন।

স্ক্যান করা PDF-এর জন্য সেরা OCR tool কোনটি?

এটি ডকুমেন্টের ওপর নির্ভর করে। Acrobat এবং ABBYY-ধরনের tool সাধারণ ও জটিল স্ক্যানের জন্য উপযোগী। Tesseract বা OCRmyPDF local technical workflow-এর জন্য উপযোগী। কম-ঝুঁকির সাধারণ ফাইলের জন্য online OCR ঠিক থাকতে পারে, তবে privacy ও quality ভিন্ন হয়।

OCR কি formatting অক্ষুণ্ণ রাখতে পারে?

OCR text layer তৈরি করতে পারে এবং কখনও কখনও reading order-ও উদ্ধার করতে পারে, কিন্তু এটি মূল অনূদিত লেআউট অক্ষুণ্ণ রাখার সমতুল্য নয়। OCR-এর পরে PDF translation workflow ব্যবহার করুন এবং output-টি মূল ডকুমেন্টের সঙ্গে মিলিয়ে দেখুন।

OCR-এর মান খারাপ হলে কী করব?

অনুবাদের আগে স্ক্যান উন্নত করুন। সম্ভব হলে আবার স্ক্যান করুন, পৃষ্ঠা deskew করুন, contrast বাড়ান, অপ্রয়োজনীয় জিনিস crop করুন, সঠিক OCR language বেছে নিন, এবং কঠিন পৃষ্ঠাগুলো আবার রিভিউ করুন।