স্ক্যান করা PDF কীভাবে অনুবাদ করবেন: সম্পূর্ণ OCR + অনুবাদ গাইড

Q: Google Translate আমার স্ক্যান করা PDF কেন অনুবাদ করল না?

PDF টি হয়তো image only। text layer না থাকলে Google Translate extraction করার মতো কোনো টেক্সট পায় না। আগে OCR করুন, তারপর অনুবাদ করুন। Google নির্দিষ্ট workflow Google Translate PDF গাইড এ রয়েছে।

Q: স্ক্যান করা PDF এর জন্য সেরা OCR tool কোনটি?

এটি ডকুমেন্টের ওপর নির্ভর করে। Acrobat এবং ABBYY ধরনের tool সাধারণ ও জটিল স্ক্যানের জন্য উপযোগী। Tesseract বা OCRmyPDF local technical workflow এর জন্য উপযোগী। কম ঝুঁকির সাধারণ ফাইলের জন্য online OCR ঠিক থাকতে পারে, তবে privacy ও quality ভিন্ন হয়।

Q: OCR কি formatting অক্ষুণ্ণ রাখতে পারে?

OCR text layer তৈরি করতে পারে এবং কখনও কখনও reading order ও উদ্ধার করতে পারে, কিন্তু এটি মূল অনূদিত লেআউট অক্ষুণ্ণ রাখার সমতুল্য নয়। OCR এর পরে PDF translation workflow ব্যবহার করুন এবং output টি মূল ডকুমেন্টের সঙ্গে মিলিয়ে দেখুন।

স্ক্যান করা PDF-এ আসল টেক্সট থাকে না, টেক্সটের ছবি থাকে — তাই Google Translate সেগুলো অপরিবর্তিত ফিরিয়ে দেয়। এই সমস্যার সমাধান করে এমন OCR + AI পাইপলাইন এখানে দেওয়া হলো।

BookTranslator Team

অনুবাদ নির্দেশিকা2026-02-2811 min read

দ্রুত উত্তর: স্ক্যান করা PDF অনুবাদের আগে OCR দরকার

একটি স্ক্যান করা PDF অনুবাদ করতে হলে, প্রথমে OCR চালিয়ে পৃষ্ঠার ছবিগুলোকে সিলেক্ট করা যায় এমন টেক্সটে রূপান্তর করুন। তারপর পিডিএফ অনুবাদক-এর মতো কোনো document translator দিয়ে OCR-প্রসেসড PDF অনুবাদ করুন। আপনি যদি OCR এড়িয়ে যান, অনেক অনুবাদ টুল মূল ফাইলটি অপরিবর্তিত ফিরিয়ে দেবে, কিছু পৃষ্ঠা বাদ দেবে, অথবা যেসব অংশে আগে থেকেই text layer আছে শুধু সেগুলোকেই অনুবাদ করবে।

এই workflow ব্যবহার করুন:

PDF খুলুন এবং একটি বাক্য সিলেক্ট করার চেষ্টা করুন।
যদি টেক্সট সিলেক্ট করতে না পারেন, OCR চালান।
অনুবাদের আগে OCR করা টেক্সট রিভিউ করুন।
OCR-প্রসেসড PDF পিডিএফ অনুবাদক-এ আপলোড করুন।
অনূদিত আউটপুটটি মূল স্ক্যানের সঙ্গে মিলিয়ে দেখুন।

যদি আপনার PDF-এ আগে থেকেই selectable text থাকে এবং সমস্যা হয় লেআউট অক্ষুণ্ণ রাখা, তাহলে ফরম্যাট না হারিয়ে PDF অনুবাদের গাইড দেখুন।

কেন স্ক্যান করা PDF অনুবাদ টুলে ব্যর্থ হয়

স্ক্যান করা PDF অনেক সময় PDF container-এর ভেতরে রাখা কিছু পৃষ্ঠার ছবিমাত্র। মানুষ পৃষ্ঠায় শব্দ দেখতে পেলেও, সফটওয়্যার extraction করার জন্য ফাইলে হয়তো আসল টেক্সট থাকে না।

এতে একটি সহজ ব্যর্থতা তৈরি হয়:

ফাইলের ধরন	অনুবাদক কী দেখে	কী ঘটে
টেক্সট-ভিত্তিক PDF	টেক্সট এবং লেআউট ডেটা	অনুবাদ সঙ্গে সঙ্গে শুরু করা যায়।
শুধু-ইমেজ স্ক্যান করা PDF	পৃষ্ঠার ছবি	আগে OCR দরকার।
ইমেজের ওপর টেক্সট-লেয়ারযুক্ত PDF	স্ক্যান ছবি এবং লুকানো OCR text layer	অনুবাদ কাজ করতে পারে, কিন্তু OCR ভুল মানকে প্রভাবিত করে।

সবচেয়ে কার্যকর পরীক্ষা প্রযুক্তিগত নয়:

PDF খুলুন।
আলাদা আলাদা শব্দ highlight করার চেষ্টা করুন।
একটি বাক্য copy করুন।
সেটি একটি text editor-এ paste করুন।

যদি বাক্যটি ঠিকভাবে paste হয়, তাহলে PDF-এ text layer আছে। যদি কিছুই paste না হয়, বা পুরো পৃষ্ঠাটি একটিমাত্র ছবির মতো আচরণ করে, তাহলে PDF-টির OCR দরকার।

OCR ঐচ্ছিক নয়

OCR-এর অর্থ optical character recognition। এটি কোনো ছবির ভেতরের টেক্সট পড়ে machine-readable text তৈরি করে। PDF অনুবাদের ক্ষেত্রে OCR সাধারণত স্ক্যান করা পৃষ্ঠার ওপর একটি অদৃশ্য text layer তৈরি করে।

অনুবাদের উৎস হিসেবে সেই text layer-ই ব্যবহৃত হয়। OCR যদি ভুল করে, অনুবাদ সেই ভুল উত্তরাধিকারসূত্রে পায়।

OCR-এর সাধারণ ভুলগুলো:

OCR-এর ভুল	অনুবাদের ঝুঁকি
`rn`-কে `m` হিসেবে পড়া	শব্দের অর্থ বদলে যায়।
`1`-কে `l` হিসেবে পড়া	সংখ্যা, reference, বা code ভুল হয়ে যায়।
`O`-কে `0` হিসেবে পড়া	ID, formula, এবং নাম ভেঙে যেতে পারে।
accent চিহ্ন বাদ পড়া	নাম ও টার্ম ভুল হয়ে যায়।
কলাম একসঙ্গে মিশে যাওয়া	বাক্য ভুল ক্রমে অনুবাদ হয়।
টেবিল সেলগুলো সারি ধরে ভুলভাবে পড়া	ডেটা label আর value-র মিল থাকে না।
ফুটনোটকে body text হিসেবে ধরা	citation ও note ভুল প্রসঙ্গে চলে যায়।

এই কারণেই OCR review ধাপটি গুরুত্বপূর্ণ। extracted text নমুনা ধরে যাচাই না করে স্ক্যান করা ডকুমেন্ট অনুবাদ করবেন না।

OCR-প্রথম workflow

ধাপ 1: PDF-এর ধরন শনাক্ত করুন

টেক্সট সিলেক্ট করার চেষ্টা করুন। সিলেক্ট করা গেলে হয়তো OCR লাগবে না। সিলেক্ট করা না গেলে ফাইলটিকে শুধু-ইমেজ PDF হিসেবে ধরুন।

এছাড়াও পৃষ্ঠাটি চোখে দেখে পরীক্ষা করুন:

বেঁকে থাকা পৃষ্ঠা সাধারণত স্ক্যানের ইঙ্গিত দেয়।
ধূসর কাগজের texture স্ক্যানের ইঙ্গিত দেয়।
spine-এর কাছে ছায়া থাকলে সেটি বইয়ের ছবি হওয়ার সম্ভাবনা বেশি।
অসম contrast photocopy-এর লক্ষণ হতে পারে।
দৃশ্যমান শব্দ search-এ না পাওয়া গেলে text layer নেই বোঝায়।

ধাপ 2: সম্ভব হলে স্ক্যানের মান উন্নত করুন

OCR-এর মান শুরু হয় ইমেজের মান থেকে। যদি আবার স্ক্যান করতে পারেন, তাহলে OCR ভুল ঠিক করতে সময় দেওয়ার আগে সেটাই করুন।

এই image-quality checklist ব্যবহার করুন:

ছোট টেক্সট পড়ার জন্য যথেষ্ট উচ্চ resolution-এ স্ক্যান করুন।
পৃষ্ঠাগুলো সমতল ও সোজা রাখুন।
spine-এর কাছে ছায়া এড়িয়ে চলুন।
টেবিলের প্রান্ত, আঙুল, বা পেছনের অপ্রয়োজনীয় জিনিস crop করে বাদ দিন।
টেক্সট ও পৃষ্ঠার মধ্যে শক্ত contrast রাখুন।
পুরো লাইন যেন দৃশ্যমান থাকে।
সঠিক page orientation ব্যবহার করুন।
ইমেজ এত বেশি compress করবেন না যাতে অক্ষর ঝাপসা হয়ে যায়।

পুরনো বই ও photocopy-র ক্ষেত্রে সবচেয়ে বড় উন্নতি সাধারণত deskewing, contrast correction, এবং blur হওয়া পৃষ্ঠা আবার স্ক্যান করলে আসে।

ধাপ 3: OCR চালান

OCR টুল বেছে নিন ডকুমেন্টের ধরন দেখে, brand দেখে নয়।

OCR বিকল্প	যেটির জন্য সবচেয়ে ভালো	যে বিষয়গুলো খেয়াল রাখবেন
Adobe Acrobat OCR	সাধারণ business scan এবং PDF cleanup	এটির ওপর নির্ভর করার আগে আপনার বর্তমান plan-এ access আছে কি না দেখে নিন।
ABBYY FineReader	জটিল স্ক্যান, টেবিল, কলাম, এবং কঠিন লেআউট	তবুও manual review দরকার।
Tesseract or OCRmyPDF	লোকাল, টেকনিক্যাল, পুনরাবৃত্তিযোগ্য OCR workflow	command-line tool ব্যবহারে স্বচ্ছন্দতা দরকার।
Online OCR tools	কম-ঝুঁকির, মাঝে মাঝে ব্যবহৃত ফাইল	privacy, file limit, এবং quality ভিন্ন হয়।
Phone scanning apps	দ্রুত নতুন স্ক্যান নেওয়া	perspective distortion OCR-এর ক্ষতি করতে পারে।

গোপনীয় চুক্তি, medical record, financial document, অপ্রকাশিত manuscript, বা review-এ থাকা academic কাজের ক্ষেত্রে local OCR workflow বা বিশ্বাসযোগ্য controlled environment ব্যবহার করুন। সংবেদনশীল স্ক্যান এলোমেলো free OCR site-এ আপলোড করবেন না।

ধাপ 4: OCR করা টেক্সট রিভিউ করুন

অনুবাদের পরে নয়, অনুবাদের আগেই রিভিউ করুন। কয়েকটি কঠিন পৃষ্ঠা থেকে টেক্সট copy করে দেখুন সেটি পড়ার মতো হয়েছে কি না।

যে নমুনা পৃষ্ঠাগুলো পরীক্ষা করবেন:

title page
ঘন body text-সমৃদ্ধ একটি পৃষ্ঠা
একটি table page
footnote-সহ একটি পৃষ্ঠা
ছোট টেক্সট থাকা একটি পৃষ্ঠা
stamp, handwriting, বা margin note-সহ একটি পৃষ্ঠা
ডকুমেন্টটি multilingual হলে প্রতিটি ভাষার অন্তত একটি পৃষ্ঠা

যে বিষয়গুলো খুঁজবেন:

অনুপস্থিত paragraph
মিশে যাওয়া column
ভাঙা শব্দ
ভুল character
হারিয়ে যাওয়া diacritic
value থেকে আলাদা হয়ে যাওয়া table label
body text-এর ভেতরে ঢুকে পড়া header
বাক্যের সঙ্গে মিশে যাওয়া page number

যদি OCR-এর মান খারাপ হয়, অনুবাদের আগে সেটি ঠিক করুন। OCR কখনও যে অর্থ ধরতেই পারেনি, অনুবাদক সেটি নির্ভরযোগ্যভাবে উদ্ধার করতে পারে না।

ধাপ 5: OCR-প্রসেসড PDF অনুবাদ করুন

PDF-এ পরিষ্কার text layer তৈরি হয়ে গেলে, সেটি পিডিএফ অনুবাদক-এ আপলোড করুন। এখন অনুবাদ ধাপটি page image নয়, টেক্সট নিয়ে কাজ করতে পারবে।

অনুবাদের পরে এগুলো মিলিয়ে দেখুন:

মূল স্ক্যান
OCR text layer
অনূদিত PDF

এই তিনমুখী review আপনাকে বুঝতে সাহায্য করবে ভুলটি OCR থেকে এসেছে নাকি অনুবাদ থেকে। OCR text ভুল হলে OCR আবার চালান। OCR text ঠিক থাকলেও অনুবাদ ভুল হলে অনুবাদ ঠিক করুন।

ধাপ 6: উচ্চ-ঝুঁকির কনটেন্ট রিভিউ করুন

স্ক্যান করা ডকুমেন্টে প্রায়ই ঠিক সেসব জিনিস থাকে যেগুলো সতর্কভাবে রিভিউ করা দরকার: পুরনো চুক্তি, সরকারি ফর্ম, academic paper, manual, historical document, এবং বইয়ের পৃষ্ঠা।

এই বিষয়গুলো হাতে ধরে রিভিউ করুন:

নাম
তারিখ
সংখ্যা
ঠিকানা
product code
আইনি reference
citation
table label
unit
equation
caption
footnote

গবেষণা ও academic ফাইলের জন্য academic research paper অনুবাদের গাইড-টিও পড়ুন, কারণ স্ক্যান করা academic PDF-এ OCR ঝুঁকির পাশাপাশি citation এবং লেআউটের ঝুঁকিও যোগ হয়।

পাশাপাশি দেখা ব্যর্থতার উদাহরণ

OCR output রিভিউ করার সময় এই টেবিল ব্যবহার করুন।

মূল স্ক্যানে সম্ভবত যা আছে	খারাপ OCR output	কেন এটি গুরুত্বপূর্ণ
`modern`	`modem`	অর্থ পুরোপুরি বদলে যায়।
`Section 10`	`Section IO`	আইনি বা টেকনিক্যাল reference ভেঙে যেতে পারে।
`2026`	`2O26`	তারিখ ও ID আর নির্ভরযোগ্য থাকে না।
`patient`	`patlent`	medical বা technical term ভুল হয়ে যায়।
আলাদা দুটি column	একটি মিশে যাওয়া paragraph	বাক্য ভুল ক্রমে অনুবাদ হয়।
label ও value-সহ table row	মিশ্র টেক্সটের একটি লাইন	ডেটা আর সঠিক label-এর সঙ্গে মেলে না।
Footnote marker `1`	Letter `l`	note ভুল বাক্যের সঙ্গে যুক্ত হতে পারে।

যদি OCR layer-এ এই ধরনের ভুল দেখেন, অনুবাদের আগে OCR ঠিক করুন।

কোন টুল ব্যবহার করবেন?

ডকুমেন্টের জটিলতা দেখে টুল বেছে নিন।

ডকুমেন্ট	প্রস্তাবিত পথ
পরিষ্কার business scan	Acrobat বা অন্য কোনো নির্ভরযোগ্য OCR tool-এ OCR করুন, তারপর পিডিএফ অনুবাদক।
পুরনো বইয়ের স্ক্যান	deskew করুন, contrast উন্নত করুন, সতর্কভাবে OCR করুন, তারপর অনুবাদ করুন।
academic paper scan	OCR করুন, equation/citation/table রিভিউ করুন, তারপর layout review-সহ অনুবাদ করুন।
হাতে লেখা note	অনুবাদের আগে manual transcription লাগতে পারে।
সাধারণ ব্যক্তিগত ডকুমেন্ট	privacy ঝুঁকি কম হলে online OCR গ্রহণযোগ্য হতে পারে।
সংবেদনশীল ডকুমেন্ট	local OCR বা বিশ্বাসযোগ্য controlled workflow ব্যবহার করুন।

বিস্তৃত tool comparison চাইলে সেরা PDF অনুবাদক গাইড দেখুন।

স্ক্যান করা PDF-এর সাধারণ সমস্যা

কম-resolution-এর পৃষ্ঠা

কম-resolution-এর স্ক্যানে অক্ষরগুলো একসঙ্গে ঝাপসা হয়ে যায়। OCR তখন rn আর m, cl আর d, বা বিরামচিহ্ন আর ধুলার দাগ গুলিয়ে ফেলতে পারে।

সমাধান: সম্ভব হলে আবার স্ক্যান করুন। না পারলে contrast বাড়িয়ে আবার OCR চালান।

বেঁকে যাওয়া বা বাঁকানো পৃষ্ঠা

বইয়ের স্ক্যানে spine-এর কাছে পৃষ্ঠা প্রায়ই বাঁকানো থাকে। OCR সেই বাঁকা লাইনগুলো খারাপভাবে পড়ে এবং টেক্সটের ক্রমও পাল্টে দিতে পারে।

সমাধান: পৃষ্ঠা সমতল করুন, আবার স্ক্যান করুন, বা deskew ও dewarping-সমর্থিত OCR tool ব্যবহার করুন।

বহু-কলামের লেআউট

OCR বাম ও ডান column একত্রে মিশিয়ে একটানা বাক্যের stream বানিয়ে ফেলতে পারে।

সমাধান: অনুবাদের আগে reading order পরীক্ষা করুন। academic paper-এর ক্ষেত্রে এখানে বিশেষ মনোযোগ দরকার।

টেবিল

টেবিল কঠিন, কারণ OCR-কে একসঙ্গে টেক্সট ও structure দুটোই শনাক্ত করতে হয়। টেবিল চোখে ঠিক দেখালেও text layer ভুল হতে পারে।

সমাধান: টেবিল থেকে OCR text copy করে নিশ্চিত করুন label এখনও সঠিক value-র সঙ্গেই আছে।

হাতের লেখা ও signature

প্রিন্ট করা টেক্সটের OCR, handwriting recognition-এর তুলনায় অনেক বেশি নির্ভরযোগ্য। হাতে লেখা margin note, signature, এবং পূরণ করা form বাদ পড়তে পারে বা বিকৃত হতে পারে।

সমাধান: জরুরি হাতের লেখা অংশ অনুবাদের আগে হাতে লিখে transcribe করুন।

মিশ্র ভাষা

OCR তখনই সবচেয়ে ভালো কাজ করে যখন এটি source language জানে। English, French, এবং Chinese-সমৃদ্ধ একটি স্ক্যান OCR যদি শুধু একটি ভাষায় সেট করা থাকে, তাহলে ব্যর্থ হতে পারে।

সমাধান: টুল সমর্থন করলে সব প্রাসঙ্গিক OCR language বেছে নিন, তারপর প্রতিটি ভাষার অংশ spot-check করুন।

Privacy এবং Security checklist

স্ক্যান করা PDF কোথাও আপলোড করার আগে নিজেকে জিজ্ঞেস করুন:

ডকুমেন্টে কি personal data আছে?
এতে কি medical, legal, financial, academic, বা unpublished material আছে?
এটি কি client agreement বা school policy-র আওতায় পড়ে?
এই ডকুমেন্টের জন্য online OCR service ব্যবহার করা অনুমোদিত কি?
এর বদলে কি local workflow দরকার?
অনুবাদ দরকার নেই এমন পৃষ্ঠা কি বাদ দিতে পারেন?

স্ক্যান করা PDF প্রায়ই সংবেদনশীল হয়, কারণ সেগুলো চুক্তি, ID, form, research draft, এবং internal archive থেকে আসে। OCR upload-এর সিদ্ধান্তও মূল ডকুমেন্টের মতোই সতর্কতার সঙ্গে নিন।

FAQ

স্ক্যান করা PDF কীভাবে অনুবাদ করব?

প্রথমে OCR চালিয়ে text layer তৈরি করুন, OCR output রিভিউ করুন, তারপর পিডিএফ অনুবাদক দিয়ে OCR-প্রসেসড PDF অনুবাদ করুন। OCR review ধাপটি এড়িয়ে যাবেন না।

Google Translate আমার স্ক্যান করা PDF কেন অনুবাদ করল না?

PDF-টি হয়তো image-only। text layer না থাকলে Google Translate extraction করার মতো কোনো টেক্সট পায় না। আগে OCR করুন, তারপর অনুবাদ করুন। Google-নির্দিষ্ট workflow Google Translate PDF গাইড-এ রয়েছে।

ChatGPT কি স্ক্যান করা PDF অনুবাদ করতে পারে?

ChatGPT আলাদা image বা extracted text নিয়ে সাহায্য করতে পারে, কিন্তু বহু-পৃষ্ঠার স্ক্যান করা PDF-এর জন্য তবুও OCR এবং review দরকার। পুরো document workflow-এর জন্য আগে OCR করুন, তারপর PDF translation workflow ব্যবহার করুন।

স্ক্যান করা PDF-এর জন্য সেরা OCR tool কোনটি?

এটি ডকুমেন্টের ওপর নির্ভর করে। Acrobat এবং ABBYY-ধরনের tool সাধারণ ও জটিল স্ক্যানের জন্য উপযোগী। Tesseract বা OCRmyPDF local technical workflow-এর জন্য উপযোগী। কম-ঝুঁকির সাধারণ ফাইলের জন্য online OCR ঠিক থাকতে পারে, তবে privacy ও quality ভিন্ন হয়।

OCR কি formatting অক্ষুণ্ণ রাখতে পারে?

OCR text layer তৈরি করতে পারে এবং কখনও কখনও reading order-ও উদ্ধার করতে পারে, কিন্তু এটি মূল অনূদিত লেআউট অক্ষুণ্ণ রাখার সমতুল্য নয়। OCR-এর পরে PDF translation workflow ব্যবহার করুন এবং output-টি মূল ডকুমেন্টের সঙ্গে মিলিয়ে দেখুন।

OCR-এর মান খারাপ হলে কী করব?

অনুবাদের আগে স্ক্যান উন্নত করুন। সম্ভব হলে আবার স্ক্যান করুন, পৃষ্ঠা deskew করুন, contrast বাড়ান, অপ্রয়োজনীয় জিনিস crop করুন, সঠিক OCR language বেছে নিন, এবং কঠিন পৃষ্ঠাগুলো আবার রিভিউ করুন।