स्क्यान गरिएको PDF कसरी अनुवाद गर्ने: पूर्ण OCR + अनुवाद मार्गदर्शिका

Q: Google Translate ले मेरो scanned PDF किन अनुवाद गरेन?

PDF image only हुन सक्छ। यदि text layer छैन भने, Google Translate सँग निकाल्ने पाठ हुँदैन। पहिले OCR गर्नुहोस्, त्यसपछि अनुवाद गर्नुहोस्। Google विशेष workflow Google Translate PDF गाइड मा समेटिएको छ।

स्क्यान गरिएको PDF मा वास्तविक पाठ होइन, पाठका तस्बिरहरू हुन्छन् — त्यसैले Google Translate ले तिनलाई जस्ताको तस्तै फिर्ता गर्छ। यसलाई ठीक गर्ने OCR + AI पाइपलाइन यहाँ छ।

BookTranslator Team

अनुवाद मार्गनिर्देशहरू2026-02-2811 min read

छिटो उत्तर: स्क्यान गरिएको PDF अनुवाद गर्न OCR पहिले चाहिन्छ

स्क्यान गरिएको PDF अनुवाद गर्न, पहिले OCR चलाएर पृष्ठका तस्बिरहरूलाई चयन गर्न मिल्ने पाठमा बदल्नुहोस्। त्यसपछि PDF Translator जस्ता दस्तावेज अनुवादक प्रयोग गरेर OCR-प्रोसेस गरिएको PDF अनुवाद गर्नुहोस्। यदि तपाईंले OCR चरण छोड्नुभयो भने, धेरै translation tools ले मूल फाइल जस्ताको तस्तै फिर्ता गर्छन्, केही पृष्ठ छुटाउँछन्, वा पहिले नै text layer भएका भागहरू मात्र अनुवाद गर्छन्।

यो workflow प्रयोग गर्नुहोस्:

PDF खोल्नुहोस् र एउटा वाक्य चयन गर्न प्रयास गर्नुहोस्।
यदि पाठ चयन गर्न सकिँदैन भने, OCR चलाउनुहोस्।
अनुवाद गर्नु अघि OCR पाठ जाँच गर्नुहोस्।
OCR-प्रोसेस गरिएको PDF PDF Translator मा अपलोड गर्नुहोस्।
अनुवाद गरिएको नतिजालाई मूल scan सँग दाँजेर जाँच गर्नुहोस्।

यदि तपाईंको PDF मा पहिले नै चयन गर्न मिल्ने पाठ छ र समस्या layout जोगाउने हो भने, फर्म्याटिङ नगुमाई PDF अनुवाद गर्ने गाइड प्रयोग गर्नुहोस्।

स्क्यान गरिएको PDF अनुवाद उपकरणहरूमा किन असफल हुन्छ

स्क्यान गरिएको PDF प्रायः PDF container भित्र राखिएका पृष्ठ-तस्बिरहरूको सेट मात्र हुन्छ। पृष्ठले मानिसलाई शब्द देखाउन सक्छ, तर software ले निकाल्न सक्ने वास्तविक पाठ फाइलमा नहुन सक्छ।

यसले एउटा सरल समस्या सिर्जना गर्छ:

फाइल प्रकार	अनुवादकले के देख्छ	के हुन्छ
टेक्स्ट-आधारित PDF	पाठ र layout data	अनुवाद तुरुन्त सुरु गर्न सकिन्छ।
तस्बिर-मात्र स्क्यान PDF	पृष्ठका तस्बिरहरू	पहिले OCR आवश्यक हुन्छ।
तस्बिरमाथि-पाठ भएको PDF	scan image र लुकेको OCR text layer	अनुवाद सम्भव हुन्छ, तर OCR त्रुटिले गुणस्तर घटाउँछ।

सबैभन्दा उपयोगी परीक्षण प्राविधिक होइन:

PDF खोल्नुहोस्।
छुट्टाछुट्टै शब्द highlight गर्न प्रयास गर्नुहोस्।
एउटा वाक्य copy गर्नुहोस्।
त्यसलाई text editor मा paste गर्नुहोस्।

यदि वाक्य ठीकसँग paste हुन्छ भने, PDF मा text layer छ। यदि केही पनि paste हुँदैन, वा पूरा पृष्ठ एउटै image जस्तो व्यवहार गर्छ भने, PDF लाई OCR चाहिन्छ।

OCR वैकल्पिक होइन

OCR को अर्थ optical character recognition हो। यसले तस्बिरबाट पाठ पढेर machine-readable text बनाउँछ। PDF अनुवादका लागि, OCR ले सामान्यतया स्क्यान गरिएको पृष्ठमाथि अदृश्य text layer बनाउँछ।

त्यही text layer अनुवादको स्रोत बन्छ। OCR ले गल्ती गरेमा, अनुवादले पनि त्यही गल्ती बोक्छ।

सामान्य OCR त्रुटिहरू:

OCR त्रुटि	अनुवाद जोखिम
`rn` लाई `m` रूपमा पढिनु	शब्दको अर्थ बदलिन सक्छ।
`1` लाई `l` रूपमा पढिनु	संख्या, reference, वा code गलत हुन सक्छ।
`O` लाई `0` रूपमा पढिनु	ID, formula, र नाम बिग्रन सक्छन्।
accent हराउनु	नाम र term हरू अशुद्ध हुन सक्छन्।
column हरू मिसिनु	वाक्य गलत क्रममा अनुवाद हुन सक्छन्।
table cell हरू row-by-row गलत पढिनु	data label हरू मानहरूसँग मिल्न छोड्छन्।
footnote लाई body text जस्तो मानिनु	citation र note गलत सन्दर्भमा सर्न सक्छन्।

त्यसैले OCR review चरण महत्त्वपूर्ण हुन्छ। निकालिएको पाठ नमुना जाँच नगरी स्क्यान गरिएको दस्तावेज अनुवाद नगर्नुहोस्।

OCR-प्रथम कार्यप्रवाह

चरण 1: PDF को प्रकार पहिचान गर्नुहोस्

पाठ चयन गर्न प्रयास गर्नुहोस्। यदि selection काम गर्छ भने, OCR आवश्यक नहुन सक्छ। यदि selection असफल हुन्छ भने, फाइललाई image-only मानेर अघि बढ्नुहोस्।

पृष्ठलाई दृश्य रूपमा पनि जाँच गर्नुहोस्:

टेढा पृष्ठ scan भएको संकेत हुन सक्छ।
खैरो कागजको texture scan भएको संकेत हुन सक्छ।
spine नजिक छायाँ देखिनु फोटो खिचिएको किताबको संकेत हुन सक्छ।
असमान contrast photocopy को संकेत हुन सक्छ।
देखिने शब्द खोज्दा पनि search ले केही नपाउनु भनेको text layer नभएको संकेत हो।

चरण 2: सम्भव भए scan सुधार गर्नुहोस्

OCR को गुणस्तर image quality बाट सुरु हुन्छ। यदि पुन: scan गर्न सकिन्छ भने, OCR त्रुटि सुधार्न समय खर्च गर्नु अघि त्यही गर्नुहोस्।

यो image-quality checklist प्रयोग गर्नुहोस्:

सानो पाठका लागि पर्याप्त resolution मा scan गर्नुहोस्।
पृष्ठहरू समतल र सीधा राख्नुहोस्।
spine नजिक छायाँ नपरोस्।
table edge, औँला, वा background clutter crop गरेर हटाउनुहोस्।
पाठ र पृष्ठबीच पर्याप्त contrast राख्नुहोस्।
पूरा लाइन स्पष्ट रूपमा देखिने बनाउनुहोस्।
सही page orientation प्रयोग गर्नुहोस्।
image लाई यति धेरै compress नगर्नुहोस् कि अक्षर धमिला होउन्।

पुराना किताब र photocopy हरूका लागि, झुकेको पृष्ठ सिधा पार्नु, contrast correction गर्नु, र focus बाहिर भएका पृष्ठहरू पुन: scan गर्नु नै प्रायः सबैभन्दा उपयोगी सुधार हुन्छ।

चरण 3: OCR चलाउनुहोस्

OCR tool छान्दा brand होइन, document हेरेर छान्नुहोस्।

OCR विकल्प	यसका लागि सबैभन्दा उपयुक्त	ध्यान दिनुपर्ने कुरा
Adobe Acrobat OCR	सामान्य business scan र PDF cleanup	यसमा भर पर्नुअघि हालको plan access जाँच गर्नुहोस्।
ABBYY FineReader	जटिल scan, table, column, र कठिन layout	manual review अझै पनि आवश्यक हुन्छ।
Tesseract or OCRmyPDF	local, technical, र repeatable OCR workflow	command-line tools सँग सहज हुनुपर्छ।
Online OCR tools	कम जोखिम भएका कहिलेकाहीँका फाइल	privacy, file limit, र quality फरक-फरक हुन्छ।
Phone scanning apps	छिट्टै नयाँ scan capture गर्न	perspective distortion ले OCR बिगार्न सक्छ।

गोप्य contract, medical record, financial document, अप्रकाशित manuscript, वा समीक्षाधीन academic work का लागि local OCR workflow वा विश्वसनीय environment रोज्नुहोस्। संवेदनशील scan हरू जथाभावी नि:शुल्क OCR site मा अपलोड नगर्नुहोस्।

चरण 4: OCR पाठ जाँच गर्नुहोस्

अनुवादपछि होइन, अनुवादअघि समीक्षा गर्नुहोस्। केही जटिल पृष्ठहरूबाट पाठ copy गरेर त्यो पढ्न मिल्ने छ कि छैन जाँच गर्नुहोस्।

जाँच गर्नुपर्ने sample page हरू:

title page
धेरै बाक्लो body text भएको पृष्ठ
table भएको पृष्ठ
footnote भएको पृष्ठ
सानो पाठ भएको पृष्ठ
stamp, handwriting, वा margin note भएको पृष्ठ
document बहुभाषिक छ भने हरेक भाषाको एउटा पृष्ठ

यी कुरा खोज्नुहोस्:

हराएका paragraph
मिसिएका column
टुटेका शब्द
गलत character
हराएका diacritic
मानबाट छुट्टिएका table label
body text भित्र घुसाइएका header
वाक्यमा मिसिएका page number

यदि OCR को गुणस्तर कमजोर छ भने, अनुवादअघि नै त्यसलाई सुधार गर्नुहोस्। OCR ले समात्नै नसकेको अर्थ अनुवादकले भरपर्दो रूपमा पुनर्स्थापित गर्न सक्दैन।

चरण 5: OCR-प्रोसेस गरिएको PDF अनुवाद गर्नुहोस्

PDF मा सफा text layer तयार भएपछि, त्यसलाई PDF Translator मा अपलोड गर्नुहोस्। अब अनुवाद चरणले page image होइन, पाठसँग काम गर्न सक्छ।

अनुवादपछि यी तीन कुरा दाँजेर हेर्नुहोस्:

मूल scan
OCR text layer
अनुवाद गरिएको PDF

यो तीन-तरफा समीक्षा गर्दा त्रुटि OCR बाट आयो कि अनुवादबाट भन्ने छुट्याउन सजिलो हुन्छ। यदि OCR text गलत छ भने OCR फेरि चलाउनुहोस्। यदि OCR text सही छ तर अनुवाद गलत छ भने, अनुवाद सच्याउनुहोस्।

चरण 6: उच्च-जोखिम सामग्री जाँच गर्नुहोस्

स्क्यान गरिएका दस्तावेजहरूमा प्रायः यस्तै सामग्री हुन्छ जसलाई विशेष सावधानीका साथ जाँच गर्नुपर्छ: पुराना contract, government form, academic paper, manual, historical document, र book page।

यी वस्तुहरू manual रूपमा जाँच गर्नुहोस्:

नाम
मिति
संख्या
ठेगाना
product code
कानुनी reference
citation
table label
unit
equation
caption
footnote

research र academic file का लागि शैक्षिक अनुसन्धान पत्रहरू अनुवाद गर्ने गाइड पनि पढ्नुहोस्, किनकि scanned academic PDF मा OCR जोखिमसँगै citation र layout सम्बन्धी जोखिम पनि थपिन्छ।

सँगसँगै हेर्न मिल्ने असफलताका उदाहरणहरू

OCR output जाँच गर्दा यो table प्रयोग गर्नुहोस्।

मूल scan मा सम्भवतः यस्तो देखिन्छ	खराब OCR output	किन महत्त्वपूर्ण छ
`modern`	`modem`	अर्थ पूरै बदलिन्छ।
`Section 10`	`Section IO`	कानुनी वा technical reference बिग्रन सक्छ।
`2026`	`2O26`	मिति र ID अविश्वसनीय बन्छन्।
`patient`	`patlent`	medical वा technical term गलत हुन सक्छ।
छुट्टाछुट्टै दुई column	मिसिएको एउटै paragraph	वाक्यहरू गलत क्रममा अनुवाद हुन्छन्।
label र value भएको table row	मिसिएको एउटै text line	data सही label सँग मेल खान छोड्छ।
footnote marker `1`	अक्षर `l`	note गलत वाक्यसँग जोडिन सक्छ।

यदि OCR layer मा यस्ता त्रुटि देख्नुभयो भने, अनुवाद गर्नु अघि OCR सुधार गर्नुहोस्।

कुन उपकरण प्रयोग गर्ने?

document कति जटिल छ भन्ने आधारमा छनोट गर्नुहोस्।

दस्तावेज	सिफारिस गरिएको बाटो
सफा business scan	Acrobat वा अर्को भरपर्दो OCR tool मा OCR गर्नुहोस्, त्यसपछि PDF Translator प्रयोग गर्नुहोस्।
पुरानो किताबको scan	पृष्ठ सीधा पार्नुहोस्, contrast सुधार गर्नुहोस्, ध्यानपूर्वक OCR गर्नुहोस्, त्यसपछि अनुवाद गर्नुहोस्।
academic paper scan	OCR गर्नुहोस्, equation/citation/table जाँच गर्नुहोस्, त्यसपछि layout review सहित अनुवाद गर्नुहोस्।
हस्तलिखित note	अनुवादअघि manual transcription आवश्यक पर्न सक्छ।
साधारण व्यक्तिगत document	privacy जोखिम कम छ भने online OCR स्वीकार्य हुन सक्छ।
संवेदनशील document	local OCR वा विश्वसनीय controlled workflow प्रयोग गर्नुहोस्।

यदि तपाईंलाई अझ फराकिलो tool comparison चाहिएको छ भने, सबैभन्दा राम्रो PDF translator गाइड हेर्नुहोस्।

स्क्यान गरिएको PDF का सामान्य समस्याहरू

कम-resolution भएका पृष्ठहरू

कम-resolution scan मा अक्षरहरू आपसमा धमिला भएर मिसिन्छन्। OCR ले rn र m, cl र d, वा विरामचिह्न र धुलोलाई पनि गडबड गर्न सक्छ।

समाधान: सम्भव भए पुन: scan गर्नुहोस्। सम्भव नभए contrast बढाएर फेरि OCR चलाउनुहोस्।

टेढा वा बाङ्गा पृष्ठहरू

किताब scan गर्दा spine नजिक पृष्ठ बाङ्गो हुने गर्छ। OCR ले त्यस्ता बाङ्गा line राम्रोसँग पढ्न सक्दैन र पाठको क्रम नै बदल्न सक्छ।

समाधान: पृष्ठ समतल पार्नुहोस्, पुन: scan गर्नुहोस्, वा deskew र dewarping भएको OCR tool प्रयोग गर्नुहोस्।

बहु-column layout

OCR ले देब्रे र दाहिने column लाई मिसाएर एउटै वाक्य प्रवाह बनाइदिन सक्छ।

समाधान: अनुवादअघि reading order जाँच गर्नुहोस्। academic paper मा यो विशेष ध्यान दिनुपर्ने कुरा हो।

table हरू

table हरू कठिन हुन्छन्, किनकि OCR ले पाठ मात्र होइन structure पनि चिन्नुपर्छ। table बाहिरबाट ठीक देखिए पनि text layer गलत हुन सक्छ।

समाधान: table बाट OCR पाठ copy गरेर label अझै सही value सँग मिलेको छ कि छैन जाँच गर्नुहोस्।

handwriting र signature

मुद्रित पाठको OCR, handwriting recognition भन्दा धेरै भरपर्दो हुन्छ। margin note, signature, र भरेका form हरू छुट्न सक्छन् वा बिग्रिन सक्छन्।

समाधान: आवश्यक handwriting अनुवाद गर्नुअघि manually transcribe गर्नुहोस्।

मिश्रित भाषाहरू

OCR ले स्रोत भाषा थाहा पाएपछि राम्रो काम गर्छ। English, French, र Chinese भएको scan मा OCR केवल एउटा भाषामा सेट गरिएको छ भने असफल हुन सक्छ।

समाधान: tool ले support गर्छ भने आवश्यक सबै OCR भाषा छान्नुहोस्, त्यसपछि हरेक भाषाको section छुट्टाछुट्टै spot-check गर्नुहोस्।

Privacy र Security Checklist

कुनै scanned PDF कहिँ अपलोड गर्नु अघि, यी प्रश्न सोध्नुहोस्:

के document मा personal data छ?
के यसमा medical, legal, financial, academic, वा unpublished material समावेश छ?
के यो client agreement वा school policy अन्तर्गत पर्छ?
के यस document का लागि online OCR service अनुमति छ?
के तपाईंलाई local workflow चाहिन्छ?
के अनुवाद आवश्यक नभएका पृष्ठ हटाउन सकिन्छ?

स्क्यान गरिएका PDF प्रायः संवेदनशील हुन्छन्, किनकि तिनीहरू contract, ID, form, research draft, र आन्तरिक archive बाट आएका हुन्छन्। OCR upload गर्ने निर्णयलाई मूल document जत्तिकै गम्भीरताका साथ लिनुहोस्।

FAQ

म स्क्यान गरिएको PDF कसरी अनुवाद गर्ने?

पहिले OCR चलाएर text layer बनाउनुहोस्, OCR output जाँच गर्नुहोस्, अनि OCR-प्रोसेस गरिएको PDF लाई PDF Translator प्रयोग गरेर अनुवाद गर्नुहोस्। OCR review चरण नछोड्नुहोस्।

Google Translate ले मेरो scanned PDF किन अनुवाद गरेन?

PDF image-only हुन सक्छ। यदि text layer छैन भने, Google Translate सँग निकाल्ने पाठ हुँदैन। पहिले OCR गर्नुहोस्, त्यसपछि अनुवाद गर्नुहोस्। Google-विशेष workflow Google Translate PDF गाइड मा समेटिएको छ।

के ChatGPT ले scanned PDF अनुवाद गर्न सक्छ?

ChatGPT ले छुट्टाछुट्टै image वा निकालिएको पाठमा मद्दत गर्न सक्छ, तर धेरै पृष्ठ भएको scanned PDF लाई अझै OCR र review चाहिन्छ। पूरा document workflow का लागि, पहिले OCR गर्नुहोस्, त्यसपछि PDF translation workflow प्रयोग गर्नुहोस्।

scanned PDF का लागि सबैभन्दा राम्रो OCR tool कुन हो?

यो document मा निर्भर गर्छ। सामान्य र जटिल scan का लागि Acrobat र ABBYY-शैलीका tool उपयोगी हुन्छन्। local technical workflow का लागि Tesseract वा OCRmyPDF उपयोगी हुन्छ। कम जोखिम भएका साधारण फाइलका लागि online OCR ठीक हुन सक्छ, तर privacy र quality फरक-फरक हुन्छ।

के OCR ले formatting जोगाउन सक्छ?

OCR ले text layer बनाउन सक्छ र कहिलेकाहीँ reading order पनि निकाल्न सक्छ, तर यो मूल translated layout जोगाउने कुरा होइन। OCR पछि PDF translation workflow प्रयोग गर्नुहोस् र output लाई मूल document सँग दाँजेर जाँच गर्नुहोस्।

यदि OCR quality खराब छ भने के गर्ने?

अनुवाद गर्नु अघि scan सुधार गर्नुहोस्। सम्भव भए पुन: scan गर्नुहोस्, पृष्ठ सीधा पार्नुहोस्, contrast बढाउनुहोस्, clutter crop गर्नुहोस्, सही OCR भाषा छान्नुहोस्, र जटिल पृष्ठहरू फेरि जाँच गर्नुहोस्।

सम्बन्धित पोस्टहरू

अनुवाद मार्गनिर्देशहरू