स्कैन किए गए PDF का अनुवाद कैसे करें: संपूर्ण OCR अनुवाद मार्गदर्शिका

स्कैन किए गए PDF में टेक्स्ट की तस्वीरें होती हैं, न कि वास्तविक टेक्स्ट—इसी कारण Google Translate उन्हें ज्यों का त्यों लौटा देता है। यहाँ वह OCR AI पाइपलाइन है जो इसे ठीक करती है।

BookTranslator Team

PDF अनुवाद

28 फ़र॰ 202613 min read

त्वरित उत्तर: स्कैन किए गए PDF को अनुवाद से पहले OCR की आवश्यकता होती है

स्कैन किए गए PDF का अनुवाद करने के लिए, पेज की छवियों को चयन योग्य (selectable) टेक्स्ट में बदलने के लिए पहले OCR चलाएँ। फिर PDF Translator जैसे दस्तावेज़ अनुवादक के साथ OCR-प्रक्रियाकृत PDF का अनुवाद करें। यदि आप OCR छोड़ देते हैं, तो कई अनुवाद उपकरण मूल फ़ाइल को वैसे ही लौटा देंगे, पेज छोड़ देंगे, या केवल उन हिस्सों का अनुवाद करेंगे जिनमें पहले से ही टेक्स्ट लेयर मौजूद है।

इस वर्कफ़्लो का उपयोग करें:

PDF खोलें और एक वाक्य का चयन (highlight) करने का प्रयास करें।
यदि आप टेक्स्ट का चयन नहीं कर पा रहे हैं, तो OCR चलाएँ।
अनुवाद करने से पहले OCR टेक्स्ट की समीक्षा करें।
OCR-प्रक्रियाकृत PDF को PDF Translator पर अपलोड करें।
मूल स्कैन के मुकाबले अनुवादित आउटपुट की समीक्षा करें।

यदि आपके PDF में पहले से ही चयन योग्य टेक्स्ट है और समस्या लेआउट को सुरक्षित रखने की है, तो बिना फॉर्मेटिंग खोए PDF का अनुवाद करें मार्गदर्शिका का उपयोग करें।

अनुवाद टूल में स्कैन किए गए PDF क्यों विफल हो जाते हैं

स्कैन किया गया PDF अक्सर PDF कंटेनर के भीतर केवल पेज की छवियों का एक सेट होता है। पेज किसी इंसान को शब्द दिखा सकता है, लेकिन फ़ाइल में सॉफ्टवेयर द्वारा निकालने के लिए वास्तविक टेक्स्ट नहीं हो सकता है।

यह एक साधारण विफलता पैदा करता है:

फ़ाइल प्रकार	अनुवादक क्या देखता है	क्या होता है
टेक्स्ट-आधारित PDF	टेक्स्ट और लेआउट डेटा	अनुवाद तुरंत शुरू हो सकता है।
केवल-छवि स्कैन किया गया PDF	पेज की तस्वीरें	पहले OCR आवश्यक है।
टेक्स्ट-ओवर-इमेज PDF	स्कैन छवि और छिपी हुई OCR टेक्स्ट लेयर	अनुवाद काम कर सकता है, लेकिन OCR त्रुटियां गुणवत्ता को प्रभावित करती हैं।

सबसे उपयोगी परीक्षण तकनीकी नहीं है:

PDF खोलें।
व्यक्तिगत शब्दों को हाइलाइट करने का प्रयास करें।
एक वाक्य कॉपी करें।
इसे टेक्स्ट एडिटर में पेस्ट करें।

यदि वाक्य सही ढंग से पेस्ट हो जाता है, तो PDF में एक टेक्स्ट लेयर है। यदि कुछ भी पेस्ट नहीं होता है, या पूरा पेज एक छवि की तरह व्यवहार करता है, तो PDF को OCR की आवश्यकता है।

OCR वैकल्पिक नहीं है

OCR का मतलब ऑप्टिकल कैरेक्टर रिकग्निशन है। यह एक छवि से टेक्स्ट पढ़ता है और मशीन-पठनीय टेक्स्ट बनाता है। PDF अनुवाद के लिए, OCR आमतौर पर स्कैन किए गए पेज पर एक अदृश्य टेक्स्ट लेयर बनाता है।

वह टेक्स्ट लेयर अनुवाद का स्रोत बन जाती है। यदि OCR गलतियाँ करता है, तो अनुवाद उन गलतियों को विरासत में ले लेता है।

सामान्य OCR गलतियाँ:

OCR गलती	अनुवाद जोखिम
`rn` को `m` पढ़ा गया	शब्दों का अर्थ बदल जाता है।
`1` को `l` पढ़ा गया	नंबर, संदर्भ या कोड गलत हो जाते हैं।
`O` को `0` पढ़ा गया	आईडी, फॉर्मूले और नाम टूट सकते हैं।
एक्सीेंट्स (Accents) हटा दिए गए	नाम और शर्तें अशुद्ध हो जाती हैं।
कॉलम आपस में मिल गए	वाक्य गलत क्रम में अनुवादित होते हैं।
टेबल सेल पंक्ति दर पंक्ति गलत तरीके से पढ़े गए	डेटा लेबल अब मानों से मेल नहीं खाते हैं।
फ़ुटनोट को बॉडी टेक्स्ट माना गया	उद्धरण और नोट्स गलत संदर्भ में चले जाते हैं।

यही कारण है कि OCR समीक्षा चरण मायने रखता है। निकाले गए टेक्स्ट की जाँच किए बिना किसी स्कैन किए गए दस्तावेज़ का अनुवाद न करें।

OCR-प्रथम वर्कफ़्लो

चरण 1: PDF प्रकार की पहचान करें

टेक्स्ट चुनने का प्रयास करें। यदि चयन काम करता है, तो आपको OCR की आवश्यकता नहीं हो सकती है। यदि चयन विफल रहता है, तो फ़ाइल को केवल-छवि मानें।

पेज का दृश्य रूप से भी निरीक्षण करें:

तिरछे पेज स्कैन का सुझाव देते हैं।
ग्रे पेपर टेक्सचर स्कैन का सुझाव देता है।
रीढ़ (spine) के पास की छाया एक फोटोग्राफ की गई किताब का सुझाव देती है।
असमान कंट्रास्ट फोटोकॉपी का सुझाव देता है।
दिखाई देने वाले शब्दों को खोज न पाना यह दर्शाता है कि कोई टेक्स्ट लेयर नहीं है।

चरण 2: यदि संभव हो तो स्कैन में सुधार करें

OCR की गुणवत्ता छवि की गुणवत्ता से शुरू होती है। यदि आप दोबारा स्कैन कर सकते हैं, तो OCR त्रुटियों को सुधारने में समय बिताने से पहले ऐसा करें।

इस छवि-गुणवत्ता चेकलिस्ट का उपयोग करें:

छोटे टेक्स्ट के लिए पर्याप्त उच्च रिज़ॉल्यूशन पर स्कैन करें।
पेजों को सपाट और सीधा रखें।
रीढ़ के पास की छाया से बचें।
टेबल के किनारों, उंगलियों या पृष्ठभूमि की गड़बड़ी को काट दें (crop out)।
टेक्स्ट और पेज के बीच मजबूत कंट्रास्ट का उपयोग करें।
पूरी लाइन को दिखाई देने दें।
सही पेज ओरिएंटेशन का उपयोग करें।
छवि को इतना अधिक संपीड़ित (compress) न करें कि अक्षर धुंधले हो जाएं।

पुरानी किताबों और फोटोकॉपी के लिए, सबसे बड़ा लाभ आमतौर पर डेस्केविंग (तिरसापन सुधारना), कंट्रास्ट करेक्शन और उन पेजों को दोबारा स्कैन करने से मिलता है जो फोकस से बाहर हैं।

चरण 3: OCR चलाएँ

ब्रांड के बजाय दस्तावेज़ के आधार पर एक OCR टूल चुनें।

OCR विकल्प	किसके लिए सबसे अच्छा है	सावधान रहें
Adobe Acrobat OCR	सामान्य व्यावसायिक स्कैन और PDF सफाई	इस पर भरोसा करने से पहले वर्तमान योजना पहुंच की जांच करें।
ABBYY FineReader	जटिल स्कैन, टेबल, कॉलम और कठिन लेआउट	अभी भी मैन्युअल समीक्षा की आवश्यकता है।
Tesseract या OCRmyPDF	स्थानीय, तकनीकी, दोहराए जाने वाले OCR वर्कफ़्लो	कमांड-लाइन टूल के साथ सहजता की आवश्यकता है।
ऑनलाइन OCR टूल	कम जोखिम वाली सामयिक फ़ाइलें	गोपनीयता, फ़ाइल सीमाएं और गुणवत्ता भिन्न होती हैं।
फ़ोन स्कैनिंग ऐप्स	एक नया स्कैन जल्दी से कैप्चर करना	परिप्रेक्ष्य विकृति (Perspective distortion) OCR को नुकसान पहुंचा सकती है।

निजी अनुबंधों, चिकित्सा रिकॉर्ड, वित्तीय दस्तावेजों, अप्रकाशित पांडुलिपियों, या समीक्षा के तहत शैक्षणिक कार्य के लिए, स्थानीय OCR वर्कफ़्लो या एक विश्वसनीय वातावरण को प्राथमिकता दें। संवेदनशील स्कैन को यादृच्छिक मुफ्त OCR साइटों पर अपलोड न करें।

चरण 4: OCR टेक्स्ट की समीक्षा करें

अनुवाद के बाद नहीं, बल्कि अनुवाद से पहले समीक्षा करें। कई कठिन पेजों से टेक्स्ट कॉपी करें और जांचें कि क्या यह पठनीय है।

निरीक्षण करने के लिए नमूना पेज:

शीर्षक पृष्ठ।
एक सघन बॉडी पेज।
एक टेबल पेज।
फ़ुटनोट वाला पेज।
छोटे टेक्स्ट वाला पेज।
स्टैम्प, लिखावट या हाशिए के नोट्स वाला पेज।
यदि दस्तावेज़ बहुभाषी है तो प्रत्येक भाषा का एक पेज।

इन बातों की तलाश करें:

गायब पैराग्राफ।
आपस में मिले हुए कॉलम।
टूटे हुए शब्द।
गलत वर्ण।
खोए हुए डायसिटिक्स (diacritics)।
मानों से अलग किए गए टेबल लेबल।
बॉडी टेक्स्ट में डाले गए हेडर।
वाक्यों में मिल गए पेज नंबर।

यदि OCR की गुणवत्ता खराब है, तो अनुवाद से पहले इसे ठीक करें। एक अनुवादक उस अर्थ को मज़बूती से पुनर्प्राप्त नहीं कर सकता जिसे OCR ने कभी कैप्चर नहीं किया था।

चरण 5: OCR-प्रक्रियाकृत PDF का अनुवाद करें

एक बार जब PDF में एक साफ टेक्स्ट लेयर आ जाती है, तो इसे PDF Translator पर अपलोड करें। अनुवाद चरण अब पेज छवियों के बजाय टेक्स्ट के साथ काम कर सकता है।

अनुवाद के बाद, तुलना करें:

मूल स्कैन
OCR टेक्स्ट लेयर
अनुवादित PDF

यह तीन-तरफा समीक्षा आपको यह पहचानने में मदद करती है कि कोई त्रुटि OCR से आई है या अनुवाद से। यदि OCR टेक्स्ट गलत है, तो OCR दोबारा चलाएं। यदि OCR टेक्स्ट सही है लेकिन अनुवाद गलत है, तो अनुवाद को ठीक करें।

चरण 6: उच्च-जोखिम वाली सामग्री की समीक्षा करें

स्कैन किए गए दस्तावेजों में अक्सर ठीक वही सामग्री होती है जिसे सावधानीपूर्वक समीक्षा की आवश्यकता होती है: पुराने अनुबंध, सरकारी फॉर्म, शैक्षणिक पत्र, मैनुअल, ऐतिहासिक दस्तावेज और पुस्तक के पेज।

इन मदों की मैन्युअल रूप से समीक्षा करें:

नाम
तिथियां
नंबर
पते
उत्पाद कोड
कानूनी संदर्भ
उद्धरण
टेबल लेबल
इकाइयाँ
समीकरण
कैप्शन
फ़ुटनोट

शोध और शैक्षणिक फाइलों के लिए, शैक्षणिक शोध पत्रों का अनुवाद करने की मार्गदर्शिका भी पढ़ें, क्योंकि स्कैन किए गए शैक्षणिक PDF OCR जोखिम के ऊपर उद्धरण और लेआउट जोखिम जोड़ते हैं।

साइड-बाय-साइड विफलता के उदाहरण

OCR आउटपुट की समीक्षा करते समय इस तालिका का उपयोग करें।

मूल स्कैन संभवतः दिखाता है	खराब OCR आउटपुट	यह क्यों मायने रखता है
`modern`	`modem`	अर्थ पूरी तरह से बदल जाता है।
`Section 10`	`Section IO`	कानूनी या तकनीकी संदर्भ टूट सकते हैं।
`2026`	`2O26`	तिथियां और आईडी अविश्वसनीय हो जाती हैं।
`patient`	`patlent`	चिकित्सा या तकनीकी शब्द गलत हो जाते हैं।
दो अलग-अलग कॉलम	एक मिला हुआ पैराग्राफ	अनुवाद वाक्यों को गलत क्रम में पढ़ता है।
लेबल और मानों के साथ टेबल पंक्ति	मिश्रित टेक्स्ट की एक ही पंक्ति	डेटा अब सही लेबल से मैप नहीं होता है।
फ़ुटनोट मार्कर `1`	अक्षर `l`	नोट्स गलत वाक्य से जुड़ सकते हैं।

यदि आप OCR लेयर में ये त्रुटियां देखते हैं, तो अनुवाद करने से पहले OCR को ठीक करें।

आपको किस टूल का उपयोग करना चाहिए?

दस्तावेज़ की कठिनाई के आधार पर चुनें।

दस्तावेज़	अनुशंसित मार्ग
साफ व्यावसायिक स्कैन	Acrobat या अन्य विश्वसनीय OCR टूल में OCR, फिर PDF Translator।
पुरानी किताब का स्कैन	तिरसापन सुधारें और कंट्रास्ट में सुधार करें, सावधानी से OCR करें, फिर अनुवाद करें।
शैक्षणिक पेपर का स्कैन	OCR करें, समीकरणों/उद्धरणों/टेबलों की समीक्षा करें, फिर लेआउट समीक्षा के साथ अनुवाद करें।
हस्तलिखित नोट्स	अनुवाद से पहले मैन्युअल ट्रांसक्रिप्शन की आवश्यकता हो सकती है।
साधारण व्यक्तिगत दस्तावेज़	यदि गोपनीयता का जोखिम कम है तो ऑनलाइन OCR स्वीकार्य हो सकता है।
संवेदनशील दस्तावेज़	स्थानीय OCR या एक विश्वसनीय नियंत्रित वर्कफ़्लो का उपयोग करें।

यदि आप व्यापक टूल तुलना चाहते हैं, तो सर्वश्रेष्ठ PDF अनुवादक मार्गदर्शिका देखें।

स्कैन किए गए PDF की सामान्य समस्याएँ

निम्न-रिज़ॉल्यूशन पेज

निम्न-रिज़ॉल्यूशन स्कैन अक्षरों को एक साथ धुंधला कर देते हैं। OCR rn और m, cl और d, या विराम चिह्न और धूल को भ्रमित कर सकता है।

सुधार: यदि संभव हो तो दोबारा स्कैन करें। यदि नहीं, तो कंट्रास्ट बढ़ाएं और फिर से OCR का प्रयास करें।

तिरछे या मुड़े हुए पेज

किताब के स्कैन अक्सर रीढ़ के पास मुड़ जाते हैं। OCR मुड़ी हुई रेखाओं को खराब तरीके से पढ़ता है और टेक्स्ट को दोबारा ऑर्डर कर सकता है।

सुधार: पेज को चपटा करें, दोबारा स्कैन करें, या डेस्केव और डीवार्पिंग वाले OCR टूल का उपयोग करें।

बहु-कॉलम लेआउट

OCR बाएं और दाएं कॉलम को एक वाक्य स्ट्रीम में मिला सकता है।

सुधार: अनुवाद से पहले पठन क्रम (reading order) का निरीक्षण करें। शैक्षणिक पत्रों को यहां विशेष ध्यान देने की आवश्यकता है।

टेबल

टेबल कठिन हैं क्योंकि OCR को टेक्स्ट और संरचना दोनों का पता लगाना होता है। टेक्स्ट लेयर गलत होने पर भी टेबल दृश्य रूप से सही लग सकती है।

सुधार: टेबल से OCR टेक्स्ट कॉपी करें और पुष्टि करें कि लेबल अभी भी मानों से मेल खाते हैं।

लिखावट और हस्ताक्षर

मुद्रित टेक्स्ट OCR लिखावट पहचान की तुलना में बहुत अधिक विश्वसनीय है। हस्तलिखित हाशिए के नोट्स, हस्ताक्षर और भरे हुए फॉर्म छूट सकते हैं या गड़बड़ हो सकते हैं।

सुधार: अनुवाद से पहले आवश्यक लिखावट को मैन्युअल रूप से ट्रांसक्राइब करें।

मिश्रित भाषाएं

OCR तब सबसे अच्छा काम करता है जब वह स्रोत भाषा को जानता हो। अंग्रेजी, फ्रांसीसी और चीनी वाला स्कैन विफल हो सकता है यदि OCR केवल एक भाषा के लिए सेट है।

सुधार: यदि टूल इसका समर्थन करता है तो सभी प्रासंगिक OCR भाषाएं चुनें, फिर प्रत्येक भाषा अनुभाग की स्पॉट-जांच करें।

गोपनीयता और सुरक्षा चेकलिस्ट

कहीं भी स्कैन किया गया PDF अपलोड करने से पहले, पूछें:

क्या दस्तावेज़ में व्यक्तिगत डेटा है?
क्या इसमें चिकित्सा, कानूनी, वित्तीय, शैक्षणिक या अप्रकाशित सामग्री शामिल है?
क्या यह किसी क्लाइंट अनुबंध या स्कूल नीति के अंतर्गत आता है?
क्या इस दस्तावेज़ के लिए ऑनलाइन OCR सेवा की अनुमति है?
क्या आपको इसके बजाय स्थानीय वर्कफ़्लो की आवश्यकता है?
क्या आप उन पेजों को हटा सकते हैं जिन्हें अनुवाद की आवश्यकता नहीं है?

स्कैन किए गए PDF अक्सर संवेदनशील होते हैं क्योंकि वे अनुबंधों, आईडी, फॉर्म, अनुसंधान प्रारूपों और आंतरिक अभिलेखागार से आते हैं। OCR अपलोड निर्णयों के साथ वैसा ही व्यवहार करें जैसा आप मूल दस्तावेज़ के साथ करते।

सामान्य प्रश्न (FAQ)

मैं स्कैन किए गए PDF का अनुवाद कैसे करूं?

टेक्स्ट लेयर बनाने के लिए पहले OCR चलाएँ, OCR आउटपुट की समीक्षा करें, फिर PDF Translator के साथ OCR-प्रक्रियाकृत PDF का अनुवाद करें। OCR समीक्षा चरण को न छोड़ें।

Google Translate ने मेरे स्कैन किए गए PDF का अनुवाद क्यों नहीं किया?

PDF केवल-छवि हो सकता है। यदि कोई टेक्स्ट लेयर नहीं है, तो Google Translate के पास निकालने के लिए कोई टेक्स्ट नहीं है। पहले OCR का उपयोग करें, फिर अनुवाद करें। Google-विशिष्ट वर्कफ़्लो Google Translate PDF मार्गदर्शिका में शामिल है।

क्या ChatGPT स्कैन किए गए PDF का अनुवाद कर सकता है?

ChatGPT व्यक्तिगत छवियों या निकाले गए टेक्स्ट में मदद कर सकता है, लेकिन बहु-पृष्ठ स्कैन किए गए PDF को अभी भी OCR और समीक्षा की आवश्यकता है। पूर्ण दस्तावेज़ वर्कफ़्लो के लिए, पहले OCR करें, फिर PDF अनुवाद वर्कफ़्लो का उपयोग करें।

स्कैन किए गए PDF के लिए सबसे अच्छा OCR टूल कौन सा है?

यह दस्तावेज़ पर निर्भर करता है। Acrobat और ABBYY-शैली के टूल सामान्य और जटिल स्कैन के लिए उपयोगी हैं। Tesseract या OCRmyPDF स्थानीय तकनीकी वर्कफ़्लो के लिए उपयोगी है। कम जोखिम वाली सरल फ़ाइलों के लिए ऑनलाइन OCR ठीक हो सकता है, लेकिन गोपनीयता और गुणवत्ता भिन्न होती है।

क्या OCR फॉर्मेटिंग को सुरक्षित रख सकता है?

OCR एक टेक्स्ट लेयर बना सकता है और कभी-कभी पठन क्रम को पुनर्प्राप्त कर सकता है, लेकिन यह मूल अनुवादित लेआउट को सुरक्षित रखने के समान नहीं है। OCR के बाद, PDF अनुवाद वर्कफ़्लो का उपयोग करें और मूल के मुकाबले आउटपुट की समीक्षा करें।

यदि OCR की गुणवत्ता खराब है तो क्या करें?

अनुवाद करने से पहले स्कैन में सुधार करें। यदि संभव हो तो दोबारा स्कैन करें, पेजों को सीधा करें, कंट्रास्ट बढ़ाएं, गड़बड़ी को काटें, सही OCR भाषा चुनें, और कठिन पेजों की फिर से समीक्षा करें।

क्या OCR हिंदी या तमिल जैसी गैर-लैटिन लिपियों पर काम करता है?

हाँ, लेकिन इंजन की गुणवत्ता लिपि के अनुसार भिन्न होती है। देवनागरी, तमिल, तेलुगु और बंगाली स्कैन को उन लिपियों पर प्रशिक्षित एक OCR इंजन की आवश्यकता होती है, और अनुवाद चरण को ऐसे फॉन्ट की आवश्यकता होती है जो उन्हें सही ढंग से प्रस्तुत करें। इनबिल्ट OCR वाला एक दस्तावेज़ अनुवादक दोनों चरणों को एक साथ संभालता है — उदाहरण के लिए, हिंदी से अंग्रेजी में स्कैन किए गए PDF का अनुवाद करें।