BookTranslator
BookTranslator

ଫର୍ମାଟିଙ୍ଗ ନଷ୍ଟ ନକରି PDF କେମିତି ଅନୁବାଦ କରିବେ (2026 ଗାଇଡ୍)

ଲେଆଉଟ୍, ଟେବୁଲ, ଛବି ଏବଂ ଫଣ୍ଟ୍ ସୁରକ୍ଷିତ ରଖି PDF ଅନୁବାଦ କରିବାର ସମ୍ପୂର୍ଣ୍ଣ ଗାଇଡ୍। କେଉଁ ପଦ୍ଧତି ଏବଂ ଟୁଲ୍ ସତରେ କାମ କରେ ତାହା ଜାଣିବା ପାଇଁ ଆମେ ପ୍ରତ୍ୟେକ ବିକଳ୍ପକୁ ପରୀକ୍ଷା କରିଛୁ।

BookTranslator

BookTranslator Team

ଅନୁବାଦ ଗାଇଡ୍‌ଗୁଡ଼ିକ11 min read

ଦ୍ରୁତ ଉତ୍ତର: ଆପଣଙ୍କ PDF ପାଇଁ ଠିକ୍ ୱର୍କଫ୍ଲୋ ବାଛନ୍ତୁ

ଫର୍ମାଟିଙ୍ଗ ନଷ୍ଟ ନକରି PDF ଅନୁବାଦ କରିବାକୁ, ପ୍ରଥମେ PDF ଭିତରେ ଟେକ୍ସଟ୍‌କୁ ଚୟନ କରିହେବ କି ନାହିଁ ଯାଞ୍ଚ କରନ୍ତୁ। ଯଦି ହୁଏ, BookTranslator PDF ଅନୁବାଦକ ପରି ଏକ ନିର୍ଦ୍ଦିଷ୍ଟ PDF ଅନୁବାଦକ ବ୍ୟବହାର କରନ୍ତୁ। ଯଦି ହୁଏନି, ପ୍ରଥମେ OCR ଚଲାନ୍ତୁ, ତାପରେ OCR-ପ୍ରକ୍ରିୟାକୃତ PDF କୁ ଅନୁବାଦ କରନ୍ତୁ। ଯଦି ଅନ୍ତିମ ଡକ୍ୟୁମେଣ୍ଟରେ କଲମ, ଟେବୁଲ, ଛବି, କ୍ୟାପ୍ସନ, ହେଡର, ଫୁଟର ଏବଂ ପୃଷ୍ଠା କ୍ରମ ଅବିକୃତ ରଖିବା ଦରକାର, ତେବେ ଟେକ୍ସଟ୍‌କୁ କପି-ପେଷ୍ଟ କରି କୌଣସି ସାଧାରଣ ଅନୁବାଦକରେ ଦିଅନ୍ତୁ ନାହିଁ।

ଏଠାରେ ବ୍ୟବହାରିକ ନିଷ୍ପତ୍ତି ଟେବୁଲ ଦିଆଯାଇଛି:

PDF ପ୍ରକାରସବୁଠାରୁ ସୁରକ୍ଷିତ ୱର୍କଫ୍ଲୋକଣ ଏଡ଼ାଇବେ
ଚୟନ କରିହେବା ଟେକ୍ସଟ୍‌ ଥିବା PDFPDF ଅନୁବାଦକ କୁ ଅପଲୋଡ୍ କରନ୍ତୁ, ପରେ ଲେଆଉଟ୍ ଯାଞ୍ଚ କରନ୍ତୁଟେକ୍ସଟ୍ ବକ୍ସରେ କପି-ପେଷ୍ଟ କରିବା।
ସ୍କାନ୍ କରାଯାଇଥିବା PDFପ୍ରଥମେ OCR, ପରେ ଅନୁବାଦକେବଳ ଛବି ଥିବା ପୃଷ୍ଠାଗୁଡ଼ିକୁ କେବଳ-ଟେକ୍ସଟ୍ ଅନୁବାଦକରେ ଅପଲୋଡ୍ କରିବା।
ଶିକ୍ଷାଗତ ପେପର୍PDF ଅନୁବାଦକ ବ୍ୟବହାର କରନ୍ତୁ, ପରେ ସମୀକରଣ, ଉଦ୍ଧୃତି, ଟେବୁଲ ଏବଂ ଚିତ୍ର ଯାଞ୍ଚ କରନ୍ତୁଯାଞ୍ଚ ବିନା ସିଧା DOCX କୁ ପରିବର୍ତ୍ତନ କରିବା।
ସରଳ ଏକ-ପୃଷ୍ଠା PDFଲେଆଉଟ୍ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ନୁହେଁ ହେଲେ Google Translate ପର୍ଯ୍ୟାପ୍ତ ହୋଇପାରେଆଉଟପୁଟ୍ ପ୍ରସ୍ତୁତ ପ୍ରଦର୍ଶନଯୋଗ୍ୟ ବୋଲି ଧରିନେବା।
ପୁସ୍ତକ-ଲମ୍ବା PDFଶବ୍ଦାବଳୀ ରିଭ୍ୟୁ ସହ ଏକ ଡକ୍ୟୁମେଣ୍ଟ ୱର୍କଫ୍ଲୋ ବ୍ୟବହାର କରନ୍ତୁପୃଷ୍ଠା ପ୍ରତି ପୃଷ୍ଠା ହାତେ ଚ୍ୟାଟ୍ ପ୍ରମ୍ପ୍ଟ ବ୍ୟବହାର କରିବା।

ଟୁଲ୍‌ମାନଙ୍କ ମଧ୍ୟରେ ବିକଳ୍ପ ବାଛୁଥିଲେ, ସର୍ବୋତ୍ତମ PDF ଅନୁବାଦକ ତୁଳନା ଦେଖନ୍ତୁ। ଆପଣଙ୍କ ଫାଇଲ୍ ସ୍କାନ୍ ହୋଇଥିଲେ, ସିଧା ସ୍କାନ୍ କରାଯାଇଥିବା PDF OCR ଗାଇଡ୍ କୁ ଯାଆନ୍ତୁ।

ଅନୁବାଦ ସମୟରେ PDF ଫର୍ମାଟିଙ୍ଗ କାହିଁକି ଭାଙ୍ଗିଯାଏ

PDF ଗୁଡ଼ିକ Word ଡକ୍ୟୁମେଣ୍ଟ ପରି ସଂରକ୍ଷିତ ହୁଏ ନାହିଁ। ଏକ DOCX ଫାଇଲ୍‌ରେ ପ୍ୟାରାଗ୍ରାଫ୍, ଶୀର୍ଷକ, ତାଲିକା ଏବଂ ଟେବୁଲ editable structure ଭାବେ ଥାଏ। PDF ଏକ ସ୍ଥିର କ୍ୟାନଭାସ୍‌ର ଅଧିକ ନିକଟ। ଟେକ୍ସଟ୍‌କୁ ନିର୍ଦ୍ଦିଷ୍ଟ coordinate ରେ ପୃଷ୍ଠା ଉପରେ ରଖାଯାଏ, ପ୍ରାୟତଃ ଛୋଟ ଛୋଟ ଖଣ୍ଡ ଭାବେ। PDF ବାହାରୁ ସାଧାରଣ ଡକ୍ୟୁମେଣ୍ଟ ପରି ଲାଗିପାରେ, କିନ୍ତୁ ଭିତରୁ ସେଥିରେ ଟେକ୍ସଟ୍ ବ୍ଲକ୍, font reference, image, mask ଏବଂ coordinate ର ସମୁଚ୍ଚୟ ଥାଇପାରେ।

ଅନୁବାଦ ହେଲେ ଟେକ୍ସଟ୍‌ର ଦୈର୍ଘ୍ୟ ବଦଳିଯାଏ। ସେଠାରୁ ଲେଆଉଟ୍ ଭାଙ୍ଗିବା ଆରମ୍ଭ ହୁଏ।

ଉତ୍ସରୁ ଲକ୍ଷ୍ୟ ଭାଷାସାଧାରଣ ଲେଆଉଟ୍ ପ୍ରଭାବ
ଇଂରାଜୀରୁ ଜର୍ମାନ୍ କିମ୍ବା ସ୍ପାନିଶ୍ଟେକ୍ସଟ୍ ପ୍ରାୟତଃ ଲମ୍ବା ହୋଇଯାଏ, ଫଳରେ ବକ୍ସ ଓଭରଫ୍ଲୋ କରେ।
ଇଂରାଜୀରୁ ଚାଇନିଜ୍ କିମ୍ବା ଜାପାନିଜ୍ଟେକ୍ସଟ୍ ପ୍ରାୟତଃ ଛୋଟ ହୋଇଯାଏ, ଫଳରେ ଖାଲି ଜାଗା ଦେଖାଯାଏ।
ଇଂରାଜୀରୁ ଆରବିକ୍ କିମ୍ବା ହିବ୍ରୁଲେଖାର ଦିଗ ଏବଂ alignment ପାଇଁ ବିଶେଷ ବ୍ୟବସ୍ଥା ଦରକାର।
ଦୀର୍ଘ ଯୋଗଶବ୍ଦ ଥିବା କୌଣସି ଭାଷାଶୀର୍ଷକ ଏବଂ ଟେବୁଲ ଓଭରଫ୍ଲୋ କରିପାରେ।
କୌଣସି ସ୍କାନ୍ କରାଯାଇଥିବା ପୃଷ୍ଠାOCR ଚାଲୁ ନହେଉଅବଧି ଅନୁବାଦ ପାଇଁ ଟେକ୍ସଟ୍ ନଥାଇପାରେ।

ଏକ ଭଲ PDF ଅନୁବାଦ ୱର୍କଫ୍ଲୋକୁ ପାଞ୍ଚଟି କାମ କରିବାକୁ ପଡ଼େ:

  1. ପଢ଼ିବା କ୍ରମ ଚିହ୍ନଟ କରିବା।
  2. ମୂଳ ଟେକ୍ସଟ୍, ହେଡର, କ୍ୟାପ୍ସନ, ଟେବୁଲ ଏବଂ ଫୁଟନୋଟ୍‌କୁ ଅଲଗା କରିବା।
  3. ଅନିୟମିତ ଖଣ୍ଡ ନୁହେଁ, ସମନ୍ୱିତ ଟେକ୍ସଟ୍ ବ୍ଲକ୍‌କୁ ଅନୁବାଦ କରିବା।
  4. ଅନୁବାଦିତ ଟେକ୍ସଟ୍‌କୁ ପୁଣି ପୃଷ୍ଠାରେ ଫିଟ୍ କରିବା।
  5. ରିଭ୍ୟୁ ପାଇଁ ବ୍ୟବହାରଯୋଗ୍ୟ ଆଉଟପୁଟ୍ PDF ରେଣ୍ଡର କରିବା।

ବିଫଳ ହେଉଥିବା ଅଧିକାଂଶ ୱର୍କଫ୍ଲୋ କେବଳ ମଝିର କାମଟି କରେ: ସେମାନେ ଟେକ୍ସଟ୍ ଏକ୍ସଟ୍ରାକ୍ଟ କରନ୍ତି ଏବଂ ଅନୁବାଦ କରନ୍ତି। ସେଥିପାଇଁ ଶବ୍ଦ ଠିକ୍ ଥିଲେ ମଧ୍ୟ ଡକ୍ୟୁମେଣ୍ଟ ଅବ୍ୟବହାରଯୋଗ୍ୟ ହୋଇଯାଏ।

ପଦ୍ଧତି 1: ଏକ ନିର୍ଦ୍ଦିଷ୍ଟ PDF ଅନୁବାଦକ ବ୍ୟବହାର କରନ୍ତୁ

ସବୁଠାରୁ ଭଲ: ଲମ୍ବା PDF, client document, report, ପୁସ୍ତକ, manual ଏବଂ ଶିକ୍ଷାଗତ ଫାଇଲ୍।

ଫର୍ମାଟିଙ୍ଗ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ହେଲେ, ଏହା ସବୁଠାରୁ ଭରସାଯୋଗ୍ୟ ଆରମ୍ଭ। ଏକ ନିର୍ଦ୍ଦିଷ୍ଟ PDF ଅନୁବାଦକ ଡକ୍ୟୁମେଣ୍ଟ ସମସ୍ୟାକୁ ମଧ୍ୟନଜରରେ ରଖି ବନାଯାଇଛି: ପଢ଼ିବା କ୍ରମ, ଲେଆଉଟ୍ ରକ୍ଷା, ପୃଷ୍ଠା ଗଠନ, ଏବଂ ଆଉଟପୁଟ୍ ରିଭ୍ୟୁ।

ଏହି ୱର୍କଫ୍ଲୋ ବ୍ୟବହାର କରନ୍ତୁ:

  1. PDF ଖୋଲନ୍ତୁ ଏବଂ ଟେକ୍ସଟ୍‌କୁ ଚୟନ କରିହେବ କି ନାହିଁ ଯାଞ୍ଚ କରନ୍ତୁ।
  2. ଫାଇଲ୍‌କୁ PDF ଅନୁବାଦକ କୁ ଅପଲୋଡ୍ କରନ୍ତୁ।
  3. ମୂଳ ଏବଂ ଲକ୍ଷ୍ୟ ଭାଷା ବାଛନ୍ତୁ।
  4. ଡକ୍ୟୁମେଣ୍ଟକୁ ଅନୁବାଦ କରନ୍ତୁ।
  5. ଟେବୁଲ, ଶୀର୍ଷକ, କ୍ୟାପ୍ସନ, ଫୁଟନୋଟ୍ ଏବଂ ଚିତ୍ର ଥିବା ପୃଷ୍ଠାଗୁଡ଼ିକରେ ଆଉଟପୁଟ୍‌କୁ ମୂଳ ଫାଇଲ୍ ସହ ତୁଳନା କରନ୍ତୁ।
  6. ଡକ୍ୟୁମେଣ୍ଟ ଆଇନଗତ, ଚିକିତ୍ସା, ଆର୍ଥିକ, ଶିକ୍ଷାଗତ କିମ୍ବା ପ୍ରକାଶନଯୋଗ୍ୟ ହେଲେ, ଅନ୍ତିମ ମାନବ ରିଭ୍ୟୁ କରନ୍ତୁ।

ଏହି ପଦ୍ଧତି ସବୁଠାରୁ ଭଲ ଭାବେ ଯାହାକୁ ସୁରକ୍ଷିତ ରଖେ:

  • ପୃଷ୍ଠା ଗଠନ
  • ପ୍ୟାରାଗ୍ରାଫ୍ ଗ୍ରୁପିଙ୍ଗ
  • ଶୀର୍ଷକ
  • ଛବି
  • କ୍ୟାପ୍ସନ
  • ଅତ୍ୟଧିକ ଖଣ୍ଡିତ ନହୋଇଥିବା ଟେବୁଲ
  • ସାଧାରଣ multi-column layout ରେ ପଢ଼ିବା କ୍ରମ

ଯାହାକୁ ତଥାପି ରିଭ୍ୟୁ କରିବା ଦରକାର:

  • ଘନ ଟେବୁଲ
  • ଅତ୍ୟନ୍ତ ଛୋଟ ଫୁଟନୋଟ୍
  • ସମୀକରଣ
  • ହସ୍ତଲିଖିତ ଟିପ୍ପଣୀ
  • ଅତ୍ୟନ୍ତ ସଂକୀର୍ଣ୍ଣ ଟେକ୍ସଟ୍ ବକ୍ସ
  • ନିମ୍ନ-ଗୁଣସ୍ତରର embedded font
  • ସ୍କାନ୍ କରାଯାଇଥିବା ଫାଇଲର OCR ତ୍ରୁଟି

ବିକଳ୍ପ ବାଛିବା ପୂର୍ବରୁ ଟୁଲ୍‌ମାନଙ୍କୁ ତୁଳନା କରିବାକୁ ଚାହୁଁଥିଲେ, ଆମ PDF ଅନୁବାଦକ ଟୁଲ୍ ତୁଳନା ଦେଖନ୍ତୁ।

ପଦ୍ଧତି 2: ଦ୍ରୁତ ବୁଝିବା ପାଇଁ Google Translate ବ୍ୟବହାର କରନ୍ତୁ

ସବୁଠାରୁ ଭଲ: ଛୋଟ PDF, ଯେଉଁଠାରେ ଲେଆଉଟ୍ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ନୁହେଁ।

କୌଣସି ଡକ୍ୟୁମେଣ୍ଟର ଅର୍ଥ ଦ୍ରୁତ ଭାବେ ଜାଣିବାକୁ Google Translate ଉପଯୋଗୀ। କିନ୍ତୁ ପ୍ରସ୍ତୁତ ଅନୁବାଦିତ PDF ଦରକାର ହେଲେ, ଏହା ସବୁଠାରୁ ସୁରକ୍ଷିତ ୱର୍କଫ୍ଲୋ ନୁହେଁ।

ସାଧାରଣ ୱର୍କଫ୍ଲୋ:

  1. Google Translate ଖୋଲନ୍ତୁ।
  2. ଡକ୍ୟୁମେଣ୍ଟ ଅପଲୋଡ୍ ବିକଳ୍ପ ବାଛନ୍ତୁ।
  3. PDF କୁ ଅପଲୋଡ୍ କରନ୍ତୁ।
  4. ମୂଳ ଏବଂ ଲକ୍ଷ୍ୟ ଭାଷା ବାଛନ୍ତୁ।
  5. ଅନୁବାଦ କରନ୍ତୁ ଏବଂ ଆଉଟପୁଟ୍ ଯାଞ୍ଚ କରନ୍ତୁ।

ଯେଉଁଠାରେ ଏହା କାମ କରେ:

  • ଛୋଟ ସରଳ-ଟେକ୍ସଟ୍ PDF
  • ବ୍ୟକ୍ତିଗତ ପଢ଼ା
  • ଦ୍ରୁତ ବୁଝିବା
  • ସରଳ memo କିମ୍ବା ଚିଠି

ଯେଉଁଠାରେ ଏହା ବିଫଳ ହୁଏ:

  • multi-column report
  • ଟେବୁଲ
  • ଚିତ୍ର ଏବଂ କ୍ୟାପ୍ସନ
  • OCR ବିନା ସ୍କାନ୍ କରାଯାଇଥିବା PDF
  • ଯେଉଁ ଫାଇଲରେ ପୃଷ୍ଠା ଲେଆଉଟ୍ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ
  • ଅନେକ ପୃଷ୍ଠାରେ ସମାନ ଶବ୍ଦାବଳୀ ରଖିବା ଦରକାର ଥିବା ଡକ୍ୟୁମେଣ୍ଟ

ଯଦି ଆପଣ ବିଶେଷ କରି Google ବ୍ୟବହାର କରିବାକୁ ଚାହୁଁଛନ୍ତି, ପୂର୍ଣ୍ଣ Google Translate PDF ଗାଇଡ୍ ପଢ଼ନ୍ତୁ। ସେଠାରେ web method, Google Docs workaround, ଏବଂ ଆଉଟପୁଟ୍‌ରେ ଭରସା କରିବା ପୂର୍ବରୁ କେଉଁ failure sign ଯାଞ୍ଚ କରିବେ ସେସବୁ ବ୍ୟାଖ୍ୟା କରାଯାଇଛି।

ପଦ୍ଧତି 3: ଟେକ୍ସଟ୍ ପାଇଁ ChatGPT ବ୍ୟବହାର କରନ୍ତୁ, ଅନ୍ତିମ PDF ଲେଆଉଟ୍ ପାଇଁ ନୁହେଁ

ସବୁଠାରୁ ଭଲ: ଛୋଟ ଅଂଶ, glossary କାମ, tone control, ଏବଂ ଅନୁବାଦ ରିଭ୍ୟୁ।

ଟେକ୍ସଟ୍‌କୁ access କରିପାରିଲେ ChatGPT PDF content ଅନୁବାଦରେ ସହାୟକ ହୋଇପାରେ। ବିଶେଷକରି ପ୍ରଶ୍ନଟି ଯଦି କେବଳ "ଏହାର ଅର୍ଥ କଣ?" ନୁହେଁ, ବରଂ "ଲକ୍ଷ୍ୟ ଭାଷାରେ ଏହା କେମିତି ଶୁଣିବା ଉଚିତ୍?" ହୁଏ, ତେବେ ଏହା ଅଧିକ ଉପଯୋଗୀ।

ChatGPT ପାଇଁ ଭଲ use case:

  • କଷ୍ଟକର ଏକ ପ୍ୟାରାଗ୍ରାଫ୍ ଅନୁବାଦ କରନ୍ତୁ।
  • ନିର୍ଦ୍ଦିଷ୍ଟ audience ପାଇଁ tone ଅନୁକୂଳ କରନ୍ତୁ।
  • ଲମ୍ବା ଡକ୍ୟୁମେଣ୍ଟ ଅନୁବାଦ ପୂର୍ବରୁ glossary ତିଆରି କରନ୍ତୁ।
  • ଅନୁବାଦ ଯାଞ୍ଚ କରି ଅସ୍ୱାଭାବିକ ଶବ୍ଦଚୟକୁ ଚିହ୍ନଟ କରନ୍ତୁ।
  • ଅନ୍ୟ ଭାଷାରେ ଟେକ୍ନିକାଲ୍ ଅଂଶ ବ୍ୟାଖ୍ୟା କରନ୍ତୁ।

ChatGPT ପାଇଁ ଖରାପ use case:

  • ସମ୍ପୂର୍ଣ୍ଣ PDF ଲେଆଉଟ୍ ପୁନର୍ନିର୍ମାଣ କରିବା।
  • ଲମ୍ବା ପୁସ୍ତକକୁ ପୃଷ୍ଠା ପ୍ରତି ପୃଷ୍ଠା ଅନୁବାଦ କରିବା।
  • ଟେବୁଲ, କ୍ୟାପ୍ସନ ଏବଂ ପୃଷ୍ଠା ସଂଖ୍ୟା ସୁରକ୍ଷିତ ରଖିବା।
  • ଭରସାଯୋଗ୍ୟ OCR ପଦକ୍ଷେପ ବିନା ସ୍କାନ୍ କରାଯାଇଥିବା PDF ହ୍ୟାଣ୍ଡଲ୍ କରିବା।
  • ହାତେ ରିଭ୍ୟୁ ବିନା share କରିହେବା ଅନ୍ତିମ ଫାଇଲ୍ ତିଆରି କରିବା।

ଛୋଟ ଅଂଶ ପାଇଁ ଏହି prompt ବ୍ୟବହାର କରନ୍ତୁ:

Translate the following PDF excerpt from [source language] to [target language].
Preserve headings, numbered lists, table labels, citations, and technical terms.
Do not summarize. Do not add new information. If a phrase is ambiguous,
mark it with [review].

ସମ୍ପୂର୍ଣ୍ଣ ChatGPT workflow ଏବଂ prompt ପାଇଁ ChatGPT PDF ଅନୁବାଦ ଗାଇଡ୍ ବ୍ୟବହାର କରନ୍ତୁ।

ପଦ୍ଧତି 4: ପ୍ରଥମେ PDF କୁ DOCX କୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ

ସବୁଠାରୁ ଭଲ: ଯେଉଁ ଡକ୍ୟୁମେଣ୍ଟକୁ ଆପଣ ପରେ ସମ୍ପାଦନା କରିବେ କିମ୍ବା ହାତେ ପୁନର୍ନିର୍ମାଣ କରିବେ।

PDF କୁ DOCX କୁ ପରିବର୍ତ୍ତନ କରିଲେ editable text ମିଳିପାରେ। କିନ୍ତୁ ଫର୍ମାଟିଙ୍ଗ ପାଇଁ ଏହା ସ୍ୱତଃସ୍ଫୁର୍ତ୍ତ ଭଲ ନୁହେଁ। ବାସ୍ତବରେ, ଅନେକ ସମୟରେ layout damage conversion ପଦକ୍ଷେପରେ ହିଁ ହୁଏ।

ନିମ୍ନ ସମୟରେ conversion ବ୍ୟବହାର କରନ୍ତୁ:

  • ଅନୁବାଦିତ ଟେକ୍ସଟ୍‌ରେ ବହୁତ ସମ୍ପାଦନା ଦରକାର।
  • ଅନ୍ତିମ ଲେଆଉଟ୍‌କୁ ହାତେ ପୁନର୍ନିର୍ମାଣ କରିବା ପ୍ରସ୍ତୁତି ଅଛି।
  • PDF ସରଳ ଏବଂ ପ୍ରାୟତଃ ଟେକ୍ସଟ୍।
  • ଆପଣଙ୍କୁ ପ୍ରସ୍ତୁତ PDF ନୁହେଁ, କାର୍ଯ୍ୟକ୍ଷମ ଖସଡ଼ା ଦରକାର।

ନିମ୍ନ ସମୟରେ conversion ଏଡ଼ାନ୍ତୁ:

  • ମୂଳ PDF ରେ ଜଟିଳ ଟେବୁଲ ଅଛି।
  • ଡକ୍ୟୁମେଣ୍ଟରେ ଦୁଇ-କଲମ ଶିକ୍ଷାଗତ ଲେଆଉଟ୍ ଅଛି।
  • ଫାଇଲ୍‌ରେ ଅନେକ କ୍ୟାପ୍ସନ, ଫୁଟନୋଟ୍ କିମ୍ବା sidebar ଅଛି।
  • ଅନ୍ତିମ ଆଉଟପୁଟ୍‌କୁ ମୂଳ ସହ ପୃଷ୍ଠା ପ୍ରତି ପୃଷ୍ଠା ମେଳ ଖାଇବାକୁ ପଡ଼ିବ।

ସମ୍ପୂର୍ଣ୍ଣ ଡକ୍ୟୁମେଣ୍ଟ convert କରିବା ପୂର୍ବରୁ, ଗୋଟିଏ କଷ୍ଟକର ପୃଷ୍ଠାକୁ test କରନ୍ତୁ। ସେହି ପୃଷ୍ଠା DOCX conversion ରେ ଭାଙ୍ଗିଗଲେ, ଅନୁବାଦିତ ଆଉଟପୁଟ୍‌ରେ ସେଇ କ୍ଷତି ଚାଲିଯିବ।

ପଦ୍ଧତି 5: ସ୍କାନ୍ କରାଯାଇଥିବା PDF ପାଇଁ ପ୍ରଥମେ OCR କରନ୍ତୁ

ସବୁଠାରୁ ଭଲ: photocopy, କେବଳ-ଛବି PDF, ପୁରୁଣା ପୁସ୍ତକ, ସ୍କାନ୍ କରାଯାଇଥିବା ଚୁକ୍ତିପତ୍ର, ଏବଂ phone-scan ଡକ୍ୟୁମେଣ୍ଟ।

ସ୍କାନ୍ କରାଯାଇଥିବା PDF ରେ ଟେକ୍ସଟ୍ ନୁହେଁ, ଟେକ୍ସଟ୍‌ର ଛବି ଥାଏ। ଅନୁବାଦ ଟୁଲ୍‌ଗୁଡ଼ିକ pixel କୁ ଭରସାଯୋଗ୍ୟ ଭାବେ ଅନୁବାଦ କରିପାରେ ନାହିଁ। ପ୍ରଥମେ text layer ତିଆରି କରିବା ପାଇଁ ସେମାନଙ୍କୁ OCR ଦରକାର।

ଏହି ୱର୍କଫ୍ଲୋ ବ୍ୟବହାର କରନ୍ତୁ:

  1. PDF ଭିତରେ ଟେକ୍ସଟ୍‌କୁ ଚୟନ କରିପାରୁଛନ୍ତି କି ଚେଷ୍ଟା କରନ୍ତୁ।
  2. ଯଦି ଚୟନ ବିଫଳ ହୁଏ, OCR ଚଲାନ୍ତୁ।
  3. ଠିକ୍ OCR ଭାଷା ବାଛନ୍ତୁ।
  4. ଏକ୍ସଟ୍ରାକ୍ଟ ହୋଇଥିବା ଟେକ୍ସଟ୍ ଯାଞ୍ଚ କରନ୍ତୁ।
  5. OCR-ପ୍ରକ୍ରିୟାକୃତ PDF କୁ ଅନୁବାଦ କରନ୍ତୁ।
  6. OCR-ସେନ୍ସିଟିଭ୍ ଅଞ୍ଚଳ ଯାଞ୍ଚ କରନ୍ତୁ: ସଂଖ୍ୟା, ନାମ, ଟେବୁଲ, ଫୁଟନୋଟ୍ ଏବଂ low-contrast ଟେକ୍ସଟ୍।

ସାଧାରଣ ଭୁଲ ହେଉଛି 4ନଂ ପଦକ୍ଷେପକୁ ଏଡ଼ାଇବା। OCR ତ୍ରୁଟି ଅନୁବାଦ ତ୍ରୁଟିରେ ପରିଣତ ହୁଏ। OCR "rn" କୁ "m" କିମ୍ବା "0" କୁ "O" ଭାବେ ପଢ଼ିଲେ, ଅନୁବାଦକ ଭୁଲ input କୁ ଏକଦମ ଠିକ୍ ଭାବେ ଅନୁବାଦ କରିଦେବ।

ସମ୍ପୂର୍ଣ୍ଣ OCR workflow ପାଇଁ, ସ୍କାନ୍ କରାଯାଇଥିବା PDF ଅନୁବାଦ ଗାଇଡ୍ ବ୍ୟବହାର କରନ୍ତୁ।

ଅନୁବାଦ ପୂର୍ବ ଓ ପରେ କେଉଁ ଯାଞ୍ଚ ଆସଲେ ମହତ୍ତ୍ୱପୂର୍ଣ୍ଣ

ପ୍ରତ୍ୟେକ ପୃଷ୍ଠାକୁ ଏକେ ଧରଣର ଖୁଟିନାଟିରେ ଯାଞ୍ଚ କରିବା ଦରକାର ନାହିଁ। ଯେଉଁ ପୃଷ୍ଠା ଭାଙ୍ଗିଯିବାର ସମ୍ଭାବନା ଅଧିକ, ପ୍ରଥମେ ସେଗୁଡ଼ିକୁ ବାଛନ୍ତୁ।

ପୃଷ୍ଠା ଉପାଦାନଅନୁବାଦ ପରେ କଣ ତୁଳନା କରିବେବିଫଳତାର ସଙ୍କେତ
ଶୀର୍ଷକ ପୃଷ୍ଠାଶୀର୍ଷକ, ଉପଶୀର୍ଷକ, ଲେଖକ ନାମ, ଅନ୍ତରଟେକ୍ସଟ୍ ଓଭରଲାପ୍ କରେ କିମ୍ବା ନାମ ବଦଳିଯାଏ।
ବିଷୟସୂଚୀଶୀର୍ଷକ, numbering, ପୃଷ୍ଠା ସନ୍ଦର୍ଭଲିଙ୍କ କିମ୍ବା ସଂଖ୍ୟା ଅନୁପସ୍ଥିତ।
ଦୁଇ-କଲମ ଅଂଶପଢ଼ିବା କ୍ରମ ଏବଂ କଲମ ସୀମାବାମ ଏବଂ ଡାହାଣ କଲମ ମିଶିଯାଏ।
ଟେବୁଲରୋ ଲେବଲ, ସଂଖ୍ୟା, ଏକକ, ଫୁଟନୋଟ୍ସେଲ୍ ସରିଯାଏ କିମ୍ବା line break ହଟିଯାଏ।
ଚିତ୍ର କ୍ୟାପ୍ସନକ୍ୟାପ୍ସନ ଛବି ସହ ରହିଛି କିକ୍ୟାପ୍ସନ ଭୁଲ ଚିତ୍ରକୁ ସରିଯାଏ।
ଫୁଟନୋଟ୍marker ଏବଂ ଫୁଟନୋଟ୍ ଟେକ୍ସଟ୍ ମେଳ ଖାଉଛି କିଫୁଟନୋଟ୍ body text ହୋଇଯାଏ।
ଉଦ୍ଧୃତିଲେଖକ ନାମ, ବର୍ଷ, bracketଉଦ୍ଧୃତି punctuation ଭୁଲଭାବେ ବଦଳିଯାଏ।
ସମୀକରଣ ଥିବା ପୃଷ୍ଠାସମୀକରଣ ଅବିକୃତ, ଚାରିପାଖର ଟେକ୍ସଟ୍ ଅନୁବାଦିତସୂତ୍ର ବଦଳିଯାଏ କିମ୍ବା ଭୁଲଭାବେ ପୁନର୍ଲେଖନ ହୁଏ।

ଶିକ୍ଷାଗତ ଡକ୍ୟୁମେଣ୍ଟ ପାଇଁ, ଅକାଦେମିକ୍ ଗବେଷଣା ପତ୍ର ଅନୁବାଦ ଗାଇଡ୍ ମଧ୍ୟ ପଢ଼ନ୍ତୁ, ଯେଉଁଠାରେ ସମୀକରଣ, ଉଦ୍ଧୃତି ଏବଂ ଦୁଇ-କଲମ ଲେଆଉଟ୍‌ହିଁ ପ୍ରମୁଖ ଜୁଆଁ।

ଲେଆଉଟ୍ ସୁରକ୍ଷା ଚେକଲିଷ୍ଟ

ଅପଲୋଡ୍ କରିବା ପୂର୍ବରୁ ଏବଂ ଡାଉନଲୋଡ୍ କରିବା ପରେ ଏହି ଚେକଲିଷ୍ଟ ବ୍ୟବହାର କରନ୍ତୁ:

  • ଉତ୍ସ PDF ରେ ଟେକ୍ସଟ୍‌କୁ ଚୟନ କରିହେବ କି?
  • ଫାଇଲ୍ଟି scan, digital PDF, କିମ୍ବା text-over-image PDF ନା?
  • merged cell ଥିବା ଟେବୁଲ ଅଛି କି?
  • ଦୁଇ-କଲମ ଅଂଶ ଅଛି କି?
  • କ୍ୟାପ୍ସନ ଛବି ସହ ଯୋଡ଼ା ଅଛି କି?
  • ହେଡର ଏବଂ ଫୁଟର ଅର୍ଥପୂର୍ଣ୍ଣ କିମ୍ବା କେବଳ ଅଲଙ୍କାରିକ?
  • ହସ୍ତଲିଖିତ ଟିପ୍ପଣୀ କିମ୍ବା stamp ଅଛି କି?
  • ସମୀକରଣ, ଉଦ୍ଧୃତି, କିମ୍ବା code block ଅଛି କି?
  • ଲକ୍ଷ୍ୟ ଭାଷାରେ ଟେକ୍ସଟ୍ ଦୈର୍ଘ୍ୟ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଭାବେ ବଢ଼େ କିମ୍ବା କମେ କି?
  • ଆଉଟପୁଟ୍‌କୁ ପ୍ରସ୍ତୁତ PDF ଭାବେ share କରିବାକୁ ପଡ଼ିବ କି?

ଶେଷ ପ୍ରଶ୍ନର ଉତ୍ତର ଯଦି ହଁ, ତେବେ ସାଧାରଣ plain-text translation workflow ଉପରେ ଭରସା କରନ୍ତୁ ନାହିଁ।

ସାଧାରଣ ବିଫଳତା ପ୍ରକାର ଏବଂ ସମାଧାନ

ବିଫଳତାକାହିଁକି ହୁଏସମାଧାନ
କଲମଗୁଡ଼ିକ ମିଶି ଗୋଟିଏ ପ୍ୟାରାଗ୍ରାଫ୍ ହୋଇଯାଏଟୁଲ୍‌ଟି ଯୁକ୍ତିସଂଗତ କ୍ରମ ପରିବର୍ତ୍ତେ coordinate ଅନୁଯାୟୀ ପଢ଼େPDF ଅନୁବାଦକ ବ୍ୟବହାର କରନ୍ତୁ କିମ୍ବା ଭଲ extraction workflow ପରୀକ୍ଷା କରନ୍ତୁ।
ଟେବୁଲ plain text ହୋଇଯାଏଟେବୁଲ ସୀମା ଚିହ୍ନଟ ହୁଏ ନାହିଁଟେବୁଲକୁ ହାତେ ଯାଞ୍ଚ କରନ୍ତୁ କିମ୍ବା ଜରୁରୀ ଟେବୁଲକୁ ପୁନଃତିଆରି କରନ୍ତୁ।
ସ୍କାନ୍ କରାଯାଇଥିବା ପୃଷ୍ଠା ଅନୁବାଦ ହୋଇନଥାଏPDF ରେ କୌଣସି text layer ନାହିଁପ୍ରଥମେ OCR ଚଲାନ୍ତୁ।
ଟେକ୍ସଟ୍ ଓଭରଲାପ୍ କରେଲକ୍ଷ୍ୟ ଭାଷାର ଟେକ୍ସଟ୍ ମୂଳ ଜାଗାଠାରୁ ଅଧିକ ଲମ୍ବା ହୋଇଯାଏଲେଆଉଟ୍ ହାଣ୍ଡଲିଂ ଥିବା ଟୁଲ୍ ବ୍ୟବହାର କରନ୍ତୁ, ପରେ ସଂକୁଚିତ ଅଞ୍ଚଳ ଯାଞ୍ଚ କରନ୍ତୁ।
କ୍ୟାପ୍ସନ ସରିଯାଏଛବି ଏବଂ କ୍ୟାପ୍ସନକୁ ଗୋଟିଏ ଏକକ ଭାବେ ଧରାଯାଏ ନାହିଁଚିତ୍ର ଥିବା ପୃଷ୍ଠାଗୁଡ଼ିକୁ ହାତେ ଯାଞ୍ଚ କରନ୍ତୁ।
ଫୁଟନୋଟ୍ body text ହୋଇଯାଏextraction ପଦକ୍ଷେପ hierarchy ହରାଇଦିଏଫୁଟନୋଟ୍ ଥିବା ପୃଷ୍ଠା ଏବଂ ଉଦ୍ଧୃତିଗୁଡ଼ିକୁ ଯାଞ୍ଚ କରନ୍ତୁ।
ନାମ କିମ୍ବା ସଂଖ୍ୟା ବଦଳିଯାଏtranslation model ସେଗୁଡ଼ିକୁ ସାଧାରଣ ଟେକ୍ସଟ୍ ଭାବେ ଧରେglossary ଯୋଡନ୍ତୁ କିମ୍ବା ଉଚ୍ଚ-ଜୁଆଁ ଅଂଶଗୁଡ଼ିକୁ ଯାଞ୍ଚ କରନ୍ତୁ।
ଆଉଟପୁଟ୍ ଠିକ୍ ଲାଗେ କିନ୍ତୁ ଅର୍ଥ ଭୁଲଲେଆଉଟ୍ ବଞ୍ଚିଯାଇଛି, ଭାଷା ନୁହେଁଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଂଶ ପାଇଁ ଦ୍ୱିଭାଷୀ ରିଭ୍ୟୁ ବ୍ୟବହାର କରନ୍ତୁ।

ଅଧିକାଂଶ ବ୍ୟବହାରକାରୀଙ୍କ ପାଇଁ ପ୍ରସ୍ତାବିତ ୱର୍କଫ୍ଲୋ

  1. PDF ରେ ଟେକ୍ସଟ୍ ଚୟନ କରିହେବ କି ନାହିଁ ଯାଞ୍ଚ କରନ୍ତୁ।
  2. ଯଦି ଏହା ସ୍କାନ୍ ହୋଇଥାଏ, OCR ଚଲାନ୍ତୁ ଏବଂ text layer ଯାଞ୍ଚ କରନ୍ତୁ।
  3. PDF କୁ PDF ଅନୁବାଦକ ରେ ଅପଲୋଡ୍ କରନ୍ତୁ।
  4. ସମ୍ପୂର୍ଣ୍ଣ ଡକ୍ୟୁମେଣ୍ଟକୁ ଅନୁବାଦ କରନ୍ତୁ।
  5. ପ୍ରଥମେ ସବୁଠାରୁ କଠିନ ପୃଷ୍ଠାଗୁଡ଼ିକୁ ଯାଞ୍ଚ କରନ୍ତୁ: ଟେବୁଲ, କଲମ, ଚିତ୍ର, ଫୁଟନୋଟ୍ ଏବଂ ଉଦ୍ଧୃତି।
  6. ଶବ୍ଦଚୟ ଯାଞ୍ଚ ପାଇଁ ChatGPT କିମ୍ବା ମାନବ ରିଭ୍ୟୁୟର ବ୍ୟବହାର କରନ୍ତୁ, layout engine ଭାବେ ନୁହେଁ।
  7. ଭବିଷ୍ୟତ୍ update ପାଇଁ ମୂଳ PDF, ଅନୁବାଦିତ PDF ଏବଂ glossary କୁ ଏକସାଙ୍ଗେ ରଖନ୍ତୁ।

ଏହି workflow ପ୍ରତ୍ୟେକ ଟୁଲ୍‌କୁ ଠିକ୍ ଭୂମିକାରେ ରଖେ: OCR ସ୍କାନ୍ ପଢ଼େ, PDF translation ଡକ୍ୟୁମେଣ୍ଟର structure ସୁରକ୍ଷିତ ରଖେ, ଏବଂ ମାନବ କିମ୍ବା LLM ରିଭ୍ୟୁ ଭାଷାକୁ ଭଲ କରେ।

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନ

ଫର୍ମାଟିଙ୍ଗ ନଷ୍ଟ ନକରି PDF ଅନୁବାଦ କରିବାର ସର୍ବୋତ୍ତମ ପଦ୍ଧତି କଣ?

ଚୟନ କରିହେବା ଟେକ୍ସଟ୍ ଥିବା PDF ପାଇଁ ଏକ ନିର୍ଦ୍ଦିଷ୍ଟ PDF ଅନୁବାଦକ ବ୍ୟବହାର କରନ୍ତୁ। PDF ସ୍କାନ୍ ହୋଇଥିଲେ, ପ୍ରଥମେ OCR ଚଲାନ୍ତୁ, ପରେ OCR-ପ୍ରକ୍ରିୟାକୃତ PDF କୁ ଅନୁବାଦ କରନ୍ତୁ। ଯଦି ଅନ୍ତିମ ଫାଇଲ୍‌ଟି ଫର୍ମାଟିଡ୍ PDF ଭାବେ ରହିବା ଦରକାର, ତେବେ PDF ଅନୁବାଦକ ସହ ଆରମ୍ଭ କରନ୍ତୁ।

ମୁଁ ଅନୁବାଦ କଲେ PDF ଫର୍ମାଟିଙ୍ଗ କାହିଁକି ଭାଙ୍ଗିଯାଏ?

PDF ଗୁଡ଼ିକ ଟେକ୍ସଟ୍‌କୁ editable paragraph ଭଳି ନୁହେଁ, ଏକ ସ୍ଥିର ପୃଷ୍ଠାରେ ଥିବା positioned fragment ଭାବେ ସଂରକ୍ଷିତ କରେ। ଅନୁବାଦ ହେଲେ ଟେକ୍ସଟ୍‌ର ଦୈର୍ଘ୍ୟ ବଦଳିଯାଏ, ଏବଂ ଟୁଲ୍‌କୁ ପୁଣିଥରେ ପୃଷ୍ଠା ଲେଆଉଟ୍ ତିଆରି କରିବାକୁ ପଡ଼େ। ସାଧାରଣ translator ଗୁଡ଼ିକ ଟେକ୍ସଟ୍ ଏକ୍ସଟ୍ରାକ୍ଟ ଏବଂ ଅନୁବାଦ କରେ, କିନ୍ତୁ layout କୁ ଭଲଭାବେ ପୁନର୍ନିର୍ମାଣ କରିନଥାଏ।

Google Translate କି PDF ଲେଆଉଟ୍ ସୁରକ୍ଷିତ ରଖିପାରେ?

ଦ୍ରୁତ ବୁଝିବା ପାଇଁ ଏହା ଉପଯୋଗୀ ହୋଇପାରେ, କିନ୍ତୁ ପ୍ରସ୍ତୁତ ଲେଆଉଟ୍ ସୁରକ୍ଷା ପାଇଁ ଏହା ଭରସାଯୋଗ୍ୟ ନୁହେଁ। ଟେବୁଲ, କଲମ, ଛବି, କ୍ୟାପ୍ସନ ଏବଂ ସ୍କାନ୍ କରାଯାଇଥିବା ପୃଷ୍ଠା ଏହାର ସାଧାରଣ failure point। ଯଦି ଆପଣ ତଥାପି ସେଇ workflow ଚେଷ୍ଟା କରିବାକୁ ଚାହୁଁଛନ୍ତି, Google Translate PDF ଗାଇଡ୍ ବ୍ୟବହାର କରନ୍ତୁ।

ChatGPT କି PDF ଅନୁବାଦ କରି ଫର୍ମାଟିଙ୍ଗ ସୁରକ୍ଷିତ ରଖିପାରେ?

ChatGPT ଟେକ୍ସଟ୍ ଅନୁବାଦ କରିପାରେ କିମ୍ବା ଭଲ କରିପାରେ, କିନ୍ତୁ ଏହାକୁ PDF layout preservation tool ଭାବେ ବ୍ୟବହାର କରିବା ଉଚିତ୍ ନୁହେଁ। ଛୋଟ ଅଂଶ, glossary କାମ ଏବଂ ରିଭ୍ୟୁ ପାଇଁ ଏହା ବ୍ୟବହାର କରନ୍ତୁ। ଅନ୍ତିମ ଡକ୍ୟୁମେଣ୍ଟ ଲେଆଉଟ୍ ପାଇଁ PDF ଅନୁବାଦକ ବ୍ୟବହାର କରନ୍ତୁ।

ସ୍କାନ୍ କରାଯାଇଥିବା PDF ସହ ମୁଁ କଣ କରିବି?

ପ୍ରଥମେ OCR ଚଲାନ୍ତୁ। ପରେ ଅନୁବାଦ କରିବା ପୂର୍ବରୁ ଏକ୍ସଟ୍ରାକ୍ଟ ହୋଇଥିବା ଟେକ୍ସଟ୍ ଯାଞ୍ଚ କରନ୍ତୁ। ସ୍କାନ୍ କରାଯାଇଥିବା ଫାଇଲ୍‌ର ବିସ୍ତୃତ workflow ସ୍କାନ୍ କରାଯାଇଥିବା PDF ଅନୁବାଦ ଗାଇଡ୍ ରେ ଦିଆଯାଇଛି।

ଅନୁବାଦ ପୂର୍ବରୁ PDF କୁ Word କୁ ପରିବର୍ତ୍ତନ କରିବା ଉଚିତ୍ କି?

କେବଳ ଯଦି ଆପଣ ଡକ୍ୟୁମେଣ୍ଟକୁ ହାତେ ସମ୍ପାଦନା କିମ୍ବା ପୁନର୍ନିର୍ମାଣ କରିବାକୁ ଯୋଜନା କରୁଛନ୍ତି। ଅନୁବାଦ ଆରମ୍ଭ ହେବା ପୂର୍ବରୁ ମଧ୍ୟ conversion ପୃଷ୍ଠା ଲେଆଉଟ୍‌କୁ କ୍ଷତିଗ୍ରସ୍ତ କରିପାରେ। ଲେଆଉଟ୍ ସୁରକ୍ଷା ପାଇଁ, ପ୍ରଥମେ PDF translation route କୁ test କରନ୍ତୁ।