BookTranslator
BookTranslator

ସ୍କାନ୍ କରାଯାଇଥିବା PDF କେମିତି ଅନୁବାଦ କରିବେ: ସମ୍ପୂର୍ଣ୍ଣ OCR + ଅନୁବାଦ ଗାଇଡ୍

ସ୍କାନ୍ କରାଯାଇଥିବା PDF ଗୁଡ଼ିକରେ ଆସଲ ଟେକ୍ସଟ୍ ନୁହେଁ, ଟେକ୍ସଟ୍‌ର ଛବି ଥାଏ — ସେଇଥିପାଇଁ Google Translate ସେଗୁଡ଼ିକୁ ଅପରିବର୍ତ୍ତିତ ଭାବେ ଫେରାଇ ଦେଏ। ଏହାକୁ ଠିକ୍ କରିବା ପାଇଁ ଏଠାରେ OCR + AI ପାଇପଲାଇନ୍ ଦିଆଯାଇଛି।

BookTranslator

BookTranslator Team

ଅନୁବାଦ ଗାଇଡ୍‌ଗୁଡ଼ିକ10 min read

ଶୀଘ୍ର ଉତ୍ତର: ସ୍କାନ୍ କରାଯାଇଥିବା PDF ଅନୁବାଦ ପୂର୍ବରୁ OCR ଆବଶ୍ୟକ

ସ୍କାନ୍ କରାଯାଇଥିବା PDF କୁ ଅନୁବାଦ କରିବାକୁ, ପ୍ରଥମେ OCR ଚଳାଇ ପୃଷ୍ଠାର ଛବିଗୁଡ଼ିକୁ ଚୟନଯୋଗ୍ୟ ଟେକ୍ସଟ୍‌ରେ ପରିଣତ କରନ୍ତୁ। ତାପରେ PDF ଅନୁବାଦକ ପରି ଏକ ଡକ୍ୟୁମେଣ୍ଟ ଅନୁବାଦକ ଦ୍ୱାରା OCR-ପ୍ରୋସେସ୍ କରାଯାଇଥିବା PDF କୁ ଅନୁବାଦ କରନ୍ତୁ। ଯଦି ଆପଣ OCR କୁ ଏଡ଼ାଇ ଦିଅନ୍ତି, ଅନେକ ଅନୁବାଦ ଟୁଲ୍ ମୂଳ ଫାଇଲ୍‌କୁ ଅପରିବର୍ତ୍ତିତ ଭାବେ ଫେରାଇ ଦେବ, କିଛି ପୃଷ୍ଠା ଛାଡ଼ି ଦେବ, କିମ୍ବା କେବଳ ଯେଉଁ ଅଂଶରେ ଆଗରୁ ଟେକ୍ସଟ୍ ଲେୟର ଅଛି ସେଗୁଡ଼ିକୁ ମାତ୍ର ଅନୁବାଦ କରିବ।

ଏହି ୱର୍କଫ୍ଲୋ ବ୍ୟବହାର କରନ୍ତୁ:

  1. PDF ଖୋଲନ୍ତୁ ଏବଂ ଗୋଟିଏ ବାକ୍ୟ ଚୟନ କରିପାରୁଛନ୍ତି କି ଦେଖନ୍ତୁ।
  2. ଯଦି ଆପଣ ଟେକ୍ସଟ୍ ଚୟନ କରିପାରୁନାହାନ୍ତି, OCR ଚଳାନ୍ତୁ।
  3. ଅନୁବାଦ ପୂର୍ବରୁ OCR ଟେକ୍ସଟ୍‌କୁ ଯାଞ୍ଚ କରନ୍ତୁ।
  4. OCR-ପ୍ରୋସେସ୍ କରାଯାଇଥିବା PDF କୁ PDF ଅନୁବାଦକ ରେ ଅପଲୋଡ୍ କରନ୍ତୁ।
  5. ଅନୁବାଦିତ ଆଉଟପୁଟ୍‌କୁ ମୂଳ ସ୍କାନ୍ ସହିତ ତୁଳନା କରି ଯାଞ୍ଚ କରନ୍ତୁ।

ଯଦି ଆପଣଙ୍କ PDF ରେ ଆଗରୁ ଚୟନଯୋଗ୍ୟ ଟେକ୍ସଟ୍ ଅଛି ଏବଂ ସମସ୍ୟାଟି ଲେଆଉଟ୍‌କୁ ସୁରକ୍ଷିତ ରଖିବା ସହିତ ସମ୍ବନ୍ଧିତ, ତେବେ ଫର୍ମାଟିଂ ନଷ୍ଟ ନକରି PDF କେମିତି ଅନୁବାଦ କରିବେ ଗାଇଡ୍‌ଟି ବ୍ୟବହାର କରନ୍ତୁ।

ସ୍କାନ୍ କରାଯାଇଥିବା PDF ଗୁଡ଼ିକ ଅନୁବାଦ ଟୁଲ୍‌ରେ କାହିଁକି ବିଫଳ ହୁଅନ୍ତି

ସ୍କାନ୍ କରାଯାଇଥିବା PDF ଅନେକ ସମୟରେ PDF କଣ୍ଟେନର୍‌ ଭିତରେ ଥିବା ପୃଷ୍ଠା ଛବିମାନଙ୍କର ଏକ ସମୁଚ୍ଚୟ ମାତ୍ର ହୁଏ। ପୃଷ୍ଠାଟି ମଣିଷଙ୍କୁ ଶବ୍ଦ ଦେଖାଇପାରେ, କିନ୍ତୁ ସଫ୍ଟୱେର୍ ଯାହାକୁ ଏକ୍ସଟ୍ରାକ୍ଟ କରିପାରିବ ସେହି ଆସଲ ଟେକ୍ସଟ୍ ଫାଇଲ୍‌ରେ ନଥାଇପାରେ।

ଏଥିରୁ ଏକ ସରଳ ବିଫଳତା ଘଟେ:

ଫାଇଲ୍ ପ୍ରକାରଅନୁବାଦକ କଣ ଦେଖେକଣ ଘଟେ
ଟେକ୍ସଟ୍-ଭିତ୍ତିକ PDFଟେକ୍ସଟ୍ ସହ ଲେଆଉଟ୍ ଡାଟାଅନୁବାଦ ତୁରନ୍ତ ଆରମ୍ଭ ହୋଇପାରେ।
କେବଳ ଛବି-ଆଧାରିତ ସ୍କାନ୍ PDFପୃଷ୍ଠାମାନଙ୍କର ଛବିପ୍ରଥମେ OCR ଆବଶ୍ୟକ।
ଟେକ୍ସଟ୍-ଓଭର୍-ଇମେଜ୍ PDFସ୍କାନ୍ ଛବି ସହ ଲୁଚାଯାଇଥିବା OCR ଟେକ୍ସଟ୍ ଲେୟରଅନୁବାଦ କାମ କରିପାରେ, କିନ୍ତୁ OCR ତ୍ରୁଟି ଗୁଣଗତତାକୁ ପ୍ରଭାବିତ କରେ।

ସବୁଠାରୁ ଉପଯୋଗୀ ପରୀକ୍ଷାଟି ପ୍ରଯୁକ୍ତିଗତ ନୁହେଁ:

  1. PDF ଖୋଲନ୍ତୁ।
  2. ଅଲଗା ଅଲଗା ଶବ୍ଦକୁ ହାଇଲାଇଟ୍ କରିବାକୁ ଚେଷ୍ଟା କରନ୍ତୁ।
  3. ଗୋଟିଏ ବାକ୍ୟ କପି କରନ୍ତୁ।
  4. ଏହାକୁ ଗୋଟିଏ ଟେକ୍ସଟ୍ ଏଡିଟର୍‌ରେ ପେଷ୍ଟ କରନ୍ତୁ।

ଯଦି ବାକ୍ୟଟି ଠିକ୍ ଭାବରେ ପେଷ୍ଟ ହୁଏ, ତେବେ PDF ରେ ଟେକ୍ସଟ୍ ଲେୟର ଅଛି। ଯଦି କିଛି ମଧ୍ୟ ପେଷ୍ଟ ହୁଏନି, କିମ୍ବା ସମଗ୍ର ପୃଷ୍ଠାଟି ଗୋଟିଏ ଛବି ପରି ବ୍ୟବହାର କରେ, ତେବେ PDF କୁ OCR ଆବଶ୍ୟକ।

OCR ବିକଳ୍ପୀୟ ନୁହେଁ

OCR ର ଅର୍ଥ ହେଉଛି optical character recognition। ଏହା ଛବିରୁ ଟେକ୍ସଟ୍ ପଢ଼େ ଏବଂ ଯନ୍ତ୍ର-ପଠନଯୋଗ୍ୟ ଟେକ୍ସଟ୍ ସୃଷ୍ଟି କରେ। PDF ଅନୁବାଦ ପାଇଁ, OCR ସାଧାରଣତଃ ସ୍କାନ୍ କରାଯାଇଥିବା ପୃଷ୍ଠା ଉପରେ ଗୋଟିଏ ଅଦୃଶ୍ୟ ଟେକ୍ସଟ୍ ଲେୟର ତିଆରି କରେ।

ସେହି ଟେକ୍ସଟ୍ ଲେୟର ଅନୁବାଦ ପାଇଁ ସ୍ରୋତ ହୋଇଯାଏ। ଯଦି OCR ତ୍ରୁଟି କରେ, ଅନୁବାଦ ସେହି ତ୍ରୁଟିଗୁଡ଼ିକୁ ଅନୁସରଣ କରେ।

ସାଧାରଣ OCR ତ୍ରୁଟିଗୁଡ଼ିକ:

OCR ତ୍ରୁଟିଅନୁବାଦ ଜୋଖିମ
rn କୁ m ଭାବେ ପଢ଼ାଯାଏଶବ୍ଦର ଅର୍ଥ ବଦଳିଯାଏ।
1 କୁ l ଭାବେ ପଢ଼ାଯାଏସଂଖ୍ୟା, ସନ୍ଦର୍ଭ, କିମ୍ବା କୋଡ୍ ଭୁଲ୍ ହୋଇଯାଏ।
O କୁ 0 ଭାବେ ପଢ଼ାଯାଏID, ସୂତ୍ର, ଏବଂ ନାମ ଭଙ୍ଗିଯାଇପାରେ।
ଉଚ୍ଚାରଣ ଚିହ୍ନ ଛାଡ଼ି ଯାଏନାମ ଏବଂ ଶବ୍ଦାବଳୀ ଅଶୁଦ୍ଧ ହୋଇଯାଏ।
କଲମ୍ ମିଶିଯାଏବାକ୍ୟଗୁଡ଼ିକ ଭୁଲ୍ କ୍ରମରେ ଅନୁବାଦ ହୁଏ।
ଟେବୁଲ୍ ସେଲ୍‌ଗୁଡ଼ିକୁ ପଙ୍କ୍ତିକ୍ରମେ ଭୁଲ୍ ପଢ଼ାଯାଏଡାଟା ଲେବେଲ୍‌ଗୁଡ଼ିକ ମୂଲ୍ୟ ସହ ଆଉ ମେଳ ଖାଏନାହିଁ।
ଫୁଟନୋଟ୍‌କୁ ମୂଳ ଟେକ୍ସଟ୍ ଭାବେ ନିଆଯାଏସାଇଟେସନ୍ ଏବଂ ଟିପ୍ପଣୀ ଭୁଲ୍ ପ୍ରସଙ୍ଗକୁ ସରିଯାଏ।

ସେଇଥିପାଇଁ OCR ଯାଞ୍ଚ ପଦକ୍ଷେପଟି ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ। ଉତ୍ତୋଳିତ ଟେକ୍ସଟ୍‌କୁ ସ୍ପଟ୍-ଚେକ୍ କରିନଥିଲେ ସ୍କାନ୍ କରାଯାଇଥିବା ଡକ୍ୟୁମେଣ୍ଟକୁ ଅନୁବାଦ କରନ୍ତୁ ନାହିଁ।

OCR-ପ୍ରଥମ ୱର୍କଫ୍ଲୋ

ପଦକ୍ଷେପ 1: PDF ର ପ୍ରକାର ଚିହ୍ନଟ କରନ୍ତୁ

ଟେକ୍ସଟ୍ ଚୟନ କରିବାକୁ ଚେଷ୍ଟା କରନ୍ତୁ। ଯଦି ଚୟନ କାମ କରେ, ଆପଣଙ୍କୁ OCR ଲାଗିବା ନଥାଇପାରେ। ଯଦି ଚୟନ ବିଫଳ ହୁଏ, ଫାଇଲ୍‌ଟିକୁ କେବଳ-ଛବି ଭାବେ ଧରନ୍ତୁ।

ଦୃଶ୍ୟମାନ ଭାବରେ ପୃଷ୍ଠାଟିକୁ ମଧ୍ୟ ଯାଞ୍ଚ କରନ୍ତୁ:

  • ବାଙ୍କା ପୃଷ୍ଠା ସ୍କାନ୍ ଥିବାର ସଙ୍କେତ ଦେଏ।
  • ଧୂସର କାଗଜ ଟେକ୍ସଚର୍ ସ୍କାନ୍ ଥିବାର ସଙ୍କେତ ଦେଏ।
  • ବାନ୍ଧା ଅଂଶ ପାଖରେ ଛାୟା ଥିଲେ ଏହା ଫଟୋ ତୋଳା ପୁସ୍ତକ ହୋଇପାରେ।
  • ଅସମାନ କନ୍ଟ୍ରାଷ୍ଟ ଫଟୋକପିର ସଙ୍କେତ ଦେଏ।
  • ଦେଖାଯାଉଥିବା ଶବ୍ଦ ଖୋଜିଲେ ନ ମିଳିଲେ ଟେକ୍ସଟ୍ ଲେୟର ନଥାଇପାରେ।

ପଦକ୍ଷେପ 2: ସମ୍ଭବ ହେଲେ ସ୍କାନ୍‌ର ଗୁଣବତ୍ତା ଉନ୍ନତ କରନ୍ତୁ

OCR ର ଗୁଣବତ୍ତା ଛବିର ଗୁଣବତ୍ତାରୁ ଆରମ୍ଭ ହୁଏ। ଯଦି ଆପଣ ପୁଣି ସ୍କାନ୍ କରିପାରିବେ, OCR ତ୍ରୁଟି ମରାମତିରେ ସମୟ ବ୍ୟୟ କରିବା ପୂର୍ବରୁ ସେହି କାମ କରନ୍ତୁ।

ଏହି ଛବି-ଗୁଣବତ୍ତା ଚେକଲିଷ୍ଟ ବ୍ୟବହାର କରନ୍ତୁ:

  • ଛୋଟ ଟେକ୍ସଟ୍ ପାଇଁ ପର୍ଯ୍ୟାପ୍ତ ଉଚ୍ଚ resolution ରେ ସ୍କାନ୍ କରନ୍ତୁ।
  • ପୃଷ୍ଠାଗୁଡ଼ିକୁ ସମତଳ ଏବଂ ସିଧା ରଖନ୍ତୁ।
  • ବାନ୍ଧା ଅଂଶ ପାଖରେ ଛାୟା ଏଡ଼ାନ୍ତୁ।
  • ଟେବୁଲ୍‌ର ଧାର, ଆଙ୍ଗୁଠି, କିମ୍ବା ପୃଷ୍ଠଭୂମିର ଅବାଞ୍ଛିତ ଅଂଶକୁ କ୍ରପ୍ କରନ୍ତୁ।
  • ଟେକ୍ସଟ୍ ଏବଂ ପୃଷ୍ଠା ମଧ୍ୟରେ ଉଚ୍ଚ କନ୍ଟ୍ରାଷ୍ଟ ରଖନ୍ତୁ।
  • ସମଗ୍ର ପଙ୍କ୍ତି ଦେଖାଯାଉଛି କି ସୁନିଶ୍ଚିତ କରନ୍ତୁ।
  • ସଠିକ୍ ପୃଷ୍ଠା orientation ବ୍ୟବହାର କରନ୍ତୁ।
  • ଛବିକୁ ଏତେ ଅଧିକ କମ୍ପ୍ରେସ୍ କରନ୍ତୁ ନାହିଁ ଯେ ଅକ୍ଷରଗୁଡ଼ିକ ଧୂସର ହୋଇଯାଉ।

ପୁରୁଣା ପୁସ୍ତକ ଏବଂ ଫଟୋକପି ପାଇଁ, ସବୁଠାରୁ ବଡ଼ ଉନ୍ନତି ସାଧାରଣତଃ deskewing, contrast correction, ଏବଂ out-of-focus ଥିବା ପୃଷ୍ଠାକୁ ପୁଣି ସ୍କାନ୍ କରିବାରୁ ଆସେ।

ପଦକ୍ଷେପ 3: OCR ଚଳାନ୍ତୁ

OCR ଟୁଲ୍‌କୁ ବ୍ରାଣ୍ଡ ଆଧାରରେ ନୁହେଁ, ଡକ୍ୟୁମେଣ୍ଟ ଆଧାରରେ ବାଛନ୍ତୁ।

OCR ବିକଳ୍ପକେଉଁଥି ପାଇଁ ସର୍ବୋତ୍ତମସାବଧାନ ରୁହନ୍ତୁ
Adobe Acrobat OCRସାଧାରଣ ବ୍ୟବସାୟିକ ସ୍କାନ୍ ଏବଂ PDF cleanupଏଉପରେ ନିର୍ଭର କରିବା ପୂର୍ବରୁ ବର୍ତ୍ତମାନ ପ୍ଲାନ୍ ଆକ୍ସେସ୍ ଯାଞ୍ଚ କରନ୍ତୁ।
ABBYY FineReaderଜଟିଳ ସ୍କାନ୍, ଟେବୁଲ୍, କଲମ୍, ଏବଂ କଠିନ ଲେଆଉଟ୍ତଥାପି manual review ଆବଶ୍ୟକ।
Tesseract or OCRmyPDFଲୋକାଲ୍, technical, repeatable OCR workflowscommand-line ଟୁଲ୍‌ରେ ସୁବିଧା ଲାଗେ।
Online OCR toolsକମ୍-ଜୋଖିମରେ କେବେ କେବେ ଥିବା ଫାଇଲ୍ଗୋପନୀୟତା, ଫାଇଲ୍ ସୀମା, ଏବଂ ଗୁଣବତ୍ତା ଭିନ୍ନ ହୁଏ।
Phone scanning appsଶୀଘ୍ର ନୂତନ ସ୍କାନ୍ କ୍ୟାପଚର୍ କରିବାperspective distortion OCR କୁ ପ୍ରଭାବିତ କରିପାରେ।

ଗୋପନୀୟ ଚୁକ୍ତିନାମା, ଚିକିତ୍ସା ରେକର୍ଡ, ଆର୍ଥିକ ଡକ୍ୟୁମେଣ୍ଟ, ଅପ୍ରକାଶିତ ପାଣ୍ଡୁଲିପି, କିମ୍ବା ସମୀକ୍ଷାଧୀନ ଶାସ୍ତ୍ରୀୟ କାମ ପାଇଁ, ଲୋକାଲ୍ OCR workflow କିମ୍ବା ଭରସାଯୋଗ୍ୟ environment ବ୍ୟବହାର କରନ୍ତୁ। ସେନ୍ସିଟିଭ୍ ସ୍କାନ୍‌ଗୁଡ଼ିକୁ ଯେକୌଣସି ଅଜଣା ମାଗଣା OCR ସାଇଟ୍‌ରେ ଅପଲୋଡ୍ କରନ୍ତୁ ନାହିଁ।

ପଦକ୍ଷେପ 4: OCR ଟେକ୍ସଟ୍‌କୁ ଯାଞ୍ଚ କରନ୍ତୁ

ଅନୁବାଦ ପରେ ନୁହେଁ, ଅନୁବାଦ ପୂର୍ବରୁ ଯାଞ୍ଚ କରନ୍ତୁ। କଠିନ କିଛି ପୃଷ୍ଠାରୁ ଟେକ୍ସଟ୍ କପି କରନ୍ତୁ ଏବଂ ସେଗୁଡ଼ିକ ପଢ଼ିବାଯୋଗ୍ୟ କି ନାହିଁ ଦେଖନ୍ତୁ।

ଯେଉଁ ପୃଷ୍ଠାଗୁଡ଼ିକୁ ନମୁନା ଭାବେ ଯାଞ୍ଚ କରିବା ଉଚିତ:

  • ଶୀର୍ଷକ ପୃଷ୍ଠା।
  • ଘନ body text ଥିବା ପୃଷ୍ଠା।
  • ଟେବୁଲ୍ ଥିବା ପୃଷ୍ଠା।
  • ଫୁଟନୋଟ୍ ଥିବା ପୃଷ୍ଠା।
  • ଛୋଟ ଟେକ୍ସଟ୍ ଥିବା ପୃଷ୍ଠା।
  • ମୋହର, ହସ୍ତଲିଖନ, କିମ୍ବା margin note ଥିବା ପୃଷ୍ଠା।
  • ଯଦି ଡକ୍ୟୁମେଣ୍ଟଟି ବହୁଭାଷୀ ଅଟେ, ତେବେ ପ୍ରତ୍ୟେକ ଭାଷାର ଗୋଟିଏ କରି ପୃଷ୍ଠା।

ଏଗୁଡ଼ିକୁ ଖୋଜନ୍ତୁ:

  • ନଥିବା ପ୍ୟାରାଗ୍ରାଫ୍।
  • ମିଶିଯାଇଥିବା କଲମ୍।
  • ଭଙ୍ଗିଯାଇଥିବା ଶବ୍ଦ।
  • ଭୁଲ୍ ଅକ୍ଷର।
  • ହାରାଇଥିବା diacritics।
  • ମୂଲ୍ୟରୁ ଅଲଗା ହୋଇଯାଇଥିବା ଟେବୁଲ୍ ଲେବେଲ୍।
  • body text ଭିତରେ ଘୁସିଯାଇଥିବା header।
  • ବାକ୍ୟ ମଧ୍ୟରେ ମିଶିଯାଇଥିବା page number।

ଯଦି OCR ଗୁଣବତ୍ତା ଖରାପ, ଅନୁବାଦ ପୂର୍ବରୁ ଏହାକୁ ଠିକ୍ କରନ୍ତୁ। OCR ଯେଉଁ ଅର୍ଥକୁ କେବେ ଧରିପାରିଲା ନାହିଁ, ଅନୁବାଦକ ତାହାକୁ ଭରସାଯୋଗ୍ୟ ଭାବରେ ପୁନର୍ନିର୍ମାଣ କରିପାରିବ ନାହିଁ।

ପଦକ୍ଷେପ 5: OCR-ପ୍ରୋସେସ୍ କରାଯାଇଥିବା PDF କୁ ଅନୁବାଦ କରନ୍ତୁ

PDF ରେ ଏକ ସଫା ଟେକ୍ସଟ୍ ଲେୟର ଥିବା ପରେ, ଏହାକୁ PDF ଅନୁବାଦକ କୁ ଅପଲୋଡ୍ କରନ୍ତୁ। ଏବେ ଅନୁବାଦ ପଦକ୍ଷେପଟି ପୃଷ୍ଠାର ଛବି ପରିବର୍ତ୍ତେ ଟେକ୍ସଟ୍ ସହିତ କାମ କରିପାରିବ।

ଅନୁବାଦ ପରେ, ଏହିଗୁଡ଼ିକୁ ତୁଳନା କରନ୍ତୁ:

  • ମୂଳ ସ୍କାନ୍
  • OCR ଟେକ୍ସଟ୍ ଲେୟର
  • ଅନୁବାଦିତ PDF

ଏହି ତିନୋଟିର ତୁଳନାମୂଳକ ଯାଞ୍ଚ ଆପଣଙ୍କୁ ବୁଝିବାରେ ସାହାଯ୍ୟ କରେ ଯେ ତ୍ରୁଟିଟି OCR ରୁ ଆସିଛି କି ଅନୁବାଦରୁ। ଯଦି OCR ଟେକ୍ସଟ୍ ଭୁଲ୍, OCR କୁ ପୁଣି ଚଳାନ୍ତୁ। ଯଦି OCR ଟେକ୍ସଟ୍ ଠିକ୍, କିନ୍ତୁ ଅନୁବାଦ ଭୁଲ୍, ତେବେ ଅନୁବାଦକୁ ଠିକ୍ କରନ୍ତୁ।

ପଦକ୍ଷେପ 6: ଉଚ୍ଚ-ଜୋଖିମପୂର୍ଣ୍ଣ ବିଷୟବସ୍ତୁକୁ ଯାଞ୍ଚ କରନ୍ତୁ

ସ୍କାନ୍ କରାଯାଇଥିବା ଡକ୍ୟୁମେଣ୍ଟ‌ମାନଙ୍କରେ ସାଧାରଣତଃ ଠିକ୍ ସେହି ବିଷୟବସ୍ତୁ ଥାଏ ଯାହାକୁ ସାବଧାନତାର ସହ ଯାଞ୍ଚ କରିବା ଆବଶ୍ୟକ: ପୁରୁଣା ଚୁକ୍ତିନାମା, ସରକାରୀ ଫର୍ମ, ଶାସ୍ତ୍ରୀୟ ପେପର୍, ମାନୁଆଲ୍, ଐତିହାସିକ ଡକ୍ୟୁମେଣ୍ଟ, ଏବଂ ପୁସ୍ତକ ପୃଷ୍ଠା।

ଏହି ଅଂଶଗୁଡ଼ିକୁ ହାତେ ଯାଞ୍ଚ କରନ୍ତୁ:

  • ନାମ
  • ତାରିଖ
  • ସଂଖ୍ୟା
  • ଠିକଣା
  • ପ୍ରୋଡକ୍ଟ କୋଡ୍
  • ଆଇନଗତ ସନ୍ଦର୍ଭ
  • ସାଇଟେସନ୍
  • ଟେବୁଲ୍ ଲେବେଲ୍
  • ଇଉନିଟ୍
  • ସମୀକରଣ
  • କ୍ୟାପ୍ଶନ୍
  • ଫୁଟନୋଟ୍

ଗବେଷଣା ଏବଂ ଶାସ୍ତ୍ରୀୟ ଫାଇଲ୍ ପାଇଁ, ଶାସ୍ତ୍ରୀୟ ଗବେଷଣା ପେପର୍‌ଗୁଡ଼ିକୁ ଅନୁବାଦ କରିବା ଗାଇଡ୍‌ଟି ମଧ୍ୟ ପଢ଼ନ୍ତୁ, କାରଣ ସ୍କାନ୍ କରାଯାଇଥିବା ଶାସ୍ତ୍ରୀୟ PDF ଗୁଡ଼ିକ OCR ଜୋଖିମ ସହ ସାଇଟେସନ୍ ଏବଂ ଲେଆଉଟ୍ ଜୋଖିମକୁ ମଧ୍ୟ ଯୋଗ କରେ।

ପାଖପାଖି ବିଫଳତା ଉଦାହରଣ

OCR ଆଉଟପୁଟ୍‌କୁ ଯାଞ୍ଚ କରିବା ସମୟରେ ଏହି ଟେବୁଲ୍ ବ୍ୟବହାର କରନ୍ତୁ।

ମୂଳ ସ୍କାନ୍‌ରେ ସମ୍ଭବତଃ ଦେଖାଯାଏଖରାପ OCR ଆଉଟପୁଟ୍କାହିଁକି ଏହା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ
modernmodemଅର୍ଥ ସମ୍ପୂର୍ଣ୍ଣ ବଦଳିଯାଏ।
Section 10Section IOଆଇନଗତ କିମ୍ବା technical ସନ୍ଦର୍ଭ ଭଙ୍ଗିଯାଇପାରେ।
20262O26ତାରିଖ ଏବଂ ID ଭରସାଯୋଗ୍ୟ ରହେନାହିଁ।
patientpatlentଚିକିତ୍ସା କିମ୍ବା technical ଶବ୍ଦ ଭୁଲ୍ ହୋଇଯାଏ।
ଦୁଇଟି ଅଲଗା କଲମ୍ଗୋଟିଏ ମିଶିଯାଇଥିବା ପ୍ୟାରାଗ୍ରାଫ୍ଅନୁବାଦ ବାକ୍ୟଗୁଡ଼ିକୁ ଭୁଲ୍ କ୍ରମରେ ପଢ଼େ।
ଲେବେଲ୍ ଏବଂ ମୂଲ୍ୟ ସହିତ ଟେବୁଲ୍ ପଙ୍କ୍ତିମିଶ୍ର ଟେକ୍ସଟ୍‌ର ଗୋଟିଏ ଲାଇନ୍ଡାଟା ଆଉ ସଠିକ୍ ଲେବେଲ୍‌ ସହିତ ମେଳ ଖାଏନାହିଁ।
ଫୁଟନୋଟ୍ ଚିହ୍ନ 1ଅକ୍ଷର lଟିପ୍ପଣୀ ଭୁଲ୍ ବାକ୍ୟ ସହ ଯୋଡ଼ିଯାଇପାରେ।

ଯଦି OCR ଲେୟରରେ ଏହି ତ୍ରୁଟିଗୁଡ଼ିକ ଦେଖିବେ, ଅନୁବାଦ ପୂର୍ବରୁ OCR କୁ ଠିକ୍ କରନ୍ତୁ।

କେଉଁ ଟୁଲ୍ ବ୍ୟବହାର କରିବେ?

ଡକ୍ୟୁମେଣ୍ଟ‌ର କଠିନତା ଆଧାରରେ ବାଛନ୍ତୁ।

ଡକ୍ୟୁମେଣ୍ଟପରାମର୍ଶିତ ପଥ
ସଫା ବ୍ୟବସାୟିକ ସ୍କାନ୍Acrobat କିମ୍ବା ଅନ୍ୟ ଭରସାଯୋଗ୍ୟ OCR ଟୁଲ୍‌ରେ OCR, ତାପରେ PDF ଅନୁବାଦକ
ପୁରୁଣା ପୁସ୍ତକ ସ୍କାନ୍Deskew କରନ୍ତୁ ଏବଂ contrast ଉନ୍ନତ କରନ୍ତୁ, ସାବଧାନତାର ସହ OCR କରନ୍ତୁ, ତାପରେ ଅନୁବାଦ କରନ୍ତୁ।
ଶାସ୍ତ୍ରୀୟ ପେପର୍ ସ୍କାନ୍OCR କରନ୍ତୁ, ସମୀକରଣ/ସାଇଟେସନ୍/ଟେବୁଲ୍ ଯାଞ୍ଚ କରନ୍ତୁ, ତାପରେ ଲେଆଉଟ୍ review ସହ ଅନୁବାଦ କରନ୍ତୁ।
ହସ୍ତଲିଖିତ ଟିପ୍ପଣୀଅନୁବାଦ ପୂର୍ବରୁ manual transcription ଲାଗିପାରେ।
ସରଳ ବ୍ୟକ୍ତିଗତ ଡକ୍ୟୁମେଣ୍ଟଯଦି ଗୋପନୀୟତା ଜୋଖିମ କମ୍, online OCR ଗ୍ରହଣଯୋଗ୍ୟ ହୋଇପାରେ।
ସେନ୍ସିଟିଭ୍ ଡକ୍ୟୁମେଣ୍ଟଲୋକାଲ୍ OCR କିମ୍ବା ଭରସାଯୋଗ୍ୟ ନିୟନ୍ତ୍ରିତ workflow ବ୍ୟବହାର କରନ୍ତୁ।

ଯଦି ଆପଣ ବିସ୍ତୃତ ଟୁଲ୍ ତୁଳନା ଚାହୁଁଛନ୍ତି, ଶ୍ରେଷ୍ଠ PDF ଅନୁବାଦକ ଗାଇଡ୍ ଦେଖନ୍ତୁ।

ସାଧାରଣ ସ୍କାନ୍ କରାଯାଇଥିବା PDF ସମସ୍ୟାଗୁଡ଼ିକ

କମ୍-resolution ପୃଷ୍ଠାଗୁଡ଼ିକ

କମ୍-resolution ସ୍କାନ୍‌ରେ ଅକ୍ଷରଗୁଡ଼ିକ ଏକାଠି ଧୂସର ହୋଇଯାଏ। OCR rn ଏବଂ m, cl ଏବଂ d, କିମ୍ବା punctuation ଏବଂ ଧୁଳିକଣାକୁ ଗୋଲମାଲ କରିପାରେ।

ସମାଧାନ: ସମ୍ଭବ ହେଲେ ପୁଣି ସ୍କାନ୍ କରନ୍ତୁ। ନହେଲେ contrast ବଢ଼ାନ୍ତୁ ଏବଂ OCR କୁ ପୁଣି ଚେଷ୍ଟା କରନ୍ତୁ।

ବାଙ୍କା କିମ୍ବା ବକ୍ର ପୃଷ୍ଠାଗୁଡ଼ିକ

ପୁସ୍ତକ ସ୍କାନ୍‌ରେ ବାନ୍ଧା ଅଂଶ ପାଖରେ ପୃଷ୍ଠା ବକ୍ର ହୋଇଥାଏ। OCR ସେହି ବକ୍ର ଲାଇନ୍‌ଗୁଡ଼ିକୁ ଭଲ ଭାବରେ ପଢ଼ିପାରେନାହିଁ ଏବଂ ଟେକ୍ସଟ୍‌ର କ୍ରମକୁ ବଦଳାଇ ଦେଇପାରେ।

ସମାଧାନ: ପୃଷ୍ଠାକୁ ସମତଳ କରନ୍ତୁ, ପୁଣି ସ୍କାନ୍ କରନ୍ତୁ, କିମ୍ବା deskew ଏବଂ dewarping ସହିତ ଥିବା OCR ଟୁଲ୍ ବ୍ୟବହାର କରନ୍ତୁ।

ବହୁ-କଲମ୍ ଲେଆଉଟ୍

OCR ବାମ ଏବଂ ଡାହାଣ କଲମ୍‌କୁ ଗୋଟିଏ ମାତ୍ର ବାକ୍ୟ ପ୍ରବାହରେ ମିଶାଇଦେଇପାରେ।

ସମାଧାନ: ଅନୁବାଦ ପୂର୍ବରୁ ପଢ଼ିବା କ୍ରମକୁ ଯାଞ୍ଚ କରନ୍ତୁ। ଏଠାରେ ଶାସ୍ତ୍ରୀୟ ପେପର୍‌ଗୁଡ଼ିକୁ ବିଶେଷ ଧ୍ୟାନ ଦରକାର।

ଟେବୁଲ୍‌ଗୁଡ଼ିକ

ଟେବୁଲ୍ କଠିନ, କାରଣ OCR କୁ ଟେକ୍ସଟ୍ ଏବଂ ଗଠନ — ଉଭୟକୁ ଚିହ୍ନଟ କରିବାକୁ ପଡ଼େ। ଟେବୁଲ୍‌ଟି ଦେଖିବାକୁ ଠିକ୍ ଲାଗିପାରେ, କିନ୍ତୁ ଟେକ୍ସଟ୍ ଲେୟର ଭୁଲ୍ ହୋଇପାରେ।

ସମାଧାନ: ଟେବୁଲ୍‌ର OCR ଟେକ୍ସଟ୍ କପି କରନ୍ତୁ ଏବଂ ଲେବେଲ୍‌ଗୁଡ଼ିକ ଏବେମଧ୍ୟ ମୂଲ୍ୟ ସହ ମେଳ ଖାଉଛି କି ନାହିଁ ଯାଞ୍ଚ କରନ୍ତୁ।

ହସ୍ତଲିଖନ ଏବଂ ସହି

ମୁଦ୍ରିତ ଟେକ୍ସଟ୍ ପାଇଁ OCR, ହସ୍ତଲିଖନ ସ୍ୱୀକୃତିଠାରୁ ଅଧିକ ଭରସାଯୋଗ୍ୟ। ହାତରେ ଲିଖା margin note, ସହି, ଏବଂ ଭରାଯାଇଥିବା ଫର୍ମ ଛାଡ଼ିଯାଇପାରେ କିମ୍ବା ଅସ୍ପଷ୍ଟ ହୋଇପାରେ।

ସମାଧାନ: ଅନୁବାଦ ପୂର୍ବରୁ ଜରୁରୀ ହସ୍ତଲିଖିତ ବିଷୟବସ୍ତୁକୁ ହାତେ ଲେଖନ୍ତୁ।

ମିଶ୍ର ଭାଷା

OCR ସେତେବେଳେ ସର୍ବଶ୍ରେଷ୍ଠ କାମ କରେ ଯେତେବେଳେ ଏହା ମୂଳ ଭାଷାକୁ ଜାଣେ। ଇଂରାଜୀ, ଫ୍ରେଞ୍ଚ, ଏବଂ ଚାଇନିଜ୍ ଥିବା ଗୋଟିଏ ସ୍କାନ୍, ଯଦି OCR କୁ କେବଳ ଗୋଟିଏ ଭାଷାରେ ସେଟ୍ କରାଯାଏ, ତେବେ ବିଫଳ ହୋଇପାରେ।

ସମାଧାନ: ଯଦି ଟୁଲ୍ ସମର୍ଥନ କରେ, ତେବେ ସମ୍ପର୍କିତ ସମସ୍ତ OCR ଭାଷା ବାଛନ୍ତୁ, ତାପରେ ପ୍ରତ୍ୟେକ ଭାଷା ଅଂଶକୁ ସ୍ପଟ୍-ଚେକ୍ କରନ୍ତୁ।

ଗୋପନୀୟତା ଏବଂ ସୁରକ୍ଷା ଚେକଲିଷ୍ଟ

ସ୍କାନ୍ କରାଯାଇଥିବା PDF କୁ କେଉଁଠି ଅପଲୋଡ୍ କରିବା ପୂର୍ବରୁ ନିଜକୁ ପଚାରନ୍ତୁ:

  • ଡକ୍ୟୁମେଣ୍ଟ‌ରେ ବ୍ୟକ୍ତିଗତ ତଥ୍ୟ ଅଛି କି?
  • ଏଥିରେ ଚିକିତ୍ସା, ଆଇନଗତ, ଆର୍ଥିକ, ଶାସ୍ତ୍ରୀୟ, କିମ୍ବା ଅପ୍ରକାଶିତ ସାମଗ୍ରୀ ଅଛି କି?
  • ଏହା କ୍ଲାଇଏଣ୍ଟ ଚୁକ୍ତି କିମ୍ବା ସ୍କୁଲ୍ ନୀତିର ଅଧୀନ କି?
  • ଏହି ଡକ୍ୟୁମେଣ୍ଟ ପାଇଁ online OCR ସେବା ଅନୁମୋଦିତ କି?
  • ଆପଣଙ୍କୁ ତାହାର ପରିବର୍ତ୍ତେ ଲୋକାଲ୍ workflow ଦରକାର କି?
  • ଯେଉଁ ପୃଷ୍ଠାର ଅନୁବାଦ ଦରକାର ନାହିଁ ସେଗୁଡ଼ିକୁ ହଟାଇପାରିବେ କି?

ସ୍କାନ୍ କରାଯାଇଥିବା PDF ଗୁଡ଼ିକ ବହୁତ ସମୟରେ ସେନ୍ସିଟିଭ୍ ହୋଇଥାଏ, କାରଣ ସେମାନେ ଚୁକ୍ତିନାମା, ID, ଫର୍ମ, ଗବେଷଣା ଖସଡ଼ା, ଏବଂ ଆଭ୍ୟନ୍ତରୀଣ ଆର୍କାଇଭ୍‌ରୁ ଆସନ୍ତି। OCR upload ସିଦ୍ଧାନ୍ତକୁ ମୂଳ ଡକ୍ୟୁମେଣ୍ଟ‌କୁ ଯେପରି ଗ୍ରହଣ କରନ୍ତି ସେହିଭଳି ଗୁରୁତ୍ୱ ସହ କରନ୍ତୁ।

FAQ

ସ୍କାନ୍ କରାଯାଇଥିବା PDF କୁ କେମିତି ଅନୁବାଦ କରିବି?

ପ୍ରଥମେ OCR ଚଳାଇ ଟେକ୍ସଟ୍ ଲେୟର ସୃଷ୍ଟି କରନ୍ତୁ, OCR ଆଉଟପୁଟ୍‌କୁ ଯାଞ୍ଚ କରନ୍ତୁ, ତାପରେ PDF ଅନୁବାଦକ ସହିତ OCR-ପ୍ରୋସେସ୍ କରାଯାଇଥିବା PDF କୁ ଅନୁବାଦ କରନ୍ତୁ। OCR review ପଦକ୍ଷେପଟିକୁ ଏଡ଼ାନ୍ତୁ ନାହିଁ।

Google Translate ମୋ ସ୍କାନ୍ କରାଯାଇଥିବା PDF କୁ କାହିଁକି ଅନୁବାଦ କରିଲା ନାହିଁ?

PDF ଟି ସମ୍ଭବତଃ କେବଳ-ଛବି ଥିଲା। ଯଦି ଟେକ୍ସଟ୍ ଲେୟର ନାହିଁ, Google Translate ପାଖରେ ଏକ୍ସଟ୍ରାକ୍ଟ କରିବା ପାଇଁ ଟେକ୍ସଟ୍ ନଥାଏ। ପ୍ରଥମେ OCR ବ୍ୟବହାର କରନ୍ତୁ, ତାପରେ ଅନୁବାଦ କରନ୍ତୁ। Google-ନିର୍ଦ୍ଦିଷ୍ଟ workflow Google Translate PDF ଗାଇଡ୍ ରେ ଆଲୋଚିତ ହୋଇଛି।

ChatGPT କି ସ୍କାନ୍ କରାଯାଇଥିବା PDF କୁ ଅନୁବାଦ କରିପାରିବ?

ChatGPT ଅଲଗା ଛବି କିମ୍ବା ଉତ୍ତୋଳିତ ଟେକ୍ସଟ୍ ପାଇଁ ସାହାଯ୍ୟ କରିପାରେ, କିନ୍ତୁ ଅନେକ ପୃଷ୍ଠାର ସ୍କାନ୍ କରାଯାଇଥିବା PDF ପାଇଁ ଏବେମଧ୍ୟ OCR ଏବଂ review ଆବଶ୍ୟକ। ସମ୍ପୂର୍ଣ୍ଣ ଡକ୍ୟୁମେଣ୍ଟ workflow ପାଇଁ, ପ୍ରଥମେ OCR, ତାପରେ PDF ଅନୁବାଦ workflow ବ୍ୟବହାର କରନ୍ତୁ।

ସ୍କାନ୍ କରାଯାଇଥିବା PDF ପାଇଁ ସର୍ବୋତ୍ତମ OCR ଟୁଲ୍ କଣ?

ଏହା ଡକ୍ୟୁମେଣ୍ଟ‌ରୁ ନିର୍ଭର କରେ। ସାଧାରଣ ଏବଂ ଜଟିଳ ସ୍କାନ୍ ପାଇଁ Acrobat ଏବଂ ABBYY-ଶୈଳୀର ଟୁଲ୍ ଉପଯୋଗୀ। Tesseract କିମ୍ବା OCRmyPDF ଲୋକାଲ୍ technical workflow ପାଇଁ ଉପଯୋଗୀ। କମ୍-ଜୋଖିମର ସରଳ ଫାଇଲ୍ ପାଇଁ online OCR ଠିକ୍ ହୋଇପାରେ, କିନ୍ତୁ ଗୋପନୀୟତା ଏବଂ ଗୁଣବତ୍ତା ଭିନ୍ନ ହୁଏ।

OCR କି formatting କୁ ସୁରକ୍ଷିତ ରଖିପାରେ?

OCR ଟେକ୍ସଟ୍ ଲେୟର ସୃଷ୍ଟି କରିପାରେ ଏବଂ କେବେ କେବେ ପଢ଼ିବା କ୍ରମକୁ ପୁନରୁଦ୍ଧାର କରିପାରେ, କିନ୍ତୁ ଏହା ମୂଳ ଅନୁବାଦିତ ଲେଆଉଟ୍‌କୁ ସୁରକ୍ଷିତ ରଖିବା ସମାନ ନୁହେଁ। OCR ପରେ, PDF ଅନୁବାଦ workflow ବ୍ୟବହାର କରନ୍ତୁ ଏବଂ ଆଉଟପୁଟ୍‌କୁ ମୂଳ ସହିତ ଯାଞ୍ଚ କରନ୍ତୁ।

ଯଦି OCR ଗୁଣବତ୍ତା ଖରାପ ହୁଏ ତେବେ?

ଅନୁବାଦ ପୂର୍ବରୁ ସ୍କାନ୍‌କୁ ଉନ୍ନତ କରନ୍ତୁ। ସମ୍ଭବ ହେଲେ ପୁଣି ସ୍କାନ୍ କରନ୍ତୁ, ପୃଷ୍ଠାଗୁଡ଼ିକୁ deskew କରନ୍ତୁ, contrast ବଢ଼ାନ୍ତୁ, ଅବାଞ୍ଛିତ ଅଂଶକୁ କ୍ରପ୍ କରନ୍ତୁ, ସଠିକ୍ OCR ଭାଷା ବାଛନ୍ତୁ, ଏବଂ କଠିନ ପୃଷ୍ଠାଗୁଡ଼ିକୁ ପୁଣି ଯାଞ୍ଚ କରନ୍ତୁ।