BookTranslator
BookTranslator

د سکین شوې PDF ژباړه څنګه وکړو: د OCR + ژباړې بشپړ لارښود

سکین شوې PDF ګانې د متن انځورونه لري، اصلي متن نه — له همدې امله Google Translate یې بې له بدلون څخه بېرته راګرځوي. دلته د OCR + AI هغه بهیر دی چې دا ستونزه حلوي.

BookTranslator

BookTranslator Team

د ژباړې لارښوونې13 min read

لنډ ځواب: سکین شوې PDF له ژباړې مخکې OCR ته اړتیا لري

د سکین شوې PDF د ژباړې لپاره، لومړی OCR وچلوئ څو د پاڼو انځورونه د انتخاب کېدونکي متن په بڼه بدل کړي. وروسته د OCR-پروسس شوې PDF ژباړه د داسې سند-ژباړونکي له لارې وکړئ لکه د PDF ژباړن. که OCR پرېږدئ، ډېر د ژباړې وسایل به اصلي فایل بې له بدلون څخه بېرته درکړي، ځینې پاڼې به له لاسه ورکړي، یا به یوازې هغه برخې وژباړي چې له مخکې څخه پکې د متن طبقه موجوده وي.

دا کړنلاره وکاروئ:

  1. PDF پرانیزئ او هڅه وکړئ یوه جمله انتخاب کړئ.
  2. که متن نه شئ انتخابولای، OCR وچلوئ.
  3. د ژباړې مخکې د OCR متن بیاکتنه وکړئ.
  4. د OCR-پروسس شوې PDF فایل د PDF ژباړن ته اپلوډ کړئ.
  5. ژباړلې وتنه له اصلي سکین سره پرتله کړئ.

که ستاسو PDF له مخکې څخه د انتخاب وړ متن ولري او ستونزه د بڼې ساتل وي، د فورمټ له لاسه ورکولو پرته د PDF ژباړې لارښود وکاروئ.

ولې سکین شوې PDF ګانې د ژباړې په وسیلو کې ناکامېږي

سکین شوې PDF ډېر وخت یوازې د پاڼو د انځورونو یوه مجموعه وي چې د PDF په کانتینر کې ایښودل شوې وي. انسان ته کېدای شي پاڼه د کلمو په بڼه ښکاره شي، خو فایل ښايي داسې اصلي متن ونه لري چې سافټویر یې استخراج کړي.

له همدې امله دا ساده ستونزه رامنځته کېږي:

د فایل ډولژباړن څه وینيڅه پېښېږي
د متن-پر-بنسټ PDFمتن او د بڼې معلوماتژباړه سمدستي پیل کېدای شي.
یوازې-انځور لرونکې سکین شوې PDFد پاڼو انځورونهلومړی OCR ته اړتیا ده.
د انځور پر سر متن لرونکې PDFد سکین انځور او د OCR پټه متني طبقهژباړه کار کولای شي، خو د OCR تېروتنې پر کیفیت اغېز کوي.

تر ټولو ګټوره ازموینه تخنیکي نه ده:

  1. PDF پرانیزئ.
  2. هڅه وکړئ جلا جلا کلمې هایلایټ کړئ.
  3. یوه جمله کاپي کړئ.
  4. هغه په متن-اېډېټر کې پیسټ کړئ.

که جمله سم پیسټ شي، PDF د متن طبقه لري. که هېڅ څه پیسټ نه شي، یا ټوله پاڼه د یوه انځور په څېر چلند وکړي، PDF OCR ته اړتیا لري.

OCR اختیاري نه دی

OCR د optical character recognition لنډیز دی. دا له انځور څخه متن لولي او د ماشین له خوا لوستل کېدونکی متن جوړوي. د PDF ژباړې لپاره، OCR عموماً د سکین شوې پاڼې پر سر د نه لېدونکې متن طبقه جوړوي.

همدا د متن طبقه د ژباړې سرچینه ګرځي. که OCR تېروتنه وکړي، ژباړه هم هماغه تېروتنې له ځان سره وړي.

د OCR عامې تېروتنې:

د OCR تېروتنهد ژباړې خطر
rn د m په توګه لوستل کېږيد کلمو مانا بدلېږي.
1 د l په توګه لوستل کېږيشمېرې، حوالې، یا کوډونه ناسمېږي.
O د 0 په توګه لوستل کېږيپېژندپاڼې، فورمولونه، او نومونه خرابېدای شي.
اکسنتونه له منځه ځينومونه او اصطلاحات ناسمېږي.
ستونونه سره ګډېږيجملې په غلط ترتیب ژباړل کېږي.
د جدول حجرې په ناسمه توګه قطار په قطار لوستل کېږيد معلوماتو لیبلونه نور له ارزښتونو سره نه سمون خوري.
پایلیکونه د اصلي متن په توګه ګڼل کېږياستنادونه او یادښتونه ناسم سیاق ته ځي.

له همدې امله د OCR د بیاکتنې ګام مهم دی. تر هغه چې مو استخراج شوی متن په نمونوي ډول نه وي کتلای، سکین شوی سند مه ژباړئ.

د OCR-لومړی کاري بهیر

لومړی ګام: د PDF ډول وپېژنئ

هڅه وکړئ متن انتخاب کړئ. که انتخاب کار کوي، ښايي OCR ته اړتیا ونه لرئ. که انتخاب ناکام شي، فایل د یوازې-انځور سند په توګه وګڼئ.

همدارنګه پاڼه په سترګو هم وڅېړئ:

  • کږې پاڼې عموماً سکین ښيي.
  • د کاغذ خړه سطحه عموماً سکین ښيي.
  • د کتاب د ملا څنګ ته سیوري ښيي چې دا ښايي د کتاب عکس وي.
  • ناهموار کانټراسټ عموماً فوټوکاپي ښيي.
  • که لټون ښکاره کلمې نه مومي، غالباً د متن طبقه نشته.

دویم ګام: که امکان وي، سکین ښه کړئ

د OCR کیفیت له انځور کیفیت څخه پیلېږي. که بیا-سکین کولای شئ، د OCR د تېروتنو د سمولو لپاره له وخت لګولو مخکې همدا کار وکړئ.

دا د انځور-کیفیت چک‌لېست وکاروئ:

  • په دومره لوړ ریزولوشن سکین وکړئ چې واړه متن هم واضح وي.
  • پاڼې هوارې او سمې وساتئ.
  • د کتاب د ملا ترڅنګ له سیورو ډډه وکړئ.
  • د جدول څنډې، ګوتې، یا د شالید ګډوډي کراپ کړئ.
  • د متن او پاڼې ترمنځ قوي کانټراسټ وساتئ.
  • ډاډ ترلاسه کړئ چې ټوله کرښه ښکاره ده.
  • د پاڼې سمه جهت‌بندي وکاروئ.
  • انځور دومره مه کمپرسوئ چې توري خړ پړ شي.

د زړو کتابونو او فوټوکاپیانو لپاره تر ټولو لویې ګټې معمولاً د کږوالي له سمولو، د کانټراسټ له اصلاح، او د هغو پاڼو له بیا-سکین څخه راځي چې فوکس نه وي.

درېیم ګام: OCR وچلوئ

د OCR وسیله د سند له ډول سره سم وټاکئ، نه یوازې د نوم یا برانډ پر بنسټ.

د OCR انتخابتر ټولو مناسب د څه لپارهدې ته پام وکړئ
Adobe Acrobat OCRعمومي سوداګریز سکینونه او د PDF پاکولمخکې له دې چې پرې تکیه وکړئ، د خپل اوسني پلان لاسرسی وګورئ.
ABBYY FineReaderپېچلي سکینونه، جدولونه، ستونونه، او سختې بڼېبیا هم لاسي بیاکتنې ته اړتیا لري.
Tesseract or OCRmyPDFځايي، تخنیکي، او تکرارېدونکي OCR کاري بهیرونهد کمانډ-لاین له وسیلو سره اشنايي غواړي.
Online OCR toolsد لږ خطر لرونکي کله ناکله فایلونهمحرمیت، د فایل محدودیتونه، او کیفیت یې سره توپیر لري.
Phone scanning appsد نوي سکین ژر اخیستلد لید زاویې کږوالی د OCR کیفیت خرابولای شي.

د شخصي قراردادونو، طبي ریکارډونو، مالي اسنادو، ناچاپو لاسوندونو، یا د بیاکتنې لاندې علمي کار لپاره، ځايي OCR کاري بهیر یا باوري چاپېریال غوره کړئ. حساس سکینونه تصادفي وړیا OCR سایټونو ته مه اپلوډوئ.

څلورم ګام: د OCR متن بیاکتنه وکړئ

بیاکتنه له ژباړې مخکې وکړئ، نه وروسته. د څو سختو پاڼو متن کاپي کړئ او وګورئ چې لوستل کېدونکی دی که نه.

هغه نمونوي پاڼې چې باید وڅېړل شي:

  • د سرلیک پاڼه.
  • د متن یوه ګڼ پاڼه.
  • د جدول پاڼه.
  • د پایلیکونو لرونکې پاڼه.
  • د واړه متن لرونکې پاڼه.
  • هغه پاڼه چې مهرونه، لاسلیک، یا د غاړې یادښتونه ولري.
  • که سند څوژبېز وي، د هرې ژبې یوه پاڼه.

دا ستونزې ولټوئ:

  • ورک پاراګرافونه.
  • سره ګډ شوي ستونونه.
  • ماتې شوې کلمې.
  • ناسم کرکټرونه.
  • له منځه تللي اکسنتونه.
  • د جدول لیبلونه چې له ارزښتونو جلا شوي وي.
  • سرلیکونه چې د اصلي متن منځ ته داخل شوي وي.
  • د پاڼو شمېرې چې له جملو سره ګډې شوې وي.

که د OCR کیفیت خراب وي، له ژباړې مخکې یې سم کړئ. ژباړن نه شي کولای په باوري ډول هغه مانا بېرته راوباسي چې OCR هېڅکله نه ده نیولې.

پنځم ګام: د OCR-پروسس شوې PDF ژباړه وکړئ

کله چې PDF پاکه د متن طبقه ولري، هغه د PDF ژباړن ته اپلوډ کړئ. اوس د ژباړې ګام کولای شي د پاڼو د انځورونو پر ځای له متن سره کار وکړي.

له ژباړې وروسته دا درې شیان پرتله کړئ:

  • اصلي سکین
  • د OCR متن طبقه
  • ژباړل شوې PDF

دا درې‌اړخیزه بیاکتنه تاسو سره مرسته کوي چې معلومه کړئ تېروتنه له OCR څخه راغلې که له ژباړې. که د OCR متن غلط وي، OCR بیا وچلوئ. که د OCR متن سم وي خو ژباړه غلطه وي، ژباړه اصلاح کړئ.

شپږم ګام: لوړ-خطر لرونکې محتوا بیاکتنه وکړئ

سکین شوي اسناد اکثره هماغه محتوا لري چې ډېرې دقیقې بیاکتنې ته اړتیا لري: زاړه قراردادونه، دولتي فورمې، علمي مقالې، لارښودونه، تاریخي اسناد، او د کتاب پاڼې.

دا توکي په لاسي ډول بیاکتنه کړئ:

  • نومونه
  • نېټې
  • شمېرې
  • پتې
  • د محصول کوډونه
  • قانوني حوالې
  • استنادونه
  • د جدول لیبلونه
  • واحدونه
  • معادلې
  • سرلیکونه
  • پایلیکونه

د څېړنیزو او علمي فایلونو لپاره، د علمي څېړنیزو مقالو د ژباړې لارښود هم ولولئ، ځکه سکین شوې علمي PDF ګانې د OCR د خطر تر څنګ د استناد او بڼې اضافي خطرونه هم لري.

څنګ-په-څنګ د ناکامۍ بېلګې

د OCR د وتنې د بیاکتنې پر مهال دا جدول وکاروئ.

اصل سکین غالباً دا ښييخراب OCR وتنهولې مهمه ده
modernmodemمانا په بشپړ ډول بدلېږي.
Section 10Section IOقانوني یا تخنیکي حوالې خرابېدای شي.
20262O26نېټې او پېژندپاڼې بې‌باوره کېږي.
patientpatlentطبي یا تخنیکي اصطلاحات ناسمېږي.
دوه جلا ستونونهیو ګډ شوی پاراګرافژباړه جملې په غلط ترتیب لولي.
د لیبلونو او ارزښتونو لرونکی د جدول قطارد ګډ شوي متن یوه کرښهمعلومات نور له سم لیبل سره نه نښلي.
د پایلیک نښه 1توری lیادښتونه ښايي له غلطې جملې سره ونښلي.

که دا تېروتنې د OCR په طبقه کې وینئ، له ژباړې مخکې OCR سم کړئ.

کومه وسیله باید وکاروئ؟

انتخاب یې د سند د سختوالي له مخې وکړئ.

سندسپارښتل شوې لاره
پاک سوداګریز سکینپه Acrobat یا بل باوري OCR وسیله کې OCR وکړئ، بیا د PDF ژباړن وکاروئ.
د زاړه کتاب سکینکږوالی سم کړئ او کانټراسټ ښه کړئ، OCR په احتیاط ترسره کړئ، بیا ژباړه وکړئ.
د علمي مقالې سکینOCR وکړئ، معادلې/استنادونه/جدولونه بیاکتنه کړئ، بیا له بڼې سره د بیاکتنې په ملتیا ژباړه وکړئ.
په لاس لیکل شوي یادښتونهښايي له ژباړې مخکې لاسي نقل ته اړتیا وي.
ساده شخصي سندکه د محرمیت خطر ټیټ وي، انلاین OCR منل کېدای شي.
حساس سندځايي OCR یا یو باوري کنټرول شوی کاري بهیر وکاروئ.

که تاسو د وسیلو پراخه پرتله غواړئ، د غوره PDF ژباړونکو لارښود وګورئ.

د سکین شوې PDF عامې ستونزې

ټیټ ریزولوشن لرونکې پاڼې

د ټیټ ریزولوشن سکینونه توري سره ګډ او خړ پړ کوي. OCR کېدای شي rn او m، cl او d، یا نښانې او دوړې سره ګډې کړي.

حل: که امکان وي، بیا-سکین وکړئ. که نه، کانټراسټ لوړ کړئ او OCR بیا وازمویئ.

کږې یا تاوې پاڼې

د کتاب سکینونه ډېری وخت د کتاب د ملا ترڅنګ تاوېږي. OCR دا تاوې کرښې په سمه توګه نه شي لوستلای او ښايي متن په ناسم ترتیب کې واچوي.

حل: پاڼه هواره کړئ، بیا-سکین یې کړئ، یا داسې OCR وسیله وکاروئ چې د کږوالي سمولو او د تاوېدو د اصلاح ملاتړ ولري.

څو-ستونیزه بڼه

OCR کولی شي چپ او ښی ستونونه د یوې جملې په روان کې سره ګډ کړي.

حل: له ژباړې مخکې د لوستلو ترتیب وڅېړئ. علمي مقالې دلته ځانګړې پاملرنې ته اړتیا لري.

جدولونه

جدولونه ځکه سخت دي چې OCR باید هم متن وپېژني او هم جوړښت. جدول ښايي په ظاهره سم ښکاره شي، خو د متن طبقه یې غلطه وي.

حل: د جدول د OCR متن کاپي کړئ او تایید کړئ چې لیبلونه لا هم له ارزښتونو سره سمون لري.

د لاس لیک او لاسلیکونه

د چاپ شوي متن OCR د لاسلیک پېژندنې په پرتله ډېر باوري دی. د لاس لیکل شوي غاړې یادښتونه، لاسلیکونه، او ډکې شوې فورمې ښايي پرېوځي یا ګډې وډې شي.

حل: له ژباړې مخکې مهم لاس لیک په لاسي ډول نقل کړئ.

ګډې ژبې

OCR هغه وخت تر ټولو ښه کار کوي چې د سرچینې ژبه ورته معلومه وي. هغه سکین چې انګلیسي، فرانسوي، او چینايي پکې وي، ښايي ناکام شي که OCR یوازې یوې ژبې ته تنظیم شوی وي.

حل: که وسیله یې ملاتړ کوي، د OCR لپاره ټولې اړوندې ژبې وټاکئ، بیا د هرې ژبې برخه په نمونوي ډول وڅېړئ.

د محرمیت او امنیت چک‌لېست

مخکې له دې چې سکین شوې PDF هر چېرې اپلوډ کړئ، له ځانه دا پوښتنې وکړئ:

  • ایا سند شخصي معلومات لري؟
  • ایا پکې طبي، حقوقي، مالي، علمي، یا ناچاپ مواد شامل دي؟
  • ایا دا د مراجع د تړون یا د ښوونځي د تګلارې لاندې راځي؟
  • ایا د دې سند لپاره د انلاین OCR خدمت اجازه شته؟
  • ایا پر ځای یې ځايي کاري بهیر ته اړتیا لرئ؟
  • ایا هغه پاڼې لرې کولای شئ چې ژباړې ته اړتیا نه لري؟

سکین شوې PDF ګانې ډېری وخت حساسې وي، ځکه له قراردادونو، پېژندپاڼو، فورمو، د څېړنې له مسودو، او داخلي آرشیفونو څخه راځي. د OCR د اپلوډ پرېکړې همداسې جدي وګڼئ لکه د اصلي سند په اړه چې یې ګڼئ.

عامې پوښتنې

سکین شوې PDF څنګه وژباړم؟

لومړی OCR وچلوئ څو د متن طبقه جوړه شي، د OCR وتنه بیاکتنه کړئ، بیا د OCR-پروسس شوې PDF ژباړه د د PDF ژباړن له لارې وکړئ. د OCR د بیاکتنې ګام مه پرېږدئ.

ولې Google Translate زما سکین شوې PDF ونه ژباړله؟

کېدای شي PDF یوازې-انځور لرونکی وي. که د متن طبقه نه وي، Google Translate د استخراج لپاره متن نه لري. لومړی OCR وکاروئ، بیا ژباړه وکړئ. د Google لپاره ځانګړې کړنلاره د Google Translate د PDF لارښود کې تشریح شوې ده.

آیا ChatGPT سکین شوې PDF ژباړلای شي؟

ChatGPT ښايي د جلا انځورونو یا استخراج شوي متن لپاره مرسته وکړي، خو څو-پاڼیزه سکین شوې PDF بیا هم OCR او بیاکتنې ته اړتیا لري. د بشپړ سند د کاري بهیر لپاره، لومړی OCR وکړئ، بیا د PDF ژباړې کاري بهیر وکاروئ.

د سکین شوې PDF لپاره تر ټولو ښه OCR وسیله کومه ده؟

دا د سند له ډول پورې اړه لري. د Acrobat او ABBYY په څېر وسایل د عمومي او پېچلو سکینونو لپاره ګټور دي. Tesseract یا OCRmyPDF د ځايي تخنیکي کاري بهیرونو لپاره مناسب دي. انلاین OCR د ساده او لږ خطر لرونکو فایلونو لپاره مناسب کېدای شي، خو محرمیت او کیفیت یې توپیر لري.

آیا OCR فورمټ ساتلای شي؟

OCR کولای شي د متن طبقه جوړه کړي او کله ناکله د لوستلو ترتیب هم بېرته راولي، خو دا د ژباړل شوې اصلي بڼې د ساتلو مانا نه لري. له OCR وروسته، د PDF ژباړې کاري بهیر وکاروئ او وتنه له اصلي سند سره پرتله کړئ.

که د OCR کیفیت خراب وي څه وکړم؟

له ژباړې مخکې سکین ښه کړئ. که امکان وي بیا-سکین یې کړئ، پاڼې سمې کړئ، کانټراسټ زیات کړئ، ګډوډي کراپ کړئ، د OCR سمه ژبه وټاکئ، او ستونزمنې پاڼې بیا وڅېړئ.