BookTranslator
BookTranslator

Si të Përktheni një PDF të Skanuar: Udhëzuesi i Plotë për OCR + Përkthim

PDF-të e skanuara përmbajnë pamje të tekstit, jo tekst të vërtetë — prandaj Google Translate i kthen të pandryshuara. Ja procesi OCR + AI që e rregullon këtë.

BookTranslator

BookTranslator Team

Udhëzime për Përkthim12 min read

Përgjigjja e shpejtë: një PDF i skanuar ka nevojë për OCR përpara përkthimit

Për të përkthyer një PDF të skanuar, fillimisht ekzekutoni OCR që t’i shndërroni imazhet e faqeve në tekst që mund të përzgjidhet. Më pas përktheni PDF-në e përpunuar me OCR me një përkthyes dokumentesh si Përkthyesi i PDF-ve. Nëse e anashkaloni OCR-në, shumë mjete përkthimi do ta kthejnë skedarin origjinal pa ndryshime, do të humbasin faqe ose do të përkthejnë vetëm pjesët që tashmë përmbajnë një shtresë teksti.

Përdorni këtë proces:

  1. Hapni PDF-në dhe provoni të përzgjidhni një fjali.
  2. Nëse nuk mund ta përzgjidhni tekstin, ekzekutoni OCR.
  3. Shqyrtoni tekstin e OCR-së përpara përkthimit.
  4. Ngarkoni PDF-në e përpunuar me OCR te Përkthyesi i PDF-ve.
  5. Shqyrtoni rezultatin e përkthyer duke e krahasuar me skanimin origjinal.

Nëse PDF-ja juaj tashmë ka tekst që mund të përzgjidhet dhe problemi lidhet me ruajtjen e faqosjes, përdorni udhëzuesin për të përkthyer një PDF pa humbur formatimin.

Pse PDF-të e skanuara dështojnë në mjetet e përkthimit

Një PDF e skanuar shpesh është vetëm një grup imazhesh faqesh brenda një kontejneri PDF. Faqja mund t’u shfaqë fjalë njerëzve, por skedari mund të mos përmbajë tekst të vërtetë që softueri ta nxjerrë.

Kjo krijon një dështim të thjeshtë:

Lloji i skedaritÇfarë sheh përkthyesiÇfarë ndodh
PDF me tekstTekst plus të dhëna faqosjejePërkthimi mund të fillojë menjëherë.
PDF i skanuar vetëm imazhPamje të faqeveSë pari kërkohet OCR.
PDF me tekst mbi imazhImazh skanimi plus shtresë e fshehur OCRPërkthimi mund të funksionojë, por gabimet e OCR-së ndikojnë në cilësi.

Testi më i dobishëm nuk është teknik:

  1. Hapni PDF-në.
  2. Provoni të nënvizoni fjalë individuale.
  3. Kopjoni një fjali.
  4. Ngjiteni në një redaktor teksti.

Nëse fjalia ngjitet saktë, PDF-ja ka një shtresë teksti. Nëse nuk ngjitet asgjë, ose e gjithë faqja sillet si një imazh i vetëm, PDF-ja ka nevojë për OCR.

OCR nuk është opsionale

OCR do të thotë njohje optike e karaktereve. Ajo lexon tekstin nga një imazh dhe krijon tekst të lexueshëm nga makina. Për përkthimin e PDF-ve, OCR zakonisht krijon një shtresë të padukshme teksti mbi faqen e skanuar.

Kjo shtresë teksti bëhet burimi për përkthimin. Nëse OCR bën gabime, përkthimi i trashëgon ato gabime.

Gabime të zakonshme të OCR-së:

Gabimi i OCR-sëRreziku në përkthim
rn lexohet si mFjalët ndryshojnë kuptim.
1 lexohet si lNumrat, referencat ose kodet bëhen të pasakta.
O lexohet si 0ID-të, formulat dhe emrat mund të prishen.
Shenjat diakritike humbinEmrat dhe termat bëhen jo të saktë.
Kolonat bashkohenFjalitë përkthehen në rend të gabuar.
Qelizat e tabelës lexohen gabim rresht pas rreshtiEtiketat e të dhënave nuk përputhen më me vlerat.
Fusnotat trajtohen si tekst trupiCitimet dhe shënimet zhvendosen në kontekst të gabuar.

Pikërisht për këtë ka rëndësi hapi i shqyrtimit të OCR-së. Mos e përktheni një dokument të skanuar derisa të keni verifikuar me kampione tekstin e nxjerrë.

Procesi me OCR si hap i parë

Hapi 1: Identifikoni llojin e PDF-së

Provoni të përzgjidhni tekst. Nëse përzgjedhja funksionon, mund të mos keni nevojë për OCR. Nëse përzgjedhja dështon, trajtojeni skedarin si vetëm-imazh.

Shqyrtojeni edhe faqen vizualisht:

  • Faqet e anuara sugjerojnë një skanim.
  • Tekstura gri e letrës sugjeron një skanim.
  • Hijet pranë kurrizit sugjerojnë një libër të fotografuar.
  • Kontrasti i pabarabartë sugjeron një fotokopje.
  • Nëse kërkimi nuk gjen fjalë që duken qartë, kjo sugjeron se nuk ka shtresë teksti.

Hapi 2: Përmirësoni skanimin nëse është e mundur

Cilësia e OCR-së fillon nga cilësia e imazhit. Nëse mund ta riskanoni dokumentin, bëjeni përpara se të shpenzoni kohë duke rregulluar gabimet e OCR-së.

Përdorni këtë listë kontrolli për cilësinë e imazhit:

  • Skanoni me rezolucion mjaftueshëm të lartë për tekstin e vogël.
  • Mbajini faqet të sheshta dhe të drejta.
  • Shmangni hijet pranë kurrizit.
  • Prijini skajet e tavolinës, gishtat ose rrëmujën në sfond.
  • Përdorni kontrast të fortë midis tekstit dhe faqes.
  • Mbajeni të dukshme të gjithë rreshtin.
  • Përdorni orientimin e duhur të faqes.
  • Mos e kompresoni imazhin aq shumë sa shkronjat të turbullohen.

Për librat e vjetër dhe fotokopjet, përmirësimet më të mëdha zakonisht vijnë nga korrigjimi i animit, korrigjimi i kontrastit dhe riskanimi i faqeve që janë jashtë fokusit.

Hapi 3: Ekzekutoni OCR

Zgjidhni një mjet OCR sipas dokumentit, jo sipas markës.

Opsioni OCRMë i përshtatshëm përKujdes
Adobe Acrobat OCRSkanime të përgjithshme biznesi dhe pastrim PDF-jeKontrolloni qasjen në planin aktual përpara se të mbështeteni tek ai.
ABBYY FineReaderSkanime komplekse, tabela, kolona dhe faqosje të vështiraEnde kërkon shqyrtim manual.
Tesseract or OCRmyPDFProcese lokale, teknike dhe të ripërsëritshme OCRKërkon rehati me mjetet e linjës së komandës.
Mjete OCR onlineSkedarë rastësorë me rrezik të ulëtPrivatësia, kufijtë e skedarëve dhe cilësia ndryshojnë.
Aplikacione skanimi në telefonKapjen e shpejtë të një skanimi të riShtrembërimi i perspektivës mund të dëmtojë OCR-në.

Për kontrata private, kartela mjekësore, dokumente financiare, dorëshkrime të pabotuara ose punime akademike në shqyrtim, preferoni një proces lokal OCR ose një mjedis të besuar. Mos ngarkoni skanime të ndjeshme në faqe të rastësishme falas OCR.

Hapi 4: Shqyrtoni tekstin e OCR-së

Shqyrtojeni përpara përkthimit, jo pas tij. Kopjoni tekst nga disa faqe të vështira dhe kontrolloni nëse është i lexueshëm.

Faqe mostër për t’u inspektuar:

  • Faqja e titullit.
  • Një faqe me trup teksti të dendur.
  • Një faqe me tabelë.
  • Një faqe me fusnota.
  • Një faqe me tekst të vogël.
  • Një faqe me vula, dorëshkrim ose shënime anësore.
  • Një faqe në secilën gjuhë nëse dokumenti është shumëgjuhësh.

Kërkoni për:

  • Paragrafë që mungojnë.
  • Kolona të bashkuara.
  • Fjalë të prera.
  • Karaktere të gabuara.
  • Shenja diakritike të humbura.
  • Etiketa tabelash të ndara nga vlerat.
  • Tituj të futur në tekstin e trupit.
  • Numra faqesh të përzier me fjali.

Nëse cilësia e OCR-së është e dobët, rregullojeni përpara përkthimit. Një përkthyes nuk mund ta rikuperojë në mënyrë të besueshme kuptimin që OCR-ja nuk e ka kapur kurrë.

Hapi 5: Përktheni PDF-në e përpunuar me OCR

Pasi PDF-ja të ketë një shtresë të pastër teksti, ngarkojeni te Përkthyesi i PDF-ve. Tani hapi i përkthimit mund të punojë me tekst, jo me imazhe faqesh.

Pas përkthimit, krahasoni:

  • Skanimin origjinal
  • Shtresën e tekstit të OCR-së
  • PDF-në e përkthyer

Ky rishikim në tre drejtime ju ndihmon të identifikoni nëse një gabim erdhi nga OCR-ja apo nga përkthimi. Nëse teksti i OCR-së është gabim, ekzekutoni sërish OCR-në. Nëse teksti i OCR-së është i saktë, por përkthimi është gabim, rregulloni përkthimin.

Hapi 6: Shqyrtoni përmbajtjen me rrezik të lartë

Dokumentet e skanuara shpesh përmbajnë pikërisht atë lloj përmbajtjeje që ka nevojë për shqyrtim të kujdesshëm: kontrata të vjetra, formularë qeveritarë, punime akademike, manuale, dokumente historike dhe faqe librash.

Shqyrtojini manualisht këto elemente:

  • Emrat
  • Datat
  • Numrat
  • Adresat
  • Kodet e produkteve
  • Referencat ligjore
  • Citimet
  • Etiketat e tabelave
  • Njësitë
  • Ekuacionet
  • Titrat
  • Fusnotat

Për skedarët e kërkimit dhe akademikë, lexoni gjithashtu udhëzuesin për përkthimin e punimeve akademike kërkimore, sepse PDF-të akademike të skanuara shtojnë rreziqe të citimeve dhe faqosjes mbi rrezikun e OCR-së.

Shembuj dështimi krah për krah

Përdoreni këtë tabelë gjatë shqyrtimit të rezultatit të OCR-së.

Skanimi origjinal ka gjasa të tregojëRezultati i keq i OCR-sëPse ka rëndësi
modernmodemKuptimi ndryshon plotësisht.
Section 10Section IOReferencat ligjore ose teknike mund të prishen.
20262O26Datat dhe ID-të bëhen jo të besueshme.
patientpatlentTermat mjekësorë ose teknikë bëhen të pasaktë.
Dy kolona të ndaraNjë paragraf i bashkuarPërkthimi i lexon fjalitë në rend të gabuar.
Rresht tabele me etiketa dhe vleraNjë rresht i vetëm me tekst të përzierTë dhënat nuk lidhen më me etiketën e duhur.
Shenja e fusnotës 1Shkronja lShënimet mund të lidhen me fjalinë e gabuar.

Nëse i shihni këto gabime në shtresën e OCR-së, rregulloni OCR-në përpara përkthimit.

Cilin mjet duhet të përdorni?

Zgjidhni sipas vështirësisë së dokumentit.

DokumentiRruga e rekomanduar
Skanim i pastër biznesiOCR në Acrobat ose në një mjet tjetër të besueshëm OCR, pastaj Përkthyesi i PDF-ve.
Skanim libri të vjetërKorrigjoni animin dhe përmirësoni kontrastin, bëni OCR me kujdes, pastaj përktheni.
Skanim punimi akademikOCR, shqyrtim i ekuacioneve/citimeve/tabelave, pastaj përkthim me rishikim të faqosjes.
Shënime me dorëMund të kërkohet transkriptim manual përpara përkthimit.
Dokument personal i thjeshtëOCR online mund të jetë i pranueshëm nëse rreziku për privatësinë është i ulët.
Dokument i ndjeshëmPërdorni OCR lokale ose një proces të kontrolluar e të besuar.

Nëse doni krahasimin më të gjerë të mjeteve, shihni udhëzuesin për përkthyesit më të mirë të PDF-ve.

Probleme të zakonshme me PDF-të e skanuara

Faqe me rezolucion të ulët

Skanimet me rezolucion të ulët i turbullojnë shkronjat me njëra-tjetrën. OCR-ja mund të ngatërrojë rn me m, cl me d, ose shenjat e pikësimit me pluhurin.

Zgjidhja: riskanoni nëse është e mundur. Nëse jo, rrisni kontrastin dhe provoni sërish OCR-në.

Faqe të anuara ose të lakuara

Skanimet e librave shpesh lakohen pranë kurrizit. OCR-ja i lexon keq rreshtat e lakuar dhe mund ta riorganizojë gabim tekstin.

Zgjidhja: sheshojeni faqen, riskanojeni ose përdorni një mjet OCR me korrigjim animi dhe korrigjim deformimi të faqes.

Faqosje me shumë kolona

OCR-ja mund të bashkojë kolonat e majta dhe të djathta në një rrjedhë të vetme fjalish.

Zgjidhja: kontrolloni rendin e leximit përpara përkthimit. Punimet akademike kërkojnë vëmendje të veçantë këtu.

Tabela

Tabelat janë të vështira sepse OCR-ja duhet të zbulojë si tekstin, ashtu edhe strukturën. Një tabelë mund të duket vizualisht e saktë ndërsa shtresa e tekstit është e gabuar.

Zgjidhja: kopjoni tekstin e OCR-së nga tabela dhe konfirmoni që etiketat ende përputhen me vlerat.

Dorëshkrim dhe nënshkrime

OCR-ja për tekstin e shtypur është shumë më e besueshme sesa njohja e dorëshkrimit. Shënimet anësore me dorë, nënshkrimet dhe formularët e plotësuar mund të mungojnë ose të dalin të pakuptueshëm.

Zgjidhja: transkriptoni manualisht dorëshkrimin thelbësor përpara përkthimit.

Gjuhë të përziera

OCR-ja funksionon më mirë kur e di gjuhën burim. Një skanim me anglisht, frëngjisht dhe kinezisht mund të dështojë nëse OCR-ja është vendosur vetëm për një gjuhë.

Zgjidhja: zgjidhni të gjitha gjuhët përkatëse të OCR-së nëse mjeti i mbështet, pastaj kontrolloni me kampione secilin seksion gjuhësor.

Lista e kontrollit për privatësinë dhe sigurinë

Përpara se të ngarkoni një PDF të skanuar diku, pyesni:

  • A përmban dokumenti të dhëna personale?
  • A përfshin material mjekësor, ligjor, financiar, akademik ose të pabotuar?
  • A mbulohet nga një marrëveshje me klientin ose nga politika e shkollës?
  • A lejohet një shërbim online OCR për këtë dokument?
  • A ju duhet një proces lokal në vend të tij?
  • A mund të hiqni faqet që nuk kanë nevojë për përkthim?

PDF-të e skanuara shpesh janë të ndjeshme sepse vijnë nga kontrata, dokumente identiteti, formularë, drafte kërkimore dhe arkiva të brendshme. Trajtojini vendimet për ngarkimin në OCR njësoj si do të trajtonit dokumentin origjinal.

FAQ

Si ta përkthej një PDF të skanuar?

Fillimisht ekzekutoni OCR për të krijuar një shtresë teksti, shqyrtoni rezultatin e OCR-së, pastaj përktheni PDF-në e përpunuar me OCR me Përkthyesin e PDF-ve. Mos e anashkaloni hapin e shqyrtimit të OCR-së.

Pse Google Translate nuk e përktheu PDF-në time të skanuar?

PDF-ja mund të jetë vetëm-imazh. Nëse nuk ka shtresë teksti, Google Translate nuk ka tekst për të nxjerrë. Përdorni fillimisht OCR, pastaj përktheni. Procesi specifik për Google trajtohet te udhëzuesi për PDF në Google Translate.

A mund ta përkthejë ChatGPT një PDF të skanuar?

ChatGPT mund të ndihmojë me imazhe individuale ose me tekst të nxjerrë, por një PDF i skanuar me shumë faqe ende ka nevojë për OCR dhe shqyrtim. Për procesin e plotë të dokumentit, fillimisht OCR, pastaj përdorni një proces përkthimi PDF-je.

Cili është mjeti më i mirë OCR për PDF-të e skanuara?

Varet nga dokumenti. Mjetet si Acrobat dhe ABBYY janë të dobishme për skanime të përgjithshme dhe komplekse. Tesseract ose OCRmyPDF janë të dobishëm për procese teknike lokale. OCR online mund të jetë në rregull për skedarë të thjeshtë me rrezik të ulët, por privatësia dhe cilësia ndryshojnë.

A mund ta ruajë OCR formatimin?

OCR-ja mund të krijojë një shtresë teksti dhe ndonjëherë të rikuperojë rendin e leximit, por kjo nuk është e njëjta gjë si ruajtja e faqosjes origjinale të përkthyer. Pas OCR-së, përdorni një proces përkthimi PDF-je dhe shqyrtojeni rezultatin kundrejt origjinalit.

Çfarë ndodh nëse cilësia e OCR-së është e dobët?

Përmirësojeni skanimin përpara përkthimit. Riskanoni nëse është e mundur, korrigjoni animin e faqeve, rrisni kontrastin, prisni rrëmujën, zgjidhni gjuhën e duhur të OCR-së dhe shqyrtoni sërish faqet e vështira.