BookTranslator
BookTranslator

Kako prevesti skeniran PDF: celovit vodnik za OCR in prevajanje

Skenirani PDF-ji vsebujejo slike besedila, ne dejanskega besedila — zato jih Google Translate vrne nespremenjene. Tukaj je potek dela OCR + AI, ki to odpravi.

BookTranslator

BookTranslator Team

Vodniki za prevajanje10 min read

Hiter odgovor: skeniran PDF potrebuje OCR pred prevodom

Če želite prevesti skeniran PDF, najprej zaženite OCR, da slike strani pretvorite v besedilo, ki ga je mogoče označiti. Nato PDF, obdelan z OCR-jem, prevedite z orodjem za prevajanje dokumentov, kot je Prevajalnik PDF-jev. Če OCR preskočite, bodo mnoga prevajalska orodja vrnila izvirno datoteko nespremenjeno, izpustila strani ali prevedla le dele, ki že vsebujejo plast besedila.

Uporabite ta potek dela:

  1. Odprite PDF in poskusite označiti stavek.
  2. Če besedila ne morete označiti, zaženite OCR.
  3. Pred prevajanjem preglejte besedilo iz OCR-ja.
  4. Naložite PDF, obdelan z OCR-jem, v Prevajalnik PDF-jev.
  5. Prevedeni rezultat primerjajte z izvirnim skenom.

Če vaš PDF že vsebuje besedilo, ki ga je mogoče označiti, in je težava ohranjanje postavitve, uporabite vodnik za prevajanje PDF-ja brez izgube oblikovanja.

Zakaj skenirani PDF-ji ne delujejo v prevajalskih orodjih

Skenirani PDF je pogosto le niz slik strani v vsebniku PDF. Človek na strani vidi besede, vendar datoteka morda ne vsebuje dejanskega besedila, ki bi ga programska oprema lahko izluščila.

To povzroči preprosto težavo:

Vrsta datotekeKaj prevajalnik vidiKaj se zgodi
PDF z besedilomBesedilo in podatki o postavitviPrevajanje se lahko začne takoj.
Skenirani PDF s slikamiSlike straniNajprej je potreben OCR.
PDF z besedilom na slikiSlika skena in skrita plast besedila OCRPrevajanje lahko deluje, vendar napake OCR vplivajo na kakovost.

Najbolj uporaben preizkus ni tehničen:

  1. Odprite PDF.
  2. Poskusite označiti posamezne besede.
  3. Kopirajte stavek.
  4. Prilepite ga v urejevalnik besedila.

Če se stavek pravilno prilepi, ima PDF plast besedila. Če se ne prilepi nič ali pa se cela stran obnaša kot ena sama slika, PDF potrebuje OCR.

OCR ni izbiren korak

OCR pomeni optično prepoznavanje znakov. Iz slike prebere besedilo in ustvari strojno berljivo besedilo. Pri prevajanju PDF-jev OCR običajno ustvari nevidno plast besedila nad skenirano stranjo.

Ta plast besedila postane vir za prevod. Če OCR naredi napake, jih prevod podeduje.

Pogoste napake OCR:

Napaka OCRTveganje pri prevodu
rn prebrano kot mBesede spremenijo pomen.
1 prebrano kot lŠtevilke, sklici ali kode postanejo napačni.
O prebrano kot 0ID-ji, formule in imena se lahko pokvarijo.
Izgubljeni naglasi ali diakritikaImena in izrazi postanejo netočni.
Združeni stolpciStavki se prevajajo v napačnem vrstnem redu.
Celice tabele prebrane napačno po vrstahOznake podatkov se ne ujemajo več z vrednostmi.
Sprotne opombe obravnavane kot glavno besediloCitati in opombe se premaknejo v napačen kontekst.

Zato je korak pregleda OCR-ja pomemben. Skeniranega dokumenta ne prevajajte, dokler vzorčno ne preverite izluščenega besedila.

Potek dela: najprej OCR

1. korak: določite vrsto PDF-ja

Poskusite označiti besedilo. Če označevanje deluje, OCR morda ni potreben. Če ne deluje, datoteko obravnavajte kot PDF, ki vsebuje samo slike.

Stran preglejte tudi vizualno:

  • Poševne strani nakazujejo sken.
  • Siva tekstura papirja nakazuje sken.
  • Sence ob hrbtu nakazujejo fotografirano knjigo.
  • Neenakomeren kontrast nakazuje fotokopijo.
  • Če iskanje ne najde vidnih besed, to nakazuje, da ni plasti besedila.

2. korak: izboljšajte sken, če je mogoče

Kakovost OCR-ja se začne pri kakovosti slike. Če lahko dokument znova skenirate, to naredite, preden porabite čas za popravljanje napak OCR-ja.

Uporabite ta kontrolni seznam kakovosti slike:

  • Skenirajte v dovolj visoki ločljivosti za drobno besedilo.
  • Strani naj bodo ravne in poravnane.
  • Izognite se sencam ob hrbtu.
  • Obrežite robove mize, prste ali ozadni nered.
  • Poskrbite za močan kontrast med besedilom in stranjo.
  • Poskrbite, da je vidna celotna vrstica.
  • Uporabite pravilno usmerjenost strani.
  • Slike ne stiskajte tako močno, da se črke zabrišejo.

Pri starih knjigah in fotokopijah največ običajno prinesejo poravnava poševnosti, popravek kontrasta in ponovno skeniranje strani, ki niso izostrene.

3. korak: zaženite OCR

Orodje OCR izberite glede na dokument, ne glede na blagovno znamko.

Možnost OCRNajboljše zaNa kaj paziti
Adobe Acrobat OCRSplošni poslovni skeni in čiščenje PDF-jevPreden se nanj zanesete, preverite dostop v trenutnem paketu.
ABBYY FineReaderZahtevni skeni, tabele, stolpci in kompleksne postavitveŠe vedno zahteva ročni pregled.
Tesseract ali OCRmyPDFLokalne, tehnične in ponovljive poteke OCRZahteva domačnost z orodji ukazne vrstice.
Spletna OCR orodjaObčasne datoteke z nizkim tveganjemZasebnost, omejitve datotek in kakovost se razlikujejo.
Aplikacije za skeniranje s telefonomHitro zajemanje novega skenaPopačenje perspektive lahko poslabša OCR.

Pri zasebnih pogodbah, zdravstveni dokumentaciji, finančnih dokumentih, neobjavljenih rokopisih ali akademskem delu v recenziji raje uporabite lokalen potek OCR ali zaupanja vredno okolje. Občutljivih skenov ne nalagajte na naključna brezplačna spletna mesta za OCR.

4. korak: preglejte besedilo OCR-ja

Preglejte ga pred prevodom, ne po njem. Kopirajte besedilo z več zahtevnih strani in preverite, ali je berljivo.

Vzorčne strani za pregled:

  • naslovna stran,
  • stran z gostim glavnim besedilom,
  • stran s tabelo,
  • stran s sprotnimi opombami,
  • stran z drobnim besedilom,
  • stran z žigi, rokopisom ali opombami na robu,
  • stran v vsakem jeziku, če je dokument večjezičen.

Poiščite:

  • manjkajoče odstavke,
  • združene stolpce,
  • prelomljene besede,
  • napačne znake,
  • izgubljeno diakritiko,
  • oznake tabel, ločene od vrednosti,
  • glave, vstavljene v glavno besedilo,
  • številke strani, pomešane v stavke.

Če je kakovost OCR-ja slaba, jo popravite pred prevajanjem. Prevajalnik ne more zanesljivo obnoviti pomena, ki ga OCR sploh ni zajel.

5. korak: prevedite PDF, obdelan z OCR-jem

Ko ima PDF čisto plast besedila, ga naložite v Prevajalnik PDF-jev. Korak prevajanja lahko zdaj deluje z besedilom namesto s slikami strani.

Po prevodu primerjajte:

  • izvirni sken,
  • plast besedila OCR,
  • prevedeni PDF.

Ta trojni pregled vam pomaga ugotoviti, ali je napaka nastala pri OCR-ju ali pri prevodu. Če je besedilo OCR napačno, znova zaženite OCR. Če je besedilo OCR pravilno, prevod pa napačen, popravite prevod.

6. korak: preglejte vsebino z visokim tveganjem

Skenirani dokumenti pogosto vsebujejo prav tisto vsebino, ki zahteva natančen pregled: stare pogodbe, državne obrazce, akademske članke, priročnike, zgodovinske dokumente in knjižne strani.

Ročno preglejte te elemente:

  • imena,
  • datume,
  • številke,
  • naslove,
  • kode izdelkov,
  • pravne sklice,
  • citate,
  • oznake tabel,
  • enote,
  • enačbe,
  • napise,
  • sprotne opombe.

Za raziskovalne in akademske datoteke preberite tudi vodnik o prevajanju akademskih raziskovalnih člankov, ker skenirani akademski PDF-ji poleg tveganja OCR-ja prinašajo še tveganja pri citatih in postavitvi.

Vzporedni primeri napak

To tabelo uporabite pri pregledu izhoda OCR-ja.

Izvirni sken najverjetneje kažeSlab izhod OCR-jaZakaj je to pomembno
modernmodemPomen se popolnoma spremeni.
Section 10Section IOPravne ali tehnične reference se lahko pokvarijo.
20262O26Datumi in ID-ji postanejo nezanesljivi.
patientpatlentMedicinski ali tehnični izrazi postanejo napačni.
Dva ločena stolpcaEn združen odstavekPrevod bere stavke v napačnem vrstnem redu.
Vrstica tabele z oznakami in vrednostmiEna sama vrstica mešanega besedilaPodatki se ne ujemajo več s pravo oznako.
Oznaka sprotne opombe 1Črka lOpombe se lahko pripnejo napačnemu stavku.

Če te napake vidite v plasti OCR, popravite OCR pred prevajanjem.

Katero orodje uporabiti?

Izbirajte glede na zahtevnost dokumenta.

DokumentPriporočena pot
Čist poslovni skenOCR v Acrobatu ali drugem zanesljivem orodju OCR, nato Prevajalnik PDF-jev.
Sken stare knjigePoravnajte nagib in izboljšajte kontrast, skrbno zaženite OCR, nato prevedite.
Sken akademskega člankaOCR, pregled enačb/citatov/tabel, nato prevod s pregledom postavitve.
Ročno napisani zapiskiPred prevajanjem bo morda potreben ročni prepis.
Preprost osebni dokumentSpletni OCR je lahko sprejemljiv, če je tveganje za zasebnost nizko.
Občutljiv dokumentUporabite lokalen OCR ali zaupanja vreden nadzorovan potek dela.

Če želite širšo primerjavo orodij, si oglejte vodnik po najboljših prevajalnikih PDF-jev.

Pogoste težave pri skeniranih PDF-jih

Strani z nizko ločljivostjo

Pri skenih z nizko ločljivostjo se črke zabrišejo druga v drugo. OCR lahko zamenja rn z m, cl z d ali ločila s pikami prahu.

Popravek: če je mogoče, znova skenirajte. Če to ni mogoče, povečajte kontrast in znova poskusite z OCR-jem.

Poševne ali ukrivljene strani

Skeni knjig so pogosto ukrivljeni ob hrbtu. OCR takšne ukrivljene vrstice slabo bere in lahko spremeni vrstni red besedila.

Popravek: poravnajte stran, jo znova skenirajte ali uporabite orodje OCR z odpravo poševnosti in geometrijskega popačenja.

Večstolpčna postavitev

OCR lahko levi in desni stolpec združi v en sam tok stavkov.

Popravek: pred prevajanjem preverite vrstni red branja. Akademski članki tukaj zahtevajo posebno pozornost.

Tabele

Tabele so zahtevne, ker mora OCR zaznati tako besedilo kot strukturo. Tabela je lahko videti pravilna, medtem ko je plast besedila napačna.

Popravek: kopirajte besedilo OCR iz tabele in potrdite, da se oznake še vedno ujemajo z vrednostmi.

Rokopis in podpisi

OCR za tiskano besedilo je veliko zanesljivejši od prepoznavanja rokopisa. Rokopisne opombe na robu, podpisi in izpolnjeni obrazci so lahko spregledani ali popačeni.

Popravek: bistven rokopis pred prevajanjem ročno prepišite.

Mešani jeziki

OCR deluje najbolje, ko pozna izvorni jezik. Sken z angleščino, francoščino in kitajščino lahko odpove, če je OCR nastavljen samo na en jezik.

Popravek: če orodje to podpira, izberite vse ustrezne jezike OCR-ja, nato vzorčno preverite vsak jezikovni del.

Kontrolni seznam za zasebnost in varnost

Preden kamor koli naložite skeniran PDF, se vprašajte:

  • Ali dokument vsebuje osebne podatke?
  • Ali vključuje zdravstveno, pravno, finančno, akademsko ali neobjavljeno gradivo?
  • Ali ga pokriva pogodba s stranko ali šolska politika?
  • Ali je za ta dokument dovoljena spletna storitev OCR?
  • Ali namesto tega potrebujete lokalen potek dela?
  • Ali lahko odstranite strani, ki ne potrebujejo prevoda?

Skenirani PDF-ji so pogosto občutljivi, ker izvirajo iz pogodb, identifikacijskih dokumentov, obrazcev, raziskovalnih osnutkov in internih arhivov. Odločitve o nalaganju v OCR obravnavajte enako previdno kot izvirni dokument.

Pogosta vprašanja

Kako prevedem skeniran PDF?

Najprej zaženite OCR, da ustvarite plast besedila, preglejte izhod OCR-ja, nato PDF, obdelan z OCR-jem, prevedite z Prevajalnikom PDF-jev. Ne preskočite koraka pregleda OCR-ja.

Zakaj Google Translate ni prevedel mojega skeniranega PDF-ja?

PDF je morda sestavljen samo iz slik. Če ni plasti besedila, Google Translate nima besedila, ki bi ga lahko izluščil. Najprej uporabite OCR, nato prevedite. Potek dela posebej za Google je opisan v vodniku za prevajanje PDF-jev z Google Translate.

Ali lahko ChatGPT prevede skeniran PDF?

ChatGPT lahko pomaga pri posameznih slikah ali izluščenem besedilu, toda večstranski skenirani PDF še vedno potrebuje OCR in pregled. Za celoten potek dela z dokumentom najprej uporabite OCR, nato pa potek prevajanja PDF-ja.

Katero OCR orodje je najboljše za skenirane PDF-je?

Odvisno je od dokumenta. Orodja v slogu Acrobata in ABBYY-ja so uporabna za splošne in kompleksne skene. Tesseract ali OCRmyPDF sta uporabna za lokalne tehnične poteke dela. Spletni OCR je lahko povsem v redu za preproste datoteke z nizkim tveganjem, vendar se zasebnost in kakovost razlikujeta.

Ali lahko OCR ohrani oblikovanje?

OCR lahko ustvari plast besedila in včasih obnovi vrstni red branja, vendar to ni isto kot ohranjanje izvirne prevedene postavitve. Po OCR-ju uporabite potek prevajanja PDF-ja in rezultat primerjajte z izvirnikom.

Kaj, če je kakovost OCR-ja slaba?

Pred prevajanjem izboljšajte sken. Če je mogoče, znova skenirajte, poravnajte poševne strani, povečajte kontrast, obrežite odvečne elemente, izberite pravilen jezik OCR-ja in znova preglejte zahtevne strani.