BookTranslator
BookTranslator

Kako prevesti skenirani PDF: potpuni vodič za OCR + prevođenje

Skenirani PDF-ovi sadrže slike teksta, a ne stvarni tekst — zato ih Google Translate vraća nepromijenjene. Evo OCR + AI procesa koji to ispravlja.

BookTranslator

BookTranslator Team

Vodiči za prevođenje10 min read

Kratki odgovor: skenirani PDF treba OCR prije prevođenja

Da biste preveli skenirani PDF, prvo pokrenite OCR kako biste slike stranica pretvorili u tekst koji se može označiti. Zatim prevedite PDF obrađen OCR-om pomoću prevoditelja dokumenata kao što je PDF Translator. Ako preskočite OCR, mnogi alati za prevođenje vratit će izvornu datoteku nepromijenjenu, preskočiti stranice ili prevesti samo dijelove koji već imaju tekstualni sloj.

Koristite ovaj radni tijek:

  1. Otvorite PDF i pokušajte označiti jednu rečenicu.
  2. Ako ne možete označiti tekst, pokrenite OCR.
  3. Pregledajte OCR tekst prije prevođenja.
  4. Prenesite PDF obrađen OCR-om u PDF Translator.
  5. Usporedite prevedeni rezultat s izvornim skenom.

Ako vaš PDF već ima tekst koji se može označiti i problem je očuvanje rasporeda, pogledajte vodič za prevođenje PDF-a bez gubitka formatiranja.

Zašto skenirani PDF-ovi ne rade u alatima za prevođenje

Skenirani PDF često je samo skup slika stranica unutar PDF spremnika. Stranica čovjeku može prikazivati riječi, ali datoteka možda ne sadrži stvarni tekst koji softver može izdvojiti.

To stvara jednostavan problem:

Vrsta datotekeŠto prevoditelj vidiŠto se događa
Tekstualni PDFTekst i podatke o rasporeduPrevođenje može početi odmah.
Skenirani PDF samo sa slikamaSlike stranicaPrvo je potreban OCR.
PDF s tekstom preko slikeSliku skena i skriveni OCR tekstualni slojPrevođenje može raditi, ali OCR pogreške utječu na kvalitetu.

Najkorisniji test nije tehnički:

  1. Otvorite PDF.
  2. Pokušajte označiti pojedine riječi.
  3. Kopirajte jednu rečenicu.
  4. Zalijepite je u uređivač teksta.

Ako se rečenica pravilno zalijepi, PDF ima tekstualni sloj. Ako se ništa ne zalijepi ili se cijela stranica ponaša kao jedna slika, PDF treba OCR.

OCR nije opcionalan

OCR znači optičko prepoznavanje znakova. On čita tekst sa slike i stvara strojno čitljiv tekst. Za prevođenje PDF-a OCR obično stvara nevidljivi tekstualni sloj preko skenirane stranice.

Taj tekstualni sloj postaje izvor za prevođenje. Ako OCR napravi pogreške, prijevod nasljeđuje te pogreške.

Uobičajene OCR pogreške:

OCR pogreškaRizik za prijevod
rn pročitano kao mRiječi mijenjaju značenje.
1 pročitano kao lBrojevi, reference ili kodovi postaju pogrešni.
O pročitano kao 0ID-ovi, formule i nazivi mogu biti pogrešni.
Izostavljeni dijakriticiImena i pojmovi postaju netočni.
Spojeni stupciRečenice se prevode pogrešnim redoslijedom.
Ćelije tablice pogrešno pročitane redak po redakOznake podataka više ne odgovaraju vrijednostima.
Fusnote tretirane kao glavni tekstCitati i bilješke prelaze u pogrešan kontekst.

Zato je korak pregleda OCR-a važan. Nemojte prevoditi skenirani dokument dok nasumično ne provjerite izdvojeni tekst.

Radni tijek s OCR-om na prvom mjestu

Korak 1: Odredite vrstu PDF-a

Pokušajte označiti tekst. Ako označavanje radi, možda vam OCR nije potreban. Ako označavanje ne radi, tretirajte datoteku kao PDF samo sa slikama.

Stranicu provjerite i vizualno:

  • Iskrivljene stranice upućuju na sken.
  • Siva tekstura papira upućuje na sken.
  • Sjene uz hrbat upućuju na fotografiranu knjigu.
  • Neujednačen kontrast upućuje na fotokopiju.
  • Ako pretraga ne pronalazi vidljive riječi, vjerojatno nema tekstualnog sloja.

Korak 2: Poboljšajte sken ako je moguće

Kvaliteta OCR-a počinje kvalitetom slike. Ako možete ponovno skenirati dokument, učinite to prije nego što trošite vrijeme na ispravljanje OCR pogrešaka.

Koristite ovaj popis za provjeru kvalitete slike:

  • Skenirajte u dovoljno visokoj rezoluciji za sitan tekst.
  • Držite stranice ravnima i poravnatima.
  • Izbjegavajte sjene uz hrbat.
  • Odrežite rubove stola, prste i nered u pozadini.
  • Koristite jasan kontrast između teksta i stranice.
  • Cijeli redak neka bude vidljiv.
  • Koristite ispravnu orijentaciju stranice.
  • Nemojte toliko jako komprimirati sliku da slova postanu mutna.

Kod starih knjiga i fotokopija najveća poboljšanja obično dolaze od ispravljanja nagiba, korekcije kontrasta i ponovnog skeniranja stranica koje nisu u fokusu.

Korak 3: Pokrenite OCR

Odaberite OCR alat prema dokumentu, a ne prema brendu.

OCR opcijaNajbolje zaObratite pažnju na
Adobe Acrobat OCROpćenite poslovne skenove i čišćenje PDF-ovaProvjerite ima li vaš trenutačni plan pristup tome prije nego što se na to oslonite.
ABBYY FineReaderSložene skenove, tablice, stupce i teške rasporedeI dalje zahtijeva ručni pregled.
Tesseract or OCRmyPDFLokalne, tehničke i ponovljive OCR radne tijekoveTraži snalaženje s alatima naredbenog retka.
Online OCR toolsPovremene datoteke niskog rizikaPrivatnost, ograničenja datoteka i kvaliteta razlikuju se.
Phone scanning appsBrzo snimanje novog skenaIzobličenje perspektive može pogoršati OCR.

Za privatne ugovore, medicinsku dokumentaciju, financijske dokumente, neobjavljene rukopise ili akademski rad u recenziji dajte prednost lokalnom OCR radnom tijeku ili pouzdanom okruženju. Nemojte učitavati osjetljive skenove na nasumične besplatne OCR stranice.

Korak 4: Pregledajte OCR tekst

Pregledajte prije prevođenja, ne poslije. Kopirajte tekst s nekoliko zahtjevnih stranica i provjerite je li čitljiv.

Primjeri stranica koje treba pregledati:

  • Naslovna stranica.
  • Stranica s gustim osnovnim tekstom.
  • Stranica s tablicom.
  • Stranica s fusnotama.
  • Stranica sa sitnim tekstom.
  • Stranica s pečatima, rukopisom ili bilješkama na marginama.
  • Po jedna stranica za svaki jezik ako je dokument višejezičan.

Tražite:

  • Nedostajuće odlomke.
  • Spojene stupce.
  • Razlomljene riječi.
  • Pogrešne znakove.
  • Izgubljene dijakritike.
  • Oznake tablica odvojene od vrijednosti.
  • Zaglavlja umetnuta u glavni tekst.
  • Brojeve stranica pomiješane s rečenicama.

Ako je kvaliteta OCR-a loša, ispravite je prije prevođenja. Prevoditelj ne može pouzdano vratiti značenje koje OCR nikada nije zabilježio.

Korak 5: Prevedite PDF obrađen OCR-om

Kada PDF dobije čist tekstualni sloj, prenesite ga u PDF Translator. Korak prevođenja sada može raditi s tekstom umjesto sa slikama stranica.

Nakon prevođenja usporedite:

  • Izvorni sken
  • OCR tekstualni sloj
  • Prevedeni PDF

Ovaj trostruki pregled pomaže vam utvrditi dolazi li pogreška iz OCR-a ili iz prijevoda. Ako je OCR tekst pogrešan, ponovno pokrenite OCR. Ako je OCR tekst ispravan, ali je prijevod pogrešan, ispravite prijevod.

Korak 6: Pregledajte sadržaj visokog rizika

Skenirani dokumenti često sadrže upravo onu vrstu sadržaja koja zahtijeva pažljiv pregled: stare ugovore, državne obrasce, akademske radove, priručnike, povijesne dokumente i stranice knjiga.

Ručno pregledajte ove stavke:

  • Imena
  • Datume
  • Brojeve
  • Adrese
  • Šifre proizvoda
  • Pravne reference
  • Citati
  • Oznake tablica
  • Mjerne jedinice
  • Jednadžbe
  • Natpise
  • Fusnote

Za istraživačke i akademske datoteke pročitajte i vodič o prevođenju akademskih znanstvenih radova, jer skenirani akademski PDF-ovi uz OCR rizik dodaju i rizike vezane uz citiranje i raspored.

Primjeri pogrešaka usporedno

Koristite ovu tablicu dok pregledavate OCR izlaz.

Izvorni sken vjerojatno prikazujeLoš OCR izlazZašto je to važno
modernmodemZnačenje se potpuno mijenja.
Section 10Section IOPravne ili tehničke reference mogu postati pogrešne.
20262O26Datumi i ID-ovi postaju nepouzdani.
patientpatlentMedicinski ili tehnički pojmovi postaju pogrešni.
Dva odvojena stupcaJedan spojeni odlomakPrijevod čita rečenice pogrešnim redoslijedom.
Redak tablice s oznakama i vrijednostimaJedan redak pomiješanog tekstaPodaci se više ne povezuju s ispravnom oznakom.
Oznaka fusnote 1Slovo lBilješke se mogu vezati uz pogrešnu rečenicu.

Ako vidite ove pogreške u OCR sloju, ispravite OCR prije prevođenja.

Koji alat trebate koristiti?

Birajte prema složenosti dokumenta.

DokumentPreporučeni postupak
Čist poslovni skenOCR u Acrobatu ili drugom pouzdanom OCR alatu, zatim PDF Translator.
Sken stare knjigeIspravite nagib i poboljšajte kontrast, pažljivo napravite OCR, zatim prevedite.
Sken akademskog radaOCR, pregledajte jednadžbe/citate/tablice, zatim prevedite uz provjeru rasporeda.
Rukom pisane bilješkeMožda će prije prevođenja biti potreban ručni prijepis.
Jednostavan osobni dokumentMrežni OCR može biti prihvatljiv ako je rizik za privatnost nizak.
Osjetljiv dokumentKoristite lokalni OCR ili pouzdan kontrolirani radni tijek.

Ako želite širu usporedbu alata, pogledajte vodič kroz najbolje alate za prevođenje PDF-ova.

Uobičajeni problemi sa skeniranim PDF-ovima

Stranice niske rezolucije

Skenovi niske rezolucije zamućuju slova i stapaju ih jedno s drugim. OCR može zamijeniti rn i m, cl i d, ili interpunkciju i prašinu.

Rješenje: ponovno skenirajte ako možete. Ako ne možete, povećajte kontrast i pokušajte ponovno s OCR-om.

Iskrivljene ili zakrivljene stranice

Skenovi knjiga često su zakrivljeni uz hrbat. OCR loše čita zakrivljene retke i može promijeniti redoslijed teksta.

Rješenje: poravnajte stranicu, ponovno skenirajte ili upotrijebite OCR alat s ispravljanjem nagiba i zakrivljenosti.

Višestupačni raspored

OCR može spojiti lijevi i desni stupac u jedan tok rečenica.

Rješenje: prije prevođenja provjerite redoslijed čitanja. Akademski radovi ovdje zahtijevaju posebnu pozornost.

Tablice

Tablice su teške jer OCR mora prepoznati i tekst i strukturu. Tablica može vizualno izgledati ispravno, dok je tekstualni sloj pogrešan.

Rješenje: kopirajte OCR tekst iz tablice i potvrdite da oznake i dalje odgovaraju vrijednostima.

Rukopis i potpisi

OCR za tiskani tekst mnogo je pouzdaniji od prepoznavanja rukopisa. Rukom pisane bilješke na marginama, potpisi i ispunjeni obrasci mogu biti propušteni ili nečitko pretvoreni.

Rješenje: prije prevođenja ručno prepišite bitan rukopis.

Miješani jezici

OCR najbolje radi kada zna izvorni jezik. Sken s engleskim, francuskim i kineskim može podbaciti ako je OCR postavljen samo na jedan jezik.

Rješenje: odaberite sve relevantne OCR jezike ako ih alat podržava, a zatim nasumično provjerite svaki jezični odjeljak.

Popis za provjeru privatnosti i sigurnosti

Prije nego što bilo gdje prenesete skenirani PDF, zapitajte se:

  • Sadrži li dokument osobne podatke?
  • Uključuje li medicinski, pravni, financijski, akademski ili neobjavljeni materijal?
  • Je li pokriven ugovorom s klijentom ili pravilima škole?
  • Je li za ovaj dokument dopuštena mrežna OCR usluga?
  • Trebate li umjesto toga lokalni radni tijek?
  • Možete li ukloniti stranice koje nije potrebno prevoditi?

Skenirani PDF-ovi često su osjetljivi jer dolaze iz ugovora, identifikacijskih dokumenata, obrazaca, istraživačkih nacrta i internih arhiva. O odlukama o učitavanju u OCR razmišljajte isto kao i o izvornom dokumentu.

FAQ

Kako mogu prevesti skenirani PDF?

Prvo pokrenite OCR kako biste stvorili tekstualni sloj, pregledajte OCR rezultat, a zatim prevedite PDF obrađen OCR-om pomoću PDF Translator. Nemojte preskočiti korak pregleda OCR-a.

Zašto Google Translate nije preveo moj skenirani PDF?

PDF je možda samo slika. Ako nema tekstualnog sloja, Google Translate nema tekst koji može izdvojiti. Prvo upotrijebite OCR, a zatim prevedite. Postupak specifičan za Google opisan je u vodiču za PDF u Google Translateu.

Može li ChatGPT prevesti skenirani PDF?

ChatGPT može pomoći s pojedinačnim slikama ili izdvojenim tekstom, ali višestrani skenirani PDF i dalje treba OCR i pregled. Za cijeli radni tijek dokumenta prvo napravite OCR, a zatim koristite radni tijek za prevođenje PDF-a.

Koji je najbolji OCR alat za skenirane PDF-ove?

To ovisi o dokumentu. Acrobat i alati u stilu ABBYY-ja korisni su za općenite i složene skenove. Tesseract ili OCRmyPDF korisni su za lokalne tehničke radne tijekove. Mrežni OCR može biti dobar za jednostavne datoteke niskog rizika, ali privatnost i kvaliteta razlikuju se.

Može li OCR sačuvati formatiranje?

OCR može stvoriti tekstualni sloj i ponekad vratiti redoslijed čitanja, ali to nije isto što i očuvanje izvornog rasporeda nakon prijevoda. Nakon OCR-a koristite radni tijek za prevođenje PDF-a i usporedite rezultat s izvornikom.

Što ako je kvaliteta OCR-a loša?

Poboljšajte sken prije prevođenja. Ponovno skenirajte ako je moguće, ispravite nagib stranica, povećajte kontrast, obrežite nered, odaberite ispravan OCR jezik i ponovno pregledajte zahtjevne stranice.