BookTranslator
BookTranslator

Kako prevesti skenirani PDF: potpuni vodič za OCR + prevođenje

Skenirani PDF-ovi sadrže slike teksta, a ne stvarni tekst — zato ih Google Translate vraća nepromijenjene. Evo OCR + AI procesa koji to rješava.

BookTranslator

BookTranslator Team

Vodiči za prevođenje10 min read

Brzi odgovor: skenirani PDF treba OCR prije prevođenja

Da biste preveli skenirani PDF, prvo pokrenite OCR kako biste slike stranica pretvorili u tekst koji se može označiti. Zatim prevedite PDF obrađen OCR-om pomoću alata za prevođenje dokumenata kao što je Prevodilac PDF-ova. Ako preskočite OCR, mnogi alati za prevođenje vratit će originalnu datoteku nepromijenjenu, preskočiti stranice ili prevesti samo dijelove koji već sadrže tekstualni sloj.

Koristite ovaj tok rada:

  1. Otvorite PDF i pokušajte označiti jednu rečenicu.
  2. Ako ne možete označiti tekst, pokrenite OCR.
  3. Pregledajte OCR tekst prije prevođenja.
  4. Otpremite PDF obrađen OCR-om u Prevodilac PDF-ova.
  5. Uporedite prevedeni izlaz s originalnim skenom.

Ako vaš PDF već ima tekst koji se može označiti, a problem je očuvanje rasporeda, koristite vodič za prevođenje PDF-a bez gubitka formatiranja.

Zašto skenirani PDF-ovi ne rade u alatima za prevođenje

Skenirani PDF je često samo skup slika stranica unutar PDF kontejnera. Stranica čovjeku može prikazivati riječi, ali datoteka možda ne sadrži stvarni tekst koji softver može izdvojiti.

To stvara jednostavan problem:

Vrsta datotekeŠta prevodilac vidiŠta se dešava
PDF zasnovan na tekstuTekst plus podaci o rasporeduPrevođenje može početi odmah.
Skenirani PDF bez tekstaSlike stranicaOCR je prvo neophodan.
PDF s tekstom preko slikeSlika skena plus skriveni OCR tekstualni slojPrevođenje može raditi, ali OCR greške utiču na kvalitet.

Najkorisniji test nije tehnički:

  1. Otvorite PDF.
  2. Pokušajte označiti pojedinačne riječi.
  3. Kopirajte jednu rečenicu.
  4. Zalijepite je u editor teksta.

Ako se rečenica ispravno zalijepi, PDF ima tekstualni sloj. Ako se ništa ne zalijepi ili se cijela stranica ponaša kao jedna slika, PDF treba OCR.

OCR nije opcionalan

OCR znači optičko prepoznavanje znakova. On čita tekst sa slike i stvara tekst čitljiv mašini. Za prevođenje PDF-ova, OCR obično pravi nevidljivi tekstualni sloj preko skenirane stranice.

Taj tekstualni sloj postaje izvor za prevođenje. Ako OCR pravi greške, prevođenje nasljeđuje te greške.

Česte OCR greške:

OCR greškaRizik za prevođenje
rn pročitano kao mRiječi mijenjaju značenje.
1 pročitano kao lBrojevi, reference ili kodovi postaju pogrešni.
O pročitano kao 0ID-jevi, formule i imena mogu se pokvariti.
Izostavljeni dijakriticiImena i termini postaju netačni.
Spojene koloneRečenice se prevode pogrešnim redoslijedom.
Ćelije tabele pogrešno očitane red po redOznake podataka više ne odgovaraju vrijednostima.
Fusnote tretirane kao glavni tekstCitati i napomene prelaze u pogrešan kontekst.

Zato je korak pregleda OCR-a važan. Nemojte prevoditi skenirani dokument dok niste provjerili izdvojeni tekst na nekoliko mjesta.

Tok rada u kojem OCR ide prvi

Korak 1: Utvrdite vrstu PDF-a

Pokušajte označiti tekst. Ako označavanje radi, OCR vam možda ne treba. Ako ne radi, tretirajte datoteku kao sliku bez teksta.

Također vizuelno pregledajte stranicu:

  • Ukošene stranice sugerišu sken.
  • Siva tekstura papira sugeriše sken.
  • Sjene uz hrbat sugerišu fotografisanu knjigu.
  • Neujednačen kontrast sugeriše fotokopiju.
  • Ako pretraga ne pronalazi vidljive riječi, vjerovatno nema tekstualnog sloja.

Korak 2: Poboljšajte sken ako je moguće

Kvalitet OCR-a počinje kvalitetom slike. Ako možete ponovo skenirati dokument, uradite to prije nego što potrošite vrijeme na ispravljanje OCR grešaka.

Koristite ovu kontrolnu listu kvaliteta slike:

  • Skenirajte u dovoljno visokoj rezoluciji za sitan tekst.
  • Držite stranice ravnim i pravim.
  • Izbjegavajte sjene uz hrbat.
  • Izrežite rubove stola, prste ili nered u pozadini.
  • Koristite jak kontrast između teksta i stranice.
  • Neka cijela linija bude vidljiva.
  • Koristite ispravnu orijentaciju stranice.
  • Nemojte toliko komprimirati sliku da slova postanu mutna.

Kod starih knjiga i fotokopija, najveće poboljšanje obično dolazi od ispravljanja nagiba, korekcije kontrasta i ponovnog skeniranja stranica koje nisu u fokusu.

Korak 3: Pokrenite OCR

Birajte OCR alat prema dokumentu, a ne prema brendu.

OCR opcijaNajbolje zaPazite na
Adobe Acrobat OCRUobičajene poslovne skenove i čišćenje PDF-ovaProvjerite pristup trenutnom planu prije nego što se oslonite na njega.
ABBYY FineReaderSložene skenove, tabele, kolone i zahtjevne rasporedeI dalje zahtijeva ručni pregled.
Tesseract ili OCRmyPDFLokalne, tehničke i ponovljive OCR tokove radaZahtijeva snalaženje s alatima komandne linije.
Online OCR alatiPovremene datoteke niskog rizikaPrivatnost, ograničenja datoteka i kvalitet variraju.
Aplikacije za skeniranje telefonomBrzo pravljenje novog skenaIzobličenje perspektive može narušiti OCR.

Za privatne ugovore, medicinske kartone, finansijske dokumente, neobjavljene rukopise ili akademski rad koji je u recenziji, birajte lokalni OCR tok rada ili pouzdano okruženje. Ne otpremajte osjetljive skenove na nasumične besplatne OCR stranice.

Korak 4: Pregledajte OCR tekst

Pregledajte prije prevođenja, ne poslije. Kopirajte tekst s nekoliko zahtjevnih stranica i provjerite da li je čitljiv.

Primjeri stranica koje treba pregledati:

  • Naslovna stranica.
  • Stranica s gustim glavnim tekstom.
  • Stranica s tabelom.
  • Stranica s fusnotama.
  • Stranica sa sitnim tekstom.
  • Stranica s pečatima, rukopisom ili marginalnim bilješkama.
  • Po jedna stranica na svakom jeziku ako je dokument višejezičan.

Tražite:

  • Nedostajuće pasuse.
  • Spojene kolone.
  • Prelomljene riječi.
  • Pogrešne znakove.
  • Izgubljene dijakritike.
  • Oznake tabele odvojene od vrijednosti.
  • Zaglavlja ubačena u glavni tekst.
  • Brojeve stranica pomiješane s rečenicama.

Ako je kvalitet OCR-a loš, popravite ga prije prevođenja. Prevodilac ne može pouzdano vratiti značenje koje OCR nikada nije uhvatio.

Korak 5: Prevedite PDF obrađen OCR-om

Kada PDF dobije čist tekstualni sloj, otpremite ga u Prevodilac PDF-ova. Sada korak prevođenja može raditi s tekstom umjesto sa slikama stranica.

Nakon prevođenja uporedite:

  • Originalni sken
  • OCR tekstualni sloj
  • Prevedeni PDF

Ovaj trostruki pregled pomaže vam da utvrdite da li je greška došla iz OCR-a ili iz prevođenja. Ako je OCR tekst pogrešan, ponovo pokrenite OCR. Ako je OCR tekst tačan, a prevod pogrešan, ispravite prevod.

Korak 6: Pregledajte sadržaj visokog rizika

Skenirani dokumenti često sadrže upravo sadržaj koji zahtijeva pažljiv pregled: stare ugovore, državne obrasce, akademske radove, priručnike, historijske dokumente i stranice knjiga.

Ručno pregledajte ove stavke:

  • Imena
  • Datume
  • Brojeve
  • Adrese
  • Kodove proizvoda
  • Pravne reference
  • Citate
  • Oznake tabela
  • Mjerne jedinice
  • Jednačine
  • Natpise
  • Fusnote

Za istraživačke i akademske datoteke pročitajte i vodič za prevođenje akademskih istraživačkih radova, jer skenirani akademski PDF-ovi dodaju rizike vezane za citiranje i raspored povrh OCR rizika.

Primjeri grešaka jedan pored drugog

Koristite ovu tabelu dok pregledate OCR izlaz.

Originalni sken vjerovatno prikazujeLoš OCR izlazZašto je važno
modernmodemZnačenje se potpuno mijenja.
Section 10Section IOPravne ili tehničke reference mogu postati pogrešne.
20262O26Datumi i ID-jevi postaju nepouzdani.
patientpatlentMedicinski ili tehnički termini postaju pogrešni.
Dvije odvojene koloneJedan spojeni pasusPrijevod čita rečenice pogrešnim redoslijedom.
Red tabele s oznakama i vrijednostimaJedna linija pomiješanog tekstaPodaci se više ne povezuju s pravom oznakom.
Oznaka fusnote 1Slovo lNapomene se mogu vezati za pogrešnu rečenicu.

Ako vidite ove greške u OCR sloju, popravite OCR prije prevođenja.

Koji alat treba da koristite?

Birajte prema složenosti dokumenta.

DokumentPreporučeni postupak
Čist poslovni skenOCR u Acrobatu ili drugom pouzdanom OCR alatu, zatim Prevodilac PDF-ova.
Sken stare knjigeIspravite nagib i poboljšajte kontrast, pažljivo uradite OCR, pa onda prevedite.
Sken akademskog radaOCR, pregled jednačina/citata/tabela, zatim prevođenje uz provjeru rasporeda.
Rukom pisane bilješkeMožda će biti potrebna ručna transkripcija prije prevođenja.
Jednostavan lični dokumentOnline OCR može biti prihvatljiv ako je rizik za privatnost nizak.
Osjetljiv dokumentKoristite lokalni OCR ili pouzdan kontrolisani tok rada.

Ako želite šire poređenje alata, pogledajte vodič za najbolje PDF prevodioce za 2026..

Uobičajeni problemi sa skeniranim PDF-ovima

Stranice niske rezolucije

Skenovi niske rezolucije zamućuju slova jedno u drugo. OCR može pobrkati rn i m, cl i d, ili interpunkciju i prašinu.

Rješenje: ponovo skenirajte ako je moguće. Ako nije, pojačajte kontrast i pokušajte OCR ponovo.

Ukošene ili zakrivljene stranice

Skenovi knjiga često se zakrivljuju uz hrbat. OCR loše čita zakrivljene linije i može promijeniti redoslijed teksta.

Rješenje: izravnajte stranicu, ponovo je skenirajte ili koristite OCR alat s ispravljanjem nagiba i deformacije stranice.

Višekolonski raspored

OCR može spojiti lijevu i desnu kolonu u jedan tok rečenica.

Rješenje: prije prevođenja provjerite redoslijed čitanja. Akademski radovi ovdje zahtijevaju posebnu pažnju.

Tabele

Tabele su teške zato što OCR mora prepoznati i tekst i strukturu. Tabela može vizuelno izgledati ispravno, dok je tekstualni sloj pogrešan.

Rješenje: kopirajte OCR tekst iz tabele i potvrdite da oznake i dalje odgovaraju vrijednostima.

Rukopis i potpisi

OCR štampanog teksta mnogo je pouzdaniji od prepoznavanja rukopisa. Rukom pisane marginalne bilješke, potpisi i popunjeni obrasci mogu biti propušteni ili iskrivljeni.

Rješenje: ručno prepišite važan rukopis prije prevođenja.

Miješani jezici

OCR radi najbolje kada zna izvorni jezik. Sken s engleskim, francuskim i kineskim može zakazati ako je OCR podešen samo na jedan jezik.

Rješenje: izaberite sve relevantne OCR jezike ako alat to podržava, a zatim provjerite svaki jezički dio na nekoliko mjesta.

Kontrolna lista za privatnost i sigurnost

Prije nego što bilo gdje otpremite skenirani PDF, zapitajte se:

  • Da li dokument sadrži lične podatke?
  • Da li uključuje medicinski, pravni, finansijski, akademski ili neobjavljeni materijal?
  • Da li je obuhvaćen ugovorom s klijentom ili školskom politikom?
  • Da li je online OCR usluga dozvoljena za ovaj dokument?
  • Treba li vam umjesto toga lokalni tok rada?
  • Možete li ukloniti stranice koje ne trebaju prevođenje?

Skenirani PDF-ovi često su osjetljivi jer dolaze iz ugovora, identifikacionih dokumenata, obrazaca, nacrta istraživanja i internih arhiva. Odluke o otpremanju u OCR tretirajte isto kao i originalni dokument.

Česta pitanja

Kako da prevedem skenirani PDF?

Prvo pokrenite OCR da biste napravili tekstualni sloj, pregledajte OCR izlaz, a zatim prevedite PDF obrađen OCR-om pomoću Prevodilac PDF-ova. Nemojte preskočiti korak pregleda OCR-a.

Zašto Google Translate nije preveo moj skenirani PDF?

PDF možda sadrži samo sliku. Ako nema tekstualnog sloja, Google Translate nema tekst koji može izdvojiti. Prvo uradite OCR, pa tek onda prevodite. Tok rada specifičan za Google obrađen je u vodiču za prevođenje PDF-a uz Google Translate.

Može li ChatGPT prevesti skenirani PDF?

ChatGPT može pomoći sa pojedinačnim slikama ili izdvojenim tekstom, ali višestranični skenirani PDF i dalje zahtijeva OCR i pregled. Za puni tok rada s dokumentom, prvo OCR, pa onda tok rada za prevođenje PDF-a.

Koji je najbolji OCR alat za skenirane PDF-ove?

To zavisi od dokumenta. Alati poput Acrobata i ABBYY-ja korisni su za opće i složene skenove. Tesseract ili OCRmyPDF korisni su za lokalne tehničke tokove rada. Online OCR može biti sasvim dobar za jednostavne datoteke niskog rizika, ali privatnost i kvalitet variraju.

Može li OCR sačuvati formatiranje?

OCR može napraviti tekstualni sloj i ponekad vratiti redoslijed čitanja, ali to nije isto što i očuvanje originalnog prevedenog rasporeda. Nakon OCR-a koristite tok rada za prevođenje PDF-a i uporedite izlaz s originalom.

Šta ako je kvalitet OCR-a loš?

Poboljšajte sken prije prevođenja. Ako je moguće, ponovo skenirajte, ispravite nagib stranica, pojačajte kontrast, izrežite višak, odaberite ispravan OCR jezik i ponovo pregledajte zahtjevne stranice.