Kako prevesti skenirani PDF: Kompletan vodič za OCR prevođenje

Skenirani PDF dokumenti sadrže slike teksta, a ne stvarni tekst — zato ih Google Translate vraća neizmjenjene. Evo OCR AI toka posla koji to rješava.

BookTranslator Team

Prevođenje PDF-ova

28. velj 2026.10 min read

Brzi odgovor: Skeniranom PDF-u je potreban OCR prije prevođenja

Da biste preveli skenirani PDF, prvo pokrenite OCR kako biste pretvorili slike stranica u tekst koji se može odabrati. Zatim prevedite PDF obrađen OCR-om pomoću prevoditelja dokumenata kao što je PDF Translator. Ako preskočite OCR, mnogi alati za prevođenje vratit će originalnu datoteku nepromijenjenu, propustiti stranice ili prevesti samo dijelove koji već sadrže sloj teksta.

Koristite ovaj radni proces:

Otvorite PDF i pokušajte odabrati rečenicu.
Ako ne možete odabrati tekst, pokrenite OCR.
Pregledajte OCR tekst prije prevođenja.
Učitajte PDF obrađen OCR-om u PDF Translator.
Pregledajte prevedeni ispis u odnosu na originalni sken.

Ako vaš PDF već ima tekst koji se može odabrati, a problem je očuvanje izgleda, koristite vodič za prevođenje PDF-a bez gubitka oblikovališta.

Zašto skenirani PDF-ovi ne uspijevaju u alatima za prevođenje

Skenirani PDF često je samo skup slika stranica unutar PDF spremnika. Stranica može prikazivati riječi ljudskom oko, ali datoteka možda ne sadrži stvarni tekst koji softver može izdvojiti.

To stvara jednostavan neuspjeh:

Vrsta datoteke	Što prevoditelj vidi	Što se događa
PDF na temelju teksta	Tekst plus podaci o izgledu	Prevođenje može započeti odmah.
Skenirani PDF samo sa slikama	Slike stranica	OCR je potreban najprije.
PDF s tekstom preko slike	Slika skena plus skriveni sloj OCR teksta	Prevođenje može raditi, ali OCR pogreške utječu na kvalitetu.

Najkorisniji test nije tehnički:

Otvorite PDF.
Pokrnjite isticanje pojedinačnih riječi.
Kopirajte rečenicu.
Zalijepite je u uređivač teksta.

Ako se rečenica ispravno zalijepi, PDF ima sloj teksta. Ako se ništa ne zalijepi ili se cijela stranica ponaša kao jedna slika, PDF treba OCR.

OCR nije opcionalan

OCR znači optičko prepoznavanje znakova. On čita tekst sa slike i stvara tekst čitljiv stroju. Za PDF prevođenje, OCR obično stvara nevidljivi sloj teksta preko skenirane stranice.

Taj sloj teksta postaje izvor za prevođenje. Ako OCR napravi pogreške, prijevod nasljeđuje te pogreške.

Uobičajene OCR pogreške:

OCR pogreška	Rizik pri prevođenju
`rn` pročitano kao `m`	Riječi mijenjaju značenje.
`1` pročitano kao `l`	Brojevi, reference ili kodovi postaju netočni.
`O` pročitano kao `0`	ID-ovi, formule i imena se mogu slomiti.
Uklonjeni naglasci	Imena i termini postaju netočni.
Spojeni stupci	Rečenice se prevode pogrešnim redoslijedom.
Ćelije tablice pročitane red po red netočno	Oznake podataka se više ne podudaraju s vrijednostima.
Fusnote tretirane kao tijelo teksta	Citati i bilješke prelaze u krivi kontekst.

Zato je korak provjere OCR-a važan. Nemojte prevoditi skenirani dokument dok niste nasumično provjerili izdvojeni tekst.

Tok posla s OCR-om na prvom mjestu

1. korak: Identificirajte vrstu PDF-a

Pokušajte odabrati tekst. Ako odabir radi, možda vam ne treba OCR. Ako odabir ne uspije, tretirajte datoteku kao onu koja sadrži samo slike.

Također vizualno pregledajte stranicu:

Zakrivljene stranice upućuju na sken.
Tekstura sivog papira upućuje na sken.
Sjene blizu hrpta upućuju na fotografiranu knjigu.
Neujednačen kontrast upućuje na fotokopiju.
Pretraga koja ne pronalazi vidljive riječi upućuje na to da nema sloja teksta.

2. korak: Poboljšajte sken ako je moguće

Kvaliteta OCR-a počinje kvalitetom slike. Ako možete ponovno skenirati, učinite to prije trošenja vremena na popravljanje OCR pogrešaka.

Koristite ovu kontrolnu listu kvalitete slike:

Skenirajte pri dovoljnoj razlučljivosti za mali tekst.
Držite stranice ravno i ravno.
Izbjegavajte sjene blizu hrpta.
Izrežite rubove tablica, prste ili pozadinsku gužvu.
Koristite snažan kontrast između teksta i stranice.
Držite cijelu liniju vidljivom.
Koristite ispravnu orijentaciju stranice.
Nemojte toliko snažno komprimirati sliku da se slova zamute.

Za stare knjige i fotokopije, najveći dobitci obično dolaze od ispravljanja iskrivljenosti, korekcije kontrasta i ponovnog skeniranja stranica koje su van fokusa.

3. korak: Pokrenite OCR

Odaberite OCR alat na temelju dokumenta, a ne marke.

OCR opcija	Najbolje za	Pazite na
Adobe Acrobat OCR	Opći poslovni skenovi i čišćenje PDF-ova	Provjerite pristup trenutnom planu prije oslanjanja na njega.
ABBYY FineReader	Složeni skenovi, tablice, stupci i teški izgledi	I dalje zahtijeva ručni pregled.
Tesseract ili OCRmyPDF	Lokalni, tehnički, ponovljivi OCR radni procesi	Zahtijeva udobnost s alatima naredbenog retka.
Mrežni OCR alati	Povremene datoteke niskog rizika	Privatnost, ograničenja datoteka i kvaliteta variraju.
Aplikacije za skeniranje telefonom	Brzo snimanje novog skena	Iskrivljenje perspektive može naštetiti OCR-u.

Za privatne ugovore, medicinske kartone, financijske dokumente, neobjavljene rukopise ili akademski rad pod recenzijom, preferirajte lokalni OCR radni proces ili pouzdano okruženje. Nemojte učitavati osjetljive skenove na nasumične besplatne OCR stranice.

4. korak: Pregledajte OCR tekst

Pregledajte prije prevođenja, a ne poslije. Kopirajte tekst s nekoliko teških stranica i provjerite je li čitljiv.

Uzorci stranica za pregled:

Naslovna stranica.
Stranica s gustim tekstom.
Stranica s tablicom.
Stranica s fusnotama.
Stranica s malim tekstom.
Stranica s pečatima, rukopisom ili rubnim bilješkama.
Stranica na svakom jeziku ako je dokument višejezičan.

Potražite:

Nedostajuće odlomke.
Spojene stupce.
Slomljene riječi.
Krive znakove.
Izgubljene dijakritičke znakove.
Oznake tablica odvojene od vrijednosti.
Zaglavlja umetnuta u tijelo teksta.
Brojeve stranica pomiješane u rečenice.

Ako je kvaliteta OCR-a loša, popravite je prije prevođenja. Prevoditelj ne može pouzdano vratiti značenje koje OCR nikada nije uhvatio.

5. korak: Prevedite PDF obrađen OCR-om

Nakon što PDF ima čist sloj teksta, učitajte ga u PDF Translator. Korak prevođenja sada može raditi s tekstom umjesto sa slikama stranica.

Nakon prevođenja usporedite:

Originalni sken
OCR sloj teksta
Prevedeni PDF

Ova trostruka provjera pomaže vam utvrditi je li pogreška došla iz OCR-a ili prevođenja. Ako je OCR tekst krivi, ponovno pokrenite OCR. Ako je OCR tekst točan, ali je prijevod krivi, popravite prijevod.

6. korak: Pregledajte sadržaj visokog rizika

Skenirani dokumenti često sadrže upravo onaj sadržaj koji zahtijeva pažljivu provjeru: stare ugovore, vladine obrasce, akademske radove, priručnike, povijesne dokumente i stranice knjiga.

Ručno pregledajte ove stavke:

Imena
Datume
Brojeve
Adrese
Šifre proizvoda
Pravne reference
Citate
Oznake tablica
Jedinice
Jednadžbe
Opise
Fusnote

Za istraživačke i akademske datoteke, također pročitajte vodič za prevođenje akademskih istraživačkih radova, jer skenirani akademski PDF-ovi dodaju rizike citiranja i izgleda povrh OCR rizika.

Primjeri pogrešaka jednih pored drugih

Koristite ovu tablicu dok pregledavate OCR ispis.

Originalni sken vjerojatno prikazuje	Loš OCR ispis	Zašto je to važno
`modern`	`modem`	Značaj se u potpunosti mijenja.
`Section 10`	`Section IO`	Pravne ili tehničke reference se mogu slomiti.
`2026`	`2O26`	Datumi i ID-ovi postaju nepouzdani.
`patient`	`patlent`	Medicinski ili tehnički termini postaju netočni.
Dva odvojena stupca	Jedan spojeni odlomak	Prijevod čita rečenice pogrešnim redoslijedom.
Red tablice s oznakama i vrijednostima	Jedna linija miješanog teksta	Podaci se više ne mapiraju na pravu oznaku.
Oznaka fusnote `1`	Slovo `l`	Bilješke se mogu prikačiti za krivu rečenicu.

Ako vidite ove pogreške u OCR sloju, popravite OCR prije prevođenja.

Koji alat trebate koristiti?

Odaberite prema težini dokumenta.

Dokument	Preporučeni put
Čisti poslovni sken	OCR u Acrobat-u ili drugom pouzdanom OCR alatu, zatim PDF Translator.
Sken stare knjige	Ispravite iskrivljenost i kontrast, pažljivo napravite OCR, zatim prevedite.
Sken akademskog rada	OCR, pregledajte jednadžbe/citate/tablice, zatim prevedite s pregledom izgleda.
Rukopisne bilješke	Ručna transkripcija može biti potrebna prije prevođenja.
Jednostavan osobni dokument	Mrežni OCR može biti prihvatljiv ako je rizik privatnosti nizak.
Osjetljivi dokument	Koristite lokalni OCR ili pouzdani kontrolirani radni proces.

Ako želite širu usporedbu alata, pogledajte vodič za najbolji PDF prevoditelj.

Uobičajeni problemi sa skeniranim PDF-ovima

Stranice niske razlučljivosti

Skenovi niske razlučljivosti zamućuju slova zajedno. OCR može pobrkati rn i m, cl i d, ili interpunkciju i prašinu.

Popravak: ponovno skenirajte ako je moguće. Ako nije, povećajte kontrast i pokušajte OCR ponovno.

Zakrivljene ili iskrivljene stranice

Skenovi knjiga često se savijaju blizu hrpta. OCR slabo čita zakrivljene linije i može preurediti tekst.

Popravak: poravnajte stranicu, ponovno skenirajte ili koristite OCR alat s ispravljanjem iskrivljenosti i izvijanja.

Višestupčasti izgled

OCR može spojiti lijevi i desni stupac u jedan tok rečenica.

Popravak: pregledajte redoslijed čitanja prije prevođenja. Akademski radovi ovdje trebaju posebnu pažnju.

Tablice

Tablice su teške jer OCR mora otkriti i tekst i strukturu. Tablica vizualno može izgledati ispravno dok je sloj teksta krivi.

Popravak: kopirajte OCR tekst iz tablice i potvrdite da se oznake još uvijek podudaraju s vrijednostima.

Rukopis i potpisi

OCR tiskanog teksta puno je pouzdaniji od prepoznavanja rukopisa. Rukopisne rubne bilješke, potpisi i ispunjeni obrasci mogu biti propušteni ili izobličeni.

Popravak: ručno prepisat bitan rukopis prije prevođenja.

Mješoviti jezici

OCR najbolje radi kada zna izvorni jezik. Sken s engleskim, francuskim i kineskim može propasti ako je OCR postavljen samo na jedan jezik.

Popravak: odaberite sve relevantne OCR jezike ako alat to podržava, a zatim nasumično provjerite svaki odsječak jezika.

Kontrolni popis za privatnost i sigurnost

Prije učitavanja skeniranog PDF-a bilo gdje, pitajte:

Sadrži li dokument osobne podatke?
Uključuje li medicinski, pravni, financijski, akademski ili neobjavljeni materijal?
Je li pokriven ugovorom s klijentom ili školskom politikom?
Je li mrežna OCR usluga dozvoljena za ovaj dokument?
Trebate li umjesto toga lokalni radni proces?
Možete li ukloniti stranice koje ne trebaju prijevod?

Skenirani PDF-ovi često su osjetljivi jer dolaze iz ugovora, osobnih iskaznica, obrazaca, nacrta istraživanja i internih arhiva. Odluke o učitavanju OCR-a tretirajte na isti način kao što biste tretirali originalni dokument.

FAQ (Često postavljana pitanja)

Kako mogu prevesti skenirani PDF?

Prvo pokrenite OCR da biste stvorili sloj teksta, pregledajte OCR ispis, a zatim prevedite PDF obrađen OCR-om pomoću PDF Translator. Nemojte preskočiti korak provjere OCR-a.

Zašto Google Translate nije preveo moj skenirani PDF?

PDF možda sadrži samo slike. Ako nema sloja teksta, Google Translate nema tekst za izdvojiti. Prvo koristite OCR, zatim prevedite. Radni proces specifičan za Google objašnjen je u vodiču za Google Translate PDF.

Može li ChatGPT prevesti skenirani PDF?

ChatGPT može pomoći s pojedinačnim slikama ili izvađenim tekstom, ali višestruki skenirani PDF i dalje treba OCR i pregled. Za potpun tok posla s dokumentom, prvo OCR, zatim koristite radni proces prevođenja PDF-a.

Koji je najbolji OCR alat za skenirane PDF-ove?

Ovisi o dokumentu. Alati tipa Acrobat i ABBYY korisni su za opće i složene skenove. Tesseract ili OCRmyPDF koristan je za lokalne tehničke radne procese. Mrežni OCR može biti u redu za jednostavne datoteke niskog rizika, ali privatnost i kvaliteta variraju.

Može li OCR očuvati oblikovanje?

OCR može stvoriti sloj teksta i ponekad oporaviti redoslijed čitanja, ali to nije isto što i očuvanje originalnog prevedenog izgleda. Nakon OCR-a, koristite radni proces prevođenja PDF-a i pregledajte ispis u odnosu na original.

Što ako je kvaliteta OCR-a loša?

Poboljšajte sken prije prevođenja. Ponovno skenirajte ako je moguće, ispravite iskrivljenost stranica, povećajte kontrast, izrežite nered, odaberite ispravan OCR jezik i ponovno pregledajte teške stranice.

Radi li OCR na pismima koja nisu latinična poput hindskog ili tamilskog?

Da, ali kvaliteta stroja ovisi o pismu. Skenovi na devanagariju, tamilskom, telugu i bengalskom trebaju OCR mehanizam obučen na tim pismima, a korak prevođenja treba fontove koji ih ispravno iscrtavaju. Prevoditelj dokumenata s ugrađenim OCR-om rukuje s oba koraka zajedno — na primjer, prevedite skenirani PDF s hindskog na engleski.