BookTranslator
BookTranslator

Kako prevesti skenirani PDF: kompletan vodič za OCR + prevođenje

Skenirani PDF-ovi sadrže slike teksta, a ne stvarni tekst — zato ih Google Translate vraća nepromenjene. Evo OCR + AI procesa koji to rešava.

BookTranslator

BookTranslator Team

Vodiči za prevod10 min read

Kratak odgovor: Skeniranom PDF-u treba OCR pre prevođenja

Da biste preveli skenirani PDF, prvo pokrenite OCR da slike stranica pretvorite u tekst koji može da se označi. Zatim prevedite PDF obrađen OCR-om pomoću alata za prevođenje dokumenata kao što je prevodilac PDF-ova. Ako preskočite OCR, mnogi alati za prevođenje vratiće originalni fajl bez izmena, preskočiti stranice ili prevesti samo delove koji već sadrže tekstualni sloj.

Koristite ovaj postupak:

  1. Otvorite PDF i pokušajte da označite jednu rečenicu.
  2. Ako ne možete da označite tekst, pokrenite OCR.
  3. Pregledajte OCR tekst pre prevođenja.
  4. Otpremite PDF obrađen OCR-om u prevodilac PDF-ova.
  5. Uporedite prevedeni rezultat sa originalnim skenom.

Ako vaš PDF već ima tekst koji može da se označi, a problem je očuvanje rasporeda, pogledajte vodič kako da prevedete PDF bez gubitka formatiranja.

Zašto alati za prevođenje ne uspevaju sa skeniranim PDF-ovima

Skenirani PDF je često samo skup slika stranica unutar PDF kontejnera. Čovek na stranici vidi reči, ali fajl možda ne sadrži stvarni tekst koji softver može da izdvoji.

To dovodi do jednostavnog problema:

Tip fajlaŠta prevodilac vidiŠta se dešava
PDF zasnovan na tekstuTekst plus podaci o rasporeduPrevođenje može odmah da počne.
Skenirani PDF sa slikamaSlike stranicaNajpre je potreban OCR.
PDF sa tekstom preko slikeSlika skena plus skriveni OCR tekstualni slojPrevođenje može da radi, ali OCR greške utiču na kvalitet.

Najkorisniji test nije tehnički:

  1. Otvorite PDF.
  2. Pokušajte da označite pojedinačne reči.
  3. Kopirajte jednu rečenicu.
  4. Nalepite je u uređivač teksta.

Ako se rečenica pravilno nalepi, PDF ima tekstualni sloj. Ako se ništa ne nalepi, ili se cela stranica ponaša kao jedna slika, PDF-u je potreban OCR.

OCR nije opcioni korak

OCR znači optičko prepoznavanje karaktera. On čita tekst sa slike i pravi mašinski čitljiv tekst. Kod prevođenja PDF-a, OCR obično pravi nevidljivi tekstualni sloj preko skenirane stranice.

Taj tekstualni sloj postaje izvor za prevođenje. Ako OCR napravi greške, prevod nasleđuje te greške.

Uobičajene OCR greške:

OCR greškaRizik za prevod
rn pročitano kao mReči menjaju značenje.
1 pročitano kao lBrojevi, reference ili kodovi postaju pogrešni.
O pročitano kao 0ID-jevi, formule i imena mogu postati neispravni.
Izgubljeni akcentiImena i termini postaju netačni.
Spojene koloneRečenice se prevode pogrešnim redosledom.
Ćelije tabele pogrešno pročitane red po redOznake podataka više ne odgovaraju vrednostima.
Fusnote tretirane kao glavni tekstCitati i napomene završavaju u pogrešnom kontekstu.

Zato je pregled OCR rezultata važan. Nemojte prevoditi skenirani dokument dok ne proverite izdvojeni tekst na nekoliko mesta.

Proces u kojem OCR ide prvi

Korak 1: Odredite tip PDF-a

Pokušajte da označite tekst. Ako označavanje radi, OCR vam možda nije potreban. Ako ne radi, smatrajte da fajl sadrži samo slike.

Pregledajte stranicu i vizuelno:

  • Iskošene stranice ukazuju na sken.
  • Siva tekstura papira ukazuje na sken.
  • Senke uz hrbat ukazuju na fotografisanu knjigu.
  • Neujednačen kontrast ukazuje na fotokopiju.
  • Ako pretraga ne pronalazi vidljive reči, verovatno nema tekstualnog sloja.

Korak 2: Poboljšajte sken ako možete

Kvalitet OCR-a počinje kvalitetom slike. Ako možete ponovo da skenirate dokument, uradite to pre nego što potrošite vreme na ispravljanje OCR grešaka.

Koristite ovu kontrolnu listu kvaliteta slike:

  • Skenirajte u dovoljno visokoj rezoluciji za sitan tekst.
  • Neka stranice budu ravne i prave.
  • Izbegavajte senke uz hrbat.
  • Odsecite ivice stola, prste i nered u pozadini.
  • Koristite jak kontrast između teksta i stranice.
  • Neka cela linija bude vidljiva.
  • Koristite pravilnu orijentaciju stranice.
  • Nemojte toliko kompresovati sliku da slova postanu mutna.

Kod starih knjiga i fotokopija, najveća poboljšanja obično dolaze od ispravljanja nagiba, korekcije kontrasta i ponovnog skeniranja stranica koje nisu u fokusu.

Korak 3: Pokrenite OCR

Birajte OCR alat prema dokumentu, a ne prema brendu.

OCR opcijaNajbolje zaObratite pažnju na
Adobe Acrobat OCROpšte poslovne skenove i sređivanje PDF-ovaProverite pristup trenutnom planu pre nego što se oslonite na njega.
ABBYY FineReaderSložene skenove, tabele, kolone i zahtevne rasporedeI dalje zahteva ručni pregled.
Tesseract ili OCRmyPDFLokalne, tehničke i ponovljive OCR proceseTraži snalaženje sa alatima komandne linije.
Online OCR alatiPovremene fajlove sa niskim rizikomPrivatnost, ograničenja fajlova i kvalitet variraju.
Aplikacije za skeniranje telefonomBrzo pravljenje novog skenaDistorzija perspektive može da pokvari OCR.

Za privatne ugovore, medicinsku dokumentaciju, finansijske dokumente, neobjavljene rukopise ili akademske radove u recenziji, dajte prednost lokalnom OCR procesu ili pouzdanom okruženju. Nemojte otpremati osetljive skenove na nasumične besplatne OCR sajtove.

Korak 4: Pregledajte OCR tekst

Pregled uradite pre prevođenja, a ne posle. Kopirajte tekst sa nekoliko zahtevnih stranica i proverite da li je čitljiv.

Stranice koje treba proveriti:

  • Naslovna strana.
  • Stranica sa gustim glavnim tekstom.
  • Stranica sa tabelom.
  • Stranica sa fusnotama.
  • Stranica sa sitnim tekstom.
  • Stranica sa pečatima, rukopisom ili beleškama na margini.
  • Stranica na svakom jeziku ako je dokument višejezičan.

Tražite sledeće:

  • Paragrafe koji nedostaju.
  • Spojene kolone.
  • Prekinute reči.
  • Pogrešne znakove.
  • Izgubljene dijakritike.
  • Oznake tabele odvojene od vrednosti.
  • Zaglavlja ubačena u glavni tekst.
  • Brojeve stranica pomešane sa rečenicama.

Ako je kvalitet OCR-a loš, popravite ga pre prevođenja. Prevodilac ne može pouzdano da povrati značenje koje OCR nikada nije zabeležio.

Korak 5: Prevedite PDF obrađen OCR-om

Kada PDF dobije čist tekstualni sloj, otpremite ga u prevodilac PDF-ova. Korak prevođenja sada može da radi sa tekstom umesto sa slikama stranica.

Nakon prevođenja uporedite:

  • Originalni sken
  • OCR tekstualni sloj
  • Prevedeni PDF

Ovakvo trostruko poređenje pomaže vam da utvrdite da li greška dolazi iz OCR-a ili iz prevođenja. Ako je OCR tekst pogrešan, ponovo pokrenite OCR. Ako je OCR tekst tačan, a prevod pogrešan, ispravite prevod.

Korak 6: Pregledajte sadržaj visokog rizika

Skenirani dokumenti često sadrže upravo onu vrstu sadržaja koja zahteva pažljiv pregled: stare ugovore, državne obrasce, akademske radove, priručnike, istorijske dokumente i stranice knjiga.

Ručno pregledajte sledeće stavke:

  • Imena
  • Datume
  • Brojeve
  • Adrese
  • Šifre proizvoda
  • Pravne reference
  • Citate
  • Oznake u tabelama
  • Jedinice
  • Jednačine
  • Legende
  • Fusnote

Za istraživačke i akademske fajlove pročitajte i vodič o prevođenju akademskih istraživačkih radova, jer skenirani akademski PDF-ovi donose dodatne rizike sa citatima i rasporedom povrh OCR rizika.

Uporedni primeri grešaka

Koristite ovu tabelu dok pregledate OCR rezultat.

Originalni sken verovatno prikazujeLoš OCR rezultatZašto je to važno
modernmodemZnačenje se potpuno menja.
Section 10Section IOPravne ili tehničke reference mogu postati neispravne.
20262O26Datumi i ID-jevi postaju nepouzdani.
patientpatlentMedicinski ili tehnički termini postaju pogrešni.
Dve odvojene koloneJedan spojeni pasusPrevod čita rečenice pogrešnim redosledom.
Red tabele sa oznakama i vrednostimaJedna linija pomešanog tekstaPodaci više ne odgovaraju pravoj oznaci.
Oznaka fusnote 1Slovo lNapomene se mogu vezati za pogrešnu rečenicu.

Ako vidite ove greške u OCR sloju, popravite OCR pre prevođenja.

Koji alat da izaberete?

Birajte prema zahtevnosti dokumenta.

DokumentPreporučeni postupak
Čist poslovni skenOCR u Acrobat-u ili drugom pouzdanom OCR alatu, zatim prevodilac PDF-ova.
Sken stare knjigeIspravite nagib i poboljšajte kontrast, pažljivo uradite OCR, pa prevedite.
Sken akademskog radaOCR, pregled jednačina, citata i tabela, pa prevođenje uz pregled rasporeda.
Rukom pisane beleškeMožda će pre prevođenja biti potrebna ručna transkripcija.
Jednostavan lični dokumentOnline OCR može biti prihvatljiv ako je rizik po privatnost nizak.
Osetljiv dokumentKoristite lokalni OCR ili pouzdan kontrolisan proces.

Ako želite šire poređenje alata, pogledajte vodič za najbolje prevodioce PDF-ova.

Uobičajeni problemi sa skeniranim PDF-ovima

Stranice niske rezolucije

Skenovi niske rezolucije zamućuju slova tako da se spajaju. OCR može pomešati rn i m, cl i d, ili interpunkciju i prašinu.

Rešenje: ponovo skenirajte ako možete. Ako ne možete, povećajte kontrast i pokušajte OCR ponovo.

Iskošene ili zakrivljene stranice

Skenovi knjiga se često zakrivljuju uz hrbat. OCR loše čita zakrivljene linije i može da poremeti redosled teksta.

Rešenje: poravnajte stranicu, ponovo je skenirajte ili koristite OCR alat sa ispravljanjem nagiba i deformacija.

Višekolonski raspored

OCR može spojiti levu i desnu kolonu u jedan tok rečenica.

Rešenje: pregledajte redosled čitanja pre prevođenja. Akademski radovi ovde zahtevaju posebnu pažnju.

Tabele

Tabele su teške jer OCR mora da prepozna i tekst i strukturu. Tabela može vizuelno izgledati ispravno, dok je tekstualni sloj pogrešan.

Rešenje: kopirajte OCR tekst iz tabele i potvrdite da oznake i dalje odgovaraju vrednostima.

Rukopis i potpisi

OCR štampanog teksta je mnogo pouzdaniji od prepoznavanja rukopisa. Rukom pisane beleške na margini, potpisi i popunjeni obrasci mogu biti propušteni ili izobličeni.

Rešenje: ručno prepišite važan rukopis pre prevođenja.

Mešani jezici

OCR najbolje radi kada zna izvorni jezik. Sken koji sadrži engleski, francuski i kineski može da podbaci ako je OCR podešen samo na jedan jezik.

Rešenje: izaberite sve relevantne jezike za OCR ako ih alat podržava, pa proverite svaki jezički deo na nekoliko mesta.

Kontrolna lista za privatnost i bezbednost

Pre nego što bilo gde otpremite skenirani PDF, pitajte se:

  • Da li dokument sadrži lične podatke?
  • Da li uključuje medicinski, pravni, finansijski, akademski ili neobjavljeni materijal?
  • Da li je obuhvaćen ugovorom sa klijentom ili školskim pravilima?
  • Da li je za ovaj dokument dozvoljen online OCR servis?
  • Da li vam je umesto toga potreban lokalni proces?
  • Možete li ukloniti stranice koje ne treba prevoditi?

Skenirani PDF-ovi su često osetljivi jer dolaze iz ugovora, ličnih dokumenata, obrazaca, nacrta istraživanja i internih arhiva. Odluke o otpremanju u OCR tretirajte isto onako pažljivo kao i originalni dokument.

Česta pitanja

Kako da prevedem skenirani PDF?

Prvo pokrenite OCR da napravite tekstualni sloj, pregledajte OCR rezultat, a zatim prevedite PDF obrađen OCR-om u prevodilac PDF-ova. Ne preskačite korak pregleda OCR-a.

Zašto Google Translate nije preveo moj skenirani PDF?

PDF možda sadrži samo slike. Ako nema tekstualni sloj, Google Translate nema tekst koji može da izdvoji. Prvo uradite OCR, pa tek onda prevod. Proces specifičan za Google opisan je u vodiču za PDF u Google Translate-u.

Može li ChatGPT da prevede skenirani PDF?

ChatGPT može pomoći sa pojedinačnim slikama ili izdvojenim tekstom, ali višestrani skenirani PDF i dalje zahteva OCR i pregled. Za kompletan tok rada prvo uradite OCR, pa zatim koristite proces za prevođenje PDF-a.

Koji je najbolji OCR alat za skenirane PDF-ove?

Zavisi od dokumenta. Acrobat i alati u ABBYY stilu korisni su za opšte i složene skenove. Tesseract ili OCRmyPDF korisni su za lokalne tehničke procese. Online OCR može biti sasvim dobar za jednostavne fajlove niskog rizika, ali privatnost i kvalitet variraju.

Može li OCR da sačuva formatiranje?

OCR može da napravi tekstualni sloj i ponekad povrati redosled čitanja, ali to nije isto što i očuvanje originalnog prevedenog rasporeda. Posle OCR-a koristite proces za prevođenje PDF-a i uporedite rezultat sa originalom.

Šta ako je kvalitet OCR-a loš?

Poboljšajte sken pre prevođenja. Ako možete, ponovo skenirajte, ispravite nagib stranica, povećajte kontrast, odsecite suvišan sadržaj, izaberite pravi OCR jezik i ponovo pregledajte zahtevne stranice.