Kaip išversti nuskenuotą PDF: išsamus OCR + vertimo vadovas

Nuskenuotuose PDF failuose yra teksto vaizdai, o ne tikras tekstas — todėl Google Translate juos grąžina nepakeistus. Štai OCR + AI procesas, kuris tai išsprendžia.

BookTranslator Team

Vertimo gairės2026-02-2810 min read

Greitas atsakymas: prieš verčiant nuskenuotam PDF reikia OCR

Norėdami išversti nuskenuotą PDF, pirmiausia paleiskite OCR, kad puslapių vaizdai būtų paversti pažymimu tekstu. Tada išverskite OCR apdorotą PDF naudodami dokumentų vertimo įrankį, pvz., PDF vertėją. Jei praleisite OCR, daugelis vertimo įrankių grąžins pradinį failą nepakeistą, praleis puslapius arba išvers tik tas dalis, kuriose jau yra tekstinis sluoksnis.

Naudokite šią eigą:

Atidarykite PDF ir pabandykite pažymėti sakinį.
Jei negalite pažymėti teksto, paleiskite OCR.
Patikrinkite OCR tekstą prieš versdami.
Įkelkite OCR apdorotą PDF į PDF vertėją.
Palyginkite išverstą rezultatą su originaliu skenu.

Jei jūsų PDF jau turi pažymimą tekstą, o problema yra maketo išsaugojimas, naudokitės vadovu, kaip išversti PDF neprarandant formatavimo.

Kodėl nuskenuoti PDF neveikia vertimo įrankiuose

Nuskenuotas PDF dažnai tėra puslapių vaizdų rinkinys PDF konteineryje. Žmogus puslapyje gali matyti žodžius, tačiau faile gali nebūti tikro teksto, kurį programinė įranga galėtų išgauti.

Tai sukelia paprastą problemą:

File type	What the translator sees	What happens
Tekstinis PDF	Tekstą ir maketo duomenis	Vertimą galima pradėti iš karto.
Tik iš vaizdo sudarytas nuskenuotas PDF	Puslapių vaizdus	Pirmiausia reikia OCR.
PDF su tekstiniu sluoksniu virš vaizdo	Skeno vaizdą ir paslėptą OCR tekstinį sluoksnį	Vertimas gali veikti, bet OCR klaidos mažina kokybę.

Naudingiausias testas nėra techninis:

Atidarykite PDF.
Pabandykite pažymėti atskirus žodžius.
Nukopijuokite sakinį.
Įklijuokite jį į teksto redaktorių.

Jei sakinys įsiklijuoja teisingai, PDF turi tekstinį sluoksnį. Jei neįsiklijuoja niekas arba visas puslapis elgiasi kaip vienas paveikslėlis, PDF reikia OCR.

OCR yra būtinas

OCR reiškia optinį simbolių atpažinimą. Jis nuskaito tekstą iš vaizdo ir sukuria kompiuteriu skaitomą tekstą. Verčiant PDF, OCR paprastai sukuria nematomą tekstinį sluoksnį virš nuskenuoto puslapio.

Tas tekstinis sluoksnis tampa vertimo šaltiniu. Jei OCR padaro klaidų, vertimas tas klaidas perima.

Dažnos OCR klaidos:

OCR mistake	Translation risk
`rn` atpažįstama kaip `m`	Žodžiai pakeičia reikšmę.
`1` atpažįstamas kaip `l`	Skaičiai, nuorodos ar kodai tampa neteisingi.
`O` atpažįstamas kaip `0`	ID, formulės ir pavadinimai gali būti iškraipyti.
Prarandami diakritiniai ženklai	Vardai ir terminai tampa netikslūs.
Sujungiami stulpeliai	Sakiniai verčiami neteisinga tvarka.
Lentelės langeliai neteisingai nuskaitomi eilutėmis	Duomenų žymos nebeatitinka reikšmių.
Išnašos laikomos pagrindiniu tekstu	Citatos ir pastabos atsiduria neteisingame kontekste.

Štai kodėl OCR patikros žingsnis yra svarbus. Neverskite nuskenuoto dokumento, kol nepatikrinote kelių ištraukto teksto vietų.

Eiga: pirmiausia OCR

1 žingsnis: nustatykite PDF tipą

Pabandykite pažymėti tekstą. Jei pažymėti pavyksta, OCR gali neprireikti. Jei pažymėti nepavyksta, laikykite failą vien vaizdu.

Taip pat apžiūrėkite puslapį vizualiai:

Pakrypę puslapiai rodo, kad tai skenas.
Pilkšva popieriaus tekstūra rodo skenavimą.
Šešėliai ties įrišimu rodo fotografuotą knygą.
Netolygus kontrastas rodo kopiją.
Jei paieška neranda matomų žodžių, tikėtina, kad tekstinio sluoksnio nėra.

2 žingsnis: jei įmanoma, pagerinkite skeną

OCR kokybė prasideda nuo vaizdo kokybės. Jei galite nuskenuoti iš naujo, padarykite tai prieš leisdami laiką OCR klaidų taisymui.

Naudokite šį vaizdo kokybės kontrolinį sąrašą:

Skenuokite pakankamai didele raiška, kad būtų aiškiai matomas smulkus tekstas.
Laikykite puslapius lygius ir tiesius.
Venkite šešėlių ties įrišimu.
Iškirpkite stalo kraštus, pirštus ir foninį triukšmą.
Naudokite ryškų kontrastą tarp teksto ir puslapio.
Užtikrinkite, kad visa eilutė būtų matoma.
Naudokite teisingą puslapio orientaciją.
Nesuspauskite vaizdo taip stipriai, kad raidės išsilietų.

Senoms knygoms ir kopijoms didžiausią naudą paprastai duoda puslapio ištiesinimas, kontrasto koregavimas ir iš naujo nuskenuoti nefokusuoti puslapiai.

3 žingsnis: paleiskite OCR

OCR įrankį rinkitės pagal dokumentą, o ne pagal prekės ženklą.

OCR option	Best for	Watch out for
Adobe Acrobat OCR	Įprastiems verslo skenams ir PDF sutvarkymui	Prieš pasikliaudami patikrinkite, ar tai prieinama pagal dabartinį planą.
ABBYY FineReader	Sudėtingiems skenams, lentelėms, stulpeliams ir komplikuotam maketui	Vis tiek reikia rankinės peržiūros.
Tesseract or OCRmyPDF	Vietinėms, techninėms ir pakartojamoms OCR eigoms	Reikia mokėti dirbti su komandine eilute.
Online OCR tools	Retiems, mažos rizikos failams	Skiriasi privatumas, failų limitai ir kokybė.
Phone scanning apps	Greitam naujo skeno sukūrimui	Perspektyvos iškraipymai gali pabloginti OCR.

Privatiems kontraktams, medicininiams įrašams, finansiniams dokumentams, nepublikuotiems rankraščiams ar recenzuojamiems akademiniams darbams rinkitės vietinę OCR eigą arba patikimą aplinką. Neįkelkite jautrių skenų į atsitiktines nemokamas OCR svetaines.

4 žingsnis: patikrinkite OCR tekstą

Tikrinkite prieš vertimą, o ne po jo. Nukopijuokite tekstą iš kelių sudėtingų puslapių ir patikrinkite, ar jis skaitomas.

Pavyzdiniai puslapiai, kuriuos verta apžiūrėti:

Titulinis puslapis.
Tankiai užpildytas pagrindinio teksto puslapis.
Puslapis su lentele.
Puslapis su išnašomis.
Puslapis su smulkiu tekstu.
Puslapis su antspaudais, rankraščiu ar pastabomis paraštėse.
Puslapis kiekviena kalba, jei dokumentas daugiakalbis.

Ieškokite:

Trūkstamų pastraipų.
Sujungtų stulpelių.
Suskaidytų žodžių.
Neteisingų simbolių.
Prarastų diakritinių ženklų.
Nuo reikšmių atskirtų lentelės žymų.
Į pagrindinį tekstą įterptų antraščių.
Į sakinius įmaišytų puslapių numerių.

Jei OCR kokybė prasta, sutvarkykite ją prieš vertimą. Vertėjas negali patikimai atkurti reikšmės, kurios OCR apskritai neužfiksavo.

5 žingsnis: išverskite OCR apdorotą PDF

Kai PDF jau turi švarų tekstinį sluoksnį, įkelkite jį į PDF vertėją. Dabar vertimo etapas gali dirbti su tekstu, o ne su puslapių vaizdais.

Po vertimo palyginkite:

Originalų skeną
OCR tekstinį sluoksnį
Išverstą PDF

Šis trigubas palyginimas padeda nustatyti, ar klaida atsirado OCR, ar vertimo etape. Jei OCR tekstas neteisingas, paleiskite OCR iš naujo. Jei OCR tekstas teisingas, bet vertimas klaidingas, taisykite vertimą.

6 žingsnis: peržiūrėkite didelės rizikos turinį

Nuskenuotuose dokumentuose dažnai būna būtent tas turinys, kurį reikia tikrinti ypač atidžiai: seni kontraktai, valstybinės formos, akademiniai straipsniai, vadovai, istoriniai dokumentai ir knygų puslapiai.

Šiuos elementus peržiūrėkite rankiniu būdu:

Vardus
Datas
Skaičius
Adresus
Produktų kodus
Teisines nuorodas
Citatas
Lentelių žymas
Vienetus
Lygtis
Antraštes
Išnašas

Moksliniams ir akademiniams failams taip pat perskaitykite vadovą apie akademinių mokslinių straipsnių vertimą, nes nuskenuoti akademiniai PDF prie OCR rizikos dar prideda citavimo ir maketo riziką.

Gretutiniai klaidų pavyzdžiai

Naudokite šią lentelę tikrindami OCR rezultatą.

Original scan likely shows	Bad OCR output	Why it matters
`modern`	`modem`	Reikšmė visiškai pasikeičia.
`Section 10`	`Section IO`	Teisinės ar techninės nuorodos gali tapti klaidingos.
`2026`	`2O26`	Datos ir ID tampa nepatikimi.
`patient`	`patlent`	Medicininiai ar techniniai terminai tampa klaidingi.
Du atskiri stulpeliai	Viena sujungta pastraipa	Vertimas skaito sakinius neteisinga tvarka.
Lentelės eilutė su žymomis ir reikšmėmis	Viena eilutė su sumaišytu tekstu	Duomenys nebepriskiriami tinkamai žymai.
Išnašos žymuo `1`	Raidė `l`	Pastabos gali būti priskirtos neteisingam sakiniui.

Jei OCR sluoksnyje matote tokias klaidas, prieš versdami sutvarkykite OCR.

Kurį įrankį rinktis?

Rinkitės pagal dokumento sudėtingumą.

Document	Recommended path
Tvarkingas verslo skenas	OCR su Acrobat ar kitu patikimu OCR įrankiu, tada PDF vertėjas.
Senos knygos skenas	Ištiesinkite puslapį, pagerinkite kontrastą, atidžiai atlikite OCR, tada verskite.
Akademinio straipsnio skenas	Atlikite OCR, peržiūrėkite lygtis, citatas ir lenteles, tada verskite tikrindami maketą.
Ranka rašytos pastabos	Prieš vertimą gali reikėti rankinės transkripcijos.
Paprastas asmeninis dokumentas	Internetinis OCR gali tikti, jei privatumo rizika maža.
Jautrus dokumentas	Naudokite vietinį OCR arba patikimą kontroliuojamą eigą.

Jei norite platesnio įrankių palyginimo, žr. geriausių PDF vertimo įrankių vadovą.

Dažnos nuskenuotų PDF problemos

Žemos raiškos puslapiai

Žemos raiškos skenai sulieja raides. OCR gali supainioti rn ir m, cl ir d, arba skyrybos ženklus ir dulkes.

Sprendimas: jei įmanoma, nuskenuokite iš naujo. Jei ne, padidinkite kontrastą ir dar kartą paleiskite OCR.

Pakrypę arba išlenkti puslapiai

Knygų skenai dažnai išlinksta ties įrišimu. OCR prastai perskaito išlenktas eilutes ir gali sukeisti teksto tvarką.

Sprendimas: ištiesinkite puslapį, nuskenuokite iš naujo arba naudokite OCR įrankį su puslapio ištiesinimo ir išlinkio korekcijos funkcijomis.

Kelių stulpelių maketas

OCR gali sujungti kairįjį ir dešinįjį stulpelius į vieną sakinių srautą.

Sprendimas: prieš vertimą patikrinkite skaitymo tvarką. Akademiniams straipsniams čia reikia ypatingo dėmesio.

Lentelės

Lentelės sudėtingos, nes OCR turi atpažinti ir tekstą, ir struktūrą. Lentelė gali vizualiai atrodyti teisinga, nors tekstinis sluoksnis bus klaidingas.

Sprendimas: nukopijuokite OCR tekstą iš lentelės ir patvirtinkite, kad žymos vis dar atitinka reikšmes.

Rankraštis ir parašai

Spausdinto teksto OCR yra gerokai patikimesnis nei rankraščio atpažinimas. Paraštėse rašytos pastabos, parašai ir užpildytos formos gali būti praleistos arba iškraipytos.

Sprendimas: prieš vertimą ranka perrašykite svarbiausią rankraštinį tekstą.

Mišrios kalbos

OCR geriausiai veikia tada, kai žino šaltinio kalbą. Skenas su anglų, prancūzų ir kinų kalbomis gali nepavykti, jei OCR nustatyta tik viena kalba.

Sprendimas: jei įrankis tai palaiko, pasirinkite visas reikalingas OCR kalbas, tada patikrinkite kiekvienos kalbos skyrių.

Privatumo ir saugumo kontrolinis sąrašas

Prieš bet kur įkeldami nuskenuotą PDF, paklauskite savęs:

Ar dokumente yra asmens duomenų?
Ar jame yra medicininės, teisinės, finansinės, akademinės ar neskelbtos medžiagos?
Ar jam taikoma kliento sutartis arba mokyklos politika?
Ar šiam dokumentui leidžiama naudoti internetinę OCR paslaugą?
Gal vietoje to reikia vietinės eigos?
Ar galite pašalinti puslapius, kurių versti nereikia?

Nuskenuoti PDF dažnai būna jautrūs, nes jie gaunami iš kontraktų, tapatybės dokumentų, formų, tyrimų juodraščių ir vidinių archyvų. Sprendimus dėl OCR įkėlimo vertinkite taip pat, kaip vertintumėte originalų dokumentą.

DUK

Kaip išversti nuskenuotą PDF?

Pirmiausia paleiskite OCR, kad sukurtumėte tekstinį sluoksnį, patikrinkite OCR rezultatą, o tada išverskite OCR apdorotą PDF naudodami PDF vertėją. Nepraleiskite OCR patikros žingsnio.

Kodėl Google Translate neišvertė mano nuskenuoto PDF?

PDF gali būti sudarytas tik iš vaizdo. Jei nėra tekstinio sluoksnio, Google Translate neturi teksto, kurį galėtų išgauti. Pirmiausia naudokite OCR, tada verskite. Su Google susijusi eiga aprašyta Google Translate PDF vadove.

Ar ChatGPT gali išversti nuskenuotą PDF?

ChatGPT gali padėti su atskirais vaizdais ar ištrauktu tekstu, tačiau kelių puslapių nuskenuotam PDF vis tiek reikia OCR ir peržiūros. Pilnai dokumento eigai pirmiausia atlikite OCR, tada naudokite PDF vertimo eigą.

Koks geriausias OCR įrankis nuskenuotiems PDF?

Tai priklauso nuo dokumento. Acrobat ir ABBYY tipo įrankiai naudingi tiek įprastiems, tiek sudėtingiems skenams. Tesseract ar OCRmyPDF naudingi vietinėms techninėms eigoms. Internetinis OCR gali tikti paprastiems, mažos rizikos failams, tačiau privatumas ir kokybė skiriasi.

Ar OCR gali išsaugoti formatavimą?

OCR gali sukurti tekstinį sluoksnį ir kartais atkurti skaitymo tvarką, bet tai nėra tas pats, kas po vertimo išsaugoti originalų maketą. Po OCR naudokite PDF vertimo eigą ir palyginkite rezultatą su originalu.

Ką daryti, jei OCR kokybė prasta?

Prieš versdami pagerinkite skeną. Jei įmanoma, nuskenuokite iš naujo, ištiesinkite puslapius, padidinkite kontrastą, iškirpkite nereikalingą foną, pasirinkite teisingą OCR kalbą ir dar kartą peržiūrėkite sudėtingus puslapius.

Susiję įrašai

Vertimo gairės

Kaip išversti PDF neprarandant formatavimo (2026 m. vadovas)

2026-03-2011 min read

Patarimai ir ištekliai

Geriausi PDF vertimo įrankiai 2026 m.: sąžiningas palyginimas

2026-02-2813 min read

Naudojimo atvejai

Kaip versti akademinius mokslinius straipsnius: išsaugant lygtis, citatas ir formatavimą

2026-02-2810 min read

Vertimo gairės

Kaip naudoti Google Translate PDF failams: išsamus vadovas (2026)

2026-03-208 min read