Kaip išversti nuskenuotą PDF: išsamus OCR + vertimo vadovas
Nuskenuotuose PDF failuose yra teksto vaizdai, o ne tikras tekstas — todėl Google Translate juos grąžina nepakeistus. Štai OCR + AI procesas, kuris tai išsprendžia.
Greitas atsakymas: prieš verčiant nuskenuotam PDF reikia OCR
Norėdami išversti nuskenuotą PDF, pirmiausia paleiskite OCR, kad puslapių vaizdai būtų paversti pažymimu tekstu. Tada išverskite OCR apdorotą PDF naudodami dokumentų vertimo įrankį, pvz., PDF vertėją. Jei praleisite OCR, daugelis vertimo įrankių grąžins pradinį failą nepakeistą, praleis puslapius arba išvers tik tas dalis, kuriose jau yra tekstinis sluoksnis.
Naudokite šią eigą:
- Atidarykite PDF ir pabandykite pažymėti sakinį.
- Jei negalite pažymėti teksto, paleiskite OCR.
- Patikrinkite OCR tekstą prieš versdami.
- Įkelkite OCR apdorotą PDF į PDF vertėją.
- Palyginkite išverstą rezultatą su originaliu skenu.
Jei jūsų PDF jau turi pažymimą tekstą, o problema yra maketo išsaugojimas, naudokitės vadovu, kaip išversti PDF neprarandant formatavimo.
Kodėl nuskenuoti PDF neveikia vertimo įrankiuose
Nuskenuotas PDF dažnai tėra puslapių vaizdų rinkinys PDF konteineryje. Žmogus puslapyje gali matyti žodžius, tačiau faile gali nebūti tikro teksto, kurį programinė įranga galėtų išgauti.
Tai sukelia paprastą problemą:
| File type | What the translator sees | What happens |
|---|---|---|
| Tekstinis PDF | Tekstą ir maketo duomenis | Vertimą galima pradėti iš karto. |
| Tik iš vaizdo sudarytas nuskenuotas PDF | Puslapių vaizdus | Pirmiausia reikia OCR. |
| PDF su tekstiniu sluoksniu virš vaizdo | Skeno vaizdą ir paslėptą OCR tekstinį sluoksnį | Vertimas gali veikti, bet OCR klaidos mažina kokybę. |
Naudingiausias testas nėra techninis:
- Atidarykite PDF.
- Pabandykite pažymėti atskirus žodžius.
- Nukopijuokite sakinį.
- Įklijuokite jį į teksto redaktorių.
Jei sakinys įsiklijuoja teisingai, PDF turi tekstinį sluoksnį. Jei neįsiklijuoja niekas arba visas puslapis elgiasi kaip vienas paveikslėlis, PDF reikia OCR.
OCR yra būtinas
OCR reiškia optinį simbolių atpažinimą. Jis nuskaito tekstą iš vaizdo ir sukuria kompiuteriu skaitomą tekstą. Verčiant PDF, OCR paprastai sukuria nematomą tekstinį sluoksnį virš nuskenuoto puslapio.
Tas tekstinis sluoksnis tampa vertimo šaltiniu. Jei OCR padaro klaidų, vertimas tas klaidas perima.
Dažnos OCR klaidos:
| OCR mistake | Translation risk |
|---|---|
rn atpažįstama kaip m | Žodžiai pakeičia reikšmę. |
1 atpažįstamas kaip l | Skaičiai, nuorodos ar kodai tampa neteisingi. |
O atpažįstamas kaip 0 | ID, formulės ir pavadinimai gali būti iškraipyti. |
| Prarandami diakritiniai ženklai | Vardai ir terminai tampa netikslūs. |
| Sujungiami stulpeliai | Sakiniai verčiami neteisinga tvarka. |
| Lentelės langeliai neteisingai nuskaitomi eilutėmis | Duomenų žymos nebeatitinka reikšmių. |
| Išnašos laikomos pagrindiniu tekstu | Citatos ir pastabos atsiduria neteisingame kontekste. |
Štai kodėl OCR patikros žingsnis yra svarbus. Neverskite nuskenuoto dokumento, kol nepatikrinote kelių ištraukto teksto vietų.
Eiga: pirmiausia OCR
1 žingsnis: nustatykite PDF tipą
Pabandykite pažymėti tekstą. Jei pažymėti pavyksta, OCR gali neprireikti. Jei pažymėti nepavyksta, laikykite failą vien vaizdu.
Taip pat apžiūrėkite puslapį vizualiai:
- Pakrypę puslapiai rodo, kad tai skenas.
- Pilkšva popieriaus tekstūra rodo skenavimą.
- Šešėliai ties įrišimu rodo fotografuotą knygą.
- Netolygus kontrastas rodo kopiją.
- Jei paieška neranda matomų žodžių, tikėtina, kad tekstinio sluoksnio nėra.
2 žingsnis: jei įmanoma, pagerinkite skeną
OCR kokybė prasideda nuo vaizdo kokybės. Jei galite nuskenuoti iš naujo, padarykite tai prieš leisdami laiką OCR klaidų taisymui.
Naudokite šį vaizdo kokybės kontrolinį sąrašą:
- Skenuokite pakankamai didele raiška, kad būtų aiškiai matomas smulkus tekstas.
- Laikykite puslapius lygius ir tiesius.
- Venkite šešėlių ties įrišimu.
- Iškirpkite stalo kraštus, pirštus ir foninį triukšmą.
- Naudokite ryškų kontrastą tarp teksto ir puslapio.
- Užtikrinkite, kad visa eilutė būtų matoma.
- Naudokite teisingą puslapio orientaciją.
- Nesuspauskite vaizdo taip stipriai, kad raidės išsilietų.
Senoms knygoms ir kopijoms didžiausią naudą paprastai duoda puslapio ištiesinimas, kontrasto koregavimas ir iš naujo nuskenuoti nefokusuoti puslapiai.
3 žingsnis: paleiskite OCR
OCR įrankį rinkitės pagal dokumentą, o ne pagal prekės ženklą.
| OCR option | Best for | Watch out for |
|---|---|---|
| Adobe Acrobat OCR | Įprastiems verslo skenams ir PDF sutvarkymui | Prieš pasikliaudami patikrinkite, ar tai prieinama pagal dabartinį planą. |
| ABBYY FineReader | Sudėtingiems skenams, lentelėms, stulpeliams ir komplikuotam maketui | Vis tiek reikia rankinės peržiūros. |
| Tesseract or OCRmyPDF | Vietinėms, techninėms ir pakartojamoms OCR eigoms | Reikia mokėti dirbti su komandine eilute. |
| Online OCR tools | Retiems, mažos rizikos failams | Skiriasi privatumas, failų limitai ir kokybė. |
| Phone scanning apps | Greitam naujo skeno sukūrimui | Perspektyvos iškraipymai gali pabloginti OCR. |
Privatiems kontraktams, medicininiams įrašams, finansiniams dokumentams, nepublikuotiems rankraščiams ar recenzuojamiems akademiniams darbams rinkitės vietinę OCR eigą arba patikimą aplinką. Neįkelkite jautrių skenų į atsitiktines nemokamas OCR svetaines.
4 žingsnis: patikrinkite OCR tekstą
Tikrinkite prieš vertimą, o ne po jo. Nukopijuokite tekstą iš kelių sudėtingų puslapių ir patikrinkite, ar jis skaitomas.
Pavyzdiniai puslapiai, kuriuos verta apžiūrėti:
- Titulinis puslapis.
- Tankiai užpildytas pagrindinio teksto puslapis.
- Puslapis su lentele.
- Puslapis su išnašomis.
- Puslapis su smulkiu tekstu.
- Puslapis su antspaudais, rankraščiu ar pastabomis paraštėse.
- Puslapis kiekviena kalba, jei dokumentas daugiakalbis.
Ieškokite:
- Trūkstamų pastraipų.
- Sujungtų stulpelių.
- Suskaidytų žodžių.
- Neteisingų simbolių.
- Prarastų diakritinių ženklų.
- Nuo reikšmių atskirtų lentelės žymų.
- Į pagrindinį tekstą įterptų antraščių.
- Į sakinius įmaišytų puslapių numerių.
Jei OCR kokybė prasta, sutvarkykite ją prieš vertimą. Vertėjas negali patikimai atkurti reikšmės, kurios OCR apskritai neužfiksavo.
5 žingsnis: išverskite OCR apdorotą PDF
Kai PDF jau turi švarų tekstinį sluoksnį, įkelkite jį į PDF vertėją. Dabar vertimo etapas gali dirbti su tekstu, o ne su puslapių vaizdais.
Po vertimo palyginkite:
- Originalų skeną
- OCR tekstinį sluoksnį
- Išverstą PDF
Šis trigubas palyginimas padeda nustatyti, ar klaida atsirado OCR, ar vertimo etape. Jei OCR tekstas neteisingas, paleiskite OCR iš naujo. Jei OCR tekstas teisingas, bet vertimas klaidingas, taisykite vertimą.
6 žingsnis: peržiūrėkite didelės rizikos turinį
Nuskenuotuose dokumentuose dažnai būna būtent tas turinys, kurį reikia tikrinti ypač atidžiai: seni kontraktai, valstybinės formos, akademiniai straipsniai, vadovai, istoriniai dokumentai ir knygų puslapiai.
Šiuos elementus peržiūrėkite rankiniu būdu:
- Vardus
- Datas
- Skaičius
- Adresus
- Produktų kodus
- Teisines nuorodas
- Citatas
- Lentelių žymas
- Vienetus
- Lygtis
- Antraštes
- Išnašas
Moksliniams ir akademiniams failams taip pat perskaitykite vadovą apie akademinių mokslinių straipsnių vertimą, nes nuskenuoti akademiniai PDF prie OCR rizikos dar prideda citavimo ir maketo riziką.
Gretutiniai klaidų pavyzdžiai
Naudokite šią lentelę tikrindami OCR rezultatą.
| Original scan likely shows | Bad OCR output | Why it matters |
|---|---|---|
modern | modem | Reikšmė visiškai pasikeičia. |
Section 10 | Section IO | Teisinės ar techninės nuorodos gali tapti klaidingos. |
2026 | 2O26 | Datos ir ID tampa nepatikimi. |
patient | patlent | Medicininiai ar techniniai terminai tampa klaidingi. |
| Du atskiri stulpeliai | Viena sujungta pastraipa | Vertimas skaito sakinius neteisinga tvarka. |
| Lentelės eilutė su žymomis ir reikšmėmis | Viena eilutė su sumaišytu tekstu | Duomenys nebepriskiriami tinkamai žymai. |
Išnašos žymuo 1 | Raidė l | Pastabos gali būti priskirtos neteisingam sakiniui. |
Jei OCR sluoksnyje matote tokias klaidas, prieš versdami sutvarkykite OCR.
Kurį įrankį rinktis?
Rinkitės pagal dokumento sudėtingumą.
| Document | Recommended path |
|---|---|
| Tvarkingas verslo skenas | OCR su Acrobat ar kitu patikimu OCR įrankiu, tada PDF vertėjas. |
| Senos knygos skenas | Ištiesinkite puslapį, pagerinkite kontrastą, atidžiai atlikite OCR, tada verskite. |
| Akademinio straipsnio skenas | Atlikite OCR, peržiūrėkite lygtis, citatas ir lenteles, tada verskite tikrindami maketą. |
| Ranka rašytos pastabos | Prieš vertimą gali reikėti rankinės transkripcijos. |
| Paprastas asmeninis dokumentas | Internetinis OCR gali tikti, jei privatumo rizika maža. |
| Jautrus dokumentas | Naudokite vietinį OCR arba patikimą kontroliuojamą eigą. |
Jei norite platesnio įrankių palyginimo, žr. geriausių PDF vertimo įrankių vadovą.
Dažnos nuskenuotų PDF problemos
Žemos raiškos puslapiai
Žemos raiškos skenai sulieja raides. OCR gali supainioti rn ir m, cl ir d, arba skyrybos ženklus ir dulkes.
Sprendimas: jei įmanoma, nuskenuokite iš naujo. Jei ne, padidinkite kontrastą ir dar kartą paleiskite OCR.
Pakrypę arba išlenkti puslapiai
Knygų skenai dažnai išlinksta ties įrišimu. OCR prastai perskaito išlenktas eilutes ir gali sukeisti teksto tvarką.
Sprendimas: ištiesinkite puslapį, nuskenuokite iš naujo arba naudokite OCR įrankį su puslapio ištiesinimo ir išlinkio korekcijos funkcijomis.
Kelių stulpelių maketas
OCR gali sujungti kairįjį ir dešinįjį stulpelius į vieną sakinių srautą.
Sprendimas: prieš vertimą patikrinkite skaitymo tvarką. Akademiniams straipsniams čia reikia ypatingo dėmesio.
Lentelės
Lentelės sudėtingos, nes OCR turi atpažinti ir tekstą, ir struktūrą. Lentelė gali vizualiai atrodyti teisinga, nors tekstinis sluoksnis bus klaidingas.
Sprendimas: nukopijuokite OCR tekstą iš lentelės ir patvirtinkite, kad žymos vis dar atitinka reikšmes.
Rankraštis ir parašai
Spausdinto teksto OCR yra gerokai patikimesnis nei rankraščio atpažinimas. Paraštėse rašytos pastabos, parašai ir užpildytos formos gali būti praleistos arba iškraipytos.
Sprendimas: prieš vertimą ranka perrašykite svarbiausią rankraštinį tekstą.
Mišrios kalbos
OCR geriausiai veikia tada, kai žino šaltinio kalbą. Skenas su anglų, prancūzų ir kinų kalbomis gali nepavykti, jei OCR nustatyta tik viena kalba.
Sprendimas: jei įrankis tai palaiko, pasirinkite visas reikalingas OCR kalbas, tada patikrinkite kiekvienos kalbos skyrių.
Privatumo ir saugumo kontrolinis sąrašas
Prieš bet kur įkeldami nuskenuotą PDF, paklauskite savęs:
- Ar dokumente yra asmens duomenų?
- Ar jame yra medicininės, teisinės, finansinės, akademinės ar neskelbtos medžiagos?
- Ar jam taikoma kliento sutartis arba mokyklos politika?
- Ar šiam dokumentui leidžiama naudoti internetinę OCR paslaugą?
- Gal vietoje to reikia vietinės eigos?
- Ar galite pašalinti puslapius, kurių versti nereikia?
Nuskenuoti PDF dažnai būna jautrūs, nes jie gaunami iš kontraktų, tapatybės dokumentų, formų, tyrimų juodraščių ir vidinių archyvų. Sprendimus dėl OCR įkėlimo vertinkite taip pat, kaip vertintumėte originalų dokumentą.
DUK
Kaip išversti nuskenuotą PDF?
Pirmiausia paleiskite OCR, kad sukurtumėte tekstinį sluoksnį, patikrinkite OCR rezultatą, o tada išverskite OCR apdorotą PDF naudodami PDF vertėją. Nepraleiskite OCR patikros žingsnio.
Kodėl Google Translate neišvertė mano nuskenuoto PDF?
PDF gali būti sudarytas tik iš vaizdo. Jei nėra tekstinio sluoksnio, Google Translate neturi teksto, kurį galėtų išgauti. Pirmiausia naudokite OCR, tada verskite. Su Google susijusi eiga aprašyta Google Translate PDF vadove.
Ar ChatGPT gali išversti nuskenuotą PDF?
ChatGPT gali padėti su atskirais vaizdais ar ištrauktu tekstu, tačiau kelių puslapių nuskenuotam PDF vis tiek reikia OCR ir peržiūros. Pilnai dokumento eigai pirmiausia atlikite OCR, tada naudokite PDF vertimo eigą.
Koks geriausias OCR įrankis nuskenuotiems PDF?
Tai priklauso nuo dokumento. Acrobat ir ABBYY tipo įrankiai naudingi tiek įprastiems, tiek sudėtingiems skenams. Tesseract ar OCRmyPDF naudingi vietinėms techninėms eigoms. Internetinis OCR gali tikti paprastiems, mažos rizikos failams, tačiau privatumas ir kokybė skiriasi.
Ar OCR gali išsaugoti formatavimą?
OCR gali sukurti tekstinį sluoksnį ir kartais atkurti skaitymo tvarką, bet tai nėra tas pats, kas po vertimo išsaugoti originalų maketą. Po OCR naudokite PDF vertimo eigą ir palyginkite rezultatą su originalu.
Ką daryti, jei OCR kokybė prasta?
Prieš versdami pagerinkite skeną. Jei įmanoma, nuskenuokite iš naujo, ištiesinkite puslapius, padidinkite kontrastą, iškirpkite nereikalingą foną, pasirinkite teisingą OCR kalbą ir dar kartą peržiūrėkite sudėtingus puslapius.