BookTranslator
BookTranslator

Kaip išversti nuskenuotą PDF: išsamus OCR + vertimo vadovas

Nuskenuotuose PDF failuose yra teksto vaizdai, o ne tikras tekstas — todėl Google Translate juos grąžina nepakeistus. Štai OCR + AI procesas, kuris tai išsprendžia.

BookTranslator

BookTranslator Team

Vertimo gairės10 min read

Greitas atsakymas: prieš verčiant nuskenuotam PDF reikia OCR

Norėdami išversti nuskenuotą PDF, pirmiausia paleiskite OCR, kad puslapių vaizdai būtų paversti pažymimu tekstu. Tada išverskite OCR apdorotą PDF naudodami dokumentų vertimo įrankį, pvz., PDF vertėją. Jei praleisite OCR, daugelis vertimo įrankių grąžins pradinį failą nepakeistą, praleis puslapius arba išvers tik tas dalis, kuriose jau yra tekstinis sluoksnis.

Naudokite šią eigą:

  1. Atidarykite PDF ir pabandykite pažymėti sakinį.
  2. Jei negalite pažymėti teksto, paleiskite OCR.
  3. Patikrinkite OCR tekstą prieš versdami.
  4. Įkelkite OCR apdorotą PDF į PDF vertėją.
  5. Palyginkite išverstą rezultatą su originaliu skenu.

Jei jūsų PDF jau turi pažymimą tekstą, o problema yra maketo išsaugojimas, naudokitės vadovu, kaip išversti PDF neprarandant formatavimo.

Kodėl nuskenuoti PDF neveikia vertimo įrankiuose

Nuskenuotas PDF dažnai tėra puslapių vaizdų rinkinys PDF konteineryje. Žmogus puslapyje gali matyti žodžius, tačiau faile gali nebūti tikro teksto, kurį programinė įranga galėtų išgauti.

Tai sukelia paprastą problemą:

File typeWhat the translator seesWhat happens
Tekstinis PDFTekstą ir maketo duomenisVertimą galima pradėti iš karto.
Tik iš vaizdo sudarytas nuskenuotas PDFPuslapių vaizdusPirmiausia reikia OCR.
PDF su tekstiniu sluoksniu virš vaizdoSkeno vaizdą ir paslėptą OCR tekstinį sluoksnįVertimas gali veikti, bet OCR klaidos mažina kokybę.

Naudingiausias testas nėra techninis:

  1. Atidarykite PDF.
  2. Pabandykite pažymėti atskirus žodžius.
  3. Nukopijuokite sakinį.
  4. Įklijuokite jį į teksto redaktorių.

Jei sakinys įsiklijuoja teisingai, PDF turi tekstinį sluoksnį. Jei neįsiklijuoja niekas arba visas puslapis elgiasi kaip vienas paveikslėlis, PDF reikia OCR.

OCR yra būtinas

OCR reiškia optinį simbolių atpažinimą. Jis nuskaito tekstą iš vaizdo ir sukuria kompiuteriu skaitomą tekstą. Verčiant PDF, OCR paprastai sukuria nematomą tekstinį sluoksnį virš nuskenuoto puslapio.

Tas tekstinis sluoksnis tampa vertimo šaltiniu. Jei OCR padaro klaidų, vertimas tas klaidas perima.

Dažnos OCR klaidos:

OCR mistakeTranslation risk
rn atpažįstama kaip mŽodžiai pakeičia reikšmę.
1 atpažįstamas kaip lSkaičiai, nuorodos ar kodai tampa neteisingi.
O atpažįstamas kaip 0ID, formulės ir pavadinimai gali būti iškraipyti.
Prarandami diakritiniai ženklaiVardai ir terminai tampa netikslūs.
Sujungiami stulpeliaiSakiniai verčiami neteisinga tvarka.
Lentelės langeliai neteisingai nuskaitomi eilutėmisDuomenų žymos nebeatitinka reikšmių.
Išnašos laikomos pagrindiniu tekstuCitatos ir pastabos atsiduria neteisingame kontekste.

Štai kodėl OCR patikros žingsnis yra svarbus. Neverskite nuskenuoto dokumento, kol nepatikrinote kelių ištraukto teksto vietų.

Eiga: pirmiausia OCR

1 žingsnis: nustatykite PDF tipą

Pabandykite pažymėti tekstą. Jei pažymėti pavyksta, OCR gali neprireikti. Jei pažymėti nepavyksta, laikykite failą vien vaizdu.

Taip pat apžiūrėkite puslapį vizualiai:

  • Pakrypę puslapiai rodo, kad tai skenas.
  • Pilkšva popieriaus tekstūra rodo skenavimą.
  • Šešėliai ties įrišimu rodo fotografuotą knygą.
  • Netolygus kontrastas rodo kopiją.
  • Jei paieška neranda matomų žodžių, tikėtina, kad tekstinio sluoksnio nėra.

2 žingsnis: jei įmanoma, pagerinkite skeną

OCR kokybė prasideda nuo vaizdo kokybės. Jei galite nuskenuoti iš naujo, padarykite tai prieš leisdami laiką OCR klaidų taisymui.

Naudokite šį vaizdo kokybės kontrolinį sąrašą:

  • Skenuokite pakankamai didele raiška, kad būtų aiškiai matomas smulkus tekstas.
  • Laikykite puslapius lygius ir tiesius.
  • Venkite šešėlių ties įrišimu.
  • Iškirpkite stalo kraštus, pirštus ir foninį triukšmą.
  • Naudokite ryškų kontrastą tarp teksto ir puslapio.
  • Užtikrinkite, kad visa eilutė būtų matoma.
  • Naudokite teisingą puslapio orientaciją.
  • Nesuspauskite vaizdo taip stipriai, kad raidės išsilietų.

Senoms knygoms ir kopijoms didžiausią naudą paprastai duoda puslapio ištiesinimas, kontrasto koregavimas ir iš naujo nuskenuoti nefokusuoti puslapiai.

3 žingsnis: paleiskite OCR

OCR įrankį rinkitės pagal dokumentą, o ne pagal prekės ženklą.

OCR optionBest forWatch out for
Adobe Acrobat OCRĮprastiems verslo skenams ir PDF sutvarkymuiPrieš pasikliaudami patikrinkite, ar tai prieinama pagal dabartinį planą.
ABBYY FineReaderSudėtingiems skenams, lentelėms, stulpeliams ir komplikuotam maketuiVis tiek reikia rankinės peržiūros.
Tesseract or OCRmyPDFVietinėms, techninėms ir pakartojamoms OCR eigomsReikia mokėti dirbti su komandine eilute.
Online OCR toolsRetiems, mažos rizikos failamsSkiriasi privatumas, failų limitai ir kokybė.
Phone scanning appsGreitam naujo skeno sukūrimuiPerspektyvos iškraipymai gali pabloginti OCR.

Privatiems kontraktams, medicininiams įrašams, finansiniams dokumentams, nepublikuotiems rankraščiams ar recenzuojamiems akademiniams darbams rinkitės vietinę OCR eigą arba patikimą aplinką. Neįkelkite jautrių skenų į atsitiktines nemokamas OCR svetaines.

4 žingsnis: patikrinkite OCR tekstą

Tikrinkite prieš vertimą, o ne po jo. Nukopijuokite tekstą iš kelių sudėtingų puslapių ir patikrinkite, ar jis skaitomas.

Pavyzdiniai puslapiai, kuriuos verta apžiūrėti:

  • Titulinis puslapis.
  • Tankiai užpildytas pagrindinio teksto puslapis.
  • Puslapis su lentele.
  • Puslapis su išnašomis.
  • Puslapis su smulkiu tekstu.
  • Puslapis su antspaudais, rankraščiu ar pastabomis paraštėse.
  • Puslapis kiekviena kalba, jei dokumentas daugiakalbis.

Ieškokite:

  • Trūkstamų pastraipų.
  • Sujungtų stulpelių.
  • Suskaidytų žodžių.
  • Neteisingų simbolių.
  • Prarastų diakritinių ženklų.
  • Nuo reikšmių atskirtų lentelės žymų.
  • Į pagrindinį tekstą įterptų antraščių.
  • Į sakinius įmaišytų puslapių numerių.

Jei OCR kokybė prasta, sutvarkykite ją prieš vertimą. Vertėjas negali patikimai atkurti reikšmės, kurios OCR apskritai neužfiksavo.

5 žingsnis: išverskite OCR apdorotą PDF

Kai PDF jau turi švarų tekstinį sluoksnį, įkelkite jį į PDF vertėją. Dabar vertimo etapas gali dirbti su tekstu, o ne su puslapių vaizdais.

Po vertimo palyginkite:

  • Originalų skeną
  • OCR tekstinį sluoksnį
  • Išverstą PDF

Šis trigubas palyginimas padeda nustatyti, ar klaida atsirado OCR, ar vertimo etape. Jei OCR tekstas neteisingas, paleiskite OCR iš naujo. Jei OCR tekstas teisingas, bet vertimas klaidingas, taisykite vertimą.

6 žingsnis: peržiūrėkite didelės rizikos turinį

Nuskenuotuose dokumentuose dažnai būna būtent tas turinys, kurį reikia tikrinti ypač atidžiai: seni kontraktai, valstybinės formos, akademiniai straipsniai, vadovai, istoriniai dokumentai ir knygų puslapiai.

Šiuos elementus peržiūrėkite rankiniu būdu:

  • Vardus
  • Datas
  • Skaičius
  • Adresus
  • Produktų kodus
  • Teisines nuorodas
  • Citatas
  • Lentelių žymas
  • Vienetus
  • Lygtis
  • Antraštes
  • Išnašas

Moksliniams ir akademiniams failams taip pat perskaitykite vadovą apie akademinių mokslinių straipsnių vertimą, nes nuskenuoti akademiniai PDF prie OCR rizikos dar prideda citavimo ir maketo riziką.

Gretutiniai klaidų pavyzdžiai

Naudokite šią lentelę tikrindami OCR rezultatą.

Original scan likely showsBad OCR outputWhy it matters
modernmodemReikšmė visiškai pasikeičia.
Section 10Section IOTeisinės ar techninės nuorodos gali tapti klaidingos.
20262O26Datos ir ID tampa nepatikimi.
patientpatlentMedicininiai ar techniniai terminai tampa klaidingi.
Du atskiri stulpeliaiViena sujungta pastraipaVertimas skaito sakinius neteisinga tvarka.
Lentelės eilutė su žymomis ir reikšmėmisViena eilutė su sumaišytu tekstuDuomenys nebepriskiriami tinkamai žymai.
Išnašos žymuo 1Raidė lPastabos gali būti priskirtos neteisingam sakiniui.

Jei OCR sluoksnyje matote tokias klaidas, prieš versdami sutvarkykite OCR.

Kurį įrankį rinktis?

Rinkitės pagal dokumento sudėtingumą.

DocumentRecommended path
Tvarkingas verslo skenasOCR su Acrobat ar kitu patikimu OCR įrankiu, tada PDF vertėjas.
Senos knygos skenasIštiesinkite puslapį, pagerinkite kontrastą, atidžiai atlikite OCR, tada verskite.
Akademinio straipsnio skenasAtlikite OCR, peržiūrėkite lygtis, citatas ir lenteles, tada verskite tikrindami maketą.
Ranka rašytos pastabosPrieš vertimą gali reikėti rankinės transkripcijos.
Paprastas asmeninis dokumentasInternetinis OCR gali tikti, jei privatumo rizika maža.
Jautrus dokumentasNaudokite vietinį OCR arba patikimą kontroliuojamą eigą.

Jei norite platesnio įrankių palyginimo, žr. geriausių PDF vertimo įrankių vadovą.

Dažnos nuskenuotų PDF problemos

Žemos raiškos puslapiai

Žemos raiškos skenai sulieja raides. OCR gali supainioti rn ir m, cl ir d, arba skyrybos ženklus ir dulkes.

Sprendimas: jei įmanoma, nuskenuokite iš naujo. Jei ne, padidinkite kontrastą ir dar kartą paleiskite OCR.

Pakrypę arba išlenkti puslapiai

Knygų skenai dažnai išlinksta ties įrišimu. OCR prastai perskaito išlenktas eilutes ir gali sukeisti teksto tvarką.

Sprendimas: ištiesinkite puslapį, nuskenuokite iš naujo arba naudokite OCR įrankį su puslapio ištiesinimo ir išlinkio korekcijos funkcijomis.

Kelių stulpelių maketas

OCR gali sujungti kairįjį ir dešinįjį stulpelius į vieną sakinių srautą.

Sprendimas: prieš vertimą patikrinkite skaitymo tvarką. Akademiniams straipsniams čia reikia ypatingo dėmesio.

Lentelės

Lentelės sudėtingos, nes OCR turi atpažinti ir tekstą, ir struktūrą. Lentelė gali vizualiai atrodyti teisinga, nors tekstinis sluoksnis bus klaidingas.

Sprendimas: nukopijuokite OCR tekstą iš lentelės ir patvirtinkite, kad žymos vis dar atitinka reikšmes.

Rankraštis ir parašai

Spausdinto teksto OCR yra gerokai patikimesnis nei rankraščio atpažinimas. Paraštėse rašytos pastabos, parašai ir užpildytos formos gali būti praleistos arba iškraipytos.

Sprendimas: prieš vertimą ranka perrašykite svarbiausią rankraštinį tekstą.

Mišrios kalbos

OCR geriausiai veikia tada, kai žino šaltinio kalbą. Skenas su anglų, prancūzų ir kinų kalbomis gali nepavykti, jei OCR nustatyta tik viena kalba.

Sprendimas: jei įrankis tai palaiko, pasirinkite visas reikalingas OCR kalbas, tada patikrinkite kiekvienos kalbos skyrių.

Privatumo ir saugumo kontrolinis sąrašas

Prieš bet kur įkeldami nuskenuotą PDF, paklauskite savęs:

  • Ar dokumente yra asmens duomenų?
  • Ar jame yra medicininės, teisinės, finansinės, akademinės ar neskelbtos medžiagos?
  • Ar jam taikoma kliento sutartis arba mokyklos politika?
  • Ar šiam dokumentui leidžiama naudoti internetinę OCR paslaugą?
  • Gal vietoje to reikia vietinės eigos?
  • Ar galite pašalinti puslapius, kurių versti nereikia?

Nuskenuoti PDF dažnai būna jautrūs, nes jie gaunami iš kontraktų, tapatybės dokumentų, formų, tyrimų juodraščių ir vidinių archyvų. Sprendimus dėl OCR įkėlimo vertinkite taip pat, kaip vertintumėte originalų dokumentą.

DUK

Kaip išversti nuskenuotą PDF?

Pirmiausia paleiskite OCR, kad sukurtumėte tekstinį sluoksnį, patikrinkite OCR rezultatą, o tada išverskite OCR apdorotą PDF naudodami PDF vertėją. Nepraleiskite OCR patikros žingsnio.

Kodėl Google Translate neišvertė mano nuskenuoto PDF?

PDF gali būti sudarytas tik iš vaizdo. Jei nėra tekstinio sluoksnio, Google Translate neturi teksto, kurį galėtų išgauti. Pirmiausia naudokite OCR, tada verskite. Su Google susijusi eiga aprašyta Google Translate PDF vadove.

Ar ChatGPT gali išversti nuskenuotą PDF?

ChatGPT gali padėti su atskirais vaizdais ar ištrauktu tekstu, tačiau kelių puslapių nuskenuotam PDF vis tiek reikia OCR ir peržiūros. Pilnai dokumento eigai pirmiausia atlikite OCR, tada naudokite PDF vertimo eigą.

Koks geriausias OCR įrankis nuskenuotiems PDF?

Tai priklauso nuo dokumento. Acrobat ir ABBYY tipo įrankiai naudingi tiek įprastiems, tiek sudėtingiems skenams. Tesseract ar OCRmyPDF naudingi vietinėms techninėms eigoms. Internetinis OCR gali tikti paprastiems, mažos rizikos failams, tačiau privatumas ir kokybė skiriasi.

Ar OCR gali išsaugoti formatavimą?

OCR gali sukurti tekstinį sluoksnį ir kartais atkurti skaitymo tvarką, bet tai nėra tas pats, kas po vertimo išsaugoti originalų maketą. Po OCR naudokite PDF vertimo eigą ir palyginkite rezultatą su originalu.

Ką daryti, jei OCR kokybė prasta?

Prieš versdami pagerinkite skeną. Jei įmanoma, nuskenuokite iš naujo, ištiesinkite puslapius, padidinkite kontrastą, iškirpkite nereikalingą foną, pasirinkite teisingą OCR kalbą ir dar kartą peržiūrėkite sudėtingus puslapius.