BookTranslator
BookTranslator

Kuidas skannitud PDF-i tõlkida: täielik OCR-i ja tõlkimise juhend

Skannitud PDF-id sisaldavad tekstist pilte, mitte tegelikku teksti — seepärast jätab Google Translate need muutmata. Siin on OCR-i + tehisintellekti töövoog, mis selle parandab.

BookTranslator

BookTranslator Team

Tõlkejuhised9 min read

Kiire vastus: skannitud PDF vajab enne tõlkimist OCR-i

Skannitud PDF-i tõlkimiseks käivita esmalt OCR, et muuta lehepildid valitavaks tekstiks. Seejärel tõlgi OCR-iga töödeldud PDF dokumenditõlkijaga, näiteks PDF-tõlkija. Kui jätad OCR-i vahele, tagastavad paljud tõlketööriistad originaalfaili muutmata kujul, jätavad lehti vahele või tõlgivad ainult neid osi, millel on juba tekstikiht.

Kasuta seda töövoogu:

  1. Ava PDF ja proovi valida üks lause.
  2. Kui sa ei saa teksti valida, käivita OCR.
  3. Kontrolli OCR-tekst enne tõlkimist üle.
  4. Laadi OCR-iga töödeldud PDF üles tööriista PDF-tõlkija.
  5. Võrdle tõlgitud väljundit algse skanniga.

Kui sinu PDF-is on tekst juba valitav ja probleem on küljenduse säilitamine, kasuta juhendit PDF-i tõlkimine vormindust kaotamata.

Miks skannitud PDF-id tõlketööriistades ei tööta

Skannitud PDF on sageli lihtsalt lehepiltide kogum PDF-konteineris. Inimene võib lehel sõnu näha, kuid fail ei pruugi sisaldada tegelikku teksti, mida tarkvara saaks välja lugeda.

See tekitab lihtsa probleemi:

FailitüüpMida tõlkija näebMis juhtub
Tekstipõhine PDFTekst koos küljendusandmetegaTõlge saab kohe alata.
Ainult pildist koosnev skannitud PDFLehtede pildidKõigepealt on vaja OCR-i.
Pildi peal tekstikihiga PDFSkannitud pilt pluss peidetud OCR-tekstikihtTõlge võib toimida, kuid OCR-vead mõjutavad kvaliteeti.

Kõige kasulikum test ei ole tehniline:

  1. Ava PDF.
  2. Proovi üksikuid sõnu esile tõsta.
  3. Kopeeri üks lause.
  4. Kleebi see tekstiredaktorisse.

Kui lause kleebitakse õigesti, on PDF-il tekstikiht. Kui midagi ei kleepu või kogu leht käitub nagu üks pilt, vajab PDF OCR-i.

OCR ei ole valikuline

OCR tähendab optilist märgituvastust. See loeb pildilt teksti ja loob masinloetava teksti. PDF-i tõlkimisel loob OCR tavaliselt skannitud lehe peale nähtamatu tekstikihi.

See tekstikiht saab tõlke lähteallikaks. Kui OCR teeb vigu, kanduvad need vead tõlkesse edasi.

Levinud OCR-vead:

OCR-i vigaTõlkerisk
rn loetakse m-ksSõnade tähendus muutub.
1 loetakse l-ksNumbrid, viited või koodid muutuvad valeks.
O loetakse 0-ksID-d, valemid ja nimed võivad katki minna.
Diakriitikud kaovadNimed ja terminid muutuvad ebatäpseks.
Veerud liidetakse kokkuLaused tõlgitakse vales järjekorras.
Tabelilahtreid loetakse ridade kaupa valestiAndmesildid ei vasta enam väärtustele.
Allmärkusi käsitletakse põhitekstinaViited ja märkused liiguvad valesse konteksti.

Seepärast on OCR-i ülevaatamise samm oluline. Ära tõlgi skannitud dokumenti enne, kui oled eraldatud teksti pisteliselt kontrollinud.

OCR-iga algav töövoog

1. samm: tee kindlaks PDF-i tüüp

Proovi teksti valida. Kui valimine töötab, ei pruugi sa OCR-i vajada. Kui valimine ebaõnnestub, käsitle faili ainult pildina.

Vaata lehte ka visuaalselt üle:

  • Viltused lehed viitavad skannile.
  • Hallikas paberi tekstuur viitab skannile.
  • Varjud köite juures viitavad pildistatud raamatule.
  • Ebaühtlane kontrastsus viitab koopiale.
  • Kui otsing nähtavaid sõnu ei leia, viitab see tekstikihi puudumisele.

2. samm: paranda skanni kvaliteeti, kui võimalik

OCR-i kvaliteet algab pildikvaliteedist. Kui saad dokumendi uuesti skannida, tee seda enne, kui hakkad OCR-vigu parandama.

Kasuta seda pildikvaliteedi kontrollnimekirja:

  • Skanni piisavalt suure eraldusvõimega, et ka väike tekst oleks loetav.
  • Hoia lehed lamedad ja sirged.
  • Väldi varje köite juures.
  • Lõika välja lauaservad, sõrmed või taustamüra.
  • Kasuta tugevat kontrasti teksti ja lehe vahel.
  • Hoia kogu rida nähtaval.
  • Kasuta õiget lehesuunda.
  • Ära tihenda pilti nii palju, et tähed muutuvad uduseks.

Vanade raamatute ja koopiate puhul tuleb suurim kasu tavaliselt kalde korrigeerimisest, kontrasti parandamisest ja fookusest väljas lehtede uuesti skannimisest.

3. samm: käivita OCR

Vali OCR-tööriist dokumendi, mitte brändi järgi.

OCR-i valikSobib kõige pareminiMille suhtes ettevaatlik olla
Adobe Acrobat OCRÜldised äriskannid ja PDF-i puhastamineKontrolli enne sellele lootma jäämist, kas sinu paketis on see olemas.
ABBYY FineReaderKeerukad skannid, tabelid, veerud ja rasked küljendusedVajab ikkagi käsitsi ülevaatust.
Tesseract või OCRmyPDFKohalikud, tehnilised ja korratavad OCR-töövoodEeldab käsureatööriistadega harjumust.
Veebipõhised OCR-tööriistadMadala riskiga juhuslikud failidPrivaatsus, failipiirangud ja kvaliteet erinevad.
Telefoni skannimisrakendusedUue skanni kiireks jäädvustamiseksPerspektiivimoonutus võib OCR-i halvendada.

Eralepingute, terviseandmete, finantsdokumentide, avaldamata käsikirjade või hindamisel olevate akadeemiliste tööde puhul eelista kohalikku OCR-töövoogu või usaldusväärset keskkonda. Ära laadi tundlikke skanne üles juhuslikele tasuta OCR-saitidele.

4. samm: vaata OCR-tekst üle

Tee ülevaatus enne tõlkimist, mitte pärast. Kopeeri teksti mitmelt keeruliselt lehelt ja kontrolli, kas see on loetav.

Kontrollimiseks vali näiteks järgmised lehed:

  • Tiitelleht.
  • Tiheda põhitekstiga leht.
  • Tabeliga leht.
  • Allmärkustega leht.
  • Väikese kirjaga leht.
  • Tempelduse, käsikirja või ääremärkustega leht.
  • Iga keele üks leht, kui dokument on mitmekeelne.

Otsi järgmisi probleeme:

  • Puuduvad lõigud.
  • Kokku sulandunud veerud.
  • Katkised sõnad.
  • Valed märgid.
  • Kadunud diakriitikud.
  • Tabeli sildid, mis on väärtustest eraldatud.
  • Põhiteksti sattunud päised.
  • Lausetesse segunenud leheküljenumbrid.

Kui OCR-i kvaliteet on halb, paranda see enne tõlkimist. Tõlkija ei saa usaldusväärselt taastada tähendust, mida OCR pole kunagi tabanud.

5. samm: tõlgi OCR-iga töödeldud PDF

Kui PDF-il on puhas tekstikiht olemas, laadi see üles tööriista PDF-tõlkija. Nüüd saab tõlkeetapp töötada lehepiltide asemel tekstiga.

Pärast tõlkimist võrdle:

  • Algne skann
  • OCR-i tekstikiht
  • Tõlgitud PDF

See kolmepoolne kontroll aitab tuvastada, kas viga tuli OCR-ist või tõlkest. Kui OCR-tekst on vale, käivita OCR uuesti. Kui OCR-tekst on õige, kuid tõlge on vale, paranda tõlge.

6. samm: kontrolli kõrge riskiga sisu

Skannitud dokumendid sisaldavad sageli just seda sisu, mis vajab hoolikat ülevaatust: vanad lepingud, riiklikud vormid, teadusartiklid, käsiraamatud, ajaloolised dokumendid ja raamatu leheküljed.

Kontrolli neid osi käsitsi:

  • Nimede
  • Kuupäevade
  • Numbrite
  • Aadresside
  • Tootekoodide
  • Õigusviidete
  • Viidete
  • Tabeli siltide
  • Ühikute
  • Võrrandite
  • Pildiallkirjade
  • Allmärkuste

Uurimis- ja akadeemiliste failide puhul loe ka juhendit akadeemiliste teadusartiklite tõlkimine, sest skannitud akadeemilised PDF-id lisavad OCR-riskile veel viidete ja küljenduse riskid.

Kõrvutised veanäited

Kasuta seda tabelit OCR-väljundi ülevaatamisel.

Tõenäoliselt on algses skannisVigane OCR-väljundMiks see oluline on
modernmodemTähendus muutub täielikult.
Section 10Section IOÕiguslikud või tehnilised viited võivad katki minna.
20262O26Kuupäevad ja ID-d muutuvad ebausaldusväärseks.
patientpatlentMeditsiini- või tehnilised terminid muutuvad valeks.
Kaks eraldi veerguÜks kokku sulandunud lõikTõlge loeb lauseid vales järjekorras.
Siltide ja väärtustega tabeliridaÜks segatekstiga ridaAndmed ei vasta enam õigele sildile.
Allmärkuse marker 1Täht lMärkused võivad kinnituda vale lause külge.

Kui näed neid vigu OCR-kihis, paranda OCR enne tõlkimist.

Millist tööriista kasutada?

Vali dokumendi keerukuse järgi.

DokumentSoovitatud tee
Puhas äriskannOCR Acrobatiga või mõne muu usaldusväärse OCR-tööriistaga, seejärel PDF-tõlkija.
Vana raamatu skannSirgenda ja paranda kontrasti, tee OCR hoolikalt, seejärel tõlgi.
Teadusartikli skannTee OCR, kontrolli võrrandeid/viiteid/tabeleid, seejärel tõlgi koos küljenduse ülevaatusega.
Käsitsi kirjutatud märkmedEnne tõlkimist võib olla vaja käsitsi ümberkirjutust.
Lihtne isiklik dokumentVeebipõhine OCR võib sobida, kui privaatsusrisk on madal.
Tundlik dokumentKasuta kohalikku OCR-i või usaldusväärset kontrollitud töövoogu.

Kui soovid laiemat tööriistade võrdlust, vaata juhendit parimate PDF-tõlketööriistade juhend 2026.

Skannitud PDF-ide levinud probleemid

Madala eraldusvõimega lehed

Madala eraldusvõimega skannid sulandavad tähed kokku. OCR võib segi ajada rn ja m, cl ja d või kirjavahemärgid ja tolmu.

Lahendus: skanni uuesti, kui võimalik. Kui mitte, suurenda kontrasti ja proovi OCR-i uuesti.

Viltused või kõverad lehed

Raamatuskannid kõverduvad sageli köite juures. OCR loeb kõveraid ridu halvasti ja võib teksti järjekorra sassi ajada.

Lahendus: silu leht, skanni uuesti või kasuta OCR-tööriista, mis oskab kallet ja kõverust parandada.

Mitmeveeruline küljendus

OCR võib vasaku ja parema veeru üheks lausete jadaks kokku liita.

Lahendus: kontrolli enne tõlkimist lugemisjärjekorda. Teadusartiklid vajavad siin erilist tähelepanu.

Tabelid

Tabelid on keerulised, sest OCR peab tuvastama nii teksti kui ka struktuuri. Tabel võib visuaalselt tunduda õige, samal ajal kui tekstikiht on vale.

Lahendus: kopeeri tabelist OCR-tekst välja ja kinnita, et sildid vastavad endiselt väärtustele.

Käsikiri ja allkirjad

Trükitud teksti OCR on palju usaldusväärsem kui käsikirja tuvastamine. Käsitsi kirjutatud ääremärkused, allkirjad ja täidetud vormid võivad jääda märkamata või moonduda.

Lahendus: kirjuta oluline käsikiri enne tõlkimist käsitsi ümber.

Mitme keelega dokumendid

OCR töötab kõige paremini siis, kui ta teab lähtekeelt. Inglise, prantsuse ja hiina keelega skann võib ebaõnnestuda, kui OCR on seadistatud ainult ühele keelele.

Lahendus: vali kõik asjakohased OCR-keeled, kui tööriist seda toetab, seejärel kontrolli pisteliselt iga keele osa.

Privaatsuse ja turvalisuse kontrollnimekiri

Enne kui laadid skannitud PDF-i kuhugi üles, küsi endalt:

  • Kas dokument sisaldab isikuandmeid?
  • Kas see sisaldab meditsiini-, õigus-, finants-, akadeemilist või avaldamata materjali?
  • Kas sellele kehtib kliendileping või kooli poliitika?
  • Kas selle dokumendi jaoks on veebipõhine OCR-teenus lubatud?
  • Kas vajad selle asemel kohalikku töövoogu?
  • Kas saad eemaldada lehed, mis tõlget ei vaja?

Skannitud PDF-id on sageli tundlikud, sest need pärinevad lepingutest, isikut tõendavatest dokumentidest, vormidest, uurimistööde mustanditest ja sisearhiividest. Käsitle OCR-i üleslaadimisotsuseid samamoodi nagu käsitleksid algdokumenti.

KKK

Kuidas skannitud PDF-i tõlkida?

Käivita esmalt OCR, et luua tekstikiht, vaata OCR-väljund üle ja tõlgi seejärel OCR-iga töödeldud PDF tööriistaga PDF-tõlkija. Ära jäta OCR-i ülevaatuse sammu vahele.

Miks Google Translate minu skannitud PDF-i ei tõlkinud?

PDF võib koosneda ainult pildist. Kui tekstikihti pole, pole Google Translate'il teksti, mida välja lugeda. Kasuta esmalt OCR-i ja alles siis tõlgi. Google'ile keskenduv töövoog on kaetud juhendis Google Translate'i PDF-juhend.

Kas ChatGPT saab skannitud PDF-i tõlkida?

ChatGPT võib aidata üksikute piltide või eraldatud tekstiga, kuid mitmeleheküljeline skannitud PDF vajab endiselt OCR-i ja ülevaatust. Täisdokumendi töövoo jaoks tee esmalt OCR ja kasuta siis PDF-i tõlkimise töövoogu.

Mis on skannitud PDF-ide jaoks parim OCR-tööriist?

See sõltub dokumendist. Acrobat ja ABBYY-tüüpi tööriistad sobivad üldiste ja keerukate skannide jaoks. Tesseract või OCRmyPDF sobib kohalike tehniliste töövoogude jaoks. Veebipõhine OCR võib sobida lihtsate madala riskiga failide jaoks, kuid privaatsus ja kvaliteet on erinevad.

Kas OCR saab vorminduse säilitada?

OCR võib luua tekstikihi ja mõnikord taastada lugemisjärjekorra, kuid see ei ole sama mis algse tõlgitud küljenduse säilitamine. Pärast OCR-i kasuta PDF-i tõlkimise töövoogu ja võrdle väljundit originaaliga.

Mida teha, kui OCR-i kvaliteet on halb?

Paranda skanni enne tõlkimist. Skanni uuesti, kui võimalik, korrigeeri lehtede kallet, suurenda kontrasti, lõika segav taust välja, vali õige OCR-keel ja kontrolli keerulised lehed uuesti üle.