Kuidas skannitud PDF-i tõlkida: täielik OCR-i ja tõlkimise juhend
Skannitud PDF-id sisaldavad tekstist pilte, mitte tegelikku teksti — seepärast jätab Google Translate need muutmata. Siin on OCR-i + tehisintellekti töövoog, mis selle parandab.
Kiire vastus: skannitud PDF vajab enne tõlkimist OCR-i
Skannitud PDF-i tõlkimiseks käivita esmalt OCR, et muuta lehepildid valitavaks tekstiks. Seejärel tõlgi OCR-iga töödeldud PDF dokumenditõlkijaga, näiteks PDF-tõlkija. Kui jätad OCR-i vahele, tagastavad paljud tõlketööriistad originaalfaili muutmata kujul, jätavad lehti vahele või tõlgivad ainult neid osi, millel on juba tekstikiht.
Kasuta seda töövoogu:
- Ava PDF ja proovi valida üks lause.
- Kui sa ei saa teksti valida, käivita OCR.
- Kontrolli OCR-tekst enne tõlkimist üle.
- Laadi OCR-iga töödeldud PDF üles tööriista PDF-tõlkija.
- Võrdle tõlgitud väljundit algse skanniga.
Kui sinu PDF-is on tekst juba valitav ja probleem on küljenduse säilitamine, kasuta juhendit PDF-i tõlkimine vormindust kaotamata.
Miks skannitud PDF-id tõlketööriistades ei tööta
Skannitud PDF on sageli lihtsalt lehepiltide kogum PDF-konteineris. Inimene võib lehel sõnu näha, kuid fail ei pruugi sisaldada tegelikku teksti, mida tarkvara saaks välja lugeda.
See tekitab lihtsa probleemi:
| Failitüüp | Mida tõlkija näeb | Mis juhtub |
|---|---|---|
| Tekstipõhine PDF | Tekst koos küljendusandmetega | Tõlge saab kohe alata. |
| Ainult pildist koosnev skannitud PDF | Lehtede pildid | Kõigepealt on vaja OCR-i. |
| Pildi peal tekstikihiga PDF | Skannitud pilt pluss peidetud OCR-tekstikiht | Tõlge võib toimida, kuid OCR-vead mõjutavad kvaliteeti. |
Kõige kasulikum test ei ole tehniline:
- Ava PDF.
- Proovi üksikuid sõnu esile tõsta.
- Kopeeri üks lause.
- Kleebi see tekstiredaktorisse.
Kui lause kleebitakse õigesti, on PDF-il tekstikiht. Kui midagi ei kleepu või kogu leht käitub nagu üks pilt, vajab PDF OCR-i.
OCR ei ole valikuline
OCR tähendab optilist märgituvastust. See loeb pildilt teksti ja loob masinloetava teksti. PDF-i tõlkimisel loob OCR tavaliselt skannitud lehe peale nähtamatu tekstikihi.
See tekstikiht saab tõlke lähteallikaks. Kui OCR teeb vigu, kanduvad need vead tõlkesse edasi.
Levinud OCR-vead:
| OCR-i viga | Tõlkerisk |
|---|---|
rn loetakse m-ks | Sõnade tähendus muutub. |
1 loetakse l-ks | Numbrid, viited või koodid muutuvad valeks. |
O loetakse 0-ks | ID-d, valemid ja nimed võivad katki minna. |
| Diakriitikud kaovad | Nimed ja terminid muutuvad ebatäpseks. |
| Veerud liidetakse kokku | Laused tõlgitakse vales järjekorras. |
| Tabelilahtreid loetakse ridade kaupa valesti | Andmesildid ei vasta enam väärtustele. |
| Allmärkusi käsitletakse põhitekstina | Viited ja märkused liiguvad valesse konteksti. |
Seepärast on OCR-i ülevaatamise samm oluline. Ära tõlgi skannitud dokumenti enne, kui oled eraldatud teksti pisteliselt kontrollinud.
OCR-iga algav töövoog
1. samm: tee kindlaks PDF-i tüüp
Proovi teksti valida. Kui valimine töötab, ei pruugi sa OCR-i vajada. Kui valimine ebaõnnestub, käsitle faili ainult pildina.
Vaata lehte ka visuaalselt üle:
- Viltused lehed viitavad skannile.
- Hallikas paberi tekstuur viitab skannile.
- Varjud köite juures viitavad pildistatud raamatule.
- Ebaühtlane kontrastsus viitab koopiale.
- Kui otsing nähtavaid sõnu ei leia, viitab see tekstikihi puudumisele.
2. samm: paranda skanni kvaliteeti, kui võimalik
OCR-i kvaliteet algab pildikvaliteedist. Kui saad dokumendi uuesti skannida, tee seda enne, kui hakkad OCR-vigu parandama.
Kasuta seda pildikvaliteedi kontrollnimekirja:
- Skanni piisavalt suure eraldusvõimega, et ka väike tekst oleks loetav.
- Hoia lehed lamedad ja sirged.
- Väldi varje köite juures.
- Lõika välja lauaservad, sõrmed või taustamüra.
- Kasuta tugevat kontrasti teksti ja lehe vahel.
- Hoia kogu rida nähtaval.
- Kasuta õiget lehesuunda.
- Ära tihenda pilti nii palju, et tähed muutuvad uduseks.
Vanade raamatute ja koopiate puhul tuleb suurim kasu tavaliselt kalde korrigeerimisest, kontrasti parandamisest ja fookusest väljas lehtede uuesti skannimisest.
3. samm: käivita OCR
Vali OCR-tööriist dokumendi, mitte brändi järgi.
| OCR-i valik | Sobib kõige paremini | Mille suhtes ettevaatlik olla |
|---|---|---|
| Adobe Acrobat OCR | Üldised äriskannid ja PDF-i puhastamine | Kontrolli enne sellele lootma jäämist, kas sinu paketis on see olemas. |
| ABBYY FineReader | Keerukad skannid, tabelid, veerud ja rasked küljendused | Vajab ikkagi käsitsi ülevaatust. |
| Tesseract või OCRmyPDF | Kohalikud, tehnilised ja korratavad OCR-töövood | Eeldab käsureatööriistadega harjumust. |
| Veebipõhised OCR-tööriistad | Madala riskiga juhuslikud failid | Privaatsus, failipiirangud ja kvaliteet erinevad. |
| Telefoni skannimisrakendused | Uue skanni kiireks jäädvustamiseks | Perspektiivimoonutus võib OCR-i halvendada. |
Eralepingute, terviseandmete, finantsdokumentide, avaldamata käsikirjade või hindamisel olevate akadeemiliste tööde puhul eelista kohalikku OCR-töövoogu või usaldusväärset keskkonda. Ära laadi tundlikke skanne üles juhuslikele tasuta OCR-saitidele.
4. samm: vaata OCR-tekst üle
Tee ülevaatus enne tõlkimist, mitte pärast. Kopeeri teksti mitmelt keeruliselt lehelt ja kontrolli, kas see on loetav.
Kontrollimiseks vali näiteks järgmised lehed:
- Tiitelleht.
- Tiheda põhitekstiga leht.
- Tabeliga leht.
- Allmärkustega leht.
- Väikese kirjaga leht.
- Tempelduse, käsikirja või ääremärkustega leht.
- Iga keele üks leht, kui dokument on mitmekeelne.
Otsi järgmisi probleeme:
- Puuduvad lõigud.
- Kokku sulandunud veerud.
- Katkised sõnad.
- Valed märgid.
- Kadunud diakriitikud.
- Tabeli sildid, mis on väärtustest eraldatud.
- Põhiteksti sattunud päised.
- Lausetesse segunenud leheküljenumbrid.
Kui OCR-i kvaliteet on halb, paranda see enne tõlkimist. Tõlkija ei saa usaldusväärselt taastada tähendust, mida OCR pole kunagi tabanud.
5. samm: tõlgi OCR-iga töödeldud PDF
Kui PDF-il on puhas tekstikiht olemas, laadi see üles tööriista PDF-tõlkija. Nüüd saab tõlkeetapp töötada lehepiltide asemel tekstiga.
Pärast tõlkimist võrdle:
- Algne skann
- OCR-i tekstikiht
- Tõlgitud PDF
See kolmepoolne kontroll aitab tuvastada, kas viga tuli OCR-ist või tõlkest. Kui OCR-tekst on vale, käivita OCR uuesti. Kui OCR-tekst on õige, kuid tõlge on vale, paranda tõlge.
6. samm: kontrolli kõrge riskiga sisu
Skannitud dokumendid sisaldavad sageli just seda sisu, mis vajab hoolikat ülevaatust: vanad lepingud, riiklikud vormid, teadusartiklid, käsiraamatud, ajaloolised dokumendid ja raamatu leheküljed.
Kontrolli neid osi käsitsi:
- Nimede
- Kuupäevade
- Numbrite
- Aadresside
- Tootekoodide
- Õigusviidete
- Viidete
- Tabeli siltide
- Ühikute
- Võrrandite
- Pildiallkirjade
- Allmärkuste
Uurimis- ja akadeemiliste failide puhul loe ka juhendit akadeemiliste teadusartiklite tõlkimine, sest skannitud akadeemilised PDF-id lisavad OCR-riskile veel viidete ja küljenduse riskid.
Kõrvutised veanäited
Kasuta seda tabelit OCR-väljundi ülevaatamisel.
| Tõenäoliselt on algses skannis | Vigane OCR-väljund | Miks see oluline on |
|---|---|---|
modern | modem | Tähendus muutub täielikult. |
Section 10 | Section IO | Õiguslikud või tehnilised viited võivad katki minna. |
2026 | 2O26 | Kuupäevad ja ID-d muutuvad ebausaldusväärseks. |
patient | patlent | Meditsiini- või tehnilised terminid muutuvad valeks. |
| Kaks eraldi veergu | Üks kokku sulandunud lõik | Tõlge loeb lauseid vales järjekorras. |
| Siltide ja väärtustega tabelirida | Üks segatekstiga rida | Andmed ei vasta enam õigele sildile. |
Allmärkuse marker 1 | Täht l | Märkused võivad kinnituda vale lause külge. |
Kui näed neid vigu OCR-kihis, paranda OCR enne tõlkimist.
Millist tööriista kasutada?
Vali dokumendi keerukuse järgi.
| Dokument | Soovitatud tee |
|---|---|
| Puhas äriskann | OCR Acrobatiga või mõne muu usaldusväärse OCR-tööriistaga, seejärel PDF-tõlkija. |
| Vana raamatu skann | Sirgenda ja paranda kontrasti, tee OCR hoolikalt, seejärel tõlgi. |
| Teadusartikli skann | Tee OCR, kontrolli võrrandeid/viiteid/tabeleid, seejärel tõlgi koos küljenduse ülevaatusega. |
| Käsitsi kirjutatud märkmed | Enne tõlkimist võib olla vaja käsitsi ümberkirjutust. |
| Lihtne isiklik dokument | Veebipõhine OCR võib sobida, kui privaatsusrisk on madal. |
| Tundlik dokument | Kasuta kohalikku OCR-i või usaldusväärset kontrollitud töövoogu. |
Kui soovid laiemat tööriistade võrdlust, vaata juhendit parimate PDF-tõlketööriistade juhend 2026.
Skannitud PDF-ide levinud probleemid
Madala eraldusvõimega lehed
Madala eraldusvõimega skannid sulandavad tähed kokku. OCR võib segi ajada rn ja m, cl ja d või kirjavahemärgid ja tolmu.
Lahendus: skanni uuesti, kui võimalik. Kui mitte, suurenda kontrasti ja proovi OCR-i uuesti.
Viltused või kõverad lehed
Raamatuskannid kõverduvad sageli köite juures. OCR loeb kõveraid ridu halvasti ja võib teksti järjekorra sassi ajada.
Lahendus: silu leht, skanni uuesti või kasuta OCR-tööriista, mis oskab kallet ja kõverust parandada.
Mitmeveeruline küljendus
OCR võib vasaku ja parema veeru üheks lausete jadaks kokku liita.
Lahendus: kontrolli enne tõlkimist lugemisjärjekorda. Teadusartiklid vajavad siin erilist tähelepanu.
Tabelid
Tabelid on keerulised, sest OCR peab tuvastama nii teksti kui ka struktuuri. Tabel võib visuaalselt tunduda õige, samal ajal kui tekstikiht on vale.
Lahendus: kopeeri tabelist OCR-tekst välja ja kinnita, et sildid vastavad endiselt väärtustele.
Käsikiri ja allkirjad
Trükitud teksti OCR on palju usaldusväärsem kui käsikirja tuvastamine. Käsitsi kirjutatud ääremärkused, allkirjad ja täidetud vormid võivad jääda märkamata või moonduda.
Lahendus: kirjuta oluline käsikiri enne tõlkimist käsitsi ümber.
Mitme keelega dokumendid
OCR töötab kõige paremini siis, kui ta teab lähtekeelt. Inglise, prantsuse ja hiina keelega skann võib ebaõnnestuda, kui OCR on seadistatud ainult ühele keelele.
Lahendus: vali kõik asjakohased OCR-keeled, kui tööriist seda toetab, seejärel kontrolli pisteliselt iga keele osa.
Privaatsuse ja turvalisuse kontrollnimekiri
Enne kui laadid skannitud PDF-i kuhugi üles, küsi endalt:
- Kas dokument sisaldab isikuandmeid?
- Kas see sisaldab meditsiini-, õigus-, finants-, akadeemilist või avaldamata materjali?
- Kas sellele kehtib kliendileping või kooli poliitika?
- Kas selle dokumendi jaoks on veebipõhine OCR-teenus lubatud?
- Kas vajad selle asemel kohalikku töövoogu?
- Kas saad eemaldada lehed, mis tõlget ei vaja?
Skannitud PDF-id on sageli tundlikud, sest need pärinevad lepingutest, isikut tõendavatest dokumentidest, vormidest, uurimistööde mustanditest ja sisearhiividest. Käsitle OCR-i üleslaadimisotsuseid samamoodi nagu käsitleksid algdokumenti.
KKK
Kuidas skannitud PDF-i tõlkida?
Käivita esmalt OCR, et luua tekstikiht, vaata OCR-väljund üle ja tõlgi seejärel OCR-iga töödeldud PDF tööriistaga PDF-tõlkija. Ära jäta OCR-i ülevaatuse sammu vahele.
Miks Google Translate minu skannitud PDF-i ei tõlkinud?
PDF võib koosneda ainult pildist. Kui tekstikihti pole, pole Google Translate'il teksti, mida välja lugeda. Kasuta esmalt OCR-i ja alles siis tõlgi. Google'ile keskenduv töövoog on kaetud juhendis Google Translate'i PDF-juhend.
Kas ChatGPT saab skannitud PDF-i tõlkida?
ChatGPT võib aidata üksikute piltide või eraldatud tekstiga, kuid mitmeleheküljeline skannitud PDF vajab endiselt OCR-i ja ülevaatust. Täisdokumendi töövoo jaoks tee esmalt OCR ja kasuta siis PDF-i tõlkimise töövoogu.
Mis on skannitud PDF-ide jaoks parim OCR-tööriist?
See sõltub dokumendist. Acrobat ja ABBYY-tüüpi tööriistad sobivad üldiste ja keerukate skannide jaoks. Tesseract või OCRmyPDF sobib kohalike tehniliste töövoogude jaoks. Veebipõhine OCR võib sobida lihtsate madala riskiga failide jaoks, kuid privaatsus ja kvaliteet on erinevad.
Kas OCR saab vorminduse säilitada?
OCR võib luua tekstikihi ja mõnikord taastada lugemisjärjekorra, kuid see ei ole sama mis algse tõlgitud küljenduse säilitamine. Pärast OCR-i kasuta PDF-i tõlkimise töövoogu ja võrdle väljundit originaaliga.
Mida teha, kui OCR-i kvaliteet on halb?
Paranda skanni enne tõlkimist. Skanni uuesti, kui võimalik, korrigeeri lehtede kallet, suurenda kontrasti, lõika segav taust välja, vali õige OCR-keel ja kontrolli keerulised lehed uuesti üle.