BookTranslator
BookTranslator

Kā iztulkot skenētu PDF: pilnīgs OCR un tulkošanas ceļvedis

Skenētos PDF failos ir teksta attēli, nevis īsts teksts — tāpēc Google Translate tos atgriež bez izmaiņām. Lūk, OCR + AI darbplūsma, kas to novērš.

BookTranslator

BookTranslator Team

Tulkošanas ceļveži10 min read

Ātrā atbilde: skenētam PDF pirms tulkošanas jāveic OCR

Lai iztulkotu skenētu PDF, vispirms palaidiet OCR, lai lapu attēlus pārvērstu atlasāmā tekstā. Pēc tam iztulkojiet ar OCR apstrādāto PDF, izmantojot dokumentu tulkotāju, piemēram, PDF Translator. Ja izlaižat OCR, daudzi tulkošanas rīki atgriezīs oriģinālo failu bez izmaiņām, izlaidīs lapas vai iztulkos tikai tās daļas, kurās jau ir teksta slānis.

Izmantojiet šo darbplūsmu:

  1. Atveriet PDF un mēģiniet iezīmēt teikumu.
  2. Ja nevarat atlasīt tekstu, palaidiet OCR.
  3. Pārskatiet OCR tekstu pirms tulkošanas.
  4. Augšupielādējiet ar OCR apstrādāto PDF uz PDF Translator.
  5. Salīdziniet iztulkoto rezultātu ar oriģinālo skenējumu.

Ja jūsu PDF jau ir atlasāms teksts un problēma ir izkārtojuma saglabāšana, izmantojiet ceļvedi par to, kā iztulkot PDF, nezaudējot formatējumu.

Kāpēc skenēti PDF rada problēmas tulkošanas rīkiem

Skenēts PDF bieži vien ir tikai lapu attēlu kopums PDF konteinerā. Cilvēks lapā redz vārdus, bet fails var nesaturēt īstu tekstu, ko programmatūra varētu izvilkt.

Tas rada vienkāršu problēmu:

Faila veidsKo redz tulkotājsKas notiek
Uz tekstu balstīts PDFTeksts un izkārtojuma datiTulkošanu var sākt uzreiz.
Tikai attēlus saturošs skenēts PDFLapu attēliVispirms nepieciešams OCR.
PDF ar tekstu virs attēlaSkenējuma attēls un slēpts OCR teksta slānisTulkošana var darboties, bet OCR kļūdas ietekmē kvalitāti.

Visnoderīgākais tests nav tehnisks:

  1. Atveriet PDF.
  2. Mēģiniet iezīmēt atsevišķus vārdus.
  3. Nokopējiet teikumu.
  4. Ielīmējiet to teksta redaktorā.

Ja teikums ielīmējas korekti, PDF ir teksta slānis. Ja neielīmējas nekas vai visa lapa uzvedas kā viens attēls, PDF ir vajadzīgs OCR.

OCR nav izvēles jautājums

OCR nozīmē optisko rakstzīmju atpazīšanu. Tas nolasa tekstu no attēla un izveido mašīnlasāmu tekstu. PDF tulkošanai OCR parasti izveido neredzamu teksta slāni virs skenētās lapas.

Šis teksta slānis kļūst par tulkošanas avotu. Ja OCR pieļauj kļūdas, tulkojums tās pārmanto.

Biežākās OCR kļūdas:

OCR kļūdaTulkošanas risks
rn nolasīts kā mVārdu nozīme mainās.
1 nolasīts kā lSkaitļi, atsauces vai kodi kļūst nepareizi.
O nolasīts kā 0Var sabojāties ID, formulas un nosaukumi.
Pazūd diakritiskās zīmesVārdi un termini kļūst neprecīzi.
Kolonnas tiek sapludinātasTeikumi tiek tulkoti nepareizā secībā.
Tabulas šūnas kļūdaini nolasītas pa rindāmDatu etiķetes vairs neatbilst vērtībām.
Zemsvītras piezīmes uztvertas kā pamattekstsAtsauces un piezīmes nonāk nepareizajā kontekstā.

Tāpēc OCR pārbaudes solis ir svarīgs. Netulkojiet skenētu dokumentu, kamēr neesat izlases kārtā pārbaudījuši izvilkto tekstu.

OCR vispirms: darbplūsma

1. solis: nosakiet PDF veidu

Mēģiniet atlasīt tekstu. Ja atlase darbojas, OCR var nebūt vajadzīgs. Ja atlase neizdodas, uzskatiet failu par tikai attēlus saturošu.

Vizuāli apskatiet arī lapu:

  • Šķības lapas liecina par skenējumu.
  • Pelēka papīra tekstūra liecina par skenējumu.
  • Ēnas pie iesējuma liecina par fotografētu grāmatu.
  • Nevienmērīgs kontrasts liecina par fotokopiju.
  • Ja meklēšana neatrod redzamus vārdus, visticamāk nav teksta slāņa.

2. solis: ja iespējams, uzlabojiet skenējumu

OCR kvalitāte sākas ar attēla kvalitāti. Ja varat skenēt vēlreiz, izdariet to, pirms tērējat laiku OCR kļūdu labošanai.

Izmantojiet šo attēla kvalitātes kontrolsarakstu:

  • Skenējiet pietiekami augstā izšķirtspējā, lai nolasītu sīku tekstu.
  • Turiet lapas plakanas un taisnas.
  • Izvairieties no ēnām pie iesējuma.
  • Apgrieziet tabulu malas, pirkstus vai fonā esošo lieko.
  • Nodrošiniet izteiktu kontrastu starp tekstu un lapu.
  • Pārliecinieties, ka visa rinda ir redzama.
  • Izmantojiet pareizo lapas orientāciju.
  • Nesaspiest attēlu tik stipri, ka burti izplūst.

Vecām grāmatām un fotokopijām lielāko uzlabojumu parasti dod iztaisnošana, kontrasta korekcija un to lapu atkārtota skenēšana, kas ir ārpus fokusa.

3. solis: veiciet OCR

Izvēlieties OCR rīku pēc dokumenta, nevis pēc zīmola.

OCR opcijaVislabāk piemērotsKam pievērst uzmanību
Adobe Acrobat OCRVispārīgiem biznesa skenējumiem un PDF sakārtošanaiPārbaudiet, vai tas ir pieejams jūsu plānā.
ABBYY FineReaderSarežģītiem skenējumiem, tabulām, kolonnām un grūtiem izkārtojumiemJoprojām nepieciešama manuāla pārbaude.
Tesseract or OCRmyPDFLokālām, tehniskām un atkārtojamām OCR darbplūsmāmNepieciešama pārliecība darbā ar komandrindas rīkiem.
Online OCR toolsRetiem failiem ar zemu riska līmeniAtšķiras privātums, failu limiti un kvalitāte.
Phone scanning appsĀtrai jauna skenējuma iegūšanaiPerspektīvas kropļojumi var pasliktināt OCR.

Privātiem līgumiem, medicīniskajiem ierakstiem, finanšu dokumentiem, nepublicētiem manuskriptiem vai recenzēšanai iesniegtiem akadēmiskiem darbiem izvēlieties lokālu OCR darbplūsmu vai uzticamu vidi. Neaugšupielādējiet sensitīvus skenējumus nejaušās bezmaksas OCR vietnēs.

4. solis: pārskatiet OCR tekstu

Pārskatiet to pirms tulkošanas, nevis pēc. Nokopējiet tekstu no vairākām sarežģītām lapām un pārbaudiet, vai tas ir lasāms.

Pārbaudāmās parauglapas:

  • Titullapa.
  • Lapa ar blīvu pamattekstu.
  • Lapa ar tabulu.
  • Lapa ar zemsvītras piezīmēm.
  • Lapa ar sīku tekstu.
  • Lapa ar zīmogiem, rokrakstu vai piezīmēm malās.
  • Lapa katrā valodā, ja dokuments ir daudzvalodu.

Meklējiet:

  • Trūkstošas rindkopas.
  • Sapludinātas kolonnas.
  • Salauztus vārdus.
  • Nepareizas rakstzīmes.
  • Pazudušas diakritiskās zīmes.
  • No vērtībām atdalītas tabulu etiķetes.
  • Pamattekstā ievietotas galvenes.
  • Lappušu numurus, kas sajaukti ar teikumiem.

Ja OCR kvalitāte ir slikta, izlabojiet to pirms tulkošanas. Tulkotājs nevar uzticami atgūt nozīmi, ko OCR vispār nav uztvēris.

5. solis: iztulkojiet ar OCR apstrādāto PDF

Kad PDF ir tīrs teksta slānis, augšupielādējiet to uz PDF Translator. Tagad tulkošanas solis var strādāt ar tekstu, nevis lapu attēliem.

Pēc tulkošanas salīdziniet:

  • Oriģinālo skenējumu
  • OCR teksta slāni
  • Iztulkoto PDF

Šī trīspusējā pārbaude palīdz noteikt, vai kļūda radās OCR vai tulkošanā. Ja OCR teksts ir nepareizs, palaidiet OCR vēlreiz. Ja OCR teksts ir pareizs, bet tulkojums ir nepareizs, labojiet tulkojumu.

6. solis: pārskatiet augsta riska saturu

Skenētos dokumentos bieži ir tieši tas saturs, kam nepieciešama rūpīga pārbaude: veci līgumi, valsts iestāžu veidlapas, akadēmiskie darbi, rokasgrāmatas, vēsturiski dokumenti un grāmatu lapas.

Pārskatiet šos elementus manuāli:

  • Vārdus un nosaukumus
  • Datumus
  • Skaitļus
  • Adreses
  • Produktu kodus
  • Tiesiskās atsauces
  • Atsauces
  • Tabulu etiķetes
  • Vienības
  • Vienādojumus
  • Attēlu parakstus
  • Zemsvītras piezīmes

Pētniecības un akadēmiskiem failiem izlasiet arī ceļvedi par akadēmisko pētījumu rakstu tulkošanu, jo skenēti akadēmiskie PDF papildus OCR riskam rada arī atsauču un izkārtojuma riskus.

Kļūmju piemēri blakus salīdzinājumā

Izmantojiet šo tabulu, pārskatot OCR rezultātu.

Oriģinālajā skenējumā, visticamāk, redzamsKļūdains OCR rezultātsKāpēc tas ir svarīgi
modernmodemNozīme pilnībā mainās.
Section 10Section IOJuridiskās vai tehniskās atsauces var kļūt nepareizas.
20262O26Datumi un ID kļūst neuzticami.
patientpatlentMedicīniskie vai tehniskie termini kļūst nepareizi.
Divas atsevišķas kolonnasViena sapludināta rindkopaTulkojumā teikumi tiek lasīti nepareizā secībā.
Tabulas rinda ar etiķetēm un vērtībāmViena jaukta teksta rindaDati vairs neatbilst pareizajai etiķetei.
Zemsvītras piezīmes marķieris 1Burts lPiezīmes var piesaistīties nepareizajam teikumam.

Ja redzat šīs kļūdas OCR slānī, izlabojiet OCR pirms tulkošanas.

Kuru rīku izvēlēties?

Izvēlieties pēc dokumenta sarežģītības.

DokumentsIeteicamais ceļš
Tīrs biznesa skenējumsOCR Acrobat vai citā uzticamā OCR rīkā, pēc tam PDF Translator.
Vecas grāmatas skenējumsIztaisnojiet, uzlabojiet kontrastu, rūpīgi veiciet OCR un pēc tam tulkojiet.
Akadēmiska darba skenējumsVeiciet OCR, pārskatiet vienādojumus/atsauces/tabulas un pēc tam tulkojiet, pārbaudot izkārtojumu.
Rokraksta piezīmesPirms tulkošanas var būt nepieciešama manuāla pārrakstīšana.
Vienkāršs personisks dokumentsTiešsaistes OCR var būt pieņemams, ja privātuma risks ir zems.
Sensitīvs dokumentsIzmantojiet lokālu OCR vai uzticamu kontrolētu darbplūsmu.

Ja vēlaties plašāku rīku salīdzinājumu, skatiet ceļvedi par labākajiem PDF tulkotājiem.

Biežākās skenētu PDF problēmas

Zemas izšķirtspējas lapas

Zemas izšķirtspējas skenējumi sapludina burtus kopā. OCR var sajaukt rn un m, cl un d, kā arī pieturzīmes un putekļus.

Risinājums: ja iespējams, skenējiet vēlreiz. Ja ne, palieliniet kontrastu un mēģiniet OCR vēlreiz.

Šķības vai izliektas lapas

Grāmatu skenējumi bieži izliecas pie iesējuma. OCR slikti nolasa izliektās rindas un var pārkārtot tekstu.

Risinājums: izlīdziniet lapu, skenējiet vēlreiz vai izmantojiet OCR rīku ar iztaisnošanu un deformācijas korekciju.

Vairāku kolonnu izkārtojums

OCR var sapludināt kreiso un labo kolonnu vienā teikumu plūsmā.

Risinājums: pirms tulkošanas pārbaudiet lasīšanas secību. Akadēmiskiem darbiem te vajadzīga īpaša uzmanība.

Tabulas

Tabulas ir sarežģītas, jo OCR jāatpazīst gan teksts, gan struktūra. Tabula vizuāli var izskatīties pareiza, kamēr teksta slānis ir kļūdains.

Risinājums: nokopējiet OCR tekstu no tabulas un pārliecinieties, ka etiķetes joprojām atbilst vērtībām.

Rokraksts un paraksti

Drukāta teksta OCR ir daudz uzticamāks nekā rokraksta atpazīšana. Rokrakstā veidotas malas piezīmes, paraksti un aizpildītas veidlapas var tikt izlaistas vai sagrozītas.

Risinājums: pirms tulkošanas manuāli pārrakstiet būtisko rokrakstu.

Jauktas valodas

OCR darbojas vislabāk, ja zina avota valodu. Skenējums ar angļu, franču un ķīniešu valodu var neizdoties, ja OCR ir iestatīts tikai uz vienu valodu.

Risinājums: ja rīks to atbalsta, izvēlieties visas attiecīgās OCR valodas un pēc tam izlases kārtā pārbaudiet katru valodas sadaļu.

Privātuma un drošības kontrolsaraksts

Pirms augšupielādējat skenētu PDF jebkur, pajautājiet sev:

  • Vai dokuments satur personas datus?
  • Vai tajā ir medicīniski, juridiski, finanšu, akadēmiski vai nepublicēti materiāli?
  • Vai uz to attiecas klienta līgums vai skolas politika?
  • Vai šim dokumentam ir atļauts izmantot tiešsaistes OCR pakalpojumu?
  • Vai tā vietā jums vajadzīga lokāla darbplūsma?
  • Vai varat izņemt lapas, kuras nav jātulko?

Skenēti PDF bieži ir sensitīvi, jo tie nāk no līgumiem, ID dokumentiem, veidlapām, pētniecības melnrakstiem un iekšējiem arhīviem. Lēmumus par augšupielādi OCR rīkiem pieņemiet tāpat, kā izturētos pret oriģinālo dokumentu.

FAQ

Kā iztulkot skenētu PDF?

Vispirms veiciet OCR, lai izveidotu teksta slāni, pārskatiet OCR rezultātu un pēc tam iztulkojiet ar OCR apstrādāto PDF, izmantojot PDF Translator. Neizlaidiet OCR pārbaudes soli.

Kāpēc Google Translate neiztulkoja manu skenēto PDF?

PDF var būt tikai attēls. Ja nav teksta slāņa, Google Translate nav teksta, ko izvilkt. Vispirms izmantojiet OCR un tikai pēc tam tulkojiet. Google specifiskā darbplūsma ir aprakstīta Google Translate PDF ceļvedī.

Vai ChatGPT var iztulkot skenētu PDF?

ChatGPT var palīdzēt ar atsevišķiem attēliem vai izvilktu tekstu, bet vairāku lapu skenētam PDF joprojām vajag OCR un pārbaudi. Pilna dokumenta darbplūsmai vispirms veiciet OCR un pēc tam izmantojiet PDF tulkošanas darbplūsmu.

Kāds ir labākais OCR rīks skenētiem PDF?

Tas ir atkarīgs no dokumenta. Acrobat un ABBYY tipa rīki ir noderīgi gan vispārīgiem, gan sarežģītiem skenējumiem. Tesseract vai OCRmyPDF ir noderīgs lokālām tehniskām darbplūsmām. Tiešsaistes OCR var būt pietiekams vienkāršiem zema riska failiem, bet privātums un kvalitāte atšķiras.

Vai OCR var saglabāt formatējumu?

OCR var izveidot teksta slāni un dažkārt atjaunot lasīšanas secību, taču tas nav tas pats, kas saglabāt oriģinālo iztulkoto izkārtojumu. Pēc OCR izmantojiet PDF tulkošanas darbplūsmu un salīdziniet rezultātu ar oriģinālu.

Ko darīt, ja OCR kvalitāte ir slikta?

Pirms tulkošanas uzlabojiet skenējumu. Ja iespējams, skenējiet vēlreiz, iztaisnojiet lapas, palieliniet kontrastu, izgrieziet lieko, izvēlieties pareizo OCR valodu un vēlreiz pārskatiet sarežģītās lapas.