BookTranslator
BookTranslator

Slik omset du ein skanna PDF: den komplette OCR + omsetjingsguiden

Skanna PDF-ar inneheld bilete av tekst, ikkje sjølve teksten — derfor returnerer Google Translate dei uendra. Her er OCR + AI-arbeidsflyten som løyser problemet.

BookTranslator

BookTranslator Team

Omsetjingsvegleiingar10 min read

Kort svar: Ein skanna PDF treng OCR før omsetjing

For å omsetje ein skanna PDF må du først køyre OCR, slik at sidebileta blir gjorde om til tekst du kan markere. Deretter kan du omsetje den OCR-behandla PDF-en med ein dokumentomsetjar som PDF-omsetjar. Hoppar du over OCR, vil mange omsetjingsverktøy returnere originalfila uendra, hoppe over sider eller berre omsetje dei delane som allereie har eit tekstlag.

Bruk denne arbeidsflyten:

  1. Opne PDF-en og prøv å markere ei setning.
  2. Viss du ikkje kan markere tekst, køyr OCR.
  3. Gå gjennom OCR-teksten før du omset.
  4. Last opp den OCR-behandla PDF-en til PDF-omsetjar.
  5. Gå gjennom den omsette utgåva opp mot den opphavlege skanninga.

Viss PDF-en din allereie har tekst du kan markere, og problemet er å bevare layouten, bruk guiden til å omsetje ein PDF utan å miste formateringa.

Kvifor skanna PDF-ar sviktar i omsetjingsverktøy

Ein skanna PDF er ofte berre eit sett med sidebilete inni ei PDF-fil. Sida kan vise ord til eit menneske, men fila inneheld kanskje ikkje faktisk tekst som programvare kan hente ut.

Det skaper eit enkelt problem:

FiltypeKva omsetjaren serKva som skjer
Tekstbasert PDFTekst og layoutdataOmsetjing kan starte med ein gong.
Skanna PDF berre med bileteBilete av siderOCR er nødvendig først.
PDF med tekst over bileteSkanningsbilete pluss skjult OCR-tekstlagOmsetjing kan fungere, men OCR-feil påverkar kvaliteten.

Den mest nyttige testen er ikkje teknisk:

  1. Opne PDF-en.
  2. Prøv å markere enkeltord.
  3. Kopier ei setning.
  4. Lim henne inn i eit tekstredigeringsprogram.

Viss setninga blir limt inn korrekt, har PDF-en eit tekstlag. Viss ingenting blir limt inn, eller heile sida oppfører seg som eitt bilete, treng PDF-en OCR.

OCR er ikkje valfritt

OCR betyr optisk teikngjenkjenning. Det les tekst frå eit bilete og lagar maskinlesbar tekst. For PDF-omsetjing lagar OCR vanlegvis eit usynleg tekstlag over den skanna sida.

Det tekstlaget blir kjelda for omsetjinga. Gjer OCR feil, arvar omsetjinga dei feila.

Vanlege OCR-feil:

OCR-feilRisiko i omsetjinga
rn lese som mOrd får ei anna meining.
1 lese som lTal, referansar eller kodar blir feil.
O lese som 0ID-ar, formlar og namn kan bli øydelagde.
Aksentar fell bortNamn og termar blir unøyaktige.
Kolonnar blir slått samanSetningar blir omsette i feil rekkjefølgje.
Tabellceller blir lesne radvis på feil måteDataetikettar samsvarar ikkje lenger med verdiane.
Fotnotar blir behandla som brødtekstKjeldehenvisingar og merknader hamnar i feil samanheng.

Derfor er kontrollsteget for OCR viktig. Ikkje omset eit skanna dokument før du har stikkprøvekontrollert den utvunne teksten.

Arbeidsflyten med OCR først

Steg 1: Finn ut kva slags PDF du har

Prøv å markere tekst. Viss det fungerer, treng du kanskje ikkje OCR. Viss det ikkje fungerer, bør du behandle fila som biletbasert.

Sjå òg på sida visuelt:

  • Skjeve sider tyder på skanning.
  • Grå papirstruktur tyder på skanning.
  • Skyggar nær ryggen tyder på ei fotografert bok.
  • Ujamn kontrast tyder på ein fotokopi.
  • Viss søk ikkje finn synlege ord, tyder det på at det ikkje finst noko tekstlag.

Steg 2: Forbetr skanninga om mogleg

OCR-kvaliteten startar med biletkvaliteten. Viss du kan skanne på nytt, gjer det før du bruker tid på å rette OCR-feil.

Bruk denne sjekklista for biletkvalitet:

  • Skann med høg nok oppløysing for liten tekst.
  • Hald sidene flate og rette.
  • Unngå skyggar nær ryggen.
  • Beskjær bort bordkantar, fingrar eller rot i bakgrunnen.
  • Sørg for tydeleg kontrast mellom tekst og side.
  • Pass på at heile linja er synleg.
  • Bruk rett sideorientering.
  • Ikkje komprimer biletet så hardt at bokstavane blir utydelege.

For gamle bøker og fotokopiar kjem dei største gevinstane vanlegvis frå å rette opp skeive sider, justere kontrasten og skanne på nytt sider som er ute av fokus.

Steg 3: Køyr OCR

Vel OCR-verktøy ut frå dokumentet, ikkje merket.

OCR-alternativBest forVer merksam på
Adobe Acrobat OCRVanlege kontorskanningar og PDF-oppryddingSjekk tilgangen i abonnementet ditt før du stolar på det.
ABBYY FineReaderKomplekse skanningar, tabellar, kolonnar og vanskelege layoutarKrev framleis manuell kontroll.
Tesseract eller OCRmyPDFLokale, tekniske og repeterbare OCR-arbeidsflytarKrev at du er komfortabel med kommandolinjeverktøy.
Nettbaserte OCR-verktøyEnkle sporadiske filer med låg risikoPersonvern, filgrenser og kvalitet varierer.
Mobilappar for skanningÅ ta ei ny skanning rasktPerspektivforvrenging kan svekkje OCR-kvaliteten.

For private kontraktar, medisinske journalar, finansielle dokument, upubliserte manus eller akademiske arbeid under vurdering bør du bruke ein lokal OCR-arbeidsflyt eller eit påliteleg kontrollert miljø. Ikkje last opp sensitive skanningar til tilfeldige gratis OCR-nettsider.

Steg 4: Gå gjennom OCR-teksten

Gå gjennom før omsetjing, ikkje etterpå. Kopier tekst frå fleire vanskelege sider og sjekk om han er lesbar.

Sider du bør kontrollere:

  • Tittelsida.
  • Ei tett side med brødtekst.
  • Ei side med tabell.
  • Ei side med fotnotar.
  • Ei side med liten tekst.
  • Ei side med stempel, handskrift eller margenotat.
  • Ei side på kvart språk viss dokumentet er fleirspråkleg.

Sjå etter:

  • Manglande avsnitt.
  • Samanslåtte kolonnar.
  • Øydelagde ord.
  • Feil teikn.
  • Manglande diakritiske teikn.
  • Tabellabelar som er skilde frå verdiane sine.
  • Overskrifter som er sette inn i brødteksten.
  • Sidetal som er blanda inn i setningar.

Viss OCR-kvaliteten er dårleg, rett det før omsetjing. Ein omsetjar kan ikkje påliteleg hente tilbake meining som OCR aldri fanga.

Steg 5: Omset den OCR-behandla PDF-en

Når PDF-en har eit reint tekstlag, kan du laste han opp til PDF-omsetjar. No kan omsetjinga arbeide med tekst i staden for sidebilete.

Etter omsetjinga bør du samanlikne:

  • Den opphavlege skanninga
  • OCR-tekstlaget
  • Den omsette PDF-en

Denne trevegs-kontrollen hjelper deg å finne ut om ein feil kjem frå OCR eller omsetjinga. Viss OCR-teksten er feil, køyr OCR på nytt. Viss OCR-teksten er rett, men omsetjinga er feil, rett omsetjinga.

Steg 6: Gå gjennom innhald med høg risiko

Skanna dokument inneheld ofte nettopp det innhaldet som krev nøye kontroll: gamle kontraktar, offentlege skjema, akademiske artiklar, manualar, historiske dokument og boksider.

Gå manuelt gjennom desse punkta:

  • Namn
  • Datoar
  • Tal
  • Adresser
  • Produktkodar
  • Juridiske referansar
  • Kjeldehenvisingar
  • Tabellabelar
  • Einingar
  • Likningar
  • Bilettekstar
  • Fotnotar

For forskings- og akademiske filer bør du òg lese guiden til å omsetje akademiske forskingsartiklar, fordi skanna akademiske PDF-ar legg til risiko rundt siteringar og layout oppå OCR-risikoen.

Feileksempel side om side

Bruk denne tabellen når du går gjennom OCR-resultatet.

Det originale skanningsbiletet viser trulegDårleg OCR-resultatKvifor det betyr noko
modernmodemMeininga blir heilt annleis.
Section 10Section IOJuridiske eller tekniske referansar kan bli feil.
20262O26Datoar og ID-ar blir upålitelege.
patientpatlentMedisinske eller tekniske termar blir feil.
To separate kolonnarEitt samanslått avsnittOmsetjinga les setningane i feil rekkjefølgje.
Tabellrad med etikettar og verdiarEi enkelt linje med blanda tekstData knyter seg ikkje lenger til rett etikett.
Fotnotemerke 1Bokstaven lMerknader kan bli kopla til feil setning.

Viss du ser desse feila i OCR-laget, rett OCR før du omset.

Kva verktøy bør du bruke?

Vel etter kor vanskeleg dokumentet er.

DokumentTilrådd framgangsmåte
Rein kontorskanningOCR i Acrobat eller eit anna påliteleg OCR-verktøy, deretter PDF-omsetjar.
Skanning av gammal bokRett opp skeivskap og forbetr kontrasten, køyr OCR nøye, og omset deretter.
Skanning av akademisk artikkelOCR, gå gjennom likningar/kjeldehenvisingar/tabellar, og omset deretter med layoutkontroll.
Handskrivne notatManuell transkribering kan vere nødvendig før omsetjing.
Eit enkelt personleg dokumentNettbasert OCR kan vere akseptabelt dersom personvernrisikoen er låg.
Sensitivt dokumentBruk lokal OCR eller ein påliteleg kontrollert arbeidsflyt.

Viss du vil ha den breiare samanlikninga av verktøy, sjå guiden til dei beste PDF-omsetjarane.

Vanlege problem med skanna PDF-ar

Sider med låg oppløysing

Skanningar med låg oppløysing gjer at bokstavar flyt saman. OCR kan forveksle rn og m, cl og d, eller skiljeteikn og støv.

Løysing: skann på nytt om mogleg. Viss ikkje, auk kontrasten og prøv OCR på nytt.

Skjeve eller bogna sider

Bokskanningar bogar seg ofte nær ryggen. OCR les dei bøygde linjene dårleg og kan endre rekkjefølgja på teksten.

Løysing: rett ut sida, skann på nytt, eller bruk eit OCR-verktøy med oppretting av skeivskap og dewarping.

Layout med fleire kolonnar

OCR kan slå saman venstre og høgre kolonne til éin straum av setningar.

Løysing: kontroller leserekkjefølgja før omsetjing. Akademiske artiklar krev ekstra merksemd her.

Tabellar

Tabellar er vanskelege fordi OCR må oppdage både tekst og struktur. Ein tabell kan sjå korrekt ut visuelt, medan tekstlaget likevel er feil.

Løysing: kopier OCR-teksten frå tabellen og stadfest at etikettane framleis samsvarar med verdiane.

Handskrift og signaturar

OCR for trykt tekst er mykje meir påliteleg enn handskriftsgjenkjenning. Handskrivne margenotat, signaturar og utfylte skjema kan bli oversette eller forvrengde.

Løysing: transkriber viktig handskrift manuelt før omsetjing.

Blanda språk

OCR fungerer best når det kjenner kjeldespråket. Ei skanning med engelsk, fransk og kinesisk kan feile viss OCR er sett til berre eitt språk.

Løysing: vel alle relevante OCR-språk viss verktøyet støttar det, og stikkprøvekontroller deretter kvar språkdel.

Sjekkliste for personvern og tryggleik

Før du lastar opp ein skanna PDF nokon stad, spør:

  • Inneheld dokumentet personopplysningar?
  • Inneheld det medisinsk, juridisk, finansielt, akademisk eller upublisert materiale?
  • Er det omfatta av ei kundeavtale eller retningslinjer ved skulen?
  • Er ei nettbasert OCR-teneste tillaten for dette dokumentet?
  • Treng du heller ein lokal arbeidsflyt?
  • Kan du fjerne sider som ikkje treng omsetjing?

Skanna PDF-ar er ofte sensitive fordi dei kjem frå kontraktar, ID-dokument, skjema, forskingsutkast og interne arkiv. Handsam val om OCR-opplasting på same måten som du ville handsama originaldokumentet.

Vanlege spørsmål

Korleis omset eg ein skanna PDF?

Køyr OCR først for å lage eit tekstlag, gå gjennom OCR-resultatet, og omset deretter den OCR-behandla PDF-en med PDF-omsetjar. Ikkje hopp over kontrollsteget for OCR.

Kvifor omsette ikkje Google Translate den skanna PDF-en min?

PDF-en kan vere biletbasert. Viss det ikkje finst noko tekstlag, har Google Translate ingen tekst å hente ut. Bruk OCR først, og omset deretter. Den Google-spesifikke arbeidsflyten er forklart i guiden til Google Translate for PDF.

Kan ChatGPT omsetje ein skanna PDF?

ChatGPT kan hjelpe med enkeltbilete eller tekst som allereie er trekt ut, men ein skanna PDF på fleire sider treng framleis OCR og kontroll. For ein full dokumentarbeidsflyt bør du bruke OCR først og deretter ein arbeidsflyt for PDF-omsetjing.

Kva er det beste OCR-verktøyet for skanna PDF-ar?

Det kjem an på dokumentet. Acrobat og ABBYY-liknande verktøy er nyttige for generelle og komplekse skanningar. Tesseract eller OCRmyPDF er nyttig for lokale tekniske arbeidsflytar. Nettbasert OCR kan vere greitt for enkle filer med låg risiko, men personvern og kvalitet varierer.

Kan OCR bevare formateringa?

OCR kan lage eit tekstlag og av og til gjenopprette leserekkjefølgja, men det er ikkje det same som å bevare den opphavlege omsette layouten. Etter OCR bør du bruke ein arbeidsflyt for PDF-omsetjing og kontrollere resultatet opp mot originalen.

Kva om OCR-kvaliteten er dårleg?

Forbetr skanninga før du omset. Skann på nytt om mogleg, rett opp skeive sider, auk kontrasten, beskjær rot, vel rett OCR-språk, og gå gjennom dei vanskelege sidene på nytt.