BookTranslator
BookTranslator

Sådan oversætter du en scannet PDF: Den komplette OCR + oversættelsesguide

Scannede PDF'er indeholder billeder af tekst, ikke egentlig tekst — derfor returnerer Google Translate dem uændret. Her er OCR + AI-pipelinen, der løser det.

BookTranslator

BookTranslator Team

Oversættelsesguides10 min read

Hurtigt svar: En scannet PDF kræver OCR før oversættelse

For at oversætte en scannet PDF skal du først køre OCR for at omdanne sidebillederne til markerbar tekst. Oversæt derefter den OCR-behandlede PDF med en dokumentoversætter som PDF-oversætter. Hvis du springer OCR over, vil mange oversættelsesværktøjer returnere den oprindelige fil uændret, overse sider eller kun oversætte de dele, der allerede indeholder et tekstlag.

Brug denne arbejdsgang:

  1. Åbn PDF'en, og prøv at markere en sætning.
  2. Hvis du ikke kan markere tekst, så kør OCR.
  3. Gennemgå OCR-teksten før oversættelse.
  4. Upload den OCR-behandlede PDF til PDF-oversætter.
  5. Gennemgå det oversatte output i forhold til den oprindelige scanning.

Hvis din PDF allerede har markerbar tekst, og problemet er bevaring af layout, så brug guiden til at oversætte en PDF uden at miste formateringen.

Hvorfor scannede PDF'er fejler i oversættelsesværktøjer

En scannet PDF er ofte bare et sæt sidebilleder inde i en PDF-container. Siden kan vise ord for et menneske, men filen indeholder muligvis ikke egentlig tekst, som software kan udtrække.

Det skaber et enkelt problem:

FiltypeHvad oversætteren serHvad der sker
Tekstbaseret PDFTekst plus layoutdataOversættelsen kan starte med det samme.
Kun billedscannet PDFBilleder af siderOCR er påkrævet først.
Tekst-over-billede PDFScannet billede plus skjult OCR-tekstlagOversættelse kan fungere, men OCR-fejl påvirker kvaliteten.

Den mest nyttige test er ikke teknisk:

  1. Åbn PDF'en.
  2. Prøv at markere enkelte ord.
  3. Kopiér en sætning.
  4. Indsæt den i et tekstredigeringsprogram.

Hvis sætningen indsættes korrekt, har PDF'en et tekstlag. Hvis intet indsættes, eller hele siden opfører sig som ét billede, har PDF'en brug for OCR.

OCR er ikke valgfrit

OCR betyder optisk tegngenkendelse. Det læser tekst fra et billede og skaber maskinlæsbar tekst. Ved PDF-oversættelse opretter OCR normalt et usynligt tekstlag oven på den scannede side.

Det tekstlag bliver kilden til oversættelsen. Hvis OCR laver fejl, arver oversættelsen de fejl.

Almindelige OCR-fejl:

OCR-fejlRisiko ved oversættelse
rn læses som mOrd ændrer betydning.
1 læses som lTal, referencer eller koder bliver forkerte.
O læses som 0ID'er, formler og navne kan bryde sammen.
Accenter forsvinderNavne og termer bliver unøjagtige.
Kolonner flettes sammenSætninger oversættes i forkert rækkefølge.
Tabelceller læses forkert række for rækkeDatalabels matcher ikke længere værdierne.
Fodnoter behandles som brødtekstCitater og noter havner i den forkerte kontekst.

Derfor er OCR-gennemgangen vigtig. Oversæt ikke et scannet dokument, før du har stikprøvekontrolleret den udtrukne tekst.

OCR-først-arbejdsgangen

Trin 1: Identificér PDF-typen

Prøv at markere tekst. Hvis markering virker, har du muligvis ikke brug for OCR. Hvis markering mislykkes, skal du behandle filen som et dokument, der kun består af billeder.

Undersøg også siden visuelt:

  • Skæve sider tyder på en scanning.
  • Grå papirtekstur tyder på en scanning.
  • Skygger tæt ved ryggen tyder på en fotograferet bog.
  • Ujævn kontrast tyder på en fotokopi.
  • Hvis søgning ikke finder synlige ord, tyder det på, at der ikke er noget tekstlag.

Trin 2: Forbedr scanningen, hvis det er muligt

OCR-kvalitet starter med billedkvalitet. Hvis du kan scanne igen, så gør det, før du bruger tid på at reparere OCR-fejl.

Brug denne tjekliste for billedkvalitet:

  • Scan i høj nok opløsning til lille tekst.
  • Hold siderne flade og lige.
  • Undgå skygger ved ryggen.
  • Beskær bordkanter, fingre eller rod i baggrunden væk.
  • Brug stærk kontrast mellem tekst og side.
  • Sørg for, at hele linjen er synlig.
  • Brug korrekt sideretning.
  • Komprimér ikke billedet så hårdt, at bogstaverne bliver slørede.

For gamle bøger og fotokopier kommer de største gevinster normalt fra opretning, kontrastkorrektion og genscanning af sider, der er ude af fokus.

Trin 3: Kør OCR

Vælg et OCR-værktøj ud fra dokumentet, ikke mærket.

OCR-mulighedBedst tilVær opmærksom på
Adobe Acrobat OCRGenerelle forretningsscanninger og oprydning i PDF'erTjek adgang til den aktuelle plan, før du stoler på den.
ABBYY FineReaderKomplekse scanninger, tabeller, kolonner og vanskelige layoutsKræver stadig manuel gennemgang.
Tesseract eller OCRmyPDFLokal, teknisk og gentagelig OCR-arbejdsgangKræver, at du er fortrolig med kommandolinjeværktøjer.
Online OCR-værktøjerLejlighedsvise filer med lav risikoPrivatliv, filgrænser og kvalitet varierer.
Scanningsapps til telefonHurtig optagelse af en ny scanningPerspektivforvrængning kan skade OCR.

Til private kontrakter, journaler, finansielle dokumenter, upublicerede manuskripter eller akademisk arbejde under bedømmelse bør du foretrække en lokal OCR-arbejdsgang eller et betroet miljø. Upload ikke følsomme scanninger til tilfældige gratis OCR-sider.

Trin 4: Gennemgå OCR-teksten

Gennemgå før oversættelse, ikke efter. Kopiér tekst fra flere vanskelige sider, og tjek, om den er læsbar.

Eksempelsider, du bør inspicere:

  • Titelsiden.
  • En tæt side med brødtekst.
  • En side med en tabel.
  • En side med fodnoter.
  • En side med lille tekst.
  • En side med stempler, håndskrift eller noter i margen.
  • En side på hvert sprog, hvis dokumentet er flersproget.

Se efter:

  • Manglende afsnit.
  • Sammenflettede kolonner.
  • Opdelte ord.
  • Forkerte tegn.
  • Mistede diakritiske tegn.
  • Tabelmærkater adskilt fra værdier.
  • Sidehoveder indsat i brødteksten.
  • Sidetal blandet ind i sætninger.

Hvis OCR-kvaliteten er dårlig, så ret det før oversættelse. En oversætter kan ikke pålideligt genskabe betydning, som OCR aldrig fangede.

Trin 5: Oversæt den OCR-behandlede PDF

Når PDF'en har et rent tekstlag, skal du uploade den til PDF-oversætter. Oversættelsestrinnet kan nu arbejde med tekst i stedet for sidebilleder.

Sammenlign efter oversættelsen:

  • Oprindelig scanning
  • OCR-tekstlag
  • Oversat PDF

Denne trevejsgennemgang hjælper dig med at identificere, om en fejl kom fra OCR eller oversættelsen. Hvis OCR-teksten er forkert, skal du køre OCR igen. Hvis OCR-teksten er korrekt, men oversættelsen er forkert, skal du rette oversættelsen.

Trin 6: Gennemgå indhold med høj risiko

Scannede dokumenter indeholder ofte netop det indhold, der kræver omhyggelig gennemgang: gamle kontrakter, offentlige formularer, akademiske artikler, manualer, historiske dokumenter og bogsider.

Gennemgå disse elementer manuelt:

  • Navne
  • Datoer
  • Tal
  • Adresser
  • Produktkoder
  • Juridiske henvisninger
  • Citater
  • Tabelmærkater
  • Enheder
  • Ligninger
  • Billedtekster
  • Fodnoter

For forsknings- og akademiske filer bør du også læse guiden til oversættelse af akademiske forskningsartikler, fordi scannede akademiske PDF'er tilføjer risiko omkring citater og layout oven i OCR-risikoen.

Side-om-side-eksempler på fejl

Brug denne tabel, mens du gennemgår OCR-output.

Den oprindelige scanning viser sandsynligvisDårligt OCR-outputHvorfor det betyder noget
modernmodemBetydningen ændrer sig fuldstændigt.
Section 10Section IOJuridiske eller tekniske referencer kan bryde sammen.
20262O26Datoer og ID'er bliver upålidelige.
patientpatlentMedicinske eller tekniske termer bliver forkerte.
To separate kolonnerÉt sammenflettet afsnitOversættelsen læser sætninger i forkert rækkefølge.
Tabelrække med mærkater og værdierEn enkelt linje med blandet tekstData matcher ikke længere den rigtige mærkat.
Fodnotemarkør 1Bogstavet lNoter kan blive knyttet til den forkerte sætning.

Hvis du ser disse fejl i OCR-laget, skal du rette OCR, før du oversætter.

Hvilket værktøj skal du bruge?

Vælg ud fra dokumentets sværhedsgrad.

DokumentAnbefalet vej
Ren forretningsscanningOCR i Acrobat eller et andet pålideligt OCR-værktøj, derefter PDF-oversætter.
Scanning af gammel bogOpret og forbedr kontrasten, kør OCR omhyggeligt, og oversæt derefter.
Scanning af akademisk artikelOCR, gennemgå ligninger/citater/tabeller, og oversæt derefter med layoutgennemgang.
Håndskrevne noterManuel transskription kan være nødvendig før oversættelse.
Simpelt personligt dokumentOnline OCR kan være acceptabelt, hvis privatlivsrisikoen er lav.
Følsomt dokumentBrug lokal OCR eller en betroet, kontrolleret arbejdsgang.

Hvis du vil have den bredere værktøjssammenligning, så se guiden til de bedste PDF-oversættelsesværktøjer i 2026.

Almindelige problemer med scannede PDF'er

Sider med lav opløsning

Scanninger i lav opløsning slører bogstaver sammen. OCR kan forveksle rn og m, cl og d eller tegnsætning og støv.

Løsning: Scan igen, hvis det er muligt. Hvis ikke, så øg kontrasten og prøv OCR igen.

Skæve eller buede sider

Bogsanninger buer ofte tæt ved ryggen. OCR læser de buede linjer dårligt og kan omarrangere teksten.

Løsning: Gør siden flad, scan igen, eller brug et OCR-værktøj med opretning og afkrumning.

Layout med flere kolonner

OCR kan flette venstre og højre kolonne sammen til én tekststrøm.

Løsning: Kontrollér læserækkefølgen før oversættelse. Akademiske artikler kræver særlig opmærksomhed her.

Tabeller

Tabeller er svære, fordi OCR både skal registrere tekst og struktur. En tabel kan se korrekt ud visuelt, mens tekstlaget er forkert.

Løsning: Kopiér OCR-teksten fra tabellen, og bekræft, at mærkaterne stadig matcher værdierne.

Håndskrift og underskrifter

OCR til trykt tekst er langt mere pålidelig end håndskriftsgenkendelse. Håndskrevne noter i margen, underskrifter og udfyldte formularer kan blive overset eller forvansket.

Løsning: Transskriber vigtig håndskrift manuelt før oversættelse.

Blandede sprog

OCR fungerer bedst, når det kender kildesproget. En scanning med engelsk, fransk og kinesisk kan fejle, hvis OCR er indstillet til kun ét sprog.

Løsning: Vælg alle relevante OCR-sprog, hvis værktøjet understøtter det, og stikprøvekontrollér derefter hver sprogsektion.

Tjekliste for privatliv og sikkerhed

Før du uploader en scannet PDF nogen steder, så spørg:

  • Indeholder dokumentet personoplysninger?
  • Indeholder det medicinsk, juridisk, finansielt, akademisk eller upubliceret materiale?
  • Er det omfattet af en klientaftale eller skolens regler?
  • Er en online OCR-tjeneste tilladt til dette dokument?
  • Har du i stedet brug for en lokal arbejdsgang?
  • Kan du fjerne sider, der ikke behøver oversættelse?

Scannede PDF'er er ofte følsomme, fordi de kommer fra kontrakter, ID'er, formularer, forskningsudkast og interne arkiver. Behandl beslutninger om OCR-upload på samme måde, som du ville behandle det oprindelige dokument.

FAQ

Hvordan oversætter jeg en scannet PDF?

Kør først OCR for at oprette et tekstlag, gennemgå OCR-outputtet, og oversæt derefter den OCR-behandlede PDF med PDF-oversætter. Spring ikke OCR-gennemgangen over.

Hvorfor oversatte Google Translate ikke min scannede PDF?

PDF'en kan være billedbaseret. Hvis der ikke er noget tekstlag, har Google Translate ingen tekst at udtrække. Brug først OCR, og oversæt derefter. Den Google-specifikke arbejdsgang er dækket i guiden til Google Translate PDF.

Kan ChatGPT oversætte en scannet PDF?

ChatGPT kan måske hjælpe med enkelte billeder eller udtrukket tekst, men en flersidet scannet PDF kræver stadig OCR og gennemgang. Til fuld dokumentarbejdsgang: først OCR, derefter en arbejdsgang til PDF-oversættelse.

Hvad er det bedste OCR-værktøj til scannede PDF'er?

Det afhænger af dokumentet. Værktøjer som Acrobat og ABBYY er nyttige til generelle og komplekse scanninger. Tesseract eller OCRmyPDF er nyttigt til lokale, tekniske arbejdsgange. Online OCR kan fungere fint til simple filer med lav risiko, men privatliv og kvalitet varierer.

Kan OCR bevare formateringen?

OCR kan oprette et tekstlag og nogle gange genskabe læserækkefølgen, men det er ikke det samme som at bevare det oprindelige oversatte layout. Efter OCR skal du bruge en arbejdsgang til PDF-oversættelse og gennemgå outputtet i forhold til originalen.

Hvad hvis OCR-kvaliteten er dårlig?

Forbedr scanningen før oversættelse. Scan igen, hvis det er muligt, ret siderne op, øg kontrasten, beskær rod væk, vælg det korrekte OCR-sprog, og gennemgå de vanskelige sider igen.