BookTranslator
BookTranslator

Hvordan oversette en skannet PDF: den komplette guiden til OCR og oversettelse

Skannede PDF-er inneholder bilder av tekst, ikke faktisk tekst — derfor returnerer Google Translate dem uendret. Her er OCR + AI-arbeidsflyten som løser det.

BookTranslator

BookTranslator Team

Oversettelsesguider10 min read

Kort svar: En skannet PDF trenger OCR før oversettelse

For å oversette en skannet PDF må du først kjøre OCR for å gjøre sidebildene om til markerbar tekst. Deretter kan du oversette den OCR-behandlede PDF-en med en dokumentoversetter som PDF-oversetter. Hvis du hopper over OCR, vil mange oversettelsesverktøy returnere originalfilen uendret, hoppe over sider eller bare oversette delene som allerede har et tekstlag.

Bruk denne arbeidsflyten:

  1. Åpne PDF-en og prøv å markere en setning.
  2. Hvis du ikke kan markere tekst, kjør OCR.
  3. Gå gjennom OCR-teksten før du oversetter.
  4. Last opp den OCR-behandlede PDF-en til PDF-oversetter.
  5. Gå gjennom det oversatte resultatet opp mot den opprinnelige skanningen.

Hvis PDF-en allerede har markerbar tekst og problemet er å bevare layouten, kan du bruke guiden om å oversette en PDF uten å miste formateringen.

Hvorfor skannede PDF-er ikke fungerer i oversettelsesverktøy

En skannet PDF er ofte bare et sett med sidebilder inne i en PDF-beholder. Siden kan vise ord for et menneske, men filen inneholder kanskje ikke faktisk tekst som programvare kan hente ut.

Det skaper et enkelt problem:

FiltypeHva oversetteren serHva som skjer
Tekstbasert PDFTekst pluss layoutdataOversettelsen kan starte med en gang.
Skannet PDF med bare bilderBilder av siderOCR må kjøres først.
PDF med tekst over bildeSkanningsbilde pluss skjult OCR-tekstlagOversettelse kan fungere, men OCR-feil påvirker kvaliteten.

Den mest nyttige testen er ikke teknisk:

  1. Åpne PDF-en.
  2. Prøv å markere enkeltord.
  3. Kopier en setning.
  4. Lim den inn i et tekstredigeringsprogram.

Hvis setningen limes inn riktig, har PDF-en et tekstlag. Hvis ingenting limes inn, eller hele siden oppfører seg som ett bilde, trenger PDF-en OCR.

OCR er ikke valgfritt

OCR står for optisk tegngjenkjenning. Det leser tekst fra et bilde og lager maskinlesbar tekst. For PDF-oversettelse lager OCR vanligvis et usynlig tekstlag over den skannede siden.

Dette tekstlaget blir kilden for oversettelsen. Hvis OCR gjør feil, arver oversettelsen de feilene.

Vanlige OCR-feil:

OCR-feilRisiko ved oversettelse
rn lest som mOrd får en annen betydning.
1 lest som lTall, referanser eller koder blir feil.
O lest som 0ID-er, formler og navn kan bli ødelagt.
Aksenter droppesNavn og begreper blir unøyaktige.
Kolonner slås sammenSetninger oversettes i feil rekkefølge.
Tabellceller leses radvis på feil måteDataetiketter samsvarer ikke lenger med verdier.
Fotnoter behandles som brødtekstSitater og noter havner i feil kontekst.

Derfor er OCR-gjennomgangen viktig. Ikke oversett et skannet dokument før du har stikkprøvekontrollert den uttrukne teksten.

Arbeidsflyten med OCR først

Trinn 1: Identifiser PDF-typen

Prøv å markere tekst. Hvis markering fungerer, trenger du kanskje ikke OCR. Hvis markering ikke fungerer, bør du behandle filen som en bildefil uten tekst.

Se også på siden visuelt:

  • Skjeve sider tyder på en skanning.
  • Grå papirtekstur tyder på en skanning.
  • Skygger nær ryggen tyder på en fotografert bok.
  • Ujevn kontrast tyder på en fotokopi.
  • Hvis søk ikke finner synlige ord, tyder det på at det ikke finnes noe tekstlag.

Trinn 2: Forbedre skanningen hvis mulig

OCR-kvaliteten starter med bildekvaliteten. Hvis du kan skanne på nytt, bør du gjøre det før du bruker tid på å reparere OCR-feil.

Bruk denne sjekklisten for bildekvalitet:

  • Skann i høy nok oppløsning for liten tekst.
  • Hold sidene flate og rette.
  • Unngå skygger nær ryggen.
  • Beskjær bort bordkanter, fingre eller rot i bakgrunnen.
  • Bruk sterk kontrast mellom tekst og side.
  • Sørg for at hele linjen er synlig.
  • Bruk riktig sideretning.
  • Ikke komprimer bildet så hardt at bokstavene blir uklare.

For gamle bøker og fotokopier kommer de største gevinstene vanligvis fra å rette opp skjevhet, korrigere kontrast og skanne på nytt sider som er ute av fokus.

Trinn 3: Kjør OCR

Velg et OCR-verktøy ut fra dokumentet, ikke merket.

OCR-alternativBest forPass på
Adobe Acrobat OCRGenerelle forretningsskanninger og opprydding i PDF-erSjekk tilgang i nåværende abonnement før du baserer deg på det.
ABBYY FineReaderKomplekse skanninger, tabeller, kolonner og vanskelige oppsettKrever fortsatt manuell gjennomgang.
Tesseract eller OCRmyPDFLokale, tekniske og repeterbare OCR-arbeidsflyterKrever at du er komfortabel med kommandolinjeverktøy.
Nettbaserte OCR-verktøyFiler med lav risiko ved sporadisk brukPersonvern, filgrenser og kvalitet varierer.
Mobilapper for skanningÅ lage en ny skanning rasktPerspektivforvrengning kan svekke OCR-resultatet.

For private kontrakter, journaler, finansielle dokumenter, upubliserte manuskripter eller akademisk arbeid under vurdering bør du foretrekke en lokal OCR-arbeidsflyt eller et pålitelig miljø. Ikke last opp sensitive skanninger til tilfeldige gratis OCR-nettsteder.

Trinn 4: Gå gjennom OCR-teksten

Gå gjennom før oversettelse, ikke etter. Kopier tekst fra flere vanskelige sider og sjekk om den er lesbar.

Eksempelsider å inspisere:

  • Tittelsiden.
  • En tettpakket brødtekstsiden.
  • En tabellside.
  • En side med fotnoter.
  • En side med liten tekst.
  • En side med stempler, håndskrift eller margnotater.
  • En side på hvert språk hvis dokumentet er flerspråklig.

Se etter:

  • Manglende avsnitt.
  • Sammenslåtte kolonner.
  • Ødelagte ord.
  • Feil tegn.
  • Manglende diakritiske tegn.
  • Tabellabels skilt fra verdier.
  • Overskrifter satt inn i brødtekst.
  • Sidetall blandet inn i setninger.

Hvis OCR-kvaliteten er dårlig, må du rette det før oversettelse. Et oversettelsesverktøy kan ikke pålitelig gjenopprette mening som OCR aldri fanget opp.

Trinn 5: Oversett den OCR-behandlede PDF-en

Når PDF-en har et rent tekstlag, kan du laste den opp til PDF-oversetter. Oversettelsessteget kan nå arbeide med tekst i stedet for sidebilder.

Etter oversettelse, sammenlign:

  • Original skanning
  • OCR-tekstlag
  • Oversatt PDF

Denne treveisgjennomgangen hjelper deg med å identifisere om en feil kom fra OCR eller oversettelsen. Hvis OCR-teksten er feil, kjør OCR på nytt. Hvis OCR-teksten er riktig, men oversettelsen er feil, må du rette oversettelsen.

Trinn 6: Gå gjennom innhold med høy risiko

Skannede dokumenter inneholder ofte akkurat den typen innhold som trenger nøye gjennomgang: gamle kontrakter, offentlige skjemaer, akademiske artikler, manualer, historiske dokumenter og boksider.

Gå gjennom disse elementene manuelt:

  • Navn
  • Datoer
  • Tall
  • Adresser
  • Produktkoder
  • Juridiske referanser
  • Sitater
  • Tabellabels
  • Enheter
  • Ligninger
  • Bildetekster
  • Fotnoter

For forsknings- og akademiske filer bør du også lese guiden om å oversette akademiske forskningsartikler, fordi skannede akademiske PDF-er legger til risiko rundt sitater og layout på toppen av OCR-risikoen.

Feileksempler side om side

Bruk denne tabellen når du går gjennom OCR-resultatet.

Det den opprinnelige skanningen sannsynligvis viserDårlig OCR-resultatHvorfor det betyr noe
modernmodemBetydningen endres fullstendig.
Section 10Section IOJuridiske eller tekniske referanser kan bli ødelagt.
20262O26Datoer og ID-er blir upålitelige.
patientpatlentMedisinske eller tekniske termer blir feil.
To separate kolonnerEtt sammenslått avsnittOversettelsen leser setningene i feil rekkefølge.
Tabellrad med etiketter og verdierÉn linje med blandet tekstDataene knyttes ikke lenger til riktig etikett.
Fotnotemarkør 1Bokstaven lNoter kan bli knyttet til feil setning.

Hvis du ser disse feilene i OCR-laget, må du rette OCR før du oversetter.

Hvilket verktøy bør du bruke?

Velg ut fra hvor vanskelig dokumentet er.

DokumentAnbefalt fremgangsmåte
Ren forretningsskanningOCR i Acrobat eller et annet pålitelig OCR-verktøy, deretter PDF-oversetter.
Skanning av gammel bokRett opp skjevhet og forbedre kontrasten, kjør OCR nøye, og oversett deretter.
Skanning av akademisk artikkelKjør OCR, gå gjennom ligninger/sitater/tabeller, og oversett deretter med layoutgjennomgang.
Håndskrevne notaterManuell transkribering kan være nødvendig før oversettelse.
Enkelt personlig dokumentNettbasert OCR kan være akseptabelt hvis personvernrisikoen er lav.
Sensitivt dokumentBruk lokal OCR eller en betrodd, kontrollert arbeidsflyt.

Hvis du vil ha en bredere verktøysammenligning, se guiden til de beste PDF-oversettelsesverktøyene.

Vanlige problemer med skannede PDF-er

Sider med lav oppløsning

Skanninger med lav oppløsning gjør bokstaver uklare og flyter dem sammen. OCR kan blande sammen rn og m, cl og d, eller tegnsetting og støv.

Løsning: skann på nytt hvis mulig. Hvis ikke, øk kontrasten og prøv OCR igjen.

Skjeve eller buede sider

Bokskanninger blir ofte buede nær ryggen. OCR leser de buede linjene dårlig og kan endre rekkefølgen på teksten.

Løsning: gjør siden flat, skann på nytt, eller bruk et OCR-verktøy med funksjoner for oppretting av skjevhet og utflating.

Flerkolonneoppsett

OCR kan slå sammen venstre og høyre kolonne til én sammenhengende tekststrøm.

Løsning: kontroller leserekkefølgen før oversettelse. Akademiske artikler trenger ekstra oppmerksomhet her.

Tabeller

Tabeller er vanskelige fordi OCR må oppdage både tekst og struktur. En tabell kan se riktig ut visuelt, selv om tekstlaget er feil.

Løsning: kopier OCR-teksten fra tabellen og bekreft at etikettene fortsatt samsvarer med verdiene.

Håndskrift og signaturer

OCR for trykt tekst er langt mer pålitelig enn håndskriftsgjenkjenning. Håndskrevne margnotater, signaturer og utfylte skjemaer kan bli oversett eller forvansket.

Løsning: transkriber viktig håndskrift manuelt før oversettelse.

Blandede språk

OCR fungerer best når det kjenner kildespråket. En skanning med engelsk, fransk og kinesisk kan feile hvis OCR er satt til bare ett språk.

Løsning: velg alle relevante OCR-språk hvis verktøyet støtter det, og stikkprøvekontroller deretter hver språkseksjon.

Sjekkliste for personvern og sikkerhet

Før du laster opp en skannet PDF noe sted, still disse spørsmålene:

  • Inneholder dokumentet personopplysninger?
  • Inneholder det medisinsk, juridisk, finansielt, akademisk eller upublisert materiale?
  • Er det omfattet av en kundeavtale eller skolens retningslinjer?
  • Er en nettbasert OCR-tjeneste tillatt for dette dokumentet?
  • Trenger du i stedet en lokal arbeidsflyt?
  • Kan du fjerne sider som ikke trenger oversettelse?

Skannede PDF-er er ofte sensitive fordi de kommer fra kontrakter, ID-dokumenter, skjemaer, forskningsutkast og interne arkiver. Behandle beslutninger om OCR-opplasting på samme måte som du ville behandlet originaldokumentet.

Vanlige spørsmål

Hvordan oversetter jeg en skannet PDF?

Kjør først OCR for å lage et tekstlag, gå gjennom OCR-resultatet, og oversett deretter den OCR-behandlede PDF-en med PDF-oversetter. Ikke hopp over OCR-gjennomgangen.

Hvorfor oversatte ikke Google Translate den skannede PDF-en min?

PDF-en kan være et rent bilde. Hvis det ikke finnes noe tekstlag, har Google Translate ingen tekst å hente ut. Bruk først OCR, og oversett deretter. Den Google-spesifikke arbeidsflyten er dekket i guiden til PDF i Google Translate.

Kan ChatGPT oversette en skannet PDF?

ChatGPT kan hjelpe med enkeltbilder eller uttrukket tekst, men en skannet PDF med flere sider trenger fortsatt OCR og gjennomgang. For en full dokumentarbeidsflyt: OCR først, deretter en arbeidsflyt for PDF-oversettelse.

Hva er det beste OCR-verktøyet for skannede PDF-er?

Det kommer an på dokumentet. Acrobat og ABBYY-lignende verktøy er nyttige for generelle og komplekse skanninger. Tesseract eller OCRmyPDF er nyttig for lokale, tekniske arbeidsflyter. Nettbasert OCR kan fungere fint for enkle filer med lav risiko, men personvern og kvalitet varierer.

Kan OCR bevare formateringen?

OCR kan lage et tekstlag og noen ganger gjenskape leserekkefølgen, men det er ikke det samme som å bevare den opprinnelige oversatte layouten. Etter OCR bør du bruke en arbeidsflyt for PDF-oversettelse og gå gjennom resultatet opp mot originalen.

Hva om OCR-kvaliteten er dårlig?

Forbedre skanningen før du oversetter. Skann på nytt hvis mulig, rett opp skjeve sider, øk kontrasten, beskjær rot, velg riktig OCR-språk, og gå gjennom vanskelige sider på nytt.