BookTranslator
BookTranslator

Slik oversetter du en skannet PDF: Den komplette guiden til OCR + oversettelse

Skannede PDF-er inneholder bilder av tekst, ikke faktisk tekst – derfor returnerer Google Translate dem uendret. Her er OCR + AI-pipelinen som løser det.

BookTranslator

BookTranslator Team

Oversettelsesguider10 min read

Raskt svar: En skannet PDF trenger OCR før oversettelse

For å oversette en skannet PDF må du først kjøre OCR for å gjøre sidebildene om til markerbar tekst. Deretter oversetter du den OCR-behandlede PDF-en med en dokumentoversetter som PDF-oversetter. Hvis du hopper over OCR, vil mange oversettingsverktøy returnere originalfilen uendret, hoppe over sider eller bare oversette delene som allerede har et tekstlag.

Bruk denne arbeidsflyten:

  1. Åpne PDF-en og prøv å markere en setning.
  2. Hvis du ikke kan markere tekst, kjør OCR.
  3. Gå gjennom OCR-teksten før du oversetter.
  4. Last opp den OCR-behandlede PDF-en til PDF-oversetter.
  5. Gå gjennom den oversatte utdataen opp mot originalskanningen.

Hvis PDF-en allerede har markerbar tekst og problemet er å bevare oppsettet, bruk guiden om å oversette en PDF uten å miste formateringen.

Hvorfor skannede PDF-er feiler i oversettingsverktøy

En skannet PDF er ofte bare et sett med sidebilder inne i en PDF-container. Siden kan vise ord for et menneske, men filen inneholder kanskje ikke faktisk tekst som programvare kan hente ut.

Det skaper en enkel feiltilstand:

FiltypeHva oversetteren serHva som skjer
Tekstbasert PDFTekst pluss oppsettsdataOversettelsen kan starte umiddelbart.
Skannet PDF kun med bilderBilder av siderOCR kreves først.
PDF med tekst over bildeSkannebilde pluss skjult OCR-tekstlagOversettelse kan fungere, men OCR-feil påvirker kvaliteten.

Den mest nyttige testen er ikke teknisk:

  1. Åpne PDF-en.
  2. Prøv å markere enkeltord.
  3. Kopier en setning.
  4. Lim den inn i et tekstredigeringsprogram.

Hvis setningen limes inn riktig, har PDF-en et tekstlag. Hvis ingenting limes inn, eller hele siden oppfører seg som ett bilde, trenger PDF-en OCR.

OCR er ikke valgfritt

OCR står for optisk tegngjenkjenning. Det leser tekst fra et bilde og lager maskinlesbar tekst. Ved PDF-oversettelse lager OCR vanligvis et usynlig tekstlag over den skannede siden.

Dette tekstlaget blir kilden for oversettelsen. Hvis OCR gjør feil, arver oversettelsen disse feilene.

Vanlige OCR-feil:

OCR-feilRisiko for oversettelsen
rn leses som mOrd skifter betydning.
1 leses som lTall, henvisninger eller koder blir feil.
O leses som 0ID-er, formler og navn kan bli ødelagt.
Aksenter faller bortNavn og termer blir unøyaktige.
Kolonner slås sammenSetninger oversettes i feil rekkefølge.
Tabellceller leses feil rad for radDataetiketter samsvarer ikke lenger med verdiene.
Fotnoter behandles som brødtekstSitater og notater havner i feil kontekst.

Derfor er OCR-gjennomgangen viktig. Ikke oversett et skannet dokument før du har stikkprøvekontrollert den uttrukne teksten.

Arbeidsflyten med OCR først

Trinn 1: Identifiser PDF-typen

Prøv å markere tekst. Hvis markering fungerer, trenger du kanskje ikke OCR. Hvis markering ikke fungerer, behandle filen som bildebassert.

Se også på siden visuelt:

  • Skjeve sider tyder på en skanning.
  • Grå papirtektur tyder på en skanning.
  • Skygger nær ryggen tyder på en fotografert bok.
  • Ujevn kontrast tyder på en fotokopi.
  • At søk ikke finner synlige ord, tyder på at det ikke finnes noe tekstlag.

Trinn 2: Forbedre skanningen hvis mulig

OCR-kvalitet starter med bildekvalitet. Hvis du kan skanne på nytt, gjør det før du bruker tid på å rette OCR-feil.

Bruk denne sjekklisten for bildekvalitet:

  • Skann i høy nok oppløsning til liten tekst.
  • Hold sidene flate og rette.
  • Unngå skygger nær ryggen.
  • Beskjær bort tabellkanter, fingre eller bakgrunnsstøy.
  • Bruk sterk kontrast mellom tekst og side.
  • Sørg for at hele linjen er synlig.
  • Bruk riktig sideretning.
  • Ikke komprimer bildet så hardt at bokstavene blir uklare.

For gamle bøker og fotokopier kommer de største gevinstene vanligvis fra oppretting, kontrastjustering og ny skanning av sider som er ute av fokus.

Trinn 3: Kjør OCR

Velg OCR-verktøy ut fra dokumentet, ikke merkevaren.

OCR-alternativBest forVær oppmerksom på
Adobe Acrobat OCRGenerelle bedriftsskanninger og opprydding i PDF-erSjekk gjeldende abonnementstilgang før du baserer deg på det.
ABBYY FineReaderKomplekse skanninger, tabeller, kolonner og vanskelige oppsettKrever fortsatt manuell gjennomgang.
Tesseract or OCRmyPDFLokale, tekniske og repeterbare OCR-arbeidsflyterKrever at du er komfortabel med kommandolinjeverktøy.
Nettbaserte OCR-verktøyEnkle filer med lav risiko av og tilPersonvern, filgrenser og kvalitet varierer.
Skanneapper på telefonRask innhenting av en ny skanningPerspektivforvrengning kan svekke OCR.

For private kontrakter, journaler, finansielle dokumenter, upubliserte manuskripter eller akademisk arbeid under vurdering bør du foretrekke en lokal OCR-arbeidsflyt eller et pålitelig miljø. Ikke last opp sensitive skanninger til tilfeldige gratis OCR-nettsteder.

Trinn 4: Gå gjennom OCR-teksten

Gå gjennom før oversettelse, ikke etter. Kopier tekst fra flere vanskelige sider og sjekk om den er lesbar.

Eksempelsider å inspisere:

  • Tittelsiden.
  • En tettpakket tekstside.
  • En tabellside.
  • En side med fotnoter.
  • En side med liten tekst.
  • En side med stempler, håndskrift eller margnotater.
  • En side i hvert språk hvis dokumentet er flerspråklig.

Se etter:

  • Manglende avsnitt.
  • Sammenslåtte kolonner.
  • Ødelagte ord.
  • Feil tegn.
  • Tapte diakritiske tegn.
  • Tabelletiketter som er skilt fra verdiene.
  • Overskrifter satt inn i brødteksten.
  • Sidetall blandet inn i setninger.

Hvis OCR-kvaliteten er dårlig, må du rette den før oversettelse. En oversetter kan ikke pålitelig gjenskape mening som OCR aldri fanget opp.

Trinn 5: Oversett den OCR-behandlede PDF-en

Når PDF-en har et rent tekstlag, last den opp til PDF-oversetter. Oversettelsestrinnet kan nå arbeide med tekst i stedet for sidebilder.

Etter oversettelsen sammenligner du:

  • Original skanning
  • OCR-tekstlag
  • Oversatt PDF

Denne tredoble gjennomgangen hjelper deg å identifisere om en feil kom fra OCR eller oversettelsen. Hvis OCR-teksten er feil, kjør OCR på nytt. Hvis OCR-teksten er riktig, men oversettelsen er feil, rett oversettelsen.

Trinn 6: Gå gjennom innhold med høy risiko

Skannede dokumenter inneholder ofte nettopp den typen innhold som krever nøye gjennomgang: gamle kontrakter, offentlige skjemaer, akademiske artikler, manualer, historiske dokumenter og boksider.

Gå gjennom disse elementene manuelt:

  • Navn
  • Datoer
  • Tall
  • Adresser
  • Produktkoder
  • Juridiske henvisninger
  • Sitater
  • Tabelletiketter
  • Enheter
  • Likninger
  • Bildetekster
  • Fotnoter

For forsknings- og akademiske filer bør du også lese guiden om å oversette akademiske forskningsartikler, fordi skannede akademiske PDF-er legger sitat- og oppsettsrisiko oppå OCR-risikoen.

Eksempler på feil side ved side

Bruk denne tabellen når du går gjennom OCR-resultatet.

Originalskanningen viser troligDårlig OCR-resultatHvorfor det betyr noe
modernmodemBetydningen endres fullstendig.
Section 10Section IOJuridiske eller tekniske henvisninger kan bryte sammen.
20262O26Datoer og ID-er blir upålitelige.
patientpatlentMedisinske eller tekniske termer blir feil.
To separate kolonnerEtt sammenslått avsnittOversettelsen leser setningene i feil rekkefølge.
Tabellrad med etiketter og verdierÉn linje med blandet tekstData kobles ikke lenger til riktig etikett.
Fotnotemarkør 1Bokstaven lNoter kan bli knyttet til feil setning.

Hvis du ser disse feilene i OCR-laget, må du rette OCR før du oversetter.

Hvilket verktøy bør du bruke?

Velg ut fra hvor vanskelig dokumentet er.

DokumentAnbefalt fremgangsmåte
Ren bedriftsskanningOCR i Acrobat eller et annet pålitelig OCR-verktøy, deretter PDF-oversetter.
Skanning av gammel bokRett opp siden og forbedre kontrasten, kjør OCR nøye, og oversett deretter.
Skanning av akademisk artikkelOCR, gå gjennom likninger/sitater/tabeller, og oversett deretter med oppsettskontroll.
Håndskrevne notaterManuell transkribering kan være nødvendig før oversettelse.
Enkelt personlig dokumentNettbasert OCR kan være akseptabelt hvis personvernrisikoen er lav.
Sensitivt dokumentBruk lokal OCR eller en pålitelig, kontrollert arbeidsflyt.

Hvis du vil ha en bredere verktøysammenligning, se guiden til de beste PDF-oversetterne.

Vanlige problemer med skannede PDF-er

Sider med lav oppløsning

Skanninger med lav oppløsning gjør at bokstaver flyter sammen. OCR kan forveksle rn og m, cl og d, eller tegnsetting og støv.

Løsning: skann på nytt hvis mulig. Hvis ikke, øk kontrasten og prøv OCR igjen.

Skjeve eller buede sider

Bokskanninger bøyer seg ofte nær ryggen. OCR leser de buede linjene dårlig og kan omorganisere teksten.

Løsning: gjør siden flat, skann på nytt, eller bruk et OCR-verktøy med oppretting og avkrumming.

Flerkolonneoppsett

OCR kan slå sammen venstre og høyre kolonne til én sammenhengende tekststrøm.

Løsning: inspiser leserekkefølgen før oversettelse. Akademiske artikler trenger ekstra oppmerksomhet her.

Tabeller

Tabeller er vanskelige fordi OCR må oppdage både tekst og struktur. En tabell kan se riktig ut visuelt, mens tekstlaget er feil.

Løsning: kopier OCR-teksten fra tabellen og bekreft at etikettene fortsatt samsvarer med verdiene.

Håndskrift og signaturer

OCR for trykt tekst er langt mer pålitelig enn håndskriftsgjenkjenning. Håndskrevne margnotater, signaturer og utfylte skjemaer kan bli oversett eller forvansket.

Løsning: transkriber viktig håndskrift manuelt før oversettelse.

Blandede språk

OCR fungerer best når det kjenner kildespråket. En skanning med engelsk, fransk og kinesisk kan mislykkes hvis OCR er satt til bare ett språk.

Løsning: velg alle relevante OCR-språk hvis verktøyet støtter det, og gjør deretter stikkprøver i hver språkseksjon.

Sjekkliste for personvern og sikkerhet

Før du laster opp en skannet PDF noe sted, spør:

  • Inneholder dokumentet personopplysninger?
  • Inneholder det medisinsk, juridisk, finansielt, akademisk eller upublisert materiale?
  • Er det dekket av en kundeavtale eller skolens retningslinjer?
  • Er en nettbasert OCR-tjeneste tillatt for dette dokumentet?
  • Trenger du en lokal arbeidsflyt i stedet?
  • Kan du fjerne sider som ikke trenger oversettelse?

Skannede PDF-er er ofte sensitive fordi de kommer fra kontrakter, ID-dokumenter, skjemaer, forskningsutkast og interne arkiver. Behandle beslutninger om OCR-opplasting på samme måte som du ville behandlet originaldokumentet.

FAQ

Hvordan oversetter jeg en skannet PDF?

Kjør OCR først for å lage et tekstlag, gå gjennom OCR-resultatet, og oversett deretter den OCR-behandlede PDF-en med PDF-oversetter. Ikke hopp over OCR-gjennomgangen.

Hvorfor oversatte Google Translate ikke den skannede PDF-en min?

PDF-en kan være bildebassert. Hvis det ikke finnes noe tekstlag, har Google Translate ingen tekst å hente ut. Bruk OCR først, og oversett deretter. Den Google-spesifikke arbeidsflyten er dekket i Google Translate-guiden for PDF.

Kan ChatGPT oversette en skannet PDF?

ChatGPT kan hjelpe med enkeltbilder eller uttrukket tekst, men en flersidet skannet PDF trenger fortsatt OCR og gjennomgang. For en full dokumentarbeidsflyt: OCR først, deretter en arbeidsflyt for PDF-oversettelse.

Hva er det beste OCR-verktøyet for skannede PDF-er?

Det avhenger av dokumentet. Acrobat- og ABBYY-lignende verktøy er nyttige for generelle og komplekse skanninger. Tesseract eller OCRmyPDF er nyttig for lokale tekniske arbeidsflyter. Nettbasert OCR kan være fint for enkle filer med lav risiko, men personvern og kvalitet varierer.

Kan OCR bevare formateringen?

OCR kan lage et tekstlag og noen ganger gjenskape leserekkefølgen, men det er ikke det samme som å bevare det opprinnelige oversatte oppsettet. Etter OCR bør du bruke en arbeidsflyt for PDF-oversettelse og gå gjennom resultatet opp mot originalen.

Hva om OCR-kvaliteten er dårlig?

Forbedre skanningen før du oversetter. Skann på nytt hvis mulig, rett opp sider, øk kontrasten, beskjær rot, velg riktig OCR-språk, og gå gjennom vanskelige sider på nytt.