BookTranslator
BookTranslator

Hoe vertaal je een gescande PDF: de complete gids voor OCR + vertaling

Gescande PDF's bevatten afbeeldingen van tekst, geen echte tekst — daarom geeft Google Translate ze ongewijzigd terug. Dit is de OCR + AI-pijplijn die dat oplost.

BookTranslator

BookTranslator Team

Vertaalhandleidingen11 min read

Snel antwoord: een gescande PDF heeft OCR nodig vóór vertaling

Om een gescande PDF te vertalen, voer je eerst OCR uit om de pagina-afbeeldingen om te zetten in selecteerbare tekst. Vertaal daarna de met OCR verwerkte PDF met een documentvertaler zoals PDF-vertaler. Als je OCR overslaat, geven veel vertaaltools het originele bestand ongewijzigd terug, slaan ze pagina's over, of vertalen ze alleen de delen die al een tekstlaag bevatten.

Gebruik deze workflow:

  1. Open de PDF en probeer een zin te selecteren.
  2. Als je geen tekst kunt selecteren, voer dan OCR uit.
  3. Controleer de OCR-tekst voordat je gaat vertalen.
  4. Upload de met OCR verwerkte PDF naar PDF-vertaler.
  5. Vergelijk de vertaalde output met de oorspronkelijke scan.

Als je PDF al selecteerbare tekst heeft en het probleem het behouden van de lay-out is, gebruik dan de gids om een PDF te vertalen zonder de opmaak te verliezen.

Waarom gescande PDF's mislukken in vertaaltools

Een gescande PDF is vaak niets meer dan een verzameling pagina-afbeeldingen in een PDF-container. Voor een mens lijken er woorden op de pagina te staan, maar het bestand bevat mogelijk geen echte tekst die software kan uitlezen.

Dat leidt tot een eenvoudige mislukking:

BestandstypeWat de vertaler zietWat er gebeurt
Tekstgebaseerde PDFTekst plus lay-outgegevensVertaling kan meteen beginnen.
Alleen-afbeelding-PDFAfbeeldingen van pagina'sOCR is eerst nodig.
Tekst-over-afbeelding-PDFScanafbeelding plus verborgen OCR-tekstlaagVertaling kan werken, maar OCR-fouten beïnvloeden de kwaliteit.

De nuttigste test is niet technisch:

  1. Open de PDF.
  2. Probeer afzonderlijke woorden te markeren.
  3. Kopieer een zin.
  4. Plak die in een teksteditor.

Als de zin correct wordt geplakt, heeft de PDF een tekstlaag. Als er niets wordt geplakt, of de hele pagina zich gedraagt als één afbeelding, heeft de PDF OCR nodig.

OCR is niet optioneel

OCR staat voor optical character recognition. Het leest tekst uit een afbeelding en maakt er machineleesbare tekst van. Voor PDF-vertaling maakt OCR meestal een onzichtbare tekstlaag over de gescande pagina.

Die tekstlaag wordt vervolgens de bron voor de vertaling. Als OCR fouten maakt, neemt de vertaling die fouten over.

Veelvoorkomende OCR-fouten:

OCR-foutRisico voor de vertaling
rn gelezen als mWoorden veranderen van betekenis.
1 gelezen als lGetallen, verwijzingen of codes raken verkeerd.
O gelezen als 0ID's, formules en namen kunnen kapotgaan.
Accenten weggelatenNamen en termen worden onnauwkeurig.
Kolommen samengevoegdZinnen worden in de verkeerde volgorde vertaald.
Tabelcellen onjuist rij voor rij gelezenDatalabels komen niet meer overeen met waarden.
Voetnoten behandeld als hoofdtekstCitaten en noten komen in de verkeerde context terecht.

Daarom is de OCR-controle zo belangrijk. Vertaal een gescand document pas nadat je steekproefsgewijs de geëxtraheerde tekst hebt gecontroleerd.

De OCR-eerst-workflow

Stap 1: bepaal het PDF-type

Probeer tekst te selecteren. Als dat werkt, heb je mogelijk geen OCR nodig. Als selecteren niet lukt, behandel het bestand dan als een bestand met alleen afbeeldingen.

Controleer de pagina ook visueel:

  • Scheefstaande pagina's wijzen op een scan.
  • Een grijze papiertextuur wijst op een scan.
  • Schaduwen bij de rug wijzen op een gefotografeerd boek.
  • Ongelijk contrast wijst op een fotokopie.
  • Als zoeken zichtbare woorden niet vindt, is er waarschijnlijk geen tekstlaag.

Stap 2: verbeter de scan als dat mogelijk is

De kwaliteit van OCR begint bij de beeldkwaliteit. Als je opnieuw kunt scannen, doe dat dan voordat je tijd steekt in het repareren van OCR-fouten.

Gebruik deze checklist voor beeldkwaliteit:

  • Scan met een hoge genoeg resolutie voor kleine tekst.
  • Houd pagina's vlak en recht.
  • Vermijd schaduwen bij de rug.
  • Snijd tabelranden, vingers of rommelige achtergronden weg.
  • Gebruik sterk contrast tussen tekst en pagina.
  • Zorg dat de hele regel zichtbaar is.
  • Gebruik de juiste paginarichting.
  • Comprimeer de afbeelding niet zo sterk dat letters vervagen.

Bij oude boeken en fotokopieën komen de grootste verbeteringen meestal door het rechtzetten van pagina's, contrastcorrectie en het opnieuw scannen van pagina's die onscherp zijn.

Stap 3: voer OCR uit

Kies een OCR-tool op basis van het document, niet op basis van het merk.

OCR-optieBeste voorLet op
Adobe Acrobat OCRAlgemene zakelijke scans en PDF-opschoningControleer je huidige abonnement voordat je erop vertrouwt.
ABBYY FineReaderComplexe scans, tabellen, kolommen en lastige lay-outsHandmatige controle blijft nodig.
Tesseract of OCRmyPDFLokale, technische, herhaalbare OCR-workflowsVereist vertrouwdheid met command-line-tools.
Online OCR-toolsIncidentele bestanden met laag risicoPrivacy, bestandslimieten en kwaliteit verschillen.
Scan-apps op telefoonsSnel een nieuwe scan makenPerspectiefvervorming kan OCR verslechteren.

Voor privécontracten, medische dossiers, financiële documenten, ongepubliceerde manuscripten of academisch werk dat nog in beoordeling is, heeft een lokale OCR-workflow of een vertrouwde omgeving de voorkeur. Upload gevoelige scans niet naar willekeurige gratis OCR-sites.

Stap 4: controleer de OCR-tekst

Controleer vóór de vertaling, niet erna. Kopieer tekst van meerdere lastige pagina's en kijk of die leesbaar is.

Voorbeeldpagina's om te inspecteren:

  • De titelpagina.
  • Een dichte pagina met hoofdtekst.
  • Een pagina met een tabel.
  • Een pagina met voetnoten.
  • Een pagina met kleine tekst.
  • Een pagina met stempels, handschrift of kanttekeningen.
  • Een pagina in elke taal als het document meertalig is.

Let op:

  • Ontbrekende alinea's.
  • Samengevoegde kolommen.
  • Afgebroken woorden.
  • Verkeerde tekens.
  • Verloren diakritische tekens.
  • Tabelkoppen die los van waarden staan.
  • Kopteksten die in de hoofdtekst terechtkomen.
  • Paginanummers die in zinnen terechtkomen.

Als de OCR-kwaliteit slecht is, los dat dan op vóór de vertaling. Een vertaler kan betekenis niet betrouwbaar herstellen als OCR die nooit heeft vastgelegd.

Stap 5: vertaal de met OCR verwerkte PDF

Zodra de PDF een schone tekstlaag heeft, upload je die naar PDF-vertaler. De vertaalstap kan nu met tekst werken in plaats van met pagina-afbeeldingen.

Vergelijk na de vertaling:

  • Oorspronkelijke scan
  • OCR-tekstlaag
  • Vertaalde PDF

Met deze driewegcontrole kun je vaststellen of een fout uit OCR of uit de vertaling komt. Als de OCR-tekst fout is, voer OCR dan opnieuw uit. Als de OCR-tekst goed is maar de vertaling fout, corrigeer dan de vertaling.

Stap 6: controleer inhoud met hoog risico

Gescande documenten bevatten vaak precies de inhoud die zorgvuldige controle nodig heeft: oude contracten, overheidsformulieren, academische artikelen, handleidingen, historische documenten en boekpagina's.

Controleer deze onderdelen handmatig:

  • Namen
  • Datums
  • Getallen
  • Adressen
  • Productcodes
  • Juridische verwijzingen
  • Citaten
  • Tabelkoppen
  • Eenheden
  • Vergelijkingen
  • Bijschriften
  • Voetnoten

Voor onderzoeks- en academische bestanden, lees ook de gids over het vertalen van academische onderzoeksartikelen, want gescande academische PDF's voegen risico's rond citaties en lay-out toe boven op het OCR-risico.

Voorbeelden van fouten naast elkaar

Gebruik deze tabel tijdens het controleren van de OCR-output.

De oorspronkelijke scan toont waarschijnlijkSlechte OCR-outputWaarom dit belangrijk is
modernmodemDe betekenis verandert volledig.
Section 10Section IOJuridische of technische verwijzingen kunnen kapotgaan.
20262O26Datums en ID's worden onbetrouwbaar.
patientpatlentMedische of technische termen raken verkeerd.
Twee afzonderlijke kolommenEén samengevoegde alineaVertalingen lezen zinnen in de verkeerde volgorde.
Tabelrij met labels en waardenEén enkele regel gemengde tekstData komt niet meer overeen met het juiste label.
Voetnootmarkering 1Letter lNoten kunnen aan de verkeerde zin worden gekoppeld.

Als je deze fouten in de OCR-laag ziet, herstel OCR dan vóór je gaat vertalen.

Welke tool moet je gebruiken?

Kies op basis van de moeilijkheid van het document.

DocumentAanbevolen aanpak
Schone zakelijke scanOCR in Acrobat of een andere betrouwbare OCR-tool, daarna PDF-vertaler.
Scan van een oud boekZet pagina's recht, verbeter het contrast, voer zorgvuldig OCR uit en vertaal daarna.
Scan van een academisch artikelOCR, controleer vergelijkingen/citaties/tabellen en vertaal daarna met lay-outcontrole.
Handgeschreven notitiesHandmatige transcriptie kan nodig zijn vóór vertaling.
Eenvoudig persoonlijk documentOnline OCR kan acceptabel zijn als het privacyrisico laag is.
Gevoelig documentGebruik lokale OCR of een vertrouwde gecontroleerde workflow.

Als je een bredere vergelijking van tools wilt, bekijk dan de gids voor de beste PDF-vertaaltools.

Veelvoorkomende problemen met gescande PDF's

Pagina's met lage resolutie

Scans met lage resolutie laten letters in elkaar overlopen. OCR kan rn en m, cl en d, of interpunctie en stofdeeltjes verwarren.

Oplossing: scan opnieuw als dat mogelijk is. Zo niet, verhoog dan het contrast en probeer OCR opnieuw.

Scheve of gebogen pagina's

Scans van boeken buigen vaak bij de rug. OCR leest die gebogen regels slecht en kan tekst opnieuw ordenen.

Oplossing: maak de pagina vlak, scan opnieuw, of gebruik een OCR-tool met deskew en dewarping.

Meerkolomsopmaak

OCR kan linker- en rechterkolommen samenvoegen tot één tekststroom.

Oplossing: controleer de leesvolgorde vóór de vertaling. Academische artikelen vereisen hier extra aandacht.

Tabellen

Tabellen zijn lastig omdat OCR zowel tekst als structuur moet detecteren. Een tabel kan er visueel correct uitzien terwijl de tekstlaag fout is.

Oplossing: kopieer de OCR-tekst uit de tabel en controleer of labels nog steeds overeenkomen met waarden.

Handschrift en handtekeningen

OCR voor gedrukte tekst is veel betrouwbaarder dan handschriftherkenning. Handgeschreven kanttekeningen, handtekeningen en ingevulde formulieren kunnen worden gemist of verminkt.

Oplossing: transcribeer essentieel handschrift handmatig vóór vertaling.

Gemengde talen

OCR werkt het best wanneer het de brontaal kent. Een scan met Engels, Frans en Chinees kan mislukken als OCR op slechts één taal is ingesteld.

Oplossing: kies alle relevante OCR-talen als de tool dat ondersteunt, en controleer daarna steekproefsgewijs elk taaldeel.

Checklist voor privacy en beveiliging

Vraag jezelf af voordat je ergens een gescande PDF uploadt:

  • Bevat het document persoonsgegevens?
  • Bevat het medisch, juridisch, financieel, academisch of ongepubliceerd materiaal?
  • Valt het onder een klantovereenkomst of schoolbeleid?
  • Is een online OCR-service toegestaan voor dit document?
  • Heb je in plaats daarvan een lokale workflow nodig?
  • Kun je pagina's verwijderen die niet vertaald hoeven te worden?

Gescande PDF's zijn vaak gevoelig omdat ze afkomstig zijn uit contracten, ID's, formulieren, onderzoeksconcepten en interne archieven. Behandel beslissingen over OCR-uploads op dezelfde manier als je het oorspronkelijke document zou behandelen.

FAQ

Hoe vertaal ik een gescande PDF?

Voer eerst OCR uit om een tekstlaag te maken, controleer de OCR-output en vertaal daarna de met OCR verwerkte PDF met PDF-vertaler. Sla de OCR-controle niet over.

Waarom heeft Google Translate mijn gescande PDF niet vertaald?

De PDF kan alleen uit afbeeldingen bestaan. Als er geen tekstlaag is, heeft Google Translate geen tekst om uit te lezen. Gebruik eerst OCR en vertaal daarna. De specifieke workflow voor Google wordt behandeld in de gids voor PDF's vertalen met Google Translate.

Kan ChatGPT een gescande PDF vertalen?

ChatGPT kan helpen met losse afbeeldingen of geëxtraheerde tekst, maar een gescande PDF van meerdere pagina's heeft nog steeds OCR en controle nodig. Voor een volledige documentworkflow: eerst OCR, daarna een workflow voor PDF-vertaling.

Wat is de beste OCR-tool voor gescande PDF's?

Dat hangt af van het document. Tools zoals Acrobat en ABBYY zijn nuttig voor algemene en complexe scans. Tesseract of OCRmyPDF is nuttig voor lokale technische workflows. Online OCR kan prima zijn voor eenvoudige bestanden met laag risico, maar privacy en kwaliteit verschillen.

Kan OCR de opmaak behouden?

OCR kan een tekstlaag maken en soms de leesvolgorde herstellen, maar dat is niet hetzelfde als de oorspronkelijke vertaalde lay-out behouden. Gebruik na OCR een workflow voor PDF-vertaling en controleer de output aan de hand van het origineel.

Wat als de OCR-kwaliteit slecht is?

Verbeter de scan vóór je gaat vertalen. Scan opnieuw als dat mogelijk is, zet pagina's recht, verhoog het contrast, snijd rommel weg, kies de juiste OCR-taal en controleer lastige pagina's opnieuw.