Hoe je een gescande PDF vertaalt: de complete OCR + vertaalkundige gids

Gescande PDF's bevatten afbeeldingen van tekst, geen echte tekst — daarom geeft Google Translate ze ongewijzigd terug. Dit is de OCR + AI-pijplijn die dat oplost.

BookTranslator Team

PDF-vertaling

28 feb 202611 min read

Snel antwoord: een gescande PDF heeft OCR nodig vóór vertaling

Om een gescande PDF te vertalen, voer je eerst OCR uit om de paginabeelden om te zetten in selecteerbare tekst. Vertaal daarna de OCR-verwerkte PDF met een documentvertaler zoals PDF Translator. Als je OCR overslaat, geven veel vertaaltools het oorspronkelijke bestand ongewijzigd terug, slaan ze pagina's over, of vertalen ze alleen de delen die al een tekstlaag bevatten.

Gebruik deze workflow:

Open de PDF en probeer een zin te selecteren.
Als je geen tekst kunt selecteren, voer dan OCR uit.
Controleer de OCR-tekst voordat je gaat vertalen.
Upload de OCR-verwerkte PDF naar PDF Translator.
Controleer de vertaalde uitvoer aan de hand van de oorspronkelijke scan.

Als je PDF al selecteerbare tekst heeft en het probleem het behoud van de lay-out is, gebruik dan de gids om een PDF te vertalen zonder de opmaak te verliezen.

Waarom gescande PDF's falen in vertaaltools

Een gescande PDF is vaak gewoon een verzameling paginabeelden binnen een PDF-container. Voor een mens toont de pagina woorden, maar het bestand bevat mogelijk geen echte tekst die software kan extraheren.

Dat veroorzaakt een eenvoudig probleem:

Bestandstype	Wat de vertaler ziet	Wat er gebeurt
Tekstgebaseerde PDF	Tekst plus lay-outgegevens	De vertaling kan onmiddellijk beginnen.
Alleen-afbeelding PDF	Afbeeldingen van pagina's	OCR is eerst vereist.
Tekst-over-afbeelding PDF	Scanafbeelding plus verborgen OCR-tekstlaag	Vertalen kan werken, maar OCR-fouten beïnvloeden de kwaliteit.

De nuttigste test is niet technisch:

Open de PDF.
Probeer afzonderlijke woorden te markeren.
Kopieer een zin.
Plak die in een teksteditor.

Als de zin correct wordt geplakt, heeft de PDF een tekstlaag. Als er niets wordt geplakt, of als de hele pagina zich als één afbeelding gedraagt, heeft de PDF OCR nodig.

OCR is niet optioneel

OCR betekent optical character recognition. Het leest tekst uit een afbeelding en maakt machineleesbare tekst. Voor PDF-vertaling maakt OCR meestal een onzichtbare tekstlaag over de gescande pagina.

Die tekstlaag wordt de bron voor de vertaling. Als OCR fouten maakt, neemt de vertaling die fouten over.

Veelvoorkomende OCR-fouten:

OCR-fout	Vertaalrisico
`rn` gelezen als `m`	Woorden veranderen van betekenis.
`1` gelezen als `l`	Getallen, verwijzingen of codes worden onjuist.
`O` gelezen als `0`	ID's, formules en namen kunnen kapotgaan.
Accenten weggevallen	Namen en termen worden onnauwkeurig.
Kolommen samengevoegd	Zinnen worden in de verkeerde volgorde vertaald.
Tabelcellen rij voor rij verkeerd gelezen	Datalabels komen niet meer overeen met waarden.
Voetnoten behandeld als hoofdtekst	Citaten en noten komen in de verkeerde context terecht.

Daarom is de OCR-controle zo belangrijk. Vertaal een gescand document niet voordat je de geëxtraheerde tekst steekproefsgewijs hebt gecontroleerd.

De OCR-eerst-workflow

Stap 1: bepaal het PDF-type

Probeer tekst te selecteren. Als dat werkt, heb je mogelijk geen OCR nodig. Als selecteren mislukt, behandel het bestand dan als alleen-afbeelding.

Inspecteer de pagina ook visueel:

Scheve pagina's wijzen op een scan.
Grijze papiertextuur wijst op een scan.
Schaduwen bij de rug wijzen op een gefotografeerd boek.
Ongelijk contrast wijst op een fotokopie.
Als zoeken zichtbare woorden niet vindt, wijst dat erop dat er geen tekstlaag is.

Stap 2: verbeter de scan indien mogelijk

OCR-kwaliteit begint bij beeldkwaliteit. Als je opnieuw kunt scannen, doe dat dan voordat je tijd besteedt aan het herstellen van OCR-fouten.

Gebruik deze checklist voor beeldkwaliteit:

Scan met een resolutie die hoog genoeg is voor kleine tekst.
Houd pagina's vlak en recht.
Vermijd schaduwen bij de rug.
Snijd tabelranden, vingers of rommelige achtergrond weg.
Gebruik sterk contrast tussen tekst en pagina.
Zorg dat de volledige regel zichtbaar blijft.
Gebruik de juiste paginaoriëntatie.
Comprimeer de afbeelding niet zo sterk dat letters vervagen.

Bij oude boeken en fotokopieën komen de grootste verbeteringen meestal van rechtzetten, contrastcorrectie en het opnieuw scannen van pagina's die onscherp zijn.

Stap 3: voer OCR uit

Kies een OCR-tool op basis van het document, niet op basis van het merk.

OCR-optie	Beste voor	Let op
Adobe Acrobat OCR	Algemene bedrijfsscans en PDF-opruiming	Controleer actuele plantoegang voordat je erop vertrouwt.
ABBYY FineReader	Complexe scans, tabellen, kolommen en moeilijke lay-outs	Vereist nog steeds handmatige controle.
Tesseract of OCRmyPDF	Lokale, technische, herhaalbare OCR-workflows	Vereist vertrouwdheid met opdrachtregeltools.
Online OCR-hulpmiddelen	Bestanden met laag risico en incidenteel gebruik	Privacy, bestandslimieten en kwaliteit verschillen.
Scanapps op de telefoon	Snel een nieuwe scan vastleggen	Perspectiefvervorming kan OCR schaden.

Voor privécontracten, medische dossiers, financiële documenten, ongepubliceerde manuscripten of academisch werk dat nog wordt beoordeeld, geef de voorkeur aan een lokale OCR-workflow of een vertrouwde omgeving. Upload gevoelige scans niet naar willekeurige gratis OCR-sites.

Stap 4: controleer de OCR-tekst

Controleer vóór de vertaling, niet erna. Kopieer tekst van meerdere lastige pagina's en kijk of die leesbaar is.

Voorbeeldpagina's om te inspecteren:

De titelpagina.
Een dichte tekstpagina.
Een tabelpagina.
Een pagina met voetnoten.
Een pagina met kleine tekst.
Een pagina met stempels, handschrift of kanttekeningen.
Een pagina in elke taal als het document meertalig is.

Let op:

Ontbrekende alinea's.
Samengevoegde kolommen.
Afgebroken woorden.
Verkeerde tekens.
Verloren diakritische tekens.
Tabellabels die losstaan van waarden.
Kopteksten die in de hoofdtekst zijn ingevoegd.
Paginanummers die in zinnen zijn terechtgekomen.

Als de OCR-kwaliteit slecht is, los dat dan op vóór de vertaling. Een vertaler kan betekenis die OCR nooit heeft vastgelegd niet betrouwbaar herstellen.

Stap 5: vertaal de OCR-verwerkte PDF

Zodra de PDF een schone tekstlaag heeft, upload je die naar PDF Translator. De vertaalstap kan nu met tekst werken in plaats van met paginabeelden.

Vergelijk na de vertaling:

Oorspronkelijke scan
OCR-tekstlaag
Vertaalde PDF

Deze drievoudige controle helpt je vaststellen of een fout uit OCR of uit de vertaling kwam. Als de OCR-tekst onjuist is, voer OCR opnieuw uit. Als de OCR-tekst juist is maar de vertaling onjuist is, corrigeer dan de vertaling.

Stap 6: controleer inhoud met hoog risico

Gescande documenten bevatten vaak precies de inhoud die zorgvuldige controle vereist: oude contracten, overheidsformulieren, academische artikelen, handleidingen, historische documenten en boekpagina's.

Controleer deze onderdelen handmatig:

Namen
Datums
Getallen
Adressen
Productcodes
Juridische verwijzingen
Citaten
Tabellabels
Eenheden
Vergelijkingen
Bijschriften
Voetnoten

Voor onderzoeks- en academische bestanden, lees ook de gids over het vertalen van academische onderzoekspapers, omdat gescande academische PDF's boven op OCR-risico ook citatie- en lay-outrisico's toevoegen.

Foutvoorbeelden naast elkaar

Gebruik deze tabel tijdens het controleren van de OCR-uitvoer.

Wat de oorspronkelijke scan waarschijnlijk toont	Slechte OCR-uitvoer	Waarom het belangrijk is
`modern`	`modem`	De betekenis verandert volledig.
`Section 10`	`Section IO`	Juridische of technische verwijzingen kunnen kapotgaan.
`2026`	`2O26`	Datums en ID's worden onbetrouwbaar.
`patient`	`patlent`	Medische of technische termen worden onjuist.
Twee afzonderlijke kolommen	Eén samengevoegde alinea	De vertaling leest zinnen in de verkeerde volgorde.
Tabelrij met labels en waarden	Eén enkele regel gemengde tekst	Gegevens horen niet meer bij het juiste label.
Voetnootmarkering `1`	Letter `l`	Noten kunnen aan de verkeerde zin worden gekoppeld.

Als je deze fouten in de OCR-laag ziet, herstel OCR dan vóór het vertalen.

Welke tool moet je gebruiken?

Kies op basis van de moeilijkheidsgraad van het document.

Document	Aanbevolen aanpak
Schone bedrijfsscan	OCR in Acrobat of een andere betrouwbare OCR-tool, daarna PDF Translator.
Scan van een oud boek	Zet recht en verbeter contrast, voer zorgvuldig OCR uit en vertaal daarna.
Scan van academisch artikel	OCR, controleer vergelijkingen/citaties/tabellen en vertaal daarna met lay-outcontrole.
Handgeschreven notities	Handmatige transcriptie kan nodig zijn vóór vertaling.
Eenvoudig persoonlijk document	Online OCR kan acceptabel zijn als het privacyrisico laag is.
Gevoelig document	Gebruik lokale OCR of een vertrouwde gecontroleerde workflow.

Als je de bredere vergelijking van tools wilt, bekijk dan de gids met de beste PDF-vertaaltools.

Veelvoorkomende problemen met gescande PDF's

Pagina's met lage resolutie

Scans met lage resolutie laten letters in elkaar overlopen. OCR kan rn en m, cl en d, of leestekens en stof verwarren.

Oplossing: scan opnieuw als dat mogelijk is. Zo niet, verhoog dan het contrast en probeer OCR opnieuw.

Scheve of gebogen pagina's

Boekscans buigen vaak bij de rug. OCR leest de gebogen regels slecht en kan tekst in een andere volgorde zetten.

Oplossing: maak de pagina vlak, scan opnieuw, of gebruik een OCR-tool met rechtzetten en dewarping.

Meerkolomsopmaak

OCR kan linker- en rechterkolommen samenvoegen tot één zinstroom.

Oplossing: controleer de leesvolgorde vóór vertaling. Academische artikelen vereisen hier extra aandacht.

Tabellen

Tabellen zijn lastig omdat OCR zowel tekst als structuur moet detecteren. Een tabel kan er visueel correct uitzien terwijl de tekstlaag onjuist is.

Oplossing: kopieer de OCR-tekst uit de tabel en bevestig dat labels nog steeds overeenkomen met waarden.

Handschrift en handtekeningen

OCR voor gedrukte tekst is veel betrouwbaarder dan handschriftherkenning. Handgeschreven kantnotities, handtekeningen en ingevulde formulieren kunnen worden gemist of verminkt.

Oplossing: transcribeer essentieel handschrift handmatig vóór vertaling.

Gemengde talen

OCR werkt het best wanneer de brontaal bekend is. Een scan met Engels, Frans en Chinees kan mislukken als OCR op slechts één taal is ingesteld.

Oplossing: kies alle relevante OCR-talen als de tool dat ondersteunt en controleer vervolgens elke taalsectie steekproefsgewijs.

Checklist voor privacy en beveiliging

Vraag jezelf het volgende af voordat je ergens een gescande PDF uploadt:

Bevat het document persoonsgegevens?
Bevat het medisch, juridisch, financieel, academisch of ongepubliceerd materiaal?
Valt het onder een klantovereenkomst of schoolbeleid?
Is een online OCR-service toegestaan voor dit document?
Heb je in plaats daarvan een lokale workflow nodig?
Kun je pagina's verwijderen die geen vertaling nodig hebben?

Gescande PDF's zijn vaak gevoelig omdat ze afkomstig zijn uit contracten, ID's, formulieren, onderzoeksconcepten en interne archieven. Behandel beslissingen over OCR-uploads op dezelfde manier als je het oorspronkelijke document zou behandelen.

FAQ

Hoe vertaal ik een gescande PDF?

Voer eerst OCR uit om een tekstlaag te maken, controleer de OCR-uitvoer en vertaal daarna de OCR-verwerkte PDF met PDF Translator. Sla de OCR-controle niet over.

Waarom vertaalde Google Translate mijn gescande PDF niet?

De PDF kan alleen uit afbeeldingen bestaan. Als er geen tekstlaag is, heeft Google Translate geen tekst om te extraheren. Gebruik eerst OCR en vertaal daarna. De Google-specifieke workflow wordt behandeld in de Google Translate PDF-gids.

Kan ChatGPT een gescande PDF vertalen?

ChatGPT kan helpen met afzonderlijke afbeeldingen of geëxtraheerde tekst, maar een gescande PDF met meerdere pagina's heeft nog steeds OCR en controle nodig. Voor een volledige documentworkflow: eerst OCR, daarna een PDF-vertaalworkflow gebruiken.

Wat is de beste OCR-tool voor gescande PDF's?

Dat hangt af van het document. Tools in de stijl van Acrobat en ABBYY zijn nuttig voor algemene en complexe scans. Tesseract of OCRmyPDF is nuttig voor lokale technische workflows. Online OCR kan prima zijn voor eenvoudige bestanden met laag risico, maar privacy en kwaliteit verschillen.

Kan OCR de opmaak behouden?

OCR kan een tekstlaag maken en soms de leesvolgorde herstellen, maar dat is niet hetzelfde als het behouden van de oorspronkelijke vertaalde lay-out. Gebruik na OCR een PDF-vertaalworkflow en controleer de uitvoer aan de hand van het origineel.

Wat als de OCR-kwaliteit slecht is?

Verbeter de scan voordat je gaat vertalen. Scan opnieuw als dat mogelijk is, zet pagina's recht, verhoog het contrast, snijd rommel weg, kies de juiste OCR-taal en controleer moeilijke pagina's opnieuw.

Werkt OCR op niet-Latijnse schriften zoals Hindi of Tamil?

Ja, maar de kwaliteit van de engine verschilt per schrift. Scans in Devanagari, Tamil, Telugu en Bengaals hebben een OCR-engine nodig die op die schriften is getraind, en de vertaalstap heeft lettertypen nodig die ze correct weergeven. Een documentvertaler met ingebouwde OCR verwerkt beide stappen samen — bijvoorbeeld vertaal een gescande PDF van Hindi naar Engels.