Hoe vertaal je een gescande PDF: de complete gids voor OCR + vertaling
Gescande PDF's bevatten afbeeldingen van tekst, geen echte tekst — daarom geeft Google Translate ze ongewijzigd terug. Dit is de OCR + AI-pijplijn die dat oplost.
Snel antwoord: een gescande PDF heeft OCR nodig vóór vertaling
Om een gescande PDF te vertalen, voer je eerst OCR uit om de pagina-afbeeldingen om te zetten in selecteerbare tekst. Vertaal daarna de met OCR verwerkte PDF met een documentvertaler zoals PDF-vertaler. Als je OCR overslaat, geven veel vertaaltools het originele bestand ongewijzigd terug, slaan ze pagina's over, of vertalen ze alleen de delen die al een tekstlaag bevatten.
Gebruik deze workflow:
- Open de PDF en probeer een zin te selecteren.
- Als je geen tekst kunt selecteren, voer dan OCR uit.
- Controleer de OCR-tekst voordat je gaat vertalen.
- Upload de met OCR verwerkte PDF naar PDF-vertaler.
- Vergelijk de vertaalde output met de oorspronkelijke scan.
Als je PDF al selecteerbare tekst heeft en het probleem het behouden van de lay-out is, gebruik dan de gids om een PDF te vertalen zonder de opmaak te verliezen.
Waarom gescande PDF's mislukken in vertaaltools
Een gescande PDF is vaak niets meer dan een verzameling pagina-afbeeldingen in een PDF-container. Voor een mens lijken er woorden op de pagina te staan, maar het bestand bevat mogelijk geen echte tekst die software kan uitlezen.
Dat leidt tot een eenvoudige mislukking:
| Bestandstype | Wat de vertaler ziet | Wat er gebeurt |
|---|---|---|
| Tekstgebaseerde PDF | Tekst plus lay-outgegevens | Vertaling kan meteen beginnen. |
| Alleen-afbeelding-PDF | Afbeeldingen van pagina's | OCR is eerst nodig. |
| Tekst-over-afbeelding-PDF | Scanafbeelding plus verborgen OCR-tekstlaag | Vertaling kan werken, maar OCR-fouten beïnvloeden de kwaliteit. |
De nuttigste test is niet technisch:
- Open de PDF.
- Probeer afzonderlijke woorden te markeren.
- Kopieer een zin.
- Plak die in een teksteditor.
Als de zin correct wordt geplakt, heeft de PDF een tekstlaag. Als er niets wordt geplakt, of de hele pagina zich gedraagt als één afbeelding, heeft de PDF OCR nodig.
OCR is niet optioneel
OCR staat voor optical character recognition. Het leest tekst uit een afbeelding en maakt er machineleesbare tekst van. Voor PDF-vertaling maakt OCR meestal een onzichtbare tekstlaag over de gescande pagina.
Die tekstlaag wordt vervolgens de bron voor de vertaling. Als OCR fouten maakt, neemt de vertaling die fouten over.
Veelvoorkomende OCR-fouten:
| OCR-fout | Risico voor de vertaling |
|---|---|
rn gelezen als m | Woorden veranderen van betekenis. |
1 gelezen als l | Getallen, verwijzingen of codes raken verkeerd. |
O gelezen als 0 | ID's, formules en namen kunnen kapotgaan. |
| Accenten weggelaten | Namen en termen worden onnauwkeurig. |
| Kolommen samengevoegd | Zinnen worden in de verkeerde volgorde vertaald. |
| Tabelcellen onjuist rij voor rij gelezen | Datalabels komen niet meer overeen met waarden. |
| Voetnoten behandeld als hoofdtekst | Citaten en noten komen in de verkeerde context terecht. |
Daarom is de OCR-controle zo belangrijk. Vertaal een gescand document pas nadat je steekproefsgewijs de geëxtraheerde tekst hebt gecontroleerd.
De OCR-eerst-workflow
Stap 1: bepaal het PDF-type
Probeer tekst te selecteren. Als dat werkt, heb je mogelijk geen OCR nodig. Als selecteren niet lukt, behandel het bestand dan als een bestand met alleen afbeeldingen.
Controleer de pagina ook visueel:
- Scheefstaande pagina's wijzen op een scan.
- Een grijze papiertextuur wijst op een scan.
- Schaduwen bij de rug wijzen op een gefotografeerd boek.
- Ongelijk contrast wijst op een fotokopie.
- Als zoeken zichtbare woorden niet vindt, is er waarschijnlijk geen tekstlaag.
Stap 2: verbeter de scan als dat mogelijk is
De kwaliteit van OCR begint bij de beeldkwaliteit. Als je opnieuw kunt scannen, doe dat dan voordat je tijd steekt in het repareren van OCR-fouten.
Gebruik deze checklist voor beeldkwaliteit:
- Scan met een hoge genoeg resolutie voor kleine tekst.
- Houd pagina's vlak en recht.
- Vermijd schaduwen bij de rug.
- Snijd tabelranden, vingers of rommelige achtergronden weg.
- Gebruik sterk contrast tussen tekst en pagina.
- Zorg dat de hele regel zichtbaar is.
- Gebruik de juiste paginarichting.
- Comprimeer de afbeelding niet zo sterk dat letters vervagen.
Bij oude boeken en fotokopieën komen de grootste verbeteringen meestal door het rechtzetten van pagina's, contrastcorrectie en het opnieuw scannen van pagina's die onscherp zijn.
Stap 3: voer OCR uit
Kies een OCR-tool op basis van het document, niet op basis van het merk.
| OCR-optie | Beste voor | Let op |
|---|---|---|
| Adobe Acrobat OCR | Algemene zakelijke scans en PDF-opschoning | Controleer je huidige abonnement voordat je erop vertrouwt. |
| ABBYY FineReader | Complexe scans, tabellen, kolommen en lastige lay-outs | Handmatige controle blijft nodig. |
| Tesseract of OCRmyPDF | Lokale, technische, herhaalbare OCR-workflows | Vereist vertrouwdheid met command-line-tools. |
| Online OCR-tools | Incidentele bestanden met laag risico | Privacy, bestandslimieten en kwaliteit verschillen. |
| Scan-apps op telefoons | Snel een nieuwe scan maken | Perspectiefvervorming kan OCR verslechteren. |
Voor privécontracten, medische dossiers, financiële documenten, ongepubliceerde manuscripten of academisch werk dat nog in beoordeling is, heeft een lokale OCR-workflow of een vertrouwde omgeving de voorkeur. Upload gevoelige scans niet naar willekeurige gratis OCR-sites.
Stap 4: controleer de OCR-tekst
Controleer vóór de vertaling, niet erna. Kopieer tekst van meerdere lastige pagina's en kijk of die leesbaar is.
Voorbeeldpagina's om te inspecteren:
- De titelpagina.
- Een dichte pagina met hoofdtekst.
- Een pagina met een tabel.
- Een pagina met voetnoten.
- Een pagina met kleine tekst.
- Een pagina met stempels, handschrift of kanttekeningen.
- Een pagina in elke taal als het document meertalig is.
Let op:
- Ontbrekende alinea's.
- Samengevoegde kolommen.
- Afgebroken woorden.
- Verkeerde tekens.
- Verloren diakritische tekens.
- Tabelkoppen die los van waarden staan.
- Kopteksten die in de hoofdtekst terechtkomen.
- Paginanummers die in zinnen terechtkomen.
Als de OCR-kwaliteit slecht is, los dat dan op vóór de vertaling. Een vertaler kan betekenis niet betrouwbaar herstellen als OCR die nooit heeft vastgelegd.
Stap 5: vertaal de met OCR verwerkte PDF
Zodra de PDF een schone tekstlaag heeft, upload je die naar PDF-vertaler. De vertaalstap kan nu met tekst werken in plaats van met pagina-afbeeldingen.
Vergelijk na de vertaling:
- Oorspronkelijke scan
- OCR-tekstlaag
- Vertaalde PDF
Met deze driewegcontrole kun je vaststellen of een fout uit OCR of uit de vertaling komt. Als de OCR-tekst fout is, voer OCR dan opnieuw uit. Als de OCR-tekst goed is maar de vertaling fout, corrigeer dan de vertaling.
Stap 6: controleer inhoud met hoog risico
Gescande documenten bevatten vaak precies de inhoud die zorgvuldige controle nodig heeft: oude contracten, overheidsformulieren, academische artikelen, handleidingen, historische documenten en boekpagina's.
Controleer deze onderdelen handmatig:
- Namen
- Datums
- Getallen
- Adressen
- Productcodes
- Juridische verwijzingen
- Citaten
- Tabelkoppen
- Eenheden
- Vergelijkingen
- Bijschriften
- Voetnoten
Voor onderzoeks- en academische bestanden, lees ook de gids over het vertalen van academische onderzoeksartikelen, want gescande academische PDF's voegen risico's rond citaties en lay-out toe boven op het OCR-risico.
Voorbeelden van fouten naast elkaar
Gebruik deze tabel tijdens het controleren van de OCR-output.
| De oorspronkelijke scan toont waarschijnlijk | Slechte OCR-output | Waarom dit belangrijk is |
|---|---|---|
modern | modem | De betekenis verandert volledig. |
Section 10 | Section IO | Juridische of technische verwijzingen kunnen kapotgaan. |
2026 | 2O26 | Datums en ID's worden onbetrouwbaar. |
patient | patlent | Medische of technische termen raken verkeerd. |
| Twee afzonderlijke kolommen | Eén samengevoegde alinea | Vertalingen lezen zinnen in de verkeerde volgorde. |
| Tabelrij met labels en waarden | Eén enkele regel gemengde tekst | Data komt niet meer overeen met het juiste label. |
Voetnootmarkering 1 | Letter l | Noten kunnen aan de verkeerde zin worden gekoppeld. |
Als je deze fouten in de OCR-laag ziet, herstel OCR dan vóór je gaat vertalen.
Welke tool moet je gebruiken?
Kies op basis van de moeilijkheid van het document.
| Document | Aanbevolen aanpak |
|---|---|
| Schone zakelijke scan | OCR in Acrobat of een andere betrouwbare OCR-tool, daarna PDF-vertaler. |
| Scan van een oud boek | Zet pagina's recht, verbeter het contrast, voer zorgvuldig OCR uit en vertaal daarna. |
| Scan van een academisch artikel | OCR, controleer vergelijkingen/citaties/tabellen en vertaal daarna met lay-outcontrole. |
| Handgeschreven notities | Handmatige transcriptie kan nodig zijn vóór vertaling. |
| Eenvoudig persoonlijk document | Online OCR kan acceptabel zijn als het privacyrisico laag is. |
| Gevoelig document | Gebruik lokale OCR of een vertrouwde gecontroleerde workflow. |
Als je een bredere vergelijking van tools wilt, bekijk dan de gids voor de beste PDF-vertaaltools.
Veelvoorkomende problemen met gescande PDF's
Pagina's met lage resolutie
Scans met lage resolutie laten letters in elkaar overlopen. OCR kan rn en m, cl en d, of interpunctie en stofdeeltjes verwarren.
Oplossing: scan opnieuw als dat mogelijk is. Zo niet, verhoog dan het contrast en probeer OCR opnieuw.
Scheve of gebogen pagina's
Scans van boeken buigen vaak bij de rug. OCR leest die gebogen regels slecht en kan tekst opnieuw ordenen.
Oplossing: maak de pagina vlak, scan opnieuw, of gebruik een OCR-tool met deskew en dewarping.
Meerkolomsopmaak
OCR kan linker- en rechterkolommen samenvoegen tot één tekststroom.
Oplossing: controleer de leesvolgorde vóór de vertaling. Academische artikelen vereisen hier extra aandacht.
Tabellen
Tabellen zijn lastig omdat OCR zowel tekst als structuur moet detecteren. Een tabel kan er visueel correct uitzien terwijl de tekstlaag fout is.
Oplossing: kopieer de OCR-tekst uit de tabel en controleer of labels nog steeds overeenkomen met waarden.
Handschrift en handtekeningen
OCR voor gedrukte tekst is veel betrouwbaarder dan handschriftherkenning. Handgeschreven kanttekeningen, handtekeningen en ingevulde formulieren kunnen worden gemist of verminkt.
Oplossing: transcribeer essentieel handschrift handmatig vóór vertaling.
Gemengde talen
OCR werkt het best wanneer het de brontaal kent. Een scan met Engels, Frans en Chinees kan mislukken als OCR op slechts één taal is ingesteld.
Oplossing: kies alle relevante OCR-talen als de tool dat ondersteunt, en controleer daarna steekproefsgewijs elk taaldeel.
Checklist voor privacy en beveiliging
Vraag jezelf af voordat je ergens een gescande PDF uploadt:
- Bevat het document persoonsgegevens?
- Bevat het medisch, juridisch, financieel, academisch of ongepubliceerd materiaal?
- Valt het onder een klantovereenkomst of schoolbeleid?
- Is een online OCR-service toegestaan voor dit document?
- Heb je in plaats daarvan een lokale workflow nodig?
- Kun je pagina's verwijderen die niet vertaald hoeven te worden?
Gescande PDF's zijn vaak gevoelig omdat ze afkomstig zijn uit contracten, ID's, formulieren, onderzoeksconcepten en interne archieven. Behandel beslissingen over OCR-uploads op dezelfde manier als je het oorspronkelijke document zou behandelen.
FAQ
Hoe vertaal ik een gescande PDF?
Voer eerst OCR uit om een tekstlaag te maken, controleer de OCR-output en vertaal daarna de met OCR verwerkte PDF met PDF-vertaler. Sla de OCR-controle niet over.
Waarom heeft Google Translate mijn gescande PDF niet vertaald?
De PDF kan alleen uit afbeeldingen bestaan. Als er geen tekstlaag is, heeft Google Translate geen tekst om uit te lezen. Gebruik eerst OCR en vertaal daarna. De specifieke workflow voor Google wordt behandeld in de gids voor PDF's vertalen met Google Translate.
Kan ChatGPT een gescande PDF vertalen?
ChatGPT kan helpen met losse afbeeldingen of geëxtraheerde tekst, maar een gescande PDF van meerdere pagina's heeft nog steeds OCR en controle nodig. Voor een volledige documentworkflow: eerst OCR, daarna een workflow voor PDF-vertaling.
Wat is de beste OCR-tool voor gescande PDF's?
Dat hangt af van het document. Tools zoals Acrobat en ABBYY zijn nuttig voor algemene en complexe scans. Tesseract of OCRmyPDF is nuttig voor lokale technische workflows. Online OCR kan prima zijn voor eenvoudige bestanden met laag risico, maar privacy en kwaliteit verschillen.
Kan OCR de opmaak behouden?
OCR kan een tekstlaag maken en soms de leesvolgorde herstellen, maar dat is niet hetzelfde als de oorspronkelijke vertaalde lay-out behouden. Gebruik na OCR een workflow voor PDF-vertaling en controleer de output aan de hand van het origineel.
Wat als de OCR-kwaliteit slecht is?
Verbeter de scan vóór je gaat vertalen. Scan opnieuw als dat mogelijk is, zet pagina's recht, verhoog het contrast, snijd rommel weg, kies de juiste OCR-taal en controleer lastige pagina's opnieuw.