Cum să traduci un PDF scanat: ghidul complet pentru OCR + traducere

PDF-urile scanate conțin imagini ale textului, nu text propriu-zis — de aceea Google Translate le returnează neschimbate. Iată fluxul OCR + AI care rezolvă problema.

BookTranslator Team

Traducere PDF

28 feb. 202611 min read

Răspuns rapid: un PDF scanat are nevoie de OCR înainte de traducere

Pentru a traduce un PDF scanat, mai întâi rulează OCR pentru a transforma imaginile paginilor în text selectabil. Apoi traduce PDF-ul procesat cu OCR cu ajutorul unui traducător de documente precum Traducător PDF. Dacă sari peste OCR, multe instrumente de traducere vor returna fișierul original neschimbat, vor omite pagini sau vor traduce doar părțile care conțin deja un strat de text.

Folosește acest flux de lucru:

Deschide PDF-ul și încearcă să selectezi o propoziție.
Dacă nu poți selecta textul, rulează OCR.
Revizuiește textul OCR înainte de traducere.
Încarcă PDF-ul procesat cu OCR în Traducător PDF.
Revizuiește rezultatul tradus comparându-l cu scanarea originală.

Dacă PDF-ul tău are deja text selectabil, iar problema este păstrarea aspectului, folosește ghidul pentru a traduce un PDF fără să pierzi formatarea.

De ce PDF-urile scanate eșuează în instrumentele de traducere

Un PDF scanat este adesea doar un set de imagini ale paginilor într-un container PDF. Pentru un om, pagina poate afișa cuvinte, dar fișierul poate să nu conțină text real pe care software-ul să îl poată extrage.

De aici apare problema de bază:

Tip de fișier	Ce vede traducătorul	Ce se întâmplă
PDF bazat pe text	Text plus date despre aspect	Traducerea poate începe imediat.
PDF scanat doar imagini	Imagini ale paginilor	Mai întâi este necesar OCR.
PDF cu text peste imagine	Imagine scanată plus strat ascuns de text OCR	Traducerea poate funcționa, dar erorile OCR afectează calitatea.

Cel mai util test nu este unul tehnic:

Deschide PDF-ul.
Încearcă să evidențiezi cuvinte individuale.
Copiază o propoziție.
Lipește-o într-un editor de text.

Dacă propoziția se lipește corect, PDF-ul are un strat de text. Dacă nu se lipește nimic sau întreaga pagină se comportă ca o singură imagine, PDF-ul are nevoie de OCR.

OCR nu este opțional

OCR înseamnă recunoaștere optică a caracterelor. Citește textul dintr-o imagine și creează text care poate fi citit de computer. Pentru traducerea PDF-urilor, OCR creează de obicei un strat de text invizibil peste pagina scanată.

Acest strat de text devine sursa pentru traducere. Dacă OCR face greșeli, traducerea le moștenește.

Greșeli OCR frecvente:

Greșeală OCR	Risc pentru traducere
`rn` citit ca `m`	Sensul cuvintelor se schimbă.
`1` citit ca `l`	Numerele, referințele sau codurile devin greșite.
`O` citit ca `0`	ID-urile, formulele și numele pot deveni incorecte.
Diacritice pierdute	Numele și termenii devin inexacte.
Coloane unite	Propozițiile sunt traduse în ordinea greșită.
Celulele tabelului citite incorect rând cu rând	Etichetele datelor nu mai corespund valorilor.
Notele de subsol tratate ca text principal	Citațiile și notele ajung în contextul greșit.

De aceea etapa de revizuire OCR contează. Nu traduce un document scanat până nu ai verificat punctual textul extras.

Fluxul de lucru cu OCR mai întâi

Pasul 1: Identifică tipul PDF-ului

Încearcă să selectezi textul. Dacă selecția funcționează, este posibil să nu ai nevoie de OCR. Dacă selecția eșuează, tratează fișierul ca fiind doar imagine.

Verifică și pagina vizual:

Paginile înclinate sugerează o scanare.
Textura gri a hârtiei sugerează o scanare.
Umbrele din apropierea cotorului sugerează o carte fotografiată.
Contrastul neuniform sugerează o fotocopie.
Dacă funcția de căutare nu găsește cuvinte vizibile, probabil nu există strat de text.

Pasul 2: Îmbunătățește scanarea, dacă poți

Calitatea OCR începe cu calitatea imaginii. Dacă poți rescana, fă asta înainte să pierzi timp reparând erorile OCR.

Folosește această listă de verificare pentru calitatea imaginii:

Scanează la o rezoluție suficient de mare pentru textul mic.
Ține paginile plate și drepte.
Evită umbrele din apropierea cotorului.
Decupează marginile mesei, degetele sau elementele de fundal care încarcă imaginea.
Folosește un contrast puternic între text și pagină.
Asigură-te că întreaga linie este vizibilă.
Folosește orientarea corectă a paginii.
Nu comprima imaginea atât de mult încât literele să devină neclare.

Pentru cărți vechi și fotocopii, cele mai mari îmbunătățiri vin de obicei din corectarea înclinării, ajustarea contrastului și rescannarea paginilor care sunt defocalizate.

Pasul 3: Rulează OCR

Alege un instrument OCR în funcție de document, nu de brand.

Opțiune OCR	Cea mai bună pentru	La ce să fii atent
OCR Adobe Acrobat	Scanări de business generale și curățarea PDF-urilor	Verifică accesul din planul actual înainte să te bazezi pe el.
ABBYY FineReader	Scanări complexe, tabele, coloane și aspecte dificile	Tot necesită revizuire manuală.
Tesseract sau OCRmyPDF	Fluxuri OCR locale, tehnice și repetabile	Necesită familiaritate cu instrumentele de linie de comandă.
Instrumente OCR online	Fișiere ocazionale cu risc redus	Confidențialitatea, limitele de fișiere și calitatea variază.
Aplicații de scanare pe telefon	Capturarea rapidă a unei scanări noi	Distorsiunea de perspectivă poate afecta OCR-ul.

Pentru contracte private, dosare medicale, documente financiare, manuscrise nepublicate sau lucrări academice aflate în evaluare, preferă un flux OCR local sau un mediu de încredere. Nu încărca scanări sensibile pe site-uri OCR gratuite aleatorii.

Pasul 4: Revizuiește textul OCR

Revizuiește înainte de traducere, nu după. Copiază text din mai multe pagini dificile și verifică dacă este lizibil.

Pagini de probă pe care să le inspectezi:

Pagina de titlu.
O pagină cu corp de text dens.
O pagină cu tabel.
O pagină cu note de subsol.
O pagină cu text mic.
O pagină cu ștampile, scris de mână sau note pe margine.
Câte o pagină din fiecare limbă, dacă documentul este multilingv.

Caută:

Paragrafe lipsă.
Coloane unite.
Cuvinte rupte.
Caractere greșite.
Diacritice pierdute.
Etichete de tabel separate de valori.
Antete introduse în corpul textului.
Numere de pagină amestecate în propoziții.

Dacă OCR-ul este slab, repară-l înainte de traducere. Un traducător nu poate reconstrui în mod fiabil un sens pe care OCR-ul nu l-a capturat niciodată.

Pasul 5: Tradu PDF-ul procesat cu OCR

După ce PDF-ul are un strat de text curat, încarcă-l în Traducător PDF. Etapa de traducere poate lucra acum cu text, nu cu imagini de pagină.

După traducere, compară:

Scanarea originală
Stratul de text OCR
PDF-ul tradus

Această verificare în trei direcții te ajută să identifici dacă o eroare provine din OCR sau din traducere. Dacă textul OCR este greșit, rulează din nou OCR-ul. Dacă textul OCR este corect, dar traducerea este greșită, corectează traducerea.

Pasul 6: Revizuiește conținutul cu risc ridicat

Documentele scanate conțin adesea exact tipul de conținut care necesită o revizuire atentă: contracte vechi, formulare guvernamentale, lucrări academice, manuale, documente istorice și pagini de carte.

Revizuiește manual aceste elemente:

Nume
Date
Numere
Adrese
Coduri de produs
Referințe juridice
Citări
Etichete de tabel
Unități
Ecuații
Legende
Note de subsol

Pentru fișiere de cercetare și academice, citește și ghidul despre traducerea lucrărilor academice de cercetare, deoarece PDF-urile academice scanate adaugă riscuri legate de citări și aspect peste riscul OCR.

Exemple comparative de erori

Folosește acest tabel când revizuiești rezultatul OCR.

Scanarea originală arată probabil	Rezultat OCR greșit	De ce contează
`modern`	`modem`	Sensul se schimbă complet.
`Section 10`	`Section IO`	Referințele juridice sau tehnice pot deveni incorecte.
`2026`	`2O26`	Datele și ID-urile devin nesigure.
`patient`	`patlent`	Termenii medicali sau tehnici devin greșiți.
Două coloane separate	Un paragraf unit	Traducerea citește propozițiile în ordinea greșită.
Rând de tabel cu etichete și valori	O singură linie de text amestecat	Datele nu mai corespund etichetei corecte.
Marcaj de notă de subsol `1`	Litera `l`	Notele se pot atașa propoziției greșite.

Dacă vezi aceste erori în stratul OCR, repară OCR-ul înainte de traducere.

Ce instrument ar trebui să folosești?

Alege în funcție de dificultatea documentului.

Document	Cale recomandată
Scanare de business curată	OCR în Acrobat sau într-un alt instrument OCR de încredere, apoi Traducător PDF.
Scanare dintr-o carte veche	Corectează înclinarea și contrastul, aplică OCR cu atenție, apoi traduce.
Scanare a unei lucrări academice	OCR, verifică ecuațiile/citările/tabelele, apoi traduce cu revizuirea aspectului.
Note scrise de mână	Poate fi necesară o transcriere manuală înainte de traducere.
Document personal simplu	OCR-ul online poate fi acceptabil dacă riscul de confidențialitate este scăzut.
Document sensibil	Folosește OCR local sau un flux controlat, de încredere.

Dacă vrei o comparație mai amplă a instrumentelor, vezi ghidul celor mai bune instrumente de traducere PDF.

Probleme frecvente ale PDF-urilor scanate

Pagini cu rezoluție mică

Scanările cu rezoluție mică estompează literele între ele. OCR-ul poate confunda rn și m, cl și d sau semnele de punctuație și praful.

Soluție: rescanează dacă poți. Dacă nu, mărește contrastul și încearcă din nou OCR-ul.

Pagini înclinate sau curbate

Scanările de carte sunt adesea curbate în apropierea cotorului. OCR-ul citește prost liniile curbate și poate reordona textul.

Soluție: aplatizează pagina, rescanează sau folosește un instrument OCR cu corectare a înclinării și a deformării.

Aspect cu mai multe coloane

OCR-ul poate uni coloanele din stânga și din dreapta într-un singur flux de propoziții.

Soluție: verifică ordinea de citire înainte de traducere. Lucrările academice au nevoie de o atenție specială aici.

Tabele

Tabelele sunt dificile deoarece OCR-ul trebuie să detecteze atât textul, cât și structura. Un tabel poate arăta corect vizual, în timp ce stratul de text este greșit.

Soluție: copiază textul OCR din tabel și confirmă că etichetele corespund în continuare valorilor.

Scris de mână și semnături

OCR-ul pentru text tipărit este mult mai fiabil decât recunoașterea scrisului de mână. Notele scrise de mână pe margine, semnăturile și formularele completate pot fi omise sau deformate.

Soluție: transcrie manual scrisul de mână esențial înainte de traducere.

Limbi amestecate

OCR-ul funcționează cel mai bine când cunoaște limba sursă. O scanare cu engleză, franceză și chineză poate eșua dacă OCR-ul este setat pe o singură limbă.

Soluție: alege toate limbile OCR relevante, dacă instrumentul le acceptă, apoi verifică punctual fiecare secțiune lingvistică.

Listă de verificare pentru confidențialitate și securitate

Înainte să încarci un PDF scanat oriunde, întreabă-te:

Conține documentul date cu caracter personal?
Include materiale medicale, juridice, financiare, academice sau nepublicate?
Este acoperit de un acord cu clientul sau de politica unei instituții de învățământ?
Este permis un serviciu OCR online pentru acest document?
Ai nevoie în schimb de un flux de lucru local?
Poți elimina paginile care nu au nevoie de traducere?

PDF-urile scanate sunt adesea sensibile deoarece provin din contracte, acte de identitate, formulare, versiuni de lucru pentru cercetare și arhive interne. Tratează deciziile de încărcare pentru OCR la fel cum ai trata documentul original.

Întrebări frecvente

Cum traduc un PDF scanat?

Mai întâi rulează OCR pentru a crea un strat de text, revizuiește rezultatul OCR, apoi traduce PDF-ul procesat cu OCR cu Traducător PDF. Nu sări peste etapa de revizuire OCR.

De ce nu mi-a tradus Google Translate PDF-ul scanat?

Este posibil ca PDF-ul să conțină doar imagini. Dacă nu există strat de text, Google Translate nu are text de extras. Mai întâi folosește OCR, apoi traduce. Fluxul specific pentru Google este prezentat în ghidul Google Translate pentru PDF-uri.

Poate ChatGPT să traducă un PDF scanat?

ChatGPT poate ajuta cu imagini individuale sau cu text extras, dar un PDF scanat cu mai multe pagini are în continuare nevoie de OCR și de revizuire. Pentru un flux complet la nivel de document, mai întâi OCR, apoi folosește un flux de traducere PDF.

Care este cel mai bun instrument OCR pentru PDF-uri scanate?

Depinde de document. Acrobat și instrumentele de tip ABBYY sunt utile pentru scanări generale și complexe. Tesseract sau OCRmyPDF sunt utile pentru fluxuri tehnice locale. OCR-ul online poate fi potrivit pentru fișiere simple, cu risc redus, dar confidențialitatea și calitatea variază.

Poate OCR să păstreze formatarea?

OCR-ul poate crea un strat de text și uneori poate recupera ordinea de citire, dar nu este același lucru cu păstrarea aspectului tradus original. După OCR, folosește un flux de traducere PDF și revizuiește rezultatul comparându-l cu originalul.

Ce fac dacă OCR-ul are calitate slabă?

Îmbunătățește scanarea înainte de traducere. Rescanează dacă poți, corectează înclinarea paginilor, mărește contrastul, decupează elementele care încarcă imaginea, alege limba OCR corectă și revizuiește din nou paginile dificile.