BookTranslator
BookTranslator

Πώς να μεταφράσετε ένα σαρωμένο PDF: Ο πλήρης οδηγός OCR + μετάφρασης

Τα σαρωμένα PDF περιέχουν εικόνες κειμένου, όχι πραγματικό κείμενο — γι’ αυτό το Google Translate τα επιστρέφει αμετάβλητα. Εδώ είναι η ροή OCR + AI που το διορθώνει.

BookTranslator

BookTranslator Team

Οδηγοί Μετάφρασης12 min read

Γρήγορη απάντηση: Ένα σαρωμένο PDF χρειάζεται OCR πριν από τη μετάφραση

Για να μεταφράσετε ένα σαρωμένο PDF, εκτελέστε πρώτα OCR ώστε οι εικόνες των σελίδων να μετατραπούν σε επιλέξιμο κείμενο. Έπειτα μεταφράστε το PDF που έχει υποστεί OCR με ένα εργαλείο μετάφρασης εγγράφων όπως ο Μεταφραστής PDF. Αν παραλείψετε το OCR, πολλά εργαλεία μετάφρασης θα επιστρέψουν το αρχικό αρχείο χωρίς αλλαγές, θα παραλείψουν σελίδες ή θα μεταφράσουν μόνο τα μέρη που περιέχουν ήδη επίπεδο κειμένου.

Ακολουθήστε αυτή τη ροή εργασίας:

  1. Ανοίξτε το PDF και δοκιμάστε να επιλέξετε μία πρόταση.
  2. Αν δεν μπορείτε να επιλέξετε κείμενο, εκτελέστε OCR.
  3. Ελέγξτε το κείμενο του OCR πριν μεταφράσετε.
  4. Ανεβάστε το PDF που έχει υποστεί OCR στο Μεταφραστής PDF.
  5. Ελέγξτε το μεταφρασμένο αποτέλεσμα σε σύγκριση με το αρχικό σαρωμένο έγγραφο.

Αν το PDF σας έχει ήδη επιλέξιμο κείμενο και το πρόβλημα είναι η διατήρηση της μορφοποίησης, χρησιμοποιήστε τον οδηγό για μετάφραση PDF χωρίς απώλεια μορφοποίησης.

Γιατί τα σαρωμένα PDF αποτυγχάνουν στα εργαλεία μετάφρασης

Ένα σαρωμένο PDF συχνά δεν είναι παρά ένα σύνολο εικόνων σελίδων μέσα σε ένα κοντέινερ PDF. Η σελίδα μπορεί να δείχνει λέξεις σε έναν άνθρωπο, αλλά το αρχείο μπορεί να μην περιέχει πραγματικό κείμενο που να μπορεί να εξαγάγει το λογισμικό.

Αυτό δημιουργεί μια απλή αποτυχία:

Τύπος αρχείουΤι βλέπει ο μεταφραστήςΤι συμβαίνει
PDF βασισμένο σε κείμενοΚείμενο και δεδομένα διάταξηςΗ μετάφραση μπορεί να ξεκινήσει αμέσως.
Σαρωμένο PDF μόνο με εικόνεςΕικόνες σελίδωνΑπαιτείται πρώτα OCR.
PDF με κείμενο πάνω σε εικόναΕικόνα σάρωσης και κρυφό επίπεδο κειμένου OCRΗ μετάφραση μπορεί να λειτουργήσει, αλλά τα σφάλματα OCR επηρεάζουν την ποιότητα.

Η πιο χρήσιμη δοκιμή δεν είναι τεχνική:

  1. Ανοίξτε το PDF.
  2. Προσπαθήστε να επιλέξετε μεμονωμένες λέξεις.
  3. Αντιγράψτε μία πρόταση.
  4. Επικολλήστε τη σε έναν επεξεργαστή κειμένου.

Αν η πρόταση επικολλάται σωστά, το PDF διαθέτει επίπεδο κειμένου. Αν δεν επικολλάται τίποτα ή αν ολόκληρη η σελίδα συμπεριφέρεται σαν μία εικόνα, το PDF χρειάζεται OCR.

Το OCR δεν είναι προαιρετικό

Το OCR σημαίνει οπτική αναγνώριση χαρακτήρων. Διαβάζει κείμενο από μια εικόνα και δημιουργεί κείμενο αναγνώσιμο από μηχανές. Για τη μετάφραση PDF, το OCR συνήθως δημιουργεί ένα αόρατο επίπεδο κειμένου πάνω από τη σαρωμένη σελίδα.

Αυτό το επίπεδο κειμένου γίνεται η πηγή για τη μετάφραση. Αν το OCR κάνει λάθη, η μετάφραση κληρονομεί αυτά τα λάθη.

Συνηθισμένα λάθη OCR:

Λάθος OCRΚίνδυνος για τη μετάφραση
rn διαβάζεται ως mΟι λέξεις αλλάζουν σημασία.
1 διαβάζεται ως lΑριθμοί, παραπομπές ή κωδικοί γίνονται λανθασμένοι.
O διαβάζεται ως 0Αναγνωριστικά, τύποι και ονόματα μπορεί να αλλοιωθούν.
Οι τόνοι παραλείπονταιΟνόματα και όροι γίνονται ανακριβή.
Οι στήλες συγχωνεύονταιΟι προτάσεις μεταφράζονται με λάθος σειρά.
Τα κελιά του πίνακα διαβάζονται λανθασμένα σειρά προς σειράΟι ετικέτες δεδομένων δεν αντιστοιχούν πλέον στις τιμές.
Οι υποσημειώσεις αντιμετωπίζονται ως κύριο κείμενοΠαραπομπές και σημειώσεις μετακινούνται σε λάθος συμφραζόμενα.

Γι’ αυτό το βήμα ελέγχου του OCR έχει σημασία. Μην μεταφράζετε ένα σαρωμένο έγγραφο πριν κάνετε δειγματοληπτικό έλεγχο στο εξαγόμενο κείμενο.

Η ροή εργασίας με OCR πρώτα

Βήμα 1: Αναγνωρίστε τον τύπο του PDF

Δοκιμάστε να επιλέξετε κείμενο. Αν η επιλογή λειτουργεί, ίσως να μην χρειάζεστε OCR. Αν η επιλογή αποτύχει, αντιμετωπίστε το αρχείο ως αρχείο μόνο με εικόνα.

Εξετάστε επίσης οπτικά τη σελίδα:

  • Οι στραβές σελίδες δείχνουν σάρωση.
  • Η γκρι υφή χαρτιού δείχνει σάρωση.
  • Σκιές κοντά στη ράχη δείχνουν φωτογραφημένο βιβλίο.
  • Η άνιση αντίθεση δείχνει φωτοτυπία.
  • Αν η αναζήτηση δεν βρίσκει ορατές λέξεις, πιθανότατα δεν υπάρχει επίπεδο κειμένου.

Βήμα 2: Βελτιώστε τη σάρωση αν είναι δυνατό

Η ποιότητα του OCR ξεκινά από την ποιότητα της εικόνας. Αν μπορείτε να ξανασαρώσετε το έγγραφο, κάντε το πριν ξοδέψετε χρόνο στη διόρθωση σφαλμάτων OCR.

Χρησιμοποιήστε αυτή τη λίστα ελέγχου ποιότητας εικόνας:

  • Σαρώστε σε αρκετά υψηλή ανάλυση για μικρό κείμενο.
  • Κρατήστε τις σελίδες επίπεδες και ίσιες.
  • Αποφύγετε σκιές κοντά στη ράχη.
  • Κόψτε άκρες τραπεζιού, δάχτυλα ή φόντο με περιττά στοιχεία.
  • Χρησιμοποιήστε έντονη αντίθεση μεταξύ κειμένου και σελίδας.
  • Κρατήστε ολόκληρη τη γραμμή ορατή.
  • Χρησιμοποιήστε τον σωστό προσανατολισμό σελίδας.
  • Μην συμπιέζετε την εικόνα τόσο πολύ ώστε να θολώνουν τα γράμματα.

Για παλιά βιβλία και φωτοτυπίες, οι μεγαλύτερες βελτιώσεις συνήθως προέρχονται από διόρθωση κλίσης, διόρθωση αντίθεσης και επανασάρωση σελίδων που είναι εκτός εστίασης.

Βήμα 3: Εκτελέστε OCR

Επιλέξτε εργαλείο OCR με βάση το έγγραφο, όχι το brand.

Επιλογή OCRΚατάλληλο γιαΠροσέξτε
OCR του Adobe AcrobatΓενικές επιχειρηματικές σαρώσεις και καθαρισμό PDFΕλέγξτε την πρόσβαση του τρέχοντος πλάνου πριν βασιστείτε σε αυτό.
ABBYY FineReaderΣύνθετες σαρώσεις, πίνακες, στήλες και δύσκολες διατάξειςΕξακολουθεί να απαιτεί χειροκίνητο έλεγχο.
Tesseract ή OCRmyPDFΤοπικές, τεχνικές και επαναλήψιμες ροές εργασίας OCRΑπαιτεί άνεση με εργαλεία γραμμής εντολών.
Εργαλεία OCR στο διαδίκτυοΠεριστασιακά αρχεία χαμηλού ρίσκουΤο απόρρητο, τα όρια αρχείων και η ποιότητα διαφέρουν.
Εφαρμογές σάρωσης στο τηλέφωνοΓρήγορη λήψη νέας σάρωσηςΗ παραμόρφωση προοπτικής μπορεί να βλάψει το OCR.

Για ιδιωτικές συμβάσεις, ιατρικά αρχεία, οικονομικά έγγραφα, αδημοσίευτα χειρόγραφα ή ακαδημαϊκή εργασία υπό αξιολόγηση, προτιμήστε μια τοπική ροή OCR ή ένα αξιόπιστο περιβάλλον. Μην ανεβάζετε ευαίσθητες σαρώσεις σε τυχαίους δωρεάν ιστότοπους OCR.

Βήμα 4: Ελέγξτε το κείμενο του OCR

Κάντε τον έλεγχο πριν από τη μετάφραση, όχι μετά. Αντιγράψτε κείμενο από αρκετές δύσκολες σελίδες και ελέγξτε αν διαβάζεται.

Δείγματα σελίδων για έλεγχο:

  • Η σελίδα τίτλου.
  • Μια πυκνή σελίδα κυρίως κειμένου.
  • Μια σελίδα με πίνακα.
  • Μια σελίδα με υποσημειώσεις.
  • Μια σελίδα με μικρό κείμενο.
  • Μια σελίδα με σφραγίδες, χειρόγραφα ή σημειώσεις στο περιθώριο.
  • Μια σελίδα σε κάθε γλώσσα, αν το έγγραφο είναι πολύγλωσσο.

Αναζητήστε:

  • Παραγράφους που λείπουν.
  • Συγχωνευμένες στήλες.
  • Σπασμένες λέξεις.
  • Λανθασμένους χαρακτήρες.
  • Χαμένους τόνους και διακριτικά.
  • Ετικέτες πινάκων αποσυνδεδεμένες από τις τιμές.
  • Κεφαλίδες που έχουν εισαχθεί στο κυρίως κείμενο.
  • Αριθμούς σελίδων ανακατεμένους μέσα σε προτάσεις.

Αν η ποιότητα του OCR είναι κακή, διορθώστε την πριν από τη μετάφραση. Ένας μεταφραστής δεν μπορεί να ανακτήσει αξιόπιστα νόημα που το OCR δεν κατέγραψε ποτέ.

Βήμα 5: Μεταφράστε το PDF που έχει υποστεί OCR

Μόλις το PDF αποκτήσει καθαρό επίπεδο κειμένου, ανεβάστε το στο Μεταφραστής PDF. Το βήμα της μετάφρασης μπορεί πλέον να δουλέψει με κείμενο αντί για εικόνες σελίδων.

Μετά τη μετάφραση, συγκρίνετε:

  • Την αρχική σάρωση
  • Το επίπεδο κειμένου του OCR
  • Το μεταφρασμένο PDF

Αυτός ο τριπλός έλεγχος σας βοηθά να εντοπίσετε αν ένα σφάλμα προήλθε από το OCR ή από τη μετάφραση. Αν το κείμενο OCR είναι λάθος, εκτελέστε ξανά OCR. Αν το κείμενο OCR είναι σωστό αλλά η μετάφραση είναι λάθος, διορθώστε τη μετάφραση.

Βήμα 6: Ελέγξτε περιεχόμενο υψηλού ρίσκου

Τα σαρωμένα έγγραφα συχνά περιέχουν ακριβώς το περιεχόμενο που χρειάζεται προσεκτικό έλεγχο: παλιές συμβάσεις, κρατικές φόρμες, ακαδημαϊκές εργασίες, εγχειρίδια, ιστορικά έγγραφα και σελίδες βιβλίων.

Ελέγξτε χειροκίνητα τα εξής:

  • Ονόματα
  • Ημερομηνίες
  • Αριθμούς
  • Διευθύνσεις
  • Κωδικούς προϊόντων
  • Νομικές παραπομπές
  • Παραπομπές
  • Ετικέτες πινάκων
  • Μονάδες
  • Εξισώσεις
  • Λεζάντες
  • Υποσημειώσεις

Για ερευνητικά και ακαδημαϊκά αρχεία, διαβάστε επίσης τον οδηγό για μετάφραση ακαδημαϊκών ερευνητικών εργασιών, επειδή τα σαρωμένα ακαδημαϊκά PDF προσθέτουν κινδύνους σχετικούς με παραπομπές και διάταξη πάνω από τον κίνδυνο του OCR.

Παραδείγματα αποτυχίας δίπλα-δίπλα

Χρησιμοποιήστε αυτόν τον πίνακα όταν ελέγχετε την έξοδο του OCR.

Η αρχική σάρωση πιθανότατα δείχνειΚακή έξοδο OCRΓιατί έχει σημασία
modernmodemΗ σημασία αλλάζει εντελώς.
Section 10Section IOΝομικές ή τεχνικές παραπομπές μπορεί να χαλάσουν.
20262O26Ημερομηνίες και αναγνωριστικά γίνονται αναξιόπιστα.
patientpatlentΙατρικοί ή τεχνικοί όροι γίνονται λανθασμένοι.
Δύο ξεχωριστές στήλεςΜία συγχωνευμένη παράγραφοςΗ μετάφραση διαβάζει τις προτάσεις με λάθος σειρά.
Σειρά πίνακα με ετικέτες και τιμέςΜία μόνο γραμμή μικτού κειμένουΤα δεδομένα δεν αντιστοιχούν πλέον στη σωστή ετικέτα.
Δείκτης υποσημείωσης 1Γράμμα lΟι σημειώσεις μπορεί να συνδεθούν με λάθος πρόταση.

Αν δείτε αυτά τα σφάλματα στο επίπεδο OCR, διορθώστε το OCR πριν μεταφράσετε.

Ποιο εργαλείο πρέπει να χρησιμοποιήσετε;

Επιλέξτε με βάση τη δυσκολία του εγγράφου.

ΈγγραφοΠροτεινόμενη διαδρομή
Καθαρή επιχειρηματική σάρωσηOCR στο Acrobat ή σε άλλο αξιόπιστο εργαλείο OCR και έπειτα Μεταφραστής PDF.
Σάρωση παλιού βιβλίουΙσιώστε την εικόνα, βελτιώστε την αντίθεση, κάντε προσεκτικά OCR και μετά μεταφράστε.
Σάρωση ακαδημαϊκής εργασίαςOCR, έλεγχος εξισώσεων/παραπομπών/πινάκων και έπειτα μετάφραση με έλεγχο της διάταξης.
Χειρόγραφες σημειώσειςΜπορεί να απαιτείται χειροκίνητη μεταγραφή πριν από τη μετάφραση.
Απλό προσωπικό έγγραφοΤο online OCR μπορεί να είναι αποδεκτό αν ο κίνδυνος για το απόρρητο είναι χαμηλός.
Ευαίσθητο έγγραφοΧρησιμοποιήστε τοπικό OCR ή μια αξιόπιστη ελεγχόμενη ροή εργασίας.

Αν θέλετε μια ευρύτερη σύγκριση εργαλείων, δείτε τον οδηγό με τα καλύτερα εργαλεία μετάφρασης PDF.

Συνήθη προβλήματα με σαρωμένα PDF

Σελίδες χαμηλής ανάλυσης

Οι σαρώσεις χαμηλής ανάλυσης θολώνουν τα γράμματα μεταξύ τους. Το OCR μπορεί να μπερδέψει τα rn και m, τα cl και d, ή τη στίξη με σκόνη.

Λύση: ξανασαρώστε αν είναι δυνατό. Αν όχι, αυξήστε την αντίθεση και δοκιμάστε ξανά OCR.

Στραβές ή κυρτές σελίδες

Οι σαρώσεις βιβλίων συχνά καμπυλώνουν κοντά στη ράχη. Το OCR διαβάζει άσχημα τις καμπύλες γραμμές και μπορεί να αλλάξει τη σειρά του κειμένου.

Λύση: ισιώστε τη σελίδα, σαρώστε την ξανά ή χρησιμοποιήστε εργαλείο OCR με λειτουργίες διόρθωσης κλίσης και αποκαμπύλωσης.

Διάταξη πολλών στηλών

Το OCR μπορεί να συγχωνεύσει την αριστερή και τη δεξιά στήλη σε μία ενιαία ροή προτάσεων.

Λύση: ελέγξτε τη σειρά ανάγνωσης πριν από τη μετάφραση. Οι ακαδημαϊκές εργασίες χρειάζονται ιδιαίτερη προσοχή εδώ.

Πίνακες

Οι πίνακες είναι δύσκολοι επειδή το OCR πρέπει να εντοπίσει τόσο το κείμενο όσο και τη δομή. Ένας πίνακας μπορεί να φαίνεται σωστός οπτικά, ενώ το επίπεδο κειμένου είναι λάθος.

Λύση: αντιγράψτε το κείμενο OCR από τον πίνακα και επιβεβαιώστε ότι οι ετικέτες εξακολουθούν να ταιριάζουν με τις τιμές.

Χειρόγραφα και υπογραφές

Το OCR για τυπωμένο κείμενο είναι πολύ πιο αξιόπιστο από την αναγνώριση χειρογράφου. Χειρόγραφες σημειώσεις στο περιθώριο, υπογραφές και συμπληρωμένες φόρμες μπορεί να παραλειφθούν ή να αλλοιωθούν.

Λύση: μεταγράψτε χειροκίνητα τα ουσιώδη χειρόγραφα πριν από τη μετάφραση.

Μικτές γλώσσες

Το OCR λειτουργεί καλύτερα όταν γνωρίζει τη γλώσσα προέλευσης. Μια σάρωση με αγγλικά, γαλλικά και κινεζικά μπορεί να αποτύχει αν το OCR είναι ρυθμισμένο μόνο σε μία γλώσσα.

Λύση: επιλέξτε όλες τις σχετικές γλώσσες OCR, αν το εργαλείο το υποστηρίζει, και στη συνέχεια κάντε δειγματοληπτικό έλεγχο σε κάθε γλωσσική ενότητα.

Λίστα ελέγχου απορρήτου και ασφάλειας

Πριν ανεβάσετε ένα σαρωμένο PDF οπουδήποτε, ρωτήστε:

  • Περιέχει το έγγραφο προσωπικά δεδομένα;
  • Περιλαμβάνει ιατρικό, νομικό, οικονομικό, ακαδημαϊκό ή αδημοσίευτο υλικό;
  • Καλύπτεται από συμφωνία πελάτη ή από πολιτική σχολείου/ιδρύματος;
  • Επιτρέπεται μια υπηρεσία OCR στο διαδίκτυο για αυτό το έγγραφο;
  • Χρειάζεστε αντί γι’ αυτό μια τοπική ροή εργασίας;
  • Μπορείτε να αφαιρέσετε σελίδες που δεν χρειάζονται μετάφραση;

Τα σαρωμένα PDF είναι συχνά ευαίσθητα επειδή προέρχονται από συμβάσεις, ταυτότητες, φόρμες, ερευνητικά προσχέδια και εσωτερικά αρχεία. Αντιμετωπίστε τις αποφάσεις μεταφόρτωσης σε OCR με τον ίδιο τρόπο που θα αντιμετωπίζατε το πρωτότυπο έγγραφο.

Συχνές ερωτήσεις

Πώς μεταφράζω ένα σαρωμένο PDF;

Εκτελέστε πρώτα OCR για να δημιουργήσετε επίπεδο κειμένου, ελέγξτε την έξοδο του OCR και έπειτα μεταφράστε το PDF που έχει υποστεί OCR με τον Μεταφραστής PDF. Μην παραλείψετε το βήμα ελέγχου του OCR.

Γιατί το Google Translate δεν μετέφρασε το σαρωμένο PDF μου;

Το PDF μπορεί να περιέχει μόνο εικόνα. Αν δεν υπάρχει επίπεδο κειμένου, το Google Translate δεν έχει κείμενο να εξαγάγει. Χρησιμοποιήστε πρώτα OCR και μετά μεταφράστε. Η ροή εργασίας ειδικά για το Google καλύπτεται στον οδηγό PDF του Google Translate.

Μπορεί το ChatGPT να μεταφράσει ένα σαρωμένο PDF;

Το ChatGPT μπορεί να βοηθήσει με μεμονωμένες εικόνες ή εξαγόμενο κείμενο, αλλά ένα πολυσέλιδο σαρωμένο PDF εξακολουθεί να χρειάζεται OCR και έλεγχο. Για πλήρη ροή εργασίας εγγράφου, κάντε πρώτα OCR και έπειτα χρησιμοποιήστε μια ροή εργασίας μετάφρασης PDF.

Ποιο είναι το καλύτερο εργαλείο OCR για σαρωμένα PDF;

Εξαρτάται από το έγγραφο. Το Acrobat και εργαλεία τύπου ABBYY είναι χρήσιμα για γενικές και σύνθετες σαρώσεις. Το Tesseract ή το OCRmyPDF είναι χρήσιμο για τοπικές τεχνικές ροές εργασίας. Το online OCR μπορεί να είναι επαρκές για απλά αρχεία χαμηλού ρίσκου, αλλά το απόρρητο και η ποιότητα διαφέρουν.

Μπορεί το OCR να διατηρήσει τη μορφοποίηση;

Το OCR μπορεί να δημιουργήσει ένα επίπεδο κειμένου και μερικές φορές να ανακτήσει τη σειρά ανάγνωσης, αλλά αυτό δεν είναι το ίδιο με τη διατήρηση της αρχικής διάταξης στο μεταφρασμένο αρχείο. Μετά το OCR, χρησιμοποιήστε μια ροή εργασίας μετάφρασης PDF και ελέγξτε την έξοδο σε σύγκριση με το πρωτότυπο.

Τι γίνεται αν η ποιότητα του OCR είναι κακή;

Βελτιώστε τη σάρωση πριν μεταφράσετε. Ξανασαρώστε αν είναι δυνατό, διορθώστε την κλίση των σελίδων, αυξήστε την αντίθεση, κόψτε τα περιττά στοιχεία, επιλέξτε τη σωστή γλώσσα OCR και ελέγξτε ξανά τις δύσκολες σελίδες.