Πώς να μεταφράσετε ένα σαρωμένο PDF: Ο πλήρης οδηγός OCR + μετάφρασης
Τα σαρωμένα PDF περιέχουν εικόνες κειμένου, όχι πραγματικό κείμενο — γι’ αυτό το Google Translate τα επιστρέφει αμετάβλητα. Εδώ είναι η ροή OCR + AI που το διορθώνει.
Γρήγορη απάντηση: Ένα σαρωμένο PDF χρειάζεται OCR πριν από τη μετάφραση
Για να μεταφράσετε ένα σαρωμένο PDF, εκτελέστε πρώτα OCR ώστε οι εικόνες των σελίδων να μετατραπούν σε επιλέξιμο κείμενο. Έπειτα μεταφράστε το PDF που έχει υποστεί OCR με ένα εργαλείο μετάφρασης εγγράφων όπως ο Μεταφραστής PDF. Αν παραλείψετε το OCR, πολλά εργαλεία μετάφρασης θα επιστρέψουν το αρχικό αρχείο χωρίς αλλαγές, θα παραλείψουν σελίδες ή θα μεταφράσουν μόνο τα μέρη που περιέχουν ήδη επίπεδο κειμένου.
Ακολουθήστε αυτή τη ροή εργασίας:
- Ανοίξτε το PDF και δοκιμάστε να επιλέξετε μία πρόταση.
- Αν δεν μπορείτε να επιλέξετε κείμενο, εκτελέστε OCR.
- Ελέγξτε το κείμενο του OCR πριν μεταφράσετε.
- Ανεβάστε το PDF που έχει υποστεί OCR στο Μεταφραστής PDF.
- Ελέγξτε το μεταφρασμένο αποτέλεσμα σε σύγκριση με το αρχικό σαρωμένο έγγραφο.
Αν το PDF σας έχει ήδη επιλέξιμο κείμενο και το πρόβλημα είναι η διατήρηση της μορφοποίησης, χρησιμοποιήστε τον οδηγό για μετάφραση PDF χωρίς απώλεια μορφοποίησης.
Γιατί τα σαρωμένα PDF αποτυγχάνουν στα εργαλεία μετάφρασης
Ένα σαρωμένο PDF συχνά δεν είναι παρά ένα σύνολο εικόνων σελίδων μέσα σε ένα κοντέινερ PDF. Η σελίδα μπορεί να δείχνει λέξεις σε έναν άνθρωπο, αλλά το αρχείο μπορεί να μην περιέχει πραγματικό κείμενο που να μπορεί να εξαγάγει το λογισμικό.
Αυτό δημιουργεί μια απλή αποτυχία:
| Τύπος αρχείου | Τι βλέπει ο μεταφραστής | Τι συμβαίνει |
|---|---|---|
| PDF βασισμένο σε κείμενο | Κείμενο και δεδομένα διάταξης | Η μετάφραση μπορεί να ξεκινήσει αμέσως. |
| Σαρωμένο PDF μόνο με εικόνες | Εικόνες σελίδων | Απαιτείται πρώτα OCR. |
| PDF με κείμενο πάνω σε εικόνα | Εικόνα σάρωσης και κρυφό επίπεδο κειμένου OCR | Η μετάφραση μπορεί να λειτουργήσει, αλλά τα σφάλματα OCR επηρεάζουν την ποιότητα. |
Η πιο χρήσιμη δοκιμή δεν είναι τεχνική:
- Ανοίξτε το PDF.
- Προσπαθήστε να επιλέξετε μεμονωμένες λέξεις.
- Αντιγράψτε μία πρόταση.
- Επικολλήστε τη σε έναν επεξεργαστή κειμένου.
Αν η πρόταση επικολλάται σωστά, το PDF διαθέτει επίπεδο κειμένου. Αν δεν επικολλάται τίποτα ή αν ολόκληρη η σελίδα συμπεριφέρεται σαν μία εικόνα, το PDF χρειάζεται OCR.
Το OCR δεν είναι προαιρετικό
Το OCR σημαίνει οπτική αναγνώριση χαρακτήρων. Διαβάζει κείμενο από μια εικόνα και δημιουργεί κείμενο αναγνώσιμο από μηχανές. Για τη μετάφραση PDF, το OCR συνήθως δημιουργεί ένα αόρατο επίπεδο κειμένου πάνω από τη σαρωμένη σελίδα.
Αυτό το επίπεδο κειμένου γίνεται η πηγή για τη μετάφραση. Αν το OCR κάνει λάθη, η μετάφραση κληρονομεί αυτά τα λάθη.
Συνηθισμένα λάθη OCR:
| Λάθος OCR | Κίνδυνος για τη μετάφραση |
|---|---|
rn διαβάζεται ως m | Οι λέξεις αλλάζουν σημασία. |
1 διαβάζεται ως l | Αριθμοί, παραπομπές ή κωδικοί γίνονται λανθασμένοι. |
O διαβάζεται ως 0 | Αναγνωριστικά, τύποι και ονόματα μπορεί να αλλοιωθούν. |
| Οι τόνοι παραλείπονται | Ονόματα και όροι γίνονται ανακριβή. |
| Οι στήλες συγχωνεύονται | Οι προτάσεις μεταφράζονται με λάθος σειρά. |
| Τα κελιά του πίνακα διαβάζονται λανθασμένα σειρά προς σειρά | Οι ετικέτες δεδομένων δεν αντιστοιχούν πλέον στις τιμές. |
| Οι υποσημειώσεις αντιμετωπίζονται ως κύριο κείμενο | Παραπομπές και σημειώσεις μετακινούνται σε λάθος συμφραζόμενα. |
Γι’ αυτό το βήμα ελέγχου του OCR έχει σημασία. Μην μεταφράζετε ένα σαρωμένο έγγραφο πριν κάνετε δειγματοληπτικό έλεγχο στο εξαγόμενο κείμενο.
Η ροή εργασίας με OCR πρώτα
Βήμα 1: Αναγνωρίστε τον τύπο του PDF
Δοκιμάστε να επιλέξετε κείμενο. Αν η επιλογή λειτουργεί, ίσως να μην χρειάζεστε OCR. Αν η επιλογή αποτύχει, αντιμετωπίστε το αρχείο ως αρχείο μόνο με εικόνα.
Εξετάστε επίσης οπτικά τη σελίδα:
- Οι στραβές σελίδες δείχνουν σάρωση.
- Η γκρι υφή χαρτιού δείχνει σάρωση.
- Σκιές κοντά στη ράχη δείχνουν φωτογραφημένο βιβλίο.
- Η άνιση αντίθεση δείχνει φωτοτυπία.
- Αν η αναζήτηση δεν βρίσκει ορατές λέξεις, πιθανότατα δεν υπάρχει επίπεδο κειμένου.
Βήμα 2: Βελτιώστε τη σάρωση αν είναι δυνατό
Η ποιότητα του OCR ξεκινά από την ποιότητα της εικόνας. Αν μπορείτε να ξανασαρώσετε το έγγραφο, κάντε το πριν ξοδέψετε χρόνο στη διόρθωση σφαλμάτων OCR.
Χρησιμοποιήστε αυτή τη λίστα ελέγχου ποιότητας εικόνας:
- Σαρώστε σε αρκετά υψηλή ανάλυση για μικρό κείμενο.
- Κρατήστε τις σελίδες επίπεδες και ίσιες.
- Αποφύγετε σκιές κοντά στη ράχη.
- Κόψτε άκρες τραπεζιού, δάχτυλα ή φόντο με περιττά στοιχεία.
- Χρησιμοποιήστε έντονη αντίθεση μεταξύ κειμένου και σελίδας.
- Κρατήστε ολόκληρη τη γραμμή ορατή.
- Χρησιμοποιήστε τον σωστό προσανατολισμό σελίδας.
- Μην συμπιέζετε την εικόνα τόσο πολύ ώστε να θολώνουν τα γράμματα.
Για παλιά βιβλία και φωτοτυπίες, οι μεγαλύτερες βελτιώσεις συνήθως προέρχονται από διόρθωση κλίσης, διόρθωση αντίθεσης και επανασάρωση σελίδων που είναι εκτός εστίασης.
Βήμα 3: Εκτελέστε OCR
Επιλέξτε εργαλείο OCR με βάση το έγγραφο, όχι το brand.
| Επιλογή OCR | Κατάλληλο για | Προσέξτε |
|---|---|---|
| OCR του Adobe Acrobat | Γενικές επιχειρηματικές σαρώσεις και καθαρισμό PDF | Ελέγξτε την πρόσβαση του τρέχοντος πλάνου πριν βασιστείτε σε αυτό. |
| ABBYY FineReader | Σύνθετες σαρώσεις, πίνακες, στήλες και δύσκολες διατάξεις | Εξακολουθεί να απαιτεί χειροκίνητο έλεγχο. |
| Tesseract ή OCRmyPDF | Τοπικές, τεχνικές και επαναλήψιμες ροές εργασίας OCR | Απαιτεί άνεση με εργαλεία γραμμής εντολών. |
| Εργαλεία OCR στο διαδίκτυο | Περιστασιακά αρχεία χαμηλού ρίσκου | Το απόρρητο, τα όρια αρχείων και η ποιότητα διαφέρουν. |
| Εφαρμογές σάρωσης στο τηλέφωνο | Γρήγορη λήψη νέας σάρωσης | Η παραμόρφωση προοπτικής μπορεί να βλάψει το OCR. |
Για ιδιωτικές συμβάσεις, ιατρικά αρχεία, οικονομικά έγγραφα, αδημοσίευτα χειρόγραφα ή ακαδημαϊκή εργασία υπό αξιολόγηση, προτιμήστε μια τοπική ροή OCR ή ένα αξιόπιστο περιβάλλον. Μην ανεβάζετε ευαίσθητες σαρώσεις σε τυχαίους δωρεάν ιστότοπους OCR.
Βήμα 4: Ελέγξτε το κείμενο του OCR
Κάντε τον έλεγχο πριν από τη μετάφραση, όχι μετά. Αντιγράψτε κείμενο από αρκετές δύσκολες σελίδες και ελέγξτε αν διαβάζεται.
Δείγματα σελίδων για έλεγχο:
- Η σελίδα τίτλου.
- Μια πυκνή σελίδα κυρίως κειμένου.
- Μια σελίδα με πίνακα.
- Μια σελίδα με υποσημειώσεις.
- Μια σελίδα με μικρό κείμενο.
- Μια σελίδα με σφραγίδες, χειρόγραφα ή σημειώσεις στο περιθώριο.
- Μια σελίδα σε κάθε γλώσσα, αν το έγγραφο είναι πολύγλωσσο.
Αναζητήστε:
- Παραγράφους που λείπουν.
- Συγχωνευμένες στήλες.
- Σπασμένες λέξεις.
- Λανθασμένους χαρακτήρες.
- Χαμένους τόνους και διακριτικά.
- Ετικέτες πινάκων αποσυνδεδεμένες από τις τιμές.
- Κεφαλίδες που έχουν εισαχθεί στο κυρίως κείμενο.
- Αριθμούς σελίδων ανακατεμένους μέσα σε προτάσεις.
Αν η ποιότητα του OCR είναι κακή, διορθώστε την πριν από τη μετάφραση. Ένας μεταφραστής δεν μπορεί να ανακτήσει αξιόπιστα νόημα που το OCR δεν κατέγραψε ποτέ.
Βήμα 5: Μεταφράστε το PDF που έχει υποστεί OCR
Μόλις το PDF αποκτήσει καθαρό επίπεδο κειμένου, ανεβάστε το στο Μεταφραστής PDF. Το βήμα της μετάφρασης μπορεί πλέον να δουλέψει με κείμενο αντί για εικόνες σελίδων.
Μετά τη μετάφραση, συγκρίνετε:
- Την αρχική σάρωση
- Το επίπεδο κειμένου του OCR
- Το μεταφρασμένο PDF
Αυτός ο τριπλός έλεγχος σας βοηθά να εντοπίσετε αν ένα σφάλμα προήλθε από το OCR ή από τη μετάφραση. Αν το κείμενο OCR είναι λάθος, εκτελέστε ξανά OCR. Αν το κείμενο OCR είναι σωστό αλλά η μετάφραση είναι λάθος, διορθώστε τη μετάφραση.
Βήμα 6: Ελέγξτε περιεχόμενο υψηλού ρίσκου
Τα σαρωμένα έγγραφα συχνά περιέχουν ακριβώς το περιεχόμενο που χρειάζεται προσεκτικό έλεγχο: παλιές συμβάσεις, κρατικές φόρμες, ακαδημαϊκές εργασίες, εγχειρίδια, ιστορικά έγγραφα και σελίδες βιβλίων.
Ελέγξτε χειροκίνητα τα εξής:
- Ονόματα
- Ημερομηνίες
- Αριθμούς
- Διευθύνσεις
- Κωδικούς προϊόντων
- Νομικές παραπομπές
- Παραπομπές
- Ετικέτες πινάκων
- Μονάδες
- Εξισώσεις
- Λεζάντες
- Υποσημειώσεις
Για ερευνητικά και ακαδημαϊκά αρχεία, διαβάστε επίσης τον οδηγό για μετάφραση ακαδημαϊκών ερευνητικών εργασιών, επειδή τα σαρωμένα ακαδημαϊκά PDF προσθέτουν κινδύνους σχετικούς με παραπομπές και διάταξη πάνω από τον κίνδυνο του OCR.
Παραδείγματα αποτυχίας δίπλα-δίπλα
Χρησιμοποιήστε αυτόν τον πίνακα όταν ελέγχετε την έξοδο του OCR.
| Η αρχική σάρωση πιθανότατα δείχνει | Κακή έξοδο OCR | Γιατί έχει σημασία |
|---|---|---|
modern | modem | Η σημασία αλλάζει εντελώς. |
Section 10 | Section IO | Νομικές ή τεχνικές παραπομπές μπορεί να χαλάσουν. |
2026 | 2O26 | Ημερομηνίες και αναγνωριστικά γίνονται αναξιόπιστα. |
patient | patlent | Ιατρικοί ή τεχνικοί όροι γίνονται λανθασμένοι. |
| Δύο ξεχωριστές στήλες | Μία συγχωνευμένη παράγραφος | Η μετάφραση διαβάζει τις προτάσεις με λάθος σειρά. |
| Σειρά πίνακα με ετικέτες και τιμές | Μία μόνο γραμμή μικτού κειμένου | Τα δεδομένα δεν αντιστοιχούν πλέον στη σωστή ετικέτα. |
Δείκτης υποσημείωσης 1 | Γράμμα l | Οι σημειώσεις μπορεί να συνδεθούν με λάθος πρόταση. |
Αν δείτε αυτά τα σφάλματα στο επίπεδο OCR, διορθώστε το OCR πριν μεταφράσετε.
Ποιο εργαλείο πρέπει να χρησιμοποιήσετε;
Επιλέξτε με βάση τη δυσκολία του εγγράφου.
| Έγγραφο | Προτεινόμενη διαδρομή |
|---|---|
| Καθαρή επιχειρηματική σάρωση | OCR στο Acrobat ή σε άλλο αξιόπιστο εργαλείο OCR και έπειτα Μεταφραστής PDF. |
| Σάρωση παλιού βιβλίου | Ισιώστε την εικόνα, βελτιώστε την αντίθεση, κάντε προσεκτικά OCR και μετά μεταφράστε. |
| Σάρωση ακαδημαϊκής εργασίας | OCR, έλεγχος εξισώσεων/παραπομπών/πινάκων και έπειτα μετάφραση με έλεγχο της διάταξης. |
| Χειρόγραφες σημειώσεις | Μπορεί να απαιτείται χειροκίνητη μεταγραφή πριν από τη μετάφραση. |
| Απλό προσωπικό έγγραφο | Το online OCR μπορεί να είναι αποδεκτό αν ο κίνδυνος για το απόρρητο είναι χαμηλός. |
| Ευαίσθητο έγγραφο | Χρησιμοποιήστε τοπικό OCR ή μια αξιόπιστη ελεγχόμενη ροή εργασίας. |
Αν θέλετε μια ευρύτερη σύγκριση εργαλείων, δείτε τον οδηγό με τα καλύτερα εργαλεία μετάφρασης PDF.
Συνήθη προβλήματα με σαρωμένα PDF
Σελίδες χαμηλής ανάλυσης
Οι σαρώσεις χαμηλής ανάλυσης θολώνουν τα γράμματα μεταξύ τους. Το OCR μπορεί να μπερδέψει τα rn και m, τα cl και d, ή τη στίξη με σκόνη.
Λύση: ξανασαρώστε αν είναι δυνατό. Αν όχι, αυξήστε την αντίθεση και δοκιμάστε ξανά OCR.
Στραβές ή κυρτές σελίδες
Οι σαρώσεις βιβλίων συχνά καμπυλώνουν κοντά στη ράχη. Το OCR διαβάζει άσχημα τις καμπύλες γραμμές και μπορεί να αλλάξει τη σειρά του κειμένου.
Λύση: ισιώστε τη σελίδα, σαρώστε την ξανά ή χρησιμοποιήστε εργαλείο OCR με λειτουργίες διόρθωσης κλίσης και αποκαμπύλωσης.
Διάταξη πολλών στηλών
Το OCR μπορεί να συγχωνεύσει την αριστερή και τη δεξιά στήλη σε μία ενιαία ροή προτάσεων.
Λύση: ελέγξτε τη σειρά ανάγνωσης πριν από τη μετάφραση. Οι ακαδημαϊκές εργασίες χρειάζονται ιδιαίτερη προσοχή εδώ.
Πίνακες
Οι πίνακες είναι δύσκολοι επειδή το OCR πρέπει να εντοπίσει τόσο το κείμενο όσο και τη δομή. Ένας πίνακας μπορεί να φαίνεται σωστός οπτικά, ενώ το επίπεδο κειμένου είναι λάθος.
Λύση: αντιγράψτε το κείμενο OCR από τον πίνακα και επιβεβαιώστε ότι οι ετικέτες εξακολουθούν να ταιριάζουν με τις τιμές.
Χειρόγραφα και υπογραφές
Το OCR για τυπωμένο κείμενο είναι πολύ πιο αξιόπιστο από την αναγνώριση χειρογράφου. Χειρόγραφες σημειώσεις στο περιθώριο, υπογραφές και συμπληρωμένες φόρμες μπορεί να παραλειφθούν ή να αλλοιωθούν.
Λύση: μεταγράψτε χειροκίνητα τα ουσιώδη χειρόγραφα πριν από τη μετάφραση.
Μικτές γλώσσες
Το OCR λειτουργεί καλύτερα όταν γνωρίζει τη γλώσσα προέλευσης. Μια σάρωση με αγγλικά, γαλλικά και κινεζικά μπορεί να αποτύχει αν το OCR είναι ρυθμισμένο μόνο σε μία γλώσσα.
Λύση: επιλέξτε όλες τις σχετικές γλώσσες OCR, αν το εργαλείο το υποστηρίζει, και στη συνέχεια κάντε δειγματοληπτικό έλεγχο σε κάθε γλωσσική ενότητα.
Λίστα ελέγχου απορρήτου και ασφάλειας
Πριν ανεβάσετε ένα σαρωμένο PDF οπουδήποτε, ρωτήστε:
- Περιέχει το έγγραφο προσωπικά δεδομένα;
- Περιλαμβάνει ιατρικό, νομικό, οικονομικό, ακαδημαϊκό ή αδημοσίευτο υλικό;
- Καλύπτεται από συμφωνία πελάτη ή από πολιτική σχολείου/ιδρύματος;
- Επιτρέπεται μια υπηρεσία OCR στο διαδίκτυο για αυτό το έγγραφο;
- Χρειάζεστε αντί γι’ αυτό μια τοπική ροή εργασίας;
- Μπορείτε να αφαιρέσετε σελίδες που δεν χρειάζονται μετάφραση;
Τα σαρωμένα PDF είναι συχνά ευαίσθητα επειδή προέρχονται από συμβάσεις, ταυτότητες, φόρμες, ερευνητικά προσχέδια και εσωτερικά αρχεία. Αντιμετωπίστε τις αποφάσεις μεταφόρτωσης σε OCR με τον ίδιο τρόπο που θα αντιμετωπίζατε το πρωτότυπο έγγραφο.
Συχνές ερωτήσεις
Πώς μεταφράζω ένα σαρωμένο PDF;
Εκτελέστε πρώτα OCR για να δημιουργήσετε επίπεδο κειμένου, ελέγξτε την έξοδο του OCR και έπειτα μεταφράστε το PDF που έχει υποστεί OCR με τον Μεταφραστής PDF. Μην παραλείψετε το βήμα ελέγχου του OCR.
Γιατί το Google Translate δεν μετέφρασε το σαρωμένο PDF μου;
Το PDF μπορεί να περιέχει μόνο εικόνα. Αν δεν υπάρχει επίπεδο κειμένου, το Google Translate δεν έχει κείμενο να εξαγάγει. Χρησιμοποιήστε πρώτα OCR και μετά μεταφράστε. Η ροή εργασίας ειδικά για το Google καλύπτεται στον οδηγό PDF του Google Translate.
Μπορεί το ChatGPT να μεταφράσει ένα σαρωμένο PDF;
Το ChatGPT μπορεί να βοηθήσει με μεμονωμένες εικόνες ή εξαγόμενο κείμενο, αλλά ένα πολυσέλιδο σαρωμένο PDF εξακολουθεί να χρειάζεται OCR και έλεγχο. Για πλήρη ροή εργασίας εγγράφου, κάντε πρώτα OCR και έπειτα χρησιμοποιήστε μια ροή εργασίας μετάφρασης PDF.
Ποιο είναι το καλύτερο εργαλείο OCR για σαρωμένα PDF;
Εξαρτάται από το έγγραφο. Το Acrobat και εργαλεία τύπου ABBYY είναι χρήσιμα για γενικές και σύνθετες σαρώσεις. Το Tesseract ή το OCRmyPDF είναι χρήσιμο για τοπικές τεχνικές ροές εργασίας. Το online OCR μπορεί να είναι επαρκές για απλά αρχεία χαμηλού ρίσκου, αλλά το απόρρητο και η ποιότητα διαφέρουν.
Μπορεί το OCR να διατηρήσει τη μορφοποίηση;
Το OCR μπορεί να δημιουργήσει ένα επίπεδο κειμένου και μερικές φορές να ανακτήσει τη σειρά ανάγνωσης, αλλά αυτό δεν είναι το ίδιο με τη διατήρηση της αρχικής διάταξης στο μεταφρασμένο αρχείο. Μετά το OCR, χρησιμοποιήστε μια ροή εργασίας μετάφρασης PDF και ελέγξτε την έξοδο σε σύγκριση με το πρωτότυπο.
Τι γίνεται αν η ποιότητα του OCR είναι κακή;
Βελτιώστε τη σάρωση πριν μεταφράσετε. Ξανασαρώστε αν είναι δυνατό, διορθώστε την κλίση των σελίδων, αυξήστε την αντίθεση, κόψτε τα περιττά στοιχεία, επιλέξτε τη σωστή γλώσσα OCR και ελέγξτε ξανά τις δύσκολες σελίδες.