Cara Menterjemah PDF yang Diimbas: Panduan Lengkap OCR + Terjemahan
PDF yang diimbas mengandungi imej teks, bukan teks sebenar — sebab itulah Google Translate memulangkannya tanpa perubahan. Inilah saluran OCR + AI yang membetulkannya.
Jawapan Ringkas: PDF yang Diimbas Memerlukan OCR Sebelum Diterjemah
Untuk menterjemah PDF yang diimbas, mula-mula jalankan OCR untuk menukar imej halaman menjadi teks yang boleh dipilih. Kemudian terjemahkan PDF yang telah diproses dengan OCR menggunakan penterjemah dokumen seperti Penterjemah PDF. Jika anda melangkau OCR, banyak alat terjemahan akan memulangkan fail asal tanpa perubahan, terlepas halaman, atau hanya menterjemah bahagian yang sudah mempunyai lapisan teks.
Gunakan aliran kerja ini:
- Buka PDF dan cuba pilih satu ayat.
- Jika anda tidak boleh memilih teks, jalankan OCR.
- Semak teks OCR sebelum menterjemah.
- Muat naik PDF yang telah diproses dengan OCR ke Penterjemah PDF.
- Semak hasil terjemahan berbanding imbasan asal.
Jika PDF anda sudah mempunyai teks yang boleh dipilih dan masalahnya ialah mengekalkan susun atur, gunakan panduan untuk menterjemah PDF tanpa kehilangan pemformatan.
Mengapa PDF yang Diimbas Gagal dalam Alat Terjemahan
PDF yang diimbas selalunya hanyalah satu set imej halaman di dalam bekas PDF. Halaman itu mungkin memaparkan perkataan yang jelas kepada manusia, tetapi fail tersebut mungkin tidak mengandungi teks sebenar untuk diekstrak oleh perisian.
Itu mewujudkan kegagalan yang mudah:
| Jenis fail | Apa yang dilihat oleh penterjemah | Apa yang berlaku |
|---|---|---|
| PDF berasaskan teks | Teks serta data susun atur | Terjemahan boleh dimulakan serta-merta. |
| PDF imbasan imej sahaja | Gambar halaman | OCR diperlukan terlebih dahulu. |
| PDF teks di atas imej | Imej imbasan serta lapisan teks OCR tersembunyi | Terjemahan boleh berfungsi, tetapi ralat OCR menjejaskan kualiti. |
Ujian yang paling berguna bukanlah ujian teknikal:
- Buka PDF.
- Cuba serlahkan perkataan individu.
- Salin satu ayat.
- Tampalkannya ke dalam editor teks.
Jika ayat itu ditampal dengan betul, PDF tersebut mempunyai lapisan teks. Jika tiada apa-apa yang ditampal, atau seluruh halaman bertindak seperti satu imej, PDF itu memerlukan OCR.
OCR Bukan Pilihan
OCR bermaksud pengecaman aksara optik. Ia membaca teks daripada imej dan menghasilkan teks yang boleh dibaca mesin. Untuk terjemahan PDF, OCR biasanya mencipta lapisan teks halimunan di atas halaman yang diimbas.
Lapisan teks itu menjadi sumber untuk terjemahan. Jika OCR membuat kesilapan, terjemahan akan mewarisi kesilapan tersebut.
Kesilapan OCR yang biasa:
| Kesilapan OCR | Risiko terjemahan |
|---|---|
rn dibaca sebagai m | Perkataan berubah makna. |
1 dibaca sebagai l | Nombor, rujukan atau kod menjadi salah. |
O dibaca sebagai 0 | ID, formula dan nama boleh menjadi salah. |
| Tanda aksen hilang | Nama dan istilah menjadi tidak tepat. |
| Lajur digabungkan | Ayat diterjemah dalam urutan yang salah. |
| Sel jadual dibaca baris demi baris secara salah | Label data tidak lagi sepadan dengan nilai. |
| Nota kaki dianggap sebagai teks utama | Sitasi dan nota berpindah ke konteks yang salah. |
Sebab itulah langkah semakan OCR penting. Jangan terjemah dokumen yang diimbas sehingga anda membuat semakan rawak pada teks yang diekstrak.
Aliran Kerja Bermula dengan OCR
Langkah 1: Kenal Pasti Jenis PDF
Cuba pilih teks. Jika pemilihan berfungsi, anda mungkin tidak memerlukan OCR. Jika pemilihan gagal, anggap fail itu sebagai imej sahaja.
Periksa juga halaman secara visual:
- Halaman yang senget menunjukkan ia imbasan.
- Tekstur kertas kelabu menunjukkan ia imbasan.
- Bayang-bayang berhampiran tulang buku menunjukkan buku itu difoto.
- Kontras yang tidak sekata menunjukkan salinan fotostat.
- Carian yang tidak menemui perkataan yang kelihatan menunjukkan tiada lapisan teks.
Langkah 2: Perbaiki Imbasan Jika Boleh
Kualiti OCR bermula dengan kualiti imej. Jika anda boleh mengimbas semula, lakukan itu sebelum meluangkan masa membaiki ralat OCR.
Gunakan senarai semak kualiti imej ini:
- Imbas pada resolusi yang cukup tinggi untuk teks kecil.
- Pastikan halaman rata dan lurus.
- Elakkan bayang-bayang berhampiran tulang buku.
- Pangkas tepi meja, jari atau latar belakang yang berselerak.
- Gunakan kontras yang kuat antara teks dan halaman.
- Pastikan seluruh baris kelihatan.
- Gunakan orientasi halaman yang betul.
- Jangan mampatkan imej terlalu kuat sehingga huruf menjadi kabur.
Untuk buku lama dan salinan fotostat, peningkatan terbesar biasanya datang daripada meluruskan halaman, membetulkan kontras dan mengimbas semula halaman yang kabur.
Langkah 3: Jalankan OCR
Pilih alat OCR berdasarkan dokumen, bukan jenama.
| Pilihan OCR | Paling sesuai untuk | Perkara yang perlu diperhatikan |
|---|---|---|
| OCR Adobe Acrobat | Imbasan perniagaan umum dan pembersihan PDF | Semak akses pelan semasa sebelum bergantung padanya. |
| ABBYY FineReader | Imbasan kompleks, jadual, lajur dan susun atur yang sukar | Masih memerlukan semakan manual. |
| Tesseract atau OCRmyPDF | Aliran kerja OCR tempatan, teknikal dan boleh diulang | Memerlukan keselesaan menggunakan alat baris perintah. |
| Alat OCR dalam talian | Fail sekali-sekala yang berisiko rendah | Privasi, had fail dan kualiti berbeza-beza. |
| Aplikasi pengimbas telefon | Menghasilkan imbasan baharu dengan cepat | Herotan perspektif boleh menjejaskan OCR. |
Untuk kontrak peribadi, rekod perubatan, dokumen kewangan, manuskrip yang belum diterbitkan atau kerja akademik yang sedang dinilai, pilih aliran kerja OCR tempatan atau persekitaran yang dipercayai. Jangan muat naik imbasan sensitif ke laman OCR percuma rawak.
Langkah 4: Semak Teks OCR
Semak sebelum menterjemah, bukan selepasnya. Salin teks daripada beberapa halaman yang sukar dan semak sama ada ia boleh dibaca.
Contoh halaman untuk diperiksa:
- Halaman tajuk.
- Halaman isi yang padat.
- Halaman jadual.
- Halaman dengan nota kaki.
- Halaman dengan teks kecil.
- Halaman dengan cop, tulisan tangan atau nota tepi.
- Halaman dalam setiap bahasa jika dokumen itu berbilang bahasa.
Perhatikan:
- Perenggan yang hilang.
- Lajur yang digabungkan.
- Perkataan yang pecah.
- Aksara yang salah.
- Diakritik yang hilang.
- Label jadual yang terpisah daripada nilai.
- Tajuk kepala yang dimasukkan ke dalam teks utama.
- Nombor halaman yang bercampur dengan ayat.
Jika kualiti OCR lemah, betulkannya sebelum menterjemah. Penterjemah tidak boleh memulihkan makna dengan boleh dipercayai jika OCR tidak pernah menangkapnya.
Langkah 5: Terjemahkan PDF yang Diproses dengan OCR
Sebaik sahaja PDF mempunyai lapisan teks yang bersih, muat naik ke Penterjemah PDF. Kini langkah terjemahan boleh berfungsi dengan teks, bukan imej halaman.
Selepas terjemahan, bandingkan:
- Imbasan asal
- Lapisan teks OCR
- PDF terjemahan
Semakan tiga hala ini membantu anda mengenal pasti sama ada ralat datang daripada OCR atau terjemahan. Jika teks OCR salah, jalankan semula OCR. Jika teks OCR betul tetapi terjemahannya salah, betulkan terjemahan.
Langkah 6: Semak Kandungan Berisiko Tinggi
Dokumen yang diimbas selalunya mengandungi kandungan yang memang memerlukan semakan teliti: kontrak lama, borang kerajaan, kertas akademik, manual, dokumen sejarah dan halaman buku.
Semak item ini secara manual:
- Nama
- Tarikh
- Nombor
- Alamat
- Kod produk
- Rujukan undang-undang
- Sitasi
- Label jadual
- Unit
- Persamaan
- Kapsyen
- Nota kaki
Untuk fail penyelidikan dan akademik, baca juga panduan tentang menterjemah kertas penyelidikan akademik, kerana PDF akademik yang diimbas menambah risiko sitasi dan susun atur di samping risiko OCR.
Contoh Kegagalan Secara Bersebelahan
Gunakan jadual ini semasa menyemak output OCR.
| Imbasan asal kemungkinan menunjukkan | Output OCR yang buruk | Mengapa ini penting |
|---|---|---|
modern | modem | Makna berubah sepenuhnya. |
Section 10 | Section IO | Rujukan undang-undang atau teknikal boleh menjadi salah. |
2026 | 2O26 | Tarikh dan ID menjadi tidak boleh dipercayai. |
patient | patlent | Istilah perubatan atau teknikal menjadi salah. |
| Dua lajur berasingan | Satu perenggan yang digabungkan | Terjemahan membaca ayat dalam urutan yang salah. |
| Baris jadual dengan label dan nilai | Satu baris teks bercampur | Data tidak lagi padan dengan label yang betul. |
Penanda nota kaki 1 | Huruf l | Nota mungkin melekat pada ayat yang salah. |
Jika anda melihat ralat ini dalam lapisan OCR, betulkan OCR sebelum menterjemah.
Alat Mana Patut Anda Gunakan?
Pilih berdasarkan tahap kesukaran dokumen.
| Dokumen | Laluan yang disyorkan |
|---|---|
| Imbasan perniagaan yang bersih | OCR dalam Acrobat atau alat OCR lain yang boleh dipercayai, kemudian Penterjemah PDF. |
| Imbasan buku lama | Luruskan halaman dan tingkatkan kontras, lakukan OCR dengan teliti, kemudian terjemahkan. |
| Imbasan kertas akademik | OCR, semak persamaan/sitasi/jadual, kemudian terjemahkan dengan semakan susun atur. |
| Nota tulisan tangan | Transkripsi manual mungkin diperlukan sebelum terjemahan. |
| Dokumen peribadi ringkas | OCR dalam talian mungkin boleh diterima jika risiko privasi rendah. |
| Dokumen sensitif | Gunakan OCR tempatan atau aliran kerja terkawal yang dipercayai. |
Jika anda mahu perbandingan alat yang lebih luas, lihat panduan penterjemah PDF terbaik.
Masalah Biasa PDF yang Diimbas
Halaman Beresolusi Rendah
Imbasan beresolusi rendah mengaburkan huruf antara satu sama lain. OCR mungkin mengelirukan rn dan m, cl dan d, atau tanda baca dan habuk.
Penyelesaian: imbas semula jika boleh. Jika tidak, tingkatkan kontras dan cuba OCR sekali lagi.
Halaman Senget atau Melengkung
Imbasan buku selalunya melengkung berhampiran tulang buku. OCR membaca baris yang melengkung dengan lemah dan mungkin menyusun semula teks.
Penyelesaian: ratakan halaman, imbas semula, atau gunakan alat OCR dengan pelurusan dan pembetulan distorsi.
Susun Atur Berbilang Lajur
OCR boleh menggabungkan lajur kiri dan kanan menjadi satu aliran ayat.
Penyelesaian: periksa urutan bacaan sebelum terjemahan. Kertas akademik memerlukan perhatian khusus di sini.
Jadual
Jadual sukar kerana OCR perlu mengesan kedua-dua teks dan struktur. Jadual boleh kelihatan betul secara visual walaupun lapisan teksnya salah.
Penyelesaian: salin teks OCR daripada jadual dan sahkan label masih sepadan dengan nilai.
Tulisan Tangan dan Tandatangan
OCR untuk teks bercetak jauh lebih boleh dipercayai berbanding pengecaman tulisan tangan. Nota tepi tulisan tangan, tandatangan dan borang yang diisi mungkin terlepas atau menjadi bercelaru.
Penyelesaian: transkripsikan tulisan tangan yang penting secara manual sebelum terjemahan.
Bahasa Bercampur
OCR berfungsi paling baik apabila ia mengetahui bahasa sumber. Imbasan yang mengandungi bahasa Inggeris, Perancis dan Cina boleh gagal jika OCR ditetapkan kepada hanya satu bahasa.
Penyelesaian: pilih semua bahasa OCR yang berkaitan jika alat itu menyokongnya, kemudian semak secara rawak setiap bahagian bahasa.
Senarai Semak Privasi dan Keselamatan
Sebelum memuat naik PDF yang diimbas ke mana-mana, tanya:
- Adakah dokumen itu mengandungi data peribadi?
- Adakah ia merangkumi bahan perubatan, undang-undang, kewangan, akademik atau yang belum diterbitkan?
- Adakah ia tertakluk pada perjanjian klien atau dasar sekolah?
- Adakah perkhidmatan OCR dalam talian dibenarkan untuk dokumen ini?
- Adakah anda perlu menggunakan aliran kerja tempatan?
- Bolehkah anda membuang halaman yang tidak perlu diterjemahkan?
PDF yang diimbas selalunya sensitif kerana ia datang daripada kontrak, ID, borang, draf penyelidikan dan arkib dalaman. Anggap keputusan muat naik OCR sama seperti cara anda mengendalikan dokumen asal.
Soalan Lazim
Bagaimana saya menterjemah PDF yang diimbas?
Jalankan OCR terlebih dahulu untuk mencipta lapisan teks, semak output OCR, kemudian terjemahkan PDF yang telah diproses dengan OCR menggunakan Penterjemah PDF. Jangan langkau langkah semakan OCR.
Mengapa Google Translate tidak menterjemah PDF saya yang diimbas?
PDF itu mungkin imej sahaja. Jika tiada lapisan teks, Google Translate tidak mempunyai teks untuk diekstrak. Gunakan OCR terlebih dahulu, kemudian terjemahkan. Aliran kerja khusus Google diterangkan dalam panduan PDF Google Translate.
Bolehkah ChatGPT menterjemah PDF yang diimbas?
ChatGPT mungkin membantu dengan imej individu atau teks yang diekstrak, tetapi PDF berbilang halaman yang diimbas masih memerlukan OCR dan semakan. Untuk aliran kerja dokumen penuh, lakukan OCR dahulu, kemudian gunakan aliran kerja terjemahan PDF.
Apakah alat OCR terbaik untuk PDF yang diimbas?
Ia bergantung pada dokumen. Acrobat dan alat gaya ABBYY berguna untuk imbasan umum dan kompleks. Tesseract atau OCRmyPDF berguna untuk aliran kerja teknikal tempatan. OCR dalam talian boleh memadai untuk fail ringkas berisiko rendah, tetapi privasi dan kualitinya berbeza-beza.
Bolehkah OCR mengekalkan pemformatan?
OCR boleh mencipta lapisan teks dan kadangkala memulihkan urutan bacaan, tetapi itu tidak sama dengan mengekalkan susun atur terjemahan asal. Selepas OCR, gunakan aliran kerja terjemahan PDF dan semak output berbanding yang asal.
Bagaimana jika kualiti OCR buruk?
Perbaiki imbasan sebelum menterjemah. Imbas semula jika boleh, luruskan halaman, tingkatkan kontras, pangkas gangguan, pilih bahasa OCR yang betul dan semak semula halaman yang sukar.