Cara Menterjemah PDF yang Diimbas: Panduan Lengkap OCR + Terjemahan

PDF yang diimbas mengandungi imej teks, bukan teks sebenar — sebab itulah Google Translate memulangkannya tanpa perubahan. Inilah saluran OCR + AI yang membetulkannya.

BookTranslator Team

Terjemahan PDF

28 Feb 202611 min read

Jawapan Ringkas: PDF yang Diimbas Memerlukan OCR Sebelum Diterjemah

Untuk menterjemah PDF yang diimbas, mula-mula jalankan OCR untuk menukar imej halaman menjadi teks yang boleh dipilih. Kemudian terjemahkan PDF yang telah diproses dengan OCR menggunakan penterjemah dokumen seperti Penterjemah PDF. Jika anda melangkau OCR, banyak alat terjemahan akan memulangkan fail asal tanpa perubahan, terlepas halaman, atau hanya menterjemah bahagian yang sudah mempunyai lapisan teks.

Gunakan aliran kerja ini:

Buka PDF dan cuba pilih satu ayat.
Jika anda tidak boleh memilih teks, jalankan OCR.
Semak teks OCR sebelum menterjemah.
Muat naik PDF yang telah diproses dengan OCR ke Penterjemah PDF.
Semak hasil terjemahan berbanding imbasan asal.

Jika PDF anda sudah mempunyai teks yang boleh dipilih dan masalahnya ialah mengekalkan susun atur, gunakan panduan untuk menterjemah PDF tanpa kehilangan pemformatan.

Mengapa PDF yang Diimbas Gagal dalam Alat Terjemahan

PDF yang diimbas selalunya hanyalah satu set imej halaman di dalam bekas PDF. Halaman itu mungkin memaparkan perkataan yang jelas kepada manusia, tetapi fail tersebut mungkin tidak mengandungi teks sebenar untuk diekstrak oleh perisian.

Itu mewujudkan kegagalan yang mudah:

Jenis fail	Apa yang dilihat oleh penterjemah	Apa yang berlaku
PDF berasaskan teks	Teks serta data susun atur	Terjemahan boleh dimulakan serta-merta.
PDF imbasan imej sahaja	Gambar halaman	OCR diperlukan terlebih dahulu.
PDF teks di atas imej	Imej imbasan serta lapisan teks OCR tersembunyi	Terjemahan boleh berfungsi, tetapi ralat OCR menjejaskan kualiti.

Ujian yang paling berguna bukanlah ujian teknikal:

Buka PDF.
Cuba serlahkan perkataan individu.
Salin satu ayat.
Tampalkannya ke dalam editor teks.

Jika ayat itu ditampal dengan betul, PDF tersebut mempunyai lapisan teks. Jika tiada apa-apa yang ditampal, atau seluruh halaman bertindak seperti satu imej, PDF itu memerlukan OCR.

OCR Bukan Pilihan

OCR bermaksud pengecaman aksara optik. Ia membaca teks daripada imej dan menghasilkan teks yang boleh dibaca mesin. Untuk terjemahan PDF, OCR biasanya mencipta lapisan teks halimunan di atas halaman yang diimbas.

Lapisan teks itu menjadi sumber untuk terjemahan. Jika OCR membuat kesilapan, terjemahan akan mewarisi kesilapan tersebut.

Kesilapan OCR yang biasa:

Kesilapan OCR	Risiko terjemahan
`rn` dibaca sebagai `m`	Perkataan berubah makna.
`1` dibaca sebagai `l`	Nombor, rujukan atau kod menjadi salah.
`O` dibaca sebagai `0`	ID, formula dan nama boleh menjadi salah.
Tanda aksen hilang	Nama dan istilah menjadi tidak tepat.
Lajur digabungkan	Ayat diterjemah dalam urutan yang salah.
Sel jadual dibaca baris demi baris secara salah	Label data tidak lagi sepadan dengan nilai.
Nota kaki dianggap sebagai teks utama	Sitasi dan nota berpindah ke konteks yang salah.

Sebab itulah langkah semakan OCR penting. Jangan terjemah dokumen yang diimbas sehingga anda membuat semakan rawak pada teks yang diekstrak.

Aliran Kerja Bermula dengan OCR

Langkah 1: Kenal Pasti Jenis PDF

Cuba pilih teks. Jika pemilihan berfungsi, anda mungkin tidak memerlukan OCR. Jika pemilihan gagal, anggap fail itu sebagai imej sahaja.

Periksa juga halaman secara visual:

Halaman yang senget menunjukkan ia imbasan.
Tekstur kertas kelabu menunjukkan ia imbasan.
Bayang-bayang berhampiran tulang buku menunjukkan buku itu difoto.
Kontras yang tidak sekata menunjukkan salinan fotostat.
Carian yang tidak menemui perkataan yang kelihatan menunjukkan tiada lapisan teks.

Langkah 2: Perbaiki Imbasan Jika Boleh

Kualiti OCR bermula dengan kualiti imej. Jika anda boleh mengimbas semula, lakukan itu sebelum meluangkan masa membaiki ralat OCR.

Gunakan senarai semak kualiti imej ini:

Imbas pada resolusi yang cukup tinggi untuk teks kecil.
Pastikan halaman rata dan lurus.
Elakkan bayang-bayang berhampiran tulang buku.
Pangkas tepi meja, jari atau latar belakang yang berselerak.
Gunakan kontras yang kuat antara teks dan halaman.
Pastikan seluruh baris kelihatan.
Gunakan orientasi halaman yang betul.
Jangan mampatkan imej terlalu kuat sehingga huruf menjadi kabur.

Untuk buku lama dan salinan fotostat, peningkatan terbesar biasanya datang daripada meluruskan halaman, membetulkan kontras dan mengimbas semula halaman yang kabur.

Langkah 3: Jalankan OCR

Pilih alat OCR berdasarkan dokumen, bukan jenama.

Pilihan OCR	Paling sesuai untuk	Perkara yang perlu diperhatikan
OCR Adobe Acrobat	Imbasan perniagaan umum dan pembersihan PDF	Semak akses pelan semasa sebelum bergantung padanya.
ABBYY FineReader	Imbasan kompleks, jadual, lajur dan susun atur yang sukar	Masih memerlukan semakan manual.
Tesseract atau OCRmyPDF	Aliran kerja OCR tempatan, teknikal dan boleh diulang	Memerlukan keselesaan menggunakan alat baris perintah.
Alat OCR dalam talian	Fail sekali-sekala yang berisiko rendah	Privasi, had fail dan kualiti berbeza-beza.
Aplikasi pengimbas telefon	Menghasilkan imbasan baharu dengan cepat	Herotan perspektif boleh menjejaskan OCR.

Untuk kontrak peribadi, rekod perubatan, dokumen kewangan, manuskrip yang belum diterbitkan atau kerja akademik yang sedang dinilai, pilih aliran kerja OCR tempatan atau persekitaran yang dipercayai. Jangan muat naik imbasan sensitif ke laman OCR percuma rawak.

Langkah 4: Semak Teks OCR

Semak sebelum menterjemah, bukan selepasnya. Salin teks daripada beberapa halaman yang sukar dan semak sama ada ia boleh dibaca.

Contoh halaman untuk diperiksa:

Halaman tajuk.
Halaman isi yang padat.
Halaman jadual.
Halaman dengan nota kaki.
Halaman dengan teks kecil.
Halaman dengan cop, tulisan tangan atau nota tepi.
Halaman dalam setiap bahasa jika dokumen itu berbilang bahasa.

Perhatikan:

Perenggan yang hilang.
Lajur yang digabungkan.
Perkataan yang pecah.
Aksara yang salah.
Diakritik yang hilang.
Label jadual yang terpisah daripada nilai.
Tajuk kepala yang dimasukkan ke dalam teks utama.
Nombor halaman yang bercampur dengan ayat.

Jika kualiti OCR lemah, betulkannya sebelum menterjemah. Penterjemah tidak boleh memulihkan makna dengan boleh dipercayai jika OCR tidak pernah menangkapnya.

Langkah 5: Terjemahkan PDF yang Diproses dengan OCR

Sebaik sahaja PDF mempunyai lapisan teks yang bersih, muat naik ke Penterjemah PDF. Kini langkah terjemahan boleh berfungsi dengan teks, bukan imej halaman.

Selepas terjemahan, bandingkan:

Imbasan asal
Lapisan teks OCR
PDF terjemahan

Semakan tiga hala ini membantu anda mengenal pasti sama ada ralat datang daripada OCR atau terjemahan. Jika teks OCR salah, jalankan semula OCR. Jika teks OCR betul tetapi terjemahannya salah, betulkan terjemahan.

Langkah 6: Semak Kandungan Berisiko Tinggi

Dokumen yang diimbas selalunya mengandungi kandungan yang memang memerlukan semakan teliti: kontrak lama, borang kerajaan, kertas akademik, manual, dokumen sejarah dan halaman buku.

Semak item ini secara manual:

Nama
Tarikh
Nombor
Alamat
Kod produk
Rujukan undang-undang
Sitasi
Label jadual
Unit
Persamaan
Kapsyen
Nota kaki

Untuk fail penyelidikan dan akademik, baca juga panduan tentang menterjemah kertas penyelidikan akademik, kerana PDF akademik yang diimbas menambah risiko sitasi dan susun atur di samping risiko OCR.

Contoh Kegagalan Secara Bersebelahan

Gunakan jadual ini semasa menyemak output OCR.

Imbasan asal kemungkinan menunjukkan	Output OCR yang buruk	Mengapa ini penting
`modern`	`modem`	Makna berubah sepenuhnya.
`Section 10`	`Section IO`	Rujukan undang-undang atau teknikal boleh menjadi salah.
`2026`	`2O26`	Tarikh dan ID menjadi tidak boleh dipercayai.
`patient`	`patlent`	Istilah perubatan atau teknikal menjadi salah.
Dua lajur berasingan	Satu perenggan yang digabungkan	Terjemahan membaca ayat dalam urutan yang salah.
Baris jadual dengan label dan nilai	Satu baris teks bercampur	Data tidak lagi padan dengan label yang betul.
Penanda nota kaki `1`	Huruf `l`	Nota mungkin melekat pada ayat yang salah.

Jika anda melihat ralat ini dalam lapisan OCR, betulkan OCR sebelum menterjemah.

Alat Mana Patut Anda Gunakan?

Pilih berdasarkan tahap kesukaran dokumen.

Dokumen	Laluan yang disyorkan
Imbasan perniagaan yang bersih	OCR dalam Acrobat atau alat OCR lain yang boleh dipercayai, kemudian Penterjemah PDF.
Imbasan buku lama	Luruskan halaman dan tingkatkan kontras, lakukan OCR dengan teliti, kemudian terjemahkan.
Imbasan kertas akademik	OCR, semak persamaan/sitasi/jadual, kemudian terjemahkan dengan semakan susun atur.
Nota tulisan tangan	Transkripsi manual mungkin diperlukan sebelum terjemahan.
Dokumen peribadi ringkas	OCR dalam talian mungkin boleh diterima jika risiko privasi rendah.
Dokumen sensitif	Gunakan OCR tempatan atau aliran kerja terkawal yang dipercayai.

Jika anda mahu perbandingan alat yang lebih luas, lihat panduan penterjemah PDF terbaik.

Masalah Biasa PDF yang Diimbas

Halaman Beresolusi Rendah

Imbasan beresolusi rendah mengaburkan huruf antara satu sama lain. OCR mungkin mengelirukan rn dan m, cl dan d, atau tanda baca dan habuk.

Penyelesaian: imbas semula jika boleh. Jika tidak, tingkatkan kontras dan cuba OCR sekali lagi.

Halaman Senget atau Melengkung

Imbasan buku selalunya melengkung berhampiran tulang buku. OCR membaca baris yang melengkung dengan lemah dan mungkin menyusun semula teks.

Penyelesaian: ratakan halaman, imbas semula, atau gunakan alat OCR dengan pelurusan dan pembetulan distorsi.

Susun Atur Berbilang Lajur

OCR boleh menggabungkan lajur kiri dan kanan menjadi satu aliran ayat.

Penyelesaian: periksa urutan bacaan sebelum terjemahan. Kertas akademik memerlukan perhatian khusus di sini.

Jadual

Jadual sukar kerana OCR perlu mengesan kedua-dua teks dan struktur. Jadual boleh kelihatan betul secara visual walaupun lapisan teksnya salah.

Penyelesaian: salin teks OCR daripada jadual dan sahkan label masih sepadan dengan nilai.

Tulisan Tangan dan Tandatangan

OCR untuk teks bercetak jauh lebih boleh dipercayai berbanding pengecaman tulisan tangan. Nota tepi tulisan tangan, tandatangan dan borang yang diisi mungkin terlepas atau menjadi bercelaru.

Penyelesaian: transkripsikan tulisan tangan yang penting secara manual sebelum terjemahan.

Bahasa Bercampur

OCR berfungsi paling baik apabila ia mengetahui bahasa sumber. Imbasan yang mengandungi bahasa Inggeris, Perancis dan Cina boleh gagal jika OCR ditetapkan kepada hanya satu bahasa.

Penyelesaian: pilih semua bahasa OCR yang berkaitan jika alat itu menyokongnya, kemudian semak secara rawak setiap bahagian bahasa.

Senarai Semak Privasi dan Keselamatan

Sebelum memuat naik PDF yang diimbas ke mana-mana, tanya:

Adakah dokumen itu mengandungi data peribadi?
Adakah ia merangkumi bahan perubatan, undang-undang, kewangan, akademik atau yang belum diterbitkan?
Adakah ia tertakluk pada perjanjian klien atau dasar sekolah?
Adakah perkhidmatan OCR dalam talian dibenarkan untuk dokumen ini?
Adakah anda perlu menggunakan aliran kerja tempatan?
Bolehkah anda membuang halaman yang tidak perlu diterjemahkan?

PDF yang diimbas selalunya sensitif kerana ia datang daripada kontrak, ID, borang, draf penyelidikan dan arkib dalaman. Anggap keputusan muat naik OCR sama seperti cara anda mengendalikan dokumen asal.

Soalan Lazim

Bagaimana saya menterjemah PDF yang diimbas?

Jalankan OCR terlebih dahulu untuk mencipta lapisan teks, semak output OCR, kemudian terjemahkan PDF yang telah diproses dengan OCR menggunakan Penterjemah PDF. Jangan langkau langkah semakan OCR.

Mengapa Google Translate tidak menterjemah PDF saya yang diimbas?

PDF itu mungkin imej sahaja. Jika tiada lapisan teks, Google Translate tidak mempunyai teks untuk diekstrak. Gunakan OCR terlebih dahulu, kemudian terjemahkan. Aliran kerja khusus Google diterangkan dalam panduan PDF Google Translate.

Bolehkah ChatGPT menterjemah PDF yang diimbas?

ChatGPT mungkin membantu dengan imej individu atau teks yang diekstrak, tetapi PDF berbilang halaman yang diimbas masih memerlukan OCR dan semakan. Untuk aliran kerja dokumen penuh, lakukan OCR dahulu, kemudian gunakan aliran kerja terjemahan PDF.

Apakah alat OCR terbaik untuk PDF yang diimbas?

Ia bergantung pada dokumen. Acrobat dan alat gaya ABBYY berguna untuk imbasan umum dan kompleks. Tesseract atau OCRmyPDF berguna untuk aliran kerja teknikal tempatan. OCR dalam talian boleh memadai untuk fail ringkas berisiko rendah, tetapi privasi dan kualitinya berbeza-beza.

Bolehkah OCR mengekalkan pemformatan?

OCR boleh mencipta lapisan teks dan kadangkala memulihkan urutan bacaan, tetapi itu tidak sama dengan mengekalkan susun atur terjemahan asal. Selepas OCR, gunakan aliran kerja terjemahan PDF dan semak output berbanding yang asal.

Bagaimana jika kualiti OCR buruk?

Perbaiki imbasan sebelum menterjemah. Imbas semula jika boleh, luruskan halaman, tingkatkan kontras, pangkas gangguan, pilih bahasa OCR yang betul dan semak semula halaman yang sukar.