BookTranslator
BookTranslator

Cara Menterjemah PDF yang Diimbas: Panduan Lengkap OCR + Terjemahan

PDF yang diimbas mengandungi imej teks, bukan teks sebenar — sebab itulah Google Translate memulangkannya tanpa perubahan. Inilah saluran OCR + AI yang membetulkannya.

BookTranslator

BookTranslator Team

Panduan Terjemahan11 min read

Jawapan Ringkas: PDF yang Diimbas Memerlukan OCR Sebelum Diterjemah

Untuk menterjemah PDF yang diimbas, mula-mula jalankan OCR untuk menukar imej halaman menjadi teks yang boleh dipilih. Kemudian terjemahkan PDF yang telah diproses dengan OCR menggunakan penterjemah dokumen seperti Penterjemah PDF. Jika anda melangkau OCR, banyak alat terjemahan akan memulangkan fail asal tanpa perubahan, terlepas halaman, atau hanya menterjemah bahagian yang sudah mempunyai lapisan teks.

Gunakan aliran kerja ini:

  1. Buka PDF dan cuba pilih satu ayat.
  2. Jika anda tidak boleh memilih teks, jalankan OCR.
  3. Semak teks OCR sebelum menterjemah.
  4. Muat naik PDF yang telah diproses dengan OCR ke Penterjemah PDF.
  5. Semak hasil terjemahan berbanding imbasan asal.

Jika PDF anda sudah mempunyai teks yang boleh dipilih dan masalahnya ialah mengekalkan susun atur, gunakan panduan untuk menterjemah PDF tanpa kehilangan pemformatan.

Mengapa PDF yang Diimbas Gagal dalam Alat Terjemahan

PDF yang diimbas selalunya hanyalah satu set imej halaman di dalam bekas PDF. Halaman itu mungkin memaparkan perkataan yang jelas kepada manusia, tetapi fail tersebut mungkin tidak mengandungi teks sebenar untuk diekstrak oleh perisian.

Itu mewujudkan kegagalan yang mudah:

Jenis failApa yang dilihat oleh penterjemahApa yang berlaku
PDF berasaskan teksTeks serta data susun aturTerjemahan boleh dimulakan serta-merta.
PDF imbasan imej sahajaGambar halamanOCR diperlukan terlebih dahulu.
PDF teks di atas imejImej imbasan serta lapisan teks OCR tersembunyiTerjemahan boleh berfungsi, tetapi ralat OCR menjejaskan kualiti.

Ujian yang paling berguna bukanlah ujian teknikal:

  1. Buka PDF.
  2. Cuba serlahkan perkataan individu.
  3. Salin satu ayat.
  4. Tampalkannya ke dalam editor teks.

Jika ayat itu ditampal dengan betul, PDF tersebut mempunyai lapisan teks. Jika tiada apa-apa yang ditampal, atau seluruh halaman bertindak seperti satu imej, PDF itu memerlukan OCR.

OCR Bukan Pilihan

OCR bermaksud pengecaman aksara optik. Ia membaca teks daripada imej dan menghasilkan teks yang boleh dibaca mesin. Untuk terjemahan PDF, OCR biasanya mencipta lapisan teks halimunan di atas halaman yang diimbas.

Lapisan teks itu menjadi sumber untuk terjemahan. Jika OCR membuat kesilapan, terjemahan akan mewarisi kesilapan tersebut.

Kesilapan OCR yang biasa:

Kesilapan OCRRisiko terjemahan
rn dibaca sebagai mPerkataan berubah makna.
1 dibaca sebagai lNombor, rujukan atau kod menjadi salah.
O dibaca sebagai 0ID, formula dan nama boleh menjadi salah.
Tanda aksen hilangNama dan istilah menjadi tidak tepat.
Lajur digabungkanAyat diterjemah dalam urutan yang salah.
Sel jadual dibaca baris demi baris secara salahLabel data tidak lagi sepadan dengan nilai.
Nota kaki dianggap sebagai teks utamaSitasi dan nota berpindah ke konteks yang salah.

Sebab itulah langkah semakan OCR penting. Jangan terjemah dokumen yang diimbas sehingga anda membuat semakan rawak pada teks yang diekstrak.

Aliran Kerja Bermula dengan OCR

Langkah 1: Kenal Pasti Jenis PDF

Cuba pilih teks. Jika pemilihan berfungsi, anda mungkin tidak memerlukan OCR. Jika pemilihan gagal, anggap fail itu sebagai imej sahaja.

Periksa juga halaman secara visual:

  • Halaman yang senget menunjukkan ia imbasan.
  • Tekstur kertas kelabu menunjukkan ia imbasan.
  • Bayang-bayang berhampiran tulang buku menunjukkan buku itu difoto.
  • Kontras yang tidak sekata menunjukkan salinan fotostat.
  • Carian yang tidak menemui perkataan yang kelihatan menunjukkan tiada lapisan teks.

Langkah 2: Perbaiki Imbasan Jika Boleh

Kualiti OCR bermula dengan kualiti imej. Jika anda boleh mengimbas semula, lakukan itu sebelum meluangkan masa membaiki ralat OCR.

Gunakan senarai semak kualiti imej ini:

  • Imbas pada resolusi yang cukup tinggi untuk teks kecil.
  • Pastikan halaman rata dan lurus.
  • Elakkan bayang-bayang berhampiran tulang buku.
  • Pangkas tepi meja, jari atau latar belakang yang berselerak.
  • Gunakan kontras yang kuat antara teks dan halaman.
  • Pastikan seluruh baris kelihatan.
  • Gunakan orientasi halaman yang betul.
  • Jangan mampatkan imej terlalu kuat sehingga huruf menjadi kabur.

Untuk buku lama dan salinan fotostat, peningkatan terbesar biasanya datang daripada meluruskan halaman, membetulkan kontras dan mengimbas semula halaman yang kabur.

Langkah 3: Jalankan OCR

Pilih alat OCR berdasarkan dokumen, bukan jenama.

Pilihan OCRPaling sesuai untukPerkara yang perlu diperhatikan
OCR Adobe AcrobatImbasan perniagaan umum dan pembersihan PDFSemak akses pelan semasa sebelum bergantung padanya.
ABBYY FineReaderImbasan kompleks, jadual, lajur dan susun atur yang sukarMasih memerlukan semakan manual.
Tesseract atau OCRmyPDFAliran kerja OCR tempatan, teknikal dan boleh diulangMemerlukan keselesaan menggunakan alat baris perintah.
Alat OCR dalam talianFail sekali-sekala yang berisiko rendahPrivasi, had fail dan kualiti berbeza-beza.
Aplikasi pengimbas telefonMenghasilkan imbasan baharu dengan cepatHerotan perspektif boleh menjejaskan OCR.

Untuk kontrak peribadi, rekod perubatan, dokumen kewangan, manuskrip yang belum diterbitkan atau kerja akademik yang sedang dinilai, pilih aliran kerja OCR tempatan atau persekitaran yang dipercayai. Jangan muat naik imbasan sensitif ke laman OCR percuma rawak.

Langkah 4: Semak Teks OCR

Semak sebelum menterjemah, bukan selepasnya. Salin teks daripada beberapa halaman yang sukar dan semak sama ada ia boleh dibaca.

Contoh halaman untuk diperiksa:

  • Halaman tajuk.
  • Halaman isi yang padat.
  • Halaman jadual.
  • Halaman dengan nota kaki.
  • Halaman dengan teks kecil.
  • Halaman dengan cop, tulisan tangan atau nota tepi.
  • Halaman dalam setiap bahasa jika dokumen itu berbilang bahasa.

Perhatikan:

  • Perenggan yang hilang.
  • Lajur yang digabungkan.
  • Perkataan yang pecah.
  • Aksara yang salah.
  • Diakritik yang hilang.
  • Label jadual yang terpisah daripada nilai.
  • Tajuk kepala yang dimasukkan ke dalam teks utama.
  • Nombor halaman yang bercampur dengan ayat.

Jika kualiti OCR lemah, betulkannya sebelum menterjemah. Penterjemah tidak boleh memulihkan makna dengan boleh dipercayai jika OCR tidak pernah menangkapnya.

Langkah 5: Terjemahkan PDF yang Diproses dengan OCR

Sebaik sahaja PDF mempunyai lapisan teks yang bersih, muat naik ke Penterjemah PDF. Kini langkah terjemahan boleh berfungsi dengan teks, bukan imej halaman.

Selepas terjemahan, bandingkan:

  • Imbasan asal
  • Lapisan teks OCR
  • PDF terjemahan

Semakan tiga hala ini membantu anda mengenal pasti sama ada ralat datang daripada OCR atau terjemahan. Jika teks OCR salah, jalankan semula OCR. Jika teks OCR betul tetapi terjemahannya salah, betulkan terjemahan.

Langkah 6: Semak Kandungan Berisiko Tinggi

Dokumen yang diimbas selalunya mengandungi kandungan yang memang memerlukan semakan teliti: kontrak lama, borang kerajaan, kertas akademik, manual, dokumen sejarah dan halaman buku.

Semak item ini secara manual:

  • Nama
  • Tarikh
  • Nombor
  • Alamat
  • Kod produk
  • Rujukan undang-undang
  • Sitasi
  • Label jadual
  • Unit
  • Persamaan
  • Kapsyen
  • Nota kaki

Untuk fail penyelidikan dan akademik, baca juga panduan tentang menterjemah kertas penyelidikan akademik, kerana PDF akademik yang diimbas menambah risiko sitasi dan susun atur di samping risiko OCR.

Contoh Kegagalan Secara Bersebelahan

Gunakan jadual ini semasa menyemak output OCR.

Imbasan asal kemungkinan menunjukkanOutput OCR yang burukMengapa ini penting
modernmodemMakna berubah sepenuhnya.
Section 10Section IORujukan undang-undang atau teknikal boleh menjadi salah.
20262O26Tarikh dan ID menjadi tidak boleh dipercayai.
patientpatlentIstilah perubatan atau teknikal menjadi salah.
Dua lajur berasinganSatu perenggan yang digabungkanTerjemahan membaca ayat dalam urutan yang salah.
Baris jadual dengan label dan nilaiSatu baris teks bercampurData tidak lagi padan dengan label yang betul.
Penanda nota kaki 1Huruf lNota mungkin melekat pada ayat yang salah.

Jika anda melihat ralat ini dalam lapisan OCR, betulkan OCR sebelum menterjemah.

Alat Mana Patut Anda Gunakan?

Pilih berdasarkan tahap kesukaran dokumen.

DokumenLaluan yang disyorkan
Imbasan perniagaan yang bersihOCR dalam Acrobat atau alat OCR lain yang boleh dipercayai, kemudian Penterjemah PDF.
Imbasan buku lamaLuruskan halaman dan tingkatkan kontras, lakukan OCR dengan teliti, kemudian terjemahkan.
Imbasan kertas akademikOCR, semak persamaan/sitasi/jadual, kemudian terjemahkan dengan semakan susun atur.
Nota tulisan tanganTranskripsi manual mungkin diperlukan sebelum terjemahan.
Dokumen peribadi ringkasOCR dalam talian mungkin boleh diterima jika risiko privasi rendah.
Dokumen sensitifGunakan OCR tempatan atau aliran kerja terkawal yang dipercayai.

Jika anda mahu perbandingan alat yang lebih luas, lihat panduan penterjemah PDF terbaik.

Masalah Biasa PDF yang Diimbas

Halaman Beresolusi Rendah

Imbasan beresolusi rendah mengaburkan huruf antara satu sama lain. OCR mungkin mengelirukan rn dan m, cl dan d, atau tanda baca dan habuk.

Penyelesaian: imbas semula jika boleh. Jika tidak, tingkatkan kontras dan cuba OCR sekali lagi.

Halaman Senget atau Melengkung

Imbasan buku selalunya melengkung berhampiran tulang buku. OCR membaca baris yang melengkung dengan lemah dan mungkin menyusun semula teks.

Penyelesaian: ratakan halaman, imbas semula, atau gunakan alat OCR dengan pelurusan dan pembetulan distorsi.

Susun Atur Berbilang Lajur

OCR boleh menggabungkan lajur kiri dan kanan menjadi satu aliran ayat.

Penyelesaian: periksa urutan bacaan sebelum terjemahan. Kertas akademik memerlukan perhatian khusus di sini.

Jadual

Jadual sukar kerana OCR perlu mengesan kedua-dua teks dan struktur. Jadual boleh kelihatan betul secara visual walaupun lapisan teksnya salah.

Penyelesaian: salin teks OCR daripada jadual dan sahkan label masih sepadan dengan nilai.

Tulisan Tangan dan Tandatangan

OCR untuk teks bercetak jauh lebih boleh dipercayai berbanding pengecaman tulisan tangan. Nota tepi tulisan tangan, tandatangan dan borang yang diisi mungkin terlepas atau menjadi bercelaru.

Penyelesaian: transkripsikan tulisan tangan yang penting secara manual sebelum terjemahan.

Bahasa Bercampur

OCR berfungsi paling baik apabila ia mengetahui bahasa sumber. Imbasan yang mengandungi bahasa Inggeris, Perancis dan Cina boleh gagal jika OCR ditetapkan kepada hanya satu bahasa.

Penyelesaian: pilih semua bahasa OCR yang berkaitan jika alat itu menyokongnya, kemudian semak secara rawak setiap bahagian bahasa.

Senarai Semak Privasi dan Keselamatan

Sebelum memuat naik PDF yang diimbas ke mana-mana, tanya:

  • Adakah dokumen itu mengandungi data peribadi?
  • Adakah ia merangkumi bahan perubatan, undang-undang, kewangan, akademik atau yang belum diterbitkan?
  • Adakah ia tertakluk pada perjanjian klien atau dasar sekolah?
  • Adakah perkhidmatan OCR dalam talian dibenarkan untuk dokumen ini?
  • Adakah anda perlu menggunakan aliran kerja tempatan?
  • Bolehkah anda membuang halaman yang tidak perlu diterjemahkan?

PDF yang diimbas selalunya sensitif kerana ia datang daripada kontrak, ID, borang, draf penyelidikan dan arkib dalaman. Anggap keputusan muat naik OCR sama seperti cara anda mengendalikan dokumen asal.

Soalan Lazim

Bagaimana saya menterjemah PDF yang diimbas?

Jalankan OCR terlebih dahulu untuk mencipta lapisan teks, semak output OCR, kemudian terjemahkan PDF yang telah diproses dengan OCR menggunakan Penterjemah PDF. Jangan langkau langkah semakan OCR.

Mengapa Google Translate tidak menterjemah PDF saya yang diimbas?

PDF itu mungkin imej sahaja. Jika tiada lapisan teks, Google Translate tidak mempunyai teks untuk diekstrak. Gunakan OCR terlebih dahulu, kemudian terjemahkan. Aliran kerja khusus Google diterangkan dalam panduan PDF Google Translate.

Bolehkah ChatGPT menterjemah PDF yang diimbas?

ChatGPT mungkin membantu dengan imej individu atau teks yang diekstrak, tetapi PDF berbilang halaman yang diimbas masih memerlukan OCR dan semakan. Untuk aliran kerja dokumen penuh, lakukan OCR dahulu, kemudian gunakan aliran kerja terjemahan PDF.

Apakah alat OCR terbaik untuk PDF yang diimbas?

Ia bergantung pada dokumen. Acrobat dan alat gaya ABBYY berguna untuk imbasan umum dan kompleks. Tesseract atau OCRmyPDF berguna untuk aliran kerja teknikal tempatan. OCR dalam talian boleh memadai untuk fail ringkas berisiko rendah, tetapi privasi dan kualitinya berbeza-beza.

Bolehkah OCR mengekalkan pemformatan?

OCR boleh mencipta lapisan teks dan kadangkala memulihkan urutan bacaan, tetapi itu tidak sama dengan mengekalkan susun atur terjemahan asal. Selepas OCR, gunakan aliran kerja terjemahan PDF dan semak output berbanding yang asal.

Bagaimana jika kualiti OCR buruk?

Perbaiki imbasan sebelum menterjemah. Imbas semula jika boleh, luruskan halaman, tingkatkan kontras, pangkas gangguan, pilih bahasa OCR yang betul dan semak semula halaman yang sukar.