BookTranslator
BookTranslator

Cara Menerjemahkan PDF Hasil Pindaian: Panduan Lengkap OCR + Terjemahan

PDF hasil pindaian berisi gambar teks, bukan teks yang sebenarnya — itulah sebabnya Google Translate mengembalikannya tanpa perubahan. Berikut alur OCR + AI yang memperbaikinya.

BookTranslator

BookTranslator Team

Panduan Penerjemahan11 min read

Jawaban Singkat: PDF Hasil Pindaian Memerlukan OCR Sebelum Diterjemahkan

Untuk menerjemahkan PDF hasil pindaian, jalankan OCR terlebih dahulu untuk mengubah gambar halaman menjadi teks yang bisa dipilih. Lalu terjemahkan PDF yang sudah diproses OCR dengan penerjemah dokumen seperti Penerjemah PDF. Jika Anda melewati OCR, banyak alat terjemahan akan mengembalikan file asli tanpa perubahan, melewatkan halaman, atau hanya menerjemahkan bagian yang sudah memiliki lapisan teks.

Gunakan alur kerja ini:

  1. Buka PDF dan coba pilih satu kalimat.
  2. Jika Anda tidak bisa memilih teks, jalankan OCR.
  3. Tinjau teks hasil OCR sebelum menerjemahkan.
  4. Unggah PDF yang sudah diproses OCR ke Penerjemah PDF.
  5. Tinjau hasil terjemahan dibandingkan dengan pindaian asli.

Jika PDF Anda sudah memiliki teks yang bisa dipilih dan masalahnya adalah mempertahankan tata letak, gunakan panduan untuk menerjemahkan PDF tanpa kehilangan format.

Mengapa PDF Hasil Pindaian Gagal di Alat Terjemahan

PDF hasil pindaian sering kali hanyalah sekumpulan gambar halaman di dalam kontainer PDF. Halamannya mungkin menampilkan kata-kata bagi manusia, tetapi file tersebut mungkin tidak berisi teks nyata yang bisa diekstrak perangkat lunak.

Ini menimbulkan kegagalan yang sederhana:

Jenis fileApa yang dilihat penerjemahApa yang terjadi
PDF berbasis teksTeks plus data tata letakPenerjemahan bisa langsung dimulai.
PDF pindaian hanya gambarGambar halamanOCR harus dijalankan terlebih dahulu.
PDF teks di atas gambarGambar pindaian plus lapisan teks OCR tersembunyiPenerjemahan bisa berjalan, tetapi kesalahan OCR memengaruhi kualitas.

Pengujian yang paling berguna bukanlah pengujian teknis:

  1. Buka PDF.
  2. Coba sorot kata-kata satu per satu.
  3. Salin satu kalimat.
  4. Tempelkan ke editor teks.

Jika kalimatnya tertempel dengan benar, PDF tersebut memiliki lapisan teks. Jika tidak ada yang tertempel, atau seluruh halaman bertindak seperti satu gambar, PDF itu memerlukan OCR.

OCR Tidak Opsional

OCR berarti pengenalan karakter optik. OCR membaca teks dari gambar dan membuat teks yang bisa dibaca mesin. Untuk terjemahan PDF, OCR biasanya membuat lapisan teks tak terlihat di atas halaman hasil pindaian.

Lapisan teks itu menjadi sumber untuk penerjemahan. Jika OCR membuat kesalahan, terjemahannya akan mewarisi kesalahan tersebut.

Kesalahan OCR yang umum:

Kesalahan OCRRisiko terhadap terjemahan
rn dibaca sebagai mMakna kata berubah.
1 dibaca sebagai lAngka, referensi, atau kode menjadi salah.
O dibaca sebagai 0ID, rumus, dan nama bisa rusak.
Tanda aksen hilangNama dan istilah menjadi tidak akurat.
Kolom menyatuKalimat diterjemahkan dalam urutan yang salah.
Sel tabel dibaca per baris secara keliruLabel data tidak lagi cocok dengan nilainya.
Catatan kaki diperlakukan sebagai teks utamaSitasi dan catatan berpindah ke konteks yang salah.

Inilah sebabnya langkah peninjauan OCR penting. Jangan menerjemahkan dokumen hasil pindaian sampai Anda memeriksa contoh teks yang diekstrak.

Alur Kerja OCR-Terlebih-Dahulu

Langkah 1: Identifikasi Jenis PDF

Coba pilih teks. Jika pemilihan teks berfungsi, Anda mungkin tidak memerlukan OCR. Jika pemilihan gagal, perlakukan file tersebut sebagai gambar saja.

Periksa juga halaman secara visual:

  • Halaman yang miring menunjukkan hasil pindaian.
  • Tekstur kertas abu-abu menunjukkan hasil pindaian.
  • Bayangan di dekat jilid menunjukkan buku yang difoto.
  • Kontras yang tidak merata menunjukkan fotokopi.
  • Fitur pencarian yang tidak menemukan kata yang terlihat menunjukkan tidak ada lapisan teks.

Langkah 2: Perbaiki Pindaian Jika Memungkinkan

Kualitas OCR berawal dari kualitas gambar. Jika Anda bisa memindai ulang, lakukan itu sebelum menghabiskan waktu memperbaiki kesalahan OCR.

Gunakan daftar periksa kualitas gambar ini:

  • Pindai pada resolusi yang cukup tinggi untuk teks kecil.
  • Pastikan halaman rata dan lurus.
  • Hindari bayangan di dekat jilid.
  • Potong tepi meja, jari, atau latar belakang yang berantakan.
  • Gunakan kontras yang kuat antara teks dan halaman.
  • Pastikan seluruh baris terlihat.
  • Gunakan orientasi halaman yang benar.
  • Jangan kompres gambar terlalu berat hingga huruf menjadi buram.

Untuk buku lama dan fotokopi, peningkatan terbesar biasanya datang dari meluruskan kemiringan, memperbaiki kontras, dan memindai ulang halaman yang tidak fokus.

Langkah 3: Jalankan OCR

Pilih alat OCR berdasarkan dokumennya, bukan mereknya.

Opsi OCRPaling cocok untukHal yang perlu diwaspadai
Adobe Acrobat OCRPindaian bisnis umum dan pembersihan PDFPeriksa akses paket saat ini sebelum mengandalkannya.
ABBYY FineReaderPindaian kompleks, tabel, kolom, dan tata letak sulitTetap memerlukan peninjauan manual.
Tesseract atau OCRmyPDFAlur kerja OCR lokal, teknis, dan dapat diulangMemerlukan kenyamanan menggunakan alat command-line.
Alat OCR onlineFile sesekali yang berisiko rendahPrivasi, batas file, dan kualitas bervariasi.
Aplikasi pemindaian ponselMengambil pindaian baru dengan cepatDistorsi perspektif dapat merusak OCR.

Untuk kontrak pribadi, rekam medis, dokumen keuangan, manuskrip yang belum diterbitkan, atau karya akademik yang sedang ditinjau, pilih alur kerja OCR lokal atau lingkungan yang tepercaya. Jangan unggah pindaian sensitif ke situs OCR gratis acak.

Langkah 4: Tinjau Teks Hasil OCR

Tinjau sebelum menerjemahkan, bukan sesudahnya. Salin teks dari beberapa halaman yang sulit dan periksa apakah teksnya terbaca.

Contoh halaman yang perlu diperiksa:

  • Halaman judul.
  • Halaman isi yang padat.
  • Halaman tabel.
  • Halaman dengan catatan kaki.
  • Halaman dengan teks kecil.
  • Halaman dengan stempel, tulisan tangan, atau catatan pinggir.
  • Satu halaman untuk setiap bahasa jika dokumen bersifat multibahasa.

Periksa hal-hal berikut:

  • Paragraf yang hilang.
  • Kolom yang menyatu.
  • Kata yang rusak.
  • Karakter yang salah.
  • Diakritik yang hilang.
  • Label tabel yang terpisah dari nilainya.
  • Header yang masuk ke teks utama.
  • Nomor halaman yang tercampur ke dalam kalimat.

Jika kualitas OCR buruk, perbaiki sebelum menerjemahkan. Penerjemah tidak dapat memulihkan makna secara andal jika OCR tidak pernah menangkapnya.

Langkah 5: Terjemahkan PDF yang Sudah Diproses OCR

Setelah PDF memiliki lapisan teks yang bersih, unggah ke Penerjemah PDF. Langkah terjemahan kini bisa bekerja dengan teks alih-alih gambar halaman.

Setelah diterjemahkan, bandingkan:

  • Pindaian asli
  • Lapisan teks OCR
  • PDF hasil terjemahan

Peninjauan tiga arah ini membantu Anda mengidentifikasi apakah kesalahan berasal dari OCR atau terjemahan. Jika teks OCR salah, jalankan OCR lagi. Jika teks OCR benar tetapi terjemahannya salah, perbaiki terjemahannya.

Langkah 6: Tinjau Konten Berisiko Tinggi

Dokumen hasil pindaian sering kali berisi tepat jenis konten yang memerlukan peninjauan cermat: kontrak lama, formulir pemerintah, makalah akademik, manual, dokumen sejarah, dan halaman buku.

Tinjau item-item berikut secara manual:

  • Nama
  • Tanggal
  • Angka
  • Alamat
  • Kode produk
  • Referensi hukum
  • Sitasi
  • Label tabel
  • Satuan
  • Persamaan
  • Keterangan gambar
  • Catatan kaki

Untuk file riset dan akademik, baca juga panduan tentang menerjemahkan makalah riset akademik, karena PDF akademik hasil pindaian menambahkan risiko sitasi dan tata letak di atas risiko OCR.

Contoh Kegagalan Berdampingan

Gunakan tabel ini saat meninjau hasil OCR.

Kemungkinan yang terlihat pada pindaian asliHasil OCR yang burukMengapa ini penting
modernmodemMaknanya berubah total.
Section 10Section IOReferensi hukum atau teknis bisa rusak.
20262O26Tanggal dan ID menjadi tidak dapat diandalkan.
patientpatlentIstilah medis atau teknis menjadi salah.
Dua kolom terpisahSatu paragraf yang tergabungTerjemahan membaca kalimat dalam urutan yang salah.
Baris tabel dengan label dan nilaiSatu baris teks campuranData tidak lagi cocok dengan label yang benar.
Penanda catatan kaki 1Huruf lCatatan bisa menempel pada kalimat yang salah.

Jika Anda melihat kesalahan-kesalahan ini di lapisan OCR, perbaiki OCR sebelum menerjemahkan.

Alat Mana yang Harus Anda Gunakan?

Pilih berdasarkan tingkat kesulitan dokumen.

DokumenJalur yang direkomendasikan
Pindaian bisnis yang bersihOCR di Acrobat atau alat OCR andal lainnya, lalu Penerjemah PDF.
Pindaian buku lamaLuruskan kemiringan dan perbaiki kontras, jalankan OCR dengan cermat, lalu terjemahkan.
Pindaian makalah akademikJalankan OCR, tinjau persamaan/sitasi/tabel, lalu terjemahkan dengan peninjauan tata letak.
Catatan tulisan tanganTranskripsi manual mungkin diperlukan sebelum penerjemahan.
Dokumen pribadi sederhanaOCR online mungkin dapat diterima jika risiko privasinya rendah.
Dokumen sensitifGunakan OCR lokal atau alur kerja tepercaya yang terkontrol.

Jika Anda ingin perbandingan alat yang lebih luas, lihat panduan alat penerjemah PDF terbaik.

Masalah Umum pada PDF Hasil Pindaian

Halaman Resolusi Rendah

Pindaian beresolusi rendah membuat huruf saling kabur. OCR bisa tertukar antara rn dan m, cl dan d, atau antara tanda baca dan debu.

Solusi: pindai ulang jika memungkinkan. Jika tidak, tingkatkan kontras dan coba OCR lagi.

Halaman Miring atau Melengkung

Pindaian buku sering melengkung di dekat jilid. OCR membaca baris yang melengkung dengan buruk dan bisa mengacak urutan teks.

Solusi: ratakan halaman, pindai ulang, atau gunakan alat OCR dengan fitur pelurusan kemiringan dan perataan lengkungan.

Tata Letak Multi-Kolom

OCR bisa menggabungkan kolom kiri dan kanan menjadi satu aliran kalimat.

Solusi: periksa urutan baca sebelum menerjemahkan. Makalah akademik memerlukan perhatian khusus di sini.

Tabel

Tabel sulit karena OCR harus mendeteksi teks sekaligus struktur. Sebuah tabel bisa terlihat benar secara visual, sementara lapisan teksnya salah.

Solusi: salin teks OCR dari tabel dan pastikan label masih cocok dengan nilainya.

Tulisan Tangan dan Tanda Tangan

OCR untuk teks cetak jauh lebih andal daripada pengenalan tulisan tangan. Catatan pinggir tulisan tangan, tanda tangan, dan formulir yang sudah diisi bisa terlewat atau kacau.

Solusi: transkripsikan secara manual bagian tulisan tangan yang penting sebelum menerjemahkan.

Bahasa Campuran

OCR bekerja paling baik ketika mengetahui bahasa sumber. Pindaian dengan bahasa Inggris, Prancis, dan Mandarin bisa gagal jika OCR diatur hanya ke satu bahasa.

Solusi: pilih semua bahasa OCR yang relevan jika alat mendukungnya, lalu periksa cepat setiap bagian bahasa.

Daftar Periksa Privasi dan Keamanan

Sebelum mengunggah PDF hasil pindaian ke mana pun, tanyakan:

  • Apakah dokumen ini berisi data pribadi?
  • Apakah dokumen ini memuat materi medis, hukum, keuangan, akademik, atau yang belum diterbitkan?
  • Apakah dokumen ini tercakup oleh perjanjian klien atau kebijakan sekolah?
  • Apakah layanan OCR online diizinkan untuk dokumen ini?
  • Apakah Anda memerlukan alur kerja lokal?
  • Dapatkah Anda menghapus halaman yang tidak perlu diterjemahkan?

PDF hasil pindaian sering kali sensitif karena berasal dari kontrak, identitas, formulir, draf riset, dan arsip internal. Perlakukan keputusan unggah OCR sama seperti Anda memperlakukan dokumen aslinya.

FAQ

Bagaimana cara menerjemahkan PDF hasil pindaian?

Jalankan OCR terlebih dahulu untuk membuat lapisan teks, tinjau hasil OCR, lalu terjemahkan PDF yang sudah diproses OCR dengan Penerjemah PDF. Jangan lewatkan langkah peninjauan OCR.

Mengapa Google Translate tidak menerjemahkan PDF hasil pindaian saya?

PDF tersebut mungkin hanya berupa gambar. Jika tidak ada lapisan teks, Google Translate tidak punya teks untuk diekstrak. Gunakan OCR terlebih dahulu, lalu terjemahkan. Alur kerja khusus Google dibahas dalam panduan PDF Google Translate.

Bisakah ChatGPT menerjemahkan PDF hasil pindaian?

ChatGPT dapat membantu untuk gambar tunggal atau teks yang sudah diekstrak, tetapi PDF hasil pindaian yang terdiri dari banyak halaman tetap memerlukan OCR dan peninjauan. Untuk alur kerja dokumen lengkap, jalankan OCR terlebih dahulu, lalu gunakan alur kerja terjemahan PDF.

Apa alat OCR terbaik untuk PDF hasil pindaian?

Itu tergantung pada dokumennya. Alat seperti Acrobat dan ABBYY berguna untuk pindaian umum maupun kompleks. Tesseract atau OCRmyPDF berguna untuk alur kerja teknis lokal. OCR online bisa cukup baik untuk file sederhana yang berisiko rendah, tetapi privasi dan kualitasnya bervariasi.

Bisakah OCR mempertahankan format?

OCR dapat membuat lapisan teks dan kadang memulihkan urutan baca, tetapi itu tidak sama dengan mempertahankan tata letak terjemahan asli. Setelah OCR, gunakan alur kerja terjemahan PDF dan tinjau hasilnya dibandingkan dengan dokumen asli.

Bagaimana jika kualitas OCR buruk?

Perbaiki pindaian sebelum menerjemahkan. Pindai ulang jika memungkinkan, luruskan halaman, tingkatkan kontras, potong elemen yang mengganggu, pilih bahasa OCR yang benar, dan tinjau kembali halaman-halaman yang sulit.