BookTranslator
BookTranslator

Paano Isalin ang Isang Na-scan na PDF: Ang Kumpletong Gabay sa OCR + Pagsasalin

Ang mga scanned PDF ay naglalaman ng mga larawan ng teksto, hindi aktuwal na teksto — kaya ibinabalik ng Google Translate ang mga ito nang walang pagbabago. Narito ang OCR + AI pipeline na nag-aayos nito.

BookTranslator

BookTranslator Team

Mga Gabay sa Pagsasalin13 min read

Mabilis na Sagot: Kailangan ng OCR ang Na-scan na PDF Bago Isalin

Upang maisalin ang isang scanned PDF, patakbuhin muna ang OCR para gawing selectable text ang mga larawan ng pahina. Pagkatapos, isalin ang PDF na na-process na sa OCR gamit ang isang tagasalin ng dokumento tulad ng Tagasalin ng PDF. Kung lalaktawan mo ang OCR, maraming translation tool ang ibabalik ang orihinal na file nang walang pagbabago, may mamimiss na mga pahina, o isasalin lamang ang mga bahaging mayroon nang text layer.

Gamitin ang workflow na ito:

  1. Buksan ang PDF at subukang pumili ng isang pangungusap.
  2. Kung hindi ka makapili ng text, patakbuhin ang OCR.
  3. Suriin ang OCR text bago magsalin.
  4. I-upload ang PDF na na-process na sa OCR sa Tagasalin ng PDF.
  5. Ihambing ang naisaling output sa orihinal na scan.

Kung mayroon nang selectable text ang iyong PDF at ang problema ay pagpapanatili ng layout, gamitin ang gabay sa pagsasalin ng PDF nang hindi nawawala ang formatting.

Bakit Pumapalya ang Mga Translation Tool sa Mga Scanned PDF

Ang scanned PDF ay kadalasan ay koleksiyon lamang ng mga larawan ng pahina sa loob ng isang PDF container. Maaaring may mga salitang nakikita ang tao sa pahina, pero maaaring wala namang aktuwal na text sa file na puwedeng i-extract ng software.

Nagiging sanhi ito ng isang simpleng problema:

Uri ng fileAno ang nakikita ng tagasalinAno ang nangyayari
Text-based PDFText at data ng layoutPuwedeng magsimula agad ang pagsasalin.
Image-only scanned PDFMga larawan ng mga pahinaKailangan munang mag-OCR.
PDF na may text sa imageScan image at nakatagong OCR text layerPuwedeng gumana ang pagsasalin, pero apektado ng mga OCR error ang kalidad.

Ang pinaka-kapaki-pakinabang na test ay hindi teknikal:

  1. Buksan ang PDF.
  2. Subukang i-highlight ang mga indibidwal na salita.
  3. Kopyahin ang isang pangungusap.
  4. I-paste ito sa isang text editor.

Kung tama ang pagkakapaste ng pangungusap, may text layer ang PDF. Kung walang napipaste, o kung ang buong pahina ay kumikilos na parang iisang image, kailangan ng OCR ang PDF.

Hindi Opsyonal ang OCR

Ang OCR ay nangangahulugang optical character recognition. Binabasa nito ang text mula sa isang image at ginagawa itong machine-readable text. Para sa pagsasalin ng PDF, karaniwang gumagawa ang OCR ng invisible text layer sa ibabaw ng na-scan na pahina.

Ang text layer na iyon ang nagiging source para sa pagsasalin. Kung nagkakamali ang OCR, mamamana ng translation ang mga pagkakamaling iyon.

Mga karaniwang pagkakamali ng OCR:

Pagkakamali ng OCRPanganib sa pagsasalin
rn na nabasa bilang mNagbabago ang kahulugan ng mga salita.
1 na nabasa bilang lNagiging mali ang mga numero, reference, o code.
O na nabasa bilang 0Puwedeng masira ang mga ID, formula, at pangalan.
Nawawalang accentNagiging hindi tumpak ang mga pangalan at termino.
Nagsama-sama ang mga columnNaisasalin ang mga pangungusap sa maling ayos.
Maling nabasa ang mga cell ng table nang row by rowHindi na tumutugma ang mga data label sa mga value.
Tinuring ang mga footnote bilang body textNapupunta ang mga citation at note sa maling konteksto.

Ito ang dahilan kung bakit mahalaga ang hakbang ng OCR review. Huwag magsalin ng scanned document hangga't hindi mo pa nasu-surii ang na-extract na text.

Ang OCR-First na Workflow

Hakbang 1: Tukuyin ang Uri ng PDF

Subukang pumili ng text. Kung gumagana ang selection, baka hindi mo kailangan ng OCR. Kung hindi gumagana ang selection, ituring ang file bilang image-only.

Suriin din ang pahina sa biswal na paraan:

  • Ang mga pahinang tabingi ay senyales ng scan.
  • Ang abong tekstura ng papel ay senyales ng scan.
  • Ang mga anino malapit sa gulugod ng libro ay senyales ng litratong kuha ng aklat.
  • Ang hindi pantay na contrast ay senyales ng photocopy.
  • Kung hindi makita ng search ang mga salitang malinaw namang nakikita, malamang na walang text layer.

Hakbang 2: Pagandahin ang Scan Kung Posible

Nagsisimula ang kalidad ng OCR sa kalidad ng image. Kung puwede kang mag-rescan, gawin muna iyon bago gumugol ng oras sa pag-aayos ng mga OCR error.

Gamitin ang checklist na ito para sa kalidad ng image:

  • Mag-scan sa sapat na taas ng resolution para sa maliliit na text.
  • Panatilihing patag at tuwid ang mga pahina.
  • Iwasan ang mga anino malapit sa gulugod ng libro.
  • I-crop ang mga gilid ng mesa, mga daliri, o magulong background.
  • Gumamit ng malakas na contrast sa pagitan ng text at pahina.
  • Siguraduhing nakikita ang buong linya.
  • Gamitin ang tamang orientation ng pahina.
  • Huwag i-compress nang sobra ang image hanggang sa lumabo ang mga letra.

Para sa mga lumang libro at photocopy, ang pinakamalalaking improvement ay karaniwang nagmumula sa deskewing, pagwawasto ng contrast, at muling pag-scan ng mga pahinang out of focus.

Hakbang 3: Patakbuhin ang OCR

Pumili ng OCR tool batay sa dokumento, hindi sa brand.

Opsyon sa OCRPinakamainam para saDapat bantayan
Adobe Acrobat OCRMga pangkalahatang business scan at PDF cleanupSuriin muna ang access sa kasalukuyang plan bago umasa rito.
ABBYY FineReaderMga komplikadong scan, table, column, at mahihirap na layoutKailangan pa rin ng manual review.
Tesseract o OCRmyPDFLokal, teknikal, at paulit-ulit na OCR workflowNangangailangan ng kumpiyansa sa command-line tools.
Mga online OCR toolMga paminsan-minsang file na mababa ang riskIba-iba ang privacy, file limit, at kalidad.
Mga phone scanning appMabilis na pagkuha ng panibagong scanPuwedeng makasira sa OCR ang perspective distortion.

Para sa mga pribadong kontrata, medical record, financial document, hindi pa nailalathalang manuscript, o academic work na kasalukuyang nire-review, mas mainam ang lokal na OCR workflow o pinagkakatiwalaang environment. Huwag mag-upload ng sensitibong scan sa mga random na libreng OCR site.

Hakbang 4: Suriin ang OCR Text

Mag-review bago magsalin, hindi pagkatapos. Kopyahin ang text mula sa ilang mahihirap na pahina at tingnan kung nababasa ito nang maayos.

Mga sample na pahinang dapat suriin:

  • Ang title page.
  • Isang siksik na body page.
  • Isang page na may table.
  • Isang page na may footnote.
  • Isang page na may maliliit na text.
  • Isang page na may selyo, sulat-kamay, o marginal note.
  • Isang page sa bawat wika kung multilingual ang dokumento.

Hanapin ang mga sumusunod:

  • Nawawalang talata.
  • Nagsamang mga column.
  • Putol-putol na salita.
  • Maling character.
  • Nawawalang diacritic.
  • Mga label ng table na nahiwalay sa mga value.
  • Mga header na naipasok sa body text.
  • Mga page number na nahalo sa mga pangungusap.

Kung mahina ang kalidad ng OCR, ayusin muna ito bago magsalin. Hindi maaasahang maibabalik ng isang translator ang kahulugang hindi naman nakuha ng OCR.

Hakbang 5: Isalin ang PDF na Na-process na sa OCR

Kapag mayroon nang malinis na text layer ang PDF, i-upload ito sa Tagasalin ng PDF. Magagawa na ngayon ng hakbang ng pagsasalin na gumana sa text sa halip na sa mga larawan ng pahina.

Pagkatapos magsalin, ihambing ang mga sumusunod:

  • Orihinal na scan
  • OCR text layer
  • Naisaling PDF

Ang paghahambing na ito ng tatlong bersyon ay tumutulong sa iyo na matukoy kung ang error ay galing sa OCR o sa translation. Kung mali ang OCR text, patakbuhin muli ang OCR. Kung tama ang OCR text pero mali ang translation, ayusin ang translation.

Hakbang 6: Suriin ang High-Risk na Content

Madalas na ang mga scanned document ay naglalaman mismo ng mga content na kailangang masusing suriin: mga lumang kontrata, government form, academic paper, manual, historical document, at mga pahina ng libro.

Manwal na suriin ang mga item na ito:

  • Mga pangalan
  • Mga petsa
  • Mga numero
  • Mga address
  • Mga product code
  • Mga legal reference
  • Mga citation
  • Mga label ng table
  • Mga unit
  • Mga equation
  • Mga caption
  • Mga footnote

Para sa mga research at academic file, basahin din ang gabay sa pagsasalin ng mga academic research paper, dahil ang mga scanned academic PDF ay nagdadagdag ng panganib sa citation at layout bukod pa sa OCR risk.

Mga Halimbawa ng Pagpalya, Magkatabi para sa Paghahambing

Gamitin ang table na ito habang nire-review ang OCR output.

Malamang na ipinapakita ng orihinal na scanMasamang OCR outputBakit ito mahalaga
modernmodemLubusang nagbabago ang kahulugan.
Section 10Section IOPuwedeng masira ang mga legal o teknikal na reference.
20262O26Nagiging hindi maaasahan ang mga petsa at ID.
patientpatlentNagiging mali ang mga medikal o teknikal na termino.
Dalawang magkahiwalay na columnIsang pinagsamang talataNababasa ng translation ang mga pangungusap sa maling ayos.
Isang row ng table na may mga label at valueIisang linya ng halong textHindi na tumutugma ang data sa tamang label.
Footnote marker na 1Titik na lPuwedeng dumikit ang mga note sa maling pangungusap.

Kung makikita mo ang mga error na ito sa OCR layer, ayusin muna ang OCR bago magsalin.

Aling Tool ang Dapat Mong Gamitin?

Pumili batay sa hirap ng dokumento.

DokumentoInirerekomendang landas
Malinis na business scanOCR sa Acrobat o iba pang maaasahang OCR tool, pagkatapos ay Tagasalin ng PDF.
Scan ng lumang libroI-deskew at pagandahin ang contrast, maingat na mag-OCR, saka magsalin.
Scan ng academic paperMag-OCR, suriin ang mga equation/citation/table, saka magsalin na may layout review.
Sulat-kamay na noteMaaaring kailanganin muna ang manual transcription bago magsalin.
Simpleng personal na dokumentoPuwedeng katanggap-tanggap ang online OCR kung mababa ang privacy risk.
Sensitibong dokumentoGumamit ng lokal na OCR o pinagkakatiwalaang kontroladong workflow.

Kung gusto mo ng mas malawak na paghahambing ng mga tool, tingnan ang gabay sa pinakamahusay na mga tagasalin ng PDF.

Mga Karaniwang Problema sa Scanned PDF

Mga Pahinang Mababang Resolution

Pinagdidikit ng mga low-resolution na scan ang mga letra. Maaaring mapagkamalan ng OCR ang rn at m, cl at d, o ang punctuation at alikabok.

Ayos: mag-rescan kung posible. Kung hindi, taasan ang contrast at subukang mag-OCR muli.

Mga Pahinang Tabingi o Kurbado

Madalas na kurbado ang mga scan ng libro malapit sa gulugod nito. Hindi maayos na nababasa ng OCR ang mga kurbadong linya at maaari nitong baguhin ang ayos ng text.

Ayos: patagin ang pahina, i-scan muli, o gumamit ng OCR tool na may deskew at dewarping.

Multi-Column na Layout

Puwedeng pagsamahin ng OCR ang kaliwa at kanang column sa iisang tuloy-tuloy na stream ng pangungusap.

Ayos: suriin ang reading order bago magsalin. Kailangan ng espesyal na pansin ang mga academic paper dito.

Mga Table

Mahirap ang mga table dahil kailangang matukoy ng OCR ang text at ang istruktura nito. Puwedeng magmukhang tama ang table sa paningin pero mali ang text layer.

Ayos: kopyahin ang OCR text mula sa table at kumpirmahing tumutugma pa rin ang mga label sa mga value.

Sulat-Kamay at Mga Pirma

Mas maaasahan ang OCR para sa printed text kaysa sa handwriting recognition. Maaaring hindi makuha o magulo ang mga sulat-kamay na note sa margin, mga pirma, at mga fill-in form.

Ayos: manu-manong i-transcribe ang mahahalagang sulat-kamay bago magsalin.

Magkahalong Wika

Pinakamahusay ang OCR kapag alam nito ang source language. Ang scan na may English, French, at Chinese ay puwedeng pumalya kung iisang wika lang ang naka-set sa OCR.

Ayos: piliin ang lahat ng nauugnay na OCR language kung sinusuportahan ng tool, pagkatapos ay i-spot-check ang bawat seksiyon ng wika.

Checklist sa Privacy at Security

Bago mag-upload ng scanned PDF saanman, itanong:

  • May personal data ba ang dokumento?
  • May laman ba itong medikal, legal, pinansyal, akademiko, o hindi pa nailalathalang materyal?
  • Saklaw ba ito ng kasunduan sa kliyente o patakaran ng paaralan?
  • Pinapayagan ba ang isang online OCR service para sa dokumentong ito?
  • Kailangan mo ba ng lokal na workflow sa halip?
  • Puwede mo bang alisin ang mga pahinang hindi kailangang isalin?

Madalas na sensitibo ang mga scanned PDF dahil nanggagaling ang mga ito sa mga kontrata, ID, form, research draft, at internal archive. Tratuhin ang mga desisyon sa pag-upload para sa OCR sa parehong paraan ng pagtrato mo sa orihinal na dokumento.

FAQ

Paano ko isasalin ang scanned PDF?

Patakbuhin muna ang OCR para gumawa ng text layer, suriin ang OCR output, pagkatapos ay isalin ang PDF na na-process na sa OCR gamit ang Tagasalin ng PDF. Huwag laktawan ang hakbang ng OCR review.

Bakit hindi isinalin ng Google Translate ang aking scanned PDF?

Maaaring image-only ang PDF. Kung walang text layer, wala itong text na mae-extract ang Google Translate. Gamitin muna ang OCR, saka magsalin. Ang Google-specific na workflow ay saklaw sa gabay sa Google Translate PDF.

Maaari bang isalin ng ChatGPT ang scanned PDF?

Puwedeng makatulong ang ChatGPT sa mga indibidwal na image o na-extract na text, pero ang multi-page na scanned PDF ay kailangan pa rin ng OCR at review. Para sa buong workflow ng dokumento, OCR muna, pagkatapos ay gumamit ng workflow para sa pagsasalin ng PDF.

Ano ang pinakamagandang OCR tool para sa mga scanned PDF?

Depende ito sa dokumento. Kapaki-pakinabang ang Acrobat at mga tool na parang ABBYY para sa pangkalahatan at komplikadong mga scan. Kapaki-pakinabang ang Tesseract o OCRmyPDF para sa mga lokal na teknikal na workflow. Puwedeng maging maayos ang online OCR para sa mga simpleng file na mababa ang risk, pero iba-iba ang privacy at kalidad.

Napapanatili ba ng OCR ang formatting?

Puwedeng gumawa ang OCR ng text layer at kung minsan ay maibalik ang reading order, pero hindi ito kapareho ng pagpapanatili sa orihinal na translated layout. Pagkatapos ng OCR, gumamit ng workflow para sa pagsasalin ng PDF at ihambing ang output sa orihinal.

Paano kung mahina ang kalidad ng OCR?

Pagandahin ang scan bago magsalin. Mag-rescan kung posible, i-deskew ang mga pahina, taasan ang contrast, i-crop ang kalat, piliin ang tamang OCR language, at suriin muli ang mahihirap na pahina.