BookTranslator
BookTranslator

วิธีแปล PDF ที่สแกนมา: คู่มือ OCR + การแปลฉบับสมบูรณ์

PDF ที่สแกนมามีเพียงภาพของข้อความ ไม่ใช่ข้อความจริง นั่นจึงเป็นเหตุผลที่ Google Translate ส่งคืนไฟล์เดิมแบบไม่เปลี่ยนแปลง นี่คือเวิร์กโฟลว์ OCR + AI ที่ช่วยแก้ปัญหานี้

BookTranslator

BookTranslator Team

คู่มือการแปล5 min read

คำตอบแบบรวดเร็ว: PDF ที่สแกนมาต้องผ่าน OCR ก่อนจะแปลได้

หากต้องการแปล PDF ที่สแกนมา ให้รัน OCR ก่อนเพื่อเปลี่ยนภาพของแต่ละหน้าให้กลายเป็นข้อความที่เลือกได้ จากนั้นจึงแปล PDF ที่ผ่าน OCR แล้วด้วยเครื่องมือแปลเอกสารอย่าง ตัวแปล PDF หากข้ามขั้นตอน OCR เครื่องมือแปลจำนวนมากจะส่งคืนไฟล์ต้นฉบับแบบไม่เปลี่ยนแปลง ข้ามบางหน้า หรือแปลเฉพาะส่วนที่มี text layer อยู่แล้ว

ใช้เวิร์กโฟลว์นี้:

  1. เปิด PDF แล้วลองเลือกข้อความหนึ่งประโยค
  2. หากเลือกข้อความไม่ได้ ให้รัน OCR
  3. ตรวจทานข้อความจาก OCR ก่อนแปล
  4. อัปโหลด PDF ที่ผ่าน OCR แล้วไปยัง ตัวแปล PDF
  5. ตรวจทานผลลัพธ์ที่แปลแล้วเทียบกับต้นฉบับสแกน

หาก PDF ของคุณมีข้อความที่เลือกได้อยู่แล้ว และปัญหาอยู่ที่การรักษาเลย์เอาต์ ให้ใช้คู่มือ แปล PDF โดยไม่ให้ฟอร์แมตเสีย

ทำไม PDF ที่สแกนมาจึงล้มเหลวในเครื่องมือแปล

PDF ที่สแกนมามักเป็นเพียงชุดของภาพหน้ากระดาษที่อยู่ภายในคอนเทนเนอร์ PDF หน้าเอกสารอาจแสดงคำให้มนุษย์อ่านได้ แต่ไฟล์อาจไม่มีข้อความจริงที่ซอฟต์แวร์จะดึงออกมาได้

จึงเกิดปัญหาง่าย ๆ ดังนี้:

ประเภทไฟล์สิ่งที่เครื่องมือแปลมองเห็นสิ่งที่เกิดขึ้น
PDF ที่เป็นข้อความข้อความพร้อมข้อมูลเลย์เอาต์เริ่มแปลได้ทันที
PDF สแกนที่มีแต่ภาพภาพของแต่ละหน้าต้องทำ OCR ก่อน
PDF แบบข้อความซ้อนบนภาพภาพสแกนพร้อม text layer จาก OCR ที่ซ่อนไว้แปลได้ แต่ข้อผิดพลาดจาก OCR จะกระทบคุณภาพ

การทดสอบที่มีประโยชน์ที่สุดไม่ใช่เรื่องเทคนิค:

  1. เปิด PDF
  2. ลองไฮไลต์คำแต่ละคำ
  3. คัดลอกหนึ่งประโยค
  4. วางลงในโปรแกรมแก้ไขข้อความ

หากวางประโยคออกมาได้ถูกต้อง แสดงว่า PDF มี text layer หากวางอะไรไม่ได้เลย หรือทั้งหน้าทำงานเหมือนเป็นภาพเดียว PDF นั้นต้องทำ OCR

OCR ไม่ใช่ตัวเลือกเสริม

OCR ย่อมาจาก optical character recognition เป็นกระบวนการอ่านตัวอักษรจากภาพและสร้างข้อความที่เครื่องอ่านได้ สำหรับการแปล PDF โดยทั่วไป OCR จะสร้าง text layer ที่มองไม่เห็นซ้อนอยู่บนหน้าที่สแกน

text layer นี้จะกลายเป็นต้นทางของการแปล หาก OCR อ่านผิด การแปลก็จะรับความผิดพลาดนั้นไปด้วย

ข้อผิดพลาด OCR ที่พบบ่อย:

ข้อผิดพลาด OCRความเสี่ยงต่อการแปล
อ่าน rn เป็น mความหมายของคำเปลี่ยนไป
อ่าน 1 เป็น lตัวเลข การอ้างอิง หรือรหัสอาจผิด
อ่าน O เป็น 0ID สูตร และชื่ออาจเสียหาย
เครื่องหมายกำกับเสียงหายไปชื่อและคำเฉพาะคลาดเคลื่อน
คอลัมน์ถูกรวมเข้าด้วยกันประโยคถูกแปลสลับลำดับ
อ่านเซลล์ในตารางแบบทีละแถวผิดลำดับป้ายกำกับข้อมูลไม่ตรงกับค่าอีกต่อไป
เชิงอรรถถูกปะปนเป็นเนื้อหาหลักการอ้างอิงและหมายเหตุไปอยู่ผิดบริบท

นี่คือเหตุผลที่ขั้นตอนตรวจทาน OCR สำคัญ อย่าแปลเอกสารที่สแกนมาจนกว่าคุณจะสุ่มตรวจข้อความที่ดึงออกมาแล้ว

เวิร์กโฟลว์ที่ต้องเริ่มจาก OCR

ขั้นตอนที่ 1: ระบุประเภทของ PDF

ลองเลือกข้อความดู หากเลือกได้ คุณอาจไม่จำเป็นต้องใช้ OCR หากเลือกไม่ได้ ให้ถือว่าไฟล์นี้เป็นแบบภาพล้วน

ตรวจสอบหน้ากระดาษด้วยสายตาด้วยเช่นกัน:

  • หน้าที่เอียงบ่งชี้ว่าเป็นไฟล์สแกน
  • พื้นผิวกระดาษสีเทาบ่งชี้ว่าเป็นไฟล์สแกน
  • เงาใกล้สันหนังสือบ่งชี้ว่าเป็นหนังสือที่ถ่ายภาพมา
  • คอนทราสต์ไม่สม่ำเสมอบ่งชี้ว่าเป็นสำเนาถ่ายเอกสาร
  • ค้นหาแล้วไม่พบคำที่มองเห็นอยู่ แสดงว่าอาจไม่มี text layer

ขั้นตอนที่ 2: ปรับปรุงคุณภาพสแกนถ้าทำได้

คุณภาพของ OCR เริ่มต้นจากคุณภาพของภาพ หากคุณสามารถสแกนใหม่ได้ ให้ทำก่อนเสียเวลาตามแก้ข้อผิดพลาดของ OCR

ใช้เช็กลิสต์คุณภาพภาพนี้:

  • สแกนที่ความละเอียดสูงพอสำหรับข้อความขนาดเล็ก
  • ทำให้หน้ากระดาษแบนและตรง
  • หลีกเลี่ยงเงาใกล้สันหนังสือ
  • ครอปขอบโต๊ะ นิ้วมือ หรือฉากหลังที่รบกวนออก
  • ใช้คอนทราสต์ระหว่างข้อความกับหน้ากระดาษให้ชัด
  • ให้ทั้งบรรทัดมองเห็นครบ
  • ใช้การวางแนวหน้ากระดาษที่ถูกต้อง
  • อย่าบีบอัดภาพมากจนตัวอักษรเบลอ

สำหรับหนังสือเก่าหรือสำเนาถ่ายเอกสาร สิ่งที่ช่วยได้มากที่สุดมักเป็นการปรับความเอียงให้ตรง การแก้คอนทราสต์ และการสแกนหน้าที่หลุดโฟกัสใหม่

ขั้นตอนที่ 3: รัน OCR

เลือกเครื่องมือ OCR ตามลักษณะเอกสาร ไม่ใช่ตามแบรนด์

ตัวเลือก OCRเหมาะที่สุดสำหรับข้อควรระวัง
OCR ของ Adobe Acrobatงานสแกนธุรกิจทั่วไปและการเก็บกวาด PDFตรวจสอบสิทธิ์การใช้งานในแผนปัจจุบันก่อนพึ่งพา
ABBYY FineReaderงานสแกนซับซ้อน ตาราง คอลัมน์ และเลย์เอาต์ที่ยากยังต้องตรวจทานด้วยมือ
Tesseract or OCRmyPDFเวิร์กโฟลว์ OCR แบบโลคัล เชิงเทคนิค และทำซ้ำได้ต้องคุ้นเคยกับเครื่องมือบรรทัดคำสั่ง
เครื่องมือ OCR ออนไลน์ไฟล์ที่มีความเสี่ยงต่ำและใช้งานเป็นครั้งคราวความเป็นส่วนตัว ขนาดไฟล์ และคุณภาพแตกต่างกัน
แอปสแกนด้วยโทรศัพท์การเก็บสแกนใหม่อย่างรวดเร็วความเพี้ยนจากมุมมองอาจทำให้ OCR แย่ลง

สำหรับสัญญาส่วนตัว เวชระเบียน เอกสารการเงิน ต้นฉบับที่ยังไม่เผยแพร่ หรือผลงานวิชาการที่อยู่ระหว่างการพิจารณา ควรใช้เวิร์กโฟลว์ OCR แบบโลคัลหรือสภาพแวดล้อมที่เชื่อถือได้ อย่าอัปโหลดไฟล์สแกนที่มีข้อมูลอ่อนไหวไปยังเว็บ OCR ฟรีแบบสุ่ม

ขั้นตอนที่ 4: ตรวจทานข้อความจาก OCR

ให้ตรวจทานก่อนแปล ไม่ใช่หลังแปล คัดลอกข้อความจากหลายหน้าที่ยาก แล้วตรวจว่ามันอ่านรู้เรื่องหรือไม่

หน้าตัวอย่างที่ควรตรวจ:

  • หน้าชื่อเรื่อง
  • หน้าที่มีเนื้อหาแน่น
  • หน้าตาราง
  • หน้าที่มีเชิงอรรถ
  • หน้าที่มีตัวอักษรขนาดเล็ก
  • หน้าที่มีตราประทับ ลายมือ หรือบันทึกข้างกระดาษ
  • หนึ่งหน้าในแต่ละภาษา หากเอกสารมีหลายภาษา

ให้มองหาสิ่งต่อไปนี้:

  • ย่อหน้าที่หายไป
  • คอลัมน์ที่ถูกรวม
  • คำที่ขาดหรือแตก
  • ตัวอักษรที่ผิด
  • สัญลักษณ์กำกับเสียงที่หายไป
  • ป้ายกำกับในตารางแยกจากค่าของมัน
  • ส่วนหัวถูกแทรกเข้าไปในเนื้อหาหลัก
  • เลขหน้าปะปนเข้าไปในประโยค

หากคุณภาพ OCR แย่ ให้แก้ให้เรียบร้อยก่อนแปล เครื่องมือแปลไม่สามารถกู้ความหมายที่ OCR ไม่เคยจับได้อย่างน่าเชื่อถือ

ขั้นตอนที่ 5: แปล PDF ที่ผ่าน OCR แล้ว

เมื่อ PDF มี text layer ที่สะอาดแล้ว ให้อัปโหลดไปยัง ตัวแปล PDF ขั้นตอนการแปลก็จะทำงานกับข้อความแทนภาพของแต่ละหน้าได้

หลังจากแปลแล้ว ให้เปรียบเทียบ:

  • ต้นฉบับสแกน
  • text layer จาก OCR
  • PDF ที่แปลแล้ว

การตรวจเทียบสามทางนี้ช่วยให้คุณแยกได้ว่าข้อผิดพลาดมาจาก OCR หรือจากการแปล หากข้อความ OCR ผิด ให้รัน OCR ใหม่ หากข้อความ OCR ถูกแต่การแปลผิด ให้แก้ที่การแปล

ขั้นตอนที่ 6: ตรวจทานเนื้อหาที่มีความเสี่ยงสูง

เอกสารที่สแกนมามักเป็นเอกสารประเภทที่ต้องตรวจอย่างละเอียดพอดี เช่น สัญญาเก่า แบบฟอร์มราชการ บทความวิชาการ คู่มือ เอกสารประวัติศาสตร์ และหน้าหนังสือ

รายการเหล่านี้ควรตรวจด้วยมือ:

  • ชื่อ
  • วันที่
  • ตัวเลข
  • ที่อยู่
  • รหัสสินค้า
  • การอ้างอิงทางกฎหมาย
  • การอ้างอิง
  • ป้ายกำกับในตาราง
  • หน่วย
  • สมการ
  • คำบรรยายภาพ
  • เชิงอรรถ

สำหรับไฟล์วิจัยและวิชาการ โปรดอ่านคู่มือ การแปลบทความวิจัยเชิงวิชาการ เพิ่มเติมด้วย เพราะ PDF วิชาการที่สแกนมาจะเพิ่มความเสี่ยงด้านการอ้างอิงและเลย์เอาต์เข้ามานอกเหนือจากความเสี่ยงของ OCR

ตัวอย่างความล้มเหลวแบบเทียบเคียงกัน

ใช้ตารางนี้ระหว่างตรวจทานผลลัพธ์จาก OCR

สิ่งที่ต้นฉบับสแกนน่าจะแสดงผลลัพธ์ OCR ที่ผิดเหตุผลที่สำคัญ
modernmodemความหมายเปลี่ยนไปโดยสิ้นเชิง
Section 10Section IOการอ้างอิงทางกฎหมายหรือทางเทคนิคอาจเสียหาย
20262O26วันที่และ ID ไม่น่าเชื่อถือ
patientpatlentคำศัพท์ทางการแพทย์หรือเทคนิคผิดเพี้ยน
สองคอลัมน์แยกจากกันย่อหน้าเดียวที่ถูกรวมการแปลอ่านประโยคสลับลำดับ
แถวตารางที่มีป้ายกำกับและค่าข้อความปะปนกันเป็นบรรทัดเดียวข้อมูลไม่จับคู่กับป้ายกำกับที่ถูกต้องอีกต่อไป
ตัวบอกเชิงอรรถ 1ตัวอักษร lหมายเหตุอาจไปผูกกับประโยคผิด

หากคุณเห็นข้อผิดพลาดเหล่านี้ใน OCR layer ให้แก้ OCR ก่อนแปล

ควรใช้เครื่องมือไหน?

ให้เลือกตามความยากของเอกสาร

เอกสารเส้นทางที่แนะนำ
งานสแกนธุรกิจที่คมชัดทำ OCR ใน Acrobat หรือเครื่องมือ OCR ที่เชื่อถือได้ตัวอื่น แล้วค่อยใช้ ตัวแปล PDF
สแกนหนังสือเก่าปรับความเอียงและคอนทราสต์ให้ดี ทำ OCR อย่างระมัดระวัง แล้วค่อยแปล
สแกนบทความวิชาการทำ OCR ตรวจสมการ/การอ้างอิง/ตาราง แล้วค่อยแปลพร้อมตรวจเลย์เอาต์
บันทึกลายมืออาจต้องถอดข้อความด้วยมือก่อนแปล
เอกสารส่วนตัวแบบง่ายOCR ออนไลน์อาจยอมรับได้หากความเสี่ยงด้านความเป็นส่วนตัวต่ำ
เอกสารอ่อนไหวใช้ OCR แบบโลคัลหรือเวิร์กโฟลว์ควบคุมที่เชื่อถือได้

หากคุณต้องการการเปรียบเทียบเครื่องมือแบบกว้างขึ้น ให้ดู คู่มือเครื่องมือแปล PDF ที่ดีที่สุด

ปัญหาที่พบบ่อยใน PDF ที่สแกนมา

หน้าที่มีความละเอียดต่ำ

ไฟล์สแกนความละเอียดต่ำทำให้ตัวอักษรเบลอและติดกัน OCR อาจสับสนระหว่าง rn กับ m, cl กับ d หรือแยกไม่ออกระหว่างเครื่องหมายวรรคตอนกับฝุ่น

วิธีแก้: สแกนใหม่ถ้าทำได้ ถ้าทำไม่ได้ ให้เพิ่มคอนทราสต์แล้วลอง OCR อีกครั้ง

หน้าที่เอียงหรือโค้ง

งานสแกนหนังสือมักโค้งใกล้สันหนังสือ OCR จะอ่านบรรทัดที่โค้งได้ไม่ดีและอาจสลับลำดับข้อความ

วิธีแก้: ทำให้หน้ากระดาษแบน สแกนใหม่ หรือใช้เครื่องมือ OCR ที่มีการปรับเอียงและแก้ความโค้ง

เลย์เอาต์หลายคอลัมน์

OCR อาจรวมคอลัมน์ซ้ายและขวาให้กลายเป็นข้อความต่อเนื่องชุดเดียว

วิธีแก้: ตรวจลำดับการอ่านก่อนแปล โดยเฉพาะบทความวิชาการที่ต้องใส่ใจจุดนี้เป็นพิเศษ

ตาราง

ตารางเป็นส่วนที่ยาก เพราะ OCR ต้องตรวจจับทั้งข้อความและโครงสร้าง ตารางอาจดูเหมือนถูกต้องในภาพ แต่ text layer กลับผิด

วิธีแก้: คัดลอกข้อความ OCR จากตาราง แล้วตรวจว่าป้ายกำกับยังตรงกับค่าอยู่

ลายมือและลายเซ็น

OCR สำหรับข้อความพิมพ์มีความน่าเชื่อถือสูงกว่าการรู้จำลายมือมาก บันทึกข้างกระดาษที่เขียนด้วยมือ ลายเซ็น และแบบฟอร์มที่กรอกแล้วอาจถูกข้ามหรืออ่านเพี้ยน

วิธีแก้: ถอดความลายมือที่สำคัญด้วยตนเองก่อนแปล

หลายภาษาปะปนกัน

OCR ทำงานได้ดีที่สุดเมื่อรู้ภาษาต้นทาง ไฟล์สแกนที่มีทั้งอังกฤษ ฝรั่งเศส และจีนอาจล้มเหลวหากตั้งค่า OCR ไว้เพียงภาษาเดียว

วิธีแก้: เลือกภาษา OCR ที่เกี่ยวข้องทั้งหมดถ้าเครื่องมือรองรับ แล้วสุ่มตรวจแต่ละส่วนภาษาทีละช่วง

เช็กลิสต์ด้านความเป็นส่วนตัวและความปลอดภัย

ก่อนอัปโหลด PDF ที่สแกนมาไปที่ใดก็ตาม ให้ถามตัวเองว่า:

  • เอกสารนี้มีข้อมูลส่วนบุคคลหรือไม่
  • มีข้อมูลทางการแพทย์ กฎหมาย การเงิน วิชาการ หรือเนื้อหาที่ยังไม่เผยแพร่หรือไม่
  • ถูกครอบคลุมโดยข้อตกลงกับลูกค้าหรือนโยบายของสถาบันหรือไม่
  • อนุญาตให้ใช้บริการ OCR ออนไลน์กับเอกสารนี้หรือไม่
  • คุณจำเป็นต้องใช้เวิร์กโฟลว์แบบโลคัลแทนหรือไม่
  • สามารถลบหน้าที่ไม่จำเป็นต้องแปลออกได้หรือไม่

PDF ที่สแกนมามักมีความอ่อนไหว เพราะมักมาจากสัญญา บัตรประจำตัว แบบฟอร์ม ร่างงานวิจัย และคลังเอกสารภายใน ให้ตัดสินใจเรื่องการอัปโหลด OCR ด้วยมาตรฐานเดียวกับที่คุณใช้กับเอกสารต้นฉบับ

คำถามที่พบบ่อย

ฉันจะแปล PDF ที่สแกนมาได้อย่างไร

รัน OCR ก่อนเพื่อสร้าง text layer ตรวจทานผลลัพธ์จาก OCR แล้วจึงแปล PDF ที่ผ่าน OCR แล้วด้วย ตัวแปล PDF อย่าข้ามขั้นตอนตรวจทาน OCR

ทำไม Google Translate ถึงไม่แปล PDF ที่สแกนมาของฉัน

PDF นั้นอาจเป็นไฟล์ภาพล้วน หากไม่มี text layer, Google Translate ก็ไม่มีข้อความให้นำออกมาแปล ให้ใช้ OCR ก่อนแล้วค่อยแปล เวิร์กโฟลว์เฉพาะสำหรับ Google อธิบายไว้ใน คู่มือ Google Translate สำหรับ PDF

ChatGPT แปล PDF ที่สแกนมาได้ไหม

ChatGPT อาจช่วยได้กับภาพเดี่ยวหรือข้อความที่ดึงออกมาแล้ว แต่ PDF ที่สแกนมาหลายหน้ายังคงต้องผ่าน OCR และการตรวจทาน สำหรับเวิร์กโฟลว์ทั้งเอกสาร ให้ทำ OCR ก่อน แล้วค่อยใช้เวิร์กโฟลว์แปล PDF

เครื่องมือ OCR ที่ดีที่สุดสำหรับ PDF ที่สแกนมาคืออะไร

ขึ้นอยู่กับเอกสาร Acrobat และเครื่องมือแนว ABBYY มีประโยชน์สำหรับงานสแกนทั่วไปและงานสแกนที่ซับซ้อน Tesseract หรือ OCRmyPDF เหมาะกับเวิร์กโฟลว์เชิงเทคนิคแบบโลคัล OCR ออนไลน์อาจใช้ได้กับไฟล์ง่าย ๆ ที่ความเสี่ยงต่ำ แต่ความเป็นส่วนตัวและคุณภาพแตกต่างกัน

OCR รักษารูปแบบเดิมได้ไหม

OCR สามารถสร้าง text layer และบางครั้งช่วยกู้ลำดับการอ่านได้ แต่ไม่ใช่สิ่งเดียวกับการรักษาเลย์เอาต์เดิมหลังการแปล หลังจากทำ OCR แล้ว ให้ใช้เวิร์กโฟลว์แปล PDF และตรวจผลลัพธ์เทียบกับต้นฉบับ

ถ้าคุณภาพ OCR แย่ควรทำอย่างไร

ปรับปรุงไฟล์สแกนก่อนแปล สแกนใหม่หากทำได้ ปรับหน้าให้ตรง เพิ่มคอนทราสต์ ครอปส่วนรบกวน เลือกภาษา OCR ที่ถูกต้อง และตรวจหน้าที่ยากอีกครั้ง