Cách Dịch PDF Được Quét: Hướng Dẫn Hoàn Chỉnh Về OCR + Dịch Thuật

PDF được quét chứa hình ảnh của văn bản chứ không phải văn bản thực tế — đó là lý do Google Translate trả về tệp không thay đổi. Đây là quy trình OCR + AI để khắc phục điều đó.

BookTranslator Team

Dịch thuật PDF

28 thg 2, 202614 min read

Câu Trả Lời Nhanh: PDF Được Quét Cần OCR Trước Khi Dịch

Để dịch một PDF được quét, trước tiên hãy chạy OCR để biến hình ảnh các trang thành văn bản có thể chọn được. Sau đó, dịch tệp PDF đã qua OCR bằng một công cụ dịch tài liệu như Trình dịch PDF. Nếu bỏ qua OCR, nhiều công cụ dịch sẽ trả về nguyên tệp gốc, bỏ sót trang hoặc chỉ dịch những phần vốn đã có lớp văn bản.

Hãy dùng quy trình này:

Mở PDF và thử chọn một câu.
Nếu bạn không thể chọn văn bản, hãy chạy OCR.
Kiểm tra lại văn bản OCR trước khi dịch.
Tải PDF đã qua OCR lên Trình dịch PDF.
Đối chiếu đầu ra đã dịch với bản quét gốc.

Nếu PDF của bạn đã có văn bản có thể chọn được và vấn đề nằm ở việc giữ nguyên bố cục, hãy xem hướng dẫn dịch PDF mà không làm mất định dạng.

Vì Sao PDF Được Quét Thường Thất Bại Trong Các Công Cụ Dịch

Một PDF được quét thường chỉ là tập hợp các hình ảnh trang nằm trong một vùng chứa PDF. Trang đó có thể hiển thị chữ với con người, nhưng tệp có thể không chứa văn bản thực tế để phần mềm trích xuất.

Điều đó tạo ra một lỗi rất đơn giản:

Loại tệp	Trình dịch nhìn thấy gì	Điều gì xảy ra
PDF dựa trên văn bản	Văn bản cùng dữ liệu bố cục	Có thể bắt đầu dịch ngay.
PDF quét chỉ có hình ảnh	Ảnh của các trang	Bắt buộc phải OCR trước.
PDF có văn bản đè lên ảnh	Ảnh quét cộng lớp văn bản OCR ẩn	Có thể dịch được, nhưng lỗi OCR sẽ ảnh hưởng chất lượng.

Bài kiểm tra hữu ích nhất không hề mang tính kỹ thuật:

Mở PDF.
Thử bôi đen từng từ riêng lẻ.
Sao chép một câu.
Dán nó vào trình soạn thảo văn bản.

Nếu câu được dán ra đúng, PDF có lớp văn bản. Nếu không dán được gì, hoặc cả trang hoạt động như một hình ảnh duy nhất, PDF đó cần OCR.

OCR Không Phải Là Tùy Chọn Có Thể Bỏ Qua

OCR là viết tắt của nhận dạng ký tự quang học. Nó đọc văn bản từ hình ảnh và tạo ra văn bản mà máy có thể xử lý. Với dịch PDF, OCR thường tạo một lớp văn bản vô hình phủ lên trang đã quét.

Lớp văn bản đó trở thành nguồn để dịch. Nếu OCR mắc lỗi, bản dịch sẽ kế thừa các lỗi đó.

Các lỗi OCR phổ biến:

Lỗi OCR	Rủi ro khi dịch
`rn` bị đọc thành `m`	Từ thay đổi nghĩa.
`1` bị đọc thành `l`	Số, tham chiếu hoặc mã bị sai.
`O` bị đọc thành `0`	ID, công thức và tên có thể bị hỏng.
Mất dấu	Tên riêng và thuật ngữ trở nên thiếu chính xác.
Gộp cột	Câu bị dịch sai thứ tự.
Ô trong bảng bị đọc sai theo từng hàng	Nhãn dữ liệu აღარ khớp với giá trị.
Chú thích chân trang bị coi là thân bài	Trích dẫn và ghi chú rơi vào sai ngữ cảnh.

Đó là lý do bước rà soát OCR rất quan trọng. Đừng dịch tài liệu được quét cho đến khi bạn đã kiểm tra nhanh văn bản được trích xuất.

Quy Trình OCR Trước, Dịch Sau

Bước 1: Xác Định Loại PDF

Hãy thử chọn văn bản. Nếu chọn được, có thể bạn không cần OCR. Nếu không chọn được, hãy coi tệp đó là chỉ có hình ảnh.

Đồng thời kiểm tra trực quan trang tài liệu:

Trang bị lệch cho thấy đó là bản quét.
Nền giấy xám cho thấy đó là bản quét.
Bóng gần gáy sách cho thấy đó là sách được chụp.
Độ tương phản không đều cho thấy đó là bản photocopy.
Tính năng tìm kiếm không tìm ra các từ đang nhìn thấy cho thấy không có lớp văn bản.

Bước 2: Nếu Có Thể, Hãy Cải Thiện Chất Lượng Bản Quét

Chất lượng OCR bắt đầu từ chất lượng hình ảnh. Nếu bạn có thể quét lại, hãy làm điều đó trước khi tốn thời gian sửa lỗi OCR.

Hãy dùng checklist chất lượng hình ảnh này:

Quét ở độ phân giải đủ cao cho chữ nhỏ.
Giữ trang phẳng và thẳng.
Tránh bóng gần gáy sách.
Cắt bỏ viền bàn, ngón tay hoặc nền lộn xộn.
Tạo độ tương phản mạnh giữa chữ và trang.
Giữ toàn bộ dòng chữ hiển thị rõ.
Dùng đúng chiều trang.
Đừng nén hình quá mạnh đến mức chữ bị nhòe.

Với sách cũ và bản photocopy, những cải thiện lớn nhất thường đến từ việc căn thẳng trang, chỉnh tương phản và quét lại các trang bị mất nét.

Bước 3: Chạy OCR

Hãy chọn công cụ OCR dựa trên loại tài liệu, không phải dựa trên thương hiệu.

Tùy chọn OCR	Phù hợp nhất cho	Cần lưu ý
Adobe Acrobat OCR	Bản quét kinh doanh thông thường và dọn dẹp PDF	Hãy kiểm tra gói hiện tại trước khi phụ thuộc vào nó.
ABBYY FineReader	Bản quét phức tạp, bảng biểu, cột và bố cục khó	Vẫn cần rà soát thủ công.
Tesseract hoặc OCRmyPDF	Quy trình OCR cục bộ, kỹ thuật, có thể lặp lại	Cần quen với công cụ dòng lệnh.
Công cụ OCR trực tuyến	Tệp ít rủi ro, dùng không thường xuyên	Quyền riêng tư, giới hạn tệp và chất lượng rất khác nhau.
Ứng dụng quét trên điện thoại	Chụp nhanh một bản quét mới	Méo phối cảnh có thể làm OCR kém đi.

Với hợp đồng riêng tư, hồ sơ y tế, tài liệu tài chính, bản thảo chưa xuất bản hoặc công trình học thuật đang chờ phản biện, hãy ưu tiên quy trình OCR cục bộ hoặc một môi trường đáng tin cậy. Đừng tải các bản quét nhạy cảm lên những trang OCR miễn phí ngẫu nhiên.

Bước 4: Rà Soát Văn Bản OCR

Hãy rà soát trước khi dịch, không phải sau khi dịch. Sao chép văn bản từ một vài trang khó và kiểm tra xem nó có đọc được hay không.

Các trang mẫu nên kiểm tra:

Trang tiêu đề.
Một trang thân bài dày đặc.
Một trang có bảng.
Một trang có chú thích chân trang.
Một trang có chữ nhỏ.
Một trang có dấu đóng, chữ viết tay hoặc ghi chú bên lề.
Một trang ở mỗi ngôn ngữ nếu tài liệu là đa ngôn ngữ.

Hãy tìm:

Đoạn văn bị thiếu.
Cột bị gộp.
Từ bị vỡ.
Ký tự sai.
Mất dấu.
Nhãn bảng bị tách khỏi giá trị.
Tiêu đề chèn vào thân bài.
Số trang bị trộn vào câu.

Nếu chất lượng OCR kém, hãy sửa nó trước khi dịch. Một trình dịch không thể khôi phục đáng tin cậy ý nghĩa mà OCR chưa từng nhận ra.

Bước 5: Dịch PDF Đã Qua OCR

Khi PDF đã có lớp văn bản sạch, hãy tải nó lên Trình dịch PDF. Lúc này bước dịch có thể làm việc với văn bản thay vì ảnh trang.

Sau khi dịch, hãy so sánh:

Bản quét gốc
Lớp văn bản OCR
PDF đã dịch

Việc rà soát ba chiều này giúp bạn xác định lỗi đến từ OCR hay từ dịch thuật. Nếu văn bản OCR sai, hãy chạy lại OCR. Nếu văn bản OCR đúng nhưng bản dịch sai, hãy sửa bản dịch.

Bước 6: Rà Soát Nội Dung Rủi Ro Cao

Tài liệu được quét thường chứa đúng những nội dung cần kiểm tra kỹ: hợp đồng cũ, biểu mẫu chính phủ, bài báo học thuật, sách hướng dẫn, tài liệu lịch sử và các trang sách.

Hãy kiểm tra thủ công các mục này:

Tên riêng
Ngày tháng
Con số
Địa chỉ
Mã sản phẩm
Tham chiếu pháp lý
Trích dẫn
Nhãn bảng
Đơn vị
Phương trình
Chú thích ảnh
Chú thích chân trang

Với tệp nghiên cứu và học thuật, hãy đọc thêm hướng dẫn dịch bài báo nghiên cứu học thuật, vì PDF học thuật được quét vừa có rủi ro về trích dẫn và bố cục, vừa có rủi ro OCR.

Ví Dụ Lỗi Thường Gặp Khi Đối Chiếu Song Song

Hãy dùng bảng này khi rà soát đầu ra OCR.

Bản quét gốc có thể hiển thị	Đầu ra OCR lỗi	Vì sao điều đó quan trọng
`modern`	`modem`	Nghĩa thay đổi hoàn toàn.
`Section 10`	`Section IO`	Tham chiếu pháp lý hoặc kỹ thuật có thể bị hỏng.
`2026`	`2O26`	Ngày tháng và ID trở nên không đáng tin cậy.
`patient`	`patlent`	Thuật ngữ y khoa hoặc kỹ thuật bị sai.
Hai cột tách biệt	Một đoạn văn bị gộp	Bản dịch đọc câu theo sai thứ tự.
Một hàng bảng có nhãn và giá trị	Một dòng văn bản bị trộn	Dữ liệu აღარ còn gắn đúng với nhãn tương ứng.
Dấu chú thích chân trang `1`	Chữ cái `l`	Ghi chú có thể gắn vào sai câu.

Nếu bạn thấy những lỗi này trong lớp OCR, hãy sửa OCR trước khi dịch.

Nên Dùng Công Cụ Nào?

Hãy chọn theo độ khó của tài liệu.

Tài liệu	Quy trình khuyến nghị
Bản quét kinh doanh sạch	OCR trong Acrobat hoặc công cụ OCR đáng tin cậy khác, rồi dùng Trình dịch PDF.
Bản quét sách cũ	Căn thẳng, tăng tương phản, OCR cẩn thận rồi mới dịch.
Bản quét bài báo học thuật	OCR, rà soát phương trình/trích dẫn/bảng, rồi dịch kèm kiểm tra bố cục.
Ghi chú viết tay	Có thể cần chép lại thủ công trước khi dịch.
Tài liệu cá nhân đơn giản	OCR trực tuyến có thể chấp nhận được nếu rủi ro quyền riêng tư thấp.
Tài liệu nhạy cảm	Dùng OCR cục bộ hoặc quy trình kiểm soát đáng tin cậy.

Nếu bạn muốn xem so sánh công cụ rộng hơn, hãy đọc hướng dẫn về các công cụ dịch PDF tốt nhất.

Các Vấn Đề Thường Gặp Với PDF Được Quét

Trang Có Độ Phân Giải Thấp

Bản quét độ phân giải thấp làm các chữ bị nhòe dính vào nhau. OCR có thể nhầm rn với m, cl với d, hoặc nhầm dấu câu với bụi bẩn.

Cách khắc phục: quét lại nếu có thể. Nếu không, hãy tăng tương phản và thử OCR lại.

Trang Bị Lệch Hoặc Cong

Bản quét sách thường cong gần gáy. OCR đọc các dòng cong rất kém và có thể đảo thứ tự văn bản.

Cách khắc phục: làm phẳng trang, quét lại hoặc dùng công cụ OCR có tính năng deskew và dewarping.

Bố Cục Nhiều Cột

OCR có thể gộp cột trái và cột phải thành một luồng câu duy nhất.

Cách khắc phục: kiểm tra thứ tự đọc trước khi dịch. Bài báo học thuật cần được chú ý đặc biệt ở đây.

Bảng Biểu

Bảng rất khó vì OCR phải nhận ra cả văn bản lẫn cấu trúc. Một bảng có thể trông đúng về mặt thị giác trong khi lớp văn bản lại sai.

Cách khắc phục: sao chép văn bản OCR từ bảng và xác nhận nhãn vẫn khớp với giá trị.

Chữ Viết Tay Và Chữ Ký

OCR cho văn bản in đáng tin cậy hơn nhiều so với nhận dạng chữ viết tay. Ghi chú viết tay ở lề, chữ ký và biểu mẫu đã điền có thể bị bỏ sót hoặc biến dạng.

Cách khắc phục: chép lại thủ công phần chữ viết tay quan trọng trước khi dịch.

Nhiều Ngôn Ngữ Trộn Lẫn

OCR hoạt động tốt nhất khi nó biết ngôn ngữ nguồn. Một bản quét có tiếng Anh, tiếng Pháp và tiếng Trung có thể thất bại nếu OCR chỉ được đặt cho một ngôn ngữ.

Cách khắc phục: chọn tất cả các ngôn ngữ OCR liên quan nếu công cụ hỗ trợ, sau đó kiểm tra nhanh từng phần theo ngôn ngữ.

Checklist Về Quyền Riêng Tư Và Bảo Mật

Trước khi tải một PDF được quét lên bất kỳ đâu, hãy tự hỏi:

Tài liệu có chứa dữ liệu cá nhân không?
Nó có bao gồm tài liệu y tế, pháp lý, tài chính, học thuật hoặc chưa xuất bản không?
Nó có bị ràng buộc bởi thỏa thuận với khách hàng hoặc chính sách của trường không?
Dịch vụ OCR trực tuyến có được phép dùng cho tài liệu này không?
Bạn có cần quy trình cục bộ thay thế không?
Bạn có thể xóa những trang không cần dịch không?

PDF được quét thường nhạy cảm vì chúng đến từ hợp đồng, giấy tờ tùy thân, biểu mẫu, bản thảo nghiên cứu và kho lưu trữ nội bộ. Hãy đưa ra quyết định tải lên OCR với mức độ thận trọng giống như khi xử lý tài liệu gốc.

FAQ

Làm thế nào để dịch một PDF được quét?

Hãy chạy OCR trước để tạo lớp văn bản, rà soát đầu ra OCR, rồi dịch PDF đã qua OCR bằng Trình dịch PDF. Đừng bỏ qua bước rà soát OCR.

Vì sao Google Translate không dịch PDF được quét của tôi?

PDF đó có thể chỉ có hình ảnh. Nếu không có lớp văn bản, Google Translate sẽ không có văn bản nào để trích xuất. Hãy dùng OCR trước rồi mới dịch. Quy trình dành riêng cho Google được trình bày trong hướng dẫn Google Translate cho PDF.

ChatGPT có thể dịch một PDF được quét không?

ChatGPT có thể hỗ trợ với từng hình ảnh riêng lẻ hoặc văn bản đã trích xuất, nhưng PDF được quét nhiều trang vẫn cần OCR và rà soát. Với quy trình tài liệu hoàn chỉnh, hãy OCR trước rồi dùng quy trình dịch PDF.

Công cụ OCR nào tốt nhất cho PDF được quét?

Điều đó phụ thuộc vào tài liệu. Các công cụ kiểu Acrobat và ABBYY hữu ích cho bản quét thông thường và bản quét phức tạp. Tesseract hoặc OCRmyPDF hữu ích cho quy trình kỹ thuật cục bộ. OCR trực tuyến có thể ổn với tệp đơn giản, ít rủi ro, nhưng quyền riêng tư và chất lượng rất khác nhau.

OCR có thể giữ nguyên định dạng không?

OCR có thể tạo lớp văn bản và đôi khi khôi phục được thứ tự đọc, nhưng điều đó không giống với việc giữ nguyên bố cục đã dịch của bản gốc. Sau OCR, hãy dùng quy trình dịch PDF và rà soát đầu ra đối chiếu với bản gốc.

Nếu chất lượng OCR kém thì sao?

Hãy cải thiện bản quét trước khi dịch. Quét lại nếu có thể, căn thẳng trang, tăng tương phản, cắt bỏ phần lộn xộn, chọn đúng ngôn ngữ OCR và rà soát lại những trang khó.