스캔된 PDF를 번역하는 방법: OCR + 번역 완벽 가이드
스캔된 PDF에는 실제 텍스트가 아니라 텍스트 이미지가 들어 있습니다. 그래서 Google Translate가 파일을 그대로 돌려주는 것입니다. 이를 해결하는 OCR + AI 파이프라인을 소개합니다.
빠른 답변: 스캔된 PDF는 번역 전에 OCR이 필요합니다
스캔된 PDF를 번역하려면 먼저 OCR을 실행해 페이지 이미지를 선택 가능한 텍스트로 바꾸세요. 그런 다음 PDF 번역기 같은 문서 번역기로 OCR 처리된 PDF를 번역하세요. OCR을 건너뛰면 많은 번역 도구가 원본 파일을 그대로 반환하거나, 일부 페이지를 놓치거나, 이미 텍스트 레이어가 있는 부분만 번역할 수 있습니다.
다음 워크플로를 사용하세요:
- PDF를 열고 문장을 하나 선택해 봅니다.
- 텍스트를 선택할 수 없으면 OCR을 실행합니다.
- 번역 전에 OCR 텍스트를 검토합니다.
- OCR 처리된 PDF를 PDF 번역기에 업로드합니다.
- 번역된 결과물을 원본 스캔본과 대조해 검토합니다.
PDF에 이미 선택 가능한 텍스트가 있고 문제가 레이아웃 보존이라면, 서식을 유지한 채 PDF를 번역하는 방법 가이드를 참고하세요.
스캔된 PDF가 번역 도구에서 실패하는 이유
스캔된 PDF는 대개 PDF 컨테이너 안에 페이지 이미지 묶음만 들어 있는 파일입니다. 사람 눈에는 글자가 보여도, 소프트웨어가 추출할 실제 텍스트는 파일 안에 없을 수 있습니다.
이 때문에 다음과 같은 단순한 문제가 생깁니다:
| 파일 유형 | 번역기가 인식하는 것 | 결과 |
|---|---|---|
| 텍스트 기반 PDF | 텍스트와 레이아웃 데이터 | 바로 번역을 시작할 수 있습니다. |
| 이미지 전용 스캔 PDF | 페이지 이미지 | 먼저 OCR이 필요합니다. |
| 이미지 위 텍스트 레이어 PDF | 스캔 이미지 + 숨겨진 OCR 텍스트 레이어 | 번역은 가능하지만 OCR 오류가 품질에 영향을 줍니다. |
가장 유용한 테스트는 기술적인 것이 아닙니다:
- PDF를 엽니다.
- 개별 단어를 하이라이트해 봅니다.
- 문장을 하나 복사합니다.
- 텍스트 편집기에 붙여넣습니다.
문장이 정상적으로 붙여넣어지면 PDF에 텍스트 레이어가 있는 것입니다. 아무것도 붙여넣어지지 않거나 페이지 전체가 하나의 이미지처럼 동작하면 그 PDF에는 OCR이 필요합니다.
OCR은 선택 사항이 아닙니다
OCR은 광학 문자 인식(Optical Character Recognition)을 뜻합니다. 이미지를 읽어 기계가 해석할 수 있는 텍스트를 만듭니다. PDF 번역에서는 보통 스캔된 페이지 위에 보이지 않는 텍스트 레이어를 생성합니다.
그 텍스트 레이어가 번역의 원문이 됩니다. OCR이 실수하면 번역도 그 실수를 그대로 이어받습니다.
흔한 OCR 오류:
| OCR 오류 | 번역 위험 |
|---|---|
rn을 m으로 읽음 | 단어 의미가 달라집니다. |
1을 l로 읽음 | 숫자, 참조, 코드가 잘못될 수 있습니다. |
O를 0으로 읽음 | ID, 수식, 이름이 깨질 수 있습니다. |
| 악센트 기호가 누락됨 | 이름과 용어가 부정확해집니다. |
| 열이 합쳐짐 | 문장이 잘못된 순서로 번역됩니다. |
| 표 셀을 행 단위로 잘못 읽음 | 데이터 라벨과 값이 더 이상 맞지 않습니다. |
| 각주를 본문으로 처리함 | 인용과 주석이 잘못된 문맥으로 이동합니다. |
그래서 OCR 검토 단계가 중요합니다. 추출된 텍스트를 샘플로 확인하기 전에는 스캔 문서를 번역하지 마세요.
OCR 우선 워크플로
1단계: PDF 유형 파악
텍스트를 선택해 보세요. 선택이 되면 OCR이 필요 없을 수도 있습니다. 선택이 되지 않으면 그 파일을 이미지 전용으로 간주하세요.
페이지를 눈으로도 확인해 보세요:
- 페이지가 기울어져 있으면 스캔본일 가능성이 높습니다.
- 회색 종이 질감이 보이면 스캔본일 가능성이 높습니다.
- 책등 근처에 그림자가 있으면 책을 촬영한 이미지일 수 있습니다.
- 대비가 고르지 않으면 복사본일 수 있습니다.
- 보이는 단어가 검색되지 않으면 텍스트 레이어가 없다는 뜻일 수 있습니다.
2단계: 가능하면 스캔 품질 개선
OCR 품질은 이미지 품질에서 시작됩니다. 다시 스캔할 수 있다면 OCR 오류를 고치는 데 시간을 쓰기 전에 먼저 그렇게 하세요.
다음 이미지 품질 체크리스트를 활용하세요:
- 작은 글자도 읽힐 만큼 충분히 높은 해상도로 스캔하세요.
- 페이지는 평평하고 반듯하게 유지하세요.
- 책등 근처의 그림자를 피하세요.
- 표 가장자리, 손가락, 배경 잡물은 잘라내세요.
- 글자와 종이 사이의 대비를 충분히 확보하세요.
- 문장 전체가 보이도록 하세요.
- 페이지 방향을 올바르게 맞추세요.
- 글자가 흐려질 정도로 이미지를 과도하게 압축하지 마세요.
오래된 책과 복사본에서는 보통 기울기 보정, 대비 보정, 초점이 맞지 않는 페이지 재스캔이 가장 큰 효과를 냅니다.
3단계: OCR 실행
브랜드가 아니라 문서 특성에 맞춰 OCR 도구를 고르세요.
| OCR 옵션 | 가장 적합한 용도 | 주의할 점 |
|---|---|---|
| Adobe Acrobat OCR | 일반적인 비즈니스 스캔과 PDF 정리 | 의존하기 전에 현재 요금제에서 사용 가능한지 확인하세요. |
| ABBYY FineReader | 복잡한 스캔, 표, 다단 문서, 까다로운 레이아웃 | 여전히 수동 검토가 필요합니다. |
| Tesseract or OCRmyPDF | 로컬에서 수행하는 기술적이고 반복 가능한 OCR 워크플로 | 명령줄 도구에 익숙해야 합니다. |
| 온라인 OCR 도구 | 위험도가 낮은 가끔 쓰는 파일 | 개인정보 보호, 파일 제한, 품질이 제각각입니다. |
| 휴대폰 스캔 앱 | 새 스캔을 빠르게 캡처할 때 | 원근 왜곡이 OCR 품질을 떨어뜨릴 수 있습니다. |
비공개 계약서, 의료 기록, 금융 문서, 미출간 원고, 심사 중인 학술 자료라면 로컬 OCR 워크플로나 신뢰할 수 있는 환경을 우선하세요. 민감한 스캔본을 아무 무료 OCR 사이트에 올리지 마세요.
4단계: OCR 텍스트 검토
검토는 번역 후가 아니라 번역 전에 해야 합니다. 까다로운 페이지 몇 장에서 텍스트를 복사해 읽을 수 있는지 확인하세요.
확인할 샘플 페이지:
- 제목 페이지
- 본문이 빽빽한 페이지
- 표가 있는 페이지
- 각주가 있는 페이지
- 글자가 작은 페이지
- 도장, 손글씨, 여백 메모가 있는 페이지
- 문서가 다국어라면 각 언어가 포함된 페이지
다음을 확인하세요:
- 문단 누락
- 열이 합쳐짐
- 단어가 끊어짐
- 잘못 인식된 문자
- 발음 구별 기호 누락
- 표 라벨과 값이 분리됨
- 머리말이 본문에 끼어듦
- 페이지 번호가 문장에 섞임
OCR 품질이 낮다면 번역 전에 먼저 바로잡으세요. OCR이 애초에 잡아내지 못한 의미를 번역기가 안정적으로 복원할 수는 없습니다.
5단계: OCR 처리된 PDF 번역
PDF에 깔끔한 텍스트 레이어가 생기면 PDF 번역기에 업로드하세요. 이제 번역 단계는 페이지 이미지가 아니라 텍스트를 대상으로 작업할 수 있습니다.
번역 후에는 다음 세 가지를 비교하세요:
- 원본 스캔본
- OCR 텍스트 레이어
- 번역된 PDF
이 3자 비교를 하면 오류가 OCR에서 왔는지 번역에서 왔는지 구분하는 데 도움이 됩니다. OCR 텍스트가 잘못됐다면 OCR을 다시 실행하세요. OCR 텍스트는 맞는데 번역이 틀렸다면 번역을 수정하세요.
6단계: 위험도가 높은 콘텐츠 검토
스캔 문서에는 세심한 검토가 꼭 필요한 콘텐츠가 자주 들어 있습니다. 오래된 계약서, 정부 서식, 학술 논문, 매뉴얼, 역사 문서, 책 페이지가 그렇습니다.
다음 항목은 직접 검토하세요:
- 이름
- 날짜
- 숫자
- 주소
- 제품 코드
- 법적 참조
- 인용
- 표 라벨
- 단위
- 수식
- 캡션
- 각주
연구 자료나 학술 문서라면 학술 연구 논문 번역 가이드도 함께 읽어보세요. 스캔된 학술 PDF는 OCR 위험에 더해 인용과 레이아웃 관련 위험까지 있기 때문입니다.
나란히 보는 실패 사례
OCR 결과를 검토할 때 아래 표를 참고하세요.
| 원본 스캔에서 보였을 가능성이 큰 것 | 잘못된 OCR 출력 | 왜 중요한가 |
|---|---|---|
modern | modem | 의미가 완전히 달라집니다. |
Section 10 | Section IO | 법적 또는 기술적 참조가 깨질 수 있습니다. |
2026 | 2O26 | 날짜와 ID를 신뢰할 수 없게 됩니다. |
patient | patlent | 의료 또는 기술 용어가 잘못됩니다. |
| 서로 분리된 두 개의 단 | 하나로 합쳐진 문단 | 번역이 문장을 잘못된 순서로 읽습니다. |
| 라벨과 값이 있는 표 행 | 뒤섞인 텍스트 한 줄 | 데이터가 더 이상 올바른 라벨에 대응하지 않습니다. |
각주 표시 1 | 문자 l | 주석이 잘못된 문장에 붙을 수 있습니다. |
OCR 레이어에서 이런 오류가 보이면 번역 전에 OCR부터 바로잡으세요.
어떤 도구를 써야 할까요?
문서 난이도에 따라 선택하세요.
| 문서 | 추천 경로 |
|---|---|
| 깨끗한 비즈니스 문서 스캔 | Acrobat 또는 다른 신뢰할 수 있는 OCR 도구로 OCR을 수행한 뒤 PDF 번역기로 번역합니다. |
| 오래된 책 스캔본 | 기울기를 보정하고 대비를 높인 뒤, 신중하게 OCR을 수행하고 번역하세요. |
| 학술 논문 스캔본 | OCR을 수행하고 수식, 인용, 표를 검토한 뒤 레이아웃을 확인하면서 번역하세요. |
| 손글씨 메모 | 번역 전에 수동 전사가 필요할 수 있습니다. |
| 단순한 개인 문서 | 개인정보 위험이 낮다면 온라인 OCR도 괜찮을 수 있습니다. |
| 민감한 문서 | 로컬 OCR 또는 신뢰할 수 있는 통제된 워크플로를 사용하세요. |
더 폭넓은 도구 비교가 필요하다면 최고의 PDF 번역기 가이드를 참고하세요.
스캔된 PDF에서 흔한 문제
저해상도 페이지
저해상도 스캔은 글자를 서로 뭉개 보이게 만듭니다. OCR은 rn과 m, cl과 d, 구두점과 먼지를 혼동할 수 있습니다.
해결: 가능하면 다시 스캔하세요. 어렵다면 대비를 높인 뒤 OCR을 다시 시도하세요.
기울거나 휘어진 페이지
책 스캔본은 책등 근처가 자주 휘어 있습니다. OCR은 휘어진 줄을 잘 읽지 못하고 텍스트 순서를 바꿔 버릴 수 있습니다.
해결: 페이지를 평평하게 만든 뒤 다시 스캔하거나, 기울기 보정과 왜곡 보정을 지원하는 OCR 도구를 사용하세요.
다단 레이아웃
OCR은 왼쪽과 오른쪽 단을 하나의 문장 흐름으로 합쳐 버릴 수 있습니다.
해결: 번역 전에 읽기 순서를 점검하세요. 학술 논문은 특히 주의가 필요합니다.
표
표는 OCR이 텍스트와 구조를 모두 인식해야 해서 어렵습니다. 겉보기에는 멀쩡해 보여도 텍스트 레이어가 틀릴 수 있습니다.
해결: 표에서 OCR 텍스트를 복사해 라벨과 값이 여전히 제대로 대응하는지 확인하세요.
손글씨와 서명
인쇄된 텍스트 OCR은 손글씨 인식보다 훨씬 신뢰할 수 있습니다. 손글씨 여백 메모, 서명, 작성된 양식은 누락되거나 심하게 깨질 수 있습니다.
해결: 중요한 손글씨는 번역 전에 직접 옮겨 적으세요.
여러 언어가 섞인 경우
OCR은 원문 언어를 알고 있을 때 가장 잘 작동합니다. 영어, 프랑스어, 중국어가 섞인 스캔본은 OCR이 한 언어로만 설정되어 있으면 실패할 수 있습니다.
해결: 도구가 지원한다면 관련 OCR 언어를 모두 선택하고, 각 언어 구간을 샘플로 다시 확인하세요.
개인정보 보호 및 보안 체크리스트
스캔된 PDF를 어디에든 업로드하기 전에 다음을 확인하세요:
- 문서에 개인정보가 들어 있나요?
- 의료, 법률, 금융, 학술, 미출간 자료가 포함되어 있나요?
- 고객 계약이나 학교 정책의 적용을 받나요?
- 이 문서에 온라인 OCR 서비스를 사용해도 되나요?
- 대신 로컬 워크플로가 필요한가요?
- 번역이 필요 없는 페이지를 제거할 수 있나요?
스캔된 PDF는 계약서, 신분증, 양식, 연구 초안, 내부 보관 자료에서 오는 경우가 많아 민감한 문서일 때가 많습니다. OCR 업로드 여부를 결정할 때도 원본 문서를 다룰 때와 같은 기준을 적용하세요.
FAQ
스캔된 PDF는 어떻게 번역하나요?
먼저 OCR을 실행해 텍스트 레이어를 만들고 OCR 결과를 검토한 다음, PDF 번역기로 OCR 처리된 PDF를 번역하세요. OCR 검토 단계는 건너뛰지 마세요.
Google Translate가 스캔된 PDF를 번역하지 않은 이유는 무엇인가요?
PDF가 이미지 전용일 수 있습니다. 텍스트 레이어가 없으면 Google Translate는 추출할 텍스트가 없습니다. 먼저 OCR을 실행한 뒤 번역하세요. Google 전용 워크플로는 Google Translate PDF 가이드에서 다룹니다.
ChatGPT가 스캔된 PDF를 번역할 수 있나요?
ChatGPT는 개별 이미지나 추출된 텍스트를 다루는 데는 도움이 될 수 있지만, 여러 페이지로 된 스캔 PDF는 여전히 OCR과 검토가 필요합니다. 전체 문서 워크플로에서는 먼저 OCR을 수행한 다음 PDF 번역 워크플로를 사용하세요.
스캔된 PDF에 가장 좋은 OCR 도구는 무엇인가요?
문서에 따라 다릅니다. Acrobat과 ABBYY 계열 도구는 일반적인 스캔과 복잡한 스캔에 유용합니다. Tesseract나 OCRmyPDF는 로컬 기술 워크플로에 적합합니다. 위험도가 낮은 단순 파일이라면 온라인 OCR도 괜찮을 수 있지만, 개인정보 보호와 품질은 제각각입니다.
OCR이 서식을 보존할 수 있나요?
OCR은 텍스트 레이어를 만들고 때로는 읽기 순서를 복구할 수 있지만, 원본의 번역된 레이아웃을 그대로 보존하는 것과는 다릅니다. OCR 후에는 PDF 번역 워크플로를 사용하고 결과를 원본과 대조해 검토하세요.
OCR 품질이 나쁘면 어떻게 하나요?
번역 전에 스캔 품질부터 개선하세요. 가능하면 다시 스캔하고, 페이지 기울기를 보정하고, 대비를 높이고, 불필요한 배경을 잘라내고, 올바른 OCR 언어를 선택한 뒤, 어려운 페이지를 다시 검토하세요.