BookTranslator
BookTranslator

Как перевести сканированный PDF: полное руководство по OCR и переводу

Сканированные PDF содержат изображения текста, а не настоящий текст — поэтому Google Translate возвращает их без изменений. Вот OCR + ИИ-пайплайн, который это исправляет.

BookTranslator

BookTranslator Team

Руководства по переводу10 min read

Короткий ответ: сканированный PDF нужно распознать через OCR перед переводом

Чтобы перевести сканированный PDF, сначала запустите OCR, чтобы превратить изображения страниц в выделяемый текст. Затем переведите PDF, обработанный через OCR, с помощью переводчика документов, например Переводчик PDF. Если пропустить OCR, многие инструменты перевода вернут исходный файл без изменений, пропустят страницы или переведут только те части, где уже есть текстовый слой.

Используйте такой процесс:

  1. Откройте PDF и попробуйте выделить одно предложение.
  2. Если текст не выделяется, запустите OCR.
  3. Проверьте текст после OCR перед переводом.
  4. Загрузите PDF, обработанный через OCR, в Переводчик PDF.
  5. Сверьте переведенный результат с исходным сканом.

Если в вашем PDF уже есть выделяемый текст, а проблема в сохранении верстки, воспользуйтесь руководством о том, как перевести PDF без потери форматирования.

Почему сканированные PDF не работают в инструментах перевода

Сканированный PDF часто представляет собой просто набор изображений страниц внутри PDF-контейнера. Человек видит на странице слова, но файл может не содержать настоящего текста, который программа могла бы извлечь.

Из-за этого возникает простая проблема:

Тип файлаЧто видит переводчикЧто происходит
PDF с текстомТекст и данные о версткеПеревод можно начать сразу.
Сканированный PDF-изображениеИзображения страницСначала требуется OCR.
PDF с текстом поверх изображенияИзображение скана + скрытый текстовый слой OCRПеревод возможен, но ошибки OCR снижают качество.

Самая полезная проверка здесь не техническая:

  1. Откройте PDF.
  2. Попробуйте выделить отдельные слова.
  3. Скопируйте одно предложение.
  4. Вставьте его в текстовый редактор.

Если предложение вставляется корректно, у PDF есть текстовый слой. Если не вставляется ничего или вся страница ведет себя как одно изображение, PDF нужен OCR.

Без OCR не обойтись

OCR означает оптическое распознавание текста. Он считывает текст с изображения и создает машиночитаемый текст. При переводе PDF OCR обычно создает невидимый текстовый слой поверх отсканированной страницы.

Именно этот текстовый слой становится источником для перевода. Если OCR ошибается, перевод унаследует эти ошибки.

Распространенные ошибки OCR:

Ошибка OCRРиск для перевода
rn распознано как mСлова меняют смысл.
1 распознано как lЧисла, ссылки или коды становятся неверными.
O распознано как 0Идентификаторы, формулы и имена могут сломаться.
Потеряны диакритические знакиИмена и термины становятся неточными.
Колонки слитыПредложения переводятся в неправильном порядке.
Ячейки таблицы прочитаны построчно неправильноПодписи данных больше не совпадают со значениями.
Сноски приняты за основной текстЦитаты и примечания попадают не в тот контекст.

Вот почему этап проверки OCR так важен. Не переводите сканированный документ, пока не сделали точечную проверку извлеченного текста.

Процесс: сначала OCR

Шаг 1: Определите тип PDF

Попробуйте выделить текст. Если выделение работает, OCR может не понадобиться. Если выделить текст нельзя, считайте файл изображением без текстового слоя.

Также осмотрите страницу визуально:

  • Перекошенные страницы указывают на скан.
  • Серый бумажный фон указывает на скан.
  • Тени возле корешка указывают на сфотографированную книгу.
  • Неравномерный контраст указывает на ксерокопию.
  • Если поиск не находит видимые слова, текстового слоя, скорее всего, нет.

Шаг 2: По возможности улучшите скан

Качество OCR начинается с качества изображения. Если вы можете пересканировать документ, сделайте это до того, как тратить время на исправление ошибок OCR.

Используйте такой чек-лист качества изображения:

  • Сканируйте с достаточным разрешением для мелкого текста.
  • Держите страницы ровными и без перекоса.
  • Избегайте теней возле корешка.
  • Обрезайте края стола, пальцы и лишний фон.
  • Добивайтесь сильного контраста между текстом и страницей.
  • Следите, чтобы вся строка была видна целиком.
  • Используйте правильную ориентацию страницы.
  • Не сжимайте изображение настолько сильно, чтобы буквы размывались.

Для старых книг и ксерокопий наибольший эффект обычно дают выравнивание перекоса, коррекция контраста и пересканирование страниц, которые получились не в фокусе.

Шаг 3: Запустите OCR

Выбирайте OCR-инструмент по типу документа, а не по бренду.

Вариант OCRЛучше всего подходит дляНа что обратить внимание
Adobe Acrobat OCRОбычных деловых сканов и очистки PDFПроверьте доступность функции в вашем тарифе.
ABBYY FineReaderСложных сканов, таблиц, колонок и трудных макетовВсе равно нужна ручная проверка.
Tesseract or OCRmyPDFЛокальных, технических, воспроизводимых OCR-процессовТребует уверенного владения инструментами командной строки.
Онлайн OCR-сервисыРедких файлов с низким рискомКонфиденциальность, лимиты файлов и качество сильно различаются.
Мобильные приложения для сканированияБыстрого создания нового сканаИскажение перспективы может ухудшить OCR.

Для приватных договоров, медицинских карт, финансовых документов, неопубликованных рукописей или научных работ на рецензии лучше использовать локальный OCR-процесс или доверенную среду. Не загружайте чувствительные сканы на случайные бесплатные OCR-сайты.

Шаг 4: Проверьте текст после OCR

Проверяйте до перевода, а не после. Скопируйте текст с нескольких сложных страниц и посмотрите, читается ли он нормально.

Какие страницы стоит проверить:

  • Титульную страницу.
  • Страницу с плотным основным текстом.
  • Страницу с таблицей.
  • Страницу со сносками.
  • Страницу с мелким шрифтом.
  • Страницу с печатями, рукописными пометками или заметками на полях.
  • Страницу на каждом языке, если документ многоязычный.

Ищите:

  • Пропавшие абзацы.
  • Слитые колонки.
  • Разорванные слова.
  • Неправильные символы.
  • Потерянные диакритические знаки.
  • Подписи таблиц, отделенные от значений.
  • Заголовки, вставленные в основной текст.
  • Номера страниц, смешанные с предложениями.

Если качество OCR плохое, исправьте это до перевода. Переводчик не сможет надежно восстановить смысл, который OCR вообще не распознал.

Шаг 5: Переведите PDF после OCR

Как только у PDF появится чистый текстовый слой, загрузите его в Переводчик PDF. Теперь этап перевода сможет работать с текстом, а не с изображениями страниц.

После перевода сравните:

  • Исходный скан
  • Текстовый слой OCR
  • Переведенный PDF

Такая тройная проверка помогает понять, возникла ли ошибка на этапе OCR или на этапе перевода. Если текст OCR неверный, запустите OCR заново. Если текст OCR правильный, а перевод неверный, исправляйте перевод.

Шаг 6: Проверьте содержимое с высоким риском

Сканированные документы часто содержат именно тот контент, который требует особенно внимательной проверки: старые договоры, государственные формы, научные статьи, инструкции, исторические документы и книжные страницы.

Проверьте вручную:

  • Имена
  • Даты
  • Числа
  • Адреса
  • Коды товаров
  • Юридические ссылки
  • Цитаты
  • Подписи таблиц
  • Единицы измерения
  • Уравнения
  • Подписи к изображениям
  • Сноски

Для исследовательских и академических файлов также прочитайте руководство по переводу научных статей, потому что сканированные академические PDF добавляют к рискам OCR еще и риски, связанные с цитированием и версткой.

Примеры типичных сбоев рядом друг с другом

Используйте эту таблицу при проверке результата OCR.

Что, вероятно, видно на исходном сканеПлохой результат OCRПочему это важно
modernmodemСмысл меняется полностью.
Section 10Section IOЮридические или технические ссылки могут сломаться.
20262O26Даты и идентификаторы становятся ненадежными.
patientpatlentМедицинские или технические термины искажаются.
Две отдельные колонкиОдин слитый абзацПеревод читает предложения в неправильном порядке.
Строка таблицы с подписями и значениямиОдна строка смешанного текстаДанные больше не соответствуют правильной подписи.
Маркер сноски 1Буква lПримечания могут привязаться не к тому предложению.

Если вы видите такие ошибки в слое OCR, исправьте OCR до перевода.

Какой инструмент выбрать?

Выбирайте по сложности документа.

ДокументРекомендуемый путь
Чистый деловой сканOCR в Acrobat или другом надежном OCR-инструменте, затем Переводчик PDF.
Скан старой книгиВыравнивание перекоса и контраста, внимательный OCR, затем перевод.
Скан научной статьиOCR, проверка уравнений/цитат/таблиц, затем перевод с проверкой верстки.
Рукописные заметкиПеред переводом может потребоваться ручная расшифровка.
Простой личный документОнлайн OCR может быть приемлем, если риск для конфиденциальности низкий.
Чувствительный документИспользуйте локальный OCR или доверенный контролируемый процесс.

Если вам нужно более широкое сравнение инструментов, посмотрите руководство по лучшим переводчикам PDF.

Частые проблемы со сканированными PDF

Страницы с низким разрешением

Сканы с низким разрешением размывают буквы и сливают их друг с другом. OCR может путать rn и m, cl и d, а также знаки препинания с пылью на странице.

Исправление: пересканируйте документ, если это возможно. Если нет, увеличьте контраст и попробуйте OCR снова.

Перекошенные или изогнутые страницы

Сканы книг часто изгибаются возле корешка. OCR плохо считывает изогнутые строки и может менять порядок текста.

Исправление: распрямите страницу, пересканируйте ее или используйте OCR-инструмент с выравниванием перекоса и исправлением деформаций.

Многоколоночная верстка

OCR может слить левую и правую колонки в один поток предложений.

Исправление: проверьте порядок чтения перед переводом. Научным статьям здесь нужно уделять особое внимание.

Таблицы

Таблицы сложны, потому что OCR должен распознавать и текст, и структуру. Таблица может выглядеть визуально правильно, но текстовый слой окажется неверным.

Исправление: скопируйте OCR-текст из таблицы и убедитесь, что подписи по-прежнему соответствуют значениям.

Рукописный текст и подписи

OCR печатного текста намного надежнее распознавания рукописного. Рукописные пометки на полях, подписи и заполненные формы могут быть пропущены или искажены.

Исправление: вручную расшифруйте важный рукописный текст до перевода.

Смешанные языки

OCR работает лучше всего, когда знает исходный язык. Скан с английским, французским и китайским может дать сбой, если OCR настроен только на один язык.

Исправление: выберите все нужные языки OCR, если инструмент это поддерживает, затем точечно проверьте каждый языковой раздел.

Чек-лист по конфиденциальности и безопасности

Перед тем как куда-либо загружать сканированный PDF, спросите себя:

  • Содержит ли документ персональные данные?
  • Есть ли в нем медицинские, юридические, финансовые, академические или неопубликованные материалы?
  • Подпадает ли он под клиентское соглашение или политику учебного заведения?
  • Разрешено ли использовать онлайн-сервис OCR для этого документа?
  • Нужен ли вместо этого локальный процесс?
  • Можно ли удалить страницы, которые не нужно переводить?

Сканированные PDF часто бывают чувствительными, потому что это договоры, удостоверения личности, формы, черновики исследований и внутренние архивы. Относитесь к решению о загрузке в OCR так же серьезно, как и к самому исходному документу.

Часто задаваемые вопросы

Как перевести сканированный PDF?

Сначала запустите OCR, чтобы создать текстовый слой, затем проверьте результат OCR и только после этого переведите PDF, обработанный через OCR, с помощью Переводчик PDF. Не пропускайте этап проверки OCR.

Почему Google Translate не перевел мой сканированный PDF?

PDF может состоять только из изображений. Если текстового слоя нет, Google Translate просто нечего извлекать. Сначала используйте OCR, а потом переводите. Отдельный процесс для Google описан в руководстве по переводу PDF через Google Translate.

Может ли ChatGPT перевести сканированный PDF?

ChatGPT может помочь с отдельными изображениями или извлеченным текстом, но многостраничный сканированный PDF все равно требует OCR и проверки. Для полного процесса работы с документом сначала нужен OCR, а затем полноценный процесс перевода PDF.

Какой OCR-инструмент лучше всего подходит для сканированных PDF?

Это зависит от документа. Acrobat и инструменты в стиле ABBYY полезны для обычных и сложных сканов. Tesseract или OCRmyPDF полезны для локальных технических процессов. Онлайн OCR может подойти для простых файлов с низким риском, но конфиденциальность и качество сильно различаются.

Может ли OCR сохранить форматирование?

OCR может создать текстовый слой и иногда восстановить порядок чтения, но это не то же самое, что сохранить исходную верстку при переводе. После OCR используйте процесс перевода PDF и сверяйте результат с оригиналом.

Что делать, если качество OCR плохое?

Улучшите скан перед переводом. Если возможно, пересканируйте документ, выровняйте перекос страниц, увеличьте контраст, обрежьте лишние элементы, выберите правильный язык OCR и снова проверьте сложные страницы.