BookTranslator
BookTranslator

Как да преведете сканиран PDF: пълното ръководство за OCR + превод

Сканираните PDF файлове съдържат изображения на текст, а не истински текст — затова Google Translate ги връща непроменени. Ето OCR + AI процеса, който решава проблема.

BookTranslator

BookTranslator Team

Ръководства за превод11 min read

Бърз отговор: Сканираният PDF се нуждае от OCR преди превод

За да преведете сканиран PDF, първо пуснете OCR, за да превърнете изображенията на страниците в избираем текст. След това преведете PDF файла, обработен с OCR, с преводач на документи като Преводач на PDF. Ако пропуснете OCR, много инструменти за превод ще върнат оригиналния файл без промени, ще пропуснат страници или ще преведат само частите, които вече съдържат текстов слой.

Използвайте този процес:

  1. Отворете PDF файла и опитайте да маркирате едно изречение.
  2. Ако не можете да маркирате текст, пуснете OCR.
  3. Прегледайте OCR текста, преди да превеждате.
  4. Качете PDF файла, обработен с OCR, в Преводач на PDF.
  5. Сравнете преведения резултат с оригиналното сканиране.

Ако вашият PDF вече има избираем текст и проблемът е запазването на оформлението, използвайте ръководството за превод на PDF без загуба на форматирането.

Защо сканираните PDF файлове създават проблеми на инструментите за превод

Сканираният PDF често е просто набор от изображения на страници в PDF контейнер. За човек страницата може да показва думи, но файлът може да не съдържа истински текст, който софтуерът да извлече.

Това създава прост проблем:

Тип файлКакво вижда преводачътКакво се случва
PDF с текстТекст плюс данни за оформлениетоПреводът може да започне веднага.
Сканиран PDF само с изображенияСнимки на странициПърво е нужен OCR.
PDF с текст върху изображениеИзображение на скана плюс скрит OCR текстов слойПреводът може да проработи, но OCR грешките влияят на качеството.

Най-полезният тест не е технически:

  1. Отворете PDF файла.
  2. Опитайте да маркирате отделни думи.
  3. Копирайте едно изречение.
  4. Поставете го в текстов редактор.

Ако изречението се постави правилно, PDF файлът има текстов слой. Ако нищо не се поставя или цялата страница се държи като едно изображение, PDF файлът се нуждае от OCR.

OCR не е по избор

OCR означава оптично разпознаване на символи. То разчита текст от изображение и създава машинно четим текст. При превод на PDF OCR обикновено създава невидим текстов слой върху сканираната страница.

Този текстов слой става източникът за превода. Ако OCR допусне грешки, преводът наследява тези грешки.

Чести OCR грешки:

OCR грешкаРиск за превода
rn е разчетено като mДумите променят значението си.
1 е разчетено като lЧисла, препратки или кодове стават грешни.
O е разчетено като 0Идентификатори, формули и имена могат да се счупят.
Диакритичните знаци липсватИмена и термини стават неточни.
Колоните са слетиИзреченията се превеждат в грешен ред.
Клетките на таблица са прочетени неправилно ред по редЕтикетите на данните вече не съответстват на стойностите.
Бележките под линия са обработени като основен текстЦитатите и бележките попадат в грешен контекст.

Затова стъпката за преглед на OCR е важна. Не превеждайте сканиран документ, преди да сте направили извадкова проверка на извлечения текст.

Процесът с OCR на първо място

Стъпка 1: Определете типа на PDF файла

Опитайте да маркирате текст. Ако маркирането работи, може да не ви трябва OCR. Ако не работи, приемете файла за такъв само с изображения.

Погледнете и самата страница:

  • Наклонените страници подсказват сканиране.
  • Сивата текстура на хартията подсказва сканиране.
  • Сенките близо до подвързията подсказват снимана книга.
  • Неравномерният контраст подсказва фотокопие.
  • Ако търсенето не намира видими думи, вероятно няма текстов слой.

Стъпка 2: Подобрете сканирането, ако е възможно

Качеството на OCR започва с качеството на изображението. Ако можете да сканирате отново, направете го, преди да губите време в поправяне на OCR грешки.

Използвайте този контролен списък за качество на изображението:

  • Сканирайте с достатъчно висока резолюция за дребен текст.
  • Дръжте страниците равни и прави.
  • Избягвайте сенки близо до подвързията.
  • Изрежете краищата на масата, пръстите или фоновия шум.
  • Осигурете силен контраст между текста и страницата.
  • Уверете се, че целият ред е видим.
  • Използвайте правилната ориентация на страницата.
  • Не компресирайте изображението толкова силно, че буквите да се размажат.

При стари книги и фотокопия най-голям ефект обикновено дават изправянето на страниците, корекцията на контраста и повторното сканиране на страниците, които не са на фокус.

Стъпка 3: Пуснете OCR

Избирайте OCR инструмент според документа, а не според марката.

OCR вариантНай-подходящ заВнимавайте за
Adobe Acrobat OCRОбщи бизнес сканове и почистване на PDFПроверете какво включва текущият ви план, преди да разчитате на него.
ABBYY FineReaderСложни сканове, таблици, колони и трудни оформленияВсе пак изисква ръчна проверка.
Tesseract or OCRmyPDFЛокални, технически, повторяеми OCR процесиИзисква увереност при работа с инструменти от командния ред.
Онлайн OCR инструментиЕдинични файлове с нисък рискПоверителността, лимитите на файловете и качеството варират.
Приложения за сканиране с телефонБързо заснемане на ново сканиранеИзкривяването на перспективата може да влоши OCR.

За частни договори, медицински досиета, финансови документи, непубликувани ръкописи или академична работа в процес на рецензиране предпочитайте локален OCR процес или доверена среда. Не качвайте чувствителни сканове в случайни безплатни OCR сайтове.

Стъпка 4: Прегледайте OCR текста

Преглеждайте преди превода, не след него. Копирайте текст от няколко трудни страници и проверете дали е четим.

Примерни страници за проверка:

  • Заглавната страница.
  • Плътна страница с основен текст.
  • Страница с таблица.
  • Страница с бележки под линия.
  • Страница с дребен текст.
  • Страница с печати, ръкопис или бележки в полетата.
  • Страница на всеки език, ако документът е многоезичен.

Търсете:

  • Липсващи абзаци.
  • Слети колони.
  • Разкъсани думи.
  • Грешни символи.
  • Изпусната диакритика.
  • Етикети на таблици, отделени от стойностите.
  • Заглавки, вмъкнати в основния текст.
  • Номера на страници, смесени с изречения.

Ако качеството на OCR е лошо, поправете го преди превода. Преводачът не може надеждно да възстанови смисъл, който OCR изобщо не е уловил.

Стъпка 5: Преведете PDF файла, обработен с OCR

След като PDF файлът има чист текстов слой, качете го в Преводач на PDF. Сега стъпката по превода може да работи с текст, а не с изображения на страници.

След превода сравнете:

  • Оригиналното сканиране
  • OCR текстовия слой
  • Преведения PDF

Тази тройна проверка ви помага да определите дали грешката идва от OCR или от превода. Ако OCR текстът е грешен, пуснете OCR отново. Ако OCR текстът е правилен, но преводът е грешен, поправете превода.

Стъпка 6: Прегледайте съдържанието с висок риск

Сканираните документи често съдържат точно онова, което изисква внимателна проверка: стари договори, държавни формуляри, академични статии, ръководства, исторически документи и страници от книги.

Проверете ръчно тези елементи:

  • Имена
  • Дати
  • Числа
  • Адреси
  • Продуктови кодове
  • Правни препратки
  • Цитати
  • Етикети на таблици
  • Мерни единици
  • Уравнения
  • Надписи
  • Бележки под линия

За изследователски и академични файлове прочетете и ръководството за превод на академични научни статии, защото сканираните академични PDF файлове добавят рискове от цитиране и оформление върху риска от OCR.

Примери за типични грешки при сравнение

Използвайте тази таблица, докато преглеждате OCR изхода.

Оригиналното сканиране вероятно показваЛош OCR изходЗащо е важно
modernmodemЗначението се променя напълно.
Section 10Section IOПравни или технически препратки могат да се счупят.
20262O26Датите и идентификаторите стават ненадеждни.
patientpatlentМедицински или технически термини стават грешни.
Две отделни колониЕдин слят абзацПреводът чете изреченията в грешен ред.
Ред в таблица с етикети и стойностиЕдин ред смесен текстДанните вече не съответстват на правилния етикет.
Маркер за бележка под линия 1Буквата lБележките може да се прикрепят към грешното изречение.

Ако видите тези грешки в OCR слоя, поправете OCR, преди да превеждате.

Кой инструмент трябва да използвате?

Избирайте според трудността на документа.

ДокументПрепоръчителен подход
Чист бизнес сканOCR в Acrobat или друг надежден OCR инструмент, след това Преводач на PDF.
Скан на стара книгаИзправете страниците и подобрете контраста, направете внимателен OCR, след това преведете.
Скан на академична статияOCR, преглед на уравнения/цитати/таблици, след това превод с проверка на оформлението.
Ръкописни бележкиМоже да се наложи ръчна транскрипция преди превод.
Обикновен личен документОнлайн OCR може да е приемлив, ако рискът за поверителността е нисък.
Чувствителен документИзползвайте локален OCR или доверен контролиран процес.

Ако искате по-широко сравнение на инструментите, вижте ръководството за най-добрите инструменти за превод на PDF.

Чести проблеми при сканираните PDF файлове

Страници с ниска резолюция

Сканиранията с ниска резолюция замъгляват буквите една в друга. OCR може да обърка rn и m, cl и d, или препинателни знаци и прашинки.

Решение: сканирайте отново, ако е възможно. Ако не, увеличете контраста и опитайте OCR отново.

Наклонени или извити страници

Сканиранията на книги често се извиват близо до подвързията. OCR чете лошо извитите редове и може да размести текста.

Решение: изправете страницата, сканирайте отново или използвайте OCR инструмент с изправяне и корекция на изкривяването.

Оформление с няколко колони

OCR може да слее лявата и дясната колона в един поток от изречения.

Решение: проверете реда на четене преди превода. Академичните статии изискват специално внимание тук.

Таблици

Таблиците са трудни, защото OCR трябва да разпознае едновременно текста и структурата. Една таблица може да изглежда правилно визуално, докато текстовият слой е грешен.

Решение: копирайте OCR текста от таблицата и потвърдете, че етикетите все още съответстват на стойностите.

Ръкопис и подписи

OCR за печатен текст е много по-надежден от разпознаването на ръкопис. Ръкописни бележки в полетата, подписи и попълнени формуляри може да бъдат пропуснати или изкривени.

Решение: транскрибирайте ръчно важния ръкопис преди превода.

Смесени езици

OCR работи най-добре, когато знае изходния език. Сканиране с английски, френски и китайски може да се провали, ако OCR е настроен само на един език.

Решение: изберете всички подходящи OCR езици, ако инструментът го позволява, след това проверете извадково всеки езиков раздел.

Контролен списък за поверителност и сигурност

Преди да качите сканиран PDF където и да е, попитайте:

  • Документът съдържа ли лични данни?
  • Включва ли медицински, правни, финансови, академични или непубликувани материали?
  • Попада ли под клиентско споразумение или училищна политика?
  • Разрешена ли е онлайн OCR услуга за този документ?
  • Нужен ли ви е локален процес вместо това?
  • Можете ли да премахнете страниците, които не се нуждаят от превод?

Сканираните PDF файлове често са чувствителни, защото идват от договори, лични документи, формуляри, чернови на изследвания и вътрешни архиви. Отнасяйте се към решенията за качване за OCR по същия начин, както бихте се отнесли към оригиналния документ.

Често задавани въпроси

Как да преведа сканиран PDF?

Първо пуснете OCR, за да създадете текстов слой, прегледайте OCR изхода, след това преведете PDF файла, обработен с OCR, с Преводач на PDF. Не пропускайте стъпката за преглед на OCR.

Защо Google Translate не преведе сканирания ми PDF?

PDF файлът може да е само изображение. Ако няма текстов слой, Google Translate няма какъв текст да извлече. Първо използвайте OCR, после преведете. Процесът специално за Google е разгледан в ръководството за Google Translate при PDF.

Може ли ChatGPT да преведе сканиран PDF?

ChatGPT може да помогне с отделни изображения или с извлечен текст, но PDF файл с много страници, който е сканиран, пак се нуждае от OCR и преглед. За пълния процес за документи първо използвайте OCR, след това работен процес за превод на PDF.

Кой е най-добрият OCR инструмент за сканирани PDF файлове?

Зависи от документа. Инструменти като Acrobat и ABBYY са полезни за общи и сложни сканове. Tesseract или OCRmyPDF са полезни за локални технически процеси. Онлайн OCR може да е подходящ за прости файлове с нисък риск, но поверителността и качеството варират.

Може ли OCR да запази форматирането?

OCR може да създаде текстов слой и понякога да възстанови реда на четене, но това не е същото като запазване на оригиналното преведено оформление. След OCR използвайте работен процес за превод на PDF и прегледайте резултата спрямо оригинала.

Какво да направя, ако качеството на OCR е лошо?

Подобрете сканирането преди превода. Сканирайте отново, ако е възможно, изправете страниците, увеличете контраста, изрежете излишния шум, изберете правилния OCR език и прегледайте трудните страници отново.