Как да преведете сканиран PDF: пълното ръководство за OCR + превод
Сканираните PDF файлове съдържат изображения на текст, а не истински текст — затова Google Translate ги връща непроменени. Ето OCR + AI процеса, който решава проблема.
Бърз отговор: Сканираният PDF се нуждае от OCR преди превод
За да преведете сканиран PDF, първо пуснете OCR, за да превърнете изображенията на страниците в избираем текст. След това преведете PDF файла, обработен с OCR, с преводач на документи като Преводач на PDF. Ако пропуснете OCR, много инструменти за превод ще върнат оригиналния файл без промени, ще пропуснат страници или ще преведат само частите, които вече съдържат текстов слой.
Използвайте този процес:
- Отворете PDF файла и опитайте да маркирате едно изречение.
- Ако не можете да маркирате текст, пуснете OCR.
- Прегледайте OCR текста, преди да превеждате.
- Качете PDF файла, обработен с OCR, в Преводач на PDF.
- Сравнете преведения резултат с оригиналното сканиране.
Ако вашият PDF вече има избираем текст и проблемът е запазването на оформлението, използвайте ръководството за превод на PDF без загуба на форматирането.
Защо сканираните PDF файлове създават проблеми на инструментите за превод
Сканираният PDF често е просто набор от изображения на страници в PDF контейнер. За човек страницата може да показва думи, но файлът може да не съдържа истински текст, който софтуерът да извлече.
Това създава прост проблем:
| Тип файл | Какво вижда преводачът | Какво се случва |
|---|---|---|
| PDF с текст | Текст плюс данни за оформлението | Преводът може да започне веднага. |
| Сканиран PDF само с изображения | Снимки на страници | Първо е нужен OCR. |
| PDF с текст върху изображение | Изображение на скана плюс скрит OCR текстов слой | Преводът може да проработи, но OCR грешките влияят на качеството. |
Най-полезният тест не е технически:
- Отворете PDF файла.
- Опитайте да маркирате отделни думи.
- Копирайте едно изречение.
- Поставете го в текстов редактор.
Ако изречението се постави правилно, PDF файлът има текстов слой. Ако нищо не се поставя или цялата страница се държи като едно изображение, PDF файлът се нуждае от OCR.
OCR не е по избор
OCR означава оптично разпознаване на символи. То разчита текст от изображение и създава машинно четим текст. При превод на PDF OCR обикновено създава невидим текстов слой върху сканираната страница.
Този текстов слой става източникът за превода. Ако OCR допусне грешки, преводът наследява тези грешки.
Чести OCR грешки:
| OCR грешка | Риск за превода |
|---|---|
rn е разчетено като m | Думите променят значението си. |
1 е разчетено като l | Числа, препратки или кодове стават грешни. |
O е разчетено като 0 | Идентификатори, формули и имена могат да се счупят. |
| Диакритичните знаци липсват | Имена и термини стават неточни. |
| Колоните са слети | Изреченията се превеждат в грешен ред. |
| Клетките на таблица са прочетени неправилно ред по ред | Етикетите на данните вече не съответстват на стойностите. |
| Бележките под линия са обработени като основен текст | Цитатите и бележките попадат в грешен контекст. |
Затова стъпката за преглед на OCR е важна. Не превеждайте сканиран документ, преди да сте направили извадкова проверка на извлечения текст.
Процесът с OCR на първо място
Стъпка 1: Определете типа на PDF файла
Опитайте да маркирате текст. Ако маркирането работи, може да не ви трябва OCR. Ако не работи, приемете файла за такъв само с изображения.
Погледнете и самата страница:
- Наклонените страници подсказват сканиране.
- Сивата текстура на хартията подсказва сканиране.
- Сенките близо до подвързията подсказват снимана книга.
- Неравномерният контраст подсказва фотокопие.
- Ако търсенето не намира видими думи, вероятно няма текстов слой.
Стъпка 2: Подобрете сканирането, ако е възможно
Качеството на OCR започва с качеството на изображението. Ако можете да сканирате отново, направете го, преди да губите време в поправяне на OCR грешки.
Използвайте този контролен списък за качество на изображението:
- Сканирайте с достатъчно висока резолюция за дребен текст.
- Дръжте страниците равни и прави.
- Избягвайте сенки близо до подвързията.
- Изрежете краищата на масата, пръстите или фоновия шум.
- Осигурете силен контраст между текста и страницата.
- Уверете се, че целият ред е видим.
- Използвайте правилната ориентация на страницата.
- Не компресирайте изображението толкова силно, че буквите да се размажат.
При стари книги и фотокопия най-голям ефект обикновено дават изправянето на страниците, корекцията на контраста и повторното сканиране на страниците, които не са на фокус.
Стъпка 3: Пуснете OCR
Избирайте OCR инструмент според документа, а не според марката.
| OCR вариант | Най-подходящ за | Внимавайте за |
|---|---|---|
| Adobe Acrobat OCR | Общи бизнес сканове и почистване на PDF | Проверете какво включва текущият ви план, преди да разчитате на него. |
| ABBYY FineReader | Сложни сканове, таблици, колони и трудни оформления | Все пак изисква ръчна проверка. |
| Tesseract or OCRmyPDF | Локални, технически, повторяеми OCR процеси | Изисква увереност при работа с инструменти от командния ред. |
| Онлайн OCR инструменти | Единични файлове с нисък риск | Поверителността, лимитите на файловете и качеството варират. |
| Приложения за сканиране с телефон | Бързо заснемане на ново сканиране | Изкривяването на перспективата може да влоши OCR. |
За частни договори, медицински досиета, финансови документи, непубликувани ръкописи или академична работа в процес на рецензиране предпочитайте локален OCR процес или доверена среда. Не качвайте чувствителни сканове в случайни безплатни OCR сайтове.
Стъпка 4: Прегледайте OCR текста
Преглеждайте преди превода, не след него. Копирайте текст от няколко трудни страници и проверете дали е четим.
Примерни страници за проверка:
- Заглавната страница.
- Плътна страница с основен текст.
- Страница с таблица.
- Страница с бележки под линия.
- Страница с дребен текст.
- Страница с печати, ръкопис или бележки в полетата.
- Страница на всеки език, ако документът е многоезичен.
Търсете:
- Липсващи абзаци.
- Слети колони.
- Разкъсани думи.
- Грешни символи.
- Изпусната диакритика.
- Етикети на таблици, отделени от стойностите.
- Заглавки, вмъкнати в основния текст.
- Номера на страници, смесени с изречения.
Ако качеството на OCR е лошо, поправете го преди превода. Преводачът не може надеждно да възстанови смисъл, който OCR изобщо не е уловил.
Стъпка 5: Преведете PDF файла, обработен с OCR
След като PDF файлът има чист текстов слой, качете го в Преводач на PDF. Сега стъпката по превода може да работи с текст, а не с изображения на страници.
След превода сравнете:
- Оригиналното сканиране
- OCR текстовия слой
- Преведения PDF
Тази тройна проверка ви помага да определите дали грешката идва от OCR или от превода. Ако OCR текстът е грешен, пуснете OCR отново. Ако OCR текстът е правилен, но преводът е грешен, поправете превода.
Стъпка 6: Прегледайте съдържанието с висок риск
Сканираните документи често съдържат точно онова, което изисква внимателна проверка: стари договори, държавни формуляри, академични статии, ръководства, исторически документи и страници от книги.
Проверете ръчно тези елементи:
- Имена
- Дати
- Числа
- Адреси
- Продуктови кодове
- Правни препратки
- Цитати
- Етикети на таблици
- Мерни единици
- Уравнения
- Надписи
- Бележки под линия
За изследователски и академични файлове прочетете и ръководството за превод на академични научни статии, защото сканираните академични PDF файлове добавят рискове от цитиране и оформление върху риска от OCR.
Примери за типични грешки при сравнение
Използвайте тази таблица, докато преглеждате OCR изхода.
| Оригиналното сканиране вероятно показва | Лош OCR изход | Защо е важно |
|---|---|---|
modern | modem | Значението се променя напълно. |
Section 10 | Section IO | Правни или технически препратки могат да се счупят. |
2026 | 2O26 | Датите и идентификаторите стават ненадеждни. |
patient | patlent | Медицински или технически термини стават грешни. |
| Две отделни колони | Един слят абзац | Преводът чете изреченията в грешен ред. |
| Ред в таблица с етикети и стойности | Един ред смесен текст | Данните вече не съответстват на правилния етикет. |
Маркер за бележка под линия 1 | Буквата l | Бележките може да се прикрепят към грешното изречение. |
Ако видите тези грешки в OCR слоя, поправете OCR, преди да превеждате.
Кой инструмент трябва да използвате?
Избирайте според трудността на документа.
| Документ | Препоръчителен подход |
|---|---|
| Чист бизнес скан | OCR в Acrobat или друг надежден OCR инструмент, след това Преводач на PDF. |
| Скан на стара книга | Изправете страниците и подобрете контраста, направете внимателен OCR, след това преведете. |
| Скан на академична статия | OCR, преглед на уравнения/цитати/таблици, след това превод с проверка на оформлението. |
| Ръкописни бележки | Може да се наложи ръчна транскрипция преди превод. |
| Обикновен личен документ | Онлайн OCR може да е приемлив, ако рискът за поверителността е нисък. |
| Чувствителен документ | Използвайте локален OCR или доверен контролиран процес. |
Ако искате по-широко сравнение на инструментите, вижте ръководството за най-добрите инструменти за превод на PDF.
Чести проблеми при сканираните PDF файлове
Страници с ниска резолюция
Сканиранията с ниска резолюция замъгляват буквите една в друга. OCR може да обърка rn и m, cl и d, или препинателни знаци и прашинки.
Решение: сканирайте отново, ако е възможно. Ако не, увеличете контраста и опитайте OCR отново.
Наклонени или извити страници
Сканиранията на книги често се извиват близо до подвързията. OCR чете лошо извитите редове и може да размести текста.
Решение: изправете страницата, сканирайте отново или използвайте OCR инструмент с изправяне и корекция на изкривяването.
Оформление с няколко колони
OCR може да слее лявата и дясната колона в един поток от изречения.
Решение: проверете реда на четене преди превода. Академичните статии изискват специално внимание тук.
Таблици
Таблиците са трудни, защото OCR трябва да разпознае едновременно текста и структурата. Една таблица може да изглежда правилно визуално, докато текстовият слой е грешен.
Решение: копирайте OCR текста от таблицата и потвърдете, че етикетите все още съответстват на стойностите.
Ръкопис и подписи
OCR за печатен текст е много по-надежден от разпознаването на ръкопис. Ръкописни бележки в полетата, подписи и попълнени формуляри може да бъдат пропуснати или изкривени.
Решение: транскрибирайте ръчно важния ръкопис преди превода.
Смесени езици
OCR работи най-добре, когато знае изходния език. Сканиране с английски, френски и китайски може да се провали, ако OCR е настроен само на един език.
Решение: изберете всички подходящи OCR езици, ако инструментът го позволява, след това проверете извадково всеки езиков раздел.
Контролен списък за поверителност и сигурност
Преди да качите сканиран PDF където и да е, попитайте:
- Документът съдържа ли лични данни?
- Включва ли медицински, правни, финансови, академични или непубликувани материали?
- Попада ли под клиентско споразумение или училищна политика?
- Разрешена ли е онлайн OCR услуга за този документ?
- Нужен ли ви е локален процес вместо това?
- Можете ли да премахнете страниците, които не се нуждаят от превод?
Сканираните PDF файлове често са чувствителни, защото идват от договори, лични документи, формуляри, чернови на изследвания и вътрешни архиви. Отнасяйте се към решенията за качване за OCR по същия начин, както бихте се отнесли към оригиналния документ.
Често задавани въпроси
Как да преведа сканиран PDF?
Първо пуснете OCR, за да създадете текстов слой, прегледайте OCR изхода, след това преведете PDF файла, обработен с OCR, с Преводач на PDF. Не пропускайте стъпката за преглед на OCR.
Защо Google Translate не преведе сканирания ми PDF?
PDF файлът може да е само изображение. Ако няма текстов слой, Google Translate няма какъв текст да извлече. Първо използвайте OCR, после преведете. Процесът специално за Google е разгледан в ръководството за Google Translate при PDF.
Може ли ChatGPT да преведе сканиран PDF?
ChatGPT може да помогне с отделни изображения или с извлечен текст, но PDF файл с много страници, който е сканиран, пак се нуждае от OCR и преглед. За пълния процес за документи първо използвайте OCR, след това работен процес за превод на PDF.
Кой е най-добрият OCR инструмент за сканирани PDF файлове?
Зависи от документа. Инструменти като Acrobat и ABBYY са полезни за общи и сложни сканове. Tesseract или OCRmyPDF са полезни за локални технически процеси. Онлайн OCR може да е подходящ за прости файлове с нисък риск, но поверителността и качеството варират.
Може ли OCR да запази форматирането?
OCR може да създаде текстов слой и понякога да възстанови реда на четене, но това не е същото като запазване на оригиналното преведено оформление. След OCR използвайте работен процес за превод на PDF и прегледайте резултата спрямо оригинала.
Какво да направя, ако качеството на OCR е лошо?
Подобрете сканирането преди превода. Сканирайте отново, ако е възможно, изправете страниците, увеличете контраста, изрежете излишния шум, изберете правилния OCR език и прегледайте трудните страници отново.