Як перакласці сканаваны PDF: поўнае кіраўніцтва па OCR і перакладзе
Сканаваныя PDF утрымліваюць выявы тэксту, а не сам тэкст — таму Google Translate вяртае іх без змен. Вось працэс OCR + AI, які гэта выпраўляе.
Хуткі адказ: перад перакладам сканаванаму PDF патрэбны OCR
Каб перакласці сканаваны PDF, спачатку запусціце OCR, каб ператварыць выявы старонак у тэкст, які можна выдзяляць. Потым перакладзіце PDF пасля OCR-апрацоўкі з дапамогай перакладчыка дакументаў, напрыклад Перакладчыка PDF. Калі прапусціць OCR, многія інструменты перакладу вернуць зыходны файл без змен, прапусцяць старонкі або перакладуць толькі тыя часткі, дзе ўжо ёсць тэкставы пласт.
Выкарыстоўвайце такі працэс:
- Адкрыйце PDF і паспрабуйце вылучыць сказ.
- Калі тэкст нельга вылучыць, запусціце OCR.
- Праверце тэкст пасля OCR перад перакладам.
- Загрузіце PDF пасля OCR-апрацоўкі ў Перакладчык PDF.
- Праверце перакладзены вынік у параўнанні з арыгінальным сканам.
Калі ў вашым PDF ужо ёсць тэкст, які можна выдзяляць, а праблема ў захаванні вёрсткі, скарыстайцеся гайдам пра тое, як перакласці PDF без страты фарматавання.
Чаму сканаваныя PDF не працуюць у інструментах перакладу
Сканаваны PDF часта ўяўляе сабой проста набор выяў старонак унутры PDF-кантэйнера. Чалавек бачыць на старонцы словы, але сам файл можа не ўтрымліваць рэальнага тэксту, які праграмы могуць выняць.
Гэта прыводзіць да простай праблемы:
| Тып файла | Што бачыць перакладчык | Што адбываецца |
|---|---|---|
| PDF з тэкстам | Тэкст і даныя пра вёрстку | Пераклад можна пачынаць адразу. |
| Сканаваны PDF з выявамі | Выявы старонак | Спачатку абавязкова патрэбны OCR. |
| PDF з выявай і тэкставым пластом | Выява скана плюс схаваны тэкставы пласт OCR | Пераклад можа спрацаваць, але памылкі OCR уплываюць на якасць. |
Самы карысны тэст не патрабуе тэхнічных ведаў:
- Адкрыйце PDF.
- Паспрабуйце вылучыць асобныя словы.
- Скапіруйце сказ.
- Устаўце яго ў тэкставы рэдактар.
Калі сказ устаўляецца карэктна, у PDF ёсць тэкставы пласт. Калі не ўстаўляецца нічога або ўся старонка паводзіць сябе як адна выява, PDF патрэбны OCR.
OCR тут абавязковы
OCR азначае аптычнае распазнаванне сімвалаў. Ён счытвае тэкст з выявы і стварае тэкст, які можа апрацоўваць машына. Пры перакладзе PDF OCR звычайна стварае нябачны тэкставы пласт паверх адсканаванай старонкі.
Менавіта гэты тэкставы пласт становіцца крыніцай для перакладу. Калі OCR дапускае памылкі, пераклад успадкоўвае гэтыя памылкі.
Тыповыя памылкі OCR:
| Памылка OCR | Рызыка для перакладу |
|---|---|
rn прачытана як m | Сэнс слова мяняецца. |
1 прачытана як l | Лічбы, спасылкі або коды становяцца няправільнымі. |
O прачытана як 0 | ID, формулы і імёны могуць сапсавацца. |
| Дыякрытычныя знакі губляюцца | Імёны і тэрміны становяцца недакладнымі. |
| Калонкі зліваюцца | Сказы перакладаюцца ў няправільным парадку. |
| Ячэйкі табліцы няправільна счытваюцца радок за радком | Подпісы да даных больш не адпавядаюць значэнням. |
| Зноскі ўспрымаюцца як асноўны тэкст | Цытаты і заўвагі трапляюць не ў той кантэкст. |
Таму этап праверкі OCR вельмі важны. Не перакладайце сканаваны дакумент, пакуль выбарачна не праверыце выняты тэкст.
Працэс з OCR перад перакладам
Крок 1: вызначце тып PDF
Паспрабуйце вылучыць тэкст. Калі гэта атрымліваецца, OCR можа і не спатрэбіцца. Калі вылучэнне не працуе, лічыце файл выявай без тэксту.
Таксама агледзьце старонку візуальна:
- Перакошаныя старонкі звычайна паказваюць, што гэта скан.
- Шэры фактурны фон паперы таксама паказвае на скан.
- Цені каля карэньчыка часта бываюць у сфатаграфаваных кнігах.
- Нераўнамерны кантраст часта сведчыць пра ксеракопію.
- Калі пошук не знаходзіць бачныя словы, тэкставага пласта, хутчэй за ўсё, няма.
Крок 2: па магчымасці палепшыце скан
Якасць OCR пачынаецца з якасці выявы. Калі вы можаце адсканаваць дакумент зноў, зрабіце гэта перад тым, як марнаваць час на выпраўленне памылак OCR.
Карыстайцеся такім чек-лістам якасці выявы:
- Скануйце з дастатковай раздзяляльнай здольнасцю для дробнага тэксту.
- Трымайце старонкі роўна і без перакосаў.
- Пазбягайце ценяў каля карэньчыка.
- Абразайце краі стала, пальцы і лішні фон.
- Забяспечце выразны кантраст паміж тэкстам і старонкай.
- Пакідайце бачным увесь радок.
- Выкарыстоўвайце правільную арыентацыю старонкі.
- Не сціскайце выяву настолькі моцна, каб літары расплыліся.
Для старых кніг і ксеракопій найбольшы эфект звычайна даюць выраўноўванне перакосу, карэкцыя кантрасту і паўторнае сканаванне старонак, якія атрымаліся не ў фокусе.
Крок 3: запусціце OCR
Выбірайце інструмент OCR, зыходзячы з дакумента, а не з брэнда.
| Варыянт OCR | Лепш за ўсё падыходзіць для | На што звярнуць увагу |
|---|---|---|
| Adobe Acrobat OCR | Звычайных бізнес-сканаў і ачысткі PDF | Перад выкарыстаннем праверце, ці ёсць доступ у вашым плане. |
| ABBYY FineReader | Складаных сканаў, табліц, калонак і цяжкай вёрсткі | Усё роўна патрэбна ручная праверка. |
| Tesseract або OCRmyPDF | Лакальных, тэхнічных і паўтаральных працэсаў OCR | Патрабуе ўпэўненасці ў працы з камандным радком. |
| Анлайн-інструменты OCR | Рэдкіх файлаў з нізкай рызыкай | Прыватнасць, абмежаванні памеру файла і якасць адрозніваюцца. |
| Мабільныя праграмы для сканавання | Хуткага стварэння новага скана | Скажэнне перспектывы можа пагоршыць OCR. |
Для прыватных кантрактаў, медыцынскіх запісаў, фінансавых дакументаў, неапублікаваных рукапісаў або навуковых прац, якія яшчэ праходзяць рэцэнзаванне, лепш выкарыстоўваць лакальны працэс OCR або надзейнае кантраляванае асяроддзе. Не загружайце канфідэнцыйныя сканы на выпадковыя бясплатныя OCR-сайты.
Крок 4: праверце тэкст OCR
Правярайце да перакладу, а не пасля. Скапіруйце тэкст з некалькіх складаных старонак і паглядзіце, ці застаецца ён чытэльным.
Якія старонкі варта праверыць:
- Тытульную старонку.
- Старонку з шчыльным асноўным тэкстам.
- Старонку з табліцай.
- Старонку са зноскамі.
- Старонку з дробным тэкстам.
- Старонку са штампамі, рукапісам або заўвагамі на палях.
- Старонку ў кожнай мове, калі дакумент шматмоўны.
Шукайце:
- Прапушчаныя абзацы.
- Злітыя калонкі.
- Разбітыя словы.
- Няправільныя сімвалы.
- Страчаныя дыякрытычныя знакі.
- Подпісы табліц, аддзеленыя ад значэнняў.
- Загалоўкі, устаўленыя ў асноўны тэкст.
- Нумары старонак, змешаныя са сказамі.
Калі якасць OCR дрэнная, выпраўце гэта да перакладу. Перакладчык не можа надзейна аднавіць сэнс, які OCR увогуле не захапіў.
Крок 5: перакладзіце PDF пасля OCR-апрацоўкі
Калі ў PDF ужо ёсць чысты тэкставы пласт, загрузіце яго ў Перакладчык PDF. Цяпер пераклад будзе працаваць з тэкстам, а не з выявамі старонак.
Пасля перакладу параўнайце:
- Арыгінальны скан
- Тэкставы пласт OCR
- Перакладзены PDF
Такая трохбаковая праверка дапамагае зразумець, адкуль узялася памылка: з OCR або з перакладу. Калі тэкст OCR няправільны, перазапусціце OCR. Калі тэкст OCR правільны, але пераклад няправільны, выпраўляйце пераклад.
Крок 6: праверце кантэнт з высокай рызыкай
Сканаваныя дакументы часта ўтрымліваюць менавіта той кантэнт, які трэба правяраць асабліва ўважліва: старыя кантракты, дзяржаўныя формы, навуковыя артыкулы, інструкцыі, гістарычныя дакументы і кніжныя старонкі.
Правярайце гэтыя элементы ўручную:
- Імёны
- Даты
- Лічбы
- Адрасы
- Коды прадуктаў
- Юрыдычныя спасылкі
- Цытаты
- Подпісы табліц
- Адзінкі вымярэння
- Формулы
- Подпісы да ілюстрацый
- Зноскі
Для даследчых і акадэмічных файлаў таксама прачытайце гайд па перакладзе навуковых артыкулаў, бо ў сканаваных акадэмічных PDF да рызыкі OCR дадаюцца яшчэ рызыкі цытавання і вёрсткі.
Прыклады памылак побач
Карыстайцеся гэтай табліцай падчас праверкі выніку OCR.
| На арыгінальным скане, верагодна, бачна | Дрэнны вынік OCR | Чаму гэта важна |
|---|---|---|
modern | modem | Сэнс цалкам змяняецца. |
Section 10 | Section IO | Юрыдычныя або тэхнічныя спасылкі могуць сапсавацца. |
2026 | 2O26 | Даты і ID становяцца ненадзейнымі. |
patient | patlent | Медыцынскія або тэхнічныя тэрміны становяцца няправільнымі. |
| Дзве асобныя калонкі | Адзін зліты абзац | Сказы ў перакладзе ідуць у няправільным парадку. |
| Радок табліцы з подпісамі і значэннямі | Адзін радок са змяшаным тэкстам | Даныя больш не адпавядаюць патрэбным подпісам. |
Маркер зноскі 1 | Літара l | Заўвагі могуць прывязацца не да таго сказа. |
Калі вы бачыце такія памылкі ў пласце OCR, выпраўце OCR перад перакладам.
Які інструмент выбраць?
Выбірайце ў залежнасці ад складанасці дакумента.
| Дакумент | Рэкамендаваны шлях |
|---|---|
| Чысты бізнес-скан | OCR у Acrobat або іншым надзейным OCR-інструменце, потым Перакладчык PDF. |
| Скан старой кнігі | Выпраўце перакос, палепшыце кантраст, уважліва зрабіце OCR, потым перакладайце. |
| Скан навуковага артыкула | Зрабіце OCR, праверце формулы, цытаты і табліцы, потым перакладайце з праверкай вёрсткі. |
| Рукапісныя нататкі | Перад перакладам можа спатрэбіцца ручная транскрыпцыя. |
| Просты асабісты дакумент | Анлайн-OCR можа быць прымальным, калі рызыка для прыватнасці нізкая. |
| Канфідэнцыйны дакумент | Выкарыстоўвайце лакальны OCR або надзейны кантраляваны працэс. |
Калі вам патрэбна больш шырокае параўнанне інструментаў, паглядзіце гайд па лепшых інструментах для перакладу PDF.
Тыповыя праблемы са сканаванымі PDF
Старонкі з нізкай раздзяляльнай здольнасцю
Сканы з нізкай раздзяляльнай здольнасцю размываюць літары і зліваюць іх паміж сабой. OCR можа блытаць rn і m, cl і d, а таксама знакі прыпынку і пыл.
Выпраўленне: па магчымасці адскануйце дакумент зноў. Калі гэта немагчыма, павялічце кантраст і паўтарыце OCR.
Перакошаныя або скрыўленыя старонкі
У кніжных сканах старонкі часта скрыўляюцца каля карэньчыка. OCR дрэнна счытвае такія выгнутыя радкі і можа пераблытаць парадак тэксту.
Выпраўленне: выраўняйце старонку, адскануйце яе зноў або выкарыстоўвайце OCR-інструмент з выпраўленнем перакосу і геаметрычных скажэнняў.
Шматкалонкавая вёрстка
OCR можа зліць левую і правую калонкі ў адзін суцэльны паток сказаў.
Выпраўленне: перад перакладам праверце парадак чытання. Навуковыя артыкулы тут патрабуюць асаблівай увагі.
Табліцы
Табліцы складаныя, бо OCR павінен распазнаць і тэкст, і структуру. Візуальна табліца можа выглядаць правільна, але тэкставы пласт можа быць памылковым.
Выпраўленне: скапіруйце тэкст OCR з табліцы і пераканайцеся, што подпісы ўсё яшчэ адпавядаюць значэнням.
Рукапіс і подпісы
OCR для друкаванага тэксту значна надзейнейшы за распазнаванне рукапісу. Рукапісныя заўвагі на палях, подпісы і запоўненыя формы могуць быць прапушчаны або скажоны.
Выпраўленне: уручную перапішыце важны рукапісны тэкст перад перакладам.
Змешаныя мовы
OCR працуе лепш за ўсё, калі ведае мову арыгінала. Скан з англійскай, французскай і кітайскай можа даць збой, калі OCR настроены толькі на адну мову.
Выпраўленне: выберыце ўсе патрэбныя мовы OCR, калі інструмент гэта падтрымлівае, а потым выбарачна праверце кожны моўны раздзел.
Чек-ліст прыватнасці і бяспекі
Перад тым як куды-небудзь загружаць сканаваны PDF, спытайце сябе:
- Ці ёсць у дакуменце персанальныя даныя?
- Ці ўтрымлівае ён медыцынскія, юрыдычныя, фінансавыя, акадэмічныя або неапублікаваныя матэрыялы?
- Ці падпадае ён пад дамову з кліентам або палітыку навучальнай установы?
- Ці дазволена для гэтага дакумента выкарыстоўваць анлайн-сэрвіс OCR?
- Ці не патрэбны вам замест гэтага лакальны працэс?
- Ці можна выдаліць старонкі, якія не трэба перакладаць?
Сканаваныя PDF часта бываюць канфідэнцыйнымі, бо паходзяць з кантрактаў, дакументаў, формаў, чарнавікоў даследаванняў і ўнутраных архіваў. Ставіцеся да рашэнняў пра загрузку ў OCR гэтак жа, як і да самога арыгінальнага дакумента.
FAQ
Як перакласці сканаваны PDF?
Спачатку запусціце OCR, каб стварыць тэкставы пласт, праверце вынік OCR, а потым перакладзіце PDF пасля OCR-апрацоўкі з дапамогай Перакладчыка PDF. Не прапускайце этап праверкі OCR.
Чаму Google Translate не пераклаў мой сканаваны PDF?
PDF можа складацца толькі з выявы. Калі ў ім няма тэкставага пласта, Google Translate няма адкуль узяць тэкст. Спачатку зрабіце OCR, потым перакладайце. Спецыяльны працэс для Google апісаны ў гайдзе па перакладзе PDF праз Google Translate.
Ці можа ChatGPT перакласці сканаваны PDF?
ChatGPT можа дапамагчы з асобнымі выявамі або вынятым тэкстам, але шматстаронкавы сканаваны PDF усё роўна патрабуе OCR і праверкі. Для поўнага працэсу працы з дакументам спачатку зрабіце OCR, а потым выкарыстоўвайце працэс перакладу PDF.
Які OCR-інструмент лепшы для сканаваных PDF?
Гэта залежыць ад дакумента. Інструменты кшталту Acrobat і ABBYY карысныя для звычайных і складаных сканаў. Tesseract або OCRmyPDF карысныя для лакальных тэхнічных працэсаў. Анлайн-OCR можа падысці для простых файлаў з нізкай рызыкай, але прыватнасць і якасць адрозніваюцца.
Ці можа OCR захаваць фарматаванне?
OCR можа стварыць тэкставы пласт і часам аднавіць парадак чытання, але гэта не тое самае, што захаванне арыгінальнай вёрсткі ў перакладзе. Пасля OCR выкарыстоўвайце працэс перакладу PDF і правярайце вынік у параўнанні з арыгіналам.
Што рабіць, калі якасць OCR дрэнная?
Паляпшайце скан перад перакладам. Калі магчыма, адскануйце дакумент зноў, выраўняйце старонкі, павялічце кантраст, абрэжце лішнія элементы, выберыце правільную мову OCR і яшчэ раз праверце складаныя старонкі.