BookTranslator
BookTranslator

Як перакласці сканаваны PDF: поўнае кіраўніцтва па OCR і перакладзе

Сканаваныя PDF утрымліваюць выявы тэксту, а не сам тэкст — таму Google Translate вяртае іх без змен. Вось працэс OCR + AI, які гэта выпраўляе.

BookTranslator

BookTranslator Team

Кіраўніцтвы па перакладзе10 min read

Хуткі адказ: перад перакладам сканаванаму PDF патрэбны OCR

Каб перакласці сканаваны PDF, спачатку запусціце OCR, каб ператварыць выявы старонак у тэкст, які можна выдзяляць. Потым перакладзіце PDF пасля OCR-апрацоўкі з дапамогай перакладчыка дакументаў, напрыклад Перакладчыка PDF. Калі прапусціць OCR, многія інструменты перакладу вернуць зыходны файл без змен, прапусцяць старонкі або перакладуць толькі тыя часткі, дзе ўжо ёсць тэкставы пласт.

Выкарыстоўвайце такі працэс:

  1. Адкрыйце PDF і паспрабуйце вылучыць сказ.
  2. Калі тэкст нельга вылучыць, запусціце OCR.
  3. Праверце тэкст пасля OCR перад перакладам.
  4. Загрузіце PDF пасля OCR-апрацоўкі ў Перакладчык PDF.
  5. Праверце перакладзены вынік у параўнанні з арыгінальным сканам.

Калі ў вашым PDF ужо ёсць тэкст, які можна выдзяляць, а праблема ў захаванні вёрсткі, скарыстайцеся гайдам пра тое, як перакласці PDF без страты фарматавання.

Чаму сканаваныя PDF не працуюць у інструментах перакладу

Сканаваны PDF часта ўяўляе сабой проста набор выяў старонак унутры PDF-кантэйнера. Чалавек бачыць на старонцы словы, але сам файл можа не ўтрымліваць рэальнага тэксту, які праграмы могуць выняць.

Гэта прыводзіць да простай праблемы:

Тып файлаШто бачыць перакладчыкШто адбываецца
PDF з тэкстамТэкст і даныя пра вёрсткуПераклад можна пачынаць адразу.
Сканаваны PDF з выяваміВыявы старонакСпачатку абавязкова патрэбны OCR.
PDF з выявай і тэкставым пластомВыява скана плюс схаваны тэкставы пласт OCRПераклад можа спрацаваць, але памылкі OCR уплываюць на якасць.

Самы карысны тэст не патрабуе тэхнічных ведаў:

  1. Адкрыйце PDF.
  2. Паспрабуйце вылучыць асобныя словы.
  3. Скапіруйце сказ.
  4. Устаўце яго ў тэкставы рэдактар.

Калі сказ устаўляецца карэктна, у PDF ёсць тэкставы пласт. Калі не ўстаўляецца нічога або ўся старонка паводзіць сябе як адна выява, PDF патрэбны OCR.

OCR тут абавязковы

OCR азначае аптычнае распазнаванне сімвалаў. Ён счытвае тэкст з выявы і стварае тэкст, які можа апрацоўваць машына. Пры перакладзе PDF OCR звычайна стварае нябачны тэкставы пласт паверх адсканаванай старонкі.

Менавіта гэты тэкставы пласт становіцца крыніцай для перакладу. Калі OCR дапускае памылкі, пераклад успадкоўвае гэтыя памылкі.

Тыповыя памылкі OCR:

Памылка OCRРызыка для перакладу
rn прачытана як mСэнс слова мяняецца.
1 прачытана як lЛічбы, спасылкі або коды становяцца няправільнымі.
O прачытана як 0ID, формулы і імёны могуць сапсавацца.
Дыякрытычныя знакі губляюццаІмёны і тэрміны становяцца недакладнымі.
Калонкі зліваюццаСказы перакладаюцца ў няправільным парадку.
Ячэйкі табліцы няправільна счытваюцца радок за радкомПодпісы да даных больш не адпавядаюць значэнням.
Зноскі ўспрымаюцца як асноўны тэкстЦытаты і заўвагі трапляюць не ў той кантэкст.

Таму этап праверкі OCR вельмі важны. Не перакладайце сканаваны дакумент, пакуль выбарачна не праверыце выняты тэкст.

Працэс з OCR перад перакладам

Крок 1: вызначце тып PDF

Паспрабуйце вылучыць тэкст. Калі гэта атрымліваецца, OCR можа і не спатрэбіцца. Калі вылучэнне не працуе, лічыце файл выявай без тэксту.

Таксама агледзьце старонку візуальна:

  • Перакошаныя старонкі звычайна паказваюць, што гэта скан.
  • Шэры фактурны фон паперы таксама паказвае на скан.
  • Цені каля карэньчыка часта бываюць у сфатаграфаваных кнігах.
  • Нераўнамерны кантраст часта сведчыць пра ксеракопію.
  • Калі пошук не знаходзіць бачныя словы, тэкставага пласта, хутчэй за ўсё, няма.

Крок 2: па магчымасці палепшыце скан

Якасць OCR пачынаецца з якасці выявы. Калі вы можаце адсканаваць дакумент зноў, зрабіце гэта перад тым, як марнаваць час на выпраўленне памылак OCR.

Карыстайцеся такім чек-лістам якасці выявы:

  • Скануйце з дастатковай раздзяляльнай здольнасцю для дробнага тэксту.
  • Трымайце старонкі роўна і без перакосаў.
  • Пазбягайце ценяў каля карэньчыка.
  • Абразайце краі стала, пальцы і лішні фон.
  • Забяспечце выразны кантраст паміж тэкстам і старонкай.
  • Пакідайце бачным увесь радок.
  • Выкарыстоўвайце правільную арыентацыю старонкі.
  • Не сціскайце выяву настолькі моцна, каб літары расплыліся.

Для старых кніг і ксеракопій найбольшы эфект звычайна даюць выраўноўванне перакосу, карэкцыя кантрасту і паўторнае сканаванне старонак, якія атрымаліся не ў фокусе.

Крок 3: запусціце OCR

Выбірайце інструмент OCR, зыходзячы з дакумента, а не з брэнда.

Варыянт OCRЛепш за ўсё падыходзіць дляНа што звярнуць увагу
Adobe Acrobat OCRЗвычайных бізнес-сканаў і ачысткі PDFПерад выкарыстаннем праверце, ці ёсць доступ у вашым плане.
ABBYY FineReaderСкладаных сканаў, табліц, калонак і цяжкай вёрсткіУсё роўна патрэбна ручная праверка.
Tesseract або OCRmyPDFЛакальных, тэхнічных і паўтаральных працэсаў OCRПатрабуе ўпэўненасці ў працы з камандным радком.
Анлайн-інструменты OCRРэдкіх файлаў з нізкай рызыкайПрыватнасць, абмежаванні памеру файла і якасць адрозніваюцца.
Мабільныя праграмы для сканаванняХуткага стварэння новага сканаСкажэнне перспектывы можа пагоршыць OCR.

Для прыватных кантрактаў, медыцынскіх запісаў, фінансавых дакументаў, неапублікаваных рукапісаў або навуковых прац, якія яшчэ праходзяць рэцэнзаванне, лепш выкарыстоўваць лакальны працэс OCR або надзейнае кантраляванае асяроддзе. Не загружайце канфідэнцыйныя сканы на выпадковыя бясплатныя OCR-сайты.

Крок 4: праверце тэкст OCR

Правярайце да перакладу, а не пасля. Скапіруйце тэкст з некалькіх складаных старонак і паглядзіце, ці застаецца ён чытэльным.

Якія старонкі варта праверыць:

  • Тытульную старонку.
  • Старонку з шчыльным асноўным тэкстам.
  • Старонку з табліцай.
  • Старонку са зноскамі.
  • Старонку з дробным тэкстам.
  • Старонку са штампамі, рукапісам або заўвагамі на палях.
  • Старонку ў кожнай мове, калі дакумент шматмоўны.

Шукайце:

  • Прапушчаныя абзацы.
  • Злітыя калонкі.
  • Разбітыя словы.
  • Няправільныя сімвалы.
  • Страчаныя дыякрытычныя знакі.
  • Подпісы табліц, аддзеленыя ад значэнняў.
  • Загалоўкі, устаўленыя ў асноўны тэкст.
  • Нумары старонак, змешаныя са сказамі.

Калі якасць OCR дрэнная, выпраўце гэта да перакладу. Перакладчык не можа надзейна аднавіць сэнс, які OCR увогуле не захапіў.

Крок 5: перакладзіце PDF пасля OCR-апрацоўкі

Калі ў PDF ужо ёсць чысты тэкставы пласт, загрузіце яго ў Перакладчык PDF. Цяпер пераклад будзе працаваць з тэкстам, а не з выявамі старонак.

Пасля перакладу параўнайце:

  • Арыгінальны скан
  • Тэкставы пласт OCR
  • Перакладзены PDF

Такая трохбаковая праверка дапамагае зразумець, адкуль узялася памылка: з OCR або з перакладу. Калі тэкст OCR няправільны, перазапусціце OCR. Калі тэкст OCR правільны, але пераклад няправільны, выпраўляйце пераклад.

Крок 6: праверце кантэнт з высокай рызыкай

Сканаваныя дакументы часта ўтрымліваюць менавіта той кантэнт, які трэба правяраць асабліва ўважліва: старыя кантракты, дзяржаўныя формы, навуковыя артыкулы, інструкцыі, гістарычныя дакументы і кніжныя старонкі.

Правярайце гэтыя элементы ўручную:

  • Імёны
  • Даты
  • Лічбы
  • Адрасы
  • Коды прадуктаў
  • Юрыдычныя спасылкі
  • Цытаты
  • Подпісы табліц
  • Адзінкі вымярэння
  • Формулы
  • Подпісы да ілюстрацый
  • Зноскі

Для даследчых і акадэмічных файлаў таксама прачытайце гайд па перакладзе навуковых артыкулаў, бо ў сканаваных акадэмічных PDF да рызыкі OCR дадаюцца яшчэ рызыкі цытавання і вёрсткі.

Прыклады памылак побач

Карыстайцеся гэтай табліцай падчас праверкі выніку OCR.

На арыгінальным скане, верагодна, бачнаДрэнны вынік OCRЧаму гэта важна
modernmodemСэнс цалкам змяняецца.
Section 10Section IOЮрыдычныя або тэхнічныя спасылкі могуць сапсавацца.
20262O26Даты і ID становяцца ненадзейнымі.
patientpatlentМедыцынскія або тэхнічныя тэрміны становяцца няправільнымі.
Дзве асобныя калонкіАдзін зліты абзацСказы ў перакладзе ідуць у няправільным парадку.
Радок табліцы з подпісамі і значэнняміАдзін радок са змяшаным тэкстамДаныя больш не адпавядаюць патрэбным подпісам.
Маркер зноскі 1Літара lЗаўвагі могуць прывязацца не да таго сказа.

Калі вы бачыце такія памылкі ў пласце OCR, выпраўце OCR перад перакладам.

Які інструмент выбраць?

Выбірайце ў залежнасці ад складанасці дакумента.

ДакументРэкамендаваны шлях
Чысты бізнес-сканOCR у Acrobat або іншым надзейным OCR-інструменце, потым Перакладчык PDF.
Скан старой кнігіВыпраўце перакос, палепшыце кантраст, уважліва зрабіце OCR, потым перакладайце.
Скан навуковага артыкулаЗрабіце OCR, праверце формулы, цытаты і табліцы, потым перакладайце з праверкай вёрсткі.
Рукапісныя нататкіПерад перакладам можа спатрэбіцца ручная транскрыпцыя.
Просты асабісты дакументАнлайн-OCR можа быць прымальным, калі рызыка для прыватнасці нізкая.
Канфідэнцыйны дакументВыкарыстоўвайце лакальны OCR або надзейны кантраляваны працэс.

Калі вам патрэбна больш шырокае параўнанне інструментаў, паглядзіце гайд па лепшых інструментах для перакладу PDF.

Тыповыя праблемы са сканаванымі PDF

Старонкі з нізкай раздзяляльнай здольнасцю

Сканы з нізкай раздзяляльнай здольнасцю размываюць літары і зліваюць іх паміж сабой. OCR можа блытаць rn і m, cl і d, а таксама знакі прыпынку і пыл.

Выпраўленне: па магчымасці адскануйце дакумент зноў. Калі гэта немагчыма, павялічце кантраст і паўтарыце OCR.

Перакошаныя або скрыўленыя старонкі

У кніжных сканах старонкі часта скрыўляюцца каля карэньчыка. OCR дрэнна счытвае такія выгнутыя радкі і можа пераблытаць парадак тэксту.

Выпраўленне: выраўняйце старонку, адскануйце яе зноў або выкарыстоўвайце OCR-інструмент з выпраўленнем перакосу і геаметрычных скажэнняў.

Шматкалонкавая вёрстка

OCR можа зліць левую і правую калонкі ў адзін суцэльны паток сказаў.

Выпраўленне: перад перакладам праверце парадак чытання. Навуковыя артыкулы тут патрабуюць асаблівай увагі.

Табліцы

Табліцы складаныя, бо OCR павінен распазнаць і тэкст, і структуру. Візуальна табліца можа выглядаць правільна, але тэкставы пласт можа быць памылковым.

Выпраўленне: скапіруйце тэкст OCR з табліцы і пераканайцеся, што подпісы ўсё яшчэ адпавядаюць значэнням.

Рукапіс і подпісы

OCR для друкаванага тэксту значна надзейнейшы за распазнаванне рукапісу. Рукапісныя заўвагі на палях, подпісы і запоўненыя формы могуць быць прапушчаны або скажоны.

Выпраўленне: уручную перапішыце важны рукапісны тэкст перад перакладам.

Змешаныя мовы

OCR працуе лепш за ўсё, калі ведае мову арыгінала. Скан з англійскай, французскай і кітайскай можа даць збой, калі OCR настроены толькі на адну мову.

Выпраўленне: выберыце ўсе патрэбныя мовы OCR, калі інструмент гэта падтрымлівае, а потым выбарачна праверце кожны моўны раздзел.

Чек-ліст прыватнасці і бяспекі

Перад тым як куды-небудзь загружаць сканаваны PDF, спытайце сябе:

  • Ці ёсць у дакуменце персанальныя даныя?
  • Ці ўтрымлівае ён медыцынскія, юрыдычныя, фінансавыя, акадэмічныя або неапублікаваныя матэрыялы?
  • Ці падпадае ён пад дамову з кліентам або палітыку навучальнай установы?
  • Ці дазволена для гэтага дакумента выкарыстоўваць анлайн-сэрвіс OCR?
  • Ці не патрэбны вам замест гэтага лакальны працэс?
  • Ці можна выдаліць старонкі, якія не трэба перакладаць?

Сканаваныя PDF часта бываюць канфідэнцыйнымі, бо паходзяць з кантрактаў, дакументаў, формаў, чарнавікоў даследаванняў і ўнутраных архіваў. Ставіцеся да рашэнняў пра загрузку ў OCR гэтак жа, як і да самога арыгінальнага дакумента.

FAQ

Як перакласці сканаваны PDF?

Спачатку запусціце OCR, каб стварыць тэкставы пласт, праверце вынік OCR, а потым перакладзіце PDF пасля OCR-апрацоўкі з дапамогай Перакладчыка PDF. Не прапускайце этап праверкі OCR.

Чаму Google Translate не пераклаў мой сканаваны PDF?

PDF можа складацца толькі з выявы. Калі ў ім няма тэкставага пласта, Google Translate няма адкуль узяць тэкст. Спачатку зрабіце OCR, потым перакладайце. Спецыяльны працэс для Google апісаны ў гайдзе па перакладзе PDF праз Google Translate.

Ці можа ChatGPT перакласці сканаваны PDF?

ChatGPT можа дапамагчы з асобнымі выявамі або вынятым тэкстам, але шматстаронкавы сканаваны PDF усё роўна патрабуе OCR і праверкі. Для поўнага працэсу працы з дакументам спачатку зрабіце OCR, а потым выкарыстоўвайце працэс перакладу PDF.

Які OCR-інструмент лепшы для сканаваных PDF?

Гэта залежыць ад дакумента. Інструменты кшталту Acrobat і ABBYY карысныя для звычайных і складаных сканаў. Tesseract або OCRmyPDF карысныя для лакальных тэхнічных працэсаў. Анлайн-OCR можа падысці для простых файлаў з нізкай рызыкай, але прыватнасць і якасць адрозніваюцца.

Ці можа OCR захаваць фарматаванне?

OCR можа стварыць тэкставы пласт і часам аднавіць парадак чытання, але гэта не тое самае, што захаванне арыгінальнай вёрсткі ў перакладзе. Пасля OCR выкарыстоўвайце працэс перакладу PDF і правярайце вынік у параўнанні з арыгіналам.

Што рабіць, калі якасць OCR дрэнная?

Паляпшайце скан перад перакладам. Калі магчыма, адскануйце дакумент зноў, выраўняйце старонкі, павялічце кантраст, абрэжце лішнія элементы, выберыце правільную мову OCR і яшчэ раз праверце складаныя старонкі.