BookTranslator
BookTranslator

Како да преведете скениран PDF: целосен водич за OCR + превод

Скенираните PDF-датотеки содржат слики од текст, а не вистински текст — затоа Google Translate ги враќа непроменети. Еве го OCR + AI процесот што го решава тоа.

BookTranslator

BookTranslator Team

Водичи за превод11 min read

Брз одговор: на скениран PDF му треба OCR пред превод

За да преведете скениран PDF, прво пуштете OCR за да ги претворите сликите на страниците во текст што може да се избере. Потоа преведете го PDF-от обработен со OCR со преведувач за документи како Преведувач за PDF. Ако го прескокнете OCR, многу алатки за превод ќе ја вратат оригиналната датотека непроменета, ќе пропуштат страници или ќе ги преведат само деловите што веќе содржат текстуален слој.

Следете го овој процес:

  1. Отворете го PDF-от и обидете се да изберете една реченица.
  2. Ако не можете да изберете текст, пуштете OCR.
  3. Прегледајте го OCR-текстот пред превод.
  4. Поставете го PDF-от обработен со OCR во Преведувач за PDF.
  5. Споредете го преведениот излез со оригиналниот скен.

Ако вашиот PDF веќе има текст што може да се избере и проблемот е зачувувањето на распоредот, користете го водичот за превод на PDF без губење на форматирањето.

Зошто скенираните PDF-датотеки не работат во алатките за превод

Скенираниот PDF често е само збир од слики на страници во рамки на PDF-контејнер. Страницата може да им прикажува зборови на луѓето, но датотеката можеби не содржи вистински текст што софтверот може да го извлече.

Тоа создава едноставен неуспех:

Тип на датотекаШто гледа преведувачотШто се случува
PDF заснован на текстТекст плус податоци за распоредотПреводот може да започне веднаш.
Скениран PDF само со сликиСлики од странициНајпрво е потребен OCR.
PDF со текст над сликаСлика од скен плус скриен OCR текстуален слојПреводот може да работи, но OCR грешките влијаат на квалитетот.

Најкорисниот тест не е технички:

  1. Отворете го PDF-от.
  2. Обидете се да означите поединечни зборови.
  3. Копирајте една реченица.
  4. Залепете ја во уредувач на текст.

Ако реченицата се залепи правилно, PDF-от има текстуален слој. Ако ништо не се залепи, или целата страница се однесува како една слика, на PDF-от му треба OCR.

OCR не е опционален

OCR значи оптичко препознавање на знаци. Тој чита текст од слика и создава машински читлив текст. За превод на PDF, OCR обично создава невидлив текстуален слој над скенираната страница.

Тој текстуален слој станува извор за преводот. Ако OCR прави грешки, преводот ги наследува тие грешки.

Чести OCR-грешки:

OCR грешкаРизик за преводот
rn прочитано како mЗначењето на зборовите се менува.
1 прочитано како lБроевите, упатувањата или кодовите стануваат погрешни.
O прочитано како 0Идентификаторите, формулите и имињата може да се расипат.
Изоставени акцентиИмињата и термините стануваат неточни.
Споени колониРечениците се преведуваат по погрешен редослед.
Ќелиите во табелата се прочитани погрешно ред по редОзнаките на податоците повеќе не одговараат на вредностите.
Фуснотите третирани како главен текстЦитатите и белешките влегуваат во погрешен контекст.

Затоа чекорот за OCR-преглед е важен. Не преведувајте скениран документ додека не го проверите извлечениот текст на неколку места.

Процес со OCR како прв чекор

Чекор 1: Одредете го типот на PDF

Обидете се да изберете текст. Ако избирањето работи, можеби нема да ви треба OCR. Ако не работи, третирајте ја датотеката како слика без текст.

Проверете ја и страницата визуелно:

  • Искривените страници упатуваат на скен.
  • Сивата текстура на хартијата упатува на скен.
  • Сенките близу коренот упатуваат на фотографирана книга.
  • Нееднаквиот контраст упатува на фотокопија.
  • Ако пребарувањето не ги наоѓа видливите зборови, веројатно нема текстуален слој.

Чекор 2: Подобрете го скенот ако е можно

Квалитетот на OCR започнува со квалитетот на сликата. Ако можете повторно да скенирате, направете го тоа пред да трошите време на поправање OCR-грешки.

Користете ја оваа листа за квалитет на сликата:

  • Скенирајте со доволно висока резолуција за ситен текст.
  • Држете ги страниците рамни и исправени.
  • Избегнувајте сенки близу коренот.
  • Исечете ги рабовите на масата, прстите или нередот во позадина.
  • Користете силен контраст меѓу текстот и страницата.
  • Нека целата линија биде видлива.
  • Користете ја правилната ориентација на страницата.
  • Не ја компресирајте сликата толку многу што буквите ќе се заматат.

Кај стари книги и фотокопии, најголемите подобрувања најчесто доаѓаат од исправување на наклонот, корекција на контрастот и повторно скенирање на страниците што се надвор од фокус.

Чекор 3: Пуштете OCR

Изберете OCR-алатка според документот, а не според брендот.

OCR-опцијаНајдобра заВнимавајте на
Adobe Acrobat OCRОпшти деловни скенови и чистење PDFПроверете дали вашиот тековен план дава пристап пред да се потпрете на неа.
ABBYY FineReaderСложени скенови, табели, колони и тешки распоредиИ понатаму бара рачен преглед.
Tesseract or OCRmyPDFЛокални, технички и повторливи OCR-процесиБара удобност со алатки од командна линија.
Online OCR toolsПовремени датотеки со низок ризикПриватноста, ограничувањата на датотеките и квалитетот варираат.
Phone scanning appsБрзо снимање нов скенПерспективното изобличување може да го влоши OCR.

За приватни договори, медицински досиеја, финансиски документи, необјавени ракописи или академска работа што е во рецензија, претпочитајте локален OCR-процес или доверливо опкружување. Не поставувајте чувствителни скенови на случајни бесплатни OCR-страници.

Чекор 4: Прегледајте го OCR-текстот

Прегледувајте пред превод, не после него. Копирајте текст од неколку тешки страници и проверете дали е читлив.

Страници што треба да ги проверите:

  • Насловната страница.
  • Густа страница со главен текст.
  • Страница со табела.
  • Страница со фусноти.
  • Страница со ситен текст.
  • Страница со печати, ракопис или маргинални белешки.
  • Страница на секој јазик ако документот е повеќејазичен.

Побарајте:

  • Недостасувачки пасуси.
  • Споени колони.
  • Раскинати зборови.
  • Погрешни знаци.
  • Изгубени дијакритички знаци.
  • Ознаки на табели одвоени од вредностите.
  • Наслови вметнати во главниот текст.
  • Броеви на страници измешани во речениците.

Ако квалитетот на OCR е лош, поправете го пред превод. Преведувач не може сигурно да го врати значењето што OCR никогаш не го фатил.

Чекор 5: Преведете го PDF-от обработен со OCR

Штом PDF-от има чист текстуален слој, поставете го во Преведувач за PDF. Чекорот на превод сега може да работи со текст наместо со слики од страници.

По преводот, споредете:

  • Оригинален скен
  • OCR текстуален слој
  • Преведен PDF

Овој тристран преглед ви помага да препознаете дали грешката доаѓа од OCR или од преводот. Ако OCR-текстот е погрешен, пуштете OCR повторно. Ако OCR-текстот е точен, а преводот е погрешен, поправете го преводот.

Чекор 6: Прегледајте содржина со висок ризик

Скенираните документи често содржат токму содржина што бара внимателен преглед: стари договори, владини формулари, академски трудови, прирачници, историски документи и книжни страници.

Рачно прегледајте ги овие ставки:

  • Имиња
  • Датуми
  • Броеви
  • Адреси
  • Кодови на производи
  • Правни упатувања
  • Цитати
  • Ознаки во табели
  • Единици
  • Равенки
  • Натписи
  • Фусноти

За истражувачки и академски датотеки, прочитајте го и водичот за преведување академски истражувачки трудови, затоа што скенираните академски PDF-датотеки додаваат ризици со цитати и распоред над веќе постојниот OCR-ризик.

Споредбени примери на неуспех

Користете ја оваа табела додека го прегледувате OCR-излезот.

Оригиналниот скен веројатно покажуваЛош OCR-излезЗошто е важно
modernmodemЗначењето се менува целосно.
Section 10Section IOПравните или техничките упатувања можат да станат неупотребливи.
20262O26Датумите и идентификаторите стануваат недоверливи.
patientpatlentМедицинските или техничките термини стануваат погрешни.
Две одвоени колониЕден споен пасусПреводот ги чита речениците по погрешен редослед.
Ред од табела со ознаки и вредностиЕдна линија со измешан текстПодатоците повеќе не се врзуваат за точната ознака.
Ознака за фуснота 1Буква lБелешките може да се поврзат со погрешната реченица.

Ако ги гледате овие грешки во OCR-слојот, поправете го OCR пред превод.

Која алатка треба да ја користите?

Изберете според сложеноста на документот.

ДокументПрепорачан пристап
Чист деловен скенOCR во Acrobat или друга сигурна OCR-алатка, па потоа Преведувач за PDF.
Скен од стара книгаИсправете го наклонот и подобрете го контрастот, внимателно пуштете OCR, па преведете.
Скен од академски трудOCR, преглед на равенки/цитати/табели, па потоа превод со преглед на распоредот.
Ракописни белешкиМоже да биде потребна рачна транскрипција пред превод.
Едноставен личен документОнлајн OCR може да биде прифатлив ако ризикот за приватност е низок.
Чувствителен документКористете локален OCR или доверлив контролиран процес.

Ако сакате поширока споредба на алатки, погледнете го водичот за најдобрите PDF-преведувачи.

Чести проблеми со скенирани PDF-датотеки

Страници со ниска резолуција

Скенови со ниска резолуција ги заматуваат буквите една со друга. OCR може да ги помеша rn и m, cl и d, или интерпункција и прашина.

Решение: повторно скенирајте ако е можно. Ако не, зголемете го контрастот и пробајте повторно со OCR.

Искривени или закривени страници

Скенови од книги често се закривуваат близу коренот. OCR лошо ги чита закривените линии и може да го пререди текстот.

Решение: израмнете ја страницата, повторно скенирајте или користете OCR-алатка со исправување на наклон и отстранување на деформации.

Повеќеколонски распоред

OCR може да ги спои левата и десната колона во еден тек од реченици.

Решение: проверете го редоследот на читање пред превод. Академските трудови бараат посебно внимание тука.

Табели

Табелите се тешки затоа што OCR мора да препознае и текст и структура. Табелата може визуелно да изгледа точна, а текстуалниот слој да биде погрешен.

Решение: копирајте го OCR-текстот од табелата и потврдете дека ознаките сè уште одговараат на вредностите.

Ракопис и потписи

OCR за печатен текст е многу посигурен од препознавањето ракопис. Ракописни маргинални белешки, потписи и пополнети формулари може да бидат пропуштени или изобличени.

Решение: рачно препишете го суштинскиот ракопис пред превод.

Измешани јазици

OCR работи најдобро кога го знае изворниот јазик. Скен со англиски, француски и кинески може да не успее ако OCR е поставен само на еден јазик.

Решение: изберете ги сите релевантни OCR-јазици ако алатката го поддржува тоа, а потоа проверете го секој јазичен дел на неколку места.

Контролна листа за приватност и безбедност

Пред да поставите скениран PDF каде било, прашајте:

  • Дали документот содржи лични податоци?
  • Дали вклучува медицински, правни, финансиски, академски или необјавени материјали?
  • Дали е опфатен со договор со клиент или со училишна политика?
  • Дали онлајн OCR-услуга е дозволена за овој документ?
  • Дали наместо тоа ви треба локален процес?
  • Можете ли да ги отстраните страниците што не треба да се преведат?

Скенираните PDF-датотеки често се чувствителни затоа што доаѓаат од договори, лични документи, формулари, нацрти за истражување и внатрешни архиви. Третирајте ги одлуките за OCR-поставување исто како што би го третирале оригиналниот документ.

ЧПП

Како да преведам скениран PDF?

Прво пуштете OCR за да создадете текстуален слој, прегледајте го OCR-излезот, а потоа преведете го PDF-от обработен со OCR со Преведувач за PDF. Не го прескокнувајте чекорот за OCR-преглед.

Зошто Google Translate не го преведе мојот скениран PDF?

PDF-от можеби содржи само слики. Ако нема текстуален слој, Google Translate нема текст што може да го извлече. Прво користете OCR, па потоа преведувајте. Процесот специфичен за Google е опфатен во водичот за PDF во Google Translate.

Може ли ChatGPT да преведе скениран PDF?

ChatGPT може да помогне со поединечни слики или извлечен текст, но повеќестраничен скениран PDF и понатаму бара OCR и преглед. За целосен процес за документи, прво OCR, па потоа користете процес за превод на PDF.

Која е најдобрата OCR-алатка за скенирани PDF-датотеки?

Зависи од документот. Алатките во стилот на Acrobat и ABBYY се корисни за општи и сложени скенови. Tesseract или OCRmyPDF е корисен за локални технички процеси. Онлајн OCR може да биде во ред за едноставни датотеки со низок ризик, но приватноста и квалитетот варираат.

Може ли OCR да го зачува форматирањето?

OCR може да создаде текстуален слој и понекогаш да го врати редоследот на читање, но тоа не е исто што и зачувување на оригиналниот преведен распоред. По OCR, користете процес за превод на PDF и прегледајте го резултатот според оригиналот.

Што ако квалитетот на OCR е лош?

Подобрете го скенот пред да преведувате. Повторно скенирајте ако е можно, исправете ги страниците, зголемете го контрастот, исечете го нередот, изберете го точниот OCR-јазик и повторно прегледајте ги тешките страници.