BookTranslator
BookTranslator

Сканланган PDF-ны ничек тәрҗемә итәргә: OCR + тәрҗемә буенча тулы кулланма

Сканланган PDF-ларда чын текст түгел, ә текст рәсемнәре була — шуңа күрә Google Translate аларны үзгәрешсез кайтара. Моны төзәтә торган OCR + AI эш агымы менә шушы.

BookTranslator

BookTranslator Team

Тәрҗемә кулланмалары10 min read

Кыска җавап: Сканланган PDF-ны тәрҗемә иткәнче OCR кирәк

Сканланган PDF-ны тәрҗемә итү өчен, башта OCR эшләтеп бит рәсемнәрен сайлап алына торган текстка әйләндерегез. Аннары OCR эшкәрткән PDF-ны PDF тәрҗемәчесе кебек документ тәрҗемәчесе белән тәрҗемә итегез. Әгәр OCR-ны үткәреп җибәрсәгез, күп тәрҗемә кораллары оригинал файлны үзгәрешсез кайтарачак, кайбер битләрне төшереп калдырачак, яисә инде текст катламы булган өлешләрне генә тәрҗемә итәчәк.

Менә шушы эш агымын кулланыгыз:

  1. PDF-ны ачыгыз һәм бер җөмләне сайлап карагыз.
  2. Әгәр текстны сайлап булмаса, OCR эшләтегез.
  3. Тәрҗемә алдыннан OCR текстын тикшерегез.
  4. OCR эшкәрткән PDF-ны PDF тәрҗемәчесе сервисына йөкләгез.
  5. Тәрҗемә нәтиҗәсен оригинал скан белән чагыштырып тикшерегез.

Әгәр PDF-та инде сайлап алына торган текст бар икән һәм проблема макетны саклауда булса, форматлауны югалтмыйча PDF тәрҗемә итү кулланмасын карагыз.

Ни өчен сканланган PDF-лар тәрҗемә коралларында эшләми

Сканланган PDF еш кына PDF контейнеры эчендәге бит рәсемнәре җыелмасы гына була. Кеше биттә сүзләрне күрә, ләкин программа чыгарып ала алырлык чын текст файлда булмаска мөмкин.

Бу гади бер өзеклек тудыра:

File typeWhat the translator seesWhat happens
Текст нигезендәге PDFТекст һәм макет турында мәгълүматТәрҗемәне шунда ук башларга мөмкин.
Рәсем генә булган сканланган PDFБит рәсемнәреБашта OCR кирәк.
Рәсем өстендә текст катламы булган PDFСкан рәсеме һәм яшерен OCR текст катламыТәрҗемә эшләргә мөмкин, ләкин OCR хаталары сыйфатка тәэсир итә.

Иң файдалы тикшерү техник түгел:

  1. PDF-ны ачыгыз.
  2. Аерым сүзләрне билгеләп карагыз.
  3. Бер җөмләне күчереп алыгыз.
  4. Аны текст редакторына ябыштырыгыз.

Әгәр җөмлә дөрес ябыштырылса, PDF-та текст катламы бар. Әгәр бернәрсә дә ябыштырылмаса, яисә бөтен бит бер рәсем кебек тотса, PDF-ка OCR кирәк.

OCR мәҗбүри

OCR — оптик символларны тану. Ул рәсемнән текстны укый һәм машина укый ала торган текст булдыра. PDF тәрҗемәсе өчен OCR гадәттә сканланган бит өстендә күренми торган текст катламы ясый.

Тәрҗемә өчен чыганак нәкъ шул текст катламы була. OCR хата җибәрсә, тәрҗемә дә шул хаталарны кабатлый.

OCR-ның киң таралган хаталары:

OCR mistakeTranslation risk
rn ны m дип укуСүзләрнең мәгънәсе үзгәрә.
1 не l дип укуСаннар, сылтамалар яки кодлар ялгыш була.
O ны 0 дип укуID, формула һәм исемнәр бозылырга мөмкин.
Диакритик билгеләр төшеп калуИсемнәр һәм терминнар төгәлсезләнә.
Баганалар кушылып китүҖөмләләр дөрес булмаган тәртиптә тәрҗемә ителә.
Таблица күзәнәкләрен юллап ялгыш укуМәгълүмат билгеләре кыйммәтләр белән туры килми.
Искәрмәләрне төп текст итеп кабул итүЦитаталар һәм искәрмәләр ялгыш контекстка күчә.

Шуңа күрә OCR-ны тикшерү адымы мөһим. Алынган текстны сайлап тикшермичә, сканланган документны тәрҗемә итмәгез.

Башта OCR: эш агымы

1 адым: PDF төрен билгеләгез

Текстны сайлап карагыз. Әгәр сайлау эшләсә, OCR кирәк булмаска мөмкин. Әгәр сайлау эшләмәсә, файлны рәсем генә булган документ дип кабул итегез.

Битне күз белән дә тикшерегез:

  • Авыш битләр скан булуын күрсәтә.
  • Соры кәгазь текстурасы скан булырга мөмкин.
  • Төпләү урыны янында күләгәләр булса, бу фотога төшерелгән китап булырга мөмкин.
  • Тигез булмаган контраст фотокүчермәне күрсәтә.
  • Эзләү күренеп торган сүзләрне тапмаса, текст катламы юк дигән сүз.

2 адым: Мөмкин булса, сканны яхшыртыгыз

OCR сыйфаты рәсем сыйфатыннан башлана. Әгәр яңадан сканлау мөмкинлеге бар икән, OCR хаталарын төзәтүгә вакыт әрәм иткәнче моны эшләгез.

Бу рәсем сыйфаты тикшерү исемлеген кулланыгыз:

  • Вак текст өчен җитәрлек югары ачыклыкта сканлагыз.
  • Битләрне яссы һәм туры тотыгыз.
  • Төпләү урыны янында күләгәләр булдырмагыз.
  • Таблица кырларын, бармакларны яки фондагы артык детальләрне кисеп алыгыз.
  • Текст белән бит арасында көчле контраст булдырыгыз.
  • Юл тулысынча күренсен.
  • Битнең дөрес юнәлешен кулланыгыз.
  • Рәсемне хәрефләр тоныкланырлык дәрәҗәдә кысмагыз.

Иске китаплар һәм фотокүчермәләр өчен иң зур файда гадәттә авышлыкны төзәтүдән, контрастны көйләүдән һәм фокустан чыккан битләрне яңадан сканлаудан килә.

3 адым: OCR эшләтегез

OCR коралын брендка карап түгел, документка карап сайлагыз.

OCR optionBest forWatch out for
Adobe Acrobat OCRГомуми бизнес сканнары һәм PDF-ны чистартуАңа таянганчы, гамәлдәге планга керү мөмкинлеген тикшерегез.
ABBYY FineReaderКатлаулы сканнар, таблицалар, баганалар һәм авыр макетларБарыбер кул белән тикшерү кирәк.
Tesseract or OCRmyPDFҖирле, техник һәм кабатлана торган OCR эш агымнарыКоманда юлы кораллары белән эшли белүне таләп итә.
Online OCR toolsРизыклары аз булган сирәк файлларХосусыйлык, файл чикләре һәм сыйфат төрлечә.
Phone scanning appsЯңа сканны тиз төшерүПерспектива бозылуы OCR сыйфатына зыян китерергә мөмкин.

Ябык контрактлар, медицина язмалары, финанс документлары, бастырылмаган кулъязмалар яки карала торган фәнни эшләр өчен җирле OCR эш агымын яисә ышанычлы мохитне өстен күрегез. Сизгер сканнарны очраклы бушлай OCR сайтларына йөкләмәгез.

4 адым: OCR текстын тикшерегез

Тәрҗемәдән соң түгел, тәрҗемәгә кадәр тикшерегез. Берничә катлаулы биттән текстны күчереп алып, аның укыла торган булуын карагыз.

Тикшерү өчен үрнәк битләр:

  • Титул бите.
  • Тыгыз төп текст булган бит.
  • Таблица бите.
  • Искәрмәләр булган бит.
  • Вак текстлы бит.
  • Мөһерләр, кулъязма яки кыр язмалары булган бит.
  • Документ күптелле булса, һәр телдән бер бит.

Менә нәрсәләрне эзләгез:

  • Югалган абзацлар.
  • Кушылып киткән баганалар.
  • Бозылган сүзләр.
  • Ялгыш символлар.
  • Югалган диакритик билгеләр.
  • Таблица билгеләренең кыйммәтләрдән аерылып калуы.
  • Төп текст эченә кертелгән башлыклар.
  • Җөмләләр арасына буталып кергән бит номерлары.

Әгәр OCR сыйфаты начар булса, моны тәрҗемә алдыннан төзәтегез. OCR бөтенләй эләктермәгән мәгънәне тәрҗемәче ышанычлы рәвештә кире кайтара алмый.

5 адым: OCR эшкәрткән PDF-ны тәрҗемә итегез

PDF-та чиста текст катламы булгач, аны PDF тәрҗемәчесе сервисына йөкләгез. Хәзер тәрҗемә адымы бит рәсемнәре белән түгел, ә текст белән эшли ала.

Тәрҗемәдән соң боларны чагыштырыгыз:

  • Оригинал скан
  • OCR текст катламы
  • Тәрҗемә ителгән PDF

Бу өчьяклы тикшерү хата OCR-дан килдеме, әллә тәрҗемәдәнме икәнен аңларга ярдәм итә. Әгәр OCR тексты ялгыш булса, OCR-ны яңадан эшләтегез. Әгәр OCR тексты дөрес, ләкин тәрҗемә ялгыш булса, тәрҗемәне төзәтегез.

6 адым: Югары хәвефле эчтәлекне тикшерегез

Сканланган документларда еш кына аеруча игътибар белән тикшерелергә тиешле эчтәлек була: иске контрактлар, дәүләт формалары, фәнни мәкаләләр, кулланмалар, тарихи документлар һәм китап битләре.

Бу әйберләрне кул белән тикшерегез:

  • Исемнәр
  • Даталар
  • Саннар
  • Адреслар
  • Продукт кодлары
  • Хокукый сылтамалар
  • Цитаталар
  • Таблица билгеләре
  • Үлчәм берәмлекләре
  • Тигезләмәләр
  • Рәсем астындагы язулар
  • Искәрмәләр

Тикшеренү һәм академик файллар өчен академик фәнни мәкаләләрне тәрҗемә итү кулланмасын да укыгыз, чөнки сканланган академик PDF-ларда OCR хәвефенә өстәп цитаталар һәм макет белән бәйле өстәмә хәвефләр дә була.

Янәшә чагыштыру өчен хата мисаллары

OCR нәтиҗәсен тикшергәндә бу таблицаны кулланыгыз.

Original scan likely showsBad OCR outputWhy it matters
modernmodemМәгънә тулысынча үзгәрә.
Section 10Section IOХокукый яки техник сылтамалар бозылырга мөмкин.
20262O26Даталар һәм ID-лар ышанычсызга әйләнә.
patientpatlentМедицина яки техник терминнар ялгыш була.
Ике аерым баганаБер кушылган абзацТәрҗемә җөмләләрне ялгыш тәртиптә укый.
Билгеләр һәм кыйммәтләр булган таблица юлыБуталган тексттан торган бер юлМәгълүмат инде дөрес билгегә туры килми.
Искәрмә тамгасы 1l хәрефеИскәрмәләр ялгыш җөмләгә бәйләнергә мөмкин.

Әгәр OCR катламында шушы хаталарны күрсәгез, тәрҗемә алдыннан OCR-ны төзәтегез.

Кайсы коралны сайларга?

Сайлауны документның катлаулылыгына карап ясагыз.

DocumentRecommended path
Чиста бизнес сканыAcrobat-та яки башка ышанычлы OCR коралында OCR эшләтегез, аннары PDF тәрҗемәчесе кулланыгыз.
Иске китап сканыАвышлыкны төзәтегез, контрастны яхшыртыгыз, OCR-ны игътибар белән эшләтегез, аннары тәрҗемә итегез.
Фәнни мәкалә сканыOCR эшләтегез, тигезләмәләрне/цитаталарны/таблицаларны тикшерегез, аннары макетны карап тәрҗемә итегез.
Кулъязма язмаларТәрҗемә алдыннан кул белән күчереп язу кирәк булырга мөмкин.
Гади шәхси документХосусыйлык хәвефе түбән булса, онлайн OCR ярый ала.
Сизгер документҖирле OCR яки ышанычлы, контрольдә тотылган эш агымын кулланыгыз.

Әгәр коралларны киңрәк чагыштыру кирәк булса, иң яхшы PDF тәрҗемәчесе буенча кулланма белән танышыгыз.

Сканланган PDF-ларда киң таралган проблемалар

Түбән ачыклыктагы битләр

Түбән ачыклыктагы сканнар хәрефләрне бер-берсенә кушып күрсәтә. OCR rn белән m ны, cl белән d ны, яки тыныш билгеләрен һәм чүп-тозанны бутарга мөмкин.

Чишелеш: мөмкин булса, яңадан сканлагыз. Әгәр мөмкин булмаса, контрастны арттырыгыз һәм OCR-ны яңадан эшләтеп карагыз.

Авыш яки бөгелгән битләр

Китап сканнары еш кына төпләү урыны янында бөгелә. OCR бөгелгән юлларны начар укый һәм текст тәртибен бутарга мөмкин.

Чишелеш: битне яссылагыз, яңадан сканлагыз, яисә авышлыкны төзәтү һәм битне турайту функциясе булган OCR коралын кулланыгыз.

Күп баганалы макет

OCR сул һәм уң баганаларны бер өзлексез җөмлә агымына кушып җибәрергә мөмкин.

Чишелеш: тәрҗемә алдыннан уку тәртибен тикшерегез. Монда фәнни мәкаләләр аеруча игътибар таләп итә.

Таблицалар

Таблицалар авыр, чөнки OCR текстны да, структураны да танырга тиеш. Таблица күзгә дөрес күренергә мөмкин, ләкин текст катламы ялгыш булырга мөмкин.

Чишелеш: таблицадан OCR текстын күчереп алып, билгеләрнең һаман да тиешле кыйммәтләргә туры килүен тикшерегез.

Кулъязма һәм имзалар

Басма текст өчен OCR кулъязманы тануга караганда күпкә ышанычлырак. Кырдагы кулдан язылган искәрмәләр, имзалар һәм тутырылган формалар төшеп калырга яки бозылып танылырга мөмкин.

Чишелеш: мөһим кулъязма өлешләрне тәрҗемә алдыннан кул белән күчереп языгыз.

Катнаш телләр

OCR чыганак телен белгәндә яхшырак эшли. Эчендә инглиз, француз һәм кытай телләре булган скан, OCR бер генә телгә көйләнгән булса, начар нәтиҗә бирергә мөмкин.

Чишелеш: әгәр корал хупласа, OCR өчен тиешле барлык телләрне сайлагыз, аннары һәр тел бүлеген аерым тикшерегез.

Хосусыйлык һәм куркынычсызлык тикшерү исемлеге

Сканланган PDF-ны кая да булса йөкләгәнче, үзегездән сорагыз:

  • Документта шәхси мәгълүмат бармы?
  • Анда медицина, хокукый, финанс, академик яисә бастырылмаган материал бармы?
  • Ул клиент килешүе яки уку йорты кагыйдәсе белән чикләнәме?
  • Бу документ өчен онлайн OCR сервисын кулланырга ярыймы?
  • Киресенчә, җирле эш агымы кирәкмиме?
  • Тәрҗемә кирәк булмаган битләрне алып ташлап буламы?

Сканланган PDF-лар еш кына сизгер була, чөнки алар контрактлардан, шәхес документларыннан, формалардан, тикшеренү караламаларыннан һәм эчке архивлардан килә. OCR-га йөкләү турында карарларны оригинал документка мөнәсәбәт кебек үк кабул итегез.

FAQ

Сканланган PDF-ны ничек тәрҗемә итәргә?

Башта текст катламы булдыру өчен OCR эшләтегез, OCR нәтиҗәсен тикшерегез, аннары OCR эшкәрткән PDF-ны PDF тәрҗемәчесе белән тәрҗемә итегез. OCR тикшерү адымын үткәреп җибәрмәгез.

Ни өчен Google Translate минем сканланган PDF-ны тәрҗемә итмәде?

PDF файл рәсем генә булырга мөмкин. Әгәр текст катламы юк икән, Google Translate-ның чыгарып алырлык тексты да юк. Башта OCR эшләтегез, аннары тәрҗемә итегез. Google өчен махсус эш агымы Google Translate PDF кулланмасы эчендә аңлатыла.

ChatGPT сканланган PDF-ны тәрҗемә итә аламы?

ChatGPT аерым рәсемнәр яки чыгарылган текст белән ярдәм итә ала, ләкин күп битле сканланган PDF өчен барыбер OCR һәм тикшерү кирәк. Тулы документ эш агымы өчен башта OCR эшләтегез, аннары PDF тәрҗемәсе эш агымын кулланыгыз.

Сканланган PDF-лар өчен иң яхшы OCR коралы кайсы?

Бу документка бәйле. Acrobat һәм ABBYY тибындагы кораллар гомуми һәм катлаулы сканнар өчен файдалы. Tesseract яки OCRmyPDF җирле техник эш агымнары өчен уңайлы. Онлайн OCR гадирәк, хәвефе түбән файллар өчен ярый, ләкин хосусыйлык һәм сыйфат төрлечә була.

OCR форматлауны саклый аламы?

OCR текст катламы булдыра һәм кайвакыт уку тәртибен дә кире кайтара ала, ләкин бу оригинал тәрҗемә ителгән макетны саклау белән бер үк нәрсә түгел. OCR-дан соң PDF тәрҗемәсе эш агымын кулланыгыз һәм нәтиҗәне оригинал белән чагыштырып тикшерегез.

OCR сыйфаты начар булса нишләргә?

Тәрҗемә алдыннан сканны яхшыртыгыз. Мөмкин булса, яңадан сканлагыз, битләрнең авышлыгын төзәтегез, контрастны арттырыгыз, артык детальләрне кисеп алыгыз, OCR өчен дөрес телне сайлагыз һәм катлаулы битләрне яңадан тикшерегез.