BookTranslator
BookTranslator

Сканланған PDF-ты нисек тәржемә итергә: OCR + тәржемә буйынса тулы ҡулланма

Сканланған PDF-тарҙа ысын текст түгел, ә текст һүрәттәре генә була — шуға Google Translate уларҙы үҙгәрешһеҙ ҡайтара. Быны төҙәтеүсе OCR + AI эш ағымы бына ошонда.

BookTranslator

BookTranslator Team

Тәржемә ҡулланмалары10 min read

Ҡыҫҡа яуап: Сканланған PDF-ҡа тәржемә алдынан OCR кәрәк

Сканланған PDF-ты тәржемә итеү өсөн, тәүҙә OCR эшләтеп, биттәрҙең һүрәттәрен билдәләп алырлыҡ текстҡа әйләндерегеҙ. Унан һуң OCR менән эшкәртелгән PDF-ты PDF тәржемәсеһе кеүек документ тәржемәсеһе аша тәржемә итегеҙ. Әгәр OCR-ҙы үткәреп ебәрһәгеҙ, күп тәржемә ҡоралдары оригинал файлды үҙгәрешһеҙ ҡайтарасаҡ, ҡайһы бер биттәрҙе төшөрөп ҡалдырасаҡ йәки текст ҡатламы булған өлөштәрҙе генә тәржемә итәсәк.

Ошо эш тәртибен ҡулланығыҙ:

  1. PDF-ты асығыҙ һәм бер һөйләмде билдәләп ҡарағыҙ.
  2. Тексты билдәләп булмаһа, OCR эшләтегеҙ.
  3. Тәржемә алдында OCR текстын тикшерегеҙ.
  4. OCR менән эшкәртелгән PDF-ты PDF тәржемәсеһе сервисына йөкләгеҙ.
  5. Тәржемә ителгән һөҙөмтәне оригинал скан менән сағыштырып тикшерегеҙ.

Әгәр PDF-ығыҙҙа инде билдәләп алырлыҡ текст бар икән һәм мәсьәлә макетты һаҡлауҙа булһа, форматлауҙы юғалтмайынса PDF тәржемә итеү буйынса ҡулланманы ҡарағыҙ.

Ни өсөн сканланған PDF-тар тәржемә ҡоралдарында эшләмәй

Сканланған PDF йыш ҡына PDF контейнеры эсендәге бит һүрәттәре йыйылмаһы ғына була. Кеше биттә һүҙҙәрҙе күрә ала, ләкин файлда программалар сығарып ала торған ысын текст булмаҫҡа мөмкин.

Был ябай ғына өҙөклөк тыуҙыра:

Файл төрөТәржемәсе нимә күрәНимә була
Текстлы PDFТекст һәм макет мәғлүмәтеТәржемә шунда уҡ башлана ала.
Тик һүрәттән торған скан PDFБиттәрҙең һүрәттәреТәүҙә OCR кәрәк.
Һүрәт өҫтөндә текст ҡатламы булған PDFСкан һүрәте һәм йәшерен OCR текст ҡатламыТәржемә эшләй ала, ләкин OCR хаталары сифатҡа тәьҫир итә.

Иң файҙалы тест техник түгел:

  1. PDF-ты асығыҙ.
  2. Айырым һүҙҙәрҙе билдәләп ҡарағыҙ.
  3. Бер һөйләмде күсереп алығыҙ.
  4. Уны текст мөхәрриренә ҡуйығыҙ.

Әгәр һөйләм дөрөҫ ҡуйылһа, PDF-та текст ҡатламы бар. Әгәр бер нәмә лә ҡуйылмаһа йәки бөтә бит бер һүрәт кеүек тотһа, PDF-ҡа OCR кәрәк.

OCR-ҙан баш тартып булмай

OCR — оптик символдарҙы таныу. Ул һүрәттән текст уҡый һәм машина уҡый алған текст булдыра. PDF тәржемәһендә OCR ғәҙәттә сканланған бит өҫтөндә күренмәгән текст ҡатламы барлыҡҡа килтерә.

Шул текст ҡатламы тәржемә өсөн сығанаҡҡа әйләнә. OCR хата яһаһа, тәржемә лә шул хаталарҙы ҡабатлай.

OCR-ҙа йыш осраған хаталар:

OCR хатаһыТәржемәләге хәүеф
rn m итеп уҡылаҺүҙҙәрҙең мәғәнәһе үҙгәрә.
1 l итеп уҡылаҺандар, һылтанмалар йәки кодтар хаталы була.
O 0 итеп уҡылаID-лар, формулалар һәм исемдәр боҙола ала.
Диакритикалар төшөп ҡалаИсемдәр һәм терминдар аныҡлығын юғалта.
Бағаналар бергә ҡушылаҺөйләмдәр яңылыш тәртиптә тәржемә ителә.
Таблица күҙәнәктәре юллап яңылыш уҡылаМәғлүмәт тамғалары ҡиммәттәргә тап килмәй башлай.
Аҫҡы иҫкәрмәләр төп текст итеп ҡабул ителәҺылтанмалар һәм иҫкәрмәләр яңылыш контекстҡа күсә.

Шуға күрә OCR-ҙы тикшереү этабы мөһим. Сығарылған тексты күҙ йүгертеп тикшергәнсе сканланған документты тәржемә итмәгеҙ.

Тәүҙә OCR: эш барышы

1-се аҙым: PDF төрөн билдәләгеҙ

Тексты билдәләп ҡарағыҙ. Билдәләү эшләһә, OCR кәрәкмәҫкә мөмкин. Билдәләү эшләмәһә, файлды тик һүрәттән торған файл тип ҡабул итегеҙ.

Шулай уҡ битте күҙ менән ҡарап сығығыҙ:

  • Ҡыйыш биттәр скан икәнен күрһәтә.
  • Һоро ҡағыҙ фактураһы скан икәнен күрһәтә.
  • Төпләү янында күләгәләр булһа, был фотоға төшөрөлгән китап булыуы мөмкин.
  • Тигеҙ булмаған контраст күсермә документты аңлата.
  • Эҙләү күренгән һүҙҙәрҙе тапмаһа, текст ҡатламы юҡтыр.

2-се аҙым: Мөмкин булһа, сканды яҡшыртығыҙ

OCR сифаты һүрәт сифаты менән башлана. Ҡабаттан сканлау мөмкинлеге булһа, OCR хаталарын төҙәтеүгә ваҡыт сарыф иткәнсе шуны эшләгеҙ.

Һүрәт сифаты өсөн ошондай тикшереү исемлеген ҡулланығыҙ:

  • Ваҡ текст өсөн етерлек юғары айырымлыҡта сканлағыҙ.
  • Биттәрҙе тигеҙ һәм тура тотоғоҙ.
  • Төпләү янында күләгә булдырмағыҙ.
  • Өҫтәл ситтәрен, бармаҡтарҙы йәки артыҡ фонды киҫеп алып ташлағыҙ.
  • Текст менән бит араһында аныҡ контраст булдырығыҙ.
  • Һәр юл тулыһынса күренеп торһон.
  • Биттең дөрөҫ йүнәлешен ҡулланығыҙ.
  • Һүрәтте хәрефтәр тоноҡланырлыҡ итеп артыҡ ҡыҫмағыҙ.

Иҫке китаптар һәм күсермәләр өсөн иң ҙур файҙа ғәҙәттә ҡыйшайыуҙы төҙәтеүҙән, контрасты көйләүҙән һәм фокустан сыҡҡан биттәрҙе ҡабат сканлауҙан килә.

3-сө аҙым: OCR эшләтегеҙ

OCR ҡоралын брендҡа ҡарап түгел, документҡа ҡарап һайлағыҙ.

OCR вариантыНимә өсөн яҡшыраҡНимәгә иғтибар итергә
Adobe Acrobat OCRДөйөм бизнес скандары һәм PDF-ты таҙартыуУға таяныр алдынан ағымдағы тариф мөмкинлеген тикшерегеҙ.
ABBYY FineReaderҠатмарлы скандар, таблицалар, бағаналар һәм ауыр макеттарБарыбер ҡул менән тикшереү талап ителә.
Tesseract йәки OCRmyPDFЛокаль, техник, ҡабатланырлыҡ OCR эш ағымдарыКоманда юлындағы ҡоралдар менән уңайлы эш итә белеү кәрәк.
Онлайн OCR ҡоралдарыТүбән хәүефле, һирәк ҡулланылған файлдарХосусилыҡ, файл сикләүҙәре һәм сифат төрлөсә.
Телефондан сканлау ҡушымталарыЯңы сканды тиҙ генә төшөрөүПерспектива боҙолоуы OCR-ға ҡамасаулай ала.

Шәхси килешеүҙәр, медицина яҙмалары, финанс документтары, баҫылмаған ҡулъяҙмалар йәки ҡаралып ятҡан академик эштәр өсөн локаль OCR эш ағымын йә ышаныслы мөхитте өҫтөн күрегеҙ. Һиҙгер скандарҙы осраҡлы бушлай OCR сайттарына йөкләмәгеҙ.

4-се аҙым: OCR текстын тикшерегеҙ

Тикшереүҙе тәржемәнән һуң түгел, ә тәржемә алдынан башҡарығыҙ. Бер нисә ҡатмарлы биттән текст күсереп алып, уның уҡырлыҡ булыуын тикшерегеҙ.

Тикшерергә кәрәкле өлгө биттәр:

  • Титул бите.
  • Текст тығыҙ урынлашҡан төп бит.
  • Таблицалы бит.
  • Аҫҡы иҫкәрмәләр булған бит.
  • Ваҡ шрифтлы бит.
  • Мөрҙәр, ҡулдан яҙылған яҙмалар йәки ситкә яҙылған иҫкәрмәләр булған бит.
  • Документ күп телле булһа, һәр телдәге бит.

Быларҙы эҙләгеҙ:

  • Юғалған абзацтар.
  • Берләштерелгән бағаналар.
  • Бүленеп боҙолған һүҙҙәр.
  • Яңылыш символдар.
  • Юғалған диакритикалар.
  • Таблица тамғаларының ҡиммәттәрҙән айырылауы.
  • Башлыҡтарҙың төп текст эсенә инеп китеүе.
  • Бит һандарының һөйләмдәргә буталыуы.

Әгәр OCR сифаты насар булһа, тәржемәгә тиклем уны төҙәтегеҙ. OCR бөтөнләй тота алмаған мәғәнәне тәржемәсе ышаныслы рәүештә кире ҡайтара алмай.

5-се аҙым: OCR менән эшкәртелгән PDF-ты тәржемә итегеҙ

PDF-та таҙа текст ҡатламы барлыҡҡа килгәс, уны PDF тәржемәсеһенә йөкләгеҙ. Хәҙер тәржемә этабы бит һүрәттәре урынына текст менән эшләй ала.

Тәржемәнән һуң ошоны сағыштырығыҙ:

  • Оригинал скан
  • OCR текст ҡатламы
  • Тәржемә ителгән PDF

Был өс яҡлы тикшереү хатаның OCR-ҙанмы, әллә тәржемәнәнме килгәнен аңларға ярҙам итә. Әгәр OCR тексты хаталы булһа, OCR-ҙы яңынан эшләтегеҙ. Әгәр OCR тексты дөрөҫ, ә тәржемә хаталы булһа, тәржемәне төҙәтегеҙ.

6-сы аҙым: Юғары хәүефле контентты тикшерегеҙ

Сканланған документтар йыш ҡына айырыуса иғтибарлы тикшереү талап иткән контентты үҙ эсенә ала: иҫке килешеүҙәрҙе, дәүләт формаларын, академик мәҡәләләрҙе, ҡулланмаларҙы, тарихи документтарҙы һәм китап биттәрен.

Был элементтарҙы ҡул менән тикшерегеҙ:

  • Исемдәр
  • Даталар
  • Һандар
  • Адрестер
  • Продукт кодтары
  • Хоҡуҡи һылтанмалар
  • Цитаталар
  • Таблица тамғалары
  • Үлсәм берәмектәре
  • Тигеҙләмәләр
  • Подпистар
  • Аҫҡы иҫкәрмәләр

Фәнни тикшеренеү һәм академик файлдар өсөн академик тикшеренеү мәҡәләләрен тәржемә итеү буйынса ҡулланманы ла ҡарағыҙ, сөнки сканланған академик PDF-тар OCR хәүефенә өҫтәп цитаталар һәм макет менән бәйле хәүефтәр ҙә өҫтәй.

Сағыштырып ҡарау өсөн хата миҫалдары

OCR һөҙөмтәһен тикшергәндә ошо таблицаны ҡулланығыҙ.

Оригинал сканда, моғайын, былай күренәНасар OCR һөҙөмтәһеНи өсөн был мөһим
modernmodemМәғәнә тулыһынса үҙгәрә.
Section 10Section IOХоҡуҡи йәки техник һылтанмалар боҙолорға мөмкин.
20262O26Даталар һәм ID-лар ышанысһыҙға әйләнә.
patientpatlentМедицина йәки техник терминдар хаталы була.
Айырым ике бағанаБер ҡушылған абзацТәржемә һөйләмдәрҙе яңылыш тәртиптә уҡый.
Тамғалар һәм ҡиммәттәр булған таблица юлыБуталған тексттан торған бер юлМәғлүмәт дөрөҫ тамғаға бәйләнмәй.
Аҫҡы иҫкәрмә билдәһе 1l хәрефеИҫкәрмәләр яңылыш һөйләмгә бәйләнеүе мөмкин.

Әгәр OCR ҡатламында ошондай хаталар күрһәгеҙ, тәржемә алдынан OCR-ҙы төҙәтегеҙ.

Ниндәй ҡорал ҡулланырға?

Һайлауҙы документтың ҡатмарлылығына ҡарап эшләгеҙ.

ДокументТәҡдим ителгән юл
Таҙа бизнес сканыAcrobat-та йәки башҡа ышаныслы OCR ҡоралында OCR эшләтегеҙ, унан һуң PDF тәржемәсеһе менән эшләгеҙ.
Иҫке китап сканыҠыйшайыуҙы төҙәтегеҙ һәм контрасты яҡшыртығыҙ, OCR-ҙы ентекле эшкәртегеҙ, унан һуң тәржемә итегеҙ.
Академик мәҡәлә сканыOCR эшләтегеҙ, тигеҙләмәләрҙе, цитаталарҙы һәм таблицаларҙы тикшерегеҙ, унан һуң макетты тикшереп тәржемә итегеҙ.
Ҡулдан яҙылған яҙмаларТәржемә алдынан ҡул менән күсереп яҙыу талап ителергә мөмкин.
Ябай шәхси документХосусилыҡ хәүефе түбән булһа, онлайн OCR яраҡлы булырға мөмкин.
Һиҙгер документЛокаль OCR йәки ышаныслы, контролдә тотолған эш ағымын ҡулланығыҙ.

Ҡоралдарҙың киңерәк сағыштырыуын ҡарарға теләһәгеҙ, иң яҡшы PDF тәржемә ҡоралдары буйынса ҡулланманы уҡығыҙ.

Сканланған PDF-тарҙа йыш осраған проблемалар

Түбән айырымлыҡтағы биттәр

Түбән айырымлыҡтағы скандар хәрефтәрҙе бер-береһенә бутай. OCR rn менән m-ды, cl менән d-ны йәки тыныш билдәләрен һәм саңды бутарға мөмкин.

Сиселеш: мөмкин булһа, яңынан сканлағыҙ. Булмаһа, контрасты арттырығыҙ һәм OCR-ҙы ҡабаттан эшләтегеҙ.

Ҡыйшайған йәки бөгөлгән биттәр

Китап скандары йыш ҡына төпләү янында бөгөлә. OCR бөгөлгән юлдарҙы насар уҡый һәм текст тәртибен бутауы мөмкин.

Сиселеш: битте тигеҙләгеҙ, яңынан сканлағыҙ йәки ҡыйшайыуҙы һәм бөгөлөүҙе төҙәтеүсе OCR ҡоралын ҡулланығыҙ.

Күп бағаналы макет

OCR һул һәм уң бағаналарҙы бер өҙлөкһөҙ һөйләм ағымына ҡуша ала.

Сиселеш: тәржемә алдынан уҡыу тәртибен тикшерегеҙ. Был урында академик мәҡәләләр айырыуса иғтибар талап итә.

Таблицалар

Таблицалар ҡатмарлы, сөнки OCR-ға текстты ла, структураны ла таныу кәрәк. Күҙгә таблица дөрөҫ күренергә мөмкин, ләкин текст ҡатламы хаталы булыуы ихтимал.

Сиселеш: таблицанан OCR текстын күсереп алығыҙ һәм тамғаларҙың ҡиммәттәргә һаман да тап килеүен тикшерегеҙ.

Ҡулдан яҙылған яҙмалар һәм имзалар

Басма текст өсөн OCR ҡул яҙыуын таныуға ҡарағанда күпкә ышаныслыраҡ. Ситкә яҙылған ҡулъяҙма иҫкәрмәләр, имзалар һәм тултырылған формалар бөтөнләй төшөп ҡалырға йәки боҙолорға мөмкин.

Сиселеш: мөһим ҡулъяҙма өлөштәрен тәржемә алдынан ҡул менән күсереп яҙығыҙ.

Буташ телдәр

OCR сығанаҡ телде белгәндә иң яҡшы эшләй. Инглиз, француз һәм ҡытай телдәре булған скан, әгәр OCR бер генә телгә ҡуйылған булһа, хаталанырға мөмкин.

Сиселеш: ҡорал хуплаһа, тейешле бөтә OCR телдәрен һайлағыҙ, унан һуң һәр тел бүлеген күҙ йүгертеп тикшерегеҙ.

Хосусилыҡ һәм хәүефһеҙлек буйынса тикшереү исемлеге

Сканланған PDF-ты ҡайҙа ла булһа йөкләр алдынан үҙегеҙҙән һорағыҙ:

  • Документта шәхси мәғлүмәт бармы?
  • Унда медицина, хоҡуҡи, финанс, академик йәки баҫылмаған материал бармы?
  • Ул клиент килешеүе йәки уҡыу йорто ҡағиҙәләре менән көйләнәме?
  • Был документ өсөн онлайн OCR сервисын ҡулланыу рөхсәт ителәме?
  • Уның урынына локаль эш ағымы кәрәкме?
  • Тәржемә кәрәкмәгән биттәрҙе алып ташлай алаһығыҙмы?

Сканланған PDF-тар йыш ҡына һиҙгер була, сөнки улар килешеүҙәрҙән, таныҡлыҡтарҙан, формаларҙан, тикшеренеү ҡараламаларынан һәм эске архивтарҙан килә. OCR-ға йөкләү тураһында ҡарарҙы оригинал документҡа ҡараған кеүек үк етди ҡабул итегеҙ.

Йыш бирелгән һорауҙар

Сканланған PDF-ты нисек тәржемә итергә?

Тәүҙә текст ҡатламы булдырыу өсөн OCR эшләтегеҙ, OCR һөҙөмтәһен тикшерегеҙ, унан һуң OCR менән эшкәртелгән PDF-ты PDF тәржемәсеһе менән тәржемә итегеҙ. OCR тикшереү этабын үткәреп ебәрмәгеҙ.

Ни өсөн Google Translate минең сканланған PDF-ымды тәржемә итмәне?

PDF тик һүрәттән торған булыуы мөмкин. Әгәр текст ҡатламы юҡ икән, Google Translate сығарып алырлыҡ текст күрмәй. Тәүҙә OCR ҡулланығыҙ, унан һуң тәржемә итегеҙ. Google-ға хас эш тәртибе Google Translate PDF ҡулланмаһында аңлатыла.

ChatGPT сканланған PDF-ты тәржемә итә аламы?

ChatGPT айырым һүрәттәр йәки сығарылған текст менән ярҙам итә ала, ләкин күп битле сканланған PDF барыбер OCR һәм тикшереү талап итә. Тулы документ эш ағымы өсөн тәүҙә OCR эшләтегеҙ, унан һуң PDF тәржемә эш ағымын ҡулланығыҙ.

Сканланған PDF-тар өсөн иң яҡшы OCR ҡоралы ҡайһыһы?

Был документтың үҙенә бәйле. Acrobat һәм ABBYY һымаҡ ҡоралдар дөйөм һәм ҡатмарлы скандар өсөн файҙалы. Tesseract йәки OCRmyPDF локаль техник эш ағымдары өсөн уңайлы. Түбән хәүефле ябай файлдар өсөн онлайн OCR яраҡлы булырға мөмкин, ләкин хосусилыҡ һәм сифат төрлөсә.

OCR форматлауҙы һаҡлай аламы?

OCR текст ҡатламы булдыра һәм ҡайһы саҡ уҡыу тәртибен тергеҙә ала, ләкин был оригиналдың тәржемә ителгән макетын һаҡлау менән бер үк түгел. OCR-ҙан һуң PDF тәржемә эш ағымын ҡулланығыҙ һәм һөҙөмтәне оригинал менән сағыштырып тикшерегеҙ.

OCR сифаты насар булһа нимә эшләргә?

Тәржемә алдынан сканды яҡшыртығыҙ. Мөмкин булһа, ҡабат сканлағыҙ, биттәрҙең ҡыйшайыуын төҙәтегеҙ, контрасты арттырығыҙ, артыҡ элементтарҙы киҫеп ташлағыҙ, OCR өсөн дөрөҫ телде һайлағыҙ һәм ҡатмарлы биттәрҙе яңынан тикшерегеҙ.