BookTranslator
BookTranslator

Сканерленген PDF-ті қалай аударуға болады: OCR + аудару бойынша толық нұсқаулық

Сканерленген PDF файлдарында шынайы мәтін емес, мәтіннің суреттері болады — сондықтан Google Translate оларды өзгеріссіз қайтарады. Мұны түзететін OCR + AI жұмыс тәртібі міне осы.

BookTranslator

BookTranslator Team

Аудару нұсқаулықтары10 min read

Қысқа жауап: Сканерленген PDF-ті аудармас бұрын OCR қажет

Сканерленген PDF-ті аудару үшін алдымен OCR іске қосып, бет суреттерін таңдап алуға болатын мәтінге айналдырыңыз. Содан кейін OCR өңдеген PDF-ті PDF аудармашысы сияқты құжат аудармашысымен аударыңыз. Егер OCR кезеңін өткізіп жіберсеңіз, көптеген аударма құралдары бастапқы файлды өзгеріссіз қайтарады, кейбір беттерді өткізіп алады немесе тек мәтін қабаты бар бөліктерін ғана аударады.

Мына жұмыс тәртібін қолданыңыз:

  1. PDF-ті ашып, бір сөйлемді белгілеп көруге тырысыңыз.
  2. Мәтінді белгілей алмасаңыз, OCR іске қосыңыз.
  3. Аудармас бұрын OCR шығарған мәтінді тексеріңіз.
  4. OCR өңдеген PDF-ті PDF аудармашысы құралына жүктеңіз.
  5. Аударылған нәтижені түпнұсқа сканмен салыстырып шығыңыз.

Егер PDF-іңізде мәтінді белгілеп алуға болса және мәселе макетті сақтауда болса, PDF-ті форматтауды жоғалтпай аудару нұсқаулығын қараңыз.

Неліктен сканерленген PDF аударма құралдарында жұмыс істемейді

Сканерленген PDF көбіне PDF контейнерінің ішіне салынған бет суреттерінің жиынтығы ғана болады. Адам беттен сөздерді көре алады, бірақ бағдарламаның шығарып алуы үшін файлдың ішінде шынайы мәтін болмауы мүмкін.

Сондықтан мынадай қарапайым мәселе туындайды:

File typeWhat the translator seesWhat happens
Мәтіндік PDFМәтін және макет деректеріАударма бірден басталады.
Тек суреттен тұратын сканерленген PDFБеттердің суреттеріАлдымен OCR қажет.
Сурет үстіне мәтін қабаты қосылған PDFСкан суреті және жасырын OCR мәтін қабатыАудару мүмкін, бірақ OCR қателері сапаға әсер етеді.

Ең пайдалы тексеріс техникалық емес:

  1. PDF-ті ашыңыз.
  2. Жеке сөздерді белгілеп көріңіз.
  3. Бір сөйлемді көшіріңіз.
  4. Оны мәтіндік редакторға қойыңыз.

Егер сөйлем дұрыс қойылса, PDF-те мәтін қабаты бар деген сөз. Егер ештеңе қойылмаса немесе бүкіл бет бір ғана сурет сияқты әрекет етсе, PDF-ке OCR қажет.

OCR міндетті

OCR дегеніміз — optical character recognition, яғни оптикалық таңбаларды тану. Ол суреттен мәтінді оқып, машина оқи алатын мәтін жасайды. PDF аудармасында OCR әдетте сканерленген беттің үстіне көрінбейтін мәтін қабатын құрады.

Сол мәтін қабаты аударманың бастапқы көзіне айналады. OCR қате жіберсе, аударма да сол қателерді қайталайды.

OCR-дағы жиі қателер:

OCR mistakeTranslation risk
rn m ретінде оқыладыСөздердің мағынасы өзгеріп кетеді.
1 l ретінде оқыладыСандар, сілтемелер немесе кодтар қате болуы мүмкін.
O 0 ретінде оқыладыID, формула және атаулар бұзылып кетуі мүмкін.
Диакритикалар түсіп қаладыАтаулар мен терминдер дәл болмай қалады.
Бағандар бірігіп кетедіСөйлемдер қате ретпен аударылады.
Кесте ұяшықтары жол-жолымен қате оқыладыДерек белгілері енді мәндермен сәйкес келмейді.
Төменгі ескертпелер негізгі мәтін деп таныладыСілтемелер мен ескертпелер қате контекстке ауысады.

Сондықтан OCR нәтижесін тексеру кезеңі маңызды. Алынған мәтінді таңдап тексермей тұрып, сканерленген құжатты аудармаңыз.

OCR-ден басталатын жұмыс тәртібі

1-қадам: PDF түрін анықтау

Мәтінді белгілеп көріңіз. Егер белгілеу жұмыс істесе, OCR қажет болмауы мүмкін. Егер белгілеу мүмкін болмаса, файлды тек суреттен тұратын құжат деп қарастырыңыз.

Бетті көзбен де тексеріңіз:

  • Қисайған беттер бұл скан екенін көрсетеді.
  • Сұр қағаз фактурасы скан екенін аңғартады.
  • Тігіс тұсындағы көлеңкелер кітаптың фотоға түсірілгенін білдіреді.
  • Біркелкі емес контраст ксерокөшірмені білдіреді.
  • Іздеу көрініп тұрған сөздерді таппаса, мәтін қабаты жоқ болуы мүмкін.

2-қадам: Мүмкін болса, скан сапасын жақсартыңыз

OCR сапасы сурет сапасынан басталады. Егер қайта сканерлей алсаңыз, OCR қателерін түзетуге уақыт жұмсамай тұрып соны жасаңыз.

Мына сурет сапасын тексеру тізімін қолданыңыз:

  • Ұсақ мәтін анық шығатындай жеткілікті жоғары ажыратымдылықта сканерлеңіз.
  • Беттерді тегіс әрі түзу ұстаңыз.
  • Тігіс маңындағы көлеңкеден сақ болыңыз.
  • Үстел шеттерін, саусақтарды және артқы фондағы артық заттарды қиып тастаңыз.
  • Мәтін мен бет арасында айқын контраст болсын.
  • Жолдың толық көрініп тұрғанына көз жеткізіңіз.
  • Беттің дұрыс бағытын пайдаланыңыз.
  • Әріптер бұлдырап кететіндей етіп суретті шамадан тыс сығмаңыз.

Ескі кітаптар мен ксерокөшірмелерде ең үлкен нәтиже әдетте қиғаштықты түзетуден, контрастты реттеуден және фокустан шығып кеткен беттерді қайта сканерлеуден келеді.

3-қадам: OCR іске қосу

OCR құралын брендке емес, құжаттың өзіне қарай таңдаңыз.

OCR optionBest forWatch out for
Adobe Acrobat OCRЖалпы бизнес скандары мен PDF тазалау жұмыстарыСенім артпас бұрын, ағымдағы жоспарыңызда қолжетімді екенін тексеріңіз.
ABBYY FineReaderКүрделі скандар, кестелер, бағандар және қиын макеттерБәрібір қолмен тексеруді қажет етеді.
Tesseract or OCRmyPDFЖергілікті, техникалық, қайталанатын OCR жұмыс ағымдарыПәрмен жолы құралдарымен еркін жұмыс істеуді талап етеді.
Online OCR toolsТәуекелі төмен, анда-санда болатын файлдарҚұпиялылық, файл шектеулері және сапа әртүрлі болады.
Phone scanning appsЖаңа сканды жылдам түсіруПерспективадағы бұрмалану OCR сапасын нашарлатуы мүмкін.

Жеке келісімшарттар, медициналық жазбалар, қаржылық құжаттар, жарияланбаған қолжазбалар немесе қаралып жатқан академиялық жұмыстар үшін жергілікті OCR жұмыс тәртібін немесе сенімді ортаны таңдаңыз. Құпия скандарды кездейсоқ тегін OCR сайттарына жүктемеңіз.

4-қадам: OCR мәтінін тексеру

Тексеруді аударғаннан кейін емес, аударуға дейін жасаңыз. Бірнеше қиын беттен мәтінді көшіріп алып, оның оқуға жарамды екенін тексеріңіз.

Тексеруге болатын үлгі беттер:

  • Титул беті.
  • Мәтіні тығыз негізгі бет.
  • Кестесі бар бет.
  • Төменгі ескертпелері бар бет.
  • Ұсақ мәтіні бар бет.
  • Мөрі, қолжазбасы немесе шеткі ескертпелері бар бет.
  • Құжат көптілді болса, әр тілден бір бет.

Мыналарды іздеңіз:

  • Абзацтардың түсіп қалуын.
  • Бағандардың бірігіп кетуін.
  • Бөлініп қалған сөздерді.
  • Қате таңбаларды.
  • Жоғалған диакритикаларды.
  • Кестедегі белгілердің мәндерден ажырап кетуін.
  • Тақырыптардың негізгі мәтінге кіріп кетуін.
  • Бет нөмірлерінің сөйлемдерге араласып кетуін.

OCR сапасы нашар болса, оны аудармаға дейін түзетіңіз. OCR мүлде түсіріп ала алмаған мағынаны аудармашы сенімді түрде қалпына келтіре алмайды.

5-қадам: OCR өңделген PDF-ті аудару

PDF-те таза мәтін қабаты пайда болған соң, оны PDF аудармашысы құралына жүктеңіз. Енді аударма кезеңі бет суреттерімен емес, мәтінмен жұмыс істей алады.

Аудармадан кейін мыналарды салыстырыңыз:

  • Түпнұсқа скан
  • OCR мәтін қабаты
  • Аударылған PDF

Осындай үш жақты тексеру қате OCR-дан шықты ма, әлде аудармадан шықты ма — соны анықтауға көмектеседі. Егер OCR мәтіні қате болса, OCR-ды қайта іске қосыңыз. Егер OCR мәтіні дұрыс, бірақ аударма қате болса, аударманы түзетіңіз.

6-қадам: Тәуекелі жоғары мазмұнды тексеру

Сканерленген құжаттарда көбіне мұқият тексеруді қажет ететін мазмұн болады: ескі келісімшарттар, мемлекеттік бланкілер, академиялық мақалалар, нұсқаулықтар, тарихи құжаттар және кітап беттері.

Мына нәрселерді қолмен тексеріңіз:

  • Есімдер
  • Күндер
  • Сандар
  • Мекенжайлар
  • Өнім кодтары
  • Заңға сілтемелер
  • Дәйексөз сілтемелері
  • Кесте белгілері
  • Өлшем бірліктері
  • Теңдеулер
  • Сурет және кесте астындағы жазулар
  • Төменгі ескертпелер

Зерттеу және академиялық файлдар үшін академиялық зерттеу мақалаларын аудару нұсқаулығын да оқыңыз, өйткені сканерленген академиялық PDF файлдары OCR тәуекелінің үстіне дәйексөз бен макет тәуекелін де қосады.

Қатар қойып салыстыруға болатын сәтсіздік мысалдары

OCR нәтижесін тексергенде осы кестені пайдаланыңыз.

Original scan likely showsBad OCR outputWhy it matters
modernmodemМағынасы толық өзгеріп кетеді.
Section 10Section IOЗаңдық немесе техникалық сілтемелер бұзылып кетуі мүмкін.
20262O26Күндер мен идентификаторлар сенімсіз болады.
patientpatlentМедициналық немесе техникалық терминдер қате болып шығады.
Екі бөлек бағанБірігіп кеткен бір абзацАударма сөйлемдерді қате ретпен оқиды.
Белгілері мен мәндері бар кесте жолыАралас мәтіннен тұратын бір жолДеректер енді дұрыс белгіге сәйкес келмейді.
Төменгі ескертпе белгісі 1l әрпіЕскертпелер қате сөйлемге байланып қалуы мүмкін.

Егер OCR қабатынан осындай қателерді көрсеңіз, аударуға дейін OCR-ды түзетіңіз.

Қай құралды қолданған дұрыс?

Құжаттың күрделілігіне қарай таңдаңыз.

DocumentRecommended path
Таза бизнес сканыAcrobat-та немесе басқа сенімді OCR құралында OCR жасап, содан кейін PDF аудармашысы құралын пайдаланыңыз.
Ескі кітап сканыҚиғаштығын түзетіп, контрастын жақсартыңыз, OCR-ды мұқият жүргізіңіз, содан кейін аударыңыз.
Академиялық мақала сканыOCR жасаңыз, теңдеулерді/дәйексөз сілтемелерін/кестелерді тексеріңіз, содан кейін макетін қарап отырып аударыңыз.
Қолжазба жазбаларАудармаға дейін қолмен көшіріп жазу қажет болуы мүмкін.
Қарапайым жеке құжатҚұпиялық тәуекелі төмен болса, онлайн OCR жарамды болуы мүмкін.
Құпия құжатЖергілікті OCR немесе сенімді, бақыланатын жұмыс тәртібін пайдаланыңыз.

Егер құралдардың кеңірек салыстыруын қаласаңыз, ең жақсы PDF аудармашылары жөніндегі нұсқаулықты қараңыз.

Сканерленген PDF файлдарындағы жиі кездесетін мәселелер

Төмен ажыратымдылықтағы беттер

Төмен ажыратымдылықтағы скандарда әріптер бір-біріне жабысып бұлыңғыр көрінеді. OCR rn мен m-ді, cl мен d-ні, не тыныс белгілерін шаң-тозаңмен шатастыруы мүмкін.

Шешімі: мүмкін болса, қайта сканерлеңіз. Болмаса, контрастты арттырып, OCR-ды қайта қолданып көріңіз.

Қисайған немесе иілген беттер

Кітап скандарында беттер көбіне түп жағында иіліп тұрады. OCR иілген жолдарды нашар оқиды және мәтін ретін бұзып жіберуі мүмкін.

Шешімі: бетті тегістеңіз, қайта сканерлеңіз немесе қиғаштық пен иілуді түзете алатын OCR құралын пайдаланыңыз.

Көп бағанды макет

OCR сол және оң бағандарды бір тұтас сөйлем ағынына біріктіріп жіберуі мүмкін.

Шешімі: аудармаға дейін оқу ретін тексеріңіз. Бұл жерде академиялық мақалаларға ерекше назар қажет.

Кестелер

Кестелер қиын, себебі OCR мәтінді де, құрылымды да тануы керек. Кесте көзге дұрыс көрінгенімен, мәтін қабаты қате болуы мүмкін.

Шешімі: кестеден OCR мәтінін көшіріп алып, белгілердің әлі де мәндерге сәйкес келетінін тексеріңіз.

Қолжазба мен қолтаңбалар

Баспа мәтінін тану қолжазбаны тануға қарағанда әлдеқайда сенімді. Қолмен жазылған шеткі ескертпелер, қолтаңбалар және толтырылған бланкілер мүлде танылмай қалуы немесе бұзылып шығуы мүмкін.

Шешімі: маңызды қолжазба бөліктерін аудармаға дейін қолмен көшіріп жазыңыз.

Аралас тілдер

OCR бастапқы тілді білгенде жақсырақ жұмыс істейді. Егер OCR тек бір тілге ғана бапталған болса, ішінде ағылшын, француз және қытай тілдері араласқан скан қате шығуы мүмкін.

Шешімі: құрал қолдаса, OCR үшін барлық тиісті тілдерді таңдаңыз, содан кейін әр тіл бөлімін жеке-жеке тексеріңіз.

Құпиялық және қауіпсіздік тексеру тізімі

Сканерленген PDF-ті қайда да жүктемес бұрын, өзіңізден мынаны сұраңыз:

  • Құжатта жеке деректер бар ма?
  • Онда медициналық, заңдық, қаржылық, академиялық немесе жарияланбаған материал бар ма?
  • Оған клиентпен жасалған келісім немесе оқу орнының саясаты қолданыла ма?
  • Бұл құжат үшін онлайн OCR қызметін қолдануға бола ма?
  • Оның орнына жергілікті жұмыс тәртібі керек пе?
  • Аударуды қажет етпейтін беттерді алып тастай аласыз ба?

Сканерленген PDF файлдары көбіне құпия болады, өйткені олар келісімшарттардан, жеке куәліктерден, бланкілерден, зерттеу нобайларынан және ішкі мұрағаттардан келеді. OCR-ға жүктеу туралы шешімді түпнұсқа құжатқа қалай қарасаңыз, дәл солай қабылдаңыз.

Жиі қойылатын сұрақтар

Сканерленген PDF-ті қалай аударамын?

Алдымен мәтін қабатын жасау үшін OCR жасаңыз, OCR нәтижесін тексеріңіз, содан кейін OCR өңделген PDF-ті PDF аудармашысы арқылы аударыңыз. OCR тексеру кезеңін өткізіп жібермеңіз.

Неліктен Google Translate менің сканерленген PDF-імді аудармады?

PDF тек суреттен тұруы мүмкін. Егер мәтін қабаты болмаса, Google Translate шығарып алатын мәтін таппайды. Алдымен OCR қолданыңыз, содан кейін аударыңыз. Google-ға тән жұмыс тәртібі Google Translate PDF нұсқаулығында берілген.

ChatGPT сканерленген PDF-ті аудара ала ма?

ChatGPT жеке суреттермен немесе шығарылып алынған мәтінмен көмектесе алады, бірақ көп бетті сканерленген PDF бәрібір OCR мен тексеруді қажет етеді. Толық құжатпен жұмыс істеу үшін алдымен OCR жасап, содан кейін PDF аудару жұмыс тәртібін қолданыңыз.

Сканерленген PDF файлдары үшін ең жақсы OCR құралы қайсы?

Бұл құжатқа байланысты. Acrobat және ABBYY үлгісіндегі құралдар жалпы әрі күрделі скандар үшін пайдалы. Tesseract немесе OCRmyPDF жергілікті техникалық жұмыс тәртібіне ыңғайлы. Тәуекелі төмен қарапайым файлдар үшін онлайн OCR жарауы мүмкін, бірақ құпиялық пен сапа әртүрлі.

OCR форматтауды сақтай ала ма?

OCR мәтін қабатын жасай алады және кейде оқу ретін қалпына келтіреді, бірақ бұл бастапқы аударылған макетті сақтаумен бірдей емес. OCR-дан кейін PDF аудару жұмыс тәртібін қолданып, нәтижені түпнұсқамен салыстырып тексеріңіз.

OCR сапасы нашар болса не істеу керек?

Аудармаға дейін скан сапасын жақсартыңыз. Мүмкін болса, қайта сканерлеңіз, беттердің қиғаштығын түзетіңіз, контрастты арттырыңыз, артық нәрселерді қиып тастаңыз, OCR үшін дұрыс тілді таңдаңыз және қиын беттерді қайта тексеріңіз.