Сканерленген PDF-ті қалай аударуға болады: OCR + аудару бойынша толық нұсқаулық
Сканерленген PDF файлдарында шынайы мәтін емес, мәтіннің суреттері болады — сондықтан Google Translate оларды өзгеріссіз қайтарады. Мұны түзететін OCR + AI жұмыс тәртібі міне осы.
Қысқа жауап: Сканерленген PDF-ті аудармас бұрын OCR қажет
Сканерленген PDF-ті аудару үшін алдымен OCR іске қосып, бет суреттерін таңдап алуға болатын мәтінге айналдырыңыз. Содан кейін OCR өңдеген PDF-ті PDF аудармашысы сияқты құжат аудармашысымен аударыңыз. Егер OCR кезеңін өткізіп жіберсеңіз, көптеген аударма құралдары бастапқы файлды өзгеріссіз қайтарады, кейбір беттерді өткізіп алады немесе тек мәтін қабаты бар бөліктерін ғана аударады.
Мына жұмыс тәртібін қолданыңыз:
- PDF-ті ашып, бір сөйлемді белгілеп көруге тырысыңыз.
- Мәтінді белгілей алмасаңыз, OCR іске қосыңыз.
- Аудармас бұрын OCR шығарған мәтінді тексеріңіз.
- OCR өңдеген PDF-ті PDF аудармашысы құралына жүктеңіз.
- Аударылған нәтижені түпнұсқа сканмен салыстырып шығыңыз.
Егер PDF-іңізде мәтінді белгілеп алуға болса және мәселе макетті сақтауда болса, PDF-ті форматтауды жоғалтпай аудару нұсқаулығын қараңыз.
Неліктен сканерленген PDF аударма құралдарында жұмыс істемейді
Сканерленген PDF көбіне PDF контейнерінің ішіне салынған бет суреттерінің жиынтығы ғана болады. Адам беттен сөздерді көре алады, бірақ бағдарламаның шығарып алуы үшін файлдың ішінде шынайы мәтін болмауы мүмкін.
Сондықтан мынадай қарапайым мәселе туындайды:
| File type | What the translator sees | What happens |
|---|---|---|
| Мәтіндік PDF | Мәтін және макет деректері | Аударма бірден басталады. |
| Тек суреттен тұратын сканерленген PDF | Беттердің суреттері | Алдымен OCR қажет. |
| Сурет үстіне мәтін қабаты қосылған PDF | Скан суреті және жасырын OCR мәтін қабаты | Аудару мүмкін, бірақ OCR қателері сапаға әсер етеді. |
Ең пайдалы тексеріс техникалық емес:
- PDF-ті ашыңыз.
- Жеке сөздерді белгілеп көріңіз.
- Бір сөйлемді көшіріңіз.
- Оны мәтіндік редакторға қойыңыз.
Егер сөйлем дұрыс қойылса, PDF-те мәтін қабаты бар деген сөз. Егер ештеңе қойылмаса немесе бүкіл бет бір ғана сурет сияқты әрекет етсе, PDF-ке OCR қажет.
OCR міндетті
OCR дегеніміз — optical character recognition, яғни оптикалық таңбаларды тану. Ол суреттен мәтінді оқып, машина оқи алатын мәтін жасайды. PDF аудармасында OCR әдетте сканерленген беттің үстіне көрінбейтін мәтін қабатын құрады.
Сол мәтін қабаты аударманың бастапқы көзіне айналады. OCR қате жіберсе, аударма да сол қателерді қайталайды.
OCR-дағы жиі қателер:
| OCR mistake | Translation risk |
|---|---|
rn m ретінде оқылады | Сөздердің мағынасы өзгеріп кетеді. |
1 l ретінде оқылады | Сандар, сілтемелер немесе кодтар қате болуы мүмкін. |
O 0 ретінде оқылады | ID, формула және атаулар бұзылып кетуі мүмкін. |
| Диакритикалар түсіп қалады | Атаулар мен терминдер дәл болмай қалады. |
| Бағандар бірігіп кетеді | Сөйлемдер қате ретпен аударылады. |
| Кесте ұяшықтары жол-жолымен қате оқылады | Дерек белгілері енді мәндермен сәйкес келмейді. |
| Төменгі ескертпелер негізгі мәтін деп танылады | Сілтемелер мен ескертпелер қате контекстке ауысады. |
Сондықтан OCR нәтижесін тексеру кезеңі маңызды. Алынған мәтінді таңдап тексермей тұрып, сканерленген құжатты аудармаңыз.
OCR-ден басталатын жұмыс тәртібі
1-қадам: PDF түрін анықтау
Мәтінді белгілеп көріңіз. Егер белгілеу жұмыс істесе, OCR қажет болмауы мүмкін. Егер белгілеу мүмкін болмаса, файлды тек суреттен тұратын құжат деп қарастырыңыз.
Бетті көзбен де тексеріңіз:
- Қисайған беттер бұл скан екенін көрсетеді.
- Сұр қағаз фактурасы скан екенін аңғартады.
- Тігіс тұсындағы көлеңкелер кітаптың фотоға түсірілгенін білдіреді.
- Біркелкі емес контраст ксерокөшірмені білдіреді.
- Іздеу көрініп тұрған сөздерді таппаса, мәтін қабаты жоқ болуы мүмкін.
2-қадам: Мүмкін болса, скан сапасын жақсартыңыз
OCR сапасы сурет сапасынан басталады. Егер қайта сканерлей алсаңыз, OCR қателерін түзетуге уақыт жұмсамай тұрып соны жасаңыз.
Мына сурет сапасын тексеру тізімін қолданыңыз:
- Ұсақ мәтін анық шығатындай жеткілікті жоғары ажыратымдылықта сканерлеңіз.
- Беттерді тегіс әрі түзу ұстаңыз.
- Тігіс маңындағы көлеңкеден сақ болыңыз.
- Үстел шеттерін, саусақтарды және артқы фондағы артық заттарды қиып тастаңыз.
- Мәтін мен бет арасында айқын контраст болсын.
- Жолдың толық көрініп тұрғанына көз жеткізіңіз.
- Беттің дұрыс бағытын пайдаланыңыз.
- Әріптер бұлдырап кететіндей етіп суретті шамадан тыс сығмаңыз.
Ескі кітаптар мен ксерокөшірмелерде ең үлкен нәтиже әдетте қиғаштықты түзетуден, контрастты реттеуден және фокустан шығып кеткен беттерді қайта сканерлеуден келеді.
3-қадам: OCR іске қосу
OCR құралын брендке емес, құжаттың өзіне қарай таңдаңыз.
| OCR option | Best for | Watch out for |
|---|---|---|
| Adobe Acrobat OCR | Жалпы бизнес скандары мен PDF тазалау жұмыстары | Сенім артпас бұрын, ағымдағы жоспарыңызда қолжетімді екенін тексеріңіз. |
| ABBYY FineReader | Күрделі скандар, кестелер, бағандар және қиын макеттер | Бәрібір қолмен тексеруді қажет етеді. |
| Tesseract or OCRmyPDF | Жергілікті, техникалық, қайталанатын OCR жұмыс ағымдары | Пәрмен жолы құралдарымен еркін жұмыс істеуді талап етеді. |
| Online OCR tools | Тәуекелі төмен, анда-санда болатын файлдар | Құпиялылық, файл шектеулері және сапа әртүрлі болады. |
| Phone scanning apps | Жаңа сканды жылдам түсіру | Перспективадағы бұрмалану OCR сапасын нашарлатуы мүмкін. |
Жеке келісімшарттар, медициналық жазбалар, қаржылық құжаттар, жарияланбаған қолжазбалар немесе қаралып жатқан академиялық жұмыстар үшін жергілікті OCR жұмыс тәртібін немесе сенімді ортаны таңдаңыз. Құпия скандарды кездейсоқ тегін OCR сайттарына жүктемеңіз.
4-қадам: OCR мәтінін тексеру
Тексеруді аударғаннан кейін емес, аударуға дейін жасаңыз. Бірнеше қиын беттен мәтінді көшіріп алып, оның оқуға жарамды екенін тексеріңіз.
Тексеруге болатын үлгі беттер:
- Титул беті.
- Мәтіні тығыз негізгі бет.
- Кестесі бар бет.
- Төменгі ескертпелері бар бет.
- Ұсақ мәтіні бар бет.
- Мөрі, қолжазбасы немесе шеткі ескертпелері бар бет.
- Құжат көптілді болса, әр тілден бір бет.
Мыналарды іздеңіз:
- Абзацтардың түсіп қалуын.
- Бағандардың бірігіп кетуін.
- Бөлініп қалған сөздерді.
- Қате таңбаларды.
- Жоғалған диакритикаларды.
- Кестедегі белгілердің мәндерден ажырап кетуін.
- Тақырыптардың негізгі мәтінге кіріп кетуін.
- Бет нөмірлерінің сөйлемдерге араласып кетуін.
OCR сапасы нашар болса, оны аудармаға дейін түзетіңіз. OCR мүлде түсіріп ала алмаған мағынаны аудармашы сенімді түрде қалпына келтіре алмайды.
5-қадам: OCR өңделген PDF-ті аудару
PDF-те таза мәтін қабаты пайда болған соң, оны PDF аудармашысы құралына жүктеңіз. Енді аударма кезеңі бет суреттерімен емес, мәтінмен жұмыс істей алады.
Аудармадан кейін мыналарды салыстырыңыз:
- Түпнұсқа скан
- OCR мәтін қабаты
- Аударылған PDF
Осындай үш жақты тексеру қате OCR-дан шықты ма, әлде аудармадан шықты ма — соны анықтауға көмектеседі. Егер OCR мәтіні қате болса, OCR-ды қайта іске қосыңыз. Егер OCR мәтіні дұрыс, бірақ аударма қате болса, аударманы түзетіңіз.
6-қадам: Тәуекелі жоғары мазмұнды тексеру
Сканерленген құжаттарда көбіне мұқият тексеруді қажет ететін мазмұн болады: ескі келісімшарттар, мемлекеттік бланкілер, академиялық мақалалар, нұсқаулықтар, тарихи құжаттар және кітап беттері.
Мына нәрселерді қолмен тексеріңіз:
- Есімдер
- Күндер
- Сандар
- Мекенжайлар
- Өнім кодтары
- Заңға сілтемелер
- Дәйексөз сілтемелері
- Кесте белгілері
- Өлшем бірліктері
- Теңдеулер
- Сурет және кесте астындағы жазулар
- Төменгі ескертпелер
Зерттеу және академиялық файлдар үшін академиялық зерттеу мақалаларын аудару нұсқаулығын да оқыңыз, өйткені сканерленген академиялық PDF файлдары OCR тәуекелінің үстіне дәйексөз бен макет тәуекелін де қосады.
Қатар қойып салыстыруға болатын сәтсіздік мысалдары
OCR нәтижесін тексергенде осы кестені пайдаланыңыз.
| Original scan likely shows | Bad OCR output | Why it matters |
|---|---|---|
modern | modem | Мағынасы толық өзгеріп кетеді. |
Section 10 | Section IO | Заңдық немесе техникалық сілтемелер бұзылып кетуі мүмкін. |
2026 | 2O26 | Күндер мен идентификаторлар сенімсіз болады. |
patient | patlent | Медициналық немесе техникалық терминдер қате болып шығады. |
| Екі бөлек баған | Бірігіп кеткен бір абзац | Аударма сөйлемдерді қате ретпен оқиды. |
| Белгілері мен мәндері бар кесте жолы | Аралас мәтіннен тұратын бір жол | Деректер енді дұрыс белгіге сәйкес келмейді. |
Төменгі ескертпе белгісі 1 | l әрпі | Ескертпелер қате сөйлемге байланып қалуы мүмкін. |
Егер OCR қабатынан осындай қателерді көрсеңіз, аударуға дейін OCR-ды түзетіңіз.
Қай құралды қолданған дұрыс?
Құжаттың күрделілігіне қарай таңдаңыз.
| Document | Recommended path |
|---|---|
| Таза бизнес сканы | Acrobat-та немесе басқа сенімді OCR құралында OCR жасап, содан кейін PDF аудармашысы құралын пайдаланыңыз. |
| Ескі кітап сканы | Қиғаштығын түзетіп, контрастын жақсартыңыз, OCR-ды мұқият жүргізіңіз, содан кейін аударыңыз. |
| Академиялық мақала сканы | OCR жасаңыз, теңдеулерді/дәйексөз сілтемелерін/кестелерді тексеріңіз, содан кейін макетін қарап отырып аударыңыз. |
| Қолжазба жазбалар | Аудармаға дейін қолмен көшіріп жазу қажет болуы мүмкін. |
| Қарапайым жеке құжат | Құпиялық тәуекелі төмен болса, онлайн OCR жарамды болуы мүмкін. |
| Құпия құжат | Жергілікті OCR немесе сенімді, бақыланатын жұмыс тәртібін пайдаланыңыз. |
Егер құралдардың кеңірек салыстыруын қаласаңыз, ең жақсы PDF аудармашылары жөніндегі нұсқаулықты қараңыз.
Сканерленген PDF файлдарындағы жиі кездесетін мәселелер
Төмен ажыратымдылықтағы беттер
Төмен ажыратымдылықтағы скандарда әріптер бір-біріне жабысып бұлыңғыр көрінеді. OCR rn мен m-ді, cl мен d-ні, не тыныс белгілерін шаң-тозаңмен шатастыруы мүмкін.
Шешімі: мүмкін болса, қайта сканерлеңіз. Болмаса, контрастты арттырып, OCR-ды қайта қолданып көріңіз.
Қисайған немесе иілген беттер
Кітап скандарында беттер көбіне түп жағында иіліп тұрады. OCR иілген жолдарды нашар оқиды және мәтін ретін бұзып жіберуі мүмкін.
Шешімі: бетті тегістеңіз, қайта сканерлеңіз немесе қиғаштық пен иілуді түзете алатын OCR құралын пайдаланыңыз.
Көп бағанды макет
OCR сол және оң бағандарды бір тұтас сөйлем ағынына біріктіріп жіберуі мүмкін.
Шешімі: аудармаға дейін оқу ретін тексеріңіз. Бұл жерде академиялық мақалаларға ерекше назар қажет.
Кестелер
Кестелер қиын, себебі OCR мәтінді де, құрылымды да тануы керек. Кесте көзге дұрыс көрінгенімен, мәтін қабаты қате болуы мүмкін.
Шешімі: кестеден OCR мәтінін көшіріп алып, белгілердің әлі де мәндерге сәйкес келетінін тексеріңіз.
Қолжазба мен қолтаңбалар
Баспа мәтінін тану қолжазбаны тануға қарағанда әлдеқайда сенімді. Қолмен жазылған шеткі ескертпелер, қолтаңбалар және толтырылған бланкілер мүлде танылмай қалуы немесе бұзылып шығуы мүмкін.
Шешімі: маңызды қолжазба бөліктерін аудармаға дейін қолмен көшіріп жазыңыз.
Аралас тілдер
OCR бастапқы тілді білгенде жақсырақ жұмыс істейді. Егер OCR тек бір тілге ғана бапталған болса, ішінде ағылшын, француз және қытай тілдері араласқан скан қате шығуы мүмкін.
Шешімі: құрал қолдаса, OCR үшін барлық тиісті тілдерді таңдаңыз, содан кейін әр тіл бөлімін жеке-жеке тексеріңіз.
Құпиялық және қауіпсіздік тексеру тізімі
Сканерленген PDF-ті қайда да жүктемес бұрын, өзіңізден мынаны сұраңыз:
- Құжатта жеке деректер бар ма?
- Онда медициналық, заңдық, қаржылық, академиялық немесе жарияланбаған материал бар ма?
- Оған клиентпен жасалған келісім немесе оқу орнының саясаты қолданыла ма?
- Бұл құжат үшін онлайн OCR қызметін қолдануға бола ма?
- Оның орнына жергілікті жұмыс тәртібі керек пе?
- Аударуды қажет етпейтін беттерді алып тастай аласыз ба?
Сканерленген PDF файлдары көбіне құпия болады, өйткені олар келісімшарттардан, жеке куәліктерден, бланкілерден, зерттеу нобайларынан және ішкі мұрағаттардан келеді. OCR-ға жүктеу туралы шешімді түпнұсқа құжатқа қалай қарасаңыз, дәл солай қабылдаңыз.
Жиі қойылатын сұрақтар
Сканерленген PDF-ті қалай аударамын?
Алдымен мәтін қабатын жасау үшін OCR жасаңыз, OCR нәтижесін тексеріңіз, содан кейін OCR өңделген PDF-ті PDF аудармашысы арқылы аударыңыз. OCR тексеру кезеңін өткізіп жібермеңіз.
Неліктен Google Translate менің сканерленген PDF-імді аудармады?
PDF тек суреттен тұруы мүмкін. Егер мәтін қабаты болмаса, Google Translate шығарып алатын мәтін таппайды. Алдымен OCR қолданыңыз, содан кейін аударыңыз. Google-ға тән жұмыс тәртібі Google Translate PDF нұсқаулығында берілген.
ChatGPT сканерленген PDF-ті аудара ала ма?
ChatGPT жеке суреттермен немесе шығарылып алынған мәтінмен көмектесе алады, бірақ көп бетті сканерленген PDF бәрібір OCR мен тексеруді қажет етеді. Толық құжатпен жұмыс істеу үшін алдымен OCR жасап, содан кейін PDF аудару жұмыс тәртібін қолданыңыз.
Сканерленген PDF файлдары үшін ең жақсы OCR құралы қайсы?
Бұл құжатқа байланысты. Acrobat және ABBYY үлгісіндегі құралдар жалпы әрі күрделі скандар үшін пайдалы. Tesseract немесе OCRmyPDF жергілікті техникалық жұмыс тәртібіне ыңғайлы. Тәуекелі төмен қарапайым файлдар үшін онлайн OCR жарауы мүмкін, бірақ құпиялық пен сапа әртүрлі.
OCR форматтауды сақтай ала ма?
OCR мәтін қабатын жасай алады және кейде оқу ретін қалпына келтіреді, бірақ бұл бастапқы аударылған макетті сақтаумен бірдей емес. OCR-дан кейін PDF аудару жұмыс тәртібін қолданып, нәтижені түпнұсқамен салыстырып тексеріңіз.
OCR сапасы нашар болса не істеу керек?
Аудармаға дейін скан сапасын жақсартыңыз. Мүмкін болса, қайта сканерлеңіз, беттердің қиғаштығын түзетіңіз, контрастты арттырыңыз, артық нәрселерді қиып тастаңыз, OCR үшін дұрыс тілді таңдаңыз және қиын беттерді қайта тексеріңіз.