BookTranslator
BookTranslator

Сканерленген PDFти кантип которуу керек: OCR + котормонун толук колдонмосу

Сканерленген PDFтерде чыныгы текст эмес, тексттин сүрөттөрү болот — ошондуктан Google Translate аларды өзгөртүүсүз кайтарат. Муну оңдогон OCR + AI процесси мына ушундай.

BookTranslator

BookTranslator Team

Которуу нускамалары10 min read

Кыска жооп: Сканерленген PDFти которуудан мурун OCR керек

Сканерленген PDFти которуу үчүн, адегенде OCR иштетип, барактагы сүрөттөрдү белгилеп алууга боло турган текстке айлантыңыз. Андан кийин OCR иштетилген PDFти PDF которгучу сыяктуу документ которгуч менен которуңуз. Эгер OCR кадамын өткөрүп жиберсеңиз, көптөгөн котормо куралдары баштапкы файлды өзгөртүүсүз кайтарат, айрым барактарды өткөрүп жиберет же текст катмары мурунтан эле бар бөлүктөрүн гана которот.

Төмөнкү иш агымын колдонуңуз:

  1. PDFти ачып, бир сүйлөмдү белгилеп көрүңүз.
  2. Эгер текстти белгилей албасаңыз, OCR иштетиңиз.
  3. Которуудан мурун OCR текстин текшериңиз.
  4. OCR иштетилген PDFти PDF которгучуна жүктөңүз.
  5. Которулган натыйжаны баштапкы скан менен салыштырып текшериңиз.

Эгер PDFиңизде белгилеп алууга боло турган текст мурунтан эле бар болуп, маселе жайгашууну сактоо болсо, форматын жоготпой PDF которуу боюнча колдонмону караңыз.

Эмне үчүн сканерленген PDFтер котормо куралдарында иштебей калат

Сканерленген PDF көп учурда PDF контейнеринин ичине салынган барак сүрөттөрүнүн жыйындысы гана болот. Баракта адамга көрүнгөн сөздөр болушу мүмкүн, бирок программа чыгарып ала турган чыныгы текст файлдын ичинде болбой калышы мүмкүн.

Мындан жөнөкөй эле көйгөй чыгат:

Файл түрүКотормочу эмне көрөтЭмне болот
Текстке негизделген PDFТекст жана жайгашуу маалыматыКотормо дароо башталышы мүмкүн.
Сүрөттөн гана турган скан PDFБарактардын сүрөттөрүАдегенде OCR талап кылынат.
Сүрөт үстүндөгү тексттүү PDFСкан сүрөтү жана жашыруун OCR текст катмарыКоторсо болот, бирок OCR каталары сапатка таасир этет.

Эң пайдалуу текшерүү техникалык эмес:

  1. PDFти ачыңыз.
  2. Өзүнчө сөздөрдү белгилеп көрүңүз.
  3. Бир сүйлөмдү көчүрүңүз.
  4. Аны текст редакторуна коюңуз.

Эгер сүйлөм туура коюлса, PDFте текст катмары бар. Эгер эч нерсе коюлбаса же бүт барак бир эле сүрөттөй иштесе, PDFке OCR керек.

OCR милдеттүү

OCR — бул оптикалык белгилерди таануу. Ал сүрөттөн текстти окуп, машина окуй турган текстти түзөт. PDF которууда OCR адатта сканерленген барактын үстүнө көрүнбөгөн текст катмарын түзөт.

Ошол текст катмары котормо үчүн булак болуп калат. Эгер OCR ката кетирсе, котормо да ошол каталарды мурастап алат.

OCRде көп учураган каталар:

OCR катасыКотормодогу тобокелдик
rn m болуп окулатСөздөрдүн мааниси өзгөрөт.
1 l болуп окулатСандар, шилтемелер же коддор ката болуп калат.
O 0 болуп окулатIDлер, формулалар жана аттар бузулушу мүмкүн.
Диакритикалар түшүп калатАттар менен терминдер так болбой калат.
Мамычалар биригип кететСүйлөмдөр туура эмес тартипте которулат.
Таблица уячалары сап боюнча жаңылыш окулатМаалымат энбелгилери маанилерине туура келбей калат.
Шилтемелер негизги текст катары кабыл алынатЦитаталар менен эскертмелер туура эмес контекстке өтүп кетет.

Ошондуктан OCRди текшерүү кадамы маанилүү. Алынган текстти тандап текшерип чыкмайынча, сканерленген документти которбоңуз.

Адегенде OCR жасалуучу иш агымы

1-кадам: PDF түрүн аныктаңыз

Текстти белгилеп көрүңүз. Эгер белгилөө иштесе, OCR керек болбошу мүмкүн. Эгер белгилөө иштебесе, файлды сүрөттөн гана турган документ катары кабыл алыңыз.

Баракты көз менен да текшериңиз:

  • Кыйшайган барактар анын скан экенин көрсөтөт.
  • Кагаздын боз текстурасы скан экенин көрсөтөт.
  • Түп жагына жакын көлөкөлөр китеп сүрөткө тартылганын көрсөтөт.
  • Тең эмес контраст ксерокөчүрмөнү көрсөтөт.
  • Издөө көрүнүп турган сөздөрдү таппаса, текст катмары жок болушу мүмкүн.

2-кадам: Мүмкүн болсо скандын сапатын жакшыртыңыз

OCR сапаты сүрөттүн сапатынан башталат. Эгер кайра скандоо мүмкүн болсо, OCR каталарын оңдоого убакыт короткондон көрө аны алдын ала жасап коюңуз.

Сүрөт сапаты боюнча бул текшерүү тизмесин колдонуңуз:

  • Майда текст үчүн жетиштүү жогорку чечилиште скандаңыз.
  • Барактарды түз жана жалпак кармаңыз.
  • Түп жагындагы көлөкөлөрдөн качыңыз.
  • Таблицанын четтерин, манжаларды же арткы фондогу ашыкча нерселерди кесип салыңыз.
  • Текст менен барактын ортосунда күчтүү контраст болсун.
  • Сап толугу менен көрүнүп турсун.
  • Барактын туура багытын колдонуңуз.
  • Сүрөттү тамгалар бүдөмүк болуп калгыдай катуу кыспаңыз.

Эски китептерде жана ксерокөчүрмөлөрдө эң чоң пайда адатта баракты түздөө, контрастты оңдоо жана фокус чыкпай калган барактарды кайра скандоодон келет.

3-кадам: OCR иштетиңиз

OCR куралын брендге эмес, документтин өзүнө жараша тандаңыз.

OCR вариантыЭң ылайыктуусуЭмнеге көңүл буруу керек
Adobe Acrobat OCRКадимки бизнес скандары жана PDFти тазалооАга таянардан мурун учурдагы планыңызда жеткиликтүү экенин текшериңиз.
ABBYY FineReaderТатаал скандар, таблицалар, мамычалар жана кыйын жайгашууларБаары бир кол менен текшерүү талап кылынат.
Tesseract or OCRmyPDFЖергиликтүү, техникалык жана кайра колдонулуучу OCR иш агымдарыБуйрук сабы куралдары менен иштей билүүнү талап кылат.
Online OCR toolsТөмөн тобокелдүү, кээде гана иштетилчү файлдарКупуялуулук, файл чектөөлөрү жана сапат ар башка болот.
Phone scanning appsЖаңы сканды тез тартып алууПерспективадагы бурмалоо OCR сапатын начарлатышы мүмкүн.

Жеке келишимдер, медициналык жазуулар, финансылык документтер, жарыялана элек кол жазмалар же кароодон өтүп жаткан академиялык иштер үчүн жергиликтүү OCR иш агымын же ишенимдүү чөйрөнү тандаңыз. Сезимтал скандарды туш келди акысыз OCR сайттарына жүктөбөңүз.

4-кадам: OCR текстин текшериңиз

Которуудан кийин эмес, которуудан мурун текшериңиз. Бир нече татаал барактан текст көчүрүп, окууга жарамдуу экенин караңыз.

Текшерүүгө ылайыктуу үлгү барактар:

  • Аталыш барагы.
  • Тексти жыш негизги барак.
  • Таблицасы бар барак.
  • Төмөнкү эскертмелери бар барак.
  • Майда тексти бар барак.
  • Мөөр, кол жазма же четки белгилери бар барак.
  • Документ көп тилдүү болсо, ар бир тилден бир барак.

Төмөнкүлөрдү издеңиз:

  • Жоголгон абзацтар.
  • Биригип кеткен мамычалар.
  • Бөлүнүп кеткен сөздөр.
  • Туура эмес белгилер.
  • Жоголгон диакритикалар.
  • Таблица энбелгилеринин маанилерден ажырап калышы.
  • Баш аттардын негизги текстке аралашып кетиши.
  • Барак номерлеринин сүйлөмдөргө аралашып кетиши.

Эгер OCR сапаты начар болсо, аны которуудан мурун оңдоңуз. OCR так кармай албаган маанини котормочу ишенимдүү калыбына келтире албайт.

5-кадам: OCR иштетилген PDFти которуңуз

PDFте таза текст катмары болгондон кийин, аны PDF которгучуна жүктөңүз. Эми котормо кадамы барак сүрөттөрү менен эмес, текст менен иштей алат.

Которгондон кийин төмөнкүлөрдү салыштырыңыз:

  • Баштапкы скан
  • OCR текст катмары
  • Которулган PDF

Мындай үч тараптуу текшерүү ката OCRденби же котормодонбу экенин аныктоого жардам берет. Эгер OCR тексти туура эмес болсо, OCRди кайра иштетиңиз. Эгер OCR тексти туура, бирок котормо туура эмес болсо, котормону оңдоңуз.

6-кадам: Жогорку тобокелдүү мазмунду текшериңиз

Сканерленген документтерде көп учурда эң кылдат текшерүүнү талап кылган мазмун болот: эски келишимдер, мамлекеттик формалар, илимий макалалар, колдонмолор, тарыхый документтер жана китеп барактары.

Бул нерселерди кол менен текшериңиз:

  • Аттар
  • Даталар
  • Сандар
  • Даректер
  • Өнүм коддору
  • Укуктук шилтемелер
  • Цитаталар
  • Таблица энбелгилери
  • Өлчөм бирдиктери
  • Теңдемелер
  • Сүрөт алдындагы жазуулар
  • Төмөнкү эскертмелер

Изилдөө жана академиялык файлдар үчүн академиялык изилдөө макалаларын которуу боюнча колдонмону да окуңуз, анткени сканерленген академиялык PDFтерде OCR тобокелдигине кошумча цитата жана жайгашуу тобокелдиктери да болот.

Жанаша салыштырылган каталардын мисалдары

OCR натыйжасын текшерип жатканда бул таблицаны колдонуңуз.

Баштапкы сканда болжол менен ушундай көрүнөтНачар OCR натыйжасыЭмне үчүн маанилүү
modernmodemМаани толугу менен өзгөрөт.
Section 10Section IOУкуктук же техникалык шилтемелер бузулушу мүмкүн.
20262O26Даталар менен IDлер ишенимсиз болуп калат.
patientpatlentМедициналык же техникалык терминдер ката болуп калат.
Эки өзүнчө мамычаБириккен бир абзацКотормо сүйлөмдөрдү туура эмес тартипте окуйт.
Энбелгилери жана маанилери бар таблица сапыАралаш бир сап текстМаалымат туура энбелгиге дал келбей калат.
1 деген төмөнкү эскертме белгисиl тамгасыЭскертмелер туура эмес сүйлөмгө байланып калышы мүмкүн.

Эгер OCR катмарында ушундай каталарды көрсөңүз, которуудан мурун OCRди оңдоңуз.

Кайсы куралды колдонушуңуз керек?

Документтин татаалдыгына карап тандаңыз.

ДокументСунушталган жол
Таза бизнес сканыAcrobat'та же башка ишенимдүү OCR куралында OCR жасап, андан кийин PDF которгучунда которуңуз.
Эски китептин сканыТүздөп, контрастын жакшыртып, OCRди кылдат иштетип, анан которуңуз.
Илимий макаланын сканыOCR жасап, теңдемелерди, цитаталарды жана таблицаларды текшерип, анан жайгашуусун карап которуңуз.
Кол менен жазылган жазууларКоторуудан мурун кол менен транскрипциялоо талап кылынышы мүмкүн.
Жөнөкөй жеке документКупуялык тобокелдиги төмөн болсо, онлайн OCR жарашы мүмкүн.
Сезимтал документЖергиликтүү OCR же ишенимдүү, көзөмөлдөнгөн иш агымын колдонуңуз.

Эгер куралдардын кеңири салыштырылышын кааласаңыз, эң мыкты PDF которгучтар боюнча колдонмону караңыз.

Сканерленген PDFтердеги кеңири таралган көйгөйлөр

Төмөн чечилиштеги барактар

Төмөн чечилиште скандалган барактарда тамгалар бири-бирине жуурулушуп кетет. OCR rn менен mди, cl менен dни же тыныш белгилерин чаң менен чаташтырышы мүмкүн.

Чечим: мүмкүн болсо кайра скандаңыз. Болбосо контрастты күчөтүп, OCRди кайра иштетип көрүңүз.

Кыйшайган же ийилген барактар

Китеп скандары көп учурда түп жагына жакын ийилип калат. OCR мындай ийри саптарды начар окуйт жана тексттин иретин алмаштырып жибериши мүмкүн.

Чечим: баракты түздөңүз, кайра скандаңыз же түздөө жана деформацияны оңдоо функциясы бар OCR куралын колдонуңуз.

Көп мамычалуу жайгашуу

OCR сол жана оң мамычаларды бир эле сүйлөм агымына бириктирип жибериши мүмкүн.

Чечим: которуудан мурун окуу тартибин текшериңиз. Бул жерде академиялык макалалар өзгөчө кылдаттыкты талап кылат.

Таблицалар

Таблицалар кыйын, анткени OCR текстти да, түзүмдү да таанышы керек. Таблица көзгө туура көрүнүшү мүмкүн, бирок текст катмары туура эмес болуп калышы мүмкүн.

Чечим: таблицадан OCR текстин көчүрүп, энбелгилер дагы эле туура маанилерге туура келип жатканын текшериңиз.

Кол жазмалар жана кол тамгалар

Басма текст үчүн OCR кол жазманы таанууга караганда кыйла ишенимдүү. Четке жазылган эскертмелер, кол тамгалар жана толтурулган формалар өткөрүлүп кетиши же бузулуп окулушу мүмкүн.

Чечим: маанилүү кол жазмаларды которуудан мурун кол менен көчүрүп жазыңыз.

Аралаш тилдер

OCR булак тилди билгенде жакшыраак иштейт. Англисче, французча жана кытайча аралаш скан OCR бир эле тилге коюлуп калса жаңылыш иштеши мүмкүн.

Чечим: эгер курал колдосо, тиешелүү OCR тилдеринин баарын тандаңыз, анан ар бир тил бөлүмүн өзүнчө тандап текшериңиз.

Купуялуулук жана коопсуздук текшерүү тизмеси

Сканерленген PDFти кайсы бир жерге жүктөөдөн мурун, өзүңүздөн сураңыз:

  • Документте жеке маалыматтар барбы?
  • Анда медициналык, укуктук, финансылык, академиялык же жарыялана элек материал барбы?
  • Ал кардар менен түзүлгөн келишимге же окуу жайдын саясатына киреби?
  • Бул документ үчүн онлайн OCR кызматына уруксат барбы?
  • Анын ордуна жергиликтүү иш агымы керекпи?
  • Которууга муктаж болбогон барактарды алып салса болобу?

Сканерленген PDFтер көп учурда сезимтал болот, анткени алар келишимдерден, IDлерден, формалардан, изилдөө карамаларынын алгачкы версияларынан жана ички архивдерден келип чыгат. OCR жүктөө тууралуу чечимди баштапкы документке кандай мамиле кылсаңыз, ошондой кабыл алыңыз.

Көп берилүүчү суроолор

Сканерленген PDFти кантип котором?

Адегенде текст катмарын түзүү үчүн OCR иштетиңиз, OCR натыйжасын текшериңиз, андан кийин OCR иштетилген PDFти PDF которгучу менен которуңуз. OCR текшерүү кадамын өткөрүп жибербеңиз.

Эмне үчүн Google Translate менин сканерленген PDFимди которгон жок?

PDF сүрөттөн гана турушу мүмкүн. Эгер текст катмары жок болсо, Google Translate чыгарып ала турган текст да жок. Адегенде OCR иштетип, андан кийин которуңуз. Google'га тиешелүү иш агымы Google Translate PDF колдонмосунда кеңири түшүндүрүлгөн.

ChatGPT сканерленген PDFти которо алабы?

ChatGPT өзүнчө сүрөттөр же алынган текст боюнча жардам бере алат, бирок көп барактуу сканерленген PDF үчүн баары бир OCR жана текшерүү керек. Толук документ иш агымы үчүн адегенде OCR жасап, андан кийин PDF которуу иш агымын колдонуңуз.

Сканерленген PDFтер үчүн эң жакшы OCR куралы кайсы?

Бул документке жараша болот. Acrobat жана ABBYY сыяктуу куралдар кадимки жана татаал скандар үчүн пайдалуу. Tesseract же OCRmyPDF жергиликтүү техникалык иш агымдары үчүн ыңгайлуу. Төмөн тобокелдүү, жөнөкөй файлдар үчүн онлайн OCR жарашы мүмкүн, бирок купуялуулук менен сапат ар башка болот.

OCR форматтоону сактай алабы?

OCR текст катмарын түзүп, кээде окуу тартибин да калыбына келтириши мүмкүн, бирок бул баштапкы которулган жайгашууну сактоо менен бирдей эмес. OCRден кийин PDF которуу иш агымын колдонуп, натыйжаны түп нуска менен салыштырып текшериңиз.

OCR сапаты начар болсо эмне кылам?

Которуудан мурун скандын сапатын жакшыртыңыз. Мүмкүн болсо кайра скандаңыз, барактарды түздөңүз, контрастты күчөтүңүз, ашыкча нерселерди кесип салыңыз, туура OCR тилин тандаңыз жана татаал барактарды кайра текшериңиз.