BookTranslator
BookTranslator

Сканнердсан PDF-ийг хэрхэн орчуулах вэ: OCR + орчуулгын бүрэн гарын авлага

Сканнердсан PDF нь жинхэнэ текст биш, текстийн зураг агуулдаг. Тиймээс Google Translate үүнийг өөрчлөлтгүй буцаадаг. Үүнийг засах OCR + AI дамжлагыг энд тайлбарлалаа.

BookTranslator

BookTranslator Team

Орчуулгын заавар10 min read

Шуурхай хариулт: Сканнердсан PDF-ийг орчуулахын өмнө OCR хийх шаардлагатай

Сканнердсан PDF-ийг орчуулахын тулд эхлээд OCR ажиллуулж, хуудасны зургуудыг сонгож болдог текст болгон хувиргана. Дараа нь OCR хийгдсэн PDF-ийг PDF Translator зэрэг баримт орчуулагчаар орчуулна. Хэрэв OCR-ийг алгасвал олон орчуулгын хэрэгсэл эх файлыг өөрчлөлтгүй буцаах, зарим хуудсыг алгасах, эсвэл зөвхөн аль хэдийн текстэн давхаргатай хэсгийг л орчуулах магадлалтай.

Энэ ажлын дарааллыг ашигла:

  1. PDF-ээ нээгээд нэг өгүүлбэр сонгож үз.
  2. Хэрэв текстээ сонгож чадахгүй бол OCR ажиллуул.
  3. Орчуулахын өмнө OCR-оор гарсан текстийг шалга.
  4. OCR хийгдсэн PDF-ийг PDF Translator-т байршуул.
  5. Орчуулсан үр дүнг эх скантай тулгаж шалга.

Хэрэв таны PDF аль хэдийн сонгож болдог тексттэй бөгөөд асуудал нь зохиомжийг хадгалах тухай бол форматыг алдалгүй PDF орчуулах гарын авлагыг ашигла.

Яагаад сканнердсан PDF-үүд орчуулгын хэрэгслүүд дээр бүтэлгүйтдэг вэ

Сканнердсан PDF нь ихэнхдээ PDF контейнер доторх хуудасны зургуудын цуглуулга байдаг. Хуудас нь хүнд үгсийг харуулдаг ч программд гаргаж авах бодит текст файлын дотор байхгүй байж болно.

Ингэснээр маш энгийн асуудал үүсдэг:

Файлын төрөлОрчуулагч юу харж байнаЮу болдог
Текстэн PDFТекст болон зохиомжийн мэдээлэлОрчуулгыг шууд эхлүүлж болно.
Зөвхөн зурагтай скан PDFХуудасны зургуудЭхлээд OCR зайлшгүй шаардлагатай.
Зураг дээрх тексттэй PDFСкан зураг + нуугдмал OCR текстэн давхаргаОрчуулга ажиллаж болно, гэхдээ OCR алдаа чанарт нөлөөлнө.

Хамгийн хэрэгтэй шалгалт нь техникийн биш:

  1. PDF-ээ нээ.
  2. Тус тусын үгийг тодруулж сонгож үз.
  3. Нэг өгүүлбэр хуулаад ав.
  4. Үүнийг текст засварлагчид буулга.

Хэрэв өгүүлбэр зөв буувал PDF текстэн давхаргатай байна. Хэрэв юу ч буухгүй, эсвэл бүхэл хуудас нэг зураг шиг байвал PDF-д OCR хэрэгтэй.

OCR бол заавал хийх алхам

OCR гэдэг нь оптик тэмдэгт таних технологи юм. Энэ нь зурган дээрх текстийг уншиж, машинд уншигдах текст үүсгэдэг. PDF орчуулгын хувьд OCR нь ихэвчлэн сканнердсан хуудасны дээр үл үзэгдэх текстэн давхарга үүсгэдэг.

Тэр текстэн давхарга нь орчуулгын эх сурвалж болдог. Хэрэв OCR алдаа гаргавал орчуулга тэр алдааг дагана.

OCR-ийн нийтлэг алдаанууд:

OCR алдааОрчуулгын эрсдэл
rn-ийг m гэж уншихҮгсийн утга өөрчлөгдөнө.
1-ийг l гэж уншихТоо, ишлэл, эсвэл код буруу болно.
O0 гэж уншихID, томьёо, нэрс эвдэрч болно.
Өргөлт, тэмдэгтүүд унахНэр болон нэр томьёо алдаатай болно.
Баганууд нийлэхӨгүүлбэрүүд буруу дарааллаар орчуулагдана.
Хүснэгтийн нүднүүдийг мөр мөрөөр нь буруу уншихӨгөгдлийн шошго утгуудтайгаа тохирохоо болино.
Хөлийн тайлбарыг үндсэн текст гэж үзэхИшлэл, тайлбарууд буруу контекст рүү орно.

Иймээс OCR шалгах алхам маш чухал. Гаргаж авсан текстээ хэсэгчлэн шалгах хүртэл сканнердсан баримтыг бүү орчуул.

Эхлээд OCR хийх ажлын урсгал

Алхам 1: PDF-ийн төрлийг тодорхойл

Текст сонгож үз. Хэрэв сонголт ажиллаж байвал OCR шаардлагагүй байж болно. Хэрэв сонголт болохгүй бол файлыг зөвхөн зурагтай гэж үз.

Мөн хуудсыг нүдээр шалга:

  • Хазайсан хуудас бол скан байх магадлалтай.
  • Саарал цаасны бүтэц харагдаж байвал скан байх магадлалтай.
  • Нуруу хэсгийн ойролцоох сүүдэр нь зурагдсан номыг илтгэнэ.
  • Жигд бус контраст нь хувилагдсан материал байж болзошгүйг илтгэнэ.
  • Харагдаж буй үгийг хайлт олохгүй байвал текстэн давхарга байхгүй гэсэн үг.

Алхам 2: Боломжтой бол сканыг сайжруул

OCR-ийн чанар дүрсний чанараас эхэлдэг. Хэрэв дахин сканнердах боломжтой бол OCR алдаа засахад цаг үрэхээс өмнө үүнийг хий.

Энэ дүрсний чанарын шалгах хуудсыг ашигла:

  • Жижиг текстийг уншихад хангалттай өндөр нягтралаар сканнерд.
  • Хуудсыг тэгш, шулуун байлга.
  • Нуруу орчмын сүүдрээс зайлсхий.
  • Хүснэгтийн ирмэг, хуруу, эсвэл арын дэвсгэрийн илүүц зүйлсийг тайр.
  • Текст ба хуудасны хооронд өндөр контраст үүсгэ.
  • Бүх мөрийг бүтнээр нь харагдуул.
  • Хуудасны зөв чиглэлийг ашигла.
  • Үсэг бүдгэртэл зургийг хэт шахаж бүү хадгал.

Хуучин ном, хуулбар материалын хувьд хамгийн их үр дүнг ихэвчлэн хазайлт засах, контраст тохируулах, фокусгүй хуудсуудыг дахин сканнердахаас авдаг.

Алхам 3: OCR ажиллуул

OCR хэрэгслийг брэндээр нь биш, баримтын төрлөөр нь сонго.

OCR сонголтХамгийн тохиромжтой хэрэглээАнхаарах зүйл
Adobe Acrobat OCRЕрөнхий бизнесийн скан болон PDF цэвэрлэгээНайдахаасаа өмнө одоогийн төлөвлөгөөндөө багтсан эсэхийг шалга.
ABBYY FineReaderНарийн төвөгтэй скан, хүснэгт, багана, хэцүү зохиомжГар аргаар шалгах шаардлага хэвээр байдаг.
Tesseract or OCRmyPDFЛокал, техникийн, давтагдах OCR ажлын урсгалКомандын мөрийн хэрэгслүүдтэй ажиллах чадвар шаарддаг.
Онлайн OCR хэрэгслүүдЭрсдэл багатай, хааяа боловсруулах файлуудНууцлал, файлын хязгаар, чанар харилцан адилгүй.
Утсаар скан хийх аппуудШинэ сканыг хурдан авахПерспективийн гажуудал OCR-д сөргөөр нөлөөлж болно.

Хувийн гэрээ, эмнэлгийн баримт, санхүүгийн баримт, хэвлэгдээгүй гар бичмэл, эсвэл хяналтад буй академик ажлын хувьд локал OCR ажлын урсгал эсвэл итгэмжлэгдсэн орчин ашигла. Эмзэг скануудыг санамсаргүй үнэгүй OCR сайт руу бүү байршуул.

Алхам 4: OCR текстийг шалга

Орчуулсны дараа биш, орчуулахаас өмнө шалга. Хэцүү хэд хэдэн хуудаснаас текст хуулж, уншигдаж байгаа эсэхийг нягтал.

Шалгах жишээ хуудсууд:

  • Гарчгийн хуудас.
  • Нягт үндсэн тексттэй хуудас.
  • Хүснэгттэй хуудас.
  • Хөлийн тайлбартай хуудас.
  • Жижиг фонттой хуудас.
  • Тамга, гар бичвэр, эсвэл захын тэмдэглэлтэй хуудас.
  • Баримт олон хэлтэй бол хэл тус бүрийн нэг хуудас.

Дараах зүйлийг хай:

  • Алга болсон догол мөрүүд.
  • Нийлсэн баганууд.
  • Эвдэрсэн үгс.
  • Буруу тэмдэгтүүд.
  • Алдагдсан диакритик тэмдэгтүүд.
  • Утгаасаа салсан хүснэгтийн шошгууд.
  • Үндсэн текст рүү орчихсон толгой хэсгүүд.
  • Өгүүлбэр дунд орж ирсэн хуудасны дугаарууд.

Хэрэв OCR чанар муу байвал орчуулахаасаа өмнө зас. OCR огт барьж аваагүй утгыг орчуулагч найдвартай сэргээж чаддаггүй.

Алхам 5: OCR хийгдсэн PDF-ийг орчуул

PDF цэвэр текстэн давхаргатай болмогц үүнийг PDF Translator-т байршуул. Одоо орчуулгын алхам нь хуудасны зураг биш, тексттэй ажиллана.

Орчуулсны дараа дараахыг харьцуул:

  • Эх скан
  • OCR текстэн давхарга
  • Орчуулсан PDF

Энэ гурвалсан шалгалт нь алдаа OCR-оос уу эсвэл орчуулгаас уу гэдгийг тодорхойлоход тусална. Хэрэв OCR текст буруу байвал OCR-ийг дахин ажиллуул. Хэрэв OCR текст зөв боловч орчуулга буруу байвал орчуулгыг зас.

Алхам 6: Өндөр эрсдэлтэй агуулгыг шалга

Сканнердсан баримтууд ихэвчлэн яг нарийн шалгах шаардлагатай агуулгыг агуулдаг: хуучин гэрээ, төрийн маягт, академик өгүүлэл, гарын авлага, түүхэн баримт, номын хуудас.

Эдгээрийг гараар шалга:

  • Нэрс
  • Огноо
  • Тоо
  • Хаяг
  • Бүтээгдэхүүний код
  • Хуулийн ишлэл
  • Эшлэл
  • Хүснэгтийн шошго
  • Нэгж
  • Тэгшитгэл
  • Зургийн тайлбар
  • Хөлийн тайлбар

Судалгаа болон академик файлуудын хувьд академик судалгааны өгүүлэл орчуулах гарын авлагыг мөн уншаарай. Учир нь сканнердсан академик PDF-үүдэд OCR-ийн эрсдэл дээр ишлэл болон зохиомжийн эрсдэл нэмэгддэг.

Хажуугаар нь харьцуулсан алдааны жишээнүүд

OCR-ийн үр дүнг шалгахдаа энэ хүснэгтийг ашигла.

Эх скан дээр харагдах магадлалтай зүйлМуу OCR үр дүнЯагаад чухал вэ
modernmodemУтга нь бүрэн өөрчлөгдөнө.
Section 10Section IOХуулийн эсвэл техникийн ишлэл эвдэрч болно.
20262O26Огноо болон ID найдвартай биш болно.
patientpatlentЭмнэлгийн эсвэл техникийн нэр томьёо буруу болно.
Хоёр тусдаа баганаНэг нийлсэн догол мөрӨгүүлбэрүүд буруу дарааллаар орчуулагдана.
Шошго, утгатай хүснэгтийн мөрХолилдсон тексттэй нэг мөрӨгөгдөл зөв шошготойгоо нийцэхээ болино.
Хөлийн тайлбарын тэмдэг 1l үсэгТайлбар буруу өгүүлбэрт холбогдож болзошгүй.

Хэрэв OCR давхаргад ийм алдаа харагдвал орчуулахаас өмнө OCR-ийг зас.

Ямар хэрэгсэл ашиглах хэрэгтэй вэ?

Баримтын төвөгшлөөр нь сонго.

БаримтЗөвлөмжит зам
Цэвэр бизнесийн сканAcrobat эсвэл өөр найдвартай OCR хэрэгслээр OCR хийгээд дараа нь PDF Translator ашигла.
Хуучин номын сканХазайлтыг засаж, контрастыг сайжруулаад OCR-ийг нямбай хийж, дараа нь орчуул.
Академик өгүүллийн сканOCR хийж, тэгшитгэл/эшлэл/хүснэгтийг шалгаад дараа нь зохиомжийг хянаж орчуул.
Гар бичмэл тэмдэглэлОрчуулахаас өмнө гараар буулгах шаардлагатай байж болно.
Энгийн хувийн баримтХэрэв нууцлалын эрсдэл бага бол онлайн OCR тохиромжтой байж болно.
Эмзэг баримтЛокал OCR эсвэл хяналттай, итгэмжлэгдсэн ажлын урсгал ашигла.

Хэрэв хэрэгслүүдийн илүү өргөн харьцуулалт хүсвэл хамгийн сайн PDF орчуулагчийн гарын авлага-ыг үз.

Сканнердсан PDF-ийн нийтлэг асуудлууд

Нягтрал багатай хуудас

Нягтрал багатай скан нь үсгүүдийг хооронд нь бүдгэрүүлж нэгтгэдэг. OCR нь rn ба m, cl ба d, эсвэл цэг тэмдэг ба тоосыг андуурч магадгүй.

Шийдэл: боломжтой бол дахин сканнерд. Болохгүй бол контрастыг нэмээд OCR-ийг дахин турш.

Хазайсан эсвэл мурийсан хуудас

Номын сканууд ихэвчлэн нуруу орчимдоо мурийдаг. OCR нь муруй мөрүүдийг муу уншиж, текстийн дарааллыг сольж магадгүй.

Шийдэл: хуудсыг тэгшилж, дахин сканнерд, эсвэл deskew болон dewarping дэмждэг OCR хэрэгсэл ашигла.

Олон баганатай зохиомж

OCR нь зүүн ба баруун баганыг нэг өгүүлбэрийн урсгал болгож нийлүүлж чадна.

Шийдэл: орчуулахаасаа өмнө унших дарааллыг шалга. Академик өгүүллүүдэд үүнд онцгой анхаарал хэрэгтэй.

Хүснэгтүүд

Хүснэгт хэцүү байдаг. Учир нь OCR нь текстийг ч, бүтцийг ч хоёуланг нь таних ёстой. Хүснэгт гаднаасаа зөв харагдаж байсан ч текстэн давхарга нь буруу байж болно.

Шийдэл: хүснэгтээс OCR текстийг хуулж, шошгууд нь утгуудтайгаа зөв таарч байгаа эсэхийг баталгаажуул.

Гар бичвэр ба гарын үсэг

Хэвлэмэл текстийн OCR нь гар бичвэр танихаас хамаагүй найдвартай. Захын гар бичмэл тэмдэглэл, гарын үсэг, бөглөсөн маягтууд алдагдах эсвэл эвдэрч болох юм.

Шийдэл: чухал гар бичвэрийг орчуулгын өмнө гараар буулга.

Холимог хэлнүүд

OCR нь эх хэлийг мэдэж байвал хамгийн сайн ажилладаг. Англи, Франц, Хятад хэл холилдсон скан дээр OCR-ийг зөвхөн нэг хэлээр тохируулбал бүтэлгүйтэж болно.

Шийдэл: хэрэв хэрэгсэл дэмждэг бол холбогдох бүх OCR хэлийг сонгоод дараа нь хэл тус бүрийн хэсгийг хэсэгчлэн шалга.

Нууцлал ба аюулгүй байдлын шалгах хуудас

Сканнердсан PDF-ийг хаа нэгтээ байршуулхаасаа өмнө өөрөөсөө асуу:

  • Баримтад хувийн мэдээлэл байна уу?
  • Эмнэлгийн, хуулийн, санхүүгийн, академик, эсвэл хэвлэгдээгүй материал багтсан уу?
  • Үүнийг харилцагчийн гэрээ эсвэл сургуулийн бодлогоор хамгаалсан уу?
  • Энэ баримтад онлайн OCR үйлчилгээ ашиглахыг зөвшөөрдөг үү?
  • Үүний оронд локал ажлын урсгал хэрэгтэй юу?
  • Орчуулах шаардлагагүй хуудсуудыг авч хаяж болох уу?

Сканнердсан PDF-үүд нь гэрээ, үнэмлэх, маягт, судалгааны ноорог, дотоод архив зэргээс ирдэг тул ихэвчлэн эмзэг байдаг. OCR-д байршуулах шийдвэрийг эх баримттай адил нухацтай авч үз.

Түгээмэл асуултууд

Сканнердсан PDF-ийг яаж орчуулах вэ?

Эхлээд текстэн давхарга үүсгэхийн тулд OCR ажиллуул, OCR-ийн үр дүнг шалга, дараа нь OCR хийгдсэн PDF-ийг PDF Translator-аар орчуул. OCR шалгах алхмыг бүү алгас.

Яагаад Google Translate миний сканнердсан PDF-ийг орчуулсангүй вэ?

PDF нь зөвхөн зурагтай байж магадгүй. Хэрэв текстэн давхарга байхгүй бол Google Translate-д гаргаж авах текст байхгүй. Эхлээд OCR хийгээд дараа нь орчуул. Google-д зориулсан тусгай ажлын урсгалыг Google Translate PDF гарын авлага-д тайлбарласан.

ChatGPT сканнердсан PDF-ийг орчуулж чадах уу?

ChatGPT нь тусдаа зургууд эсвэл гаргаж авсан текст дээр тусалж болох ч олон хуудастай сканнердсан PDF-д OCR болон шалгалт зайлшгүй хэрэгтэй хэвээр байна. Бүтэн баримтын ажлын урсгалын хувьд эхлээд OCR хийж, дараа нь PDF орчуулгын ажлын урсгал ашигла.

Сканнердсан PDF-д хамгийн сайн OCR хэрэгсэл юу вэ?

Энэ нь баримтаас хамаарна. Acrobat болон ABBYY төрлийн хэрэгслүүд нь ерөнхий болон төвөгтэй сканд хэрэгтэй. Tesseract эсвэл OCRmyPDF нь локал техникийн ажлын урсгалд тохиромжтой. Эрсдэл багатай энгийн файлуудад онлайн OCR зүгээр байж болох ч нууцлал болон чанар харилцан адилгүй.

OCR формат хадгалж чаддаг уу?

OCR нь текстэн давхарга үүсгэж, заримдаа унших дарааллыг сэргээж чадна. Гэхдээ энэ нь орчуулсан эх зохиомжийг хадгална гэсэн үг биш. OCR-ийн дараа PDF орчуулгын ажлын урсгал ашиглаж, үр дүнг эх хувилбартай харьцуулж шалга.

Хэрэв OCR чанар муу байвал яах вэ?

Орчуулахаасаа өмнө сканыг сайжруул. Боломжтой бол дахин сканнерд, хуудсуудын хазайлтыг зас, контрастыг нэм, илүүц зүйлсийг тайр, OCR-ийн зөв хэлийг сонго, дараа нь хэцүү хуудсуудыг дахин шалга.