BookTranslator
BookTranslator

Skanirlenen PDF-i nädip terjime etmeli: OCR + terjime boýunça doly gollanma

Skanirlenen PDF-lerde hakyky tekst däl-de, tekstiň suratlary bolýar — şonuň üçin Google Translate olary üýtgetmän gaýtaryp berýär. Muny düzedýän OCR + AI iş prosesi şu ýerde.

BookTranslator

BookTranslator Team

Terjime gollanmalary10 min read

Gysga jogap: Skanirlenen PDF terjime edilmezden öň OCR gerek

Skanirlenen PDF-i terjime etmek üçin ilki OCR işledip, sahypadaky şekilleri saýlap bolýan tekste öwürmeli. Soňra OCR-den geçirilen PDF-i PDF terjimeçisi ýaly resminama terjimeçisi bilen terjime ediň. OCR-den geçmeseňiz, köp terjime guraly asyl faýly üýtgetmän gaýtaryp berer, sahypalary geçirip goýberer ýa-da diňe öňden tekst gatlagy bolan bölekleri terjime eder.

Şu iş tertibini ulanyň:

  1. PDF-i açyň we bir sözlemi saýlap bolýandygyny synap görüň.
  2. Teksti saýlap bilmeýän bolsaňyz, OCR işlediň.
  3. Terjime etmezden öň OCR tekstini gözden geçiriň.
  4. OCR-den geçirilen PDF-i PDF terjimeçisine ýükläň.
  5. Terjime edilen netijäni asyl skan bilen deňeşdirip gözden geçiriň.

PDF-iňizde eýýäm saýlap bolýan tekst bar bolsa we mesele düzümi saklamak bolsa, formatirlemesini ýitirmän PDF terjime etmek boýunça gollanmani ulanyň.

Näme üçin skanirlenen PDF-ler terjime gurallarynda işlemeýär

Skanirlenen PDF köplenç diňe PDF konteýneriniň içindäki sahypa suratlarynyň toplumydyr. Sahypada adama sözler görünip biler, ýöne faýlyň içinde programma üpjünçiliginiň çykaryp alyp biljek hakyky teksti bolmaz.

Şeýle ýagdaý ýüze çykýar:

Faýl görnüşiTerjimeçi nämäni görýärNäme bolýar
Tekste esaslanýan PDFTekst we düzüm maglumatlaryTerjime derrew başlap bolýar.
Diňe suratdan ybarat skan PDFSahypalaryň suratlaryIlki OCR zerur.
Suratyň üstünde tekstli PDFSkan suraty we gizlin OCR gatlagyTerjime işläp biler, ýöne OCR ýalňyşlary hili peseldýär.

Iň peýdaly synag tehniki däl:

  1. PDF-i açyň.
  2. Aýry-aýry sözleri bellemegi synap görüň.
  3. Bir sözlemi göçüriň.
  4. Ony tekst redaktoryna goýuň.

Sözlem dogry goýulsa, PDF-de tekst gatlagy bar. Hiç zat goýulmasa ýa-da tutuş sahypa bir surat ýaly hereket etse, PDF-e OCR gerek.

OCR hökmanydyr

OCR optiki nyşan tanamak diýmekdir. Ol şekilden teksti okaýar we maşyn tarapyndan okalýan tekst döredýär. PDF terjimesi üçin OCR köplenç skanirlenen sahypanyň üstünde görünmeýän tekst gatlagyny döredýär.

Şol tekst gatlagy terjime üçin çeşme bolýar. OCR ýalňyşsa, şol ýalňyşlar terjime hem geçýär.

OCR-de ýygy duş gelýän ýalňyşlar:

OCR ýalňyşyTerjime töwekgelçiligi
rn m diýip okalýarSözleriň manysy üýtgeýär.
1 l diýip okalýarSanlar, salgylanmalar ýa-da kodlar ýalňyş bolýar.
O 0 diýip okalýarID-ler, formulalar we atlar bozulyp biler.
Diakritikalar ýitýärAtlar we terminler takyk bolmaýar.
Sütünler birleşdirilýärSözlemler nädogry tertipde terjime edilýär.
Tablisanyň öýjükleri setir boýunça nädogry okalýarMaglumat bellikleri indi gymmatlara gabat gelmeýär.
Aşakdaky bellikler esasy tekst ýaly kabul edilýärSalgylanmalar we bellikler nädogry kontekste geçýär.

Şonuň üçin OCR-den soňky barlag ädimi möhümdir. Çykarylan tekstiň birnäçe ýerini barlaman, skanirlenen resminamany terjime etmäň.

Ilki OCR edilýän iş prosesi

1-nji ädim: PDF görnüşini anyklaň

Teksti saýlap görmäge synanyşyň. Saýlamak başa baryňsa, OCR gerek bolman biler. Saýlap bolmasa, faýla diňe surat hökmünde çemeleşiň.

Mundan başga-da, sahypany göz bilen barlaň:

  • Gyşaran sahypalar onuň skan bolandygyny görkezýär.
  • Çal kagyz teksturasy skany görkezýär.
  • Kitabyň arka birleşýän ýerindäki kölegeler onuň surata düşürilen kitapdygyny görkezýär.
  • Birmeňzeş däl kontrast fotokopiýany görkezýär.
  • Göz öňünde duran sözleri gözleg tapmasa, tekst gatlagynyň ýokdugyny görkezýär.

2-nji ädim: Mümkin bolsa skany gowulandyryň

OCR hili şekiliň hilinden başlanýar. Täzeden skan edip bilýän bolsaňyz, OCR ýalňyşlaryny düzetmäge wagt sarp etmezden öň şony ediň.

Şu şekil hili gözegçilik sanawyny ulanyň:

  • Kiçi tekstler üçin ýeterlik ýokary çözgütlilikde skan ediň.
  • Sahypalary tekiz we gönüli saklaň.
  • Arka birleşýän ýerdäki kölegelerden gaça duruň.
  • Tablisanyň gyralaryny, barmaklary ýa-da arka fonundaky gereksiz zatlary kesip aýyryň.
  • Tekst bilen sahypanyň arasynda güýçli kontrast bolsun.
  • Setiri doly görünýän ýagdaýda saklaň.
  • Sahypanyň dogry ugruny ulanyň.
  • Şekili harplar bulaşjak derejede aşa gysmaň.

Köne kitaplar we fotokopiýalar üçin iň uly peýda köplenç tekizlemekden, kontrasty düzetmekden we fokusdan çykan sahypalary täzeden skan etmekden gelýär.

3-nji ädim: OCR işlediň

OCR guralyny brende görä däl-de, resminama görä saýlaň.

OCR görnüşiIň amatlySeresap bolmaly zat
Adobe Acrobat OCRUmumy işewürlik skanlary we PDF arassalamakOňa bil baglamazdan öň häzirki meýilnama girişini barlaň.
ABBYY FineReaderÇylşyrymly skanlar, tablisalar, sütünler we kyn düzümlerŞeýle-de bolsa el bilen gözden geçirmek gerek.
Tesseract ýa-da OCRmyPDFÝerli, tehniki we gaýtalanýan OCR iş akymlaryBuýruk setiri gurallary bilen rahat işlemegi talap edýär.
Onlaýn OCR gurallaryTöwekgelçiligi pes, wagtal-wagtal ulanylýan faýllarGizlinlik, faýl çäkleri we hil üýtgeýär.
Telefon skanirleme programmalaryTäze skany tiz almakPerspektiwa ýoýulmasy OCR-a zyýan ýetirip biler.

Gizlin şertnamalar, lukmançylyk ýazgylary, maliýe resminamalary, çap edilmedik golýazmalar ýa-da gözden geçirilýän akademik işler üçin ýerli OCR iş tertibini ýa-da ynamdar gurşawy saýlaň. Duýgur skanlary tötänleýin mugt OCR saýtlaryna ýükläň.

4-nji ädim: OCR tekstini gözden geçiriň

Barlagy terjimeden soň däl, öň ediň. Birnäçe kyn sahypadan tekst göçürip, onuň okalýandygyny barlaň.

Barlamaly nusga sahypalar:

  • Ady ýazylan baş sahypa.
  • Dykyz esasy tekstli sahypa.
  • Tablisaly sahypa.
  • Aşakdaky bellikli sahypa.
  • Kiçi tekstli sahypa.
  • Möhürli, golýazmaly ýa-da gyradaky bellikli sahypa.
  • Resminama köp dilli bolsa, her dil üçin bir sahypa.

Şulara serediň:

  • Ýiten abzaslar.
  • Birleşen sütünler.
  • Bölek-bölek bolan sözler.
  • Nädogry nyşanlar.
  • Ýiten diakritikalar.
  • Tablisa bellikleriniň gymmatlardan aýrylmagy.
  • Sözbaşy atlarynyň esasy tekste girizilmegi.
  • Sahypa belgileriniň sözlemlere goşulmagy.

OCR hili pes bolsa, terjimeden öň ony düzüň. OCR hiç haçan ele düşürmedik manyny terjimeçi ygtybarly dikeldip bilmez.

5-nji ädim: OCR-den geçirilen PDF-i terjime ediň

PDF-de arassa tekst gatlagy peýda bolandan soň, ony PDF terjimeçisine ýükläň. Indi terjime ädimi sahypa suratlarynyň ýerine tekst bilen işläp biler.

Terjimeden soň şulary deňeşdiriň:

  • Asyl skan
  • OCR tekst gatlagy
  • Terjime edilen PDF

Bu üç taraplaýyn gözden geçiriş ýalňyşyň OCR-denmi ýa-da terjimedenmi gelendigini anyklamaga kömek edýär. OCR teksti nädogry bolsa, OCR-ni täzeden işlediň. OCR teksti dogry bolup, terjime nädogry bolsa, terjimäni düzüň.

6-njy ädim: Ýokary töwekgelçilikli mazmuny gözden geçiriň

Skanirlenen resminamalarda köplenç hut ünsli gözden geçirilmeli mazmun bolýar: köne şertnamalar, döwlet formalary, akademik makalalar, gollanmalar, taryhy resminamalar we kitap sahypalary.

Şu zatlary el bilen barlaň:

  • Atlar
  • Seneler
  • Sanlar
  • Salgılar
  • Önüm kodlary
  • Hukuk salgylanmalary
  • Sitatlar
  • Tablisa bellikleri
  • Ölçeg birlikleri
  • Deňlemeler
  • Aňlatma ýazgylary
  • Aşakdaky bellikler

Gözleg we akademik faýllar üçin ylmy gözleg makalalaryny terjime etmek boýunça gollanmani hem okaň, sebäbi skanirlenen akademik PDF-ler OCR töwekgelçiliginiň üstüne sitata we düzüm töwekgelçiligini hem goşýar.

Deňeşdirme üçin şowsuzlyk mysallary

OCR netijesini gözden geçirende şu tablisany ulanyň.

Asyl skanda ähtimal görünýäniNädogry OCR netijesiNäme üçin möhüm
modernmodemMany bütinleý üýtgeýär.
Section 10Section IOHukuk ýa-da tehniki salgylanmalar bozulyp biler.
20262O26Seneler we ID-ler ygtybarsyz bolýar.
patientpatlentLukmançylyk ýa-da tehniki terminler nädogry bolýar.
Iki aýry sütünBirleşen bir abzasTerjime sözlemleri nädogry tertipde okaýar.
Bellikleri we gymmatlary bolan tablisa setiriGaryşyk tekstden ybarat bir setirMaglumat indi dogry bellige gabat gelmeýär.
Aşakdaky bellik belgisi 1l harpyBellikler nädogry sözleme birikdirilip biler.

OCR gatlagynda şu ýalňyşlary görseňiz, terjimeden öň OCR-ni düzüň.

Haýsy guraly ulanmaly?

Saýlawy resminamanyň kynlygyna görä ediň.

ResminamaMaslahat berilýän ýol
Arassa işewürlik skanyAcrobat-da ýa-da başga bir ygtybarly OCR guralynda OCR ediň, soňra PDF terjimeçisini ulanyň.
Köne kitap skanyGyşarmany düzedip, kontrasty gowulandyryň, OCR-ni seresaply ýerine ýetiriň, soňra terjime ediň.
Akademik makala skanyOCR ediň, deňlemeleri/sitatlary/tablisalary gözden geçiriň, soňra düzümi hem barlap terjime ediň.
Golýazma belliklerTerjimeden öň el bilen göçürmek zerur bolup biler.
Ýönekeý şahsy resminamaGizlinlik töwekgelçiligi pes bolsa, onlaýn OCR kabul ederlikli bolup biler.
Duýgur resminamaÝerli OCR ýa-da ynamdar, gözegçilik edilýän iş tertibini ulanyň.

Has giň gural deňeşdirmesini isleseňiz, iň gowy PDF terjime gurallary boýunça gollanma serediň.

Skanirlenen PDF-lerde ýygy duş gelýän meseleler

Pes çözgütli sahypalar

Pes çözgütli skanlar harplary biri-birine bulaşdyrýar. OCR rn bilen m-i, cl bilen d-ni ýa-da dyngy belgileri bilen tozany bulaşdyryp biler.

Çözgüt: mümkin bolsa täzeden skan ediň. Bolmasa, kontrasty artdyryp, OCR-ni ýene bir gezek synap görüň.

Gyşaran ýa-da egri sahypalar

Kitap skanlarynda setirler köplenç arka birleşýän ýerde egrelýär. OCR egri setirleri erbet okaýar we tekstiň tertibini hem üýtgedip biler.

Çözgüt: sahypany tekizläň, täzeden skan ediň ýa-da gyşarmany we egrelmäni düzedýän OCR guralyny ulanyň.

Köp sütünli düzüm

OCR çep we sag sütünleri bir sözlem akymyna birleşdirip biler.

Çözgüt: terjimeden öň okalyş tertibini barlaň. Bu ýerde akademik makalalara aýratyn üns gerek.

Tablisalar

Tablisalar kyn bolýar, sebäbi OCR hem teksti, hem gurluşy tanamaly. Tablisa göz bilen dogry görünse-de, tekst gatlagy nädogry bolup biler.

Çözgüt: tablisadaky OCR tekstini göçürip, bellikleriň heniz hem gymmatlara gabat gelýändigini tassyklaň.

Golýazma we gollar

Çap edilen tekst üçin OCR golýazmany tanamakdan has ygtybarlydyr. Gyradaky golýazma bellikler, gollar we doldurylan formalar geçip gidip ýa-da bulaşyk çykyp biler.

Çözgüt: möhüm golýazmany terjimeden öň el bilen göçüriň.

Garyşyk diller

OCR çeşme dilini bilende iň gowy işleýär. Iňlis, fransuz we hytaý dilleri bolan skan, OCR diňe bir dile goýlan bolsa, şowsuz bolup biler.

Çözgüt: gural goldaýan bolsa, degişli OCR dilleriniň ählisini saýlaň, soňra her dil bölümini aýratyn barlaň.

Gizlinlik we howpsuzlyk gözegçilik sanawy

Skanirlenen PDF-i islendik ýere ýükläniňizden öň özüňizden şulary soraň:

  • Resminamada şahsy maglumat barmy?
  • Onda lukmançylyk, hukuk, maliýe, akademik ýa-da çap edilmedik material barmy?
  • Ol müşderi şertnamasy ýa-da okuw jaýynyň syýasaty bilen goralýarmy?
  • Bu resminama üçin onlaýn OCR hyzmatyna rugsat barmy?
  • Munuň ýerine ýerli iş tertibi gerekmi?
  • Terjime gerek däl sahypalary aýryp bolarmy?

Skanirlenen PDF-ler köplenç duýgur bolýar, sebäbi olar şertnamalardan, şahsyýet resminamalaryndan, formalardan, gözleg taslamalaryndan we içerki arhiwlerden gelýär. OCR üçin ýüklemek baradaky karary asyl resminama bilen nähili çemeleşýän bolsaňyz, şonuň ýaly kabul ediň.

Sorag-jogap

Skanirlenen PDF-i nädip terjime etmeli?

Ilki tekst gatlagyny döretmek üçin OCR işlediň, OCR netijesini gözden geçiriň, soňra OCR-den geçirilen PDF-i PDF terjimeçisi bilen terjime ediň. OCR barlag ädimini geçip gitmäň.

Näme üçin Google Translate skanirlenen PDF-imi terjime etmedi?

PDF diňe suratdan ybarat bolup biler. Tekst gatlagy ýok bolsa, Google Translate çykaryp alyp biljek teksti tapmaýar. Ilki OCR ulanyň, soňra terjime ediň. Google üçin aýratyn iş tertibi Google Translate PDF gollanmasynda düşündirilýär.

ChatGPT skanirlenen PDF-i terjime edip bilermi?

ChatGPT aýry-aýry suratlar ýa-da çykarylan tekst bilen kömek edip biler, ýöne köp sahypaly skanirlenen PDF üçin şonda-da OCR we barlag gerek. Tutuş resminama iş akymy üçin ilki OCR ulanyň, soňra PDF terjime iş tertibini ulanyň.

Skanirlenen PDF-ler üçin iň gowy OCR guraly haýsy?

Bu resminama bagly. Acrobat we ABBYY görnüşindäki gurallar umumy we çylşyrymly skanlar üçin peýdalydyr. Tesseract ýa-da OCRmyPDF ýerli tehniki iş akymlary üçin peýdalydyr. Onlaýn OCR töwekgelçiligi pes, ýönekeý faýllar üçin gowy bolup biler, ýöne gizlinlik we hil üýtgeýär.

OCR formatirlemäni saklap bilermi?

OCR tekst gatlagyny döredip, käte okalyş tertibini hem dikeldip biler, ýöne bu terjime edilen asyl düzümi saklamak bilen bir zat däl. OCR-den soň PDF terjime iş tertibini ulanyň we netijäni asyl nusga bilen deňeşdirip barlaň.

OCR hili erbet bolsa näme etmeli?

Terjimeden öň skany gowulandyryň. Mümkin bolsa täzeden skan ediň, sahypalary tekizläň, kontrasty artdyryň, gereksiz ýerleri kesiň, dogry OCR dilini saýlaň we kyn sahypalary ýene bir gezek gözden geçiriň.