BookTranslator
BookTranslator

Skan edilmiş PDF-i necə tərcümə etmək olar: tam OCR + tərcümə bələdçisi

Skan edilmiş PDF-lərdə mətnin özü yox, mətnin şəkilləri olur — buna görə də Google Translate onları dəyişdirmədən qaytarır. Bunu düzəldən OCR + AI iş axını budur.

BookTranslator

BookTranslator Team

Tərcümə Bələdçiləri10 min read

Qısa cavab: Skan edilmiş PDF tərcümədən əvvəl OCR tələb edir

Skan edilmiş PDF-i tərcümə etmək üçün əvvəlcə səhifə şəkillərini seçilə bilən mətnə çevirmək məqsədilə OCR tətbiq edin. Sonra OCR-dən keçirilmiş PDF-i PDF Tərcüməçisi kimi bir sənəd tərcüməçisi ilə tərcümə edin. OCR addımını atlasanız, bir çox tərcümə aləti orijinal faylı dəyişmədən qaytaracaq, bəzi səhifələri ötürəcək və ya yalnız artıq mətn qatına malik hissələri tərcümə edəcək.

Bu iş axınından istifadə edin:

  1. PDF-i açın və bir cümləni seçməyə çalışın.
  2. Mətni seçə bilmirsinizsə, OCR tətbiq edin.
  3. Tərcümədən əvvəl OCR mətnini yoxlayın.
  4. OCR-dən keçirilmiş PDF-i PDF Tərcüməçisi alətinə yükləyin.
  5. Tərcümə edilmiş nəticəni orijinal skanla müqayisə edərək yoxlayın.

PDF-inizdə artıq seçilə bilən mətn varsa və problem düzənin qorunmasıdırsa, formatı itirmədən PDF tərcümə etmək bələdçisindən istifadə edin.

Skan edilmiş PDF-lər niyə tərcümə alətlərində uğursuz olur

Skan edilmiş PDF çox vaxt sadəcə PDF konteynerinin içində yerləşən səhifə şəkilləri toplusu olur. Səhifədə insan üçün sözlər görünə bilər, amma faylın içində proqramın çıxara biləcəyi real mətn olmaya bilər.

Bu isə sadə bir uğursuzluğa səbəb olur:

Fayl növüTərcüməçinin gördüyüNə baş verir
Mətn əsaslı PDFMətn və düzən məlumatıTərcümə dərhal başlaya bilər.
Yalnız şəkildən ibarət skan edilmiş PDFSəhifələrin şəkilləriƏvvəlcə OCR tələb olunur.
Mətnin şəkil üzərində olduğu PDFSkan şəkli və gizli OCR mətn qatıTərcümə işləyə bilər, amma OCR səhvləri keyfiyyətə təsir edir.

Ən faydalı test texniki deyil:

  1. PDF-i açın.
  2. Ayrı-ayrı sözləri vurğulamağa çalışın.
  3. Bir cümləni kopyalayın.
  4. Onu mətn redaktoruna yapışdırın.

Cümlə düzgün yapışdırılırsa, PDF-də mətn qatı var. Heç nə yapışdırılmırsa və ya bütün səhifə tək bir şəkil kimi davranırsa, PDF-ə OCR lazımdır.

OCR məcburidir

OCR optik simvol tanınması deməkdir. O, şəkildəki mətni oxuyur və maşın tərəfindən oxuna bilən mətn yaradır. PDF tərcüməsində OCR adətən skan edilmiş səhifənin üzərində görünməz mətn qatı yaradır.

Həmin mətn qatı tərcümə üçün mənbəyə çevrilir. OCR səhv edərsə, tərcümə də həmin səhvləri miras alır.

OCR-də tez-tez rast gəlinən səhvlər:

OCR səhviTərcümə riski
rn işarələrinin m kimi oxunmasıSözlərin mənası dəyişir.
1 işarəsinin l kimi oxunmasıRəqəmlər, istinadlar və ya kodlar səhv ola bilər.
O işarəsinin 0 kimi oxunmasıID-lər, formulalar və adlar pozula bilər.
Aksentlərin itməsiAdlar və terminlər dəqiqliyini itirir.
Sütunların birləşməsiCümlələr yanlış ardıcıllıqla tərcümə olunur.
Cədvəl xanalarının sətir-sətir yanlış oxunmasıMəlumat etiketləri artıq dəyərlərlə uyğun gəlmir.
Dipnotların əsas mətn kimi qəbul edilməsiSitatlar və qeydlər yanlış kontekstə düşür.

OCR yoxlama addımının vacib olmasının səbəbi budur. Çıxarılmış mətni nümunəvi şəkildə yoxlamadan skan edilmiş sənədi tərcümə etməyin.

Əvvəl OCR iş axını

Addım 1: PDF növünü müəyyən edin

Mətni seçməyə çalışın. Seçim işləyirsə, OCR lazım olmaya bilər. Seçim baş tutmursa, faylı yalnız şəkildən ibarət hesab edin.

Səhifəni vizual olaraq da yoxlayın:

  • Əyilmiş səhifələr skana işarə edir.
  • Boz kağız teksturası skana işarə edir.
  • Cild hissəsinə yaxın kölgələr kitabın fotoşəklinin çəkildiyini göstərir.
  • Qeyri-bərabər kontrast fotokopiyaya işarə edir.
  • Axtarış görünən sözləri tapmırsa, çox güman ki, mətn qatı yoxdur.

Addım 2: Mümkündürsə, skanı yaxşılaşdırın

OCR keyfiyyəti şəkil keyfiyyəti ilə başlayır. Yenidən skan edə bilirsinizsə, OCR səhvlərini düzəltməyə vaxt sərf etməzdən əvvəl bunu edin.

Bu şəkil keyfiyyəti yoxlama siyahısından istifadə edin:

  • Kiçik mətn üçün kifayət qədər yüksək qətnamədə skan edin.
  • Səhifələri düz və hamar saxlayın.
  • Cild hissəsinə yaxın kölgələrdən qaçının.
  • Cədvəl kənarlarını, barmaqları və arxa plan qarışıqlığını kəsib çıxarın.
  • Mətnlə səhifə arasında güclü kontrast yaradın.
  • Bütün sətri görünən saxlayın.
  • Səhifənin düzgün istiqamətini seçin.
  • Şəkli hərfləri bulanıqlaşdıracaq qədər sıxmayın.

Köhnə kitablar və fotokopiyalar üçün ən böyük qazanc adətən səhifəni düzləşdirməkdən, kontrastı düzəltməkdən və fokusdan çıxmış səhifələri yenidən skan etməkdən gəlir.

Addım 3: OCR tətbiq edin

OCR alətini brendə görə yox, sənədə görə seçin.

OCR seçimiƏn uyğun olduğu hallarBunlara diqqət edin
Adobe Acrobat OCRÜmumi biznes skanları və PDF təmizləməOndan asılı olmadan əvvəl cari plan girişini yoxlayın.
ABBYY FineReaderMürəkkəb skanlar, cədvəllər, sütunlar və çətin düzənlərYenə də əl ilə yoxlama tələb edir.
Tesseract və ya OCRmyPDFLokal, texniki, təkrarlana bilən OCR iş axınlarıKomanda sətri alətləri ilə rahat işləməyi tələb edir.
Onlayn OCR alətləriAşağı riskli, ara-sıra işlənən fayllarMəxfilik, fayl limitləri və keyfiyyət dəyişir.
Telefonla skan tətbiqləriYeni skanı tez çəkməkPerspektiv təhrifi OCR-ə zərər verə bilər.

Şəxsi müqavilələr, tibbi qeydlər, maliyyə sənədləri, dərc olunmamış əlyazmalar və ya rəyə göndərilmiş akademik işlər üçün lokal OCR iş axınına və ya etibarlı mühitə üstünlük verin. Həssas skanları təsadüfi pulsuz OCR saytlarına yükləməyin.

Addım 4: OCR mətnini yoxlayın

Yoxlamanı tərcümədən sonra yox, əvvəl edin. Çətin bir neçə səhifədən mətni kopyalayın və oxunaqlı olub-olmadığını yoxlayın.

Yoxlamalı olduğunuz nümunə səhifələr:

  • Başlıq səhifəsi.
  • Sıx mətnli əsas səhifə.
  • Cədvəlli səhifə.
  • Dipnotlu səhifə.
  • Kiçik şriftli səhifə.
  • Möhür, əlyazma və ya kənar qeydləri olan səhifə.
  • Sənəd çoxdillidirsə, hər dildən bir səhifə.

Bunlara baxın:

  • Çatışmayan abzaslar.
  • Birləşmiş sütunlar.
  • Pozulmuş sözlər.
  • Yanlış simvollar.
  • İtirilmiş diakritik işarələr.
  • Cədvəl etiketlərinin dəyərlərdən ayrılması.
  • Başlıqların əsas mətnə qarışması.
  • Səhifə nömrələrinin cümlələrə qarışması.

OCR keyfiyyəti zəifdirsə, bunu tərcümədən əvvəl düzəldin. OCR-in heç vaxt düzgün tutmadığı mənanı tərcüməçi etibarlı şəkildə bərpa edə bilməz.

Addım 5: OCR-dən keçirilmiş PDF-i tərcümə edin

PDF-də təmiz mətn qatı yarandıqdan sonra onu PDF Tərcüməçisi alətinə yükləyin. Tərcümə addımı artıq səhifə şəkilləri ilə yox, mətnlə işləyə bilər.

Tərcümədən sonra bunları müqayisə edin:

  • Orijinal skan
  • OCR mətn qatı
  • Tərcümə edilmiş PDF

Bu üçtərəfli yoxlama səhvin OCR-dənmi, yoxsa tərcümədənmi qaynaqlandığını müəyyən etməyə kömək edir. OCR mətni yanlışdırsa, OCR-i yenidən işə salın. OCR mətni doğrudursa, amma tərcümə yanlışdırsa, tərcüməni düzəldin.

Addım 6: Yüksək riskli məzmunu yoxlayın

Skan edilmiş sənədlər çox vaxt məhz diqqətlə yoxlanmalı olan məzmunu ehtiva edir: köhnə müqavilələr, dövlət formaları, akademik məqalələr, təlimatlar, tarixi sənədlər və kitab səhifələri.

Bu hissələri əl ilə yoxlayın:

  • Adlar
  • Tarixlər
  • Rəqəmlər
  • Ünvanlar
  • Məhsul kodları
  • Hüquqi istinadlar
  • Sitatlar
  • Cədvəl etiketləri
  • Vahidlər
  • Tənliklər
  • Şəkilaltı yazılar
  • Dipnotlar

Tədqiqat və akademik fayllar üçün akademik tədqiqat məqalələrini tərcümə etmək bələdçisini də oxuyun, çünki skan edilmiş akademik PDF-lər OCR riskinin üzərinə sitat və düzən risklərini də əlavə edir.

Yan-yana uğursuzluq nümunələri

OCR nəticəsini yoxlayarkən bu cədvəldən istifadə edin.

Orijinal skanda çox güman görünənSəhv OCR nəticəsiNiyə vacibdir
modernmodemMənası tamamilə dəyişir.
Section 10Section IOHüquqi və ya texniki istinadlar pozula bilər.
20262O26Tarixlər və ID-lər etibarsız olur.
patientpatlentTibbi və ya texniki terminlər səhv olur.
İki ayrı sütunBir birləşmiş abzasTərcümə cümlələri yanlış ardıcıllıqda oxuyur.
Etiket və dəyərləri olan cədvəl sətriQarışıq mətnli tək sətirMəlumat artıq düzgün etiketlə uyğunlaşmır.
Dipnot işarəsi 1l hərfiQeydlər yanlış cümləyə bağlana bilər.

OCR qatında bu səhvləri görürsünüzsə, tərcümədən əvvəl OCR-i düzəldin.

Hansı alətdən istifadə etməlisiniz?

Seçimi sənədin çətinliyinə görə edin.

SənədTövsiyə olunan yol
Təmiz biznes skanıAcrobat və ya başqa etibarlı OCR alətində OCR edin, sonra PDF Tərcüməçisi alətindən istifadə edin.
Köhnə kitab skanıSəhifəni düzləşdirin və kontrastı yaxşılaşdırın, OCR-i diqqətlə edin, sonra tərcümə edin.
Akademik məqalə skanıOCR edin, tənlikləri/sitatları/cədvəlləri yoxlayın, sonra düzən yoxlaması ilə tərcümə edin.
Əlyazma qeydlərTərcümədən əvvəl əl ilə köçürmə tələb oluna bilər.
Sadə şəxsi sənədMəxfilik riski aşağıdırsa, onlayn OCR qəbul edilə bilər.
Həssas sənədLokal OCR və ya etibarlı, nəzarət olunan iş axınından istifadə edin.

Daha geniş alət müqayisəsi istəyirsinizsə, ən yaxşı PDF tərcümə alətləri bələdçisinə baxın.

Skan edilmiş PDF-lərdə rast gəlinən ümumi problemlər

Aşağı qətnaməli səhifələr

Aşağı qətnaməli skanlar hərfləri bir-birinə qarışdırır. OCR rn ilə m-i, cl ilə d-ni və ya durğu işarələri ilə tozu səhv sala bilər.

Həll: mümkündürsə yenidən skan edin. Bu mümkün deyilsə, kontrastı artırın və OCR-i yenidən sınayın.

Əyilmiş və ya əyrilmiş səhifələr

Kitab skanlarında səhifə tez-tez cild hissəsinə yaxın əyilir. OCR əyri sətirləri zəif oxuyur və mətni səhv ardıcıllıqla düzə bilər.

Həll: səhifəni düzləşdirin, yenidən skan edin və ya səhifəni düzləşdirmə və deformasiya düzəltmə funksiyası olan OCR alətindən istifadə edin.

Çoxsütunlu düzən

OCR sol və sağ sütunları bir cümlə axınına birləşdirə bilər.

Həll: tərcümədən əvvəl oxunuş ardıcıllığını yoxlayın. Akademik məqalələr burada xüsusi diqqət tələb edir.

Cədvəllər

Cədvəllər çətindir, çünki OCR həm mətni, həm də strukturu tanımalıdır. Cədvəl vizual olaraq düzgün görünə bilər, amma mətn qatı səhv ola bilər.

Həll: cədvəldən OCR mətnini kopyalayın və etiketlərin hələ də dəyərlərlə uyğun gəldiyini təsdiqləyin.

Əlyazma və imzalar

Çap mətni üçün OCR əlyazma tanınmasından xeyli daha etibarlıdır. Kənarda yazılmış əl qeydləri, imzalar və doldurulmuş formalar ötürülə və ya pozulmuş şəkildə oxuna bilər.

Həll: vacib əlyazma hissələrini tərcümədən əvvəl əl ilə köçürün.

Qarışıq dillər

OCR mənbə dili bildikdə ən yaxşı işləyir. İngilis, fransız və çin dillərini ehtiva edən bir skan OCR yalnız bir dilə qurulubsa uğursuz ola bilər.

Həll: alət dəstəkləyirsə, bütün uyğun OCR dillərini seçin, sonra hər dil bölməsini ayrıca nümunəvi şəkildə yoxlayın.

Məxfilik və təhlükəsizlik yoxlama siyahısı

Skan edilmiş PDF-i hər hansı yerə yükləməzdən əvvəl bunları soruşun:

  • Sənəddə şəxsi məlumat varmı?
  • Orada tibbi, hüquqi, maliyyə, akademik və ya dərc olunmamış material varmı?
  • O, müştəri müqaviləsi və ya təhsil müəssisəsinin qaydaları ilə qorunurmu?
  • Bu sənəd üçün onlayn OCR xidmətindən istifadəyə icazə varmı?
  • Bunun əvəzinə lokal iş axınına ehtiyac varmı?
  • Tərcümə tələb etməyən səhifələri çıxara bilərsinizmi?

Skan edilmiş PDF-lər çox vaxt həssas olur, çünki onlar müqavilələrdən, şəxsiyyət sənədlərindən, formalardan, tədqiqat qaralamalarından və daxili arxivlərdən gəlir. OCR-ə yükləmə qərarlarına orijinal sənədə yanaşdığınız kimi yanaşın.

Tez-tez verilən suallar

Skan edilmiş PDF-i necə tərcümə edim?

Əvvəl mətn qatı yaratmaq üçün OCR tətbiq edin, OCR nəticəsini yoxlayın, sonra OCR-dən keçirilmiş PDF-i PDF Tərcüməçisi ilə tərcümə edin. OCR yoxlama addımını buraxmayın.

Google Translate niyə skan edilmiş PDF-imi tərcümə etmədi?

PDF yalnız şəkildən ibarət ola bilər. Mətn qatı yoxdursa, Google Translate çıxarmaq üçün mətn tapmır. Əvvəl OCR tətbiq edin, sonra tərcümə edin. Google-a xas iş axını Google Translate PDF bələdçisində izah olunur.

ChatGPT skan edilmiş PDF-i tərcümə edə bilərmi?

ChatGPT ayrıca şəkillər və ya çıxarılmış mətnlə kömək edə bilər, amma çoxsəhifəli skan edilmiş PDF yenə də OCR və yoxlama tələb edir. Tam sənəd iş axını üçün əvvəl OCR tətbiq edin, sonra PDF tərcümə iş axınından istifadə edin.

Skan edilmiş PDF-lər üçün ən yaxşı OCR aləti hansıdır?

Bu, sənəddən asılıdır. Acrobat və ABBYY tipli alətlər ümumi və mürəkkəb skanlar üçün faydalıdır. Tesseract və ya OCRmyPDF lokal texniki iş axınları üçün uyğundur. Onlayn OCR aşağı riskli sadə fayllar üçün kifayət edə bilər, amma məxfilik və keyfiyyət dəyişir.

OCR formatı qoruya bilərmi?

OCR mətn qatı yarada və bəzən oxunuş ardıcıllığını bərpa edə bilər, amma bu, orijinal tərcümə edilmiş düzənin qorunması ilə eyni deyil. OCR-dən sonra PDF tərcümə iş axınından istifadə edin və nəticəni orijinalla müqayisə edərək yoxlayın.

OCR keyfiyyəti zəifdirsə nə etməli?

Tərcümədən əvvəl skanı yaxşılaşdırın. Mümkündürsə yenidən skan edin, səhifələri düzləşdirin, kontrastı artırın, artıq detalları kəsin, düzgün OCR dilini seçin və çətin səhifələri yenidən yoxlayın.