BookTranslator
BookTranslator

Taranmış Bir PDF Nasıl Çevrilir: Eksiksiz OCR + Çeviri Rehberi

Taranmış PDF'ler gerçek metin değil, metin görselleri içerir — bu yüzden Google Translate onları değiştirmeden geri verir. Bunu düzelten OCR + yapay zeka işlem hattı burada.

BookTranslator

BookTranslator Team

Çeviri Rehberleri10 min read

Hızlı Yanıt: Taranmış Bir PDF, Çeviriden Önce OCR Gerektirir

Taranmış bir PDF'yi çevirmek için önce sayfa görsellerini seçilebilir metne dönüştürmek üzere OCR uygulayın. Ardından OCR işlenmiş PDF'yi PDF Çevirici gibi bir belge çevirmeniyle çevirin. OCR'yi atlarsanız birçok çeviri aracı orijinal dosyayı değiştirmeden geri verir, sayfaları atlar veya yalnızca zaten metin katmanı içeren bölümleri çevirir.

Şu iş akışını kullanın:

  1. PDF'yi açın ve bir cümleyi seçmeyi deneyin.
  2. Metni seçemiyorsanız OCR uygulayın.
  3. Çeviriden önce OCR metnini gözden geçirin.
  4. OCR işlenmiş PDF'yi PDF Çevirici'ye yükleyin.
  5. Çevrilmiş çıktıyı orijinal taramayla karşılaştırarak gözden geçirin.

PDF dosyanızda zaten seçilebilir metin varsa ve sorun yerleşimi korumaksa, biçimlendirmeyi kaybetmeden PDF çevirme rehberini kullanın.

Çeviri Araçlarında Taranmış PDF'ler Neden Başarısız Olur?

Taranmış bir PDF çoğu zaman yalnızca PDF kapsayıcısı içindeki sayfa görsellerinden oluşur. Sayfa bir insana kelimeler gösteriyor olabilir, ancak yazılımın çıkarabileceği gerçek metni dosyanın içinde bulunmayabilir.

Bu da basit bir soruna yol açar:

Dosya türüÇeviri aracının gördüğüNe olur
Metin tabanlı PDFMetin ve yerleşim verileriÇeviri hemen başlayabilir.
Yalnızca görsel içeren taranmış PDFSayfa görüntüleriÖnce OCR gerekir.
Görsel üstü metin katmanlı PDFTarama görseli + gizli OCR metin katmanıÇeviri çalışabilir, ancak OCR hataları kaliteyi etkiler.

En faydalı test teknik bir test değildir:

  1. PDF'yi açın.
  2. Tek tek kelimeleri vurgulamayı deneyin.
  3. Bir cümleyi kopyalayın.
  4. Bir metin düzenleyiciye yapıştırın.

Cümle doğru şekilde yapışıyorsa PDF'de bir metin katmanı vardır. Hiçbir şey yapışmıyorsa veya tüm sayfa tek bir görsel gibi davranıyorsa PDF'nin OCR'ye ihtiyacı vardır.

OCR Zorunludur

OCR, optik karakter tanıma anlamına gelir. Görseldeki metni okur ve makine tarafından okunabilir metin oluşturur. PDF çevirisi için OCR genellikle taranmış sayfanın üzerine görünmez bir metin katmanı ekler.

Bu metin katmanı çevirinin kaynağı olur. OCR hata yaparsa çeviri de bu hataları devralır.

Yaygın OCR hataları:

OCR hatasıÇeviri riski
rn karakterlerinin m olarak okunmasıKelimelerin anlamı değişir.
1 karakterinin l olarak okunmasıSayılar, referanslar veya kodlar yanlış olur.
O harfinin 0 olarak okunmasıKimlikler, formüller ve adlar bozulabilir.
Aksan işaretlerinin kaybolmasıAdlar ve terimler hatalı hale gelir.
Sütunların birleşmesiCümleler yanlış sırada çevrilir.
Tablo hücrelerinin satır satır yanlış okunmasıVeri etiketleri artık değerlerle eşleşmez.
Dipnotların gövde metni gibi ele alınmasıAtıflar ve notlar yanlış bağlama kayar.

OCR gözden geçirme adımı bu yüzden önemlidir. Çıkarılan metni noktasal olarak kontrol etmeden taranmış bir belgeyi çevirmeyin.

Önce OCR İş Akışı

1. Adım: PDF Türünü Belirleyin

Metin seçmeyi deneyin. Seçim çalışıyorsa OCR gerekmeyebilir. Seçim başarısız oluyorsa dosyayı yalnızca görsel içeren bir belge olarak ele alın.

Sayfayı görsel olarak da inceleyin:

  • Eğik sayfalar taramaya işaret eder.
  • Gri kağıt dokusu taramaya işaret eder.
  • Sırt kısmına yakın gölgeler fotoğraflanmış bir kitaba işaret eder.
  • Düzensiz kontrast fotokopiye işaret eder.
  • Aramanın görünür kelimeleri bulamaması metin katmanı olmadığını gösterir.

2. Adım: Mümkünse Taramayı İyileştirin

OCR kalitesi görüntü kalitesiyle başlar. Yeniden tarama yapabiliyorsanız, OCR hatalarını düzeltmeye zaman harcamadan önce bunu yapın.

Şu görüntü kalitesi kontrol listesini kullanın:

  • Küçük metinler için yeterince yüksek çözünürlükte tarayın.
  • Sayfaları düz ve hizalı tutun.
  • Sırt kısmına yakın gölgelerden kaçının.
  • Tablo kenarlarını, parmakları veya arka plan karmaşasını kadrajdan çıkarın.
  • Metin ile sayfa arasında güçlü kontrast kullanın.
  • Satırın tamamını görünür tutun.
  • Doğru sayfa yönünü kullanın.
  • Harfler bulanıklaşacak kadar ağır sıkıştırma uygulamayın.

Eski kitaplar ve fotokopilerde en büyük kazanımlar genellikle yamukluğu düzeltme, kontrast düzeltme ve odak dışı sayfaları yeniden taramadan gelir.

3. Adım: OCR Uygulayın

OCR aracını markaya göre değil, belgeye göre seçin.

OCR seçeneğiEn uygunuDikkat edilmesi gereken
Adobe Acrobat OCRGenel iş taramaları ve PDF temizlemeBuna güvenmeden önce mevcut plan erişimini kontrol edin.
ABBYY FineReaderKarmaşık taramalar, tablolar, sütunlar ve zor yerleşimlerYine de manuel inceleme gerekir.
Tesseract veya OCRmyPDFYerel, teknik, tekrarlanabilir OCR iş akışlarıKomut satırı araçlarıyla rahat olmayı gerektirir.
Çevrim içi OCR araçlarıDüşük riskli, ara sıra işlenen dosyalarGizlilik, dosya sınırları ve kalite değişir.
Telefon tarama uygulamalarıYeni bir taramayı hızlıca almakPerspektif bozulması OCR'yi zayıflatabilir.

Özel sözleşmeler, tıbbi kayıtlar, finansal belgeler, yayımlanmamış el yazmaları veya değerlendirme aşamasındaki akademik çalışmalar için yerel bir OCR iş akışını ya da güvenilir bir ortamı tercih edin. Hassas taramaları rastgele ücretsiz OCR sitelerine yüklemeyin.

4. Adım: OCR Metnini Gözden Geçirin

Gözden geçirmeyi çeviriden sonra değil, önce yapın. Zor birkaç sayfadan metin kopyalayın ve okunabilir olup olmadığını kontrol edin.

İncelenecek örnek sayfalar:

  • Başlık sayfası.
  • Yoğun gövde metni içeren bir sayfa.
  • Tablolu bir sayfa.
  • Dipnot içeren bir sayfa.
  • Küçük yazılı bir sayfa.
  • Damga, el yazısı veya kenar notları içeren bir sayfa.
  • Belge çok dilli ise her dilde bir sayfa.

Şunlara bakın:

  • Eksik paragraflar.
  • Birleşmiş sütunlar.
  • Bozulmuş kelimeler.
  • Yanlış karakterler.
  • Kaybolan diakritikler.
  • Değerlerden ayrılmış tablo etiketleri.
  • Gövde metnine eklenmiş üst bilgiler.
  • Cümlelere karışmış sayfa numaraları.

OCR kalitesi kötüyse bunu çeviriden önce düzeltin. OCR'nin hiç yakalayamadığı anlamı bir çeviri aracı güvenilir biçimde geri getiremez.

5. Adım: OCR İşlenmiş PDF'yi Çevirin

PDF'de temiz bir metin katmanı oluştuğunda dosyayı PDF Çevirici'ye yükleyin. Çeviri adımı artık sayfa görselleriyle değil metinle çalışabilir.

Çeviriden sonra şunları karşılaştırın:

  • Orijinal tarama
  • OCR metin katmanı
  • Çevrilmiş PDF

Bu üçlü inceleme, bir hatanın OCR'den mi yoksa çeviriden mi kaynaklandığını anlamanıza yardımcı olur. OCR metni yanlışsa OCR'yi yeniden çalıştırın. OCR metni doğru ama çeviri yanlışsa çeviriyi düzeltin.

6. Adım: Yüksek Riskli İçeriği Gözden Geçirin

Taranmış belgeler çoğu zaman tam da dikkatle incelenmesi gereken içeriği barındırır: eski sözleşmeler, resmi formlar, akademik makaleler, kılavuzlar, tarihî belgeler ve kitap sayfaları.

Şu öğeleri manuel olarak inceleyin:

  • Adlar
  • Tarihler
  • Sayılar
  • Adresler
  • Ürün kodları
  • Hukuki referanslar
  • Atıflar
  • Tablo etiketleri
  • Birimler
  • Denklemler
  • Resim altyazıları
  • Dipnotlar

Araştırma ve akademik dosyalar için akademik araştırma makalelerini çevirme rehberini de okuyun; çünkü taranmış akademik PDF'ler, OCR riskine ek olarak atıf ve yerleşim riskleri de taşır.

Yan Yana Hata Örnekleri

OCR çıktısını gözden geçirirken bu tabloyu kullanın.

Orijinal tarama büyük olasılıkla şöyle gösterirKötü OCR çıktısıNeden önemlidir
modernmodemAnlam tamamen değişir.
Section 10Section IOHukuki veya teknik referanslar bozulabilir.
20262O26Tarihler ve kimlikler güvenilmez hale gelir.
patientpatlentTıbbi veya teknik terimler hatalı hale gelir.
İki ayrı sütunBirleşmiş tek paragrafÇeviri cümleleri yanlış sırada okur.
Etiketler ve değerler içeren tablo satırıKarışık metinden oluşan tek satırVeriler artık doğru etiketle eşleşmez.
Dipnot işareti 1Harf lNotlar yanlış cümleye bağlanabilir.

OCR katmanında bu hataları görüyorsanız çeviri yapmadan önce OCR'yi düzeltin.

Hangi Aracı Kullanmalısınız?

Belgenin zorluk seviyesine göre seçim yapın.

BelgeÖnerilen yol
Temiz iş taramasıAcrobat'ta veya başka güvenilir bir OCR aracında OCR uygulayın, ardından PDF Çevirici.
Eski kitap taramasıYamukluğu düzeltin ve kontrastı iyileştirin, OCR'yi dikkatle uygulayın, sonra çevirin.
Akademik makale taramasıOCR uygulayın, denklemleri/atıfları/tabloları gözden geçirin, sonra yerleşim incelemesiyle çevirin.
El yazısı notlarÇeviriden önce manuel deşifre gerekebilir.
Basit kişisel belgeGizlilik riski düşükse çevrim içi OCR kabul edilebilir olabilir.
Hassas belgeYerel OCR veya güvenilir, kontrollü bir iş akışı kullanın.

Daha geniş araç karşılaştırması istiyorsanız en iyi PDF çevirici rehberi yazısına bakın.

Taranmış PDF'lerde Yaygın Sorunlar

Düşük Çözünürlüklü Sayfalar

Düşük çözünürlüklü taramalar harfleri birbirine bulandırır. OCR rn ile m, cl ile d ya da noktalama işaretleri ile tozu karıştırabilir.

Çözüm: mümkünse yeniden tarayın. Değilse kontrastı artırıp OCR'yi tekrar deneyin.

Yamuk veya Eğri Sayfalar

Kitap taramalarında sayfalar genellikle sırt kısmına yakın yerde kıvrılır. OCR bu kıvrımlı satırları kötü okur ve metnin sırasını bozabilir.

Çözüm: sayfayı düzleştirin, yeniden tarayın veya yamukluk düzeltme ve sayfa eğrisi giderme özellikli bir OCR aracı kullanın.

Çok Sütunlu Düzen

OCR sol ve sağ sütunları tek bir cümle akışında birleştirebilir.

Çözüm: çeviriden önce okuma sırasını kontrol edin. Akademik makaleler burada özel dikkat ister.

Tablolar

Tablolar zordur çünkü OCR'nin hem metni hem de yapıyı algılaması gerekir. Bir tablo görsel olarak doğru görünebilir ama metin katmanı yanlış olabilir.

Çözüm: tablodaki OCR metnini kopyalayın ve etiketlerin hâlâ doğru değerlerle eşleştiğini doğrulayın.

El Yazısı ve İmzalar

Baskı metni OCR'si, el yazısı tanımaya göre çok daha güvenilirdir. Kenar notları, imzalar ve doldurulmuş formlar gözden kaçabilir ya da bozulabilir.

Çözüm: önemli el yazılarını çeviriden önce manuel olarak yazıya dökün.

Karma Diller

OCR kaynak dili bildiğinde en iyi sonucu verir. İngilizce, Fransızca ve Çince içeren bir tarama, OCR yalnızca tek bir dile ayarlanmışsa başarısız olabilir.

Çözüm: araç destekliyorsa ilgili tüm OCR dillerini seçin, ardından her dil bölümünü noktasal olarak kontrol edin.

Gizlilik ve Güvenlik Kontrol Listesi

Taranmış bir PDF'yi herhangi bir yere yüklemeden önce şunları sorun:

  • Belge kişisel veri içeriyor mu?
  • Tıbbi, hukuki, finansal, akademik veya yayımlanmamış materyal içeriyor mu?
  • Bir müşteri sözleşmesi veya okul politikası kapsamında mı?
  • Bu belge için çevrim içi bir OCR hizmetine izin veriliyor mu?
  • Bunun yerine yerel bir iş akışına mı ihtiyacınız var?
  • Çeviri gerektirmeyen sayfaları çıkarabilir misiniz?

Taranmış PDF'ler genellikle hassastır çünkü sözleşmelerden, kimliklerden, formlardan, araştırma taslaklarından ve kurum içi arşivlerden gelirler. OCR yükleme kararlarını da orijinal belgeyi ele alış biçiminizle aynı ciddiyetle değerlendirin.

SSS

Taranmış bir PDF'yi nasıl çeviririm?

Önce bir metin katmanı oluşturmak için OCR uygulayın, OCR çıktısını gözden geçirin, ardından OCR işlenmiş PDF'yi PDF Çevirici ile çevirin. OCR gözden geçirme adımını atlamayın.

Google Translate taranmış PDF'mi neden çevirmedi?

PDF yalnızca görsel içeren bir dosya olabilir. Metin katmanı yoksa Google Translate'in çıkarabileceği bir metin de yoktur. Önce OCR uygulayın, ardından çevirin. Google'a özgü iş akışı Google Translate PDF rehberi içinde anlatılır.

ChatGPT taranmış bir PDF'yi çevirebilir mi?

ChatGPT tekil görseller veya çıkarılmış metin konusunda yardımcı olabilir, ancak çok sayfalı taranmış bir PDF yine de OCR ve gözden geçirme gerektirir. Tam belge iş akışı için önce OCR uygulayın, ardından bir PDF çeviri iş akışı kullanın.

Taranmış PDF'ler için en iyi OCR aracı hangisidir?

Bu, belgeye bağlıdır. Acrobat ve ABBYY tarzı araçlar genel ve karmaşık taramalar için faydalıdır. Tesseract veya OCRmyPDF yerel teknik iş akışları için kullanışlıdır. Düşük riskli, basit dosyalar için çevrim içi OCR uygun olabilir, ancak gizlilik ve kalite değişir.

OCR biçimlendirmeyi koruyabilir mi?

OCR bir metin katmanı oluşturabilir ve bazen okuma sırasını geri kazanabilir, ancak bu orijinal çevrilmiş yerleşimi korumakla aynı şey değildir. OCR'den sonra bir PDF çeviri iş akışı kullanın ve çıktıyı orijinalle karşılaştırarak gözden geçirin.

OCR kalitesi kötüyse ne yapmalıyım?

Çeviriden önce taramayı iyileştirin. Mümkünse yeniden tarayın, sayfaları düzeltin, kontrastı artırın, karmaşayı kırpın, doğru OCR dilini seçin ve zor sayfaları tekrar gözden geçirin.