Taranmış Bir PDF Nasıl Çevrilir: Eksiksiz OCR + Çeviri Rehberi

Taranmış PDF'ler gerçek metin değil, metin görselleri içerir — bu yüzden Google Translate onları değiştirmeden geri verir. Bunu düzelten OCR + yapay zeka işlem hattı burada.

BookTranslator Team

PDF Çevirisi

28 Şub 202610 min read

Hızlı Yanıt: Taranmış Bir PDF, Çeviriden Önce OCR Gerektirir

Taranmış bir PDF'yi çevirmek için önce sayfa görsellerini seçilebilir metne dönüştürmek üzere OCR uygulayın. Ardından OCR işlenmiş PDF'yi PDF Çevirici gibi bir belge çevirmeniyle çevirin. OCR'yi atlarsanız birçok çeviri aracı orijinal dosyayı değiştirmeden geri verir, sayfaları atlar veya yalnızca zaten metin katmanı içeren bölümleri çevirir.

Şu iş akışını kullanın:

PDF'yi açın ve bir cümleyi seçmeyi deneyin.
Metni seçemiyorsanız OCR uygulayın.
Çeviriden önce OCR metnini gözden geçirin.
OCR işlenmiş PDF'yi PDF Çevirici'ye yükleyin.
Çevrilmiş çıktıyı orijinal taramayla karşılaştırarak gözden geçirin.

PDF dosyanızda zaten seçilebilir metin varsa ve sorun yerleşimi korumaksa, biçimlendirmeyi kaybetmeden PDF çevirme rehberini kullanın.

Çeviri Araçlarında Taranmış PDF'ler Neden Başarısız Olur?

Taranmış bir PDF çoğu zaman yalnızca PDF kapsayıcısı içindeki sayfa görsellerinden oluşur. Sayfa bir insana kelimeler gösteriyor olabilir, ancak yazılımın çıkarabileceği gerçek metni dosyanın içinde bulunmayabilir.

Bu da basit bir soruna yol açar:

Dosya türü	Çeviri aracının gördüğü	Ne olur
Metin tabanlı PDF	Metin ve yerleşim verileri	Çeviri hemen başlayabilir.
Yalnızca görsel içeren taranmış PDF	Sayfa görüntüleri	Önce OCR gerekir.
Görsel üstü metin katmanlı PDF	Tarama görseli + gizli OCR metin katmanı	Çeviri çalışabilir, ancak OCR hataları kaliteyi etkiler.

En faydalı test teknik bir test değildir:

PDF'yi açın.
Tek tek kelimeleri vurgulamayı deneyin.
Bir cümleyi kopyalayın.
Bir metin düzenleyiciye yapıştırın.

Cümle doğru şekilde yapışıyorsa PDF'de bir metin katmanı vardır. Hiçbir şey yapışmıyorsa veya tüm sayfa tek bir görsel gibi davranıyorsa PDF'nin OCR'ye ihtiyacı vardır.

OCR Zorunludur

OCR, optik karakter tanıma anlamına gelir. Görseldeki metni okur ve makine tarafından okunabilir metin oluşturur. PDF çevirisi için OCR genellikle taranmış sayfanın üzerine görünmez bir metin katmanı ekler.

Bu metin katmanı çevirinin kaynağı olur. OCR hata yaparsa çeviri de bu hataları devralır.

Yaygın OCR hataları:

OCR hatası	Çeviri riski
`rn` karakterlerinin `m` olarak okunması	Kelimelerin anlamı değişir.
`1` karakterinin `l` olarak okunması	Sayılar, referanslar veya kodlar yanlış olur.
`O` harfinin `0` olarak okunması	Kimlikler, formüller ve adlar bozulabilir.
Aksan işaretlerinin kaybolması	Adlar ve terimler hatalı hale gelir.
Sütunların birleşmesi	Cümleler yanlış sırada çevrilir.
Tablo hücrelerinin satır satır yanlış okunması	Veri etiketleri artık değerlerle eşleşmez.
Dipnotların gövde metni gibi ele alınması	Atıflar ve notlar yanlış bağlama kayar.

OCR gözden geçirme adımı bu yüzden önemlidir. Çıkarılan metni noktasal olarak kontrol etmeden taranmış bir belgeyi çevirmeyin.

Önce OCR İş Akışı

1. Adım: PDF Türünü Belirleyin

Metin seçmeyi deneyin. Seçim çalışıyorsa OCR gerekmeyebilir. Seçim başarısız oluyorsa dosyayı yalnızca görsel içeren bir belge olarak ele alın.

Sayfayı görsel olarak da inceleyin:

Eğik sayfalar taramaya işaret eder.
Gri kağıt dokusu taramaya işaret eder.
Sırt kısmına yakın gölgeler fotoğraflanmış bir kitaba işaret eder.
Düzensiz kontrast fotokopiye işaret eder.
Aramanın görünür kelimeleri bulamaması metin katmanı olmadığını gösterir.

2. Adım: Mümkünse Taramayı İyileştirin

OCR kalitesi görüntü kalitesiyle başlar. Yeniden tarama yapabiliyorsanız, OCR hatalarını düzeltmeye zaman harcamadan önce bunu yapın.

Şu görüntü kalitesi kontrol listesini kullanın:

Küçük metinler için yeterince yüksek çözünürlükte tarayın.
Sayfaları düz ve hizalı tutun.
Sırt kısmına yakın gölgelerden kaçının.
Tablo kenarlarını, parmakları veya arka plan karmaşasını kadrajdan çıkarın.
Metin ile sayfa arasında güçlü kontrast kullanın.
Satırın tamamını görünür tutun.
Doğru sayfa yönünü kullanın.
Harfler bulanıklaşacak kadar ağır sıkıştırma uygulamayın.

Eski kitaplar ve fotokopilerde en büyük kazanımlar genellikle yamukluğu düzeltme, kontrast düzeltme ve odak dışı sayfaları yeniden taramadan gelir.

3. Adım: OCR Uygulayın

OCR aracını markaya göre değil, belgeye göre seçin.

OCR seçeneği	En uygunu	Dikkat edilmesi gereken
Adobe Acrobat OCR	Genel iş taramaları ve PDF temizleme	Buna güvenmeden önce mevcut plan erişimini kontrol edin.
ABBYY FineReader	Karmaşık taramalar, tablolar, sütunlar ve zor yerleşimler	Yine de manuel inceleme gerekir.
Tesseract veya OCRmyPDF	Yerel, teknik, tekrarlanabilir OCR iş akışları	Komut satırı araçlarıyla rahat olmayı gerektirir.
Çevrim içi OCR araçları	Düşük riskli, ara sıra işlenen dosyalar	Gizlilik, dosya sınırları ve kalite değişir.
Telefon tarama uygulamaları	Yeni bir taramayı hızlıca almak	Perspektif bozulması OCR'yi zayıflatabilir.

Özel sözleşmeler, tıbbi kayıtlar, finansal belgeler, yayımlanmamış el yazmaları veya değerlendirme aşamasındaki akademik çalışmalar için yerel bir OCR iş akışını ya da güvenilir bir ortamı tercih edin. Hassas taramaları rastgele ücretsiz OCR sitelerine yüklemeyin.

4. Adım: OCR Metnini Gözden Geçirin

Gözden geçirmeyi çeviriden sonra değil, önce yapın. Zor birkaç sayfadan metin kopyalayın ve okunabilir olup olmadığını kontrol edin.

İncelenecek örnek sayfalar:

Başlık sayfası.
Yoğun gövde metni içeren bir sayfa.
Tablolu bir sayfa.
Dipnot içeren bir sayfa.
Küçük yazılı bir sayfa.
Damga, el yazısı veya kenar notları içeren bir sayfa.
Belge çok dilli ise her dilde bir sayfa.

Şunlara bakın:

Eksik paragraflar.
Birleşmiş sütunlar.
Bozulmuş kelimeler.
Yanlış karakterler.
Kaybolan diakritikler.
Değerlerden ayrılmış tablo etiketleri.
Gövde metnine eklenmiş üst bilgiler.
Cümlelere karışmış sayfa numaraları.

OCR kalitesi kötüyse bunu çeviriden önce düzeltin. OCR'nin hiç yakalayamadığı anlamı bir çeviri aracı güvenilir biçimde geri getiremez.

5. Adım: OCR İşlenmiş PDF'yi Çevirin

PDF'de temiz bir metin katmanı oluştuğunda dosyayı PDF Çevirici'ye yükleyin. Çeviri adımı artık sayfa görselleriyle değil metinle çalışabilir.

Çeviriden sonra şunları karşılaştırın:

Orijinal tarama
OCR metin katmanı
Çevrilmiş PDF

Bu üçlü inceleme, bir hatanın OCR'den mi yoksa çeviriden mi kaynaklandığını anlamanıza yardımcı olur. OCR metni yanlışsa OCR'yi yeniden çalıştırın. OCR metni doğru ama çeviri yanlışsa çeviriyi düzeltin.

6. Adım: Yüksek Riskli İçeriği Gözden Geçirin

Taranmış belgeler çoğu zaman tam da dikkatle incelenmesi gereken içeriği barındırır: eski sözleşmeler, resmi formlar, akademik makaleler, kılavuzlar, tarihî belgeler ve kitap sayfaları.

Şu öğeleri manuel olarak inceleyin:

Adlar
Tarihler
Sayılar
Adresler
Ürün kodları
Hukuki referanslar
Atıflar
Tablo etiketleri
Birimler
Denklemler
Resim altyazıları
Dipnotlar

Araştırma ve akademik dosyalar için akademik araştırma makalelerini çevirme rehberini de okuyun; çünkü taranmış akademik PDF'ler, OCR riskine ek olarak atıf ve yerleşim riskleri de taşır.

Yan Yana Hata Örnekleri

OCR çıktısını gözden geçirirken bu tabloyu kullanın.

Orijinal tarama büyük olasılıkla şöyle gösterir	Kötü OCR çıktısı	Neden önemlidir
`modern`	`modem`	Anlam tamamen değişir.
`Section 10`	`Section IO`	Hukuki veya teknik referanslar bozulabilir.
`2026`	`2O26`	Tarihler ve kimlikler güvenilmez hale gelir.
`patient`	`patlent`	Tıbbi veya teknik terimler hatalı hale gelir.
İki ayrı sütun	Birleşmiş tek paragraf	Çeviri cümleleri yanlış sırada okur.
Etiketler ve değerler içeren tablo satırı	Karışık metinden oluşan tek satır	Veriler artık doğru etiketle eşleşmez.
Dipnot işareti `1`	Harf `l`	Notlar yanlış cümleye bağlanabilir.

OCR katmanında bu hataları görüyorsanız çeviri yapmadan önce OCR'yi düzeltin.

Hangi Aracı Kullanmalısınız?

Belgenin zorluk seviyesine göre seçim yapın.

Belge	Önerilen yol
Temiz iş taraması	Acrobat'ta veya başka güvenilir bir OCR aracında OCR uygulayın, ardından PDF Çevirici.
Eski kitap taraması	Yamukluğu düzeltin ve kontrastı iyileştirin, OCR'yi dikkatle uygulayın, sonra çevirin.
Akademik makale taraması	OCR uygulayın, denklemleri/atıfları/tabloları gözden geçirin, sonra yerleşim incelemesiyle çevirin.
El yazısı notlar	Çeviriden önce manuel deşifre gerekebilir.
Basit kişisel belge	Gizlilik riski düşükse çevrim içi OCR kabul edilebilir olabilir.
Hassas belge	Yerel OCR veya güvenilir, kontrollü bir iş akışı kullanın.

Daha geniş araç karşılaştırması istiyorsanız en iyi PDF çevirici rehberi yazısına bakın.

Taranmış PDF'lerde Yaygın Sorunlar

Düşük Çözünürlüklü Sayfalar

Düşük çözünürlüklü taramalar harfleri birbirine bulandırır. OCR rn ile m, cl ile d ya da noktalama işaretleri ile tozu karıştırabilir.

Çözüm: mümkünse yeniden tarayın. Değilse kontrastı artırıp OCR'yi tekrar deneyin.

Yamuk veya Eğri Sayfalar

Kitap taramalarında sayfalar genellikle sırt kısmına yakın yerde kıvrılır. OCR bu kıvrımlı satırları kötü okur ve metnin sırasını bozabilir.

Çözüm: sayfayı düzleştirin, yeniden tarayın veya yamukluk düzeltme ve sayfa eğrisi giderme özellikli bir OCR aracı kullanın.

Çok Sütunlu Düzen

OCR sol ve sağ sütunları tek bir cümle akışında birleştirebilir.

Çözüm: çeviriden önce okuma sırasını kontrol edin. Akademik makaleler burada özel dikkat ister.

Tablolar

Tablolar zordur çünkü OCR'nin hem metni hem de yapıyı algılaması gerekir. Bir tablo görsel olarak doğru görünebilir ama metin katmanı yanlış olabilir.

Çözüm: tablodaki OCR metnini kopyalayın ve etiketlerin hâlâ doğru değerlerle eşleştiğini doğrulayın.

El Yazısı ve İmzalar

Baskı metni OCR'si, el yazısı tanımaya göre çok daha güvenilirdir. Kenar notları, imzalar ve doldurulmuş formlar gözden kaçabilir ya da bozulabilir.

Çözüm: önemli el yazılarını çeviriden önce manuel olarak yazıya dökün.

Karma Diller

OCR kaynak dili bildiğinde en iyi sonucu verir. İngilizce, Fransızca ve Çince içeren bir tarama, OCR yalnızca tek bir dile ayarlanmışsa başarısız olabilir.

Çözüm: araç destekliyorsa ilgili tüm OCR dillerini seçin, ardından her dil bölümünü noktasal olarak kontrol edin.

Gizlilik ve Güvenlik Kontrol Listesi

Taranmış bir PDF'yi herhangi bir yere yüklemeden önce şunları sorun:

Belge kişisel veri içeriyor mu?
Tıbbi, hukuki, finansal, akademik veya yayımlanmamış materyal içeriyor mu?
Bir müşteri sözleşmesi veya okul politikası kapsamında mı?
Bu belge için çevrim içi bir OCR hizmetine izin veriliyor mu?
Bunun yerine yerel bir iş akışına mı ihtiyacınız var?
Çeviri gerektirmeyen sayfaları çıkarabilir misiniz?

Taranmış PDF'ler genellikle hassastır çünkü sözleşmelerden, kimliklerden, formlardan, araştırma taslaklarından ve kurum içi arşivlerden gelirler. OCR yükleme kararlarını da orijinal belgeyi ele alış biçiminizle aynı ciddiyetle değerlendirin.

SSS

Taranmış bir PDF'yi nasıl çeviririm?

Önce bir metin katmanı oluşturmak için OCR uygulayın, OCR çıktısını gözden geçirin, ardından OCR işlenmiş PDF'yi PDF Çevirici ile çevirin. OCR gözden geçirme adımını atlamayın.

Google Translate taranmış PDF'mi neden çevirmedi?

PDF yalnızca görsel içeren bir dosya olabilir. Metin katmanı yoksa Google Translate'in çıkarabileceği bir metin de yoktur. Önce OCR uygulayın, ardından çevirin. Google'a özgü iş akışı Google Translate PDF rehberi içinde anlatılır.

ChatGPT taranmış bir PDF'yi çevirebilir mi?

ChatGPT tekil görseller veya çıkarılmış metin konusunda yardımcı olabilir, ancak çok sayfalı taranmış bir PDF yine de OCR ve gözden geçirme gerektirir. Tam belge iş akışı için önce OCR uygulayın, ardından bir PDF çeviri iş akışı kullanın.

Taranmış PDF'ler için en iyi OCR aracı hangisidir?

Bu, belgeye bağlıdır. Acrobat ve ABBYY tarzı araçlar genel ve karmaşık taramalar için faydalıdır. Tesseract veya OCRmyPDF yerel teknik iş akışları için kullanışlıdır. Düşük riskli, basit dosyalar için çevrim içi OCR uygun olabilir, ancak gizlilik ve kalite değişir.

OCR biçimlendirmeyi koruyabilir mi?

OCR bir metin katmanı oluşturabilir ve bazen okuma sırasını geri kazanabilir, ancak bu orijinal çevrilmiş yerleşimi korumakla aynı şey değildir. OCR'den sonra bir PDF çeviri iş akışı kullanın ve çıktıyı orijinalle karşılaştırarak gözden geçirin.

OCR kalitesi kötüyse ne yapmalıyım?

Çeviriden önce taramayı iyileştirin. Mümkünse yeniden tarayın, sayfaları düzeltin, kontrastı artırın, karmaşayı kırpın, doğru OCR dilini seçin ve zor sayfaları tekrar gözden geçirin.