Taranmış Bir PDF Nasıl Çevrilir: Eksiksiz OCR + Çeviri Rehberi
Taranmış PDF'ler gerçek metin değil, metin görselleri içerir — bu yüzden Google Translate onları değiştirmeden geri verir. Bunu düzelten OCR + yapay zeka işlem hattı burada.
Hızlı Yanıt: Taranmış Bir PDF, Çeviriden Önce OCR Gerektirir
Taranmış bir PDF'yi çevirmek için önce sayfa görsellerini seçilebilir metne dönüştürmek üzere OCR uygulayın. Ardından OCR işlenmiş PDF'yi PDF Çevirici gibi bir belge çevirmeniyle çevirin. OCR'yi atlarsanız birçok çeviri aracı orijinal dosyayı değiştirmeden geri verir, sayfaları atlar veya yalnızca zaten metin katmanı içeren bölümleri çevirir.
Şu iş akışını kullanın:
- PDF'yi açın ve bir cümleyi seçmeyi deneyin.
- Metni seçemiyorsanız OCR uygulayın.
- Çeviriden önce OCR metnini gözden geçirin.
- OCR işlenmiş PDF'yi PDF Çevirici'ye yükleyin.
- Çevrilmiş çıktıyı orijinal taramayla karşılaştırarak gözden geçirin.
PDF dosyanızda zaten seçilebilir metin varsa ve sorun yerleşimi korumaksa, biçimlendirmeyi kaybetmeden PDF çevirme rehberini kullanın.
Çeviri Araçlarında Taranmış PDF'ler Neden Başarısız Olur?
Taranmış bir PDF çoğu zaman yalnızca PDF kapsayıcısı içindeki sayfa görsellerinden oluşur. Sayfa bir insana kelimeler gösteriyor olabilir, ancak yazılımın çıkarabileceği gerçek metni dosyanın içinde bulunmayabilir.
Bu da basit bir soruna yol açar:
| Dosya türü | Çeviri aracının gördüğü | Ne olur |
|---|---|---|
| Metin tabanlı PDF | Metin ve yerleşim verileri | Çeviri hemen başlayabilir. |
| Yalnızca görsel içeren taranmış PDF | Sayfa görüntüleri | Önce OCR gerekir. |
| Görsel üstü metin katmanlı PDF | Tarama görseli + gizli OCR metin katmanı | Çeviri çalışabilir, ancak OCR hataları kaliteyi etkiler. |
En faydalı test teknik bir test değildir:
- PDF'yi açın.
- Tek tek kelimeleri vurgulamayı deneyin.
- Bir cümleyi kopyalayın.
- Bir metin düzenleyiciye yapıştırın.
Cümle doğru şekilde yapışıyorsa PDF'de bir metin katmanı vardır. Hiçbir şey yapışmıyorsa veya tüm sayfa tek bir görsel gibi davranıyorsa PDF'nin OCR'ye ihtiyacı vardır.
OCR Zorunludur
OCR, optik karakter tanıma anlamına gelir. Görseldeki metni okur ve makine tarafından okunabilir metin oluşturur. PDF çevirisi için OCR genellikle taranmış sayfanın üzerine görünmez bir metin katmanı ekler.
Bu metin katmanı çevirinin kaynağı olur. OCR hata yaparsa çeviri de bu hataları devralır.
Yaygın OCR hataları:
| OCR hatası | Çeviri riski |
|---|---|
rn karakterlerinin m olarak okunması | Kelimelerin anlamı değişir. |
1 karakterinin l olarak okunması | Sayılar, referanslar veya kodlar yanlış olur. |
O harfinin 0 olarak okunması | Kimlikler, formüller ve adlar bozulabilir. |
| Aksan işaretlerinin kaybolması | Adlar ve terimler hatalı hale gelir. |
| Sütunların birleşmesi | Cümleler yanlış sırada çevrilir. |
| Tablo hücrelerinin satır satır yanlış okunması | Veri etiketleri artık değerlerle eşleşmez. |
| Dipnotların gövde metni gibi ele alınması | Atıflar ve notlar yanlış bağlama kayar. |
OCR gözden geçirme adımı bu yüzden önemlidir. Çıkarılan metni noktasal olarak kontrol etmeden taranmış bir belgeyi çevirmeyin.
Önce OCR İş Akışı
1. Adım: PDF Türünü Belirleyin
Metin seçmeyi deneyin. Seçim çalışıyorsa OCR gerekmeyebilir. Seçim başarısız oluyorsa dosyayı yalnızca görsel içeren bir belge olarak ele alın.
Sayfayı görsel olarak da inceleyin:
- Eğik sayfalar taramaya işaret eder.
- Gri kağıt dokusu taramaya işaret eder.
- Sırt kısmına yakın gölgeler fotoğraflanmış bir kitaba işaret eder.
- Düzensiz kontrast fotokopiye işaret eder.
- Aramanın görünür kelimeleri bulamaması metin katmanı olmadığını gösterir.
2. Adım: Mümkünse Taramayı İyileştirin
OCR kalitesi görüntü kalitesiyle başlar. Yeniden tarama yapabiliyorsanız, OCR hatalarını düzeltmeye zaman harcamadan önce bunu yapın.
Şu görüntü kalitesi kontrol listesini kullanın:
- Küçük metinler için yeterince yüksek çözünürlükte tarayın.
- Sayfaları düz ve hizalı tutun.
- Sırt kısmına yakın gölgelerden kaçının.
- Tablo kenarlarını, parmakları veya arka plan karmaşasını kadrajdan çıkarın.
- Metin ile sayfa arasında güçlü kontrast kullanın.
- Satırın tamamını görünür tutun.
- Doğru sayfa yönünü kullanın.
- Harfler bulanıklaşacak kadar ağır sıkıştırma uygulamayın.
Eski kitaplar ve fotokopilerde en büyük kazanımlar genellikle yamukluğu düzeltme, kontrast düzeltme ve odak dışı sayfaları yeniden taramadan gelir.
3. Adım: OCR Uygulayın
OCR aracını markaya göre değil, belgeye göre seçin.
| OCR seçeneği | En uygunu | Dikkat edilmesi gereken |
|---|---|---|
| Adobe Acrobat OCR | Genel iş taramaları ve PDF temizleme | Buna güvenmeden önce mevcut plan erişimini kontrol edin. |
| ABBYY FineReader | Karmaşık taramalar, tablolar, sütunlar ve zor yerleşimler | Yine de manuel inceleme gerekir. |
| Tesseract veya OCRmyPDF | Yerel, teknik, tekrarlanabilir OCR iş akışları | Komut satırı araçlarıyla rahat olmayı gerektirir. |
| Çevrim içi OCR araçları | Düşük riskli, ara sıra işlenen dosyalar | Gizlilik, dosya sınırları ve kalite değişir. |
| Telefon tarama uygulamaları | Yeni bir taramayı hızlıca almak | Perspektif bozulması OCR'yi zayıflatabilir. |
Özel sözleşmeler, tıbbi kayıtlar, finansal belgeler, yayımlanmamış el yazmaları veya değerlendirme aşamasındaki akademik çalışmalar için yerel bir OCR iş akışını ya da güvenilir bir ortamı tercih edin. Hassas taramaları rastgele ücretsiz OCR sitelerine yüklemeyin.
4. Adım: OCR Metnini Gözden Geçirin
Gözden geçirmeyi çeviriden sonra değil, önce yapın. Zor birkaç sayfadan metin kopyalayın ve okunabilir olup olmadığını kontrol edin.
İncelenecek örnek sayfalar:
- Başlık sayfası.
- Yoğun gövde metni içeren bir sayfa.
- Tablolu bir sayfa.
- Dipnot içeren bir sayfa.
- Küçük yazılı bir sayfa.
- Damga, el yazısı veya kenar notları içeren bir sayfa.
- Belge çok dilli ise her dilde bir sayfa.
Şunlara bakın:
- Eksik paragraflar.
- Birleşmiş sütunlar.
- Bozulmuş kelimeler.
- Yanlış karakterler.
- Kaybolan diakritikler.
- Değerlerden ayrılmış tablo etiketleri.
- Gövde metnine eklenmiş üst bilgiler.
- Cümlelere karışmış sayfa numaraları.
OCR kalitesi kötüyse bunu çeviriden önce düzeltin. OCR'nin hiç yakalayamadığı anlamı bir çeviri aracı güvenilir biçimde geri getiremez.
5. Adım: OCR İşlenmiş PDF'yi Çevirin
PDF'de temiz bir metin katmanı oluştuğunda dosyayı PDF Çevirici'ye yükleyin. Çeviri adımı artık sayfa görselleriyle değil metinle çalışabilir.
Çeviriden sonra şunları karşılaştırın:
- Orijinal tarama
- OCR metin katmanı
- Çevrilmiş PDF
Bu üçlü inceleme, bir hatanın OCR'den mi yoksa çeviriden mi kaynaklandığını anlamanıza yardımcı olur. OCR metni yanlışsa OCR'yi yeniden çalıştırın. OCR metni doğru ama çeviri yanlışsa çeviriyi düzeltin.
6. Adım: Yüksek Riskli İçeriği Gözden Geçirin
Taranmış belgeler çoğu zaman tam da dikkatle incelenmesi gereken içeriği barındırır: eski sözleşmeler, resmi formlar, akademik makaleler, kılavuzlar, tarihî belgeler ve kitap sayfaları.
Şu öğeleri manuel olarak inceleyin:
- Adlar
- Tarihler
- Sayılar
- Adresler
- Ürün kodları
- Hukuki referanslar
- Atıflar
- Tablo etiketleri
- Birimler
- Denklemler
- Resim altyazıları
- Dipnotlar
Araştırma ve akademik dosyalar için akademik araştırma makalelerini çevirme rehberini de okuyun; çünkü taranmış akademik PDF'ler, OCR riskine ek olarak atıf ve yerleşim riskleri de taşır.
Yan Yana Hata Örnekleri
OCR çıktısını gözden geçirirken bu tabloyu kullanın.
| Orijinal tarama büyük olasılıkla şöyle gösterir | Kötü OCR çıktısı | Neden önemlidir |
|---|---|---|
modern | modem | Anlam tamamen değişir. |
Section 10 | Section IO | Hukuki veya teknik referanslar bozulabilir. |
2026 | 2O26 | Tarihler ve kimlikler güvenilmez hale gelir. |
patient | patlent | Tıbbi veya teknik terimler hatalı hale gelir. |
| İki ayrı sütun | Birleşmiş tek paragraf | Çeviri cümleleri yanlış sırada okur. |
| Etiketler ve değerler içeren tablo satırı | Karışık metinden oluşan tek satır | Veriler artık doğru etiketle eşleşmez. |
Dipnot işareti 1 | Harf l | Notlar yanlış cümleye bağlanabilir. |
OCR katmanında bu hataları görüyorsanız çeviri yapmadan önce OCR'yi düzeltin.
Hangi Aracı Kullanmalısınız?
Belgenin zorluk seviyesine göre seçim yapın.
| Belge | Önerilen yol |
|---|---|
| Temiz iş taraması | Acrobat'ta veya başka güvenilir bir OCR aracında OCR uygulayın, ardından PDF Çevirici. |
| Eski kitap taraması | Yamukluğu düzeltin ve kontrastı iyileştirin, OCR'yi dikkatle uygulayın, sonra çevirin. |
| Akademik makale taraması | OCR uygulayın, denklemleri/atıfları/tabloları gözden geçirin, sonra yerleşim incelemesiyle çevirin. |
| El yazısı notlar | Çeviriden önce manuel deşifre gerekebilir. |
| Basit kişisel belge | Gizlilik riski düşükse çevrim içi OCR kabul edilebilir olabilir. |
| Hassas belge | Yerel OCR veya güvenilir, kontrollü bir iş akışı kullanın. |
Daha geniş araç karşılaştırması istiyorsanız en iyi PDF çevirici rehberi yazısına bakın.
Taranmış PDF'lerde Yaygın Sorunlar
Düşük Çözünürlüklü Sayfalar
Düşük çözünürlüklü taramalar harfleri birbirine bulandırır. OCR rn ile m, cl ile d ya da noktalama işaretleri ile tozu karıştırabilir.
Çözüm: mümkünse yeniden tarayın. Değilse kontrastı artırıp OCR'yi tekrar deneyin.
Yamuk veya Eğri Sayfalar
Kitap taramalarında sayfalar genellikle sırt kısmına yakın yerde kıvrılır. OCR bu kıvrımlı satırları kötü okur ve metnin sırasını bozabilir.
Çözüm: sayfayı düzleştirin, yeniden tarayın veya yamukluk düzeltme ve sayfa eğrisi giderme özellikli bir OCR aracı kullanın.
Çok Sütunlu Düzen
OCR sol ve sağ sütunları tek bir cümle akışında birleştirebilir.
Çözüm: çeviriden önce okuma sırasını kontrol edin. Akademik makaleler burada özel dikkat ister.
Tablolar
Tablolar zordur çünkü OCR'nin hem metni hem de yapıyı algılaması gerekir. Bir tablo görsel olarak doğru görünebilir ama metin katmanı yanlış olabilir.
Çözüm: tablodaki OCR metnini kopyalayın ve etiketlerin hâlâ doğru değerlerle eşleştiğini doğrulayın.
El Yazısı ve İmzalar
Baskı metni OCR'si, el yazısı tanımaya göre çok daha güvenilirdir. Kenar notları, imzalar ve doldurulmuş formlar gözden kaçabilir ya da bozulabilir.
Çözüm: önemli el yazılarını çeviriden önce manuel olarak yazıya dökün.
Karma Diller
OCR kaynak dili bildiğinde en iyi sonucu verir. İngilizce, Fransızca ve Çince içeren bir tarama, OCR yalnızca tek bir dile ayarlanmışsa başarısız olabilir.
Çözüm: araç destekliyorsa ilgili tüm OCR dillerini seçin, ardından her dil bölümünü noktasal olarak kontrol edin.
Gizlilik ve Güvenlik Kontrol Listesi
Taranmış bir PDF'yi herhangi bir yere yüklemeden önce şunları sorun:
- Belge kişisel veri içeriyor mu?
- Tıbbi, hukuki, finansal, akademik veya yayımlanmamış materyal içeriyor mu?
- Bir müşteri sözleşmesi veya okul politikası kapsamında mı?
- Bu belge için çevrim içi bir OCR hizmetine izin veriliyor mu?
- Bunun yerine yerel bir iş akışına mı ihtiyacınız var?
- Çeviri gerektirmeyen sayfaları çıkarabilir misiniz?
Taranmış PDF'ler genellikle hassastır çünkü sözleşmelerden, kimliklerden, formlardan, araştırma taslaklarından ve kurum içi arşivlerden gelirler. OCR yükleme kararlarını da orijinal belgeyi ele alış biçiminizle aynı ciddiyetle değerlendirin.
SSS
Taranmış bir PDF'yi nasıl çeviririm?
Önce bir metin katmanı oluşturmak için OCR uygulayın, OCR çıktısını gözden geçirin, ardından OCR işlenmiş PDF'yi PDF Çevirici ile çevirin. OCR gözden geçirme adımını atlamayın.
Google Translate taranmış PDF'mi neden çevirmedi?
PDF yalnızca görsel içeren bir dosya olabilir. Metin katmanı yoksa Google Translate'in çıkarabileceği bir metin de yoktur. Önce OCR uygulayın, ardından çevirin. Google'a özgü iş akışı Google Translate PDF rehberi içinde anlatılır.
ChatGPT taranmış bir PDF'yi çevirebilir mi?
ChatGPT tekil görseller veya çıkarılmış metin konusunda yardımcı olabilir, ancak çok sayfalı taranmış bir PDF yine de OCR ve gözden geçirme gerektirir. Tam belge iş akışı için önce OCR uygulayın, ardından bir PDF çeviri iş akışı kullanın.
Taranmış PDF'ler için en iyi OCR aracı hangisidir?
Bu, belgeye bağlıdır. Acrobat ve ABBYY tarzı araçlar genel ve karmaşık taramalar için faydalıdır. Tesseract veya OCRmyPDF yerel teknik iş akışları için kullanışlıdır. Düşük riskli, basit dosyalar için çevrim içi OCR uygun olabilir, ancak gizlilik ve kalite değişir.
OCR biçimlendirmeyi koruyabilir mi?
OCR bir metin katmanı oluşturabilir ve bazen okuma sırasını geri kazanabilir, ancak bu orijinal çevrilmiş yerleşimi korumakla aynı şey değildir. OCR'den sonra bir PDF çeviri iş akışı kullanın ve çıktıyı orijinalle karşılaştırarak gözden geçirin.
OCR kalitesi kötüyse ne yapmalıyım?
Çeviriden önce taramayı iyileştirin. Mümkünse yeniden tarayın, sayfaları düzeltin, kontrastı artırın, karmaşayı kırpın, doğru OCR dilini seçin ve zor sayfaları tekrar gözden geçirin.