Jak přeložit naskenované PDF: Kompletní průvodce překladem pomocí OCR

Naskenovaná PDF obsahují obrázky textu, nikoliv skutečný text – proto je Google Překladač vrací beze změny. Zde je OCR a AI proces, který to vyřeší.

BookTranslator Team

Překlad PDF

28. 2. 202610 min read

Rychlá odpověď: Naskenované PDF potřebuje před překladem OCR

Chcete-li přeložit naskenované PDF, nejprve spusťte OCR, které přemění obrázky stránek na vybratelný text. Poté přeložte PDF zpracované pomocí OCR pomocí nástroje pro překlad dokumentů, jako je PDF Translator. Pokud OCR přeskočíte, mnoho překladových nástrojů vrátí původní soubor beze změny, vynechá stránky nebo přeloží pouze ty části, které již textovou vrstvu obsahují.

Použijte tento pracovní postup:

Otevřete PDF a zkuste vybrat větu.
Pokud nemůžete text vybrat, spusťte OCR.
Před překladem zkontrolujte text z OCR.
Nahrajte PDF zpracované pomocí OCR do PDF Translatoru.
Porovnejte přeložený výstup s původním skenem.

Pokud vaše PDF již obsahuje vybratelný text a problémem je zachování rozvržení, použijte návod na překlad PDF bez ztráty formátování.

Proč naskenovaná PDF v překladových nástrojích selhávají

Naskenované PDF je často pouze sadou obrázků stránek uvnitř kontejneru PDF. Stránka může člověku připadat jako text, ale soubor nemusí obsahovat skutečný text, který by software mohl vyjmout.

To vede k jednoduchému problému:

Typ souboru	Co vidí překladač	Co se stane
PDF založené na textu	Text a data o rozvržení	Překlad může začít okamžitě.
Naskenované PDF obsahující pouze obrázky	Obrázky stránek	Nejprve je vyžadováno OCR.
PDF ve formátu text přes obrázek	Obrázek skenu plus skrytá vrstva textu OCR	Překlad může fungovat, ale chyby OCR ovlivňují kvalitu.

Nejužitečnější test není technický:

Otevřete PDF.
Zkuste zvýraznit jednotlivá slova.
Zkopírujte větu.
Vložte ji do textového editoru.

Pokud se věta vloží správně, PDF má textovou vrstvu. Pokud se nevloží nic nebo se celá stránka chová jako jeden obrázek, PDF potřebuje OCR.

OCR není volitelné

OCR znamená optické rozpoznávání znaků. Čte text z obrázku a vytváří textčitelný strojem. Pro překlad PDF vytváří OCR obvykle neviditelnou textovou vrstvu přes naskenovanou stránku.

Tato textová vrstva se stává zdrojem pro překlad. Pokud OCR dělá chyby, překlad tyto chyby zdědí.

Běžné chyby OCR:

Chyba OCR	Riziko pro překlad
`rn` je přečteno jako `m`	Význam slov se změnil.
`1` je přečteno jako `l`	Čísla, odkazy nebo kódy budou nesprávné.
`O` je přečteno jako `0`	ID, vzorce a jména se mohou rozbít.
Vynechaná diakritika	Jména a termíny budou nepřesné.
Sloučené sloupce	Věty se přeloží v nesprávném pořadí.
Buňky tabulky přečtené nesprávně řádek po řádku	Popisky dat již neodpovídají hodnotám.
Poznámky pod čarou považované za hlavní text	Citace a poznámky se přesunou do nesprávného kontextu.

Proto je krok kontroly OCR důležitý. Naskenovaný dokument nepřekládejte, dokud náhodně zkontrolovaný extrahovaný text neověříte.

Pracovní postup s OCR na prvním místě

Krok 1: Identifikujte typ PDF

Zkuste vybrat text. Pokud výběr funguje, možná OCR nepotřebujete. Pokud výběr selže, zacházejte se souborem jako s obrázkem.

Stránku také vizuálně zkontrolujte:

Zkosené stránky naznačují sken.
Šedá textura papíru naznačuje sken.
Stíny u hřbetu naznačují vyfotografovanou knihu.
Nerovnoměrný kontrast naznačuje fotokopii.
Pokud vyhledávání nenachází viditelná slova, znamená to, že neexistuje textová vrstva.

Krok 2: Vylepšete sken, pokud je to možné

Kvalita OCR začíná kvalitou obrázku. Pokud můžete provést nový sken, udělejte to předtím, než strávíte čas opravami chyb OCR.

Použijte tento kontrolní seznam kvality obrázku:

Skenujte v dostatečně vysokém rozlišení pro malý text.
Udržujte stránky ploché a rovné.
Vyhněte se stínům u hřbetu.
Ořízněte okraje tabulek, prsty nebo pozadí.
Použijte silný kontrast mezi textem a stránkou.
Udržujte celý řádek viditelný.
Použijte správnou orientaci stránky.
Komprimujte obrázek tak, aby se písmena nerozmazala.

U starých knih a fotokopií přinášejí největší zlepšení narovnání zkosení, úprava kontrastu a opětovné naskenování stránek, které jsou rozostřené.

Krok 3: Spusťte OCR

Zvolte nástroj OCR podle dokumentu, nikoliv podle značky.

Možnost OCR	Nejvhodnější pro	Na co si dát pozor
Adobe Acrobat OCR	Běžné firemní skeny a čištění PDF	Před spoléháním se zkontrolujte přístup k aktuálnímu tarifu.
ABBYY FineReader	Složité skeny, tabulky, sloupce a náročná rozvržení	Stále vyžaduje ruční kontrolu.
Tesseract nebo OCRmyPDF	Místní, technické, opakovatelné pracovní postupy OCR	Vyžaduje obeznámenost s příkazovou řádkou.
Online nástroje OCR	Soubory pro občasné použití s nízkým rizikem	Soukromí, limity souborů a kvalita se liší.
Aplikace pro skenování v telefonu	Rychlé pořízení nového skenu	Zkreslení perspektivy může poškodit OCR.

U soukromých smluv, lékařských záznamů, finančních dokumentů, nevydaných rukopisů nebo akademických prací v recenzním řízení upřednostněte lokální pracovní postup OCR nebo důvěryhodné prostředí. Citlivé skeny nenahrávejte na náhodné bezplatné servery OCR.

Krok 4: Zkontrolujte text OCR

Zkontrolujte text před překladem, nikoliv po něm. Zkopírujte text z několika obtížných stránek a zkontrolujte, zda je čitelný.

Ukázky stránek ke kontrole:

Titulní stránka.
Hustě popsaná stránka textu.
Stránka s tabulkou.
Stránka s poznámkami pod čarou.
Stránka s malým textem.
Stránka s razítky, rukopisem nebo poznámkami na okraji.
Stránka v každém jazyce, pokud je dokument vícejazyčný.

Hledejte:

Chybějící odstavce.
Sloučené sloupce.
Rozdělená slova.
Nesprávné znaky.
Ztracenou diakritiku.
Popisky tabulek oddělené od hodnot.
Záhlaví vložená do hlavního textu.
Čísla stránek smíchaná ve větách.

Pokud je kvalita OCR špatná, opravte ji před překladem. Překladač nedokáže spolehlivě obnovit význam, který OCR nikdy nezaznamenalo.

Krok 5: Přeložte PDF zpracované pomocí OCR

Jakmile má PDF čistou textovou vrstvu, nahrajte ji do PDF Translatoru. Krok překladu nyní může pracovat s textem namísto obrázků stránek.

Po překladu porovnejte:

Původní sken
Textovou vrstvu OCR
Přeložené PDF

Tato třícestná kontrola vám pomůže zjistit, zda chyba pochází z OCR nebo z překladu. Pokud je text OCR chybový, spusťte OCR znovu. Pokud je text OCR správný, ale překlad je chybný, opravte překlad.

Krok 6: Zkontrolujte rizikový obsah

Naskenované dokumenty často obsahují přesně ten obsah, který vyžaduje pečlivou kontrolu: staré smlouvy, vládní formuláře, akademické práce, manuály, historické dokumenty a stránky knih.

Ručně zkontrolujte tyto položky:

Jména
Data
Čísla
Adresy
Kódy produktů
Právní odkazy
Citace
Popisky tabulek
Jednotky
Rovnice
Titulky
Poznámky pod čarou

Pro výzkumné a akademické soubory si přečtěte také průvodce jak překládat akademické výzkumné práce, protože naskenovaná akademická PDF přidávají k rizikům OCR také rizika spojená s citacemi a rozvržením.

Příklady selhání vedle sebe

Použijte tuto tabulku při kontrole výstupu OCR.

Původní sken pravděpodobně ukazuje	Špatný výstup OCR	Proč na tom záleží
`modern`	`modem`	Význam se zcela změní.
`Section 10`	`Section IO`	Právní nebo technické odkazy se mohou rozbít.
`2026`	`2O26`	Data a ID se stanou nespolehlivými.
`patient`	`patlent`	Lékařské nebo technické termíny budou nesprávné.
Dva samostatné sloupce	Jeden sloučený odstavce	Překlad čte věty v nesprávném pořadí.
Řádek tabulky s popisky a hodnotami	Jeden řádek smíšeného textu	Data již neodpovídají správnému popisku.
Značka poznámky pod čarou `1`	Písmeno `l`	Poznámky se mohou připojit k nesprávné větě.

Pokud tyto chyby uvidíte ve vrstvě OCR, opravte OCR před překladem.

Který nástroj byste měli použít?

Zvolte podle obtížnosti dokumentu.

Dokument	Doporučený postup
Čistý firemní sken	OCR v Acrobat nebo jiném spolehlivém nástroji OCR, poté PDF Translator.
Sken staré knihy	Narovnat a zlepšit kontrast, opatrně provést OCR a poté přeložit.
Sken akademické práce	OCR, kontrola rovnic/citací/tabulek a následný překlad s kontrolou rozvržení.
Ručně psané poznámky	Před překladem může být nutný ruční přepis.
Jednoduchý osobní dokument	Online OCR může být přijatelné, pokud je riziko pro soukromí nízké.
Citlivý dokument	Použijte lokální OCR nebo důvěryhodný kontrolovaný pracovní postup.

Pokud chcete širší srovnání nástrojů, podívejte se na průvodce nejlepšími překladači PDF.

Časté problémy s naskenovaným PDF

Stránky s nízkým rozlišením

Skenování v nízkém rozlišení slévá písmena dohromady. OCR si může splést rn a m, cl a d nebo interpunkci a prach.

Řešení: pokud možno proveďte nový sken. Pokud ne, zvyšte kontrast a zkuste OCR znovu.

Zkosené nebo zakřivené stránky

Skenované knihy se často u hřbetu kroutí. OCR čte zakřivené řádky špatně a může přeházet text.

Řešení: narovnejte stránku, naskenujte ji znovu nebo použijte nástroj OCR s funkcí narovnání zkosení a deformací.

Vícesloupcové rozvržení

OCR může sloučit levý a pravý sloupec do jednoho proudu vět.

Řešení: před překladem zkontrolujte pořadí čtení. Akademické práce vyžadují zvláštní pozornost.

Tabulky

Tabulky jsou obtížné, protože OCR musí rozpoznat jak text, tak strukturu. Tabulka může vypadat vizuálně správně, zatímco textová vrstva je chybová.

Řešení: zkopírujte text OCR z tabulky a ověřte, že popisky stále odpovídají hodnotám.

Rukopis a podpisy

OCR pro tištěný text je mnohem spolehlivější než rozpoznávání rukopisu. Ručně psané poznámky na okraji, podpisy a vyplněné formuláře mohou být vynechány nebo zkomoleny.

Řešení: před překladem ručně přepiště nezbytný rukopis.

Smíšené jazyky

OCR funguje nejlépe, když zná zdrojový jazyk. Sken s angličtinou, francouzštinou a čínštinou může selhat, pokud je OCR nastaveno pouze na jeden jazyk.

Řešení: zvolte všechny relevantní jazyky OCR, pokud to nástroj podporuje, a poté náhodně zkontrolujte každou jazykovou sekci.

Kontrolní seznam pro soukromí a zabezpečení

Než naskenované PDF kamkoliv nahrajete, zeptejte se:

Obsahuje dokument osobní údaje?
Zahrnuje lékařský, právní, finanční, akademický nebo nevydaný materiál?
Vztahuje se na něj smlouva s klientem nebo školní předpisy?
Je pro tento dokument povolena online služba OCR?
Potřebujete místo toho lokální pracovní postup?
Můžete odstranit stránky, které nepotřebují překlad?

Naskenovaná PDF jsou často citlivá, protože pocházejí ze smluv, ID, formulářů, návrhů výzkumů a interních archivů. S rozhodnutími o nahrání pro OCR zacházejte stejně, jako byste zacházeli s původním dokumentem.

Často kladené otázky

Jak přeložím naskenované PDF?

Nejprve spusťte OCR pro vytvoření textové vrstvy, zkontrolujte výstup OCR a poté přeložte PDF zpracované pomocí OCR pomocí PDF Translatoru. Krok kontroly OCR nevynechávejte.

Proč Google Překladač nepřeložil moje naskenované PDF?

PDF může obsahovat pouze obrázky. Pokud neexistuje textová vrstva, Google Překladač nemá jaký text extrahovat. Nejprve použijte OCR a teprve poté přeložte. Pracovní postup specifický pro Google je popsán v průvodci překladem PDF pomocí Google Překladače.

Může ChatGPT přeložit naskenované PDF?

ChatGPT může pomoci s jednotlivými obrázky nebo extrahovaným textem, ale vícestránkové naskenované PDF stále potřebuje OCR a kontrolu. Pro kompletní pracovní postup dokumentu nejprve proveďte OCR a poté použijte překladový postup pro PDF.

Jaký je nejlepší nástroj OCR pro naskenovaná PDF?

Záleží na dokumentu. Nástroje jako Acrobat a nástroje ve stylu ABBYY jsou užitečné pro běžné a složité skeny. Tesseract nebo OCRmyPDF je užitečný pro lokální technické pracovní postupy. Online OCR může být v pořádku pro jednoduché soubory s nízkým rizikem, ale soukromí a kvalita se liší.

Dokáže OCR zachovat formátování?

OCR dokáže vytvořit textovou vrstvu a někdy obnovit pořadí čtení, ale není to totéž jako zachování původního přeloženého rozvržení. Po OCR použijte překladový postup pro PDF a zkontrolujte výstup proti originálu.

Co když je kvalita OCR špatná?

Před překladem sken vylepšete. Pokud je to možné, proveďte nový sken, narovnejte zkosené stránky, zvyšte kontrast, ořízněte nepořádek, zvolte správný jazyk OCR a znovu zkontrolujte obtížné stránky.

Funguje OCR u nesusovích (ne-latinských) písem, jako je hindština nebo tamilština?

Ano, ale kvalita enginu se liší podle písma. Skeny v dévanágarí, tamilštině, telugštině a bengálštině vyžadují engine OCR natrénovaný na tato písma a krok překladu vyžaduje fonty, které je správně vykreslí. Překladač dokumentů s vestavěným OCR zpracovává oba kroky dohromady – například překlad naskenovaného PDF z hindštiny do angličtiny.