BookTranslator
BookTranslator

Jak přeložit naskenované PDF: Kompletní průvodce OCR a překladem

Naskenovaná PDF obsahují obrázky textu, ne skutečný text — proto je Google Translate vrací beze změny. Tady je postup OCR + AI, který to řeší.

BookTranslator

BookTranslator Team

Překladatelské návody10 min read

Rychlá odpověď: Naskenované PDF potřebuje před překladem OCR

Chcete-li přeložit naskenované PDF, nejprve spusťte OCR, které převede obrázky stránek na označitelný text. Poté přeložte PDF po zpracování OCR pomocí překladače dokumentů, jako je Překladač PDF. Pokud OCR přeskočíte, mnoho překladových nástrojů vrátí původní soubor beze změny, vynechá stránky nebo přeloží jen části, které už textovou vrstvu obsahují.

Použijte tento postup:

  1. Otevřete PDF a zkuste označit jednu větu.
  2. Pokud text nelze označit, spusťte OCR.
  3. Před překladem zkontrolujte text získaný pomocí OCR.
  4. Nahrajte PDF po OCR do Překladače PDF.
  5. Porovnejte přeložený výstup s původním skenem.

Pokud už PDF obsahuje označitelný text a problémem je zachování rozvržení, použijte průvodce jak přeložit PDF bez ztráty formátování.

Proč naskenovaná PDF v překladových nástrojích selhávají

Naskenované PDF je často jen sada obrázků stránek uvnitř PDF kontejneru. Člověk na stránce slova vidí, ale soubor nemusí obsahovat skutečný text, který by software dokázal extrahovat.

To vede k jednoduchému problému:

Typ souboruCo překladač vidíCo se stane
PDF založené na textuText a data o rozvrženíPřeklad může začít okamžitě.
Naskenované PDF pouze jako obrazObrázky stránekNejprve je potřeba OCR.
PDF s textovou vrstvou nad obrázkemObrázek skenu plus skrytá OCR textová vrstvaPřeklad může fungovat, ale chyby OCR snižují kvalitu.

Nejužitečnější test není technický:

  1. Otevřete PDF.
  2. Zkuste zvýraznit jednotlivá slova.
  3. Zkopírujte jednu větu.
  4. Vložte ji do textového editoru.

Pokud se věta vloží správně, PDF má textovou vrstvu. Pokud se nevloží nic nebo se celá stránka chová jako jeden obrázek, PDF potřebuje OCR.

OCR není volitelné

OCR znamená optické rozpoznávání znaků. Čte text z obrázku a vytváří strojově čitelný text. Pro překlad PDF OCR obvykle vytvoří neviditelnou textovou vrstvu nad naskenovanou stránkou.

Tato textová vrstva se pak stane zdrojem pro překlad. Pokud OCR udělá chyby, překlad je převezme.

Běžné chyby OCR:

Chyba OCRRiziko pro překlad
rn přečteno jako mSlova změní význam.
1 přečtena jako lČísla, odkazy nebo kódy budou chybné.
O přečteno jako 0ID, vzorce a názvy se mohou rozbít.
Chybějící diakritikaJména a termíny budou nepřesné.
Sloučené sloupceVěty se přeloží ve špatném pořadí.
Buňky tabulky čtené chybně po řádcíchPopisky dat už neodpovídají hodnotám.
Poznámky pod čarou považované za hlavní textCitace a poznámky se přesunou do špatného kontextu.

Proto je krok kontroly OCR tak důležitý. Naskenovaný dokument nepřekládejte, dokud namátkově nezkontrolujete extrahovaný text.

Postup s OCR na prvním místě

Krok 1: Určete typ PDF

Zkuste označit text. Pokud označování funguje, OCR možná nepotřebujete. Pokud nefunguje, považujte soubor za čistě obrazový.

Podívejte se také na stránku vizuálně:

  • Stránky nakřivo naznačují sken.
  • Šedá textura papíru naznačuje sken.
  • Stíny u hřbetu naznačují vyfocenou knihu.
  • Nerovnoměrný kontrast naznačuje fotokopii.
  • Pokud vyhledávání nenachází viditelná slova, pravděpodobně chybí textová vrstva.

Krok 2: Pokud můžete, zlepšete sken

Kvalita OCR začíná kvalitou obrazu. Pokud můžete dokument naskenovat znovu, udělejte to dřív, než strávíte čas opravováním chyb OCR.

Použijte tento kontrolní seznam kvality obrazu:

  • Skenujte v dostatečně vysokém rozlišení i pro malé písmo.
  • Udržujte stránky rovně a naplocho.
  • Vyhněte se stínům u hřbetu.
  • Ořízněte okraje stolu, prsty nebo rušivé pozadí.
  • Zajistěte silný kontrast mezi textem a stránkou.
  • Nechte viditelný celý řádek.
  • Použijte správnou orientaci stránky.
  • Nekomprimujte obraz tak silně, aby se písmena rozmazala.

U starých knih a fotokopií největší zlepšení obvykle přináší narovnání skenu, úprava kontrastu a nové naskenování stran, které jsou mimo zaostření.

Krok 3: Spusťte OCR

OCR nástroj vybírejte podle dokumentu, ne podle značky.

Možnost OCRNejlepší proNa co si dát pozor
Adobe Acrobat OCRBěžné firemní skeny a vyčištění PDFPřed spoléháním na něj si ověřte přístup v aktuálním tarifu.
ABBYY FineReaderSložité skeny, tabulky, sloupce a náročná rozvrženíPořád vyžaduje ruční kontrolu.
Tesseract or OCRmyPDFLokální, technické a opakovatelné OCR postupyVyžaduje jistotu při práci s nástroji příkazové řádky.
Online OCR toolsObčasné soubory s nízkým rizikemSoukromí, limity souborů a kvalita se liší.
Phone scanning appsRychlé pořízení nového skenuPerspektivní zkreslení může OCR zhoršit.

U soukromých smluv, zdravotních záznamů, finančních dokumentů, nepublikovaných rukopisů nebo akademických prací v recenzním řízení dejte přednost lokálnímu OCR postupu nebo důvěryhodnému prostředí. Nenahrávejte citlivé skeny na náhodné bezplatné OCR weby.

Krok 4: Zkontrolujte OCR text

Kontrolu dělejte před překladem, ne po něm. Z několika problematických stránek zkopírujte text a ověřte, že se dá číst.

Ukázkové stránky ke kontrole:

  • Titulní strana.
  • Hustě sázená stránka hlavního textu.
  • Stránka s tabulkou.
  • Stránka s poznámkami pod čarou.
  • Stránka s malým písmem.
  • Stránka s razítky, rukopisem nebo poznámkami na okraji.
  • Stránka v každém jazyce, pokud je dokument vícejazyčný.

Hledejte:

  • Chybějící odstavce.
  • Sloučené sloupce.
  • Rozpadlá slova.
  • Nesprávné znaky.
  • Ztracenou diakritiku.
  • Popisky tabulek oddělené od hodnot.
  • Záhlaví vložená do hlavního textu.
  • Čísla stránek zamíchaná do vět.

Pokud je OCR nekvalitní, opravte to před překladem. Překladač nedokáže spolehlivě obnovit význam, který OCR vůbec nezachytil.

Krok 5: Přeložte PDF po zpracování OCR

Jakmile má PDF čistou textovou vrstvu, nahrajte ho do Překladače PDF. Překladový krok teď může pracovat s textem místo s obrázky stránek.

Po překladu porovnejte:

  • Původní sken
  • OCR textovou vrstvu
  • Přeložené PDF

Tato trojí kontrola vám pomůže určit, jestli chyba vznikla v OCR, nebo v překladu. Pokud je OCR text chybný, spusťte OCR znovu. Pokud je OCR text správný, ale překlad chybný, opravte překlad.

Krok 6: Zkontrolujte obsah s vysokým rizikem

Naskenované dokumenty často obsahují právě ten typ obsahu, který vyžaduje pečlivou kontrolu: staré smlouvy, vládní formuláře, akademické práce, manuály, historické dokumenty a knižní stránky.

Tyto položky zkontrolujte ručně:

  • Jména
  • Data
  • Čísla
  • Adresy
  • Kódy produktů
  • Právní odkazy
  • Citace
  • Popisky tabulek
  • Jednotky
  • Rovnice
  • Popisky obrázků
  • Poznámky pod čarou

U výzkumných a akademických souborů si také přečtěte průvodce překladem akademických výzkumných článků, protože naskenovaná akademická PDF přidávají k rizikům OCR ještě rizika spojená s citacemi a rozvržením.

Příklady typických selhání

Tuto tabulku používejte při kontrole výstupu OCR.

Původní sken pravděpodobně ukazujeŠpatný výstup OCRProč na tom záleží
modernmodemVýznam se úplně změní.
Section 10Section IOPrávní nebo technické odkazy se mohou rozbít.
20262O26Data a ID se stávají nespolehlivými.
patientpatlentLékařské nebo technické termíny budou chybné.
Dva oddělené sloupceJeden sloučený odstavecPřeklad čte věty ve špatném pořadí.
Řádek tabulky s popisky a hodnotamiJeden řádek smíšeného textuData už neodpovídají správnému popisku.
Označení poznámky pod čarou 1Písmeno lPoznámky se mohou připojit ke špatné větě.

Pokud tyto chyby vidíte v OCR vrstvě, opravte OCR před překladem.

Který nástroj zvolit?

Vybírejte podle obtížnosti dokumentu.

DokumentDoporučený postup
Čistý firemní skenOCR v Acrobatu nebo jiném spolehlivém OCR nástroji, potom Překladač PDF.
Sken staré knihyNarovnat a zlepšit kontrast, pečlivě provést OCR, potom přeložit.
Sken odborného článkuOCR, kontrola rovnic/citací/tabulek, potom překlad s kontrolou rozvržení.
Rukou psané poznámkyPřed překladem může být nutný ruční přepis.
Jednoduchý osobní dokumentOnline OCR může stačit, pokud je riziko pro soukromí nízké.
Citlivý dokumentPoužijte lokální OCR nebo důvěryhodný řízený postup.

Pokud chcete širší srovnání nástrojů, podívejte se na průvodce nejlepšími nástroji pro překlad PDF.

Běžné problémy naskenovaných PDF

Stránky s nízkým rozlišením

Skeny s nízkým rozlišením rozmazávají písmena dohromady. OCR si může plést rn a m, cl a d nebo interpunkci a prach.

Řešení: pokud můžete, naskenujte dokument znovu. Pokud ne, zvyšte kontrast a zkuste OCR znovu.

Nakřivo nebo zakřivené stránky

Skeny knih se často u hřbetu zakřivují. OCR pak zakřivené řádky čte špatně a může text přeřadit.

Řešení: srovnejte stránku, naskenujte ji znovu nebo použijte OCR nástroj s narovnáním a vyrovnáním deformace stránky.

Vícesloupcové rozvržení

OCR může levý a pravý sloupec sloučit do jednoho toku vět.

Řešení: před překladem zkontrolujte pořadí čtení. Odborné články vyžadují v tomto bodě zvláštní pozornost.

Tabulky

Tabulky jsou složité, protože OCR musí rozpoznat text i strukturu. Tabulka může vizuálně vypadat správně, zatímco textová vrstva je chybná.

Řešení: zkopírujte OCR text z tabulky a ověřte, že popisky stále odpovídají hodnotám.

Rukopis a podpisy

OCR tištěného textu je mnohem spolehlivější než rozpoznávání rukopisu. Rukou psané poznámky na okraji, podpisy a vyplněné formuláře mohou být vynechány nebo zkomoleny.

Řešení: důležitý rukopis před překladem přepište ručně.

Více jazyků v jednom dokumentu

OCR funguje nejlépe, když zná zdrojový jazyk. Sken s angličtinou, francouzštinou a čínštinou může selhat, pokud je OCR nastavené jen na jeden jazyk.

Řešení: pokud to nástroj podporuje, vyberte všechny relevantní jazyky OCR a potom namátkově zkontrolujte každou jazykovou část.

Kontrolní seznam pro soukromí a bezpečnost

Než kamkoli nahrajete naskenované PDF, zeptejte se:

  • Obsahuje dokument osobní údaje?
  • Obsahuje zdravotní, právní, finanční, akademický nebo nepublikovaný materiál?
  • Spadá pod klientskou smlouvu nebo školní pravidla?
  • Je pro tento dokument použití online OCR služby povolené?
  • Potřebujete místo toho lokální postup?
  • Můžete odstranit stránky, které není potřeba překládat?

Naskenovaná PDF jsou často citlivá, protože pocházejí ze smluv, průkazů, formulářů, výzkumných návrhů a interních archivů. K rozhodnutí o nahrání do OCR přistupujte stejně opatrně jako k původnímu dokumentu.

FAQ

Jak přeložit naskenované PDF?

Nejprve spusťte OCR, aby vznikla textová vrstva, zkontrolujte výstup OCR a teprve potom přeložte PDF po OCR pomocí Překladače PDF. Krok kontroly OCR nevynechávejte.

Proč Google Translate nepřeložil moje naskenované PDF?

PDF může obsahovat jen obrázky. Pokud v něm není textová vrstva, Google Translate nemá co extrahovat. Nejprve použijte OCR a pak překládejte. Postup specifický pro Google najdete v průvodci překladem PDF v Google Translate.

Může ChatGPT přeložit naskenované PDF?

ChatGPT může pomoci s jednotlivými obrázky nebo extrahovaným textem, ale vícestránkové naskenované PDF stále potřebuje OCR a kontrolu. Pro práci s celým dokumentem nejprve udělejte OCR a potom použijte postup pro překlad PDF.

Jaký je nejlepší OCR nástroj pro naskenovaná PDF?

Záleží na dokumentu. Nástroje ve stylu Acrobatu a ABBYY jsou užitečné pro běžné i složité skeny. Tesseract nebo OCRmyPDF se hodí pro lokální technické postupy. Online OCR může být v pořádku pro jednoduché soubory s nízkým rizikem, ale soukromí i kvalita se liší.

Dokáže OCR zachovat formátování?

OCR může vytvořit textovou vrstvu a někdy obnovit pořadí čtení, ale není to totéž jako zachování původního přeloženého rozvržení. Po OCR použijte pracovní postup pro překlad PDF a porovnejte výstup s originálem.

Co když je kvalita OCR špatná?

Než začnete překládat, zlepšete sken. Pokud můžete, naskenujte dokument znovu, narovnejte stránky, zvyšte kontrast, ořízněte rušivé prvky, zvolte správný jazyk OCR a znovu zkontrolujte problematické stránky.