BookTranslator
BookTranslator

Ako preložiť naskenované PDF: Kompletný sprievodca OCR a prekladom

Naskenované PDF obsahujú obrázky textu, nie skutočný text — preto ich Google Translate vracia bez zmien. Tu je OCR + AI postup, ktorý to vyrieši.

BookTranslator

BookTranslator Team

Návody na preklad10 min read

Stručná odpoveď: Naskenované PDF potrebuje pred prekladom OCR

Ak chcete preložiť naskenované PDF, najprv spustite OCR, ktoré z obrázkov strán vytvorí označiteľný text. Potom PDF spracované cez OCR preložte pomocou prekladača dokumentov, napríklad Prekladača PDF. Ak OCR preskočíte, mnohé prekladové nástroje vrátia pôvodný súbor bez zmien, vynechajú strany alebo preložia len tie časti, ktoré už obsahujú textovú vrstvu.

Použite tento postup:

  1. Otvorte PDF a skúste označiť vetu.
  2. Ak text neviete označiť, spustite OCR.
  3. Pred prekladom skontrolujte text z OCR.
  4. Nahrajte PDF spracované cez OCR do Prekladača PDF.
  5. Porovnajte preložený výstup s pôvodným skenom.

Ak vaše PDF už obsahuje označiteľný text a problémom je zachovanie rozloženia, použite návod na preklad PDF bez straty formátovania.

Prečo naskenované PDF zlyhávajú v prekladových nástrojoch

Naskenované PDF je často len sada obrázkov strán vložených do kontajnera PDF. Človek na stránke vidí slová, ale súbor nemusí obsahovať skutočný text, ktorý by softvér vedel extrahovať.

To vedie k jednoduchému problému:

Typ súboruČo vidí prekladačČo sa stane
PDF s textomText a údaje o rozloženíPreklad môže začať okamžite.
Naskenované PDF len s obrázkamiObrázky stránNajprv je potrebné OCR.
PDF s textovou vrstvou nad obrázkomObrázok skenu plus skrytá textová vrstva OCRPreklad môže fungovať, ale chyby OCR znižujú kvalitu.

Najužitočnejší test nie je technický:

  1. Otvorte PDF.
  2. Skúste zvýrazniť jednotlivé slová.
  3. Skopírujte vetu.
  4. Vložte ju do textového editora.

Ak sa veta vloží správne, PDF má textovú vrstvu. Ak sa nevloží nič alebo sa celá stránka správa ako jeden obrázok, PDF potrebuje OCR.

OCR nie je voliteľné

OCR znamená optické rozpoznávanie znakov. Číta text z obrázka a vytvára strojovo čitateľný text. Pri preklade PDF OCR zvyčajne vytvorí nad naskenovanou stránkou neviditeľnú textovú vrstvu.

Táto textová vrstva sa stane zdrojom prekladu. Ak OCR urobí chyby, preklad tieto chyby prevezme.

Bežné chyby OCR:

Chyba OCRRiziko prekladu
rn prečítané ako mSlová zmenia význam.
1 prečítané ako lČísla, odkazy alebo kódy budú nesprávne.
O prečítané ako 0ID, vzorce a názvy sa môžu pokaziť.
Vynechaná diakritikaMená a pojmy budú nepresné.
Zlúčené stĺpceVety sa preložia v nesprávnom poradí.
Bunky tabuľky nesprávne čítané po riadkochOznačenia údajov už nebudú zodpovedať hodnotám.
Poznámky pod čiarou považované za hlavný textCitácie a poznámky sa presunú do nesprávneho kontextu.

Preto je krok kontroly OCR dôležitý. Naskenovaný dokument neprekladajte, kým aspoň orientačne neskontrolujete extrahovaný text.

Postup: najprv OCR

Krok 1: Zistite typ PDF

Skúste označiť text. Ak to funguje, OCR možno nebudete potrebovať. Ak označovanie zlyhá, považujte súbor za čisto obrazový.

Stránku skontrolujte aj vizuálne:

  • Nakrivené stránky naznačujú sken.
  • Sivá textúra papiera naznačuje sken.
  • Tiene pri chrbte naznačujú odfotenú knihu.
  • Nerovnomerný kontrast naznačuje fotokópiu.
  • Ak vyhľadávanie nenájde viditeľné slová, pravdepodobne chýba textová vrstva.

Krok 2: Ak môžete, zlepšite kvalitu skenu

Kvalita OCR sa začína kvalitou obrazu. Ak môžete dokument naskenovať znova, urobte to skôr, než budete tráviť čas opravovaním chýb OCR.

Použite tento kontrolný zoznam kvality obrazu:

  • Skenujte v dostatočne vysokom rozlíšení aj pre malé písmo.
  • Udržujte stránky rovné a bez zakrivenia.
  • Vyhnite sa tieňom pri chrbte.
  • Orežte okraje stola, prsty aj rušivé pozadie.
  • Použite výrazný kontrast medzi textom a stránkou.
  • Dbajte na to, aby bol viditeľný celý riadok.
  • Použite správnu orientáciu stránky.
  • Obrázok nekomprimujte tak silno, aby sa písmená rozmazali.

Pri starých knihách a fotokópiách najviac pomáha vyrovnanie naklonenia, úprava kontrastu a opätovné naskenovanie rozostrených strán.

Krok 3: Spustite OCR

OCR nástroj vyberajte podľa dokumentu, nie podľa značky.

Možnosť OCRNajlepšie naPozor na
Adobe Acrobat OCRBežné firemné skeny a čistenie PDFSkôr než sa naň spoľahnete, overte si prístup v aktuálnom pláne.
ABBYY FineReaderZložité skeny, tabuľky, stĺpce a náročné rozloženiaStále vyžaduje manuálnu kontrolu.
Tesseract alebo OCRmyPDFLokálne, technické a opakovateľné OCR postupyVyžaduje istotu pri práci s nástrojmi príkazového riadka.
Online OCR nástrojePríležitostné súbory s nízkym rizikomLíši sa súkromie, limity súborov aj kvalita.
Mobilné skenovacie aplikácieRýchle vytvorenie nového skenuPerspektívne skreslenie môže OCR zhoršiť.

Pri súkromných zmluvách, zdravotných záznamoch, finančných dokumentoch, nepublikovaných rukopisoch alebo akademickej práci v recenznom konaní uprednostnite lokálny OCR postup alebo dôveryhodné prostredie. Citlivé skeny nenahrávajte na náhodné bezplatné OCR stránky.

Krok 4: Skontrolujte text z OCR

Kontrolujte pred prekladom, nie po ňom. Skopírujte text z niekoľkých náročných strán a overte, či je čitateľný.

Stránky, ktoré sa oplatí skontrolovať:

  • Titulná strana.
  • Hustá strana hlavného textu.
  • Strana s tabuľkou.
  • Strana s poznámkami pod čiarou.
  • Strana s malým písmom.
  • Strana s pečiatkami, rukopisom alebo poznámkami na okrajoch.
  • Strana v každom jazyku, ak je dokument viacjazyčný.

Hľadajte:

  • Chýbajúce odseky.
  • Zlúčené stĺpce.
  • Rozbité slová.
  • Nesprávne znaky.
  • Stratenú diakritiku.
  • Označenia v tabuľkách oddelené od hodnôt.
  • Hlavičky vložené do hlavného textu.
  • Čísla strán primiešané do viet.

Ak je kvalita OCR slabá, opravte ju pred prekladom. Prekladač nedokáže spoľahlivo obnoviť význam, ktorý OCR nikdy nezachytil.

Krok 5: Preložte PDF spracované cez OCR

Keď má PDF čistú textovú vrstvu, nahrajte ho do Prekladača PDF. Preklad teraz môže pracovať s textom namiesto obrázkov strán.

Po preklade porovnajte:

  • Pôvodný sken
  • Textovú vrstvu OCR
  • Preložené PDF

Toto trojité porovnanie vám pomôže určiť, či chyba vznikla pri OCR alebo pri preklade. Ak je text OCR nesprávny, spustite OCR znova. Ak je text OCR správny, ale preklad nie, opravte preklad.

Krok 6: Skontrolujte obsah s vysokým rizikom

Naskenované dokumenty často obsahujú presne ten typ obsahu, ktorý si vyžaduje dôkladnú kontrolu: staré zmluvy, vládne formuláre, akademické práce, manuály, historické dokumenty a knižné strany.

Tieto položky skontrolujte manuálne:

  • Mená
  • Dátumy
  • Čísla
  • Adresy
  • Kódy produktov
  • Právne odkazy
  • Citácie
  • Označenia v tabuľkách
  • Jednotky
  • Rovnice
  • Popisky
  • Poznámky pod čiarou

Pri výskumných a akademických súboroch si prečítajte aj návod na preklad akademických výskumných prác, pretože naskenované akademické PDF pridávajú k rizikám OCR ešte aj riziká citácií a rozloženia.

Príklady chýb vedľa seba

Pri kontrole výstupu OCR použite túto tabuľku.

Pôvodný sken pravdepodobne zobrazujeChybný výstup OCRPrečo je to dôležité
modernmodemVýznam sa úplne zmení.
Section 10Section IOPrávne alebo technické odkazy môžu byť nesprávne.
20262O26Dátumy a ID sa stanú nespoľahlivými.
patientpatlentMedicínske alebo technické pojmy budú nesprávne.
Dva samostatné stĺpceJeden zlúčený odsekPreklad číta vety v nesprávnom poradí.
Riadok tabuľky s označeniami a hodnotamiJeden riadok pomiešaného textuÚdaje už nezodpovedajú správnym označeniam.
Značka poznámky pod čiarou 1Písmeno lPoznámky sa môžu priradiť k nesprávnej vete.

Ak tieto chyby vidíte v OCR vrstve, opravte OCR ešte pred prekladom.

Ktorý nástroj by ste mali použiť?

Vyberajte podľa náročnosti dokumentu.

DokumentOdporúčaný postup
Čistý firemný skenOCR v Acrobate alebo inom spoľahlivom OCR nástroji, potom Prekladač PDF.
Sken starej knihyVyrovnajte skosenie, zlepšite kontrast, starostlivo použite OCR a potom preložte.
Sken akademickej práceOCR, kontrola rovníc/citácií/tabuliek, potom preklad s kontrolou rozloženia.
Rukou písané poznámkyPred prekladom môže byť potrebný ručný prepis.
Jednoduchý osobný dokumentOnline OCR môže byť prijateľné, ak je riziko pre súkromie nízke.
Citlivý dokumentPoužite lokálne OCR alebo dôveryhodný kontrolovaný postup.

Ak chcete širšie porovnanie nástrojov, pozrite si sprievodcu najlepšími nástrojmi na preklad PDF.

Bežné problémy s naskenovanými PDF

Stránky s nízkym rozlíšením

Skeny s nízkym rozlíšením zlievajú písmená dokopy. OCR si môže pomýliť rn a m, cl a d alebo interpunkciu a prach.

Riešenie: ak môžete, naskenujte dokument znova. Ak nie, zvýšte kontrast a skúste OCR opäť.

Nakrivené alebo zakrivené stránky

Skeny kníh sú pri chrbte často zakrivené. OCR takéto riadky číta zle a môže poprehadzovať text.

Riešenie: vyrovnajte stránku, naskenujte ju znova alebo použite OCR nástroj s narovnaním skosenia a deformácie.

Viacstĺpcové rozloženie

OCR môže zlúčiť ľavý a pravý stĺpec do jedného toku viet.

Riešenie: pred prekladom skontrolujte poradie čítania. Akademické práce tu vyžadujú osobitnú pozornosť.

Tabuľky

Tabuľky sú náročné, pretože OCR musí rozpoznať text aj štruktúru. Tabuľka môže vizuálne vyzerať správne, zatiaľ čo textová vrstva je chybná.

Riešenie: skopírujte OCR text z tabuľky a overte, že označenia stále zodpovedajú hodnotám.

Rukopis a podpisy

OCR tlačeného textu je oveľa spoľahlivejšie než rozpoznávanie rukopisu. Rukou písané poznámky na okrajoch, podpisy a vyplnené formuláre môžu byť vynechané alebo skomolené.

Riešenie: pred prekladom ručne prepíšte dôležitý rukopis.

Zmiešané jazyky

OCR funguje najlepšie vtedy, keď pozná zdrojový jazyk. Sken v angličtine, francúzštine a čínštine môže zlyhať, ak je OCR nastavené len na jeden jazyk.

Riešenie: ak to nástroj podporuje, vyberte všetky relevantné jazyky OCR a potom orientačne skontrolujte každú jazykovú časť.

Kontrolný zoznam súkromia a bezpečnosti

Predtým, než naskenované PDF kamkoľvek nahráte, položte si tieto otázky:

  • Obsahuje dokument osobné údaje?
  • Obsahuje medicínske, právne, finančné, akademické alebo nepublikované materiály?
  • Vzťahuje sa naň klientská zmluva alebo školská politika?
  • Je pri tomto dokumente povolená online OCR služba?
  • Nepotrebujete namiesto toho lokálny postup?
  • Môžete odstrániť strany, ktoré netreba prekladať?

Naskenované PDF sú ხშირად citlivé, pretože pochádzajú zo zmlúv, dokladov totožnosti, formulárov, návrhov výskumu a interných archívov. Pri rozhodovaní o nahraní na OCR k nim pristupujte rovnako opatrne ako k pôvodnému dokumentu.

FAQ

Ako preložím naskenované PDF?

Najprv spustite OCR, aby sa vytvorila textová vrstva, skontrolujte výstup OCR a potom preložte PDF spracované cez OCR pomocou Prekladača PDF. Krok kontroly OCR nepreskakujte.

Prečo Google Translate nepreložil moje naskenované PDF?

PDF môže obsahovať len obrázky. Ak v ňom nie je textová vrstva, Google Translate nemá čo extrahovať. Najprv použite OCR a až potom prekladajte. Postup špecifický pre Google je popísaný v sprievodcovi Google Translate pre PDF.

Dokáže ChatGPT preložiť naskenované PDF?

ChatGPT môže pomôcť s jednotlivými obrázkami alebo extrahovaným textom, ale viacstranové naskenované PDF stále potrebuje OCR a kontrolu. Pri dokumente ako celku postupujte takto: najprv OCR, potom workflow na preklad PDF.

Aký je najlepší OCR nástroj pre naskenované PDF?

Závisí to od dokumentu. Acrobat a nástroje typu ABBYY sú užitočné pri bežných aj zložitých skenoch. Tesseract alebo OCRmyPDF sú užitočné pri lokálnych technických postupoch. Online OCR môže byť v poriadku pri jednoduchých súboroch s nízkym rizikom, no súkromie aj kvalita sa líšia.

Dokáže OCR zachovať formátovanie?

OCR dokáže vytvoriť textovú vrstvu a niekedy obnoviť poradie čítania, ale nie je to to isté ako zachovanie pôvodného rozloženia po preklade. Po OCR použite workflow na preklad PDF a skontrolujte výstup oproti originálu.

Čo ak je kvalita OCR zlá?

Pred prekladom zlepšite sken. Ak môžete, naskenujte dokument znova, vyrovnajte stránky, zvýšte kontrast, orežte rušivé prvky, zvoľte správny jazyk OCR a znovu skontrolujte náročné stránky.