Ako preložiť naskenované PDF: Kompletný sprievodca OCR a prekladom
Naskenované PDF obsahujú obrázky textu, nie skutočný text — preto ich Google Translate vracia bez zmien. Tu je OCR + AI postup, ktorý to vyrieši.
Stručná odpoveď: Naskenované PDF potrebuje pred prekladom OCR
Ak chcete preložiť naskenované PDF, najprv spustite OCR, ktoré z obrázkov strán vytvorí označiteľný text. Potom PDF spracované cez OCR preložte pomocou prekladača dokumentov, napríklad Prekladača PDF. Ak OCR preskočíte, mnohé prekladové nástroje vrátia pôvodný súbor bez zmien, vynechajú strany alebo preložia len tie časti, ktoré už obsahujú textovú vrstvu.
Použite tento postup:
- Otvorte PDF a skúste označiť vetu.
- Ak text neviete označiť, spustite OCR.
- Pred prekladom skontrolujte text z OCR.
- Nahrajte PDF spracované cez OCR do Prekladača PDF.
- Porovnajte preložený výstup s pôvodným skenom.
Ak vaše PDF už obsahuje označiteľný text a problémom je zachovanie rozloženia, použite návod na preklad PDF bez straty formátovania.
Prečo naskenované PDF zlyhávajú v prekladových nástrojoch
Naskenované PDF je často len sada obrázkov strán vložených do kontajnera PDF. Človek na stránke vidí slová, ale súbor nemusí obsahovať skutočný text, ktorý by softvér vedel extrahovať.
To vedie k jednoduchému problému:
| Typ súboru | Čo vidí prekladač | Čo sa stane |
|---|---|---|
| PDF s textom | Text a údaje o rozložení | Preklad môže začať okamžite. |
| Naskenované PDF len s obrázkami | Obrázky strán | Najprv je potrebné OCR. |
| PDF s textovou vrstvou nad obrázkom | Obrázok skenu plus skrytá textová vrstva OCR | Preklad môže fungovať, ale chyby OCR znižujú kvalitu. |
Najužitočnejší test nie je technický:
- Otvorte PDF.
- Skúste zvýrazniť jednotlivé slová.
- Skopírujte vetu.
- Vložte ju do textového editora.
Ak sa veta vloží správne, PDF má textovú vrstvu. Ak sa nevloží nič alebo sa celá stránka správa ako jeden obrázok, PDF potrebuje OCR.
OCR nie je voliteľné
OCR znamená optické rozpoznávanie znakov. Číta text z obrázka a vytvára strojovo čitateľný text. Pri preklade PDF OCR zvyčajne vytvorí nad naskenovanou stránkou neviditeľnú textovú vrstvu.
Táto textová vrstva sa stane zdrojom prekladu. Ak OCR urobí chyby, preklad tieto chyby prevezme.
Bežné chyby OCR:
| Chyba OCR | Riziko prekladu |
|---|---|
rn prečítané ako m | Slová zmenia význam. |
1 prečítané ako l | Čísla, odkazy alebo kódy budú nesprávne. |
O prečítané ako 0 | ID, vzorce a názvy sa môžu pokaziť. |
| Vynechaná diakritika | Mená a pojmy budú nepresné. |
| Zlúčené stĺpce | Vety sa preložia v nesprávnom poradí. |
| Bunky tabuľky nesprávne čítané po riadkoch | Označenia údajov už nebudú zodpovedať hodnotám. |
| Poznámky pod čiarou považované za hlavný text | Citácie a poznámky sa presunú do nesprávneho kontextu. |
Preto je krok kontroly OCR dôležitý. Naskenovaný dokument neprekladajte, kým aspoň orientačne neskontrolujete extrahovaný text.
Postup: najprv OCR
Krok 1: Zistite typ PDF
Skúste označiť text. Ak to funguje, OCR možno nebudete potrebovať. Ak označovanie zlyhá, považujte súbor za čisto obrazový.
Stránku skontrolujte aj vizuálne:
- Nakrivené stránky naznačujú sken.
- Sivá textúra papiera naznačuje sken.
- Tiene pri chrbte naznačujú odfotenú knihu.
- Nerovnomerný kontrast naznačuje fotokópiu.
- Ak vyhľadávanie nenájde viditeľné slová, pravdepodobne chýba textová vrstva.
Krok 2: Ak môžete, zlepšite kvalitu skenu
Kvalita OCR sa začína kvalitou obrazu. Ak môžete dokument naskenovať znova, urobte to skôr, než budete tráviť čas opravovaním chýb OCR.
Použite tento kontrolný zoznam kvality obrazu:
- Skenujte v dostatočne vysokom rozlíšení aj pre malé písmo.
- Udržujte stránky rovné a bez zakrivenia.
- Vyhnite sa tieňom pri chrbte.
- Orežte okraje stola, prsty aj rušivé pozadie.
- Použite výrazný kontrast medzi textom a stránkou.
- Dbajte na to, aby bol viditeľný celý riadok.
- Použite správnu orientáciu stránky.
- Obrázok nekomprimujte tak silno, aby sa písmená rozmazali.
Pri starých knihách a fotokópiách najviac pomáha vyrovnanie naklonenia, úprava kontrastu a opätovné naskenovanie rozostrených strán.
Krok 3: Spustite OCR
OCR nástroj vyberajte podľa dokumentu, nie podľa značky.
| Možnosť OCR | Najlepšie na | Pozor na |
|---|---|---|
| Adobe Acrobat OCR | Bežné firemné skeny a čistenie PDF | Skôr než sa naň spoľahnete, overte si prístup v aktuálnom pláne. |
| ABBYY FineReader | Zložité skeny, tabuľky, stĺpce a náročné rozloženia | Stále vyžaduje manuálnu kontrolu. |
| Tesseract alebo OCRmyPDF | Lokálne, technické a opakovateľné OCR postupy | Vyžaduje istotu pri práci s nástrojmi príkazového riadka. |
| Online OCR nástroje | Príležitostné súbory s nízkym rizikom | Líši sa súkromie, limity súborov aj kvalita. |
| Mobilné skenovacie aplikácie | Rýchle vytvorenie nového skenu | Perspektívne skreslenie môže OCR zhoršiť. |
Pri súkromných zmluvách, zdravotných záznamoch, finančných dokumentoch, nepublikovaných rukopisoch alebo akademickej práci v recenznom konaní uprednostnite lokálny OCR postup alebo dôveryhodné prostredie. Citlivé skeny nenahrávajte na náhodné bezplatné OCR stránky.
Krok 4: Skontrolujte text z OCR
Kontrolujte pred prekladom, nie po ňom. Skopírujte text z niekoľkých náročných strán a overte, či je čitateľný.
Stránky, ktoré sa oplatí skontrolovať:
- Titulná strana.
- Hustá strana hlavného textu.
- Strana s tabuľkou.
- Strana s poznámkami pod čiarou.
- Strana s malým písmom.
- Strana s pečiatkami, rukopisom alebo poznámkami na okrajoch.
- Strana v každom jazyku, ak je dokument viacjazyčný.
Hľadajte:
- Chýbajúce odseky.
- Zlúčené stĺpce.
- Rozbité slová.
- Nesprávne znaky.
- Stratenú diakritiku.
- Označenia v tabuľkách oddelené od hodnôt.
- Hlavičky vložené do hlavného textu.
- Čísla strán primiešané do viet.
Ak je kvalita OCR slabá, opravte ju pred prekladom. Prekladač nedokáže spoľahlivo obnoviť význam, ktorý OCR nikdy nezachytil.
Krok 5: Preložte PDF spracované cez OCR
Keď má PDF čistú textovú vrstvu, nahrajte ho do Prekladača PDF. Preklad teraz môže pracovať s textom namiesto obrázkov strán.
Po preklade porovnajte:
- Pôvodný sken
- Textovú vrstvu OCR
- Preložené PDF
Toto trojité porovnanie vám pomôže určiť, či chyba vznikla pri OCR alebo pri preklade. Ak je text OCR nesprávny, spustite OCR znova. Ak je text OCR správny, ale preklad nie, opravte preklad.
Krok 6: Skontrolujte obsah s vysokým rizikom
Naskenované dokumenty často obsahujú presne ten typ obsahu, ktorý si vyžaduje dôkladnú kontrolu: staré zmluvy, vládne formuláre, akademické práce, manuály, historické dokumenty a knižné strany.
Tieto položky skontrolujte manuálne:
- Mená
- Dátumy
- Čísla
- Adresy
- Kódy produktov
- Právne odkazy
- Citácie
- Označenia v tabuľkách
- Jednotky
- Rovnice
- Popisky
- Poznámky pod čiarou
Pri výskumných a akademických súboroch si prečítajte aj návod na preklad akademických výskumných prác, pretože naskenované akademické PDF pridávajú k rizikám OCR ešte aj riziká citácií a rozloženia.
Príklady chýb vedľa seba
Pri kontrole výstupu OCR použite túto tabuľku.
| Pôvodný sken pravdepodobne zobrazuje | Chybný výstup OCR | Prečo je to dôležité |
|---|---|---|
modern | modem | Význam sa úplne zmení. |
Section 10 | Section IO | Právne alebo technické odkazy môžu byť nesprávne. |
2026 | 2O26 | Dátumy a ID sa stanú nespoľahlivými. |
patient | patlent | Medicínske alebo technické pojmy budú nesprávne. |
| Dva samostatné stĺpce | Jeden zlúčený odsek | Preklad číta vety v nesprávnom poradí. |
| Riadok tabuľky s označeniami a hodnotami | Jeden riadok pomiešaného textu | Údaje už nezodpovedajú správnym označeniam. |
Značka poznámky pod čiarou 1 | Písmeno l | Poznámky sa môžu priradiť k nesprávnej vete. |
Ak tieto chyby vidíte v OCR vrstve, opravte OCR ešte pred prekladom.
Ktorý nástroj by ste mali použiť?
Vyberajte podľa náročnosti dokumentu.
| Dokument | Odporúčaný postup |
|---|---|
| Čistý firemný sken | OCR v Acrobate alebo inom spoľahlivom OCR nástroji, potom Prekladač PDF. |
| Sken starej knihy | Vyrovnajte skosenie, zlepšite kontrast, starostlivo použite OCR a potom preložte. |
| Sken akademickej práce | OCR, kontrola rovníc/citácií/tabuliek, potom preklad s kontrolou rozloženia. |
| Rukou písané poznámky | Pred prekladom môže byť potrebný ručný prepis. |
| Jednoduchý osobný dokument | Online OCR môže byť prijateľné, ak je riziko pre súkromie nízke. |
| Citlivý dokument | Použite lokálne OCR alebo dôveryhodný kontrolovaný postup. |
Ak chcete širšie porovnanie nástrojov, pozrite si sprievodcu najlepšími nástrojmi na preklad PDF.
Bežné problémy s naskenovanými PDF
Stránky s nízkym rozlíšením
Skeny s nízkym rozlíšením zlievajú písmená dokopy. OCR si môže pomýliť rn a m, cl a d alebo interpunkciu a prach.
Riešenie: ak môžete, naskenujte dokument znova. Ak nie, zvýšte kontrast a skúste OCR opäť.
Nakrivené alebo zakrivené stránky
Skeny kníh sú pri chrbte často zakrivené. OCR takéto riadky číta zle a môže poprehadzovať text.
Riešenie: vyrovnajte stránku, naskenujte ju znova alebo použite OCR nástroj s narovnaním skosenia a deformácie.
Viacstĺpcové rozloženie
OCR môže zlúčiť ľavý a pravý stĺpec do jedného toku viet.
Riešenie: pred prekladom skontrolujte poradie čítania. Akademické práce tu vyžadujú osobitnú pozornosť.
Tabuľky
Tabuľky sú náročné, pretože OCR musí rozpoznať text aj štruktúru. Tabuľka môže vizuálne vyzerať správne, zatiaľ čo textová vrstva je chybná.
Riešenie: skopírujte OCR text z tabuľky a overte, že označenia stále zodpovedajú hodnotám.
Rukopis a podpisy
OCR tlačeného textu je oveľa spoľahlivejšie než rozpoznávanie rukopisu. Rukou písané poznámky na okrajoch, podpisy a vyplnené formuláre môžu byť vynechané alebo skomolené.
Riešenie: pred prekladom ručne prepíšte dôležitý rukopis.
Zmiešané jazyky
OCR funguje najlepšie vtedy, keď pozná zdrojový jazyk. Sken v angličtine, francúzštine a čínštine môže zlyhať, ak je OCR nastavené len na jeden jazyk.
Riešenie: ak to nástroj podporuje, vyberte všetky relevantné jazyky OCR a potom orientačne skontrolujte každú jazykovú časť.
Kontrolný zoznam súkromia a bezpečnosti
Predtým, než naskenované PDF kamkoľvek nahráte, položte si tieto otázky:
- Obsahuje dokument osobné údaje?
- Obsahuje medicínske, právne, finančné, akademické alebo nepublikované materiály?
- Vzťahuje sa naň klientská zmluva alebo školská politika?
- Je pri tomto dokumente povolená online OCR služba?
- Nepotrebujete namiesto toho lokálny postup?
- Môžete odstrániť strany, ktoré netreba prekladať?
Naskenované PDF sú ხშირად citlivé, pretože pochádzajú zo zmlúv, dokladov totožnosti, formulárov, návrhov výskumu a interných archívov. Pri rozhodovaní o nahraní na OCR k nim pristupujte rovnako opatrne ako k pôvodnému dokumentu.
FAQ
Ako preložím naskenované PDF?
Najprv spustite OCR, aby sa vytvorila textová vrstva, skontrolujte výstup OCR a potom preložte PDF spracované cez OCR pomocou Prekladača PDF. Krok kontroly OCR nepreskakujte.
Prečo Google Translate nepreložil moje naskenované PDF?
PDF môže obsahovať len obrázky. Ak v ňom nie je textová vrstva, Google Translate nemá čo extrahovať. Najprv použite OCR a až potom prekladajte. Postup špecifický pre Google je popísaný v sprievodcovi Google Translate pre PDF.
Dokáže ChatGPT preložiť naskenované PDF?
ChatGPT môže pomôcť s jednotlivými obrázkami alebo extrahovaným textom, ale viacstranové naskenované PDF stále potrebuje OCR a kontrolu. Pri dokumente ako celku postupujte takto: najprv OCR, potom workflow na preklad PDF.
Aký je najlepší OCR nástroj pre naskenované PDF?
Závisí to od dokumentu. Acrobat a nástroje typu ABBYY sú užitočné pri bežných aj zložitých skenoch. Tesseract alebo OCRmyPDF sú užitočné pri lokálnych technických postupoch. Online OCR môže byť v poriadku pri jednoduchých súboroch s nízkym rizikom, no súkromie aj kvalita sa líšia.
Dokáže OCR zachovať formátovanie?
OCR dokáže vytvoriť textovú vrstvu a niekedy obnoviť poradie čítania, ale nie je to to isté ako zachovanie pôvodného rozloženia po preklade. Po OCR použite workflow na preklad PDF a skontrolujte výstup oproti originálu.
Čo ak je kvalita OCR zlá?
Pred prekladom zlepšite sken. Ak môžete, naskenujte dokument znova, vyrovnajte stránky, zvýšte kontrast, orežte rušivé prvky, zvoľte správny jazyk OCR a znovu skontrolujte náročné stránky.