BookTranslator
BookTranslator

Hogyan fordíts le egy szkennelt PDF-et: a teljes OCR + fordítási útmutató

A szkennelt PDF-ek képeket tartalmaznak szövegről, nem valódi szöveget — ezért hagyja őket változatlanul a Google Fordító. Íme az OCR + AI-folyamat, amely ezt megoldja.

BookTranslator

BookTranslator Team

Fordítási útmutatók10 min read

Rövid válasz: egy szkennelt PDF-et fordítás előtt OCR-rel kell feldolgozni

Egy szkennelt PDF lefordításához először futtass OCR-t, hogy az oldalképekből kijelölhető szöveg legyen. Ezután fordítsd le az OCR-rel feldolgozott PDF-et egy dokumentumfordítóval, például a PDF-fordító eszközzel. Ha kihagyod az OCR-t, sok fordítóeszköz változatlanul adja vissza az eredeti fájlt, kihagy oldalakat, vagy csak azokat a részeket fordítja le, amelyek már eleve tartalmaznak szövegréteget.

Kövesd ezt a munkafolyamatot:

  1. Nyisd meg a PDF-et, és próbálj kijelölni egy mondatot.
  2. Ha nem tudsz szöveget kijelölni, futtass OCR-t.
  3. Fordítás előtt ellenőrizd az OCR-rel kinyert szöveget.
  4. Töltsd fel az OCR-rel feldolgozott PDF-et a PDF-fordító eszközbe.
  5. Ellenőrizd a lefordított eredményt az eredeti szkenneléshez képest.

Ha a PDF-ed már tartalmaz kijelölhető szöveget, és a gond inkább a tördelés megőrzése, használd a PDF fordítása a formázás elvesztése nélkül útmutatót.

Miért vallanak kudarcot a szkennelt PDF-ek a fordítóeszközökben?

A szkennelt PDF gyakran csak oldalképekből áll egy PDF-konténerben. Az ember látja rajta a szavakat, de a fájl nem feltétlenül tartalmaz valódi szöveget, amelyet a szoftver ki tud nyerni.

Ez egy egyszerű hibához vezet:

FájltípusAmit a fordító látMi történik
Szövegalapú PDFSzöveg és tördelési adatokA fordítás azonnal elindítható.
Csak képet tartalmazó szkennelt PDFOldalak képeiElőször OCR-re van szükség.
Kép + szövegréteg PDFSzkennelt kép + rejtett OCR-szövegrétegA fordítás működhet, de az OCR-hibák rontják a minőséget.

A leghasznosabb teszt nem technikai:

  1. Nyisd meg a PDF-et.
  2. Próbálj kijelölni külön szavakat.
  3. Másolj ki egy mondatot.
  4. Illeszd be egy szövegszerkesztőbe.

Ha a mondat helyesen beilleszthető, a PDF rendelkezik szövegréteggel. Ha semmi sem illeszthető be, vagy az egész oldal egyetlen képként viselkedik, a PDF OCR-t igényel.

Az OCR nem opcionális

Az OCR optikai karakterfelismerést jelent. Képből olvassa ki a szöveget, és géppel olvasható szöveget hoz létre. PDF-fordításnál az OCR általában egy láthatatlan szövegréteget tesz a beszkennelt oldal fölé.

Ez a szövegréteg lesz a fordítás forrása. Ha az OCR hibázik, a fordítás örökli ezeket a hibákat.

Gyakori OCR-hibák:

OCR-hibaFordítási kockázat
rn helyett mA szavak jelentése megváltozik.
1 helyett lA számok, hivatkozások vagy kódok hibássá válnak.
O helyett 0Az azonosítók, képletek és nevek sérülhetnek.
Ékezetek elvesztéseA nevek és szakkifejezések pontatlanná válnak.
Hasábok összeolvadásaA mondatok rossz sorrendben fordulnak le.
Táblázatcellák soronként hibás beolvasásaAz adatcímkék már nem a megfelelő értékekhez tartoznak.
Lábjegyzetek törzsszövegként kezelveAz idézetek és megjegyzések rossz kontextusba kerülnek.

Ezért fontos az OCR-ellenőrzés lépése. Ne fordíts le szkennelt dokumentumot addig, amíg szúrópróbaszerűen nem ellenőrizted a kinyert szöveget.

Az OCR-rel kezdődő munkafolyamat

1. lépés: Azonosítsd a PDF típusát

Próbálj szöveget kijelölni. Ha a kijelölés működik, lehet, hogy nincs szükséged OCR-re. Ha nem működik, kezeld a fájlt csak képet tartalmazó dokumentumként.

Vizsgáld meg az oldalt vizuálisan is:

  • A ferde oldalak szkennelésre utalnak.
  • A szürke papírtextúra szkennelésre utal.
  • A könyvgerinc melletti árnyékok lefotózott könyvre utalnak.
  • Az egyenetlen kontraszt fénymásolatra utal.
  • Ha a keresés nem találja meg a látható szavakat, valószínűleg nincs szövegréteg.

2. lépés: Javítsd a szkennelést, ha lehet

Az OCR minősége a kép minőségével kezdődik. Ha újra tudod szkennelni a dokumentumot, tedd meg, mielőtt időt töltesz az OCR-hibák javításával.

Használd ezt a képminőségi ellenőrzőlistát:

  • Szkenneld elég nagy felbontásban, hogy a kis szöveg is olvasható legyen.
  • Tartsd az oldalakat laposan és egyenesen.
  • Kerüld a gerinc melletti árnyékokat.
  • Vágd le az asztalszéleket, ujjakat és a zavaró hátteret.
  • Legyen erős kontraszt a szöveg és az oldal között.
  • Minden sor teljes hosszban látszódjon.
  • Használd a helyes oldaltájolást.
  • Ne tömörítsd annyira a képet, hogy a betűk elmosódjanak.

Régi könyveknél és fénymásolatoknál a legnagyobb javulást általában a kiegyenesítés, a kontrasztkorrekció és az életlen oldalak újraszkennelése adja.

3. lépés: Futtass OCR-t

Az OCR-eszközt a dokumentum alapján válaszd meg, ne a márkanév alapján.

OCR-lehetőségEhhez a legjobbErre figyelj
Adobe Acrobat OCRÁltalános üzleti szkennelésekhez és PDF-tisztításhozMielőtt erre támaszkodsz, ellenőrizd a jelenlegi csomag hozzáférését.
ABBYY FineReaderÖsszetett szkennelésekhez, táblázatokhoz, hasábokhoz és nehéz tördelésekhezÍgy is manuális ellenőrzést igényel.
Tesseract or OCRmyPDFHelyi, technikai és ismételhető OCR-munkafolyamatokhozParancssori eszközökben való jártasságot igényel.
Online OCR toolsAlacsony kockázatú, alkalmi fájlokhozAz adatvédelem, a fájlkorlátok és a minőség eltérő.
Phone scanning appsÚj szkennelés gyors elkészítéséhezA perspektivikus torzulás ronthatja az OCR minőségét.

Magánszerződésekhez, orvosi dokumentumokhoz, pénzügyi iratokhoz, kiadatlan kéziratokhoz vagy bírálat alatt álló tudományos munkákhoz inkább helyi OCR-munkafolyamatot vagy megbízható környezetet válassz. Érzékeny szkennelt anyagokat ne tölts fel véletlenszerű ingyenes OCR-oldalakra.

4. lépés: Ellenőrizd az OCR-szöveget

Az ellenőrzést fordítás előtt végezd el, ne utána. Másolj ki szöveget több nehéz oldalról is, és ellenőrizd, hogy olvasható-e.

Mintaként ellenőrizendő oldalak:

  • A címlap.
  • Egy sűrű törzsszöveges oldal.
  • Egy táblázatot tartalmazó oldal.
  • Egy lábjegyzetes oldal.
  • Egy kis betűs oldal.
  • Egy pecséteket, kézírást vagy lapszéli megjegyzéseket tartalmazó oldal.
  • Minden nyelvből egy oldal, ha a dokumentum többnyelvű.

Ezeket keresd:

  • Hiányzó bekezdések.
  • Összeolvadt hasábok.
  • Törött szavak.
  • Hibás karakterek.
  • Elveszett ékezetek.
  • A táblázatcímkék elszakadása az értékektől.
  • A törzsszövegbe beszúrt fejlécek.
  • Mondatok közé kevert oldalszámok.

Ha az OCR minősége gyenge, még fordítás előtt javítsd. A fordító nem tudja megbízhatóan visszaállítani azt a jelentést, amit az OCR eleve nem rögzített.

5. lépés: Fordítsd le az OCR-rel feldolgozott PDF-et

Amint a PDF tiszta szövegréteget kapott, töltsd fel a PDF-fordító eszközbe. A fordítási lépés innentől már szöveggel dolgozik, nem oldalképekkel.

Fordítás után hasonlítsd össze ezt a hármat:

  • Az eredeti szkennelést
  • Az OCR-es szövegréteget
  • A lefordított PDF-et

Ez a háromirányú ellenőrzés segít megállapítani, hogy egy hiba az OCR-ből vagy a fordításból származik-e. Ha az OCR-szöveg hibás, futtasd újra az OCR-t. Ha az OCR-szöveg helyes, de a fordítás hibás, javítsd a fordítást.

6. lépés: Ellenőrizd a magas kockázatú tartalmat

A szkennelt dokumentumok gyakran pont olyan tartalmakat tartalmaznak, amelyek gondos ellenőrzést igényelnek: régi szerződések, állami űrlapok, tudományos cikkek, kézikönyvek, történelmi dokumentumok és könyvoldalak.

Ezeket az elemeket ellenőrizd kézzel:

  • Nevek
  • Dátumok
  • Számok
  • Címek
  • Termékkódok
  • Jogi hivatkozások
  • Idézetek
  • Táblázatcímkék
  • Mértékegységek
  • Egyenletek
  • Képaláírások
  • Lábjegyzetek

Kutatási és tudományos fájloknál érdemes elolvasni az akadémiai kutatási cikkek fordítása útmutatót is, mert a szkennelt tudományos PDF-eknél az OCR-kockázatra még hivatkozási és tördelési kockázat is rájön.

Hibapéldák egymás mellett

Használd ezt a táblázatot az OCR-kimenet ellenőrzése közben.

Az eredeti szkennelés valószínűleg ezt mutatjaHibás OCR-kimenetMiért fontos
modernmodemA jelentés teljesen megváltozik.
Section 10Section IOA jogi vagy technikai hivatkozások megsérülhetnek.
20262O26A dátumok és azonosítók megbízhatatlanná válnak.
patientpatlentAz orvosi vagy technikai kifejezések hibássá válnak.
Két külön hasábEgyetlen összevont bekezdésA fordítás rossz sorrendben olvassa a mondatokat.
Táblázatsor címkékkel és értékekkelEgyetlen sor vegyes szöveggelAz adatok már nem a megfelelő címkéhez tartoznak.
1 lábjegyzetjelölől betűA megjegyzések rossz mondathoz kapcsolódhatnak.

Ha ezeket a hibákat látod az OCR-rétegben, fordítás előtt javítsd az OCR-t.

Melyik eszközt érdemes használni?

A dokumentum nehézsége alapján válassz.

DokumentumAjánlott megoldás
Tiszta üzleti szkennelésOCR Acrobatban vagy más megbízható OCR-eszközzel, majd fordítás a PDF-fordító eszközzel.
Régi könyvszkennelésEgyenesítsd ki, javítsd a kontrasztot, végezd el gondosan az OCR-t, majd fordítsd le.
Tudományos cikk szkenneléseOCR, az egyenletek/hivatkozások/táblázatok ellenőrzése, majd fordítás tördelési ellenőrzéssel.
Kézzel írt jegyzetekFordítás előtt kézi átírásra lehet szükség.
Egyszerű személyes dokumentumAz online OCR elfogadható lehet, ha alacsony az adatvédelmi kockázat.
Érzékeny dokumentumHasználj helyi OCR-t vagy megbízható, kontrollált munkafolyamatot.

Ha szélesebb eszköz-összehasonlítást szeretnél, nézd meg a legjobb PDF-fordítók útmutatója oldalt.

Gyakori problémák a szkennelt PDF-eknél

Alacsony felbontású oldalak

Az alacsony felbontású szkennelések összemossák a betűket. Az OCR összekeverheti az rn és m, a cl és d, vagy az írásjelek és a porfoltok alakját.

Megoldás: ha lehet, szkenneld újra. Ha nem, növeld a kontrasztot, és próbáld meg újra az OCR-t.

Ferde vagy görbült oldalak

A könyvszkennelések gyakran görbülnek a gerinc közelében. Az OCR rosszul olvassa a görbült sorokat, és akár át is rendezheti a szöveget.

Megoldás: simítsd ki az oldalt, szkenneld újra, vagy használj olyan OCR-eszközt, amely tud kiegyenesítést és görbületkorrekciót.

Többhasábos tördelés

Az OCR összeolvaszthatja a bal és jobb hasábot egyetlen mondatfolyammá.

Megoldás: fordítás előtt ellenőrizd az olvasási sorrendet. A tudományos cikkek itt külön figyelmet igényelnek.

Táblázatok

A táblázatok nehezek, mert az OCR-nek egyszerre kell felismernie a szöveget és a szerkezetet. A táblázat vizuálisan helyesnek tűnhet, miközben a szövegréteg hibás.

Megoldás: másold ki a táblázat OCR-szövegét, és ellenőrizd, hogy a címkék továbbra is a megfelelő értékekhez tartoznak-e.

Kézírás és aláírások

A nyomtatott szöveg OCR-je jóval megbízhatóbb, mint a kézírás felismerése. A kézzel írt lapszéli megjegyzések, aláírások és kitöltött űrlapok kimaradhatnak vagy torzulhatnak.

Megoldás: a fontos kézírást fordítás előtt írd át kézzel.

Vegyes nyelvek

Az OCR akkor működik a legjobban, ha ismeri a forrásnyelvet. Egy angol, francia és kínai szöveget vegyesen tartalmazó szkennelés könnyen hibázhat, ha az OCR csak egy nyelvre van állítva.

Megoldás: ha az eszköz támogatja, válaszd ki az összes releváns OCR-nyelvet, majd szúrópróbaszerűen ellenőrizd az egyes nyelvi részeket.

Adatvédelmi és biztonsági ellenőrzőlista

Mielőtt bárhová feltöltenél egy szkennelt PDF-et, kérdezd meg:

  • Tartalmaz a dokumentum személyes adatokat?
  • Van benne orvosi, jogi, pénzügyi, tudományos vagy kiadatlan anyag?
  • Vonatkozik rá ügyfélszerződés vagy iskolai szabályzat?
  • Megengedett ehhez a dokumentumhoz online OCR-szolgáltatás használata?
  • Inkább helyi munkafolyamatra van szükséged?
  • El tudod távolítani azokat az oldalakat, amelyeket nem kell lefordítani?

A szkennelt PDF-ek gyakran érzékenyek, mert szerződésekből, igazolványokból, űrlapokból, kutatási vázlatokból és belső archívumokból származnak. Az OCR-feltöltésről szóló döntéseket ugyanúgy kezeld, mint magát az eredeti dokumentumot.

GYIK

Hogyan fordíthatok le egy szkennelt PDF-et?

Először futtass OCR-t, hogy létrejöjjön egy szövegréteg, ellenőrizd az OCR-kimenetet, majd fordítsd le az OCR-rel feldolgozott PDF-et a PDF-fordító eszközzel. Ne hagyd ki az OCR-ellenőrzés lépését.

Miért nem fordította le a Google Fordító a szkennelt PDF-emet?

Előfordulhat, hogy a PDF csak képet tartalmaz. Ha nincs szövegréteg, a Google Fordítónak nincs mit kinyernie. Először használj OCR-t, majd fordítsd le. A Google-specifikus munkafolyamatot a Google Fordító PDF-útmutatója cikk tárgyalja.

Le tudja fordítani a ChatGPT a szkennelt PDF-et?

A ChatGPT segíthet egyes képekkel vagy kinyert szöveggel, de egy többoldalas szkennelt PDF továbbra is OCR-t és ellenőrzést igényel. A teljes dokumentumfolyamathoz először OCR kell, utána pedig PDF-fordítási munkafolyamat.

Mi a legjobb OCR-eszköz szkennelt PDF-ekhez?

Ez a dokumentumtól függ. Az Acrobat és az ABBYY-szerű eszközök hasznosak általános és összetett szkennelésekhez. A Tesseract vagy az OCRmyPDF hasznos helyi, technikai munkafolyamatokhoz. Az online OCR megfelelő lehet alacsony kockázatú, egyszerű fájlokhoz, de az adatvédelem és a minőség változó.

Megőrzi az OCR a formázást?

Az OCR létrehozhat egy szövegréteget, és néha az olvasási sorrendet is vissza tudja állítani, de ez nem ugyanaz, mint az eredeti, lefordított tördelés megőrzése. OCR után használj PDF-fordítási munkafolyamatot, és ellenőrizd az eredményt az eredetihez képest.

Mi van, ha rossz az OCR minősége?

Fordítás előtt javítsd a szkennelést. Ha lehet, szkenneld újra, egyenesítsd ki az oldalakat, növeld a kontrasztot, vágd le a zavaró részeket, válaszd ki a megfelelő OCR-nyelvet, és ellenőrizd újra a nehéz oldalakat.