Hogyan fordíts le egy szkennelt PDF-et: a teljes OCR + fordítási útmutató

A szkennelt PDF-ek képeket tartalmaznak a szövegről, nem valódi szöveget — ezért adja vissza őket a Google Translate változatlanul. Íme az OCR + AI folyamat, amely ezt megoldja.

BookTranslator Team

PDF fordítás

2026. febr. 28.10 min read

Gyors válasz: Egy szkennelt PDF-et fordítás előtt OCR-rel kell feldolgozni

Egy szkennelt PDF lefordításához először OCR-t kell futtatni, hogy az oldal képeiből kijelölhető szöveg legyen. Ezután fordítsd le az OCR-rel feldolgozott PDF-et egy dokumentumfordítóval, például a PDF Translator segítségével. Ha kihagyod az OCR-t, sok fordítóeszköz változatlanul adja vissza az eredeti fájlt, oldalakat hagy ki, vagy csak azokat a részeket fordítja le, amelyek már eleve tartalmaznak szövegréteget.

Használd ezt a munkafolyamatot:

Nyisd meg a PDF-et, és próbálj kijelölni egy mondatot.
Ha nem tudsz szöveget kijelölni, futtass OCR-t.
Fordítás előtt ellenőrizd az OCR-rel kinyert szöveget.
Töltsd fel az OCR-rel feldolgozott PDF-et a PDF Translator oldalra.
Ellenőrizd a lefordított kimenetet az eredeti szkenneléssel összevetve.

Ha a PDF-ed már tartalmaz kijelölhető szöveget, és a gond a tördelés megőrzése, használd a PDF fordítása formázásvesztés nélkül útmutatót.

Miért buknak el a szkennelt PDF-ek a fordítóeszközökben

A szkennelt PDF gyakran csak oldalképek halmaza egy PDF-konténerben. Az oldalon az ember szavakat lát, de a fájl nem feltétlenül tartalmaz valódi szöveget, amelyet a szoftver ki tud nyerni.

Ez egy egyszerű hibához vezet:

Fájltípus	Mit lát a fordító	Mi történik
Szövegalapú PDF	Szöveg és tördelési adatok	A fordítás azonnal elindulhat.
Csak képet tartalmazó szkennelt PDF	Oldalakról készült képek	Először OCR szükséges.
Kép fölötti szövegréteges PDF	Szkennelt kép és rejtett OCR szövegréteg	A fordítás működhet, de az OCR-hibák rontják a minőséget.

A leghasznosabb teszt nem technikai:

Nyisd meg a PDF-et.
Próbálj kiemelni egyes szavakat.
Másolj ki egy mondatot.
Illeszd be egy szövegszerkesztőbe.

Ha a mondat helyesen beilleszthető, a PDF rendelkezik szövegréteggel. Ha semmi nem illeszthető be, vagy az egész oldal egyetlen képként viselkedik, a PDF OCR-t igényel.

Az OCR nem opcionális

Az OCR optikai karakterfelismerést jelent. Képről olvassa le a szöveget, és géppel olvasható szöveget hoz létre. PDF-fordításnál az OCR rendszerint egy láthatatlan szövegréteget hoz létre a szkennelt oldal fölött.

Ez a szövegréteg lesz a fordítás forrása. Ha az OCR hibázik, a fordítás ezeket a hibákat örökli.

Gyakori OCR-hibák:

OCR-hiba	Fordítási kockázat
`rn` helyett `m`	A szavak jelentése megváltozik.
`1` helyett `l`	A számok, hivatkozások vagy kódok hibássá válnak.
`O` helyett `0`	Azonosítók, képletek és nevek sérülhetnek.
Ékezetek elvesztése	A nevek és szakkifejezések pontatlanok lesznek.
Oszlopok összeolvadása	A mondatok rossz sorrendben fordulnak le.
Táblázatcellák hibás, soronkénti olvasása	Az adatcímkék már nem a megfelelő értékekhez tartoznak.
Lábjegyzetek törzsszövegként kezelése	Az idézetek és megjegyzések rossz kontextusba kerülnek.

Ezért fontos az OCR-ellenőrzési lépés. Ne fordíts le szkennelt dokumentumot addig, amíg nem végeztél mintavételes ellenőrzést a kinyert szövegen.

Az OCR-első munkafolyamat

1. lépés: Azonosítsd a PDF típusát

Próbálj szöveget kijelölni. Ha a kijelölés működik, lehet, hogy nincs szükség OCR-re. Ha a kijelölés nem működik, kezeld a fájlt csak képet tartalmazóként.

Érdemes vizuálisan is megvizsgálni az oldalt:

A ferde oldalak szkennelésre utalnak.
A szürkés papírtextúra szkennelésre utal.
A gerinc melletti árnyékok lefotózott könyvre utalnak.
Az egyenetlen kontraszt fénymásolatra utal.
Ha a keresés nem talál meg látható szavakat, valószínűleg nincs szövegréteg.

2. lépés: Javítsd a szkennelést, ha lehet

Az OCR minősége a képminőségnél kezdődik. Ha újra tudod szkennelni, tedd meg, mielőtt időt pazarolsz az OCR-hibák javítására.

Használd ezt a képminőségi ellenőrzőlistát:

Szkennelj elég nagy felbontásban a kis méretű szövegekhez.
Tartsd az oldalakat laposan és egyenesen.
Kerüld az árnyékokat a gerinc közelében.
Vágd le a táblázatszéleket, ujjakat vagy zavaró háttérelemeket.
Legyen erős a kontraszt a szöveg és az oldal között.
A teljes sor maradjon látható.
Használd a megfelelő oldaltájolást.
Ne tömörítsd annyira a képet, hogy a betűk elmosódjanak.

Régi könyveknél és fénymásolatoknál a legnagyobb javulást általában az egyenesítés, a kontrasztkorrekció és az életlen oldalak újraszkennelése hozza.

3. lépés: Futtass OCR-t

Az OCR-eszközt a dokumentum alapján válaszd meg, ne a márkanév alapján.

OCR-lehetőség	Erre a legjobb	Erre figyelj
Adobe Acrobat OCR	Általános üzleti szkennelésekhez és PDF-tisztításhoz	Mielőtt erre támaszkodsz, ellenőrizd az aktuális csomaghozzáférést.
ABBYY FineReader	Összetett szkennelésekhez, táblázatokhoz, oszlopokhoz és nehéz tördelésekhez	Továbbra is kézi ellenőrzést igényel.
Tesseract or OCRmyPDF	Helyi, technikai, ismételhető OCR-munkafolyamatokhoz	Jártasság kell a parancssori eszközökben.
Online OCR-eszközök	Alacsony kockázatú, alkalmi fájlokhoz	Az adatvédelem, a fájllimitek és a minőség eltérő lehet.
Telefonos szkennelőalkalmazások	Új szkennelés gyors rögzítéséhez	A perspektivikus torzítás ronthatja az OCR-t.

Magánszerződésekhez, egészségügyi iratokhoz, pénzügyi dokumentumokhoz, kiadatlan kéziratokhoz vagy bírálat alatt álló tudományos munkákhoz inkább helyi OCR-munkafolyamatot vagy megbízható környezetet használj. Érzékeny szkennelt anyagokat ne tölts fel véletlenszerű ingyenes OCR-oldalakra.

4. lépés: Ellenőrizd az OCR-rel kinyert szöveget

Ne a fordítás után, hanem előtte ellenőrizz. Másolj ki szöveget több nehéz oldalról, és nézd meg, hogy olvasható-e.

Mintaként ellenőrzendő oldalak:

A címlap.
Egy sűrű törzsszöveges oldal.
Egy táblázatos oldal.
Egy lábjegyzetes oldal.
Egy apró betűs oldal.
Egy olyan oldal, amelyen bélyegzők, kézírás vagy margójegyzetek vannak.
Többnyelvű dokumentumnál minden nyelvből egy oldal.

Ezeket keresd:

Hiányzó bekezdések.
Összeolvadt oszlopok.
Törött szavak.
Hibás karakterek.
Elveszett ékezetek.
A táblázatcímkék elszakadása az értékektől.
A törzsszövegbe beszúrt fejlécek.
Mondatok közé kevert oldalszámok.

Ha az OCR minősége gyenge, fordítás előtt javítsd. A fordító nem tudja megbízhatóan helyreállítani azt a jelentést, amelyet az OCR eleve nem rögzített.

5. lépés: Fordítsd le az OCR-rel feldolgozott PDF-et

Amint a PDF tiszta szövegréteget kapott, töltsd fel a PDF Translator oldalra. A fordítási lépés ekkor már szöveggel tud dolgozni, nem oldalképekkel.

Fordítás után hasonlítsd össze ezt a hármat:

Eredeti szkennelés
OCR szövegréteg
Lefordított PDF

Ez a hármas összevetés segít azonosítani, hogy egy hiba az OCR-ből vagy a fordításból ered-e. Ha az OCR-szöveg hibás, futtasd újra az OCR-t. Ha az OCR-szöveg helyes, de a fordítás hibás, javítsd a fordítást.

6. lépés: Ellenőrizd a magas kockázatú tartalmat

A szkennelt dokumentumok gyakran éppen azt a tartalmat hordozzák, amelyet különös gondossággal kell átnézni: régi szerződéseket, állami űrlapokat, tudományos cikkeket, kézikönyveket, történeti dokumentumokat és könyvoldalakat.

Ezeket az elemeket kézzel ellenőrizd:

Nevek
Dátumok
Számok
Címek
Termékkódok
Jogi hivatkozások
Idézetek
Táblázatcímkék
Mértékegységek
Egyenletek
Képaláírások
Lábjegyzetek

Kutatási és tudományos fájloknál olvasd el a tudományos kutatási cikkek fordítása útmutatót is, mert a szkennelt tudományos PDF-ek az OCR-kockázat mellett hivatkozási és tördelési kockázatokat is hordoznak.

Egymás melletti hibapéldák

Használd ezt a táblázatot az OCR-kimenet ellenőrzése közben.

Az eredeti szkennelés valószínűleg ezt mutatja	Rossz OCR-kimenet	Miért számít
`modern`	`modem`	A jelentés teljesen megváltozik.
`Section 10`	`Section IO`	A jogi vagy technikai hivatkozások sérülhetnek.
`2026`	`2O26`	A dátumok és azonosítók megbízhatatlanná válnak.
`patient`	`patlent`	Az orvosi vagy technikai kifejezések hibássá válnak.
Két különálló oszlop	Egy összeolvadt bekezdés	A fordítás rossz sorrendben olvassa a mondatokat.
Címkéket és értékeket tartalmazó táblázatsor	Egyetlen sor vegyes szöveg	Az adatok már nem a megfelelő címkéhez kapcsolódnak.
Lábjegyzetjel `1`	`l` betű	A megjegyzések rossz mondathoz kapcsolódhatnak.

Ha ezeket a hibákat látod az OCR-rétegben, a fordítás előtt javítsd az OCR-t.

Melyik eszközt érdemes használnod?

A dokumentum nehézsége alapján válassz.

Dokumentum	Ajánlott útvonal
Tiszta üzleti szkennelés	OCR Acrobatban vagy más megbízható OCR-eszközben, majd PDF Translator.
Régi könyv szkennelése	Egyenesítés és kontrasztjavítás, gondos OCR, majd fordítás.
Tudományos cikk szkennelése	OCR, az egyenletek/hivatkozások/táblázatok ellenőrzése, majd fordítás tördelési felülvizsgálattal.
Kézzel írt jegyzetek	Fordítás előtt kézi átírásra lehet szükség.
Egyszerű személyes dokumentum	Az online OCR elfogadható lehet, ha az adatvédelmi kockázat alacsony.
Érzékeny dokumentum	Használj helyi OCR-t vagy megbízható, ellenőrzött munkafolyamatot.

Ha szélesebb eszköz-összehasonlítást szeretnél, nézd meg a legjobb PDF-fordító eszközök útmutatóját.

Gyakori problémák szkennelt PDF-eknél

Alacsony felbontású oldalak

Az alacsony felbontású szkennelések elmossák a betűket. Az OCR összetévesztheti az rn és m, a cl és d, vagy az írásjelek és a por közötti különbséget.

Javítás: ha lehet, szkenneld újra. Ha nem, növeld a kontrasztot, és próbáld meg újra az OCR-t.

Ferde vagy görbült oldalak

A könyvszkennelések gyakran görbülnek a gerinc közelében. Az OCR rosszul olvassa a görbült sorokat, és átrendezheti a szöveget.

Javítás: lapítsd ki az oldalt, szkenneld újra, vagy használj egyenesítést és görbületkorrekciót támogató OCR-eszközt.

Többoszlopos tördelés

Az OCR a bal és jobb oldali oszlopokat egyetlen mondatfolyammá olvaszthatja össze.

Javítás: fordítás előtt ellenőrizd az olvasási sorrendet. A tudományos cikkek itt különösen nagy figyelmet igényelnek.

Táblázatok

A táblázatok nehezek, mert az OCR-nek egyszerre kell felismernie a szöveget és a szerkezetet. Egy táblázat vizuálisan helyesnek tűnhet, miközben a szövegréteg hibás.

Javítás: másold ki a táblázat OCR-szövegét, és erősítsd meg, hogy a címkék továbbra is a megfelelő értékekhez tartoznak.

Kézírás és aláírások

A nyomtatott szöveg OCR-je sokkal megbízhatóbb, mint a kézírásfelismerés. A kézzel írt margójegyzetek, aláírások és kitöltött űrlapok kimaradhatnak vagy torzulhatnak.

Javítás: a lényeges kézírást fordítás előtt kézzel írd át.

Vegyes nyelvek

Az OCR akkor működik a legjobban, ha ismeri a forrásnyelvet. Egy angol, francia és kínai részeket tartalmazó szkennelés meghiúsulhat, ha az OCR csak egyetlen nyelvre van beállítva.

Javítás: ha az eszköz támogatja, válaszd ki az összes releváns OCR-nyelvet, majd mintavételesen ellenőrizd az egyes nyelvi szakaszokat.

Adatvédelmi és biztonsági ellenőrzőlista

Mielőtt bárhová feltöltenél egy szkennelt PDF-et, tedd fel ezeket a kérdéseket:

Tartalmaz a dokumentum személyes adatokat?
Van benne egészségügyi, jogi, pénzügyi, tudományos vagy kiadatlan anyag?
Vonatkozik rá ügyfélszerződés vagy iskolai szabályzat?
Megengedett ehhez a dokumentumhoz online OCR-szolgáltatás használata?
Inkább helyi munkafolyamatra van szükséged?
Eltávolíthatók azok az oldalak, amelyeket nem kell lefordítani?

A szkennelt PDF-ek gyakran érzékenyek, mert szerződésekből, azonosítókból, űrlapokból, kutatási vázlatokból és belső archívumokból származnak. Az OCR-feltöltési döntéseket ugyanúgy kezeld, mint az eredeti dokumentumot.

GYIK

Hogyan fordíthatok le egy szkennelt PDF-et?

Először futtass OCR-t a szövegréteg létrehozásához, ellenőrizd az OCR-kimenetet, majd fordítsd le az OCR-rel feldolgozott PDF-et a PDF Translator segítségével. Ne hagyd ki az OCR-ellenőrzési lépést.

Miért nem fordította le a Google Translate a szkennelt PDF-emet?

Lehet, hogy a PDF csak képet tartalmaz. Ha nincs szövegréteg, a Google Translate nem tud szöveget kinyerni. Először használj OCR-t, utána fordíts. A Google-specifikus munkafolyamatot a Google Translate PDF útmutató tárgyalja.

Tud a ChatGPT szkennelt PDF-et fordítani?

A ChatGPT segíthet egyedi képekkel vagy kinyert szöveggel, de egy többoldalas szkennelt PDF továbbra is OCR-t és ellenőrzést igényel. Teljes dokumentumos munkafolyamathoz előbb OCR, utána PDF-fordítási munkafolyamat kell.

Mi a legjobb OCR-eszköz szkennelt PDF-ekhez?

Ez a dokumentumtól függ. Az Acrobat és az ABBYY jellegű eszközök hasznosak általános és összetett szkennelésekhez. A Tesseract vagy az OCRmyPDF hasznos helyi, technikai munkafolyamatokhoz. Az online OCR megfelelő lehet egyszerű, alacsony kockázatú fájlokhoz, de az adatvédelem és a minőség eltérő lehet.

Meg tudja őrizni a formázást az OCR?

Az OCR létrehozhat szövegréteget, és néha visszaállíthatja az olvasási sorrendet, de ez nem ugyanaz, mint az eredeti lefordított tördelés megőrzése. Az OCR után használj PDF-fordítási munkafolyamatot, és ellenőrizd a kimenetet az eredetivel összevetve.

Mi van akkor, ha rossz az OCR minősége?

Fordítás előtt javítsd a szkennelést. Ha lehet, szkenneld újra, egyenesítsd az oldalakat, növeld a kontrasztot, vágd le a zavaró elemeket, válaszd ki a megfelelő OCR-nyelvet, és ellenőrizd újra a nehéz oldalakat.

Működik az OCR nem latin írásrendszereknél is, például hindinél vagy tamilnál?

Igen, de a motor minősége írásonként eltér. A dévanágari, tamil, telugu és bengáli szkennelésekhez olyan OCR-motor kell, amelyet ezekre az írásokra tanítottak, a fordítási lépéshez pedig olyan betűkészletek kellenek, amelyek helyesen jelenítik meg őket. A beépített OCR-rel rendelkező dokumentumfordító mindkét lépést együtt kezeli — például egy szkennelt PDF fordítása hindiről angolra.