Nola itzuli eskaneatutako PDF bat: OCR + itzulpen gida osoa

Eskaneatutako PDFek testuaren irudiak dituzte, ez benetako testua — horregatik itzultzen ditu Google Translatek aldatu gabe. Hona hori konpontzen duen OCR + IA pipelinea.

BookTranslator Team

Itzulpen gidak2026-02-2810 min read

Erantzun azkarra: eskaneatutako PDF batek OCR behar du itzuli aurretik

Eskaneatutako PDF bat itzultzeko, lehenik exekutatu OCR, orrialdeen irudiak hauta daitezkeen testu bihurtzeko. Ondoren, itzuli OCR bidez prozesatutako PDFa PDF itzultzailea bezalako dokumentu-itzultzaile batekin. OCR saltatzen baduzu, itzulpen-tresna askok jatorrizko fitxategia aldatu gabe itzuliko dute, orrialdeak galduko dituzte, edo dagoeneko testu-geruza duten zatiak bakarrik itzuliko dituzte.

Erabili lan-fluxu hau:

Ireki PDFa eta saiatu esaldi bat hautatzen.
Testua hautatu ezin baduzu, exekutatu OCR.
Berrikusi OCR bidez ateratako testua itzuli aurretik.
Kargatu OCR bidez prozesatutako PDFa PDF itzultzailea tresnara.
Berrikusi itzulitako emaitza jatorrizko eskaneatuarekin alderatuta.

Zure PDFak jada hauta daitekeen testua badu eta arazoa diseinua mantentzea bada, erabili PDF bat formatua galdu gabe itzultzeko gida.

Zergatik huts egiten duten eskaneatutako PDFek itzulpen-tresnetan

Eskaneatutako PDF bat, askotan, PDF edukiontzi baten barruko orrialde-irudien multzo hutsa da. Orrialdeak hitzak erakuts diezazkioke pertsona bati, baina fitxategiak baliteke softwareak erauzteko benetako testurik ez izatea.

Horrek huts egiteko modu erraz bat sortzen du:

Fitxategi mota	Itzultzaileak zer ikusten duen	Zer gertatzen den
Testudun PDFa	Testua gehi maketazio-datuak	Itzulpena berehala has daiteke.
Irudiz soilik osatutako PDFa	Orrialdeen irudiak	Lehenik OCR behar da.
Irudiaren gaineko testua duen PDF	Eskaneatutako irudia gehi OCRren testu-geruza ezkutua	Itzulpena egin daiteke, baina OCR akatsek kalitateari eragiten diote.

Probarik erabilgarriena ez da teknikoa:

Ireki PDFa.
Saiatu hitz banakak nabarmentzen.
Kopiatu esaldi bat.
Itsatsi testu-editore batean.

Esaldia ondo itsasten bada, PDFak testu-geruza du. Ezer ez bada itsasten, edo orrialde osoak irudi bakar baten moduan jokatzen badu, PDFak OCR behar du.

OCR ez da aukerakoa

OCRk karaktereen ezagutze optikoa esan nahi du. Irudi bateko testua irakurtzen du eta makinak irakur dezakeen testua sortzen du. PDFen itzulpenerako, OCRk normalean testu-geruza ikusezin bat sortzen du eskaneatutako orrialdearen gainean.

Testu-geruza hori itzulpenaren iturburu bihurtzen da. OCRk akatsak egiten baditu, itzulpenak akats horiek heredatzen ditu.

OCRren ohiko akatsak:

OCRren akatsa	Itzulpen-arriskua
`rn` `m` gisa irakurtzea	Hitzen esanahia aldatzen da.
`1` `l` gisa irakurtzea	Zenbakiak, erreferentziak edo kodeak oker bihurtzen dira.
`O` `0` gisa irakurtzea	IDak, formulak eta izenak hondatu daitezke.
Azentuak galtzea	Izenak eta terminoak zehaztasuna galtzen dute.
Zutabeak bateratzea	Esaldiak ordena okerrean itzultzen dira.
Taulako gelaxkak lerroz lerro gaizki irakurtzea	Datu-etiketek jada ez dute balioekin bat egiten.
Oin-oharrak gorputzeko testu gisa hartzea	Aipuak eta oharrak testuinguru okerrera mugitzen dira.

Horregatik da garrantzitsua OCR berrikusteko urratsa. Ez itzuli eskaneatutako dokumentu bat atera den testua lagin bidez egiaztatu arte.

OCR-leheneko lan-fluxua

1. urratsa: identifikatu PDF mota

Saiatu testua hautatzen. Hautaketak funtzionatzen badu, agian ez duzu OCR behar. Hautaketak huts egiten badu, tratatu fitxategia irudiz soilik osatutako PDF gisa.

Begiratu orrialdea bisualki ere:

Okertutako orrialdeek eskaneatua dela iradokitzen dute.
Paperaren ehundura grisak eskaneatua dela iradokitzen du.
Bizkarraren ondoan dauden itzalek argazkitutako liburu bat dela iradokitzen dute.
Kontraste irregularrak fotokopia bat dela iradokitzen du.
Bilaketak ikusgai dauden hitzak ez aurkitzeak testu-geruzarik ez dagoela iradokitzen du.

2. urratsa: hobetu eskaneatua ahal bada

OCR kalitatea irudi-kalitatearekin hasten da. Berriz eskaneatu badezakezu, egin hori OCR akatsak konpontzen denbora gastatu aurretik.

Erabili irudi-kalitatearen kontrol-zerrenda hau:

Eskaneatu ebazpen nahikoa handian, testu txikia ondo harrapatzeko.
Mantendu orrialdeak lau eta zuzen.
Saihestu itzalak bizkarraren ondoan.
Kendu iruditik mahaiaren ertzak, hatzak edo atzeko planoko nahasmendua.
Erabili kontraste handia testuaren eta orrialdearen artean.
Mantendu lerro osoa ikusgai.
Erabili orrialdearen orientazio zuzena.
Ez konprimitu irudia hainbeste non letrak lausotu egiten diren.

Liburu zaharretan eta fotokopietan, hobekuntzarik handienak normalean orrialdeak zuzentzetik, kontrastea doitzetik eta fokuz kanpo dauden orrialdeak berriz eskaneatzetik etortzen dira.

3. urratsa: exekutatu OCR

Aukeratu OCR tresna dokumentuaren arabera, ez markaren arabera.

OCR aukera	Egokiena zertarako	Kontuan hartu
Adobe Acrobat OCR	Negozioetako eskaneatu orokorrak eta PDF garbiketa	Egiaztatu uneko planak sarbidea ematen duela, horretan fidatu aurretik.
ABBYY FineReader	Eskaneatu konplexuak, taulak, zutabeak eta diseinu zailak	Hala ere, eskuzko berrikuspena behar du.
Tesseract edo OCRmyPDF	Tokiko OCR lan-fluxu tekniko eta errepikagarriak	Komando-lerroko tresnekin eroso egotea eskatzen du.
Online OCR tresnak	Arrisku txikiko noizbehinkako fitxategiak	Pribatutasuna, fitxategi-mugak eta kalitatea aldatu egiten dira.
Telefonoz eskaneatzeko aplikazioak	Eskaneatu berri bat azkar lortzea	Perspektiba-distortsioak OCRri kalte egin diezaioke.

Kontratu pribatuetarako, historia medikoetarako, finantza-dokumentuetarako, argitaratu gabeko eskuizkribuetarako edo berrikuspenean dauden lan akademikoetarako, lehenetsi tokiko OCR lan-fluxu bat edo ingurune fidagarri bat. Ez igo eskaneatu sentikorrak ausazko OCR gune libre batera.

4. urratsa: berrikusi OCR testua

Berrikusi itzuli aurretik, ez ondoren. Kopiatu testua hainbat orrialde zailetatik eta egiaztatu irakurgarria den.

Aztertzeko lagin-orriak:

Izenburu-orria.
Gorputz-testu trinkoko orri bat.
Taula duen orri bat.
Oin-oharrak dituen orri bat.
Testu txikia duen orri bat.
Zigiluak, eskuzko idazkera edo bazter-oharrak dituen orri bat.
Dokumentua eleaniztuna bada, hizkuntza bakoitzeko orri bana.

Bilatu honako hauek:

Falta diren paragrafoak.
Batutako zutabeak.
Hautsitako hitzak.
Karaktere okerrak.
Galdutako diakritikoak.
Balioetatik bereizitako taula-etiketak.
Gorputzeko testuan txertatutako goiburuak.
Esaldietan nahasitako orrialde-zenbakiak.

OCR kalitatea txarra bada, konpondu hori itzuli aurretik. Itzultzaile batek ezin du fidagarritasunez berreskuratu OCRk inoiz harrapatu ez duen esanahia.

5. urratsa: itzuli OCR bidez prozesatutako PDFa

PDFak testu-geruza garbi bat duenean, kargatu PDF itzultzailea tresnara. Itzulpen-urratsak testuarekin lan egin dezake orain, orrialde-irudiekin beharrean.

Itzuli ondoren, alderatu:

Jatorrizko eskaneatua
OCRren testu-geruza
Itzulitako PDFa

Hiruko berrikuspen honek akatsa OCRtik ala itzulpenetik etorri den identifikatzen laguntzen dizu. OCR testua oker badago, berriz exekutatu OCR. OCR testua ondo badago baina itzulpena oker badago, zuzendu itzulpena.

6. urratsa: berrikusi arrisku handiko edukia

Eskaneatutako dokumentuek askotan arretaz berrikusi beharreko edukia bera izaten dute: kontratu zaharrak, gobernu-inprimakiak, artikulu akademikoak, eskuliburuak, dokumentu historikoak eta liburu-orriak.

Berrikusi elementu hauek eskuz:

Izenak
Datak
Zenbakiak
Helbideak
Produktu-kodeak
Lege-erreferentziak
Aipuak
Taula-etiketak
Unitateak
Ekuazioak
Epigrafeak
Oin-oharrak

Ikerketa eta dokumentu akademikoetarako, irakurri baita ikerketa-artikulu akademikoak itzultzeko gida ere, PDF akademiko eskaneatuek OCR arriskuaz gain aipu eta maketazio arriskuak ere gehitzen baitituzte.

Aldamenezko hutsegite-adibideak

Erabili taula hau OCR emaitza berrikustean.

Jatorrizko eskaneatuak ziurrenik hau erakusten du	OCR emaitza txarra	Zergatik den garrantzitsua
`modern`	`modem`	Esanahia erabat aldatzen da.
`Section 10`	`Section IO`	Lege- edo erreferentzia teknikoak hondatu daitezke.
`2026`	`2O26`	Datak eta IDak fidagarritasuna galtzen dute.
`patient`	`patlent`	Medikuntzako edo termino teknikoak oker bihurtzen dira.
Bi zutabe bereizi	Paragrafo bateratu bakarra	Itzulpenak esaldiak ordena okerrean irakurtzen ditu.
Etiketak eta balioak dituen taula-lerroa	Testu nahasiko lerro bakarra	Datuek jada ez dute etiketa egokiarekin bat egiten.
Oin-oharraren marka `1`	`l` letra	Oharrak esaldi okerrari lotu dakizkioke.

Akats hauek OCR geruzan ikusten badituzu, konpondu OCR itzuli aurretik.

Zein tresna erabili behar zenuke?

Aukeratu dokumentuaren zailtasunaren arabera.

Dokumentua	Gomendatutako bidea
Negozioetako eskaneatu garbia	OCR Acrobaten edo beste OCR tresna fidagarri batean, gero PDF itzultzailea.
Liburu zaharraren eskaneatua	Zuzendu okerdura eta hobetu kontrastea, egin OCR arretaz, eta gero itzuli.
Artikulu akademikoaren eskaneatua	OCR, berrikusi ekuazioak, aipuak eta taulak, eta gero itzuli diseinuaren berrikuspenarekin.
Eskuz idatzitako oharrak	Baliteke eskuzko transkripzioa behar izatea itzuli aurretik.
Dokumentu pertsonal sinplea	Online OCR onargarria izan daiteke pribatutasun-arriskua txikia bada.
Dokumentu sentikorra	Erabili tokiko OCRa edo kontrolatutako lan-fluxu fidagarri bat.

Tresnen konparazio zabalagoa nahi baduzu, ikusi PDF itzultzaile onenen gida.

Eskaneatutako PDFen ohiko arazoak

Ebazpen baxuko orrialdeak

Ebazpen baxuko eskaneatuek letrak elkarrekin lausotzen dituzte. OCRk rn eta m, cl eta d, edo puntuazioa eta hautsa nahas ditzake.

Konponbidea: berriz eskaneatu ahal bada. Bestela, handitu kontrastea eta saiatu berriro OCRrekin.

Okertutako edo kurbatutako orrialdeak

Liburuen eskaneatuak askotan kurbatu egiten dira bizkarraren ondoan. OCRk gaizki irakurtzen ditu lerro kurbatuak eta testua berrantola dezake.

Konponbidea: lau utzi orrialdea, berriz eskaneatu, edo erabili okerdura eta kurbadura zuzentzen dituen OCR tresna bat.

Zutabe anitzeko diseinua

OCRk ezkerreko eta eskuineko zutabeak esaldi-korronte bakar batean batu ditzake.

Konponbidea: berrikusi irakurketa-ordena itzuli aurretik. Artikulu akademikoek arreta berezia behar dute hemen.

Taulak

Taulak zailak dira, OCRk testua eta egitura biak detektatu behar dituelako. Taula batek bisualki ondo eman dezake, testu-geruza oker egon arren.

Konponbidea: kopiatu taulako OCR testua eta egiaztatu etiketek balioekin bat egiten jarraitzen dutela.

Eskuzko idazkera eta sinadurak

Inprimatutako testurako OCRa askoz fidagarriagoa da eskuzko idazkeraren ezagutza baino. Bazterrean eskuz idatzitako oharrak, sinadurak eta betetako inprimakiak gal daitezke edo nahastuta ager daitezke.

Konponbidea: eskuz transkribatu itzuli aurretik funtsezko eskuzko testua.

Hizkuntza mistoak

OCRk hobeto funtzionatzen du jatorrizko hizkuntza ezagutzen duenean. Ingelesa, frantsesa eta txinera dituen eskaneatu batek huts egin dezake OCRa hizkuntza bakarrerako ezarrita badago.

Konponbidea: aukeratu OCR hizkuntza garrantzitsu guztiak tresnak onartzen baditu, eta gero lagin bidez egiaztatu hizkuntza-atal bakoitza.

Pribatutasun eta segurtasun kontrol-zerrenda

Eskaneatutako PDF bat edonora igo aurretik, galdetu zeure buruari:

Dokumentuak datu pertsonalak ditu?
Material medikoa, juridikoa, finantzarioa, akademikoa edo argitaratu gabea dauka?
Bezeroarekin egindako hitzarmen batek edo ikastetxeko politika batek estaltzen du?
Online OCR zerbitzu bat onartuta dago dokumentu honetarako?
Tokiko lan-fluxu bat behar duzu horren ordez?
Itzulpena behar ez duten orriak kendu ditzakezu?

Eskaneatutako PDFak sarritan sentikorrak dira, kontratuetatik, identifikazio-agirietatik, inprimakietatik, ikerketa-zirriborroetatik eta barne-artxiboetatik etortzen direlako. Tratatu OCRra kargatzeko erabakiak jatorrizko dokumentua tratatuko zenukeen modu berean.

Ohiko galderak

Nola itzultzen dut eskaneatutako PDF bat?

Lehenik exekutatu OCR testu-geruza sortzeko, berrikusi OCR emaitza, eta gero itzuli OCR bidez prozesatutako PDFa PDF itzultzailea erabilita. Ez saltatu OCR berrikuspen-urratsa.

Zergatik ez du Google Translatek nire PDF eskaneatua itzuli?

Baliteke PDFa irudiz soilik osatuta egotea. Testu-geruzarik ez badago, Google Translatek ez dauka erauzteko testurik. Lehenik OCR erabili, eta gero itzuli. Google-rako berariazko lan-fluxua Google Translate PDF gidan azaltzen da.

ChatGPTk itzul dezake eskaneatutako PDF bat?

ChatGPTk lagundu dezake banakako irudiekin edo erauzitako testuarekin, baina orrialde anitzeko PDF eskaneatu batek OCR eta berrikuspena behar ditu hala ere. Dokumentu osoaren lan-fluxurako, lehenik OCR, eta gero erabili PDF itzulpeneko lan-fluxu bat.

Zein da eskaneatutako PDFetarako OCR tresnarik onena?

Dokumentuaren araberakoa da. Acrobat eta ABBYY motako tresnak erabilgarriak dira eskaneatu orokor eta konplexuetarako. Tesseract edo OCRmyPDF erabilgarria da tokiko lan-fluxu teknikoetarako. Online OCR ona izan daiteke arrisku txikiko fitxategi sinpleetarako, baina pribatutasuna eta kalitatea aldatu egiten dira.

OCRk formatua gorde dezake?

OCRk testu-geruza bat sor dezake eta batzuetan irakurketa-ordena berreskuratu, baina hori ez da jatorrizko diseinu itzulia gordetzearen berdina. OCR ondoren, erabili PDF itzulpeneko lan-fluxu bat eta berrikusi emaitza jatorrizkoarekin alderatuta.

Zer gertatzen da OCR kalitatea txarra bada?

Hobetu eskaneatua itzuli aurretik. Berriz eskaneatu ahal bada, zuzendu orrialdeen okerdura, handitu kontrastea, moztu soberako elementuak, aukeratu OCR hizkuntza egokia, eta berrikusi berriro orrialde zailak.

Lotutako artikuluak

Itzulpen gidak