Nola itzuli eskaneatutako PDF bat: OCR + itzulpen gida osoa
Eskaneatutako PDFek testuaren irudiak dituzte, ez benetako testua — horregatik itzultzen ditu Google Translatek aldatu gabe. Hona hori konpontzen duen OCR + IA pipelinea.
Erantzun azkarra: eskaneatutako PDF batek OCR behar du itzuli aurretik
Eskaneatutako PDF bat itzultzeko, lehenik exekutatu OCR, orrialdeen irudiak hauta daitezkeen testu bihurtzeko. Ondoren, itzuli OCR bidez prozesatutako PDFa PDF itzultzailea bezalako dokumentu-itzultzaile batekin. OCR saltatzen baduzu, itzulpen-tresna askok jatorrizko fitxategia aldatu gabe itzuliko dute, orrialdeak galduko dituzte, edo dagoeneko testu-geruza duten zatiak bakarrik itzuliko dituzte.
Erabili lan-fluxu hau:
- Ireki PDFa eta saiatu esaldi bat hautatzen.
- Testua hautatu ezin baduzu, exekutatu OCR.
- Berrikusi OCR bidez ateratako testua itzuli aurretik.
- Kargatu OCR bidez prozesatutako PDFa PDF itzultzailea tresnara.
- Berrikusi itzulitako emaitza jatorrizko eskaneatuarekin alderatuta.
Zure PDFak jada hauta daitekeen testua badu eta arazoa diseinua mantentzea bada, erabili PDF bat formatua galdu gabe itzultzeko gida.
Zergatik huts egiten duten eskaneatutako PDFek itzulpen-tresnetan
Eskaneatutako PDF bat, askotan, PDF edukiontzi baten barruko orrialde-irudien multzo hutsa da. Orrialdeak hitzak erakuts diezazkioke pertsona bati, baina fitxategiak baliteke softwareak erauzteko benetako testurik ez izatea.
Horrek huts egiteko modu erraz bat sortzen du:
| Fitxategi mota | Itzultzaileak zer ikusten duen | Zer gertatzen den |
|---|---|---|
| Testudun PDFa | Testua gehi maketazio-datuak | Itzulpena berehala has daiteke. |
| Irudiz soilik osatutako PDFa | Orrialdeen irudiak | Lehenik OCR behar da. |
| Irudiaren gaineko testua duen PDF | Eskaneatutako irudia gehi OCRren testu-geruza ezkutua | Itzulpena egin daiteke, baina OCR akatsek kalitateari eragiten diote. |
Probarik erabilgarriena ez da teknikoa:
- Ireki PDFa.
- Saiatu hitz banakak nabarmentzen.
- Kopiatu esaldi bat.
- Itsatsi testu-editore batean.
Esaldia ondo itsasten bada, PDFak testu-geruza du. Ezer ez bada itsasten, edo orrialde osoak irudi bakar baten moduan jokatzen badu, PDFak OCR behar du.
OCR ez da aukerakoa
OCRk karaktereen ezagutze optikoa esan nahi du. Irudi bateko testua irakurtzen du eta makinak irakur dezakeen testua sortzen du. PDFen itzulpenerako, OCRk normalean testu-geruza ikusezin bat sortzen du eskaneatutako orrialdearen gainean.
Testu-geruza hori itzulpenaren iturburu bihurtzen da. OCRk akatsak egiten baditu, itzulpenak akats horiek heredatzen ditu.
OCRren ohiko akatsak:
| OCRren akatsa | Itzulpen-arriskua |
|---|---|
rn m gisa irakurtzea | Hitzen esanahia aldatzen da. |
1 l gisa irakurtzea | Zenbakiak, erreferentziak edo kodeak oker bihurtzen dira. |
O 0 gisa irakurtzea | IDak, formulak eta izenak hondatu daitezke. |
| Azentuak galtzea | Izenak eta terminoak zehaztasuna galtzen dute. |
| Zutabeak bateratzea | Esaldiak ordena okerrean itzultzen dira. |
| Taulako gelaxkak lerroz lerro gaizki irakurtzea | Datu-etiketek jada ez dute balioekin bat egiten. |
| Oin-oharrak gorputzeko testu gisa hartzea | Aipuak eta oharrak testuinguru okerrera mugitzen dira. |
Horregatik da garrantzitsua OCR berrikusteko urratsa. Ez itzuli eskaneatutako dokumentu bat atera den testua lagin bidez egiaztatu arte.
OCR-leheneko lan-fluxua
1. urratsa: identifikatu PDF mota
Saiatu testua hautatzen. Hautaketak funtzionatzen badu, agian ez duzu OCR behar. Hautaketak huts egiten badu, tratatu fitxategia irudiz soilik osatutako PDF gisa.
Begiratu orrialdea bisualki ere:
- Okertutako orrialdeek eskaneatua dela iradokitzen dute.
- Paperaren ehundura grisak eskaneatua dela iradokitzen du.
- Bizkarraren ondoan dauden itzalek argazkitutako liburu bat dela iradokitzen dute.
- Kontraste irregularrak fotokopia bat dela iradokitzen du.
- Bilaketak ikusgai dauden hitzak ez aurkitzeak testu-geruzarik ez dagoela iradokitzen du.
2. urratsa: hobetu eskaneatua ahal bada
OCR kalitatea irudi-kalitatearekin hasten da. Berriz eskaneatu badezakezu, egin hori OCR akatsak konpontzen denbora gastatu aurretik.
Erabili irudi-kalitatearen kontrol-zerrenda hau:
- Eskaneatu ebazpen nahikoa handian, testu txikia ondo harrapatzeko.
- Mantendu orrialdeak lau eta zuzen.
- Saihestu itzalak bizkarraren ondoan.
- Kendu iruditik mahaiaren ertzak, hatzak edo atzeko planoko nahasmendua.
- Erabili kontraste handia testuaren eta orrialdearen artean.
- Mantendu lerro osoa ikusgai.
- Erabili orrialdearen orientazio zuzena.
- Ez konprimitu irudia hainbeste non letrak lausotu egiten diren.
Liburu zaharretan eta fotokopietan, hobekuntzarik handienak normalean orrialdeak zuzentzetik, kontrastea doitzetik eta fokuz kanpo dauden orrialdeak berriz eskaneatzetik etortzen dira.
3. urratsa: exekutatu OCR
Aukeratu OCR tresna dokumentuaren arabera, ez markaren arabera.
| OCR aukera | Egokiena zertarako | Kontuan hartu |
|---|---|---|
| Adobe Acrobat OCR | Negozioetako eskaneatu orokorrak eta PDF garbiketa | Egiaztatu uneko planak sarbidea ematen duela, horretan fidatu aurretik. |
| ABBYY FineReader | Eskaneatu konplexuak, taulak, zutabeak eta diseinu zailak | Hala ere, eskuzko berrikuspena behar du. |
| Tesseract edo OCRmyPDF | Tokiko OCR lan-fluxu tekniko eta errepikagarriak | Komando-lerroko tresnekin eroso egotea eskatzen du. |
| Online OCR tresnak | Arrisku txikiko noizbehinkako fitxategiak | Pribatutasuna, fitxategi-mugak eta kalitatea aldatu egiten dira. |
| Telefonoz eskaneatzeko aplikazioak | Eskaneatu berri bat azkar lortzea | Perspektiba-distortsioak OCRri kalte egin diezaioke. |
Kontratu pribatuetarako, historia medikoetarako, finantza-dokumentuetarako, argitaratu gabeko eskuizkribuetarako edo berrikuspenean dauden lan akademikoetarako, lehenetsi tokiko OCR lan-fluxu bat edo ingurune fidagarri bat. Ez igo eskaneatu sentikorrak ausazko OCR gune libre batera.
4. urratsa: berrikusi OCR testua
Berrikusi itzuli aurretik, ez ondoren. Kopiatu testua hainbat orrialde zailetatik eta egiaztatu irakurgarria den.
Aztertzeko lagin-orriak:
- Izenburu-orria.
- Gorputz-testu trinkoko orri bat.
- Taula duen orri bat.
- Oin-oharrak dituen orri bat.
- Testu txikia duen orri bat.
- Zigiluak, eskuzko idazkera edo bazter-oharrak dituen orri bat.
- Dokumentua eleaniztuna bada, hizkuntza bakoitzeko orri bana.
Bilatu honako hauek:
- Falta diren paragrafoak.
- Batutako zutabeak.
- Hautsitako hitzak.
- Karaktere okerrak.
- Galdutako diakritikoak.
- Balioetatik bereizitako taula-etiketak.
- Gorputzeko testuan txertatutako goiburuak.
- Esaldietan nahasitako orrialde-zenbakiak.
OCR kalitatea txarra bada, konpondu hori itzuli aurretik. Itzultzaile batek ezin du fidagarritasunez berreskuratu OCRk inoiz harrapatu ez duen esanahia.
5. urratsa: itzuli OCR bidez prozesatutako PDFa
PDFak testu-geruza garbi bat duenean, kargatu PDF itzultzailea tresnara. Itzulpen-urratsak testuarekin lan egin dezake orain, orrialde-irudiekin beharrean.
Itzuli ondoren, alderatu:
- Jatorrizko eskaneatua
- OCRren testu-geruza
- Itzulitako PDFa
Hiruko berrikuspen honek akatsa OCRtik ala itzulpenetik etorri den identifikatzen laguntzen dizu. OCR testua oker badago, berriz exekutatu OCR. OCR testua ondo badago baina itzulpena oker badago, zuzendu itzulpena.
6. urratsa: berrikusi arrisku handiko edukia
Eskaneatutako dokumentuek askotan arretaz berrikusi beharreko edukia bera izaten dute: kontratu zaharrak, gobernu-inprimakiak, artikulu akademikoak, eskuliburuak, dokumentu historikoak eta liburu-orriak.
Berrikusi elementu hauek eskuz:
- Izenak
- Datak
- Zenbakiak
- Helbideak
- Produktu-kodeak
- Lege-erreferentziak
- Aipuak
- Taula-etiketak
- Unitateak
- Ekuazioak
- Epigrafeak
- Oin-oharrak
Ikerketa eta dokumentu akademikoetarako, irakurri baita ikerketa-artikulu akademikoak itzultzeko gida ere, PDF akademiko eskaneatuek OCR arriskuaz gain aipu eta maketazio arriskuak ere gehitzen baitituzte.
Aldamenezko hutsegite-adibideak
Erabili taula hau OCR emaitza berrikustean.
| Jatorrizko eskaneatuak ziurrenik hau erakusten du | OCR emaitza txarra | Zergatik den garrantzitsua |
|---|---|---|
modern | modem | Esanahia erabat aldatzen da. |
Section 10 | Section IO | Lege- edo erreferentzia teknikoak hondatu daitezke. |
2026 | 2O26 | Datak eta IDak fidagarritasuna galtzen dute. |
patient | patlent | Medikuntzako edo termino teknikoak oker bihurtzen dira. |
| Bi zutabe bereizi | Paragrafo bateratu bakarra | Itzulpenak esaldiak ordena okerrean irakurtzen ditu. |
| Etiketak eta balioak dituen taula-lerroa | Testu nahasiko lerro bakarra | Datuek jada ez dute etiketa egokiarekin bat egiten. |
Oin-oharraren marka 1 | l letra | Oharrak esaldi okerrari lotu dakizkioke. |
Akats hauek OCR geruzan ikusten badituzu, konpondu OCR itzuli aurretik.
Zein tresna erabili behar zenuke?
Aukeratu dokumentuaren zailtasunaren arabera.
| Dokumentua | Gomendatutako bidea |
|---|---|
| Negozioetako eskaneatu garbia | OCR Acrobaten edo beste OCR tresna fidagarri batean, gero PDF itzultzailea. |
| Liburu zaharraren eskaneatua | Zuzendu okerdura eta hobetu kontrastea, egin OCR arretaz, eta gero itzuli. |
| Artikulu akademikoaren eskaneatua | OCR, berrikusi ekuazioak, aipuak eta taulak, eta gero itzuli diseinuaren berrikuspenarekin. |
| Eskuz idatzitako oharrak | Baliteke eskuzko transkripzioa behar izatea itzuli aurretik. |
| Dokumentu pertsonal sinplea | Online OCR onargarria izan daiteke pribatutasun-arriskua txikia bada. |
| Dokumentu sentikorra | Erabili tokiko OCRa edo kontrolatutako lan-fluxu fidagarri bat. |
Tresnen konparazio zabalagoa nahi baduzu, ikusi PDF itzultzaile onenen gida.
Eskaneatutako PDFen ohiko arazoak
Ebazpen baxuko orrialdeak
Ebazpen baxuko eskaneatuek letrak elkarrekin lausotzen dituzte. OCRk rn eta m, cl eta d, edo puntuazioa eta hautsa nahas ditzake.
Konponbidea: berriz eskaneatu ahal bada. Bestela, handitu kontrastea eta saiatu berriro OCRrekin.
Okertutako edo kurbatutako orrialdeak
Liburuen eskaneatuak askotan kurbatu egiten dira bizkarraren ondoan. OCRk gaizki irakurtzen ditu lerro kurbatuak eta testua berrantola dezake.
Konponbidea: lau utzi orrialdea, berriz eskaneatu, edo erabili okerdura eta kurbadura zuzentzen dituen OCR tresna bat.
Zutabe anitzeko diseinua
OCRk ezkerreko eta eskuineko zutabeak esaldi-korronte bakar batean batu ditzake.
Konponbidea: berrikusi irakurketa-ordena itzuli aurretik. Artikulu akademikoek arreta berezia behar dute hemen.
Taulak
Taulak zailak dira, OCRk testua eta egitura biak detektatu behar dituelako. Taula batek bisualki ondo eman dezake, testu-geruza oker egon arren.
Konponbidea: kopiatu taulako OCR testua eta egiaztatu etiketek balioekin bat egiten jarraitzen dutela.
Eskuzko idazkera eta sinadurak
Inprimatutako testurako OCRa askoz fidagarriagoa da eskuzko idazkeraren ezagutza baino. Bazterrean eskuz idatzitako oharrak, sinadurak eta betetako inprimakiak gal daitezke edo nahastuta ager daitezke.
Konponbidea: eskuz transkribatu itzuli aurretik funtsezko eskuzko testua.
Hizkuntza mistoak
OCRk hobeto funtzionatzen du jatorrizko hizkuntza ezagutzen duenean. Ingelesa, frantsesa eta txinera dituen eskaneatu batek huts egin dezake OCRa hizkuntza bakarrerako ezarrita badago.
Konponbidea: aukeratu OCR hizkuntza garrantzitsu guztiak tresnak onartzen baditu, eta gero lagin bidez egiaztatu hizkuntza-atal bakoitza.
Pribatutasun eta segurtasun kontrol-zerrenda
Eskaneatutako PDF bat edonora igo aurretik, galdetu zeure buruari:
- Dokumentuak datu pertsonalak ditu?
- Material medikoa, juridikoa, finantzarioa, akademikoa edo argitaratu gabea dauka?
- Bezeroarekin egindako hitzarmen batek edo ikastetxeko politika batek estaltzen du?
- Online OCR zerbitzu bat onartuta dago dokumentu honetarako?
- Tokiko lan-fluxu bat behar duzu horren ordez?
- Itzulpena behar ez duten orriak kendu ditzakezu?
Eskaneatutako PDFak sarritan sentikorrak dira, kontratuetatik, identifikazio-agirietatik, inprimakietatik, ikerketa-zirriborroetatik eta barne-artxiboetatik etortzen direlako. Tratatu OCRra kargatzeko erabakiak jatorrizko dokumentua tratatuko zenukeen modu berean.
Ohiko galderak
Nola itzultzen dut eskaneatutako PDF bat?
Lehenik exekutatu OCR testu-geruza sortzeko, berrikusi OCR emaitza, eta gero itzuli OCR bidez prozesatutako PDFa PDF itzultzailea erabilita. Ez saltatu OCR berrikuspen-urratsa.
Zergatik ez du Google Translatek nire PDF eskaneatua itzuli?
Baliteke PDFa irudiz soilik osatuta egotea. Testu-geruzarik ez badago, Google Translatek ez dauka erauzteko testurik. Lehenik OCR erabili, eta gero itzuli. Google-rako berariazko lan-fluxua Google Translate PDF gidan azaltzen da.
ChatGPTk itzul dezake eskaneatutako PDF bat?
ChatGPTk lagundu dezake banakako irudiekin edo erauzitako testuarekin, baina orrialde anitzeko PDF eskaneatu batek OCR eta berrikuspena behar ditu hala ere. Dokumentu osoaren lan-fluxurako, lehenik OCR, eta gero erabili PDF itzulpeneko lan-fluxu bat.
Zein da eskaneatutako PDFetarako OCR tresnarik onena?
Dokumentuaren araberakoa da. Acrobat eta ABBYY motako tresnak erabilgarriak dira eskaneatu orokor eta konplexuetarako. Tesseract edo OCRmyPDF erabilgarria da tokiko lan-fluxu teknikoetarako. Online OCR ona izan daiteke arrisku txikiko fitxategi sinpleetarako, baina pribatutasuna eta kalitatea aldatu egiten dira.
OCRk formatua gorde dezake?
OCRk testu-geruza bat sor dezake eta batzuetan irakurketa-ordena berreskuratu, baina hori ez da jatorrizko diseinu itzulia gordetzearen berdina. OCR ondoren, erabili PDF itzulpeneko lan-fluxu bat eta berrikusi emaitza jatorrizkoarekin alderatuta.
Zer gertatzen da OCR kalitatea txarra bada?
Hobetu eskaneatua itzuli aurretik. Berriz eskaneatu ahal bada, zuzendu orrialdeen okerdura, handitu kontrastea, moztu soberako elementuak, aukeratu OCR hizkuntza egokia, eta berrikusi berriro orrialde zailak.