BookTranslator
BookTranslator

Nola itzuli eskaneatutako PDF bat: OCR + itzulpen gida osoa

Eskaneatutako PDFek testuaren irudiak dituzte, ez benetako testua — horregatik itzultzen ditu Google Translatek aldatu gabe. Hona hori konpontzen duen OCR + IA pipelinea.

BookTranslator

BookTranslator Team

Itzulpen gidak10 min read

Erantzun azkarra: eskaneatutako PDF batek OCR behar du itzuli aurretik

Eskaneatutako PDF bat itzultzeko, lehenik exekutatu OCR, orrialdeen irudiak hauta daitezkeen testu bihurtzeko. Ondoren, itzuli OCR bidez prozesatutako PDFa PDF itzultzailea bezalako dokumentu-itzultzaile batekin. OCR saltatzen baduzu, itzulpen-tresna askok jatorrizko fitxategia aldatu gabe itzuliko dute, orrialdeak galduko dituzte, edo dagoeneko testu-geruza duten zatiak bakarrik itzuliko dituzte.

Erabili lan-fluxu hau:

  1. Ireki PDFa eta saiatu esaldi bat hautatzen.
  2. Testua hautatu ezin baduzu, exekutatu OCR.
  3. Berrikusi OCR bidez ateratako testua itzuli aurretik.
  4. Kargatu OCR bidez prozesatutako PDFa PDF itzultzailea tresnara.
  5. Berrikusi itzulitako emaitza jatorrizko eskaneatuarekin alderatuta.

Zure PDFak jada hauta daitekeen testua badu eta arazoa diseinua mantentzea bada, erabili PDF bat formatua galdu gabe itzultzeko gida.

Zergatik huts egiten duten eskaneatutako PDFek itzulpen-tresnetan

Eskaneatutako PDF bat, askotan, PDF edukiontzi baten barruko orrialde-irudien multzo hutsa da. Orrialdeak hitzak erakuts diezazkioke pertsona bati, baina fitxategiak baliteke softwareak erauzteko benetako testurik ez izatea.

Horrek huts egiteko modu erraz bat sortzen du:

Fitxategi motaItzultzaileak zer ikusten duenZer gertatzen den
Testudun PDFaTestua gehi maketazio-datuakItzulpena berehala has daiteke.
Irudiz soilik osatutako PDFaOrrialdeen irudiakLehenik OCR behar da.
Irudiaren gaineko testua duen PDFEskaneatutako irudia gehi OCRren testu-geruza ezkutuaItzulpena egin daiteke, baina OCR akatsek kalitateari eragiten diote.

Probarik erabilgarriena ez da teknikoa:

  1. Ireki PDFa.
  2. Saiatu hitz banakak nabarmentzen.
  3. Kopiatu esaldi bat.
  4. Itsatsi testu-editore batean.

Esaldia ondo itsasten bada, PDFak testu-geruza du. Ezer ez bada itsasten, edo orrialde osoak irudi bakar baten moduan jokatzen badu, PDFak OCR behar du.

OCR ez da aukerakoa

OCRk karaktereen ezagutze optikoa esan nahi du. Irudi bateko testua irakurtzen du eta makinak irakur dezakeen testua sortzen du. PDFen itzulpenerako, OCRk normalean testu-geruza ikusezin bat sortzen du eskaneatutako orrialdearen gainean.

Testu-geruza hori itzulpenaren iturburu bihurtzen da. OCRk akatsak egiten baditu, itzulpenak akats horiek heredatzen ditu.

OCRren ohiko akatsak:

OCRren akatsaItzulpen-arriskua
rn m gisa irakurtzeaHitzen esanahia aldatzen da.
1 l gisa irakurtzeaZenbakiak, erreferentziak edo kodeak oker bihurtzen dira.
O 0 gisa irakurtzeaIDak, formulak eta izenak hondatu daitezke.
Azentuak galtzeaIzenak eta terminoak zehaztasuna galtzen dute.
Zutabeak bateratzeaEsaldiak ordena okerrean itzultzen dira.
Taulako gelaxkak lerroz lerro gaizki irakurtzeaDatu-etiketek jada ez dute balioekin bat egiten.
Oin-oharrak gorputzeko testu gisa hartzeaAipuak eta oharrak testuinguru okerrera mugitzen dira.

Horregatik da garrantzitsua OCR berrikusteko urratsa. Ez itzuli eskaneatutako dokumentu bat atera den testua lagin bidez egiaztatu arte.

OCR-leheneko lan-fluxua

1. urratsa: identifikatu PDF mota

Saiatu testua hautatzen. Hautaketak funtzionatzen badu, agian ez duzu OCR behar. Hautaketak huts egiten badu, tratatu fitxategia irudiz soilik osatutako PDF gisa.

Begiratu orrialdea bisualki ere:

  • Okertutako orrialdeek eskaneatua dela iradokitzen dute.
  • Paperaren ehundura grisak eskaneatua dela iradokitzen du.
  • Bizkarraren ondoan dauden itzalek argazkitutako liburu bat dela iradokitzen dute.
  • Kontraste irregularrak fotokopia bat dela iradokitzen du.
  • Bilaketak ikusgai dauden hitzak ez aurkitzeak testu-geruzarik ez dagoela iradokitzen du.

2. urratsa: hobetu eskaneatua ahal bada

OCR kalitatea irudi-kalitatearekin hasten da. Berriz eskaneatu badezakezu, egin hori OCR akatsak konpontzen denbora gastatu aurretik.

Erabili irudi-kalitatearen kontrol-zerrenda hau:

  • Eskaneatu ebazpen nahikoa handian, testu txikia ondo harrapatzeko.
  • Mantendu orrialdeak lau eta zuzen.
  • Saihestu itzalak bizkarraren ondoan.
  • Kendu iruditik mahaiaren ertzak, hatzak edo atzeko planoko nahasmendua.
  • Erabili kontraste handia testuaren eta orrialdearen artean.
  • Mantendu lerro osoa ikusgai.
  • Erabili orrialdearen orientazio zuzena.
  • Ez konprimitu irudia hainbeste non letrak lausotu egiten diren.

Liburu zaharretan eta fotokopietan, hobekuntzarik handienak normalean orrialdeak zuzentzetik, kontrastea doitzetik eta fokuz kanpo dauden orrialdeak berriz eskaneatzetik etortzen dira.

3. urratsa: exekutatu OCR

Aukeratu OCR tresna dokumentuaren arabera, ez markaren arabera.

OCR aukeraEgokiena zertarakoKontuan hartu
Adobe Acrobat OCRNegozioetako eskaneatu orokorrak eta PDF garbiketaEgiaztatu uneko planak sarbidea ematen duela, horretan fidatu aurretik.
ABBYY FineReaderEskaneatu konplexuak, taulak, zutabeak eta diseinu zailakHala ere, eskuzko berrikuspena behar du.
Tesseract edo OCRmyPDFTokiko OCR lan-fluxu tekniko eta errepikagarriakKomando-lerroko tresnekin eroso egotea eskatzen du.
Online OCR tresnakArrisku txikiko noizbehinkako fitxategiakPribatutasuna, fitxategi-mugak eta kalitatea aldatu egiten dira.
Telefonoz eskaneatzeko aplikazioakEskaneatu berri bat azkar lortzeaPerspektiba-distortsioak OCRri kalte egin diezaioke.

Kontratu pribatuetarako, historia medikoetarako, finantza-dokumentuetarako, argitaratu gabeko eskuizkribuetarako edo berrikuspenean dauden lan akademikoetarako, lehenetsi tokiko OCR lan-fluxu bat edo ingurune fidagarri bat. Ez igo eskaneatu sentikorrak ausazko OCR gune libre batera.

4. urratsa: berrikusi OCR testua

Berrikusi itzuli aurretik, ez ondoren. Kopiatu testua hainbat orrialde zailetatik eta egiaztatu irakurgarria den.

Aztertzeko lagin-orriak:

  • Izenburu-orria.
  • Gorputz-testu trinkoko orri bat.
  • Taula duen orri bat.
  • Oin-oharrak dituen orri bat.
  • Testu txikia duen orri bat.
  • Zigiluak, eskuzko idazkera edo bazter-oharrak dituen orri bat.
  • Dokumentua eleaniztuna bada, hizkuntza bakoitzeko orri bana.

Bilatu honako hauek:

  • Falta diren paragrafoak.
  • Batutako zutabeak.
  • Hautsitako hitzak.
  • Karaktere okerrak.
  • Galdutako diakritikoak.
  • Balioetatik bereizitako taula-etiketak.
  • Gorputzeko testuan txertatutako goiburuak.
  • Esaldietan nahasitako orrialde-zenbakiak.

OCR kalitatea txarra bada, konpondu hori itzuli aurretik. Itzultzaile batek ezin du fidagarritasunez berreskuratu OCRk inoiz harrapatu ez duen esanahia.

5. urratsa: itzuli OCR bidez prozesatutako PDFa

PDFak testu-geruza garbi bat duenean, kargatu PDF itzultzailea tresnara. Itzulpen-urratsak testuarekin lan egin dezake orain, orrialde-irudiekin beharrean.

Itzuli ondoren, alderatu:

  • Jatorrizko eskaneatua
  • OCRren testu-geruza
  • Itzulitako PDFa

Hiruko berrikuspen honek akatsa OCRtik ala itzulpenetik etorri den identifikatzen laguntzen dizu. OCR testua oker badago, berriz exekutatu OCR. OCR testua ondo badago baina itzulpena oker badago, zuzendu itzulpena.

6. urratsa: berrikusi arrisku handiko edukia

Eskaneatutako dokumentuek askotan arretaz berrikusi beharreko edukia bera izaten dute: kontratu zaharrak, gobernu-inprimakiak, artikulu akademikoak, eskuliburuak, dokumentu historikoak eta liburu-orriak.

Berrikusi elementu hauek eskuz:

  • Izenak
  • Datak
  • Zenbakiak
  • Helbideak
  • Produktu-kodeak
  • Lege-erreferentziak
  • Aipuak
  • Taula-etiketak
  • Unitateak
  • Ekuazioak
  • Epigrafeak
  • Oin-oharrak

Ikerketa eta dokumentu akademikoetarako, irakurri baita ikerketa-artikulu akademikoak itzultzeko gida ere, PDF akademiko eskaneatuek OCR arriskuaz gain aipu eta maketazio arriskuak ere gehitzen baitituzte.

Aldamenezko hutsegite-adibideak

Erabili taula hau OCR emaitza berrikustean.

Jatorrizko eskaneatuak ziurrenik hau erakusten duOCR emaitza txarraZergatik den garrantzitsua
modernmodemEsanahia erabat aldatzen da.
Section 10Section IOLege- edo erreferentzia teknikoak hondatu daitezke.
20262O26Datak eta IDak fidagarritasuna galtzen dute.
patientpatlentMedikuntzako edo termino teknikoak oker bihurtzen dira.
Bi zutabe bereiziParagrafo bateratu bakarraItzulpenak esaldiak ordena okerrean irakurtzen ditu.
Etiketak eta balioak dituen taula-lerroaTestu nahasiko lerro bakarraDatuek jada ez dute etiketa egokiarekin bat egiten.
Oin-oharraren marka 1l letraOharrak esaldi okerrari lotu dakizkioke.

Akats hauek OCR geruzan ikusten badituzu, konpondu OCR itzuli aurretik.

Zein tresna erabili behar zenuke?

Aukeratu dokumentuaren zailtasunaren arabera.

DokumentuaGomendatutako bidea
Negozioetako eskaneatu garbiaOCR Acrobaten edo beste OCR tresna fidagarri batean, gero PDF itzultzailea.
Liburu zaharraren eskaneatuaZuzendu okerdura eta hobetu kontrastea, egin OCR arretaz, eta gero itzuli.
Artikulu akademikoaren eskaneatuaOCR, berrikusi ekuazioak, aipuak eta taulak, eta gero itzuli diseinuaren berrikuspenarekin.
Eskuz idatzitako oharrakBaliteke eskuzko transkripzioa behar izatea itzuli aurretik.
Dokumentu pertsonal sinpleaOnline OCR onargarria izan daiteke pribatutasun-arriskua txikia bada.
Dokumentu sentikorraErabili tokiko OCRa edo kontrolatutako lan-fluxu fidagarri bat.

Tresnen konparazio zabalagoa nahi baduzu, ikusi PDF itzultzaile onenen gida.

Eskaneatutako PDFen ohiko arazoak

Ebazpen baxuko orrialdeak

Ebazpen baxuko eskaneatuek letrak elkarrekin lausotzen dituzte. OCRk rn eta m, cl eta d, edo puntuazioa eta hautsa nahas ditzake.

Konponbidea: berriz eskaneatu ahal bada. Bestela, handitu kontrastea eta saiatu berriro OCRrekin.

Okertutako edo kurbatutako orrialdeak

Liburuen eskaneatuak askotan kurbatu egiten dira bizkarraren ondoan. OCRk gaizki irakurtzen ditu lerro kurbatuak eta testua berrantola dezake.

Konponbidea: lau utzi orrialdea, berriz eskaneatu, edo erabili okerdura eta kurbadura zuzentzen dituen OCR tresna bat.

Zutabe anitzeko diseinua

OCRk ezkerreko eta eskuineko zutabeak esaldi-korronte bakar batean batu ditzake.

Konponbidea: berrikusi irakurketa-ordena itzuli aurretik. Artikulu akademikoek arreta berezia behar dute hemen.

Taulak

Taulak zailak dira, OCRk testua eta egitura biak detektatu behar dituelako. Taula batek bisualki ondo eman dezake, testu-geruza oker egon arren.

Konponbidea: kopiatu taulako OCR testua eta egiaztatu etiketek balioekin bat egiten jarraitzen dutela.

Eskuzko idazkera eta sinadurak

Inprimatutako testurako OCRa askoz fidagarriagoa da eskuzko idazkeraren ezagutza baino. Bazterrean eskuz idatzitako oharrak, sinadurak eta betetako inprimakiak gal daitezke edo nahastuta ager daitezke.

Konponbidea: eskuz transkribatu itzuli aurretik funtsezko eskuzko testua.

Hizkuntza mistoak

OCRk hobeto funtzionatzen du jatorrizko hizkuntza ezagutzen duenean. Ingelesa, frantsesa eta txinera dituen eskaneatu batek huts egin dezake OCRa hizkuntza bakarrerako ezarrita badago.

Konponbidea: aukeratu OCR hizkuntza garrantzitsu guztiak tresnak onartzen baditu, eta gero lagin bidez egiaztatu hizkuntza-atal bakoitza.

Pribatutasun eta segurtasun kontrol-zerrenda

Eskaneatutako PDF bat edonora igo aurretik, galdetu zeure buruari:

  • Dokumentuak datu pertsonalak ditu?
  • Material medikoa, juridikoa, finantzarioa, akademikoa edo argitaratu gabea dauka?
  • Bezeroarekin egindako hitzarmen batek edo ikastetxeko politika batek estaltzen du?
  • Online OCR zerbitzu bat onartuta dago dokumentu honetarako?
  • Tokiko lan-fluxu bat behar duzu horren ordez?
  • Itzulpena behar ez duten orriak kendu ditzakezu?

Eskaneatutako PDFak sarritan sentikorrak dira, kontratuetatik, identifikazio-agirietatik, inprimakietatik, ikerketa-zirriborroetatik eta barne-artxiboetatik etortzen direlako. Tratatu OCRra kargatzeko erabakiak jatorrizko dokumentua tratatuko zenukeen modu berean.

Ohiko galderak

Nola itzultzen dut eskaneatutako PDF bat?

Lehenik exekutatu OCR testu-geruza sortzeko, berrikusi OCR emaitza, eta gero itzuli OCR bidez prozesatutako PDFa PDF itzultzailea erabilita. Ez saltatu OCR berrikuspen-urratsa.

Zergatik ez du Google Translatek nire PDF eskaneatua itzuli?

Baliteke PDFa irudiz soilik osatuta egotea. Testu-geruzarik ez badago, Google Translatek ez dauka erauzteko testurik. Lehenik OCR erabili, eta gero itzuli. Google-rako berariazko lan-fluxua Google Translate PDF gidan azaltzen da.

ChatGPTk itzul dezake eskaneatutako PDF bat?

ChatGPTk lagundu dezake banakako irudiekin edo erauzitako testuarekin, baina orrialde anitzeko PDF eskaneatu batek OCR eta berrikuspena behar ditu hala ere. Dokumentu osoaren lan-fluxurako, lehenik OCR, eta gero erabili PDF itzulpeneko lan-fluxu bat.

Zein da eskaneatutako PDFetarako OCR tresnarik onena?

Dokumentuaren araberakoa da. Acrobat eta ABBYY motako tresnak erabilgarriak dira eskaneatu orokor eta konplexuetarako. Tesseract edo OCRmyPDF erabilgarria da tokiko lan-fluxu teknikoetarako. Online OCR ona izan daiteke arrisku txikiko fitxategi sinpleetarako, baina pribatutasuna eta kalitatea aldatu egiten dira.

OCRk formatua gorde dezake?

OCRk testu-geruza bat sor dezake eta batzuetan irakurketa-ordena berreskuratu, baina hori ez da jatorrizko diseinu itzulia gordetzearen berdina. OCR ondoren, erabili PDF itzulpeneko lan-fluxu bat eta berrikusi emaitza jatorrizkoarekin alderatuta.

Zer gertatzen da OCR kalitatea txarra bada?

Hobetu eskaneatua itzuli aurretik. Berriz eskaneatu ahal bada, zuzendu orrialdeen okerdura, handitu kontrastea, moztu soberako elementuak, aukeratu OCR hizkuntza egokia, eta berrikusi berriro orrialde zailak.