BookTranslator
BookTranslator

Sut i Gyfieithu PDF Wedi'i Sganio: Y Canllaw OCR + Chyfieithu Cyflawn

Mae PDFs wedi'u sganio yn cynnwys lluniau o destun, nid testun go iawn — dyna pam mae Google Translate yn eu dychwelyd heb eu newid. Dyma'r biblinell OCR + AI sy'n datrys hynny.

BookTranslator

BookTranslator Team

Canllawiau Cyfieithu12 min read

Ateb Cyflym: Mae angen OCR ar PDF Wedi'i Sganio Cyn Cyfieithu

I gyfieithu PDF wedi'i sganio, rhedwch OCR yn gyntaf i droi delweddau'r tudalennau yn destun y gellir ei ddewis. Yna cyfieithwch y PDF sydd wedi'i brosesu ag OCR gyda chyfieithydd dogfennau fel Cyfieithydd PDF. Os byddwch yn hepgor OCR, bydd llawer o offer cyfieithu yn dychwelyd y ffeil wreiddiol heb ei newid, yn colli tudalennau, neu'n cyfieithu dim ond y rhannau sydd eisoes yn cynnwys haen destun.

Defnyddiwch y llif gwaith hwn:

  1. Agorwch y PDF a cheisiwch ddewis brawddeg.
  2. Os na allwch ddewis testun, rhedwch OCR.
  3. Adolygwch y testun OCR cyn cyfieithu.
  4. Uwchlwythwch y PDF a broseswyd ag OCR i Cyfieithydd PDF.
  5. Adolygwch yr allbwn cyfieithiedig o'i gymharu â'r sgan gwreiddiol.

Os oes gan eich PDF destun y gellir ei ddewis eisoes a bod y broblem yn ymwneud â chadw'r cynllun, defnyddiwch y canllaw i gyfieithu PDF heb golli'r fformatio.

Pam Mae PDFs Wedi'u Sganio yn Methu mewn Offer Cyfieithu

Mae PDF wedi'i sganio yn aml yn ddim ond set o ddelweddau tudalen y tu mewn i gynhwysydd PDF. Gall y dudalen ddangos geiriau i berson, ond efallai na fydd y ffeil yn cynnwys testun go iawn i feddalwedd ei echdynnu.

Mae hynny'n creu methiant syml:

Math o ffeilYr hyn y mae'r cyfieithydd yn ei weldBeth sy'n digwydd
PDF sy'n seiliedig ar destunTestun ynghyd â data cynllunGall y cyfieithu ddechrau ar unwaith.
PDF wedi'i sganio, delwedd yn unigLluniau o dudalennauMae angen OCR yn gyntaf.
PDF testun-dros-ddelweddDelwedd sgan ynghyd â haen destun OCR guddGall cyfieithu weithio, ond mae gwallau OCR yn effeithio ar ansawdd.

Nid yw'r prawf mwyaf defnyddiol yn un technegol:

  1. Agorwch y PDF.
  2. Ceisiwch amlygu geiriau unigol.
  3. Copïwch frawddeg.
  4. Gludwch hi i olygydd testun.

Os yw'r frawddeg yn gludo'n gywir, mae gan y PDF haen destun. Os nad oes dim yn gludo, neu os yw'r dudalen gyfan yn ymddwyn fel un ddelwedd, mae angen OCR ar y PDF.

Nid yw OCR yn Ddewisol

Mae OCR yn golygu adnabod nodau optegol. Mae'n darllen testun o ddelwedd ac yn creu testun y gall peiriant ei ddarllen. Ar gyfer cyfieithu PDF, mae OCR fel arfer yn creu haen destun anweledig dros y dudalen wedi'i sganio.

Mae'r haen destun honno'n dod yn ffynhonnell y cyfieithiad. Os yw OCR yn gwneud camgymeriadau, mae'r cyfieithiad yn etifeddu'r camgymeriadau hynny.

Camgymeriadau OCR cyffredin:

Camgymeriad OCRRisg cyfieithu
rn yn cael ei ddarllen fel mMae geiriau'n newid ystyr.
1 yn cael ei ddarllen fel lMae rhifau, cyfeiriadau, neu godau'n mynd yn anghywir.
O yn cael ei ddarllen fel 0Gall IDau, fformiwlâu, ac enwau fethu.
Acenion yn cael eu colliMae enwau a thermau'n dod yn anghywir.
Colofnau'n cael eu hunoMae brawddegau'n cyfieithu yn y drefn anghywir.
Celloedd tabl yn cael eu darllen fesul rhes yn anghywirNid yw labeli data bellach yn cyfateb i werthoedd.
Troednodiadau'n cael eu trin fel testun corffMae dyfyniadau a nodiadau'n symud i'r cyd-destun anghywir.

Dyna pam mae'r cam adolygu OCR yn bwysig. Peidiwch â chyfieithu dogfen wedi'i sganio nes eich bod wedi gwneud gwiriad sampl o'r testun a echdynnwyd.

Y Llif Gwaith OCR-Gyntaf

Cam 1: Adnabod Math y PDF

Ceisiwch ddewis testun. Os yw'r dewis yn gweithio, efallai na fydd angen OCR arnoch. Os bydd y dewis yn methu, trinwch y ffeil fel un sy'n cynnwys delweddau yn unig.

Archwiliwch y dudalen yn weledol hefyd:

  • Mae tudalennau ar oledd yn awgrymu sgan.
  • Mae gwead papur llwyd yn awgrymu sgan.
  • Mae cysgodion ger y rhwymyn yn awgrymu llyfr wedi'i ffotograffu.
  • Mae cyferbyniad anwastad yn awgrymu llungopi.
  • Os nad yw chwilio'n dod o hyd i eiriau gweladwy, mae hynny'n awgrymu nad oes haen destun.

Cam 2: Gwella'r Sgan Os Yn Bosibl

Mae ansawdd OCR yn dechrau gydag ansawdd y ddelwedd. Os gallwch ailsganio, gwnewch hynny cyn treulio amser yn trwsio gwallau OCR.

Defnyddiwch y rhestr wirio ansawdd delwedd hon:

  • Sganiwch ar gydraniad digon uchel ar gyfer testun bach.
  • Cadwch dudalennau'n wastad ac yn syth.
  • Osgowch gysgodion ger y rhwymyn.
  • Torrwch allan ymylon bwrdd, bysedd, neu annibendod yn y cefndir.
  • Defnyddiwch gyferbyniad cryf rhwng y testun a'r dudalen.
  • Cadwch y llinell gyfan yn weladwy.
  • Defnyddiwch gyfeiriadedd cywir y dudalen.
  • Peidiwch â chywasgu'r ddelwedd mor drwm nes bod llythrennau'n mynd yn aneglur.

Ar gyfer hen lyfrau a llungopïau, daw'r gwelliannau mwyaf fel arfer o sythu'r ddelwedd, cywiro'r cyferbyniad, ac ailsganio tudalennau sydd allan o ffocws.

Cam 3: Rhedeg OCR

Dewiswch offeryn OCR yn ôl y ddogfen, nid yn ôl y brand.

Opsiwn OCRGorau ar gyferByddwch yn wyliadwrus o
Adobe Acrobat OCRSganiau busnes cyffredinol a glanhau PDFsGwiriwch fynediad y cynllun cyfredol cyn dibynnu arno.
ABBYY FineReaderSganiau cymhleth, tablau, colofnau, a chynlluniau anoddMae adolygiad llaw yn dal i fod yn angenrheidiol.
Tesseract neu OCRmyPDFLlifoedd gwaith OCR lleol, technegol, ac ailadroddadwyMae angen bod yn gyfforddus gydag offer llinell orchymyn.
Offer OCR ar-leinFfeiliau achlysurol risg iselMae preifatrwydd, terfynau ffeil, ac ansawdd yn amrywio.
Apiau sganio ffônDal sgan newydd yn gyflymGall afluniad persbectif niweidio OCR.

Ar gyfer contractau preifat, cofnodion meddygol, dogfennau ariannol, llawysgrifau heb eu cyhoeddi, neu waith academaidd sydd dan adolygiad, mae'n well defnyddio llif gwaith OCR lleol neu amgylchedd dibynadwy. Peidiwch ag uwchlwytho sganiau sensitif i wefannau OCR rhad ac am ddim ar hap.

Cam 4: Adolygu'r Testun OCR

Adolygwch cyn cyfieithu, nid ar ôl hynny. Copïwch destun o sawl tudalen anodd a gwiriwch a yw'n ddarllenadwy.

Tudalennau sampl i'w harchwilio:

  • Y dudalen deitl.
  • Tudalen gorff llawn testun.
  • Tudalen gyda thabl.
  • Tudalen gyda throednodiadau.
  • Tudalen gyda thestun bach.
  • Tudalen gyda stampiau, llawysgrifen, neu nodiadau ar yr ymyl.
  • Tudalen ym mhob iaith os yw'r ddogfen yn amlieithog.

Chwiliwch am:

  • Paragraffau coll.
  • Colofnau wedi'u huno.
  • Geiriau wedi torri.
  • Nodau anghywir.
  • Diacritigau coll.
  • Labeli tablau wedi'u gwahanu oddi wrth werthoedd.
  • Penawdau wedi'u mewnosod yn nhestun y corff.
  • Rhifau tudalennau wedi'u cymysgu i mewn i frawddegau.

Os yw ansawdd OCR yn wael, trwsiwch ef cyn cyfieithu. Ni all cyfieithydd adfer yn ddibynadwy ystyr na ddaliodd OCR erioed.

Cam 5: Cyfieithu'r PDF a Broseswyd ag OCR

Unwaith y bydd gan y PDF haen destun lân, uwchlwythwch ef i Cyfieithydd PDF. Gall y cam cyfieithu nawr weithio gyda thestun yn lle delweddau tudalen.

Ar ôl cyfieithu, cymharwch:

  • Y sgan gwreiddiol
  • Haen destun OCR
  • PDF wedi'i chyfieithu

Mae'r adolygiad tair ffordd hwn yn eich helpu i nodi a ddaeth gwall o OCR neu o'r cyfieithiad. Os yw'r testun OCR yn anghywir, rhedwch OCR eto. Os yw'r testun OCR yn gywir ond bod y cyfieithiad yn anghywir, trwsiwch y cyfieithiad.

Cam 6: Adolygu Cynnwys Risg Uchel

Mae dogfennau wedi'u sganio yn aml yn cynnwys yr union gynnwys sydd angen ei adolygu'n ofalus: hen gontractau, ffurflenni'r llywodraeth, papurau academaidd, llawlyfrau, dogfennau hanesyddol, a thudalennau llyfrau.

Adolygwch yr eitemau hyn â llaw:

  • Enwau
  • Dyddiadau
  • Rhifau
  • Cyfeiriadau
  • Codau cynnyrch
  • Cyfeiriadau cyfreithiol
  • Dyfyniadau
  • Labeli tablau
  • Unedau
  • Hafaliadau
  • Capsiynau
  • Troednodiadau

Ar gyfer ffeiliau ymchwil ac academaidd, darllenwch hefyd y canllaw i gyfieithu papurau ymchwil academaidd, oherwydd mae PDFs academaidd wedi'u sganio yn ychwanegu risgiau dyfynnu a chynllun ar ben risg OCR.

Enghreifftiau o Fethiannau Ochr yn Ochr

Defnyddiwch y tabl hwn wrth adolygu allbwn OCR.

Yr hyn y mae'r sgan gwreiddiol yn debygol o'i ddangosAllbwn OCR gwaelPam mae'n bwysig
modernmodemMae'r ystyr yn newid yn llwyr.
Section 10Section IOGall cyfeiriadau cyfreithiol neu dechnegol fethu.
20262O26Mae dyddiadau ac IDau'n mynd yn annibynadwy.
patientpatlentMae termau meddygol neu dechnegol yn mynd yn anghywir.
Dau golofn ar wahânUn paragraff wedi'i unoMae'r cyfieithiad yn darllen brawddegau yn y drefn anghywir.
Rhes tabl gyda labeli a gwerthoeddUn llinell o destun cymysgNid yw'r data bellach yn mapio i'r label cywir.
Marciwr troednodyn 1Y llythyren lGall nodiadau lynu wrth y frawddeg anghywir.

Os gwelwch y gwallau hyn yn yr haen OCR, trwsiwch OCR cyn cyfieithu.

Pa Offeryn Ddylech Chi ei Ddefnyddio?

Dewiswch yn ôl anhawster y ddogfen.

DogfenLlwybr a argymhellir
Sgan busnes glânOCR yn Acrobat neu offeryn OCR dibynadwy arall, yna Cyfieithydd PDF.
Sgan hen lyfrSythwch y ddelwedd a gwella'r cyferbyniad, rhedwch OCR yn ofalus, yna cyfieithwch.
Sgan papur academaiddOCR, adolygwch hafaliadau/dyfyniadau/tablau, yna cyfieithwch gydag adolygiad cynllun.
Nodiadau llawysgrifEfallai y bydd angen trawsgrifio â llaw cyn cyfieithu.
Dogfen bersonol symlGall OCR ar-lein fod yn dderbyniol os yw'r risg preifatrwydd yn isel.
Dogfen sensitifDefnyddiwch OCR lleol neu lif gwaith rheoledig dibynadwy.

Os ydych am gael cymhariaeth ehangach rhwng offer, gweler y canllaw i'r offer cyfieithu PDF gorau.

Problemau Cyffredin gyda PDFs Wedi'u Sganio

Tudalennau Cydraniad Isel

Mae sganiau cydraniad isel yn gwneud i lythrennau ymdoddi i'w gilydd. Gall OCR gymysgu rn ac m, cl a d, neu atalnodi a llwch.

Trwsio: ailsganiwch os yn bosibl. Os nad yw hynny'n bosibl, cynyddwch y cyferbyniad a rhowch gynnig ar OCR eto.

Tudalennau Ar Oledd neu Grwm

Mae sganiau llyfrau yn aml yn crymu ger y rhwymyn. Mae OCR yn darllen y llinellau crwm yn wael ac efallai y bydd yn aildrefnu'r testun.

Trwsio: gwastadwch y dudalen, ailsganiwch, neu defnyddiwch offeryn OCR sydd â swyddogaethau sythu a dadffurfio.

Cynllun Aml-Golofn

Gall OCR uno'r colofnau chwith a de yn un llif brawddegau.

Trwsio: archwiliwch y drefn ddarllen cyn cyfieithu. Mae angen sylw arbennig ar bapurau academaidd yma.

Tablau

Mae tablau'n anodd oherwydd rhaid i OCR ganfod testun a strwythur. Gall tabl edrych yn gywir yn weledol tra bod yr haen destun yn anghywir.

Trwsio: copïwch destun OCR y tabl a chadarnhewch fod y labeli'n dal i gyd-fynd â'r gwerthoedd.

Llawysgrifen a Llofnodion

Mae OCR ar destun printiedig yn llawer mwy dibynadwy na chydnabod llawysgrifen. Mae'n bosibl y bydd nodiadau llaw ar yr ymyl, llofnodion, a ffurflenni wedi'u llenwi yn cael eu methu neu eu llygru.

Trwsio: trawsgrifiwch y llawysgrifen hanfodol â llaw cyn cyfieithu.

Ieithoedd Cymysg

Mae OCR yn gweithio orau pan fydd yn gwybod yr iaith ffynhonnell. Gall sgan sy'n cynnwys Saesneg, Ffrangeg, a Tsieinëeg fethu os yw OCR wedi'i osod i un iaith yn unig.

Trwsio: dewiswch bob iaith OCR berthnasol os yw'r offeryn yn ei gefnogi, yna gwiriwch bob adran iaith â sampl.

Rhestr Wirio Preifatrwydd a Diogelwch

Cyn uwchlwytho PDF wedi'i sganio i unrhyw le, gofynnwch:

  • A yw'r ddogfen yn cynnwys data personol?
  • A yw'n cynnwys deunydd meddygol, cyfreithiol, ariannol, academaidd, neu heb ei gyhoeddi?
  • A yw'n dod o dan gytundeb cleient neu bolisi ysgol?
  • A yw gwasanaeth OCR ar-lein yn ganiataol ar gyfer y ddogfen hon?
  • A oes angen llif gwaith lleol arnoch yn lle hynny?
  • A allwch dynnu tudalennau nad oes angen eu cyfieithu?

Mae PDFs wedi'u sganio yn aml yn sensitif oherwydd eu bod yn dod o gontractau, IDau, ffurflenni, drafftiau ymchwil, ac archifau mewnol. Triniwch benderfyniadau uwchlwytho OCR yn yr un ffordd ag y byddech yn trin y ddogfen wreiddiol.

FAQ

Sut ydw i'n cyfieithu PDF wedi'i sganio?

Rhedwch OCR yn gyntaf i greu haen destun, adolygwch allbwn OCR, yna cyfieithwch y PDF a broseswyd ag OCR gyda Cyfieithydd PDF. Peidiwch â hepgor y cam adolygu OCR.

Pam na wnaeth Google Translate gyfieithu fy PDF wedi'i sganio?

Efallai bod y PDF yn ddelwedd yn unig. Os nad oes haen destun, nid oes gan Google Translate destun i'w echdynnu. Defnyddiwch OCR yn gyntaf, yna cyfieithwch. Mae'r llif gwaith penodol ar gyfer Google wedi'i gynnwys yn y canllaw Google Translate ar gyfer PDFs.

A all ChatGPT gyfieithu PDF wedi'i sganio?

Gall ChatGPT helpu gyda delweddau unigol neu destun a echdynnwyd, ond mae PDF wedi'i sganio aml-dudalen yn dal i fod angen OCR ac adolygiad. Ar gyfer llif gwaith dogfen gyflawn, rhedwch OCR yn gyntaf, yna defnyddiwch lif gwaith cyfieithu PDF.

Beth yw'r offeryn OCR gorau ar gyfer PDFs wedi'u sganio?

Mae'n dibynnu ar y ddogfen. Mae offer tebyg i Acrobat ac ABBYY yn ddefnyddiol ar gyfer sganiau cyffredinol a chymhleth. Mae Tesseract neu OCRmyPDF yn ddefnyddiol ar gyfer llifoedd gwaith technegol lleol. Gall OCR ar-lein fod yn iawn ar gyfer ffeiliau syml risg isel, ond mae preifatrwydd ac ansawdd yn amrywio.

A all OCR gadw'r fformatio?

Gall OCR greu haen destun ac weithiau adfer y drefn ddarllen, ond nid yw hynny'r un peth â chadw'r cynllun cyfieithiedig gwreiddiol. Ar ôl OCR, defnyddiwch lif gwaith cyfieithu PDF ac adolygwch yr allbwn yn erbyn y gwreiddiol.

Beth os yw ansawdd OCR yn wael?

Gwella'r sgan cyn cyfieithu. Ailsganiwch os yn bosibl, sythwch dudalennau, cynyddwch y cyferbyniad, torrwch annibendod, dewiswch yr iaith OCR gywir, ac adolygwch y tudalennau anodd eto.