Sut i Gyfieithu PDF Wedi'i Sganio: Y Canllaw OCR + Chyfieithu Cyflawn
Mae PDFs wedi'u sganio yn cynnwys lluniau o destun, nid testun go iawn — dyna pam mae Google Translate yn eu dychwelyd heb eu newid. Dyma'r biblinell OCR + AI sy'n datrys hynny.
Ateb Cyflym: Mae angen OCR ar PDF Wedi'i Sganio Cyn Cyfieithu
I gyfieithu PDF wedi'i sganio, rhedwch OCR yn gyntaf i droi delweddau'r tudalennau yn destun y gellir ei ddewis. Yna cyfieithwch y PDF sydd wedi'i brosesu ag OCR gyda chyfieithydd dogfennau fel Cyfieithydd PDF. Os byddwch yn hepgor OCR, bydd llawer o offer cyfieithu yn dychwelyd y ffeil wreiddiol heb ei newid, yn colli tudalennau, neu'n cyfieithu dim ond y rhannau sydd eisoes yn cynnwys haen destun.
Defnyddiwch y llif gwaith hwn:
- Agorwch y PDF a cheisiwch ddewis brawddeg.
- Os na allwch ddewis testun, rhedwch OCR.
- Adolygwch y testun OCR cyn cyfieithu.
- Uwchlwythwch y PDF a broseswyd ag OCR i Cyfieithydd PDF.
- Adolygwch yr allbwn cyfieithiedig o'i gymharu â'r sgan gwreiddiol.
Os oes gan eich PDF destun y gellir ei ddewis eisoes a bod y broblem yn ymwneud â chadw'r cynllun, defnyddiwch y canllaw i gyfieithu PDF heb golli'r fformatio.
Pam Mae PDFs Wedi'u Sganio yn Methu mewn Offer Cyfieithu
Mae PDF wedi'i sganio yn aml yn ddim ond set o ddelweddau tudalen y tu mewn i gynhwysydd PDF. Gall y dudalen ddangos geiriau i berson, ond efallai na fydd y ffeil yn cynnwys testun go iawn i feddalwedd ei echdynnu.
Mae hynny'n creu methiant syml:
| Math o ffeil | Yr hyn y mae'r cyfieithydd yn ei weld | Beth sy'n digwydd |
|---|---|---|
| PDF sy'n seiliedig ar destun | Testun ynghyd â data cynllun | Gall y cyfieithu ddechrau ar unwaith. |
| PDF wedi'i sganio, delwedd yn unig | Lluniau o dudalennau | Mae angen OCR yn gyntaf. |
| PDF testun-dros-ddelwedd | Delwedd sgan ynghyd â haen destun OCR gudd | Gall cyfieithu weithio, ond mae gwallau OCR yn effeithio ar ansawdd. |
Nid yw'r prawf mwyaf defnyddiol yn un technegol:
- Agorwch y PDF.
- Ceisiwch amlygu geiriau unigol.
- Copïwch frawddeg.
- Gludwch hi i olygydd testun.
Os yw'r frawddeg yn gludo'n gywir, mae gan y PDF haen destun. Os nad oes dim yn gludo, neu os yw'r dudalen gyfan yn ymddwyn fel un ddelwedd, mae angen OCR ar y PDF.
Nid yw OCR yn Ddewisol
Mae OCR yn golygu adnabod nodau optegol. Mae'n darllen testun o ddelwedd ac yn creu testun y gall peiriant ei ddarllen. Ar gyfer cyfieithu PDF, mae OCR fel arfer yn creu haen destun anweledig dros y dudalen wedi'i sganio.
Mae'r haen destun honno'n dod yn ffynhonnell y cyfieithiad. Os yw OCR yn gwneud camgymeriadau, mae'r cyfieithiad yn etifeddu'r camgymeriadau hynny.
Camgymeriadau OCR cyffredin:
| Camgymeriad OCR | Risg cyfieithu |
|---|---|
rn yn cael ei ddarllen fel m | Mae geiriau'n newid ystyr. |
1 yn cael ei ddarllen fel l | Mae rhifau, cyfeiriadau, neu godau'n mynd yn anghywir. |
O yn cael ei ddarllen fel 0 | Gall IDau, fformiwlâu, ac enwau fethu. |
| Acenion yn cael eu colli | Mae enwau a thermau'n dod yn anghywir. |
| Colofnau'n cael eu huno | Mae brawddegau'n cyfieithu yn y drefn anghywir. |
| Celloedd tabl yn cael eu darllen fesul rhes yn anghywir | Nid yw labeli data bellach yn cyfateb i werthoedd. |
| Troednodiadau'n cael eu trin fel testun corff | Mae dyfyniadau a nodiadau'n symud i'r cyd-destun anghywir. |
Dyna pam mae'r cam adolygu OCR yn bwysig. Peidiwch â chyfieithu dogfen wedi'i sganio nes eich bod wedi gwneud gwiriad sampl o'r testun a echdynnwyd.
Y Llif Gwaith OCR-Gyntaf
Cam 1: Adnabod Math y PDF
Ceisiwch ddewis testun. Os yw'r dewis yn gweithio, efallai na fydd angen OCR arnoch. Os bydd y dewis yn methu, trinwch y ffeil fel un sy'n cynnwys delweddau yn unig.
Archwiliwch y dudalen yn weledol hefyd:
- Mae tudalennau ar oledd yn awgrymu sgan.
- Mae gwead papur llwyd yn awgrymu sgan.
- Mae cysgodion ger y rhwymyn yn awgrymu llyfr wedi'i ffotograffu.
- Mae cyferbyniad anwastad yn awgrymu llungopi.
- Os nad yw chwilio'n dod o hyd i eiriau gweladwy, mae hynny'n awgrymu nad oes haen destun.
Cam 2: Gwella'r Sgan Os Yn Bosibl
Mae ansawdd OCR yn dechrau gydag ansawdd y ddelwedd. Os gallwch ailsganio, gwnewch hynny cyn treulio amser yn trwsio gwallau OCR.
Defnyddiwch y rhestr wirio ansawdd delwedd hon:
- Sganiwch ar gydraniad digon uchel ar gyfer testun bach.
- Cadwch dudalennau'n wastad ac yn syth.
- Osgowch gysgodion ger y rhwymyn.
- Torrwch allan ymylon bwrdd, bysedd, neu annibendod yn y cefndir.
- Defnyddiwch gyferbyniad cryf rhwng y testun a'r dudalen.
- Cadwch y llinell gyfan yn weladwy.
- Defnyddiwch gyfeiriadedd cywir y dudalen.
- Peidiwch â chywasgu'r ddelwedd mor drwm nes bod llythrennau'n mynd yn aneglur.
Ar gyfer hen lyfrau a llungopïau, daw'r gwelliannau mwyaf fel arfer o sythu'r ddelwedd, cywiro'r cyferbyniad, ac ailsganio tudalennau sydd allan o ffocws.
Cam 3: Rhedeg OCR
Dewiswch offeryn OCR yn ôl y ddogfen, nid yn ôl y brand.
| Opsiwn OCR | Gorau ar gyfer | Byddwch yn wyliadwrus o |
|---|---|---|
| Adobe Acrobat OCR | Sganiau busnes cyffredinol a glanhau PDFs | Gwiriwch fynediad y cynllun cyfredol cyn dibynnu arno. |
| ABBYY FineReader | Sganiau cymhleth, tablau, colofnau, a chynlluniau anodd | Mae adolygiad llaw yn dal i fod yn angenrheidiol. |
| Tesseract neu OCRmyPDF | Llifoedd gwaith OCR lleol, technegol, ac ailadroddadwy | Mae angen bod yn gyfforddus gydag offer llinell orchymyn. |
| Offer OCR ar-lein | Ffeiliau achlysurol risg isel | Mae preifatrwydd, terfynau ffeil, ac ansawdd yn amrywio. |
| Apiau sganio ffôn | Dal sgan newydd yn gyflym | Gall afluniad persbectif niweidio OCR. |
Ar gyfer contractau preifat, cofnodion meddygol, dogfennau ariannol, llawysgrifau heb eu cyhoeddi, neu waith academaidd sydd dan adolygiad, mae'n well defnyddio llif gwaith OCR lleol neu amgylchedd dibynadwy. Peidiwch ag uwchlwytho sganiau sensitif i wefannau OCR rhad ac am ddim ar hap.
Cam 4: Adolygu'r Testun OCR
Adolygwch cyn cyfieithu, nid ar ôl hynny. Copïwch destun o sawl tudalen anodd a gwiriwch a yw'n ddarllenadwy.
Tudalennau sampl i'w harchwilio:
- Y dudalen deitl.
- Tudalen gorff llawn testun.
- Tudalen gyda thabl.
- Tudalen gyda throednodiadau.
- Tudalen gyda thestun bach.
- Tudalen gyda stampiau, llawysgrifen, neu nodiadau ar yr ymyl.
- Tudalen ym mhob iaith os yw'r ddogfen yn amlieithog.
Chwiliwch am:
- Paragraffau coll.
- Colofnau wedi'u huno.
- Geiriau wedi torri.
- Nodau anghywir.
- Diacritigau coll.
- Labeli tablau wedi'u gwahanu oddi wrth werthoedd.
- Penawdau wedi'u mewnosod yn nhestun y corff.
- Rhifau tudalennau wedi'u cymysgu i mewn i frawddegau.
Os yw ansawdd OCR yn wael, trwsiwch ef cyn cyfieithu. Ni all cyfieithydd adfer yn ddibynadwy ystyr na ddaliodd OCR erioed.
Cam 5: Cyfieithu'r PDF a Broseswyd ag OCR
Unwaith y bydd gan y PDF haen destun lân, uwchlwythwch ef i Cyfieithydd PDF. Gall y cam cyfieithu nawr weithio gyda thestun yn lle delweddau tudalen.
Ar ôl cyfieithu, cymharwch:
- Y sgan gwreiddiol
- Haen destun OCR
- PDF wedi'i chyfieithu
Mae'r adolygiad tair ffordd hwn yn eich helpu i nodi a ddaeth gwall o OCR neu o'r cyfieithiad. Os yw'r testun OCR yn anghywir, rhedwch OCR eto. Os yw'r testun OCR yn gywir ond bod y cyfieithiad yn anghywir, trwsiwch y cyfieithiad.
Cam 6: Adolygu Cynnwys Risg Uchel
Mae dogfennau wedi'u sganio yn aml yn cynnwys yr union gynnwys sydd angen ei adolygu'n ofalus: hen gontractau, ffurflenni'r llywodraeth, papurau academaidd, llawlyfrau, dogfennau hanesyddol, a thudalennau llyfrau.
Adolygwch yr eitemau hyn â llaw:
- Enwau
- Dyddiadau
- Rhifau
- Cyfeiriadau
- Codau cynnyrch
- Cyfeiriadau cyfreithiol
- Dyfyniadau
- Labeli tablau
- Unedau
- Hafaliadau
- Capsiynau
- Troednodiadau
Ar gyfer ffeiliau ymchwil ac academaidd, darllenwch hefyd y canllaw i gyfieithu papurau ymchwil academaidd, oherwydd mae PDFs academaidd wedi'u sganio yn ychwanegu risgiau dyfynnu a chynllun ar ben risg OCR.
Enghreifftiau o Fethiannau Ochr yn Ochr
Defnyddiwch y tabl hwn wrth adolygu allbwn OCR.
| Yr hyn y mae'r sgan gwreiddiol yn debygol o'i ddangos | Allbwn OCR gwael | Pam mae'n bwysig |
|---|---|---|
modern | modem | Mae'r ystyr yn newid yn llwyr. |
Section 10 | Section IO | Gall cyfeiriadau cyfreithiol neu dechnegol fethu. |
2026 | 2O26 | Mae dyddiadau ac IDau'n mynd yn annibynadwy. |
patient | patlent | Mae termau meddygol neu dechnegol yn mynd yn anghywir. |
| Dau golofn ar wahân | Un paragraff wedi'i uno | Mae'r cyfieithiad yn darllen brawddegau yn y drefn anghywir. |
| Rhes tabl gyda labeli a gwerthoedd | Un llinell o destun cymysg | Nid yw'r data bellach yn mapio i'r label cywir. |
Marciwr troednodyn 1 | Y llythyren l | Gall nodiadau lynu wrth y frawddeg anghywir. |
Os gwelwch y gwallau hyn yn yr haen OCR, trwsiwch OCR cyn cyfieithu.
Pa Offeryn Ddylech Chi ei Ddefnyddio?
Dewiswch yn ôl anhawster y ddogfen.
| Dogfen | Llwybr a argymhellir |
|---|---|
| Sgan busnes glân | OCR yn Acrobat neu offeryn OCR dibynadwy arall, yna Cyfieithydd PDF. |
| Sgan hen lyfr | Sythwch y ddelwedd a gwella'r cyferbyniad, rhedwch OCR yn ofalus, yna cyfieithwch. |
| Sgan papur academaidd | OCR, adolygwch hafaliadau/dyfyniadau/tablau, yna cyfieithwch gydag adolygiad cynllun. |
| Nodiadau llawysgrif | Efallai y bydd angen trawsgrifio â llaw cyn cyfieithu. |
| Dogfen bersonol syml | Gall OCR ar-lein fod yn dderbyniol os yw'r risg preifatrwydd yn isel. |
| Dogfen sensitif | Defnyddiwch OCR lleol neu lif gwaith rheoledig dibynadwy. |
Os ydych am gael cymhariaeth ehangach rhwng offer, gweler y canllaw i'r offer cyfieithu PDF gorau.
Problemau Cyffredin gyda PDFs Wedi'u Sganio
Tudalennau Cydraniad Isel
Mae sganiau cydraniad isel yn gwneud i lythrennau ymdoddi i'w gilydd. Gall OCR gymysgu rn ac m, cl a d, neu atalnodi a llwch.
Trwsio: ailsganiwch os yn bosibl. Os nad yw hynny'n bosibl, cynyddwch y cyferbyniad a rhowch gynnig ar OCR eto.
Tudalennau Ar Oledd neu Grwm
Mae sganiau llyfrau yn aml yn crymu ger y rhwymyn. Mae OCR yn darllen y llinellau crwm yn wael ac efallai y bydd yn aildrefnu'r testun.
Trwsio: gwastadwch y dudalen, ailsganiwch, neu defnyddiwch offeryn OCR sydd â swyddogaethau sythu a dadffurfio.
Cynllun Aml-Golofn
Gall OCR uno'r colofnau chwith a de yn un llif brawddegau.
Trwsio: archwiliwch y drefn ddarllen cyn cyfieithu. Mae angen sylw arbennig ar bapurau academaidd yma.
Tablau
Mae tablau'n anodd oherwydd rhaid i OCR ganfod testun a strwythur. Gall tabl edrych yn gywir yn weledol tra bod yr haen destun yn anghywir.
Trwsio: copïwch destun OCR y tabl a chadarnhewch fod y labeli'n dal i gyd-fynd â'r gwerthoedd.
Llawysgrifen a Llofnodion
Mae OCR ar destun printiedig yn llawer mwy dibynadwy na chydnabod llawysgrifen. Mae'n bosibl y bydd nodiadau llaw ar yr ymyl, llofnodion, a ffurflenni wedi'u llenwi yn cael eu methu neu eu llygru.
Trwsio: trawsgrifiwch y llawysgrifen hanfodol â llaw cyn cyfieithu.
Ieithoedd Cymysg
Mae OCR yn gweithio orau pan fydd yn gwybod yr iaith ffynhonnell. Gall sgan sy'n cynnwys Saesneg, Ffrangeg, a Tsieinëeg fethu os yw OCR wedi'i osod i un iaith yn unig.
Trwsio: dewiswch bob iaith OCR berthnasol os yw'r offeryn yn ei gefnogi, yna gwiriwch bob adran iaith â sampl.
Rhestr Wirio Preifatrwydd a Diogelwch
Cyn uwchlwytho PDF wedi'i sganio i unrhyw le, gofynnwch:
- A yw'r ddogfen yn cynnwys data personol?
- A yw'n cynnwys deunydd meddygol, cyfreithiol, ariannol, academaidd, neu heb ei gyhoeddi?
- A yw'n dod o dan gytundeb cleient neu bolisi ysgol?
- A yw gwasanaeth OCR ar-lein yn ganiataol ar gyfer y ddogfen hon?
- A oes angen llif gwaith lleol arnoch yn lle hynny?
- A allwch dynnu tudalennau nad oes angen eu cyfieithu?
Mae PDFs wedi'u sganio yn aml yn sensitif oherwydd eu bod yn dod o gontractau, IDau, ffurflenni, drafftiau ymchwil, ac archifau mewnol. Triniwch benderfyniadau uwchlwytho OCR yn yr un ffordd ag y byddech yn trin y ddogfen wreiddiol.
FAQ
Sut ydw i'n cyfieithu PDF wedi'i sganio?
Rhedwch OCR yn gyntaf i greu haen destun, adolygwch allbwn OCR, yna cyfieithwch y PDF a broseswyd ag OCR gyda Cyfieithydd PDF. Peidiwch â hepgor y cam adolygu OCR.
Pam na wnaeth Google Translate gyfieithu fy PDF wedi'i sganio?
Efallai bod y PDF yn ddelwedd yn unig. Os nad oes haen destun, nid oes gan Google Translate destun i'w echdynnu. Defnyddiwch OCR yn gyntaf, yna cyfieithwch. Mae'r llif gwaith penodol ar gyfer Google wedi'i gynnwys yn y canllaw Google Translate ar gyfer PDFs.
A all ChatGPT gyfieithu PDF wedi'i sganio?
Gall ChatGPT helpu gyda delweddau unigol neu destun a echdynnwyd, ond mae PDF wedi'i sganio aml-dudalen yn dal i fod angen OCR ac adolygiad. Ar gyfer llif gwaith dogfen gyflawn, rhedwch OCR yn gyntaf, yna defnyddiwch lif gwaith cyfieithu PDF.
Beth yw'r offeryn OCR gorau ar gyfer PDFs wedi'u sganio?
Mae'n dibynnu ar y ddogfen. Mae offer tebyg i Acrobat ac ABBYY yn ddefnyddiol ar gyfer sganiau cyffredinol a chymhleth. Mae Tesseract neu OCRmyPDF yn ddefnyddiol ar gyfer llifoedd gwaith technegol lleol. Gall OCR ar-lein fod yn iawn ar gyfer ffeiliau syml risg isel, ond mae preifatrwydd ac ansawdd yn amrywio.
A all OCR gadw'r fformatio?
Gall OCR greu haen destun ac weithiau adfer y drefn ddarllen, ond nid yw hynny'r un peth â chadw'r cynllun cyfieithiedig gwreiddiol. Ar ôl OCR, defnyddiwch lif gwaith cyfieithu PDF ac adolygwch yr allbwn yn erbyn y gwreiddiol.
Beth os yw ansawdd OCR yn wael?
Gwella'r sgan cyn cyfieithu. Ailsganiwch os yn bosibl, sythwch dudalennau, cynyddwch y cyferbyniad, torrwch annibendod, dewiswch yr iaith OCR gywir, ac adolygwch y tudalennau anodd eto.