BookTranslator
BookTranslator

Hvernig á að þýða skannað PDF-skjal: Heildarleiðarvísir um OCR + þýðingu

Skönnuð PDF-skjöl innihalda myndir af texta, ekki raunverulegan texta — þess vegna skilar Google Translate þeim óbreyttum. Hér er OCR + AI-vinnslan sem lagar það.

BookTranslator

BookTranslator Team

Þýðingarleiðbeiningar10 min read

Stutta svarið: Skannað PDF þarf OCR áður en það er þýtt

Til að þýða skannað PDF-skjal þarftu fyrst að keyra OCR svo myndir af síðunum verði að texta sem hægt er að velja. Því næst þýðirðu PDF-skjalið sem hefur farið í gegnum OCR með skjalþýðanda eins og PDF-þýðanda. Ef þú sleppir OCR munu mörg þýðingarverkfæri skila upprunalegu skránni óbreyttri, sleppa síðum eða aðeins þýða þá hluta sem þegar hafa textalag.

Notaðu þetta vinnuflæði:

  1. Opnaðu PDF-skjalið og reyndu að velja eina setningu.
  2. Ef þú getur ekki valið texta skaltu keyra OCR.
  3. Farðu yfir OCR-textann áður en þú þýðir.
  4. Hladdu PDF-skjalinu upp í PDF-þýðanda eftir OCR-vinnslu.
  5. Berðu þýddu útgáfuna saman við upprunalegu skönnunina.

Ef PDF-skjalið þitt inniheldur þegar texta sem hægt er að velja og vandamálið snýst um að halda útlitinu óbreyttu skaltu nota leiðbeiningarnar um að þýða PDF án þess að missa snið.

Af hverju skönnuð PDF-skjöl virka ekki í þýðingarverkfærum

Skannað PDF er oft ekkert annað en safn mynda af síðum inni í PDF-gámi. Síðan kann að sýna manneskju orð, en skráin þarf samt ekki að innihalda raunverulegan texta sem hugbúnaður getur dregið út.

Það leiðir til einfalds vandamáls:

Tegund skráarÞað sem þýðingarverkfærið sérHvað gerist
Textamiðað PDFTexta ásamt upplýsingum um sniðÞýðing getur hafist strax.
Skannað PDF með myndum einumMyndir af síðumFyrst þarf OCR.
PDF með texta ofan á myndSkannmynd ásamt faldu OCR-textalagiÞýðing getur virkað, en OCR-villur draga úr gæðum.

Gagnlegasta prófið er ekki tæknilegt:

  1. Opnaðu PDF-skjalið.
  2. Reyndu að auðkenna einstök orð.
  3. Afritaðu setningu.
  4. Límmdu hana inn í textaritil.

Ef setningin límist rétt inn er PDF-skjalið með textalag. Ef ekkert límist inn, eða öll síðan hegðar sér eins og ein mynd, þarf PDF-skjalið OCR.

OCR er ekki valfrjálst

OCR stendur fyrir sjónræna textagreiningu. Það les texta úr mynd og býr til texta sem vélar geta lesið. Við þýðingu PDF-skjala býr OCR yfirleitt til ósýnilegt textalag yfir skönnuðu síðuna.

Þetta textalag verður síðan grunnurinn fyrir þýðinguna. Ef OCR gerir mistök erfir þýðingin þau mistök.

Algeng OCR-mistök:

OCR-mistökÁhætta í þýðingu
rn lesið sem mOrð breyta um merkingu.
1 lesið sem lTölur, tilvísanir eða kóðar verða rangir.
O lesið sem 0Auðkenni, formúlur og nöfn geta brotnað.
Broddstafir og önnur stafmerki detta útNöfn og hugtök verða ónákvæm.
Dálkar sameinaðirSetningar þýðast í rangri röð.
Töflureitir lesnir rangt línu fyrir línuGagnamerkingar passa ekki lengur við gildi.
Neðanmálsgreinar meðhöndlaðar sem meginmálTilvitnanir og athugasemdir færast í rangt samhengi.

Þess vegna skiptir OCR-yfirferðin máli. Ekki þýða skannað skjal fyrr en þú hefur prufulesið útdregna textann.

Vinnuflæði með OCR fyrst

Skref 1: Finndu út hvaða tegund PDF þetta er

Reyndu að velja texta. Ef það virkar þarftu kannski ekki OCR. Ef það tekst ekki skaltu líta á skrána sem myndaskrá eingöngu.

Skoðaðu síðuna líka með berum augum:

  • Skakkar síður benda til skönnunar.
  • Grá pappírsáferð bendir til skönnunar.
  • Skuggar við bókarygginn benda til ljósmyndaðrar bókar.
  • Ójafn birtuskil benda til ljósrits.
  • Ef leit finnur ekki orð sem sjást á síðunni bendir það til þess að textalag vanti.

Skref 2: Bættu skönnunina ef það er hægt

Gæði OCR byrja á gæðum myndarinnar. Ef þú getur skannað aftur skaltu gera það áður en þú eyðir tíma í að laga OCR-villur.

Notaðu þennan gátlista fyrir myndgæði:

  • Skannaðu í nógu hárri upplausn fyrir smáan texta.
  • Haltu síðum flötum og beinum.
  • Forðastu skugga við bókarygginn.
  • Skerðu út borðbrúnir, fingur eða óreiðu í bakgrunni.
  • Notaðu skýr birtuskil milli texta og síðu.
  • Gakktu úr skugga um að öll línan sjáist.
  • Notaðu rétta stefnu síðunnar.
  • Ekki þjappa myndinni svo mikið að stafirnir verði óskýrir.

Fyrir gamlar bækur og ljósrit koma stærstu umbæturnar yfirleitt frá því að rétta skekkju, leiðrétta birtuskil og skanna aftur síður sem eru úr fókus.

Skref 3: Keyrðu OCR

Veldu OCR-verkfæri út frá skjalinu, ekki vörumerkinu.

OCR-valkosturHentar best fyrirHafðu í huga
Adobe Acrobat OCRAlmennar fyrirtækjaskannanir og hreinsun PDF-skjalaAthugaðu að núverandi áskrift gefi aðgang áður en þú treystir á það.
ABBYY FineReaderFlóknar skannanir, töflur, dálka og erfiða uppsetninguKrefst samt handvirkrar yfirferðar.
Tesseract eða OCRmyPDFStaðbundin, tæknileg og endurtekningarhæf OCR-vinnuflæðiKrefst kunnáttu í skipanalínuverkfærum.
OCR-verkfæri á netinuEinstaka skrár með litla áhættuPersónuvernd, skráarmörk og gæði eru mismunandi.
Skannaöpp í símaAð búa hratt til nýja skönnunSjónarhornsskekkjur geta skaðað OCR.

Fyrir einkasamninga, sjúkraskrár, fjármálaskjöl, óbirt handrit eða fræðilegt efni í ritrýni skaltu frekar velja staðbundið OCR-vinnuflæði eða traust umhverfi. Ekki hlaða viðkvæmum skönnunum upp á handahófskenndar ókeypis OCR-síður.

Skref 4: Farðu yfir OCR-textann

Farðu yfir textann áður en þú þýðir, ekki eftir á. Afritaðu texta af nokkrum erfiðum síðum og athugaðu hvort hann sé læsilegur.

Dæmi um síður sem ætti að skoða:

  • Titilsíðuna.
  • Þétta meginmálssíðu.
  • Síðu með töflu.
  • Síðu með neðanmálsgreinum.
  • Síðu með smáu letri.
  • Síðu með stimplum, rithendi eða athugasemdum á spássíu.
  • Síðu á hverju tungumáli ef skjalið er fjöltyngt.

Leitaðu að:

  • Málsgreinum sem vantar.
  • Sameinuðum dálkum.
  • Klofnum orðum.
  • Röngum stöfum.
  • Töpuðum stafmerkjum.
  • Töflumerkingum sem hafa skilist frá gildum.
  • Hausum sem hafa blandast inn í meginmál.
  • Blaðsíðutölum sem hafa blandast inn í setningar.

Ef OCR-gæðin eru léleg skaltu laga það áður en þú þýðir. Þýðingarverkfæri getur ekki með áreiðanlegum hætti endurheimt merkingu sem OCR náði aldrei.

Skref 5: Þýddu PDF-skjalið eftir OCR-vinnslu

Þegar PDF-skjalið hefur hreint textalag skaltu hlaða því upp í PDF-þýðanda. Nú getur þýðingarskrefið unnið með texta í stað síðamynda.

Eftir þýðingu skaltu bera saman:

  • Upprunalegu skönnunina
  • OCR-textalagið
  • Þýdda PDF-skjalið

Þessi þríhliða yfirferð hjálpar þér að greina hvort villa kom frá OCR eða þýðingunni. Ef OCR-textinn er rangur skaltu keyra OCR aftur. Ef OCR-textinn er réttur en þýðingin röng skaltu laga þýðinguna.

Skref 6: Farðu yfir efni með mikla áhættu

Skönnuð skjöl innihalda oft einmitt það efni sem þarf vandlega yfirferð: gamla samninga, eyðublöð stjórnvalda, fræðigreinar, handbækur, söguleg skjöl og bókasíður.

Farðu handvirkt yfir þetta:

  • Nöfn
  • Dagsetningar
  • Tölur
  • Heimilisföng
  • Vörukóða
  • Lagatilvísanir
  • Tilvitnanir
  • Töflumerkingar
  • Mælieiningar
  • Jöfnur
  • Skýringartexta
  • Neðanmálsgreinar

Fyrir rannsóknargögn og fræðileg skjöl skaltu líka lesa leiðbeiningarnar um að þýða fræðilegar rannsóknargreinar, því skönnuð fræðileg PDF-skjöl bæta við áhættu vegna tilvitnana og útlits ofan á OCR-áhættuna.

Dæmi um mistök hlið við hlið

Notaðu þessa töflu þegar þú ferð yfir OCR-úttakið.

Upprunalega skönnun sýnir líklegaLélegt OCR-úttakAf hverju það skiptir máli
modernmodemMerkingin breytist alveg.
Section 10Section IOLagalegar eða tæknilegar tilvísanir geta brenglast.
20262O26Dagsetningar og auðkenni verða óáreiðanleg.
patientpatlentLæknisfræðileg eða tæknileg hugtök verða röng.
Tveir aðskildir dálkarEin sameinuð málsgreinÞýðingin les setningar í rangri röð.
Taflaröð með merkjum og gildumEin lína af blönduðum textaGögn passa ekki lengur við rétta merkingu.
Neðanmálsmerki 1Stafurinn lAthugasemdir geta tengst rangri setningu.

Ef þú sérð þessi mistök í OCR-laginu skaltu laga OCR áður en þú þýðir.

Hvaða verkfæri ættirðu að nota?

Veldu út frá því hversu erfitt skjalið er.

SkjalRáðlögð leið
Hrein fyrirtækjaskönnunOCR í Acrobat eða öðru áreiðanlegu OCR-verkfæri, síðan þýðing með PDF-þýðanda.
Skönnun af gamalli bókRéttu skekkjur og bættu birtuskil, keyrðu OCR vandlega og þýddu síðan.
Skönnun af fræðigreinOCR, farðu yfir jöfnur/tilvitnanir/töflur og þýddu síðan með yfirferð á uppsetningu.
Handskrifaðar athugasemdirHandvirk umritun gæti verið nauðsynleg áður en þýtt er.
Einfalt persónulegt skjalOCR á netinu getur verið ásættanlegt ef persónuverndaráhættan er lítil.
Viðkvæmt skjalNotaðu staðbundið OCR eða traust, stýrt vinnuflæði.

Ef þú vilt víðari samanburð á verkfærum skaltu skoða leiðarvísinn um bestu PDF-þýðingarverkfærin.

Algeng vandamál með skönnuð PDF-skjöl

Síður í lágri upplausn

Skannanir í lágri upplausn láta stafi renna saman. OCR getur ruglað saman rn og m, cl og d, eða greinarmerkjum og ryki.

Lausn: skannaðu aftur ef það er hægt. Ef ekki skaltu auka birtuskil og prófa OCR aftur.

Skakkar eða bognar síður

Bókaskannanir sveigjast oft nálægt bókaryggnum. OCR les bognu línurnar illa og getur raðað textanum upp á nýtt í rangri röð.

Lausn: flattu síðuna út, skannaðu hana aftur eða notaðu OCR-verkfæri með leiðréttingu á skekkju og sveigju.

Fjöldálka uppsetning

OCR getur sameinað vinstri og hægri dálk í eina samfellda setningarunu.

Lausn: skoðaðu lesröðina áður en þú þýðir. Fræðigreinar þurfa sérstaka athygli hér.

Töflur

Töflur eru erfiðar vegna þess að OCR þarf að greina bæði texta og uppbyggingu. Tafla getur litið rétt út sjónrænt á meðan textalagið er rangt.

Lausn: afritaðu OCR-textann úr töflunni og staðfestu að merkingar passi enn við gildin.

Rithönd og undirskriftir

OCR á prentuðum texta er mun áreiðanlegra en handskriftargreining. Handskrifaðar spássíuathugasemdir, undirskriftir og útfyllt eyðublöð geta farið fram hjá kerfinu eða afbakast.

Lausn: umritaðu mikilvæga rithönd handvirkt áður en þú þýðir.

Blanduð tungumál

OCR virkar best þegar það veit hvert upprunatungumálið er. Skönnun með ensku, frönsku og kínversku getur mistekist ef OCR er stillt á aðeins eitt tungumál.

Lausn: veldu öll viðeigandi OCR-tungumál ef verkfærið styður það og prufulesðu síðan hvern tungumálahluta.

Gátlisti um persónuvernd og öryggi

Áður en þú hleður skönnuðu PDF-skjali upp eitthvert skaltu spyrja:

  • Inniheldur skjalið persónuupplýsingar?
  • Inniheldur það læknisfræðilegt, lagalegt, fjárhagslegt, fræðilegt eða óbirt efni?
  • Fellur það undir viðskiptasamning eða skólareglur?
  • Er OCR-þjónusta á netinu leyfð fyrir þetta skjal?
  • Þarftu staðbundið vinnuflæði í staðinn?
  • Geturðu fjarlægt síður sem þarf ekki að þýða?

Skönnuð PDF-skjöl eru oft viðkvæm vegna þess að þau koma úr samningum, skilríkjum, eyðublöðum, rannsóknardrögum og innri skjalasöfnum. Taktu ákvarðanir um OCR-upphleðslu á sama hátt og þú myndir meðhöndla upprunalega skjalið.

FAQ

Hvernig þýði ég skannað PDF?

Keyrðu fyrst OCR til að búa til textalag, farðu yfir OCR-úttakið og þýddu síðan PDF-skjalið sem hefur farið í gegnum OCR með PDF-þýðanda. Ekki sleppa skrefinu þar sem OCR-úttakið er yfirfarið.

Af hverju þýddi Google Translate ekki skannaða PDF-skjalið mitt?

PDF-skjalið gæti verið eingöngu mynd. Ef ekkert textalag er til staðar hefur Google Translate engan texta til að draga út. Notaðu fyrst OCR og þýddu síðan. Google-sértæka vinnuflæðið er útskýrt í leiðbeiningunum um PDF í Google Translate.

Getur ChatGPT þýtt skannað PDF?

ChatGPT getur hjálpað með stakar myndir eða útdreginn texta, en margra síðna skannað PDF þarf enn OCR og yfirferð. Fyrir heilt skjal er vinnuferlið: OCR fyrst, síðan PDF-þýðingarvinnuflæði.

Hvert er besta OCR-verkfærið fyrir skönnuð PDF-skjöl?

Það fer eftir skjalinu. Acrobat og verkfæri í ABBYY-stíl eru gagnleg fyrir almennar og flóknar skannanir. Tesseract eða OCRmyPDF er gagnlegt fyrir staðbundin tæknileg vinnuflæði. OCR á netinu getur hentað fyrir einfaldar skrár með litla áhættu, en persónuvernd og gæði eru mismunandi.

Getur OCR varðveitt snið?

OCR getur búið til textalag og stundum endurheimt lesröð, en það er ekki það sama og að varðveita upprunalegt snið á þýddu skjali. Eftir OCR skaltu nota PDF-þýðingarvinnuflæði og bera útkomuna saman við frumritið.

Hvað ef OCR-gæðin eru slæm?

Bættu skönnunina áður en þú þýðir. Skannaðu aftur ef það er hægt, leiðréttu skekktar síður, auktu birtuskil, skerðu út truflanir, veldu rétt OCR-tungumál og farðu síðan aftur yfir erfiðar síður.