Hvernig á að þýða skannað PDF-skjal: Heildarleiðarvísir um OCR + þýðingu
Skönnuð PDF-skjöl innihalda myndir af texta, ekki raunverulegan texta — þess vegna skilar Google Translate þeim óbreyttum. Hér er OCR + AI-vinnslan sem lagar það.
Stutta svarið: Skannað PDF þarf OCR áður en það er þýtt
Til að þýða skannað PDF-skjal þarftu fyrst að keyra OCR svo myndir af síðunum verði að texta sem hægt er að velja. Því næst þýðirðu PDF-skjalið sem hefur farið í gegnum OCR með skjalþýðanda eins og PDF-þýðanda. Ef þú sleppir OCR munu mörg þýðingarverkfæri skila upprunalegu skránni óbreyttri, sleppa síðum eða aðeins þýða þá hluta sem þegar hafa textalag.
Notaðu þetta vinnuflæði:
- Opnaðu PDF-skjalið og reyndu að velja eina setningu.
- Ef þú getur ekki valið texta skaltu keyra OCR.
- Farðu yfir OCR-textann áður en þú þýðir.
- Hladdu PDF-skjalinu upp í PDF-þýðanda eftir OCR-vinnslu.
- Berðu þýddu útgáfuna saman við upprunalegu skönnunina.
Ef PDF-skjalið þitt inniheldur þegar texta sem hægt er að velja og vandamálið snýst um að halda útlitinu óbreyttu skaltu nota leiðbeiningarnar um að þýða PDF án þess að missa snið.
Af hverju skönnuð PDF-skjöl virka ekki í þýðingarverkfærum
Skannað PDF er oft ekkert annað en safn mynda af síðum inni í PDF-gámi. Síðan kann að sýna manneskju orð, en skráin þarf samt ekki að innihalda raunverulegan texta sem hugbúnaður getur dregið út.
Það leiðir til einfalds vandamáls:
| Tegund skráar | Það sem þýðingarverkfærið sér | Hvað gerist |
|---|---|---|
| Textamiðað PDF | Texta ásamt upplýsingum um snið | Þýðing getur hafist strax. |
| Skannað PDF með myndum einum | Myndir af síðum | Fyrst þarf OCR. |
| PDF með texta ofan á mynd | Skannmynd ásamt faldu OCR-textalagi | Þýðing getur virkað, en OCR-villur draga úr gæðum. |
Gagnlegasta prófið er ekki tæknilegt:
- Opnaðu PDF-skjalið.
- Reyndu að auðkenna einstök orð.
- Afritaðu setningu.
- Límmdu hana inn í textaritil.
Ef setningin límist rétt inn er PDF-skjalið með textalag. Ef ekkert límist inn, eða öll síðan hegðar sér eins og ein mynd, þarf PDF-skjalið OCR.
OCR er ekki valfrjálst
OCR stendur fyrir sjónræna textagreiningu. Það les texta úr mynd og býr til texta sem vélar geta lesið. Við þýðingu PDF-skjala býr OCR yfirleitt til ósýnilegt textalag yfir skönnuðu síðuna.
Þetta textalag verður síðan grunnurinn fyrir þýðinguna. Ef OCR gerir mistök erfir þýðingin þau mistök.
Algeng OCR-mistök:
| OCR-mistök | Áhætta í þýðingu |
|---|---|
rn lesið sem m | Orð breyta um merkingu. |
1 lesið sem l | Tölur, tilvísanir eða kóðar verða rangir. |
O lesið sem 0 | Auðkenni, formúlur og nöfn geta brotnað. |
| Broddstafir og önnur stafmerki detta út | Nöfn og hugtök verða ónákvæm. |
| Dálkar sameinaðir | Setningar þýðast í rangri röð. |
| Töflureitir lesnir rangt línu fyrir línu | Gagnamerkingar passa ekki lengur við gildi. |
| Neðanmálsgreinar meðhöndlaðar sem meginmál | Tilvitnanir og athugasemdir færast í rangt samhengi. |
Þess vegna skiptir OCR-yfirferðin máli. Ekki þýða skannað skjal fyrr en þú hefur prufulesið útdregna textann.
Vinnuflæði með OCR fyrst
Skref 1: Finndu út hvaða tegund PDF þetta er
Reyndu að velja texta. Ef það virkar þarftu kannski ekki OCR. Ef það tekst ekki skaltu líta á skrána sem myndaskrá eingöngu.
Skoðaðu síðuna líka með berum augum:
- Skakkar síður benda til skönnunar.
- Grá pappírsáferð bendir til skönnunar.
- Skuggar við bókarygginn benda til ljósmyndaðrar bókar.
- Ójafn birtuskil benda til ljósrits.
- Ef leit finnur ekki orð sem sjást á síðunni bendir það til þess að textalag vanti.
Skref 2: Bættu skönnunina ef það er hægt
Gæði OCR byrja á gæðum myndarinnar. Ef þú getur skannað aftur skaltu gera það áður en þú eyðir tíma í að laga OCR-villur.
Notaðu þennan gátlista fyrir myndgæði:
- Skannaðu í nógu hárri upplausn fyrir smáan texta.
- Haltu síðum flötum og beinum.
- Forðastu skugga við bókarygginn.
- Skerðu út borðbrúnir, fingur eða óreiðu í bakgrunni.
- Notaðu skýr birtuskil milli texta og síðu.
- Gakktu úr skugga um að öll línan sjáist.
- Notaðu rétta stefnu síðunnar.
- Ekki þjappa myndinni svo mikið að stafirnir verði óskýrir.
Fyrir gamlar bækur og ljósrit koma stærstu umbæturnar yfirleitt frá því að rétta skekkju, leiðrétta birtuskil og skanna aftur síður sem eru úr fókus.
Skref 3: Keyrðu OCR
Veldu OCR-verkfæri út frá skjalinu, ekki vörumerkinu.
| OCR-valkostur | Hentar best fyrir | Hafðu í huga |
|---|---|---|
| Adobe Acrobat OCR | Almennar fyrirtækjaskannanir og hreinsun PDF-skjala | Athugaðu að núverandi áskrift gefi aðgang áður en þú treystir á það. |
| ABBYY FineReader | Flóknar skannanir, töflur, dálka og erfiða uppsetningu | Krefst samt handvirkrar yfirferðar. |
| Tesseract eða OCRmyPDF | Staðbundin, tæknileg og endurtekningarhæf OCR-vinnuflæði | Krefst kunnáttu í skipanalínuverkfærum. |
| OCR-verkfæri á netinu | Einstaka skrár með litla áhættu | Persónuvernd, skráarmörk og gæði eru mismunandi. |
| Skannaöpp í síma | Að búa hratt til nýja skönnun | Sjónarhornsskekkjur geta skaðað OCR. |
Fyrir einkasamninga, sjúkraskrár, fjármálaskjöl, óbirt handrit eða fræðilegt efni í ritrýni skaltu frekar velja staðbundið OCR-vinnuflæði eða traust umhverfi. Ekki hlaða viðkvæmum skönnunum upp á handahófskenndar ókeypis OCR-síður.
Skref 4: Farðu yfir OCR-textann
Farðu yfir textann áður en þú þýðir, ekki eftir á. Afritaðu texta af nokkrum erfiðum síðum og athugaðu hvort hann sé læsilegur.
Dæmi um síður sem ætti að skoða:
- Titilsíðuna.
- Þétta meginmálssíðu.
- Síðu með töflu.
- Síðu með neðanmálsgreinum.
- Síðu með smáu letri.
- Síðu með stimplum, rithendi eða athugasemdum á spássíu.
- Síðu á hverju tungumáli ef skjalið er fjöltyngt.
Leitaðu að:
- Málsgreinum sem vantar.
- Sameinuðum dálkum.
- Klofnum orðum.
- Röngum stöfum.
- Töpuðum stafmerkjum.
- Töflumerkingum sem hafa skilist frá gildum.
- Hausum sem hafa blandast inn í meginmál.
- Blaðsíðutölum sem hafa blandast inn í setningar.
Ef OCR-gæðin eru léleg skaltu laga það áður en þú þýðir. Þýðingarverkfæri getur ekki með áreiðanlegum hætti endurheimt merkingu sem OCR náði aldrei.
Skref 5: Þýddu PDF-skjalið eftir OCR-vinnslu
Þegar PDF-skjalið hefur hreint textalag skaltu hlaða því upp í PDF-þýðanda. Nú getur þýðingarskrefið unnið með texta í stað síðamynda.
Eftir þýðingu skaltu bera saman:
- Upprunalegu skönnunina
- OCR-textalagið
- Þýdda PDF-skjalið
Þessi þríhliða yfirferð hjálpar þér að greina hvort villa kom frá OCR eða þýðingunni. Ef OCR-textinn er rangur skaltu keyra OCR aftur. Ef OCR-textinn er réttur en þýðingin röng skaltu laga þýðinguna.
Skref 6: Farðu yfir efni með mikla áhættu
Skönnuð skjöl innihalda oft einmitt það efni sem þarf vandlega yfirferð: gamla samninga, eyðublöð stjórnvalda, fræðigreinar, handbækur, söguleg skjöl og bókasíður.
Farðu handvirkt yfir þetta:
- Nöfn
- Dagsetningar
- Tölur
- Heimilisföng
- Vörukóða
- Lagatilvísanir
- Tilvitnanir
- Töflumerkingar
- Mælieiningar
- Jöfnur
- Skýringartexta
- Neðanmálsgreinar
Fyrir rannsóknargögn og fræðileg skjöl skaltu líka lesa leiðbeiningarnar um að þýða fræðilegar rannsóknargreinar, því skönnuð fræðileg PDF-skjöl bæta við áhættu vegna tilvitnana og útlits ofan á OCR-áhættuna.
Dæmi um mistök hlið við hlið
Notaðu þessa töflu þegar þú ferð yfir OCR-úttakið.
| Upprunalega skönnun sýnir líklega | Lélegt OCR-úttak | Af hverju það skiptir máli |
|---|---|---|
modern | modem | Merkingin breytist alveg. |
Section 10 | Section IO | Lagalegar eða tæknilegar tilvísanir geta brenglast. |
2026 | 2O26 | Dagsetningar og auðkenni verða óáreiðanleg. |
patient | patlent | Læknisfræðileg eða tæknileg hugtök verða röng. |
| Tveir aðskildir dálkar | Ein sameinuð málsgrein | Þýðingin les setningar í rangri röð. |
| Taflaröð með merkjum og gildum | Ein lína af blönduðum texta | Gögn passa ekki lengur við rétta merkingu. |
Neðanmálsmerki 1 | Stafurinn l | Athugasemdir geta tengst rangri setningu. |
Ef þú sérð þessi mistök í OCR-laginu skaltu laga OCR áður en þú þýðir.
Hvaða verkfæri ættirðu að nota?
Veldu út frá því hversu erfitt skjalið er.
| Skjal | Ráðlögð leið |
|---|---|
| Hrein fyrirtækjaskönnun | OCR í Acrobat eða öðru áreiðanlegu OCR-verkfæri, síðan þýðing með PDF-þýðanda. |
| Skönnun af gamalli bók | Réttu skekkjur og bættu birtuskil, keyrðu OCR vandlega og þýddu síðan. |
| Skönnun af fræðigrein | OCR, farðu yfir jöfnur/tilvitnanir/töflur og þýddu síðan með yfirferð á uppsetningu. |
| Handskrifaðar athugasemdir | Handvirk umritun gæti verið nauðsynleg áður en þýtt er. |
| Einfalt persónulegt skjal | OCR á netinu getur verið ásættanlegt ef persónuverndaráhættan er lítil. |
| Viðkvæmt skjal | Notaðu staðbundið OCR eða traust, stýrt vinnuflæði. |
Ef þú vilt víðari samanburð á verkfærum skaltu skoða leiðarvísinn um bestu PDF-þýðingarverkfærin.
Algeng vandamál með skönnuð PDF-skjöl
Síður í lágri upplausn
Skannanir í lágri upplausn láta stafi renna saman. OCR getur ruglað saman rn og m, cl og d, eða greinarmerkjum og ryki.
Lausn: skannaðu aftur ef það er hægt. Ef ekki skaltu auka birtuskil og prófa OCR aftur.
Skakkar eða bognar síður
Bókaskannanir sveigjast oft nálægt bókaryggnum. OCR les bognu línurnar illa og getur raðað textanum upp á nýtt í rangri röð.
Lausn: flattu síðuna út, skannaðu hana aftur eða notaðu OCR-verkfæri með leiðréttingu á skekkju og sveigju.
Fjöldálka uppsetning
OCR getur sameinað vinstri og hægri dálk í eina samfellda setningarunu.
Lausn: skoðaðu lesröðina áður en þú þýðir. Fræðigreinar þurfa sérstaka athygli hér.
Töflur
Töflur eru erfiðar vegna þess að OCR þarf að greina bæði texta og uppbyggingu. Tafla getur litið rétt út sjónrænt á meðan textalagið er rangt.
Lausn: afritaðu OCR-textann úr töflunni og staðfestu að merkingar passi enn við gildin.
Rithönd og undirskriftir
OCR á prentuðum texta er mun áreiðanlegra en handskriftargreining. Handskrifaðar spássíuathugasemdir, undirskriftir og útfyllt eyðublöð geta farið fram hjá kerfinu eða afbakast.
Lausn: umritaðu mikilvæga rithönd handvirkt áður en þú þýðir.
Blanduð tungumál
OCR virkar best þegar það veit hvert upprunatungumálið er. Skönnun með ensku, frönsku og kínversku getur mistekist ef OCR er stillt á aðeins eitt tungumál.
Lausn: veldu öll viðeigandi OCR-tungumál ef verkfærið styður það og prufulesðu síðan hvern tungumálahluta.
Gátlisti um persónuvernd og öryggi
Áður en þú hleður skönnuðu PDF-skjali upp eitthvert skaltu spyrja:
- Inniheldur skjalið persónuupplýsingar?
- Inniheldur það læknisfræðilegt, lagalegt, fjárhagslegt, fræðilegt eða óbirt efni?
- Fellur það undir viðskiptasamning eða skólareglur?
- Er OCR-þjónusta á netinu leyfð fyrir þetta skjal?
- Þarftu staðbundið vinnuflæði í staðinn?
- Geturðu fjarlægt síður sem þarf ekki að þýða?
Skönnuð PDF-skjöl eru oft viðkvæm vegna þess að þau koma úr samningum, skilríkjum, eyðublöðum, rannsóknardrögum og innri skjalasöfnum. Taktu ákvarðanir um OCR-upphleðslu á sama hátt og þú myndir meðhöndla upprunalega skjalið.
FAQ
Hvernig þýði ég skannað PDF?
Keyrðu fyrst OCR til að búa til textalag, farðu yfir OCR-úttakið og þýddu síðan PDF-skjalið sem hefur farið í gegnum OCR með PDF-þýðanda. Ekki sleppa skrefinu þar sem OCR-úttakið er yfirfarið.
Af hverju þýddi Google Translate ekki skannaða PDF-skjalið mitt?
PDF-skjalið gæti verið eingöngu mynd. Ef ekkert textalag er til staðar hefur Google Translate engan texta til að draga út. Notaðu fyrst OCR og þýddu síðan. Google-sértæka vinnuflæðið er útskýrt í leiðbeiningunum um PDF í Google Translate.
Getur ChatGPT þýtt skannað PDF?
ChatGPT getur hjálpað með stakar myndir eða útdreginn texta, en margra síðna skannað PDF þarf enn OCR og yfirferð. Fyrir heilt skjal er vinnuferlið: OCR fyrst, síðan PDF-þýðingarvinnuflæði.
Hvert er besta OCR-verkfærið fyrir skönnuð PDF-skjöl?
Það fer eftir skjalinu. Acrobat og verkfæri í ABBYY-stíl eru gagnleg fyrir almennar og flóknar skannanir. Tesseract eða OCRmyPDF er gagnlegt fyrir staðbundin tæknileg vinnuflæði. OCR á netinu getur hentað fyrir einfaldar skrár með litla áhættu, en persónuvernd og gæði eru mismunandi.
Getur OCR varðveitt snið?
OCR getur búið til textalag og stundum endurheimt lesröð, en það er ekki það sama og að varðveita upprunalegt snið á þýddu skjali. Eftir OCR skaltu nota PDF-þýðingarvinnuflæði og bera útkomuna saman við frumritið.
Hvað ef OCR-gæðin eru slæm?
Bættu skönnunina áður en þú þýðir. Skannaðu aftur ef það er hægt, leiðréttu skekktar síður, auktu birtuskil, skerðu út truflanir, veldu rétt OCR-tungumál og farðu síðan aftur yfir erfiðar síður.