Hvernig á að þýða skannað PDF-skjal: Heildarleiðarvísir um OCR + þýðingu

Q: Hvernig þýði ég skannað PDF?

Keyrðu fyrst OCR til að búa til textalag, farðu yfir OCR úttakið og þýddu síðan PDF skjalið sem hefur farið í gegnum OCR með PDF þýðanda. Ekki sleppa skrefinu þar sem OCR úttakið er yfirfarið.

Q: Af hverju þýddi Google Translate ekki skannaða PDF skjalið mitt?

PDF skjalið gæti verið eingöngu mynd. Ef ekkert textalag er til staðar hefur Google Translate engan texta til að draga út. Notaðu fyrst OCR og þýddu síðan. Google sértæka vinnuflæðið er útskýrt í leiðbeiningunum um PDF í Google Translate.

Q: Hvert er besta OCR verkfærið fyrir skönnuð PDF skjöl?

Það fer eftir skjalinu. Acrobat og verkfæri í ABBYY stíl eru gagnleg fyrir almennar og flóknar skannanir. Tesseract eða OCRmyPDF er gagnlegt fyrir staðbundin tæknileg vinnuflæði. OCR á netinu getur hentað fyrir einfaldar skrár með litla áhættu, en persónuvernd og gæði eru mismunandi.

Skönnuð PDF-skjöl innihalda myndir af texta, ekki raunverulegan texta — þess vegna skilar Google Translate þeim óbreyttum. Hér er OCR + AI-vinnslan sem lagar það.

BookTranslator Team

Þýðingarleiðbeiningar2026-02-2810 min read

Stutta svarið: Skannað PDF þarf OCR áður en það er þýtt

Til að þýða skannað PDF-skjal þarftu fyrst að keyra OCR svo myndir af síðunum verði að texta sem hægt er að velja. Því næst þýðirðu PDF-skjalið sem hefur farið í gegnum OCR með skjalþýðanda eins og PDF-þýðanda. Ef þú sleppir OCR munu mörg þýðingarverkfæri skila upprunalegu skránni óbreyttri, sleppa síðum eða aðeins þýða þá hluta sem þegar hafa textalag.

Notaðu þetta vinnuflæði:

Opnaðu PDF-skjalið og reyndu að velja eina setningu.
Ef þú getur ekki valið texta skaltu keyra OCR.
Farðu yfir OCR-textann áður en þú þýðir.
Hladdu PDF-skjalinu upp í PDF-þýðanda eftir OCR-vinnslu.
Berðu þýddu útgáfuna saman við upprunalegu skönnunina.

Ef PDF-skjalið þitt inniheldur þegar texta sem hægt er að velja og vandamálið snýst um að halda útlitinu óbreyttu skaltu nota leiðbeiningarnar um að þýða PDF án þess að missa snið.

Af hverju skönnuð PDF-skjöl virka ekki í þýðingarverkfærum

Skannað PDF er oft ekkert annað en safn mynda af síðum inni í PDF-gámi. Síðan kann að sýna manneskju orð, en skráin þarf samt ekki að innihalda raunverulegan texta sem hugbúnaður getur dregið út.

Það leiðir til einfalds vandamáls:

Tegund skráar	Það sem þýðingarverkfærið sér	Hvað gerist
Textamiðað PDF	Texta ásamt upplýsingum um snið	Þýðing getur hafist strax.
Skannað PDF með myndum einum	Myndir af síðum	Fyrst þarf OCR.
PDF með texta ofan á mynd	Skannmynd ásamt faldu OCR-textalagi	Þýðing getur virkað, en OCR-villur draga úr gæðum.

Gagnlegasta prófið er ekki tæknilegt:

Opnaðu PDF-skjalið.
Reyndu að auðkenna einstök orð.
Afritaðu setningu.
Límmdu hana inn í textaritil.

Ef setningin límist rétt inn er PDF-skjalið með textalag. Ef ekkert límist inn, eða öll síðan hegðar sér eins og ein mynd, þarf PDF-skjalið OCR.

OCR er ekki valfrjálst

OCR stendur fyrir sjónræna textagreiningu. Það les texta úr mynd og býr til texta sem vélar geta lesið. Við þýðingu PDF-skjala býr OCR yfirleitt til ósýnilegt textalag yfir skönnuðu síðuna.

Þetta textalag verður síðan grunnurinn fyrir þýðinguna. Ef OCR gerir mistök erfir þýðingin þau mistök.

Algeng OCR-mistök:

OCR-mistök	Áhætta í þýðingu
`rn` lesið sem `m`	Orð breyta um merkingu.
`1` lesið sem `l`	Tölur, tilvísanir eða kóðar verða rangir.
`O` lesið sem `0`	Auðkenni, formúlur og nöfn geta brotnað.
Broddstafir og önnur stafmerki detta út	Nöfn og hugtök verða ónákvæm.
Dálkar sameinaðir	Setningar þýðast í rangri röð.
Töflureitir lesnir rangt línu fyrir línu	Gagnamerkingar passa ekki lengur við gildi.
Neðanmálsgreinar meðhöndlaðar sem meginmál	Tilvitnanir og athugasemdir færast í rangt samhengi.

Þess vegna skiptir OCR-yfirferðin máli. Ekki þýða skannað skjal fyrr en þú hefur prufulesið útdregna textann.

Vinnuflæði með OCR fyrst

Skref 1: Finndu út hvaða tegund PDF þetta er

Reyndu að velja texta. Ef það virkar þarftu kannski ekki OCR. Ef það tekst ekki skaltu líta á skrána sem myndaskrá eingöngu.

Skoðaðu síðuna líka með berum augum:

Skakkar síður benda til skönnunar.
Grá pappírsáferð bendir til skönnunar.
Skuggar við bókarygginn benda til ljósmyndaðrar bókar.
Ójafn birtuskil benda til ljósrits.
Ef leit finnur ekki orð sem sjást á síðunni bendir það til þess að textalag vanti.

Skref 2: Bættu skönnunina ef það er hægt

Gæði OCR byrja á gæðum myndarinnar. Ef þú getur skannað aftur skaltu gera það áður en þú eyðir tíma í að laga OCR-villur.

Notaðu þennan gátlista fyrir myndgæði:

Skannaðu í nógu hárri upplausn fyrir smáan texta.
Haltu síðum flötum og beinum.
Forðastu skugga við bókarygginn.
Skerðu út borðbrúnir, fingur eða óreiðu í bakgrunni.
Notaðu skýr birtuskil milli texta og síðu.
Gakktu úr skugga um að öll línan sjáist.
Notaðu rétta stefnu síðunnar.
Ekki þjappa myndinni svo mikið að stafirnir verði óskýrir.

Fyrir gamlar bækur og ljósrit koma stærstu umbæturnar yfirleitt frá því að rétta skekkju, leiðrétta birtuskil og skanna aftur síður sem eru úr fókus.

Skref 3: Keyrðu OCR

Veldu OCR-verkfæri út frá skjalinu, ekki vörumerkinu.

OCR-valkostur	Hentar best fyrir	Hafðu í huga
Adobe Acrobat OCR	Almennar fyrirtækjaskannanir og hreinsun PDF-skjala	Athugaðu að núverandi áskrift gefi aðgang áður en þú treystir á það.
ABBYY FineReader	Flóknar skannanir, töflur, dálka og erfiða uppsetningu	Krefst samt handvirkrar yfirferðar.
Tesseract eða OCRmyPDF	Staðbundin, tæknileg og endurtekningarhæf OCR-vinnuflæði	Krefst kunnáttu í skipanalínuverkfærum.
OCR-verkfæri á netinu	Einstaka skrár með litla áhættu	Persónuvernd, skráarmörk og gæði eru mismunandi.
Skannaöpp í síma	Að búa hratt til nýja skönnun	Sjónarhornsskekkjur geta skaðað OCR.

Fyrir einkasamninga, sjúkraskrár, fjármálaskjöl, óbirt handrit eða fræðilegt efni í ritrýni skaltu frekar velja staðbundið OCR-vinnuflæði eða traust umhverfi. Ekki hlaða viðkvæmum skönnunum upp á handahófskenndar ókeypis OCR-síður.

Skref 4: Farðu yfir OCR-textann

Farðu yfir textann áður en þú þýðir, ekki eftir á. Afritaðu texta af nokkrum erfiðum síðum og athugaðu hvort hann sé læsilegur.

Dæmi um síður sem ætti að skoða:

Titilsíðuna.
Þétta meginmálssíðu.
Síðu með töflu.
Síðu með neðanmálsgreinum.
Síðu með smáu letri.
Síðu með stimplum, rithendi eða athugasemdum á spássíu.
Síðu á hverju tungumáli ef skjalið er fjöltyngt.

Leitaðu að:

Málsgreinum sem vantar.
Sameinuðum dálkum.
Klofnum orðum.
Röngum stöfum.
Töpuðum stafmerkjum.
Töflumerkingum sem hafa skilist frá gildum.
Hausum sem hafa blandast inn í meginmál.
Blaðsíðutölum sem hafa blandast inn í setningar.

Ef OCR-gæðin eru léleg skaltu laga það áður en þú þýðir. Þýðingarverkfæri getur ekki með áreiðanlegum hætti endurheimt merkingu sem OCR náði aldrei.

Skref 5: Þýddu PDF-skjalið eftir OCR-vinnslu

Þegar PDF-skjalið hefur hreint textalag skaltu hlaða því upp í PDF-þýðanda. Nú getur þýðingarskrefið unnið með texta í stað síðamynda.

Eftir þýðingu skaltu bera saman:

Upprunalegu skönnunina
OCR-textalagið
Þýdda PDF-skjalið

Þessi þríhliða yfirferð hjálpar þér að greina hvort villa kom frá OCR eða þýðingunni. Ef OCR-textinn er rangur skaltu keyra OCR aftur. Ef OCR-textinn er réttur en þýðingin röng skaltu laga þýðinguna.

Skref 6: Farðu yfir efni með mikla áhættu

Skönnuð skjöl innihalda oft einmitt það efni sem þarf vandlega yfirferð: gamla samninga, eyðublöð stjórnvalda, fræðigreinar, handbækur, söguleg skjöl og bókasíður.

Farðu handvirkt yfir þetta:

Nöfn
Dagsetningar
Tölur
Heimilisföng
Vörukóða
Lagatilvísanir
Tilvitnanir
Töflumerkingar
Mælieiningar
Jöfnur
Skýringartexta
Neðanmálsgreinar

Fyrir rannsóknargögn og fræðileg skjöl skaltu líka lesa leiðbeiningarnar um að þýða fræðilegar rannsóknargreinar, því skönnuð fræðileg PDF-skjöl bæta við áhættu vegna tilvitnana og útlits ofan á OCR-áhættuna.

Dæmi um mistök hlið við hlið

Notaðu þessa töflu þegar þú ferð yfir OCR-úttakið.

Upprunalega skönnun sýnir líklega	Lélegt OCR-úttak	Af hverju það skiptir máli
`modern`	`modem`	Merkingin breytist alveg.
`Section 10`	`Section IO`	Lagalegar eða tæknilegar tilvísanir geta brenglast.
`2026`	`2O26`	Dagsetningar og auðkenni verða óáreiðanleg.
`patient`	`patlent`	Læknisfræðileg eða tæknileg hugtök verða röng.
Tveir aðskildir dálkar	Ein sameinuð málsgrein	Þýðingin les setningar í rangri röð.
Taflaröð með merkjum og gildum	Ein lína af blönduðum texta	Gögn passa ekki lengur við rétta merkingu.
Neðanmálsmerki `1`	Stafurinn `l`	Athugasemdir geta tengst rangri setningu.

Ef þú sérð þessi mistök í OCR-laginu skaltu laga OCR áður en þú þýðir.

Hvaða verkfæri ættirðu að nota?

Veldu út frá því hversu erfitt skjalið er.

Skjal	Ráðlögð leið
Hrein fyrirtækjaskönnun	OCR í Acrobat eða öðru áreiðanlegu OCR-verkfæri, síðan þýðing með PDF-þýðanda.
Skönnun af gamalli bók	Réttu skekkjur og bættu birtuskil, keyrðu OCR vandlega og þýddu síðan.
Skönnun af fræðigrein	OCR, farðu yfir jöfnur/tilvitnanir/töflur og þýddu síðan með yfirferð á uppsetningu.
Handskrifaðar athugasemdir	Handvirk umritun gæti verið nauðsynleg áður en þýtt er.
Einfalt persónulegt skjal	OCR á netinu getur verið ásættanlegt ef persónuverndaráhættan er lítil.
Viðkvæmt skjal	Notaðu staðbundið OCR eða traust, stýrt vinnuflæði.

Ef þú vilt víðari samanburð á verkfærum skaltu skoða leiðarvísinn um bestu PDF-þýðingarverkfærin.

Algeng vandamál með skönnuð PDF-skjöl

Síður í lágri upplausn

Skannanir í lágri upplausn láta stafi renna saman. OCR getur ruglað saman rn og m, cl og d, eða greinarmerkjum og ryki.

Lausn: skannaðu aftur ef það er hægt. Ef ekki skaltu auka birtuskil og prófa OCR aftur.

Skakkar eða bognar síður

Bókaskannanir sveigjast oft nálægt bókaryggnum. OCR les bognu línurnar illa og getur raðað textanum upp á nýtt í rangri röð.

Lausn: flattu síðuna út, skannaðu hana aftur eða notaðu OCR-verkfæri með leiðréttingu á skekkju og sveigju.

Fjöldálka uppsetning

OCR getur sameinað vinstri og hægri dálk í eina samfellda setningarunu.

Lausn: skoðaðu lesröðina áður en þú þýðir. Fræðigreinar þurfa sérstaka athygli hér.

Töflur

Töflur eru erfiðar vegna þess að OCR þarf að greina bæði texta og uppbyggingu. Tafla getur litið rétt út sjónrænt á meðan textalagið er rangt.

Lausn: afritaðu OCR-textann úr töflunni og staðfestu að merkingar passi enn við gildin.

Rithönd og undirskriftir

OCR á prentuðum texta er mun áreiðanlegra en handskriftargreining. Handskrifaðar spássíuathugasemdir, undirskriftir og útfyllt eyðublöð geta farið fram hjá kerfinu eða afbakast.

Lausn: umritaðu mikilvæga rithönd handvirkt áður en þú þýðir.

Blanduð tungumál

OCR virkar best þegar það veit hvert upprunatungumálið er. Skönnun með ensku, frönsku og kínversku getur mistekist ef OCR er stillt á aðeins eitt tungumál.

Lausn: veldu öll viðeigandi OCR-tungumál ef verkfærið styður það og prufulesðu síðan hvern tungumálahluta.

Gátlisti um persónuvernd og öryggi

Áður en þú hleður skönnuðu PDF-skjali upp eitthvert skaltu spyrja:

Inniheldur skjalið persónuupplýsingar?
Inniheldur það læknisfræðilegt, lagalegt, fjárhagslegt, fræðilegt eða óbirt efni?
Fellur það undir viðskiptasamning eða skólareglur?
Er OCR-þjónusta á netinu leyfð fyrir þetta skjal?
Þarftu staðbundið vinnuflæði í staðinn?
Geturðu fjarlægt síður sem þarf ekki að þýða?

Skönnuð PDF-skjöl eru oft viðkvæm vegna þess að þau koma úr samningum, skilríkjum, eyðublöðum, rannsóknardrögum og innri skjalasöfnum. Taktu ákvarðanir um OCR-upphleðslu á sama hátt og þú myndir meðhöndla upprunalega skjalið.

FAQ

Hvernig þýði ég skannað PDF?

Keyrðu fyrst OCR til að búa til textalag, farðu yfir OCR-úttakið og þýddu síðan PDF-skjalið sem hefur farið í gegnum OCR með PDF-þýðanda. Ekki sleppa skrefinu þar sem OCR-úttakið er yfirfarið.

Af hverju þýddi Google Translate ekki skannaða PDF-skjalið mitt?

PDF-skjalið gæti verið eingöngu mynd. Ef ekkert textalag er til staðar hefur Google Translate engan texta til að draga út. Notaðu fyrst OCR og þýddu síðan. Google-sértæka vinnuflæðið er útskýrt í leiðbeiningunum um PDF í Google Translate.

Getur ChatGPT þýtt skannað PDF?

ChatGPT getur hjálpað með stakar myndir eða útdreginn texta, en margra síðna skannað PDF þarf enn OCR og yfirferð. Fyrir heilt skjal er vinnuferlið: OCR fyrst, síðan PDF-þýðingarvinnuflæði.

Hvert er besta OCR-verkfærið fyrir skönnuð PDF-skjöl?

Það fer eftir skjalinu. Acrobat og verkfæri í ABBYY-stíl eru gagnleg fyrir almennar og flóknar skannanir. Tesseract eða OCRmyPDF er gagnlegt fyrir staðbundin tæknileg vinnuflæði. OCR á netinu getur hentað fyrir einfaldar skrár með litla áhættu, en persónuvernd og gæði eru mismunandi.

Getur OCR varðveitt snið?

OCR getur búið til textalag og stundum endurheimt lesröð, en það er ekki það sama og að varðveita upprunalegt snið á þýddu skjali. Eftir OCR skaltu nota PDF-þýðingarvinnuflæði og bera útkomuna saman við frumritið.

Hvað ef OCR-gæðin eru slæm?

Bættu skönnunina áður en þú þýðir. Skannaðu aftur ef það er hægt, leiðréttu skekktar síður, auktu birtuskil, skerðu út truflanir, veldu rétt OCR-tungumál og farðu síðan aftur yfir erfiðar síður.

Tengdar færslur

Þýðingarleiðbeiningar

Hvernig á að þýða PDF án þess að missa snið (leiðarvísir 2026)

2026-03-2011 min read

Ábendingar og úrræði

Bestu PDF-þýðingarverkfærin árið 2026: Heiðarlegur samanburður

2026-02-2814 min read

Notkunarmál

Hvernig á að þýða fræðilegar rannsóknargreinar: varðveita jöfnur, tilvísanir og snið

2026-02-2811 min read

Þýðingarleiðbeiningar

Hvernig á að nota Google Translate fyrir PDF-skjöl: Heildarhandbók (2026)

2026-03-208 min read