Kuinka kääntää skannattu PDF: täydellinen OCR- ja käännösopas

Skannatut PDF:t sisältävät kuvia tekstistä, eivät varsinaista tekstiä — siksi Google Translate palauttaa ne muuttumattomina. Tässä on OCR- ja tekoälyputki, joka korjaa ongelman.

BookTranslator Team

Käännösoppaat2026-02-289 min read

Nopea vastaus: skannattu PDF tarvitsee OCR:n ennen kääntämistä

Jotta voit kääntää skannatun PDF:n, suorita ensin OCR, joka muuntaa sivukuvat valittavaksi tekstiksi. Käännä sitten OCR-käsitelty PDF asiakirjakääntäjällä, kuten PDF-kääntäjä. Jos ohitat OCR:n, monet käännöstyökalut palauttavat alkuperäisen tiedoston muuttumattomana, jättävät sivuja väliin tai kääntävät vain ne osat, joissa on jo tekstikerros.

Käytä tätä työnkulkua:

Avaa PDF ja yritä valita yksi lause.
Jos et voi valita tekstiä, suorita OCR.
Tarkista OCR-teksti ennen kääntämistä.
Lataa OCR-käsitelty PDF työkaluun PDF-kääntäjä.
Tarkista käännetty lopputulos alkuperäistä skannausta vasten.

Jos PDF:ssäsi on jo valittava teksti ja ongelma liittyy asettelun säilymiseen, katso opas kuinka kääntää PDF menettämättä muotoiluja.

Miksi skannatut PDF:t epäonnistuvat käännöstyökaluissa

Skannattu PDF on usein vain joukko sivukuvia PDF-säiliön sisällä. Sivulla voi ihmisen silmään näkyä sanoja, mutta tiedosto ei välttämättä sisällä varsinaista tekstiä, जिसे ohjelmisto voisi poimia.

Tästä syntyy yksinkertainen ongelma:

Tiedostotyyppi	Mitä kääntäjä näkee	Mitä tapahtuu
Tekstipohjainen PDF	Teksti ja asettelutiedot	Kääntäminen voi alkaa heti.
Vain kuvista koostuva skannattu PDF	Kuvia sivuista	Ensin tarvitaan OCR.
PDF, jossa kuvan päällä on teksti	Skannattu kuva sekä piilotettu OCR-tekstikerros	Kääntäminen voi toimia, mutta OCR-virheet heikentävät laatua.

Hyödyllisin testi ei ole tekninen:

Avaa PDF.
Yritä korostaa yksittäisiä sanoja.
Kopioi yksi lause.
Liitä se tekstieditoriin.

Jos lause liimautuu oikein, PDF:ssä on tekstikerros. Jos mitään ei liimau, tai koko sivu käyttäytyy yhtenä kuvana, PDF tarvitsee OCR:n.

OCR ei ole valinnainen

OCR tarkoittaa optista tekstintunnistusta. Se lukee tekstin kuvasta ja luo koneellisesti luettavaa tekstiä. PDF-käännöksessä OCR luo yleensä näkymättömän tekstikerroksen skannatun sivun päälle.

Tästä tekstikerroksesta tulee käännöksen lähde. Jos OCR tekee virheitä, käännös perii ne virheet.

Yleisiä OCR-virheitä:

OCR-virhe	Käännösriski
`rn` luetaan `m`:ksi	Sanojen merkitys muuttuu.
`1` luetaan `l`:ksi	Numerot, viittaukset tai koodit vääristyvät.
`O` luetaan `0`:ksi	Tunnukset, kaavat ja nimet voivat rikkoutua.
Tarkkeet katoavat	Nimet ja termit muuttuvat epätarkoiksi.
Palstat yhdistyvät	Lauseet kääntyvät väärässä järjestyksessä.
Taulukon solut luetaan väärin rivi riviltä	Tietojen selitteet eivät enää vastaa arvoja.
Alaviitteet käsitellään leipätekstinä	Viitteet ja huomautukset siirtyvät väärään kontekstiin.

Siksi OCR-tarkistusvaihe on tärkeä. Älä käännä skannattua asiakirjaa ennen kuin olet pistokokein tarkistanut poimitun tekstin.

OCR-ensin-työnkulku

Vaihe 1: tunnista PDF:n tyyppi

Yritä valita tekstiä. Jos valinta toimii, et ehkä tarvitse OCR:ää. Jos valinta epäonnistuu, käsittele tiedostoa pelkkänä kuvana.

Tarkista sivu myös silmämääräisesti:

Vinot sivut viittaavat skannaukseen.
Harmaa paperipinta viittaa skannaukseen.
Varjot sidoksen lähellä viittaavat valokuvattuun kirjaan.
Epätasainen kontrasti viittaa valokopioon.
Se, ettei haku löydä näkyviä sanoja, viittaa siihen, ettei tekstikerrosta ole.

Vaihe 2: paranna skannausta, jos mahdollista

OCR:n laatu alkaa kuvan laadusta. Jos voit skannata uudelleen, tee se ennen kuin käytät aikaa OCR-virheiden korjaamiseen.

Käytä tätä kuvanlaadun tarkistuslistaa:

Skannaa riittävän korkealla resoluutiolla, jotta pieni teksti näkyy.
Pidä sivut tasaisina ja suorina.
Vältä varjoja sidoksen lähellä.
Rajaa pois pöydän reunat, sormet tai taustan häiriöt.
Käytä vahvaa kontrastia tekstin ja sivun välillä.
Pidä koko rivi näkyvissä.
Käytä oikeaa sivun suuntaa.
Älä pakkaa kuvaa niin voimakkaasti, että kirjaimet sumentuvat.

Vanhoissa kirjoissa ja valokopioissa suurimmat parannukset tulevat yleensä sivujen suoristamisesta, kontrastin korjaamisesta ja uudelleenskannauksesta, jos sivut ovat epätarkkoja.

Vaihe 3: suorita OCR

Valitse OCR-työkalu asiakirjan perusteella, älä brändin.

OCR-vaihtoehto	Paras käyttöön	Huomioi
Adobe Acrobat OCR	Yleiset yritysskannaukset ja PDF:n siistiminen	Tarkista nykyisen tilauksesi tuki ennen kuin luotat siihen.
ABBYY FineReader	Monimutkaiset skannaukset, taulukot, palstat ja vaikeat asettelut	Vaatii silti manuaalisen tarkistuksen.
Tesseract tai OCRmyPDF	Paikalliset, tekniset ja toistettavat OCR-työnkulut	Edellyttää komentorivityökalujen hallintaa.
Verkkopohjaiset OCR-työkalut	Satunnaiset vähäriskiset tiedostot	Yksityisyys, tiedostorajat ja laatu vaihtelevat.
Puhelimen skannaussovellukset	Uuden skannauksen nopea tallentaminen	Perspektiivivääristymä voi heikentää OCR:ää.

Yksityisten sopimusten, potilastietojen, talousasiakirjojen, julkaisemattomien käsikirjoitusten tai arvioitavana olevan akateemisen työn kohdalla suosi paikallista OCR-työnkulkua tai luotettavaa ympäristöä. Älä lataa arkaluonteisia skannauksia satunnaisille ilmaisille OCR-sivustoille.

Vaihe 4: tarkista OCR-teksti

Tarkista ennen kääntämistä, älä sen jälkeen. Kopioi tekstiä useilta hankalilta sivuilta ja varmista, että se on luettavaa.

Tarkistettavat esimerkkisivut:

Nimisivu.
Tiheä tekstisivu.
Taulukkosivu.
Sivu, jossa on alaviitteitä.
Sivu, jossa on pientä tekstiä.
Sivu, jossa on leimoja, käsialaa tai marginaalimerkintöjä.
Yksi sivu kustakin kielestä, jos asiakirja on monikielinen.

Etsi seuraavia ongelmia:

Puuttuvia kappaleita.
Yhdistyneitä palstoja.
Rikkoutuneita sanoja.
Vääriä merkkejä.
Kadonneita tarkkeita.
Taulukon selitteitä, jotka ovat irronneet arvoista.
Otsikoita, jotka on lisätty leipätekstiin.
Sivunumeroita, jotka sekoittuvat lauseisiin.

Jos OCR:n laatu on heikko, korjaa se ennen kääntämistä. Kääntäjä ei voi luotettavasti palauttaa merkitystä, jota OCR ei koskaan tallentanut.

Vaihe 5: käännä OCR-käsitelty PDF

Kun PDF:ssä on puhdas tekstikerros, lataa se työkaluun PDF-kääntäjä. Käännösvaihe voi nyt toimia tekstin eikä sivukuvien kanssa.

Vertaa käännöksen jälkeen:

Alkuperäinen skannaus
OCR-tekstikerros
Käännetty PDF

Tämä kolmen version tarkistus auttaa tunnistamaan, tuliko virhe OCR:stä vai käännöksestä. Jos OCR-teksti on väärä, suorita OCR uudelleen. Jos OCR-teksti on oikein mutta käännös on väärä, korjaa käännös.

Vaihe 6: tarkista korkean riskin sisältö

Skannatut asiakirjat sisältävät usein juuri sellaista sisältöä, joka vaatii huolellista tarkistusta: vanhoja sopimuksia, viranomaislomakkeita, akateemisia artikkeleita, käyttöohjeita, historiallisia dokumentteja ja kirjansivuja.

Tarkista nämä kohdat käsin:

Nimet
Päivämäärät
Numerot
Osoitteet
Tuotekoodit
Oikeudelliset viittaukset
Sitaatit
Taulukon selitteet
Yksiköt
Yhtälöt
Kuvatekstit
Alaviitteet

Tutkimus- ja akateemisten tiedostojen kohdalla lue myös opas akateemisten tutkimusartikkelien kääntämisestä, koska skannatut akateemiset PDF:t lisäävät viittaus- ja asetteluriskejä OCR-riskin päälle.

Vierekkäiset virhe-esimerkit

Käytä tätä taulukkoa, kun tarkistat OCR-tulosta.

Alkuperäisessä skannauksessa näkyy todennäköisesti	Huono OCR-tulos	Miksi sillä on väliä
`modern`	`modem`	Merkitys muuttuu täysin.
`Section 10`	`Section IO`	Oikeudelliset tai tekniset viittaukset voivat rikkoutua.
`2026`	`2O26`	Päivämäärät ja tunnukset muuttuvat epäluotettaviksi.
`patient`	`patlent`	Lääketieteelliset tai tekniset termit vääristyvät.
Kaksi erillistä palstaa	Yksi yhdistetty kappale	Käännös lukee lauseet väärässä järjestyksessä.
Taulukon rivi, jossa on selitteet ja arvot	Yksi rivi sekalaista tekstiä	Tiedot eivät enää kohdistu oikeaan selitteeseen.
Alaviitemerkki `1`	Kirjain `l`	Huomautukset voivat kiinnittyä väärään lauseeseen.

Jos näet tällaisia virheitä OCR-kerroksessa, korjaa OCR ennen kääntämistä.

Mikä työkalu kannattaa valita?

Valitse asiakirjan vaikeusasteen mukaan.

Asiakirja	Suositeltu polku
Siisti yritysskannaus	OCR Acrobatissa tai muussa luotettavassa OCR-työkalussa, sitten PDF-kääntäjä.
Vanhan kirjan skannaus	Oikaise sivut ja paranna kontrastia, tee OCR huolellisesti, sitten käännä.
Tieteellisen artikkelin skannaus	OCR, tarkista yhtälöt/viitteet/taulukot ja käännä sitten asettelutarkistuksen kanssa.
Käsinkirjoitetut muistiinpanot	Ennen kääntämistä saatetaan tarvita manuaalinen litterointi.
Yksinkertainen henkilökohtainen asiakirja	Verkkopohjainen OCR voi olla hyväksyttävä, jos tietosuojariski on pieni.
Arkaluonteinen asiakirja	Käytä paikallista OCR:ää tai luotettavaa hallittua työnkulkua.

Jos haluat laajemman työkalujen vertailun, katso paras PDF-käännöstyökalut 2026 -opas.

Yleisiä ongelmia skannatuissa PDF:issä

Alhaisen resoluution sivut

Alhaisen resoluution skannaukset sumentavat kirjaimet yhteen. OCR voi sekoittaa rn- ja m-yhdistelmät, cl- ja d-yhdistelmät tai välimerkit ja pölyn.

Korjaus: skannaa uudelleen, jos mahdollista. Jos ei, lisää kontrastia ja kokeile OCR:ää uudelleen.

Vinot tai kaareutuneet sivut

Kirjaskannaukset kaareutuvat usein sidoksen lähellä. OCR lukee kaarevat rivit huonosti ja voi järjestää tekstin väärin.

Korjaus: tasaa sivu, skannaa uudelleen tai käytä OCR-työkalua, jossa on sivun suoristus ja kaarevuuden korjaus.

Monipalstainen asettelu

OCR voi yhdistää vasemman ja oikean palstan yhdeksi lausevirraksi.

Korjaus: tarkista lukujärjestys ennen kääntämistä. Akateemiset artikkelit vaativat tässä erityistä huomiota.

Taulukot

Taulukot ovat hankalia, koska OCR:n on tunnistettava sekä teksti että rakenne. Taulukko voi näyttää silmämääräisesti oikealta, vaikka tekstikerros olisi väärä.

Korjaus: kopioi taulukon OCR-teksti ja varmista, että selitteet vastaavat edelleen oikeita arvoja.

Käsiala ja allekirjoitukset

Painetun tekstin OCR on paljon luotettavampaa kuin käsialan tunnistus. Käsinkirjoitetut reunahuomautukset, allekirjoitukset ja täytetyt lomakkeet voivat jäädä huomaamatta tai vääristyä.

Korjaus: litteroi olennainen käsiala käsin ennen kääntämistä.

Useita kieliä sisältävät asiakirjat

OCR toimii parhaiten, kun se tietää lähdekielen. Skannaus, jossa on englantia, ranskaa ja kiinaa, voi epäonnistua, jos OCR on asetettu vain yhdelle kielelle.

Korjaus: valitse kaikki olennaiset OCR-kielet, jos työkalu tukee sitä, ja tarkista sitten jokainen kieliosio pistokokein.

Yksityisyys- ja tietoturvatarkistuslista

Ennen kuin lataat skannatun PDF:n mihinkään, kysy:

Sisältääkö asiakirja henkilötietoja?
Sisältääkö se lääketieteellistä, oikeudellista, taloudellista, akateemista tai julkaisematonta materiaalia?
Kuuluuko se asiakassopimuksen tai koulun käytännön piiriin?
Onko verkkopohjainen OCR-palvelu sallittu tälle asiakirjalle?
Tarvitsetko sen sijaan paikallisen työnkulun?
Voitko poistaa sivut, joita ei tarvitse kääntää?

Skannatut PDF:t ovat ხშირად arkaluonteisia, koska ne tulevat sopimuksista, henkilötodistuksista, lomakkeista, tutkimusluonnoksista ja sisäisistä arkistoista. Käsittele OCR-latauspäätöksiä samalla tavalla kuin käsittelisit alkuperäistä asiakirjaa.

UKK

Miten käännän skannatun PDF:n?

Suorita ensin OCR, jotta asiakirjaan syntyy tekstikerros, tarkista OCR-tulos ja käännä sitten OCR-käsitelty PDF työkalulla PDF-kääntäjä. Älä ohita OCR-tarkistusvaihetta.

Miksi Google Translate ei kääntänyt skannattua PDF:ääni?

PDF voi olla pelkkä kuva. Jos tekstikerrosta ei ole, Google Translate ei löydä tekstiä poimittavaksi. Käytä ensin OCR:ää ja käännä vasta sitten. Google-kohtainen työnkulku käsitellään Google Translate PDF -oppaassa.

Voiko ChatGPT kääntää skannatun PDF:n?

ChatGPT voi auttaa yksittäisten kuvien tai poimitun tekstin kanssa, mutta monisivuinen skannattu PDF tarvitsee silti OCR:n ja tarkistuksen. Kokonaista asiakirjatyönkulkua varten tee ensin OCR ja käytä sitten PDF-käännöstyönkulkua.

Mikä on paras OCR-työkalu skannatuille PDF:ille?

Se riippuu asiakirjasta. Acrobatin ja ABBYY-tyyppiset työkalut sopivat yleisiin ja monimutkaisiin skannauksiin. Tesseract tai OCRmyPDF sopii paikallisiin teknisiin työnkulkuihin. Verkkopohjainen OCR voi riittää yksinkertaisille vähäriskisille tiedostoille, mutta yksityisyys ja laatu vaihtelevat.

Voiko OCR säilyttää muotoilun?

OCR voi luoda tekstikerroksen ja joskus palauttaa lukujärjestyksen, mutta se ei ole sama asia kuin alkuperäisen käännetyn asettelun säilyttäminen. OCR:n jälkeen käytä PDF-käännöstyönkulkua ja tarkista lopputulos alkuperäistä vasten.

Mitä jos OCR:n laatu on huono?

Paranna skannausta ennen kääntämistä. Skannaa uudelleen, jos mahdollista, suorista sivut, lisää kontrastia, rajaa häiriöt pois, valitse oikea OCR-kieli ja tarkista hankalat sivut uudelleen.

Aiheeseen liittyvät artikkelit

Käännösoppaat

Kuinka kääntää PDF menettämättä muotoilua (2026-opas)

2026-03-2010 min read

Vinkit & Resurssit

Parhaat PDF-käännöstyökalut vuonna 2026: rehellinen vertailu

2026-02-2812 min read

Käyttötapaukset

Kuinka kääntää akateemisia tutkimusartikkeleita: kaavat, viittaukset ja muotoilu säilyttäen

2026-02-289 min read

Käännösoppaat

Google Translaten käyttö PDF-tiedostojen kääntämiseen: täydellinen opas (2026)

2026-03-207 min read