BookTranslator
BookTranslator

Kuinka kääntää skannattu PDF: täydellinen OCR- ja käännösopas

Skannatut PDF:t sisältävät kuvia tekstistä, eivät varsinaista tekstiä — siksi Google Translate palauttaa ne muuttumattomina. Tässä on OCR- ja tekoälyputki, joka korjaa ongelman.

BookTranslator

BookTranslator Team

Käännösoppaat9 min read

Nopea vastaus: skannattu PDF tarvitsee OCR:n ennen kääntämistä

Jotta voit kääntää skannatun PDF:n, suorita ensin OCR, joka muuntaa sivukuvat valittavaksi tekstiksi. Käännä sitten OCR-käsitelty PDF asiakirjakääntäjällä, kuten PDF-kääntäjä. Jos ohitat OCR:n, monet käännöstyökalut palauttavat alkuperäisen tiedoston muuttumattomana, jättävät sivuja väliin tai kääntävät vain ne osat, joissa on jo tekstikerros.

Käytä tätä työnkulkua:

  1. Avaa PDF ja yritä valita yksi lause.
  2. Jos et voi valita tekstiä, suorita OCR.
  3. Tarkista OCR-teksti ennen kääntämistä.
  4. Lataa OCR-käsitelty PDF työkaluun PDF-kääntäjä.
  5. Tarkista käännetty lopputulos alkuperäistä skannausta vasten.

Jos PDF:ssäsi on jo valittava teksti ja ongelma liittyy asettelun säilymiseen, katso opas kuinka kääntää PDF menettämättä muotoiluja.

Miksi skannatut PDF:t epäonnistuvat käännöstyökaluissa

Skannattu PDF on usein vain joukko sivukuvia PDF-säiliön sisällä. Sivulla voi ihmisen silmään näkyä sanoja, mutta tiedosto ei välttämättä sisällä varsinaista tekstiä, जिसे ohjelmisto voisi poimia.

Tästä syntyy yksinkertainen ongelma:

TiedostotyyppiMitä kääntäjä näkeeMitä tapahtuu
Tekstipohjainen PDFTeksti ja asettelutiedotKääntäminen voi alkaa heti.
Vain kuvista koostuva skannattu PDFKuvia sivuistaEnsin tarvitaan OCR.
PDF, jossa kuvan päällä on tekstiSkannattu kuva sekä piilotettu OCR-tekstikerrosKääntäminen voi toimia, mutta OCR-virheet heikentävät laatua.

Hyödyllisin testi ei ole tekninen:

  1. Avaa PDF.
  2. Yritä korostaa yksittäisiä sanoja.
  3. Kopioi yksi lause.
  4. Liitä se tekstieditoriin.

Jos lause liimautuu oikein, PDF:ssä on tekstikerros. Jos mitään ei liimau, tai koko sivu käyttäytyy yhtenä kuvana, PDF tarvitsee OCR:n.

OCR ei ole valinnainen

OCR tarkoittaa optista tekstintunnistusta. Se lukee tekstin kuvasta ja luo koneellisesti luettavaa tekstiä. PDF-käännöksessä OCR luo yleensä näkymättömän tekstikerroksen skannatun sivun päälle.

Tästä tekstikerroksesta tulee käännöksen lähde. Jos OCR tekee virheitä, käännös perii ne virheet.

Yleisiä OCR-virheitä:

OCR-virheKäännösriski
rn luetaan m:ksiSanojen merkitys muuttuu.
1 luetaan l:ksiNumerot, viittaukset tai koodit vääristyvät.
O luetaan 0:ksiTunnukset, kaavat ja nimet voivat rikkoutua.
Tarkkeet katoavatNimet ja termit muuttuvat epätarkoiksi.
Palstat yhdistyvätLauseet kääntyvät väärässä järjestyksessä.
Taulukon solut luetaan väärin rivi riviltäTietojen selitteet eivät enää vastaa arvoja.
Alaviitteet käsitellään leipätekstinäViitteet ja huomautukset siirtyvät väärään kontekstiin.

Siksi OCR-tarkistusvaihe on tärkeä. Älä käännä skannattua asiakirjaa ennen kuin olet pistokokein tarkistanut poimitun tekstin.

OCR-ensin-työnkulku

Vaihe 1: tunnista PDF:n tyyppi

Yritä valita tekstiä. Jos valinta toimii, et ehkä tarvitse OCR:ää. Jos valinta epäonnistuu, käsittele tiedostoa pelkkänä kuvana.

Tarkista sivu myös silmämääräisesti:

  • Vinot sivut viittaavat skannaukseen.
  • Harmaa paperipinta viittaa skannaukseen.
  • Varjot sidoksen lähellä viittaavat valokuvattuun kirjaan.
  • Epätasainen kontrasti viittaa valokopioon.
  • Se, ettei haku löydä näkyviä sanoja, viittaa siihen, ettei tekstikerrosta ole.

Vaihe 2: paranna skannausta, jos mahdollista

OCR:n laatu alkaa kuvan laadusta. Jos voit skannata uudelleen, tee se ennen kuin käytät aikaa OCR-virheiden korjaamiseen.

Käytä tätä kuvanlaadun tarkistuslistaa:

  • Skannaa riittävän korkealla resoluutiolla, jotta pieni teksti näkyy.
  • Pidä sivut tasaisina ja suorina.
  • Vältä varjoja sidoksen lähellä.
  • Rajaa pois pöydän reunat, sormet tai taustan häiriöt.
  • Käytä vahvaa kontrastia tekstin ja sivun välillä.
  • Pidä koko rivi näkyvissä.
  • Käytä oikeaa sivun suuntaa.
  • Älä pakkaa kuvaa niin voimakkaasti, että kirjaimet sumentuvat.

Vanhoissa kirjoissa ja valokopioissa suurimmat parannukset tulevat yleensä sivujen suoristamisesta, kontrastin korjaamisesta ja uudelleenskannauksesta, jos sivut ovat epätarkkoja.

Vaihe 3: suorita OCR

Valitse OCR-työkalu asiakirjan perusteella, älä brändin.

OCR-vaihtoehtoParas käyttöönHuomioi
Adobe Acrobat OCRYleiset yritysskannaukset ja PDF:n siistiminenTarkista nykyisen tilauksesi tuki ennen kuin luotat siihen.
ABBYY FineReaderMonimutkaiset skannaukset, taulukot, palstat ja vaikeat asettelutVaatii silti manuaalisen tarkistuksen.
Tesseract tai OCRmyPDFPaikalliset, tekniset ja toistettavat OCR-työnkulutEdellyttää komentorivityökalujen hallintaa.
Verkkopohjaiset OCR-työkalutSatunnaiset vähäriskiset tiedostotYksityisyys, tiedostorajat ja laatu vaihtelevat.
Puhelimen skannaus­sovelluksetUuden skannauksen nopea tallentaminenPerspektiivivääristymä voi heikentää OCR:ää.

Yksityisten sopimusten, potilastietojen, talousasiakirjojen, julkaisemattomien käsikirjoitusten tai arvioitavana olevan akateemisen työn kohdalla suosi paikallista OCR-työnkulkua tai luotettavaa ympäristöä. Älä lataa arkaluonteisia skannauksia satunnaisille ilmaisille OCR-sivustoille.

Vaihe 4: tarkista OCR-teksti

Tarkista ennen kääntämistä, älä sen jälkeen. Kopioi tekstiä useilta hankalilta sivuilta ja varmista, että se on luettavaa.

Tarkistettavat esimerkkisivut:

  • Nimisivu.
  • Tiheä tekstisivu.
  • Taulukkosivu.
  • Sivu, jossa on alaviitteitä.
  • Sivu, jossa on pientä tekstiä.
  • Sivu, jossa on leimoja, käsialaa tai marginaalimerkintöjä.
  • Yksi sivu kustakin kielestä, jos asiakirja on monikielinen.

Etsi seuraavia ongelmia:

  • Puuttuvia kappaleita.
  • Yhdistyneitä palstoja.
  • Rikkoutuneita sanoja.
  • Vääriä merkkejä.
  • Kadonneita tarkkeita.
  • Taulukon selitteitä, jotka ovat irronneet arvoista.
  • Otsikoita, jotka on lisätty leipätekstiin.
  • Sivunumeroita, jotka sekoittuvat lauseisiin.

Jos OCR:n laatu on heikko, korjaa se ennen kääntämistä. Kääntäjä ei voi luotettavasti palauttaa merkitystä, jota OCR ei koskaan tallentanut.

Vaihe 5: käännä OCR-käsitelty PDF

Kun PDF:ssä on puhdas tekstikerros, lataa se työkaluun PDF-kääntäjä. Käännösvaihe voi nyt toimia tekstin eikä sivukuvien kanssa.

Vertaa käännöksen jälkeen:

  • Alkuperäinen skannaus
  • OCR-tekstikerros
  • Käännetty PDF

Tämä kolmen version tarkistus auttaa tunnistamaan, tuliko virhe OCR:stä vai käännöksestä. Jos OCR-teksti on väärä, suorita OCR uudelleen. Jos OCR-teksti on oikein mutta käännös on väärä, korjaa käännös.

Vaihe 6: tarkista korkean riskin sisältö

Skannatut asiakirjat sisältävät usein juuri sellaista sisältöä, joka vaatii huolellista tarkistusta: vanhoja sopimuksia, viranomaislomakkeita, akateemisia artikkeleita, käyttöohjeita, historiallisia dokumentteja ja kirjansivuja.

Tarkista nämä kohdat käsin:

  • Nimet
  • Päivämäärät
  • Numerot
  • Osoitteet
  • Tuotekoodit
  • Oikeudelliset viittaukset
  • Sitaatit
  • Taulukon selitteet
  • Yksiköt
  • Yhtälöt
  • Kuvatekstit
  • Alaviitteet

Tutkimus- ja akateemisten tiedostojen kohdalla lue myös opas akateemisten tutkimusartikkelien kääntämisestä, koska skannatut akateemiset PDF:t lisäävät viittaus- ja asetteluriskejä OCR-riskin päälle.

Vierekkäiset virhe-esimerkit

Käytä tätä taulukkoa, kun tarkistat OCR-tulosta.

Alkuperäisessä skannauksessa näkyy todennäköisestiHuono OCR-tulosMiksi sillä on väliä
modernmodemMerkitys muuttuu täysin.
Section 10Section IOOikeudelliset tai tekniset viittaukset voivat rikkoutua.
20262O26Päivämäärät ja tunnukset muuttuvat epäluotettaviksi.
patientpatlentLääketieteelliset tai tekniset termit vääristyvät.
Kaksi erillistä palstaaYksi yhdistetty kappaleKäännös lukee lauseet väärässä järjestyksessä.
Taulukon rivi, jossa on selitteet ja arvotYksi rivi sekalaista tekstiäTiedot eivät enää kohdistu oikeaan selitteeseen.
Alaviitemerkki 1Kirjain lHuomautukset voivat kiinnittyä väärään lauseeseen.

Jos näet tällaisia virheitä OCR-kerroksessa, korjaa OCR ennen kääntämistä.

Mikä työkalu kannattaa valita?

Valitse asiakirjan vaikeusasteen mukaan.

AsiakirjaSuositeltu polku
Siisti yritysskannausOCR Acrobatissa tai muussa luotettavassa OCR-työkalussa, sitten PDF-kääntäjä.
Vanhan kirjan skannausOikaise sivut ja paranna kontrastia, tee OCR huolellisesti, sitten käännä.
Tieteellisen artikkelin skannausOCR, tarkista yhtälöt/viitteet/taulukot ja käännä sitten asettelutarkistuksen kanssa.
Käsinkirjoitetut muistiinpanotEnnen kääntämistä saatetaan tarvita manuaalinen litterointi.
Yksinkertainen henkilökohtainen asiakirjaVerkkopohjainen OCR voi olla hyväksyttävä, jos tietosuojariski on pieni.
Arkaluonteinen asiakirjaKäytä paikallista OCR:ää tai luotettavaa hallittua työnkulkua.

Jos haluat laajemman työkalujen vertailun, katso paras PDF-käännöstyökalut 2026 -opas.

Yleisiä ongelmia skannatuissa PDF:issä

Alhaisen resoluution sivut

Alhaisen resoluution skannaukset sumentavat kirjaimet yhteen. OCR voi sekoittaa rn- ja m-yhdistelmät, cl- ja d-yhdistelmät tai välimerkit ja pölyn.

Korjaus: skannaa uudelleen, jos mahdollista. Jos ei, lisää kontrastia ja kokeile OCR:ää uudelleen.

Vinot tai kaareutuneet sivut

Kirjaskannaukset kaareutuvat usein sidoksen lähellä. OCR lukee kaarevat rivit huonosti ja voi järjestää tekstin väärin.

Korjaus: tasaa sivu, skannaa uudelleen tai käytä OCR-työkalua, jossa on sivun suoristus ja kaarevuuden korjaus.

Monipalstainen asettelu

OCR voi yhdistää vasemman ja oikean palstan yhdeksi lausevirraksi.

Korjaus: tarkista lukujärjestys ennen kääntämistä. Akateemiset artikkelit vaativat tässä erityistä huomiota.

Taulukot

Taulukot ovat hankalia, koska OCR:n on tunnistettava sekä teksti että rakenne. Taulukko voi näyttää silmämääräisesti oikealta, vaikka tekstikerros olisi väärä.

Korjaus: kopioi taulukon OCR-teksti ja varmista, että selitteet vastaavat edelleen oikeita arvoja.

Käsiala ja allekirjoitukset

Painetun tekstin OCR on paljon luotettavampaa kuin käsialan tunnistus. Käsinkirjoitetut reunahuomautukset, allekirjoitukset ja täytetyt lomakkeet voivat jäädä huomaamatta tai vääristyä.

Korjaus: litteroi olennainen käsiala käsin ennen kääntämistä.

Useita kieliä sisältävät asiakirjat

OCR toimii parhaiten, kun se tietää lähdekielen. Skannaus, jossa on englantia, ranskaa ja kiinaa, voi epäonnistua, jos OCR on asetettu vain yhdelle kielelle.

Korjaus: valitse kaikki olennaiset OCR-kielet, jos työkalu tukee sitä, ja tarkista sitten jokainen kieliosio pistokokein.

Yksityisyys- ja tietoturvatarkistuslista

Ennen kuin lataat skannatun PDF:n mihinkään, kysy:

  • Sisältääkö asiakirja henkilötietoja?
  • Sisältääkö se lääketieteellistä, oikeudellista, taloudellista, akateemista tai julkaisematonta materiaalia?
  • Kuuluuko se asiakassopimuksen tai koulun käytännön piiriin?
  • Onko verkkopohjainen OCR-palvelu sallittu tälle asiakirjalle?
  • Tarvitsetko sen sijaan paikallisen työnkulun?
  • Voitko poistaa sivut, joita ei tarvitse kääntää?

Skannatut PDF:t ovat ხშირად arkaluonteisia, koska ne tulevat sopimuksista, henkilötodistuksista, lomakkeista, tutkimusluonnoksista ja sisäisistä arkistoista. Käsittele OCR-latauspäätöksiä samalla tavalla kuin käsittelisit alkuperäistä asiakirjaa.

UKK

Miten käännän skannatun PDF:n?

Suorita ensin OCR, jotta asiakirjaan syntyy tekstikerros, tarkista OCR-tulos ja käännä sitten OCR-käsitelty PDF työkalulla PDF-kääntäjä. Älä ohita OCR-tarkistusvaihetta.

Miksi Google Translate ei kääntänyt skannattua PDF:ääni?

PDF voi olla pelkkä kuva. Jos tekstikerrosta ei ole, Google Translate ei löydä tekstiä poimittavaksi. Käytä ensin OCR:ää ja käännä vasta sitten. Google-kohtainen työnkulku käsitellään Google Translate PDF -oppaassa.

Voiko ChatGPT kääntää skannatun PDF:n?

ChatGPT voi auttaa yksittäisten kuvien tai poimitun tekstin kanssa, mutta monisivuinen skannattu PDF tarvitsee silti OCR:n ja tarkistuksen. Kokonaista asiakirjatyönkulkua varten tee ensin OCR ja käytä sitten PDF-käännöstyönkulkua.

Mikä on paras OCR-työkalu skannatuille PDF:ille?

Se riippuu asiakirjasta. Acrobatin ja ABBYY-tyyppiset työkalut sopivat yleisiin ja monimutkaisiin skannauksiin. Tesseract tai OCRmyPDF sopii paikallisiin teknisiin työnkulkuihin. Verkkopohjainen OCR voi riittää yksinkertaisille vähäriskisille tiedostoille, mutta yksityisyys ja laatu vaihtelevat.

Voiko OCR säilyttää muotoilun?

OCR voi luoda tekstikerroksen ja joskus palauttaa lukujärjestyksen, mutta se ei ole sama asia kuin alkuperäisen käännetyn asettelun säilyttäminen. OCR:n jälkeen käytä PDF-käännöstyönkulkua ja tarkista lopputulos alkuperäistä vasten.

Mitä jos OCR:n laatu on huono?

Paranna skannausta ennen kääntämistä. Skannaa uudelleen, jos mahdollista, suorista sivut, lisää kontrastia, rajaa häiriöt pois, valitse oikea OCR-kieli ja tarkista hankalat sivut uudelleen.