Kuinka kääntää skannattu PDF: täydellinen OCR- ja käännösopas
Skannatut PDF:t sisältävät kuvia tekstistä, eivät varsinaista tekstiä — siksi Google Translate palauttaa ne muuttumattomina. Tässä on OCR- ja tekoälyputki, joka korjaa ongelman.
Nopea vastaus: skannattu PDF tarvitsee OCR:n ennen kääntämistä
Jotta voit kääntää skannatun PDF:n, suorita ensin OCR, joka muuntaa sivukuvat valittavaksi tekstiksi. Käännä sitten OCR-käsitelty PDF asiakirjakääntäjällä, kuten PDF-kääntäjä. Jos ohitat OCR:n, monet käännöstyökalut palauttavat alkuperäisen tiedoston muuttumattomana, jättävät sivuja väliin tai kääntävät vain ne osat, joissa on jo tekstikerros.
Käytä tätä työnkulkua:
- Avaa PDF ja yritä valita yksi lause.
- Jos et voi valita tekstiä, suorita OCR.
- Tarkista OCR-teksti ennen kääntämistä.
- Lataa OCR-käsitelty PDF työkaluun PDF-kääntäjä.
- Tarkista käännetty lopputulos alkuperäistä skannausta vasten.
Jos PDF:ssäsi on jo valittava teksti ja ongelma liittyy asettelun säilymiseen, katso opas kuinka kääntää PDF menettämättä muotoiluja.
Miksi skannatut PDF:t epäonnistuvat käännöstyökaluissa
Skannattu PDF on usein vain joukko sivukuvia PDF-säiliön sisällä. Sivulla voi ihmisen silmään näkyä sanoja, mutta tiedosto ei välttämättä sisällä varsinaista tekstiä, जिसे ohjelmisto voisi poimia.
Tästä syntyy yksinkertainen ongelma:
| Tiedostotyyppi | Mitä kääntäjä näkee | Mitä tapahtuu |
|---|---|---|
| Tekstipohjainen PDF | Teksti ja asettelutiedot | Kääntäminen voi alkaa heti. |
| Vain kuvista koostuva skannattu PDF | Kuvia sivuista | Ensin tarvitaan OCR. |
| PDF, jossa kuvan päällä on teksti | Skannattu kuva sekä piilotettu OCR-tekstikerros | Kääntäminen voi toimia, mutta OCR-virheet heikentävät laatua. |
Hyödyllisin testi ei ole tekninen:
- Avaa PDF.
- Yritä korostaa yksittäisiä sanoja.
- Kopioi yksi lause.
- Liitä se tekstieditoriin.
Jos lause liimautuu oikein, PDF:ssä on tekstikerros. Jos mitään ei liimau, tai koko sivu käyttäytyy yhtenä kuvana, PDF tarvitsee OCR:n.
OCR ei ole valinnainen
OCR tarkoittaa optista tekstintunnistusta. Se lukee tekstin kuvasta ja luo koneellisesti luettavaa tekstiä. PDF-käännöksessä OCR luo yleensä näkymättömän tekstikerroksen skannatun sivun päälle.
Tästä tekstikerroksesta tulee käännöksen lähde. Jos OCR tekee virheitä, käännös perii ne virheet.
Yleisiä OCR-virheitä:
| OCR-virhe | Käännösriski |
|---|---|
rn luetaan m:ksi | Sanojen merkitys muuttuu. |
1 luetaan l:ksi | Numerot, viittaukset tai koodit vääristyvät. |
O luetaan 0:ksi | Tunnukset, kaavat ja nimet voivat rikkoutua. |
| Tarkkeet katoavat | Nimet ja termit muuttuvat epätarkoiksi. |
| Palstat yhdistyvät | Lauseet kääntyvät väärässä järjestyksessä. |
| Taulukon solut luetaan väärin rivi riviltä | Tietojen selitteet eivät enää vastaa arvoja. |
| Alaviitteet käsitellään leipätekstinä | Viitteet ja huomautukset siirtyvät väärään kontekstiin. |
Siksi OCR-tarkistusvaihe on tärkeä. Älä käännä skannattua asiakirjaa ennen kuin olet pistokokein tarkistanut poimitun tekstin.
OCR-ensin-työnkulku
Vaihe 1: tunnista PDF:n tyyppi
Yritä valita tekstiä. Jos valinta toimii, et ehkä tarvitse OCR:ää. Jos valinta epäonnistuu, käsittele tiedostoa pelkkänä kuvana.
Tarkista sivu myös silmämääräisesti:
- Vinot sivut viittaavat skannaukseen.
- Harmaa paperipinta viittaa skannaukseen.
- Varjot sidoksen lähellä viittaavat valokuvattuun kirjaan.
- Epätasainen kontrasti viittaa valokopioon.
- Se, ettei haku löydä näkyviä sanoja, viittaa siihen, ettei tekstikerrosta ole.
Vaihe 2: paranna skannausta, jos mahdollista
OCR:n laatu alkaa kuvan laadusta. Jos voit skannata uudelleen, tee se ennen kuin käytät aikaa OCR-virheiden korjaamiseen.
Käytä tätä kuvanlaadun tarkistuslistaa:
- Skannaa riittävän korkealla resoluutiolla, jotta pieni teksti näkyy.
- Pidä sivut tasaisina ja suorina.
- Vältä varjoja sidoksen lähellä.
- Rajaa pois pöydän reunat, sormet tai taustan häiriöt.
- Käytä vahvaa kontrastia tekstin ja sivun välillä.
- Pidä koko rivi näkyvissä.
- Käytä oikeaa sivun suuntaa.
- Älä pakkaa kuvaa niin voimakkaasti, että kirjaimet sumentuvat.
Vanhoissa kirjoissa ja valokopioissa suurimmat parannukset tulevat yleensä sivujen suoristamisesta, kontrastin korjaamisesta ja uudelleenskannauksesta, jos sivut ovat epätarkkoja.
Vaihe 3: suorita OCR
Valitse OCR-työkalu asiakirjan perusteella, älä brändin.
| OCR-vaihtoehto | Paras käyttöön | Huomioi |
|---|---|---|
| Adobe Acrobat OCR | Yleiset yritysskannaukset ja PDF:n siistiminen | Tarkista nykyisen tilauksesi tuki ennen kuin luotat siihen. |
| ABBYY FineReader | Monimutkaiset skannaukset, taulukot, palstat ja vaikeat asettelut | Vaatii silti manuaalisen tarkistuksen. |
| Tesseract tai OCRmyPDF | Paikalliset, tekniset ja toistettavat OCR-työnkulut | Edellyttää komentorivityökalujen hallintaa. |
| Verkkopohjaiset OCR-työkalut | Satunnaiset vähäriskiset tiedostot | Yksityisyys, tiedostorajat ja laatu vaihtelevat. |
| Puhelimen skannaussovellukset | Uuden skannauksen nopea tallentaminen | Perspektiivivääristymä voi heikentää OCR:ää. |
Yksityisten sopimusten, potilastietojen, talousasiakirjojen, julkaisemattomien käsikirjoitusten tai arvioitavana olevan akateemisen työn kohdalla suosi paikallista OCR-työnkulkua tai luotettavaa ympäristöä. Älä lataa arkaluonteisia skannauksia satunnaisille ilmaisille OCR-sivustoille.
Vaihe 4: tarkista OCR-teksti
Tarkista ennen kääntämistä, älä sen jälkeen. Kopioi tekstiä useilta hankalilta sivuilta ja varmista, että se on luettavaa.
Tarkistettavat esimerkkisivut:
- Nimisivu.
- Tiheä tekstisivu.
- Taulukkosivu.
- Sivu, jossa on alaviitteitä.
- Sivu, jossa on pientä tekstiä.
- Sivu, jossa on leimoja, käsialaa tai marginaalimerkintöjä.
- Yksi sivu kustakin kielestä, jos asiakirja on monikielinen.
Etsi seuraavia ongelmia:
- Puuttuvia kappaleita.
- Yhdistyneitä palstoja.
- Rikkoutuneita sanoja.
- Vääriä merkkejä.
- Kadonneita tarkkeita.
- Taulukon selitteitä, jotka ovat irronneet arvoista.
- Otsikoita, jotka on lisätty leipätekstiin.
- Sivunumeroita, jotka sekoittuvat lauseisiin.
Jos OCR:n laatu on heikko, korjaa se ennen kääntämistä. Kääntäjä ei voi luotettavasti palauttaa merkitystä, jota OCR ei koskaan tallentanut.
Vaihe 5: käännä OCR-käsitelty PDF
Kun PDF:ssä on puhdas tekstikerros, lataa se työkaluun PDF-kääntäjä. Käännösvaihe voi nyt toimia tekstin eikä sivukuvien kanssa.
Vertaa käännöksen jälkeen:
- Alkuperäinen skannaus
- OCR-tekstikerros
- Käännetty PDF
Tämä kolmen version tarkistus auttaa tunnistamaan, tuliko virhe OCR:stä vai käännöksestä. Jos OCR-teksti on väärä, suorita OCR uudelleen. Jos OCR-teksti on oikein mutta käännös on väärä, korjaa käännös.
Vaihe 6: tarkista korkean riskin sisältö
Skannatut asiakirjat sisältävät usein juuri sellaista sisältöä, joka vaatii huolellista tarkistusta: vanhoja sopimuksia, viranomaislomakkeita, akateemisia artikkeleita, käyttöohjeita, historiallisia dokumentteja ja kirjansivuja.
Tarkista nämä kohdat käsin:
- Nimet
- Päivämäärät
- Numerot
- Osoitteet
- Tuotekoodit
- Oikeudelliset viittaukset
- Sitaatit
- Taulukon selitteet
- Yksiköt
- Yhtälöt
- Kuvatekstit
- Alaviitteet
Tutkimus- ja akateemisten tiedostojen kohdalla lue myös opas akateemisten tutkimusartikkelien kääntämisestä, koska skannatut akateemiset PDF:t lisäävät viittaus- ja asetteluriskejä OCR-riskin päälle.
Vierekkäiset virhe-esimerkit
Käytä tätä taulukkoa, kun tarkistat OCR-tulosta.
| Alkuperäisessä skannauksessa näkyy todennäköisesti | Huono OCR-tulos | Miksi sillä on väliä |
|---|---|---|
modern | modem | Merkitys muuttuu täysin. |
Section 10 | Section IO | Oikeudelliset tai tekniset viittaukset voivat rikkoutua. |
2026 | 2O26 | Päivämäärät ja tunnukset muuttuvat epäluotettaviksi. |
patient | patlent | Lääketieteelliset tai tekniset termit vääristyvät. |
| Kaksi erillistä palstaa | Yksi yhdistetty kappale | Käännös lukee lauseet väärässä järjestyksessä. |
| Taulukon rivi, jossa on selitteet ja arvot | Yksi rivi sekalaista tekstiä | Tiedot eivät enää kohdistu oikeaan selitteeseen. |
Alaviitemerkki 1 | Kirjain l | Huomautukset voivat kiinnittyä väärään lauseeseen. |
Jos näet tällaisia virheitä OCR-kerroksessa, korjaa OCR ennen kääntämistä.
Mikä työkalu kannattaa valita?
Valitse asiakirjan vaikeusasteen mukaan.
| Asiakirja | Suositeltu polku |
|---|---|
| Siisti yritysskannaus | OCR Acrobatissa tai muussa luotettavassa OCR-työkalussa, sitten PDF-kääntäjä. |
| Vanhan kirjan skannaus | Oikaise sivut ja paranna kontrastia, tee OCR huolellisesti, sitten käännä. |
| Tieteellisen artikkelin skannaus | OCR, tarkista yhtälöt/viitteet/taulukot ja käännä sitten asettelutarkistuksen kanssa. |
| Käsinkirjoitetut muistiinpanot | Ennen kääntämistä saatetaan tarvita manuaalinen litterointi. |
| Yksinkertainen henkilökohtainen asiakirja | Verkkopohjainen OCR voi olla hyväksyttävä, jos tietosuojariski on pieni. |
| Arkaluonteinen asiakirja | Käytä paikallista OCR:ää tai luotettavaa hallittua työnkulkua. |
Jos haluat laajemman työkalujen vertailun, katso paras PDF-käännöstyökalut 2026 -opas.
Yleisiä ongelmia skannatuissa PDF:issä
Alhaisen resoluution sivut
Alhaisen resoluution skannaukset sumentavat kirjaimet yhteen. OCR voi sekoittaa rn- ja m-yhdistelmät, cl- ja d-yhdistelmät tai välimerkit ja pölyn.
Korjaus: skannaa uudelleen, jos mahdollista. Jos ei, lisää kontrastia ja kokeile OCR:ää uudelleen.
Vinot tai kaareutuneet sivut
Kirjaskannaukset kaareutuvat usein sidoksen lähellä. OCR lukee kaarevat rivit huonosti ja voi järjestää tekstin väärin.
Korjaus: tasaa sivu, skannaa uudelleen tai käytä OCR-työkalua, jossa on sivun suoristus ja kaarevuuden korjaus.
Monipalstainen asettelu
OCR voi yhdistää vasemman ja oikean palstan yhdeksi lausevirraksi.
Korjaus: tarkista lukujärjestys ennen kääntämistä. Akateemiset artikkelit vaativat tässä erityistä huomiota.
Taulukot
Taulukot ovat hankalia, koska OCR:n on tunnistettava sekä teksti että rakenne. Taulukko voi näyttää silmämääräisesti oikealta, vaikka tekstikerros olisi väärä.
Korjaus: kopioi taulukon OCR-teksti ja varmista, että selitteet vastaavat edelleen oikeita arvoja.
Käsiala ja allekirjoitukset
Painetun tekstin OCR on paljon luotettavampaa kuin käsialan tunnistus. Käsinkirjoitetut reunahuomautukset, allekirjoitukset ja täytetyt lomakkeet voivat jäädä huomaamatta tai vääristyä.
Korjaus: litteroi olennainen käsiala käsin ennen kääntämistä.
Useita kieliä sisältävät asiakirjat
OCR toimii parhaiten, kun se tietää lähdekielen. Skannaus, jossa on englantia, ranskaa ja kiinaa, voi epäonnistua, jos OCR on asetettu vain yhdelle kielelle.
Korjaus: valitse kaikki olennaiset OCR-kielet, jos työkalu tukee sitä, ja tarkista sitten jokainen kieliosio pistokokein.
Yksityisyys- ja tietoturvatarkistuslista
Ennen kuin lataat skannatun PDF:n mihinkään, kysy:
- Sisältääkö asiakirja henkilötietoja?
- Sisältääkö se lääketieteellistä, oikeudellista, taloudellista, akateemista tai julkaisematonta materiaalia?
- Kuuluuko se asiakassopimuksen tai koulun käytännön piiriin?
- Onko verkkopohjainen OCR-palvelu sallittu tälle asiakirjalle?
- Tarvitsetko sen sijaan paikallisen työnkulun?
- Voitko poistaa sivut, joita ei tarvitse kääntää?
Skannatut PDF:t ovat ხშირად arkaluonteisia, koska ne tulevat sopimuksista, henkilötodistuksista, lomakkeista, tutkimusluonnoksista ja sisäisistä arkistoista. Käsittele OCR-latauspäätöksiä samalla tavalla kuin käsittelisit alkuperäistä asiakirjaa.
UKK
Miten käännän skannatun PDF:n?
Suorita ensin OCR, jotta asiakirjaan syntyy tekstikerros, tarkista OCR-tulos ja käännä sitten OCR-käsitelty PDF työkalulla PDF-kääntäjä. Älä ohita OCR-tarkistusvaihetta.
Miksi Google Translate ei kääntänyt skannattua PDF:ääni?
PDF voi olla pelkkä kuva. Jos tekstikerrosta ei ole, Google Translate ei löydä tekstiä poimittavaksi. Käytä ensin OCR:ää ja käännä vasta sitten. Google-kohtainen työnkulku käsitellään Google Translate PDF -oppaassa.
Voiko ChatGPT kääntää skannatun PDF:n?
ChatGPT voi auttaa yksittäisten kuvien tai poimitun tekstin kanssa, mutta monisivuinen skannattu PDF tarvitsee silti OCR:n ja tarkistuksen. Kokonaista asiakirjatyönkulkua varten tee ensin OCR ja käytä sitten PDF-käännöstyönkulkua.
Mikä on paras OCR-työkalu skannatuille PDF:ille?
Se riippuu asiakirjasta. Acrobatin ja ABBYY-tyyppiset työkalut sopivat yleisiin ja monimutkaisiin skannauksiin. Tesseract tai OCRmyPDF sopii paikallisiin teknisiin työnkulkuihin. Verkkopohjainen OCR voi riittää yksinkertaisille vähäriskisille tiedostoille, mutta yksityisyys ja laatu vaihtelevat.
Voiko OCR säilyttää muotoilun?
OCR voi luoda tekstikerroksen ja joskus palauttaa lukujärjestyksen, mutta se ei ole sama asia kuin alkuperäisen käännetyn asettelun säilyttäminen. OCR:n jälkeen käytä PDF-käännöstyönkulkua ja tarkista lopputulos alkuperäistä vasten.
Mitä jos OCR:n laatu on huono?
Paranna skannausta ennen kääntämistä. Skannaa uudelleen, jos mahdollista, suorista sivut, lisää kontrastia, rajaa häiriöt pois, valitse oikea OCR-kieli ja tarkista hankalat sivut uudelleen.