BookTranslator
BookTranslator

როგორ ვთარგმნოთ სკანირებული PDF: სრული OCR + თარგმნის გზამკვლევი

სკანირებული PDF-ები რეალური ტექსტის ნაცვლად ტექსტის სურათებს შეიცავს — ამიტომაც აბრუნებს Google Translate მათ უცვლელად. აი OCR + AI პროცესი, რომელიც ამ პრობლემას აგვარებს.

BookTranslator

BookTranslator Team

თარგმნის გიდები10 min read

მოკლე პასუხი: სკანირებულ PDF-ს თარგმნამდე OCR სჭირდება

სკანირებული PDF-ის სათარგმნელად ჯერ გაუშვით OCR, რათა გვერდების სურათები მონიშვნად ტექსტად გადაიქცეს. შემდეგ OCR-ით დამუშავებული PDF თარგმნეთ ისეთი დოკუმენტის მთარგმნელით, როგორიცაა PDF-ის მთარგმნელი. თუ OCR-ს გამოტოვებთ, ბევრი მთარგმნელი ხელსაწყო საწყის ფაილს უცვლელად დაგიბრუნებთ, გამოტოვებს გვერდებს, ან მხოლოდ იმ ნაწილებს თარგმნის, რომლებსაც უკვე აქვთ ტექსტური ფენა.

გამოიყენეთ ეს სამუშაო პროცესი:

  1. გახსენით PDF და სცადეთ ერთი წინადადების მონიშვნა.
  2. თუ ტექსტს ვერ მონიშნავთ, გაუშვით OCR.
  3. თარგმნამდე გადაამოწმეთ OCR ტექსტი.
  4. ატვირთეთ OCR-ით დამუშავებული PDF PDF-ის მთარგმნელში.
  5. შეადარეთ ნათარგმნი შედეგი ორიგინალ სკანს.

თუ თქვენს PDF-ში ტექსტის მონიშვნა უკვე შესაძლებელია და პრობლემა განლაგების შენარჩუნებაა, გამოიყენეთ გზამკვლევი, როგორ თარგმნოთ PDF ფორმატირების დაკარგვის გარეშე.

რატომ ვერ მუშაობს სკანირებული PDF თარგმნის ხელსაწყოებში

სკანირებული PDF ხშირად უბრალოდ გვერდების სურათების ნაკრებია PDF კონტეინერის შიგნით. ადამიანისთვის გვერდზე სიტყვები ჩანს, მაგრამ ფაილი შეიძლება საერთოდ არ შეიცავდეს ისეთ რეალურ ტექსტს, რომლის ამოღებასაც პროგრამა შეძლებს.

ეს იწვევს ძალიან მარტივ პრობლემას:

File typeWhat the translator seesWhat happens
ტექსტზე დაფუძნებული PDFტექსტს და განლაგების მონაცემებსთარგმნა შეიძლება დაუყოვნებლივ დაიწყოს.
მხოლოდ სურათებისგან შემდგარი სკანირებული PDFგვერდების სურათებსჯერ OCR არის საჭირო.
სურათზე ტექსტური ფენის მქონე PDFსკანის სურათს და დამალულ OCR ტექსტურ ფენასთარგმნა შეიძლება იმუშაოს, მაგრამ OCR-ის შეცდომები ხარისხზე მოქმედებს.

ყველაზე სასარგებლო ტესტი ტექნიკური არ არის:

  1. გახსენით PDF.
  2. სცადეთ ცალკეული სიტყვების მონიშვნა.
  3. დააკოპირეთ ერთი წინადადება.
  4. ჩასვით იგი ტექსტურ რედაქტორში.

თუ წინადადება სწორად ჩაისმება, PDF-ს ტექსტური ფენა აქვს. თუ არაფერი ისმება, ან მთელი გვერდი ერთ სურათად იქცევა, PDF-ს OCR სჭირდება.

OCR არჩევითი არ არის

OCR ნიშნავს ოპტიკურ სიმბოლოთა ამოცნობას. ის სურათიდან კითხულობს ტექსტს და ქმნის მანქანისთვის წაკითხვად ტექსტს. PDF-ის თარგმნისას OCR, როგორც წესი, სკანირებულ გვერდზე უხილავ ტექსტურ ფენას ქმნის.

ეს ტექსტური ფენა თარგმნის წყარო ხდება. თუ OCR შეცდომებს უშვებს, თარგმანიც იმავე შეცდომებს გადაიღებს.

OCR-ის ტიპური შეცდომები:

OCR mistakeTranslation risk
rn ამოიკითხება როგორც mსიტყვები მნიშვნელობას იცვლის.
1 ამოიკითხება როგორც lრიცხვები, მითითებები ან კოდები მცდარი ხდება.
O ამოიკითხება როგორც 0ID-ები, ფორმულები და სახელები შეიძლება დაზიანდეს.
დიაკრიტიკული ნიშნები იკარგებასახელები და ტერმინები არაზუსტი ხდება.
სვეტები ერთიანდებაწინადადებები არასწორი რიგით ითარგმნება.
ცხრილის უჯრები სტრიქონების მიხედვით არასწორად იკითხებამონაცემთა იარლიყები მნიშვნელობებს აღარ ემთხვევა.
სქოლიოები ძირითად ტექსტად აღიქმებაციტატები და შენიშვნები არასწორ კონტექსტში ხვდება.

სწორედ ამიტომ არის OCR-ის გადამოწმების ნაბიჯი მნიშვნელოვანი. სკანირებული დოკუმენტი არ თარგმნოთ მანამ, სანამ ამოღებულ ტექსტს წერტილოვნად არ გადაამოწმებთ.

OCR-ით დაწყებული სამუშაო პროცესი

ნაბიჯი 1: განსაზღვრეთ PDF-ის ტიპი

სცადეთ ტექსტის მონიშვნა. თუ მონიშვნა მუშაობს, შესაძლოა OCR საერთოდ არ დაგჭირდეთ. თუ მონიშვნა ვერ ხერხდება, ფაილი მხოლოდ სურათებად ჩათვალეთ.

გვერდსაც დააკვირდით ვიზუალურად:

  • გადახრილი გვერდები სკანზე მიუთითებს.
  • რუხი ქაღალდის ტექსტურა სკანზე მიუთითებს.
  • შეკვრის მხარეს ჩრდილები ხშირად გადაღებულ წიგნზე მიუთითებს.
  • არათანაბარი კონტრასტი ქსეროასლზე მიუთითებს.
  • თუ ძიება თვალით ხილულ სიტყვებს ვერ პოულობს, სავარაუდოდ ტექსტური ფენა არ არსებობს.

ნაბიჯი 2: თუ შესაძლებელია, გააუმჯობესეთ სკანი

OCR-ის ხარისხი სურათის ხარისხით იწყება. თუ თავიდან სკანირება შეგიძლიათ, OCR-ის შეცდომების გასწორებაში დროის ხარჯვამდე ეს გააკეთეთ.

გამოიყენეთ სურათის ხარისხის ეს საკონტროლო სია:

  • სკანირება გააკეთეთ იმდენად მაღალი გარჩევადობით, რომ წვრილი ტექსტიც მკაფიო იყოს.
  • გვერდები ბრტყლად და სწორად დაიჭირეთ.
  • მოერიდეთ ჩრდილებს შეკვრის მხარეს.
  • ჩამოჭერით მაგიდის კიდეები, თითები და ფონის ზედმეტი დეტალები.
  • ტექსტსა და გვერდს შორის მკვეთრი კონტრასტი გამოიყენეთ.
  • მთელი სტრიქონი სრულად ხილული დატოვეთ.
  • გამოიყენეთ გვერდის სწორი ორიენტაცია.
  • სურათი იმდენად არ შეკუმშოთ, რომ ასოები დაიბლაროს.

ძველი წიგნებისა და ქსეროასლების შემთხვევაში ყველაზე დიდ სარგებელს, როგორც წესი, გვერდის გასწორება, კონტრასტის კორექტირება და გამოფოკუსებული გვერდების თავიდან სკანირება იძლევა.

ნაბიჯი 3: გაუშვით OCR

OCR-ის ხელსაწყო დოკუმენტის მიხედვით შეარჩიეთ და არა ბრენდის მიხედვით.

OCR optionBest forWatch out for
Adobe Acrobat OCRჩვეულებრივი ბიზნეს-სკანები და PDF-ის გასუფთავებადაყრდნობამდე შეამოწმეთ, ამჟამინდელი გეგმა გაძლევთ თუ არა წვდომას.
ABBYY FineReaderრთული სკანები, ცხრილები, სვეტები და რთული განლაგებებიმაინც საჭიროებს ხელით გადამოწმებას.
Tesseract or OCRmyPDFადგილობრივი, ტექნიკური და განმეორებადი OCR სამუშაო პროცესებისაჭიროა command-line ხელსაწყოებთან კომფორტი.
ონლაინ OCR ხელსაწყოებიდაბალი რისკის მქონე იშვიათი ფაილებიკონფიდენციალურობა, ფაილის ლიმიტები და ხარისხი განსხვავდება.
ტელეფონის სკანირების აპებიახალი სკანის სწრაფად გადასაღებადპერსპექტივის დამახინჯებამ OCR შეიძლება გააუარესოს.

პირადი კონტრაქტებისთვის, სამედიცინო ჩანაწერებისთვის, ფინანსური დოკუმენტებისთვის, გამოუქვეყნებელი ხელნაწერებისთვის ან განხილვაში მყოფი აკადემიური ნაშრომებისთვის, უპირატესობა მიანიჭეთ ადგილობრივ OCR სამუშაო პროცესს ან სანდო გარემოს. მგრძნობიარე სკანები შემთხვევით უფასო OCR საიტებზე არ ატვირთოთ.

ნაბიჯი 4: გადაამოწმეთ OCR ტექსტი

გადაამოწმეთ თარგმნამდე და არა მის შემდეგ. დააკოპირეთ ტექსტი რამდენიმე რთული გვერდიდან და შეამოწმეთ, იკითხება თუ არა ის ნორმალურად.

შესამოწმებელი ნიმუშის გვერდები:

  • სათაურის გვერდი.
  • ტექსტით დატვირთული ძირითადი გვერდი.
  • ცხრილიანი გვერდი.
  • სქოლიოებიანი გვერდი.
  • წვრილი ტექსტიანი გვერდი.
  • ბეჭდებით, ხელნაწერით ან მინდვრის შენიშვნებით გვერდი.
  • თუ დოკუმენტი მრავალენოვანია, თითოეული ენის ერთი გვერდი.

შეამოწმეთ შემდეგი:

  • გამოტოვებული აბზაცები.
  • შეერთებული სვეტები.
  • გატეხილი სიტყვები.
  • არასწორი სიმბოლოები.
  • დაკარგული დიაკრიტიკული ნიშნები.
  • ცხრილის იარლიყები, რომლებიც მნიშვნელობებს დაშორდა.
  • სათაურები, რომლებიც ძირითად ტექსტში აღმოჩნდა.
  • გვერდის ნომრები, რომლებიც წინადადებებში აირია.

თუ OCR-ის ხარისხი სუსტია, ეს თარგმნამდე გაასწორეთ. მთარგმნელი სანდოდ ვერ აღადგენს მნიშვნელობას, რომელიც OCR-მა საერთოდ ვერ ამოიღო.

ნაბიჯი 5: თარგმნეთ OCR-ით დამუშავებული PDF

როგორც კი PDF-ს სუფთა ტექსტური ფენა ექნება, ატვირთეთ ის PDF-ის მთარგმნელში. ახლა თარგმნის ეტაპს გვერდების სურათების ნაცვლად ტექსტთან მუშაობა შეუძლია.

თარგმნის შემდეგ შეადარეთ:

  • ორიგინალი სკანი
  • OCR ტექსტური ფენა
  • ნათარგმნი PDF

ეს სამმხრივი გადამოწმება დაგეხმარებათ გაარჩიოთ, შეცდომა OCR-დან მოდის თუ თარგმნიდან. თუ OCR ტექსტი არასწორია, OCR თავიდან გაუშვით. თუ OCR ტექსტი სწორია, მაგრამ თარგმანი არასწორია, თავად თარგმანი გაასწორეთ.

ნაბიჯი 6: გადაამოწმეთ მაღალი რისკის შემცველი შინაარსი

სკანირებული დოკუმენტები ხშირად სწორედ ისეთ მასალას შეიცავს, რომელსაც ფრთხილი გადამოწმება სჭირდება: ძველ კონტრაქტებს, სახელმწიფო ფორმებს, აკადემიურ ნაშრომებს, ინსტრუქციებს, ისტორიულ დოკუმენტებსა და წიგნის გვერდებს.

ეს ელემენტები ხელით გადაამოწმეთ:

  • სახელები
  • თარიღები
  • რიცხვები
  • მისამართები
  • პროდუქტის კოდები
  • იურიდიული მითითებები
  • ციტატები
  • ცხრილის იარლიყები
  • ერთეულები
  • განტოლებები
  • ქვეშწარწერები
  • სქოლიოები

კვლევითი და აკადემიური ფაილების შემთხვევაში დამატებით წაიკითხეთ გზამკვლევი აკადემიური კვლევითი ნაშრომების თარგმნის შესახებ, რადგან სკანირებული აკადემიური PDF-ები OCR-ის რისკს ციტირებისა და განლაგების დამატებით რისკებსაც უმატებს.

შეცდომის მაგალითები გვერდიგვერდ

OCR-ის შედეგის გადამოწმებისას გამოიყენეთ ეს ცხრილი.

Original scan likely showsBad OCR outputWhy it matters
modernmodemმნიშვნელობა სრულად იცვლება.
Section 10Section IOიურიდიული ან ტექნიკური მითითებები შეიძლება გაფუჭდეს.
20262O26თარიღები და ID-ები არასანდო ხდება.
patientpatlentსამედიცინო ან ტექნიკური ტერმინები მცდარი ხდება.
ორი განცალკევებული სვეტიერთი გაერთიანებული აბზაცითარგმანი წინადადებებს არასწორი რიგით კითხულობს.
იარლიყებისა და მნიშვნელობების მქონე ცხრილის სტრიქონიშერეული ტექსტის ერთი სტრიქონიმონაცემები სწორ იარლიყს აღარ ემთხვევა.
სქოლიოს მაჩვენებელი 1ასო lშენიშვნები შეიძლება არასწორ წინადადებას მიებას.

თუ ამ შეცდომებს OCR ფენაში ხედავთ, თარგმნამდე OCR გაასწორეთ.

რომელი ხელსაწყო უნდა გამოიყენოთ?

შეარჩიეთ დოკუმენტის სირთულის მიხედვით.

DocumentRecommended path
სუფთა ბიზნეს-სკანიOCR Acrobat-ში ან სხვა სანდო OCR ხელსაწყოში, შემდეგ PDF-ის მთარგმნელი.
ძველი წიგნის სკანიგაასწორეთ გადახრა, გააუმჯობესეთ კონტრასტი, ფრთხილად გაუშვით OCR და შემდეგ თარგმნეთ.
აკადემიური ნაშრომის სკანიგაუშვით OCR, გადაამოწმეთ განტოლებები/ციტატები/ცხრილები და შემდეგ თარგმნეთ განლაგების გადახედვით.
ხელნაწერი ჩანაწერებითარგმნამდე შეიძლება ხელით ტრანსკრიბირება გახდეს საჭირო.
მარტივი პირადი დოკუმენტითუ კონფიდენციალურობის რისკი დაბალია, ონლაინ OCR მისაღები შეიძლება იყოს.
მგრძნობიარე დოკუმენტიგამოიყენეთ ადგილობრივი OCR ან სანდო, კონტროლირებადი სამუშაო პროცესი.

თუ უფრო ფართო შედარება გჭირდებათ, იხილეთ საუკეთესო PDF მთარგმნელების გზამკვლევი.

სკანირებული PDF-ების ხშირი პრობლემები

დაბალი გარჩევადობის გვერდები

დაბალი გარჩევადობის სკანებში ასოები ერთმანეთს ერწყმის. OCR-მა შეიძლება აურიოს rn და m, cl და d, ან პუნქტუაცია და მტვრის ლაქები.

გამოსავალი: თუ შესაძლებელია, თავიდან დაასკანირეთ. თუ არა, გაზარდეთ კონტრასტი და OCR ისევ გაუშვით.

გადახრილი ან მოღუნული გვერდები

წიგნის სკანები ხშირად შეკვრის მხარეს იღუნება. OCR ასეთ მრუდე ხაზებს ცუდად კითხულობს და შეიძლება ტექსტის რიგიც აურიოს.

გამოსავალი: გაასწორეთ გვერდი, თავიდან დაასკანირეთ ან გამოიყენეთ OCR ხელსაწყო deskew და dewarping ფუნქციებით.

მრავალსვეტიანი განლაგება

OCR-ს შეუძლია მარცხენა და მარჯვენა სვეტები ერთ უწყვეტ წინადადებად შეაერთოს.

გამოსავალი: თარგმნამდე გადაამოწმეთ კითხვის რიგი. აკადემიურ ნაშრომებს აქ განსაკუთრებული ყურადღება სჭირდება.

ცხრილები

ცხრილები რთულია, რადგან OCR-ს ერთდროულად ტექსტისა და სტრუქტურის ამოცნობა უწევს. ცხრილი ვიზუალურად შეიძლება სწორად ჩანდეს, მაშინაც კი, თუ ტექსტური ფენა არასწორია.

გამოსავალი: ცხრილიდან დააკოპირეთ OCR ტექსტი და დაადასტურეთ, რომ იარლიყები კვლავ სწორ მნიშვნელობებს ემთხვევა.

ხელნაწერი და ხელმოწერები

დაბეჭდილი ტექსტის OCR ბევრად უფრო საიმედოა, ვიდრე ხელნაწერის ამოცნობა. ხელით მიწერილი მინდვრის შენიშვნები, ხელმოწერები და შევსებული ფორმები შეიძლება გამოტოვდეს ან დაზიანდეს.

გამოსავალი: თარგმნამდე ხელით გადააწერეთ ის ხელნაწერი ნაწილები, რომლებიც მნიშვნელოვანია.

შერეული ენები

OCR საუკეთესოდ მუშაობს მაშინ, როცა წყაროს ენა იცის. თუ სკანში ინგლისური, ფრანგული და ჩინურია, OCR შეიძლება ჩაიშალოს, თუ მას მხოლოდ ერთი ენა აქვს მითითებული.

გამოსავალი: თუ ხელსაწყო მხარს უჭერს, აირჩიეთ ყველა შესაბამისი OCR ენა და შემდეგ თითოეული ენობრივი ნაწილი ცალ-ცალკე გადაამოწმეთ.

კონფიდენციალურობისა და უსაფრთხოების საკონტროლო სია

სკანირებული PDF-ის სადმე ატვირთვამდე საკუთარ თავს ჰკითხეთ:

  • შეიცავს თუ არა დოკუმენტი პერსონალურ მონაცემებს?
  • შეიცავს თუ არა სამედიცინო, იურიდიულ, ფინანსურ, აკადემიურ ან გამოუქვეყნებელ მასალას?
  • ექცევა თუ არა ის კლიენტის ხელშეკრულების ან სასწავლო დაწესებულების პოლიტიკის ქვეშ?
  • დაშვებულია თუ არა ამ დოკუმენტისთვის ონლაინ OCR სერვისის გამოყენება?
  • გჭირდებათ თუ არა მის ნაცვლად ადგილობრივი სამუშაო პროცესი?
  • შეგიძლიათ თუ არა ამოიღოთ გვერდები, რომლებსაც თარგმნა არ სჭირდება?

სკანირებული PDF-ები ხშირად მგრძნობიარეა, რადგან ისინი მოდის კონტრაქტებიდან, ID-ებიდან, ფორმებიდან, კვლევითი მონახაზებიდან და შიდა არქივებიდან. OCR-ზე ატვირთვის გადაწყვეტილებებს იმავე სიფრთხილით მოეკიდეთ, როგორც ორიგინალ დოკუმენტს.

FAQ

როგორ ვთარგმნო სკანირებული PDF?

ჯერ გაუშვით OCR, რომ ტექსტური ფენა შეიქმნას, გადაამოწმეთ OCR-ის შედეგი და შემდეგ OCR-ით დამუშავებული PDF თარგმნეთ PDF-ის მთარგმნელით. OCR-ის გადამოწმების ნაბიჯი არ გამოტოვოთ.

რატომ არ თარგმნა Google Translate-მა ჩემი სკანირებული PDF?

PDF შეიძლება მხოლოდ სურათებისგან შედგებოდეს. თუ ტექსტური ფენა არ არსებობს, Google Translate-ს ამოსაღები ტექსტი არ აქვს. ჯერ გამოიყენეთ OCR და შემდეგ თარგმნეთ. Google-ზე სპეციფიკური სამუშაო პროცესი აღწერილია Google Translate-ის PDF გზამკვლევში.

შეუძლია თუ არა ChatGPT-ს სკანირებული PDF-ის თარგმნა?

ChatGPT შეიძლება ცალკეულ სურათებსა და ამოღებულ ტექსტში დაგეხმაროთ, მაგრამ მრავალგვერდიან სკანირებულ PDF-ს მაინც სჭირდება OCR და გადამოწმება. სრული დოკუმენტის სამუშაო პროცესისთვის ჯერ OCR გამოიყენეთ და შემდეგ PDF-ის თარგმნის სამუშაო პროცესი.

რომელია საუკეთესო OCR ხელსაწყო სკანირებული PDF-ებისთვის?

ეს დოკუმენტზეა დამოკიდებული. Acrobat-ისა და ABBYY-ის ტიპის ხელსაწყოები სასარგებლოა როგორც ზოგადი, ისე რთული სკანებისთვის. Tesseract ან OCRmyPDF სასარგებლოა ადგილობრივი ტექნიკური სამუშაო პროცესებისთვის. ონლაინ OCR დაბალი რისკის მქონე მარტივი ფაილებისთვის შეიძლება საკმარისი იყოს, მაგრამ კონფიდენციალურობა და ხარისხი განსხვავდება.

შეუძლია თუ არა OCR-ს ფორმატირების შენარჩუნება?

OCR-ს შეუძლია ტექსტური ფენის შექმნა და ზოგჯერ კითხვის რიგის აღდგენაც, მაგრამ ეს იგივე არ არის, რაც თარგმნილ დოკუმენტში ორიგინალი განლაგების შენარჩუნება. OCR-ის შემდეგ გამოიყენეთ PDF-ის თარგმნის სამუშაო პროცესი და შედეგი ორიგინალს შეადარეთ.

რა ვქნა, თუ OCR-ის ხარისხი ცუდია?

სკანი თარგმნამდე გააუმჯობესეთ. თუ შესაძლებელია, თავიდან დაასკანირეთ, გაასწორეთ გვერდები, გაზარდეთ კონტრასტი, ჩამოჭერით ზედმეტი დეტალები, აირჩიეთ სწორი OCR ენა და რთული გვერდები თავიდან გადაამოწმეთ.