BookTranslator
BookTranslator

איך לתרגם PDF סרוק: המדריך המלא ל-OCR ולתרגום

קובצי PDF סרוקים מכילים תמונות של טקסט, לא טקסט אמיתי — ולכן Google Translate מחזיר אותם בלי שינוי. הנה תהליך ה-OCR וה-AI שפותר את הבעיה.

BookTranslator

BookTranslator Team

מדריכי תרגום10 min read

תשובה מהירה: PDF סרוק צריך OCR לפני תרגום

כדי לתרגם PDF סרוק, קודם הפעילו OCR כדי להפוך את תמונות העמודים לטקסט שאפשר לבחור. אחר כך תרגמו את ה-PDF שעבר OCR בעזרת מתרגם מסמכים כמו מתרגם PDF. אם מדלגים על OCR, הרבה כלי תרגום יחזירו את הקובץ המקורי בלי שינוי, יחמיצו עמודים, או יתרגמו רק את החלקים שכבר מכילים שכבת טקסט.

השתמשו בתהליך העבודה הזה:

  1. פתחו את ה-PDF ונסו לבחור משפט.
  2. אם אי אפשר לבחור טקסט, הפעילו OCR.
  3. עברו על טקסט ה-OCR לפני התרגום.
  4. העלו את ה-PDF שעבר OCR אל מתרגם PDF.
  5. בדקו את הפלט המתורגם מול הסריקה המקורית.

אם ב-PDF שלכם כבר יש טקסט שאפשר לבחור בו והבעיה היא שימור הפריסה, השתמשו במדריך לתרגם PDF בלי לאבד את העיצוב.

למה קובצי PDF סרוקים נכשלים בכלי תרגום

PDF סרוק הוא לעיתים קרובות פשוט אוסף של תמונות עמודים בתוך קובץ PDF. העמוד אולי מציג מילים לקורא אנושי, אבל ייתכן שהקובץ לא מכיל טקסט אמיתי שתוכנה יכולה לחלץ.

זה יוצר כשל פשוט:

סוג הקובץמה המתרגם רואהמה קורה
PDF מבוסס טקסטטקסט יחד עם נתוני פריסהאפשר להתחיל בתרגום מיד.
PDF סרוק עם תמונות בלבדתמונות של עמודיםחייבים OCR קודם.
PDF עם טקסט מעל תמונהתמונת סריקה יחד עם שכבת OCR נסתרתהתרגום יכול לעבוד, אבל שגיאות OCR פוגעות באיכות.

המבחן הכי שימושי אינו טכני:

  1. פתחו את ה-PDF.
  2. נסו לסמן מילים בודדות.
  3. העתיקו משפט.
  4. הדביקו אותו לעורך טקסט.

אם המשפט מודבק כראוי, ל-PDF יש שכבת טקסט. אם לא מודבק כלום, או שכל העמוד מתנהג כמו תמונה אחת, ה-PDF צריך OCR.

אי אפשר לוותר על OCR

OCR הוא זיהוי תווים אופטי. הוא קורא טקסט מתוך תמונה ויוצר טקסט שמכונה יכולה לקרוא. בתרגום PDF, OCR בדרך כלל יוצר שכבת טקסט בלתי נראית מעל העמוד הסרוק.

שכבת הטקסט הזאת הופכת למקור של התרגום. אם ה-OCR טועה, התרגום יורש את הטעויות האלה.

שגיאות OCR נפוצות:

שגיאת OCRסיכון בתרגום
rn מזוהה כ-mהמשמעות של המילים משתנה.
1 מזוהה כ-lמספרים, הפניות או קודים הופכים לשגויים.
O מזוהה כ-0מזהים, נוסחאות ושמות עלולים להישבר.
סימני דיאקריטיקה נעלמיםשמות ומונחים נעשים לא מדויקים.
עמודות מתמזגותמשפטים מתורגמים בסדר שגוי.
תאי טבלה נקראים שורה אחר שורה בצורה שגויהתוויות הנתונים כבר לא תואמות לערכים.
הערות שוליים מטופלות כטקסט גוףציטוטים והערות עוברים להקשר הלא נכון.

בגלל זה שלב בדיקת ה-OCR חשוב. אל תתרגמו מסמך סרוק לפני שבדקתם מדגמית את הטקסט שחולץ.

תהליך עבודה שמתחיל ב-OCR

שלב 1: זהו את סוג ה-PDF

נסו לבחור טקסט. אם הבחירה עובדת, אולי לא תצטרכו OCR. אם אי אפשר לבחור טקסט, התייחסו לקובץ כאל קובץ שמכיל תמונות בלבד.

כדאי גם לבדוק את העמוד חזותית:

  • עמודים עקומים מרמזים על סריקה.
  • מרקם נייר אפור מרמז על סריקה.
  • צללים ליד השדרה מרמזים על ספר שצולם.
  • ניגודיות לא אחידה מרמזת על צילום מסמך.
  • חיפוש שלא מוצא מילים שנראות לעין מרמז שאין שכבת טקסט.

שלב 2: שפרו את הסריקה אם אפשר

איכות ה-OCR מתחילה באיכות התמונה. אם אפשר לסרוק מחדש, עשו זאת לפני שמבזבזים זמן על תיקון שגיאות OCR.

השתמשו ברשימת הבדיקה הזאת לאיכות תמונה:

  • סרקו ברזולוציה גבוהה מספיק לטקסט קטן.
  • הקפידו שהעמודים יהיו שטוחים וישרים.
  • הימנעו מצללים ליד השדרה.
  • חתכו שולי שולחן, אצבעות או רקע מבולגן.
  • השתמשו בניגודיות חזקה בין הטקסט לעמוד.
  • ודאו שכל השורה גלויה.
  • השתמשו בכיוון העמוד הנכון.
  • אל תדחסו את התמונה עד כדי כך שהאותיות מיטשטשות.

בספרים ישנים ובצילומים, השיפורים הגדולים ביותר מגיעים בדרך כלל מיישור, תיקון ניגודיות וסריקה מחדש של עמודים שאינם בפוקוס.

שלב 3: הפעילו OCR

בחרו כלי OCR לפי המסמך, לא לפי המותג.

אפשרות OCRהכי מתאים ל־מה כדאי לבדוק
Adobe Acrobat OCRסריקות עסקיות כלליות וניקוי PDFבדקו גישה בתוכנית הנוכחית לפני שסומכים עליו.
ABBYY FineReaderסריקות מורכבות, טבלאות, עמודות ופריסות קשותעדיין נדרש מעבר ידני.
Tesseract or OCRmyPDFתהליכי OCR מקומיים, טכניים וחוזרים על עצמםמחייב נוחות עם כלים לשורת הפקודה.
כלי OCR מקווניםקבצים מזדמנים עם סיכון נמוךפרטיות, מגבלות קובץ ואיכות משתנות.
אפליקציות סריקה בטלפוןיצירה מהירה של סריקה חדשהעיוות פרספקטיבה עלול לפגוע ב-OCR.

לחוזים פרטיים, רשומות רפואיות, מסמכים פיננסיים, כתבי יד שטרם פורסמו או עבודות אקדמיות שנמצאות בבדיקה, העדיפו תהליך OCR מקומי או סביבה מהימנה. אל תעלו סריקות רגישות לאתרי OCR חינמיים אקראיים.

שלב 4: בדקו את טקסט ה-OCR

בדקו לפני התרגום, לא אחריו. העתיקו טקסט מכמה עמודים קשים ובדקו אם הוא קריא.

עמודים לדוגמה שכדאי לבדוק:

  • עמוד השער.
  • עמוד גוף צפוף.
  • עמוד עם טבלה.
  • עמוד עם הערות שוליים.
  • עמוד עם טקסט קטן.
  • עמוד עם חותמות, כתב יד או הערות בשוליים.
  • עמוד בכל שפה אם המסמך רב־לשוני.

חפשו:

  • פסקאות חסרות.
  • עמודות שהתמזגו.
  • מילים שבורות.
  • תווים שגויים.
  • דיאקריטיקה שאבדה.
  • תוויות טבלה שנפרדו מהערכים.
  • כותרות שהושתלו בתוך טקסט הגוף.
  • מספרי עמודים שהתערבבו בתוך משפטים.

אם איכות ה-OCR נמוכה, תקנו אותה לפני התרגום. מתרגם לא יכול לשחזר באופן אמין משמעות שה-OCR מעולם לא קלט.

שלב 5: תרגמו את ה-PDF שעבר OCR

ברגע של-PDF יש שכבת טקסט נקייה, העלו אותו אל מתרגם PDF. שלב התרגום יכול עכשיו לעבוד עם טקסט במקום עם תמונות של עמודים.

אחרי התרגום, השוו בין:

  • הסריקה המקורית
  • שכבת טקסט ה-OCR
  • ה-PDF המתורגם

ההשוואה המשולשת הזאת עוזרת לזהות אם שגיאה הגיעה מ-OCR או מהתרגום. אם טקסט ה-OCR שגוי, הריצו OCR מחדש. אם טקסט ה-OCR נכון אבל התרגום שגוי, תקנו את התרגום.

שלב 6: בדקו תוכן בסיכון גבוה

מסמכים סרוקים מכילים לעיתים קרובות בדיוק את התוכן שדורש בדיקה קפדנית: חוזים ישנים, טפסים ממשלתיים, מאמרים אקדמיים, מדריכים, מסמכים היסטוריים ועמודי ספרים.

בדקו ידנית את הפריטים האלה:

  • שמות
  • תאריכים
  • מספרים
  • כתובות
  • קודי מוצר
  • הפניות משפטיות
  • ציטוטים
  • תוויות טבלה
  • יחידות
  • משוואות
  • כיתובים
  • הערות שוליים

בקובצי מחקר ואקדמיה, קראו גם את המדריך לתרגום מאמרי מחקר אקדמיים, כי קובצי PDF אקדמיים סרוקים מוסיפים סיכוני ציטוט ופריסה מעבר לסיכון ה-OCR.

דוגמאות לכשלים זה לצד זה

השתמשו בטבלה הזאת בזמן בדיקת פלט ה-OCR.

מה שהסריקה המקורית כנראה מציגהפלט OCR גרועלמה זה חשוב
modernmodemהמשמעות משתנה לחלוטין.
Section 10Section IOהפניות משפטיות או טכניות עלולות להישבר.
20262O26תאריכים ומזהים נעשים לא אמינים.
patientpatlentמונחים רפואיים או טכניים הופכים לשגויים.
שתי עמודות נפרדותפסקה ממוזגת אחתהתרגום קורא משפטים בסדר הלא נכון.
שורת טבלה עם תוויות וערכיםשורה אחת של טקסט מעורבבהנתונים כבר לא ממופים לתווית הנכונה.
סימון הערת שוליים 1האות lהערות עלולות להיצמד למשפט הלא נכון.

אם אתם רואים את השגיאות האלה בשכבת ה-OCR, תקנו את ה-OCR לפני התרגום.

באיזה כלי כדאי להשתמש?

בחרו לפי רמת הקושי של המסמך.

מסמךמסלול מומלץ
סריקה עסקית נקייהOCR ב-Acrobat או בכלי OCR אמין אחר, ואז מתרגם PDF.
סריקה של ספר ישןיישרו את העמוד, שפרו ניגודיות, בצעו OCR בקפידה, ואז תרגמו.
סריקה של מאמר אקדמיOCR, בדיקת משוואות/ציטוטים/טבלאות, ואז תרגום עם בדיקת פריסה.
הערות בכתב ידייתכן שתידרש תמלול ידני לפני התרגום.
מסמך אישי פשוטOCR מקוון יכול להספיק אם סיכון הפרטיות נמוך.
מסמך רגישהשתמשו ב-OCR מקומי או בתהליך מבוקר ומהימן.

אם אתם רוצים השוואה רחבה יותר בין כלים, ראו את מדריך כלי תרגום ה-PDF הטובים ביותר.

בעיות נפוצות בקובצי PDF סרוקים

עמודים ברזולוציה נמוכה

סריקות ברזולוציה נמוכה מטשטשות אותיות זו לתוך זו. OCR עלול לבלבל בין rn ל-m, בין cl ל-d, או בין סימני פיסוק לאבק.

תיקון: סרקו מחדש אם אפשר. אם לא, הגדילו את הניגודיות ונסו OCR שוב.

עמודים עקומים או מעוקלים

סריקות של ספרים מתעקמות לעיתים קרובות ליד השדרה. OCR קורא את הקווים המעוקלים בצורה גרועה ועלול לשנות את סדר הטקסט.

תיקון: שטחו את העמוד, סרקו מחדש, או השתמשו בכלי OCR עם deskew ו-dewarping.

פריסה מרובת עמודות

OCR יכול למזג את העמודות השמאלית והימנית לזרם אחד של משפטים.

תיקון: בדקו את סדר הקריאה לפני התרגום. מאמרים אקדמיים דורשים כאן תשומת לב מיוחדת.

טבלאות

טבלאות קשות כי OCR צריך לזהות גם טקסט וגם מבנה. טבלה יכולה להיראות נכונה חזותית בזמן ששכבת הטקסט שגויה.

תיקון: העתיקו את טקסט ה-OCR מהטבלה ואשרו שהתוויות עדיין תואמות לערכים.

כתב יד וחתימות

OCR לטקסט מודפס אמין הרבה יותר מזיהוי כתב יד. הערות שוליים בכתב יד, חתימות וטפסים שמולאו ידנית עלולים להחמיץ או להתעוות.

תיקון: תמללו ידנית כתב יד חיוני לפני התרגום.

שפות מעורבות

OCR עובד הכי טוב כשהוא יודע מהי שפת המקור. סריקה עם אנגלית, צרפתית וסינית עלולה להיכשל אם ה-OCR מוגדר לשפה אחת בלבד.

תיקון: בחרו את כל שפות ה-OCR הרלוונטיות אם הכלי תומך בכך, ואז בדקו מדגמית כל מקטע שפה.

רשימת בדיקה לפרטיות ולאבטחה

לפני שמעלים PDF סרוק לכל מקום, שאלו:

  • האם המסמך מכיל מידע אישי?
  • האם הוא כולל חומר רפואי, משפטי, פיננסי, אקדמי או לא מפורסם?
  • האם הוא כפוף להסכם לקוח או למדיניות מוסד לימודים?
  • האם מותר להשתמש בשירות OCR מקוון עבור המסמך הזה?
  • האם צריך במקום זאת תהליך מקומי?
  • האם אפשר להסיר עמודים שלא צריכים תרגום?

קובצי PDF סרוקים הם לעיתים קרובות רגישים כי הם מגיעים מחוזים, תעודות זהות, טפסים, טיוטות מחקר וארכיונים פנימיים. התייחסו להחלטות העלאת OCR בדיוק כפי שהייתם מתייחסים למסמך המקורי.

שאלות נפוצות

איך מתרגמים PDF סרוק?

קודם מפעילים OCR כדי ליצור שכבת טקסט, בודקים את פלט ה-OCR, ואז מתרגמים את ה-PDF שעבר OCR בעזרת מתרגם PDF. אל תדלגו על שלב בדיקת ה-OCR.

למה Google Translate לא תרגם את ה-PDF הסרוק שלי?

ייתכן שה-PDF מכיל תמונה בלבד. אם אין שכבת טקסט, ל-Google Translate אין טקסט לחלץ. הפעילו קודם OCR, ואז תרגמו. התהליך הספציפי ל-Google מוסבר ב-מדריך Google Translate ל-PDF.

האם ChatGPT יכול לתרגם PDF סרוק?

ChatGPT יכול לעזור עם תמונות בודדות או עם טקסט שחולץ, אבל PDF סרוק מרובה עמודים עדיין צריך OCR ובדיקה. לתהליך מסמך מלא, קודם OCR ואז תהליך תרגום PDF.

מהו כלי ה-OCR הטוב ביותר לקובצי PDF סרוקים?

זה תלוי במסמך. כלים בסגנון Acrobat ו-ABBYY שימושיים לסריקות כלליות ומורכבות. Tesseract או OCRmyPDF שימושיים לתהליכים טכניים מקומיים. OCR מקוון יכול להתאים לקבצים פשוטים ובסיכון נמוך, אבל הפרטיות והאיכות משתנות.

האם OCR יכול לשמר עיצוב?

OCR יכול ליצור שכבת טקסט ולפעמים לשחזר את סדר הקריאה, אבל זה לא זהה לשימור הפריסה המקורית לאחר התרגום. אחרי OCR, השתמשו בתהליך תרגום PDF ובדקו את הפלט מול המקור.

מה אם איכות ה-OCR גרועה?

שפרו את הסריקה לפני התרגום. סרקו מחדש אם אפשר, יישרו עמודים, הגדילו ניגודיות, חתכו רעשי רקע, בחרו את שפת ה-OCR הנכונה, ובדקו שוב את העמודים הקשים.