איך לתרגם PDF סרוק: המדריך המלא ל-OCR ולתרגום
קובצי PDF סרוקים מכילים תמונות של טקסט, לא טקסט אמיתי — ולכן Google Translate מחזיר אותם בלי שינוי. הנה תהליך ה-OCR וה-AI שפותר את הבעיה.
תשובה מהירה: PDF סרוק צריך OCR לפני תרגום
כדי לתרגם PDF סרוק, קודם הפעילו OCR כדי להפוך את תמונות העמודים לטקסט שאפשר לבחור. אחר כך תרגמו את ה-PDF שעבר OCR בעזרת מתרגם מסמכים כמו מתרגם PDF. אם מדלגים על OCR, הרבה כלי תרגום יחזירו את הקובץ המקורי בלי שינוי, יחמיצו עמודים, או יתרגמו רק את החלקים שכבר מכילים שכבת טקסט.
השתמשו בתהליך העבודה הזה:
- פתחו את ה-PDF ונסו לבחור משפט.
- אם אי אפשר לבחור טקסט, הפעילו OCR.
- עברו על טקסט ה-OCR לפני התרגום.
- העלו את ה-PDF שעבר OCR אל מתרגם PDF.
- בדקו את הפלט המתורגם מול הסריקה המקורית.
אם ב-PDF שלכם כבר יש טקסט שאפשר לבחור בו והבעיה היא שימור הפריסה, השתמשו במדריך לתרגם PDF בלי לאבד את העיצוב.
למה קובצי PDF סרוקים נכשלים בכלי תרגום
PDF סרוק הוא לעיתים קרובות פשוט אוסף של תמונות עמודים בתוך קובץ PDF. העמוד אולי מציג מילים לקורא אנושי, אבל ייתכן שהקובץ לא מכיל טקסט אמיתי שתוכנה יכולה לחלץ.
זה יוצר כשל פשוט:
| סוג הקובץ | מה המתרגם רואה | מה קורה |
|---|---|---|
| PDF מבוסס טקסט | טקסט יחד עם נתוני פריסה | אפשר להתחיל בתרגום מיד. |
| PDF סרוק עם תמונות בלבד | תמונות של עמודים | חייבים OCR קודם. |
| PDF עם טקסט מעל תמונה | תמונת סריקה יחד עם שכבת OCR נסתרת | התרגום יכול לעבוד, אבל שגיאות OCR פוגעות באיכות. |
המבחן הכי שימושי אינו טכני:
- פתחו את ה-PDF.
- נסו לסמן מילים בודדות.
- העתיקו משפט.
- הדביקו אותו לעורך טקסט.
אם המשפט מודבק כראוי, ל-PDF יש שכבת טקסט. אם לא מודבק כלום, או שכל העמוד מתנהג כמו תמונה אחת, ה-PDF צריך OCR.
אי אפשר לוותר על OCR
OCR הוא זיהוי תווים אופטי. הוא קורא טקסט מתוך תמונה ויוצר טקסט שמכונה יכולה לקרוא. בתרגום PDF, OCR בדרך כלל יוצר שכבת טקסט בלתי נראית מעל העמוד הסרוק.
שכבת הטקסט הזאת הופכת למקור של התרגום. אם ה-OCR טועה, התרגום יורש את הטעויות האלה.
שגיאות OCR נפוצות:
| שגיאת OCR | סיכון בתרגום |
|---|---|
rn מזוהה כ-m | המשמעות של המילים משתנה. |
1 מזוהה כ-l | מספרים, הפניות או קודים הופכים לשגויים. |
O מזוהה כ-0 | מזהים, נוסחאות ושמות עלולים להישבר. |
| סימני דיאקריטיקה נעלמים | שמות ומונחים נעשים לא מדויקים. |
| עמודות מתמזגות | משפטים מתורגמים בסדר שגוי. |
| תאי טבלה נקראים שורה אחר שורה בצורה שגויה | תוויות הנתונים כבר לא תואמות לערכים. |
| הערות שוליים מטופלות כטקסט גוף | ציטוטים והערות עוברים להקשר הלא נכון. |
בגלל זה שלב בדיקת ה-OCR חשוב. אל תתרגמו מסמך סרוק לפני שבדקתם מדגמית את הטקסט שחולץ.
תהליך עבודה שמתחיל ב-OCR
שלב 1: זהו את סוג ה-PDF
נסו לבחור טקסט. אם הבחירה עובדת, אולי לא תצטרכו OCR. אם אי אפשר לבחור טקסט, התייחסו לקובץ כאל קובץ שמכיל תמונות בלבד.
כדאי גם לבדוק את העמוד חזותית:
- עמודים עקומים מרמזים על סריקה.
- מרקם נייר אפור מרמז על סריקה.
- צללים ליד השדרה מרמזים על ספר שצולם.
- ניגודיות לא אחידה מרמזת על צילום מסמך.
- חיפוש שלא מוצא מילים שנראות לעין מרמז שאין שכבת טקסט.
שלב 2: שפרו את הסריקה אם אפשר
איכות ה-OCR מתחילה באיכות התמונה. אם אפשר לסרוק מחדש, עשו זאת לפני שמבזבזים זמן על תיקון שגיאות OCR.
השתמשו ברשימת הבדיקה הזאת לאיכות תמונה:
- סרקו ברזולוציה גבוהה מספיק לטקסט קטן.
- הקפידו שהעמודים יהיו שטוחים וישרים.
- הימנעו מצללים ליד השדרה.
- חתכו שולי שולחן, אצבעות או רקע מבולגן.
- השתמשו בניגודיות חזקה בין הטקסט לעמוד.
- ודאו שכל השורה גלויה.
- השתמשו בכיוון העמוד הנכון.
- אל תדחסו את התמונה עד כדי כך שהאותיות מיטשטשות.
בספרים ישנים ובצילומים, השיפורים הגדולים ביותר מגיעים בדרך כלל מיישור, תיקון ניגודיות וסריקה מחדש של עמודים שאינם בפוקוס.
שלב 3: הפעילו OCR
בחרו כלי OCR לפי המסמך, לא לפי המותג.
| אפשרות OCR | הכי מתאים ל־ | מה כדאי לבדוק |
|---|---|---|
| Adobe Acrobat OCR | סריקות עסקיות כלליות וניקוי PDF | בדקו גישה בתוכנית הנוכחית לפני שסומכים עליו. |
| ABBYY FineReader | סריקות מורכבות, טבלאות, עמודות ופריסות קשות | עדיין נדרש מעבר ידני. |
| Tesseract or OCRmyPDF | תהליכי OCR מקומיים, טכניים וחוזרים על עצמם | מחייב נוחות עם כלים לשורת הפקודה. |
| כלי OCR מקוונים | קבצים מזדמנים עם סיכון נמוך | פרטיות, מגבלות קובץ ואיכות משתנות. |
| אפליקציות סריקה בטלפון | יצירה מהירה של סריקה חדשה | עיוות פרספקטיבה עלול לפגוע ב-OCR. |
לחוזים פרטיים, רשומות רפואיות, מסמכים פיננסיים, כתבי יד שטרם פורסמו או עבודות אקדמיות שנמצאות בבדיקה, העדיפו תהליך OCR מקומי או סביבה מהימנה. אל תעלו סריקות רגישות לאתרי OCR חינמיים אקראיים.
שלב 4: בדקו את טקסט ה-OCR
בדקו לפני התרגום, לא אחריו. העתיקו טקסט מכמה עמודים קשים ובדקו אם הוא קריא.
עמודים לדוגמה שכדאי לבדוק:
- עמוד השער.
- עמוד גוף צפוף.
- עמוד עם טבלה.
- עמוד עם הערות שוליים.
- עמוד עם טקסט קטן.
- עמוד עם חותמות, כתב יד או הערות בשוליים.
- עמוד בכל שפה אם המסמך רב־לשוני.
חפשו:
- פסקאות חסרות.
- עמודות שהתמזגו.
- מילים שבורות.
- תווים שגויים.
- דיאקריטיקה שאבדה.
- תוויות טבלה שנפרדו מהערכים.
- כותרות שהושתלו בתוך טקסט הגוף.
- מספרי עמודים שהתערבבו בתוך משפטים.
אם איכות ה-OCR נמוכה, תקנו אותה לפני התרגום. מתרגם לא יכול לשחזר באופן אמין משמעות שה-OCR מעולם לא קלט.
שלב 5: תרגמו את ה-PDF שעבר OCR
ברגע של-PDF יש שכבת טקסט נקייה, העלו אותו אל מתרגם PDF. שלב התרגום יכול עכשיו לעבוד עם טקסט במקום עם תמונות של עמודים.
אחרי התרגום, השוו בין:
- הסריקה המקורית
- שכבת טקסט ה-OCR
- ה-PDF המתורגם
ההשוואה המשולשת הזאת עוזרת לזהות אם שגיאה הגיעה מ-OCR או מהתרגום. אם טקסט ה-OCR שגוי, הריצו OCR מחדש. אם טקסט ה-OCR נכון אבל התרגום שגוי, תקנו את התרגום.
שלב 6: בדקו תוכן בסיכון גבוה
מסמכים סרוקים מכילים לעיתים קרובות בדיוק את התוכן שדורש בדיקה קפדנית: חוזים ישנים, טפסים ממשלתיים, מאמרים אקדמיים, מדריכים, מסמכים היסטוריים ועמודי ספרים.
בדקו ידנית את הפריטים האלה:
- שמות
- תאריכים
- מספרים
- כתובות
- קודי מוצר
- הפניות משפטיות
- ציטוטים
- תוויות טבלה
- יחידות
- משוואות
- כיתובים
- הערות שוליים
בקובצי מחקר ואקדמיה, קראו גם את המדריך לתרגום מאמרי מחקר אקדמיים, כי קובצי PDF אקדמיים סרוקים מוסיפים סיכוני ציטוט ופריסה מעבר לסיכון ה-OCR.
דוגמאות לכשלים זה לצד זה
השתמשו בטבלה הזאת בזמן בדיקת פלט ה-OCR.
| מה שהסריקה המקורית כנראה מציגה | פלט OCR גרוע | למה זה חשוב |
|---|---|---|
modern | modem | המשמעות משתנה לחלוטין. |
Section 10 | Section IO | הפניות משפטיות או טכניות עלולות להישבר. |
2026 | 2O26 | תאריכים ומזהים נעשים לא אמינים. |
patient | patlent | מונחים רפואיים או טכניים הופכים לשגויים. |
| שתי עמודות נפרדות | פסקה ממוזגת אחת | התרגום קורא משפטים בסדר הלא נכון. |
| שורת טבלה עם תוויות וערכים | שורה אחת של טקסט מעורבב | הנתונים כבר לא ממופים לתווית הנכונה. |
סימון הערת שוליים 1 | האות l | הערות עלולות להיצמד למשפט הלא נכון. |
אם אתם רואים את השגיאות האלה בשכבת ה-OCR, תקנו את ה-OCR לפני התרגום.
באיזה כלי כדאי להשתמש?
בחרו לפי רמת הקושי של המסמך.
| מסמך | מסלול מומלץ |
|---|---|
| סריקה עסקית נקייה | OCR ב-Acrobat או בכלי OCR אמין אחר, ואז מתרגם PDF. |
| סריקה של ספר ישן | יישרו את העמוד, שפרו ניגודיות, בצעו OCR בקפידה, ואז תרגמו. |
| סריקה של מאמר אקדמי | OCR, בדיקת משוואות/ציטוטים/טבלאות, ואז תרגום עם בדיקת פריסה. |
| הערות בכתב יד | ייתכן שתידרש תמלול ידני לפני התרגום. |
| מסמך אישי פשוט | OCR מקוון יכול להספיק אם סיכון הפרטיות נמוך. |
| מסמך רגיש | השתמשו ב-OCR מקומי או בתהליך מבוקר ומהימן. |
אם אתם רוצים השוואה רחבה יותר בין כלים, ראו את מדריך כלי תרגום ה-PDF הטובים ביותר.
בעיות נפוצות בקובצי PDF סרוקים
עמודים ברזולוציה נמוכה
סריקות ברזולוציה נמוכה מטשטשות אותיות זו לתוך זו. OCR עלול לבלבל בין rn ל-m, בין cl ל-d, או בין סימני פיסוק לאבק.
תיקון: סרקו מחדש אם אפשר. אם לא, הגדילו את הניגודיות ונסו OCR שוב.
עמודים עקומים או מעוקלים
סריקות של ספרים מתעקמות לעיתים קרובות ליד השדרה. OCR קורא את הקווים המעוקלים בצורה גרועה ועלול לשנות את סדר הטקסט.
תיקון: שטחו את העמוד, סרקו מחדש, או השתמשו בכלי OCR עם deskew ו-dewarping.
פריסה מרובת עמודות
OCR יכול למזג את העמודות השמאלית והימנית לזרם אחד של משפטים.
תיקון: בדקו את סדר הקריאה לפני התרגום. מאמרים אקדמיים דורשים כאן תשומת לב מיוחדת.
טבלאות
טבלאות קשות כי OCR צריך לזהות גם טקסט וגם מבנה. טבלה יכולה להיראות נכונה חזותית בזמן ששכבת הטקסט שגויה.
תיקון: העתיקו את טקסט ה-OCR מהטבלה ואשרו שהתוויות עדיין תואמות לערכים.
כתב יד וחתימות
OCR לטקסט מודפס אמין הרבה יותר מזיהוי כתב יד. הערות שוליים בכתב יד, חתימות וטפסים שמולאו ידנית עלולים להחמיץ או להתעוות.
תיקון: תמללו ידנית כתב יד חיוני לפני התרגום.
שפות מעורבות
OCR עובד הכי טוב כשהוא יודע מהי שפת המקור. סריקה עם אנגלית, צרפתית וסינית עלולה להיכשל אם ה-OCR מוגדר לשפה אחת בלבד.
תיקון: בחרו את כל שפות ה-OCR הרלוונטיות אם הכלי תומך בכך, ואז בדקו מדגמית כל מקטע שפה.
רשימת בדיקה לפרטיות ולאבטחה
לפני שמעלים PDF סרוק לכל מקום, שאלו:
- האם המסמך מכיל מידע אישי?
- האם הוא כולל חומר רפואי, משפטי, פיננסי, אקדמי או לא מפורסם?
- האם הוא כפוף להסכם לקוח או למדיניות מוסד לימודים?
- האם מותר להשתמש בשירות OCR מקוון עבור המסמך הזה?
- האם צריך במקום זאת תהליך מקומי?
- האם אפשר להסיר עמודים שלא צריכים תרגום?
קובצי PDF סרוקים הם לעיתים קרובות רגישים כי הם מגיעים מחוזים, תעודות זהות, טפסים, טיוטות מחקר וארכיונים פנימיים. התייחסו להחלטות העלאת OCR בדיוק כפי שהייתם מתייחסים למסמך המקורי.
שאלות נפוצות
איך מתרגמים PDF סרוק?
קודם מפעילים OCR כדי ליצור שכבת טקסט, בודקים את פלט ה-OCR, ואז מתרגמים את ה-PDF שעבר OCR בעזרת מתרגם PDF. אל תדלגו על שלב בדיקת ה-OCR.
למה Google Translate לא תרגם את ה-PDF הסרוק שלי?
ייתכן שה-PDF מכיל תמונה בלבד. אם אין שכבת טקסט, ל-Google Translate אין טקסט לחלץ. הפעילו קודם OCR, ואז תרגמו. התהליך הספציפי ל-Google מוסבר ב-מדריך Google Translate ל-PDF.
האם ChatGPT יכול לתרגם PDF סרוק?
ChatGPT יכול לעזור עם תמונות בודדות או עם טקסט שחולץ, אבל PDF סרוק מרובה עמודים עדיין צריך OCR ובדיקה. לתהליך מסמך מלא, קודם OCR ואז תהליך תרגום PDF.
מהו כלי ה-OCR הטוב ביותר לקובצי PDF סרוקים?
זה תלוי במסמך. כלים בסגנון Acrobat ו-ABBYY שימושיים לסריקות כלליות ומורכבות. Tesseract או OCRmyPDF שימושיים לתהליכים טכניים מקומיים. OCR מקוון יכול להתאים לקבצים פשוטים ובסיכון נמוך, אבל הפרטיות והאיכות משתנות.
האם OCR יכול לשמר עיצוב?
OCR יכול ליצור שכבת טקסט ולפעמים לשחזר את סדר הקריאה, אבל זה לא זהה לשימור הפריסה המקורית לאחר התרגום. אחרי OCR, השתמשו בתהליך תרגום PDF ובדקו את הפלט מול המקור.
מה אם איכות ה-OCR גרועה?
שפרו את הסריקה לפני התרגום. סרקו מחדש אם אפשר, יישרו עמודים, הגדילו ניגודיות, חתכו רעשי רקע, בחרו את שפת ה-OCR הנכונה, ובדקו שוב את העמודים הקשים.