BookTranslator
BookTranslator

كيفية ترجمة ملف PDF ممسوح ضوئيًا: الدليل الكامل لـ OCR + الترجمة

تحتوي ملفات PDF الممسوحة ضوئيًا على صور للنص، لا على نص فعلي — ولهذا يعيدها Google Translate من دون تغيير. إليك مسار عمل OCR + AI الذي يحل هذه المشكلة.

BookTranslator

BookTranslator Team

دلائل الترجمة11 min read

الإجابة السريعة: يحتاج ملف PDF الممسوح ضوئيًا إلى OCR قبل الترجمة

لترجمة ملف PDF ممسوح ضوئيًا، شغّل OCR أولًا لتحويل صور الصفحات إلى نص قابل للتحديد. بعد ذلك، ترجم ملف PDF المعالَج بتقنية OCR باستخدام مترجم مستندات مثل مترجم PDF. إذا تخطّيت OCR، فستعيد كثير من أدوات الترجمة الملف الأصلي كما هو، أو ستفوت صفحات، أو ستترجم فقط الأجزاء التي تحتوي أصلًا على طبقة نصية.

استخدم سير العمل هذا:

  1. افتح ملف PDF وحاول تحديد جملة.
  2. إذا لم تستطع تحديد النص، شغّل OCR.
  3. راجع نص OCR قبل الترجمة.
  4. ارفع ملف PDF المعالَج بتقنية OCR إلى مترجم PDF.
  5. راجع النسخة المترجمة مقارنةً بالمسح الأصلي.

إذا كان ملف PDF لديك يحتوي بالفعل على نص قابل للتحديد وكانت المشكلة هي الحفاظ على التخطيط، فاستخدم دليل ترجمة ملف PDF من دون فقدان التنسيق.

لماذا تفشل ملفات PDF الممسوحة ضوئيًا في أدوات الترجمة

غالبًا ما يكون ملف PDF الممسوح ضوئيًا مجرد مجموعة من صور الصفحات داخل حاوية PDF. قد تبدو الصفحة مليئة بالكلمات بالنسبة إلى الإنسان، لكن الملف قد لا يحتوي على نص فعلي يمكن للبرامج استخراجه.

وهذا يخلق نمط فشل بسيطًا:

نوع الملفما الذي يراه المترجمماذا يحدث
ملف PDF قائم على النصنص مع بيانات التخطيطيمكن بدء الترجمة فورًا.
ملف PDF ممسوح ضوئيًا يتكوّن من صور فقطصور للصفحاتيلزم OCR أولًا.
ملف PDF بنص فوق الصورةصورة المسح مع طبقة نص OCR مخفيةيمكن أن تعمل الترجمة، لكن أخطاء OCR تؤثر في الجودة.

الاختبار الأكثر فائدة ليس تقنيًا:

  1. افتح ملف PDF.
  2. حاول تمييز كلمات منفردة.
  3. انسخ جملة.
  4. الصقها في محرر نصوص.

إذا لُصقت الجملة بشكل صحيح، فهذا يعني أن ملف PDF يحتوي على طبقة نصية. وإذا لم يُلصق شيء، أو تصرفت الصفحة كلها كأنها صورة واحدة، فالملف يحتاج إلى OCR.

OCR ليس خطوة اختيارية

يشير OCR إلى التعرّف الضوئي على الحروف. فهو يقرأ النص من الصورة وينشئ نصًا يمكن للآلة قراءته. وفي ترجمة ملفات PDF، ينشئ OCR عادةً طبقة نصية غير مرئية فوق الصفحة الممسوحة ضوئيًا.

تصبح هذه الطبقة النصية هي المصدر الذي تعتمد عليه الترجمة. وإذا ارتكب OCR أخطاء، فستنتقل هذه الأخطاء إلى الترجمة.

أخطاء OCR الشائعة:

خطأ OCRخطر الترجمة
تُقرأ rn على أنها mتتغير معاني الكلمات.
تُقرأ 1 على أنها lتصبح الأرقام أو المراجع أو الرموز خاطئة.
تُقرأ O على أنها 0قد تتعطل المعرّفات والصيغ والأسماء.
سقوط العلامات المميزةتصبح الأسماء والمصطلحات غير دقيقة.
دمج الأعمدةتترجم الجمل بترتيب خاطئ.
قراءة خلايا الجدول صفًا بعد صف بشكل خاطئلم تعد تسميات البيانات مطابقة للقيم.
التعامل مع الحواشي السفلية على أنها متن النصتنتقل الاستشهادات والملاحظات إلى سياق غير صحيح.

ولهذا تُعد مراجعة OCR خطوة مهمة. لا تترجم مستندًا ممسوحًا ضوئيًا قبل أن تُجري فحصًا سريعًا على النص المستخرج.

سير العمل الذي يبدأ بـ OCR

الخطوة 1: تحديد نوع ملف PDF

جرّب تحديد النص. إذا نجح التحديد، فقد لا تحتاج إلى OCR. وإذا فشل، فتعامل مع الملف على أنه يتكوّن من صور فقط.

افحص الصفحة بصريًا أيضًا:

  • تشير الصفحات المائلة إلى أنه مسح ضوئي.
  • يشير ملمس الورق الرمادي إلى أنه مسح ضوئي.
  • تشير الظلال قرب التجليد إلى كتاب مُصوَّر.
  • يشير التباين غير المتساوي إلى نسخة مصورة.
  • عدم عثور البحث على كلمات ظاهرة يشير إلى عدم وجود طبقة نصية.

الخطوة 2: حسِّن جودة المسح إن أمكن

تبدأ جودة OCR من جودة الصورة. إذا كان بإمكانك إعادة المسح، فافعل ذلك قبل أن تمضي وقتًا في إصلاح أخطاء OCR.

استخدم قائمة التحقق الخاصة بجودة الصورة هذه:

  • امسح بدقة عالية بما يكفي للنصوص الصغيرة.
  • حافظ على الصفحات مسطحة ومستقيمة.
  • تجنب الظلال قرب التجليد.
  • اقتطع حواف الطاولة أو الأصابع أو فوضى الخلفية.
  • استخدم تباينًا قويًا بين النص والصفحة.
  • أبقِ السطر كاملًا ظاهرًا.
  • استخدم الاتجاه الصحيح للصفحة.
  • لا تضغط الصورة بقوة لدرجة تصبح فيها الحروف ضبابية.

بالنسبة للكتب القديمة والنسخ المصورة، تأتي أكبر التحسينات عادةً من تصحيح الميل، وضبط التباين، وإعادة مسح الصفحات الخارجة عن التركيز.

الخطوة 3: شغّل OCR

اختر أداة OCR بناءً على المستند، لا على العلامة التجارية.

خيار OCRالأنسب لـانتبه إلى
OCR في Adobe Acrobatعمليات المسح التجارية العامة وتنظيف ملفات PDFتحقّق من إتاحة الخطة الحالية قبل الاعتماد عليه.
ABBYY FineReaderعمليات المسح المعقدة والجداول والأعمدة والتخطيطات الصعبةما يزال يتطلب مراجعة يدوية.
Tesseract or OCRmyPDFمسارات OCR محلية وتقنية وقابلة للتكراريتطلب ارتياحًا لاستخدام أدوات سطر الأوامر.
أدوات OCR عبر الإنترنتملفات عرضية منخفضة المخاطرتختلف الخصوصية وحدود الملفات والجودة.
تطبيقات المسح بالهاتفالتقاط مسح جديد بسرعةقد يضر تشويه المنظور بجودة OCR.

بالنسبة للعقود الخاصة والسجلات الطبية والوثائق المالية والمخطوطات غير المنشورة أو الأعمال الأكاديمية قيد المراجعة، ففضّل مسار OCR محليًا أو بيئة موثوقة. لا ترفع المسوح الحساسة إلى مواقع OCR مجانية عشوائية.

الخطوة 4: راجع نص OCR

راجع النص قبل الترجمة، لا بعدها. انسخ نصًا من عدة صفحات صعبة وتحقق مما إذا كان مقروءًا.

صفحات نموذجية للفحص:

  • صفحة العنوان.
  • صفحة متن كثيفة.
  • صفحة تحتوي على جدول.
  • صفحة تحتوي على حواشٍ سفلية.
  • صفحة بخط صغير.
  • صفحة تحتوي على أختام أو كتابة يدوية أو ملاحظات هامشية.
  • صفحة من كل لغة إذا كان المستند متعدد اللغات.

ابحث عن:

  • فقرات مفقودة.
  • أعمدة مدمجة.
  • كلمات مكسورة.
  • أحرف خاطئة.
  • ضياع العلامات المميزة.
  • انفصال تسميات الجداول عن القيم.
  • إدراج الرؤوس داخل متن النص.
  • اختلاط أرقام الصفحات بالجمل.

إذا كانت جودة OCR ضعيفة، فأصلحها قبل الترجمة. لا يستطيع أي مترجم استعادة معنى لم يلتقطه OCR أصلًا بشكل موثوق.

الخطوة 5: ترجم ملف PDF المعالَج بتقنية OCR

بمجرد أن تصبح لدى ملف PDF طبقة نصية نظيفة، ارفعه إلى مترجم PDF. عندها يمكن لخطوة الترجمة أن تعمل على النص بدلًا من صور الصفحات.

بعد الترجمة، قارن بين:

  • المسح الأصلي
  • طبقة النص الناتجة عن OCR
  • ملف PDF المترجَم

تساعدك هذه المراجعة الثلاثية على تحديد ما إذا كان الخطأ صادرًا عن OCR أم عن الترجمة. إذا كان نص OCR خاطئًا، فأعد تشغيل OCR. وإذا كان نص OCR صحيحًا لكن الترجمة خاطئة، فأصلح الترجمة.

الخطوة 6: راجع المحتوى عالي المخاطر

غالبًا ما تحتوي المستندات الممسوحة ضوئيًا على النوع نفسه من المحتوى الذي يحتاج إلى مراجعة دقيقة: العقود القديمة، والنماذج الحكومية، والأوراق الأكاديمية، والكتيبات، والوثائق التاريخية، وصفحات الكتب.

راجع هذه العناصر يدويًا:

  • الأسماء
  • التواريخ
  • الأرقام
  • العناوين
  • رموز المنتجات
  • المراجع القانونية
  • الاستشهادات
  • تسميات الجداول
  • الوحدات
  • المعادلات
  • التسميات التوضيحية
  • الحواشي السفلية

وبالنسبة لملفات البحث والمواد الأكاديمية، اقرأ أيضًا دليل ترجمة الأوراق البحثية الأكاديمية، لأن ملفات PDF الأكاديمية الممسوحة ضوئيًا تضيف مخاطر تتعلق بالاستشهادات والتخطيط فوق مخاطر OCR نفسها.

أمثلة على الإخفاقات جنبًا إلى جنب

استخدم هذا الجدول أثناء مراجعة مخرجات OCR.

ما الذي يُحتمل أن يظهره المسح الأصليمخرجات OCR السيئةلماذا يهم ذلك
modernmodemيتغير المعنى بالكامل.
Section 10Section IOقد تنهار المراجع القانونية أو التقنية.
20262O26تصبح التواريخ والمعرّفات غير موثوقة.
patientpatlentتصبح المصطلحات الطبية أو التقنية خاطئة.
عمودان منفصلانفقرة واحدة مدمجةتقرأ الترجمة الجمل بترتيب خاطئ.
صف جدول يحتوي على تسميات وقيمسطر واحد من نص مختلطلم تعد البيانات مرتبطة بالتسمية الصحيحة.
علامة الحاشية السفلية 1الحرف lقد ترتبط الملاحظات بالجملة الخاطئة.

إذا رأيت هذه الأخطاء في طبقة OCR، فأصلح OCR قبل الترجمة.

أي أداة ينبغي أن تستخدم؟

اختر بناءً على صعوبة المستند.

المستندالمسار الموصى به
مسح تجاري نظيفOCR في Acrobat أو أداة OCR موثوقة أخرى، ثم مترجم PDF.
مسح لكتاب قديمصحّح الميل وحسّن التباين، ثم نفّذ OCR بعناية، ثم ترجم.
مسح لورقة أكاديميةنفّذ OCR، وراجع المعادلات والاستشهادات والجداول، ثم ترجم مع مراجعة التخطيط.
ملاحظات مكتوبة بخط اليدقد يلزم نسخها يدويًا قبل الترجمة.
مستند شخصي بسيطقد تكون OCR عبر الإنترنت مقبولة إذا كانت مخاطر الخصوصية منخفضة.
مستند حساساستخدم OCR محليًا أو مسار عمل موثوقًا ومضبوطًا.

إذا كنت تريد مقارنة أوسع بين الأدوات، فراجع دليل أفضل أدوات ترجمة PDF.

المشكلات الشائعة في ملفات PDF الممسوحة ضوئيًا

الصفحات منخفضة الدقة

تؤدي عمليات المسح منخفضة الدقة إلى طمس الحروف معًا. وقد يخلط OCR بين rn وm، أو بين cl وd، أو بين علامات الترقيم والغبار.

الحل: أعد المسح إن أمكن. وإن لم يكن ذلك ممكنًا، فزد التباين وجرّب OCR مرة أخرى.

الصفحات المائلة أو المنحنية

غالبًا ما تنحني عمليات مسح الكتب قرب التجليد. ويقرأ OCR السطور المنحنية بشكل سيئ وقد يعيد ترتيب النص.

الحل: افرد الصفحة، أو أعد مسحها، أو استخدم أداة OCR تدعم تصحيح الميل وإزالة التشوه.

التخطيط متعدد الأعمدة

قد يدمج OCR العمودين الأيسر والأيمن في تدفق واحد من الجمل.

الحل: افحص ترتيب القراءة قبل الترجمة. وتحتاج الأوراق الأكاديمية إلى عناية خاصة هنا.

الجداول

الجداول صعبة لأن OCR يجب أن يكتشف النص والبنية معًا. وقد يبدو الجدول صحيحًا بصريًا بينما تكون الطبقة النصية خاطئة.

الحل: انسخ نص OCR من الجدول وتأكد من أن التسميات ما تزال مطابقة للقيم.

الكتابة اليدوية والتوقيعات

OCR للنص المطبوع أكثر موثوقية بكثير من التعرّف على الكتابة اليدوية. وقد تُفقد الملاحظات الهامشية المكتوبة يدويًا، والتوقيعات، والنماذج المعبأة، أو تتحول إلى نص مشوّه.

الحل: انسخ يدويًا أي كتابة يدوية أساسية قبل الترجمة.

اللغات المختلطة

يعمل OCR بأفضل صورة عندما يعرف اللغة المصدر. وقد يفشل مسح يحتوي على الإنجليزية والفرنسية والصينية إذا ضُبط OCR على لغة واحدة فقط.

الحل: اختر جميع لغات OCR ذات الصلة إذا كانت الأداة تدعم ذلك، ثم افحص كل قسم لغوي فحصًا سريعًا.

قائمة التحقق الخاصة بالخصوصية والأمان

قبل رفع ملف PDF ممسوح ضوئيًا إلى أي جهة، اسأل:

  • هل يحتوي المستند على بيانات شخصية؟
  • هل يتضمن مواد طبية أو قانونية أو مالية أو أكاديمية أو غير منشورة؟
  • هل يخضع لاتفاقية عميل أو لسياسة مدرسة أو جامعة؟
  • هل يُسمح باستخدام خدمة OCR عبر الإنترنت لهذا المستند؟
  • هل تحتاج بدلًا من ذلك إلى مسار عمل محلي؟
  • هل يمكنك إزالة الصفحات التي لا تحتاج إلى ترجمتها؟

غالبًا ما تكون ملفات PDF الممسوحة ضوئيًا حساسة لأنها تأتي من عقود، وهويات، ونماذج، ومسودات بحثية، وأرشيفات داخلية. تعامل مع قرارات رفع الملفات إلى OCR بالطريقة نفسها التي تتعامل بها مع المستند الأصلي.

الأسئلة الشائعة

كيف أترجم ملف PDF ممسوحًا ضوئيًا؟

شغّل OCR أولًا لإنشاء طبقة نصية، ثم راجع مخرجات OCR، وبعدها ترجم ملف PDF المعالَج بتقنية OCR باستخدام مترجم PDF. لا تتخطَّ خطوة مراجعة OCR.

لماذا لم يترجم Google Translate ملف PDF الممسوح ضوئيًا؟

قد يكون ملف PDF مكوّنًا من صور فقط. وإذا لم تكن هناك طبقة نصية، فلن يجد Google Translate نصًا ليستخرجه. استخدم OCR أولًا، ثم ترجم. ومسار العمل الخاص بـ Google مشروح في دليل ترجمة PDF باستخدام Google Translate.

هل يمكن لـ ChatGPT ترجمة ملف PDF ممسوح ضوئيًا؟

قد يساعد ChatGPT في الصور الفردية أو النص المستخرج، لكن ملف PDF ممسوحًا ضوئيًا ومتعدد الصفحات ما يزال يحتاج إلى OCR ومراجعة. وللتعامل مع مستند كامل، استخدم OCR أولًا، ثم اتبع مسار عمل لترجمة PDF.

ما أفضل أداة OCR لملفات PDF الممسوحة ضوئيًا؟

يعتمد ذلك على المستند. أدوات مثل Acrobat وABBYY مفيدة لعمليات المسح العامة والمعقدة. كما أن Tesseract أو OCRmyPDF مفيدان لمسارات العمل التقنية المحلية. ويمكن أن يكون OCR عبر الإنترنت مناسبًا للملفات البسيطة منخفضة المخاطر، لكن الخصوصية والجودة تختلفان.

هل يمكن لـ OCR الحفاظ على التنسيق؟

يمكن لـ OCR إنشاء طبقة نصية، وأحيانًا استعادة ترتيب القراءة، لكنه ليس الشيء نفسه مثل الحفاظ على التخطيط الأصلي بعد الترجمة. بعد OCR، استخدم مسار عمل لترجمة PDF وراجع الناتج مقارنةً بالأصل.

ماذا لو كانت جودة OCR سيئة؟

حسّن المسح قبل الترجمة. أعد المسح إن أمكن، وصحّح ميل الصفحات، وزد التباين، واقتطع العناصر المشتتة، واختر لغة OCR الصحيحة، ثم راجع الصفحات الصعبة مرة أخرى.