[Alt-Text]

السبت ، 25 اكتوبر 2014 - العدد 14870
جريدة كويتية يومية سياسية شاملة
رئيس التحرير: وليد عبداللطيف النصف

التعرف الضوئي والآلي للحروف بتقنية ال OCR

تم النشر في 2008/01/02

كتب أسامة الكسواني:
لم تحظ الأمم من قبلنا بتقنية آلية كما عهدناها في عصرنا الحالي في تذييل الصعاب أمام كتبها ومجلداتها ونشرها للأمم التي بعدها، وكان التحدي على أشده بينهم في اختراع طريقة ميسرة تقوم على تحويل النصوص المأخوذة بطريقة الماسح الضوئي Scanner إلى نصوص يمكن التعامل معها، ونقصد بامكانية التعامل معها هو إمكانية تنقيح تلك الأحرف والنصوص بمختلف الطرق من تعديل وإضافة وإلغاء أو حتى إجراء عمليات البحث الحر بين تلك النصوص وأخيرا إمكانية تخزينها بقاعدة بيانات رقمية حتى تمكن مطورو البرامج من استخدامها ودمجها في برامح مساندة لعمليات الأرشفة الآلية الإلكترونية.
وكما نعلم أن العديد من المؤسسات العلمية والثقافية خصوصا دور البحوث والدراسات تقوم بالعديد من عمليات الأرشفة اليومية بشكل يدوي أم باستخدام الحاسوب الآلي، وقد بدأت منذ فترة ليست ببعيدة بانتهاج أسلوب القراءة الآلية للنصوص حتى تقوم بمساندتهم في مجال الأرشفة، ولا يمكن القول أنها تعتمد كليا عليها وذلك بسبب بعض الصعوبات التي ما زالت تواجه تلك التقنية خصوصا عند استخدامها للقراءة الآلية للنصوص العربية في وقتنا الحاضر، فكيف تعمل تلك التقنية وما فوائدها وسلبياتها؟


ماذا تعني كلمة OCR ؟
تعرف ال OCR بتقنية التعرف الضوئي أو التعرف الآلي على الحروف بشكل عام مع إمكانية دعمها للعديد من اللغات المعروفة وهي اختصار ل Optical Character Recognition، وهي تقنية كانت بدايتها من خلال بعض البرامج الصغيرة الحجم التي كانت تخدم فقط لغتين اثنتين وهما الإنكليزية والفرنسة فقط، ويطلق على تلك البرامج أسم تكست بريدج TextBridge مع العلم أن بداية نشأتها في بدايات التسعينات ولاقت نجاحا منقطع النظير آنذاك في تحويل العديد من الوثائق المصورة من خلال الماسحات الضوئية البدائية التقنية والفقيرة للعديد من المزايا المتواجدة الآن في تلك الأجهزة.

فكرة عمل التعرف الضوئي
تكمن الفكرة التي يقوم بها البرنامج بسيطة بشكل عام ولكنها أخذت سنتان من البحث والعمل المتواصل لمخترعي هذه التقنية، فكما نعلم أن الماسح الضوئي يقوم بتحويل الوثيقة إلى صورة عند إنشاء عملية مسح شامل لها، ويقوم بسؤال المستخدم بأي شكل يريد تلك الصورة، هل تكون ملونة أم باللونين الأبيض والأسود، ومن ثم تخزينها بالحاسوب، ويجب أن نذكر هنا أن الدور الأساسي الذي يلعبه هنا هو التطبيق المسؤول عن ذلك وليس الماسح الضوئي، ولكن أجهزة المسح بات لها دورا مساندا للعمل مع تلك التقنية، فبدأت الشركات بتصنيع ماسحات ضوئية فائقة الدقة، وتكون تلك الماسحات مختلفة السعر من الزهيد إلى الباهظ (حسب دقتها) وللبحث عن أفضلها يجب معرفة دقة ال DPI التي تستخدمه وهي اختصار لكلمة Dot Per Inch، فكلما زادت القيمة لها أصبحت الدقة عالية بالصورة أو الوثيقة المستخدمة في المسح الضوئي.
ولا ننسى أن الصورة الناتجة عن ذلك المسح الضوئي ناتجها يكون عبارة عن صورة فقط لا غير، أشكالا فقط، هذا ما يفهمه الحاسوب، فما الذي قام به المخترعون لتلك التقنية، حقيقة، لقد أوجدوا الطريقة التي قام بها التطبيق المعروف بالتعريف الضوئي بتحويل النصوص التي هي عبارة عن أشكال في بادئ الأمر (من الوثيقة الأصلية) إلى أرقام ورموز يمكن التعامل معها من خلال إمكانية التنقيح الكامل كما ذكرنا سابقا من تعديل وإضافة وإلغاء وغيره الكثير.

خصائص التعريف الضوئي
واجهت اللغة العربية بعض الصعوبات في بادئ الأمر من خلال استخدامها لتلك التقنية ويجب الذكر هنا أن شركة صخر رائدة الشركات العربية في تطوير وبرمجة العديد من التطبيقات والتقنيات المتطورة في مجال الصناعة الإلكترونية المعلوماتية مع تخصصها الكامل في جعل اللغة العربية أن يكون لها دورا بين اللغات الأخرى في إمكانية التعرف عليها، وبالفعل قامت بذلك الدور الفعال وأنتجت تطبيقا يفتخر به من بين التقنيات الأخرى التي أصبحت حتى الشركات الأجنبية التي تعتمد لغات غير العربية في بيئة عملها من استخدامها مما تسبب في تزويدها بجرعة ثقة عالية أدت إلى تطويرات جمة في مجال القارئ الآلي، فاللغة العربية تختلف عن باقي اللغات من حيث إمكانية كتابتها بمختلف الأشكال سواء كانت مشكلة أم غير مشكلة، ومن الخصائص المميزة للقارئ الآلي بشكل عام لجميع التطبيقات العامة:
1 ـ السرعة والقدرة على قراءة الأحرف، حيث تصل مابين 350 و750 حرفا في الثانية الواحدة.
2 ـ إمكانية حفظ النصوص بأشكال صيغ أخرى متعارف عليها، كصيغة ملف Microsoft Word أو PDF أو XML أو HTML أو إلى Unicode Characteristic وغيره الكثير من الصيغ المتداولة في التطبيقات الأخرى و المستخدمة بشكل يومي.
3 ـ إمكانية تمييز العديد من اللغات، حيث يدعم معظم اللغات الأوروبية إضافة إلى اللغة الفارسية و اللغة العربية وهي أصعبها على الإطلاق.
4 ـ يحتوي على مكتبة خطوط عالمية معتمدة مثل Open Type Font و True Type Font التي يمكنها أن تتعامل مع جميع أنظمة التشغيل إضافة إلى أنظمة تشغيل أجهزة الماكنتوش.
5 ـ القدرة على بناء فهرسة آلية من خلال تمييز النصوص بالكامل فيمكن استخدامها لاحقا بأدوات البحث الحر.
6 ـ إمكانية دعمها للعديد من أجهزة المسح الضوئي.
7 ـ إمكانية التعرف على النصوص في حال كانت الصفحات مقلوبة بدرجة 180 درجة.
8 ـ إمكانية تحديد الصور بالكامل وبشكل فعال، حيث يتم تحديد النصوص المتعلقة بها ووضعها بجانب كل صورة بعد عمل المسح والتعرف الضوئي من خلال التطبيق.
9 ـ إمكانية المحافظة على تجهيز الصفحات، فأحيانا تكون الصفحات مجهزة بطريقة الجداول من أعمدة وسطور وغيرها من الألوان أو من تكبير الخطوط، فتحافظ على التشكيل المخصص لها عند التحويل وإبرازه في مكان منفصل وذلك من خلال تقنية تعرف بتقنية ال WYSIWYG لتحرير النصوص.
10 ـ إمكانية المحافظة على التشكيل الخاص بالأحرف، فبالإمكان الآن أن يقوم المستخدم بتحديد تلك الميزة في استخدامها من عدمها في إظهار التشكيل الحرفي من ضمة وسكون وغيره من التشكيلات وذلك من خلال تقنية معروفة يطلق عليها أسم تقنية Training Technology وهي المسؤولة المباشرة عن دقة التعرف على الحروف.
11 ـ إمكانية التدقيق الإملائي للنصوص بمختلف اللغات المعروفة (تختلف تلك التدقيقات الإملائية من تطبيق إلى آخر).
12 ـ إمكانية التعرف على اللغات العالمية حتى وان كانت متواجدة بالصفحة نفسها
14 ـ امكانية حفظ الوثائق على شكل صور وحفظها بشكل ملف متعدد الصفحات، حيث بالإمكان وضع مجموعة كاملة من الصفحات بمساعدة من الماسح الضوئي الذي يدعم تقنية تسمى ADF Automatic Document Feeder ومن ثم حفظ تلك الوثائق بملف آلي واحد يمكن العمل عليه بشكل لاحق.
14 ـ إمكانية الاستفادة من النصوص المقروءة آليا وتحولها إلى البريد الإلكتروني مباشرة.
15 ـ امكانية دعم الفاكس: حيث يقوم بالتعرف على الوثائق المستلمة من أجهزة الفاكس وزيادة الدقة لها بنسب عالية جدا.
16 ـ تدعم العديد من أنظمة التشغيل مثل 98 Window Vista - XP - إضافة إلى العمل تحت بيئة نظام ماكنتوش.

تطبيقات تعمل بتقنية التعرف الضوئي
برنامج القارئ الآلي (صخر) Sakhr Automatic Reader: يعتبر من التطبيقات الرائدة في مجال التعريف الضوئي ومن أولى الشركات التي قامت بالتعامل مع اللغة العربية والفارسية.
تطبيق OmniPage: يعتبر من التطبيقات القديمة جدا، ولكنه لا يدعم اللغة العربية، مع إمكانية دعم العديد من اللغات الأخرى.
تطبيق ABBYY FineReader: الذي اشتهر في فترات سابقة وأصبح يلاقي العديد من التطوير والنتائج الرائعة في العمل تحت بيئة اللغات المتعددة ولكنه غير قادر على اعطاء مخارج الأحرف العربية بشكل محترف.
تطبيق Readiris: يعتبر من التطبيقات المنافسة لتطبيقات صخر، حيث الأدوات المستخدمة فيه متطورة جدا وسهولة في التعامل مع المستخدم وإلحاقها ببرامج عدة مع إضافة لبعض الأساليب الذكية في التعامل.
تطبيق CuneIform OCR: وهو من التطبيقات التي تعمل بكفاءة عالية لجميع اللغات، ولكنه لا يدعم اللغة العربية.
تطبيق APKeeper Pro: أحد التطبيقات التي تدعم اللغة الانكليزية فقط ولا تدعم اللغة العربية.

العيوب والتطبيقات
لا يمكن الجزم أن التطبيقات التي تدعم اللغة العربية التي لها الإمكانية في التعامل معها أنها تعمل بدقة عالية، حيث يمكن القول أنها تصل إلى دقة بنسبة 95% هذا في حالة كانت النصوص المستخدمة هي نصوص آلية، المعنى أنها نصوص آلية هو أنها بالأصل مطبوعة عن طريق الآلة الكاتبة أو عن طريق الكمبيوتر وليست بشكل يدوي، وذلك لأنه من الصعوبة التعرف على الخطوط المكتوبة بخط اليد وكلنا يعلم أن لكل شخص أسلوب خط محدد وكل مختلف عن الآخر، وبهذه الحالة يصعب على القارئ الآلي التمييز بين الأحرف، ليس هذا فقط بل تخيل لو أن تلك الخطوط تحتوي على تشكيلات، فكيف يجد طريقه أمام تلك الرسومات الغريبة برأيه، فالواضع لقواعد اللعبة في هذا
البرنامج لا يستطيع أن يتحكم بتلك الأمور، ولكن العلم الحديث لا يقف أمامهم، فسوف يأتي الوقت الذي بإمكان بعض التطبيقات التعرف على كتابة الخط اليدوي.
الأمر الآخر الذي يشترط فيه التعامل مع القارئ الآلي هو وجود دقة بنسبة لا تقل عن DPI 72 في أسوأ الأحوال، وهذه النسبة متواجدة أصلا في جميع الماسحات الضوئية بشكل عام، فيفضل إن أردت العمل تحت بيئة اللغة العربية أن تكون الدقة واضحة جدا على ألا يتم فقد بعض الأحرف من الملفات التي تكون مخرجات لتلك النتائج من القارئ الآلي، وللعلم أن الألوان المختلفة ليست بمشكلة أبدا فيمكن استخدام ألوان عدة ذات وضوح.

التعليقات

نأمل، عزيزنا القارئ، أن تشاركنا في اقتراحاتك،وتعليقاتك، وأفكارك، ومواضيعك.
سنهتم بكل ما ترسله لنا، وسيحظى باهتمام ادارة التحرير، التي تنشر كل ما هو صالح للنشر.
ونشكر تعاونكم

البريد الالكتروني يبقى سرّي و لا ينشر
Image CAPTCHA
Enter the characters shown in the image.

[Alt-Text]

الصلاة

الفجر 04:37 العصر 14:44
الشروق 05:57 المغرب 17:08
الظهر 11:32 العشاء 18:26