المساعد الشخصي الرقمي

عرض الإصدار الكامل : نصوص عربية من السكانر إلى برامج تحرير النصوص


يوراميوم
14-09-2006, 11:02
OCR أو Optical Character recognition التمييز البصري للحرف

دار هذا الحوار بيني وبين دكتور بالجامعة (جاري اللي ساكن فوقي) تخصص في مصر بهذا الأمر وكانت رسالته للدكتوراه بهذا الشأن

OCR هو عبارة عن برنامج يحول النصوص المكتوبة باليد أو المطبوعة (والمدخلة للحاسب عن طريق السكانر بالغالب) إلى نص قابل للتحرير

وبسكل أدق هو ترجمة صورة الحرف إلى الترميز المحدد له (ASCII, Unicode)*

في السابق كانت البرامج التي تقوم بهذا العمل تدرب باستخدام تقنيات الذكاء الصنعي وتعلم على فونت أو اثنين بتلقيمها الشكل الرئيسي للحرف

أما الأنظمة الحديثة فتستطيع تمييز فونات كثيرة وبدقة عالية، وبعض البرامج تستطيع تحويل ورقة من مجلة أجنبية مثلاً إلى نص قابل للتحرير مع الحفاظ على نوع الخط وترتيب الورقة وأماكن الصور وكأن شيئاً لم يحصل سوى أنها دبت الحياة بصورة الورقة (Adobe Acrobat)** مثلاً

وبالنسبة للأجهزة الكفية والموبايلات الحديثة التي تعتمد على الشاشات اللمسية أمثال PDAوال Palm وموبايلات مثل SonyEricsson P900, P910 تعتمد على الترتيب والطريقة والسرعة التي تكتب بها الحرف بيدك وبالنهاية تتوصل لنتيجة تقارنها بصورة الحرف المرسوم

لاحظوا أن هناك نسبة من مستخدمي هذه الأجهزة الكفية يجدون صعوبة في البداية برسمهم لحرف K و R فبحسب طريقتهم بالبدء بهذا الحرف والانتهاء منه تفهمه الأجهزة وهذا مالايتوافق مع الطريقة السليمة التي يرسم بها الحرف باليد

لذلك مفهوم طريقة رسم الحرف (من أي جزء تبدأ وبأي جزء تنتهي من الرسم) هو أمر هام

من البرامج التي تقوم بعميلة تمييز صور النصوص إلى نصوص قابلة للتحرير وهي بترتيب جودتها:

Adobe Acrobat**: وهو من إنتاج أدوبي (لقد شاهدت في الماضي نسخة منه تدعم العربية وهي 5.5 ME) ولكن لا أدري إن كانت النسخ الحديثة منه يوجد منها إصدار ME

OmniPage: وهو برنامج OCR يميز كل لغات العالم إلا اللغة العربية والعبرية وتقوم الشركة المنتجة له باستطلاع رأي لإدراج اللغة العربية على النسخة القادمة 16

Readiris: هذا البرنامج جيد وهو يدعم اللغة العربية ويمكنكم تجربته، لا أدري إن كان موجوداً بسوق الشام ولكني نزلته من الانترنت لحاجتي له وحجمه تقريباً 150 ميغا
والنسخة الجديدة منه رقمها 11

Microsoft Office Document Imaging: طبعاً من سياسة مايكروسوفت بحشر أنفها تقنياً بكل ما لايعنيها من برامج فقد أدرجت هذه الميزة على نسخ Office الجديدة فهي موجودة بنسخة 2002 و 2003 ولكنها قاصرة بالتمييز ولا تملك أدوات للغة العربية بعد

--------------------------------------------------------------------------------
*ASCII و Unicode: جداول ترميز وتحدد الطريقة التي يخزن بها المحرف المكتوب بالحاسب في أي نوع من أنواع الذاكرة هناك حديث مفصل يتناول هذا الأمر إن شاء الله

** Adobe acrobat: أقصد هنا Adobe Acrobat وليس Acrobat reader