المساعد الشخصي الرقمي

عرض الإصدار الكامل : ما هي الرموز التي تشملها مواصفة يونيكود؟


innosys
01-11-2001, 12:22
تعرّف مواصفة يونيكود كل الرموز المستخدمة في اللغات الرئيسية المكتوبة في العالم. وتتضمّن رموز اللغات الأوربية، ورموز اللغات التي تتم كتابتها من اليمين إلى اليسار، كاللغة العربية، ورموز اللغات الآسيوية.
وتشمل مواصفة يونيكود أيضاً علامات التنقيط، والأحرف المميزة (diacritics)، والرموز الرياضية، والرموز التقنية، والأسهم.. إلخ. وتزوّدنا بشيفرات للأحرف المميزة (diacritics)، وهي عبارة عن علامات معدّلة للرموز مثل علامة (~)، التي تُستخدم مع بعض الرموز الأساسية، لترميز الأحرف المصوتة أو المنبورة (مثل حرف &ntilde.
وبشكل عام، تزوّدنا مواصفة يونيكود بشيفرات ذات 49194 رمزاً من أبجديات العالم، ومجموعات الرموز التابعة لهذه اللغات.
يوجد حوالي 8000 نقطة تشفير غير مستخدمة حالياً، يمكن استخدامها في التوسع المستقبلي لترميز 16 بت، كما يوجد 917476 نقطة ترميز إضافية من خلال آلية التوسع UTF-16. وتحتفظ مواصفة يونيكود أيضاً بمقدار 6400 نقطة تشفير للاستخدامات الشخصية، والتي يمكن لمطوري البرامج والعتاد استخدامها داخلياً، للرموز والأشكال الخاصة بهم. وتوفر آلية التوسع UTF-16 ، بين أيدينا 131068 نقطة تشفير للاستخدامات الخاصة، للحالات التي تكون فيها 6400 نقطة غير كافية لبعض التطبيقات الخاصة.

صيغ الترميز
لا تكتفي مواصفات الترميز بتعريف هوية كل رمز، وقيمته الرقمية أو موقع شيفرته، بل إنها تحدد أيضاً كيفية تمثيل هذه القيمة بالبتات. وتعرّف مواصفة Unicode Standard Version 3.0 صيغتين للترميز تمثّلان هيئات التحويل في مواصفة ISO 10646، وهماUTF-8 وUTF-16.
وتعتبر هيئات التحويل في مواصفة Unicode/ISO/IEC 10646، وهما UTF-8 وUTF-16، طريقة لتحويل الترميز إلى بتّات فعلية مستخدمة في التطبيق. وتستخدم هيئة UTF-16 نقاط ترميز عيار 16 بت، وتسمح أن يُستخدم مجال معيّن من الرموز كآلية توسّع، بهدف تأمين مليون رمز إضافي، اعتماداً على أزواج رموز عيار 16 بت.
تعرف هيئة التحويل الأخرى باسم UTF-8 . وتعتبر هذه الهيئة طريقة لتحويل جميع رموز يونيكود إلى ترميز متغير الطول من البايتات. وتكمن فائدة هذه الهيئة في أن رموز يونيكود المقابلة لشيفرة ASCII المألوفة، تحمل نفس قيم البايتات التي تحملها شيفرة ASCII، وأن رموز يونيكود المحولة إلى هيئة UTF-8 يمكن استخدامها مع الكثير من البرمجيات المتوفرة، بدون الحاجة إلى كثيرٍ من إعادة صياغة البرامج. ويدعم اتحاد Unicode Consortium، بشكل كامل، استخدام هيئة UTF-8 لتحقيق مواصفة Unicode Standard. وبهذا يمكن تحويل أي رمز من رموز يونيكود، المعبر عنه بصيغة UTF-16 عيار 16 بت، إلى صيغة UTF-8، وإعادته إلى حالته الأصلية، بدون فقدان أية معلومات.

قاعدة التصميم
للقيام بعمل ناجح في ترميز ومعالجة وترجمة النصوص، يجب أن تكون مجموعة الرموز شاملة وفعالة وموحدة وواضحة. وتعتبر هذه المتطلبات القاعدة الأساسية لتصميم مواصفة Unicode Standard.

تحديد عناصر النص
يتم تمثيل اللغات المكتوبة باستخدام عناصر نصية لتشكيل الكلمات والجمل. وقد تكون هذه العناصر عبارة عن أحرف مثل “w”، أو“M”، أو رموز كتلك المستخدمة في لغة هيراغان اليابانية (Japanese Hiragan)، لتمثيل المقاطع، أو الأحرف التصويرية (ideographs)، كتلك المستخدمة في اللغة الصينية لتمثيل الكلمات الكاملة أو المفاهيم.
يتغّير تعريف عناصر النص، في الغالب، حسب العملية المطبقة على النص. ففي اللغة الإسبانية القديمة، مثلاً، يعتبر الرمز "II" عنصراً نصياً واحداً. لكن عند كتابة الكلمات الإسبانية على الكمبيوتر، فإنه يعتبر عنصرين منفصلين: "I" و"I".
لتجنب تحديد ما هو عنصر نص، وما هو ليس بعنصر نص في العمليات المختلفة، تحدد مواصفة يونيكود عناصر تشفير (تسمى الرموز). ويعتبر عنصر التشفير أساسياً لمعالجة النصوص على الكمبيوتر. وفي معظم الأحوال، فإن عناصر التشفير تمثّل عناصر النص الأكثر استخداماً. وفي حالة العنصر "II" في اللغة الإسبانية، فإن مواصفة يونيكود تعرّف كل عنصر "I" على أنه عنصر تشفير منفصل. وتعتبر عملية جمع عنصرين من "I"، من أجل التصنيف الأبجدي، من مهام البرمجيات التي تعالج النص. وكمثال آخر، فإن كل حرف صغير أو كبير في الأبجدية الإنجليزية يعتبر عنصر ترميز واحد.

معالجة النصوص
يشمل تعامل الكمبيوتر مع النصوص عمليات المعالجة والترميز. ولنفرض على سبيل المثال، أن أحد المستخدمين يقوم بطباعة نصوص على لوحة المفاتيح، باستخدام معالج نصوص. فتتلقى برمجيات النظام رسالة تدل على أن المستخدم قد ضغط على المفاتيح اللازمة للحرف "T"، المرمّز U+0054. ويخزن حينها معالج النصوص الرقم في الذاكرة، ثم يمرره إلى برمجيات العرض، المسؤولة عن إظهار الحرف على الشاشة. وتستخدم برمجيات العرض، التي قد تكون برنامجاً لإدارة النوافذ أو جزءاً من معالج النصوص ذاته، باستخدام هذا الرقم كفهرس لإيجاد صورة الحرف "T"، ورسمها على شاشة المرقاب Monitor. وتستمر هذه العملية مع قيام المستخدم بطباعة المزيد من الأحرف والرموز. تتعامل مواصفة يونيكود مع النصوص المرمّزة، ونصوص دلالات الألفاظ فقط. ولا تتعامل مع أي عملية أخرى تتم على النص. ويمكن على سبيل المثال، أن يقوم برنامج معالجة النصوص بتفقّد دخل المستخدم بعد أن تم ترميزه، بحثاً عن الأخطاء الإملائية، وإصدار صوت صافرة إذا وجد أية أخطاء. أو يمكنه أن يحشر فواصل سطرية (line breaks)، عندما يصل عدد الرموز الداخلة إلى عدد معين، اعتباراً من آخر فاصل سطري. وتمتاز مواصفة يونيكود في أنها لا تحدد كيفية إجراء هذه العمليات، طالما أن عمليات الترميز وفك الترميز، تتم بشكلها صحيح.

تفسير الرموز وإظهار الأحرف الرسومية
إن الفارق بين تحديد نقطة الترميز وبين إظهارها على الشاشة أو الورق، يعتبر هاماً جداً لفهم دور مواصفة يونيكود في معالجة النصوص. ويعتبر الرمز المعرّف عن طريق نقطة ترميز يونيكود، دخلاً مجرّداً، مثل الحرف اللاتيني A ("LATIN CHARACTER CAPITAL A")، أو الرقم البنغالي 5 ("BENGALI DIGIT 5"). والعلامة المنقوشة على الورق أو الشاشة-المسماة glyph-هي تمثيل مرئي للرمز.
لا تعرّف مواصفة يونيكود الصور المنقوشة (glyphs)، بل تعرّف طريقة تفسير الرموز، وليس طريقة إظهار النقوش (glyphs). ويعتبر محرك الإظهار البرمجي أو العتادي في الكمبيوتر، مسؤولاً عن ظهور الرموز على الشاشة. كما لا تحدد مواصفة يونيكود حجم أو شكل أو اتجاه الرموز على الشاشة.

تشكيل الرموز المركبة
يمكن ترميز عناصر النص كسلاسل رموز مركبة (composed character sequences). ويتم إظهار الرموز المتعددة مع بعضها خلال عملية العرض. فعلى سبيل المثال، يعتبر الرمز "â" رمزاً مركباً، تم إنشائه عن طريق إظهار الرمز "a" والرمز "^" مع بعضهما البعض. وتتألف سلسلة الرموز المركبة عادة، من رمز أساسي، يشغل حيزاً واحداً، ومعه رمز أو رموز أخرى، لا تفصل بينها مسافات، ويتم إظهارها في حيز الحرف الأساسي نفسه.
تحدد مواصفة يونيكود طريقة ترتيب الرموز المستخدمة لإنشاء الرمز المركب. ويأتي الرمز الأساسي أولاً، ثم الرموز الأخرى تباعاً بدون فراغات بينها. وإذا تم ترميز عنصر النص باستخدام أكثر من علامة غير فراغية (non-spacing mark)، فإن الترتيب الذي يتم وفقه تخزين العلامات غير الفراغية ليس مهماً، إذا كانت العلامات لا تتفاعل مع بعضها أثناء الطباعة. أما إذا كانت هذه العلامات تتفاعل مع بعضها البعض، فإن الترتيب يصبح مهماً. وتحدد مواصفة يونيكود طريقة تطبيق الرموز غير الفراغية على الرمز الأساسي.
تعتبر الرموز مسبقة التركيب (precomposed character) خياراً آخر لبعض الرموز المركبة. ويتم تمثيل كل رمز مسبق التركيب، عن طريق نقطة ترميز واحدة بدلاً من نقطتين أو أكثر، والتي يمكن أن تتوحد عند الإظهار. وعلى سبيل المثال، فإن الرمز "ü" يمكن ترميزه كنقطة ترميز واحدة "ü" U+00FC، أو كرمز أساسي U+0075 “u” متبوعاً بالرمز غير الفراغي U+0308 ”..” . وتقدم مواصفة يونيكود رموزاً مسبقة التركيب، للحفاظ على توافقيتها مع المواصفات القياسية المتداولة، مثل مواصفة Latin 1، التي تحتوي على العديد من الرموز المسبقة التركيب، مثل "ü" و"ñ".
يمكن تفكيك الرموز مسبقة التركيب لأغراض التجانس أو التحليل. وعلى سبيل المثال، فإن معالج النصوص الذي يستورد ملفاً نصياً يحتوي على الرمز المسبق التركيب "ü"، قد يقوم بتفكيك هذا الرمز إلى الرمز "u" متبوعاً بالرمز غير الفراغي "..". وبعد تفكيك الرمز يصبح من الأسهل على معالج النصوص التعامل مع الرمز، لأن معالج النصوص يستطيع الآن بسهولة، التعرف على الرمز على أنه الحرف "u" مع تعديلات. وهذا ما يسهّل التصنيف الأبجدي للغات، حيث لا تؤثر فيها معدلات الرموز على الترتيب الأبجدي للأحرف. وتجدر الإشارة إلى أن مواصفة يونيكود تعرّف تفكيك الرموز لجميع الرموز المسبقة التركيب.