معلوم أن الكتابة العربية على الإنترنت عموما رديئة إملائيا ونحويا، وويكيبيديا العربية ليست استثناءً فما ينطبق على سواها ينطبق عليها. من المعلوم أيضا أن النص لا يمكن أن يكون ذا جودة عالية ما دامت لغته رديئة، ومن المعلوم أيضا أن التدقيق اللغوي مهمة شاقة، ومن هنا يتحتم علينا أن نسخر وسائل التدقيق اللغوي الآلية لتُحسّن من جودة المقالات في ويكيبيديا وتوفر أوقات المساهمين الغالية، ونساعد القراء على الاستفادة من محتوى عربي أفصل.

لمحة تقنية عدل

في عدد من اللغات طُوّرت خوارزميات لتحلل سياق النص ليفهمه الحاسوب ويعالجه ويصححه لغويا. للأسف لا تزال اللغة العربية محرومة من هذه التقنيات المتقدمة، ولذا علينا اللجوء لوسائل أبسط لتدقيق الإملاء: علينا أن نفترض أن الحاسوب لا يستطيع تحليل اللغة العربية وسياقها. بطبيعة الحال سيكون التدقيق الإملائي أشمل لو تمكن الحاسوب أيضا من فهم السياق، لكن الشكوى لله. ثمة وسيلتان أعتمدهما حاليا، وهما:

  • الاقتصار على الصيغ الخاطئة دائما: ينبغي أن تكون الصيغة خاطئة مهما كان سياق الكلمة، لكن ينبغي التنبه لإشكال آخر أيضا وهو أن الكتابة العربية في الإنترنت عموما لا تُشكّل. هذا يجعلنا ملزمين أيضا باستثناء الصيغ التي قد تكون صحيحة إذا ما شُكّلت بطريقة مخنلفة (مثل مَدرَسة ومُدرّسِه)، فالآلة لا تستطيع فهم السياق ولا استنباط التشكيل ومن المهم أن يكون التدقيق الإملائي دقيقا جدا وألا ينتج عنه تخطيء لصيغ صحيحة.
  • الاعتماد على التحليل البياني: في ظل غياب القدرة على تحليل النص يمكن الاستفادة جدا من المخزون الهائل الذي تحتويه ويكيبيديا من نصوص. جرّبت ذلك مع تجربة تصحيح التاء المربوطة مثلا وكانت نتائجها دقيقة جدا. الفكرة بكل بساطة افتراض أن الصيغة إن كانت طاغية جدا، فثمة احتمال كبير جدا أن تكون هي الصيغة الصحيحة. تطبّق بعض الاستثناءات للتأكد من سلامة ذلك وهي مشروحة بالتفصيل في سياق التاء المربوطة مثلا.

جهود التصحيح الويكيبيدية عدل

تولى رفيقنا النكتة خلال سنين مضت تجهيز قائمة بالأخطاء الإملائية الشائعة وساهمت هذه القائمة في تنظيف ويكيبيديا من تلك الأخطاء فترة طويلة لكنها كانت محدودة ولم تشمل في آخر مراحلها سوى 523 كلمة. الإشكال الأساسي أن القائمة كانت ثابتة، فمثلا تحتوي القائمة كلمة الأمريكيون، لكن لو سُبقت هذه الكلمة الخاطئة بحرف عطف مثل: والامريكيون لما تمكن البرنامج من التعرف عليها وتصحيحها. بعد ذلك طورتُ التدقيق الإملائي ليعتمد على التعابير النمطية (وهي أسلوب برمجي لوصف النصوص بشكل فضفاض، يتيح للبرنامج التعرف على الأخطاء بشكل أوسع وأكثر مرونة)، وهذا فتح المجال لإدخال آلاف الكلمات والصيغ التي كانت مسثتناه بسبب جمود الصيغ السابقة (حروف العطف، وأل التعريف، وصيغ الجمع كلها مشمولة الآن مثلا).

للمزيد راجع /سكربتات

كيف تساهم؟ عدل

المساهمة لا تتطلب أي خبرة تقنية (جميع الأجزاء التقنية جاهزة)، لكنها تتطلب إلماما إملائيا ونحويا. نحتاج أن نحصر أكبر قدر ممكن من الأوزان والصيغ الخاطئة إملائيا أو نحويا بشرطين: ألا يعتمد الخطأ على السياق ولا على التشكيل. مثلا: إستفعال (بهمزة قطع) خاطئة مهما كان السياق والتشكيل، والصحيح أن تكون استفعال (مثل: استخراج، استكشاف، استخدام). ثمة حاليا مجموعة صيغ تصحح آليا، لكننا نعرف أن تلك الصيغ ناقصة، وثمة مجال واسع لتوسيعها. ستجد أدناه أقساما مختلفة تحتوي الصيغ التي تصحح والكلمات المعتمدة.

المساهمة باقتراح صيغ جديدة أو أفكار لتحليل البياني مرحب بها دائما:أرسل ما تراه ملائما وسنفحص الصيغة سويا ونطبقها. تذكر أن مساهمتك بصيغة واحدة قد تصحح مئات آلاف الأخطاء في ويكيبيديا وتساهم مساهمة عظيمة في تحسين المحتوى العربي الحر على الإنترنت. ثمة أيضا مجال آخر مهم للمساهمة وهو مراجعة القوائم التي يولدها الحاسوب: حين أحاول اختبار صيغة ما (لكي لا ينتج عنها أخطاء) أفحص جميع مقالات ويكيبيديا وأولد قائمة بها لأرى التغييرات التي ستنتج. نحتاج أشخاصا يتطوعون لمراجعة عينة من هذه التغييرات بشكل سريع لكي نضمن أنها سليمة.

العمل سابقا اقتصر على الصيغ الإملائية لكنه توسع ليشمل أيضا خطأ نحويا واحدا وهو الأفعال المضارعة المجزومة معتلة الآخر التي لم يحذف منها حرف العلة، لكنه تطلب مراجعة يدويا أدق. كملاحظة عامة عن قواعد التصحيح النحوي الآلي: بحكم أن الأخطاء النحوية تعتمد كثيرا على السياق، وبحكم أن الحاسوب لا يفهم السياق العربي يمكن أن تكون صيغ التصحيح الآلي عبارة عن أكثر من كلمة، مثلا: لا يمكن أن يسبق الاسم حرف جر وأن يكون منصوبا (طبعا على الصيغة أن تشمل قائمة بحروف الجر، ومعايير آلية لتحديد ما إذا كان الاسم منصوبا)، وهذه مهمتكم أيها اللغويين، وسأكفيكم ترجمة ما تقولون لصيغة يفهمها الحاسوب.

قائمة الكلمات عدل

إملاء
نحو

مساهمون عدل