افتح القائمة الرئيسية

الانحدار اللوجستي (بالإنجليزية Logistic regression) هو نموذج إحصائي ينتمي لنماذج الانحدار الخطي يمكن من نمذجة متغير ثنائي الحد بدلالة مجموعة من المتغيرات العشوائية المتوقعة، رقمية كانت أو فئوية. يستخدم الانحدار اللوجستي للتنبؤ باحتمالية وقوع حدث ما بمعرفة إضافية لقيم متغيرات يمكن أن تكون مفسرة أو مرتبطة بهذا الحدث.[1][2][3] يستخدم الانحدارُ اللوجستي عدة متغيرات مُتوقَّعة والتي يمكن أن تكون رقمية أو فئوية. يشتهر الانحدار اللوجستي أيضا بتسميات نموذج لوجيت (Logit) أو المصنف العام للأنتروبية. تستعمل هذه النمذجة بشكل واسع في العديد من التطبيقات العلمية والتجارية وهي من طرق النمذجة الأكثر تطبيقا في مجال التعلم الآلي، حيث تصنف ضمن طرق التعلم الآلي المراقب (Supervised Learning).

الانحدار اللوجستي هو حالة خاصة لمجموعة النماذج الخطية العامة، رغم أنه تاريخيا، تعتبر الأخيرة تعميما لتقنية الانحدار اللوجستي.

تاريخعدل

يعتبر الطبيب والإحصائي جوزيف بيركسون أول من عرف مفهوم الانحدار اللوجستي وطبقه في مجال الإحصاء الحيوي سنة 1944 ونشرت أول ورقة بحثية يذكر فيها الانحدار اللوجستي بإسمه في مجلة الجمعية الإحصائية الأمريكية. [4]

مجالات التطبيقعدل

في ما يلي عينة من مجالات تطبيق الانحدار اللوجستي مع الأمثلة:

  • في مجالات الطب والإحصاء الحيوي : مثلا احتمال حدوث نوبة قلبية عند شخص ما خلال فترة زمنية معينة حسب المعرفة القبلية ببعض المعلومات الديمغرافية (عمره أو جنسه مثلا) أو الطبية (مؤشراته البدنية أو الصحية أو الغذائية) أو الوبائية (سلوكياته كالتدخين مثلا).
  • الوبائيات : تقنيات النمذج
  • الصيدلة : في تقدير رد الفعل والمقارنة بين نجاعة الأدوية.
  • التأمينات : لفرز وتقسيم مجموعات العملاء حسب المخاطر ومدى قابلية جذبهم لمنتجات تأمين معينة.
  • المجال البنكي : خصوصا في تنقيط العملاء أثناء دراسة ملفات القروض (Credit Scoring).
  • التسويق : حساب توقعات ميل المستهلك إلى شراء منتج ما أو امتناعه عن الشراء.
  • في سبر الأراء والعلوم السياسية : مثلا للتنبؤ بقرار التصويت في الانتخابات اعتمادا على تنميط قبلي للمصوتين (مستواهم الاجتماعي، توجهاتهم السياسية، مستواهم التعليمي...).

النموذج الرياضيعدل

اصطلاحاتعدل

  • نعتبر عينة   سعتها  ، يشار لكل فرد (ملاحظة إحصائية) في العينة بالرمز  .
  •   هو المتغير النوعي المراد تفسيره ويحتمل قيمتين {0،1}. قيمة   بالنسبة للفرد   يرمز لها ب  .
  •   هي المتغيرات المفسرة ويمكن أن تكون رقمية أو نوعية. قيمة المتغيرات المفسرة بالنسبة للفرد   يرمز لها ب  .
  • الاحتمالان القبليان لتحقق القيمتين 0 أو 1 يشار إليهما ب   و  . وهما يساويان تباعا النسب الملاحظة للقيمتين 0 و 1 في العينة. الاحتمال هنا قبلي بمعنى أنه لا يستلزم معرفة قبلية بقيم  .
  • الاحتمالان الشرطيان لتحقق قيمة معينة ل   بمعرفة إضافية لقيم   يشار إليهما تباعا ب   و  . يشار للاحتمال الشرطي اللازم تقديره بالنسبة للفرد   ب  .

نموذج لوجيت (Logit)عدل

نموذج الانحدار اللوجستي يحاول تفسير دالة لوجيت المتغير المراد تفسيره بدلالة توليف خطي للمتغيرات المفسرة :

 ، بحيث   (  من 0 إلى   هي معاملات النموذج التي يجب تقديرها).

وهو ما يمكن من تقدير الاحتمال الشرطي حسب الصيغة التالية:

 

تقدير النموذجعدل

تقدير معاملات النموذج يتم حسب طريقة الإمكانية القصوى (Maximum likelihood estimation):

  • المتغير   موزع حسب توزيع ثنائي الحدين :  ، مما يمكن من وضع دالة تقدير الاحتمال الأرجح للعينة على الشكل التالي:  . الإمكانية القصوى تشير إلى احتمال تحقق العينة   عبر سحب عشوائي.
  • تهدف الطريقة إلى إيجاد متجهة المعاملات   التي تحقق القيمة القصوى ل  .
  • لتسهيل التعامل مع هذا المؤشر يتم استعمال لوغاريتم تقدير الاحتمال :  

المقدر   الذي يحقق القيمة القصوى ل   و   أن يمتلك الخصائص التالية:

في المراجع الرياضية للانحدار اللوجستي، وأيضا في البرامج الإحصائية، يستعمل أيضا ما يعرف بالانحراف الراسب (Residual Deviance) :   وباعتبار هذا المؤشر، يكون المقدر   هو الذي يحقق القيمة الدنيا ل  .

  دالة محدبة وبذلك تحتمل حلا وحيدا  . بخلاف نموذج الانحدار الخطي، لا يمكن إيجاد حل للمقدر بطريقة تحليلية: الحلول المتوفرة هي فقط تجريبية (Heuristic) وأهم الخوارزميات المستعملة في إيجاد المقدر   هي خوارزمية نيوتن رافسون (Newton-Raphson).

تقدير المعاملات بطريقة نيوتن رافسونعدل

  • يتم تثبيت متجهة المعاملات   في قيمة بدئية   (تكون مقتصرة مثلا فقط على قيمة   للمعامل الثابت و0 لباقي المعاملات).
  • يتم تكرار حساب قيم   حسب الخوارزمية:   بحيث:
    •   هي متجهة الاشتقاق الجزئي من الدرجة الأولى لدالة تقدير الاحتمال، وهي أيضا متجهة تدرج (Gradient) تؤول إلى 0 في جوار القيمة المثلى. تساوي قيم المتجهة :  
    •   هي متجهة الاشتقاق الجزئي من الدرجة الثانية لدالة تقدير الاحتمال.
    •   هي متجهة الحل المؤقت في المرحلة   من الحساب.

هناك ثلاثة معايير لضبط مآل الخوارزمية (وهي وسائط يمكن ضبطها في البرامج الإحصائية) :

  • عدد مرات التكرار أو الاستدعاء الذاتي للطريقة.
  •   المستوى الأدنى المقبول لتغير  ، إذا كانت     توقف.
  •   المستوى الأدنى المقبول لتغير  ، إذا كانت     توقف.

  مصفوفة هيسية، حيزها   وتكمن أهميتها في كون معكوستها تساوي مصفوفة تغاير المعاملات، وهي بذلك حاسمة في مرحلة اختبارات الدلالة الإحصائية للمعاملات. يمكن أيضا كتابتها (باستعمال المصفوفات) على الشكل التالي:

  مع   و   هي المصفوفة القطرية المشكلة من القيم  .

يمكن التعبير عن خوارزمية تقدير المعاملات عبر الكتابة المصفوفاتية حسب الشكل التالي:

 .

تقدير النموذج اللوجستي في البرامج الإحصائيةعدل

إكسلعدل

يمكن تطبيق تقنية الانحدار اللوجستي في إكسل يدويا (أي بدون استعمال وظائف معرفة قبليا) فقط عبر توليف الأدوات الحسابية المتوفرة واستعمال البرنامج المساعد Solver لإيجاد المقدرات المثلى للنموذج، وذلك عبر اتباع الخطوات التالية:

  • تنظيم جدول البيانات بالتمييز بين المتغير النوعي المراد تفسيره   والمتغيرات المفسرة  .
  • تثبيت قيم بدئية لمتجهة المعاملات :  .
  • بالنسبة لكل فرد إحصائي في جدول البيانات:
    1. حساب المقدار  
    2. ثم حساب المقدار   الذي يشكل تقديرا للاحتمال الشرطي بدلالة المعلومات المفسرة المتضمنة في المتغيرات .
    3. حساب المساهمة الفردية في   (لوغاريتم تقدير الاحتمال) :  
  • حساب الانحراف الراسب   عبر جمع المساهمات الفردية.
  • تشغيل خوارزمية استمثال باستعمال البرنامج المساعد Solver لحل البرنامج التالي:  والذي سيقوم بمحاكاة مجموعة كبيرة من التوليفات لقيم متجهة المعاملات   (التي تمثل قيد برنامج الاستمثال) حتى بلوغ أقل قيمة ممكنة ل .

آر (R)عدل

توفر بيئة آر العديد من المكتبات لتطبيق الانحدار اللوجستي:

  • وظيفة glm المتوفرة في مكتبة stats
  • وظيفة lrm المتوفرة في مكتبة rms
  • وظيفة gm_logistic المتوفرة في مكتبة Rfast

تقييم نموذج الانحدار اللوجستيعدل

على غرار طرق النمذجة المنحدرة من الانحدار الخطي، يستلزم نموذج الانحدار القيام بمجموعة من عمليات التقييم باستعمال تقنيات الاستدلال الإحصائي لضمان نجاعة النمذجة ولضمان مصداقيتها وضبط قوتها التوقعية. علاوة على المقاربة الإحصائية، يفرض استعمال الانحدار اللوجستي في التعلم الآلي المراقب القيام بطرق تقييم إضافية، تهدف بالأساس إلى ضمان استمرارية النموذج وقابليته للتطور والتغير حسب تطور المعرفة بالمتغيرات المفسرة.

على العموم، تنقسم طرق التقييم إلى صنفين:

  • طرق التقييم الذاتي أو الداخلي (Internal Evaluation)
  • طرق التقييم الخارجي (External Evaluation)

التقييم الذاتيعدل

يجب أن يكون التقييم مرافقا لعملية النمذجة منذ بدايتها، بدءا من التعريف الأولي للمسألة المراد نمذجتها إلى غاية حساب المعاملات وهوامش الخطأ. على العموم، تشمل عملية التقييم المراحل التالية:

  1. حصر المتغيرات المفسرة: هذه المرحلة تفرض إلماما وحدا أدنى من الخبرة في المجال الذي تطبق فيه النمذجة. اقتراح المتغيرات يجب أن يكون مسندا بحد أدنى من التأصيل النظري الذي يسمح بترشيحها كعوامل محتملة لتفسير المتغير  .
  2. تقدير المعاملات انطلاقا من عينة إحصائية   : يشمل التقييم هنا مدى احترام العينة للمنهج العلمي في عملية الاعتيان وهل تم تفادي (أو تقليل) التحيزات المعرفية أثناء عملية السبر، خصوصا في حالة المتغيرات النوعية الواصفة للأراء الشخصية.
  3. تقييم دقة تقدير المعاملات: بوضع مجالات ثقة للمعاملات ومستوى دلالتها الإحصائية.
  4. تقدير قوة النموذج التفسيرية : بمعنى هل يمكن النموذج من توقع مقبول لقيم   في العينة.
  5. التصديق على وجود حد أدنى من الارتباط بين   والمتغيرات المفسرة  .
  6. ترتيب المتغيرات المفسرة   حسب مساهمتها في تفسير  .
  7. تقدير تأثير مكونات العينة على نجاعة النموذج : يجب أن يشمل هذا التقييم حساسية النموذج لتغيرات قيم العينة ومدى تأثير القيم القصوى (الغير اعتيادية) على معاملات النموذج وقوته التفسيرية.

التقييم حسب المصنف المرجعيعدل

يندرج الانحدار اللوجستي ضمن طرق التعلم الآلي المراقب، ومن أهم طرق التقييم في هذا المجال أن تتم مقارنة قوة النموذج الناتج مع نموذج مرجعي يسمى المصنف المرجعي أو البديهي (Default Classifier). النموذج المرجعي هو بكل بساطة نموذج بديهي (Trivial) يفسر   دون معرفة بقيم المتغيرات  ، ويعتبر بذلك نموذجا بدئيا (Null Model) يقتصر فقط على المعامل الثابت  .

انطلاقا من مبدأ التقتير، أحد المبادئ الأساسية لعلم الإحصاء، يجب أن يكون أي نموذج انحدار مقترح على الأقل أحسن من النموذج المرجعي. يتم التقييم عبر المراحل التالية:

  1. تقدير قيمة المعمل الثابت   للنموذج المرجعي  :  .
  2. حساب الانحراف الراسب  .
  3. حساب الشبه - معاملات تحديد (Pseudo-R²) والتي تمثل مقاييسا لجودة النموذج (كلما اقتربت قيمتها من 1، كان النموذج ذا قوة تفسيرية معتبرة) وتكون دائما بدلالة الانحرافين الراسبين   و  .

شبه معاملات التحديد يمكن قراءتها أيضا كتقدير لنسبة مساهمة المتغيرات   في تفسير المتغير  . مثلا معامل بقيمة 0.2 يعني أن 80% من الظواهر المفسرة أو المؤثرة في   هي مضمرة وأن النموذج المقترح لا يفسر إلا 20 بالمائة من الظاهرة المدروسة. من المهم التأكيد على أن هذا المؤشر لا يحتمل قراءات معاملات التحديد في نموذج الانحدار الخطي (التي يفترض فيها تجاوز مستويات قبول معينة، 0.5 مثلا)، في هذا السياق، يكفي أن يكون غير منعدم (مثلا أكبر من 0.1) لكي يكون النموذج المقترح له قابلية التصديق، بمعنى أنه يفسر المتغير   أحسن من النموذج البديهي. في ما يلي أكثر المعاملات استعمالا مع صيغها الرياضية:

أكثر شبه معاملات التحديد استعمالا في تقييم نماذج الانحدار اللوجستي
شبه معامل التحديد (Pseudo-R²) الصيغة
R² ماك فادن McFadden  
R² كوكس وسنيل Cox & Snell  
R² ناغيلكرك Nagelkerke  


التقييم الخارجيعدل

التعريفعدل

 
الدالة اللوجستية باللون الأحمر حيث z يمثل المحور الأفقي و (ƒ(z يمثل المحور العمودي

تعريف الانحدار اللوجستي يبدأ بتعريف الدالة اللوجستية، و هي مثل نظرية الاحتمالات تأخذ قيم بين الصفر و واحد.

 

الدالة اللوجستية مهمة لأنها تأخذ مدخلات من سالب اللانهاية إلى موجب اللانهاية، لكن المخرجات تكون دائما بين الصفر و واحد. المتغير z يمثل المتغيرات المستقلة حيث (ƒ(z تمثل الاحتمال لمخرج معين لمجموعة من المتغيرات المستقلة. المتغير z يقيس مجموع مساهمة جميع المتغيرات المستقلة المستخدمة في هذا النموذج و التي تعرف باللوجت. المتغير z يعرف كالتالي:

 

هنا   هي نقطة قطع محور العينات، و  ،  ،  ، تسمى معاملات الانحدار. نقطة قطع محور العينات   تساوي z عندما تكون جميع المتغيرات المستقلة تساوي صفر (z لشخص بدون عوامل الخطورة ). كل معامل من معاملات الانحدار يمثل حجم عوامل الخطورة. العامل الانحداري الموجب يعني أن المتغير المستقل يزيد احتمال المخرج، وعلى العكس فإن العامل الإنحداري السالب يعني أن المتغير المستقل ينقص احتمال المخرج. والعامل الانحداري ذو القيمة الكبيرة يعني أن عامل الخطر يؤثر بشكل كبير على نسبة الاحتمال لهذا المخرج.

الانحدار اللوجستي هي طريقة مفيدة لتوضيح العلاقة بين المتغيرات المستقلة ( العمر، الجنس، إلخ.) و متغير الإجابة او الاحتمال، وهو يأخذ قيمتين مختلفتين. مثال لشخص شُخص بمرض السرطان فإن القيمتين لمتغير الإجابة تكون إما "سرطان" أو "بدون سرطان".

مراجععدل

  1. ^ "معلومات عن انحدار لوجستي على موقع catalogue.bnf.fr". catalogue.bnf.fr. مؤرشف من الأصل في 2 مايو 2019. 
  2. ^ "معلومات عن انحدار لوجستي على موقع d-nb.info". d-nb.info. 
  3. ^ "معلومات عن انحدار لوجستي على موقع id.worldcat.org". id.worldcat.org. 
  4. ^ بيركسون، جوزيف (شتنبر 1944). "Application of the logistic function to bio-assay". Journal of the American Statistical Association. 

مصادرعدل

  • Lohr, Sharon L. (1999). Sampling: Design and Analysis. Pacific Grove, California: Brooks/Cole. ISBN 0-534-35361-4. 
  • Agresti، Alan. (2002). Categorical Data Analysis. New York: Wiley-Interscience. ISBN 0-471-36093-7.