تعلم شجرة القرار

تعلم شجرة القرار^[1] (بالإنجليزية: Decision tree learning)‏ تستخدم شجرة القرار للانطلاق من الملاحظات حول عنصر معين إلى الاستنتاج حول القيمة التي يحملها ذلك العنصر ممثلة بأوراق الشجرة، فيما يمثل العنصر ذاته بفروع الشجرة. وشجرة تعلم القرار هي إحدى طرق النمذجة التنبؤية التي تستخدم في الإحصاء، استخراج البيانات و تعلم الآلة.^[2] تأخذ المتغيرات مجموعة منفصلة من القيم في أشجار القرار التي تُدعى بأشجار التصنيف؛ حيث تمثل الأوراق في هيئة الشجرة تصنيفات معينة فيما تمثل الفروع نقاط اقتران منطقي للخصائص التي تؤدي إلى تلك التصنيفات. أما أشجار القرار التي تستهدف متغيرات رقمية ذات قيم مستمرة (أرقام حقيقية) فتسمى بأشجار الانحدار (نسبة إلى الانحدار الخطي). في تحليل اتخاذ القرار، يُمكن أن تستخدم شجرة القرار لتمثيل القرارات وعمليات اتخاذ القرار بصرياً. في عمليات التنقيب في البيانات تصف أشجار القرار البيانات (لكن ناتج شجرة التصنيف يُمكن أن يكون من المدخلات لعملية اتخاذ القرار). يستخدم التدهور على نطاق واسع في العلوم والهندسة بسبب سهولة وضوحها.^[3]

خوارزمية

تعمل الخوارزميات الخاصة بإنشاء أشجار من أعلى لأسفل، عن طريق اختيار متغير في كل خطوة تقسم مجموعة العناصر على أفضل نحو. تستخدم خوارزميات مختلفة مقاييس مختلفة لقياس «الأفضل». تعتمد معظم الأشجار على إنتروبيا أو مؤشر جيني (بالإنجليزية: Gini index)‏ لتقسيم البيانات. تعتمد العديد من الأشجار المعروفة، مثل C4.5 و ID3،^[3]^[4] على الانتروبيا. يتم تعريف الانتروبي على النحو التالي:

$\mathrm {H} (T)=\operatorname {I} _{E}\left(p_{1},p_{2},...,p_{J}\right)=-\sum _{i=1}^{J}{p_{i}\log _{2}p_{i}}$

حيث p1 ، p2 ،... هي الكسور التي تضيف ما يصل إلى 1 وتمثل النسبة المئوية لكل تصنيف (أو فئة) موجودة في العقدة الفرعية الناتجة عن انقسام في الشجرة و يسمى المتغير I_E كسب المعلومات.^[5]

ولحساب شوائب جيني لمجموعة من العناصر مع J تصانيف، افترض i∈ {1,2 ،... ، J} ، ودع p_i هو جزء صغير من العناصر المسمى تصنيف i في المجموعة.^[5]

$\operatorname {I} _{G}(p)=\sum _{i=1}^{J}p_{i}\sum _{k\neq i}p_{k}=\sum _{i=1}^{J}p_{i}(1-p_{i})=\sum _{i=1}^{J}(p_{i}-{p_{i}}^{2})=\sum _{i=1}^{J}p_{i}-\sum _{i=1}^{J}{p_{i}}^{2}=1-\sum _{i=1}^{J}{p_{i}}^{2}$