تعلم شجرة القرار

تعلم شجرة القرار[1] (بالإنجليزية: Decision tree learning)‏ تستخدم شجرة القرار للانطلاق من الملاحظات حول عنصر معين إلى الاستنتاج حول القيمة التي يحملها ذلك العنصر ممثلة بأوراق الشجرة، فيما يمثل العنصر ذاته بفروع الشجرة. وشجرة تعلم القرار هي إحدى طرق النمذجة التنبؤية التي تستخدم في الإحصاء، استخراج البيانات و تعلم الآلة.[2] تأخذ المتغيرات مجموعة منفصلة من القيم في أشجار القرار التي تُدعى بأشجار التصنيف؛ حيث تمثل الأوراق في هيئة الشجرة تصنيفات معينة فيما تمثل الفروع نقاط اقتران منطقي للخصائص التي تؤدي إلى تلك التصنيفات. أما أشجار القرار التي تستهدف متغيرات رقمية ذات قيم مستمرة (أرقام حقيقية) فتسمى بأشجار الانحدار (نسبة إلى الانحدار الخطي). في تحليل اتخاذ القرار، يُمكن أن تستخدم شجرة القرار لتمثيل القرارات وعمليات اتخاذ القرار بصرياً. في عمليات التنقيب في البيانات تصف أشجار القرار البيانات (لكن ناتج شجرة التصنيف يُمكن أن يكون من المدخلات لعملية اتخاذ القرار). يستخدم التدهور على نطاق واسع في العلوم والهندسة بسبب سهولة وضوحها.[3]

شجرة تظهر نجاة مسافري سفينة التايتنك فئة سيسب هي عدد الأزواج والاخوة على السفينة. الشكل تحت الأوراق يظهر احتمالية النجاة ونسبة المشاهدات في كل ورقة. باختصار: فرص نجاة الشخص جيدة إذا كان امرأة أو ذكر بعمر أقل من 9 سنوات ونصف مع 2.5 من الأخوة

خوارزمية عدل

تعمل الخوارزميات الخاصة بإنشاء أشجار من أعلى لأسفل، عن طريق اختيار متغير في كل خطوة تقسم مجموعة العناصر على أفضل نحو. تستخدم خوارزميات مختلفة مقاييس مختلفة لقياس «الأفضل». تعتمد معظم الأشجار على إنتروبيا أو مؤشر جيني (بالإنجليزية: Gini index)‏ لتقسيم البيانات. تعتمد العديد من الأشجار المعروفة، مثل C4.5 و ID3،[3][4] على الانتروبيا. يتم تعريف الانتروبي على النحو التالي:

 

حيث p1 ، p2 ،... هي الكسور التي تضيف ما يصل إلى 1 وتمثل النسبة المئوية لكل تصنيف (أو فئة) موجودة في العقدة الفرعية الناتجة عن انقسام في الشجرة و يسمى المتغير IE كسب المعلومات.[5]

ولحساب شوائب جيني لمجموعة من العناصر مع J تصانيف، افترض i∈ {1,2 ،... ، J} ، ودع pi هو جزء صغير من العناصر المسمى تصنيف i في المجموعة.[5]

 

انظر أيضًا عدل

مراجع عدل

  1. ^ معجم البيانات والذكاء الاصطناعي (PDF) (بالعربية والإنجليزية)، الهيئة السعودية للبيانات والذكاء الاصطناعي، 2022، ص. 61، QID:Q111421033
  2. ^ T. Hastie, R. Tibshirani, and J. Friedman, “The Elements of Statistical Learning,” Bayesian Forecast. Dyn. Model., vol. 1, pp. 1–694, 2009.
  3. ^ أ ب Piryonesi، S. M.؛ El-Diraby، T. E. (2020) [Published online: December 21, 2019]. "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. ج. 26 ع. 1. DOI:10.1061/(ASCE)IS.1943-555X.0000512.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: url-status (link)
  4. ^ "Piryonesi, S. M., & El-Diraby, T. (2018). Using Data Analytics for Cost-Effective Prediction of Road Conditions: Case of The Pavement Condition Index:[summary report] (No. FHWA-HRT-18-065). United States. Federal Highway Administration. Office of Research, Development, and Technology". مؤرشف من الأصل في ۲ فوریه ۲۰۱۹. {{استشهاد ويب}}: تحقق من التاريخ في: |تاريخ أرشيف= (مساعدة)
  5. ^ أ ب Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.".

وصلات خارجية عدل