مستخدم:John Abdo/Linear regression

يُعنى علم الإحصاء بالطريقة الخطية لنمذجة العلاقة بين الاستجابة العددية (أو المتغير التابع dependent) ومتغير أو أكثر من المتغيرات المستقلة (التفسيرية) independent،  وتعرف هذه الطريقة باسم "الانحدار الخطي "linear regression  . وفي حالة كان هناك متغير تفسيري واحد explanatory فإنه يسمى بالانحدار الخطي البسيط simple linear regression.. أما إذا كان هناك أكثر من متغير تفسيري ، فتسمى هذه العملية الانحدار الخطي المتعدد  multiple linear regression. [1] ويختلف هذا المصطلح عن الانحدار الخطي متعدد المتغيرات  multivariate linear regression, من حيث أنه يتم التنبؤ بالمتغيرات التابعة المرتبطة المتعددة  بدلاً من المتغير القياسي الأحادي. [2]

ويتم في أسلوب الانحدار الخطي نمذجة العلاقات بين المتغيرات باستخدام الدوال المتنبِأة الخطية linear predictor functions التي يتم تقدير معالم نموذجها المجهولة من البيانات. وتسمى هذه النماذج "النماذج الخطية linear models". [3] إذا كان المعطى قيم المتغيرات التفسيرية (أو المتنبأة)، فالدارج (الشائع بكثرة) أننا نفترض أن المتوسط الشرطي لمتغير الاستجابة دالة تقريبية لتلك القيم أو أن نستخدم الوسيط الشرطي أو بعض الميئويات الأخرى وهذا أقل شيوعاً.إذا كان المعطى القيم المتنبأة فإن أسلوب الانحدار الخطي، مثله كل أشكال تحليل الانحدار، يركز على التوزيع الاحتمالي الشرطي conditional probability distribution للمتغير المستقل بدلاً من التوزيع الاحتمالي المشترك joint probability distribution لكل هذه المتغيرات ، والذي هو مجال التحليل متعدد المتغيرات multivariate analysis.

وسندرس فيما يلي النوع الأول من تحليل الانحدار، " الانحدار الخطي"، والذي يتم استخدامه على نطاق واسع في التطبيقات العملية. [4] وذلك لأن النماذج التي تعتمد خطيًا على معلماتها المجهولة يكون توفيقها أسهل من النماذج المرتبطة بمعلماتها بشكل غير خطي إلى جانب سهولة تحديد الخصائص الإحصائية للمقدرات الناتجة. وللانحدار الخطي العديد من الاستخدامات والتطبيقات العملية، التي ينقسم معظمها إلى إحدى الفئتين التاليتين:

  • الفئة الأولى: هدفها التنبؤ prediction ( أو التنبؤ forecasting ) أو تقليل الخطأ. وهنا، يمكن تطبيق الانحدار الخطي لتوفيق النموذج التنبؤي لمجموعة بيانات مشاهدة من قيم متغير الاستجابة والمتغيرات التفسيرية. و بعد وضع مثل هذا النموذج ، يمكن استخدام النموذج التوفيقي للتنبؤ بمتغير الاستجابة إذا تم جمع قيم إضافية للمتغيرات التفسيرية دون معلومية قيمة متغير الاستجابة الذي يقابلها.
  • الفئة الثانية: هدفها شرح التباين في متغير الاستجابة والذي يمكن أن يعزى إلى التباين في المتغيرات التفسيرية . وهنا، يمكن تطبيق تحليل الانحدار الخطي لتحديد قوة العلاقة بين الاستجابة والمتغيرات التفسيرية ، ولا سيما لتحديد ما إذا لم تكن هناك علاقة خطية على الإطلاق بين بعض المتغيرات التفسيرية ومتغير الاستجابة ، أو لتحديد أيٌ من المجموعات الفرعية من المتغيرات التفسيرية قد تحتوي على معلومات زائدة عن متغير الاستجابة.

و غالبًا ما يتم توفيق نماذج الانحدار الخطي باستخدام طريقة المربعات الصغرى Least Square (LS) method ، ولكن هناك طرق أخرى للتوفيق ، مثل تقليل "عدم التوفيق" في بعض القواعد الأخرى (كما هو الحال مع انحدار الانحرافات المطلقة الصغرى least absolute deviations regression) ، أو عن طريق تقليل الإصدار العقابي penalized version في تقدير دالة تكلفة المربعات الصغرى least squares cost function  كما هو الحال في الانحدار الحَرْفي  ridge regression (RR)  (L2-norm penalty) و lasso (L1-norm penalty). وعلى العكس ، يمكن استخدام طريقة المربعات الصغرى لتوفيق النماذج التي لاتكون نماذج خطية. وبالتالي ، على الرغم من أن مصطلحي "المربعات الصغرى" و "النموذج الخطي" مرتبطان ارتباطًا وثيقًا ، إلا أنهما ليسا مرادفين لبعضهما.

المقدمة

عدل
 
في الانحدار الخطي ، يُفترض أن الملاحظات ( الحمراء ) هي نتيجة انحرافات عشوائية ( خضراء ) عن علاقة أساسية ( زرقاء ) بين متغير تابع ( ص ) ومتغير مستقل ( س ).

إذا كان من المعطى مجموعة بيانات  من عدد  nمن الوحدات الإحصائية ، يفترض نموذج الانحدار الخطي أن العلاقة بين المتغير التابع y و متجه-p من x من المتغيرات الانحدراية regressors x هي علاقة خطية. و تتم نمذجة هذه العلاقة من خلال حد الانحرافات distrurbance term أو حد الخطأ ε, Error term, (متغير عشوائي لا يمكن مشاهدته ، كما أنه يضيف " تشويش noise" للعلاقة الخطية بين المتغير التابع y و المتغيرات الانحدراية (regressors. وبالتالي يأخذ النموذج الشكل التالي: 

 

حيث تشير T إلى مقلوب المصفوفة (قلب الصفوف أعمدة والأعمدة صفوف) ، بحيث يكون xiTβ هو حاصل الضرب الداخلي بين المتجهين xi و β.

و غالبًا ما يتم تكديس هذه المعادلات معًا وكتابتها في شكل مصفوفة على النحو التالي

 

حيث

 
 
  • بعض الملاحظات على التدوين والمصطلحات: إن y هو عبارة عن متجه القيم المشاهدة   للمتغير المعروف بالمنحدر عليه regressand، متغير داخلي endogenous variable، متغير الاستجابة response variable، متغير مُقاس measured variable ، متغير محكي (معياري) criterion variable، أو متغير تابع dependent variable. كما يُعرف هذا المتغير أيضًا في بعض الأحيان باسم متغير متنبئ به predicted variable ، لكن ينبغي عدم الخلط بينه وبين القيم المتنبئ بها predicted values التي يشار إليها  . و قد يستند القرار حول أيُ متغيرٍ في مجموعة بيانات يتم نمذجته كمتغير تابع وأي منهم يتم نمذجتهم كمتغيرات مستقلة إلى افتراض سابق بأن قيمة أحد المتغيرات ناتجة عن أو تتأثر مباشرة بمتغيرات أخرى. وبدلاً من ذلك ، قد يكون هناك سبب تشغيلي operational reason لنمذجة أحد المتغيرات من حيث المتغيرات الأخرى ، وفي هذه الحالة لا يُحتاج إلى افتراض السببية. يمكن النظر إلى Xعلى أنها مصفوفة لمتجهات الصف   أو مصفوفة متجهات العمود   من الدرجة   للمتغيرات الانحداراية regressors، المتغيرات الخارجية  exogenous variables ، المتغيرات التفسيرية explanatory variables، المتغيرات المتغايرة covariates ، المتغيرات الداخلة input variables، المتغيرات المتنبِأةpredictor variables  ، أو المتغيرات المستقلة independent variables (ينبغي عدم الخلط بينها وبين مفهوم المتغيرات العشوائية المستقلة). وتُعرف المصفوفة  X أحيانًا بمصفوفة التصميم design matrix.
  • عادة ما يتم تضمين الثابت كواحد من المتغيرات الانحدارية regressors. على وجه الخصوص for  . و يسمى العنصر المقابل لمتجه المعالم  β "الجزء المقطوع من محور الصادات". تتطلب العديد من إجراءات الاستدلال الإحصائي للنماذج الخطية وجود هذا الجزء المقطوع، لذلك غالبًا ما يتم تضمينها حتى لو أشارت الاعتبارات النظرية إلى أن قيمتها يجب أن تكون صفرية. في بعض الأحيان ، يمكن أن يكون أحد المتغيرات الانحداراية regressors  دالة غير خطية لمتغير انحداري regressor آخر أو للبيانات ، كما هو الحال في الانحدار متعدد الحدود polynomial regression والانحدار المجزأ segmented regression. و يبقى النموذج خطيًا طالما أنه خطي في متجه المعلمة β. يمكن النظر إلى قيمxij  على أنها إما قيم المشاهدة للمتغيرات العشوائيةXj  أو قيم ثابتة مختارة قبل مشاهدة المتغير التابع. وقد يكون كلا التفسيرين مناسباً في حالات مختلفة، يؤديان بشكل عام إلى نفس اجراءات التقدير؛ ومع ذلك تستخدم طرق مختلفة للتحليل التقاربي asymptotic analysis في الوضعين السابقين. إن β هو متجه المعالم من  الدرجة (p+1) حيث β0 هو حد الجزء المقطوع (إذا كان ضمن النموذج وإذا لم يكن موجوداً فإن β من الدرجة p). و تُعرف عناصر هذا المتجه ب effects ، أو معاملات الانحدار  regression coefficients على الرغم من أن المصطلح الأخير يكون محفوظاً عادة للتأثيرات المقدرة estimated effects. ويركز التقدير والاستدلال الاحصائي في الانحدار البسيط على β . وتفسر عناصر هذا المتجه على أنها مشتقات جزئية للمتغير التابع بالنسبة إلى المتغيرات المستقلة الأخرى. إن   هو متجه القيم  . وهذا الجزء من النموذج يسمى حد الخطأ  error term، حد الانحرافات disturbance term أو التشويش noise (على عكس "الإشارة" التي يوفرها باقي النموذج). يُمسِك هذا المتغير بكل العوامل الأخرى التي تؤثر على المتغير التابع  غير متغيرات الانحدار . إن اعتبار العلاقة بين حد الخطأ والمتغيرات الانحداراية، ارتباطهم مثلاً، أمر هام جداً في تشكيل نموذج الانحدار الخطي، لأنها ستحدد الطريقة المناسبة للتقدير. مثال. لنأخذ الوضع الذي يتم فيه رمي كرة صغيرة في الهواء وبعد ذلك نقيس ارتفاع صعودها ti في لحظات مختلفة في زمن . وحسب علم الفيزياء وبتجاهل قوة السحب drag force ، يمكن صياغة العلاقة على النحو التالي:
 

حيث تحدد β1 السرعة الأولية للكرة ، β2 متناسبة طردياً مع الجاذبية  الأرضية القياسية ، وقيم εi ناتجة عن أخطاء القياس. يمكن استخدام الانحدار الخطي لتقدير قيم β1 و β2 من البيانات المقاسة. هذا النموذج غير خطي في متغير الزمن ، لكنه خطي في المعلمتين β1 و β2،  و إذا أخذنا المتغيرات الانحداراية  في الاعتبار، فإن النموذج يأخذ الصورة القياسية التالية:

 

الافتراضات

عدل

تقدم النماذج القياسية للانحدار الخطي مع طرق التقدير القياسية عددًا من الافتراضات حول المتغيرات المتنبِأة ومتغيرات الاستجابة وعلاقاتها. لقد تم تطوير العديد من الامتدادات لنماذج الانحدار الخطي التي تسمح بتخفيف كل واحد من هذه الافتراضات (أي اختزالها إلى شكل أضعف) ، وفي بعض الحالات إزالتها تمامًا. ولكنها تجعل إجراء التقدير أكثر تعقيدًا ، كما قد تتطلب أيضًا المزيد من البيانات لإنتاج نموذج دقيق بنفس القدر مما يستغرق وقتًا طويلًا بشكل عام.فيما يلي الافتراضات الرئيسية التي قدمتها النماذج القياسية للانحدار الخطي مع طرق التقدير القياسية (مثل طريقة المربعات الصغرى العادية):

 
مثال على الانحدار متعدد الحدود المكعب ، وهو نوع من الانحدار الخطي.
  • فرض(1): ضعف التجانس الخارجي هذا يعني أساساً أنه يمكن التعامل مع متغيرات التوقع x كقيم ثابتة ، بدلاً من المتغيرات العشوائية. هذا يعني ، على سبيل المثال ، أنه يفترض أن تكون المتغيرات المتنبِأة خالية من الأخطاء ، أي أنها ليست ملوثة بأخطاء القياس. على الرغم من أن هذا الافتراض غير واقعي في العديد من الإعدادات ، إلا أن إسقاطه يؤدي إلى صعوبة أكثر في نماذج أخطاء في المتغيرات  errors-in-variables models.
  • فرض (2): الخطية هذا يعني أن متوسط متغير الاستجابة هو مزيج خطي من المعلمات (معاملات الانحدار) والمتغيرات المتنبِأة. مع ملاحظة أن تقييد هذا الافتراض أقل مما قد يبدو في البداية. إن الخطية هي في الحقيقة مجرد قيد على المعلمات نظرًا لأنه يتم التعامل مع المتغيرات المتنبَأ بها predicted variables، كقيم ثابتة (كما في الاعلى). يمكن تحويل متغيرات التوقع نفسها بشكل arbitrary ، وفي الواقع يمكن إضافة نسخ متعددة من ذات المتنبئ الأساسي نفسه بحيث يتم تحويل كل واحدة منها بشكل مختلف. يتم استخدام هذه الطريقة ، على سبيل المثال ، في الانحدار متعدد الحدود ، والذي يستخدم الانحدار الخطي لتوفيق متغير الاستجابة كدالة متعددة الحدود arbitrary لمتغير التنبؤ (حتى رتبة معينة). وهذا من شأنه أن يجعل الانحدار الخطي طريقة استدلال قوية للغاية. وفي الواقع ، غالبًا ما تكون نماذج مثل نماذج الانحدار متعدد الحدود "قوية جدًا" ، حيث تميل إلى التوفيق الزائد للبيانات. نتيجةً لذلك ، يجب عادةً استخدام نوع من التنظيم regulation لمنع الحلول غير المعقولة  الناتجة من عملية التقدير. ويعد الانحدار الحَرْفي ridge regression وانحدار لاسو  Lasso regressionمن الأمثلة الشائعة على ذلك. يمكن أيضًا استخدام الانحدار الخطي البييزي Bayesian linear regression ، وهو بطبيعته محصن immune بشكلٍ أو بآخر من مشكلة التوفيق الزائد. (في الواقع ، يمكن اعتبار الانحدار الحَرْفي  ridge وانحدار lasso كحالات خاصة للانحدار الخطي البييزي ، مع وضع أنواع معينة من التوزيعات القبلية prior distributions على معاملات الانحدار)
  • فرض(3):  ثبات تباين الأخطاء أو الانحرافات يطلق عليه اسم "فرض تجانس التباين  homoscedasticity" هذا يعني أن القيم المختلفة لمتغير الاستجابة لها نفس التباين في أخطائها ، بغض النظر عن قيم المتغيرات المتنبئ بها. في التطبيق العملي ، يكون هذا الافتراض غير صالح (أي أن الأخطاء ذات تباين مختلف  heteroscedastic) إذا كان متغير الاستجابة يمكن أن يتغير على نطاق واسع.  و من الحكمة البحث عن "تأثير مشجع" بين بواقي الخطأ والقيم المjkfz fih من أجل التحقق من فرض اختلاف تباين الخطأ ، أو عندما ينتهك نمط من بواقي الأخطاء فرض تجانس التباين homoscedasticity (يكون الخطأ متغيراً بالتساوي حول "أفضل خط توفيق" لجميع نقاط x). هذا يعني أنه سيكون هناك تغيير منهجي في البواقي المطلقة أو المربعة عند رسمها ضد المتغيرات التنبؤية predictive variables . لن يتم توزيع الأخطاء بالتساوي عبر خط الانحدار. سوف يؤدي فرض تجانس التباين  إلى حساب متوسط التباينات القابلة للتمييز حول النقاط للحصول على تباين واحد يمثل بشكل غير دقيق جميع الفروق variances في الخط. في الواقع in effect ، تظهر البواقي متجمعة ومنتشرة بشكل متباعد على النقاط plots المتنبئ بها  للقيم الأكبر والأصغر للنقاط على طول خط الانحدار الخطي ، وسيكون متوسط مربعات الخطأ Mean Square Error (MSE) للنموذج خطأ. وعلى سبيل المثال ، عادةً ما سيكون لمتغير الاستجابة ذي المتوسط الكبير تباين أكبر من متغير ذي متوسط صغير. وكمثال على ذلك ، الشخص الذي يُتوقع أن يكون دخله 100000 دولار قد يحصل بسهولة على دخل فعلي يبلغ 80,000 دولار أو 120,000  دولار (انحراف معياري حوالي 20,000 دولار) ، بينما يكون من غير المرجح لدى شخص آخر لديه دخل متوقع قدره 10,000 دولار نفس الانحراف المعياري البالغ 20,000 دولار ، مما يعني ضمنياً أن دخله الفعلي سوف يختلف في أي مكان بين - 10,000 دولار و 30,000 دولار. (في الواقع ، كما يوضح هذا ، في كثير من الحالات - غالباً نفس الحالات التي يكون فيها افتراض الأخطاء موزعة طبيعياً - يجب أن يُتوقع أن يتناسب التباين أو الانحراف المعياري تناسباً طردياً مع المتوسط ، وليس ثابتًا.) . وتعطي طرق تقدير الانحدار الخطي البسيطة تقديرات للمعلمات أقل دقة وكميات استدلالية مضللة مثل الأخطاء القياسية عند استدامة فرض اختلاف التباين  substaintial heteroscedasticity. ومع ذلك ، يمكن لتقنيات التقدير المختلفة (مثل المربعات الصغرى المرجحة والأخطاء القياسية المتسقة  مع فرض اختلاف التباين heteroscedasticity-consistent standard errors( معالجة فرض اختلاف التباين heteroscedasticity بطريقة عامة تمامًا. يمكن أيضًا استخدام طرق الانحدار الخطي البييزي عندما يُفترض أن يكون التباين دالة للمتوسط. ومن الممكن أيضًا في بعض الحالات حل المشكلة عن طريق تطبيق تحويل على متغير الاستجابة (على سبيل المثال ، توفيق لوغاريثم متغير الاستجابة باستخدام نموذج الانحدار الخطي ، مما يعني أن متغير الاستجابة لديه توزيع لوغاريثم -طبيعي بدلاً من التوزيع الطبيعي).
  • فرض (4): الاستقلال الذاتي للأخطاء . أي أن نفترض أن أخطاء متغيرات الاستجابة غير مرتبطة ببعضها البعض. (الاستقلال الإحصائي الفعلي هو شرط أقوى من مجرد عدم وجود علاقة ارتباطية وغالبًا ما لا تكون هناك حاجة إليه على الرغم من أنه يمكن استغلاله إذا كان معلوماً للابقاء عليه) بعض الطرق (مثل طريقة المربعات الصغرى المعممة Method of Generalized Least Square (GLS) قادرة على معالجة الأخطاء المرتبطة على الرغم من أنها عادةً تتطلب بشكل كبير المزيد من البيانات ما لم يتم استخدام نوع من التنظيم تجاه تحيز النموذج لافتراض أخطاء غير مرتبطة. ويعتبر الانحدار الخطي البييزي Bayesian Linear Regression وسيلة عامة لمعالجة هذه المسألة.
  • فرض (5): عدم وجود الازدواج الخطي multicollinearity في المتغيرات المتنبِأةيجب أن تحتوي، للطرق القياسية لتقدير المربعات الصغرى ، مصفوفة التصميم X على درجة عمود كامل p ؛ وخلاف ذلك ، لدينا حالة تعرف باسم ازدواج خطي تام perfect multicollinearity في المتغيرات المتنبِأة. يمكن تشغيل ذلك من خلال وجود متغيرين متنبئين مترابطين أو أكثر (على سبيل المثال ، إذا تم إعطاء نفس المتغير المتنبِأ  بطريق الخطأ مرتين ، إما بدون تحويل إحدى النسخ أو عن طريق تحويل إحدى النسخ خطيًا). يمكن أن يحدث ذلك أيضًا إذا كان هناك القليل جدًا من البيانات المتاحة مقارنة بعدد المعلمات التي يمكن تقديرها (على سبيل المثال ، عدد نقاط البيانات أقل من معاملات الانحدار). في حالة الازدواج الخطي التام ، فإن متجه المعلمة β لن يكون قابلاً للتعريف - ليس له حل فريد. وسنكون على الأكثر قادرين على تحديد بعض المعلمات ، أي تقليص قيمتها إلى. فراغ جزئي خطي ما من   Rp. أنظر انحدار المربعات الصغرى الجزئية partial least squares regression. تم تطوير طرق لتوفيق النماذج الخطية ذات الازدواج الخطي ؛ [5] [6] [7] [8] وتتطلب بعضها افتراضات إضافية مثل "تباين التأثيرeffect sparsity" - حيث أن جزءًا كبيرًا من التأثيرات هو صفر بالضبط. ومن الملاحظ أن الخوارزميات التكرارية الأكثر تكلفة حسابيًا لتقدير المعلمات ، مثل تلك المستخدمة في النماذج الخطية المعممة ، لا تعاني من هذه المشكلة.

إلى جانب هذه الافتراضات ، تؤثر العديد من الخصائص الإحصائية الأخرى للبيانات بشدة على أداء طرق التقدير المختلفة:

  • تلعب العلاقة الإحصائية بين حدود الخطأ و المتغيرات الانحداراية regressors دورًا مهمًا في تحديد ما إذا كان إجراء التقدير ذا خصائص معاينة sampling مرغوب فيها مثل كونه غير متحيز ومتسق.
  • إن الترتيب أو التوزيع الاحتمالي للمتغيرات المتنبِأة  x  له تأثير كبير على دقة تقديرات β. وتعد المعاينة وتصميم التجارب  مجالات فرعية من الإحصاء متطورة للغاية توفر إرشادات لجمع البيانات بطريقة تحقق تقديرًا دقيقًا لـلمعلمة β.

التفسير

عدل
 
تم تصميم مجموعات البيانات باستخدام رباعيات Anscombe " Anscombe's quartet" بحيث تحتوي على نفس خط الانحدار الخطي تقريبًا (بالإضافة إلى متوسطات، انحرافات المعيارية ، وارتباطات متطابقة تقريبًا) ولكنها مختلفة تمامًا بالرسم. يوضح هذا زلات الاعتماد على نموذج توفيق واحد فقط لفهم العلاقة بين المتغيرات.

يمكن استخدام نموذج الانحدار الخطي الذي تم توفيقه لتحديد العلاقة بين متغير توقع واحد xj ومتغير الاستجابة y عندما يتم "تثبيت جميع المتغيرات المتنبِأة  الأخرى في النموذج". على وجه التحديد ، تفسير βj هو التغير المتوقع في y عند تغيير وحدة واحدة في xj عندما تكون المتغيرات المتغايرة الأخرى covariates ثابتة - أي القيمة المتوقعة للمشتقة الجزئية لـ y بالنسبة لـ xj. يسمى هذا أحيانًا التأثير الفريد unique effect لـ xj على y. في المقابل ، يمكن تقييم التأثير الهامشي marginal effect لـ xj على y باستخدام معامل الارتباط correlation coefficient أو نموذج الانحدار الخطي البسيط المتعلق فقط بـ xj إلى y ؛ هذا التأثير هو المشتقة الكلية لـ y بالنسبة لـ xj.

يجب توخي الحذر عند تفسير نتائج الانحدار ، حيث أن بعض regressor قد لا تسمح بتغييرات هامشية (مثل المتغيرات الوهمية dummy variables ، أو حد الجزء المقطوع من محور الصادات) ، في حين لا يمكن أن تثبت الأخرى held fixed (تذكر المثال من المقدمة: سيكون من المستحيل  الابقاء على" ti ثابت" وفي الوقت نفسه تغيير قيمة ti2).

من الممكن أن يكون التأثير الفريد صفريًا تقريبًا حتى عندما يكون التأثير الهامشي كبيرًا. قد يعني هذا أن بعض المتغيرات الأخرى تلتقط كل المعلومات في xj ، لذا بمجرد وجود هذا المتغير في النموذج ، لن تكون هناك مساهمة من xj في الاختلاف في y. وعلى العكس ، يمكن أن يكون التأثير الفريد لـ xj كبيرًا بينما يكون تأثيره الهامشي صفرًا تقريبًا. قد يحدث هذا إذا أوضحت المتغيرات المشتركة الأخرى قدرًا كبيرًا من التباين في y ، ولكنها تفسر بشكل أساسي التباين بطريقة تكمل ما يتم التقاطه بواسطة xj. في هذه الحالة ، يؤدي تضمين المتغيرات الأخرى في النموذج إلى تقليل جزء التباين في y غير المرتبط بـ xj ، وبالتالي تعزيز العلاقة الظاهرة مع xj

قد يعتمد معنى التعبير "ثابت" على كيفية ظهور قيم متغيرات التوقع. إذا قام المجرب بتعيين قيم متغيرات التوقع مباشرة وفقًا لتصميم الدراسة ، فإن مقارنات الفائدة قد تتوافق حرفيًا مع المقارنات بين الوحدات التي تم "تثبيت" متغيرات التوقع عليها من قبل المجرب. بدلاً من ذلك ، يمكن أن يشير التعبير "ثابت" إلى تحديد يتم في سياق تحليل البيانات. في هذه الحالة ، "نحتفظ بمتغير ثابت" عن طريق قصر انتباهنا على مجموعات فرعية من البيانات التي تحدث لها قيمة مشتركة لمتغير التوقع المحدد. هذا هو التفسير الوحيد "الثابت الثابت" الذي يمكن استخدامه في دراسة قائمة على الملاحظة.

فكرة "التأثير الفريد" جذابة عند دراسة نظام معقد حيث تؤثر المكونات المترابطة المتعددة على متغير الاستجابة. في بعض الحالات ، يمكن تفسيرها حرفيًا على أنها التأثير السببي للتدخل المرتبط بقيمة متغير التنبؤ. ومع ذلك ، فقد قيل إن تحليل الانحدار المتعدد في العديد من الحالات يفشل في توضيح العلاقات بين متغيرات التوقع ومتغير الاستجابة عندما تكون المتنبئات مرتبطة ببعضها البعض ولا يتم تعيينها بعد تصميم الدراسة. [9] قد يكون تحليل القواسم المشتركة مفيدًا في تفكيك التأثيرات المشتركة والفريدة للمتغيرات المستقلة المرتبطة. [10]

ملحقات

عدل

تم اقتراح كثير من امتدادات الانحدار الخطي ، والتي تسمح بترخية بعض الافتراضات أو كلها الكامنة وراء النموذج الأساسي.

الانحدار الخطي البسيط والمتعدد   Simple and multiple linear regression

عدل
 
مثال على الانحدار الخطي البسيط ، والذي يحتوي على متغير مستقل واحد

تُعرف أبسط الحالات لمتغير تنبؤ عددي scaler واحد x ومتغير استجابة واحدة y  باسم الانحدار الخطي البسيط. يُعرف الامتداد إلى متغيرات تنبئ متعددة و / أو متجهة vector (المشار إليها بحرف X) باسم الانحدار الخطي المتعدد ، والمعروف أيضًا باسم الانحدار الخطي متعدد المتغيرات. تشتمل جميع نماذج الانحدار في العالم الواقعي تقريبًا على تنبؤات متعددة ، وغالبًا ما تتم صياغة الوصف الأساسي للانحدار الخطي من حيث نموذج الانحدار المتعدد. مع ذلك ، لاحظ أنه في هذه الحالات ، لا يزال متغير الاستجابة y عددياً. يشير المصطلح الآخر ، الانحدار الخطي متعدد المتغيرات ، إلى الحالات التي يكون فيها y متجهاً ، أي نفس الانحدار الخطي العام.

النماذج الخطية العامة General linear models

عدل

ينظر النموذج الخطي العام إلى الحالة التي يكون فيها متغير الاستجابة ليس عدديًا (لكل مشاهدة) ولكن متجهًا ، yi. و لا تزال الخطية الشرطية  مفترَضة ، مع مصفوفة B تحل محل المتجه β في نموذج الانحدار الخطي الكلاسيكي. وقد تم اقتراح نظائرها متعددة المتغيرات من المربعات الصغرى العادية (OLS) والمربعات الصغرى المعممة (GLS). وتسمى "النماذج الخطية العامة" أيضًا "النماذج الخطية متعددة المتغيرات multivariate linear models " وهي ليست النماذج الخطية متعددة المتغيرات multivariable linear models (التي تسمى أيضًا "النماذج الخطية المتعددة  multiple linear models ").

نماذج اختلاف التباين  Heteroscedastic models

عدل

تم إنشاء نماذج مختلفة تسمح بفرض اختلاف التباين  heteroscedasticity ، أي أن أخطاء متغيرات الاستجابة المختلفة قد يكون لها تباينات مختلفة. على سبيل المثال ، المربعات الصغرى المرجحة هي طريقة لتقدير نماذج الانحدار الخطي عندما يكون لمتغيرات الاستجابة تباينات خطأ مختلفة ، ربما مع وجود أخطاء مرتبطة. (انظر أيضًا المربعات الصغرى الخطية المرجحة ، والمربعات الصغرى المعممة.) تعتبر الأخطاء القياسية المتسقة مع فرض اختلاف التباين Heteroscedasticity-consistent standard errors هي طريقة محسّنة للاستخدام مع وجود أخطاء غير مترابطة ولكن من المحتمل أن تكون أخطاء ذات تباين مختلف  heteroscedastic errors .

النماذج الخطية المعممة Generalized Linear Models

عدل

النماذج الخطية المعممة (GLMs) هي إطار لنمذجة متغيرات الاستجابة المرتبطة أو المنفصلة. وتستخدم هذه النماذج ، على سبيل المثال:

  • - عند نمذجة كميات موجبة (مثل الأسعار أو السكان) التي تختلف على نطاق واسع - والتي يتم وصفها بشكل أفضل باستخدام توزيع ملتو مثل توزيع لوغاريثم- الطبيعي log-normal distribution أو توزيع بواسون Poisson distribution (على الرغم من أن GLMs لا تستخدم لبيانات لوغاريثم- الطبيعي ، وبدلاً من ذلك يتم تحويل متغير الاستجابة ببساطة باستخدام دالة اللوغاريتم) ؛ - عند نمذجة البيانات الفئوية categorical data، مثل اختيار مرشح معين في الانتخابات (التي يتم وصفها بشكل أفضل باستخدام توزيع برنولي / توزيع ذات الحدين Bernoulli distribution/binomial distribution  للخيارات الثنائية binary، أو التوزيع الفئوي / التوزيع متعدد الحدود categorical distribution/multinomial distribution  للخيارات متعددة الاتجاهات) ، حيث يوجد عدد ثابت من الاختيارات التي لا يمكن ترتيبها بشكل على نحو meaningfully؛ - عند نمذجة البيانات الترتيبية ordinal ، على سبيل المثال الترتيب على مقياس من صفر إلى 5 ، حيث يمكن ترتيب النتائج المختلفة ولكن عندما لا يكون للكمية نفسها أي معنى مطلق (على سبيل المثال ، قد لا يكون الترتيب 4 جيداً بمقدار ضعف الترتيب 2  ، ولكن يشير ببساطة إلى أنه أفضل من 2 أو 3 ولكنه ليس جيدًا مثل 5).

تسمح النماذج الخطية المعممة لدالة الربط الاعتباطية arbitrary link function، g ، التي تربط متوسط متغير (متغيرات) الاستجابة بالمتغيرات المتنبِأة    ، وغالبًا ما ترتبط دالة الربط  بتوزيع الاستجابة ، وبصفة خاصة يكون لها تأثير التحويل بين مدى  الخاص بالمتغير المتنبِئ الخطي  ومدى  متغير الاستجابة.

بعض الأمثلة عن GLMs هي:

  •  انحدار بواسون Poisson regression لبيانات العد.
  • الانحدار اللوجستي Logistic regression  والانحدار بروبيت probit regression للبيانات الثنائية.
  • الانحدار اللوجستي متعدد الحدود Multinomial logistic regression والانحدار بروبيت متعدد الحدود multinomial probit regression للبيانات الفئوية.
  • انحدار لوجيت الترتيبي وبروبيت الترتيبي Ordered logit and ordered probit  للبيانات الترتيبية.

تتيح نماذج المؤشر الفردي Single index models درجة ما من اللاخطية في العلاقة بين x و y، مع الحفاظ على الدور المركزي للمتنبِئ الخطي  كما هو الحال في نموذج الانحدار الخطي الكلاسيكي. ، سوف يؤدي مجرد تطبيق OLS على البيانات من نموذج المؤشر الفردي في ظل ظروف معينة إلى تقدير  إلى up to  ثابت التناسب باستمرار. [11]

النماذج الخطية الهيلكية (الهرمية)  Hierarchical linear models

عدل

تقوم النماذج الخطية الهرمية (أو الانحدار متعدد المستويات) بتنظيم البيانات في تسلسل هرمي من المتغيرات الانحداراية ، على سبيل المثال عندما ينحدر A على B ، وينحدر B على C. وغالبًا ما تستخدم عندما يكون للمتغيرات ذات الاهتمام بنية هيكلية طبيعية كما هو الحال في الإحصاءات التعليمية ، حيث يتم تجميع الطلاب في الفصول الدراسية ، و بدورها تتجمع في المدارس ، و هذه المدارس تتجمع في بعض التجمعات الإدارية ، مثل المنطقة التعليمية. قد يكون متغير الاستجابة مقياسًا لإنجاز الطالب مثل درجة الاختبار ، عندها سيتم جمع متغيرات متغايرة  covariates مختلفة في مستويات الفصول الدراسية والمدرسة و المنطقة التعليمية.

الأخطاء في المتغيرات  Errors-in-variable

عدل

تعمل نماذج الأخطاء في المتغيرات (أو "نماذج خطأ القياس") على امتداد نموذج الانحدار الخطي التقليدي للسماح بمشاهدة المتغيرات المتنبئة X مع الخطأ. يؤدي هذا الخطأ إلى أن تصبح المقدرات القياسية ل β منحازة. بشكل عام ، شكل التحيز عبارة عن توهين  attenuation ، وهذا يعني أن التأثيرات متحيزة باتجاه الصفر.

نماذج أخرى

عدل
  • في نظرية Dempster-Shafer ، أو دالة التصديق الخطية  linear belief function  بشكل خاص ، قد يتم تمثيل نموذج الانحدار الخطي كمصفوفة swept جزئيًا ، والتي يمكن دمجها مع مصفوفات مماثلة تمثل المشاهدات والتوزيعات الطبيعية المفترضة الأخرى ومعادلات الحالة. ويوفر مزيج من المصفوفات ال swept or unswept  طريقة بديلة لتقدير نماذج الانحدار الخطي.

طرق التقدير

عدل

لقد تم تطوير عدد كبير من الإجراءات لتقدير المعلمة والاستدلال في الانحدار الخطي. تختلف هذه الطرق في البساطة الحسابية للخوارزميات ، ووجود حل مغلق closed form ، وrobustness فيما يتعلق بالتوزيعات الثقيلة الذيل ، والافتراضات النظرية اللازمة للتحقق من الخواص الإحصائية المرغوبة مثل الاتساق والكفاءة التقاربية.

ويرد أدناه ملخص لبعض أساليب التقدير الأكثر شيوعًا للانحدار الخطي.

تقدير المربعات الصغرى والتقنيات ذات الصلة

عدل
 
رسم فرانسيس غالتون عام 1875 للعلاقة بين مرتفعات البالغين وأولياء أمورهم. ملاحظة أن ارتفاعات الأطفال البالغين تميل إلى الانحراف أقل من متوسط الطول عن آبائهم اقترح مفهوم "الانحدار نحو الوسط" ، مع إعطاء الانحدار اسمها. "موضع نقاط عرضية أفقية" يمر عبر أقصى اليمين وأقصى اليمين على القطع الناقص (وهو منحنى مستوى للتوزيع الطبيعي ثنائي المتغير المقدّر من البيانات) هو تقدير OLS لتراجع ارتفاعات الوالدين على ارتفاعات الأطفال ، بينما "موضع نقاط عرضية رأسية" هو تقدير OLS لتراجع ارتفاعات الأطفال على ارتفاعات الوالدين. المحور الرئيسي للقطع الناقص هو تقدير TLS.

لنفترض أن المتغير المستقل هو   والمعلمات النموذج هي   ، ثم سيكون توقع النموذج

  . إذا   يمتد إلى   وعندها ستصبح y نقطة حاصل ضرب المعلمة والمتغير المستقل ، أي

  . ويتم تعريف المعلمة المثلى على النحو التالي بحيث تقلل من مجموع متوسط مربعات الخسارة في طريقة المربعات الصغرى: 

والأن بوضع المتغيرات المستقلة والتابعة في مصفوفات X  و Y  على التوالي، يمكن كتابة دالة الخسارة على النحو التالي:

 

نظرًا لأن الخسارة محدبة ، يكمن الحل الأمثل في مساواة الميل gradient بالصفر. ميل دالة الخسارة هو (باستخدام اصطلاح تخطيط المقام using Denominator layout convention))

 

وبوضع الميل gradient يساوي صفر فإن المعلمة الأمثل هي:

 

تتضمن الطرق الخطية للمربعات الصغرى Linear least squares methods بشكل

  • ·      المربعات الصغرى العادية OLS  Ordinary least squares
  • المربعات الصغرى المرجحة WLS  Weighted least squares
  • المربعات الصغرى المعممة GLS  Generalized least squares

التقدير بطريقة الإمكان الأكبر والأساليب ذات الصلة

Maximum likelihood estimation

  • Maximum likelihood estimation يمكن إجراء التقديربطريقة الإمكان الأكبرإذا ما عُرف أن توزيع حدود الخطأ ينتمي إلى عائلة بارامترية معينة  من التوزيعات الاحتمالية. [12] . و عندما تكون  عبارة عن توزيع طبيعي بمتوسط صفر وتباين θ ، فإن التقدير الناتج يتطابق مع تقدير OLS. تقديرات GLS هي عبارة عن تقديرات الإمكان الأكبر وذلك عندما يتبع حد الخطأ ε التوزيع الطبيعي متعدد المتغيرات بمصفوفة تغاير معروفة.
  • الانحدار الحَرْفي  (Ridge regression [13] [14](15
  • يتعمد الانحدار الحَرْفي والأشكال الأخرى للتقدير العقابي penalized estimation ، مثل انحدار lasso ، [5] إدخال التحيز في تقدير β بهدف الحد من تقلب التقديرvariability . و للتقديرات الناتجة عمومًا متوسط مربعات الأخطاء MSE أقل من تلك لتقديرات OLS ، لا سيما عند وجود ظاهرة الازدواج الخطي أو عندما يكون التوفيق الزائد مشكلة. و يتم استخدامه بشكل عام عندما يكون الهدف هو التنبؤ بقيمة متغير الاستجابة y لقيم المتنبئات x التي لم يتم مشاهدتها بعد. لا يتم استخدام هذه الطرق بشكل واسع عندما يكون الهدف هو الاستدلال  نظراً لأنه من الصعب حساب التحيز.
  • انحدار الانحراف المطلق الأقل (LAD) هو أسلوب تقدير قوي لأنه أقل حساسية لوجود القيم المتطرفة من OLS (ولكنه أقل كفاءة من OLS عندما لا توجد قيم متطرفة). وهو يعادل الحد الأقصى لتقدير الاحتمالات تحت نموذج توزيع لابلاس لـ ε . [1]
  • تقدير التكيفي . إذا افترضنا أن شروط الخطأ مستقلة عن عوامل التراجع ،   ، ثم المقدر الأمثل هو MLE من خطوتين ، حيث يتم استخدام الخطوة الأولى لتقدير توزيع مصطلح الخطأ بشكل غير بارامترى. [2]

أساليب تقدير أخرى

عدل
 
مقارنة مقدّر Theil-Sen (أسود) والانحدار الخطي البسيط (الأزرق) لمجموعة من النقاط مع القيم الشاذة /المتطرفة.

الانحدار الخطي البييزي Bayesian linear regression

يطبق هذا الانحدار إطار لإحصاءات بييز Bayesian statistics على الانحدار الخطي. (راجع أيضًا الانحدار الخطي البييزي متعدد المتغيرات.) وبصفة خاصة ، يُفترض أن معاملات الانحدار β هي متغيرات عشوائية لها توزيع قبلي محدد. يمكن أن يؤدي التوزيع القبلي إلى تحيز الحلول لمعاملات الانحدار ، بطريقة تشبه (ولكن بشكل أكثر عمومية من) الانحدار الحَرْفي ridge أو انحدار Lasso. بالإضافة إلى ذلك ، لا تنتج عملية التقديرالبييزية تقدير نقطة واحدة  point estimate لقيم معاملات الانحدار "الأفضل" ولكنها تنتج التوزيع البعدي بأكمله، والذي يصف تمامًا عدم اليقين المحيط بالكمية. يمكن استخدام هذا لتقدير "أفضل" المعاملات باستخدام الوسط الحسابي أو المنوال أو الوسيط أو أي ميئوية (انظر الانحدار الميئوي) أو أي دالة أخرى للتوزيع البعدي.

الانحدار الميئوي Quantile regression

يركز الانحدار المئيوي على الميئويات الشرطية لـ y معطى X بدلاً من المتوسط الشرطي لـ y معطى X. وهذا الانحدار الخطي الميئوي يمثل ميئوية شرطية معينة ، على سبيل المثال الوسيط الشرطي ، كدالة خطية βTx للمتغيرات المتنبِأة.

النماذج المختلطة Mixed models

تُستخدم النماذج المختلطة على نطاق واسع لتحليل علاقات الانحدار الخطي التي تتضمن بيانات تابعة عندما يكون للتبعيات dependencies بنية معروفة. تشمل التطبيقات الواسعة الاستخدام للنماذج المختلطة تحليل البيانات التي تتضمن قياسات متكررة ، مثل البيانات الطولية ، أو البيانات التي تم الحصول عليها من أخذ العينات العنقودية cluster sampling. ويتم توفيق هذه النماذج بشكل عام كنماذج بارامترية ، وذلك باستخدام التقدير بطريقة الإمكان الأكبر أو بالطريقة البييزية. و هناك صلة وثيقة بين النماذج المختلطة والمربعات الصغرى المعممة في الحالة التي يتم فيها تصميم الأخطاء كمتغيرات عشوائية طبيعية. [18] تقدير الآثار الثابتةfixed effects هو أسلوب بديل لتحليل هذا النوع من البيانات.

انحدار المكون الرئيسي (PCR) Principal component regression

يتم استخدام انحدار المكون الرئيسي عندما يكون عدد المتغيرات المتنبِأة   كبيرًا ، أو عند وجود ارتباطات قوية بين المتغيرات المتنبِأة . يختزل هذا الإجراء - المكون من مرحلتين - أولاً من المتغيرات المتنبِأة  باستخدام تحليل المكون الرئيسي principal component analysis ، ثم بعد ذلك يستخدم المتغيرات المختزلة في توفيق انحدار المربعات الصغرى العادية OLS regression. و نظرياً لا يوجد سبب عام مفاده أنه يتوجب على الدالة الخطية الأكثر معلوماتية للمتغيرات المتنبِأة  أن تكمن بين المكونات الرئيسية السائدة لتوزيع المتغيرات المتنبِأة المتعدد المتغيرات في حين أنه يعمل بشكل جيد في التطبيق العملي. الانحدار الجزئي للمربعات الصغرى partial least squares regression هو امتداد لطريقة PCR والذي لا يعاني من العجز المذكور.

انحدار الزاوية الصغرى [6]

هو إجراء تقدير لنماذج الانحدار الخطي التي تم اقتراحه للتعامل مع متجهات المتغيرات المتغايرة covariates ذات الدرجات العالية high dimensional covariate vectors ، والتي من المحتمل أن تكون المتغيرات المتغايرة covariates فيه أكثر من المشاهدات.

مقدّر تايل- سِن Theil-Sen estimator

هو عبارة عن طريقة تقدير حصين robust estimation بسيطة تختار ميل خط التوفيق ليكون وسيط ميل الخطوط من خلال أزواج من نقاط العينة. لها خصائص كفاءة إحصائية مماثلة للانحدار الخطي البسيط لكن حساسيتها للقيم المتطرفة outliers أقل بكثير منه [19]

وقد قُدِمت أساليب تقدير حصين أخرى ، بما في ذلك طريقة المتوسط المشذوف -α α-trimmed mean ، وتم تقديم مقدرات L-, M-, S-, and R-estimators.

تطبيقات

عدل

يستخدم الانحدار الخطي على نطاق واسع في العلوم البيولوجية والسلوكية والاجتماعية لوصف العلاقات المحتملة بين المتغيرات. وهي تعد واحدة من أهم الأدوات المستخدمة في هذه التخصصات.

خط الاتجاه

عدل

إن خط الاتجاه يمثل الاتجاهً ، وهو حركة طويلة المدى في بيانات السلاسل الزمنية بعد احتساب المكونات الأخرى. و يوضح ما إذا كانت مجموعة بيانات معينة (مثل الناتج المحلي الإجمالي أو أسعار النفط أو أسعار الأسهم) قد زادت أو انخفضت خلال الفترة الزمنية. يمكن ببساطة رسم خط الاتجاه من خلال مجموعة من نقاط البيانات ، ولكن يتم حساب مكانها وميلها بشكل صحيح باستخدام تقنيات إحصائية مثل الانحدار الخطي. عادة ما تكون خطوط الاتجاه خطوطًا مستقيمة ، على الرغم من أن بعض الاختلافات تستخدم كثيرات الحدود بدرجة أعلى اعتمادًا على درجة الانحناء المرغوب في الخط.

تستخدم خطوط الاتجاه في بعض الأحيان في تحليلات الأعمال لإظهار التغييرات في البيانات مع مرور الوقت. و هذا يمثل ميزة كونها بسيطة. غالبًا ما تستخدم خطوط الاتجاه لتوضيح أن إجراءً معينًا أو حدثًا معينًا (مثل التدريب أو حملة إعلانية) تسبب في حدوث تغييرات ملحوظة في وقت ما. هذه تقنية بسيطة ولا تتطلب مجموعة ضابطة أو تصميم تجارب أو تقنية تحليل معقدة. ومع ذلك ، فهو يعاني من نقص الصلاحية العلمية في الحالات التي يمكن أن تؤثر فيها التغييرات المحتملة الأخرى على البيانات.

علم الأوبئة

عدل

إن الدلائل المبكرة المتعلقة بتدخين التبغ على الوفيات والمراضة آتية من دراسات مشاهدية تستخدم تحليل الانحدار. وعادة ما يقوم الباحثون بإدراج العديد من المتغيرات في نماذج الانحدار الخاصة بها بالإضافة إلى المتغير محل الدراسة من أجل تقليل الارتباطات الهامشية عند تحليل بيانات الرصد. على سبيل المثال ، في نموذج الانحدار الذي يكون فيه تدخين السجائر هو المتغير المستقل محل الدراسة والمتغير التابع هو دورة الحياة lifespan المقاسة بالسنوات ، يمكن للباحثين تضمين التعليم والدخل كمتغيرات مستقلة إضافية ، لضمان أن لا يكون أي تأثير ملحوظ للتدخين على العمر الافتراضي بسبب تلك العوامل الاجتماعية والاقتصادية الأخرى. ومع ذلك ، لا يمكن أبدًا تضمين جميع المتغيرات المربكة confounding المحتملة في التحليل التجريبي. على سبيل المثال ، قد يؤدي الجين الافتراضي hypothetical gene إلى زيادة معدل الوفيات وأن يتسبب أيضًا في تدخين الأشخاص بشكل أكثر. لهذا السبب ، غالبًا ما تكون التجارب الضابطة العشوائية randomized controlled trials قادرة على الإدلاء بأدلة مقنعة للعلاقات السببية أكثر مما يمكن الحصول عليها باستخدام تحليلات الانحدار للبيانات المشاهدية. وعندما تكون التجارب الضابطة controlled experiments غير ممكنة  ، يمكن استخدام تنوعات من تحليل الانحدار مثل  طريقة انحدار المتغيرات المساعدة  Regression IV))Method of Instrumental Variables  لمحاولة تقدير العلاقات السببية من البيانات المشاهدية observational data.

إن طريقة المربعات الصغرى العادية Ordinary Least Square (OLS) هي حالة خاصة من طريقة المتغيرات المساعدة (IV) التي تعتبر طريقة أكثر عمومية.

المالية

عدل


اقتصاد

عدل

الانحدار الخطي هو الأداة التجريبية السائدة في الاقتصاد. على سبيل المثال ، يتم استخدامه للتنبؤ بالإنفاق الاستهلاكي ، [20] الإنفاق الاستثماري الثابت ، استثمار المخزون ، مشتريات صادرات البلد ، [21] الإنفاق على الواردات ، [21] الطلب على الاحتفاظ بالأصول السائلة  demand to hold liquid assets,، [22] الطلب على العمالة ، [23] وتوريد العمالة. [23]

علوم بيئية

عدل

يُطبق الانحدار الخطي في مجموعة واسعة من تطبيقات العلوم البيئية. إذ يستخدم برنامج رصد التأثيرات البيئية في كندا تحليلات إحصائية على المسوحات السمكية والقاعية لقياس تأثيرات طاحونة اللب أو النفايات السائلة في مناجم المعادن على النظام البيئي المائي. [24]

تعلم الآلة

عدل

يلعب الانحدار الخطي دورًا مهمًا في مجال الذكاء الاصطناعي artificial intelligence مثل تعلم الآلة  machine learning. تعد خوارزمية الانحدار الخطي واحدة من خوارزميات تعلم الآلة الخاضعة للإشراف  supervised machine-learningبسبب بساطتها النسبية وخصائصها المعروفة. [25]

التاريخ

عدل

أجرى Legendre (1805) و (Gauss (1809 الانحدار الخطي المربعات الصغرى Least squares linear regression ، كوسيلة لإيجاد توافق خطي جيد لمجموعة من النقاط للتنبؤ بحركة الكواكب. كانت كيتليت Quetelet  مسؤولة عن شهرة هذا الاجراء واستخدامه على نطاق واسع في العلوم الاجتماعية. [26]

أنظر أيضا

عدل


  • Analysis of variance
  • Blinder–Oaxaca decomposition
  • Censored regression model
  • Cross-sectional regression
  • Curve fitting
  • Empirical Bayes methods
  • Errors and residuals
  • Lack-of-fit sum of squares
  • Line fitting
  • Linear classifier
  • Linear equation
  • Logistic regression
  • M-estimator
  • Multivariate adaptive regression splines
  • Nonlinear regression
  • Nonparametric regression
  • Normal equations
  • Projection pursuit regression
  • Segmented linear regression
  • Stepwise regression
  • Structural break
  • Support vector machine
  • Truncated regression model

اقتباسات

عدل
  1. ^ Narula، Subhash C.؛ Wellington, John F. (1982). "The Minimum Sum of Absolute Errors Regression: A State of the Art Survey". International Statistical Review. ج. 50 ع. 3: 317–326. DOI:10.2307/1402501. JSTOR:1402501.
  2. ^ Stone, C. J. (1975). "Adaptive maximum likelihood estimators of a location parameter". The Annals of Statistics. ج. 3 ع. 2: 267–284. DOI:10.1214/aos/1176343056. JSTOR:2958945.

مصادر

عدل
  • Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
  • Charles Darwin. The Variation of Animals and Plants under Domestication. (1868) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
  • Draper، N.R.؛ Smith، H. (1998). Applied Regression Analysis (ط. 3rd). John Wiley. ISBN:978-0-471-17082-2.
  • Francis Galton. "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263 (1886). (Facsimile at: [1])
  • Robert S. Pindyck and Daniel L. Rubinfeld (1998, 4h ed.). Econometric Models and Economic Forecasts, ch. 1 (Intro, incl. appendices on Σ operators & derivation of parameter est.) & Appendix 4.3 (mult. regression in matrix form).

قراءة متعمقة

عدل

روابط خارجية

عدل

[[:تصنيف:إحصاء معلمي]] [[:تصنيف:نظرية التقدير]] [[:تصنيف:طرق المعادلة الأحادية (الاقتصاد القياسي)]] [[:تصنيف:مقالات بأسلوب استشهاد غير متناسق]]