انحدار خطي بسيط

خطة عمل

الانحدار الخطي البسيط هو حساب المربعات الصغري من نموذج الانحدار الخطي مع متغير تفسيري واحد .[1][2][3] وبعبارة أخرى، الانحدار الخطي البسيط هو خط مستقيم يمر بمجموعة من النقاط بطريقة تجعل مجموع مربع النقط المتبقية من النموذج (أي، المسافات الرأسية بين النقطة المتبقية والخط ) أقل ما يمكن. هذا يشير الي حقيقة أن الانحدار هو واحد من أبسط الأساليب المستخدمة في مجال الإحصاء حيث أن ميل الخط يساوي العلاقة بين y و x مصححة بنسبة الانحرافات المعيارية لهذه المتغيرات. نقطة تقاطع الخط مع محور الصادات هي مركز كتلة نقاط البيانات (x, y). توجد طرق انحدار أخرى بجانب المربعات الصغري البسيطة (انظر الانحدار الخطي). علي وجه الخصوص، عندما يريد شخص أن يقوم بفعل الانحدار عن طريق العين فانه يميل عادة الي رسم خط حاد قليلا ويكون قريبا من ذلك الذي ينتج من طريقة أقل مربعات كليه. يحدث هذا لأنه طبيعي أكثر لعقل الانسان ملاحظة المسافات المتعامدة علي خط الانحدار بدلا من تلك الراسية كما يحدث في طريقة المربعات الصغري .

عمل خط الانحدارعدل

افترض ان لديك عدد n من النقاط {(Xi,Yi),i=1,2,.....n} فان الدالة التي تصف Y و X هي : yi = α + β xi + εi والهدف هو ايجاد معادلة الخط المستقيم y = α + β x التي تعطي أفضل تمثيل للنقاط. هنا الأفضل يعرف بأنه طريقة المربعات الصغيرة : الخط الذي يقلل مجموع مربعات المتبقيات لنموذج الانحدار الخطي . و بعبارة أخرى، α (نقطة التقاطع مع محور y) و β (الميل) يشاركوا في حل مشكلة التقليل التالية :  

باستخدام الحساب هندسة المساحات الداخلية للشكل أو التوسع البسيط للحصول علي معادلة من الدرجة الثانية في α و β ، فإنه من الممكن ايجاد قيم α و β التي تقلل الدالة كالتالي :

 

حيث rxy

هو معامل الارتباط بين x و y

sx

هو الانحراف المعياري ل x

sy

هو الانحراف المعياري ل y

الخط الأفقي علي فوق الكمية يعبر عن المتوسط . فعلى سبيل المثال :  

بالتعويض بالمعادلة السابقة في   يؤدي ذلك الي :  

و هذا يدل علي الدور الذي يقوم به rxy

في خط الانحدار لنقط البيانات . و في بعض الأحيان يكون من المفيد حساب rxy
من البيانات بشكل مستقل باستخدام المعادلة التالية :

 

معامل التحديد (R تربيع) يساوي   عندما يكون النموذج خطي وبه متغير مستقل واحد. انظر نموذج معامل الارتباط لتفاصيل أكثر

انحدار خطي بدون جزء التقاطععدل

في بعض الأحيان، يعتبر الناس نموذج الانحدار الخطي البسيط دون جزء التقاطع y = βx

في مثل هذه الحالة، تقدير OLS لايجاد β يبسط ل  

ويصبح معامل ارتباط العينة :  

خصائص عدديةعدل

  1. الخط يمر عبر نقطة مركز الكتلة (x, y)
  1. مجموع المتبقيات يساوي صفر إذا وجد ثابت في النموذج :  
  2. التركيبة الخطية للمتبقيات، في حالة المعاملات هي قيم x، تساوي صفر :  

خصائص ايجاد نموذجعدل

وصف الخصائص الإحصائية للمقدرات من الانحدار الخطي البسيط يتطلب استخدام نموذج احصائي. التالي يعتمد علي افتراض صحة النموذج في حالة أن التقديرات مثالية. و من الممكن أيضا لحساب الخصائص تحت قيود افتراضات أخرى، مثل عدم التجانس، ولكن يتم مناقشة ذلك في أماكن أخرى.

عدم التحيزعدل

حساب   و   هي منحازة وهذا يتطلب أن نفسر المقدرات كمتغيرات عشوائية وعلينا أن نفترض أن لكل قيمة ل x القيمة المقابلة لها في y تنتج كنتيجة متوسطة α + βx

بالإضافة الي قيمة متغير عشوائي اضافي ε يسمي الخطأ. هذا الخطأ يجب أن يساوي صفر عند حساب المتوسط لكل قيمة ل x و تحت هذا التفسير، تقدير المربعات الصغيرة   و   سوف يكونوا متغيرات عشوائية وسوف تحسب القيم الحقيقية ل α و β بدون تحيز.

فترات التأكيدعدل

المعادلات المعطاة في الجزء السابق تمكننا من حساب تقديرات النقط ل α و β و هم معاملات خط الانحدار لمجموعة معينة من البيانات. و مع ذلك، هذه المعادلات لا تخبرنا مدي الدقة في التقديرات أي كم المقدرات   و   تختلف من نموذج لاخر لحجم العينة المحدد. لذا وضع ما يسمي فترات التأكيد لتعطي مجموعة معقولة من القيم التي يمكن تقديرها إذا كررت التجربة عدد هائل من المرات. الطريقة التقليدية لحساب فترات التأكيد لمعاملات الانحدار الخطي تعتمد علي فرض الثبات الذي له ما يبرره إذا ما :

  1. الخطأ في الانحدار كان متوزع طبيعي (ما يسمي افتراض الانحدار الكلاسيكي)
  2. عدد الملاحظات n كان كبير بشكل كافي في حالة المقدرات كانت موزعة تقريبا بشكل طبيعي

هذا ما يبرر الحالة الأخيرة من نظرية حدود المركز

افتراض الوضع الطبيعيعدل

في ظل الافتراض الأول أعلاه، الذي من طبيعته وجود خطأ، تقدير معامل الميل سوف يوزع بشكل طبيعي بمتوسط β و تباين   حيث σ2

هو الفرق في الخطأ (انظر البراهين التي تنطوي علي المربعات الصغري). في نفس الوقت، مجموع مربع المتبقيات Q يوزع بالتناسب مع χ2
بعدد درجات حرية n-2 و بشكل مستقل عن   و هذا يسمح لنا بعمل احصائية t.

 

حيث

 

هو الخطأ المعياري للمقدر احصائية t لديها توزيع t للطلاب بعدد n-2 درجة حرية وباستخدامها نستطيع تكوين فترة تأكيد ل β :

 

في مستوي التأكيد (1−γ)

حيث   هي (1−γ/2)

-th من توزيع tn−2

على سبيل المثال، إذا γ = 0.05
ثم مستوي التأكيد 95% و بالمثل، فترة التأكيد لمعامل الاعتراض α يعطي ب

 

في مستوي التأكيد (1−γ)

حيث

 

 
انحدار بفترة تأكيد 95%.

فترة التأكيد ل α وβ تعطينا الفكرة الرئيسية حيث معاملات الانحدار من الأرجح أن تكون. على سبيل المثال، في قانون Okun الانحدار ظاهر في بداية المقال النقط المقدرة هي  

و فترة التأكيد لهذه المقدرات 95% :  

من أجل تمثيل هذه المعلومات بيانيا في شكل فترات تأكيد ول خط الانحدار فعلي الشخص أن يمضي بحذر وحساب التوزيع المشترك للمقدرات. و يمكن أن تظهر أنه في فترة التأكيد (1−γ) رابطة التأكيد تأخذ شكل قطع زائد يعطي بالمعادلة :

 

الافتراضات التقريبيةعدل

الافتراض الثاني البديل ينص علي أنه عندما يكون عد النقاط كبير بشكل كاف، وقانون الأعداد الكبيرة ونظرية حدود المركز قابلين للتطبيق، ومن ثم توزيع المقدرات أمر طبيعي تقريبا. تحت هذا الافتراض جميع الصيغ المشتقة في القسم السابق لا تزال سارية المفعول، مع استثناء وحيد وهو أن t*n−2 لتوزيع t من الطلاب يتم استبداله ب q* من التوزيع الطبيعي القياسي . أحيانا الكسر 1/n−2

يتم استبداله ب 1/n
في حالة n تكون كبيرة ومثل هذا التغير لا يغير النتائج بشكل ملحوظ.

مثال عدديعدل

هذا المثال يتعلق بمجموعة بيانات من المربعات الصغري العادية . هذه المجموعة تعطي متوسط كتل السيدات كدالة في طولهم في عينة من النساء الأمريكان في عمر 39-30 . وعلى الرغم أن OLS تقول أنه من الأكثر ملائمة عمل انحدار من الدرجة الثانية لهذه البيانات لكن الانحدار الخطي البسيط يمكن تطبيقه هنا بدلا من ذلك .

xi 1.47 1.50 1.52 1.55 1.57 1.60 1.63 1.65 1.68 1.70 1.73 1.75 1.78 1.80 1.83  Height (m)
yi 52.21 53.12 54.48 55.84 57.20 58.57 59.93 61.29 63.11 64.47 66.28 68.10 69.92 72.19 74.46  Mass (kg)

يوجد عدد النقاط (n=15) في هذه البيانات ويتم بدأ الحسابات باليد بحساب المجاميع الخمسة التالية :

 

هذه الكميات تستخدم لحساب معاملات الانحدار وأخطائهم القياسية

 

0.975 من توزيع t للطلاب ب 13 درجة حرية يكون t*13 = 2.1604 و بالتالي 95% فترة تأكيد ل α and β تكون :

 

و يمكن أيضا حساب ناتج معامل تصحيح الارتباط كالتالي :

 

هذا المثال يوضح أن الحسابات المعقدة لن تتغلب علي استخدام البيانات المعدة بشكل سيئ. الأطوال أعطت بالبوصة وقد تم تحويلها لأقرب سنتيمتر. و لأن معامل التحويل هو 2.54 فهذا تحويل غير صحيح لأن البوصة الأصلية يمكن استردادها بحوالي (x/0.0254) و من ثم اعادة تحويلها لمتر. إذا فعلت ذلك تصبح النتئج :

 

و بالتالي اختلاف صغير في البيانات لديه تأثير حقيقي

الاشتقاق من متغيرات الانحدار الخطيعدل

نحن نبحث عن   التي تقلل مجموع مربع الخطأ،   التي تعرف كالتالي  

لايجاد الأقل نقوم بالاشتقاق الجزئي بالنسبة ل   و  

 
 
 

بضرب الطرفين في  

 

نحصل علي :

 

قب الاشتقاق الجزئي بالنسبة ل   عوض بالنتيجة السابقة ل  

 

 

الان، اشتق جزئيا بالنسبة ل   :

 

 
 

و في النهاية عوض ب   لتحديد  

 

مراجععدل

  1. ^ Lane, David M. Introduction to Statistics (PDF). صفحة 462. مؤرشف من الأصل (PDF) في 10 ديسمبر 2019. الوسيط |CitationClass= تم تجاهله (مساعدة)
  2. ^ "What is Simple Linear Regression?". Pennsylvania State University. مؤرشف من الأصل في 19 ديسمبر 2018. اطلع عليه بتاريخ 17 أكتوبر 2016. الوسيط |CitationClass= تم تجاهله (مساعدة)
  3. ^ "Statistical Sampling and Regression: Simple Linear Regression". Columbia University. مؤرشف من الأصل في 11 ديسمبر 2017. اطلع عليه بتاريخ 17 أكتوبر 2016. When one independent variable is used in a regression, it is called a simple regression;(...) الوسيط |CitationClass= تم تجاهله (مساعدة)