بيانات الانحدار. أساسيات تحليل البيانات

نتيجة لدراسة مادة الفصل 4 ، يجب على الطالب:

أعرف

  • المفاهيم الأساسية لتحليل الانحدار.
  • طرق التقدير وخصائص تقديرات طريقة المربعات الصغرى ؛
  • القواعد الأساسية لاختبار الأهمية وتقدير الفاصل الزمني للمعادلة ومعاملات الانحدار ؛

يكون قادرا على

  • إيجاد تقديرات لمعاملات النماذج ثنائية الأبعاد والمتعددة لمعادلات الانحدار من بيانات العينة ، وتحليل خصائصها ؛
  • تحقق من أهمية المعادلة ومعاملات الانحدار ؛
  • العثور على تقديرات الفاصل للمعلمات الهامة ؛

ملك

  • مهارات التقدير الإحصائي لمعاملات معادلات الانحدار ثنائية الأبعاد ومتعددة ؛ مهارات التحقق من كفاية نماذج الانحدار ؛
  • المهارات في الحصول على معادلة الانحدار مع جميع المعاملات الهامة باستخدام البرمجيات التحليلية.

مفاهيم أساسية

بعد إجراء تحليل الارتباط ، عندما يتم تحديد وجود علاقات ذات دلالة إحصائية بين المتغيرات وتقييم درجة ضيقها ، فإنها تنتقل عادةً إلى وصف رياضي لنوع التبعيات باستخدام طرق تحليل الانحدار. لهذا الغرض ، يتم تحديد فئة من الوظائف التي تربط المؤشر الفعال فيوالحجج - حساب تقديرات معاملات معادلة القيد وتحليل دقة المعادلة الناتجة.

دالة | تصف تبعية متوسط ​​القيمة الشرطية للميزة الفعالة فيمن القيم المعطاة للحجج ، يسمى معادلة الانحدار.

مصطلح "الانحدار" (من اللات. تراجع-التراجع ، العودة إلى شيء ما) قدمه عالم النفس الإنجليزي وعالم الأنثروبولوجيا ف. الآباء ينحرفون عن متوسط ​​القامة الذي يرتفعه جميع الآباء Xبوصة ، ثم ينحرف ارتفاع أبنائهم عن متوسط ​​ارتفاع جميع الأبناء بمقدار أقل من xبوصة تم استدعاء الاتجاه المحدد الانحدار إلى الوسط.

يستخدم مصطلح "الانحدار" على نطاق واسع في الأدبيات الإحصائية ، على الرغم من أنه في كثير من الحالات لا يميز بدقة الاعتماد الإحصائي.

للحصول على وصف دقيق لمعادلة الانحدار ، من الضروري معرفة القانون الشرطي لتوزيع المؤشر الفعال ذ.في الممارسة الإحصائية ، عادة ما يكون من المستحيل الحصول على مثل هذه المعلومات ، وبالتالي ، فهي تقتصر على إيجاد تقديرات تقريبية مناسبة للوظيفة و (xش X 2 ، .... ل *) ، بناءً على تحليل أولي ذي مغزى للظاهرة أو على البيانات الإحصائية الأصلية.

في إطار افتراضات النموذج الفردية حول نوع توزيع متجه المؤشرات<) может быть получен общий вид معادلات الانحدار، أين. على سبيل المثال ، في ظل افتراض أن مجموعة المؤشرات المدروسة تخضع لقانون التوزيع الطبيعي ذي الأبعاد () مع متجه التوقعات الرياضية

أين ، ومن خلال مصفوفة التغاير ،

أين الاختلاف ذ

معادلة الانحدار (التوقع المشروط) لها الشكل

وبالتالي ، إذا كان متغير عشوائي متعدد المتغيرات ()

يتبع قانون التوزيع الطبيعي ذي الأبعاد () ، ثم معادلة الانحدار للمؤشر الفعال فيفي المتغيرات التوضيحية لها خطي في Xرأي.

ومع ذلك ، في الممارسة الإحصائية ، عادة ما يتعين على المرء أن يقتصر على إيجاد تقديرات تقريبية مناسبة لوظيفة الانحدار الحقيقي غير المعروفة و (خ) ،بما أن الباحث ليس لديه معرفة دقيقة بالقانون الشرطي لتوزيع الاحتمالات لمؤشر الأداء الذي تم تحليله فيللقيم المعطاة للحجج X.

ضع في اعتبارك العلاقة بين تقديرات الانحدار والصحيح والنموذج. دع مؤشر الأداء فيالمرتبطة بالحجة Xنسبة

أين هو متغير عشوائي مع قانون التوزيع العادي ، علاوة على ذلك. دالة الانحدار الحقيقية في هذه الحالة هي

لنفترض أننا لا نعرف الشكل الدقيق لمعادلة الانحدار الحقيقية ، لكن لدينا تسع ملاحظات على متغير عشوائي ثنائي الأبعاد مرتبط بالعلاقات الموضحة في الشكل. 4.1

أرز. 4.1 الموقف النسبي للحقيقةو (خ) والنظريةرائعنماذج الانحدار

موقع النقاط في الشكل. 4.1 يسمح لنا أن نحصر أنفسنا في فئة التبعيات الخطية للنموذج

باستخدام طريقة المربعات الصغرى ، نجد تقديرًا لمعادلة الانحدار.

للمقارنة ، في الشكل. يوضح الشكل 4.1 الرسوم البيانية لوظيفة الانحدار الحقيقي ودالة الانحدار التقريبي النظري. يتقارب تقدير معادلة الانحدار في الاحتمال الأخير رائعمع زيادة غير محدودة في حجم العينة ().

نظرًا لأننا اخترنا عن طريق الخطأ دالة الانحدار الخطي بدلاً من وظيفة الانحدار الحقيقية ، والتي ، للأسف ، شائعة جدًا في ممارسة البحث الإحصائي ، فإن استنتاجاتنا وتقديراتنا الإحصائية لن يكون لها خاصية الاتساق ، أي بغض النظر عن مقدار زيادة حجم الملاحظات ، لن يتقارب تقدير العينة الخاص بنا مع دالة الانحدار الحقيقية

إذا اخترنا فئة وظائف الانحدار بشكل صحيح ، فإن عدم الدقة في الوصف باستخدام رائعسيتم تفسيره فقط من خلال محدودية العينة ، وبالتالي ، يمكن جعلها صغيرة بشكل تعسفي

من أجل استعادة القيمة الشرطية للمؤشر الفعال ووظيفة الانحدار غير المعروفة من البيانات الإحصائية الأولية بشكل أفضل ، يتم استخدام ما يلي في أغلب الأحيان: معايير الكفايةوظائف الخسارة.

1. طريقة المربعات الصغرى ،وفقًا لذلك ، يتم تقليل الانحراف التربيعي للقيم المرصودة للمؤشر الفعال ، من قيم النموذج إلى الحد الأدنى ، حيث معاملات معادلة الانحدار ؛ هي قيم متجه الوسيطات في "-M الملاحظة :

يتم حل مشكلة إيجاد تقدير للمتجه. يسمى الانحدار الناتج يعني مربع.

2. طريقة الوحدات الأقل، وفقًا لتقليل مجموع الانحرافات المطلقة للقيم المرصودة للمؤشر الفعال عن القيم المعيارية ، أي

يسمى الانحدار الناتج يعني المطلق(الوسيط).

3. طريقة minimaxيتم تقليله إلى تقليل الحد الأقصى للانحراف عن القيمة الملحوظة للمؤشر الفعال ذمن قيمة النموذج ، أي

يسمى الانحدار الناتج مينيماكس.

في التطبيقات العملية ، غالبًا ما توجد مشكلات يتم فيها دراسة المتغير العشوائي ذاعتمادًا على مجموعة من المتغيرات والمعلمات غير المعروفة. سوف نعتبر () كـ (ك + 1) -الأبعاد العامة للسكان ، والتي منها عينة عشوائية من الحجم فحيث () هي نتيجة الملاحظة -th. مطلوب لتقدير المعلمات غير المعروفة بناءً على نتائج الملاحظات. تشير المهمة الموضحة أعلاه إلى مهام تحليل الانحدار.

تحليل الانحدار استدعاء طريقة التحليل الإحصائي لاعتماد متغير عشوائي فيعلى المتغيرات التي تم اعتبارها في تحليل الانحدار كمتغيرات غير عشوائية ، بغض النظر عن قانون التوزيع الحقيقي

النتائج

الجدول 8.3 أ. إحصائيات الانحدار
إحصائيات الانحدار
متعددة R 0,998364
R- سكوير 0,99673
تطبيع R- مربع 0,996321
خطأ تقليدي 0,42405
ملاحظات 10

لنلقِ نظرة أولاً على الجزء العلوي من الحسابات الواردة في الجدول 8.3 أ ، إحصائيات الانحدار.

قيمة R-square ، التي تسمى أيضًا مقياس اليقين ، تميز جودة خط الانحدار الناتج. يتم التعبير عن هذه الجودة من خلال درجة التطابق بين البيانات الأصلية ونموذج الانحدار (البيانات المحسوبة). يكون مقياس اليقين دائمًا ضمن الفترة الزمنية.

في معظم الحالات ، تكون قيمة R التربيعية بين هذه القيم ، وتسمى القيم المتطرفة ، أي بين صفر وواحد.

إذا كانت قيمة R-square قريبة من واحد ، فهذا يعني أن النموذج المُنشأ يشرح تقريبًا كل متغيرات المتغيرات المقابلة. على العكس من ذلك ، فإن قيمة R التربيعية القريبة من الصفر تعني جودة رديئة للنموذج المركب.

في مثالنا ، مقياس اليقين هو 0.99673 ، مما يشير إلى توافق جيد جدًا لخط الانحدار مع البيانات الأصلية.

متعددة R- معامل الارتباط المتعدد R - يعبر عن درجة الاعتماد على المتغيرات المستقلة (X) والمتغير التابع (Y).

مضاعف R يساوي الجذر التربيعيمن معامل التحديد ، تأخذ هذه القيمة قيمًا في النطاق من صفر إلى واحد.

في تحليل الانحدار الخطي البسيط ، فإن المضاعف R يساوي معامل ارتباط بيرسون. في الواقع ، مضاعف R في حالتنا يساوي معامل ارتباط بيرسون من المثال السابق (0.998364).

الجدول 8.3 ب. معاملات الانحدار
احتمال خطأ تقليدي t- الإحصاء
تقاطع ص 2,694545455 0,33176878 8,121757129
متغير × 1 2,305454545 0,04668634 49,38177965
* تم تقديم نسخة مبتورة من الحسابات

الآن ضع في اعتبارك الجزء الأوسط من الحسابات الواردة في الجدول 8.3 ب. هنا ، يتم إعطاء معامل الانحدار ب (2.305454545) والإزاحة على طول المحور ص ، أي ثابت أ (2.694545455).

بناءً على الحسابات ، يمكننا كتابة معادلة الانحدار على النحو التالي:

ص = س * 2.305454545 + 2.694545455

يتم تحديد اتجاه العلاقة بين المتغيرات بناءً على العلامات (سلبية أو إيجابية) معاملات الانحدار(المعامل ب).

إذا كانت العلامة في معامل الانحدار- موجب ، تكون علاقة المتغير التابع بالمستقل إيجابية. في حالتنا ، علامة معامل الانحدار موجبة ، وبالتالي فإن العلاقة موجبة أيضًا.

إذا كانت العلامة في معامل الانحدار- سالب ، العلاقة بين المتغير التابع والمتغير المستقل سالبة (معكوسة).

في الجدول 8.3 ج. يتم عرض نتائج مخرجات القيم المتبقية. لكي تظهر هذه النتائج في التقرير ، من الضروري تنشيط مربع الاختيار "المتبقية" عند تشغيل أداة "الانحدار".

ما تبقى من الانسحاب

الجدول 8.3 ج. بقايا
الملاحظة توقع Y بقايا الموازين القياسية
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

باستخدام هذا الجزء من التقرير ، يمكننا رؤية انحرافات كل نقطة عن خط الانحدار المُنشأ. أعظم قيمة مطلقة

ينطلق العلم السياسي الحديث من الموقف من العلاقة بين جميع الظواهر والعمليات في المجتمع. من المستحيل فهم الأحداث والعمليات والتنبؤ بظواهر الحياة السياسية وإدارتها دون دراسة الروابط والتبعيات الموجودة في المجال السياسي للمجتمع. من أكثر المهام شيوعًا لبحوث السياسات دراسة العلاقة بين بعض المتغيرات التي يمكن ملاحظتها. تساعد فئة كاملة من طرق التحليل الإحصائية ، التي يوحدها الاسم الشائع "تحليل الانحدار" (أو ، كما يطلق عليه أيضًا ، "تحليل الارتباط والانحدار") في حل هذه المشكلة. ومع ذلك ، إذا كان تحليل الارتباط يجعل من الممكن تقييم قوة العلاقة بين متغيرين ، فمن الممكن باستخدام تحليل الانحدار تحديد نوع هذه العلاقة ، للتنبؤ باعتماد قيمة أي متغير على قيمة متغير آخر .

أولاً ، دعنا نتذكر ما هو الارتباط. مترابطتسمى الحالة الخاصة الأكثر أهمية للعلاقة الإحصائية ، والتي تتكون من حقيقة أن القيم المتساوية لمتغير واحد تتوافق مع مختلف متوسط ​​القيماخر. مع تغيير في قيمة السمة x ، يتغير متوسط ​​قيمة السمة y بشكل طبيعي ، بينما في كل حالة فردية قيمة السمة في(باحتمالات مختلفة) يمكن أن تأخذ العديد من القيم المختلفة.

يرتبط ظهور مصطلح "الارتباط" في الإحصاء (والجذب في العلوم السياسية بالإنجاز الإحصائي لحل مشكلاته ، وهو بالتالي تخصص متعلق بالعلوم السياسية) مرتبطًا باسم عالم الأحياء والإحصائي الإنجليزي فرانسيس جالتون ، الذي اقترح في القرن التاسع عشر. الأسس النظرية لتحليل الارتباط والانحدار. كان مصطلح "الارتباط" في العلم معروفًا من قبل. على وجه الخصوص ، في علم الحفريات في القرن الثامن عشر. تم تطبيقه من قبل العالم الفرنسي جورج كوفييه. قدم ما يسمى بقانون الارتباط ، والذي من خلاله ، وفقًا لبقايا الحيوانات التي تم العثور عليها أثناء الحفريات ، كان من الممكن استعادة مظهرها.

هناك قصة معروفة مرتبطة باسم هذا العالم وقانون الارتباط الخاص به. لذلك ، في أيام العطلة الجامعية ، قام الطلاب الذين قرروا لعب خدعة على أستاذ مشهور بسحب جلد ماعز بقرون وحوافر على طالب واحد. صعد إلى نافذة غرفة نوم كوفييه وصرخ: "سأكلك". استيقظ الأستاذ ونظر إلى الصورة الظلية وأجاب: "إذا كان لديك قرون وحوافر ، فأنت من الحيوانات العاشبة ولا يمكنك أكلني. والجهل بقانون الارتباط سوف تحصل على شيطان. استدار ونام. النكتة هي مزحة ، ولكن في هذا المثال نشهد حالة خاصة لاستخدام تحليل الارتباط والانحدار المتعدد. هنا استنتج الأستاذ ، بناءً على معرفة قيم السمتين المرصودة (وجود القرون والحوافر) ، بناءً على قانون الارتباط ، متوسط ​​قيمة السمة الثالثة (الفئة التي ينتمي إليها هذا الحيوان هو العاشبة). في هذه الحالة ، لا نتحدث عن القيمة المحددة لهذا المتغير (أي أن هذا الحيوان يمكن أن يأخذ قيمًا مختلفة على مقياس اسمي - يمكن أن يكون عنزة أو كبشًا أو ثورًا ...).

الآن دعنا ننتقل إلى مصطلح "الانحدار". بالمعنى الدقيق للكلمة ، لا يرتبط بمعنى تلك المشكلات الإحصائية التي يتم حلها بمساعدة هذه الطريقة. لا يمكن تقديم تفسير للمصطلح إلا على أساس معرفة تاريخ تطوير أساليب دراسة العلاقات بين السمات. كان أحد الأمثلة الأولى للدراسات من هذا النوع هو عمل الإحصائيين ف.جالتون وك. X-ارتفاع الأب و ش-نمو الأطفال). في دراستهم ، أكدوا الفرضية الأولية القائلة بأن الآباء طوال القامة ، في المتوسط ​​، يربون أطفالًا طوال القامة في المتوسط. ينطبق نفس المبدأ على الآباء والأمهات والأطفال. ومع ذلك ، إذا توقف العلماء عند هذا الحد ، فلن يتم ذكر أعمالهم في الكتب المدرسية حول الإحصاء. وجد الباحثون نمطًا آخر ضمن الفرضية المؤكدة التي سبق ذكرها. لقد أثبتوا أن الأب طويل القامة ينجب أطفالًا طويلين في المتوسط ​​، لكن لا يختلفون كثيرًا في الطول عن الأطفال الذين لا يختلف آباؤهم كثيرًا عن متوسط ​​الطول ، على الرغم من أن آبائهم أعلى من المتوسط. وينطبق الشيء نفسه على الآباء ذوي القامة الصغيرة جدًا (انحرافًا عن متوسط ​​المجموعة القصيرة) - أطفالهم ، في المتوسط ​​، لم يختلفوا في الطول عن أقرانهم الذين كان آباؤهم قصيرًا. أطلقوا على الوظيفة التي تصف هذا الانتظام وظيفة الانحدار.بعد هذه الدراسة ، بدأت تسمى جميع المعادلات التي تصف وظائف متشابهة وتم إنشاؤها بطريقة مماثلة باسم معادلات الانحدار.

تحليل الانحدار- إحدى طرق تحليل البيانات الإحصائية متعددة المتغيرات ، وهي تجمع بين مجموعة من الأساليب الإحصائية المصممة لدراسة أو نمذجة العلاقات بين متغير واحد تابع ومتغيرات مستقلة متعددة (أو واحدة). المتغير التابع ، وفقًا للتقاليد المقبولة في الإحصاء ، يسمى الاستجابة ويشار إليه على أنه الخامستسمى المتغيرات المستقلة المتغيرات ويتم الإشارة إليها على أنها x.أثناء إجراء التحليل ، ستكون بعض المتغيرات مرتبطة بشكل ضعيف بالاستجابة وسيتم استبعادها في النهاية من التحليل. يمكن أيضًا تسمية المتغيرات المتبقية المرتبطة بالمعال بالعوامل.

يجعل تحليل الانحدار من الممكن التنبؤ بقيم متغير واحد أو أكثر اعتمادًا على متغير آخر (على سبيل المثال ، الميل للسلوك السياسي غير التقليدي اعتمادًا على مستوى التعليم) أو عدة متغيرات. يتم احتسابه على جهاز الكمبيوتر. لتجميع معادلة الانحدار التي تسمح لك بقياس درجة اعتماد الميزة الخاضعة للرقابة على عوامل العوامل ، من الضروري إشراك علماء الرياضيات والمبرمجين المحترفين. يمكن أن يوفر تحليل الانحدار خدمة لا تقدر بثمن في بناء نماذج تنبؤية لتطور الوضع السياسي ، وتقييم أسباب التوتر الاجتماعي ، وفي إجراء التجارب النظرية. يستخدم تحليل الانحدار بشكل فعال لدراسة تأثير عدد من المعايير الاجتماعية والديموغرافية على السلوك الانتخابي للمواطنين: الجنس والعمر والمهنة ومكان الإقامة والجنسية ومستوى وطبيعة الدخل.

فيما يتعلق بتحليل الانحدار ، المفاهيم لا يعتمدو يعتمدالمتغيرات. المتغير المستقل هو متغير يشرح أو يتسبب في تغيير متغير آخر. المتغير التابع هو متغير تفسر قيمته بتأثير المتغير الأول. على سبيل المثال ، في الانتخابات الرئاسية عام 2004 ، العوامل المحددة ، أي المتغيرات المستقلة كانت مؤشرات مثل استقرار الوضع المالي لسكان البلاد ، ومستوى شعبية المرشحين والعامل شغل المنصب.في هذه الحالة ، يمكن اعتبار النسبة المئوية للأصوات التي تم الإدلاء بها للمرشحين متغيرًا تابعًا. وبالمثل ، في زوج المتغيرين "عمر الناخب" و "مستوى النشاط الانتخابي" ، يكون الأول مستقل ، والثاني تابع.

يتيح لك تحليل الانحدار حل المشكلات التالية:

  • 1) إثبات حقيقة وجود أو عدم وجود علاقة ذات دلالة إحصائية بين Ci العاشر ؛
  • 2) بناء أفضل التقديرات (بالمعنى الإحصائي) لدالة الانحدار ؛
  • 3) حسب القيم المعطاة Xبناء تنبؤ للمجهول في
  • 4) تقييم الوزن النوعي لتأثير كل عامل Xعلى ال فيوبالتالي ، استبعاد الميزات غير المهمة من النموذج ؛
  • 5) من خلال تحديد العلاقات السببية بين المتغيرات ، وإدارة قيم P جزئيًا عن طريق تعديل قيم المتغيرات التوضيحية x.

يرتبط تحليل الانحدار بالحاجة إلى تحديد متغيرات مستقلة بشكل متبادل تؤثر على قيمة المؤشر قيد الدراسة ، وتحديد شكل معادلة الانحدار ، وتقييم المعلمات باستخدام الأساليب الإحصائية لمعالجة البيانات الاجتماعية الأولية. يعتمد هذا النوع من التحليل على فكرة شكل واتجاه وقرب (كثافة) العلاقة. يميز غرفة البخارو الانحدار المتعدداعتمادًا على عدد الميزات المدروسة. من الناحية العملية ، يتم إجراء تحليل الانحدار عادةً جنبًا إلى جنب مع تحليل الارتباط. معادلة الانحداريصف علاقة عددية بين الكميات ، معبرًا عنها على أنها ميل لمتغير واحد إلى الزيادة أو النقصان بينما يزيد الآخر أو ينقص. في نفس الوقت ، razl و h a yut l الصقيعو الانحدار غير الخطي.عند وصف العمليات السياسية ، تم العثور على كلا متغيري الانحدار بالتساوي.

مخطط مبعثر لتوزيع ترابط المصالح في المقالات السياسية ( يو)وتعليم المستجيبين (X)هو انحدار خطي (الشكل 30).

أرز. ثلاثين.

مخطط مبعثر لتوزيع مستوى النشاط الانتخابي ( يو)وعمر المستفتى (أ) (مثال مشروط) هو انحدار غير خطي (الشكل 31).


أرز. 31.

لوصف العلاقة بين ميزتين (A "و Y) في نموذج الانحدار المزدوج ، يتم استخدام معادلة خطية

حيث a ، هي قيمة عشوائية لخطأ المعادلة مع اختلاف الميزات ، أي انحراف المعادلة عن "الخطية".

لتقييم المعاملات أو باستخدم طريقة المربعات الصغرى ، والتي تفترض أن مجموع الانحرافات التربيعية لكل نقطة على مخطط التبعثر من خط الانحدار يجب أن يكون ضئيلاً. احتمال أ ح بيمكن حسابها باستخدام نظام المعادلات:

تعطي طريقة تقدير المربعات الصغرى مثل هذه التقديرات للمعاملات أو ب،التي يمر بها الخط عبر النقطة ذات الإحداثيات Xو ذأولئك. هناك علاقة في = الفأس + ب.يسمى التمثيل الرسومي لمعادلة الانحدار خط الانحدار النظري.مع الاعتماد الخطي ، يمثل معامل الانحدار على الرسم البياني مماس منحدر خط الانحدار النظري إلى المحور x. توضح العلامة عند المعامل اتجاه العلاقة. إذا كانت أكبر من الصفر ، تكون العلاقة مباشرة ؛ وإذا كانت أقل ، تكون معكوسة.

يوضح المثال التالي من دراسة "بوليتيكال بطرسبورغ 2006" (الجدول 56) علاقة خطية بين تصورات المواطنين لدرجة الرضا عن حياتهم في الحاضر وتوقعات التغييرات في نوعية الحياة في المستقبل. الاتصال مباشر وخطي (معامل الانحدار المعياري هو 0.233 ، ومستوى الأهمية 0.000). في هذه الحالة ، لا يكون معامل الانحدار مرتفعًا ، ولكنه يتجاوز الحد الأدنى للمؤشر ذي الدلالة الإحصائية (الحد الأدنى لمربع المؤشر ذي الدلالة الإحصائية لمعامل بيرسون).

الجدول 56

تأثير نوعية حياة المواطنين في الوقت الحاضر على التوقعات

(سانت بطرسبرغ ، 2006)

* متغير تابع: "كيف تعتقد أن حياتك ستتغير في غضون 2-3 سنوات مقبلة؟"

في الحياة السياسية ، غالبًا ما تعتمد قيمة المتغير قيد الدراسة في وقت واحد على عدة ميزات. على سبيل المثال ، يتأثر مستوى وطبيعة النشاط السياسي في نفس الوقت بالنظام السياسي للدولة والتقاليد السياسية وخصائص السلوك السياسي للناس في منطقة معينة والمجموعة الاجتماعية الصغيرة للمستجيب وعمره وتعليمه ودخله المستوى ، التوجه السياسي ، إلخ. في هذه الحالة ، تحتاج إلى استخدام المعادلة الانحدار المتعددوالتي لها الشكل التالي:

حيث المعامل ب.- معامل الانحدار الجزئي. يوضح مساهمة كل متغير مستقل في تحديد قيم المتغير المستقل (النتيجة). إذا كان معامل الانحدار الجزئي قريبًا من 0 ، فيمكننا أن نستنتج أنه لا توجد علاقة مباشرة بين المتغيرات المستقلة والتابعة.

يمكن إجراء حساب مثل هذا النموذج على جهاز كمبيوتر باستخدام جبر المصفوفة. يسمح لك الانحدار المتعدد بعكس الطبيعة متعددة العوامل للروابط الاجتماعية وتوضيح درجة تأثير كل عامل على حدة وكل ذلك معًا على السمة الناتجة.

المعامل المشار إليه ب،يسمى معامل الانحدار الخطي ويظهر قوة العلاقة بين تباين سمة العامل Xوالاختلاف في السمة الفعالة صيقيس هذا المعامل قوة العلاقة في وحدات قياس السمات المطلقة. ومع ذلك ، يمكن أيضًا التعبير عن قرب ارتباط الميزات من حيث الانحراف المعياري للميزة الناتجة (يُطلق على هذا المعامل اسم معامل الارتباط). على عكس معامل الانحدار بلا يعتمد معامل الارتباط على وحدات قياس السمات المقبولة ، وبالتالي فهو قابل للمقارنة مع أي ميزات. عادة ، يعتبر الاتصال قويًا إذا /> 0.7 ، ضيق متوسط ​​- عند 0.5 جم 0.5.

كما تعلم ، فإن أقرب اتصال هو اتصال وظيفي ، عند كل قيمة فردية صيمكن تخصيصها للقيمة بشكل فريد x.وبالتالي ، كلما اقترب معامل الارتباط من 1 ، كلما كانت العلاقة أقرب إلى علاقة وظيفية. يجب ألا يتجاوز مستوى الأهمية لتحليل الانحدار 0.001.

لطالما اعتبر معامل الارتباط المؤشر الرئيسي لتقارب علاقة السمات. ومع ذلك ، أصبح معامل التحديد في وقت لاحق مثل هذا المؤشر. معنى هذا المعامل كما يلي - يعكس حصة التباين الكلي للميزة الناتجة في، موضحًا باختلاف الميزة x.تم العثور عليه ببساطة عن طريق تربيع معامل الارتباط (التغيير من 0 إلى 1) ، وبالتالي ، بالنسبة للعلاقة الخطية ، تعكس الحصة من 0 (0٪) إلى 1 (100٪) قيم مميزة نعم ،تحددها قيم السمة x.يتم تسجيله على أنه أنا 2 ،وفي الجداول الناتجة لتحليل الانحدار في حزمة SPSS - بدون مربع.

دعونا نشير إلى المشاكل الرئيسية لبناء معادلة الانحدار المتعدد.

  • 1. اختيار العوامل المدرجة في معادلة الانحدار.في هذه المرحلة ، يقوم الباحث أولاً بتجميع قائمة عامة بالأسباب الرئيسية التي تحدد ، وفقًا للنظرية ، الظاهرة قيد الدراسة. ثم يجب عليه تحديد الميزات في معادلة الانحدار. قاعدة الاختيار الرئيسية هي أن العوامل المدرجة في التحليل يجب أن ترتبط بأقل قدر ممكن مع بعضها البعض ؛ فقط في هذه الحالة يمكن عزو مقياس كمي للتأثير إلى سمة عامل معينة.
  • 2. اختيار شكل معادلة الانحدار المتعدد(في الممارسة العملية ، غالبًا ما يتم استخدام اللوغاريتمي الخطي أو الخطي). لذلك ، لاستخدام الانحدار المتعدد ، يجب على الباحث أولاً بناء نموذج افتراضي لتأثير العديد من المتغيرات المستقلة على الناتج الناتج. لكي تكون النتائج التي تم الحصول عليها موثوقة ، من الضروري أن يتطابق النموذج تمامًا مع العملية الحقيقية ، أي يجب أن تكون العلاقة بين المتغيرات خطية ، ولا يمكن تجاهل متغير مستقل واحد مهم ، بنفس الطريقة ، ولا يمكن تضمين متغير واحد غير مرتبط مباشرة بالعملية قيد الدراسة في التحليل. بالإضافة إلى ذلك ، يجب أن تكون جميع قياسات المتغيرات دقيقة للغاية.

من الوصف أعلاه يتبع عددًا من الشروط لتطبيق هذه الطريقة ، والتي بدونها يستحيل المضي قدمًا في إجراء تحليل الانحدار المتعدد (MRA). فقط الامتثال لجميع النقاط التالية يسمح لك بإجراء تحليل الانحدار بشكل صحيح.

في النمذجة الإحصائية ، تحليل الانحدار هو دراسة تستخدم لتقييم العلاقة بين المتغيرات. تتضمن هذه الطريقة الرياضية العديد من الطرق الأخرى لنمذجة وتحليل المتغيرات المتعددة عندما يكون التركيز على العلاقة بين متغير تابع ومتغير واحد أو أكثر من المتغيرات المستقلة. وبشكل أكثر تحديدًا ، يساعدك تحليل الانحدار على فهم كيفية تغير القيمة النموذجية للمتغير التابع إذا تغير أحد المتغيرات المستقلة بينما تظل المتغيرات المستقلة الأخرى ثابتة.

في جميع الحالات ، فإن الدرجة المستهدفة هي دالة للمتغيرات المستقلة وتسمى وظيفة الانحدار. في تحليل الانحدار ، من المهم أيضًا وصف التغيير في المتغير التابع كدالة للانحدار ، والتي يمكن وصفها باستخدام توزيع الاحتمالية.

مهام تحليل الانحدار

تُستخدم طريقة البحث الإحصائي هذه على نطاق واسع للتنبؤ ، حيث يكون لاستخدامها ميزة كبيرة ، ولكن في بعض الأحيان يمكن أن تؤدي إلى وهم أو علاقات خاطئة ، لذلك يوصى باستخدامها بعناية في هذا السؤال ، حيث لا يعني الارتباط ، على سبيل المثال ، التسبب بالشىء.

متطور رقم ضخمطرق أداء تحليل الانحدار ، مثل انحدار المربعات الصغرى الخطي والعادي ، والتي تعتبر معلمية. جوهرها هو أن وظيفة الانحدار يتم تعريفها من حيث عدد محدود من المعلمات غير المعروفة التي يتم تقديرها من البيانات. يسمح الانحدار اللامعلمي لوظيفته بأن تكمن في مجموعة معينة من الوظائف ، والتي يمكن أن تكون ذات أبعاد لا نهائية.

كطريقة بحث إحصائية ، يعتمد تحليل الانحدار في الممارسة العملية على شكل عملية توليد البيانات ومدى ارتباطها بنهج الانحدار. نظرًا لأن الشكل الحقيقي لتوليد عملية البيانات عادةً ما يكون رقمًا غير معروف ، فإن تحليل انحدار البيانات غالبًا ما يعتمد إلى حد ما على افتراضات حول العملية. هذه الافتراضات قابلة للاختبار في بعض الأحيان إذا كان هناك ما يكفي من البيانات المتاحة. غالبًا ما تكون نماذج الانحدار مفيدة حتى عندما يتم انتهاك الافتراضات بشكل معتدل ، على الرغم من أنها قد لا تؤدي أفضل أداء لها.

بمعنى أضيق ، يمكن أن يشير الانحدار على وجه التحديد إلى تقدير متغيرات الاستجابة المستمرة ، على عكس متغيرات الاستجابة المنفصلة المستخدمة في التصنيف. تسمى حالة متغير الإخراج المستمر أيضًا الانحدار المتري لتمييزه عن المشكلات ذات الصلة.

قصة

أكثر شكل مبكرالانحدار هو طريقة المربعات الصغرى المعروفة. تم نشره بواسطة Legendre في 1805 و Gauss في 1809. طبق Legendre و Gauss الطريقة على مشكلة تحديد مدارات الأجسام حول الشمس من الملاحظات الفلكية (المذنبات بشكل أساسي ، ولكن أيضًا الكواكب الصغيرة المكتشفة حديثًا). نشر جاوس تطورًا إضافيًا لنظرية المربعات الصغرى في عام 1821 ، بما في ذلك متغير من نظرية جاوس ماركوف.

مصطلح "الانحدار" ابتكره فرانسيس جالتون في القرن التاسع عشر لوصف ظاهرة بيولوجية. كان المحصلة النهائية أن نمو الأحفاد من نمو الأجداد ، كقاعدة عامة ، يتراجع إلى المتوسط ​​الطبيعي. بالنسبة لجالتون ، كان للانحدار هذا المعنى البيولوجي فقط ، ولكن لاحقًا تم تناول عمله من قبل أودي يولي وكارل بيرسون ونقله إلى سياق إحصائي أكثر عمومية. في عمل Yule و Pearson ، يعتبر التوزيع المشترك للاستجابة والمتغيرات التفسيرية غاوسيًا. رفض فيشر هذا الافتراض في أوراق عامي 1922 و 1925. اقترح فيشر أن التوزيع الشرطي لمتغير الاستجابة هو غاوسي ، لكن التوزيع المشترك لا يلزم أن يكون كذلك. في هذا الصدد ، فإن اقتراح فيشر أقرب إلى صياغة غاوس لعام 1821. قبل عام 1970 ، كان الأمر يستغرق أحيانًا ما يصل إلى 24 ساعة للحصول على نتيجة تحليل الانحدار.

لا تزال طرق تحليل الانحدار مجالًا للبحث النشط. في العقود الأخيرة ، تم تطوير طرق جديدة لانحدار قوي. الانحدارات التي تنطوي على استجابات مترابطة ؛ طرق الانحدار التي تستوعب أنواعًا مختلفة من البيانات المفقودة ؛ الانحدار اللامعلمي طرق الانحدار البايزي الانحدارات التي يتم فيها قياس متغيرات التوقع بالخطأ ؛ الانحدار مع تنبؤات أكثر من الملاحظات ؛ والاستنتاجات السببية مع الانحدار.

نماذج الانحدار

تتضمن نماذج تحليل الانحدار المتغيرات التالية:

  • معلمات غير معروفة ، يُشار إليها باسم بيتا ، والتي يمكن أن تكون عدديًا أو متجهًا.
  • المتغيرات المستقلة ، X.
  • المتغيرات التابعة ، Y.

في مناطق مختلفةتستخدم العلوم التي يتم فيها تطبيق تحليل الانحدار مصطلحات مختلفة بدلاً من المتغيرات التابعة والمستقلة ، ولكن في جميع الحالات ، يربط نموذج الانحدار Y بدالة X و.

عادة ما تتم صياغة التقريب كـ E (Y | X) = F (X، β). لإجراء تحليل الانحدار ، يجب تحديد شكل الوظيفة f. نادرًا ما يعتمد على المعرفة حول العلاقة بين Y و X التي لا تعتمد على البيانات. في حالة عدم توفر هذه المعرفة ، يتم اختيار نموذج F مرن أو مناسب.

المتغير المعتمد Y

لنفترض الآن أن متجه المعلمات غير المعروفة β له طول ك. لإجراء تحليل الانحدار ، يجب على المستخدم تقديم معلومات حول المتغير التابع Y:

  • إذا لوحظت N نقاط بيانات من النموذج (Y ، X) ، حيث N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • إذا تمت ملاحظة N = K بالضبط ، وكانت الوظيفة F خطية ، فيمكن حل المعادلة Y = F (X ، β) تمامًا ، وليس تقريبًا. يتلخص هذا في حل مجموعة من معادلات N مع N-unknowns (عناصر β) التي لها حل فريد طالما أن X مستقلة خطيًا. إذا كانت F غير خطية ، فقد لا يوجد حل ، أو قد يكون هناك العديد من الحلول.
  • الموقف الأكثر شيوعًا هو حيث توجد N> نقاط للبيانات. في هذه الحالة ، توجد معلومات كافية في البيانات لتقدير القيمة الفريدة لـ التي تناسب البيانات بشكل أفضل ، ويمكن اعتبار نموذج الانحدار عند تطبيقه على البيانات كنظام تم تجاوزه في β.

في الحالة الأخيرة ، يوفر تحليل الانحدار أدوات من أجل:

  • إيجاد حل للمعلمات غير المعروفة β ، والتي ستقلل ، على سبيل المثال ، المسافة بين القيمة المقاسة والمتوقعة لـ Y.
  • في ظل افتراضات إحصائية معينة ، يستخدم تحليل الانحدار المعلومات الزائدة لتوفير معلومات إحصائية حول المعلمات غير المعروفة β والقيم المتوقعة للمتغير التابع Y.

العدد المطلوب من القياسات المستقلة

ضع في اعتبارك نموذج الانحدار الذي يحتوي على ثلاث معاملات غير معروفة: β 0 و β 1 و β 2. لنفترض أن المجرب قام بإجراء 10 قياسات بنفس قيمة المتغير المستقل للمتجه X. في هذه الحالة ، لا يعطي تحليل الانحدار مجموعة فريدة من القيم. أفضل ما يمكن فعله هو تقدير المتوسط ​​والانحراف المعياري للمتغير التابع Y. وبالمثل ، قياس الاثنين قيم مختلفة X ، يمكنك الحصول على بيانات كافية لانحدار مع مجهولين ، ولكن ليس لثلاثة مجاهيل أو أكثر.

إذا تم أخذ قياسات المجرب بثلاث قيم مختلفة لمتغير المتجه المستقل X ، فإن تحليل الانحدار سيوفر مجموعة فريدة من التقديرات للمعلمات الثلاثة غير المعروفة في β.

في حالة الانحدار الخطي العام ، تكون العبارة أعلاه مكافئة لمتطلبات المصفوفة X T X قابلة للعكس.

الافتراضات الإحصائية

عندما يكون عدد القياسات N أكبر من عدد المعلمات غير المعروفة k وأخطاء القياس ε i ، عندئذٍ ، كقاعدة عامة ، يتم توزيع المعلومات الزائدة الواردة في القياسات واستخدامها للتنبؤات الإحصائية المتعلقة بالمعلمات غير المعروفة. يسمى هذا الفائض من المعلومات بدرجة حرية الانحدار.

الافتراضات المتضمنة

تشمل الافتراضات الكلاسيكية لتحليل الانحدار ما يلي:

  • أخذ العينات هو ممثل لتوقع الاستدلال.
  • الخطأ متغير عشوائي بمتوسط ​​قيمة صفر ، وهو مشروط بالمتغيرات التوضيحية.
  • يتم قياس المتغيرات المستقلة دون أخطاء.
  • كمتغيرات مستقلة (تنبؤات) ، فهي مستقلة خطيًا ، أي أنه لا يمكن التعبير عن أي متنبئ كمجموعة خطية من المتغيرات الأخرى.
  • الأخطاء غير مرتبطة ، أي مصفوفة تغاير الخطأ للأقطار وكل عنصر غير صفري هو تباين الخطأ.
  • تباين الخطأ ثابت عبر الملاحظات (المثلية الجنسية). إذا لم يكن الأمر كذلك ، فيمكن استخدام المربعات الصغرى الموزونة أو طرق أخرى.

هذه الشروط الكافية لتقدير المربعات الصغرى لها الخصائص المطلوبة ، ولا سيما هذه الافتراضات تعني أن تقديرات المعلمات ستكون موضوعية ومتسقة وفعالة ، لا سيما عند أخذها في الاعتبار في فئة التقديرات الخطية. من المهم ملاحظة أن البيانات الفعلية نادراً ما تفي بالشروط. بمعنى ، يتم استخدام الطريقة حتى لو كانت الافتراضات غير صحيحة. يمكن أحيانًا استخدام الاختلاف عن الافتراضات كمقياس لمدى فائدة النموذج. يمكن تخفيف العديد من هذه الافتراضات بطرق أكثر تقدمًا. تتضمن تقارير التحليل الإحصائي عادةً تحليل الاختبارات مقابل بيانات العينة والمنهجية لفائدة النموذج.

بالإضافة إلى ذلك ، تشير المتغيرات في بعض الحالات إلى القيم المقاسة في مواقع النقطة. قد تكون هناك اتجاهات مكانية وارتباطات مكانية ذاتية في المتغيرات التي تنتهك الافتراضات الإحصائية. الانحدار الجغرافي الموزون هو الطريقة الوحيدة التي تتعامل مع مثل هذه البيانات.

في الانحدار الخطي ، الميزة هي أن المتغير التابع ، وهو Y i ، هو مزيج خطي من المعلمات. على سبيل المثال ، في الانحدار الخطي البسيط ، تستخدم نمذجة النقطة n متغيرًا مستقلاً واحدًا ، x i ، ومعلمتين ، β 0 و 1.

في الانحدار الخطي المتعدد ، هناك العديد من المتغيرات المستقلة أو وظائفها.

عند أخذ عينات عشوائية من السكان ، فإن معلماتها تجعل من الممكن الحصول على عينة من نموذج الانحدار الخطي.

في هذا الجانب ، تعتبر طريقة المربعات الصغرى هي الأكثر شيوعًا. يوفر تقديرات المعلمات التي تقلل من مجموع مربعات القيم المتبقية. هذا النوع من التصغير (وهو نموذجي للانحدار الخطي) لهذه الوظيفة يؤدي إلى مجموعة من المعادلات العادية ومجموعة المعادلات الخطيةمع المعلمات التي يتم حلها للحصول على تقديرات المعلمات.

بافتراض أن الخطأ السكاني ينتشر بشكل عام ، يمكن للباحث استخدام هذه التقديرات للأخطاء المعيارية لإنشاء فترات ثقة وإجراء اختبار الفرضيات حول معلماتها.

تحليل الانحدار غير الخطي

مثال عندما تكون الوظيفة غير خطية فيما يتعلق بالمعلمات يشير إلى أنه يجب تصغير مجموع المربعات بإجراء تكراري. يقدم هذا العديد من التعقيدات التي تحدد الاختلافات بين طرق المربعات الصغرى الخطية وغير الخطية. وبالتالي ، فإن نتائج تحليل الانحدار عند استخدام طريقة غير خطية تكون أحيانًا غير متوقعة.

حساب القوة وحجم العينة

هنا ، كقاعدة عامة ، لا توجد طرق متسقة فيما يتعلق بعدد الملاحظات مقارنة بعدد المتغيرات المستقلة في النموذج. تم اقتراح القاعدة الأولى من قبل Dobra و Hardin وتبدو مثل N = t ^ n ، حيث N هو حجم العينة ، و n هو عدد المتغيرات التوضيحية ، و t هو عدد الملاحظات اللازمة لتحقيق الدقة المطلوبة إذا كان النموذج يحتوي متغير توضيحي واحد فقط. على سبيل المثال ، يقوم الباحث ببناء نموذج انحدار خطي باستخدام مجموعة بيانات تحتوي على 1000 مريض (N). إذا قرر الباحث أن هناك حاجة إلى خمس ملاحظات لتحديد الخط بدقة (م) ، فإن الحد الأقصى لعدد المتغيرات التوضيحية التي يمكن أن يدعمها النموذج هو 4.

أساليب أخرى

على الرغم من أن معلمات نموذج الانحدار يتم تقديرها عادةً باستخدام طريقة المربعات الصغرى ، إلا أن هناك طرقًا أخرى يتم استخدامها بشكل أقل. على سبيل المثال ، هذه هي الطرق التالية:

  • طرق بايزي (على سبيل المثال ، طريقة بايز للانحدار الخطي).
  • نسبة انحدار تستخدم للحالات التي يعتبر فيها تقليل نسبة الأخطاء أكثر ملاءمة.
  • أصغر الانحرافات المطلقة ، والتي تكون أكثر قوة في وجود القيم المتطرفة التي تؤدي إلى الانحدار الكمي.
  • يتطلب الانحدار اللامعلمي عددًا كبيرًا من الملاحظات والحسابات.
  • مسافة مقياس التعلم التي يتم تعلمها بحثًا عن مقياس مسافة ذي معنى في مساحة الإدخال المحددة.

برمجة

يتم تنفيذ جميع حزم البرامج الإحصائية الرئيسية باستخدام تحليل انحدار المربعات الصغرى. يمكن استخدام الانحدار الخطي البسيط وتحليل الانحدار المتعدد في بعض تطبيقات جداول البيانات بالإضافة إلى بعض الآلات الحاسبة. في حين أن العديد من حزم البرامج الإحصائية يمكن أن تؤدي أنواعًا مختلفة من الانحدار اللامعلمي والقوي ، فإن هذه الأساليب أقل توحيدًا ؛ تستخدم حزم البرامج المختلفة طرقًا مختلفة. تم تطوير برامج الانحدار المتخصصة لاستخدامها في مجالات مثل تحليل المسح وتصوير الأعصاب.

السمة الرئيسية لتحليل الانحدار هي أنه يمكن استخدامه للحصول على معلومات محددة حول شكل وطبيعة العلاقة بين المتغيرات قيد الدراسة.

تسلسل مراحل تحليل الانحدار

دعونا نفكر بإيجاز في مراحل تحليل الانحدار.

    صياغة المهام. في هذه المرحلة ، يتم تشكيل الفرضيات الأولية حول الاعتماد على الظواهر المدروسة.

    تعريف المتغيرات التابعة والمستقلة (التفسيرية).

    جمع البيانات الإحصائية. يجب جمع البيانات لكل من المتغيرات المدرجة في نموذج الانحدار.

    صياغة فرضية حول شكل الاتصال (بسيط أو متعدد ، خطي أو غير خطي).

    تعريف وظائف الانحدار (يتكون من حساب القيم العددية لمعلمات معادلة الانحدار)

    تقييم دقة تحليل الانحدار.

    تفسير النتائج التي تم الحصول عليها. تمت مقارنة نتائج تحليل الانحدار بالفرضيات الأولية. يتم تقييم صحة ومعقولية النتائج التي تم الحصول عليها.

    التنبؤ بقيم غير معروفة للمتغير التابع.

بمساعدة تحليل الانحدار ، من الممكن حل مشكلة التنبؤ والتصنيف. يتم حساب القيم التنبؤية عن طريق استبدال قيم المتغيرات التوضيحية في معادلة الانحدار. يتم حل مشكلة التصنيف بهذه الطريقة: يقسم خط الانحدار مجموعة الكائنات بأكملها إلى فئتين ، وينتمي جزء المجموعة حيث تكون قيمة الوظيفة أكبر من الصفر إلى فئة واحدة ، والجزء الذي تكون فيه أقل من الصفر ينتمي إلى فئة أخرى.

مهام تحليل الانحدار

تأمل المهام الرئيسية لتحليل الانحدار: تحديد شكل التبعية ، التحديد وظائف الانحدار، تقدير للقيم غير المعروفة للمتغير التابع.

تحديد شكل التبعية.

يمكن أن تشكل طبيعة وشكل العلاقة بين المتغيرات الأنواع التالية من الانحدار:

    الانحدار الخطي الإيجابي (يتم التعبير عنه كنمو موحد للوظيفة) ؛

    الانحدار المتسارع الإيجابي ؛

    انحدار إيجابي متزايد بشكل موحد ؛

    الانحدار الخطي السلبي (معبرا عنه بانخفاض منتظم في الوظيفة) ؛

    الانحدار السلبي المتسارع المتناقص ؛

    الانحدار السلبي المتناقص بشكل موحد.

ومع ذلك ، فإن الأصناف الموصوفة عادة لا توجد في شكل نقي ، ولكن في تركيبة مع بعضها البعض. في هذه الحالة ، يتحدث المرء عن أشكال مجتمعة من الانحدار.

تعريف دالة الانحدار.

المهمة الثانية هي معرفة التأثير على المتغير التابع للعوامل أو الأسباب الرئيسية ، وكل الأشياء الأخرى متساوية ، وخاضعة لاستبعاد التأثير على المتغير التابع للعناصر العشوائية. وظيفة الانحدارتعرف بأنها معادلة رياضية من نوع أو آخر.

تقدير القيم غير المعروفة للمتغير التابع.

يقتصر حل هذه المشكلة على حل مشكلة من أحد الأنواع التالية:

    تقدير قيم المتغير التابع ضمن الفترة المدروسة للبيانات الأولية ، أي قيم مفقودة؛ هذا يحل مشكلة الاستيفاء.

    تقدير القيم المستقبلية للمتغير التابع ، أي إيجاد القيم خارج الفاصل الزمني المعطى للبيانات الأولية ؛ هذا يحل مشكلة الاستقراء.

يتم حل كلتا المشكلتين عن طريق استبدال التقديرات الموجودة لمعاملات قيم المتغيرات المستقلة في معادلة الانحدار. نتيجة حل المعادلة هي تقدير لقيمة المتغير الهدف (التابع).

لنلقِ نظرة على بعض الافتراضات التي يعتمد عليها تحليل الانحدار.

افتراض الخطية ، أي من المفترض أن العلاقة بين المتغيرات قيد الدراسة خطية. لذلك ، في هذا المثال ، قمنا ببناء مخطط مبعثر وتمكنا من رؤية علاقة خطية واضحة. إذا رأينا ، في مخطط تشتت المتغيرات ، غيابًا واضحًا لعلاقة خطية ، أي هناك علاقة غير خطية ، يجب استخدام طرق التحليل غير الخطية.

افتراض الحالة الطبيعية بقايا الطعام. يفترض أن توزيع الفرق بين القيم المتوقعة والملاحظة أمر طبيعي. لتحديد طبيعة التوزيع بصريًا ، يمكنك استخدام الرسوم البيانية بقايا الطعام.

عند استخدام تحليل الانحدار ، ينبغي للمرء أن يأخذ في الاعتبار حدوده الرئيسية. يتمثل في حقيقة أن تحليل الانحدار يسمح لك باكتشاف التبعيات فقط ، وليس العلاقات التي تكمن وراء هذه التبعيات.

يتيح تحليل الانحدار تقييم درجة الارتباط بين المتغيرات من خلال حساب القيمة المتوقعة لمتغير بناءً على عدة قيم معروفة.

معادلة الانحدار.

تبدو معادلة الانحدار كما يلي: Y = a + b * X

باستخدام هذه المعادلة ، يتم التعبير عن المتغير Y من حيث الثابت a وميل الخط (أو المنحدر) b مضروبًا في قيمة المتغير X. ويسمى الثابت a أيضًا التقاطع ، والميل هو الانحدار معامل أو عامل ب.

في معظم الحالات (إن لم يكن دائمًا) هناك بعض الملاحظات المتفرقة حول خط الانحدار.

بقية هو انحراف نقطة فردية (ملاحظة) عن خط الانحدار (القيمة المتوقعة).

لحل مشكلة تحليل الانحدار في MS Excel ، اختر من القائمة خدمة"حزمة التحليل"وأداة تحليل الانحدار. حدد فواصل الإدخال X و Y. فاصل الإدخال Y هو نطاق البيانات التابعة التي يتم تحليلها ويجب أن يتضمن عمودًا واحدًا. فاصل الإدخال X هو نطاق البيانات المستقلة المطلوب تحليلها. يجب ألا يتجاوز عدد نطاقات الإدخال 16.

عند إخراج الإجراء في نطاق الإخراج ، نحصل على التقرير الوارد بتنسيق الجدول 8.3 أ-8.3 فولت.

النتائج

الجدول 8.3 أ. إحصائيات الانحدار

إحصائيات الانحدار

متعددة R

R- سكوير

تطبيع R- مربع

خطأ تقليدي

ملاحظات

أولاً ، ضع في اعتبارك الجزء العلوي من الحسابات المقدمة في الجدول 8.3 أ، - إحصائيات الانحدار.

قيمة R- سكوير، ويسمى أيضًا مقياس اليقين ، يميز جودة خط الانحدار الناتج. يتم التعبير عن هذه الجودة من خلال درجة التطابق بين البيانات الأصلية ونموذج الانحدار (البيانات المحسوبة). يكون مقياس اليقين دائمًا ضمن الفترة الزمنية.

في معظم الحالات ، القيمة R- سكويربين هذه القيم ، تسمى المتطرفة ، أي بين صفر وواحد.

إذا كانت القيمة R- سكويرقريبًا من الوحدة ، هذا يعني أن النموذج المُنشأ يشرح تقريبًا كل متغيرات المتغيرات المقابلة. على العكس من ذلك ، القيمة R- سكويريعني ، بالقرب من الصفر ، جودة رديئة للنموذج المُنشأ.

في مثالنا ، مقياس اليقين هو 0.99673 ، مما يشير إلى توافق جيد جدًا لخط الانحدار مع البيانات الأصلية.

جمع R - معامل الارتباط المتعدد R - يعبر عن درجة الاعتماد على المتغيرات المستقلة (X) والمتغير التابع (Y).

متعددة Rيساوي الجذر التربيعي لمعامل التحديد ، تأخذ هذه القيمة قيمًا في النطاق من صفر إلى واحد.

في تحليل الانحدار الخطي البسيط جمع Rيساوي معامل ارتباط بيرسون. حقًا، جمع Rفي حالتنا ، يساوي معامل ارتباط بيرسون من المثال السابق (0.998364).

الجدول 8.3 ب. معاملات الانحدار

احتمال

خطأ تقليدي

t- الإحصاء

تقاطع ص

متغير × 1

* تم تقديم نسخة مبتورة من الحسابات

الآن ضع في اعتبارك الجزء الأوسط من الحسابات المقدمة في الجدول 8.3 ب. هنا ، يتم إعطاء معامل الانحدار ب (2.305454545) والإزاحة على طول المحور ص ، أي ثابت أ (2.694545455).

بناءً على الحسابات ، يمكننا كتابة معادلة الانحدار على النحو التالي:

ص = س * 2.305454545 + 2.694545455

يتم تحديد اتجاه العلاقة بين المتغيرات بناءً على العلامات (السلبية أو الإيجابية) لمعاملات الانحدار (المعامل ب).

إذا كانت علامة معامل الانحدار موجبة ، فإن العلاقة بين المتغير التابع والمتغير المستقل ستكون إيجابية. في حالتنا ، علامة معامل الانحدار موجبة ، وبالتالي فإن العلاقة موجبة أيضًا.

إذا كانت علامة معامل الانحدار سالبة ، فإن العلاقة بين المتغير التابع والمتغير المستقل تكون سالبة (معكوسة).

في الجدول 8.3 ج. يتم عرض نتائج الإخراج بقايا الطعام. لكي تظهر هذه النتائج في التقرير ، من الضروري تنشيط مربع الاختيار "المتبقية" عند تشغيل أداة "الانحدار".

ما تبقى من الانسحاب

الجدول 8.3 ج. بقايا

الملاحظة

توقع Y

بقايا

الموازين القياسية

باستخدام هذا الجزء من التقرير ، يمكننا رؤية انحرافات كل نقطة عن خط الانحدار المُنشأ. أعظم قيمة مطلقة بقيةفي حالتنا - 0.778 ، الأصغر - 0.043. للحصول على تفسير أفضل لهذه البيانات ، سنستخدم الرسم البياني للبيانات الأصلية وخط الانحدار المُبني الموضح في الشكل. أرز. 8.3. كما ترى ، فإن خط الانحدار "ملائم" تمامًا لقيم البيانات الأصلية.

يجب أن يؤخذ في الاعتبار أن المثال قيد الدراسة بسيط للغاية وليس من الممكن دائمًا إنشاء خط انحدار خطي نوعياً.

أرز. 8.3البيانات الأولية وخط الانحدار

ظلت مشكلة تقدير القيم المستقبلية غير المعروفة للمتغير التابع بناءً على القيم المعروفة للمتغير المستقل دون اعتبار ، أي مهمة التنبؤ.

باستخدام معادلة الانحدار ، يتم تقليل مشكلة التنبؤ إلى حل المعادلة Y = x * 2.305454545 + 2.694545455 بقيم معروفة لـ x. يتم عرض نتائج التنبؤ بالمتغير التابع Y ست خطوات للأمام في الجدول 8.4.

الجدول 8.4. نتائج التنبؤ المتغير ص

Y (متوقع)

وبالتالي ، نتيجة لاستخدام تحليل الانحدار في حزمة Microsoft Excel ، قمنا بما يلي:

    بنى معادلة انحدار.

    أسس شكل الاعتماد واتجاه العلاقة بين المتغيرات - الانحدار الخطي الإيجابي ، والذي يتم التعبير عنه في نمو موحد للوظيفة ؛

    تحديد اتجاه العلاقة بين المتغيرات ؛

    تقييم جودة خط الانحدار الناتج ؛

    كانوا قادرين على رؤية انحرافات البيانات المحسوبة من بيانات المجموعة الأصلية ؛

    توقع القيم المستقبلية للمتغير التابع.

اذا كان وظيفة الانحدارتم تعريفه وتفسيره ومبرره ، وتقييم دقة تحليل الانحدار يلبي المتطلبات ، يمكننا أن نفترض أن النموذج المركب والقيم التنبؤية موثوقة بدرجة كافية.

القيم المتوقعة التي تم الحصول عليها بهذه الطريقة هي القيم المتوسطة التي يمكن توقعها.

في هذه الورقة ، استعرضنا الخصائص الرئيسية الإحصاء الوصفيومن بينها مفاهيم مثل يعني,الوسيط,أقصى,الحد الأدنىوغيرها من خصائص اختلاف البيانات.

كان هناك أيضا مناقشة موجزة لهذا المفهوم الانبعاثات. تشير الخصائص المدروسة إلى ما يسمى بتحليل البيانات الاستكشافية ، وقد لا تنطبق استنتاجاتها على عامة السكان ، ولكن فقط على عينة بيانات. يستخدم تحليل البيانات الاستكشافية لاستخلاص الاستنتاجات الأولية وتشكيل فرضيات حول السكان.

كما تم النظر في أساسيات تحليل الارتباط والانحدار ومهامهما وإمكانيات الاستخدام العملي.