داده برای رگرسیون مبانی تجزیه و تحلیل داده ها

در نتیجه مطالعه مطالب فصل 4، دانش آموز باید:

دانستن

  • مفاهیم اساسی تحلیل رگرسیون؛
  • روشهای تخمین و خواص تخمین روش حداقل مربعات.
  • قوانین اساسی برای آزمون اهمیت و تخمین فاصله ای معادله و ضرایب رگرسیون.

قادر بودن به

  • برآورد پارامترهای مدل های دو بعدی و چندگانه معادلات رگرسیون را از داده های نمونه پیدا کنید، خواص آنها را تجزیه و تحلیل کنید.
  • اهمیت معادله و ضرایب رگرسیون را بررسی کنید.
  • تخمین فاصله پارامترهای مهم را بیابید.

خود

  • مهارت تخمین آماری پارامترهای معادلات رگرسیون دو بعدی و چندگانه. مهارت های بررسی کفایت مدل های رگرسیون؛
  • مهارت به دست آوردن معادله رگرسیون با تمام ضرایب معنی دار با استفاده از نرم افزارهای تحلیلی.

مفاهیم اساسی

پس از انجام تحلیل همبستگی، زمانی که وجود روابط معنی دار آماری بین متغیرها مشخص شد و میزان تنگی آنها ارزیابی شد، معمولاً با استفاده از روش های تحلیل رگرسیون به توصیف ریاضی نوع وابستگی ها می پردازند. برای این منظور، یک کلاس از توابع انتخاب می شود که نشانگر موثر را به هم پیوند می دهد درو آرگومان‌ها تخمین‌های پارامترهای معادله محدودیت را محاسبه کرده و دقت معادله حاصل را تجزیه و تحلیل می‌کنند.

تابع| وابستگی مقدار میانگین شرطی ویژگی مؤثر را توصیف می کند دراز مقادیر داده شده آرگومان ها، فراخوانی می شود معادله رگرسیون

اصطلاح "رگرسیون" (از لات. پسرفت-عقب نشینی، بازگشت به چیزی) توسط روانشناس و انسان شناس انگلیسی F. Galton معرفی شد و با یکی از اولین نمونه های او مرتبط است، که در آن گالتون، با پردازش داده های آماری مربوط به مسئله وراثت رشد، دریافت که اگر ارتفاع قد پدرها از میانگین قد همه پدران منحرف می شود ایکساینچ، سپس قد پسران آنها از میانگین قد همه پسران کمتر از ایکساینچ روند شناسایی شده نامیده شد رگرسیون به میانگین

اصطلاح "رگرسیون" به طور گسترده در ادبیات آماری استفاده می شود، اگرچه در بسیاری از موارد به طور دقیق وابستگی آماری را مشخص نمی کند.

برای توصیف دقیق معادله رگرسیون، دانستن قانون شرطی توزیع شاخص موثر ضروری است. yدر عمل آماری، معمولاً به دست آوردن چنین اطلاعاتی غیرممکن است، بنابراین، آنها به یافتن تقریب های مناسب برای تابع محدود می شوند. f(xتو ایکس 2، .... l *)، بر اساس تجزیه و تحلیل معنی دار اولیه از پدیده یا بر اساس داده های آماری اصلی.

در چارچوب مفروضات مدل فردی در مورد نوع توزیع بردار شاخص ها<) может быть получен общий вид معادلات رگرسیون، جایی که. به عنوان مثال، با این فرض که مجموعه شاخص های مورد مطالعه از قانون توزیع نرمال بعدی () با بردار انتظارات ریاضی تبعیت می کند.

کجا و با ماتریس کوواریانس،

واریانس کجاست

معادله رگرسیون (انتظار شرطی) شکل دارد

بنابراین، اگر یک متغیر تصادفی چند متغیره ()

از قانون توزیع نرمال بعدی () تبعیت می کند، سپس از معادله رگرسیون شاخص مؤثر پیروی می کند دردر متغیرهای توضیحی خطی در است ایکسچشم انداز.

با این حال، در عمل آماری، معمولاً فرد باید خود را به یافتن تقریب‌های مناسب برای تابع رگرسیون واقعی ناشناخته محدود کند. f(x)از آنجایی که محقق دانش دقیقی از قانون شرطی توزیع احتمال شاخص عملکرد تحلیل شده ندارد دربرای مقادیر داده شده آرگومان ها ایکس.

رابطه بین برآوردهای واقعی، مدل و رگرسیون را در نظر بگیرید. اجازه دهید نشانگر عملکرد درمرتبط با استدلال ایکسنسبت

که در آن یک متغیر تصادفی با قانون توزیع نرمال است. تابع رگرسیون واقعی در این مورد است

فرض کنید شکل دقیق معادله رگرسیون واقعی را نمی دانیم، اما 9 مشاهده بر روی یک متغیر تصادفی دوبعدی داریم که با روابط نشان داده شده در شکل. 4.1.

برنج. 4.1. موقعیت نسبی حقیقتf(x) و نظریوایمدل های رگرسیون

محل قرارگیری نقاط در شکل 4.1 به ما اجازه می دهد تا خود را به کلاس وابستگی های خطی فرم محدود کنیم

با استفاده از روش حداقل مربعات، تخمینی برای معادله رگرسیون پیدا می کنیم.

برای مقایسه، در شکل. 4.1 نمودارهایی از تابع رگرسیون واقعی و تابع رگرسیون تقریبی نظری را نشان می دهد. تخمین معادله رگرسیون در احتمال به دومی همگرا می شود وایبا افزایش نامحدود در حجم نمونه ().

از آنجایی که ما به اشتباه یک تابع رگرسیون خطی را به جای یک تابع رگرسیون واقعی انتخاب کردیم، که متأسفانه در عمل تحقیقات آماری کاملاً رایج است، نتیجه‌گیری‌ها و برآوردهای آماری ما خاصیت سازگاری را ندارند. مهم نیست که چقدر حجم مشاهدات را افزایش دهیم، تخمین نمونه ما به تابع رگرسیون واقعی همگرا نخواهد شد.

اگر کلاس توابع رگرسیون را به درستی انتخاب کرده بودیم، پس عدم دقت در توضیحات با استفاده از وایتنها با محدود بودن نمونه توضیح داده می شود و بنابراین، می توان آن را به طور دلخواه کوچک کرد

برای بازیابی بهترین مقدار شرطی شاخص مؤثر و تابع رگرسیون ناشناخته از داده های آماری اولیه، موارد زیر اغلب استفاده می شود: معیارهای کفایتتوابع از دست دادن

1. روش حداقل مربعات،بر اساس آن مجذور انحراف مقادیر مشاهده شده شاخص موثر، از مقادیر مدل به حداقل می رسد، که در آن ضرایب معادله رگرسیون، مقادیر بردار آرگومان ها در "مشاهده M" است. :

مشکل یافتن تخمین بردار در حال حل است. رگرسیون حاصل نامیده می شود مربع متوسط

2. روش حداقل ماژول ها، که بر اساس آن مجموع انحرافات مطلق مقادیر مشاهده شده شاخص موثر از مقادیر مدولار به حداقل می رسد، یعنی.

رگرسیون حاصل نامیده می شود معنی مطلق(میانگین).

3. روش Minimaxبه حداقل رساندن ماژول ماکزیمم انحراف مقدار مشاهده شده نشانگر موثر کاهش می یابد از مقدار مدل، یعنی.

رگرسیون حاصل نامیده می شود حداقل

در کاربردهای عملی، اغلب مشکلاتی وجود دارد که در آن متغیر تصادفی مطالعه می شود بسته به مجموعه ای از متغیرها و پارامترهای ناشناخته. () را به عنوان در نظر خواهیم گرفت (k + 1)-جمعیت عمومی بعدی، که از آن یک نمونه تصادفی از حجم پ،که در آن () نتیجه مشاهده /-ام است،. برآورد پارامترهای ناشناخته بر اساس نتایج مشاهدات ضروری است. وظیفه توصیف شده در بالا به وظایف تحلیل رگرسیون اشاره دارد.

تجزیه و تحلیل رگرسیون روش تجزیه و تحلیل آماری وابستگی یک متغیر تصادفی را نام ببرید دربر روی متغیرهایی که در تحلیل رگرسیون به عنوان متغیرهای غیر تصادفی در نظر گرفته می شوند، صرف نظر از قانون توزیع واقعی

نتایج

جدول 8.3a. آمار رگرسیون
آمار رگرسیون
چندگانه R 0,998364
R-square 0,99673
مربع R نرمال شده 0,996321
خطای استاندارد 0,42405
مشاهدات 10

بیایید ابتدا به قسمت بالای محاسبات ارائه شده در جدول 8.3a، آمار رگرسیون نگاه کنیم.

مقدار R-square که معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون حاصل را مشخص می کند. این کیفیت با درجه مطابقت بین داده های اصلی و مدل رگرسیون (داده های محاسبه شده) بیان می شود. معیار اطمینان همیشه در بازه زمانی است.

در اکثر موارد، مقدار R-squared بین این مقادیر است که به آن افراط می گویند. بین صفر و یک

اگر مقدار R-square نزدیک به یک باشد، به این معنی است که مدل ساخته شده تقریباً تمام متغیرهای متغیرهای مربوطه را توضیح می دهد. برعکس، یک مقدار R-squared نزدیک به صفر به معنای کیفیت ضعیف مدل ساخته شده است.

در مثال ما، اندازه گیری قطعیت 0.99673 است که نشان دهنده تناسب بسیار خوب خط رگرسیون با داده های اصلی است.

چندگانه R- ضریب همبستگی چندگانه R - میزان وابستگی متغیرهای مستقل (X) و متغیر وابسته (Y) را بیان می کند.

چند R برابر است ریشه دوماز ضریب تعیین، این مقدار مقادیری در محدوده صفر تا یک می گیرد.

در یک تحلیل رگرسیون خطی ساده، R مضربی برابر با ضریب همبستگی پیرسون است. در واقع، R مضاعف در مورد ما برابر است با ضریب همبستگی پیرسون از مثال قبلی (0.998364).

جدول 8.3b. ضرایب رگرسیون
شانس خطای استاندارد آمار t
تقاطع Y 2,694545455 0,33176878 8,121757129
متغیر X 1 2,305454545 0,04668634 49,38177965
* یک نسخه کوتاه از محاسبات داده شده است

اکنون قسمت میانی محاسبات ارائه شده در جدول 8.3b را در نظر بگیرید. در اینجا، ضریب رگرسیون b (2.305454545) و افست در امتداد محور y داده می شود، یعنی. ثابت a (2.694545455).

بر اساس محاسبات، می توانیم معادله رگرسیون را به صورت زیر بنویسیم:

Y= x*2.305454545+2.694545455

جهت رابطه بین متغیرها بر اساس علائم (منفی یا مثبت) تعیین می شود. ضرایب رگرسیون(ضریب ب).

اگر علامت در ضریب رگرسیون- مثبت، رابطه متغیر وابسته با مستقل مثبت خواهد بود. در مورد ما، علامت ضریب رگرسیون مثبت است، بنابراین، رابطه نیز مثبت است.

اگر علامت در ضریب رگرسیون- منفی، رابطه بین متغیر وابسته و متغیر مستقل منفی (معکوس) است.

در جدول 8.3c. نتایج حاصل از خروجی باقیمانده ارائه شده است. برای اینکه این نتایج در گزارش نمایش داده شوند، لازم است هنگام راه اندازی ابزار "Regression" تیک "Residuals" را فعال کنید.

انصراف باقی مانده

جدول 8.3c. باقی
مشاهده Y را پیش بینی کرد باقی ترازهای استاندارد
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

با استفاده از این قسمت گزارش می توان انحراف هر نقطه از خط رگرسیون ساخته شده را مشاهده کرد. بزرگترین ارزش مطلق

علم سیاسی مدرن از موضع ارتباط همه پدیده ها و فرآیندهای جامعه نشات می گیرد. درک رویدادها و فرآیندها، پیش بینی و مدیریت پدیده های زندگی سیاسی بدون مطالعه پیوندها و وابستگی های موجود در حوزه سیاسی جامعه غیرممکن است. یکی از متداول ترین وظایف سیاست پژوهی، بررسی رابطه بین برخی از متغیرهای قابل مشاهده است. یک کلاس کامل از روش های آماری تجزیه و تحلیل، که با نام رایج "تحلیل رگرسیون" (یا همانطور که به آن "تحلیل همبستگی-رگرسیون" نیز گفته می شود) متحد شده اند، به حل این مشکل کمک می کند. با این حال، اگر تحلیل همبستگی ارزیابی قدرت رابطه بین دو متغیر را ممکن می‌سازد، با استفاده از تحلیل رگرسیون می‌توان نوع این رابطه را تعیین کرد و وابستگی مقدار هر متغیر را به مقدار متغیر دیگر پیش‌بینی کرد. .

ابتدا بیایید به یاد بیاوریم که همبستگی چیست. همبستگیمهم ترین مورد خاص رابطه آماری نامیده می شود که شامل این واقعیت است که مقادیر مساوی یک متغیر با متفاوتی مطابقت دارد. مقادیر متوسطیکی دیگر. با تغییر در مقدار ویژگی x، مقدار متوسط ​​ویژگی y به طور طبیعی تغییر می کند، در حالی که در هر مورد جداگانه مقدار ویژگی در(با احتمالات مختلف) می تواند مقادیر مختلفی را به خود بگیرد.

ظهور اصطلاح "همبستگی" در آمار (و علوم سیاسی دستاوردهای آماری را برای حل مشکلات خود جلب می کند ، که بنابراین یک رشته مرتبط با علوم سیاسی است) با نام زیست شناس و آماردان انگلیسی فرانسیس گالتون همراه است. که در قرن 19 پیشنهاد کرد. مبانی نظری تحلیل همبستگی-رگرسیون. اصطلاح "همبستگی" در علم قبلا شناخته شده بود. به ویژه، در دیرینه شناسی در قرن هجدهم. این توسط دانشمند فرانسوی ژرژ کوویر به کار گرفته شد. او به اصطلاح قانون همبستگی را معرفی کرد که با کمک آن با توجه به بقایای حیواناتی که در حین حفاری ها پیدا شده بود، می توان ظاهر آنها را بازسازی کرد.

داستان معروفی در ارتباط با نام این دانشمند و قانون همبستگی او وجود دارد. بنابراین، در روزهای تعطیلات دانشگاه، دانشجویانی که تصمیم گرفتند با یک استاد مشهور حقه بازی کنند، پوست بزی را با شاخ و سم روی یکی از دانشجویان کشیدند. به پنجره اتاق خواب کوویر رفت و فریاد زد: می خورم. پروفسور از خواب بیدار شد، به سیلوئت نگاه کرد و پاسخ داد: "اگر شاخ و سم دارید، پس شما یک گیاهخوار هستید و نمی توانید مرا بخورید. و برای ناآگاهی از قانون همبستگی شما یک دوز دریافت خواهید کرد. برگشت و خوابش برد. جوک یک شوخی است، اما در این مثال ما شاهد یک مورد خاص از استفاده از تحلیل همبستگی-رگرسیون چندگانه هستیم. در اینجا استاد بر اساس آگاهی از مقادیر دو صفت مشاهده شده (وجود شاخ و سم)، بر اساس قانون همبستگی، میانگین ارزش صفت سوم (طبقه ای که این حیوان به آن تعلق دارد را به دست آورد. گیاهخوار است). در این مورد، ما در مورد مقدار خاص این متغیر صحبت نمی کنیم (یعنی این حیوان می تواند مقادیر مختلفی را در مقیاس اسمی به خود بگیرد - می تواند یک بز، یک قوچ یا یک گاو نر باشد ...).

حال بیایید به سراغ اصطلاح «رگرسیون» برویم. به بیان دقیق، با معنای آن دسته از مسائل آماری که با کمک این روش حل می شوند، ارتباطی ندارد. توضیح این اصطلاح فقط می تواند بر اساس دانش تاریخچه توسعه روش ها برای مطالعه روابط بین ویژگی ها ارائه شود. یکی از اولین نمونه های مطالعاتی از این دست، کار آماردانان F. Galton و K. Pearson بود که سعی کردند با توجه به دو نشانه قابل مشاهده، الگویی بین رشد پدران و فرزندانشان بیابند. ایکس-قد پدر و U-رشد کودکان). آنها در مطالعه خود، این فرضیه اولیه را تایید کردند که به طور متوسط، پدران قدبلند، فرزندانی با قد متوسط ​​تربیت می کنند. همین اصل در مورد پدران و فرزندان پایین نیز صادق است. با این حال، اگر دانشمندان در اینجا متوقف می شدند، آثار آنها هرگز در کتاب های درسی آمار ذکر نمی شد. محققان الگوی دیگری را در فرضیه تایید شده قبلاً ذکر شده پیدا کردند. آنها ثابت کردند که پدران بسیار قدبلند فرزندانی را تولید می کنند که به طور متوسط ​​قد بلندی دارند، اما از نظر قد تفاوت چندانی با کودکانی ندارند که پدرانشان اگرچه بالاتر از حد متوسط ​​هستند، اما تفاوت چندانی با قد متوسط ​​ندارند. همین امر در مورد پدرانی با قد بسیار کوچک (منحرف از میانگین گروه کوتاه قد) صادق است - فرزندان آنها به طور متوسط ​​از نظر قد با همسالانی که پدرانشان به سادگی کوتاه بودند تفاوتی نداشتند. آنها تابعی را نامیدند که این نظم را توصیف می کند تابع رگرسیونپس از این مطالعه، تمام معادلاتی که توابع مشابه را توصیف می‌کنند و به روشی مشابه ساخته شده‌اند، معادلات رگرسیونی نامیده می‌شوند.

تجزیه و تحلیل رگرسیون- یکی از روش های تجزیه و تحلیل داده های آماری چند متغیره، ترکیب مجموعه ای از تکنیک های آماری طراحی شده برای مطالعه یا مدل سازی روابط بین یک متغیر وابسته و چندین (یا یک) متغیر مستقل. متغیر وابسته، طبق سنت پذیرفته شده در آمار، پاسخ نامیده می شود و به عنوان نشان داده می شود Vمتغیرهای مستقل پیش بینی کننده نامیده می شوند و به عنوان نشان داده می شوند ایکس.در طول تحليل، برخي از متغيرها ارتباط ضعيفي با پاسخ خواهند داشت و در نهايت از تحليل حذف خواهند شد. متغیرهای باقیمانده مرتبط با وابسته را نیز می‌توان عامل نامید.

تحلیل رگرسیون امکان پیش‌بینی مقادیر یک یا چند متغیر را بسته به متغیر دیگری (به عنوان مثال، تمایل به رفتار سیاسی غیر متعارف بسته به سطح تحصیلات) یا چندین متغیر ممکن می‌سازد. در رایانه شخصی محاسبه می شود. برای تهیه یک معادله رگرسیونی که به شما امکان می دهد درجه وابستگی ویژگی کنترل شده را به عوامل اندازه گیری کنید، لازم است ریاضیدانان-برنامه نویسان حرفه ای را درگیر کنید. تجزیه و تحلیل رگرسیون می تواند خدمات ارزشمندی را در ساخت مدل های پیش بینی برای توسعه یک وضعیت سیاسی، ارزیابی علل تنش اجتماعی و در انجام آزمایش های نظری ارائه دهد. تجزیه و تحلیل رگرسیون به طور فعال برای مطالعه تأثیر بر رفتار انتخاباتی شهروندان از تعدادی پارامترهای اجتماعی و جمعیتی استفاده می شود: جنسیت، سن، حرفه، محل سکونت، ملیت، سطح و ماهیت درآمد.

در رابطه با تحلیل رگرسیون، مفاهیم مستقلو وابستهمتغیرها متغیر مستقل متغیری است که توضیح می دهد یا باعث تغییر در متغیر دیگری می شود. متغیر وابسته متغیری است که مقدار آن با تأثیر متغیر اول توضیح داده می شود. به عنوان مثال، در انتخابات ریاست جمهوری در سال 2004، عوامل تعیین کننده، یعنی. متغیرهای مستقل شاخص هایی مانند ثبات وضعیت مالی جمعیت کشور، میزان محبوبیت نامزدها و عامل تصدیدر این حالت می توان درصد آرای کاندیدها را به عنوان متغیر وابسته در نظر گرفت. به همین ترتیب، در زوج متغیر «سن رأی‌دهنده» و «سطح فعالیت انتخاباتی»، متغیر اول مستقل و متغیر دوم وابسته است.

تجزیه و تحلیل رگرسیون به شما امکان می دهد مشکلات زیر را حل کنید:

  • 1) وجود یا عدم وجود یک رابطه آماری معنی دار بین Ci را مشخص کنید ایکس؛
  • 2) بهترین برآوردها (به معنای آماری) از تابع رگرسیون را بسازید.
  • 3) با توجه به مقادیر داده شده ایکسیک پیش بینی برای ناشناخته بسازید در
  • 4) وزن ویژه تأثیر هر عامل را ارزیابی کنید ایکسبر روی درو بر این اساس، ویژگی های ناچیز را از مدل حذف کنید.
  • 5) با شناسایی روابط علی بین متغیرها، تا حدی مقادیر P را با تنظیم مقادیر متغیرهای توضیحی مدیریت کنید. ایکس.

تحلیل رگرسیون با نیاز به انتخاب متغیرهای مستقل متقابل مرتبط است که بر مقدار شاخص مورد مطالعه تأثیر می گذارد، شکل معادله رگرسیون را تعیین می کند و پارامترها را با استفاده از روش های آماری برای پردازش داده های اولیه جامعه شناختی ارزیابی می کند. این نوع تحلیل بر اساس ایده شکل، جهت و نزدیکی (تراکم) رابطه است. تمیز دادن اتاق بخارو رگرسیون چندگانهبسته به تعداد ویژگی های مورد مطالعه. در عمل، تحلیل رگرسیون معمولاً همراه با تحلیل همبستگی انجام می شود. معادله رگرسیونیک رابطه عددی بین کمیت ها را توصیف می کند که به صورت تمایل یک متغیر به افزایش یا کاهش در حالی که متغیر دیگری افزایش یا کاهش می یابد بیان می شود. در عین حال رازل و ح آ یوت ل سرمازدگیو رگرسیون غیر خطیهنگام توصیف فرآیندهای سیاسی، هر دو نوع رگرسیون به یک اندازه یافت می شوند.

طرح پراکنده برای توزیع وابستگی متقابل منافع در مقالات سیاسی ( U)و آموزش پاسخ دهندگان (ایکس)یک رگرسیون خطی است (شکل 30).

برنج. سی

نمودار پراکنده برای توزیع سطح فعالیت های انتخاباتی ( U)و سن پاسخ دهنده (A) (مثال شرطی) یک رگرسیون غیر خطی است (شکل 31).


برنج. 31.

برای توصیف رابطه دو ویژگی (A "و Y) در یک مدل رگرسیون زوجی، از یک معادله خطی استفاده شده است.

که در آن a، مقدار تصادفی خطای معادله با تغییرات ویژگی‌ها است، یعنی. انحراف معادله از "خطی".

برای ارزیابی ضرایب آو باز روش حداقل مربعات استفاده کنید، که فرض می کند مجموع مجذور انحرافات هر نقطه در نمودار پراکندگی از خط رگرسیون باید حداقل باشد. شانس یک ساعت ببا استفاده از سیستم معادلات قابل محاسبه است:

روش برآورد حداقل مربعات چنین تخمین هایی از ضرایب را به دست می دهد آو بکه خط از نقطه ای با مختصات می گذرد ایکسو آن ها یک نسبت وجود دارد در = تبر + ب.نمایش گرافیکی معادله رگرسیون نامیده می شود خط رگرسیون نظریبا وابستگی خطی، ضریب رگرسیون بر روی نمودار مماس شیب خط رگرسیون نظری بر محور x را نشان می دهد. علامت ضریب جهت رابطه را نشان می دهد. اگر بزرگتر از صفر باشد رابطه مستقیم است و اگر کمتر باشد معکوس است.

مثال زیر از مطالعه «پترزبورگ سیاسی-2006» (جدول 56) رابطه خطی بین ادراک شهروندان از میزان رضایت از زندگی خود در زمان حال و انتظارات از تغییرات در کیفیت زندگی در آینده را نشان می دهد. ارتباط مستقیم، خطی است (ضریب رگرسیون استاندارد شده 0.233، سطح معنی داری 0.000 است). در این حالت ضریب رگرسیون زیاد نیست، اما از حد پایین شاخص آماری معنی دار (حد پایین مربع شاخص آماری معنی دار ضریب پیرسون) فراتر می رود.

جدول 56

تأثیر کیفیت زندگی شهروندان در حال حاضر بر انتظارات

(سن پترزبورگ، 2006)

* متغیر وابسته: "فکر می کنید زندگی شما در 2-3 سال آینده چگونه تغییر خواهد کرد؟"

در زندگی سیاسی، ارزش متغیر مورد مطالعه اغلب به طور همزمان به چندین ویژگی بستگی دارد. به عنوان مثال، سطح و ماهیت فعالیت سیاسی به طور همزمان تحت تأثیر رژیم سیاسی دولت، سنت های سیاسی، ویژگی های رفتار سیاسی مردم در یک منطقه خاص و ریزگروه اجتماعی پاسخ دهنده، سن، تحصیلات، درآمد وی قرار می گیرد. سطح، گرایش سیاسی و غیره در این مورد، باید از معادله استفاده کنید رگرسیون چندگانه، که به شکل زیر است:

جایی که ضریب ب- ضریب رگرسیون جزئی. سهم هر متغیر مستقل را در تعیین مقادیر متغیر مستقل (نتیجه) نشان می دهد. اگر ضریب رگرسیون جزئی نزدیک به صفر باشد، می‌توان نتیجه گرفت که هیچ رابطه مستقیمی بین متغیرهای مستقل و وابسته وجود ندارد.

محاسبه چنین مدلی را می توان در رایانه شخصی با استفاده از جبر ماتریس انجام داد. رگرسیون چندگانه به شما این امکان را می دهد که ماهیت چند عاملی پیوندهای اجتماعی را منعکس کنید و میزان تأثیر هر عامل را به صورت جداگانه و همه با هم بر ویژگی حاصله روشن کنید.

ضریب نشان داده شده است بضریب رگرسیون خطی نامیده می شود و قدرت رابطه بین تغییرات صفت عاملی را نشان می دهد. ایکسو تنوع ویژگی موثر Yاین ضریب قدرت رابطه را در واحدهای مطلق اندازه گیری ویژگی ها اندازه گیری می کند. با این حال، نزدیکی همبستگی ویژگی ها را می توان بر حسب انحراف معیار ویژگی حاصل نیز بیان کرد (به چنین ضریبی ضریب همبستگی می گویند). بر خلاف ضریب رگرسیون بضریب همبستگی به واحدهای اندازه گیری پذیرفته شده ویژگی ها بستگی ندارد و بنابراین برای هر ویژگی قابل مقایسه است. معمولاً اتصال قوی در نظر گرفته می شود اگر /> 0.7، سفتی متوسط ​​- در 0.5 گرم 0.5.

همانطور که می دانید، نزدیکترین اتصال یک اتصال عملکردی است، زمانی که هر یک ارزش جداگانه داشته باشد Yرا می توان به صورت منحصر به فرد به مقدار نسبت داد ایکس.بنابراین، هر چه ضریب همبستگی به 1 نزدیکتر باشد، رابطه به ضریب همبستگی نزدیکتر است. سطح معنی داری برای تحلیل رگرسیون نباید از 001/0 تجاوز کند.

ضریب همبستگی از دیرباز به عنوان شاخص اصلی نزدیکی رابطه ویژگی ها در نظر گرفته شده است. اما بعداً ضریب تعیین به چنین شاخصی تبدیل شد. معنای این ضریب به شرح زیر است - این نشان دهنده سهم واریانس کل ویژگی حاصل است در، با واریانس ویژگی توضیح داده شده است ایکس.آن را به سادگی با مجذور کردن ضریب همبستگی (تغییر از 0 به 1) پیدا می کنیم و به نوبه خود، برای یک رابطه خطی، سهم از 0 (0٪) به 1 (100%) مقادیر مشخصه توسط مقادیر مشخصه تعیین می شود ایکس.به عنوان ثبت شده است من 2،و در جداول حاصل از تحلیل رگرسیون در بسته SPSS - بدون مربع.

اجازه دهید مشکلات اصلی ساخت معادله رگرسیون چندگانه را بیان کنیم.

  • 1. انتخاب عوامل موجود در معادله رگرسیون.در این مرحله محقق ابتدا فهرستی کلی از علل اصلی را تهیه می کند که بر اساس نظریه، پدیده مورد مطالعه را تعیین می کند. سپس باید ویژگی های موجود در معادله رگرسیون را انتخاب کند. قانون اصلی انتخاب این است که عوامل موجود در تجزیه و تحلیل باید تا حد امکان کمتر با یکدیگر مرتبط باشند. فقط در این مورد می توان یک معیار کمی تأثیر را به یک ویژگی عامل خاص نسبت داد.
  • 2. انتخاب فرم معادله رگرسیون چندگانه(در عمل بیشتر از خطی یا خطی لگاریتمی استفاده می شود). بنابراین، برای استفاده از رگرسیون چندگانه، محقق ابتدا باید یک مدل فرضی از تأثیر چندین متغیر مستقل بر متغیر حاصل بسازد. برای اینکه نتایج به دست آمده قابل اعتماد باشد، لازم است که مدل دقیقاً با فرآیند واقعی مطابقت داشته باشد، یعنی. رابطه بین متغیرها باید خطی باشد، نمی توان یک متغیر مستقل مهم را نادیده گرفت، به همین ترتیب، نمی توان یک متغیر را که مستقیماً با فرآیند مورد مطالعه مرتبط نیست، در تحلیل گنجاند. علاوه بر این، تمام اندازه گیری های متغیرها باید بسیار دقیق باشد.

از توضیحات فوق تعدادی از شرایط برای اعمال این روش به دست می آید که بدون آنها نمی توان به روش تحلیل رگرسیون چندگانه (MRA) اقدام کرد. تنها رعایت تمام نکات زیر به شما امکان می دهد تحلیل رگرسیون را به درستی انجام دهید.

در مدل سازی آماری، تحلیل رگرسیون مطالعه ای است که برای ارزیابی رابطه بین متغیرها استفاده می شود. این روش ریاضی شامل بسیاری از روش‌های دیگر برای مدل‌سازی و تحلیل متغیرهای متعدد زمانی است که تمرکز بر رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل است. به طور خاص، تحلیل رگرسیون به شما کمک می کند تا بفهمید که اگر یکی از متغیرهای مستقل تغییر کند در حالی که متغیرهای مستقل دیگر ثابت بمانند، چگونه مقدار معمولی متغیر وابسته تغییر می کند.

در تمام موارد، نمره هدف تابعی از متغیرهای مستقل است و تابع رگرسیون نامیده می شود. در تحلیل رگرسیون، مشخص کردن تغییر در متغیر وابسته به عنوان تابعی از رگرسیون نیز جالب است که می‌توان با استفاده از توزیع احتمال توصیف کرد.

وظایف تحلیل رگرسیون

این روش تحقیق آماری به طور گسترده ای برای پیش بینی استفاده می شود که استفاده از آن مزیت قابل توجهی دارد، اما گاهی اوقات می تواند منجر به توهم یا روابط کاذب شود، بنابراین توصیه می شود در این سوال با دقت از آن استفاده کنید، زیرا به عنوان مثال، همبستگی به معنی نیست. علیت

توسعه یافته عدد بزرگروشهای انجام تحلیل رگرسیون مانند رگرسیون حداقل مربعات خطی و معمولی که پارامتریک هستند. ماهیت آنها این است که تابع رگرسیون بر حسب تعداد محدودی از پارامترهای ناشناخته که از داده ها تخمین زده می شوند، تعریف می شود. رگرسیون ناپارامتریک به تابع خود اجازه می دهد تا در مجموعه خاصی از توابع قرار گیرد که می تواند بینهایت بعدی باشد.

به عنوان یک روش تحقیق آماری، تحلیل رگرسیون در عمل به شکل فرآیند تولید داده و نحوه ارتباط آن با رویکرد رگرسیون بستگی دارد. از آنجایی که شکل واقعی تولید فرآیند داده معمولاً یک عدد ناشناخته است، تحلیل رگرسیون داده اغلب تا حدی به فرضیات مربوط به فرآیند بستگی دارد. اگر داده های کافی در دسترس باشد، گاهی اوقات این فرضیات قابل آزمایش هستند. مدل‌های رگرسیون اغلب مفید هستند حتی زمانی که مفروضات به طور متوسط ​​نقض شوند، اگرچه ممکن است بهترین عملکرد را نداشته باشند.

در معنای محدودتر، رگرسیون می تواند به طور خاص به تخمین متغیرهای پاسخ پیوسته اشاره داشته باشد، در مقابل متغیرهای پاسخ گسسته مورد استفاده در طبقه بندی. به حالت متغیر خروجی پیوسته، رگرسیون متریک نیز گفته می شود تا آن را از مسائل مرتبط متمایز کند.

داستان

بیشترین فرم اولیهرگرسیون روش شناخته شده حداقل مربعات است. توسط لژاندر در سال 1805 و گاوس در سال 1809 منتشر شد. لژاندر و گاوس این روش را برای مسئله تعیین مدار اجسام به دور خورشید (عمدتاً دنباله‌دارها، اما بعداً سیارات کوچک تازه کشف شده) از طریق مشاهدات نجومی به کار بردند. گاوس توسعه بیشتری از نظریه حداقل مربعات را در سال 1821 منتشر کرد، از جمله نوعی از قضیه گاوس-مارکوف.

اصطلاح "رگرسیون" توسط فرانسیس گالتون در قرن نوزدهم برای توصیف یک پدیده بیولوژیکی ابداع شد. نتیجه این بود که رشد فرزندان از رشد اجداد، به عنوان یک قاعده، به میانگین عادی کاهش می یابد. از نظر گالتون، رگرسیون فقط این معنای بیولوژیکی را داشت، اما بعداً کار او توسط اودنی یولی و کارل پیرسون مورد توجه قرار گرفت و به یک زمینه آماری کلی تری منتقل شد. در کار یول و پیرسون، توزیع مشترک متغیرهای پاسخ و توضیحی گاوسی در نظر گرفته شده است. این فرض توسط فیشر در مقالات 1922 و 1925 رد شد. فیشر پیشنهاد کرد که توزیع شرطی متغیر پاسخ گوسی است، اما توزیع مشترک لازم نیست. در این زمینه، پیشنهاد فیشر به فرمول 1821 گاوس نزدیکتر است. قبل از سال 1970، گاهی اوقات تا 24 ساعت طول می کشید تا نتیجه تجزیه و تحلیل رگرسیون به دست آید.

روش های تجزیه و تحلیل رگرسیون همچنان یک حوزه تحقیقات فعال است. در دهه های اخیر، روش های جدیدی برای رگرسیون قوی توسعه یافته است. رگرسیون شامل پاسخ های همبسته. روش های رگرسیون که انواع مختلفی از داده های از دست رفته را در خود جای می دهند. رگرسیون ناپارامتریک روش های رگرسیون بیزی رگرسیون هایی که در آن متغیرهای پیش بینی با خطا اندازه گیری می شوند. رگرسیون ها با پیش بینی های بیشتری نسبت به مشاهدات؛ و استنتاج های علی با رگرسیون.

مدل های رگرسیون

مدل های تحلیل رگرسیون شامل متغیرهای زیر است:

  • پارامترهای ناشناخته، که به صورت بتا نشان داده می شوند، که می تواند یک اسکالر یا یک بردار باشد.
  • متغیرهای مستقل، X.
  • متغیرهای وابسته، Y.

AT زمینههای مختلفدر علومی که تحلیل رگرسیون به کار می رود، به جای متغیرهای وابسته و مستقل از اصطلاحات مختلفی استفاده می شود، اما در همه موارد مدل رگرسیون Y را به تابعی از X و β مرتبط می کند.

تقریب معمولاً به صورت E (Y | X) = F (X, β) فرموله می شود. برای انجام تحلیل رگرسیون باید شکل تابع f را تعیین کرد. به ندرت، مبتنی بر دانش در مورد رابطه بین Y و X است که بر داده ها متکی نیست. اگر چنین دانشی در دسترس نباشد، فرم انعطاف پذیر یا راحت F انتخاب می شود.

متغیر وابسته Y

اکنون فرض می کنیم که بردار پارامترهای مجهول β دارای طول k است. برای انجام تحلیل رگرسیون، کاربر باید اطلاعاتی در مورد متغیر وابسته Y ارائه دهد:

  • اگر N نقطه داده از فرم (Y, X) مشاهده شود که در آن N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • اگر دقیقاً N = K مشاهده شود و تابع F خطی باشد، معادله Y = F(X, β) را می توان دقیقاً حل کرد، نه تقریباً. این به حل مجموعه ای از معادلات N با N-ناشناخته ها (عناصر β) خلاصه می شود که تا زمانی که X به صورت خطی مستقل باشد، راه حل منحصر به فردی دارد. اگر F غیر خطی باشد، ممکن است راه حلی وجود نداشته باشد یا راه حل های زیادی وجود داشته باشد.
  • متداول ترین حالت در جایی است که N > نقاط به داده ها وجود دارد. در این مورد، اطلاعات کافی در داده ها برای تخمین مقدار منحصر به فرد β وجود دارد که به بهترین وجه با داده ها مطابقت دارد، و مدل رگرسیون زمانی که روی داده ها اعمال می شود، می تواند به عنوان یک سیستم نادیده گرفته شده در β دیده شود.

در مورد دوم، تحلیل رگرسیون ابزارهایی را برای موارد زیر فراهم می کند:

  • یافتن راه حلی برای پارامترهای ناشناخته β، که به عنوان مثال، فاصله بین مقدار اندازه گیری شده و پیش بینی شده Y را به حداقل می رساند.
  • تحت فرضیات آماری خاصی، تحلیل رگرسیون از اطلاعات اضافی برای ارائه اطلاعات آماری در مورد پارامترهای ناشناخته β و مقادیر پیش‌بینی‌شده متغیر وابسته Y استفاده می‌کند.

تعداد مورد نیاز اندازه گیری مستقل

مدل رگرسیونی را در نظر بگیرید که دارای سه پارامتر ناشناخته است: β 0 ، β 1 و β 2 . بیایید فرض کنیم که آزمایشگر 10 اندازه گیری را در همان مقدار متغیر مستقل بردار X انجام می دهد. در این مورد، تحلیل رگرسیون مجموعه ای منحصر به فرد از مقادیر را به دست نمی دهد. بهترین کاری که می توان انجام داد تخمین میانگین و انحراف معیار متغیر وابسته Y است. به همین ترتیب، اندازه گیری این دو ارزش های مختلف X، شما می توانید داده های کافی برای یک رگرسیون با دو مجهول به دست آورید، اما نه برای سه یا بیشتر مجهول.

اگر اندازه‌گیری‌های آزمایشگر در سه مقدار مختلف از متغیر بردار مستقل X انجام شود، آنگاه تحلیل رگرسیون مجموعه‌ای منحصر به فرد از تخمین‌ها را برای سه پارامتر ناشناخته در β ارائه می‌دهد.

در مورد رگرسیون خطی عمومی، عبارت فوق معادل شرط معکوس بودن ماتریس X T X است.

مفروضات آماری

وقتی تعداد اندازه‌گیری‌های N بیشتر از تعداد پارامترهای مجهول k و خطاهای اندازه‌گیری εi باشد، معمولاً اطلاعات اضافی موجود در اندازه‌گیری‌ها توزیع می‌شود و برای پیش‌بینی‌های آماری در مورد پارامترهای ناشناخته استفاده می‌شود. این مازاد اطلاعات، درجه آزادی رگرسیون نامیده می شود.

مفروضات اساسی

مفروضات کلاسیک برای تحلیل رگرسیون عبارتند از:

  • نمونه گیری نماینده پیش بینی استنتاج است.
  • خطا یک متغیر تصادفی با مقدار میانگین صفر است که مشروط به متغیرهای توضیحی است.
  • متغیرهای مستقل بدون خطا اندازه گیری می شوند.
  • به عنوان متغیرهای مستقل (پیش‌بینی‌کننده)، به صورت خطی مستقل هستند، یعنی نمی‌توان هیچ پیش‌بینی‌کننده‌ای را به صورت ترکیبی خطی از دیگران بیان کرد.
  • خطاها همبستگی ندارند، یعنی ماتریس کوواریانس خطای قطرها و هر عنصر غیرصفر واریانس خطا است.
  • واریانس خطا در بین مشاهدات ثابت است (همسانی). در غیر این صورت، می توان از حداقل مربعات وزنی یا روش های دیگر استفاده کرد.

این شرایط کافی برای برآورد حداقل مربعات دارای ویژگی های مورد نیاز است، به ویژه این مفروضات به این معنی است که تخمین پارامتر عینی، سازگار و کارآمد خواهد بود، به ویژه زمانی که در کلاس برآوردهای خطی در نظر گرفته شود. توجه به این نکته مهم است که داده های واقعی به ندرت شرایط را برآورده می کنند. یعنی از روش استفاده می شود حتی اگر فرضیات صحیح نباشد. تغییر از مفروضات گاهی اوقات می تواند به عنوان معیاری برای میزان مفید بودن مدل استفاده شود. بسیاری از این فرضیات را می توان در روش های پیشرفته تر تسهیل کرد. گزارش‌های تحلیل آماری معمولاً شامل تجزیه و تحلیل آزمون‌ها در برابر داده‌های نمونه و روش‌شناسی برای سودمندی مدل است.

علاوه بر این، متغیرها در برخی موارد به مقادیر اندازه گیری شده در مکان های نقطه اشاره می کنند. ممکن است روندهای فضایی و خودهمبستگی های مکانی در متغیرها وجود داشته باشد که مفروضات آماری را نقض می کند. رگرسیون وزنی جغرافیایی تنها روشی است که با چنین داده هایی سروکار دارد.

در رگرسیون خطی، ویژگی این است که متغیر وابسته که Y i است، ترکیبی خطی از پارامترها است. به عنوان مثال، در رگرسیون خطی ساده، مدل‌سازی نقطه‌ای n از یک متغیر مستقل xi و دو پارامتر β 0 و β 1 استفاده می‌کند.

در رگرسیون خطی چندگانه، چندین متغیر مستقل یا توابع آنها وجود دارد.

هنگامی که به طور تصادفی از یک جامعه نمونه برداری می شود، پارامترهای آن امکان به دست آوردن نمونه ای از مدل رگرسیون خطی را فراهم می کند.

در این زمینه روش حداقل مربعات محبوب ترین است. این تخمین پارامترها را ارائه می دهد که مجموع مربع های باقیمانده را به حداقل می رساند. این نوع کمینه سازی (که نمونه رگرسیون خطی است) این تابع منجر به مجموعه ای از معادلات نرمال و مجموعه ای می شود. معادلات خطیبا پارامترهایی که برای به دست آوردن تخمین پارامترها حل می شوند.

با فرض بیشتر اینکه خطای جمعیت به طور کلی منتشر می شود، محقق می تواند از این تخمین های خطاهای استاندارد برای ایجاد فواصل اطمینان و انجام آزمایش فرضیه ها در مورد پارامترهای آن استفاده کند.

تحلیل رگرسیون غیرخطی

مثالی که در آن تابع نسبت به پارامترها خطی نیست نشان می دهد که مجموع مربع ها باید با یک روش تکرار شونده به حداقل برسد. این پیچیدگی‌های بسیاری را معرفی می‌کند که تفاوت‌های بین روش‌های حداقل مربعات خطی و غیرخطی را مشخص می‌کند. در نتیجه، نتایج تحلیل رگرسیون هنگام استفاده از روش غیر خطی گاهی غیرقابل پیش‌بینی است.

محاسبه توان و حجم نمونه

در اینجا، به عنوان یک قاعده، هیچ روش ثابتی در مورد تعداد مشاهدات در مقایسه با تعداد متغیرهای مستقل در مدل وجود ندارد. قانون اول توسط دوبرا و هاردین ارائه شده است و به نظر می رسد N = t^n، که در آن N حجم نمونه، n تعداد متغیرهای توضیحی است، و t تعداد مشاهدات مورد نیاز برای دستیابی به دقت مورد نظر در صورت داشتن مدل است. فقط یک متغیر توضیحی به عنوان مثال، یک محقق یک مدل رگرسیون خطی را با استفاده از مجموعه داده ای که شامل 1000 بیمار است (N) می سازد. اگر محقق تصمیم بگیرد که برای تعیین دقیق خط (m) به پنج مشاهده نیاز است، حداکثر تعداد متغیرهای توضیحی که مدل می تواند پشتیبانی کند 4 است.

سایر روش ها

اگرچه پارامترهای یک مدل رگرسیون معمولاً با استفاده از روش حداقل مربعات تخمین زده می‌شوند، روش‌های دیگری نیز وجود دارند که کمتر مورد استفاده قرار می‌گیرند. به عنوان مثال، این روش ها عبارتند از:

  • روش های بیزی (به عنوان مثال، روش بیزی رگرسیون خطی).
  • رگرسیون درصدی برای موقعیت‌هایی که کاهش درصد خطا مناسب‌تر در نظر گرفته می‌شود استفاده می‌شود.
  • کوچکترین انحرافات مطلق، که در حضور نقاط پرت که منجر به رگرسیون چندکی می شود، قوی تر است.
  • رگرسیون ناپارامتریک که به تعداد زیادی مشاهدات و محاسبات نیاز دارد.
  • فاصله متریک یادگیری که در جستجوی یک متریک فاصله معنادار در فضای ورودی داده شده آموخته می شود.

نرم افزار

تمامی بسته های نرم افزاری آماری اصلی با استفاده از تحلیل رگرسیون حداقل مربعات انجام می شود. رگرسیون خطی ساده و تحلیل رگرسیون چندگانه را می توان در برخی از برنامه های کاربردی صفحه گسترده و همچنین برخی از ماشین حساب ها استفاده کرد. در حالی که بسیاری از بسته های نرم افزاری آماری می توانند انواع مختلفی از رگرسیون ناپارامتریک و قوی را انجام دهند، این روش ها کمتر استاندارد شده اند. بسته های نرم افزاری مختلف روش های مختلفی را پیاده سازی می کنند. نرم افزار رگرسیون تخصصی برای استفاده در زمینه هایی مانند تجزیه و تحلیل نظرسنجی و تصویربرداری عصبی ایجاد شده است.

ویژگی اصلی تحلیل رگرسیون این است که می توان از آن برای به دست آوردن اطلاعات خاصی در مورد شکل و ماهیت رابطه بین متغیرهای مورد مطالعه استفاده کرد.

توالی مراحل تحلیل رگرسیون

اجازه دهید به طور خلاصه مراحل تحلیل رگرسیون را در نظر بگیریم.

    فرمول وظیفه. در این مرحله فرضیه های اولیه در مورد وابستگی پدیده های مورد مطالعه شکل می گیرد.

    تعریف متغیرهای وابسته و مستقل (تبیینی).

    جمع آوری داده های آماری. داده ها باید برای هر یک از متغیرهای موجود در مدل رگرسیون جمع آوری شود.

    تدوین یک فرضیه در مورد شکل اتصال (ساده یا چندگانه، خطی یا غیرخطی).

    تعریف توابع رگرسیون (شامل محاسبه مقادیر عددی پارامترهای معادله رگرسیون است)

    ارزیابی دقت تحلیل رگرسیون.

    تفسیر نتایج به دست آمده. نتایج تحلیل رگرسیون با فرضیه های اولیه مقایسه می شود. صحت و قابل قبول بودن نتایج به دست آمده مورد ارزیابی قرار می گیرد.

    پیش بینی مقادیر مجهول متغیر وابسته.

با کمک تحلیل رگرسیون می توان مشکل پیش بینی و طبقه بندی را حل کرد. مقادیر پیش بینی با جایگزینی مقادیر متغیرهای توضیحی در معادله رگرسیون محاسبه می شود. مشکل طبقه بندی به این صورت حل می شود: خط رگرسیون کل مجموعه اشیاء را به دو کلاس تقسیم می کند و بخشی از مجموعه که مقدار تابع بزرگتر از صفر است متعلق به یک کلاس است و بخشی که در آن کمتر است. از صفر به کلاس دیگری تعلق دارد.

وظایف تحلیل رگرسیون

وظایف اصلی تحلیل رگرسیون را در نظر بگیرید: ایجاد شکل وابستگی، تعیین توابع رگرسیون، تخمینی از مقادیر مجهول متغیر وابسته.

ایجاد شکل وابستگی.

ماهیت و شکل رابطه بین متغیرها می تواند انواع رگرسیون زیر را تشکیل دهد:

    رگرسیون خطی مثبت (بیان شده به عنوان رشد یکنواخت تابع)؛

    رگرسیون یکنواخت شتاب دهنده مثبت؛

    رگرسیون افزایش یکنواخت مثبت؛

    رگرسیون خطی منفی (به صورت یک افت یکنواخت در تابع بیان می شود).

    رگرسیون کاهشی یکنواخت تسریع شده منفی.

    رگرسیون یکنواخت کاهشی منفی

با این حال، انواع توصیف شده معمولا به صورت خالص یافت نمی شوند، بلکه در ترکیب با یکدیگر یافت می شوند. در این مورد، از اشکال ترکیبی رگرسیون صحبت می شود.

تعریف تابع رگرسیون

وظیفه دوم، پی بردن به تأثیر عوامل یا علل اصلی بر متغیر وابسته است، در حالی که همه چیزهای دیگر یکسان هستند و مشروط به حذف تأثیر بر متغیر وابسته عناصر تصادفی است. تابع رگرسیونبه عنوان یک معادله ریاضی از یک نوع یا دیگری تعریف می شود.

برآورد مقادیر مجهول متغیر وابسته.

راه حل این مشکل به حل مشکل یکی از انواع زیر خلاصه می شود:

    برآورد مقادیر متغیر وابسته در بازه در نظر گرفته شده از داده های اولیه، به عنوان مثال. ارزش از دست رفته؛ این مشکل درون یابی را حل می کند.

    تخمین مقادیر آتی متغیر وابسته، یعنی. یافتن مقادیر خارج از فاصله زمانی داده های اولیه؛ این مشکل برون یابی را حل می کند.

هر دو مشکل با جایگزین کردن تخمین های یافت شده از پارامترهای مقادیر متغیرهای مستقل در معادله رگرسیون حل می شوند. نتیجه حل معادله تخمینی از مقدار متغیر هدف (وابسته) است.

بیایید به برخی از مفروضاتی که تحلیل رگرسیون بر آنها تکیه دارد نگاه کنیم.

فرض خطی بودن، یعنی. فرض بر این است که رابطه بین متغیرهای مورد بررسی خطی است. بنابراین، در این مثال، ما یک نمودار پراکنده ساختیم و توانستیم یک رابطه خطی واضح را ببینیم. اگر در نمودار پراکندگی متغیرها، شاهد عدم وجود رابطه خطی واضح باشیم، به عنوان مثال. یک رابطه غیر خطی وجود دارد، باید از روش های غیر خطی تجزیه و تحلیل استفاده شود.

فرض نرمال بودن باقی مانده ها. فرض می کند که توزیع تفاوت بین مقادیر پیش بینی شده و مشاهده شده نرمال است. برای تعیین بصری ماهیت توزیع، می توانید از هیستوگرام استفاده کنید باقی مانده ها.

هنگام استفاده از تحلیل رگرسیون، باید محدودیت اصلی آن را در نظر گرفت. این شامل این واقعیت است که تجزیه و تحلیل رگرسیون به شما امکان می دهد فقط وابستگی ها را تشخیص دهید و نه روابطی که زیربنای این وابستگی ها هستند.

تجزیه و تحلیل رگرسیون امکان ارزیابی میزان ارتباط بین متغیرها را با محاسبه مقدار مورد انتظار یک متغیر بر اساس چندین مقدار شناخته شده فراهم می کند.

معادله رگرسیون

معادله رگرسیون به این صورت است: Y=a+b*X

با استفاده از این معادله، متغیر Y بر حسب ثابت a و شیب خط (یا شیب) b ضرب در مقدار متغیر X بیان می‌شود. ضریب یا ضریب B.

در بیشتر موارد (اگر نه همیشه) مشاهدات پراکنده ای در مورد خط رگرسیون وجود دارد.

باقی مانده انحراف یک نقطه (مشاهده) از خط رگرسیون (مقدار پیش بینی شده) است.

برای حل مشکل تحلیل رگرسیون در MS Excel از منو انتخاب کنید سرویس"بسته تحلیل"و ابزار تحلیل رگرسیون بازه های ورودی X و Y را مشخص کنید. بازه ورودی Y محدوده ای از داده های وابسته است که تجزیه و تحلیل می شود و باید شامل یک ستون باشد. فاصله ورودی X محدوده داده های مستقلی است که باید تجزیه و تحلیل شود. تعداد محدوده های ورودی نباید از 16 تجاوز کند.

در خروجی رویه در محدوده خروجی، گزارش ارائه شده را دریافت می کنیم جدول 8.3a-8.3 ولت.

نتایج

جدول 8.3a. آمار رگرسیون

آمار رگرسیون

چندگانه R

R-square

مربع R نرمال شده

خطای استاندارد

مشاهدات

ابتدا قسمت بالایی محاسبات ارائه شده در آن را در نظر بگیرید جدول 8.3a، - آمار رگرسیون.

ارزش R-squareکه معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون حاصل را مشخص می کند. این کیفیت با درجه مطابقت بین داده های اصلی و مدل رگرسیون (داده های محاسبه شده) بیان می شود. معیار اطمینان همیشه در بازه زمانی است.

در بیشتر موارد، ارزش R-squareبین این مقادیر است، به نام افراطی، یعنی. بین صفر و یک

اگر ارزش R-squareنزدیک به وحدت، این بدان معنی است که مدل ساخته شده تقریباً تمام متغیرهای متغیرهای مربوطه را توضیح می دهد. برعکس، ارزش R-squareنزدیک به صفر به معنای کیفیت پایین مدل ساخته شده است.

در مثال ما، اندازه گیری قطعیت 0.99673 است که نشان دهنده تناسب بسیار خوب خط رگرسیون با داده های اصلی است.

R جمع - ضریب همبستگی چندگانه R - میزان وابستگی متغیرهای مستقل (X) و متغیر وابسته (Y) را بیان می کند.

چندگانه Rبرابر با جذر ضریب تعیین، این مقدار مقادیری در محدوده صفر تا یک می گیرد.

در تحلیل رگرسیون خطی ساده R جمعبرابر با ضریب همبستگی پیرسون واقعا، R جمعدر مورد ما، برابر است با ضریب همبستگی پیرسون از مثال قبلی (0.998364).

جدول 8.3b. ضرایب رگرسیون

شانس

خطای استاندارد

آمار t

تقاطع Y

متغیر X 1

* یک نسخه کوتاه از محاسبات داده شده است

اکنون قسمت میانی محاسبات ارائه شده در آن را در نظر بگیرید جدول 8.3b. در اینجا، ضریب رگرسیون b (2.305454545) و افست در امتداد محور y داده می شود، یعنی. ثابت a (2.694545455).

بر اساس محاسبات، می توانیم معادله رگرسیون را به صورت زیر بنویسیم:

Y= x*2.305454545+2.694545455

جهت رابطه بین متغیرها بر اساس علائم (منفی یا مثبت) ضرایب رگرسیون (ضریب b) تعیین می شود.

اگر علامت ضریب رگرسیون مثبت باشد، رابطه بین متغیر وابسته و متغیر مستقل مثبت خواهد بود. در مورد ما، علامت ضریب رگرسیون مثبت است، بنابراین، رابطه نیز مثبت است.

اگر علامت ضریب رگرسیون منفی باشد، رابطه بین متغیر وابسته و متغیر مستقل منفی (معکوس) است.

AT جدول 8.3c. نتایج خروجی ارائه شده است باقی مانده ها. برای اینکه این نتایج در گزارش نمایش داده شوند، لازم است هنگام راه اندازی ابزار "Regression" تیک "Residuals" را فعال کنید.

انصراف باقی مانده

جدول 8.3c. باقی

مشاهده

Y را پیش بینی کرد

باقی

ترازهای استاندارد

با استفاده از این قسمت گزارش می توان انحراف هر نقطه از خط رگرسیون ساخته شده را مشاهده کرد. بزرگترین ارزش مطلق باقی ماندهدر مورد ما - 0.778، کوچکترین - 0.043. برای تفسیر بهتر این داده ها، از نمودار داده های اصلی و خط رگرسیون ساخته شده ارائه شده در شکل استفاده می کنیم. برنج. 8.3. همانطور که می بینید، خط رگرسیون کاملاً با مقادیر داده های اصلی "مناسب" است.

باید در نظر داشت که مثال مورد بررسی کاملاً ساده است و ساختن یک خط رگرسیون خطی از نظر کیفی همیشه امکان پذیر نیست.

برنج. 8.3.داده های اولیه و خط رگرسیون

مشکل تخمین مقادیر مجهول آتی متغیر وابسته بر اساس مقادیر شناخته شده متغیر مستقل مورد توجه قرار نگرفت، یعنی. وظیفه پیش بینی

با داشتن یک معادله رگرسیون، مسئله پیش بینی به حل معادله Y= x*2.305454545+2.694545455 با مقادیر شناخته شده x کاهش می یابد. نتایج پیش‌بینی متغیر وابسته Y شش گام جلوتر ارائه شده است در جدول 8.4.

جدول 8.4. نتایج پیش بینی متغیر Y

Y (پیش بینی شده)

بنابراین، در نتیجه استفاده از تحلیل رگرسیون در بسته Microsoft Excel، ما:

    یک معادله رگرسیون ایجاد کرد.

    شکل وابستگی و جهت رابطه بین متغیرها را ایجاد کرد - یک رگرسیون خطی مثبت که در رشد یکنواخت تابع بیان می شود.

    جهت ارتباط بین متغیرها را تعیین کرد.

    کیفیت خط رگرسیون حاصل را ارزیابی کرد.

    قادر به دیدن انحراف داده های محاسبه شده از داده های مجموعه اصلی بودند.

    مقادیر آتی متغیر وابسته را پیش بینی کرد.

اگر یک تابع رگرسیونتعریف، تفسیر و توجیه می شود و ارزیابی دقت تحلیل رگرسیون الزامات را برآورده می کند، می توان فرض کرد که مدل ساخته شده و مقادیر پیش بینی به اندازه کافی قابل اعتماد هستند.

مقادیر پیش‌بینی‌شده به‌دست‌آمده از این طریق، مقادیر متوسطی هستند که می‌توان انتظار داشت.

در این مقاله به بررسی ویژگی های اصلی پرداختیم آمار توصیفیو در میان آنها مفاهیمی مانند منظور داشتن,میانه,بیشترین,کمترینو سایر ویژگی های تنوع داده ها.

همچنین در مورد این مفهوم بحث مختصری صورت گرفت انتشارات. ویژگی های در نظر گرفته شده به به اصطلاح تجزیه و تحلیل داده های اکتشافی اشاره دارد، نتیجه گیری های آن ممکن است برای جمعیت عمومی اعمال نشود، بلکه فقط برای نمونه داده ها اعمال شود. تجزیه و تحلیل داده های اکتشافی برای نتیجه گیری اولیه و تشکیل فرضیه در مورد جمعیت استفاده می شود.

مبانی تحلیل همبستگی و رگرسیون، وظایف آنها و امکان استفاده عملی نیز مورد توجه قرار گرفت.