تجزیه و تحلیل رگرسیون. تجزیه و تحلیل رگرسیون

تحلیل رگرسیون وابستگی یک کمیت معین به کمیت دیگر یا چند کمیت دیگر را بررسی می کند. تحلیل رگرسیون عمدتاً در پیش بینی میان مدت و همچنین در پیش بینی بلند مدت استفاده می شود. دوره های میان مدت و بلندمدت ایجاد تغییرات در محیط کسب و کار و در نظر گرفتن تأثیر این تغییرات بر شاخص مورد مطالعه را ممکن می سازد.

برای انجام تحلیل رگرسیون، لازم است:

    در دسترس بودن داده های سالانه در مورد شاخص های مورد مطالعه،

    در دسترس بودن پیش‌بینی‌های یک‌باره، یعنی پیش بینی هایی که با داده های جدید بهبود نمی یابند.

تحلیل رگرسیون معمولاً برای اشیایی انجام می شود که ماهیت پیچیده و چند عاملی دارند، مانند حجم سرمایه گذاری، سود، حجم فروش و غیره.

در روش پیش بینی هنجاریراه ها و شرایط دستیابی به حالات احتمالی پدیده که به عنوان هدف در نظر گرفته شده است، تعیین می شود. ما در مورد پیش بینی دستیابی به حالت های مطلوب پدیده بر اساس هنجارها، آرمان ها، انگیزه ها و اهداف از پیش تعیین شده صحبت می کنیم. چنین پیش‌بینی به این سؤال پاسخ می‌دهد: از چه راه‌هایی می‌توان به مطلوب دست یافت؟ روش هنجاری بیشتر برای پیش بینی های برنامه ای یا هدفمند استفاده می شود. هم از بیان کمی استاندارد و هم مقیاس مشخصی از امکانات تابع ارزیابی استفاده می شود.

در مورد استفاده از یک عبارت کمی، به عنوان مثال، هنجارهای فیزیولوژیکی و منطقی برای مصرف برخی از محصولات غذایی و غیر خوراکی که توسط متخصصان برای گروه‌های مختلف جمعیت ایجاد شده است، می‌توان میزان مصرف این کالاها را تعیین کرد. سالهای قبل از دستیابی به هنجار مشخص شده. این گونه محاسبات درون یابی نامیده می شود. درون یابی روشی برای محاسبه شاخص هایی است که در سری های زمانی یک پدیده گم شده اند، بر اساس یک رابطه ایجاد شده. با در نظر گرفتن مقدار واقعی اندیکاتور و مقدار استانداردهای آن به عنوان اعضای افراطی سری پویا، می توان مقدار مقادیر درون این سری را تعیین کرد. بنابراین، درون یابی یک روش هنجاری در نظر گرفته می شود. فرمول قبلی (4) که در برون یابی استفاده می شود، می تواند در درون یابی استفاده شود، جایی که y n دیگر داده های واقعی را مشخص نمی کند، بلکه استاندارد نشانگر را مشخص می کند.

در مورد استفاده از مقیاس (میدان، طیف) از امکانات تابع ارزیابی، یعنی تابع توزیع ترجیحی، در روش هنجاری، تقریباً درجه بندی زیر نشان داده می شود: نامطلوب - کمتر مطلوب - مطلوب تر - مطلوب ترین - بهینه (استاندارد).

روش پیش بینی هنجاری به توسعه توصیه هایی برای افزایش سطح عینیت و در نتیجه اثربخشی تصمیمات کمک می کند.

مدل سازی، شاید سخت ترین روش پیش بینی باشد. مدل سازی ریاضی به معنای توصیف یک پدیده اقتصادی از طریق فرمول ها، معادلات و نابرابری های ریاضی است. دستگاه ریاضی باید به طور دقیق پس‌زمینه پیش‌بینی را منعکس کند، اگرچه انعکاس کامل عمق و پیچیدگی جسم پیش‌بینی‌شده بسیار دشوار است. اصطلاح "مدل" از کلمه لاتین modelus به معنای "اندازه گیری" گرفته شده است. بنابراین، درست تر است که مدل سازی را نه به عنوان یک روش پیش بینی، بلکه به عنوان روشی برای مطالعه یک پدیده مشابه بر روی یک مدل در نظر بگیریم.

در یک مفهوم گسترده، مدل‌ها جایگزین‌هایی برای موضوع مطالعه نامیده می‌شوند که شباهت زیادی با آن دارند که به شما امکان می‌دهد اطلاعات جدیدی در مورد شی به دست آورید. مدل باید به عنوان یک توصیف ریاضی از شی در نظر گرفته شود. در این حالت، مدل به عنوان پدیده ای (موضوع، نصب) تعریف می شود که با شی مورد مطالعه مطابقت دارد و می تواند جایگزین آن در فرآیند تحقیق، ارائه اطلاعاتی در مورد شیء باشد.

با درک محدودتر مدل، به عنوان یک هدف پیش بینی در نظر گرفته می شود، مطالعه آن اجازه می دهد تا اطلاعاتی در مورد وضعیت های احتمالی شی در آینده و راه های دستیابی به این حالت ها به دست آورید. در این حالت، هدف مدل پیش‌بینی به‌دست آوردن اطلاعات نه در مورد شی به طور کلی، بلکه فقط در مورد وضعیت‌های آینده آن است. سپس، هنگام ساخت یک مدل، ممکن است بررسی مستقیم مطابقت آن با شی غیرممکن باشد، زیرا مدل فقط حالت آینده آن را نشان می دهد، و ممکن است خود شی در حال حاضر وجود نداشته باشد یا وجود متفاوتی داشته باشد.

مدل ها می توانند مادی و ایده آل باشند.

در اقتصاد از مدل های ایده آل استفاده می شود. کامل ترین مدل ایده آل برای توصیف کمی یک پدیده اجتماعی-اقتصادی (اقتصادی) یک مدل ریاضی است که از اعداد، فرمول ها، معادلات، الگوریتم ها یا یک نمایش گرافیکی استفاده می کند. با کمک مدل های اقتصادی تعیین کنید:

    رابطه بین شاخص های مختلف اقتصادی؛

    انواع محدودیت های اعمال شده بر شاخص ها؛

    معیارهایی برای بهینه سازی فرآیند

یک توصیف معنادار از یک شی را می توان در قالب طرح رسمی آن نشان داد، که نشان می دهد کدام پارامترها و اطلاعات اولیه باید جمع آوری شوند تا مقادیر مورد نظر محاسبه شوند. یک مدل ریاضی بر خلاف یک طرح رسمی، حاوی داده های عددی خاصی است که یک شی را مشخص می کند. او بر اساس ایده های خود یک فرضیه کاری را مطرح می کند که با کمک آن یک رکورد تحلیلی از مدل در قالب فرمول ها، معادلات و نابرابری ها ایجاد می شود. در نتیجه حل سیستم معادلات، پارامترهای خاصی از تابع به دست می آید که تغییر متغیرهای مورد نظر را در طول زمان توصیف می کند.

ترتیب و توالی کار به عنوان عنصری از سازماندهی پیش بینی بسته به روش پیش بینی مورد استفاده تعیین می شود. معمولا این کار در چند مرحله انجام می شود.

مرحله 1 - گذشته نگری پیش بینی کننده، به عنوان مثال، ایجاد موضوع پیش بینی و پیشینه پیش بینی. کار در مرحله اول به ترتیب زیر انجام می شود:

    شکل‌گیری توصیفی از یک شی در گذشته، که شامل تجزیه و تحلیل پیش‌بینی شده از شی، ارزیابی پارامترهای آن، اهمیت آنها و روابط متقابل است.

    شناسایی و ارزیابی منابع اطلاعاتی، روش و سازماندهی کار با آنها، جمع آوری و قرار دادن اطلاعات گذشته نگر.

    تعیین اهداف تحقیق

پیش بینی کنندگان با انجام وظایف گذشته نگری پیش بینی، تاریخچه توسعه شی و پیشینه پیش بینی را مطالعه می کنند تا توصیف سیستماتیک آنها را بدست آورند.

مرحله 2 - تشخیص پیش بینی، که در طی آن یک توصیف سیستماتیک از موضوع پیش بینی و پیشینه پیش بینی به منظور شناسایی روند توسعه آنها و انتخاب مدل ها و روش های پیش بینی مورد مطالعه قرار می گیرد. کار به ترتیب زیر انجام می شود:

    توسعه یک مدل شی پیش‌بینی، از جمله توصیف رسمی شی، بررسی میزان کفایت مدل با شی.

    انتخاب روش های پیش بینی (اصلی و کمکی)، توسعه یک الگوریتم و برنامه های کاری.

مرحله سوم - حمایت، یعنی فرآیند توسعه گسترده پیش بینی، از جمله: 1) محاسبه پارامترهای پیش بینی شده برای یک دوره سرب معین. 2) سنتز اجزای فردی پیش بینی.

مرحله 4 - ارزیابی پیش بینی، از جمله تأیید آن، یعنی تعیین درجه قابلیت اطمینان، دقت و اعتبار.

در جریان کاوش و ارزیابی، وظایف پیش بینی و ارزیابی آن بر اساس مراحل قبلی حل می شود.

مرحله بندی نشان داده شده تقریبی است و به روش اصلی پیش بینی بستگی دارد.

نتایج پیش بینی در قالب یک گواهی، گزارش یا مطالب دیگر تهیه و به مشتری ارائه می شود.

در پیش بینی می توان انحراف پیش بینی را از وضعیت واقعی جسم نشان داد که به آن خطای پیش بینی می گویند که با فرمول محاسبه می شود:

;
;
. (9.3)

منابع خطا در پیش بینی

منابع اصلی می تواند باشد:

1. انتقال ساده (برون یابی) داده ها از گذشته به آینده (مثلاً شرکت گزینه های پیش بینی دیگری به جز افزایش 10 درصدی فروش ندارد).

2. ناتوانی در تعیین دقیق احتمال وقوع یک رویداد و تاثیر آن بر شی مورد مطالعه.

3. مشکلات پیش بینی نشده (رویدادهای مخرب) موثر بر اجرای طرح، به عنوان مثال، برکناری ناگهانی رئیس بخش فروش.

به طور کلی دقت پیش بینی با انباشته شدن تجربه در پیش بینی و توسعه روش های آن افزایش می یابد.

تجزیه و تحلیل رگرسیون

پسرفت (خطی) تحلیل و بررسی- روشی آماری برای مطالعه تأثیر یک یا چند متغیر مستقل بر یک متغیر وابسته. متغیرهای مستقل در غیر این صورت رگرسیون یا پیش بینی کننده و متغیرهای وابسته معیار نامیده می شوند. واژه شناسی وابستهو مستقلمتغیرها فقط وابستگی ریاضی متغیرها را منعکس می کنند ( همبستگی جعلی را ببینید) به جای رابطه علّی.

اهداف تحلیل رگرسیون

  1. تعیین میزان جبر تغییر متغیر معیار (وابسته) توسط پیش بینی کننده ها (متغیرهای مستقل)
  2. پیش بینی مقدار متغیر وابسته با استفاده از متغیر(های) مستقل
  3. تعیین سهم متغیرهای مستقل فردی در تغییرات وابسته

نمی توان از تحلیل رگرسیون برای تعیین اینکه آیا رابطه ای بین متغیرها وجود دارد استفاده کرد، زیرا وجود چنین رابطه ای شرط لازم برای اعمال تحلیل است.

تعریف ریاضی رگرسیون

وابستگی شدیداً وابستگی را می توان به صورت زیر تعریف کرد. فرض کنید، متغیرهای تصادفی با توزیع احتمال مشترک معین باشند. اگر برای هر مجموعه از مقادیر یک انتظار شرطی تعریف شده باشد

(معادله رگرسیون عمومی)،

سپس تابع فراخوانی می شود پسرفتمقدار Y بر اساس مقادیر و نمودار آن - خط رگرسیونتوسط، یا معادله رگرسیون.

وابستگی به تغییر در مقادیر متوسط ​​Y در هنگام تغییر آشکار می شود. اگرچه برای هر مجموعه ثابتی از مقادیر، کمیت یک متغیر تصادفی با پراکندگی مشخص باقی می ماند.

برای روشن شدن این سوال که تحلیل رگرسیون چقدر دقیق تغییر در Y را با تغییر تخمین می زند، از مقدار متوسط ​​واریانس Y برای مجموعه های مختلف مقادیر استفاده می شود (در واقع، ما در مورد اندازه گیری پراکندگی صحبت می کنیم. متغیر وابسته حول خط رگرسیون).

روش حداقل مربعات (محاسبه ضرایب)

در عمل، خط رگرسیون اغلب در فرم جستجو می شود تابع خطی(رگرسیون خطی) که به بهترین وجه منحنی مورد نظر را تقریب می کند. این با استفاده از روش حداقل مربعات انجام می شود، زمانی که مجموع انحرافات مجذور موارد واقعی مشاهده شده از تخمین های آنها به حداقل برسد (به معنای تخمین ها با استفاده از یک خط مستقیم که ادعا می کند وابستگی رگرسیونی مورد نظر را نشان می دهد):

(M - حجم نمونه). این رویکرد مبتنی بر واقعیت شناخته شدهکه مجموع ظاهر شده در عبارت بالا دقیقاً برای حالتی که .

برای حل مسئله تحلیل رگرسیون به روش حداقل مربعات، این مفهوم معرفی شده است توابع باقی مانده:

شرط حداقل تابع باقیمانده:

سیستم حاصل سیستم است معادلات خطیبا ناشناخته

اگر عبارات آزاد سمت چپ معادلات را با ماتریس نشان دهیم

و ضرایب مجهولات سمت راست ماتریس

سپس معادله ماتریسی را بدست می آوریم: که به راحتی با روش گاوس حل می شود. ماتریس حاصل، ماتریسی خواهد بود که شامل ضرایب معادله خط رگرسیون است:

برای به دست آوردن بهترین تخمین ها، لازم است پیش نیازهای LSM (شرایط گاوس-مارکوف) برآورده شود. در ادبیات انگلیسی، چنین تخمین‌هایی BLUE (بهترین برآوردگرهای خطی بی‌طرفدار) نامیده می‌شوند - بهترین تخمین‌های بی‌طرف خطی.

تفسیر پارامترهای رگرسیون

پارامترها ضرایب همبستگی جزئی هستند. به عنوان نسبت واریانس Y که با ثابت کردن تأثیر پیش‌بینی‌کننده‌های باقی‌مانده توضیح داده می‌شود، تفسیر می‌شود، یعنی سهم فردی را در توضیح Y اندازه‌گیری می‌کند. در مورد پیش‌بینی‌کننده‌های همبسته، مشکل عدم قطعیت در برآوردها وجود دارد. ، که به ترتیب قرار گرفتن پیش بینی کننده ها در مدل وابسته می شوند. در چنین مواردی استفاده از روش های تحلیل همبستگی و تحلیل رگرسیون گام به گام ضروری است.

در مورد مدل‌های غیرخطی تحلیل رگرسیون، توجه به این نکته مهم است که آیا ما در مورد غیرخطی بودن در متغیرهای مستقل (از دیدگاه رسمی که به راحتی به رگرسیون خطی کاهش می‌یابد) صحبت می‌کنیم یا غیرخطی بودن در پارامترهای تخمینی. (ایجاد مشکلات محاسباتی جدی). با نوع اول غیرخطی بودن، از منظر معنادار، مهم است که ظاهر در مدل اعضای فرم را مشخص کنیم، که نشان دهنده وجود تعامل بین ویژگی ها و غیره است (به چند خطی مراجعه کنید).

همچنین ببینید

پیوندها

  • www.kgafk.ru - سخنرانی در مورد "تحلیل رگرسیون"
  • www.basegroup.ru - روش هایی برای انتخاب متغیرها در مدل های رگرسیون

ادبیات

  • نورمن دریپر، هری اسمیتتحلیل رگرسیون کاربردی رگرسیون چندگانه= تحلیل رگرسیون کاربردی. - ویرایش سوم - م .: "دیالکتیک"، 2007. - S. 912. - ISBN 0-471-17082-8
  • روش های پایدار برای برآورد مدل های آماری: مونوگراف. - K. : PP "Sansparelle"، 2005. - S. 504. - ISBN 966-96574-0-7، UDC: 519.237.5:515.126.2، LBC 22.172 + 22.152
  • رادچنکو استانیسلاو گریگوریویچ،روش تحلیل رگرسیون: مونوگراف. - K. : "Korniychuk"، 2011. - S. 376. - ISBN 978-966-7599-72-0

بنیاد ویکی مدیا 2010 .

رگرسیون چیست؟

دو متغیر پیوسته را در نظر بگیرید x=(x 1، x 2، ..، x n)، y=(y 1، y 2، ...، y n).

بیایید نقاط را روی نمودار پراکندگی دو بعدی قرار دهیم و بگوییم که داریم رابطه خطیاگر داده ها با یک خط مستقیم تقریب شوند.

اگر فرض کنیم که yبستگی دارد به ایکس، و تغییرات در yناشی از تغییرات در ایکس، می توانیم یک خط رگرسیون تعریف کنیم (رگرسیون yبر روی ایکس) که رابطه مستقیم بین این دو متغیر را به بهترین نحو توصیف می کند.

استفاده آماری از کلمه "رگرسیون" از پدیده ای به نام رگرسیون به میانگین می آید که به سر فرانسیس گالتون (1889) نسبت داده می شود.

او نشان داد که در حالی که پدران قدبلند تمایل به داشتن پسران قد بلند دارند، میانگین قد پسران کوچکتر از پدران بلندقد است. میانگین قد پسران به میانگین قد همه پدران جمعیت «پسرفت» و «به عقب رفت». بنابراین، به طور متوسط، پدران قدبلند پسران کوتاه قدتر (اما هنوز قد بلند) دارند و پدران کوتاه قد پسران قد بلندتر (اما هنوز نسبتاً کوتاه قد) دارند.

خط رگرسیون

معادله ریاضی که یک خط رگرسیون خطی ساده (جفتی) را ارزیابی می کند:

ایکسمتغیر مستقل یا پیش بینی کننده نامیده می شود.

Yمتغیر وابسته یا پاسخ است. این ارزشی است که ما برای آن انتظار داریم y(به طور متوسط) اگر مقدار آن را بدانیم ایکس، یعنی مقدار پیش بینی شده است y»

  • آ- عضو رایگان (عبور) از خط ارزیابی؛ این مقدار Y، چه زمانی x=0(عکس. 1).
  • ب- شیب یا شیب خط برآورد شده؛ مقداری است که با آن Yاگر افزایش دهیم به طور متوسط ​​افزایش می یابد ایکسبرای یک واحد
  • آو بضرایب رگرسیون خط تخمینی نامیده می شوند، اگرچه این اصطلاح اغلب فقط برای استفاده می شود ب.

رگرسیون خطی دوتایی را می توان به گونه ای گسترش داد که بیش از یک متغیر مستقل را شامل شود. در این مورد به عنوان شناخته می شود رگرسیون چندگانه.

عکس. 1. خط رگرسیون خطی که تقاطع a و شیب b را نشان می دهد (مقدار افزایش Y زمانی که x یک واحد افزایش می یابد)

روش حداقل مربعات

ما تجزیه و تحلیل رگرسیون را با استفاده از یک نمونه مشاهدات انجام می دهیم آو ب- تخمین نمونه از پارامترهای واقعی (عمومی)، α و β، که خط رگرسیون خطی را در جمعیت (جمعیت عمومی) تعیین می کند.

ساده ترین روش برای تعیین ضرایب آو باست روش حداقل مربع(MNK).

تناسب با در نظر گرفتن باقیمانده ها (فاصله عمودی هر نقطه از خط، به عنوان مثال باقیمانده = قابل مشاهده) ارزیابی می شود. y- پیش بینی کرد y، برنج. 2).

خط بهترین تناسب طوری انتخاب می شود که مجموع مجذورهای باقیمانده حداقل باشد.

برنج. 2. خط رگرسیون خطی با باقیمانده های نشان داده شده (خطوط نقطه چین عمودی) برای هر نقطه.

مفروضات رگرسیون خطی

بنابراین، برای هر مقدار مشاهده شده، باقیمانده برابر است با اختلاف و مقدار پیش بینی شده مربوطه، هر باقیمانده می تواند مثبت یا منفی باشد.

می توانید از باقیمانده ها برای آزمایش مفروضات زیر در پشت رگرسیون خطی استفاده کنید:

  • باقیمانده ها معمولاً با میانگین صفر توزیع می شوند.

اگر مفروضات خطی بودن، نرمال بودن و/یا واریانس ثابت مشکوک باشند، می‌توانیم یک خط رگرسیون جدیدی را که این فرضیات برای آن برآورده می‌شوند، تبدیل یا محاسبه کنیم (مثلاً از تبدیل لگاریتمی و غیره استفاده کنیم).

مقادیر غیرعادی (غیرطبیعی) و نقاط تأثیر

یک مشاهده «تاثیرگذار»، اگر حذف شود، یک یا چند تخمین پارامتر مدل را تغییر می‌دهد (یعنی شیب یا فاصله).

یک نقطه پرت (مشاهده ای که با بیشتر مقادیر موجود در مجموعه داده در تضاد است) می تواند یک مشاهده "تأثیرگذار" باشد و هنگام مشاهده یک نمودار پراکندگی دوبعدی یا نموداری از باقیمانده ها به خوبی از نظر بصری تشخیص داده شود.

هم برای مشاهدات پرت و هم برای مشاهدات «تاثیرگذار» (نقاط) از مدل‌ها استفاده می‌شود، هم با گنجاندن آنها و هم بدون آنها، به تغییر برآورد (ضرایب رگرسیون) توجه کنید.

هنگام انجام یک تجزیه و تحلیل، به طور خودکار نقاط پرت را کنار نگذارید، زیرا صرفاً نادیده گرفتن آنها می تواند نتایج را تحت تأثیر قرار دهد. همیشه علل این پرت ها را مطالعه کنید و آنها را تجزیه و تحلیل کنید.

فرضیه رگرسیون خطی

هنگام ساخت یک رگرسیون خطی، این فرضیه صفر بررسی می شود که شیب کلی خط رگرسیون β برابر با صفر است.

اگر شیب خط صفر باشد، هیچ رابطه خطی بین و وجود ندارد: تغییر تأثیر نمی گذارد

برای آزمایش فرضیه صفر مبنی بر اینکه شیب واقعی صفر است، می توانید از الگوریتم زیر استفاده کنید:

محاسبه آمار آزمون برابر با نسبت، که از توزیع با درجه آزادی تبعیت می کند، که در آن خطای استاندارد ضریب


,

- تخمین واریانس باقیمانده ها.

معمولاً اگر سطح معناداری به دست آمده باشد، فرض صفر رد می شود.


نقطه درصد توزیع با درجات آزادی که احتمال آزمون دو طرفه را می دهد کجاست

این فاصله ای است که شامل شیب کلی با احتمال 95٪ است.

برای نمونه‌های بزرگ، فرض کنید می‌توانیم با مقدار 1.96 تقریبی کنیم (یعنی آمار آزمون به طور معمول توزیع می‌شود)

ارزیابی کیفیت رگرسیون خطی: ضریب تعیین R2

به دلیل رابطه خطی و ما انتظار داریم که تغییرات به عنوان تغییرات ، و ما آن را تغییری می نامیم که ناشی از رگرسیون یا توضیح آن است. تغییرات باقیمانده باید تا حد امکان کوچک باشد.

اگر چنین است، بیشتر تغییرات با رگرسیون توضیح داده می شود و نقاط نزدیک به خط رگرسیون قرار می گیرند، یعنی. خط به خوبی با داده ها مطابقت دارد.

نسبت واریانس کل که با رگرسیون توضیح داده می شود نامیده می شود ضریب تعیین، معمولاً به صورت درصد بیان می شود و نشان داده می شود R2(در رگرسیون خطی زوجی، این مقدار است r2، مجذور ضریب همبستگی)، به شما امکان می دهد کیفیت معادله رگرسیون را به صورت ذهنی ارزیابی کنید.

تفاوت درصدی از واریانس است که با رگرسیون قابل توضیح نیست.

بدون هیچ آزمون رسمی برای ارزیابی، ما مجبور هستیم برای تعیین کیفیت تناسب خط رگرسیون به قضاوت ذهنی تکیه کنیم.

اعمال خط رگرسیون برای پیش بینی

شما می توانید از یک خط رگرسیون برای پیش بینی یک مقدار از یک مقدار در محدوده مشاهده شده استفاده کنید (هرگز فراتر از این محدودیت ها برون یابی نکنید).

با جایگزین کردن آن مقدار در معادله خط رگرسیون، میانگین را برای قابل مشاهده‌هایی که مقدار مشخصی دارند، پیش‌بینی می‌کنیم.

بنابراین، اگر پیش‌بینی شود، از این مقدار پیش‌بینی‌شده و خطای استاندارد آن برای تخمین فاصله اطمینان برای میانگین جمعیت واقعی استفاده می‌کنیم.

تکرار این روش برای مقادیر مختلف به شما این امکان را می دهد که برای این خط محدودیت هایی ایجاد کنید. این یک باند یا ناحیه است که شامل یک خط واقعی است، به عنوان مثال، با سطح اطمینان 95٪.

طرح های رگرسیون ساده

طرح های رگرسیون ساده حاوی یک پیش بینی پیوسته هستند. اگر 3 مورد با مقادیر پیش بینی P وجود داشته باشد، مانند 7، 4 و 9، و طرح شامل یک اثر مرتبه اول P باشد، ماتریس طراحی X خواهد بود.

و معادله رگرسیون با استفاده از P برای X1 به نظر می رسد

Y = b0 + b1 P

اگر یک طرح رگرسیون ساده دارای یک اثر مرتبه بالاتر بر روی P باشد، مانند یک اثر درجه دوم، مقادیر ستون X1 در ماتریس طراحی به توان دوم افزایش می یابد:

و معادله شکل خواهد گرفت

Y = b0 + b1 P2

روش‌های کدگذاری محدود شده و بیش‌پارامتری‌شده با سیگما برای طرح‌های رگرسیون ساده و سایر طرح‌هایی که فقط حاوی پیش‌بینی‌کننده‌های پیوسته هستند اعمال نمی‌شوند (زیرا به سادگی هیچ پیش‌بینی‌کننده طبقه‌ای وجود ندارد). صرف نظر از روش رمزگذاری انتخاب شده، مقادیر متغیرهای پیوسته با توان مناسب افزایش یافته و به عنوان مقادیر برای متغیرهای X استفاده می شود. در این حالت هیچ تبدیلی انجام نمی شود. علاوه بر این، هنگام توصیف برنامه های رگرسیون، می توانید در نظر گرفتن ماتریس پلان X را حذف کنید و فقط با معادله رگرسیون کار کنید.

مثال: تحلیل رگرسیون ساده

این مثال از داده های ارائه شده در جدول استفاده می کند:

برنج. 3. جدول داده های اولیه.

داده ها بر اساس مقایسه سرشماری های سال های 1960 و 1970 در 30 شهرستان به طور تصادفی انتخاب شده اند. نام شهرستان ها به عنوان نام های مشاهده ای نشان داده می شود. اطلاعات مربوط به هر متغیر در زیر ارائه شده است:

برنج. 4. جدول مشخصات متغیر.

هدف پژوهش

برای این مثال، همبستگی بین نرخ فقر و قدرت پیش‌بینی‌کننده درصد خانواده‌هایی که زیر خط فقر هستند، تحلیل می‌شود. بنابراین، متغیر 3 (Pt_Poor) را به عنوان یک متغیر وابسته در نظر خواهیم گرفت.

می توان یک فرضیه را مطرح کرد: تغییر جمعیت و درصد خانواده هایی که زیر خط فقر هستند با هم مرتبط هستند. منطقی به نظر می رسد انتظار داشته باشیم که فقر منجر به خروج جمعیت شود، بنابراین بین درصد افراد زیر خط فقر و تغییر جمعیت همبستگی منفی وجود دارد. بنابراین، ما با متغیر 1 (Pop_Chng ) به عنوان یک متغیر پیش بینی رفتار خواهیم کرد.

مشاهده نتایج

ضرایب رگرسیون

برنج. 5. ضرایب رگرسیون Pt_Poor در Pop_Chng.

در تقاطع ردیف Pop_Chng و Param. ضریب غیر استاندارد برای رگرسیون Pt_Poor در Pop_Chng -0.40374 است. این بدان معناست که به ازای هر واحد کاهش جمعیت، نرخ فقر 40374/0 افزایش می یابد. حد اطمینان 95 درصد بالا و پایین (پیش‌فرض) برای این ضریب غیر استاندارد صفر را شامل نمی‌شود، بنابراین ضریب رگرسیون در سطح p معنی‌دار است.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

توزیع متغیرها

ضرایب همبستگی در صورت وجود مقادیر پرت بزرگ در داده‌ها، می‌توانند به‌طور قابل‌توجهی بیش‌ازحد برآورد یا دست‌کم‌گرفته شوند. اجازه دهید توزیع متغیر وابسته Pt_Poor را بر اساس شهرستان بررسی کنیم. برای این کار یک هیستوگرام از متغیر Pt_Poor می سازیم.

برنج. 6. هیستوگرام متغیر Pt_Poor.

همانطور که می بینید، توزیع این متغیر به طور قابل توجهی با توزیع نرمال متفاوت است. با این حال، اگرچه حتی دو شهرستان (دو ستون سمت راست) دارای درصد بالاتری از خانواده‌هایی هستند که در یک توزیع معمولی زیر خط فقر هستند، اما به نظر می‌رسد که آنها «داخل محدوده» هستند.

برنج. 7. هیستوگرام متغیر Pt_Poor.

این قضاوت تا حدودی ذهنی است. قاعده کلی این است که اگر یک مشاهده (یا مشاهدات) در بازه زمانی (میانگین 3 ± انحراف استاندارد) قرار نگیرد، باید موارد پرت را در نظر گرفت. در این مورد، ارزش آن را دارد که تجزیه و تحلیل با و بدون پرت تکرار شود تا مطمئن شوید که آنها تأثیر جدی بر همبستگی بین اعضای جامعه ندارند.

طرح پراکنده

اگر یکی از فرضیه ها پیشینی در مورد رابطه بین متغیرهای داده شده باشد، بررسی آن در نمودار پراکندگی مربوطه مفید است.

برنج. 8. Scatterplot.

نمودار پراکندگی یک همبستگی منفی واضح (65/0-) بین دو متغیر را نشان می دهد. همچنین فاصله اطمینان 95% را برای خط رگرسیون نشان می دهد، یعنی با احتمال 95% خط رگرسیون از بین دو منحنی چین عبور می کند.

معیارهای اهمیت

برنج. 9. جدول حاوی معیارهای اهمیت.

آزمون ضریب رگرسیون Pop_Chng تایید می کند که Pop_Chng به شدت با Pt_Poor، p مرتبط است.<.001 .

نتیجه

این مثال نحوه تجزیه و تحلیل یک طرح رگرسیون ساده را نشان داد. تفسیری از ضرایب رگرسیون غیر استاندارد و استاندارد نیز ارائه شد. اهمیت مطالعه توزیع پاسخ متغیر وابسته مورد بحث قرار می گیرد و تکنیکی برای تعیین جهت و قدرت رابطه بین پیش بینی کننده و متغیر وابسته نشان داده می شود.

رگرسیون و تحلیل همبستگی - روشهای تحقیق آماری. اینها رایج ترین راه ها برای نشان دادن وابستگی یک پارامتر به یک یا چند متغیر مستقل هستند.

در زیر، با استفاده از مثال‌های عملی عینی، این دو تحلیل بسیار محبوب در میان اقتصاددانان را بررسی خواهیم کرد. ما همچنین مثالی از به دست آوردن نتایج در هنگام ترکیب آنها خواهیم داد.

تجزیه و تحلیل رگرسیون در اکسل

تأثیر برخی از مقادیر (مستقل، مستقل) را بر روی متغیر وابسته نشان می دهد. به عنوان مثال، چگونگی تعداد جمعیت فعال اقتصادی به تعداد شرکت ها، دستمزدها و سایر پارامترها بستگی دارد. یا: سرمایه گذاری های خارجی، قیمت انرژی و غیره چگونه بر سطح تولید ناخالص داخلی تأثیر می گذارد.

نتیجه تجزیه و تحلیل به شما امکان می دهد اولویت بندی کنید. و بر اساس عوامل اصلی، پیش بینی، برنامه ریزی توسعه حوزه های اولویت دار، تصمیم گیری های مدیریتی.

رگرسیون اتفاق می افتد:

  • خطی (y = a + bx)؛
  • سهمی (y = a + bx + cx 2)؛
  • نمایی (y = a * exp(bx));
  • توان (y = a*x^b)؛
  • هذلولی (y = b/x + a)؛
  • لگاریتمی (y = b * 1n(x) + a)؛
  • نمایی (y = a * b^x).

مثال ساخت یک مدل رگرسیون در اکسل و تفسیر نتایج را در نظر بگیرید. بیایید یک نوع رگرسیون خطی در نظر بگیریم.

یک وظیفه. در 6 شرکت، میانگین حقوق ماهانه و تعداد کارکنانی که ترک کردند، تجزیه و تحلیل شد. تعیین وابستگی تعداد کارکنان بازنشسته به میانگین حقوق ضروری است.

مدل رگرسیون خطی به شکل زیر است:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

جایی که a ضرایب رگرسیون، x متغیرهای تاثیرگذار و k تعداد عوامل است.

در مثال ما، Y نشانگر ترک کار است. عامل تأثیرگذار دستمزد (x) است.

اکسل دارای توابع داخلی است که می توان از آنها برای محاسبه پارامترهای یک مدل رگرسیون خطی استفاده کرد. اما افزونه Analysis ToolPak این کار را سریعتر انجام می دهد.

یک ابزار تحلیلی قدرتمند را فعال کنید:

پس از فعال شدن، افزونه در تب Data در دسترس خواهد بود.

حال به طور مستقیم به تحلیل رگرسیون می پردازیم.



اول از همه به مربع R و ضرایب توجه می کنیم.

R-square ضریب تعیین است. در مثال ما، 0.755 یا 75.5٪ است. این بدان معناست که پارامترهای محاسبه شده مدل، رابطه بین پارامترهای مورد مطالعه را 75.5 درصد توضیح می دهد. هر چه ضریب تعیین بالاتر باشد، مدل بهتر است. خوب - بالای 0.8. ضعیف - کمتر از 0.5 (چنین تجزیه و تحلیل به سختی می تواند معقول در نظر گرفته شود). در مثال ما - "بد نیست".

ضریب 64.1428 نشان می دهد که اگر همه متغیرهای مدل مورد نظر برابر با 0 باشند Y چقدر خواهد بود. یعنی عوامل دیگری که در مدل توضیح داده نشده اند نیز بر مقدار پارامتر تحلیل شده تأثیر می گذارند.

ضریب -0.16285 وزن متغیر X را بر Y نشان می دهد. یعنی میانگین حقوق ماهانه در این مدل بر تعداد افراد ترک با وزن 0.16285- تأثیر می گذارد (این درجه تأثیر کمی است). علامت "-" نشان دهنده تأثیر منفی است: هر چه حقوق و دستمزد بالاتر باشد، ترک کار کمتر است. که منصفانه است.



تجزیه و تحلیل همبستگی در اکسل

تجزیه و تحلیل همبستگی به تعیین اینکه آیا رابطه ای بین شاخص ها در یک یا دو نمونه وجود دارد کمک می کند. به عنوان مثال بین زمان کارکرد دستگاه و هزینه تعمیرات، قیمت تجهیزات و مدت زمان کارکرد، قد و وزن کودکان و غیره.

اگر یک رابطه وجود داشته باشد، پس آیا افزایش در یک پارامتر منجر به افزایش (همبستگی مثبت) یا کاهش (منفی) در پارامتر دیگر می شود. تحلیل همبستگی به تحلیلگر کمک می کند تا تعیین کند که آیا مقدار یک شاخص می تواند ارزش احتمالی شاخص دیگر را پیش بینی کند یا خیر.

ضریب همبستگی r نشان داده می شود. از +1 تا -1 متغیر است. طبقه بندی همبستگی ها برای حوزه های مختلف متفاوت خواهد بود. وقتی مقدار ضریب 0 باشد، هیچ رابطه خطی بین نمونه ها وجود ندارد.

نحوه استفاده از اکسل برای یافتن ضریب همبستگی را در نظر بگیرید.

تابع CORREL برای یافتن ضرایب جفت شده استفاده می شود.

وظیفه: تعیین کنید که آیا رابطه ای بین زمان کار ماشین تراش و هزینه نگهداری آن وجود دارد یا خیر.

مکان نما را در هر سلولی قرار دهید و دکمه fx را فشار دهید.

  1. در دسته «آماری»، تابع CORREL را انتخاب کنید.
  2. آرگومان "آرایه 1" - اولین محدوده مقادیر - زمان ماشین: A2: A14.
  3. آرگومان "آرایه 2" - دومین محدوده مقادیر - هزینه تعمیرات: B2:B14. روی OK کلیک کنید.

برای تعیین نوع اتصال، باید به عدد مطلق ضریب نگاه کنید (هر زمینه فعالیت مقیاس خاص خود را دارد).

برای تجزیه و تحلیل همبستگی چندین پارامتر (بیش از 2)، استفاده از "تحلیل داده ها" (افزونه "بسته تجزیه و تحلیل") راحت تر است. در لیست، شما باید یک همبستگی را انتخاب کنید و یک آرایه را تعیین کنید. همه.

ضرایب حاصل در ماتریس همبستگی نمایش داده می شود. شبیه این یکی:

تحلیل همبستگی-رگرسیون

در عمل، این دو تکنیک اغلب با هم استفاده می شوند.

مثال:


اکنون داده های تحلیل رگرسیون قابل مشاهده است.

1. برای اولین بار اصطلاح "رگرسیون" توسط بنیانگذار بیومتریک F. Galton (قرن XIX) معرفی شد که ایده های او توسط پیرسون K. Pearson توسعه یافت.

تجزیه و تحلیل رگرسیون- روشی برای پردازش داده های آماری که به شما امکان می دهد رابطه بین یک یا چند علت (علائم عاملی) و پیامد (علامت مؤثر) را اندازه گیری کنید.

امضاء کردن- این ویژگی اصلی متمایز، ویژگی پدیده یا فرآیند مورد مطالعه است.

علامت مؤثر -شاخص بررسی شده

علامت فاکتور- شاخصی که بر ارزش ویژگی مؤثر تأثیر می گذارد.

هدف از تحلیل رگرسیون ارزیابی وابستگی عملکردی مقدار متوسط ​​ویژگی مؤثر است ( در) از فاکتوریل ( x 1، x 2، ...، x n) بیان می شود معادلات رگرسیون

در= f(x 1، x 2، ...، x n). (6.1)

دو نوع رگرسیون وجود دارد: زوجی و چندگانه.

رگرسیون زوجی (ساده).- معادله فرم:

در= f(ایکس). (6.2)

ویژگی حاصل در رگرسیون زوجی به عنوان تابعی از یک آرگومان در نظر گرفته می شود، یعنی. یک عامل

تجزیه و تحلیل رگرسیون شامل مراحل زیر است:

تعریف نوع تابع؛

تعیین ضرایب رگرسیون;

محاسبه مقادیر نظری ویژگی موثر؛

بررسی اهمیت آماری ضرایب رگرسیون.

بررسی اهمیت آماری معادله رگرسیون.

رگرسیون چندگانه- معادله فرم:

در= f(x 1، x 2، ...، x n). (6.3)

ویژگی حاصل به عنوان تابعی از چندین آرگومان در نظر گرفته می شود، به عنوان مثال. بسیاری از عوامل

2. برای تعیین صحیح نوع تابع، باید جهت اتصال را بر اساس داده های نظری پیدا کرد.

با توجه به جهت اتصال، رگرسیون به موارد زیر تقسیم می شود:

· رگرسیون مستقیم،به وجود می آید در شرایطی که با افزایش یا کاهش در مقدار مستقل " ایکس"مقادیر کمیت وابسته " در"همچنین بر این اساس افزایش یا کاهش یابد.

· رگرسیون معکوس،در شرایطی بوجود می آید که با افزایش یا کاهش مقدار مستقل "ایکس"ارزش وابسته " در"بر این اساس کاهش یا افزایش می یابد.

برای توصیف روابط، از انواع معادلات رگرسیون زوجی زیر استفاده می شود:

· y=a+bxخطی؛

· y=e محور + b – نمایی;

· y=a+b/x – هذلولی.

· y=a+b 1 x+b 2 x 2 – سهمی;

· y=ab x – نماییو غیره.

جایی که الف، ب 1، ب 2- ضرایب (پارامترهای) معادله. در- علامت مؤثر؛ ایکس- علامت فاکتور

3. ساخت معادله رگرسیون به تخمین ضرایب (پارامترهای) آن کاهش می یابد، برای این کار از آنها استفاده می کنند. روش حداقل مربع(MNK).

روش حداقل مربعات به شما امکان می دهد چنین برآوردهایی از پارامترها را به دست آورید که در آن مجموع انحرافات مجذور مقادیر واقعی ویژگی مؤثر است. در"از نظری" y x» حداقل است، یعنی

گزینه های معادله رگرسیون y=a+bxبا استفاده از روش حداقل مربعات با استفاده از فرمول های زیر تخمین زده می شود:

جایی که آ -ضریب آزاد، ب- ضریب رگرسیون، نشان می دهد که علامت حاصل چقدر تغییر خواهد کرد y» هنگام تغییر ویژگی فاکتور « ایکس» در واحد اندازه گیری

4. برای سنجش معنی داری آماری ضرایب رگرسیون از آزمون t استیودنت استفاده می شود.

طرحی برای بررسی اهمیت ضرایب رگرسیون:

1) H 0: a=0, ب= 0 - ضرایب رگرسیون تفاوت معنی داری با صفر دارند.

H 1: a≠ 0, b≠ 0 - ضرایب رگرسیون تفاوت معنی داری با صفر دارند.

2) آر 0.05 = - سطح معنی داری.

جایی که MB,m a- خطاهای تصادفی:

; . (6.7)

4) T جدول(R; f),

جایی که f=n-k- 1 - تعداد درجات آزادی (مقدار جدول)، n- تعداد مشاهدات، ک ایکس".

5) اگر، پس منحرف می شود، یعنی. ضریب معنی دار

اگر، پس پذیرفته می شود، یعنی. ضریب ناچیز است

5. برای بررسی صحت معادله رگرسیون ساخته شده از معیار فیشر استفاده می شود.

طرحی برای بررسی اهمیت معادله رگرسیون:

1) H 0:معادله رگرسیون معنی دار نیست.

H 1:معادله رگرسیون معنادار است.

2) آر 0.05 = - سطح معنی داری.

3) , (6.8)

تعداد مشاهدات کجاست ک- تعداد پارامترهای معادله با متغیرها " ایکس"; در- ارزش واقعی ویژگی موثر؛ y x- ارزش نظری ویژگی مؤثر؛ - ضریب همبستگی جفت.

4) میز اف(R; f 1 ; f2),

جایی که f 1 \u003d k, f 2 \u003d n-k-1-تعداد درجات آزادی (مقادیر جدول).

5) اگر F calc > F جدول، سپس معادله رگرسیون به درستی انتخاب شده و در عمل قابل اعمال است.

اگر یک F calc ، سپس معادله رگرسیون اشتباه انتخاب شده است.

6. شاخص اصلی منعکس کننده معیار کیفیت تحلیل رگرسیون است ضریب تعیین (R 2).

ضریب تعییننشان می دهد که چه نسبتی از متغیر وابسته " در» در تجزیه و تحلیل در نظر گرفته می شود و ناشی از تأثیر عوامل موجود در تجزیه و تحلیل است.

ضریب تعیین (R2)مقادیر را در محدوده می گیرد. معادله رگرسیون کیفی است اگر R2 ≥0,8.

ضریب تعیین برابر است با مجذور ضریب همبستگی، یعنی.

مثال 6.1.بر اساس داده های زیر، معادله رگرسیون را بسازید و تحلیل کنید:

راه حل.

1) ضریب همبستگی را محاسبه کنید: . رابطه بین نشانه ها مستقیم و متوسط ​​است.

2) یک معادله رگرسیون خطی زوجی بسازید.

2.1) یک جدول محاسبه درست کنید.

ایکس در هو x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
مجموع 159,45 558,55
میانگین 77519,6 22,78 79,79 2990,6

,

معادله رگرسیون خطی زوجی: y x \u003d 25.17 + 0.087x.

3) مقادیر نظری را بیابید y x» با جایگزینی مقادیر واقعی در معادله رگرسیون « ایکس».

4) نمودارهای واقعی " در"و ارزش های نظری " y x» ویژگی مؤثر (شکل 6.1): r xy = 0.47) و تعداد کمی مشاهدات.

7) ضریب تعیین را محاسبه کنید: R2=(0.47) 2 = 0.22. معادله ساخته شده از کیفیت پایینی برخوردار است.

زیرا محاسبات در طول تجزیه و تحلیل رگرسیون بسیار حجیم است، توصیه می شود از برنامه های ویژه ("Statistica 10"، SPSS و غیره استفاده کنید.

شکل 6.2 جدولی را نشان می دهد که نتایج آنالیز رگرسیون با استفاده از برنامه "Statistica 10" انجام شده است.

شکل 6.2. نتایج تحلیل رگرسیون با استفاده از برنامه "Statistica 10" انجام شد.

5. ادبیات:

1. Gmurman V.E. نظریه احتمال و آمار ریاضی: Proc. کتابچه راهنمای دانشگاه ها / V.E. گمورمن. - م.: دبیرستان، 2003. - 479 ص.

2. کویچوبیکوف بی.کی. آمار زیستی: کتاب درسی. - آلماتی: اورو، 2014. - 154 ص.

3. Lobotskaya N.L. ریاضیات عالی / N.L. لوبوتسکایا، یو.و. موروزوف، A.A. دونائف. - مینسک: مدرسه عالی، 1987. - 319 ص.

4. Medic V.A.، Tokmachev M.S.، Fishman B.B. آمار در پزشکی و زیست شناسی: راهنما. در 2 جلد / ویرایش. یو.م. کوماروف. T. 1. آمار نظری. - م.: پزشکی، 2000. - 412 ص.

5. کاربرد روش های تحلیل آماری برای مطالعه بهداشت عمومی و مراقبت های بهداشتی: کتاب درسی / ویرایش. کوچرنکو V.Z. - ویرایش چهارم، بازبینی شده. و اضافی - M.: GEOTAR - رسانه، 2011. - 256 ص.