Регресивний аналіз. Регресійний аналіз

Регресійний аналіз досліджує залежність певної величини від іншої або декількох інших величин. Регресійний аналіз застосовується переважно у середньостроковому прогнозуванні, а також у довгостроковому прогнозуванні. Середньо- та довгостроковий періоди дають можливість встановлення змін у середовищі бізнесу та обліку впливів цих змін на досліджуваний показник.

Для здійснення регресійного аналізу необхідно:

    наявність щорічних даних за досліджуваними показниками,

    наявність одноразових прогнозів, тобто. таких прогнозів, які не одужують з надходженням нових даних.

Регресійний аналіз зазвичай проводиться для об'єктів, що мають складну, багатофакторну природу, таких як обсяг інвестицій, прибуток, обсяги продажів та ін.

При нормативному методі прогнозуваннявизначаються шляхи та терміни досягнення можливих станів явища, що приймаються як ціль. Йдеться про прогнозування досягнення бажаних станів явища на основі заздалегідь заданих норм, ідеалів, стимулів та цілей. Такий прогноз відповідає питанням: якими шляхами можна досягти бажаного? Нормативний метод найчастіше застосовується для програмних чи цільових прогнозів. Використовуються як кількісний вираз нормативу, і певна шкала можливостей оціночної функції.

У разі використання кількісного виразу, наприклад фізіологічних та раціональних норм споживання окремих продовольчих та непродовольчих товарів, розроблених фахівцями для різних груп населення, можна визначити рівень споживання цих товарів на роки, що передують досягненню зазначеної норми. Такі розрахунки називають інтерполяцією. Інтерполяція - це спосіб обчислення показників, які бракують динамічному ряду явища, на основі встановленого взаємозв'язку. Приймаючи фактичне значення показника і його нормативів за крайні члени динамічного ряду, можна визначити величини значень всередині цього ряду. Тому інтерполяцію вважають за нормативний метод. Раніше наведена формула (4), яка використовується в екстраполяції, може застосовуватися в інтерполяції, де у п буде характеризувати вже не фактичні дані, а норматив показника.

У разі використання в нормативному методі шкали (поля, спектра) можливостей оціночної функції, тобто функції розподілу переваги, вказують приблизно таку градацію: небажано - менш бажано - більш бажано - найбільш бажано - оптимально (норматив).

Нормативний метод прогнозування допомагає виробити рекомендації щодо підвищення рівня об'єктивності, отже, ефективності рішень.

Моделювання, мабуть, найскладніший метод прогнозування Математичне моделювання означає опис економічного явища за допомогою математичних формул, рівнянь та нерівностей. Математичний апарат повинен досить точно відображати прогнозне тло, хоча повністю відобразити всю глибину і складність прогнозованого об'єкта досить важко. Термін "модель" утворений від латинського слова modelus, що означає "захід". Тому моделювання правильніше було вважати не методом прогнозування, а методом вивчення аналогічного явища на моделі.

У широкому значенні моделями називаються заступники об'єкта дослідження, що знаходяться з ним у такій схожості, що дозволяє отримати нове знання про об'єкт. Модель слід розглядати як математичний опис об'єкта. У цьому випадку модель визначається як явище (предмет, установка), яке знаходиться в певній відповідності до об'єкта, що вивчається, і може його замінювати в процесі дослідження, представляючи інформацію про об'єкт.

При більш вузькому розумінні моделі вона розглядається як об'єкт прогнозування, її дослідження дозволяє отримати інформацію про можливі стани об'єкта в майбутньому та шляхи досягнення цих станів. У цьому випадку метою прогнозної моделі є отримання інформації не про об'єкт взагалі, а лише про його майбутні стани. Тоді при побудові моделі буває неможливо провести пряму перевірку її відповідності об'єкту, так як модель є лише його майбутнім станом, а сам об'єкт в даний час може бути відсутнім або мати інше існування.

Моделі можуть бути матеріальними та ідеальними.

В економіці використовуються ідеальні моделі. Найбільш досконалою ідеальною моделлю кількісного опису соціально-економічного (економічного) явища є математична модель, яка використовує числа, формули, рівняння, алгоритми чи графічне уявлення. За допомогою економічних моделей визначають:

    залежність між різними економічними показниками;

    різного роду обмеження, що накладаються на показники;

    критерії, що дозволяють оптимізувати процес.

Змістовний опис об'єкта може бути представлений у вигляді його формалізованої схеми, яка вказує, які параметри та вихідну інформацію потрібно зібрати, щоб обчислити шукані величини. p align="justify"> Математична модель на відміну від формалізованої схеми містить конкретні числові дані, що характеризують об'єкт Розробка математичної моделі багато в чому залежить від уявлення прогнозиста про сутність модельованого процесу. На основі своїх уявлень він висуває робочу гіпотезу, за допомогою якої створюється аналітичний запис моделі у вигляді формул, рівнянь та нерівностей. Через війну розв'язання системи рівнянь отримують конкретні параметри функції, якими описується зміна змінних величин у часі.

Порядок і послідовність роботи як елемент організації прогнозування визначається залежно від методу прогнозування, що застосовується. Зазвичай ця робота виконується у кілька етапів.

1-й етап - прогнозна ретроспекція, тобто встановлення об'єкта прогнозування та прогнозного фону. Робота на першому етапі виконується в такій послідовності:

    формування опису об'єкта в минулому, що включає передпрогнозний аналіз об'єкта, оцінку його параметрів, їх значущості та взаємних зв'язків,

    визначення та оцінка джерел інформації, порядку та організації роботи з ними, збирання та розміщення ретроспективної інформації;

    постановка завдань дослідження.

Виконуючи завдання прогнозної ретроспекції, прогнозисти досліджують історію розвитку об'єкта та прогнозного фону з метою отримання їх систематизованого опису.

2-й етап - прогнозний діагноз, у ході якого досліджується систематизований опис об'єкта прогнозування та прогнозного фону з метою виявлення тенденцій їх розвитку та вибору моделей та методів прогнозування. Робота виконується у такій послідовності:

    розробка моделі об'єкта прогнозу, у тому числі формалізований опис об'єкта; перевірка ступеня адекватності моделі об'єкту;

    вибір методів прогнозування (основного та допоміжних), розробка алгоритму та робочих програм.

3-й етап - протекція, т. е. процес широкої розробки прогнозу, зокрема: 1) розрахунок прогнозованих параметрів заданий період попередження; 2) синтез окремих складових прогнозу.

4-й етап - оцінка прогнозу, зокрема його верифікація, т. е. визначення ступеня достовірності, точності та обгрунтованості.

У ході проспектії та оцінки на підставі попередніх етапів вирішуються завдання прогнозу та його оцінка.

Зазначена етапність є зразковою і залежить від основного методу прогнозування.

Результати прогнозу оформляються у вигляді довідки, доповіді чи іншого матеріалу та надаються замовнику.

У прогнозуванні може бути зазначена величина відхилення прогнозу від дійсного стану об'єкта, яка називається помилкою прогнозу, яка розраховується за формулою:

;
;
. (9.3)

Джерела помилок у прогнозуванні

Основними джерелами можуть бути:

1. Просте перенесення (екстраполяція) даних із минулого на майбутнє (наприклад, відсутність у фірми інших варіантів прогнозу, крім 10% зростання продажів).

2. Неможливість точно визначити ймовірність події та її впливу на досліджуваний об'єкт.

3. Непередбачені труднощі (руйнівні події), які впливають здійснення плану, наприклад, раптове звільнення начальника відділу збуту.

В цілому точність прогнозування підвищується в міру накопичення досвіду прогнозування та відпрацювання його методів.

Регресійний аналіз

Регресійний (лінійний) аналіз- Статистичний метод дослідження впливу однієї або декількох незалежних змінних на залежну змінну. Незалежні змінні інакше називають регресорами чи предикторами, а залежні змінні – критеріальними. Термінологія залежнихі незалежнихзмінних відбиває лише математичну залежність змінних ( див. Помилкова кореляція), а чи не причинно-наслідкові відносини.

Цілі регресійного аналізу

  1. Визначення ступеня детермінованості варіації критеріальною (залежною) змінною предикторами (незалежними змінними)
  2. Передбачення значення залежної змінної за допомогою незалежної(-их)
  3. Визначення внеску окремих незалежних змінних у варіацію залежної

Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку є передумовою для застосування аналізу.

Математичне визначення регресії

Строго регресійну залежність можна визначити в такий спосіб. Нехай - випадкові величини із заданим спільним розподілом ймовірностей. Якщо для кожного набору значень визначено умовне математичне очікування

(Рівняння регресії в загальному вигляді),

то функція називається регресієювеличини Y за величинами , та її графік - лінією регресіїпо , або рівнянням регресії.

Залежність від проявляється у зміні середніх значень Y при зміні. Хоча за кожного фіксованому наборі значень величина залишається випадковою величиною з певним розсіюванням.

Для з'ясування питання, наскільки точно регресійний аналіз оцінює зміну Y при зміні використовується середня величина дисперсії Y при різних наборах значень (фактично йдеться про міру розсіювання залежної змінної навколо лінії регресії).

Метод найменших квадратів (розрахунок коефіцієнтів)

На практиці лінія регресії найчастіше шукається у вигляді лінійної функції(лінійна регресія), що найкраще наближає шукану криву. Робиться це за допомогою методу найменших квадратів, коли мінімізується сума квадратів відхилень реально спостерігаються від їх оцінок (маються на увазі оцінки за допомогою прямої лінії, що претендує на те, щоб представляти регресійну залежність, що шукається):

(M – обсяг вибірки). Цей підхід заснований на тому відомому факті, що сума, що фігурує в наведеному вираженні, приймає мінімальне значення саме для того випадку, коли .

Для вирішення задачі регресійного аналізу методом найменших квадратів запроваджується поняття функції нев'язки:

Умова мінімуму функції нев'язки:

Отримана система є системою лінійних рівняньз невідомими

Якщо уявити вільні члени лівої частини рівнянь матрицею

а коефіцієнти при невідомих у правій частині матрицею

то отримуємо матричне рівняння: , яке легко вирішується методом Гаусса. Отримана матриця буде матрицею, що містить коефіцієнти рівняння лінії регресії:

Для отримання кращих оцінок необхідне виконання передумов МНК (умов Гаусса-Маркова). В англомовній літературі такі оцінки називаються BLUE (Best Linear Unbiased Estimators) – найкращі лінійні незміщені оцінки.

Інтерпретація параметрів регресії

Параметри є частковими коефіцієнтами кореляції; інтерпретується як частка дисперсії Y, пояснена , при закріпленні впливу інших предикторов, тобто вимірює індивідуальний внесок у пояснення Y. У разі корелюючих предикторов виникає проблема невизначеності в оцінках, які стають залежними від порядку включення предикторів у модель. У таких випадках необхідне застосування методів аналізу кореляційного та покрокового регресійного аналізу.

Говорячи про нелінійні моделі регресійного аналізу, важливо звертати увагу на те, чи йдеться про нелінійність за незалежними змінними (з формальної точки зору легко зводиться до лінійної регресії), або про нелінійність за параметрами, що оцінюються (що викликає серйозні обчислювальні труднощі). При нелінійності першого виду з змістовної точки зору важливо виділяти появу в моделі членів виду, що свідчить про наявність взаємодій між ознаками, і т. д (див. Мультиколлінеарність).

Див. також

Посилання

  • www.kgafk.ru - Лекція на тему «Регресійний аналіз»
  • www.basegroup.ru - методи відбору змінних до регресійних моделей

Література

  • Норман Дрейпер, Гаррі СмітПрикладний регресійний аналіз. Множинна регресія= Applied Regression Analysis. - 3-тє вид. – М.: «Діалектика», 2007. – С. 912. – ISBN 0-471-17082-8
  • Стійкі методи оцінювання статистичних моделей: Монографія. - К.: ВП «Санспарель», 2005. - С. 504. - ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152
  • Радченко Станіслав Григорович,Методологія регресійного аналізу: Монографія. – К.: "Корнійчук", 2011. – С. 376. – ISBN 978-966-7599-72-0

Wikimedia Foundation. 2010 .

Що таке регресія?

Розглянемо дві безперервні змінні x = (x 1, x 2, .., x n), y = (y 1, y 2, ..., y n).

Розмістимо крапки на двовимірному графіку розсіювання та скажемо, що ми маємо лінійне співвідношенняякщо дані апроксимуються прямою лінією.

Якщо ми вважаємо, що yзалежить від x, причому зміни в yвикликаються саме змінами в x, ми можемо визначити лінію регресії (регресія yна x), яка найкраще описує прямолінійне співвідношення між цими двома змінними.

Статистичне використання слова " регресія " походить від явища, відомого як регресія до середнього, приписуваного серу Френсісу Гальтону (1889).

Він показав, що хоча вищі батьки мають тенденцію мати високих синів, середнє зростання синів менше, ніж у їхніх високих батьків. Середнє зростання синів " регресував " і " рухався назад " до середнього зростання всіх батьків у населенні. Таким чином, у середньому високі батьки мають нижчих (але все-таки високих) синів, а низькі батьки мають синів вищі (але все-таки досить низькі).

Лінія регресії

Математичне рівняння, яке оцінює лінію простої (парної) лінійної регресії:

xназивається незалежною змінною чи предиктором.

Y- Залежна змінна або змінна відгуку. Це значення, яке ми очікуємо для y(у середньому), якщо ми знаємо величину x, тобто. це «передбачене значення y»

  • a- вільний член (перетин) лінії оцінки; це значення Y, коли x=0(Рис.1).
  • b- Кутовий коефіцієнт або градієнт оціненої лінії; вона є величиною, на яку Yзбільшується в середньому, якщо ми збільшуємо xодну одиницю.
  • aі bназивають коефіцієнтами регресії оціненої лінії, хоча цей термін часто використовують тільки для b.

Парну лінійну регресію можна розширити, включивши до неї більше однієї незалежної змінної; у цьому випадку вона відома як множинна регресія.

Рис.1. Лінія лінійної регресії, що показує перетин a і кутовий коефіцієнт b (величину зростання Y при збільшенні x на одну одиницю)

Метод найменших квадратів

Ми виконуємо регресійний аналіз, використовуючи вибірку спостережень, де aі b- вибіркові оцінки істинних (генеральних) параметрів, і β, які визначають лінію лінійної регресії в популяції (генеральної сукупності).

Найбільш простим методом визначення коефіцієнтів aі bє метод найменших квадратів(МНК).

Підганяння оцінюється, розглядаючи залишки (вертикальна відстань кожної точки від лінії, наприклад, залишок = спостережуваному y- Передбачений y, Рис. 2).

Лінію кращого припасування вибирають так, щоб сума квадратів залишків була мінімальною.

Рис. 2. Лінія лінійної регресії із зображеними залишками (вертикальні пунктирні лінії) кожної точки.

Припущення лінійної регресії

Отже, для кожної величини, що спостерігається, залишок дорівнює різниці і відповідного передбаченого Кожен залишок може бути позитивним або негативним.

Можна використовувати залишки для перевірки таких припущень, що лежать в основі лінійної регресії:

  • Залишки нормально розподілені з нульовим середнім значенням;

Якщо припущення лінійності, нормальності та/або постійної дисперсії сумнівні, ми можемо перетворити або розрахувати нову лінію регресії, для якої ці припущення задовольняються (наприклад, використовувати логарифмічне перетворення або ін.).

Аномальні значення (викиди) та точки впливу

"Впливове" спостереження, якщо воно опущене, змінює одну або більше оцінок параметрів моделі (тобто кутовий коефіцієнт або вільний член).

Викид (спостереження, що суперечить більшості значень у наборі даних) може бути "впливовим" спостереженням і може добре виявлятися візуально, під час огляду двовимірної діаграми розсіювання або графіка залишків.

І для викидів, і для "впливових" спостережень (крапок) використовують моделі як з їх включенням, так і без них звертають увагу на зміну оцінки (коефіцієнтів регресії).

При проведенні аналізу не варто відкидати викиди або точки впливу автоматично, оскільки звичайне ігнорування може вплинути на отримані результати. Завжди вивчайте причини появи цих викидів та аналізуйте їх.

Гіпотеза лінійної регресії

При побудові лінійної регресії перевіряється нульова гіпотеза про те, що генеральний кутовий коефіцієнт лінії регресії дорівнює нулю.

Якщо кутовий коефіцієнт лінії дорівнює нулю, між і немає лінійного співвідношення: зміна не впливає на

Для тестування нульової гіпотези про те, що справжній кутовий коефіцієнт дорівнює нулю, можна скористатися наступним алгоритмом:

Обчислити статистику критерію, рівну відношенню , яка підпорядковується розподілу зі ступенями свободи, де стандартна помилка коефіцієнта


,

- Оцінка дисперсії залишків.

Зазвичай, якщо досягнутий рівень значущості нульова гіпотеза відхиляється.


де процентна точка розподілу зі ступенями свободи що дає можливість двостороннього критерію

Це той інтервал, який містить генеральний кутовий коефіцієнт із ймовірністю 95%.

Для великих вибірок, скажімо, ми можемо апроксимувати значенням 1,96 (тобто статистика критерію прагнутиме нормального розподілу)

Оцінка якості лінійної регресії: коефіцієнт детермінації R 2

Через лінійне співвідношення і ми очікуємо, що змінюється, у міру того, як змінюється , і називаємо це варіацією, яка обумовлена ​​чи пояснюється регресією. Залишкова варіація має бути якнайменше.

Якщо це, то більшість варіації пояснюватиметься регресією, а точки лежатимуть близько до лінії регресії, тобто. лінія добре відповідає даним.

Частку загальної дисперсії , яка пояснюється регресією називають коефіцієнтом детермінаціїзазвичай виражають через відсоткове співвідношення і позначають R 2(У парній лінійній регресії це величина r 2, квадрат коефіцієнта кореляції), дозволяє суб'єктивно оцінити якість рівняння регресії.

Різниця є відсотком дисперсії який не можна пояснити регресією.

Немає формального тесту для оцінки ми змушені покластися на суб'єктивне судження, щоб визначити якість припасування лінії регресії.

Застосування лінії регресії для прогнозу

Можна застосовувати регресійну лінію для прогнозування значення за межею спостерігається діапазону (ніколи не екстраполюйте поза цими межами).

Ми передбачаємо середню величину для спостережуваних, які мають певне значення шляхом встановлення цього значення в рівняння лінії регресії.

Отже, якщо прогнозуємо як Використовуємо цю передбачену величину та її стандартну помилку, щоб оцінити довірчий інтервал для середньої величини в популяції.

Повторення цієї процедури для різних величин дозволяє побудувати довірчі межі цієї лінії. Це смуга або область, яка містить справжню лінію, наприклад, з 95% вірогідністю.

Прості регресійні плани

Прості регресійні плани містять один безперервний предиктор. Якщо існує 3 спостереження зі значеннями предиктора P, наприклад, 7, 4 і 9, а план включає ефект першого порядку P, то матриця плану X матиме вигляд

а регресійне рівняння з використанням P для X1 виглядає як

Y = b0 + b1 P

Якщо простий регресійний план містить ефект вищого порядку для P , наприклад, квадратичний ефект, то значення в стовпці X1 в матриці плану будуть зведені в другий ступінь:

а рівняння набуде вигляду

Y = b0 + b1 P2

Сигма -обмежені та надпараметризовані методи кодування не застосовуються по відношенню до простих регресійних планів та інших планів, що містять тільки безперервні предиктори (оскільки просто не існує категоріальних предикторов). Незалежно від вибраного методу кодування, значення безперервних змінних збільшуються у відповідному ступені та використовуються як значення для змінних X . При цьому перекодування не виконується. Крім того, при описі регресійних планів можна опустити розгляд матриці плану X, а працювати тільки з регресійним рівнянням.

Приклад: простий регресійний аналіз

Цей приклад використовує дані, подані у таблиці:

Рис. 3. Таблиця вихідних даних.

Дані складені на основі порівняння переписів 1960 та 1970 у довільно обраних 30 округах. Назви округів представлені як імен спостережень. Інформація щодо кожної змінної представлена ​​нижче:

Рис. 4. Таблиця специфікацій змінних.

Завдання дослідження

Для цього прикладу будуть аналізуватися кореляція рівня бідності та ступінь, що передбачає відсоток сімей, які перебувають за межею бідності. Отже ми трактуватимемо змінну 3 (Pt_Poor ) як залежну змінну.

Можна висунути гіпотезу: зміна чисельності населення та відсоток сімей, які перебувають за межею бідності, пов'язані між собою. Здається розумним очікувати, що бідність веде до відтоку населення, отже, тут буде негативна кореляція між відсотком людей за межею бідності та зміною чисельності населення. Отже ми трактуватимемо змінну 1 (Pop_Chng ) як змінну-предиктор.

Перегляд результатів

Коефіцієнти регресії

Рис. 5. Коефіцієнти регресії Pt_Poor на Pop_Chng.

На перетині рядка Pop_Chng та стовпця Парам. не стандартизований коефіцієнт для регресії Pt_Poor на Pop_Chng дорівнює -0.40374. Це означає, що для кожного зменшення чисельності населення на одиницю є збільшення рівня бідності на.40374. Верхній та нижній (за замовчуванням) 95% довірчі межі для цього не стандартизованого коефіцієнта не включають нуль, так що коефіцієнт регресії значимий на рівні p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Розподіл змінних

Коефіцієнти кореляції можуть стати суттєво завищені або занижені, якщо в даних є великі викиди. Вивчимо розподіл залежної змінної Pt_Poor по округах. Для цього побудуємо гістограму змінної Pt_Poor.

Рис. 6. Гістограма змінної Pt_Poor.

Як можна помітити, розподіл цієї змінної помітно відрізняється від нормального розподілу. Тим не менш, хоча навіть два округи (два праві стовпці) мають високий відсоток сімей, які знаходяться за межею бідності, ніж очікувалося у разі нормального розподілу, здається, що вони знаходяться "всередині діапазону."

Рис. 7. Гістограма змінної Pt_Poor.

Це судження певною мірою суб'єктивне. Емпіричне правило свідчить, що викиди необхідно враховувати, якщо спостереження (або спостереження) не потрапляють до інтервалу (середнє ± 3 помножене на стандартне відхилення). У цьому випадку варто повторити аналіз з викидами і без, щоб переконатися, що вони не мають серйозного ефекту на кореляцію між членами сукупності.

Діаграма розсіювання

Якщо одна з гіпотез апріорі про взаємозв'язок між заданими змінними, її корисно перевірити на графіку відповідної діаграми розсіювання.

Рис. 8. Діаграма розсіювання.

Діаграма розсіювання показує явну негативну кореляцію (-.65) між двома змінними. На ній також показаний 95% довірчий інтервал для лінії регресії, тобто з 95% ймовірністю лінія регресії проходить між двома пунктирними кривими.

Критерії значимості

Рис. 9. Таблиця, що містить критерії значущості.

Критерій коефіцієнта регресії Pop_Chng підтверджує, що Pop_Chng сильно пов'язані з Pt_Poor , p<.001 .

Підсумок

У цьому прикладі було показано, як проаналізувати простий регресійний план. Була також представлена ​​інтерпретація нестандартизованих та стандартизованих коефіцієнтів регресії. Обговорено важливість вивчення розподілу відгуків залежною змінною, продемонстровано техніку визначення напрямку та сили взаємозв'язку між предиктором та залежною змінною.

Регресійний та кореляційний аналіз – статистичні методи дослідження. Це найпоширеніші способи показати залежність будь-якого параметра від однієї чи кількох незалежних змінних.

Нижче на конкретних практичних прикладах розглянемо ці два дуже популярні серед економістів аналізу. А також наведемо приклад отримання результатів при їх об'єднанні.

Регресійний аналіз у Excel

Показує вплив одних значень (самостійних, незалежних) на залежну змінну. Наприклад, як залежить кількість економічно активного населення кількості підприємств, величини зарплати та інших. властивостей. Або як впливають іноземні інвестиції, ціни на енергоресурси та ін на рівень ВВП.

Результат аналізу дає змогу виділяти пріоритети. І ґрунтуючись на головних чинниках, прогнозувати, планувати розвиток пріоритетних напрямів, приймати управлінські рішення.

Регресія буває:

  • лінійної (у = а + bx);
  • параболічній (y = a + bx + cx 2);
  • експоненційною (y = a * exp (bx));
  • статечної (y = a * x ^ b);
  • гіперболічної (y = b/x + a);
  • логарифмічної (y = b * 1n(x) + a);
  • показовою (y = a * b^x).

Розглянемо з прикладу побудова регресійної моделі в Excel і інтерпретацію результатів. Візьмемо лінійний тип регресії.

Завдання. На 6 підприємствах була проаналізована середньомісячна заробітна плата і кількість співробітників, що звільнилися. Необхідно визначити залежність кількості співробітників, що звільнилися, від середньої зарплати.

Модель лінійної регресії має такий вигляд:

У = а 0 + а 1 х 1 + ... + а до х к.

Де а – коефіцієнти регресії, х – що впливають змінні, до – число чинників.

У нашому прикладі як У виступає показник працівників, що звільнилися. фактор, що впливає - заробітна плата (х).

У Excel існують інтегровані функції, з допомогою яких можна розрахувати параметри моделі лінійної регресії. Але найшвидше це зробить надбудова «Пакет аналізу».

Активуємо потужний аналітичний інструмент:

Після активації надбудова буде доступна на вкладці "Дані".

Тепер візьмемося безпосередньо регресійним аналізом.



Насамперед звертаємо увагу на R-квадрат та коефіцієнти.

R-квадрат – коефіцієнт детермінації. У прикладі – 0,755, чи 75,5%. Це означає, що розрахункові параметри моделі на 75,5% пояснюють залежність між параметрами, що вивчаються. Що коефіцієнт детермінації, то якісніша модель. Добре – понад 0,8. Погано – менше 0,5 (такий аналіз навряд можна вважати резонним). У нашому прикладі - "непогано".

Коефіцієнт 64,1428 показує, яким буде Y, якщо всі змінні в моделі, що розглядається, будуть рівні 0. Тобто на значення аналізованого параметра впливають і інші фактори, не описані в моделі.

p align="justify"> Коефіцієнт -0,16285 показує вагомість змінної Х на Y. Тобто середньомісячна заробітна плата в межах даної моделі впливає на кількість звільнених з вагою -0,16285 (це невеликий ступінь впливу). Знак «-» вказує на негативний вплив: що більше зарплата, то менше звільнених. Що слушно.



Кореляційний аналіз у Excel

Кореляційний аналіз допомагає встановити, чи між показниками в одній або двох вибірках є зв'язок. Наприклад, між часом роботи верстата та вартістю ремонту, ціною техніки та тривалістю експлуатації, зростанням та вагою дітей тощо.

Якщо зв'язок є, то чи тягне збільшення одного параметра підвищення (позитивна кореляція) чи зменшення (негативна) іншого. Кореляційний аналіз допомагає аналітику визначитися, чи можна за величиною одного показника передбачити можливе значення іншого.

Коефіцієнт кореляції позначається r. Варіюється в межах від +1 до -1. Класифікація кореляційних зв'язків для різних сфер відрізнятиметься. При значенні коефіцієнта 0 лінійної залежності між вибірками немає.

Розглянемо, як з допомогою засобів Excel визначити коефіцієнт кореляції.

Для знаходження парних коефіцієнтів застосовується функція Корел.

Завдання: Визначити, чи є взаємозв'язок між часом роботи токарного верстата та вартістю його обслуговування.

Ставимо курсор у будь-яку комірку і натискаємо кнопку fx.

  1. У категорії «Статистичні» вибираємо функцію КОРРЕЛ.
  2. Аргумент "Масив 1" - перший діапазон значень - час роботи верстата: А2: А14.
  3. Аргумент "Масив 2" - другий діапазон значень - вартість ремонту: В2: В14. Тиснемо ОК.

Щоб визначити тип зв'язку, потрібно подивитися абсолютну кількість коефіцієнта (для кожної сфери діяльності є своя шкала).

Для кореляційного аналізу кількох параметрів (більше 2) зручніше застосовувати "Аналіз даних" (надбудова "Пакет аналізу"). У списку потрібно вибрати кореляцію та позначити масив. Всі.

Отримані коефіцієнти відобразяться у кореляційній матриці. На кшталт такий:

Кореляційно-регресійний аналіз

Насправді ці дві методики часто застосовуються разом.

Приклад:


Тепер стали помітні й дані регресійного аналізу.

1. Вперше термін «регресія» було введено засновником біометрії Ф. Гальтоном (XIX ст.), Ідеї якого були розвинені його послідовником К. Пірсоном.

Регресійний аналіз- метод статистичної обробки даних, що дозволяє виміряти зв'язок між однією чи кількома причинами (факторними ознаками) та наслідком (результативною ознакою).

Ознака- це основна відмінна риса, особливість досліджуваного явища чи процесу.

Результативна ознака -досліджуваний показник.

Факторна ознака- Показник, що впливає на значення результативної ознаки.

Метою регресійного аналізу є оцінка функціональної залежності середнього значення результативної ознаки ( у) від факторних ( х 1, х 2, …, х n), що виражається у вигляді рівняння регресії

у= f(x 1 , х 2 , …, х n). (6.1)

Розрізняють два види регресії: парну та множинну.

Парна (проста) регресія- Рівняння виду:

у= f(x). (6.2)

Результативний ознака при парної регресії сприймається як функція від однієї аргументу, тобто. однієї факторної ознаки.

Регресійний аналіз включає наступні етапи:

· Визначення типу функції;

· Визначення коефіцієнтів регресії;

· Розрахунок теоретичних значень результативної ознаки;

· Перевірку статистичної значущості коефіцієнтів регресії;

· Перевірку статистичної значущості рівняння регресії.

Множинна регресія- Рівняння виду:

у= f(x 1 , х 2 , …, х n). (6.3)

Результативний ознака сприймається як функція від кількох аргументів, тобто. багато факторних ознак.

2. Щоб правильно визначити тип функції потрібно виходячи з теоретичних даних знайти напрям зв'язку.

У напрямку зв'язку регресія поділяється на:

· пряму регресію,що виникає за умови, що зі збільшенням чи зменшенням незалежної величини « х»значення залежної величини « у»також відповідно збільшуються чи зменшуються;

· зворотну регресію,що виникає за умови, що із збільшенням чи зменшенням незалежної величини «х»залежна величина « у»відповідно зменшується чи збільшується.

Для характеристики зв'язків використовують такі види рівнянь парної регресії:

· у = a + bxлінійне;

· y = e ax + b - експонентне;

· y=a+b/x – гіперболічна;

· y=a+b 1 x+b 2 x 2 – параболічний;

· y=ab x – показовета ін.

де a, b 1 , b 2- Коефіцієнти (параметри) рівняння; у- результативна ознака; х- Факторна ознака.

3. Побудова рівняння регресії зводиться до оцінки його коефіцієнтів (параметрів), цього використовують метод найменших квадратів(МНК).

Метод найменших квадратів дозволяє отримати такі оцінки параметрів, за яких сума квадратів відхилень фактичних значень результативної ознаки у"від теоретичних" у хмінімальна, тобто

Параметри рівняння регресії у = a + bхза методом найменших квадратів оцінюються за допомогою формул:

де а –вільний коефіцієнт, b- Коефіцієнт регресії, показує на скільки зміниться результативний ознака « y» при зміні факторної ознаки « x» на одиницю виміру.

4. Для оцінки статистичної значущості коефіцієнтів регресії використовується критерій Стьюдента.

Схема перевірки значимості коефіцієнтів регресії:

1) Н 0: a=0, b=0 - коефіцієнти регресії незначно від нуля.

Н 1: a≠ 0, b≠ 0 - коефіцієнти регресії істотно від нуля.

2) р=0,05 – рівень значимості.

де m b,m a- Випадкові помилки:

; . (6.7)

4) t табл(р; f),

де f=n-k- 1 - число ступенів свободи (табличне значення), n- Число спостережень, k х».

5) Якщо , то відхиляється, тобто. коефіцієнт значимий.

Якщо , приймається, тобто. коефіцієнт незначний.

5. Для перевірки правильності побудованого рівняння регресії застосовується критерій Фішера.

Схема перевірки значущості рівняння регресії:

1) Н 0:рівняння регресії незначне.

Н 1:рівняння регресії значуще.

2) р=0,05 – рівень значимості.

3) , (6.8)

де - Число спостережень; k- Число параметрів у рівнянні при змінних « х»; у- Фактичне значення результативної ознаки; y x- теоретичне значення результативної ознаки; - Коефіцієнт парної кореляції.

4) F табл(р; f 1; f 2),

де f 1 =k, f 2 =n-k-1-число ступенів волі (табличні значення).

5) Якщо F розрахунок >F табл, то рівняння регресії підібрано правильно і можна застосовувати практично.

Якщо F розрах , то рівняння регресії підібрано неправильно.

6. Основним показником, що відображає міру якості регресійного аналізу, є коефіцієнт детермінації (R2).

Коефіцієнт детермінаціїпоказує, яка частка залежної змінної у»врахована в аналізі та викликана впливом на неї факторів, включених до аналізу.

Коефіцієнт детермінації (R 2)приймає значення у проміжку. Рівняння регресії є якісним, якщо R 2 ≥0,8.

Коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції, тобто.

Приклад 6.1.За наступними даними побудувати та проаналізувати рівняння регресії:

Рішення.

1) Обчислити коефіцієнт кореляції: . Зв'язок між ознаками прямий і помірний.

2) Побудувати рівняння парної лінійної регресії.

2.1) Скласти розрахункову таблицю.

Х у Ху х 2 у х (у-у х) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Сума 159,45 558,55
Середнє 77519,6 22,78 79,79 2990,6

,

Рівняння парної лінійної регресії: у х = 25,17 +0,087 х.

3) Знайти теоретичні значення « у xшляхом підстановки в рівняння регресії фактичних значень х».

4) Побудувати графіки фактичних у»та теоретичних значень « у х»результативної ознаки (рисунок 6.1): r xy = 0,47) і невеликою кількістю спостережень.

7) Обчислити коефіцієнт детермінації: R 2= (0,47) 2 = 0,22. Побудоване рівняння неякісне.

Т.к. обчислення під час проведення регресійного аналізу досить об'ємні, рекомендується користуватися спеціальними програмами («Statistica 10», SPSS та інших.).

На малюнку 6.2 наведено таблицю з результатами регресійного аналізу, проведеного за допомогою програми Statistica 10.

Малюнок 6.2. Результати регресійного аналізу, проведеного за допомогою програми Statistica 10

5. Література:

1. Гмурман В.Є. Теорія ймовірностей та математична статистика: Навч. посібник для вузів/В.Є. Гмурман. – М.: Вища школа, 2003. – 479 с.

2. Койчубеков Б.К. Біостатистика: Навчальний посібник. – Алмати: Еверо, 2014. – 154 с.

3. Лобоцька Н.Л. Вища математика. / Н.Л. Лобоцька, Ю.В. Морозов, А.А. Дунаєв. – Мн.: Вища школа, 1987. – 319 с.

4. Медик В.А., Токмачов М.С., Фішман Б.Б. Статистика в медицині та біології: Керівництво. У 2-х томах/За ред. Ю.М. Комарова. Т. 1. Теоретична статистика. – М.: Медицина, 2000. – 412 с.

5. Застосування методів статистичного аналізу вивчення громадського здоров'я та охорони здоров'я: навчальний посібник / ред. Кучеренко В.З. - 4-те вид., перероб. та дод. - М.: ГЕОТАР - Медіа, 2011. - 256 с.