Дані для регресії. Основи аналізу даних

У результаті вивчення матеріалу глави 4 учень повинен:

знати

  • основні поняття регресійного аналізу;
  • методи оцінювання та властивості оцінок методу найменших квадратів;
  • основні правила перевірки значущості та інтервального оцінювання рівняння та коефіцієнтів регресії;

вміти

  • знаходити за вибірковими даними оцінки параметрів двовимірної та множинної моделей рівнянь регресії, аналізувати їх властивості;
  • перевіряти значущість рівняння та коефіцієнтів регресії;
  • знаходити інтервальні оцінки значних властивостей;

володіти

  • навичками статистичного оцінювання параметрів двовимірного та множинного рівняння регресії; навичками перевірки адекватності регресійних моделей;
  • навичками отримання рівняння регресії з усіма значимими коефіцієнтами з допомогою аналітичного програмного забезпечення.

Основні поняття

Після проведення кореляційного аналізу, коли виявлено наявність статистично значущих зв'язків між змінними та оцінено рівень їх тісноти, зазвичай переходять до математичного опису виду залежностей з використанням методів регресійного аналізу. З цією метою підбирають клас функцій, що сполучає результативний показник. уі аргументи„ обчислюють оцінки параметрів рівняння зв'язку та аналізують точність отриманого рівняння.

Функція|, що описує залежність умовного середнього значення результативної ознаки увід заданих значень аргументів, називається рівнянням регресії.

Термін "регресія" (від лат. regression –відступ, повернення до чого-небудь) введений англійським психологом та антропологом Ф. Гальтоном і пов'язаний з одним з його перших прикладів, в якому Гальтон, обробляючи статистичні дані, пов'язані з питанням про спадковість зростання, знайшов, що якщо зростання батьків відхиляється від середнього зростання всіх батьків на хдюймів, то зростання їх синів відхиляється від середнього зросту всіх синів менше, ніж на xдюймів. Виявлена ​​тенденція була названа регресією до середнього стану.

Термін " регресія " широко використовується у статистичної літературі, хоча у часто він недостатньо точно характеризує статистичну залежність.

Для точного опису рівняння регресії необхідно знати умовний закон розподілу результативного показника у.У статистичній практиці таку інформацію отримати зазвичай не вдається, тому обмежуються пошуком відповідних апроксимацій для функції f(x u х 2,.... л*), заснованих на попередньому змістовному аналізі явища або вихідних статистичних даних.

В рамках окремих модельних припущень про тип розподілу вектора показників<) может быть получен общий вид рівняння регресіїде. Наприклад, припущення про те, що досліджувана сукупність показників підпорядковується ()-мірному нормальному закону розподілу з вектором математичних очікувань

Де, і коваріаційною матрицею,

де-дисперсія у,

Рівняння регресії (умовне математичне очікування) має вигляд

Таким чином, якщо багатовимірна випадкова величина ()

підпорядковується ()-мірному нормальному закону розподілу, то рівняння регресії результативного показника уза пояснювальними змінними має лінійний по хвигляд.

Однак у статистичній практиці зазвичай доводиться обмежуватися пошуком відповідних апроксимацій для невідомої істинної функції регресії. f(x),оскільки дослідник не має в своєму розпорядженні точного знання умовного закону розподілу ймовірностей аналізованого результативного показника упри заданих значеннях аргументів х.

Розглянемо взаємовідносини між істинною, модельною та оцінкою регресії. Нехай результативний показник упов'язаний з аргументом хспіввідношенням

де - випадкова величина, що має нормальний закон розподілу, причому. Справжня функція регресії у разі має вигляд

Припустимо, що точний вид істинного рівняння регресії нам невідомий, але ми маємо дев'ять спостережень над двовимірною випадковою величиною, пов'язаною співвідношеннями представленої на рис. 4.1.

Рис. 4.1. Взаємне розташування справжньоїf(x) та теоретичноїуимоделі регресії

Розташування крапок на рис. 4.1 дозволяє обмежитися класом лінійних залежностей виду

За допомогою методу найменших квадратів знайдемо оцінку рівняння регресії.

Для порівняння на рис. 4.1 наводяться графіки справжньої функції регресії та теоретичної апроксимуючої функції регресії. До останньої сходиться ймовірно оцінка рівняння регресії уипри необмеженому збільшенні обсягу вибірки ().

Оскільки ми замість справжньої функції регресії помилково вибрали лінійну функцію регресії, що, на жаль, досить часто зустрічається в практиці статистичних досліджень, то наші статистичні висновки та оцінки не володітимуть властивістю спроможності, тобто. так би ми не збільшували обсяг спостережень, наша вибіркова оцінка буде сходитися до справжньої функції регресії

Якщо ми правильно вибрали клас функцій регресії, то неточність в описі за допомогою уипояснювалася б лише обмеженістю вибірки і, отже, вона могла б бути зроблена скільки завгодно малою при

З метою найкращого відновлення за вихідними статистичними даними умовного значення результативного показника і невідомої функції регресії найчастіше використовують такі критерії адекватностіфункції втрат.

1. Метод найменших квадратів,згідно з яким мінімізується квадрат відхилення значень результативного показника, що спостерігаються, , від модельних значень , де коефіцієнти рівняння регресії;– значення вектора аргументів в "-М спостереженні:

Вирішується завдання пошуку оцінки вектора. Отримувана регресія називається середньої квадратичної.

2. Метод найменших модулів, згідно з яким мінімізується сума абсолютних відхилень значень, що спостерігаються результативного показника від модульних значень, тобто.

Отримувана регресія називається середньоабсолютної(Медіанної).

3. Метод мінімаксузводиться до мінімізації максимуму модуля відхилення значення результативного показника, що спостерігається. у,від модельного значення, тобто.

Регресія, що при цьому отримується, називається мінімаксний.

У практичних додатках часто зустрічаються завдання, у яких вивчається випадкова величина у,залежить від деякої множини змінних і невідомих параметрів. Розглянемо () як (k + 1)-мірну генеральну сукупність, з якої взято випадкову вибірку обсягом п,де () результат/-го спостереження. Потрібно за наслідками спостережень оцінити невідомі параметри. Описана задача відноситься до завдань регресійного аналізу.

Регресійним аналізом називають метод статистичного аналізу залежності випадкової величини увід змінних, що розглядаються у регресійному аналізі як невипадкові величини, незалежно від істинного закону розподілу

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика
Регресійна статистика
Множинний R 0,998364
R-квадрат 0,99673
Нормований R-квадрат 0,996321
Стандартна помилка 0,42405
Спостереження 10

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а - регресійну статистику.

Величина R-квадрат, звана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

Найчастіше значення R-квадрат перебуває між цими значеннями, званими екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадрату близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість побудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

Множинний R- Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний R дорівнює квадратного кореняз коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний R дорівнює коефіцієнту кореляції Пірсона. Справді, множинний R у нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії
Коефіцієнти Стандартна помилка t-статистика
Y-перетин 2,694545455 0,33176878 8,121757129
Змінна X 1 2,305454545 0,04668634 49,38177965
* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану у таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії(Коефіцієнта b).

Якщо знак при коефіцієнт регресії- Позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнт регресії- негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки
Спостереження Передбачене Y Залишки Стандартні залишки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення

Сучасна політична наука виходить із положення про взаємозв'язок усіх явищ і процесів у суспільстві. Неможливе розуміння подій та процесів, прогнозування та управління явищами політичного життя без вивчення зв'язків та залежностей, що існують у політичній сфері життєдіяльності суспільства. Одне з найпоширеніших завдань політичного дослідження полягає у вивченні зв'язку між деякими змінними, що спостерігаються. Допомагає вирішити це завдання цілий клас статистичних прийомів аналізу, об'єднаних загальною назвою "регресійний аналіз" (або, як його ще називають, "кореляційно-регресійний аналіз"). Однак якщо кореляційний аналіз дозволяє оцінити силу зв'язку між двома змінними, то за допомогою регресійного аналізу можна визначити вид цього зв'язку, прогнозувати залежність значення будь-якої змінної від іншої змінної.

Спочатку згадаємо, що таке кореляція. Кореляційнимназивають найважливіший окремий випадок статистичного зв'язку, що полягає в тому, що рівним значенням однієї змінної відповідають різні середні значенняінший. Зі зміною значення ознаки х закономірним чином змінюється середнє значення ознаки у, тоді як у кожному окремому випадку значення ознаки у(з різними ймовірностями) може набувати безліч різних значень.

Поява у статистиці терміна «кореляція» (а політологія залучає для вирішення своїх завдань досягнення статистики, яка, таким чином, є суміжною політологією дисципліною) пов'язана з ім'ям англійського біолога та статистика Френсіса Гальтона, який запропонував у XIX ст. теоретичні основи кореляційно-регресійного аналізу. Термін "кореляція" у науці був відомий і раніше. Зокрема, у палеонтології ще у XVIII ст. його застосував французький вчений Жорж Кюв'є. Він запровадив так званий закон кореляції, з якого знайденим під час розкопок останкам тварин можна було відновити їх вигляд.

Відома історія, пов'язана з ім'ям цього вченого та його законом кореляції. Так, у дні університетського свята студенти, які вирішили пожартувати з відомого професора, натягли на одного студента козлячу шкуру з рогами та копитами. Той заліз у вікно спальні Кюв'є і закричав: Я тебе з'їм. Професор прокинувся, подивився на силует і відповів: «Якщо в тебе є роги та копита, то ти – травоїдна тварина і з'їсти мене не можеш. А за незнання закону кореляції отримаєш двійку». Повернувся на другий бік і заснув. Жарт жартом, але на цьому прикладі ми спостерігаємо окремий випадок застосування множинного кореляційно-регресійного аналізу. Тут професор, виходячи зі знання значень двох ознак, що спостерігаються (наявність рогів і копит), на підставі закону кореляції вивів середнє значення третьої ознаки (клас, до якого відноситься дана тварина - травоїдна). В даному випадку не йдеться про конкретне значення цієї змінної (тобто дана тварина могла набувати різних значень за номінальною шкалою - це міг бути і козел, і баран, і бик...).

Тепер перейдемо до терміна «Регресія». Власне, він не пов'язаний із змістом тих статистичних завдань, які вирішуються за допомогою цього методу. Пояснення терміну можна дати лише з знання історії розвитку методів вивчення зв'язків між ознаками. Одним з перших прикладів досліджень такого роду була робота статистиків Ф. Гальтона і К. Пірсона, які намагалися виявити закономірність між зростанням батьків та їхніх дітей за двома ознаками (де X-зростання батьків та У-зростання дітей). У результаті дослідження вони підтвердили початкову гіпотезу у тому, що у середньому високих батьків виростають у середньому високі діти. Той самий принцип діє щодо низьких батьків та дітей. Однак якби вчені на цьому зупинилися, то їхні праці ніколи не згадувалися в підручниках зі статистики. Дослідники виявили ще одну закономірність у межах вже згадуваної підтвердженої гіпотези. Вони довели, що у дуже високих батьків народжуються в середньому високі діти, але не дуже відрізняються зростанням від дітей, чиї батьки хоч і вищі за середній, але не сильно відрізняються від середньовисокого зростання. Те саме й у батьків із дуже маленьким зростанням (що відхиляється від середніх показників низькорослої групи) - їхні діти в середньому не відрізнялися за зростанням від однолітків, чиї батьки були просто невисокими. Функцію, що описує цю закономірність, вони назвали функцією регресії.Після цього дослідження всі рівняння, що описують подібні функції та побудовані подібним чином, стали називати рівняннями регресії.

Регресійний аналіз- один із методів багатовимірного статистичного аналізу даних, що поєднує сукупність статистичних прийомів, призначених для вивчення або моделювання зв'язків між однією залежною та кількома (або однією) незалежними змінними. Залежна змінна за прийнятою статистикою традиції називається відгуком і позначається як VНезалежні змінні називаються предикторами і позначаються як X.У ході аналізу деякі змінні виявляться слабко пов'язаними з відгуком і будуть зрештою виключені з аналізу. Змінні, що залишилися, пов'язані з залежною, можуть іменуватися ще факторами.

Регресійний аналіз дає можливість передбачити значення однієї або кількох змінних залежно від іншої змінної (наприклад, схильність до неконвенційної політичної поведінки залежно від рівня освіти) або кількох змінних. Розраховується на PC. Для складання регресійного рівняння, що дозволяє виміряти рівень залежності контрольованої ознаки від факторних, необхідно залучити професійних математиків-програмістів. Регресійний аналіз може надати неоціненну послугу під час побудови прогностичних моделей розвитку політичної ситуації, оцінки причин соціальної напруги, під час проведення теоретичних експериментів. Регресійний аналіз активно використовується для вивчення впливу на електоральну поведінку громадян низки соціально-демографічних параметрів: статі, віку, професії, місця проживання, національності, рівня та характеру доходів.

Щодо регресійного аналізу використовують поняття незалежноюі залежноюзмінних. Незалежною називають змінну, яка пояснює чи є причиною зміни іншої змінної. Залежною називають змінну, значення якої пояснюють впливом першої змінної. Наприклад, президентських виборах 2004 р. визначальними чинниками, тобто. незалежними змінними, виступили такі показники, як стабілізація матеріального становища населення країни, рівень популярності кандидатів та фактор incumbency.Як залежна змінна в даному випадку можна вважати відсоток голосів, поданих за кандидатів. Аналогічно в парі змінних «вік виборця» та «рівень електоральної активності» незалежною є першою, залежною – другою.

Регресійний аналіз дозволяє вирішувати такі завдання:

  • 1) встановити сам факт наявності чи відсутності статистично значущого зв'язку між Кі X;
  • 2) побудувати найкращі (у статистичному сенсі) оцінки функції регресії;
  • 3) за заданими значеннями Xпобудувати прогноз для невідомого У
  • 4) оцінити питому вагу впливу кожного фактора Xна Уі відповідно виключити із моделі несуттєві ознаки;
  • 5) у вигляді виявлення причинних зв'язків між змінними частково керувати значеннями Рпутем регулювання величин пояснюючих змінних X.

Регресійний аналіз пов'язані з необхідністю вибору взаємно незалежних змінних, які впливають значення досліджуваного показника, визначення форми рівняння регресії, оцінки параметрів з допомогою статистичних методів обробки первинних соціологічних даних. В основі цього виду аналізу лежить уявлення про форму, напрям і тісноту (щільності) взаємозв'язку. Розрізняють парнуі множинну регресіюв залежності від кількості досліджуваних ознак. Насправді регресійний аналіз зазвичай виконується разом із кореляційним. Рівняння регресіїописує числове співвідношення між величинами, виражене у вигляді тенденції до зростання або спадання однієї змінної величини при зростанні або спаданні іншої. При цьому різні л інійнуі нелінійну регресію.При описі політичних процесів однаково виявляються обидва варіанти регресії.

Діаграма розсіювання для розподілу взаємозалежності інтересу до статей на політичні теми ( У)та освіти респондентів (X)є лінійною регресією (рис. 30).

Рис. 30.

Діаграма розсіювання для розподілу рівня електоральної активності ( У)та віку респондента (А) (умовний приклад) є нелінійною регресією (рис. 31).


Рис. 31.

Для опису взаємозв'язку двох ознак (А" та У) у моделі парної регресії використовують лінійне рівняння

де, - випадкова величина похибки рівняння при варіації ознак, тобто. відхилення рівняння від "лінійності".

Для оцінки коефіцієнтів аі bвикористовують метод найменших квадратів, що передбачає, що сума квадратів відхилень кожної точки на діаграмі розкиду від лінії регресії має бути мінімальною. Коефіцієнти а ч Ьможуть бути обчислені за допомогою системи рівнянь:

Метод оцінки найменших квадратів дає такі оцінки коефіцієнтів аі Ь,за яких пряма проходить через точку з координатами хі у,тобто. має місце співвідношення у = ах + Ь.Графічне зображення рівняння регресії називається теоретичною лінією регресії.При лінійній залежності коефіцієнт регресії представляє на графіку тангенс кута нахилу теоретичної лінії регресії до осі абсцис. Знак при коефіцієнті показує напрямок зв'язку. Якщо він більше за нуль, то зв'язок прямий, якщо менше - зворотний.

У наведеному нижче прикладі з дослідження «Політичний Петербург-2006» (табл. 56) показано лінійний взаємозв'язок уявлень громадян про ступінь задоволеності своїм життям у теперішньому та очікування змін якості життя в майбутньому. Зв'язок прямий, лінійний (стандартизований коефіцієнт регресії дорівнює 0,233, рівень значущості - 0,000). У разі коефіцієнт регресії невисокий, проте він перевищує нижню межу статистично значимого показника (нижню межу квадрата статистично значущого показника коефіцієнта Пірсона).

Таблиця 56

Вплив якості життя городян на теперішній час на очікування

(Санкт-Петербург, 2006 р.)

* Залежна змінна: "Як Ви думаєте, як зміниться Ваше життя в найближчі 2-3 роки?"

У політичному житті значення змінної чаші, що вивчається, всього одночасно залежить від декількох ознак. Наприклад, на рівень та характер політичної активності одночасно впливають політичний режим держави, політичні традиції, особливості політичної поведінки людей даного району та соціальна мікрогрупа респондента, його вік, освіта, рівень доходу, політична орієнтація тощо. У цьому випадку необхідно скористатися рівнянням множинної регресії, яке має такий вигляд:

де коефіцієнт Ь.- Приватний коефіцієнт регресії. Він показує вклад кожної незалежної змінної визначення значень незалежної (результуючої) змінної. Якщо приватний коефіцієнт регресії близький до 0, можна зробити висновок, що безпосереднього зв'язку між незалежними і залежною змінними немає.

Розрахунок подібної моделі можна виконати на PC, вдавшись до допомоги матричної алгебри. Множинна регресія дозволяє відобразити багатофакторність соціальних зв'язків та уточнити міру впливу кожного фактора окремо та всіх разом на результуючу ознаку.

Коефіцієнт, що позначається Ь,називається коефіцієнтом лінійної регресії та показує силу зв'язку між варіацією факторної ознаки Xта варіацією результативної ознаки YЦей коефіцієнт вимірює силу зв'язку в абсолютних одиницях вимірювання ознак. Однак тіснота кореляційного зв'язку ознак може бути виражена і в частках середнього квадратичного відхилення результативної ознаки (такий коефіцієнт називається коефіцієнтом кореляції). На відміну від коефіцієнта регресії bкоефіцієнт кореляції залежить від прийнятих одиниць виміру ознак, отже, він порівняний будь-яких ознак. Зазвичай вважають зв'язок сильним, якщо 0,7, середньої тісноти - при 0,5 г 0,5.

Як відомо, максимально тісний зв'язок - це функціональний зв'язок, коли кожне індивідуальне значення Yможе бути однозначно поставлено у відповідність до значення X.Таким чином, чим ближче коефіцієнт кореляції до 1, тим ближчий зв'язок до функціональної. Рівень значущості для регресійного аналізу не повинен перевищувати 0,001.

Коефіцієнт кореляції тривалий час розглядався як основний показник тісноти зв'язку ознак. Однак пізніше таким показником став коефіцієнт детермінації. Сенс цього коефіцієнта у наступному - він відбиває частку загальної дисперсії результуючого ознаки У, що пояснюється дисперсією ознаки X.Знаходиться він простим зведенням у квадрат коефіцієнта кореляції (змінюється від 0 до 1) і у свою чергу для лінійного зв'язку відображає частку від 0 (0%) до 1 (100%) значень ознаки Y,визначувану значеннями ознаки X.Записується він як I 2 ,а в результуючих таблицях регресійного аналізу пакеті SPSS - без квадрата.

Позначимо основні проблеми побудови рівняння множинної регресії.

  • 1. Вибір факторів, що включаються до рівняння регресії.На цій стадії дослідник спочатку складає загальний список основних причин, які згідно з теорією обумовлюють явище, що вивчається. Потім він повинен відібрати ознаки рівняння регресії. Основне правило відбору: фактори, що включаються до аналізу, повинні якнайменше корелювати один з одним; тільки в цьому випадку можна приписати кількісний захід впливу певного фактора-ознаку.
  • 2. Вибір форми рівняння множинної регресії(На практиці частіше користуються лінійною або лінійно-логарифмічною). Отже, для використання множинної регресії дослідник спочатку має побудувати гіпотетичну модель впливу кількох незалежних змінних на результуючу. Щоб отримані результати були достовірні, необхідно, щоб модель відповідала реальному процесу, тобто. зв'язок між змінними повинен бути лінійним, не можна проігнорувати жодну значиму незалежну змінну, так само не можна включати в аналіз жодну змінну, яка не має прямого відношення до процесу, що вивчається. Крім того, всі вимірювання змінних мають бути гранично точними.

З наведеного опису випливає ряд умов застосування цього методу, без дотримання яких не можна приступити до процедури множинного регресійного аналізу (МРА). Тільки дотримання всіх нижченаведених пунктів дозволяє коректно здійснювати регресійний аналіз.

У статистичному моделюванні регресійний аналіз є дослідження, що застосовуються з метою оцінки взаємозв'язку між змінними. Цей математичний метод включає безліч інших методів для моделювання та аналізу декількох змінних, коли основна увага приділяється взаємозв'язку між залежною змінною і однією або декількома незалежними. Говорячи конкретніше, регресійний аналіз допомагає зрозуміти, як змінюється типове значення залежної змінної, якщо одне із незалежних змінних змінюється, тоді як інші незалежні змінні залишаються фіксованими.

У всіх випадках цільова оцінка є функцією незалежних змінних і називається функцією регресії. У регресійному аналізі також цікавить характеристика зміни залежної змінної як функції регресії, яка може бути описана за допомогою розподілу ймовірностей.

Завдання регресійного аналізу

Даний статистичний метод дослідження широко використовується для прогнозування, де його використання має суттєву перевагу, але іноді це може призводити до ілюзії або хибних відносин, тому рекомендується акуратно використовувати його в зазначеному питанні, оскільки, наприклад, кореляція не означає причинно-наслідкового зв'язку.

Розроблено велике числометодів для проведення регресійного аналізу, такі як лінійна та звичайна регресії за методом найменших квадратів, які є параметричними. Їх суть у тому, що функція регресії визначається термінами кінцевого числа невідомих параметрів, які оцінюються з даних. Непараметрична регресія дозволяє її функції лежати у певному наборі функцій, які можуть бути нескінченномірними.

Як статистичний метод дослідження, регресійний аналіз практично залежить від форми процесу генерації даних і від цього, як і ставиться до регресійного підходу. Так як справжня форма процесу даних, що генерують, як правило, невідоме число, регресійний аналіз даних часто залежить до певної міри від припущень про цей процес. Ці припущення іноді перевіряються, якщо є достатньо доступних даних. Регресійні моделі часто бувають корисними навіть тоді, коли припущення помірковано порушені, хоча вони не можуть працювати з максимальною ефективністю.

У вужчому сенсі регресія може ставитися безпосередньо до оцінці безперервних змінних відгуку, на відміну дискретних змінних відгуку, що у класифікації. Випадок безперервної вихідний змінної також називають метричною регресією, щоб відрізнити його від пов'язаних із цим проблем.

Історія

Сама рання формаРегресія - це всім відомий метод найменших квадратів. Він був опублікований Лежандром в 1805 році і Гауссом в 1809. Лежандр і Гаусс застосували метод завдання визначення з астрономічних спостережень орбіти тіл навколо Сонця (в основному комети, але пізніше і знову відкриті малі планети). Гаус опублікував подальший розвиток теорії найменших квадратів у 1821 році, включаючи варіант теореми Гаусса-Маркова.

Термін «регрес» вигадав Френсіс Гальтон у ХІХ столітті, щоб описати біологічне явище. Суть у тому, що зростання нащадків від зростання предків, зазвичай, регресує вниз до нормального середнього. Для Гальтона регресія мала лише цей біологічний сенс, але пізніше його робота була продовжена Удні Йолей та Карлом Пірсоном і виведена до більш загального статистичного контексту. У роботі Йоля та Пірсона спільний розподіл змінних відгуків та пояснювальних вважається гаусовим. Це припущення було відкинуто Фішером на роботах 1922 і 1925 років. Фішер припустив, що умовний розподіл змінної відгуку є гаусовим, але спільний розподіл не повинен бути таким. У зв'язку з цим припущення Фішера ближче до формулювання Гауса 1821 року. До 1970 року іноді витрачалося до 24 годин, щоб отримати результат регресійного аналізу.

Методи регресійного аналізу продовжують залишатися областю активних досліджень. Останні десятиліття нові методи були розроблені для надійної регресії; регресії за участю корелюючих відгуків; методи регресії, що вміщають різні типи даних, що відсутні; непараметричної регресії; байєсовські методи регресії; регресії, у яких змінні прогнозуючих вимірюються з помилкою; регресії здебільшого предикторов, ніж спостережень, і навіть причинно-наслідкових висновків з регресією.

Регресійні моделі

Моделі регресійного аналізу включають такі змінні:

  • Невідомі параметри, позначені як бета, які можуть бути скаляр або вектор.
  • Незалежні змінні, X.
  • Залежні змінні, Y.

У різних областяхнауки, де здійснюється застосування регресійного аналізу, використовуються різні терміни замість залежних та незалежних змінних, але у всіх випадках регресійна модель відносить Y до функції X та β.

Наближення зазвичай оформляється як E (Y | X) = F (X, β). Для проведення регресійного аналізу має бути визначено вид функції f. Рідше вона заснована на знаннях про взаємозв'язок між Y та X, які не покладаються на дані. Якщо таке знання недоступне, то вибрано гнучку або зручну форму F.

Залежна змінна Y

Припустимо тепер, що вектор невідомих параметрів має довжину k. Для виконання регресійного аналізу користувач повинен надати інформацію про залежну змінну Y:

  • Якщо спостерігаються точки N даних виду (Y, X), де N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Якщо спостерігаються рівно N = K, а функція F є лінійною, то рівняння Y = F (X, β) можна вирішити точно, а чи не приблизно. Це зводиться до рішення набору N-рівнянь з N-невідомими (елементи β), який має єдине рішення доти, доки X лінійно незалежний. Якщо F є нелінійним, рішення може не існувати або може існувати багато рішень.
  • Найбільш поширеною є ситуація, де спостерігається N> точки до даних. У цьому випадку є достатньо інформації в даних, щоб оцінити унікальне значення для β, яке найкраще відповідає даним, і модель регресії, коли застосування до даних можна розглядати як перевизначену систему β.

У разі регресійний аналіз надає інструменти для:

  • Пошук рішення для невідомих параметрів β, які, наприклад, мінімізувати відстань між виміряним і передбаченим значенням Y.
  • За певних статистичних припущень, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри β та передбачені значення залежної змінної Y.

Необхідна кількість незалежних вимірів

Розглянемо модель регресії, яка має три невідомі параметри: β 0 , β 1 та β 2 . Припустимо, що експериментатор виконує 10 вимірювань в тому самому значенні незалежної змінної вектора X. У цьому випадку регресійний аналіз не дає унікальний набір значень. Найкраще, що можна зробити, оцінити середнє значення та стандартне відхилення залежної змінної Y. Аналогічним чином вимірюючи два різних значеннях X можна отримати достатньо даних для регресії з двома невідомими, але не для трьох і більше невідомих.

Якщо вимірювання експериментатора проводилися за трьох різних значеннях незалежної змінної вектора X, то регресійний аналіз забезпечить унікальний набір оцінок для трьох невідомих параметрів β.

У разі загальної лінійної регресії наведене вище твердження еквівалентне вимогі, що матриця X Т X оборотна.

Статистичні припущення

Коли число вимірювань N більше, ніж число невідомих параметрів k і похибки вимірювань ε i , то, як правило, поширюється надлишок інформації, що міститься у вимірюваннях, і використовується для статистичних прогнозів щодо невідомих параметрів. Цей надлишок інформації називається ступенем свободи регресії.

Основні припущення

Класичні припущення для регресійного аналізу включають:

  • Вибірка є представником прогнозування логічного висновку.
  • Помилка є випадковою величиною із середнім значенням нуля, який є умовним на пояснюючих змінних.
  • Незалежні змінні вимірюються без помилок.
  • Як незалежних змінних (предикторів) вони лінійно незалежні, тобто неможливо висловити будь-який провісник у вигляді лінійної комбінації інших.
  • Помилки є некорельованими, тобто матриця помилок діагоналей і кожен ненульовий елемент є дисперсією помилки.
  • Дисперсія помилки постійна за спостереженнями (гомоскедастичністю). Якщо ні, можна використовувати метод зважених найменших квадратів чи інші методи.

Ці достатні умови для оцінки найменших квадратів мають необхідні властивості, зокрема ці припущення означають, що оцінки параметрів будуть об'єктивними, послідовними та ефективними, особливо при їх обліку в класі лінійних оцінок. Важливо, що фактичні дані рідко задовольняють умовам. Тобто метод використовується навіть якщо припущення не вірні. Варіація з припущень іноді може бути використана як міра, що показує, наскільки ця модель є корисною. Багато з цих припущень можуть бути пом'якшені у більш розвинених методах. Звіти статистичного аналізу, як правило, включають аналіз тестів за даними вибірки і методології для корисності моделі.

Крім того, змінні в деяких випадках посилаються на значення, які вимірюються в точкових місцях. Там можуть бути просторові тенденції та просторові автокореляції у змінних, що порушують статистичні припущення. Географічна зважена регресія – єдиний метод, який має справу з такими даними.

У лінійній регресії особливістю є те, що залежна змінна, якою є Y i являє собою лінійну комбінацію параметрів. Наприклад, у простій лінійній регресії для моделювання n-точок використовується одна незалежна змінна, x i , і два параметри, β 0 і β 1 .

При множинні лінійної регресії існує кілька незалежних змінних або їх функцій.

При випадковій вибірці з популяції параметри дозволяють отримати зразок моделі лінійної регресії.

В даному аспекті найпопулярнішим є метод найменших квадратів. За допомогою нього одержують оцінки параметрів, які мінімізують суму квадратів залишків. Такі мінімізація (що характерно саме лінійної регресії) цієї функції призводить до набору нормальних рівнянь і набору лінійних рівняньз параметрами, які вирішуються для отримання оцінок параметрів.

При подальшому припущенні, що помилка популяції зазвичай поширюється, дослідник може використовувати ці оцінки стандартних помилок для створення довірчих інтервалів та перевірки гіпотез про її параметри.

Нелінійний регресійний аналіз

Приклад, коли функція не є лінійною щодо параметрів, вказує на те, що сума квадратів повинна бути мінімально зведена за допомогою ітераційної процедури. Це вносить багато ускладнень, які визначають різницю між лінійними і нелінійними методами найменших квадратів. Отже, результати регресійного аналізу під час використання нелінійного методу часом непередбачувані.

Розрахунок потужності та обсягу вибірки

Тут, зазвичай, немає узгоджених методів, які стосуються числа спостережень проти числом незалежних змінних у моделі. Перше правило було запропоновано Доброю і Хардіном і виглядає як N = t^n, де N є розмір вибірки, n - число незалежних змінних, а t є числом спостережень, необхідних досягнення бажаної точності, якщо модель мала тільки одну незалежну змінну. Наприклад, дослідник будує модель лінійної регресії з використанням набору даних, що містить 1000 пацієнтів (N). Якщо дослідник вирішує, що необхідно п'ять спостережень, щоб точно визначити пряму (м), то максимальна кількість незалежних змінних, які може підтримувати модель, дорівнює 4.

Інші методи

Незважаючи на те, що параметри регресійної моделі, як правило, оцінюються з використанням методу найменших квадратів, існують і інші методи, які використовуються набагато рідше. Наприклад, це такі способи:

  • Байєсовські методи (наприклад, метод Байєса лінійної регресії).
  • Процентна регресія, що використовується для ситуацій, коли зниження відсоткових помилок вважається за доцільне.
  • Найменші абсолютні відхилення, що є стійкішим у присутності викидів, що призводять до квантильної регресії.
  • Непараметрична регресія, що вимагає великої кількості спостережень та обчислень.
  • Відстань метрики навчання, яка вивчається у пошуках значної відстані метрики у заданому вхідному просторі.

Програмне забезпечення

Усі основні статистичні пакети програмного забезпечення виконуються за допомогою найменших квадратів регресійного аналізу. Проста лінійна регресія та множинний регресійний аналіз можуть бути використані в деяких додатках електронних таблиць, а також на деяких калькуляторах. Хоча багато статистичних пакетів програмного забезпечення можуть виконувати різні типи непараметричної та надійної регресії, ці методи менш стандартизовані; Різні програмні пакети реалізують різні методи. Спеціалізоване регресійне програмне забезпечення було розроблено для використання в таких галузях як аналіз обстеження та нейровізуалізації.

Основна особливість регресійного аналізу: за його допомогою можна отримати конкретні відомості про те, яку форму та характер має залежність між досліджуваними змінними.

Послідовність етапів регресійного аналізу

Розглянемо коротко етапи регресійного аналізу.

    Формулювання задачі. На цьому етапі формуються попередні гіпотези щодо залежності досліджуваних явищ.

    Визначення залежних та незалежних (пояснюючих) змінних.

    Збір статистичних даних. Дані мають бути зібрані для кожної із змінних, включених до регресійної моделі.

    Формулювання гіпотези про форму зв'язку (просте або множинне, лінійне або нелінійне).

    Визначення функції регресії (полягає у розрахунку чисельних значень параметрів рівняння регресії)

    Оцінка точності регресійного аналізу.

    Інтерпретація одержаних результатів. Отримані результати регресійного аналізу порівнюються із попередніми гіпотезами. Оцінюється коректність та правдоподібність отриманих результатів.

    Пророцтво невідомих значень залежною змінною.

За допомогою регресійного аналізу можливе вирішення завдання прогнозування та класифікації. Прогнозні значення обчислюються шляхом підстановки рівняння регресії параметрів значень пояснюючих змінних. Розв'язання задачі класифікації здійснюється таким чином: лінія регресії ділить все безліч об'єктів на два класи, і та частина множини, де значення функції більше за нуль, належить до одного класу, а та, де воно менше нуля, - до іншого класу.

Завдання регресійного аналізу

Розглянемо основні завдання регресійного аналізу: встановлення форми залежності, визначення функції регресії, оцінка невідомих значень залежної змінної

Встановлення форми залежності.

Характер і форма залежності між змінними можуть утворювати такі різновиди регресії:

    позитивна лінійна регресія (виявляється у рівномірному зростанні функції);

    позитивна рівноприскорено зростаюча регресія;

    позитивна рівногайно зростаюча регресія;

    негативна лінійна регресія (виявляється у рівномірному падінні функції);

    негативна рівноприскорено спадна регресія;

    негативна рівногайно спадна регресія.

Проте описані різновиди зазвичай зустрічаються над чистому вигляді, а поєднанні друг з одним. У такому разі говорять про комбіновані форми регресії.

Визначення функції регресії.

Друге завдання зводиться до з'ясування впливу на залежну змінну головних факторів або причин, за незмінних інших рівних умов, та за умови виключення впливу на залежну змінну випадкових елементів. Функція регресіївизначається як математичного рівняння тієї чи іншої типу.

Оцінка невідомих значень залежною змінною.

Розв'язання цієї задачі зводиться до розв'язання задачі одного з типів:

    Оцінка значень залежної змінної усередині аналізованого інтервалу вихідних даних, тобто. пропущених значень; у своїй вирішується завдання інтерполяції.

    Оцінка майбутніх значень залежної змінної, тобто. знаходження значень поза заданим інтервалом вихідних даних; при цьому вирішується завдання екстраполяції.

Обидві завдання вирішуються шляхом підстановки рівняння регресії знайдених оцінок параметрів значень незалежних змінних. Результат рішення рівняння є оцінкою значення цільової (залежної) змінної.

Розглянемо деякі припущення, куди спирається регресійний аналіз.

Припущення лінійності, тобто. передбачається, що зв'язок між аналізованими змінними є лінійним. Так, у прикладі ми побудували діаграму розсіювання і змогли побачити явний лінійний зв'язок. Якщо ж діаграмі розсіювання змінних бачимо явне відсутність лінійного зв'язку, тобто. є нелінійний зв'язок, слід використовувати нелінійні методи аналізу.

Припущення про нормальність залишків. Воно припускає, що розподіл різниці передбачених та спостережуваних значень є нормальним. Для візуального визначення характеру розподілу можна скористатися гістограмами залишків.

З використанням регресійного аналізу слід враховувати його основне обмеження. Воно у тому, що регресійний аналіз дозволяє виявити лише залежності, а чи не зв'язку, що у основі цих залежностей.

Регресійний аналіз дає можливість оцінити ступінь зв'язку між змінними шляхом обчислення передбачуваного значення змінної виходячи з кількох відомих значень.

Рівняння регресії.

Рівняння регресії виглядає так: Y=a+b*X

За допомогою цього рівняння змінна Y виражається через константу a та кут нахилу прямої (або кутовий коефіцієнт) b, помножений на значення змінної X. Константу a також називають вільним членом, а кутовий коефіцієнт - коефіцієнтом регресії або B-коефіцієнтом.

У більшості випадків (якщо не завжди) спостерігається певний розкид спостережень щодо регресійної прямої.

Залишок - Це відхилення окремої точки (спостереження) від лінії регресії (передбаченого значення).

Для вирішення задачі регресійного аналізу у MS Excel вибираємо в меню Сервіс"Пакет аналізу"та інструмент аналізу "Регресія". Задаємо вхідні інтервали X та Y. Вхідний інтервал Y – це діапазон залежних аналізованих даних, він повинен включати один стовпець. Вхідний інтервал X – це діапазон незалежних даних, які необхідно проаналізувати. Число вхідних діапазонів має бути не більше 16.

На виході процедури у вихідному діапазоні отримуємо звіт, наведений у таблиці 8.3а-8.3в.

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика

Регресійна статистика

Множинний R

R-квадрат

Нормований R-квадрат

Стандартна помилка

Спостереження

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а, – регресійну статистику.

Величина R-квадрат, називана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

У більшості випадків значення R-квадратзнаходиться між цими значеннями, які називають екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадратублизько до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість збудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

множинний R - Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний Rдорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний Rдорівнює коефіцієнту кореляції Пірсона. Справді, множинний Rу разі дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії

Коефіцієнти

Стандартна помилка

t-статистика

Y-перетин

Змінна X 1

* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану в таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається виходячи з знаків (негативний чи позитивний) коефіцієнтів регресії (коефіцієнта b).

Якщо знак при коефіцієнті регресії - позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнті регресії - негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати висновку залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки

Спостереження

Передбачене Y

Залишки

Стандартні залишки

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення залишкуу разі - 0,778, найменше - 0,043. Для кращої інтерпретації цих даних скористаємося графіком вихідних даних та побудованою лінією регресії, представленими на Рис. 8.3. Як бачимо, лінія регресії досить точно "підігнана" під значення вихідних даних.

Слід враховувати, що приклад, що розглядається, є досить простим і далеко не завжди можлива якісна побудова регресійної прямої лінійного вигляду.

Рис. 8.3.Вихідні дані та лінія регресії

Залишилося нерозглянутим завдання оцінки невідомих майбутніх значень залежної змінної виходячи з відомих значень незалежної змінної, тобто. Завдання прогнозування.

Маючи рівняння регресії, завдання прогнозування зводиться до вирішення рівняння Y = x * 2,305454545 +2,694545455 з відомими значеннями x. Результати прогнозування залежної змінної Y на шість кроків уперед представлені у таблиці 8.4.

Таблиця 8.4. Результати прогнозування змінної Y

Y(прогнозується)

Таким чином, в результаті використання регресійного аналізу в пакеті Microsoft Excel ми:

    збудували рівняння регресії;

    встановили форму залежності та напрямок зв'язку між змінними - позитивна лінійна регресія, яка виражається в рівномірному зростанні функції;

    встановили напрямок зв'язку між змінними;

    оцінили якість отриманої регресійної прямої;

    змогли побачити відхилення розрахункових даних від даних вихідного набору;

    передбачили майбутні значення залежної змінної.

Якщо функція регресіївизначено, інтерпретовано і обґрунтовано, і оцінка точності регресійного аналізу відповідає вимогам, можна вважати, що побудована модель і прогнозні значення мають достатню надійність.

Прогнозні значення, отримані в такий спосіб, є середніми значеннями, які можна очікувати.

У цій роботі ми розглянули основні характеристики описової статистикиі серед них такі поняття, як середнє значення,медіана,максимум,мінімумта інші характеристики варіації даних.

Також було коротко розглянуто поняття викидів. Розглянуті показники належать до так званого дослідницького аналізу даних, його висновки можуть належати не до генеральної сукупності, а лише до вибірки даних. Дослідницький аналіз даних використовується для отримання первинних висновків та формування гіпотез щодо генеральної сукупності.

Також було розглянуто основи кореляційного та регресійного аналізу, їх завдання та можливості практичного використання.