Regressiya uchun ma'lumotlar. Ma'lumotlarni tahlil qilish asoslari

4-bob materialini o'rganish natijasida talaba:

bilish

  • regressiya tahlilining asosiy tushunchalari;
  • eng kichik kvadratlar usulini baholash usullari va baholash xususiyatlari;
  • tenglama va regressiya koeffitsientlarining ahamiyatliligini tekshirish va intervallarni baholashning asosiy qoidalari;

imkoniyatiga ega bo'lish

  • namunaviy ma’lumotlardan regressiya tenglamalarining ikki o‘lchovli va ko‘p modelli parametrlarining baholarini topish, ularning xossalarini tahlil qilish;
  • tenglama va regressiya koeffitsientlarining ahamiyatini tekshirish;
  • muhim parametrlarning intervalli baholarini topish;

Shaxsiy

  • ikki o'lchovli va ko'p regressiya tenglamalari parametrlarini statistik baholash ko'nikmalari; regressiya modellarining adekvatligini tekshirish malakalari;
  • analitik dasturlardan foydalangan holda barcha muhim koeffitsientlar bilan regressiya tenglamasini olish ko'nikmalari.

Asosiy tushunchalar

Korrelyatsiya tahlilini o'tkazgandan so'ng, o'zgaruvchilar o'rtasida statistik ahamiyatga ega bo'lgan bog'lanishlar mavjudligi aniqlanganda va ularning zichlik darajasi baholanganda, ular odatda regressiya tahlili usullaridan foydalangan holda bog'liqliklar turini matematik tavsiflashga o'tadilar. Shu maqsadda samarali ko'rsatkichni bog'laydigan funktsiyalar sinfi tanlanadi da va argumentlar" cheklash tenglamasi parametrlarining taxminlarini hisoblab chiqadi va natijada olingan tenglamaning to'g'riligini tahlil qiladi.

Funktsiya| samarali xususiyatning shartli o'rtacha qiymatiga bog'liqligini tavsiflovchi da argumentlarning berilgan qiymatlaridan, deyiladi regressiya tenglamasi.

"Regressiya" atamasi (lot. regressiya - orqaga chekinish, biror narsaga qaytish) ingliz psixologi va antropologi F. Galton tomonidan kiritilgan va uning birinchi misollaridan biri bilan bog'liq bo'lib, Galton o'sishning irsiyatiga oid savolga oid statistik ma'lumotlarni qayta ishlaganda, agar balandlikning balandligi otalar barcha otalarning o'rtacha balandligidan chetga chiqadi X dyuym bo'lsa, o'g'illarining bo'yi barcha o'g'illarning o'rtacha bo'yidan kamroq og'adi x dyuym Belgilangan tendentsiya chaqirildi o'rtachaga regressiya.

"Regressiya" atamasi statistik adabiyotlarda keng qo'llaniladi, garchi u ko'p hollarda statistik bog'liqlikni aniq tavsiflay olmasa ham.

Regressiya tenglamasini aniq tavsiflash uchun samarali indikatorning shartli taqsimot qonunini bilish kerak y. Statistik amaliyotda odatda bunday ma'lumotlarni olish mumkin emas, shuning uchun ular funktsiya uchun mos keladigan taxminlarni topish bilan cheklanadi. f(x u X 2, .... l *), hodisaning dastlabki mazmunli tahlili yoki dastlabki statistik ma'lumotlarga asoslangan.

Indikatorlar vektorini taqsimlash turi haqida individual model taxminlari doirasida<) может быть получен общий вид regressiya tenglamalari, qayerda. Masalan, o'rganilayotgan ko'rsatkichlar to'plami matematik taxminlar vektori bilan () o'lchovli normal taqsimot qonuniga bo'ysunadi degan faraz ostida

Bu erda va kovariatsiya matritsasi bo'yicha,

farq qayerda y,

Regressiya tenglamasi (shartli kutish) shaklga ega

Shunday qilib, agar ko'p o'zgaruvchan tasodifiy o'zgaruvchi ()

() o'lchovli normal taqsimot qonuniga, keyin esa samarali ko'rsatkichning regressiya tenglamasiga bo'ysunadi da izohli o'zgaruvchilarda chiziqli in mavjud X ko'rinish.

Biroq, statistik amaliyotda, odatda, noma'lum haqiqiy regressiya funktsiyasi uchun mos keladigan taxminlarni topish bilan cheklanishi kerak. f(x), chunki tadqiqotchi tahlil qilinayotgan samaradorlik ko'rsatkichining ehtimollik taqsimotining shartli qonuni haqida aniq ma'lumotga ega emas da argumentlarning berilgan qiymatlari uchun X.

Haqiqiy, model va regressiya baholari o'rtasidagi munosabatni ko'rib chiqing. Ishlash ko'rsatkichiga ruxsat bering da argument bilan bog'liq X nisbat

bu erda oddiy taqsimot qonuniga ega tasodifiy o'zgaruvchi, bundan tashqari. Bu holda haqiqiy regressiya funktsiyasi

Aytaylik, biz haqiqiy regressiya tenglamasining aniq shaklini bilmaymiz, lekin bizda ikki o'lchovli tasodifiy o'zgaruvchi bo'yicha to'qqizta kuzatuv mavjud. 4.1.

Guruch. 4.1. Haqiqatning nisbiy pozitsiyasif(x) va nazariyQoyilregressiya modellari

Rasmdagi nuqtalarning joylashishi. 4.1 bizni shaklning chiziqli bog'liqliklari sinfi bilan cheklanishimizga imkon beradi

Eng kichik kvadratlar usulidan foydalanib, biz regressiya tenglamasining taxminini topamiz.

Taqqoslash uchun, rasmda. 4.1 haqiqiy regressiya funksiyasi va nazariy yaqinlashuvchi regressiya funksiyasining grafiklarini ko'rsatadi. Regressiya tenglamasining taxmini ikkinchisiga ehtimollik bilan yaqinlashadi Qoyil namuna hajmining cheksiz o'sishi bilan ().

Afsuski, statistik tadqiqotlar amaliyotida juda keng tarqalgan haqiqiy regressiya funktsiyasi o'rniga chiziqli regressiya funktsiyasini noto'g'ri tanlaganimiz sababli, bizning statistik xulosalarimiz va baholarimiz izchillik xususiyatiga ega bo'lmaydi, ya'ni. Kuzatishlar hajmini qanchalik ko'paytirmasin, bizning tanlagan bahomiz haqiqiy regressiya funktsiyasiga yaqinlashmaydi.

Agar biz regressiya funktsiyalari sinfini to'g'ri tanlagan bo'lsak, unda tavsifni ishlatishdagi noaniqlik Qoyil faqat namunaning cheklanganligi bilan izohlanadi va shuning uchun uni o'zboshimchalik bilan kichik qilish mumkin edi.

Samarali indikatorning shartli qiymatini va noma'lum regressiya funktsiyasini dastlabki statistik ma'lumotlardan eng yaxshi tarzda tiklash uchun ko'pincha quyidagilar qo'llaniladi: muvofiqlik mezonlari yo'qotish funktsiyalari.

1. Eng kichik kvadrat usuli, Bunga ko'ra samarali indikatorning kuzatilgan qiymatlarining kvadratik og'ishi model qiymatlaridan minimallashtiriladi, bu erda regressiya tenglamasining koeffitsientlari; "-M kuzatishidagi argumentlar vektorining qiymatlari" :

Vektorning bahosini topish masalasi hal qilinmoqda. Olingan regressiya deyiladi o'rtacha kvadrat.

2. Eng kam modullar usuli, unga ko'ra samarali indikatorning modulli qiymatlardan kuzatilgan qiymatlarining mutlaq og'ishlari yig'indisi minimallashtiriladi, ya'ni.

Olingan regressiya deyiladi mutlaq degani(median).

3. Minimax usuli samarali indikatorning kuzatilgan qiymatining maksimal og'ish modulini minimallashtirishga qisqartiriladi y, model qiymatidan, ya'ni.

Olingan regressiya deyiladi minimaks.

Amaliy qo'llanmalarda ko'pincha tasodifiy o'zgaruvchi o'rganiladigan muammolar mavjud y, ba'zi o'zgaruvchilar to'plamiga va noma'lum parametrlarga bog'liq. () deb hisoblaymiz (k + 1)-o'lchovli umumiy populyatsiya, undan tasodifiy hajm tanlovi P, bu yerda () /-chi kuzatish natijasi,. Kuzatishlar natijalariga ko'ra noma'lum parametrlarni baholash talab etiladi. Yuqorida tavsiflangan vazifa regressiya tahlilining vazifalariga taalluqlidir.

regressiya tahlili tasodifiy miqdorning bog'liqligini statistik tahlil qilish usulini chaqiring da haqiqiy taqsimot qonunidan qat'i nazar, regressiya tahlilida tasodifiy bo'lmagan o'zgaruvchilar sifatida ko'rib chiqiladigan o'zgaruvchilar bo'yicha

NATIJALAR

8.3a-jadval. Regressiya statistikasi
Regressiya statistikasi
Bir nechta R 0,998364
R-kvadrat 0,99673
Normallashtirilgan R-kvadrat 0,996321
standart xato 0,42405
Kuzatishlar 10

Avval 8.3a-jadvalda keltirilgan hisob-kitoblarning yuqori qismini, regressiya statistikasini ko'rib chiqamiz.

R-kvadrat qiymati, shuningdek, aniqlik o'lchovi deb ataladi, natijada paydo bo'lgan regressiya chizig'ining sifatini tavsiflaydi. Ushbu sifat dastlabki ma'lumotlar va regressiya modeli (hisoblangan ma'lumotlar) o'rtasidagi muvofiqlik darajasi bilan ifodalanadi. Aniqlik o'lchovi har doim intervalda bo'ladi.

Ko'pgina hollarda, R-kvadrat qiymati bu qiymatlar orasida, ekstremal deb ataladi, ya'ni. nol va bir orasida.

Agar R kvadratining qiymati birga yaqin bo'lsa, bu tuzilgan model mos keladigan o'zgaruvchilarning deyarli barcha o'zgaruvchanligini tushuntiradi. Aksincha, nolga yaqin R-kvadrat qiymati tuzilgan modelning sifatsizligini bildiradi.

Bizning misolimizda aniqlik o'lchovi 0,99673 ni tashkil etadi, bu regressiya chizig'ining dastlabki ma'lumotlarga juda yaxshi mos kelishini ko'rsatadi.

Bir nechta R- ko'p korrelyatsiya koeffitsienti R - mustaqil o'zgaruvchilar (X) va bog'liq o'zgaruvchilar (Y) bog'liqlik darajasini ifodalaydi.

Bir nechta R teng kvadrat ildiz aniqlash koeffitsientidan bu qiymat noldan birgacha bo'lgan qiymatlarni oladi.

Oddiy chiziqli regressiya tahlilida bir nechta R Pearson korrelyatsiya koeffitsientiga teng. Haqiqatan ham, bizning holatimizda R ko'pligi oldingi misoldagi (0,998364) Pearson korrelyatsiya koeffitsientiga teng.

8.3b-jadval. Regressiya koeffitsientlari
Imkoniyatlar standart xato t-statistika
Y - chorraha 2,694545455 0,33176878 8,121757129
O'zgaruvchi X 1 2,305454545 0,04668634 49,38177965
* Hisob-kitoblarning qisqartirilgan versiyasi berilgan

Endi 8.3b-jadvalda keltirilgan hisob-kitoblarning o'rta qismini ko'rib chiqing. Bu erda regressiya koeffitsienti b (2,305454545) va y o'qi bo'ylab ofset berilgan, ya'ni. doimiy a (2,694545455).

Hisob-kitoblarga asoslanib, regressiya tenglamasini quyidagicha yozishimiz mumkin:

Y= x*2,305454545+2,694545455

O'zgaruvchilar o'rtasidagi munosabatlar yo'nalishi belgilar (salbiy yoki ijobiy) asosida aniqlanadi. regressiya koeffitsientlari(b koeffitsienti).

Agar belgi bo'lsa regressiya koeffitsienti- ijobiy, tobe o'zgaruvchining mustaqil bilan munosabati ijobiy bo'ladi. Bizning holatlarimizda regressiya koeffitsientining belgisi ijobiy, shuning uchun munosabatlar ham ijobiydir.

Agar belgi bo'lsa regressiya koeffitsienti- salbiy, qaram o'zgaruvchi bilan mustaqil o'zgaruvchi o'rtasidagi munosabat manfiy (teskari).

8.3c-jadvalda. qoldiqlarni chiqarish natijalari ko'rsatilgan. Ushbu natijalar hisobotda paydo bo'lishi uchun "Regressiya" asbobini ishga tushirishda "Qoldiqlar" katagiga belgi qo'yish kerak.

QO'LIB BERISH

8.3c-jadval. Qolgan
Kuzatuv Bashorat qilingan Y Qolgan Standart balanslar
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Hisobotning ushbu qismidan foydalanib, biz har bir nuqtaning tuzilgan regressiya chizig'idan og'ishlarini ko'rishimiz mumkin. Eng katta mutlaq qiymat

Zamonaviy siyosatshunoslik jamiyatdagi barcha hodisa va jarayonlarning munosabatlari haqidagi pozitsiyadan kelib chiqadi. Jamiyatning siyosiy sohasida mavjud bo‘lgan bog‘liqlik va bog‘liqliklarni o‘rganmay turib, voqea va jarayonlarni tushunish, siyosiy hayot hodisalarini bashorat qilish va boshqarish mumkin emas. Siyosat tadqiqotining eng keng tarqalgan vazifalaridan biri ba'zi kuzatiladigan o'zgaruvchilar o'rtasidagi munosabatlarni o'rganishdir. "Regressiya tahlili" (yoki "korrelyatsiya-regressiya tahlili" deb ham ataladi) umumiy nomi bilan birlashtirilgan statistik tahlil usullarining butun sinfi ushbu muammoni hal qilishga yordam beradi. Biroq, agar korrelyatsion tahlil ikki o'zgaruvchi o'rtasidagi munosabatlarning kuchini baholashga imkon bersa, regressiya tahlili yordamida ushbu munosabatlar turini aniqlash, har qanday o'zgaruvchining qiymatining boshqa o'zgaruvchining qiymatiga bog'liqligini taxmin qilish mumkin. .

Birinchidan, korrelyatsiya nima ekanligini eslaylik. Korrelyativ bir o'zgaruvchining teng qiymatlari turli xil o'zgaruvchilarga mos kelishidan iborat bo'lgan statistik munosabatlarning eng muhim maxsus holati deb ataladi. o'rtacha qiymatlar boshqa. X atributi qiymatining o'zgarishi bilan y atributining o'rtacha qiymati tabiiy ravishda o'zgaradi, har bir alohida holatda esa atributning qiymati o'zgaradi. da(turli ehtimollik bilan) juda ko'p turli qiymatlarni qabul qilishi mumkin.

Statistikada "korrelyatsiya" atamasining paydo bo'lishi (va siyosatshunoslik o'z muammolarini hal qilish uchun statistik yutuqni jalb qiladi, shuning uchun siyosatshunoslik bilan bog'liq fan) ingliz biologi va statistik Frensis Galton nomi bilan bog'liq. 19-asrda taklif qilgan. korrelyatsiya-regressiya tahlilining nazariy asoslari. Fanda “korrelyatsiya” atamasi avval ham ma’lum bo‘lgan. Xususan, paleontologiyada 18-asrda. uni frantsuz olimi Jorj Kyuvie qo'llagan. U korrelyatsiya qonuni deb ataladigan qonunni kiritdi, uning yordamida qazish paytida topilgan hayvonlarning qoldiqlariga ko'ra, ularning tashqi ko'rinishini tiklash mumkin edi.

Bu olimning nomi va uning korrelyatsiya qonuni bilan bog'liq mashhur hikoya bor. Xullas, universitet ta’til kunlarida mashhur professorga nayrang o‘ynashga qaror qilgan talabalar shoxli va tuyog‘li echki terisini bitta talabaning ustiga tortib olishdi. U Kyuvierning yotoqxonasining derazasiga chiqib, baqirdi: "Men seni yeyman". Professor uyg'onib, siluetga qaradi va javob berdi: "Agar shoxlaringiz va tuyoqlaringiz bo'lsa, demak siz o'txo'rsiz va meni yemaysiz. Va korrelyatsiya qonunini bilmaslik uchun siz ikkilik olasiz. U o'girilib uxlab qoldi. Hazil - bu hazil, ammo bu misolda biz ko'p korrelyatsiya-regressiya tahlilidan foydalanishning alohida holatini ko'ramiz. Bu erda professor o'zaro bog'liqlik qonuniga asoslanib, kuzatilgan ikkita belgi (shox va tuyoqlarning mavjudligi) qiymatlari haqidagi bilimga asoslanib, uchinchi belgining o'rtacha qiymatini chiqardi (bu hayvon qaysi sinfga tegishli). o'txo'r hayvon). Bunday holda, biz ushbu o'zgaruvchining o'ziga xos qiymati haqida gapirmayapmiz (ya'ni, bu hayvon nominal miqyosda turli qiymatlarni olishi mumkin - bu echki, qo'chqor yoki buqa bo'lishi mumkin ...).

Endi “regressiya” atamasiga o‘tamiz. Qat'iy aytganda, bu usul yordamida hal qilinadigan statistik muammolarning ma'nosi bilan bog'liq emas. Atamaga tushuntirish faqat xususiyatlar o'rtasidagi munosabatlarni o'rganish usullarining rivojlanish tarixi haqidagi bilimlar asosida berilishi mumkin. Ushbu turdagi tadqiqotlarning birinchi namunalaridan biri statistik F.Galton va K.Pirsonning ishlari bo'lib, ular otalar va ularning bolalarining o'sishi o'rtasidagi ikkita kuzatiladigan belgi bo'yicha qonuniyatni topishga harakat qildilar (bu erda). X- otasining bo'yi va U- bolalarning o'sishi). O'z tadqiqotlarida ular o'rtacha bo'yli otalar o'rtacha bo'yli bolalarni tarbiyalashlari haqidagi dastlabki farazni tasdiqladilar. Xuddi shu tamoyil past otalar va bolalar uchun ham amal qiladi. Vaholanki, agar olimlar shu yerda to‘xtaganlarida, ularning ishlari hech qachon statistika bo‘yicha darsliklarda tilga olinmagan bo‘lardi. Tadqiqotchilar yuqorida aytib o'tilgan tasdiqlangan gipoteza ichida yana bir naqsh topdilar. Ular juda baland bo'yli otalar o'rtacha bo'yli, lekin bo'yi bo'yicha otalari o'rtachadan yuqori bo'lsa-da, o'rtacha bo'ydan unchalik farq qilmaydigan bolalardan unchalik farq qilmasligini isbotladilar. Xuddi shu narsa bo'yi juda kichik bo'lgan (qisqa guruhdagi o'rtacha ko'rsatkichdan chetga chiqqan) otalar uchun ham amal qiladi - ularning farzandlari, o'rtacha, otalari oddiygina past bo'lgan tengdoshlaridan bo'yi bo'yicha farq qilmadi. Ular bu muntazamlikni tavsiflovchi funktsiyani chaqirdilar regressiya funktsiyasi. Ushbu tadqiqotdan keyin o'xshash funktsiyalarni tavsiflovchi va shunga o'xshash tarzda tuzilgan barcha tenglamalar regressiya tenglamalari deb atala boshlandi.

Regressiya tahlili- bitta bog'liq va bir nechta (yoki bitta) mustaqil o'zgaruvchilar o'rtasidagi munosabatlarni o'rganish yoki modellashtirish uchun mo'ljallangan statistik usullar to'plamini birlashtirgan ko'p o'lchovli statistik ma'lumotlarni tahlil qilish usullaridan biri. Statistikada qabul qilingan an'anaga ko'ra, qaram o'zgaruvchi javob deb ataladi va quyidagicha belgilanadi. V Mustaqil o'zgaruvchilar bashorat qiluvchilar deb ataladi va ular sifatida belgilanadi x. Tahlil davomida ba'zi o'zgaruvchilar javob bilan zaif bog'liq bo'ladi va oxir-oqibat tahlildan chiqarib tashlanadi. Bog'liq bilan bog'liq qolgan o'zgaruvchilarni ham omillar deb atash mumkin.

Regression tahlil boshqa o'zgaruvchiga (masalan, ta'lim darajasiga qarab noan'anaviy siyosiy xatti-harakatlarga moyillik) yoki bir nechta o'zgaruvchilarga qarab bir yoki bir nechta o'zgaruvchilarning qiymatlarini taxmin qilish imkonini beradi. Kompyuterda hisoblab chiqiladi. Boshqariladigan xususiyatning omillarga bog'liqlik darajasini o'lchash imkonini beruvchi regressiya tenglamasini tuzish uchun professional matematik-dasturchilarni jalb qilish kerak. Regressiya tahlili siyosiy vaziyat rivojlanishining bashoratli modellarini yaratishda, ijtimoiy keskinlik sabablarini baholashda va nazariy tajribalar o‘tkazishda bebaho xizmat ko‘rsatishi mumkin. Regressiya tahlili fuqarolarning saylovdagi xatti-harakatlariga bir qator ijtimoiy-demografik parametrlarning ta'sirini o'rganish uchun faol foydalaniladi: jinsi, yoshi, kasbi, yashash joyi, millati, daromad darajasi va tabiati.

Regressiya tahliliga nisbatan tushunchalar mustaqil va qaram o'zgaruvchilar. Mustaqil o'zgaruvchi bu boshqa o'zgaruvchining o'zgarishini tushuntiruvchi yoki sabab bo'ladigan o'zgaruvchidir. Tobe o'zgaruvchi - bu qiymati birinchi o'zgaruvchining ta'siri bilan izohlanadigan o'zgaruvchi. Masalan, 2004 yilgi prezidentlik saylovlarida hal qiluvchi omillar, ya'ni. mustaqil o'zgaruvchilar mamlakat aholisining moliyaviy ahvolini barqarorlashtirish, nomzodlarning mashhurlik darajasi va omil kabi ko'rsatkichlar edi. majburiyat. Bunda nomzodlar uchun berilgan ovozlar foizini qaram o‘zgaruvchi sifatida ko‘rish mumkin. Xuddi shunday, “saylovchining yoshi” va “saylov faolligi darajasi” juftligida birinchisi mustaqil, ikkinchisi bog'liq.

Regressiya tahlili quyidagi muammolarni hal qilishga imkon beradi:

  • 1) Ci o'rtasida statistik jihatdan ahamiyatli munosabat mavjudligi yoki yo'qligi haqiqatini aniqlang x;
  • 2) regressiya funktsiyasining eng yaxshi (statistik ma'noda) baholarini qurish;
  • 3) berilgan qiymatlarga muvofiq X noma'lum uchun bashorat yaratish Da
  • 4) har bir omil ta'sirining solishtirma og'irligini baholash X ustida Da va shunga mos ravishda, ahamiyatsiz xususiyatlarni modeldan chiqarib tashlash;
  • 5) o'zgaruvchilar o'rtasidagi sababiy munosabatlarni aniqlash orqali, tushuntirish o'zgaruvchilari qiymatlarini sozlash orqali P qiymatlarini qisman boshqaring x.

Regressiya tahlili o'rganilayotgan ko'rsatkich qiymatiga ta'sir qiluvchi o'zaro mustaqil o'zgaruvchilarni tanlash, regressiya tenglamasi shaklini aniqlash va birlamchi sotsiologik ma'lumotlarni qayta ishlashning statistik usullaridan foydalangan holda parametrlarni baholash zarurati bilan bog'liq. Ushbu turdagi tahlil munosabatlarning shakli, yo'nalishi va yaqinligi (zichligi) g'oyasiga asoslanadi. Farqlash bug 'xonasi va ko'p regressiya o'rganilgan xususiyatlar soniga qarab. Amalda regressiya tahlili odatda korrelyatsiya tahlili bilan birgalikda amalga oshiriladi. Regressiya tenglamasi miqdorlar o'rtasidagi raqamli munosabatni tavsiflaydi, bir o'zgaruvchining ko'payishi yoki kamayishi, ikkinchisining o'sishi yoki kamayishi tendentsiyasi sifatida ifodalanadi. Shu bilan birga, razl va h a yut l sovuq va chiziqli bo'lmagan regressiya. Siyosiy jarayonlarni tavsiflashda regressiyaning ikkala varianti ham bir xilda uchraydi.

Siyosiy maqolalardagi qiziqishlarning o'zaro bog'liqligini taqsimlash uchun scatterplot ( U) va respondentlarning ta'limi (X) chiziqli regressiya hisoblanadi (30-rasm).

Guruch. o'ttiz.

Saylov faolligi darajasini taqsimlash grafigi ( U) va respondentning yoshi (A) (shartli misol) chiziqli bo'lmagan regressiyadir (31-rasm).


Guruch. 31.

Juftlangan regressiya modelida ikkita xususiyatning (A "va Y) munosabatini tavsiflash uchun chiziqli tenglama qo'llaniladi.

Bu erda a, xususiyatlarning o'zgarishi bilan tenglama xatosining tasodifiy qiymati, ya'ni. tenglamaning "chiziqlilik" dan chetlanishi.

Koeffitsientlarni baholash uchun a va b Regressiya chizig'idan tarqalish chizig'idagi har bir nuqtaning kvadratik og'ishlari yig'indisi minimal bo'lishi kerak deb hisoblaydigan eng kichik kvadratlar usulidan foydalaning. Imkoniyatlar a h b tenglamalar tizimi yordamida hisoblash mumkin:

Eng kichik kvadratlarni baholash usuli koeffitsientlarning bunday baholarini beradi a va b, buning uchun chiziq koordinatali nuqtadan o'tadi X va y, bular. nisbat mavjud da = ax + b. Regressiya tenglamasining grafik tasviri deyiladi nazariy regressiya chizig'i. Chiziqli bog'liqlik bilan regressiya koeffitsienti grafikda nazariy regressiya chizig'ining x o'qiga qiyaligi tangensini ifodalaydi. Koeffitsientdagi belgi munosabatlarning yo'nalishini ko'rsatadi. Agar u noldan katta bo'lsa, u holda munosabatlar to'g'ridan-to'g'ri, agar u kamroq bo'lsa, teskari bo'ladi.

"Siyosiy Peterburg-2006" tadqiqotining quyidagi misoli (56-jadval) fuqarolarning hozirgi hayotdan qoniqish darajasi haqidagi tasavvurlari va kelajakda hayot sifatining o'zgarishini kutishlari o'rtasidagi chiziqli bog'liqlikni ko'rsatadi. Ulanish to'g'ridan-to'g'ri, chiziqli (standartlashtirilgan regressiya koeffitsienti 0,233, ahamiyatlilik darajasi 0,000). Bunday holda, regressiya koeffitsienti yuqori emas, lekin u statistik ahamiyatga ega ko'rsatkichning pastki chegarasidan oshadi (Pirson koeffitsientining statistik ahamiyatli ko'rsatkichi kvadratining pastki chegarasi).

56-jadval

Hozirgi vaqtda fuqarolarning hayot sifatining umidlarga ta'siri

(Sankt-Peterburg, 2006 yil)

* Bog'liq o'zgaruvchi: "Yaqin 2-3 yil ichida hayotingiz qanday o'zgaradi deb o'ylaysiz?"

Siyosiy hayotda o'rganilayotgan o'zgaruvchining qiymati ko'pincha bir vaqtning o'zida bir nechta xususiyatlarga bog'liq. Masalan, siyosiy faoliyat darajasi va tabiatiga bir vaqtning o'zida davlatning siyosiy rejimi, siyosiy an'analar, ma'lum bir hududdagi odamlarning siyosiy xatti-harakatlarining o'ziga xos xususiyatlari va respondentning ijtimoiy mikroguruhi, uning yoshi, ma'lumoti, daromadi ta'sir qiladi. darajasi, siyosiy yo'nalishi va boshqalar. Bunday holda, siz tenglamadan foydalanishingiz kerak ko'p regressiya, u quyidagi shaklga ega:

bu erda koeffitsient b.- qisman regressiya koeffitsienti. Bu har bir mustaqil o'zgaruvchining mustaqil (natija) o'zgaruvchining qiymatlarini aniqlashga qo'shgan hissasini ko'rsatadi. Agar qisman regressiya koeffitsienti 0 ga yaqin bo'lsa, mustaqil va qaram o'zgaruvchilar o'rtasida to'g'ridan-to'g'ri bog'liqlik yo'q degan xulosaga kelishimiz mumkin.

Bunday modelni hisoblash matritsali algebra yordamida shaxsiy kompyuterda amalga oshirilishi mumkin. Ko'p regressiya ijtimoiy aloqalarning ko'p faktorli xususiyatini aks ettirishga va har bir omilning alohida va birgalikda natijaviy xususiyatga ta'sir darajasini aniqlashga imkon beradi.

Belgilangan koeffitsient b, chiziqli regressiya koeffitsienti deb ataladi va omil atributining o'zgarishi o'rtasidagi munosabatlarning kuchini ko'rsatadi. X va samarali xususiyatning o'zgarishi Y Bu koeffitsient munosabatlarning kuchini xususiyatlarning mutlaq o'lchov birliklarida o'lchaydi. Shu bilan birga, xususiyatlar korrelyatsiyasining yaqinligini natijaviy xususiyatning standart og'ishi bilan ham ifodalash mumkin (bunday koeffitsient korrelyatsiya koeffitsienti deb ataladi). Regressiya koeffitsientidan farqli o'laroq b korrelyatsiya koeffitsienti xususiyatlarning qabul qilingan o'lchov birliklariga bog'liq emas va shuning uchun uni har qanday xususiyatlar uchun solishtirish mumkin. Odatda, /> 0,7, o'rtacha zichlik - 0,5 g 0,5 bo'lsa, ulanish kuchli hisoblanadi.

Ma'lumki, har bir alohida qiymatga ega bo'lganda, eng yaqin aloqa funktsional ulanishdir Y qiymatga yagona belgilanishi mumkin x. Shunday qilib, korrelyatsiya koeffitsienti 1 ga qanchalik yaqin bo'lsa, funktsional bog'liqlik shunchalik yaqin bo'ladi. Regressiya tahlili uchun ahamiyatlilik darajasi 0,001 dan oshmasligi kerak.

Korrelyatsiya koeffitsienti qadimdan xususiyatlar munosabatlarining yaqinligining asosiy ko'rsatkichi sifatida qaralib kelgan. Biroq, keyinchalik determinatsiya koeffitsienti shunday ko'rsatkichga aylandi. Ushbu koeffitsientning ma'nosi quyidagicha - u hosil bo'lgan xususiyatning umumiy dispersiyadagi ulushini aks ettiradi Da, xususiyatning xilma-xilligi bilan izohlanadi x. U korrelyatsiya koeffitsientini oddiygina kvadratga solish orqali topiladi (0 dan 1 gacha) va o'z navbatida chiziqli munosabatlar uchun 0 dan (0%) gacha bo'lgan ulushni aks ettiradi. 1 (100%) xarakterli qiymatlar Y, atributning qiymatlari bilan aniqlanadi x. Sifatida qayd etilgan men 2, va SPSS paketidagi regressiya tahlilining natijaviy jadvallarida - kvadratsiz.

Ko'p regressiya tenglamasini tuzishning asosiy masalalarini belgilaylik.

  • 1. Regressiya tenglamasiga kiritilgan omillarni tanlash. Bu bosqichda tadqiqotchi birinchi navbatda nazariyaga ko'ra o'rganilayotgan hodisani aniqlaydigan asosiy sabablarning umumiy ro'yxatini tuzadi. Keyin u regressiya tenglamasidagi xususiyatlarni tanlashi kerak. Tanlashning asosiy qoidasi shundan iboratki, tahlilga kiritilgan omillar bir-biri bilan imkon qadar kamroq korrelyatsiya qilishi kerak; faqat shu holatda ta'sirning miqdoriy o'lchovini ma'lum bir omil-atributga bog'lash mumkin.
  • 2. Ko'p regressiya tenglamasining shaklini tanlash(amalda chiziqli yoki chiziqli-logarifmik ko'proq qo'llaniladi). Shunday qilib, ko'p regressiyadan foydalanish uchun tadqiqotchi birinchi navbatda bir nechta mustaqil o'zgaruvchilarning natijaga ta'sirining gipotetik modelini qurishi kerak. Olingan natijalar ishonchli bo'lishi uchun model haqiqiy jarayonga to'liq mos kelishi kerak, ya'ni. o'zgaruvchilar orasidagi bog'lanish chiziqli bo'lishi kerak, birorta ham muhim mustaqil o'zgaruvchini e'tiborsiz qoldirib bo'lmaydi, xuddi shu tarzda, o'rganilayotgan jarayonga bevosita bog'liq bo'lmagan birorta ham o'zgaruvchini tahlilga kiritish mumkin emas. Bundan tashqari, o'zgaruvchilarning barcha o'lchovlari juda aniq bo'lishi kerak.

Yuqoridagi tavsifdan ushbu usulni qo'llash uchun bir qator shartlar kelib chiqadi, ularsiz ko'p regressiya tahlili (MRA) protsedurasiga o'tish mumkin emas. Faqat quyidagi barcha fikrlarga rioya qilish regressiya tahlilini to'g'ri bajarishga imkon beradi.

Statistik modellashtirishda regressiya tahlili o'zgaruvchilar o'rtasidagi munosabatlarni baholash uchun ishlatiladigan tadqiqotdir. Ushbu matematik usul qaram o'zgaruvchi va bir yoki bir nechta mustaqil o'zgaruvchilar o'rtasidagi munosabatlarga e'tibor qaratilayotganda bir nechta o'zgaruvchilarni modellashtirish va tahlil qilishning ko'plab boshqa usullarini o'z ichiga oladi. Aniqrog'i, regressiya tahlili, agar mustaqil o'zgaruvchilardan biri o'zgarsa, boshqa mustaqil o'zgaruvchilar doimiy qolsa, qaram o'zgaruvchining tipik qiymati qanday o'zgarishini tushunishga yordam beradi.

Barcha holatlarda maqsadli ball mustaqil o'zgaruvchilarning funktsiyasi bo'lib, regressiya funktsiyasi deb ataladi. Regressiya tahlilida, ehtimollik taqsimoti yordamida tavsiflanishi mumkin bo'lgan regressiya funktsiyasi sifatida qaram o'zgaruvchining o'zgarishini tavsiflash ham qiziqish uyg'otadi.

Regressiya tahlilining vazifalari

Ushbu statistik tadqiqot usuli prognozlash uchun keng qo'llaniladi, bu erda undan foydalanish muhim afzalliklarga ega, lekin ba'zida u illyuziya yoki noto'g'ri munosabatlarga olib kelishi mumkin, shuning uchun uni bu savolda ehtiyotkorlik bilan ishlatish tavsiya etiladi, chunki, masalan, korrelyatsiya degani emas. sabab-oqibat.

Ishlab chiqilgan katta raqam parametrik bo'lgan chiziqli va oddiy eng kichik kvadratlar regressiyasi kabi regressiya tahlilini amalga oshirish usullari. Ularning mohiyati shundan iboratki, regressiya funksiyasi ma'lumotlardan hisoblangan noma'lum parametrlarning chekli sonida aniqlanadi. Parametrik bo'lmagan regressiya uning funktsiyasi cheksiz o'lchovli bo'lishi mumkin bo'lgan ma'lum funktsiyalar to'plamida yotishiga imkon beradi.

Statistik tadqiqot usuli sifatida amaliyotda regressiya tahlili ma'lumotlarni yaratish jarayonining shakliga va uning regressiya yondashuvi bilan qanday bog'liqligiga bog'liq. Ma'lumotlar jarayonini yaratishning haqiqiy shakli odatda noma'lum raqam bo'lganligi sababli, ma'lumotlarni regressiya tahlili ko'pincha ma'lum darajada jarayon haqidagi taxminlarga bog'liq. Agar etarli ma'lumot mavjud bo'lsa, bu taxminlar ba'zan tekshirilishi mumkin. Regressiya modellari ko'pincha farazlar o'rtacha darajada buzilgan taqdirda ham foydali bo'ladi, garchi ular eng yaxshi natija bermasa ham.

Tor ma'noda regressiya tasniflashda qo'llaniladigan diskret javob o'zgaruvchilardan farqli o'laroq, doimiy javob o'zgaruvchilarini baholashga tegishli bo'lishi mumkin. Uzluksiz chiqish o'zgaruvchisining holati uni tegishli muammolardan ajratish uchun metrik regressiya deb ham ataladi.

Hikoya

Eng erta shakl regressiya eng kichik kvadratlarning mashhur usulidir. U 1805 yilda Legendre va 1809 yilda Gauss tomonidan nashr etilgan. Legendre va Gauss bu usulni astronomik kuzatishlar orqali jismlarning Quyosh atrofidagi orbitalarini (asosan kometalar, lekin keyinchalik yangi kashf etilgan kichik sayyoralar) aniqlash muammosiga qo'llaganlar. Gauss 1821 yilda eng kichik kvadratlar nazariyasining keyingi rivojlanishini, shu jumladan Gauss-Markov teoremasining variantini nashr etdi.

"Regressiya" atamasi 19-asrda Frensis Galton tomonidan biologik hodisani tasvirlash uchun kiritilgan. Xulosa shuki, ajdodlarning o'sishidan avlodlarning o'sishi, qoida tariqasida, normal o'rtacha darajaga tushadi. Galton uchun regressiya faqat shu biologik ma'noga ega edi, lekin keyinchalik uning ishi Udni Yoley va Karl Pirson tomonidan qabul qilindi va umumiy statistik kontekstga olib borildi. Yule va Pearson ishlarida javob va tushuntirish o'zgaruvchilarning birgalikda taqsimlanishi Gauss deb hisoblanadi. Bu taxmin Fisher tomonidan 1922 va 1925 yillardagi maqolalarda rad etilgan. Fisher javob o'zgaruvchisining shartli taqsimoti Gauss bo'lishini taklif qildi, ammo qo'shma taqsimot bo'lishi shart emas. Shu nuqtai nazardan, Fisherning taklifi Gaussning 1821 yildagi formulasiga yaqinroqdir. 1970 yilgacha regressiya tahlilining natijasini olish uchun ba'zan 24 soatgacha vaqt ketadi.

Regression tahlil usullari faol tadqiqot sohasi bo'lib qolmoqda. So'nggi o'n yilliklarda mustahkam regressiya uchun yangi usullar ishlab chiqildi; o'zaro bog'liq javoblarni o'z ichiga olgan regressiyalar; etishmayotgan ma'lumotlarning har xil turlarini joylashtiradigan regressiya usullari; parametrik bo'lmagan regressiya; Bayes regressiya usullari; bashorat qiluvchi o'zgaruvchilar xato bilan o'lchanadigan regressiyalar; Kuzatishlardan ko'ra ko'proq bashorat qiluvchi regressiyalar va regressiya bilan sababiy xulosalar.

Regressiya modellari

Regressiya tahlili modellari quyidagi o'zgaruvchilarni o'z ichiga oladi:

  • Skalar yoki vektor bo'lishi mumkin bo'lgan beta sifatida belgilangan noma'lum parametrlar.
  • Mustaqil o'zgaruvchilar, X.
  • Bog'liq o'zgaruvchilar, Y.

DA turli sohalar regressiya tahlili qo'llaniladigan fanlar bog'liq va mustaqil o'zgaruvchilar o'rniga turli atamalarni qo'llaydi, lekin barcha hollarda regressiya modeli Y ni X va b funktsiyasi bilan bog'laydi.

Taxminan odatda E (Y | X) = F (X, b) shaklida tuzilgan. Regressiya tahlilini amalga oshirish uchun f funksiyaning shakli aniqlanishi kerak. Kamdan kam hollarda, u ma'lumotlarga tayanmaydigan Y va X o'rtasidagi munosabatlar haqidagi bilimlarga asoslanadi. Agar bunday bilimlar mavjud bo'lmasa, unda moslashuvchan yoki qulay F shakli tanlanadi.

Bog'liq o'zgaruvchi Y

Endi faraz qilaylik, noma'lum parametrli b vektor uzunligi k ga ega. Regressiya tahlilini o'tkazish uchun foydalanuvchi Y bog'liq o'zgaruvchisi haqida ma'lumot berishi kerak:

  • Agar (Y, X) ko'rinishdagi N ma'lumotlar nuqtasi kuzatilsa, bu erda N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Agar aniq N = K kuzatilsa va F funksiya chiziqli bo'lsa, Y = F(X, b) tenglamani taxminan emas, balki aniq yechish mumkin. Bu, X chiziqli mustaqil bo'lsa, yagona yechimga ega bo'lgan N-noma'lumlar (b elementlari) bilan N-tenglamalar to'plamini echishga to'g'ri keladi. Agar F chiziqli bo'lmasa, yechim mavjud bo'lmasligi yoki ko'plab echimlar bo'lishi mumkin.
  • Eng tez-tez uchraydigan holat - bu ma'lumotlarning N > nuqtalari mavjud. Bunday holda, ma'lumotlarda ma'lumotlarga eng mos keladigan b ning yagona qiymatini baholash uchun etarli ma'lumot mavjud va ma'lumotlarga qo'llanganda regressiya modeli b da bekor qilingan tizim sifatida ko'rilishi mumkin.

Ikkinchi holda, regressiya tahlili quyidagi vositalarni taqdim etadi:

  • Noma'lum b parametrlari uchun yechim topish, masalan, Y ning o'lchangan va bashorat qilingan qiymati o'rtasidagi masofani minimallashtiradi.
  • Muayyan statistik taxminlarga ko'ra, regressiya tahlili noma'lum parametrlar b va Y bog'liq o'zgaruvchining prognoz qilingan qiymatlari haqida statistik ma'lumotlarni taqdim etish uchun ortiqcha ma'lumotlardan foydalanadi.

Mustaqil o'lchovlarning talab qilinadigan soni

Uchta noma'lum parametrga ega bo'lgan regressiya modelini ko'rib chiqaylik: b 0 , b 1 va b 2 . Faraz qilaylik, eksperimentator X vektorning mustaqil o'zgaruvchisining bir xil qiymatida 10 ta o'lchovni amalga oshiradi. Bunday holda, regressiya tahlili yagona qiymatlar to'plamini bermaydi. Qilish mumkin bo'lgan eng yaxshi narsa bu qaram o'zgaruvchi Y ning o'rtacha va standart og'ishini baholashdir. Xuddi shunday, ikkalasini o'lchash turli qiymatlar X, ikkita noma'lum regressiya uchun etarli ma'lumot olishingiz mumkin, lekin uch yoki undan ortiq noma'lum uchun emas.

Agar eksperimentatorning o'lchovlari X mustaqil vektor o'zgaruvchisining uch xil qiymatida olingan bo'lsa, regressiya tahlili b dagi uchta noma'lum parametr uchun noyob baholash to'plamini beradi.

Umumiy chiziqli regressiya holatida yuqoridagi bayonot X T X matritsasi teskari bo'lishi talabiga ekvivalentdir.

Statistik taxminlar

O'lchovlar soni N noma'lum parametrlar sonidan ko'p bo'lsa k va o'lchash xatolar e i , keyin, qoida tariqasida, u holda o'lchovlardagi ortiqcha ma'lumotlar taqsimlanadi va noma'lum parametrlar bo'yicha statistik bashorat qilish uchun ishlatiladi. Ushbu ortiqcha ma'lumot regressiya erkinligi darajasi deb ataladi.

Asosiy taxminlar

Regressiya tahlilining klassik taxminlariga quyidagilar kiradi:

  • Namuna olish xulosani bashorat qilishning vakili.
  • Xato tasodifiy o'zgaruvchi bo'lib, o'rtacha qiymati nolga teng bo'lib, tushuntirish o'zgaruvchilarga bog'liq.
  • Mustaqil o'zgaruvchilar xatosiz o'lchanadi.
  • Mustaqil o'zgaruvchilar (prediktorlar) sifatida ular chiziqli mustaqildir, ya'ni biron bir bashoratchini boshqalarning chiziqli birikmasi sifatida ifodalash mumkin emas.
  • Xatolar o'zaro bog'liq emas, ya'ni diagonallarning xato kovariatsiya matritsasi va har bir nolga teng bo'lmagan element xatoning dispersiyasidir.
  • Xato dispersiyasi kuzatuvlar bo'yicha doimiydir (homosedastiklik). Agar yo'q bo'lsa, unda eng kichik kvadratchalar yoki boshqa usullardan foydalanish mumkin.

Eng kichik kvadratlarni baholash uchun bu etarli shartlar zarur xususiyatlarga ega, xususan, bu taxminlar parametrlarni baholash ob'ektiv, izchil va samarali bo'lishini anglatadi, ayniqsa chiziqli baholar sinfida hisobga olinganda. Shuni ta'kidlash kerakki, haqiqiy ma'lumotlar kamdan-kam hollarda shartlarni qondiradi. Ya'ni, taxminlar to'g'ri bo'lmasa ham, usul qo'llaniladi. Taxminlardan farqlash ba'zan model qanchalik foydali ekanligini o'lchovi sifatida ishlatilishi mumkin. Ushbu taxminlarning ko'pchiligini ilg'or usullar bilan yumshatish mumkin. Statistik tahlil hisobotlari odatda namunaviy ma'lumotlarga nisbatan testlar tahlilini va modelning foydaliligi metodologiyasini o'z ichiga oladi.

Bundan tashqari, o'zgaruvchilar ba'zi hollarda nuqta joylarida o'lchangan qiymatlarga ishora qiladi. Statistik taxminlarni buzadigan o'zgaruvchilarda fazoviy tendentsiyalar va fazoviy avtokorrelyatsiyalar bo'lishi mumkin. Geografik vaznli regressiya bunday ma'lumotlar bilan shug'ullanadigan yagona usuldir.

Chiziqli regressiyada xususiyat shundaki, Y i bo'lgan qaram o'zgaruvchi parametrlarning chiziqli birikmasidir. Masalan, oddiy chiziqli regressiyada n-nuqtali modellashtirishda bitta mustaqil o‘zgaruvchi, x i va ikkita parametr, b 0 va b 1 dan foydalaniladi.

Ko'p chiziqli regressiyada bir nechta mustaqil o'zgaruvchilar yoki ularning funktsiyalari mavjud.

Populyatsiyadan tasodifiy tanlab olinganda, uning parametrlari chiziqli regressiya modeli namunasini olish imkonini beradi.

Bu jihatdan eng kichik kvadratlar usuli eng mashhur hisoblanadi. U qoldiqlarning kvadratlari yig'indisini minimallashtiradigan parametr baholarini beradi. Ushbu funktsiyani bunday minimallashtirish (chiziqli regressiyaga xos) oddiy tenglamalar to'plamiga va to'plamga olib keladi. chiziqli tenglamalar parametr baholarini olish uchun hal qilinadigan parametrlar bilan.

Populyatsiya xatosi odatda tarqaladi deb faraz qilsak, tadqiqotchi ushbu standart xatolar taxminlaridan ishonch oraliqlarini yaratish va uning parametrlari bo'yicha gipotezalarni tekshirish uchun foydalanishi mumkin.

Nochiziqli regressiya tahlili

Funktsiya parametrlarga nisbatan chiziqli bo'lmagan misol, kvadratlar yig'indisini takroriy protsedura bilan minimallashtirish kerakligini ko'rsatadi. Bu chiziqli va chiziqli bo'lmagan eng kichik kvadratlar usullari o'rtasidagi farqni aniqlaydigan ko'plab murakkabliklarni keltirib chiqaradi. Binobarin, chiziqli bo'lmagan usuldan foydalanganda regressiya tahlilining natijalari ba'zan oldindan aytib bo'lmaydi.

Quvvat va namuna hajmini hisoblash

Bu erda, qoida tariqasida, modeldagi mustaqil o'zgaruvchilar soniga nisbatan kuzatuvlar soni bo'yicha izchil usullar mavjud emas. Birinchi qoida Dobra va Xardin tomonidan taklif qilingan va N = t ^ n ga o'xshaydi, bu erda N - namuna hajmi, n - tushuntirish o'zgaruvchilar soni va t - agar modelda kerakli aniqlikka erishish uchun zarur bo'lgan kuzatishlar soni faqat bitta tushuntirish o'zgaruvchisi. Misol uchun, tadqiqotchi 1000 bemorni (N) o'z ichiga olgan ma'lumotlar to'plamidan foydalangan holda chiziqli regressiya modelini quradi. Agar tadqiqotchi chiziqni (m) aniq aniqlash uchun beshta kuzatish zarur deb qaror qilsa, model qo'llab-quvvatlaydigan tushuntirish o'zgaruvchilarning maksimal soni 4 tani tashkil qiladi.

Boshqa usullar

Regressiya modelining parametrlari odatda eng kichik kvadratlar usuli yordamida baholansa ham, kamroq qo'llaniladigan boshqa usullar ham mavjud. Masalan, bu quyidagi usullardir:

  • Bayes usullari (masalan, chiziqli regressiyaning Bayes usuli).
  • Foizli regressiya foizli xatolarni kamaytirish maqsadga muvofiq deb hisoblangan holatlar uchun ishlatiladi.
  • Kvantil regressiyaga olib keladigan chegaralar mavjud bo'lganda mustahkamroq bo'lgan eng kichik mutlaq og'ishlar.
  • Ko'p sonli kuzatish va hisob-kitoblarni talab qiladigan parametrik bo'lmagan regressiya.
  • Berilgan kirish maydonida ma'noli masofa ko'rsatkichini qidirishda o'rganiladigan o'rganish ko'rsatkichining masofasi.

Dasturiy ta'minot

Barcha asosiy statistik dasturlar paketlari eng kichik kvadratlar regressiya tahlili yordamida amalga oshiriladi. Oddiy chiziqli regressiya va ko'p regressiya tahlili ba'zi elektron jadval ilovalarida, shuningdek, ba'zi kalkulyatorlarda qo'llanilishi mumkin. Ko'pgina statistik dasturiy ta'minot paketlari parametrik bo'lmagan va mustahkam regressiyaning har xil turlarini amalga oshirishi mumkin bo'lsa-da, bu usullar kamroq standartlashtirilgan; turli dasturiy paketlar turli usullarni amalga oshiradi. So'rovni tahlil qilish va neyroimaging kabi sohalarda foydalanish uchun maxsus regressiya dasturi ishlab chiqilgan.

Regressiya tahlilining asosiy xususiyati shundan iboratki, uning yordamida o‘rganilayotgan o‘zgaruvchilar o‘rtasidagi munosabatlarning shakli va xarakteri haqida aniq ma’lumotlar olish mumkin.

Regressiya tahlili bosqichlarining ketma-ketligi

Keling, regressiya tahlilining bosqichlarini qisqacha ko'rib chiqaylik.

    Vazifani shakllantirish. Bu bosqichda o'rganilayotgan hodisalarning bog'liqligi haqida dastlabki farazlar shakllanadi.

    Bog'liq va mustaqil (tushuntiruvchi) o'zgaruvchilarning ta'rifi.

    Statistik ma'lumotlarni to'plash. Regressiya modeliga kiritilgan o'zgaruvchilarning har biri uchun ma'lumotlar to'planishi kerak.

    Bog'lanish shakli (oddiy yoki ko'p, chiziqli yoki chiziqli bo'lmagan) haqida gipotezani shakllantirish.

    Ta'rif regressiya funktsiyalari (regressiya tenglamasi parametrlarining raqamli qiymatlarini hisoblashdan iborat)

    Regressiya tahlilining to'g'riligini baholash.

    Olingan natijalarni talqin qilish. Regression tahlil natijalari dastlabki farazlar bilan solishtiriladi. Olingan natijalarning to'g'riligi va ishonchliligi baholanadi.

    Tobe o'zgaruvchining noma'lum qiymatlarini bashorat qilish.

Regressiya tahlili yordamida prognozlash va tasniflash muammosini hal qilish mumkin. Bashoratli qiymatlar tushuntirish o'zgaruvchilari qiymatlarini regressiya tenglamasiga almashtirish orqali hisoblanadi. Tasniflash masalasi shu tarzda hal qilinadi: regressiya chizig'i barcha ob'ektlar to'plamini ikki sinfga ajratadi va to'plamning funktsiyaning qiymati noldan katta bo'lgan qismi bitta sinfga va undan kichik bo'lgan qismiga kiradi. noldan boshqa sinfga tegishli.

Regressiya tahlilining vazifalari

Regressiya tahlilining asosiy vazifalarini ko'rib chiqing: bog'liqlik shaklini o'rnatish, aniqlash regressiya funktsiyalari, qaram o'zgaruvchining noma'lum qiymatlarini baholash.

Bog'liqlik shaklini o'rnatish.

O'zgaruvchilar o'rtasidagi munosabatlarning tabiati va shakli quyidagi regressiya turlarini shakllantirishi mumkin:

    ijobiy chiziqli regressiya (funktsiyaning bir xil o'sishi sifatida ifodalanadi);

    ijobiy bir xil tezlashtiruvchi regressiya;

    ijobiy bir xil ortib borayotgan regressiya;

    manfiy chiziqli regressiya (funktsiyaning bir xil pasayishi sifatida ifodalanadi);

    salbiy bir xil tezlashtirilgan pasayuvchi regressiya;

    salbiy bir xilda kamayuvchi regressiya.

Biroq, tasvirlangan navlar odatda sof shaklda topilmaydi, lekin bir-biri bilan birgalikda. Bunday holda, regressiyaning birlashtirilgan shakllari haqida gapiriladi.

Regressiya funktsiyasining ta'rifi.

Ikkinchi vazifa - asosiy omillar yoki sabablarning bog'liq o'zgaruvchiga ta'sirini aniqlash, boshqa barcha narsalar teng va tasodifiy elementlarning bog'liq o'zgaruvchisiga ta'sirini istisno qilish. regressiya funktsiyasi u yoki bu turdagi matematik tenglama sifatida aniqlanadi.

Bog'liq o'zgaruvchining noma'lum qiymatlarini baholash.

Ushbu muammoni hal qilish quyidagi turlardan birining muammosini hal qilishga qisqartiriladi:

    Dastlabki ma'lumotlarning ko'rib chiqilgan oralig'ida qaram o'zgaruvchining qiymatlarini baholash, ya'ni. etishmayotgan qiymatlar; bu interpolyatsiya muammosini hal qiladi.

    Bog'liq o'zgaruvchining kelajakdagi qiymatlarini baholash, ya'ni. dastlabki ma'lumotlarning berilgan oralig'idan tashqari qiymatlarni topish; bu ekstrapolyatsiya muammosini hal qiladi.

Ikkala muammo ham mustaqil o'zgaruvchilar qiymatlari parametrlarining topilgan baholarini regressiya tenglamasiga almashtirish orqali hal qilinadi. Tenglamani yechish natijasi maqsadli (qaram) o'zgaruvchining qiymatini baholashdir.

Keling, regressiya tahlili tayanadigan ba'zi taxminlarni ko'rib chiqaylik.

Lineerlik taxmini, ya'ni. ko'rib chiqilayotgan o'zgaruvchilar orasidagi bog'lanish chiziqli deb taxmin qilinadi. Shunday qilib, bu misolda biz tarqalish chizmasini qurdik va aniq chiziqli munosabatlarni ko'rishga muvaffaq bo'ldik. Agar o'zgaruvchilarning tarqalish chizig'ida biz chiziqli munosabatlarning aniq yo'qligini ko'rsak, ya'ni. chiziqli bo'lmagan munosabatlar mavjud, tahlilning chiziqli bo'lmagan usullaridan foydalanish kerak.

Oddiylik taxmini qoldiqlari. Bu bashorat qilingan va kuzatilgan qiymatlar o'rtasidagi farqning taqsimlanishi normal deb taxmin qiladi. Tarqatish xarakterini vizual tarzda aniqlash uchun siz gistogrammalardan foydalanishingiz mumkin qoldiqlari.

Regressiya tahlilidan foydalanganda uning asosiy cheklovini hisobga olish kerak. Bu shundan iboratki, regressiya tahlili ushbu bog'liqliklar asosidagi munosabatlarni emas, balki faqat bog'liqliklarni aniqlash imkonini beradi.

Regressiya tahlili bir nechta ma'lum qiymatlar asosida o'zgaruvchining kutilayotgan qiymatini hisoblash yo'li bilan o'zgaruvchilar orasidagi bog'lanish darajasini baholash imkonini beradi.

Regressiya tenglamasi.

Regressiya tenglamasi quyidagicha ko'rinadi: Y=a+b*X

Bu tenglamadan foydalanib, Y o'zgaruvchisi a doimiysi va chiziqning qiyaligi (yoki qiyaligi) b o'zgaruvchining X qiymatiga ko'paytirilishi bilan ifodalanadi. a doimiysi kesma deb ham ataladi va qiyalik regressiya hisoblanadi. koeffitsienti yoki B faktori.

Aksariyat hollarda (agar har doim bo'lmasa) regressiya chizig'i bo'yicha kuzatuvlarning ma'lum bir tarqalishi mavjud.

Qolgan alohida nuqtaning (kuzatishning) regressiya chizig'idan (bashorat qilingan qiymatdan) og'ishidir.

MS Excelda regressiya tahlili muammosini hal qilish uchun menyudan tanlang Xizmat"Tahlil to'plami" va regressiya tahlili vositasi. X va Y kiritish oraliqlarini belgilang Y kiritish oralig'i tahlil qilinayotgan bog'liq ma'lumotlar diapazoni bo'lib, u bitta ustunni o'z ichiga olishi kerak. Kirish oralig'i X - tahlil qilinadigan mustaqil ma'lumotlar diapazoni. Kirish diapazonlari soni 16 dan oshmasligi kerak.

Chiqish oralig'idagi protsedura chiqishida biz berilgan hisobotni olamiz 8.3a-jadval-8,3v.

NATIJALAR

8.3a-jadval. Regressiya statistikasi

Regressiya statistikasi

Bir nechta R

R-kvadrat

Normallashtirilgan R-kvadrat

standart xato

Kuzatishlar

Birinchidan, taqdim etilgan hisob-kitoblarning yuqori qismini ko'rib chiqing 8.3a-jadval, - regressiya statistikasi.

Qiymat R-kvadrat, shuningdek, aniqlik o'lchovi deb ataladi, natijada paydo bo'lgan regressiya chizig'ining sifatini tavsiflaydi. Ushbu sifat dastlabki ma'lumotlar va regressiya modeli (hisoblangan ma'lumotlar) o'rtasidagi muvofiqlik darajasi bilan ifodalanadi. Aniqlik o'lchovi har doim intervalda bo'ladi.

Ko'pgina hollarda, qiymat R-kvadrat ekstremal deb ataladigan bu qiymatlar orasida bo'ladi, ya'ni. nol va bir orasida.

Qiymat bo'lsa R-kvadrat birlikka yaqin bo'lsa, bu tuzilgan model mos keladigan o'zgaruvchilarning deyarli barcha o'zgaruvchanligini tushuntiradi. Aksincha, qiymat R-kvadrat, nolga yaqin, qurilgan modelning sifatsizligini bildiradi.

Bizning misolimizda aniqlik o'lchovi 0,99673 ni tashkil etadi, bu regressiya chizig'ining dastlabki ma'lumotlarga juda yaxshi mos kelishini ko'rsatadi.

koʻplik R - ko'p korrelyatsiya koeffitsienti R - mustaqil o'zgaruvchilar (X) va bog'liq o'zgaruvchilar (Y) bog'liqlik darajasini ifodalaydi.

Bir nechta R determinatsiya koeffitsientining kvadrat ildiziga teng, bu qiymat noldan birgacha bo'lgan qiymatlarni oladi.

Oddiy chiziqli regressiya tahlilida koʻplik R Pearson korrelyatsiya koeffitsientiga teng. Haqiqatan ham, koʻplik R bizning holatlarimizda u oldingi misoldagi (0,998364) Pearson korrelyatsiya koeffitsientiga teng.

8.3b-jadval. Regressiya koeffitsientlari

Imkoniyatlar

standart xato

t-statistika

Y - chorraha

O'zgaruvchi X 1

* Hisob-kitoblarning qisqartirilgan versiyasi berilgan

Endi taqdim etilgan hisob-kitoblarning o'rta qismini ko'rib chiqing jadval 8.3b. Bu erda regressiya koeffitsienti b (2,305454545) va y o'qi bo'ylab ofset berilgan, ya'ni. doimiy a (2,694545455).

Hisob-kitoblarga asoslanib, regressiya tenglamasini quyidagicha yozishimiz mumkin:

Y= x*2,305454545+2,694545455

O'zgaruvchilar o'rtasidagi munosabatlarning yo'nalishi regressiya koeffitsientlarining (b koeffitsienti) belgilari (salbiy yoki ijobiy) asosida aniqlanadi.

Agar regressiya koeffitsientining belgisi ijobiy bo'lsa, qaram o'zgaruvchi va mustaqil o'zgaruvchi o'rtasidagi munosabat ijobiy bo'ladi. Bizning holatlarimizda regressiya koeffitsientining belgisi ijobiy, shuning uchun munosabatlar ham ijobiydir.

Agar regressiya koeffitsientining belgisi manfiy bo'lsa, qaram o'zgaruvchi bilan mustaqil o'zgaruvchi o'rtasidagi munosabat manfiy (teskari) bo'ladi.

DA 8.3c jadval. chiqish natijalari keltirilgan qoldiqlari. Ushbu natijalar hisobotda paydo bo'lishi uchun "Regressiya" asbobini ishga tushirishda "Qoldiqlar" katagiga belgi qo'yish kerak.

QO'LIB BERISH

8.3c-jadval. Qolgan

Kuzatuv

Bashorat qilingan Y

Qolgan

Standart balanslar

Hisobotning ushbu qismidan foydalanib, biz har bir nuqtaning tuzilgan regressiya chizig'idan og'ishlarini ko'rishimiz mumkin. Eng katta mutlaq qiymat qolgan bizning holatlarimizda - 0,778, eng kichiki - 0,043. Ushbu ma'lumotlarni yaxshiroq talqin qilish uchun biz dastlabki ma'lumotlarning grafigidan va shaklda keltirilgan tuzilgan regressiya chizig'idan foydalanamiz. guruch. 8.3. Ko'rib turganingizdek, regressiya chizig'i dastlabki ma'lumotlarning qiymatlariga juda aniq "moslangan".

Shuni hisobga olish kerakki, ko'rib chiqilayotgan misol juda oddiy va chiziqli regressiya chizig'ini sifat jihatidan qurish har doim ham mumkin emas.

Guruch. 8.3. Dastlabki ma'lumotlar va regressiya chizig'i

Mustaqil o'zgaruvchining ma'lum qiymatlari asosida qaram o'zgaruvchining kelajakdagi noma'lum qiymatlarini baholash muammosi ko'rib chiqilmagan, ya'ni. bashorat qilish vazifasi.

Regressiya tenglamasiga ega bo'lgan holda, prognozlash muammosi ma'lum x qiymatlari bilan Y= x*2,305454545+2,694545455 tenglamasini yechishga keltiriladi. Y qaramlik o'zgaruvchisini olti qadam oldinda bashorat qilish natijalari keltirilgan 8.4-jadvalda.

8.4-jadval. Y o'zgaruvchan bashorat natijalari

Y (bashorat qilingan)

Shunday qilib, Microsoft Excel paketida regressiya tahlilidan foydalanish natijasida biz:

    regressiya tenglamasini tuzdi;

    bog'liqlik shakli va o'zgaruvchilar o'rtasidagi munosabatlar yo'nalishi - funktsiyaning bir xil o'sishida ifodalangan ijobiy chiziqli regressiya o'rnatildi;

    o'zgaruvchilar orasidagi munosabatlar yo'nalishini o'rnatdi;

    olingan regressiya chizig'ining sifatini baholadi;

    hisoblangan ma'lumotlarning dastlabki to'plam ma'lumotlaridan chetlanishlarini ko'rishga muvaffaq bo'ldi;

    qaram o'zgaruvchining kelajakdagi qiymatlarini bashorat qildi.

Agar a regressiya funktsiyasi aniqlanadi, talqin qilinadi va asoslanadi va regressiya tahlilining to'g'riligini baholash talablarga javob beradi, biz tuzilgan model va bashoratli qiymatlar etarlicha ishonchli deb taxmin qilishimiz mumkin.

Shu tarzda olingan bashorat qilingan qiymatlar kutilishi mumkin bo'lgan o'rtacha qiymatlardir.

Ushbu maqolada biz asosiy xususiyatlarni ko'rib chiqdik tavsiflovchi statistika kabi tushunchalar ham bor o'rtacha qiymati,median,maksimal,eng kam va ma'lumotlar o'zgarishining boshqa xususiyatlari.

Shuningdek, konsepsiyaning qisqacha muhokamasi bo‘lib o‘tdi emissiyalar. Ko'rib chiqilgan xususiyatlar tadqiqot ma'lumotlarini tahlil qilish deb ataladi, uning xulosalari umumiy aholi uchun emas, balki faqat ma'lumotlar namunasiga tegishli bo'lishi mumkin. Tadqiqot ma'lumotlarini tahlil qilish birlamchi xulosalar chiqarish va aholi to'g'risida farazlarni shakllantirish uchun ishlatiladi.

Shuningdek, korrelyatsiya va regressiya tahlilining asoslari, ularning vazifalari va amaliy foydalanish imkoniyatlari ko‘rib chiqildi.