Տվյալներ ռեգրեսիայի համար. Տվյալների վերլուծության հիմունքները

4-րդ գլխի նյութի ուսումնասիրության արդյունքում ուսանողը պետք է.

իմանալ

  • ռեգրեսիոն վերլուծության հիմնական հասկացությունները;
  • Նվազագույն քառակուսիների մեթոդի գնահատման մեթոդները և գնահատման հատկությունները.
  • նշանակության ստուգման և հավասարումների և ռեգրեսիայի գործակիցների ինտերվալային գնահատման հիմնական կանոնները.

ունակ լինել

  • նմուշի տվյալներից գտնել ռեգրեսիոն հավասարումների երկչափ և բազմակի մոդելների պարամետրերի գնահատականները, վերլուծել դրանց հատկությունները.
  • ստուգել հավասարումների և ռեգրեսիայի գործակիցների նշանակությունը.
  • գտնել նշանակալի պարամետրերի միջակայքային գնահատականները.

սեփական

  • երկչափ և բազմակի ռեգրեսիոն հավասարումների պարամետրերի վիճակագրական գնահատման հմտություններ. ռեգրեսիոն մոդելների համապատասխանությունը ստուգելու հմտություններ;
  • վերլուծական ծրագրերի միջոցով բոլոր նշանակալի գործակիցներով ռեգրեսիոն հավասարման ստացման հմտություններ:

Հիմնական հասկացություններ

Հարաբերակցության վերլուծություն կատարելուց հետո, երբ պարզվում է փոփոխականների միջև վիճակագրորեն նշանակալի կապերի առկայությունը և գնահատվում է դրանց խստության աստիճանը, նրանք սովորաբար անցնում են կախվածության տեսակի մաթեմատիկական նկարագրությանը՝ օգտագործելով ռեգրեսիոն վերլուծության մեթոդները: Այդ նպատակով ընտրվում է գործառույթների դաս, որը կապում է արդյունավետ ցուցանիշը ժամըև փաստարկները« հաշվարկել սահմանափակման հավասարման պարամետրերի գնահատումները և վերլուծել ստացված հավասարման ճշգրտությունը:

Ֆունկցիա| նկարագրում է արդյունավետ հատկանիշի պայմանական միջին արժեքի կախվածությունը ժամըարգումենտների տրված արժեքներից կոչվում է ռեգրեսիայի հավասարումը.

«Ռեգեսիա» տերմինը (լատ. ռեգրեսիա-նահանջ, վերադարձ դեպի ինչ-որ բան) ներկայացվել է անգլիացի հոգեբան և մարդաբան Ֆ. հայրերը շեղվում են բոլոր հայրերի միջին հասակից Xդյույմներով, ապա նրանց որդիների հասակը շեղվում է բոլոր որդիների միջին հասակից ավելի քիչ, քան xդյույմ Հայտնաբերված միտումը կոչվում էր հետընթաց դեպի միջին:

«Ռեգեսիա» տերմինը լայնորեն կիրառվում է վիճակագրական գրականության մեջ, թեև շատ դեպքերում այն ​​ճշգրիտ չի բնութագրում վիճակագրական կախվածությունը։

Ռեգրեսիոն հավասարման ճշգրիտ նկարագրության համար անհրաժեշտ է իմանալ արդյունավետ ցուցիչի բաշխման պայմանական օրենքը. y.Վիճակագրական պրակտիկայում նման տեղեկատվություն ստանալը սովորաբար անհնար է, հետևաբար, դրանք սահմանափակվում են ֆունկցիայի համար համապատասխան մոտարկումներ գտնելով. f(x u X 2, .... լ *), երևույթի նախնական իմաստալից վերլուծության կամ նախնական վիճակագրական տվյալների հիման վրա:

Ցուցանիշների վեկտորի բաշխման տեսակի վերաբերյալ անհատական ​​մոդելային ենթադրությունների շրջանակներում<) может быть получен общий вид ռեգրեսիայի հավասարումներ, որտեղ. Օրինակ՝ ենթադրելով, որ ցուցիչների ուսումնասիրված բազմությունը ենթարկվում է մաթեմատիկական ակնկալիքների վեկտորի ()-չափային նորմալ բաշխման օրենքին.

Որտեղ և ըստ կովարիանսի մատրիցով,

որտեղ է տարբերությունը y,

Ռեգրեսիոն հավասարումը (պայմանական ակնկալիք) ունի ձևը

Այսպիսով, եթե բազմաչափ պատահական փոփոխական է ()

ենթարկվում է ()-չափային նորմալ բաշխման օրենքին, այնուհետև արդյունավետ ցուցիչի ռեգրեսիայի հավասարմանը ժամըբացատրական փոփոխականներում ունի գծային in Xդիտել.

Այնուամենայնիվ, վիճակագրական պրակտիկայում մարդը սովորաբար պետք է սահմանափակվի անհայտ ճշմարիտ ռեգրեսիոն ֆունկցիայի համար հարմար մոտարկումներ գտնելով։ f(x),քանի որ հետազոտողը ճշգրիտ գիտելիքներ չունի վերլուծված կատարողականի ցուցանիշի հավանականության բաշխման պայմանական օրենքի մասին ժամըփաստարկների տրված արժեքների համար X.

Դիտարկենք ճշմարիտ, մոդելային և ռեգրեսիոն գնահատումների միջև կապը: Թող կատարողականի ցուցանիշը ժամըկապված վեճի հետ Xհարաբերակցությունը

որտեղ է պատահական փոփոխականը նորմալ բաշխման օրենքով, ընդ որում: Ճշմարիտ ռեգրեսիայի ֆունկցիան այս դեպքում է

Ենթադրենք, որ մենք չգիտենք ճշմարիտ ռեգրեսիոն հավասարման ձևը, բայց մենք ունենք ինը դիտարկում երկչափ պատահական փոփոխականի վրա, որը կապված է Նկ. 4.1.

Բրինձ. 4.1. Ճշմարիտի հարաբերական դիրքըf(x) և տեսականվայռեգրեսիայի մոդելներ

Կետերի գտնվելու վայրը նկ. 4.1-ը թույլ է տալիս մեզ սահմանափակվել ձևի գծային կախվածությունների դասով

Օգտագործելով նվազագույն քառակուսիների մեթոդը, մենք գտնում ենք ռեգրեսիայի հավասարման գնահատականը:

Համեմատության համար Նկ. 4.1-ը ցույց է տալիս իրական ռեգրեսիոն ֆունկցիայի և տեսական մոտավոր ռեգրեսիոն ֆունկցիայի գրաֆիկները: Ռեգրեսիոն հավասարման գնահատականը հավանականությամբ համընկնում է վերջինիս հետ վայընտրանքի չափի անսահմանափակ աճով ():

Քանի որ մենք սխալմամբ ընտրել ենք գծային ռեգրեսիոն ֆունկցիա իրական ռեգրեսիայի ֆունկցիայի փոխարեն, որը, ցավոք, բավականին տարածված է վիճակագրական հետազոտության պրակտիկայում, մեր վիճակագրական եզրակացությունները և գնահատումները չեն ունենա համապատասխանության հատկություն, այսինքն. որքան էլ մեծացնենք դիտարկումների ծավալը, մեր ընտրանքային գնահատականը չի համընկնի իրական ռեգրեսիայի ֆունկցիայի հետ

Եթե ​​մենք ճիշտ էինք ընտրել ռեգրեսիոն ֆունկցիաների դասը, ապա նկարագրության անճշտությունը օգտագործելով վայկբացատրվեր միայն նմուշի սահմանափակությամբ և, հետևաբար, այն կարող էր կամայականորեն փոքրանալ

Նախնական վիճակագրական տվյալներից արդյունավետ ցուցիչի պայմանական արժեքը և անհայտ ռեգրեսիոն ֆունկցիան լավագույնս վերականգնելու համար առավել հաճախ օգտագործվում են հետևյալը. համապատասխանության չափանիշներկորստի գործառույթներ.

1. Նվազագույն քառակուսի մեթոդ,ըստ որի արդյունավետ ցուցիչի դիտարկված արժեքների քառակուսի շեղումը մոդելային արժեքներից նվազագույնի է հասցվում, որտեղ ռեգրեսիոն հավասարման գործակիցները արգումենտների վեկտորի արժեքներն են «-M» դիտարկման մեջ. :

Լուծվում է վեկտորի գնահատական ​​գտնելու խնդիրը։ Ստացված ռեգրեսիան կոչվում է միջին քառակուսի.

2. Նվազագույն մոդուլների մեթոդ, ըստ որի մոդուլային արժեքներից արդյունավետ ցուցիչի դիտարկվող արժեքների բացարձակ շեղումների գումարը նվազագույնի է հասցվում, այսինքն.

Ստացված ռեգրեսիան կոչվում է նշանակում է բացարձակ(միջին):

3. մինիմաքս մեթոդնվազեցվում է արդյունավետ ցուցիչի դիտարկվող արժեքի առավելագույն շեղման մոդուլը նվազագույնի հասցնելու համար y,մոդելի արժեքից, այսինքն.

Ստացված ռեգրեսիան կոչվում է նվազագույն.

Գործնական կիրառություններում հաճախ հանդիպում են խնդիրներ, որոնցում ուսումնասիրվում է պատահական փոփոխականը y,կախված փոփոխականների մի շարքից և անհայտ պարամետրերից: Մենք կդիտարկենք () որպես (k + 1) - ծավալային ընդհանուր բնակչություն, որից պատահական նմուշ է ծավալում Պ,որտեղ ()-ը /-րդ դիտարկման արդյունքն է,. Դիտարկումների արդյունքների հիման վրա պահանջվում է գնահատել անհայտ պարամետրերը: Վերը նկարագրված առաջադրանքը վերաբերում է ռեգրեսիոն վերլուծության խնդիրներին:

ռեգրեսիոն վերլուծություն անվանել պատահական փոփոխականի կախվածության վիճակագրական վերլուծության մեթոդը ժամըռեգրեսիոն վերլուծության մեջ դիտարկվող փոփոխականների վրա որպես ոչ պատահական փոփոխականներ՝ անկախ բաշխման իրական օրենքից

ԱՐԴՅՈՒՆՔՆԵՐ

Աղյուսակ 8.3 ա. Ռեգրեսիայի վիճակագրություն
Ռեգրեսիայի վիճակագրություն
Բազմաթիվ Ռ 0,998364
R-քառակուսի 0,99673
Նորմալացված R-քառակուսի 0,996321
ստանդարտ սխալ 0,42405
Դիտարկումներ 10

Նախ դիտարկենք 8.3ա աղյուսակում ներկայացված հաշվարկների վերին մասը՝ ռեգրեսիոն վիճակագրությունը։

R-քառակուսի արժեքը, որը նաև կոչվում է որոշակիության չափանիշ, բնութագրում է ստացված ռեգրեսիոն գծի որակը: Այս որակն արտահայտվում է սկզբնական տվյալների և ռեգրեսիոն մոդելի (հաշվարկված տվյալների) միջև համապատասխանության աստիճանով։ Հստակության չափը միշտ միջակայքում է:

Շատ դեպքերում R-քառակուսի արժեքը գտնվում է այս արժեքների միջև, որոնք կոչվում են ծայրահեղություններ, այսինքն. զրոյի և մեկի միջև:

Եթե ​​R-քառակուսու արժեքը մոտ է մեկին, դա նշանակում է, որ կառուցված մոդելը բացատրում է համապատասխան փոփոխականների գրեթե ողջ փոփոխականությունը։ Ընդհակառակը, զրոյին մոտ R-քառակուսի արժեքը նշանակում է կառուցված մոդելի վատ որակ:

Մեր օրինակում որոշակիության չափը 0,99673 է, ինչը ցույց է տալիս ռեգրեսիոն գծի շատ լավ համապատասխանությունը սկզբնական տվյալներին:

Բազմաթիվ Ռ- բազմակի հարաբերակցության գործակից R - արտահայտում է անկախ փոփոխականների (X) և կախյալ փոփոխականների (Y) կախվածության աստիճանը:

Բազմակի R հավասար է քառակուսի արմատորոշման գործակիցից այս արժեքը վերցնում է արժեքներ զրոյից մինչև մեկ միջակայքում:

Պարզ գծային ռեգրեսիոն վերլուծության ժամանակ բազմակի R-ը հավասար է Պիրսոնի հարաբերակցության գործակցին: Իրոք, R-ի բազմապատիկը մեր դեպքում հավասար է նախորդ օրինակի Պիրսոնի հարաբերակցության գործակցին (0,998364):

Աղյուսակ 8.3բ. Ռեգրեսիայի գործակիցներ
Հնարավորություններ ստանդարտ սխալ t-վիճակագրություն
Y-հատում 2,694545455 0,33176878 8,121757129
Փոփոխական X 1 2,305454545 0,04668634 49,38177965
* Տրված է հաշվարկների կտրված տարբերակը

Այժմ դիտարկենք աղյուսակ 8.3b-ում ներկայացված հաշվարկների միջին մասը: Այստեղ տրված է ռեգրեսիայի գործակիցը b (2.305454545) և y առանցքի երկայնքով օֆսեթը, այսինքն. հաստատուն a (2.694545455):

Հաշվարկների հիման վրա մենք կարող ենք գրել ռեգրեսիայի հավասարումը հետևյալ կերպ.

Y= x*2.305454545+2.694545455

Փոփոխականների միջև կապի ուղղությունը որոշվում է նշանների հիման վրա (բացասական կամ դրական) ռեգրեսիայի գործակիցները(գործակից բ).

Եթե ​​նշանը ժամը ռեգրեսիայի գործակիցը- դրական, կախված փոփոխականի կապը անկախի հետ դրական կլինի: Մեր դեպքում ռեգրեսիայի գործակցի նշանը դրական է, հետեւաբար՝ դրական է նաեւ հարաբերությունը։

Եթե ​​նշանը ժամը ռեգրեսիայի գործակիցը- բացասական, կախված փոփոխականի և անկախ փոփոխականի միջև կապը բացասական է (հակադարձ):

Աղյուսակ 8.3c-ում: ներկայացված են մնացորդների թողարկման արդյունքները։ Որպեսզի այս արդյունքները հայտնվեն զեկույցում, դուք պետք է ակտիվացնեք «Մնացորդներ» վանդակը, երբ գործարկեք «Regression» գործիքը:

ՄՆԱՑՎԱԾ ՀԱՆՁՆՈՒՄԸ

Աղյուսակ 8.3c. Մնում է
Դիտարկում Կանխատեսեց Յ Մնում է Ստանդարտ մնացորդներ
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Օգտագործելով հաշվետվության այս հատվածը, մենք կարող ենք տեսնել յուրաքանչյուր կետի շեղումները կառուցված ռեգրեսիոն գծից: Մեծագույն բացարձակ արժեք

Ժամանակակից քաղաքագիտությունը բխում է հասարակության բոլոր երևույթների և գործընթացների փոխհարաբերությունների դիրքից։ Անհնար է հասկանալ իրադարձություններն ու գործընթացները, կանխատեսել և կառավարել քաղաքական կյանքի երևույթները՝ առանց ուսումնասիրելու հասարակության քաղաքական ոլորտում առկա կապերն ու կախվածությունները։ Քաղաքականության հետազոտության ամենատարածված խնդիրներից մեկը որոշ դիտարկելի փոփոխականների միջև կապի ուսումնասիրությունն է: Վերլուծության վիճակագրական մեթոդների մի ամբողջ դաս, որը միավորված է «ռեգեսիոն վերլուծություն» (կամ, ինչպես այն նաև կոչվում է, «հարաբերակցություն-ռեգեսիոն վերլուծություն») ընդհանուր անվանումով, օգնում է լուծել այս խնդիրը։ Այնուամենայնիվ, եթե հարաբերակցության վերլուծությունը հնարավորություն է տալիս գնահատել երկու փոփոխականների միջև կապի ուժը, ապա ռեգրեսիոն վերլուծության միջոցով հնարավոր է որոշել այս հարաբերության տեսակը, կանխատեսել ցանկացած փոփոխականի արժեքի կախվածությունը մեկ այլ փոփոխականի արժեքից: .

Նախ, եկեք հիշենք, թե ինչ է հարաբերակցությունը: Հարաբերականկոչվում է վիճակագրական հարաբերությունների ամենակարևոր հատուկ դեպք, որը բաղկացած է նրանից, որ մեկ փոփոխականի հավասար արժեքները համապատասխանում են տարբեր միջին արժեքներուրիշ. x հատկանիշի արժեքի փոփոխության դեպքում y հատկանիշի միջին արժեքը բնականաբար փոխվում է, մինչդեռ յուրաքանչյուր առանձին դեպքում հատկանիշի արժեքը. ժամը(տարբեր հավանականություններով) կարող է ընդունել բազմաթիվ տարբեր արժեքներ:

«Կոռելացիա» տերմինի հայտնվելը վիճակագրության մեջ (և քաղաքագիտությունը գրավում է վիճակագրության ձեռքբերումը իր խնդիրների լուծման համար, որը, հետևաբար, քաղաքագիտության հետ կապված առարկա է) կապված է անգլիացի կենսաբան և վիճակագիր Ֆրենսիս Գալթոնի անվան հետ, ով առաջարկել է 19-րդ դ. հարաբերակցության-ռեգեսիոն վերլուծության տեսական հիմունքները. Գիտության մեջ «կոռելացիա» տերմինը նախկինում հայտնի էր։ Մասնավորապես, պալեոնտոլոգիայում դեռեւս 18-րդ դ. այն կիրառել է ֆրանսիացի գիտնական Ժորժ Կյուվիեն։ Նա ներմուծեց այսպես կոչված հարաբերակցության օրենքը, որի օգնությամբ, ըստ պեղումների ժամանակ հայտնաբերված կենդանիների մնացորդների, հնարավոր եղավ վերականգնել նրանց տեսքը։

Այս գիտնականի անվան և նրա հարաբերակցության օրենքի հետ կապված հայտնի պատմություն կա. Այսպիսով, համալսարանական արձակուրդի օրերին ուսանողները, ովքեր որոշել էին խաբել հայտնի պրոֆեսորին, եղջյուրներով և սմբակներով այծի կաշվից քաշեցին մեկ ուսանողի վրա: Նա բարձրացավ Կյուվիեի ննջասենյակի պատուհանի մեջ և բղավեց. «Ես քեզ կուտեմ»։ Պրոֆեսորն արթնացավ, նայեց ուրվագիծին և պատասխանեց. «Եթե եղջյուրներ ու սմբակներ ունես, ուրեմն խոտակեր ես և ինձ չես կարող ուտել: Եվ հարաբերակցության օրենքի անտեղյակության համար դուք կստանաք դյուցազմ: Նա շուռ եկավ ու քնեց։ Կատակը կատակ է, բայց այս օրինակում մենք տեսնում ենք բազմակի հարաբերակցության-ռեգեսիոն վերլուծության օգտագործման հատուկ դեպք: Այստեղ պրոֆեսորը, հիմնվելով երկու դիտարկվող հատկանիշների արժեքների իմացության վրա (եղջյուրների և սմբակների առկայություն), հիմնվելով հարաբերակցության օրենքի վրա, ստացավ երրորդ հատկանիշի միջին արժեքը (դասը, որին պատկանում է այս կենդանին. խոտակեր է): Այս դեպքում մենք չենք խոսում այս փոփոխականի հատուկ արժեքի մասին (այսինքն, այս կենդանին կարող է անվանական մասշտաբով տարբեր արժեքներ վերցնել. դա կարող է լինել այծ, խոյ կամ ցուլ ...):

Այժմ անցնենք «հետընթաց» եզրույթին։ Խիստ ասած, դա կապված չէ վիճակագրական այն խնդիրների իմաստի հետ, որոնք լուծվում են այս մեթոդի օգնությամբ։ Տերմինի բացատրությունը կարող է տրվել միայն հատկանիշների միջև փոխհարաբերությունների ուսումնասիրման մեթոդների մշակման պատմության իմացության հիման վրա: Այս տեսակի ուսումնասիրությունների առաջին օրինակներից մեկը վիճակագիրներ Ֆ. Գալթոնի և Ք. X-հոր հասակը և U-երեխաների աճը): Իրենց ուսումնասիրության ընթացքում նրանք հաստատել են նախնական վարկածը, որ միջինում բարձրահասակ հայրերը միջին բարձրահասակ երեխաներ են մեծացնում: Նույն սկզբունքը վերաբերում է ցածր հայրերին և երեխաներին: Սակայն, եթե գիտնականները կանգ առնեին այնտեղ, նրանց աշխատանքները երբեք չէին նշվի վիճակագրության դասագրքերում։ Հետազոտողները գտել են մեկ այլ օրինաչափություն արդեն նշված հաստատված վարկածի շրջանակներում։ Նրանք ապացուցեցին, որ շատ բարձրահասակ հայրերը միջինում բարձրահասակ երեխաներ են տալիս, բայց հասակով շատ չեն տարբերվում այն ​​երեխաներից, որոնց հայրերը, թեև միջինից բարձր, բայց շատ չեն տարբերվում միջին հասակից: Նույնը վերաբերում է շատ փոքր հասակ ունեցող հայրերին (շեղվելով ցածրահասակ խմբի միջինից) - նրանց երեխաները միջինում հասակով չէին տարբերվում հասակակիցներից, որոնց հայրերը պարզապես ցածրահասակ էին: Նրանք անվանել են գործառույթը, որը նկարագրում է այս օրինաչափությունը ռեգրեսիոն ֆունկցիա.Այս ուսումնասիրությունից հետո բոլոր հավասարումները, որոնք նկարագրում են նմանատիպ գործառույթներ և կառուցված են նման ձևով, սկսեցին կոչվել ռեգրեսիոն հավասարումներ:

Ռեգրեսիոն վերլուծություն- բազմաչափ վիճակագրական տվյալների վերլուծության մեթոդներից մեկը, որը համատեղում է վիճակագրական տեխնիկայի մի շարք, որոնք նախատեսված են մեկ կախյալ և մի քանի (կամ մեկ) անկախ փոփոխականների միջև հարաբերությունները ուսումնասիրելու կամ մոդելավորելու համար: Կախված փոփոխականը, ըստ վիճակագրության մեջ ընդունված ավանդույթի, կոչվում է պատասխան և նշվում է որպես ՎԱնկախ փոփոխականները կոչվում են կանխատեսողներ և նշվում են որպես x.Վերլուծության ընթացքում որոշ փոփոխականներ թույլ կապ կունենան պատասխանի հետ և ի վերջո դուրս կմնան վերլուծությունից: Կախյալի հետ կապված մնացած փոփոխականները կարող են նաև կոչվել գործոններ:

Ռեգրեսիոն վերլուծությունը հնարավորություն է տալիս կանխատեսել մեկ կամ մի քանի փոփոխականների արժեքները՝ կախված մեկ այլ փոփոխականից (օրինակ՝ ոչ ավանդական քաղաքական վարքագծի հակումը՝ կախված կրթության մակարդակից) կամ մի քանի փոփոխականներից։ Այն հաշվարկվում է համակարգչի վրա: Ռեգրեսիոն հավասարում կազմելու համար, որը թույլ է տալիս չափել վերահսկվող հատկանիշի կախվածության աստիճանը գործոնայիններից, անհրաժեշտ է ներգրավել պրոֆեսիոնալ մաթեմատիկոս-ծրագրավորողների։ Ռեգրեսիոն վերլուծությունը կարող է անգնահատելի ծառայություն մատուցել քաղաքական իրավիճակի զարգացման կանխատեսող մոդելների ստեղծման, սոցիալական լարվածության պատճառների գնահատման և տեսական փորձարկումների իրականացման գործում: Ռեգրեսիոն վերլուծությունը ակտիվորեն օգտագործվում է քաղաքացիների ընտրական վարքագծի վրա մի շարք սոցիալ-ժողովրդագրական պարամետրերի ազդեցությունն ուսումնասիրելու համար՝ սեռ, տարիք, մասնագիտություն, բնակության վայր, ազգություն, եկամտի մակարդակ և բնույթ:

Ռեգրեսիոն վերլուծության առնչությամբ հասկացությունները անկախև կախյալփոփոխականներ. Անկախ փոփոխականը փոփոխական է, որը բացատրում կամ առաջացնում է մեկ այլ փոփոխականի փոփոխություն: Կախյալ փոփոխականը փոփոխական է, որի արժեքը բացատրվում է առաջին փոփոխականի ազդեցությամբ: Օրինակ՝ 2004 թվականի նախագահական ընտրություններում որոշիչ գործոնները, այսինքն. անկախ փոփոխականներ էին այնպիսի ցուցանիշներ, ինչպիսիք են երկրի բնակչության ֆինանսական վիճակի կայունացումը, թեկնածուների հանրաճանաչության մակարդակը և գործոնը. պաշտոնավարումը.Այս դեպքում թեկնածուներին տրված ձայների տոկոսը կարող է դիտարկվել որպես կախյալ փոփոխական։ Նմանապես, «ընտրողի տարիք» և «ընտրական ակտիվության մակարդակ» փոփոխականների զույգում առաջինն անկախ է, երկրորդը՝ կախված։

Ռեգրեսիոն վերլուծությունը թույլ է տալիս լուծել հետևյալ խնդիրները.

  • 1) հաստատել Ci-ի միջև վիճակագրորեն նշանակալի կապի առկայության կամ բացակայության փաստը x;
  • 2) կառուցել ռեգրեսիոն ֆունկցիայի լավագույն (վիճակագրական իմաստով) գնահատականները.
  • 3) ըստ տրված արժեքների Xանհայտի համար կանխատեսում կառուցել ժամը
  • 4) գնահատել յուրաքանչյուր գործոնի ազդեցության տեսակարար կշիռը Xվրա ժամըև, համապատասխանաբար, մոդելից բացառել աննշան հատկանիշները.
  • 5) փոփոխականների միջև պատճառահետևանքային կապեր հայտնաբերելով, մասամբ կառավարել P-ի արժեքները՝ կարգավորելով բացատրական փոփոխականների արժեքները. x.

Ռեգրեսիոն վերլուծությունը կապված է փոխադարձ անկախ փոփոխականների ընտրության անհրաժեշտության հետ, որոնք ազդում են ուսումնասիրվող ցուցանիշի արժեքի վրա, որոշում են ռեգրեսիոն հավասարման ձևը և գնահատում են պարամետրերը՝ օգտագործելով առաջնային սոցիոլոգիական տվյալների մշակման վիճակագրական մեթոդները: Այս տեսակի վերլուծությունը հիմնված է հարաբերությունների ձևի, ուղղության և սերտության (խտության) գաղափարի վրա: Տարբերել գոլորշու սենյակև բազմակի ռեգրեսիակախված ուսումնասիրված հատկանիշների քանակից. Գործնականում ռեգրեսիոն վերլուծությունը սովորաբար կատարվում է հարաբերակցության վերլուծության հետ համատեղ: Ռեգրեսիայի հավասարումնկարագրում է քանակությունների միջև թվային կապը, որն արտահայտվում է որպես մի փոփոխականի աճի կամ նվազման միտում, մինչդեռ մյուսը մեծանում կամ նվազում է: Միաժամանակ րազլ եւ հ ա յութ լ սառնամանիքև ոչ գծային ռեգրեսիա.Քաղաքական գործընթացները նկարագրելիս հավասարապես հանդիպում են հետընթացի երկու տարբերակները։

Scatterplot քաղաքական հոդվածների մեջ շահերի փոխկախվածության բաշխման համար ( U)և հարցվածների կրթությունը (X)գծային ռեգրեսիա է (նկ. 30):

Բրինձ. երեսուն.

Ընտրական ակտիվության մակարդակի բաշխման սխեման ( U)իսկ պատասխանողի տարիքը (Ա) (պայմանական օրինակ) ոչ գծային ռեգրեսիա է (նկ. 31):


Բրինձ. 31.

Զույգ ռեգրեսիոն մոդելում երկու հատկանիշների (A «և Y») փոխհարաբերությունները նկարագրելու համար օգտագործվում է գծային հավասարում.

որտեղ a-ն հավասարման սխալի պատահական արժեքն է հատկանիշների տատանումներով, այսինքն. հավասարման շեղում «գծայինությունից».

Գործակիցները գնահատելու համար աև բօգտագործել նվազագույն քառակուսիների մեթոդը, որը ենթադրում է, որ ցրման գծապատկերի յուրաքանչյուր կետի քառակուսի շեղումների գումարը ռեգրեսիայի գծից պետք է լինի նվազագույն: Հնարավորություններ ա հ բկարելի է հաշվարկել՝ օգտագործելով հավասարումների համակարգը.

Նվազագույն քառակուսիների գնահատման մեթոդը տալիս է գործակիցների նման գնահատականներ աև բ,որի համար ուղիղն անցնում է կոորդինատներով կետով Xև y,դրանք. կա հարաբերակցություն ժամը = կացին + բ.Ռեգրեսիայի հավասարման գրաֆիկական պատկերը կոչվում է տեսական ռեգրեսիայի գիծ.Գծային կախվածությամբ ռեգրեսիայի գործակիցը գրաֆիկի վրա ներկայացնում է տեսական ռեգրեսիոն գծի թեքության շոշափումը դեպի x առանցքը: Գործակիցի նշանը ցույց է տալիս հարաբերությունների ուղղությունը: Եթե ​​այն զրոյից մեծ է, ապա հարաբերությունն ուղիղ է, եթե փոքր է՝ հակադարձ։

Հետևյալ օրինակը «Քաղաքական Պետերբուրգ-2006» ուսումնասիրությունից (Աղյուսակ 56) ցույց է տալիս գծային հարաբերություններ քաղաքացիների կողմից ներկայում իրենց կյանքից բավարարվածության աստիճանի և ապագայում կյանքի որակի փոփոխության ակնկալիքների միջև: Միացումը ուղիղ է, գծային (ստանդարտացված ռեգրեսիոն գործակիցը 0,233 է, նշանակության մակարդակը՝ 0,000)։ Տվյալ դեպքում ռեգրեսիայի գործակիցը բարձր չէ, սակայն այն գերազանցում է վիճակագրական նշանակալի ցուցանիշի ստորին սահմանը (Պիրսոնի գործակցի վիճակագրական նշանակալի ցուցանիշի քառակուսու ստորին սահմանը)։

Աղյուսակ 56

Ներկայիս քաղաքացիների կյանքի որակի ազդեցությունը ակնկալիքների վրա

(Սանկտ Պետերբուրգ, 2006 թ.)

* Կախված փոփոխական. «Ինչպե՞ս եք կարծում, որ ձեր կյանքը կփոխվի առաջիկա 2-3 տարում»:

Քաղաքական կյանքում ուսումնասիրվող փոփոխականի արժեքը ամենից հաճախ միաժամանակ կախված է մի քանի հատկանիշներից։ Օրինակ, քաղաքական գործունեության մակարդակի և բնույթի վրա միաժամանակ ազդում են պետության քաղաքական ռեժիմը, քաղաքական ավանդույթները, տվյալ տարածքում մարդկանց քաղաքական վարքագծի առանձնահատկությունները և պատասխանողի սոցիալական միկրոխմբը, նրա տարիքը, կրթությունը, եկամուտը: մակարդակ, քաղաքական ուղղվածություն և այլն։ Այս դեպքում դուք պետք է օգտագործեք հավասարումը բազմակի ռեգրեսիա, որն ունի հետևյալ ձևը.

որտեղ գործակիցը բ.- մասնակի ռեգրեսիայի գործակիցը. Այն ցույց է տալիս յուրաքանչյուր անկախ փոփոխականի ներդրումը անկախ (արդյունք) փոփոխականի արժեքները որոշելու գործում: Եթե ​​մասնակի ռեգրեսիայի գործակիցը մոտ է 0-ին, ապա կարող ենք եզրակացնել, որ անկախ և կախյալ փոփոխականների միջև ուղղակի կապ չկա:

Նման մոդելի հաշվարկը կարող է իրականացվել համակարգչի վրա՝ օգտագործելով մատրիցային հանրահաշիվ: Բազմակի ռեգրեսիան թույլ է տալիս արտացոլել սոցիալական կապերի բազմագործոն բնույթը և պարզաբանել յուրաքանչյուր գործոնի ազդեցության չափը առանձին-առանձին և բոլորը միասին՝ ստացված հատկանիշի վրա:

Նշված է գործակիցը բ,կոչվում է գծային ռեգրեսիայի գործակից և ցույց է տալիս գործոնի հատկանիշի տատանումների միջև կապի ուժը Xև արդյունավետ հատկանիշի տատանումները ՅԱյս գործակիցը չափում է հարաբերությունների ուժը հատկանիշների չափման բացարձակ միավորներով։ Այնուամենայնիվ, հատկանիշների հարաբերակցության սերտությունը կարող է արտահայտվել նաև ստացված հատկանիշի ստանդարտ շեղումով (այդպիսի գործակիցը կոչվում է հարաբերակցության գործակից): Ի տարբերություն ռեգրեսիայի գործակցի բհարաբերակցության գործակիցը կախված չէ հատկանիշների չափման ընդունված միավորներից, և, հետևաբար, այն համեմատելի է ցանկացած հատկանիշների համար: Սովորաբար, կապը համարվում է ուժեղ, եթե /> 0.7, միջին խստությունը - 0.5 գ 0.5-ում:

Ինչպես գիտեք, ամենամոտ կապը ֆունկցիոնալ կապն է, երբ յուրաքանչյուր անհատական ​​արժեք է Յկարող է եզակի կերպով վերագրվել արժեքին x.Այսպիսով, որքան հարաբերակցության գործակիցը մոտ է 1-ին, այնքան հարաբերությունը մոտ է ֆունկցիոնալին: Ռեգրեսիոն վերլուծության համար նշանակալի մակարդակը չպետք է գերազանցի 0,001-ը:

Հարաբերակցության գործակիցը վաղուց համարվել է որպես հատկանիշների փոխհարաբերությունների սերտության հիմնական ցուցիչ։ Սակայն հետագայում նման ցուցանիշ դարձավ որոշման գործակիցը։ Այս գործակցի իմաստը հետևյալն է. այն արտացոլում է ստացված հատկանիշի ընդհանուր շեղման բաժինը ժամը, բացատրվում է հատկանիշի շեղումով x.Այն հայտնաբերվում է ուղղակի հարաբերակցության գործակիցը քառակուսու միջոցով (0-ից 1-ի փոխվելով) և, իր հերթին, գծային հարաբերությունների համար արտացոլում է 0-ից (0%) բաժինը: 1 (100%) բնորոշ արժեքներ Y,որոշվում է հատկանիշի արժեքներով x.Այն արձանագրված է որպես Ես 2,իսկ արդյունքում ստացված ռեգրեսիոն վերլուծության աղյուսակներում SPSS փաթեթում՝ առանց քառակուսու:

Նշենք բազմակի ռեգրեսիայի հավասարման կառուցման հիմնական խնդիրները:

  • 1. Ռեգրեսիայի հավասարման մեջ ներառված գործոնների ընտրություն:Այս փուլում հետազոտողը նախ կազմում է հիմնական պատճառների ընդհանուր ցանկը, որոնք, ըստ տեսության, որոշում են ուսումնասիրվող երեւույթը։ Այնուհետև նա պետք է ընտրի ռեգրեսիայի հավասարման հատկանիշները: Ընտրության հիմնական կանոնն այն է, որ վերլուծության մեջ ներառված գործոնները պետք է հնարավորինս քիչ փոխկապակցվեն միմյանց հետ. միայն այս դեպքում է հնարավոր որոշակի գործոն-ատրիբուտին վերագրել ազդեցության քանակական չափանիշ։
  • 2. Ընտրելով բազմակի ռեգրեսիայի հավասարման ձևը(գործնականում ավելի հաճախ օգտագործվում է գծային կամ գծային-լոգարիթմական)։ Այսպիսով, բազմակի ռեգրեսիա օգտագործելու համար հետազոտողը նախ պետք է կառուցի ստացվածի վրա մի քանի անկախ փոփոխականների ազդեցության հիպոթետիկ մոդել: Որպեսզի ստացված արդյունքները հուսալի լինեն, անհրաժեշտ է, որ մոդելը ճշգրտորեն համապատասխանի իրական գործընթացին, այսինքն. Փոփոխականների միջև կապը պետք է լինի գծային, ոչ մի էական անկախ փոփոխական չի կարող անտեսվել, ինչպես որ ոչ մի փոփոխական, որն անմիջականորեն կապված չէ ուսումնասիրվող գործընթացի հետ, չի կարող ներառվել վերլուծության մեջ: Բացի այդ, փոփոխականների բոլոր չափումները պետք է չափազանց ճշգրիտ լինեն:

Վերոնշյալ նկարագրությունից բխում են այս մեթոդի կիրառման մի շարք պայմաններ, առանց որոնց անհնար է անցնել բազմակի ռեգրեսիոն վերլուծության (MRA) ընթացակարգին: Միայն ստորև նշված բոլոր կետերին համապատասխանելը թույլ է տալիս ճիշտ իրականացնել ռեգրեսիոն վերլուծություն:

Վիճակագրական մոդելավորման մեջ ռեգրեսիոն վերլուծությունը ուսումնասիրություն է, որն օգտագործվում է փոփոխականների միջև կապը գնահատելու համար: Այս մաթեմատիկական մեթոդը ներառում է բազմաթիվ այլ մեթոդներ՝ մի քանի փոփոխականների մոդելավորման և վերլուծության համար, երբ ուշադրությունը կենտրոնացված է կախված փոփոխականի և մեկ կամ մի քանի անկախ փոփոխականների միջև փոխհարաբերությունների վրա: Ավելի կոնկրետ, ռեգրեսիոն վերլուծությունը օգնում է ձեզ հասկանալ, թե ինչպես է փոխվում կախված փոփոխականի բնորոշ արժեքը, եթե անկախ փոփոխականներից մեկը փոխվում է, մինչդեռ մյուս անկախ փոփոխականները մնում են ֆիքսված:

Բոլոր դեպքերում թիրախային միավորը անկախ փոփոխականների ֆունկցիա է և կոչվում է ռեգրեսիոն ֆունկցիա։ Ռեգրեսիոն վերլուծության մեջ հետաքրքրություն է ներկայացնում նաև կախված փոփոխականի փոփոխությունը որպես ռեգրեսիայի ֆունկցիա, որը կարելի է նկարագրել հավանականության բաշխման միջոցով:

Ռեգրեսիոն վերլուծության առաջադրանքներ

Վիճակագրական հետազոտության այս մեթոդը լայնորեն կիրառվում է կանխատեսումների համար, որտեղ դրա օգտագործումը զգալի առավելություն ունի, բայց երբեմն այն կարող է հանգեցնել պատրանքի կամ կեղծ հարաբերությունների, ուստի խորհուրդ է տրվում այն ​​ուշադիր օգտագործել այս հարցում, քանի որ, օրինակ, հարաբերակցությունը չի նշանակում. պատճառականություն.

Մշակված է մեծ թիվռեգրեսիոն վերլուծության կատարման մեթոդներ, ինչպիսիք են գծային և սովորական նվազագույն քառակուսիների ռեգրեսիան, որոնք պարամետրային են: Դրանց էությունն այն է, որ ռեգրեսիոն ֆունկցիան սահմանվում է սահմանափակ թվով անհայտ պարամետրերով, որոնք գնահատվում են տվյալների հիման վրա: Ոչ պարամետրիկ ռեգրեսիան թույլ է տալիս իր ֆունկցիան ընկած լինել որոշակի ֆունկցիաների շարքում, որը կարող է լինել անվերջ չափսեր:

Որպես վիճակագրական հետազոտության մեթոդ, ռեգրեսիոն վերլուծությունը գործնականում կախված է տվյալների ստեղծման գործընթացի ձևից և այն առնչությունից, թե ինչպես է այն առնչվում ռեգրեսիոն մոտեցմանը: Քանի որ տվյալների գործընթացի ստեղծման իրական ձևը սովորաբար անհայտ թիվ է, տվյալների ռեգրեսիոն վերլուծությունը հաճախ որոշ չափով կախված է գործընթացի վերաբերյալ ենթադրություններից: Այս ենթադրությունները երբեմն ստուգելի են, եթե առկա են բավարար տվյալներ: Ռեգրեսիոն մոդելները հաճախ օգտակար են նույնիսկ այն դեպքում, երբ ենթադրությունները չափավոր կերպով խախտվում են, թեև դրանք կարող են իրենց լավագույն արդյունքը չունենալ:

Ավելի նեղ իմաստով ռեգրեսիան կարող է վերաբերել հատկապես շարունակական արձագանքման փոփոխականների գնահատմանը, ի տարբերություն դասակարգման մեջ օգտագործվող դիսկրետ արձագանքման փոփոխականների: Շարունակական ելքային փոփոխականի դեպքը կոչվում է նաև մետրիկ ռեգրեսիա՝ այն հարակից խնդիրներից տարբերելու համար։

Պատմություն

Առավելագույնը վաղ ձևռեգրեսիան ամենափոքր քառակուսիների հայտնի մեթոդն է: Այն հրատարակվել է Լեժանդրի կողմից 1805 թվականին և Գաուսի կողմից 1809 թվականին։ Լեժանդրը և Գաուսը մեթոդը կիրառեցին աստղագիտական ​​դիտարկումներից Արեգակի շուրջ մարմինների (հիմնականում գիսաստղերի, բայց հետագայում նաև նոր հայտնաբերված փոքր մոլորակների) ուղեծրերը որոշելու խնդրին։ Գաուսը 1821 թվականին հրապարակեց նվազագույն քառակուսիների տեսության հետագա զարգացումը, ներառյալ Գաուս-Մարկովի թեորեմի տարբերակը։

«Ռեգեսիա» տերմինը ստեղծվել է Ֆրենսիս Գալթոնի կողմից 19-րդ դարում՝ կենսաբանական երևույթ նկարագրելու համար։ Եզրակացությունն այն էր, որ նախնիների աճից ժառանգների աճը, որպես կանոն, հետընթաց է գրանցում մինչև նորմալ միջինը: Գալթոնի համար ռեգրեսիան ուներ միայն այս կենսաբանական նշանակությունը, սակայն հետագայում նրա աշխատանքը վերցվեց Ուդնի Յոլեյի և Կարլ Փիրսոնի կողմից և տարվեց ավելի ընդհանուր վիճակագրական համատեքստում: Յուլի և Փիրսոնի աշխատության մեջ պատասխանի և բացատրական փոփոխականների համատեղ բաշխումը համարվում է Գաուսյան։ Այս ենթադրությունը մերժվել է Ֆիշերի կողմից 1922 և 1925 թվականների փաստաթղթերում։ Ֆիշերն առաջարկեց, որ պատասխան փոփոխականի պայմանական բաշխումը Գաուսյան է, բայց համատեղ բաշխումը պարտադիր չէ: Այս առումով Ֆիշերի առաջարկն ավելի մոտ է Գաուսի 1821 թ. Մինչև 1970 թվականը ռեգրեսիոն վերլուծության արդյունք ստանալու համար երբեմն պահանջվում էր մինչև 24 ժամ:

Ռեգրեսիոն վերլուծության մեթոդները շարունակում են մնալ ակտիվ հետազոտության ոլորտ: Վերջին տասնամյակների ընթացքում նոր մեթոդներ են մշակվել կայուն ռեգրեսիայի համար. ռեգրեսիաներ, որոնք ներառում են փոխկապակցված պատասխաններ; ռեգրեսիայի մեթոդներ, որոնք տեղավորում են բացակայող տվյալների տարբեր տեսակներ. ոչ պարամետրիկ ռեգրեսիա; Բայեսյան ռեգրեսիայի մեթոդներ; ռեգրեսիաներ, որոնցում կանխատեսող փոփոխականները չափվում են սխալմամբ. ռեգրեսիաներ՝ ավելի շատ կանխագուշակներով, քան դիտարկումներով, և պատճառահետևանքային եզրակացություններ՝ ռեգրեսիայով:

Ռեգրեսիայի մոդելներ

Ռեգրեսիոն վերլուծության մոդելները ներառում են հետևյալ փոփոխականները.

  • Անհայտ պարամետրեր, որոնք նշվում են որպես բետա, որոնք կարող են լինել սկալյար կամ վեկտոր:
  • Անկախ փոփոխականներ, X.
  • Կախված փոփոխականներ, Յ.

AT տարբեր ոլորտներԳիտությունները, որտեղ կիրառվում է ռեգրեսիոն վերլուծություն, կախված և անկախ փոփոխականների փոխարեն օգտագործում են տարբեր տերմիններ, սակայն բոլոր դեպքերում ռեգրեսիոն մոդելը Y-ը կապում է X և β ֆունկցիայի հետ:

Մոտավորությունը սովորաբար ձևակերպվում է որպես E (Y | X) = F (X, β): Ռեգրեսիոն վերլուծություն կատարելու համար պետք է որոշել f ֆունկցիայի ձևը։ Ավելի հազվադեպ, այն հիմնված է Y-ի և X-ի միջև փոխհարաբերությունների մասին գիտելիքների վրա, որոնք չեն հիմնվում տվյալների վրա: Եթե ​​նման գիտելիքներ չկան, ապա ընտրվում է ճկուն կամ հարմար F ձև:

Կախված փոփոխական Y

Այժմ ենթադրենք, որ β անհայտ պարամետրերի վեկտորն ունի k երկարություն։ Ռեգրեսիոն վերլուծություն կատարելու համար օգտագործողը պետք է տեղեկատվություն տրամադրի Y կախյալ փոփոխականի մասին.

  • Եթե ​​դիտարկվում են (Y, X) ձևի N տվյալների կետեր, որտեղ Ն< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Եթե ​​դիտարկվում են ճշգրիտ N = K, իսկ F ֆունկցիան գծային է, ապա Y = F(X, β) հավասարումը կարող է լուծվել ճշգրիտ, ոչ թե մոտավորապես: Սա հանգում է նրան, որ լուծենք N-հավասարումների մի շարք N-անհայտներով (β-ի տարրեր), որոնք ունեն յուրահատուկ լուծում, քանի դեռ X-ը գծային անկախ է: Եթե ​​F-ն ոչ գծային է, ապա լուծումը կարող է գոյություն չունենալ, կամ կարող են լինել բազմաթիվ լուծումներ:
  • Ամենատարածված իրավիճակն այն է, երբ տվյալների վրա կան N > կետեր: Այս դեպքում տվյալների մեջ կա բավարար տեղեկատվություն՝ β-ի եզակի արժեքը գնահատելու համար, որը լավագույնս համապատասխանում է տվյալներին, և ռեգրեսիոն մոդելը, երբ կիրառվում է տվյալների վրա, կարող է դիտվել որպես β-ի վերացված համակարգ:

Վերջին դեպքում ռեգրեսիոն վերլուծությունը տալիս է գործիքներ՝

  • Անհայտ β պարամետրերի լուծում գտնելը, որը, օրինակ, նվազագույնի կհասցնի Y-ի չափված և կանխատեսված արժեքների միջև եղած հեռավորությունը:
  • Որոշակի վիճակագրական ենթադրությունների համաձայն՝ ռեգրեսիոն վերլուծությունը օգտագործում է ավելցուկային տեղեկատվություն՝ վիճակագրական տեղեկատվություն տրամադրելու β անհայտ պարամետրերի և կախյալ Y փոփոխականի կանխատեսվող արժեքների մասին։

Պահանջվող քանակի անկախ չափումներ

Դիտարկենք ռեգրեսիոն մոդել, որն ունի երեք անհայտ պարամետր՝ β 0, β 1 և β 2: Ենթադրենք, որ փորձարարը X վեկտորի անկախ փոփոխականի նույն արժեքով կատարում է 10 չափումներ։ Այս դեպքում ռեգրեսիոն վերլուծությունը չի տալիս արժեքների եզակի հավաքածու։ Լավագույնը, որ կարելի է անել, կախված Y փոփոխականի միջին և ստանդարտ շեղումը գնահատելն է: Նմանապես, երկուսի չափումը տարբեր արժեքներ X, դուք կարող եք բավարար տվյալներ ստանալ երկու անհայտներով ռեգրեսիայի համար, բայց ոչ երեք կամ ավելի անհայտների համար:

Եթե ​​փորձարարի չափումները կատարվեին անկախ վեկտորային X փոփոխականի երեք տարբեր արժեքներով, ապա ռեգրեսիոն վերլուծությունը կտրամադրի գնահատումների եզակի հավաքածու β-ի երեք անհայտ պարամետրերի համար:

Ընդհանուր գծային ռեգրեսիայի դեպքում վերոնշյալ պնդումը համարժեք է X T X մատրիցը շրջելի լինելու պահանջին:

Վիճակագրական ենթադրություններ

Երբ չափումների N թիվը մեծ է k անհայտ պարամետրերի թվից և ε i չափման սխալներից, ապա, որպես կանոն, չափումների մեջ պարունակվող ավելցուկային տեղեկատվությունը բաշխվում և օգտագործվում է անհայտ պարամետրերի վերաբերյալ վիճակագրական կանխատեսումների համար: Տեղեկատվության այս ավելցուկը կոչվում է ռեգրեսիայի ազատության աստիճան։

Հիմքում ընկած ենթադրություններ

Ռեգրեսիայի վերլուծության դասական ենթադրությունները ներառում են.

  • Նմուշառումը ներկայացնում է եզրակացության կանխատեսումը:
  • Սխալը պատահական փոփոխական է՝ զրո միջին արժեքով, որը պայմանավորված է բացատրական փոփոխականներով։
  • Անկախ փոփոխականները չափվում են առանց սխալների:
  • Որպես անկախ փոփոխականներ (կանխատեսիչներ) դրանք գծային անկախ են, այսինքն՝ հնարավոր չէ որևէ կանխատեսիչ արտահայտել որպես մյուսների գծային համակցություն։
  • Սխալները փոխկապակցված չեն, այսինքն՝ անկյունագծերի սխալի կովարիանսի մատրիցը և յուրաքանչյուր ոչ զրոյական տարր սխալի շեղումն է։
  • Սխալի շեղումը մշտական ​​է դիտարկումների ընթացքում (հոմոսկեդաստիկություն): Եթե ​​ոչ, ապա կշռված նվազագույն քառակուսիները կամ այլ մեթոդներ կարող են օգտագործվել:

Նվազագույն քառակուսիների գնահատման համար այս բավարար պայմաններն ունեն պահանջվող հատկություններ, մասնավորապես, այս ենթադրությունները նշանակում են, որ պարամետրերի գնահատումները կլինեն օբյեկտիվ, հետևողական և արդյունավետ, հատկապես, երբ հաշվի են առնվում գծային գնահատումների դասում: Կարևոր է նշել, որ փաստացի տվյալները հազվադեպ են բավարարում պայմաններին: Այսինքն՝ մեթոդը կիրառվում է նույնիսկ եթե ենթադրությունները ճիշտ չեն։ Ենթադրություններից տատանումները երբեմն կարող են օգտագործվել որպես մոդելի օգտակարության չափ: Այս ենթադրություններից շատերը կարող են հանգստանալ ավելի առաջադեմ մեթոդներով: Վիճակագրական վերլուծության հաշվետվությունները սովորաբար ներառում են թեստերի վերլուծություն նմուշի տվյալների և մոդելի օգտակարության մեթոդաբանության նկատմամբ:

Բացի այդ, որոշ դեպքերում փոփոխականները վերաբերում են կետերի վայրերում չափված արժեքներին: Փոփոխականների մեջ կարող են լինել տարածական միտումներ և տարածական ավտոկոռելացիաներ, որոնք խախտում են վիճակագրական ենթադրությունները: Աշխարհագրական կշռված ռեգրեսիան միակ մեթոդն է, որը վերաբերում է նման տվյալներին:

Գծային ռեգրեսիայի առանձնահատկությունն այն է, որ կախյալ փոփոխականը, որը Y i է, պարամետրերի գծային համակցություն է։ Օրինակ՝ պարզ գծային ռեգրեսիայում n կետային մոդելավորումն օգտագործում է մեկ անկախ փոփոխական՝ x i և երկու պարամետր՝ β 0 և β 1:

Բազմակի գծային ռեգրեսիայում կան մի քանի անկախ փոփոխականներ կամ դրանց ֆունկցիաներ։

Երբ պատահականորեն ընտրվում է պոպուլյացիան, դրա պարամետրերը հնարավորություն են տալիս ստանալ գծային ռեգրեսիոն մոդելի նմուշ:

Այս առումով նվազագույն քառակուսիների մեթոդը ամենատարածվածն է: Այն ապահովում է պարամետրերի գնահատումներ, որոնք նվազագույնի են հասցնում մնացորդների քառակուսիների գումարը: Այս ֆունկցիայի նման մինիմումացումը (որը բնորոշ է գծային ռեգրեսիային) հանգեցնում է նորմալ հավասարումների և բազմության. գծային հավասարումներպարամետրերով, որոնք լուծվում են պարամետրերի գնահատումներ ստանալու համար:

Հետագայում ենթադրելով, որ բնակչության սխալը ընդհանուր առմամբ տարածվում է, հետազոտողը կարող է օգտագործել ստանդարտ սխալների այս գնահատումները վստահության միջակայքեր ստեղծելու և դրա պարամետրերի վերաբերյալ վարկածների թեստավորում իրականացնելու համար:

Ոչ գծային ռեգրեսիոն վերլուծություն

Օրինակ, որտեղ ֆունկցիան գծային չէ պարամետրերի նկատմամբ, ցույց է տալիս, որ քառակուսիների գումարը պետք է նվազագույնի հասցվի կրկնվող ընթացակարգով: Սա բերում է բազմաթիվ բարդությունների, որոնք սահմանում են գծային և ոչ գծային նվազագույն քառակուսիների մեթոդների տարբերությունները: Հետևաբար, ոչ գծային մեթոդ կիրառելիս ռեգրեսիոն վերլուծության արդյունքները երբեմն անկանխատեսելի են:

Հզորության և նմուշի չափի հաշվարկ

Այստեղ, որպես կանոն, չկան մոդելի անկախ փոփոխականների թվի համեմատ դիտարկումների քանակի հետ կապված հետևողական մեթոդներ: Առաջին կանոնը առաջարկվել է Դոբրան և Հարդինի կողմից և նման է N = t^n, որտեղ N-ը ընտրանքի չափն է, n-ը բացատրական փոփոխականների թիվն է և t-ը ցանկալի ճշգրտության հասնելու համար անհրաժեշտ դիտարկումների թիվն է, եթե մոդելն ուներ միայն մեկ բացատրական փոփոխական: Օրինակ, հետազոտողը կառուցում է գծային ռեգրեսիայի մոդել՝ օգտագործելով տվյալների բազա, որը պարունակում է 1000 հիվանդ (N): Եթե ​​հետազոտողը որոշի, որ գիծը (m) ճշգրիտ որոշելու համար անհրաժեշտ է հինգ դիտարկում, ապա բացատրական փոփոխականների առավելագույն թիվը, որոնք մոդելը կարող է աջակցել, 4 է:

Այլ մեթոդներ

Թեև ռեգրեսիոն մոդելի պարամետրերը սովորաբար գնահատվում են նվազագույն քառակուսիների մեթոդով, կան այլ մեթոդներ, որոնք շատ ավելի հազվադեպ են օգտագործվում: Օրինակ, սրանք հետևյալ մեթոդներն են.

  • Բայեսյան մեթոդներ (օրինակ՝ գծային ռեգրեսիայի բայեսյան մեթոդ)։
  • Տոկոսային ռեգրեսիա, որն օգտագործվում է այն իրավիճակների համար, որտեղ տոկոսային սխալների կրճատումն ավելի նպատակահարմար է համարվում:
  • Ամենափոքր բացարձակ շեղումները, որոնք ավելի կայուն են քվանտիլային ռեգրեսիայի տանող ծայրամասերի առկայության դեպքում:
  • Ոչ պարամետրիկ ռեգրեսիա, որը պահանջում է մեծ թվով դիտարկումներ և հաշվարկներ:
  • Ուսուցման չափման հեռավորությունը, որը սովորվում է տվյալ մուտքային տարածության մեջ իմաստալից հեռավորության չափման որոնման մեջ:

Ծրագրային ապահովում

Բոլոր հիմնական վիճակագրական ծրագրային փաթեթները կատարվում են նվազագույն քառակուսիների ռեգրեսիոն վերլուծության միջոցով: Պարզ գծային ռեգրեսիան և բազմակի ռեգրեսիոն վերլուծությունը կարող են օգտագործվել որոշ աղյուսակային հավելվածներում, ինչպես նաև որոշ հաշվիչներում: Թեև շատ վիճակագրական ծրագրային փաթեթներ կարող են իրականացնել տարբեր տեսակի ոչ պարամետրային և կայուն ռեգրեսիա, այս մեթոդներն ավելի քիչ ստանդարտացված են. տարբեր ծրագրային փաթեթներ իրականացնում են տարբեր մեթոդներ: Մասնագիտացված ռեգրեսիայի ծրագրակազմը մշակվել է այնպիսի ոլորտներում օգտագործելու համար, ինչպիսիք են հետազոտության վերլուծությունը և նեյրոպատկերումը:

Ռեգրեսիոն վերլուծության հիմնական առանձնահատկությունն այն է, որ այն կարող է օգտագործվել ուսումնասիրվող փոփոխականների միջև փոխհարաբերությունների ձևի և բնույթի վերաբերյալ կոնկրետ տեղեկատվություն ստանալու համար:

Ռեգրեսիոն վերլուծության փուլերի հաջորդականությունը

Եկեք համառոտ դիտարկենք ռեգրեսիոն վերլուծության փուլերը:

    Առաջադրանքի ձևակերպում. Այս փուլում ձևավորվում են ուսումնասիրված երևույթների կախվածության վերաբերյալ նախնական վարկածներ։

    Կախյալ և անկախ (բացատրական) փոփոխականների սահմանում.

    Վիճակագրական տվյալների հավաքագրում. Տվյալները պետք է հավաքվեն ռեգրեսիոն մոդելում ներառված յուրաքանչյուր փոփոխականի համար:

    Կապի ձևի վերաբերյալ վարկածի ձևակերպում (պարզ կամ բազմակի, գծային կամ ոչ գծային):

    Սահմանում ռեգրեսիայի գործառույթներ (բաղկացած է ռեգրեսիոն հավասարման պարամետրերի թվային արժեքների հաշվարկից)

    Ռեգրեսիոն վերլուծության ճշգրտության գնահատում.

    Ստացված արդյունքների մեկնաբանություն. Ռեգրեսիոն վերլուծության արդյունքները համեմատվում են նախնական վարկածների հետ։ Գնահատվում է ստացված արդյունքների ճիշտությունն ու հավաստիությունը։

    Կախված փոփոխականի անհայտ արժեքների կանխատեսում:

Ռեգրեսիոն վերլուծության օգնությամբ հնարավոր է լուծել կանխատեսման և դասակարգման խնդիրը։ Կանխատեսող արժեքները հաշվարկվում են՝ փոխարինելով բացատրական փոփոխականների արժեքները ռեգրեսիայի հավասարման մեջ: Դասակարգման խնդիրը լուծվում է այսպես. ռեգրեսիայի գիծը օբյեկտների ամբողջ բազմությունը բաժանում է երկու դասի, և բազմության այն մասը, որտեղ ֆունկցիայի արժեքը զրոյից մեծ է, պատկանում է մեկ դասի, իսկ այն մասը, որտեղ այն փոքր է։ քան զրոն պատկանում է մեկ այլ դասի:

Ռեգրեսիոն վերլուծության առաջադրանքներ

Դիտարկենք ռեգրեսիոն վերլուծության հիմնական խնդիրները՝ կախվածության ձևի սահմանում, որոշում ռեգրեսիայի գործառույթներ, կախված փոփոխականի անհայտ արժեքների գնահատում:

Կախվածության ձևի հաստատում.

Փոփոխականների միջև կապի բնույթն ու ձևը կարող են ձևավորել ռեգրեսիայի հետևյալ տեսակները.

    դրական գծային ռեգրեսիա (արտահայտվում է որպես ֆունկցիայի միատեսակ աճ);

    դրական միատեսակ արագացող ռեգրեսիա;

    դրական միատեսակ աճող ռեգրեսիա;

    բացասական գծային ռեգրեսիա (արտահայտվում է որպես ֆունկցիայի միատեսակ անկում);

    բացասական միատեսակ արագացված նվազող ռեգրեսիա;

    բացասական միատեսակ նվազող ռեգրեսիա:

Այնուամենայնիվ, նկարագրված սորտերը սովորաբար հայտնաբերվում են ոչ թե մաքուր տեսքով, այլ միմյանց հետ համակցված: Այս դեպքում խոսվում է ռեգրեսիայի համակցված ձևերի մասին։

Ռեգրեսիայի ֆունկցիայի սահմանում.

Երկրորդ խնդիրն է որոշել հիմնական գործոնների կամ պատճառների կախված փոփոխականի վրա ազդեցությունը, մյուս բոլոր բաները հավասար են և ենթակա են բացառման պատահական տարրերի կախված փոփոխականի վրա ազդեցության: ռեգրեսիոն ֆունկցիասահմանվում է որպես այս կամ այն ​​տեսակի մաթեմատիկական հավասարում:

Կախված փոփոխականի անհայտ արժեքների գնահատում:

Այս խնդրի լուծումը կրճատվում է հետևյալ տեսակներից մեկի խնդրի լուծմանը.

    Կախված փոփոխականի արժեքների գնահատում նախնական տվյալների դիտարկվող միջակայքում, այսինքն. բացակայող արժեքներ; սա լուծում է ինտերպոլացիայի խնդիրը:

    Կախված փոփոխականի ապագա արժեքների գնահատում, այսինքն. սկզբնական տվյալների տվյալ միջակայքից դուրս արժեքներ գտնելը. սա լուծում է էքստրապոլյացիայի խնդիրը:

Երկու խնդիրներն էլ լուծվում են՝ փոխարինելով անկախ փոփոխականների արժեքների պարամետրերի հայտնաբերված գնահատականները ռեգրեսիայի հավասարման մեջ: Հավասարման լուծման արդյունքը նպատակային (կախյալ) փոփոխականի արժեքի գնահատումն է։

Եկեք դիտարկենք որոշ ենթադրություններ, որոնց վրա հիմնվում է ռեգրեսիոն վերլուծությունը:

Գծայինության ենթադրություն, այսինքն. ենթադրվում է, որ դիտարկվող փոփոխականների միջև կապը գծային է: Այսպիսով, այս օրինակում մենք կառուցեցինք ցրված սյուժե և կարողացանք տեսնել հստակ գծային հարաբերություն: Եթե ​​փոփոխականների ցրվածության վրա մենք տեսնում ենք գծային հարաբերությունների հստակ բացակայություն, այսինքն. կա ոչ գծային հարաբերություն, պետք է կիրառվեն վերլուծության ոչ գծային մեթոդներ։

Նորմալության ենթադրություն մնացորդներ. Այն ենթադրում է, որ կանխատեսված և դիտարկված արժեքների միջև տարբերության բաշխումը նորմալ է: Բաշխման բնույթը տեսողականորեն որոշելու համար կարող եք օգտագործել հիստոգրամներ մնացորդներ.

Ռեգրեսիոն վերլուծություն օգտագործելիս պետք է հաշվի առնել դրա հիմնական սահմանափակումը։ Այն բաղկացած է նրանից, որ ռեգրեսիոն վերլուծությունը թույլ է տալիս բացահայտել միայն կախվածությունները, և ոչ թե հարաբերությունները, որոնք ընկած են այդ կախվածությունների հիմքում:

Ռեգրեսիոն վերլուծությունը հնարավորություն է տալիս գնահատել փոփոխականների միջև կապի աստիճանը` հաշվարկելով փոփոխականի ակնկալվող արժեքը մի քանի հայտնի արժեքների հիման վրա:

Ռեգրեսիայի հավասարում.

Ռեգրեսիայի հավասարումն ունի հետևյալ տեսքը՝ Y=a+b*X

Օգտագործելով այս հավասարումը, Y փոփոխականն արտահայտվում է a հաստատունով և գծի (կամ թեքության) b թեքությամբ՝ բազմապատկված X փոփոխականի արժեքով: a հաստատունը նաև կոչվում է հատում, իսկ թեքությունը՝ ռեգրեսիա գործակից կամ B-գործոն:

Շատ դեպքերում (եթե ոչ միշտ) կա ռեգրեսիոն գծի վերաբերյալ դիտարկումների որոշակի ցրվածություն:

Մնացորդը առանձին կետի (դիտարկման) շեղումն է ռեգրեսիայի գծից (կանխատեսված արժեք):

MS Excel-ում ռեգրեսիոն վերլուծության խնդիրը լուծելու համար ընտրացանկից ընտրեք Ծառայություն«Վերլուծական փաթեթ»և ռեգրեսիայի վերլուծության գործիքը: Նշեք X և Y մուտքային միջակայքերը: Y մուտքային միջակայքը վերլուծվող կախված տվյալների միջակայքն է և պետք է ներառի մեկ սյունակ: X մուտքագրման միջակայքը անկախ տվյալների տիրույթն է, որը պետք է վերլուծվի: Մուտքային միջակայքերի թիվը չպետք է գերազանցի 16-ը:

Արդյունքների միջակայքում ընթացակարգի ելքում մենք ստանում ենք ներկայացված հաշվետվությունը աղյուսակ 8.3 ա-8.3 վ.

ԱՐԴՅՈՒՆՔՆԵՐ

Աղյուսակ 8.3 ա. Ռեգրեսիայի վիճակագրություն

Ռեգրեսիայի վիճակագրություն

Բազմաթիվ Ռ

R-քառակուսի

Նորմալացված R-քառակուսի

ստանդարտ սխալ

Դիտարկումներ

Նախ, հաշվի առեք ներկայացված հաշվարկների վերին մասը աղյուսակ 8.3 ա, - ռեգրեսիայի վիճակագրություն.

Արժեք R-քառակուսի, որը նաև կոչվում է որոշակիության չափանիշ, բնութագրում է ստացված ռեգրեսիոն գծի որակը։ Այս որակն արտահայտվում է սկզբնական տվյալների և ռեգրեսիոն մոդելի (հաշվարկված տվյալների) միջև համապատասխանության աստիճանով։ Հստակության չափը միշտ միջակայքում է:

Շատ դեպքերում արժեքը R-քառակուսիգտնվում է այս արժեքների միջև, որը կոչվում է ծայրահեղ, այսինքն. զրոյի և մեկի միջև:

Եթե ​​արժեքը R-քառակուսիմոտ միասնությանը, սա նշանակում է, որ կառուցված մոդելը բացատրում է համապատասխան փոփոխականների գրեթե ողջ փոփոխականությունը։ Ընդհակառակը, արժեքը R-քառակուսիզրոյին մոտ, նշանակում է կառուցված մոդելի վատ որակ։

Մեր օրինակում որոշակիության չափը 0,99673 է, ինչը ցույց է տալիս ռեգրեսիոն գծի շատ լավ համապատասխանությունը սկզբնական տվյալներին:

հոգնակի Ռ - բազմակի հարաբերակցության գործակից R - արտահայտում է անկախ փոփոխականների (X) և կախյալ փոփոխականների (Y) կախվածության աստիճանը:

Բազմաթիվ Ռհավասար է որոշման գործակիցի քառակուսի արմատին, այս արժեքը արժեքներ է վերցնում զրոյից մինչև մեկ միջակայքում:

Պարզ գծային ռեգրեսիոն վերլուծության մեջ հոգնակի Ռհավասար է Պիրսոնի հարաբերակցության գործակցին: Իսկապես, հոգնակի Ռմեր դեպքում այն ​​հավասար է նախորդ օրինակի Պիրսոնի հարաբերակցության գործակցին (0.998364):

Աղյուսակ 8.3բ. Ռեգրեսիայի գործակիցներ

Հնարավորություններ

ստանդարտ սխալ

t-վիճակագրություն

Y-հատում

Փոփոխական X 1

* Տրված է հաշվարկների կտրված տարբերակը

Այժմ հաշվի առեք ներկայացված հաշվարկների միջին մասը աղյուսակ 8.3բ. Այստեղ տրված է ռեգրեսիայի գործակիցը b (2.305454545) և y առանցքի երկայնքով օֆսեթը, այսինքն. հաստատուն a (2.694545455):

Հաշվարկների հիման վրա մենք կարող ենք գրել ռեգրեսիայի հավասարումը հետևյալ կերպ.

Y= x*2.305454545+2.694545455

Փոփոխականների միջև կապի ուղղությունը որոշվում է ռեգրեսիոն գործակիցների (բ գործակից) նշանների (բացասական կամ դրական) հիման վրա:

Եթե ​​ռեգրեսիայի գործակցի նշանը դրական է, ապա կախված փոփոխականի և անկախ փոփոխականի միջև կապը կլինի դրական: Մեր դեպքում ռեգրեսիայի գործակցի նշանը դրական է, հետեւաբար՝ դրական է նաեւ հարաբերությունը։

Եթե ​​ռեգրեսիայի գործակցի նշանը բացասական է, ապա կախված փոփոխականի և անկախ փոփոխականի միջև կապը բացասական է (հակադարձ):

AT աղյուսակ 8.3c. ներկայացվում են ելքային արդյունքները մնացորդներ. Որպեսզի այս արդյունքները հայտնվեն զեկույցում, դուք պետք է ակտիվացնեք «Մնացորդներ» վանդակը, երբ գործարկեք «Regression» գործիքը:

ՄՆԱՑՎԱԾ ՀԱՆՁՆՈՒՄԸ

Աղյուսակ 8.3c. Մնում է

Դիտարկում

Կանխատեսեց Յ

Մնում է

Ստանդարտ մնացորդներ

Օգտագործելով հաշվետվության այս հատվածը, մենք կարող ենք տեսնել յուրաքանչյուր կետի շեղումները կառուցված ռեգրեսիոն գծից: Մեծագույն բացարձակ արժեք մնացորդըմեր դեպքում՝ 0,778, ամենափոքրը՝ 0,043։ Այս տվյալների ավելի լավ մեկնաբանության համար մենք կօգտագործենք սկզբնական տվյալների գրաֆիկը և կառուցված ռեգրեսիոն գիծը, որը ներկայացված է Նկ. բրինձ. 8.3. Ինչպես տեսնում եք, ռեգրեսիայի գիծը բավականին ճշգրիտ «տեղավորվում է» սկզբնական տվյալների արժեքներին:

Պետք է հաշվի առնել, որ դիտարկվող օրինակը բավականին պարզ է և միշտ չէ, որ հնարավոր է որակապես գծային ռեգրեսիոն գիծ կառուցել։

Բրինձ. 8.3.Սկզբնական տվյալներ և ռեգրեսիոն գիծ

Անկախ փոփոխականի հայտնի արժեքների հիման վրա կախված փոփոխականի անհայտ ապագա արժեքների գնահատման խնդիրը մնաց չքննարկված, այսինքն. կանխատեսման առաջադրանք.

Ունենալով ռեգրեսիոն հավասարում, կանխատեսման խնդիրը կրճատվում է լուծելու Y= x*2.305454545+2.694545455 հավասարումը x-ի հայտնի արժեքներով: Ներկայացված են Y կախյալ փոփոխականի կանխատեսման արդյունքները վեց քայլ առաջ աղյուսակ 8.4-ում.

Աղյուսակ 8.4. Y փոփոխականի կանխատեսման արդյունքներ

Y (կանխատեսված)

Այսպիսով, Microsoft Excel փաթեթում ռեգրեսիոն վերլուծության օգտագործման արդյունքում մենք.

    կառուցել ռեգրեսիայի հավասարում;

    սահմանեց կախվածության ձևը և փոփոխականների միջև հարաբերությունների ուղղությունը՝ դրական գծային ռեգրեսիա, որն արտահայտվում է ֆունկցիայի միատեսակ աճով.

    սահմանեց փոփոխականների միջև հարաբերությունների ուղղությունը.

    գնահատեց ստացված ռեգրեսիոն գծի որակը.

    կարողացան տեսնել հաշվարկված տվյալների շեղումները սկզբնական հավաքածուի տվյալներից.

    կանխատեսել է կախյալ փոփոխականի ապագա արժեքները:

Եթե ռեգրեսիոն ֆունկցիասահմանվում, մեկնաբանվում և հիմնավորված է, և ռեգրեսիոն վերլուծության ճշգրտության գնահատումը համապատասխանում է պահանջներին, կարելի է ենթադրել, որ կառուցված մոդելը և կանխատեսող արժեքները բավականաչափ հուսալի են:

Այս եղանակով ստացված կանխատեսված արժեքները միջին արժեքներն են, որոնք կարելի է ակնկալել:

Այս հոդվածում մենք վերանայեցինք հիմնական բնութագրերը նկարագրական վիճակագրությունև դրանց թվում այնպիսի հասկացություններ, ինչպիսիք են նկատի ունեմ,միջին,առավելագույնը,նվազագույնըև տվյալների փոփոխության այլ բնութագրեր:

Եղել է նաև հայեցակարգի կարճ քննարկում արտանետումները. Դիտարկված բնութագրերը վերաբերում են, այսպես կոչված, հետախուզական տվյալների վերլուծությանը, դրա եզրակացությունները չեն կարող վերաբերել ընդհանուր բնակչությանը, այլ միայն տվյալների ընտրանքին: Հետախուզական տվյալների վերլուծությունը օգտագործվում է առաջնային եզրակացություններ անելու և բնակչության մասին վարկածներ կազմելու համար:

Դիտարկվել են նաև հարաբերակցության և ռեգրեսիոն վերլուծության հիմունքները, դրանց առաջադրանքները և գործնական կիրառման հնարավորությունները։