Dati regresijai. Datu analīzes pamati

Izpētot 4. nodaļas materiālu, studentam vajadzētu:

zināt

  • regresijas analīzes pamatjēdzieni;
  • aplēšu metodes un mazāko kvadrātu metodes aplēšu īpašības;
  • vienādojuma un regresijas koeficientu nozīmīguma pārbaudes un intervālu novērtēšanas pamatnoteikumi;

būt spējīgam

  • atrast no izlases datiem regresijas vienādojumu divdimensiju un vairāku modeļu parametru aplēses, analizēt to īpašības;
  • pārbaudīt vienādojuma nozīmīgumu un regresijas koeficientus;
  • atrast nozīmīgu parametru intervālu aplēses;

pašu

  • prasmes statistiski novērtēt divdimensiju un daudzkārtējās regresijas vienādojumu parametrus; prasmes pārbaudīt regresijas modeļu atbilstību;
  • prasmes iegūt regresijas vienādojumu ar visiem nozīmīgajiem koeficientiem, izmantojot analītisko programmatūru.

Pamatjēdzieni

Pēc korelācijas analīzes veikšanas, kad ir konstatēta statistiski nozīmīgu sakarību esamība starp mainīgajiem un novērtēta to blīvuma pakāpe, parasti tiek veikta atkarību veida matemātiska apraksta, izmantojot regresijas analīzes metodes. Šim nolūkam tiek izvēlēta funkciju klase, kas saista efektīvo indikatoru plkst un argumenti“ aprēķina ierobežojumu vienādojuma parametru aplēses un analizē iegūtā vienādojuma precizitāti.

Funkcija|, kas apraksta efektīvās pazīmes nosacītās vidējās vērtības atkarību plkst no dotajām argumentu vērtībām, tiek izsaukts regresijas vienādojums.

Termins "regresija" (no lat. regresija- atkāpties, atgriezties pie kaut kā) ieviesa angļu psihologs un antropologs F. Galtons un ir saistīts ar vienu no viņa pirmajiem piemēriem, kurā Galtons, apstrādājot statistikas datus, kas saistīti ar jautājumu par augšanas iedzimtību, konstatēja, ka, ja aug. tēvi atšķiras no visu tēvu vidējā auguma X collas, tad viņu dēlu augums atšķiras no visu dēlu vidējā auguma mazāk nekā x collas Identificētā tendence tika saukta regresija uz vidējo.

Termins "regresija" tiek plaši izmantots statistikas literatūrā, lai gan daudzos gadījumos tas neprecīzi raksturo statistisko atkarību.

Lai precīzi aprakstītu regresijas vienādojumu, ir jāzina efektīvā rādītāja sadalījuma nosacītais likums y. Statistikas praksē šādu informāciju parasti nav iespējams iegūt, tāpēc tie aprobežojas ar piemērotu tuvinājumu atrašanu funkcijai f(x u X 2, .... l *), pamatojoties uz iepriekšēju jēgpilnu fenomena analīzi vai sākotnējiem statistikas datiem.

Individuālā modeļa ietvaros pieņēmumi par rādītāju vektora sadalījuma veidu<) может быть получен общий вид regresijas vienādojumi, kur. Piemēram, pieņemot, ka pētītais rādītāju kopums pakļaujas ()-dimensiju normālā sadalījuma likumam ar matemātisko gaidu vektoru

Kur un pēc kovariācijas matricas,

kur ir dispersija y,

Regresijas vienādojumam (nosacītā gaidīšana) ir forma

Tādējādi, ja daudzfaktoru gadījuma mainīgais ()

ievēro ()-dimensiju normālā sadalījuma likumu, tad efektīvā rādītāja regresijas vienādojumu plkst skaidrojošajos mainīgajos ir lineārs X skats.

Tomēr statistikas praksē parasti ir jāaprobežojas ar piemērotu aproksimāciju atrašanu nezināmai patiesajai regresijas funkcijai. f(x), jo pētniekam nav precīzu zināšanu par analizējamā darbības rādītāja varbūtības sadalījuma nosacīto likumu plkst dotajām argumentu vērtībām X.

Apsveriet saistību starp patiesajiem, modeļa un regresijas aprēķiniem. Ļaujiet veiktspējas indikatoram plkst saistīta ar argumentu X attiecība

kur ir gadījuma lielums ar normālā sadalījuma likumu, turklāt. Patiesā regresijas funkcija šajā gadījumā ir

Pieņemsim, ka mēs nezinām precīzu patiesā regresijas vienādojuma formu, bet mums ir deviņi novērojumi par divdimensiju gadījuma lielumu, kas saistīts ar sakarībām, kas parādītas attēlā. 4.1.

Rīsi. 4.1. Patiesības relatīvā pozīcijaf(x) un teorētiskaiswowregresijas modeļi

Punktu izvietojums att. 4.1 ļauj mums aprobežoties ar formas lineāro atkarību klasi

Izmantojot mazāko kvadrātu metodi, mēs atrodam regresijas vienādojuma novērtējumu.

Salīdzinājumam attēlā. 4.1 parāda patiesās regresijas funkcijas un teorētiskās tuvinātās regresijas funkcijas grafikus. Regresijas vienādojuma aprēķins pēc varbūtības konverģē uz pēdējo wow ar neierobežotu izlases lieluma palielinājumu ().

Tā kā mēs kļūdaini izvēlējāmies lineāro regresijas funkciju, nevis patieso regresijas funkciju, kas diemžēl ir diezgan izplatīta statistikas pētījumu praksē, mūsu statistiskajiem secinājumiem un aprēķiniem nebūs konsekvences īpašības, t. lai cik palielinātu novērojumu apjomu, mūsu izlases novērtējums nekonverģēs uz patieso regresijas funkciju

Ja mēs būtu pareizi izvēlējušies regresijas funkciju klasi, tad neprecizitāte aprakstā izmantojot wow būtu izskaidrojams tikai ar izlases ierobežotību un tāpēc to varētu padarīt patvaļīgi mazu ar

Lai no sākotnējiem statistikas datiem vislabāk atjaunotu efektīvā rādītāja nosacīto vērtību un nezināmo regresijas funkciju, visbiežāk izmanto: atbilstības kritēriji zaudējumu funkcijas.

1. Mazākā kvadrāta metode, saskaņā ar kuru efektīvā rādītāja novēroto vērtību kvadrātā novirze no modeļa vērtībām tiek samazināta līdz minimumam, kur regresijas vienādojuma koeficienti; ir argumentu vektora vērtības "-M novērojumā :

Tiek atrisināta vektora aplēses atrašanas problēma. Iegūto regresiju sauc vidējais kvadrāts.

2. Mazāko moduļu metode, saskaņā ar kuru efektīvā rādītāja novēroto vērtību absolūto noviržu summa no modulārajām vērtībām tiek samazināta līdz minimumam, t.i.

Iegūto regresiju sauc nozīmē absolūts(mediāna).

3. Minimax metode tiek samazināts līdz efektīvā rādītāja novērotās vērtības maksimālās novirzes moduļa samazināšanai y, no modeļa vērtības, t.i.

Iegūto regresiju sauc minimums.

Praktiskajos lietojumos bieži rodas problēmas, kurās tiek pētīts nejaušais mainīgais y, atkarībā no dažiem mainīgo lielumu kopas un nezināmiem parametriem. Mēs uzskatīsim () kā (k + 1)-dimensiju vispārējā populācija, no kuras nejauša apjoma izlase P, kur () ir /-tā novērojuma rezultāts. Ir nepieciešams novērtēt nezināmus parametrus, pamatojoties uz novērojumu rezultātiem. Iepriekš aprakstītais uzdevums attiecas uz regresijas analīzes uzdevumiem.

regresijas analīze izsauciet gadījuma lieluma atkarības statistiskās analīzes metodi plkst uz mainīgajiem, kas regresijas analīzē tiek uzskatīti par nejaušiem mainīgajiem neatkarīgi no patiesā sadalījuma likuma

REZULTĀTI

8.3.a tabula. Regresijas statistika
Regresijas statistika
Vairāki R 0,998364
R-kvadrāts 0,99673
Normalizēts R kvadrāts 0,996321
standarta kļūda 0,42405
Novērojumi 10

Vispirms apskatīsim 8.3a tabulā sniegto aprēķinu augšējo daļu, regresijas statistiku.

Vērtība R-kvadrāts, ko sauc arī par noteiktības mēru, raksturo iegūtās regresijas līnijas kvalitāti. Šo kvalitāti izsaka sākotnējo datu un regresijas modeļa (aprēķināto datu) atbilstības pakāpe. Noteiktības mērs vienmēr ir intervālā .

Vairumā gadījumu R kvadrāta vērtība ir starp šīm vērtībām, ko sauc par galējībām, t.i. starp nulli un vienu.

Ja R kvadrāta vērtība ir tuvu vienam, tas nozīmē, ka konstruētais modelis izskaidro gandrīz visu atbilstošo mainīgo mainīgumu. Un otrādi, R kvadrāta vērtība tuvu nullei nozīmē sliktu izveidotā modeļa kvalitāti.

Mūsu piemērā noteiktības mērs ir 0,99673, kas norāda uz ļoti labu regresijas līnijas atbilstību sākotnējiem datiem.

Vairāki R- daudzkārtējās korelācijas koeficients R - izsaka neatkarīgo mainīgo (X) un atkarīgo mainīgo (Y) atkarības pakāpi.

Vairāki R ir vienādi kvadrātsakne no determinācijas koeficienta šī vērtība ņem vērtības diapazonā no nulles līdz vienam.

Vienkāršā lineārās regresijas analīzē daudzkārtējais R ir vienāds ar Pīrsona korelācijas koeficientu. Patiešām, daudzkārtējais R mūsu gadījumā ir vienāds ar Pīrsona korelācijas koeficientu no iepriekšējā piemēra (0, 998364).

8.3b tabula. Regresijas koeficienti
Likmes standarta kļūda t-statistika
Y-krustojums 2,694545455 0,33176878 8,121757129
Mainīgais X 1 2,305454545 0,04668634 49,38177965
* Tiek dota aprēķinu saīsināta versija

Tagad apsveriet 8.3b tabulā sniegto aprēķinu vidējo daļu. Šeit ir dots regresijas koeficients b (2,305454545) un nobīde pa y asi, t.i. konstante a (2,694545455).

Pamatojoties uz aprēķiniem, mēs varam uzrakstīt regresijas vienādojumu šādi:

Y= x*2,305454545+2,694545455

Attiecību virziens starp mainīgajiem tiek noteikts, pamatojoties uz pazīmēm (negatīvas vai pozitīvas) regresijas koeficienti(koeficients b).

Ja zīme plkst regresijas koeficients- pozitīvs, atkarīgā mainīgā saistība ar neatkarīgo būs pozitīva. Mūsu gadījumā regresijas koeficienta zīme ir pozitīva, līdz ar to arī sakarība ir pozitīva.

Ja zīme plkst regresijas koeficients- negatīvs, attiecības starp atkarīgo mainīgo un neatkarīgo mainīgo ir negatīvas (apgrieztas).

Tabulā 8.3c. tiek parādīti atlikumu izvades rezultāti. Lai šie rezultāti tiktu parādīti pārskatā, palaižot rīku "Regresija", ir jāaktivizē izvēles rūtiņa "Atlikumi".

ATLIKUŠA IZSTĀŠANA

8.3c tabula. Paliek
Novērošana Paredzēts Y Paliek Standarta atlikumi
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Izmantojot šo atskaites daļu, mēs varam redzēt katra punkta novirzes no konstruētās regresijas taisnes. Lielākā absolūtā vērtība

Mūsdienu politikas zinātne balstās uz nostāju par visu sabiedrības parādību un procesu attiecībām. Nav iespējams izprast notikumus un procesus, paredzēt un vadīt politiskās dzīves parādības, nepētot sakarības un atkarības, kas pastāv sabiedrības politiskajā sfērā. Viens no biežākajiem politikas izpētes uzdevumiem ir izpētīt attiecības starp dažiem novērojamiem mainīgajiem. Šo problēmu palīdz atrisināt vesela statistisko analīzes metožu klase, ko apvieno parastais nosaukums "regresijas analīze" (vai, kā to sauc arī par "korelācijas-regresijas analīzi"). Taču, ja korelācijas analīze ļauj novērtēt attiecības stiprumu starp diviem mainīgajiem, tad, izmantojot regresijas analīzi, ir iespējams noteikt šīs attiecības veidu, prognozēt jebkura mainīgā lieluma vērtības atkarību no cita mainīgā lieluma vērtības. .

Pirmkārt, atcerēsimies, kas ir korelācija. Korelatīvais sauc par svarīgāko īpašo statistiskās attiecības gadījumu, kas sastāv no tā, ka viena mainīgā vienādas vērtības atbilst dažādām vidējās vērtības cits. Mainoties atribūta x vērtībai, dabiski mainās atribūta y vidējā vērtība, savukārt katrā atsevišķā gadījumā atribūta vērtība plkst(ar dažādām varbūtībām) var iegūt dažādas vērtības.

Termina “korelācija” parādīšanās statistikā (un politikas zinātne piesaista statistikas sasniegumus savu problēmu risināšanai, kas tāpēc ir ar politikas zinātni saistīta disciplīna) ir saistīta ar angļu biologa un statistiķa Frensisa Galtona vārdu, kurš ierosināja 19. gs. korelācijas-regresijas analīzes teorētiskie pamati. Termins "korelācija" zinātnē bija zināms jau iepriekš. Jo īpaši paleontoloģijā 18. gadsimtā. to pielietoja franču zinātnieks Žoržs Kuvjē. Viņš ieviesa tā saukto korelācijas likumu, ar kura palīdzību pēc izrakumos atrastajām dzīvnieku mirstīgajām atliekām bija iespējams atjaunot to izskatu.

Ar šī zinātnieka vārdu un viņa korelācijas likumu ir saistīts labi zināms stāsts. Tātad universitātes brīvdienu dienās studenti, kuri nolēma izspēlēt kādu slavenu profesoru, vienam studentam pārvilka kazas ādu ar ragiem un nagiem. Viņš iekāpa Kuvjē guļamistabas logā un kliedza: "Es tevi apēdīšu." Profesors pamodās, paskatījās uz siluetu un atbildēja: “Ja tev ir ragi un nagi, tad tu esi zālēdājs un nevari mani apēst. Un par korelācijas likuma nezināšanu jūs saņemsiet divkāršu. Viņš apgriezās un aizmiga. Joks ir joks, bet šajā piemērā mēs redzam īpašu gadījumu, kad tiek izmantota vairāku korelācijas-regresijas analīze. Šeit profesors, balstoties uz zināšanām par divu novēroto pazīmju vērtībām (ragu un nagu klātbūtne), pamatojoties uz korelācijas likumu, atvasināja trešās pazīmes vidējo vērtību (klase, kurai šis dzīvnieks pieder). ir zālēdājs). Šajā gadījumā mēs nerunājam par šī mainīgā lieluma konkrēto vērtību (t.i., šim dzīvniekam nominālā mērogā var būt dažādas vērtības - tā varētu būt kaza, auns vai bullis ...).

Tagad pāriesim pie termina "regresija". Stingri sakot, tas nav saistīts ar to statistikas problēmu nozīmi, kuras tiek atrisinātas ar šīs metodes palīdzību. Termina skaidrojumu var sniegt, tikai pamatojoties uz zināšanām par pazīmju savstarpējo attiecību izpētes metožu attīstības vēsturi. Viens no pirmajiem šāda veida pētījumu piemēriem bija statistiķu F. Galtona un K. Pīrsona darbs, kuri mēģināja atrast modeli starp tēvu un viņu bērnu izaugsmi pēc divām novērojamām pazīmēm (kur X- tēva augums un U- bērnu izaugsme). Savā pētījumā viņi apstiprināja sākotnējo hipotēzi, ka vidēji gari tēvi audzina vidēji garus bērnus. Tas pats princips attiecas uz zemiem tēviem un bērniem. Tomēr, ja zinātnieki būtu apstājušies pie tā, viņu darbi nekad nebūtu minēti statistikas mācību grāmatās. Pētnieki atrada citu modeli jau minētās apstiprinātās hipotēzes ietvaros. Viņi pierādīja, ka ļoti gari tēvi rada bērnus, kuri ir vidēji gari, bet augumā ļoti neatšķiras no bērniem, kuru tēvi, lai arī virs vidējā, tomēr ļoti neatšķiras no vidējā auguma. Tas pats attiecas uz tēviem ar ļoti mazu augumu (atkāpjoties no vidējā īsajā grupā) - viņu bērni vidēji augumā neatšķīrās no vienaudžiem, kuru tēvi bija vienkārši mazi. Viņi sauca funkciju, kas apraksta šo likumsakarību regresijas funkcija. Pēc šī pētījuma visus vienādojumus, kas apraksta līdzīgas funkcijas un konstruēja līdzīgā veidā, sāka saukt par regresijas vienādojumiem.

Regresijas analīze- viena no daudzfaktoru statistisko datu analīzes metodēm, kas apvieno statistikas metožu kopumu, kas paredzēts, lai pētītu vai modelētu attiecības starp vienu atkarīgu un vairākiem (vai vienu) neatkarīgiem mainīgajiem. Atkarīgo mainīgo, saskaņā ar statistikā pieņemto tradīciju, sauc par atbildi un apzīmē kā V Neatkarīgos mainīgos sauc par prognozētājiem un apzīmē kā x. Analīzes gaitā daži mainīgie būs vāji saistīti ar atbildi un galu galā tiks izslēgti no analīzes. Pārējos mainīgos, kas saistīti ar apgādājamo, var saukt arī par faktoriem.

Regresijas analīze ļauj prognozēt viena vai vairāku mainīgo vērtības atkarībā no cita mainīgā lieluma (piemēram, tieksme uz netradicionālu politisko uzvedību atkarībā no izglītības līmeņa) vai vairākiem mainīgajiem. Tas tiek aprēķināts uz datora. Lai sastādītu regresijas vienādojumu, kas ļauj izmērīt vadāmās pazīmes atkarības pakāpi no faktoriem, nepieciešams piesaistīt profesionālus matemātiķus-programmētājus. Regresijas analīze var sniegt nenovērtējamu pakalpojumu politiskās situācijas attīstības prognozēšanas modeļu veidošanā, sociālās spriedzes cēloņu novērtēšanā un teorētisko eksperimentu veikšanā. Regresijas analīze tiek aktīvi izmantota, lai pētītu vairāku sociāli demogrāfisko parametru ietekmi uz pilsoņu uzvedību vēlēšanās: dzimums, vecums, profesija, dzīvesvieta, tautība, ienākumu līmenis un veids.

Saistībā ar regresijas analīzi, jēdzieni neatkarīgs un atkarīgi mainīgie. Neatkarīgs mainīgais ir mainīgais, kas izskaidro vai izraisa izmaiņas citā mainīgajā. Atkarīgais mainīgais ir mainīgais, kura vērtība ir izskaidrojama ar pirmā mainīgā lieluma ietekmi. Piemēram, 2004. gada prezidenta vēlēšanās noteicošie faktori, t.i. neatkarīgi mainīgie bija tādi rādītāji kā valsts iedzīvotāju finansiālā stāvokļa stabilizācija, kandidātu popularitātes līmenis un faktors. amata pilnvaras.Šajā gadījumā par atkarīgo mainīgo var uzskatīt par kandidātiem nodoto balsu procentuālo daļu. Tāpat mainīgo pārī “vēlētāja vecums” un “vēlēšanu aktivitātes līmenis” pirmais ir neatkarīgs, otrais ir atkarīgs.

Regresijas analīze ļauj atrisināt šādas problēmas:

  • 1) konstatē pašu faktu par statistiski nozīmīgas attiecības esamību vai neesamību starp Ci x;
  • 2) izveidot labākos (statistiskā nozīmē) regresijas funkcijas aprēķinus;
  • 3) atbilstoši dotajām vērtībām X veidot pareģojumu nezināmajam Plkst
  • 4) novērtē katra faktora ietekmes īpatnējo svaru X ieslēgts Plkst un attiecīgi izslēgt no modeļa nenozīmīgas pazīmes;
  • 5) identificējot cēloņsakarības starp mainīgajiem, daļēji pārvaldīt P vērtības, pielāgojot skaidrojošo mainīgo vērtības x.

Regresijas analīze ir saistīta ar nepieciešamību atlasīt savstarpēji neatkarīgus mainīgos, kas ietekmē pētāmā rādītāja vērtību, noteikt regresijas vienādojuma formu un novērtēt parametrus, izmantojot primāro socioloģisko datu apstrādes statistikas metodes. Šāda veida analīze balstās uz ideju par attiecību formu, virzienu un tuvumu (blīvumu). Atšķirt tvaika pirts un daudzkārtēja regresija atkarībā no pētīto pazīmju skaita. Praksē regresijas analīze parasti tiek veikta kopā ar korelācijas analīzi. Regresijas vienādojums apraksta skaitlisku sakarību starp lielumiem, kas izteikta kā tendence vienam mainīgajam pieaugt vai samazināties, bet citam pieaugt vai samazināties. Tajā pašā laikā razl un h a yut l sals un nelineārā regresija. Raksturojot politiskos procesus, vienlīdz atrodami abi regresijas varianti.

Izkliedes shēma interešu savstarpējās atkarības sadalījumam politiskajos rakstos ( U) un respondentu izglītība (X) ir lineāra regresija (30. att.).

Rīsi. trīsdesmit.

Izkliedes diagramma vēlēšanu aktivitātes līmeņa sadalījumam ( U) un respondenta vecums (A) (nosacīts piemērs) ir nelineāra regresija (31. att.).


Rīsi. 31.

Lai aprakstītu divu pazīmju (A "un Y) attiecības pāra regresijas modelī, tiek izmantots lineārs vienādojums

kur a, ir vienādojuma kļūdas nejauša vērtība ar pazīmju variāciju, t.i. vienādojuma novirze no "linearitātes".

Lai novērtētu koeficientus a un b izmantojiet mazāko kvadrātu metodi, kas pieņem, ka katra izkliedes diagrammas punkta kvadrātu noviržu summai no regresijas līnijas jābūt minimālai. Likmes a h b var aprēķināt, izmantojot vienādojumu sistēmu:

Mazāko kvadrātu novērtējuma metode dod šādus koeficientu aprēķinus a un b, kuram taisne iet caur punktu ar koordinātām X un y, tie. ir attiecība plkst = cirvis + b. Regresijas vienādojuma grafisko attēlojumu sauc teorētiskā regresijas taisne. Ar lineāru atkarību regresijas koeficients attēlo grafikā teorētiskās regresijas taisnes slīpuma pieskares x asij. Zīme pie koeficienta parāda savienojuma virzienu. Ja tas ir lielāks par nulli, tad saistība ir tieša; ja tā ir mazāka, tā ir apgriezta.

Sekojošais piemērs no pētījuma "Politiskā Pēterburga-2006" (56. tabula) parāda lineāru sakarību starp iedzīvotāju priekšstatiem par apmierinātības pakāpi ar savu dzīvi tagadnē un gaidām par dzīves kvalitātes izmaiņām nākotnē. Saikne ir tieša, lineāra (standartizētais regresijas koeficients ir 0,233, nozīmīguma līmenis ir 0,000). Šajā gadījumā regresijas koeficients nav augsts, bet pārsniedz statistiski nozīmīga rādītāja apakšējo robežu (Pīrsona koeficienta statistiski nozīmīgā rādītāja kvadrāta apakšējo robežu).

56. tabula

Iedzīvotāju dzīves kvalitātes ietekme mūsdienās uz gaidām

(Sanktpēterburga, 2006)

* Atkarīgais mainīgais: "Kā, jūsuprāt, mainīsies jūsu dzīve nākamo 2-3 gadu laikā?"

Politiskajā dzīvē pētāmā mainīgā vērtība visbiežāk vienlaikus ir atkarīga no vairākām pazīmēm. Piemēram, politiskās aktivitātes līmeni un raksturu vienlaikus ietekmē valsts politiskais režīms, politiskās tradīcijas, cilvēku politiskās uzvedības īpatnības noteiktā teritorijā un respondenta sociālā mikrogrupa, viņa vecums, izglītība, ienākumi. līmenis, politiskā orientācija utt. Šajā gadījumā jums ir jāizmanto vienādojums daudzkārtēja regresija, kam ir šāda forma:

kur koeficients b.- daļējas regresijas koeficients. Tas parāda katra neatkarīgā mainīgā ieguldījumu neatkarīgā (rezultāta) mainīgā vērtību noteikšanā. Ja daļējās regresijas koeficients ir tuvu 0, tad varam secināt, ka starp neatkarīgajiem un atkarīgajiem mainīgajiem nav tiešas attiecības.

Šāda modeļa aprēķinu var veikt datorā, izmantojot matricas algebru. Daudzkārtēja regresija ļauj atspoguļot sociālo saišu daudzfaktorālo raksturu un noskaidrot katra faktora ietekmes pakāpi atsevišķi un visi kopā uz iegūto iezīmi.

Apzīmēts koeficients b, sauc par lineārās regresijas koeficientu un parāda attiecības stiprumu starp faktora pazīmes variāciju X un efektīvās funkcijas variācijas YŠis koeficients mēra attiecības stiprumu pazīmju absolūtās mērvienībās. Tomēr pazīmju korelācijas tuvumu var izteikt arī ar iegūtās pazīmes standartnovirzi (šādu koeficientu sauc par korelācijas koeficientu). Atšķirībā no regresijas koeficienta b korelācijas koeficients nav atkarīgs no pieņemtajām pazīmju mērvienībām, tāpēc tas ir salīdzināms ar jebkuru pazīmi. Parasti savienojums tiek uzskatīts par stipru, ja /> 0,7, vidēja necaurlaidība - pie 0,5 g 0,5.

Kā zināms, visciešākā saikne ir funkcionālā saikne, kad katrs atsevišķi vērtē Y var unikāli piešķirt vērtībai x. Tādējādi, jo tuvāk korelācijas koeficients ir 1, jo tuvāk sakarība ir funkcionālai. Regresijas analīzes nozīmīguma līmenis nedrīkst pārsniegt 0,001.

Korelācijas koeficients jau sen tiek uzskatīts par galveno pazīmju attiecību ciešuma rādītāju. Taču vēlāk par šādu rādītāju kļuva determinācijas koeficients. Šī koeficienta nozīme ir šāda - tas atspoguļo iegūtās pazīmes kopējās dispersijas daļu Plkst, ko izskaidro iezīmes dispersija x. To nosaka, korelācijas koeficientu vienkārši kvadrātā (mainot no 0 uz 1) un, savukārt, lineārai sakarībai atspoguļo daļu no 0 (0%) līdz 1 (100%) raksturīgās vērtības Y, nosaka atribūta vērtības x. Tas tiek ierakstīts kā es 2, un iegūtajās regresijas analīzes tabulās SPSS pakotnē - bez kvadrāta.

Apzīmēsim galvenās daudzkārtējās regresijas vienādojuma konstruēšanas problēmas.

  • 1. Regresijas vienādojumā iekļauto faktoru izvēle.Šajā posmā pētnieks vispirms sastāda vispārīgu sarakstu ar galvenajiem cēloņiem, kas saskaņā ar teoriju nosaka pētāmo parādību. Pēc tam viņam regresijas vienādojumā ir jāizvēlas pazīmes. Galvenais atlases noteikums ir tāds, ka analīzē iekļautajiem faktoriem vajadzētu pēc iespējas mazāk korelēt vienam ar otru; tikai šajā gadījumā ir iespējams attiecināt uz noteiktu faktoru-atribūtu kvantitatīvu ietekmes mēru.
  • 2. Vairāku regresijas vienādojuma formas izvēle(praksē biežāk izmanto lineāro vai lineāri-logaritmisko). Tātad, lai izmantotu daudzkārtēju regresiju, pētniekam vispirms ir jāizveido hipotētisks modelis vairāku neatkarīgu mainīgo ietekmei uz iegūto. Lai iegūtie rezultāti būtu ticami, ir nepieciešams, lai modelis precīzi atbilstu reālajam procesam, t.i. sakarībai starp mainīgajiem ir jābūt lineārai, nevar ignorēt nevienu nozīmīgu neatkarīgu mainīgo, tāpat analīzē nevar iekļaut nevienu mainīgo, kas nav tieši saistīts ar pētāmo procesu. Turklāt visiem mainīgo lielumu mērījumiem jābūt ārkārtīgi precīziem.

No iepriekš minētā apraksta izriet vairāki nosacījumi šīs metodes pielietošanai, bez kuriem nav iespējams pāriet uz daudzkārtējās regresijas analīzes (MRA) procedūru. Tikai visu tālāk minēto punktu ievērošana ļauj pareizi veikt regresijas analīzi.

Statistiskajā modelēšanā regresijas analīze ir pētījums, ko izmanto, lai novērtētu attiecības starp mainīgajiem. Šī matemātiskā metode ietver daudzas citas metodes vairāku mainīgo modelēšanai un analīzei, kad galvenā uzmanība tiek pievērsta attiecībām starp atkarīgo mainīgo un vienu vai vairākiem neatkarīgiem mainīgajiem. Precīzāk, regresijas analīze palīdz saprast, kā mainās atkarīgā mainīgā tipiskā vērtība, ja mainās viens no neatkarīgiem mainīgajiem, bet pārējie neatkarīgie mainīgie paliek nemainīgi.

Visos gadījumos mērķa rādītājs ir neatkarīgo mainīgo funkcija, un to sauc par regresijas funkciju. Regresijas analīzē ir arī interesanti raksturot atkarīgā mainīgā izmaiņas kā regresijas funkciju, ko var aprakstīt, izmantojot varbūtības sadalījumu.

Regresijas analīzes uzdevumi

Šī statistiskā pētījuma metode tiek plaši izmantota prognozēšanai, kur tās izmantošanai ir būtiska priekšrocība, bet dažkārt tā var radīt ilūzijas vai nepatiesas attiecības, tāpēc šajā jautājumā ieteicams to izmantot uzmanīgi, jo, piemēram, korelācija nenozīmē cēloņsakarība.

Izstrādāts liels skaitlis regresijas analīzes veikšanas metodes, piemēram, lineārā un parastā mazāko kvadrātu regresija, kas ir parametriskas. To būtība ir tāda, ka regresijas funkcija ir definēta kā ierobežots nezināmu parametru skaits, kas tiek novērtēti no datiem. Neparametriskā regresija ļauj tās funkcijai ietvert noteiktu funkciju kopu, kas var būt bezgalīga.

Regresijas analīze kā statistiskā pētījuma metode praksē ir atkarīga no datu ģenerēšanas procesa formas un no tā, kā tā ir saistīta ar regresijas pieeju. Tā kā patiesā datu procesa ģenerēšanas forma parasti ir nezināms skaitlis, datu regresijas analīze bieži vien zināmā mērā ir atkarīga no pieņēmumiem par procesu. Šos pieņēmumus dažkārt var pārbaudīt, ja ir pieejams pietiekami daudz datu. Regresijas modeļi bieži vien ir noderīgi pat tad, ja pieņēmumi ir mēreni pārkāpti, lai gan tie var nebūt vislabākie.

Šaurākā nozīmē regresija var īpaši attiekties uz nepārtrauktas atbildes mainīgo lielumu novērtēšanu, pretstatā klasifikācijā izmantotajiem diskrētajiem atbildes mainīgajiem. Nepārtraukta izvades mainīgā gadījumu sauc arī par metrisko regresiju, lai to atšķirtu no saistītajām problēmām.

Vēsture

Visvairāk agrīna forma regresija ir labi zināmā mazāko kvadrātu metode. To publicēja Legendre 1805. gadā un Gauss 1809. gadā. Leģendrs un Gauss izmantoja metodi, lai pēc astronomiskajiem novērojumiem noteiktu ķermeņu orbītas ap Sauli (galvenokārt komētas, bet vēlāk arī jaunatklātās mazās planētas). Gauss 1821. gadā publicēja mazāko kvadrātu teorijas tālāku attīstību, tostarp Gausa-Markova teorēmas variantu.

Terminu "regresija" 19. gadsimtā ieviesa Frensiss Galtons, lai aprakstītu bioloģisku parādību. Būtība bija tāda, ka pēcteču pieaugums no senču pieauguma, kā likums, regresē līdz normālam vidējam rādītājam. Galtonam regresijai bija tikai šī bioloģiskā nozīme, bet vēlāk viņa darbu pārņēma Udni Jolejs un Karls Pīrsons un pārņēma vispārīgākā statistikas kontekstā. Yule un Pearson darbā atbildes un skaidrojošo mainīgo kopīgo sadalījumu uzskata par Gausa. Šo pieņēmumu Fišers noraidīja 1922. un 1925. gada dokumentos. Fišers ierosināja, ka atbildes mainīgā nosacītais sadalījums ir Gausa sadalījums, bet kopīgajam sadalījumam nav jābūt. Šajā ziņā Fišera ieteikums ir tuvāks Gausa 1821. gada formulējumam. Pirms 1970. gada regresijas analīzes rezultāta iegūšanai dažkārt vajadzēja pat 24 stundas.

Regresijas analīzes metodes joprojām ir aktīvas pētniecības joma. Pēdējās desmitgadēs ir izstrādātas jaunas metodes stabilai regresijai; regresijas, kas ietver korelētas atbildes; regresijas metodes, kas uzņem dažāda veida trūkstošos datus; neparametriskā regresija; Bajesa regresijas metodes; regresijas, kurās prognozējamo mainīgie tiek mērīti ar kļūdu; regresijas ar vairāk prognozētāju nekā novērojumiem un cēloņsakarības secinājumi ar regresiju.

Regresijas modeļi

Regresijas analīzes modeļi ietver šādus mainīgos:

  • Nezināmi parametri, kas apzīmēti kā beta, kas var būt skalārs vai vektors.
  • Neatkarīgi mainīgie, X.
  • Atkarīgie mainīgie, Y.

AT dažādas jomas Zinātnēs, kurās izmanto regresijas analīzi, atkarīgo un neatkarīgo mainīgo vietā izmanto dažādus terminus, bet visos gadījumos regresijas modelis saista Y ar X un β funkciju.

Aproksimāciju parasti formulē šādi: E (Y | X) = F (X, β). Lai veiktu regresijas analīzi, jānosaka funkcijas f forma. Retāk tas ir balstīts uz zināšanām par attiecībām starp Y un X, kas nav atkarīgas no datiem. Ja šādas zināšanas nav pieejamas, tad tiek izvēlēta elastīga vai ērta F forma.

Atkarīgais mainīgais Y

Tagad pieņemsim, ka nezināmo parametru vektoram β ir garums k. Lai veiktu regresijas analīzi, lietotājam ir jāsniedz informācija par atkarīgo mainīgo Y:

  • Ja tiek novēroti N datu punkti formā (Y, X), kur N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ja ievēro tieši N = K un funkcija F ir lineāra, tad vienādojumu Y = F(X, β) var atrisināt tieši, nevis aptuveni. Tas nozīmē N-vienādojumu kopas atrisināšanu ar N-nezināmajiem (β elementiem), kam ir unikāls risinājums, ja vien X ir lineāri neatkarīgs. Ja F ir nelineārs, risinājums var neeksistēt vai var būt daudz risinājumu.
  • Visizplatītākā situācija ir tāda, ka datiem ir N > punkti. Šajā gadījumā datos ir pietiekami daudz informācijas, lai novērtētu unikālo β vērtību, kas vislabāk atbilst datiem, un regresijas modeli, ja to piemēro datiem, var uzskatīt par ignorētu sistēmu β.

Pēdējā gadījumā regresijas analīze nodrošina rīkus:

  • Atrodot risinājumu nezināmiem parametriem β, kas, piemēram, samazinās attālumu starp Y izmērīto un prognozēto vērtību.
  • Saskaņā ar noteiktiem statistikas pieņēmumiem regresijas analīzē tiek izmantota pārmērīga informācija, lai sniegtu statistisku informāciju par nezināmajiem parametriem β un atkarīgā mainīgā Y prognozētajām vērtībām.

Nepieciešamais neatkarīgo mērījumu skaits

Apsveriet regresijas modeli, kuram ir trīs nezināmi parametri: β 0 , β 1 un β 2 . Pieņemsim, ka eksperimentētājs veic 10 mērījumus vienā un tajā pašā vektora X neatkarīgā mainīgā vērtībā. Šajā gadījumā regresijas analīze nedod unikālu vērtību kopu. Labākais, ko var izdarīt, ir novērtēt atkarīgā mainīgā Y vidējo un standarta novirzi. Līdzīgi, mērot abus dažādas vērtības X, jūs varat iegūt pietiekami daudz datu regresijai ar diviem nezināmajiem, bet ne trīs vai vairāk nezināmajiem.

Ja eksperimentētāja mērījumi tika veikti ar trīs dažādām neatkarīgā vektora mainīgā X vērtībām, tad regresijas analīze sniegtu unikālu aprēķinu kopu trim nezināmajiem parametriem β.

Vispārējās lineārās regresijas gadījumā iepriekš minētais apgalvojums ir līdzvērtīgs prasībai, ka matrica X T X ir invertējama.

Statistikas pieņēmumi

Ja mērījumu skaits N ir lielāks par nezināmo parametru skaitu k un mērījumu kļūdas ε i , tad parasti mērījumos ietvertā liekā informācija tiek sadalīta un izmantota statistiskām prognozēm par nezināmiem parametriem. Šo informācijas pārpalikumu sauc par regresijas brīvības pakāpi.

Pamatā esošie pieņēmumi

Klasiskie regresijas analīzes pieņēmumi ietver:

  • Paraugu ņemšana reprezentē secinājumu prognozēšanu.
  • Kļūda ir nejaušs lielums ar vidējo vērtību nulle, kas ir atkarīga no skaidrojošajiem mainīgajiem.
  • Neatkarīgie mainīgie tiek mērīti bez kļūdām.
  • Kā neatkarīgi mainīgie (prognozētāji) tie ir lineāri neatkarīgi, tas ir, nevienu prognozētāju nav iespējams izteikt kā citu lineāru kombināciju.
  • Kļūdas ir nekorelētas, tas ir, diagonāļu kļūdu kovariācijas matrica un katrs elements, kas nav nulles elements, ir kļūdas dispersija.
  • Kļūdu dispersija novērojumos ir nemainīga (homoscedasticitāte). Ja nē, tad var izmantot svērtos mazāko kvadrātu vai citas metodes.

Šiem pietiekamiem nosacījumiem mazāko kvadrātu aprēķiniem ir vajadzīgās īpašības, jo īpaši šie pieņēmumi nozīmē, ka parametru aplēses būs objektīvas, konsekventas un efektīvas, jo īpaši, ja tos ņem vērā lineāro novērtējumu klasē. Ir svarīgi atzīmēt, ka faktiskie dati reti atbilst nosacījumiem. Tas ir, metode tiek izmantota pat tad, ja pieņēmumi nav pareizi. Atšķirības no pieņēmumiem dažkārt var izmantot kā modeļa noderīguma mērauklu. Daudzus no šiem pieņēmumiem var mazināt, izmantojot progresīvākas metodes. Statistiskās analīzes pārskatos parasti ir iekļauta paraugu datu testu analīze un modeļa lietderības metodoloģija.

Turklāt mainīgie lielumi dažos gadījumos attiecas uz vērtībām, kas mērītas punktu vietās. Var būt telpiskās tendences un telpiskās autokorelācijas mainīgajos, kas pārkāpj statistikas pieņēmumus. Ģeogrāfiskā svērtā regresija ir vienīgā metode, kas apstrādā šādus datus.

Lineārās regresijas iezīme ir tāda, ka atkarīgais mainīgais, kas ir Y i , ir lineāra parametru kombinācija. Piemēram, vienkāršā lineārajā regresijā n-punktu modelēšanā tiek izmantots viens neatkarīgs mainīgais x i un divi parametri β 0 un β 1 .

Daudzkārtējā lineārā regresijā ir vairāki neatkarīgi mainīgie vai to funkcijas.

Ja izlases veidā tiek atlasīta izlase no populācijas, tās parametri ļauj iegūt lineārās regresijas modeļa izlasi.

Šajā aspektā vispopulārākā ir mazāko kvadrātu metode. Tas nodrošina parametru aprēķinus, kas samazina atlikuma kvadrātu summu. Šāda šīs funkcijas minimizēšana (kas ir raksturīga lineārajai regresijai) noved pie normālu vienādojumu kopas un kopas lineārie vienādojumi ar parametriem, kas tiek atrisināti, lai iegūtu parametru aplēses.

Pieņemot, ka populācijas kļūda parasti izplatās, pētnieks var izmantot šos standarta kļūdu aprēķinus, lai izveidotu ticamības intervālus un veiktu hipotēžu pārbaudi par tās parametriem.

Nelineārās regresijas analīze

Piemērs, kurā funkcija nav lineāra attiecībā uz parametriem, norāda, ka kvadrātu summa ir jāsamazina ar iteratīvu procedūru. Tas rada daudz sarežģījumu, kas nosaka atšķirības starp lineāro un nelineāro mazāko kvadrātu metodēm. Līdz ar to regresijas analīzes rezultāti, izmantojot nelineāro metodi, dažkārt ir neparedzami.

Jaudas un izlases lieluma aprēķins

Šeit, kā likums, nav konsekventu metožu attiecībā uz novērojumu skaitu salīdzinājumā ar neatkarīgo mainīgo skaitu modelī. Pirmo noteikumu ierosināja Dobra un Hardins, un tas izskatās šādi: N = t^n, kur N ir izlases lielums, n ir skaidrojošo mainīgo skaits un t ir novērojumu skaits, kas nepieciešams, lai sasniegtu vēlamo precizitāti, ja modelim būtu tikai viens skaidrojošais mainīgais. Piemēram, pētnieks izveido lineārās regresijas modeli, izmantojot datu kopu, kurā ir 1000 pacientu (N). Ja pētnieks nolemj, ka ir nepieciešami pieci novērojumi, lai precīzi noteiktu līniju (m), tad maksimālais skaidrojošo mainīgo lielumu skaits, ko modelis var atbalstīt, ir 4.

Citas metodes

Lai gan regresijas modeļa parametri parasti tiek novērtēti, izmantojot mazāko kvadrātu metodi, ir arī citas metodes, kuras tiek izmantotas daudz retāk. Piemēram, šīs ir šādas metodes:

  • Bajesa metodes (piemēram, Bajeza lineārās regresijas metode).
  • Procentuālā regresija, ko izmanto situācijās, kad procentuālo kļūdu samazināšana tiek uzskatīta par piemērotāku.
  • Mazākās absolūtās novirzes, kas ir stabilākas, ja ir novirzes, kas noved pie kvantilās regresijas.
  • Neparametriskā regresija, kurai nepieciešams liels skaits novērojumu un aprēķinu.
  • Mācību metrikas attālums, kas tiek apgūts, meklējot jēgpilnu attāluma metriku dotajā ievades vietā.

Programmatūra

Visas galvenās statistikas programmatūras pakotnes tiek veiktas, izmantojot mazāko kvadrātu regresijas analīzi. Dažās izklājlapu lietojumprogrammās, kā arī dažos kalkulatoros var izmantot vienkāršu lineāro regresiju un daudzkārtējās regresijas analīzi. Lai gan daudzas statistikas programmatūras pakotnes var veikt dažāda veida neparametriskas un robustas regresijas, šīs metodes ir mazāk standartizētas; dažādas programmatūras pakotnes ievieš dažādas metodes. Ir izstrādāta specializēta regresijas programmatūra izmantošanai tādās jomās kā aptaujas analīze un neiroattēlveidošana.

Regresijas analīzes galvenā iezīme ir tā, ka to var izmantot, lai iegūtu specifisku informāciju par pētāmo mainīgo attiecību formu un raksturu.

Regresijas analīzes posmu secība

Īsi apskatīsim regresijas analīzes posmus.

    Uzdevuma formulēšana. Šajā posmā tiek veidotas provizoriskas hipotēzes par pētāmo parādību atkarību.

    Atkarīgo un neatkarīgo (skaidrojošo) mainīgo definīcija.

    Statistikas datu vākšana. Dati ir jāapkopo par katru no regresijas modelī iekļautajiem mainīgajiem.

    Hipotēzes formulēšana par savienojuma formu (vienkārša vai daudzkārtēja, lineāra vai nelineāra).

    Definīcija regresijas funkcijas (sastāv no regresijas vienādojuma parametru skaitlisko vērtību aprēķināšanas)

    Regresijas analīzes precizitātes novērtējums.

    Iegūto rezultātu interpretācija. Regresijas analīzes rezultāti tiek salīdzināti ar sākotnējām hipotēzēm. Tiek izvērtēta iegūto rezultātu pareizība un ticamība.

    Atkarīgā mainīgā nezināmu vērtību prognozēšana.

Ar regresijas analīzes palīdzību ir iespējams atrisināt prognozēšanas un klasifikācijas problēmu. Prognozējošās vērtības tiek aprēķinātas, regresijas vienādojumā aizstājot skaidrojošo mainīgo vērtības. Klasifikācijas problēma tiek atrisināta šādi: regresijas taisne sadala visu objektu kopu divās klasēs, un tā kopas daļa, kurā funkcijas vērtība ir lielāka par nulli, pieder vienai klasei, bet daļa, kurā tā ir mazāka. nekā nulle pieder citai klasei.

Regresijas analīzes uzdevumi

Apsveriet galvenos regresijas analīzes uzdevumus: atkarības formas noteikšana, noteikšana regresijas funkcijas, atkarīgā mainīgā nezināmo vērtību aprēķins.

Atkarības formas noteikšana.

Mainīgo attiecību raksturs un forma var veidot šādus regresijas veidus:

    pozitīva lineāra regresija (izteikta kā vienmērīgs funkcijas pieaugums);

    pozitīva vienmērīgi paātrinoša regresija;

    pozitīva vienmērīgi pieaugoša regresija;

    negatīva lineārā regresija (izteikta kā vienmērīgs funkcijas kritums);

    negatīva vienmērīgi paātrināta samazinoša regresija;

    negatīva vienmērīgi samazinoša regresija.

Tomēr aprakstītās šķirnes parasti nav sastopamas tīrā veidā, bet gan kombinācijā ar otru. Šajā gadījumā runā par kombinētām regresijas formām.

Regresijas funkcijas definīcija.

Otrs uzdevums ir noskaidrot galveno faktoru vai cēloņu ietekmi uz atkarīgo mainīgo, visām pārējām lietām esot vienādām un izslēdzot ietekmi uz nejaušo elementu atkarīgo mainīgo. regresijas funkcija definēts kā viena vai otra veida matemātisks vienādojums.

Atkarīgā mainīgā nezināmo vērtību novērtējums.

Šīs problēmas risinājums ir reducēts līdz viena no šāda veida problēmas risināšanai:

    Atkarīgā mainīgā vērtību novērtēšana sākotnējo datu aplūkotajā intervālā, t.i. trūkstošās vērtības; tas atrisina interpolācijas problēmu.

    Atkarīgā mainīgā nākotnes vērtību novērtēšana, t.i. atrast vērtības ārpus norādītā sākotnējo datu intervāla; tas atrisina ekstrapolācijas problēmu.

Abas problēmas tiek atrisinātas, regresijas vienādojumā aizstājot atrastos neatkarīgo mainīgo vērtību parametru aprēķinus. Vienādojuma atrisināšanas rezultāts ir mērķa (atkarīgā) mainīgā vērtības novērtējums.

Apskatīsim dažus pieņēmumus, uz kuriem balstās regresijas analīze.

Linearitātes pieņēmums, t.i. tiek pieņemts, ka sakarība starp aplūkotajiem mainīgajiem ir lineāra. Tātad šajā piemērā mēs izveidojām izkliedes diagrammu un varējām redzēt skaidru lineāru sakarību. Ja mainīgo lielumu izkliedes diagrammā redzam skaidru lineāras attiecības neesamību, t.i. pastāv nelineāra sakarība, jāizmanto nelineāras analīzes metodes.

Normalitātes pieņēmums pārpalikumi. Tas pieņem, ka starpības sadalījums starp prognozētajām un novērotajām vērtībām ir normāls. Lai vizuāli noteiktu sadalījuma raksturu, varat izmantot histogrammas pārpalikumi.

Izmantojot regresijas analīzi, jāņem vērā tās galvenais ierobežojums. Tas sastāv no tā, ka regresijas analīze ļauj atklāt tikai atkarības, nevis attiecības, kas ir šo atkarību pamatā.

Regresijas analīze ļauj novērtēt saistību pakāpi starp mainīgajiem lielumiem, aprēķinot mainīgā lieluma paredzamo vērtību, pamatojoties uz vairākām zināmām vērtībām.

Regresijas vienādojums.

Regresijas vienādojums izskatās šādi: Y=a+b*X

Izmantojot šo vienādojumu, mainīgais Y tiek izteikts kā konstante a un taisnes (vai slīpuma) b slīpums, kas reizināts ar mainīgā X vērtību. Konstante a tiek saukta arī par krustpunktu, un slīpums ir regresija. koeficients vai B koeficients.

Vairumā gadījumu (ja ne vienmēr) ir vērojama zināma novērojumu izkliede par regresijas taisni.

Atlikums ir atsevišķa punkta (novērojuma) novirze no regresijas līnijas (paredzamā vērtība).

Lai atrisinātu regresijas analīzes problēmu programmā MS Excel, izvēlnē atlasiet apkalpošana"Analīzes pakotne" un regresijas analīzes rīks. Norādiet X un Y ievades intervālus. Y ievades intervāls ir atkarīgo datu diapazons, kas tiek analizēts, un tajā jāietver viena kolonna. Ievades intervāls X ir analizējamo neatkarīgo datu diapazons. Ievades diapazonu skaits nedrīkst pārsniegt 16.

Procedūras izvadē izvades diapazonā mēs saņemam norādīto ziņojumu tabula 8.3a-8,3 v.

REZULTĀTI

8.3.a tabula. Regresijas statistika

Regresijas statistika

Vairāki R

R-kvadrāts

Normalizēts R kvadrāts

standarta kļūda

Novērojumi

Vispirms apsveriet šeit sniegto aprēķinu augšējo daļu tabula 8.3a, - regresijas statistika.

Vērtība R-kvadrāts, ko sauc arī par noteiktības mēru, raksturo iegūtās regresijas līnijas kvalitāti. Šo kvalitāti izsaka sākotnējo datu un regresijas modeļa (aprēķināto datu) atbilstības pakāpe. Noteiktības mērs vienmēr ir intervālā .

Vairumā gadījumu vērtība R-kvadrāts ir starp šīm vērtībām, ko sauc par ekstrēmām, t.i. starp nulli un vienu.

Ja vērtība R kvadrātā tuvu vienotībai, tas nozīmē, ka konstruētais modelis izskaidro gandrīz visu atbilstošo mainīgo mainīgumu. Un otrādi, vērtība R kvadrātā, tuvu nullei, nozīmē konstruētā modeļa sliktu kvalitāti.

Mūsu piemērā noteiktības mērs ir 0,99673, kas norāda uz ļoti labu regresijas līnijas atbilstību sākotnējiem datiem.

daudzskaitlī R - daudzkārtējās korelācijas koeficients R - izsaka neatkarīgo mainīgo (X) un atkarīgo mainīgo (Y) atkarības pakāpi.

Vairāki R vienāda ar determinācijas koeficienta kvadrātsakni, šī vērtība ņem vērtības diapazonā no nulles līdz vienam.

Vienkāršā lineārās regresijas analīzē daudzskaitlī R vienāds ar Pīrsona korelācijas koeficientu. Tiešām, daudzskaitlī R mūsu gadījumā tas ir vienāds ar Pīrsona korelācijas koeficientu no iepriekšējā piemēra (0,998364).

8.3b tabula. Regresijas koeficienti

Likmes

standarta kļūda

t-statistika

Y-krustojums

Mainīgais X 1

* Tiek dota aprēķinu saīsināta versija

Tagad apsveriet šeit sniegto aprēķinu vidējo daļu tabula 8.3b. Šeit ir dots regresijas koeficients b (2,305454545) un nobīde pa y asi, t.i. konstante a (2,694545455).

Pamatojoties uz aprēķiniem, mēs varam uzrakstīt regresijas vienādojumu šādi:

Y= x*2,305454545+2,694545455

Mainīgo lielumu attiecības virziens tiek noteikts, pamatojoties uz regresijas koeficientu (koeficients b) zīmēm (negatīvām vai pozitīvām).

Ja regresijas koeficienta zīme ir pozitīva, attiecības starp atkarīgo mainīgo un neatkarīgo mainīgo būs pozitīvas. Mūsu gadījumā regresijas koeficienta zīme ir pozitīva, līdz ar to arī sakarība ir pozitīva.

Ja regresijas koeficienta zīme ir negatīva, attiecības starp atkarīgo un neatkarīgo mainīgo ir negatīvas (apgrieztas).

AT tabula 8.3c. tiek prezentēti izejas rezultāti pārpalikumi. Lai šie rezultāti tiktu parādīti pārskatā, palaižot rīku "Regresija", ir jāaktivizē izvēles rūtiņa "Atlikumi".

ATLIKUŠA IZSTĀŠANA

8.3c tabula. Paliek

Novērošana

Paredzēts Y

Paliek

Standarta atlikumi

Izmantojot šo atskaites daļu, mēs varam redzēt katra punkta novirzes no konstruētās regresijas taisnes. Lielākā absolūtā vērtība atlikumu mūsu gadījumā - 0,778, mazākais - 0,043. Lai labāk interpretētu šos datus, mēs izmantosim sākotnējo datu grafiku un konstruēto regresijas līniju, kas parādīta attēlā. rīsi. 8.3. Kā redzat, regresijas līnija ir diezgan precīzi "pielāgota" sākotnējo datu vērtībām.

Jāņem vērā, ka aplūkojamais piemērs ir diezgan vienkāršs un ne vienmēr ir iespējams kvalitatīvi izveidot lineāro regresijas taisni.

Rīsi. 8.3. Sākotnējie dati un regresijas līnija

Problēma par atkarīgā mainīgā nezināmo nākotnes vērtību aplēsēm, pamatojoties uz neatkarīgā mainīgā zināmajām vērtībām, palika neapskatīta, t.i. prognozēšanas uzdevums.

Izmantojot regresijas vienādojumu, prognozēšanas problēma tiek reducēta līdz vienādojuma Y= x*2,305454545+2,694545455 atrisināšanai ar zināmām x vērtībām. Tiek parādīti atkarīgā mainīgā Y prognozēšanas rezultāti sešus soļus uz priekšu tabulā 8.4.

8.4. tabula. Y mainīgā prognozēšanas rezultāti

J (paredzēts)

Tādējādi, izmantojot regresijas analīzi Microsoft Excel pakotnē, mēs:

    izveidoja regresijas vienādojumu;

    noteikta atkarības forma un attiecības virziens starp mainīgajiem - pozitīva lineāra regresija, kas izpaužas vienmērīgā funkcijas pieaugumā;

    noteica attiecību virzienu starp mainīgajiem lielumiem;

    novērtēja iegūtās regresijas līnijas kvalitāti;

    varēja redzēt aprēķināto datu novirzes no sākotnējās kopas datiem;

    prognozēja atkarīgā mainīgā nākotnes vērtības.

Ja regresijas funkcija ir definēts, interpretēts un pamatots, un regresijas analīzes precizitātes novērtējums atbilst prasībām, varam pieņemt, ka konstruētais modelis un paredzamās vērtības ir pietiekami uzticamas.

Šādā veidā iegūtās prognozētās vērtības ir vidējās vērtības, kuras var sagaidīt.

Šajā rakstā mēs apskatījām galvenās īpašības aprakstošā statistika un starp tiem tādi jēdzieni kā vidējā vērtība,mediāna,maksimums,minimums un citas datu variācijas pazīmes.

Notika arī īsa koncepcijas diskusija emisijas. Aplūkotie raksturlielumi attiecas uz tā saukto pētniecisko datu analīzi, tās secinājumi var attiekties nevis uz kopējo populāciju, bet tikai uz datu paraugu. Izpētes datu analīze tiek izmantota, lai izdarītu primāros secinājumus un izvirzītu hipotēzes par populāciju.

Tika apskatīti arī korelācijas un regresijas analīzes pamati, to uzdevumi un praktiskās izmantošanas iespējas.