Regresijas analīze. Regresijas analīze

Regresijas analīze pārbauda noteikta daudzuma atkarību no cita daudzuma vai vairākiem citiem lielumiem. Regresijas analīze galvenokārt tiek izmantota vidēja termiņa prognozēšanā, kā arī ilgtermiņa prognozēšanā. Vidēja un ilgtermiņa periodi ļauj konstatēt izmaiņas uzņēmējdarbības vidē un ņemt vērā šo izmaiņu ietekmi uz pētāmo rādītāju.

Lai veiktu regresijas analīzi, ir nepieciešams:

    gada datu pieejamība par pētītajiem rādītājiem,

    vienreizējo prognožu pieejamība, t.i. prognozes, kas neuzlabojas ar jauniem datiem.

Regresijas analīze parasti tiek veikta objektiem, kuriem ir sarežģīts, daudzfaktoru raksturs, piemēram, investīciju apjoms, peļņa, pārdošanas apjomi utt.

Plkst normatīvā prognozēšanas metode tiek noteikti par mērķi izvirzīto fenomena iespējamo stāvokļu sasniegšanas veidi un termiņi. Mēs runājam par fenomena vēlamo stāvokļu sasniegšanas prognozēšanu, pamatojoties uz iepriekš noteiktām normām, ideāliem, stimuliem un mērķiem. Šāda prognoze atbild uz jautājumu: kādos veidos var sasniegt vēlamo? Normatīvo metodi biežāk izmanto programmatiskām vai mērķtiecīgām prognozēm. Tiek izmantota gan standarta kvantitatīvā izteiksme, gan noteikta vērtēšanas funkcijas iespēju skala.

Izmantojot kvantitatīvu izteiksmi, piemēram, speciālistu izstrādātas fizioloģiskās un racionālās normas atsevišķu pārtikas un nepārtikas preču patēriņam dažādām iedzīvotāju grupām, ir iespējams noteikt šo preču patēriņa līmeni. gadus pirms noteiktās normas sasniegšanas. Šādus aprēķinus sauc par interpolāciju. Interpolācija ir veids, kā aprēķināt rādītājus, kas trūkst parādības laikrindā, pamatojoties uz noteiktu attiecību. Ņemot vērā rādītāja faktisko vērtību un tā standartu vērtību kā dinamiskās sērijas galējos elementus, ir iespējams noteikt vērtību lielumu šajā sērijā. Tāpēc interpolācija tiek uzskatīta par normatīvu metodi. Iepriekš doto formulu (4), kas izmantota ekstrapolācijā, var izmantot interpolācijā, kur y n vairs raksturos nevis faktiskos datus, bet gan rādītāja standartu.

Vērtēšanas funkcijas iespēju skalas (lauka, spektra), t.i., priekšroka sadalījuma funkcijas izmantošanas gadījumā normatīvajā metodē tiek norādīta aptuveni šāda gradācija: nevēlams - mazāk vēlams - vairāk vēlams - visvairāk vēlams - optimāls (standarta).

Normatīvā prognozēšanas metode palīdz izstrādāt ieteikumus objektivitātes līmeņa un līdz ar to arī lēmumu efektivitātes paaugstināšanai.

Modelēšana, iespējams, vissarežģītākā prognozēšanas metode. Matemātiskā modelēšana nozīmē ekonomiskās parādības aprakstu, izmantojot matemātiskas formulas, vienādojumus un nevienādības. Matemātiskajam aparātam precīzi jāatspoguļo prognozes fons, lai gan ir diezgan grūti pilnībā atspoguļot visu paredzamā objekta dziļumu un sarežģītību. Termins "modelis" ir atvasināts no latīņu vārda modelus, kas nozīmē "mērīt". Tāpēc pareizāk būtu modelēšanu uzskatīt nevis par prognozēšanas metodi, bet gan kā metodi līdzīgas parādības izpētei uz modeļa.

Plašā nozīmē modeļus sauc par pētāmā objekta aizstājējiem, kas ir tādā līdzībā ar to, kas ļauj iegūt jaunas zināšanas par objektu. Modelis jāuzskata par objekta matemātisko aprakstu. Šajā gadījumā modelis tiek definēts kā parādība (subjekts, instalācija), kas ir kaut kādā korespondencē ar pētāmo objektu un var to aizstāt izpētes procesā, uzrādot informāciju par objektu.

Šaurāk izprotot modeli, tas tiek uzskatīts par prognozēšanas objektu, tā izpēte ļauj iegūt informāciju par iespējamajiem objekta stāvokļiem nākotnē un veidiem, kā šos stāvokļus sasniegt. Šajā gadījumā paredzamā modeļa mērķis ir iegūt informāciju nevis par objektu kopumā, bet tikai par tā turpmākajiem stāvokļiem. Tad, veidojot modeli, var nebūt iespējams tieši pārbaudīt tā atbilstību objektam, jo ​​modelis atspoguļo tikai tā nākotnes stāvokli, un pats objekts šobrīd var nebūt vai tam var būt cita eksistence.

Modeļi var būt materiāli un ideāli.

Ekonomikā tiek izmantoti ideāli modeļi. Vispiemērotākais ideālais modelis sociāli ekonomiskās (ekonomiskās) parādības kvantitatīvā aprakstam ir matemātisks modelis, kas izmanto skaitļus, formulas, vienādojumus, algoritmus vai grafisku attēlojumu. Ar ekonomisko modeļu palīdzību nosaka:

    dažādu ekonomisko rādītāju attiecības;

    dažāda veida ierobežojumi, kas noteikti rādītājiem;

    kritēriji procesa optimizēšanai.

Objekta jēgpilnu aprakstu var attēlot tā formalizētās shēmas veidā, kas norāda, kuri parametri un sākotnējā informācija ir jāapkopo, lai aprēķinātu vēlamās vērtības. Matemātiskais modelis, atšķirībā no formalizētas shēmas, satur konkrētus objektu raksturojošus skaitliskus datus. Matemātiskā modeļa izstrāde lielā mērā ir atkarīga no prognozētāja priekšstata par modelējamā procesa būtību. Pamatojoties uz savām idejām, viņš izvirza darba hipotēzi, ar kuras palīdzību tiek izveidots analītisks modeļa ieraksts formulu, vienādojumu un nevienādību veidā. Vienādojumu sistēmas risināšanas rezultātā tiek iegūti specifiski funkcijas parametri, kas raksturo vēlamo mainīgo izmaiņas laika gaitā.

Darba kārtība un secība kā prognozēšanas organizācijas elements tiek noteikta atkarībā no izmantotās prognozēšanas metodes. Parasti šis darbs tiek veikts vairākos posmos.

1. posms - paredzamā retrospekcija, t.i., prognozēšanas objekta un prognozes fona noteikšana. Darbs pirmajā posmā tiek veikts šādā secībā:

    pagātnes objekta apraksta veidošana, kas ietver objekta priekšprognozes analīzi, tā parametru, to nozīmes un savstarpējo attiecību novērtējumu,

    informācijas avotu apzināšana un izvērtēšana, darba ar tiem kārtība un organizācija, retrospektīvās informācijas vākšana un izvietošana;

    izvirzot pētniecības mērķus.

Veicot paredzamās retrospekcijas uzdevumus, prognozētāji pēta objekta attīstības vēsturi un prognožu fonu, lai iegūtu to sistemātisku aprakstu.

2. posms - prognozēšanas diagnostika, kuras laikā tiek pētīts prognozēšanas objekta un prognozes fona sistemātisks apraksts, lai identificētu to attīstības tendences un izvēlētos prognozēšanas modeļus un metodes. Darbs tiek veikts šādā secībā:

    prognozējamā objekta modeļa izstrāde, tai skaitā formalizēts objekta apraksts, pārbaudot modeļa atbilstības pakāpi objektam;

    prognozēšanas metožu (galveno un palīgmetožu) izvēle, algoritma un darba programmu izstrāde.

3.posms - mecenātisms, t.i., plašas prognozes izstrādes process, kas ietver: 1) prognozējamo parametru aprēķinu konkrētam izpildes periodam; 2) atsevišķu prognozes komponentu sintēze.

4.posms - prognozes izvērtēšana, tai skaitā tās pārbaude, t.i., ticamības, precizitātes un pamatotības pakāpes noteikšana.

Izpētes un izvērtēšanas gaitā prognozēšanas uzdevumi un to izvērtēšana tiek risināti, pamatojoties uz iepriekšējiem posmiem.

Norādītā fāze ir aptuvena un atkarīga no galvenās prognozēšanas metodes.

Prognozes rezultāti tiek noformēti sertifikāta, atskaites vai cita materiāla veidā un tiek prezentēti pasūtītājam.

Prognozēšanā var norādīt prognozes novirzi no objekta faktiskā stāvokļa, ko sauc par prognozes kļūdu, ko aprēķina pēc formulas:

;
;
. (9.3)

Kļūdu avoti prognozēšanā

Galvenie avoti var būt:

1. Vienkārša pagātnes datu pārnešana (ekstrapolācija) uz nākotni (piemēram, uzņēmumam nav citu prognožu variantu, izņemot pārdošanas apjomu pieaugumu par 10%).

2. Nespēja precīzi noteikt notikuma iespējamību un tā ietekmi uz pētāmo objektu.

3. Neparedzētas grūtības (traucējoši notikumi), kas ietekmē plāna izpildi, piemēram, pēkšņa pārdošanas daļas vadītāja atlaišana.

Kopumā prognozēšanas precizitāte palielinās līdz ar prognozēšanas pieredzes uzkrāšanos un tās metožu attīstību.

Regresijas analīze

regresija (lineārs) analīze- statistikas metode, lai pētītu viena vai vairāku neatkarīgu mainīgo ietekmi uz atkarīgo mainīgo. Neatkarīgos mainīgos citādi sauc par regresoriem vai prognozētājiem, un atkarīgos mainīgos sauc par kritērijiem. Terminoloģija atkarīgi Un neatkarīgs mainīgie atspoguļo tikai mainīgo matemātisko atkarību ( skatiet viltus korelāciju), nevis cēloņsakarību.

Regresijas analīzes mērķi

  1. Kritērija (atkarīgā) mainīgā variācijas determinisma pakāpes noteikšana ar prognozētājiem (neatkarīgie mainīgie)
  2. Atkarīgā mainīgā vērtības prognozēšana, izmantojot neatkarīgo(-s) mainīgo(-us)
  3. Atsevišķu neatkarīgo mainīgo ieguldījuma noteikšana apgādājamā variācijā

Regresijas analīzi nevar izmantot, lai noteiktu, vai pastāv sakarība starp mainīgajiem lielumiem, jo ​​šādas attiecības esamība ir priekšnoteikums analīzes piemērošanai.

Regresijas matemātiskā definīcija

Stingri regresīvu atkarību var definēt šādi. Ļaut , ir nejauši mainīgie ar noteiktu kopīgu varbūtības sadalījumu. Ja katrai vērtību kopai ir noteikta nosacītā cerība

(vispārējais regresijas vienādojums),

tad tiek izsaukta funkcija regresija Y vērtības pēc vērtībām un tās grafiks - regresijas līnija, vai regresijas vienādojums.

Atkarība no izpaužas Y vidējo vērtību izmaiņās, mainot . Lai gan katrai fiksētai vērtību kopai daudzums paliek nejaušs lielums ar noteiktu izkliedi.

Lai noskaidrotu jautājumu par to, cik precīzi regresijas analīze novērtē Y izmaiņas ar izmaiņām, dažādām vērtību kopām tiek izmantota Y dispersijas vidējā vērtība (patiesībā mēs runājam par dispersijas mērījumu). atkarīgais mainīgais ap regresijas taisni).

Mazāko kvadrātu metode (koeficientu aprēķināšana)

Praksē regresijas taisne visbiežāk tiek meklēta formā lineārā funkcija(lineārā regresija), kas vislabāk tuvina vēlamo līkni. To veic, izmantojot mazāko kvadrātu metodi, kad faktiski novēroto noviržu summa kvadrātā no to aplēsēm ir samazināta līdz minimumam (tas nozīmē, ka aprēķini, izmantojot taisnu līniju, kas apgalvo, ka attēlo vēlamo regresijas atkarību):

(M - izlases lielums). Šī pieeja ir balstīta uz zināms fakts ka summa, kas parādās iepriekš minētajā izteiksmē, iegūst minimālo vērtību tieši gadījumam, kad .

Lai atrisinātu regresijas analīzes problēmu ar mazāko kvadrātu metodi, tiek ieviesta koncepcija atlikušās funkcijas:

Nosacījums atlikušās funkcijas minimumam:

Rezultātā iegūtā sistēma ir sistēma lineārie vienādojumi ar nezināmo

Ja vienādojumu kreisās puses brīvos nosacījumus attēlojam ar matricu

un nezināmo koeficientus matricas labajā pusē

tad iegūstam matricas vienādojumu: , ko viegli atrisināt ar Gausa metodi. Iegūtā matrica būs matrica, kas satur regresijas līnijas vienādojuma koeficientus:

Lai iegūtu vislabākos aprēķinus, nepieciešams izpildīt LSM priekšnoteikumus (Gausa–Markova nosacījumi). Angļu literatūrā šādas aplēses tiek sauktas par BLUE (Best Linear Unbiased Estimators) – vislabākie lineārie objektīvie aprēķini.

Regresijas parametru interpretācija

Parametri ir daļējas korelācijas koeficienti; tiek interpretēta kā Y dispersijas proporcija, kas izskaidrojama ar atlikušo prognozētāju ietekmes fiksēšanu, tas ir, tā mēra individuālo ieguldījumu Y skaidrojumā. Korelēto prognozētāju gadījumā aplēsēs pastāv nenoteiktības problēma , kas kļūst atkarīgi no secības, kādā prognozētāji ir iekļauti modelī. Šādos gadījumos ir nepieciešams pielietot korelācijas un pakāpeniskās regresijas analīzes metodes.

Runājot par regresijas analīzes nelineārajiem modeļiem, ir svarīgi pievērst uzmanību tam, vai runa ir par nelinearitāti neatkarīgos mainīgajos (no formālā viedokļa viegli reducējama līdz lineārai regresijai), vai arī par nelinearitāti aplēstos parametros. (izraisot nopietnas skaitļošanas grūtības). Ar pirmo nelinearitātes veidu no jēgpilnā viedokļa ir svarīgi izcelt formas locekļu izskatu modelī , , kas norāda uz mijiedarbības esamību starp pazīmēm utt. (sk. Multikollinearitāte).

Skatīt arī

Saites

  • www.kgafk.ru - Lekcija par "Regresijas analīzi"
  • www.basegroup.ru - metodes mainīgo atlasei regresijas modeļos

Literatūra

  • Normens Drapers, Harijs Smits Lietišķā regresijas analīze. Daudzkārtēja regresija= Lietišķā regresijas analīze. - 3. izdevums. - M .: "Dialektika", 2007. - S. 912. - ISBN 0-471-17082-8
  • Ilgtspējīgas statistikas modeļu novērtēšanas metodes: Monogrāfija. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radčenko Staņislavs Grigorjevičs, Regresijas analīzes metodoloģija: Monogrāfija. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Wikimedia fonds. 2010 .

Kas ir regresija?

Apsveriet divus nepārtrauktus mainīgos x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Novietosim punktus 2D izkliedes diagrammā un sakām, ka tas ir lineāras attiecības ja dati ir tuvināti ar taisnu līniju.

Ja pieņemam, ka y atkarīgs no x, un izmaiņas y ko izraisa izmaiņas x, mēs varam definēt regresijas līniju (regresiju y ieslēgts x), kas vislabāk raksturo taisnās attiecības starp šiem diviem mainīgajiem.

Vārda "regresija" statistiskā lietojuma pamatā ir parādība, kas pazīstama kā regresija pret vidējo, ko attiecina uz seru Frensisu Galtonu (1889).

Viņš parādīja, ka, lai gan gariem tēviem parasti ir gari dēli, dēlu vidējais augums ir mazāks nekā viņu garajiem tēviem. Dēlu vidējais augums "regresēja" un "atkāpās" līdz visu populācijas tēvu vidējam augumam. Tādējādi vidēji gariem tēviem ir īsāki (bet tomēr gari) dēli, bet īsiem – garākiem (bet tomēr diezgan īsiem) dēli.

regresijas līnija

Matemātisks vienādojums, kas novērtē vienkāršu (pāru) lineāro regresijas līniju:

x sauc par neatkarīgo mainīgo vai prognozētāju.

Y ir atkarīgais vai atbildes mainīgais. Tā ir vērtība, ko mēs sagaidām y(vidēji), ja mēs zinām vērtību x, t.i. ir paredzamā vērtība y»

  • a- vērtēšanas līnijas brīvais dalībnieks (šķērsošana); šī vērtība Y, Kad x=0(1. att.).
  • b- paredzamās līnijas slīpums vai slīpums; tā ir summa, par kādu Y palielinās vidēji, ja mēs palielinām x par vienu vienību.
  • a Un b tiek saukti par aprēķinātās līnijas regresijas koeficientiem, lai gan šo terminu bieži lieto tikai b.

Pāru lineāro regresiju var paplašināt, iekļaujot vairāk nekā vienu neatkarīgu mainīgo; šajā gadījumā tas ir pazīstams kā daudzkārtēja regresija.

1. att. Lineāra regresijas līnija, kas parāda a ​​un slīpuma b krustpunktu (Y pieauguma apjoms, kad x palielinās par vienu vienību)

Mazākā kvadrāta metode

Mēs veicam regresijas analīzi, izmantojot novērojumu paraugu, kur a Un b- patieso (vispārējo) parametru α un β izlases aplēses, kas nosaka lineārās regresijas līniju populācijā (vispārējā populācijā).

Vienkāršākā metode koeficientu noteikšanai a Un b ir mazāko kvadrātu metode(MNK).

Atbilstība tiek novērtēta, ņemot vērā atlikumus (katra punkta vertikālais attālums no līnijas, piemēram, atlikušais = novērojams y- prognozēts y, Rīsi. 2).

Vislabākās atbilstības līnija ir izvēlēta tā, lai atlikuma kvadrātu summa būtu minimāla.

Rīsi. 2. Lineāra regresijas līnija ar attēlotām atliekām (vertikālām punktētām līnijām) katram punktam.

Lineārās regresijas pieņēmumi

Tātad katrai novērotajai vērtībai atlikums ir vienāds ar starpību un atbilstošo prognozēto. Katrs atlikums var būt pozitīvs vai negatīvs.

Varat izmantot atlikumus, lai pārbaudītu šādus lineārās regresijas pieņēmumus:

  • Atlikumi parasti tiek sadalīti ar nulles vidējo vērtību;

Ja linearitātes, normalitātes un/vai nemainīgas dispersijas pieņēmumi ir apšaubāmi, mēs varam transformēt vai un aprēķināt jaunu regresijas taisni, kurai šie pieņēmumi ir izpildīti (piemēram, izmantot logaritmisko transformāciju utt.).

Nenormālas vērtības (ārpuses) un ietekmes punkti

"Ietekmīgs" novērojums, ja tas tiek izlaists, maina vienu vai vairākus modeļa parametru aprēķinus (ti, slīpumu vai krustojumu).

Ārējais rādītājs (novērojums, kas ir pretrunā lielākajai daļai datu kopas vērtību) var būt "ietekmīgs" novērojums, un to var labi noteikt vizuāli, aplūkojot 2D izkliedes diagrammu vai atlikuma diagrammu.

Gan izņēmumiem, gan "ietekmīgiem" novērojumiem (punktiem) tiek izmantoti modeļi gan ar to iekļaušanu, gan bez tiem, pievēršot uzmanību novērtējuma (regresijas koeficientu) izmaiņām.

Veicot analīzi, automātiski neatmetiet nobīdes vai ietekmes punktus, jo vienkārši to ignorēšana var ietekmēt rezultātus. Vienmēr izpētiet šo noviržu cēloņus un analizējiet tos.

Lineārās regresijas hipotēze

Konstruējot lineāro regresiju, tiek pārbaudīta nulles hipotēze, ka regresijas taisnes β vispārējais slīpums ir vienāds ar nulli.

Ja līnijas slīpums ir nulle, nav lineāras attiecības starp un: izmaiņas neietekmē

Lai pārbaudītu nulles hipotēzi, ka patiesais slīpums ir nulle, varat izmantot šādu algoritmu:

Aprēķiniet testa statistiku, kas vienāda ar attiecību , kas atbilst sadalījumam ar brīvības pakāpēm, kur koeficienta standartkļūda


,

- atlikumu dispersijas novērtējums.

Parasti, ja sasniegtais nozīmīguma līmenis ir nulles hipotēze, tiek noraidīta.


kur ir procentuālais punkts sadalījumam ar brīvības pakāpēm, kas dod divu virzienu testa varbūtību

Šis ir intervāls, kas satur vispārējo slīpumu ar varbūtību 95%.

Pieņemsim, ka lieliem paraugiem mēs varam tuvināt ar vērtību 1,96 (tas ir, testa statistika parasti ir sadalīta normāli).

Lineārās regresijas kvalitātes novērtējums: determinācijas koeficients R 2

Lineāro attiecību dēļ, un mēs sagaidām, ka tas mainās kā izmaiņas , un mēs to saucam par variāciju, kas ir saistīta ar regresiju vai izskaidrojama ar to. Atlikušajai variācijai jābūt pēc iespējas mazākai.

Ja tā, tad lielākā daļa variāciju tiks izskaidrota ar regresiju, un punkti atradīsies tuvu regresijas taisnei, t.i. līnija labi atbilst datiem.

Tiek saukta kopējās dispersijas proporcija, kas izskaidrojama ar regresiju noteikšanas koeficients, parasti izteikts procentos un apzīmēts R2(pāru lineārajā regresijā šī ir vērtība r2, korelācijas koeficienta kvadrāts), ļauj subjektīvi novērtēt regresijas vienādojuma kvalitāti.

Atšķirība ir dispersijas procents, ko nevar izskaidrot ar regresiju.

Ja nav oficiāla testa, ko novērtēt, mēs esam spiesti paļauties uz subjektīvu spriedumu, lai noteiktu regresijas līnijas atbilstības kvalitāti.

Regresijas līnijas izmantošana prognozei

Varat izmantot regresijas līniju, lai prognozētu vērtību no vērtības, kas atrodas novērotajā diapazonā (nekad neekstrapolējiet ārpus šīm robežām).

Mēs prognozējam vidējo vērtību novērojumiem, kuriem ir noteikta vērtība, aizstājot šo vērtību regresijas līnijas vienādojumā.

Tātad, ja prognozē kā Mēs izmantojam šo prognozēto vērtību un tās standarta kļūdu, lai novērtētu ticamības intervālu patiesajam populācijas vidējam rādītājam.

Atkārtojot šo procedūru dažādām vērtībām, varat izveidot uzticamības ierobežojumus šai rindai. Šī ir josla vai apgabals, kas satur patiesu līniju, piemēram, ar 95% ticamības līmeni.

Vienkārši regresijas plāni

Vienkārši regresijas modeļi satur vienu nepārtrauktu prognozētāju. Ja ir 3 gadījumi ar prognozēšanas vērtībām P , piemēram, 7, 4 un 9, un dizains ietver pirmās kārtas efektu P , tad dizaina matrica X būs

un regresijas vienādojums, izmantojot P X1, izskatās šādi

Y = b0 + b1 P

Ja vienkāršs regresijas dizains satur augstākas kārtas efektu uz P , piemēram, kvadrātisko efektu, tad X1 kolonnas vērtības projektēšanas matricā tiks paaugstinātas līdz otrajai pakāpei:

un vienādojums pieņems formu

Y = b0 + b1 P2

Sigma ierobežotas un pārāk parametrizētas kodēšanas metodes neattiecas uz vienkāršiem regresijas modeļiem un citiem modeļiem, kas satur tikai nepārtrauktus prognozētājus (jo vienkārši nav kategorisku prognozētāju). Neatkarīgi no izvēlētās kodēšanas metodes nepārtraukto mainīgo vērtības tiek palielinātas ar atbilstošo jaudu un tiek izmantotas kā X mainīgo vērtības. Šajā gadījumā pārveidošana netiek veikta. Turklāt, aprakstot regresijas plānus, varat neņemt vērā plāna matricu X un strādāt tikai ar regresijas vienādojumu.

Piemērs: vienkārša regresijas analīze

Šajā piemērā izmantoti tabulā sniegtie dati:

Rīsi. 3. Sākotnējo datu tabula.

Datu pamatā ir 1960. un 1970. gada tautas skaitīšanas salīdzinājums 30 nejauši izvēlētos novados. Novadu nosaukumi tiek attēloti kā novērojumu nosaukumi. Informācija par katru mainīgo ir sniegta zemāk:

Rīsi. 4. Mainīgo specifikāciju tabula.

Pētījuma mērķis

Šajā piemērā tiks analizēta korelācija starp nabadzības līmeni un spēku, kas paredz to ģimeņu procentuālo daļu, kuras atrodas zem nabadzības sliekšņa. Tāpēc mainīgo 3 (Pt_Poor) uzskatīsim par atkarīgu mainīgo.

Var izvirzīt hipotēzi: iedzīvotāju skaita izmaiņas un to ģimeņu procentuālais daudzums, kuras atrodas zem nabadzības sliekšņa, ir saistītas. Šķiet pamatoti sagaidīt, ka nabadzība izraisa iedzīvotāju aizplūšanu, līdz ar to pastāv negatīva korelācija starp cilvēku procentuālo daļu zem nabadzības sliekšņa un iedzīvotāju skaita izmaiņām. Tāpēc mainīgo 1 (Pop_Chng) uzskatīsim par prognozējošo mainīgo.

Skatīt rezultātus

Regresijas koeficienti

Rīsi. 5. Regresijas koeficienti Pt_Poor uz Pop_Chng.

Rindas Pop_Chng un Param. nestandartizētais koeficients Pt_Poor regresijai uz Pop_Chng ir -0,40374 . Tas nozīmē, ka par katru iedzīvotāju skaita samazināšanos vienībā palielinās nabadzības līmenis par 0,40374. Augšējā un apakšējā (noklusējuma) 95% ticamības robeža šim nestandartizētajam koeficientam neietver nulli, tāpēc regresijas koeficients ir nozīmīgs p līmenī.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Mainīgo lielumu sadalījums

Korelācijas koeficienti var kļūt ievērojami pārvērtēti vai nenovērtēti, ja datos ir lielas novirzes. Apskatīsim atkarīgā mainīgā Pt_Poor sadalījumu pa apgabaliem. Lai to izdarītu, mēs izveidosim mainīgā Pt_Poor histogrammu.

Rīsi. 6. Pt_Poor mainīgā histogramma.

Kā redzat, šī mainīgā sadalījums ievērojami atšķiras no parastā sadalījuma. Tomēr, lai gan pat divos apgabalos (divas labās ailes) ir lielāks ģimeņu procentuālais daudzums, kas atrodas zem nabadzības sliekšņa, nekā paredzēts normālā sadalījumā, šķiet, ka tās atrodas "diapazonā".

Rīsi. 7. Pt_Poor mainīgā histogramma.

Šis spriedums ir nedaudz subjektīvs. Īkšķis ir tāds, ka novirzes ir jāņem vērā, ja novērojums (vai novērojumi) neietilpst intervālā (vidējā ± 3 reizes lielāka par standarta novirzi). Šajā gadījumā ir vērts atkārtot analīzi ar un bez novirzēm, lai pārliecinātos, ka tām nav nopietnas ietekmes uz korelāciju starp populācijas locekļiem.

Izkliedes diagramma

Ja kāda no hipotēzēm a priori ir par saistību starp dotajiem mainīgajiem, tad lietderīgi to pārbaudīt attiecīgā izkliedes diagrammā.

Rīsi. 8. Izkliedes diagramma.

Izkliedes diagramma parāda skaidru negatīvu korelāciju (-.65) starp diviem mainīgajiem. Tas parāda arī 95% ticamības intervālu regresijas līnijai, t.i., ar 95% varbūtību regresijas līnija iet starp divām pārtrauktajām līknēm.

Nozīmīguma kritēriji

Rīsi. 9. Tabula ar nozīmīguma kritērijiem.

Pop_Chng regresijas koeficienta tests apstiprina, ka Pop_Chng ir cieši saistīts ar Pt_Poor , p<.001 .

Rezultāts

Šis piemērs parādīja, kā analizēt vienkāršu regresijas plānu. Tika prezentēta arī nestandartizēto un standartizēto regresijas koeficientu interpretācija. Tiek apspriesta atkarīgā mainīgā atbildes sadalījuma izpētes nozīme, kā arī parādīts paņēmiens, kā noteikt attiecības virzienu un stiprumu starp prognozētāju un atkarīgo mainīgo.

Regresijas un korelācijas analīze - statistiskās izpētes metodes. Šie ir visizplatītākie veidi, kā parādīt parametra atkarību no viena vai vairākiem neatkarīgiem mainīgajiem.

Tālāk, izmantojot konkrētus praktiskus piemērus, mēs aplūkosim šīs divas ļoti populārās analīzes ekonomistu vidū. Mēs arī sniegsim piemēru, kā iegūt rezultātus, kad tie tiek apvienoti.

Regresijas analīze programmā Excel

Parāda dažu vērtību (neatkarīgo, neatkarīgo) ietekmi uz atkarīgo mainīgo. Piemēram, kā ekonomiski aktīvo iedzīvotāju skaits ir atkarīgs no uzņēmumu skaita, algām un citiem parametriem. Vai arī: kā IKP līmeni ietekmē ārvalstu investīcijas, enerģijas cenas utt.

Analīzes rezultāts ļauj noteikt prioritātes. Un, pamatojoties uz galvenajiem faktoriem, prognozēt, plānot prioritāro jomu attīstību, pieņemt vadības lēmumus.

Regresija notiek:

  • lineārs (y = a + bx);
  • parabolisks (y = a + bx + cx 2);
  • eksponenciāls (y = a * exp(bx));
  • jauda (y = a*x^b);
  • hiperbolisks (y = b/x + a);
  • logaritmisks (y = b * 1n(x) + a);
  • eksponenciāls (y = a * b^x).

Apsveriet piemēru par regresijas modeļa izveidi programmā Excel un rezultātu interpretāciju. Ņemsim lineāro regresijas veidu.

Uzdevums. 6 uzņēmumos tika analizēta mēneša vidējā darba samaksa un aizgājušo darbinieku skaits. Nepieciešams noteikt pensionēto darbinieku skaita atkarību no vidējās algas.

Lineārās regresijas modelim ir šāda forma:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Kur a ir regresijas koeficienti, x ir ietekmējošie mainīgie, un k ir faktoru skaits.

Mūsu piemērā Y ir darbinieku pamešanas rādītājs. Ietekmējošais faktors ir algas (x).

Programmā Excel ir iebūvētas funkcijas, ar kurām var aprēķināt lineārās regresijas modeļa parametrus. Taču Analysis ToolPak pievienojumprogramma to paveiks ātrāk.

Aktivizējiet jaudīgu analītisko rīku:

Kad papildinājums būs aktivizēts, tas būs pieejams cilnē Dati.

Tagad mēs nodarbosimies tieši ar regresijas analīzi.



Pirmkārt, mēs pievēršam uzmanību R kvadrātam un koeficientiem.

R-kvadrāts ir determinācijas koeficients. Mūsu piemērā tas ir 0,755 jeb 75,5%. Tas nozīmē, ka modeļa aprēķinātie parametri izskaidro sakarību starp pētītajiem parametriem par 75,5%. Jo augstāks determinācijas koeficients, jo labāks modelis. Labi - virs 0,8. Slikti - mazāk par 0,5 (šādu analīzi diez vai var uzskatīt par saprātīgu). Mūsu piemērā - "nav slikti".

Koeficients 64,1428 parāda, kāds būs Y, ja visi aplūkojamā modeļa mainīgie ir vienādi ar 0. Tas ir, citi faktori, kas modelī nav aprakstīti, ietekmē arī analizējamā parametra vērtību.

Koeficients -0,16285 parāda mainīgā X svaru uz Y. Tas ir, vidējā mēnešalga šajā modelī ietekmē atmesto skaitu ar svaru -0,16285 (tā ir neliela ietekmes pakāpe). “-” zīme norāda uz negatīvu ietekmi: jo lielāka alga, jo mazāk pamet. Kas ir godīgi.



Korelācijas analīze programmā Excel

Korelācijas analīze palīdz noteikt, vai pastāv saistība starp rādītājiem vienā vai divās izlasēs. Piemēram, starp mašīnas darbības laiku un remonta izmaksām, aprīkojuma cenu un darbības ilgumu, bērnu augumu un svaru utt.

Ja ir sakarība, tad vai viena parametra palielināšanās noved pie otra pieauguma (pozitīva korelācija) vai samazināšanās (negatīva). Korelācijas analīze palīdz analītiķim noteikt, vai viena rādītāja vērtība var paredzēt cita iespējamo vērtību.

Korelācijas koeficientu apzīmē ar r. Svārstās no +1 līdz -1. Korelāciju klasifikācija dažādām jomām būs atšķirīga. Ja koeficienta vērtība ir 0, starp paraugiem nav lineāras attiecības.

Apsveriet, kā izmantot programmu Excel, lai atrastu korelācijas koeficientu.

Funkcija CORREL tiek izmantota, lai atrastu pārī savienotos koeficientus.

Uzdevums: Noskaidrot, vai pastāv saistība starp virpas darbības laiku un tās uzturēšanas izmaksām.

Novietojiet kursoru jebkurā šūnā un nospiediet fx pogu.

  1. Kategorijā "Statistika" atlasiet funkciju CORREL.
  2. Arguments "Masīvs 1" - pirmais vērtību diapazons - mašīnas laiks: A2: A14.
  3. Arguments "Masīvs 2" - otrais vērtību diapazons - remonta izmaksas: B2:B14. Noklikšķiniet uz Labi.

Lai noteiktu savienojuma veidu, jums jāaplūko koeficienta absolūtais skaitlis (katrai darbības jomai ir sava skala).

Vairāku parametru (vairāk nekā 2) korelācijas analīzei ērtāk ir izmantot "Datu analīzi" (papildinājums "Analīzes pakotne"). Sarakstā ir jāizvēlas korelācija un jānorāda masīvs. Visi.

Iegūtie koeficienti tiks parādīti korelācijas matricā. Kā šis:

Korelācijas-regresijas analīze

Praksē šīs divas metodes bieži tiek izmantotas kopā.

Piemērs:


Tagad ir redzami regresijas analīzes dati.

1. Pirmo reizi terminu "regresija" ieviesa biometrijas pamatlicējs F. Galtons (XIX gs.), kura idejas attīstīja viņa sekotājs K. Pīrsons.

Regresijas analīze- statistikas datu apstrādes metode, kas ļauj izmērīt sakarību starp vienu vai vairākiem cēloņiem (faktoriālās pazīmes) un sekām (efektīvā zīme).

zīme- šī ir pētāmās parādības vai procesa galvenā atšķirīgā iezīme, iezīme.

Efektīva zīme - izmeklētais rādītājs.

Faktoru zīme- indikators, kas ietekmē efektīvās pazīmes vērtību.

Regresijas analīzes mērķis ir novērtēt efektīvās pazīmes vidējās vērtības funkcionālo atkarību ( plkst) no faktoriāla ( x 1, x 2, ..., x n), izteikts kā regresijas vienādojumi

plkst= f(x 1, x 2, ..., x n). (6.1)

Ir divu veidu regresija: pāra un daudzkārtēja.

Pāru (vienkāršā) regresija- formas vienādojums:

plkst= f(x). (6.2)

Rezultējošā pazīme pāru regresijā tiek uzskatīta par viena argumenta funkciju, t.i. viens faktors.

Regresijas analīze ietver šādas darbības:

funkcijas veida definīcija;

regresijas koeficientu noteikšana;

Efektīvās pazīmes teorētisko vērtību aprēķināšana;

Regresijas koeficientu statistiskās nozīmības pārbaude;

Regresijas vienādojuma statistiskās nozīmīguma pārbaude.

Daudzkārtēja regresija- formas vienādojums:

plkst= f(x 1, x 2, ..., x n). (6.3)

Rezultātā iegūtā pazīme tiek uzskatīta par vairāku argumentu funkciju, t.i. daudzi faktori.

2. Lai pareizi noteiktu funkcijas veidu, ir jāatrod savienojuma virziens, pamatojoties uz teorētiskajiem datiem.

Atbilstoši savienojuma virzienam regresiju iedala:

· tieša regresija, kas rodas ar nosacījumu, ka, palielinoties vai samazinoties neatkarīgajai vērtībai " X" atkarīgā daudzuma vērtības" plkst. arī attiecīgi palielināt vai samazināt;

· apgrieztā regresija, kas rodas ar nosacījumu, ka pieaugot vai samazinoties neatkarīgajai vērtībai "X" atkarīgā vērtība " plkst. attiecīgi samazinās vai palielinās.

Lai raksturotu attiecības, tiek izmantoti šādi pāru regresijas vienādojumu veidi:

· y=a+bxlineārs;

· y=e ax + b – eksponenciāls;

· y=a+b/x – hiperbolisks;

· y=a+b 1 x+b 2 x 2 – parabolisks;

· y=ab x – eksponenciāls un utt.

Kur a, b1, b2- vienādojuma koeficienti (parametri); plkst- efektīva zīme; X- faktora zīme.

3. Regresijas vienādojuma konstruēšana tiek reducēta līdz tā koeficientu (parametru) novērtēšanai, šim nolūkam viņi izmanto mazāko kvadrātu metode(MNK).

Mazāko kvadrātu metode ļauj iegūt tādus parametru aprēķinus, kuros efektīvās pazīmes faktisko vērtību kvadrātu noviržu summa. plkst"no teorētiskā" y x» ir minimāls, tas ir

Regresijas vienādojuma opcijas y=a+bx ar mazāko kvadrātu metodi tiek novērtētas, izmantojot formulas:

Kur A - brīvais koeficients, b- regresijas koeficients, parāda, cik daudz mainīsies rezultējošā zīme y» mainot faktora atribūtu « x» par mērvienību.

4. Lai novērtētu regresijas koeficientu statistisko nozīmīgumu, tiek izmantots Stjudenta t-tests.

Regresijas koeficientu nozīmīguma pārbaudes shēma:

1) H 0: a=0, b=0 - regresijas koeficienti nenozīmīgi atšķiras no nulles.

H 1: a≠ 0, b≠ 0 - regresijas koeficienti būtiski atšķiras no nulles.

2) R=0,05 – nozīmīguma līmenis.

Kur m b,m a- nejaušas kļūdas:

; . (6.7)

4) t galds(R; f),

Kur f=n-k- 1 - brīvības pakāpju skaits (tabulas vērtība), n- novērojumu skaits, k X".

5) Ja , tad novirzās, t.i. ievērojams koeficients.

Ja , tad tiek pieņemts, t.i. koeficients ir nenozīmīgs.

5. Lai pārbaudītu konstruētā regresijas vienādojuma pareizību, tiek izmantots Fišera kritērijs.

Shēma regresijas vienādojuma nozīmīguma pārbaudei:

1) H 0: regresijas vienādojums nav nozīmīgs.

H 1: regresijas vienādojums ir nozīmīgs.

2) R=0,05 – nozīmīguma līmenis.

3) , (6.8)

kur ir novērojumu skaits; k- parametru skaits vienādojumā ar mainīgajiem " X"; plkst- efektīvās pazīmes faktiskā vērtība; y x- efektīvās pazīmes teorētiskā vērtība; - pāru korelācijas koeficients.

4) F tabula(R; f1; f2),

Kur f 1 \u003d k, f 2 \u003d n-k-1- brīvības pakāpju skaits (tabulas vērtības).

5) Ja F aprēķins >F tabula, tad regresijas vienādojums ir izvēlēts pareizi un to var pielietot praksē.

Ja F aprēķins , tad regresijas vienādojums ir izvēlēts nepareizi.

6. Galvenais rādītājs, kas atspoguļo regresijas analīzes kvalitātes mērauklu, ir determinācijas koeficients (R 2).

Determinācijas koeficients parāda atkarīgā mainīgā lieluma daļu plkst» tiek ņemts vērā analīzē, un to izraisa analīzē iekļauto faktoru ietekme.

Determinācijas koeficients (R2)ņem vērtības diapazonā . Regresijas vienādojums ir kvalitatīvs, ja R2 ≥0,8.

Determinācijas koeficients ir vienāds ar korelācijas koeficienta kvadrātu, t.i.

Piemērs 6.1. Pamatojoties uz šādiem datiem, izveidojiet un analizējiet regresijas vienādojumu:

Risinājums.

1) Aprēķināt korelācijas koeficientu: . Attiecības starp zīmēm ir tiešas un mērenas.

2) Izveidojiet sapārotu lineārās regresijas vienādojumu.

2.1) Izveidojiet aprēķinu tabulu.

X plkst Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Summa 159,45 558,55
Vidēji 77519,6 22,78 79,79 2990,6

,

Pārī savienots lineārās regresijas vienādojums: y x \u003d 25,17 + 0,087x.

3) Atrodiet teorētiskās vērtības" y x» aizvietojot faktiskās vērtības regresijas vienādojumā « X».

4) uzzīmējiet grafikus faktiskajām " plkst. un teorētiskās vērtības" y x» efektīvā pazīme (6.1. attēls): r xy =0,47) un neliels novērojumu skaits.

7) Aprēķiniet determinācijas koeficientu: R2=(0,47) 2 =0,22. Izveidotais vienādojums ir sliktas kvalitātes.

Jo aprēķini regresijas analīzes laikā ir diezgan apjomīgi, ieteicams izmantot īpašas programmas ("Statistica 10", SPSS uc).

6.2. attēlā parādīta tabula ar regresijas analīzes rezultātiem, kas veikta, izmantojot programmu "Statistica 10".

6.2. attēls. Regresijas analīzes rezultāti, kas veikti, izmantojot programmu "Statistica 10"

5. Literatūra:

1. Gmurman V.E. Varbūtību teorija un matemātiskā statistika: Proc. rokasgrāmata universitātēm / V.E. Gmurmans. - M.: Augstskola, 2003. - 479 lpp.

2. Koičubekovs B.K. Biostatistika: mācību grāmata. - Almati: Evero, 2014. - 154 lpp.

3. Lobotskaya N.L. Augstākā matemātika. / N.L. Lobotskaja, Yu.V. Morozovs, A.A. Dunajevs. - Minska: Augstskola, 1987. - 319 lpp.

4. Mediķis V.A., Tokmačevs M.S., Fišmens B.B. Statistika medicīnā un bioloģijā: rokasgrāmata. 2 sējumos / Red. Yu.M. Komarovs. T. 1. Teorētiskā statistika. - M.: Medicīna, 2000. - 412 lpp.

5. Statistiskās analīzes metožu pielietošana sabiedrības veselības un veselības aprūpes pētījumos: mācību grāmata / red. Kučerenko V.Z. - 4. izdevums, pārskatīts. un papildu - M.: GEOTAR - Mediji, 2011. - 256 lpp.