Regresijska analiza. Regresijska analiza

Regresijskom analizom ispituje se ovisnost određene veličine o drugoj veličini ili više drugih veličina. Regresijska analiza uglavnom se koristi u srednjoročnom predviđanju, kao iu dugoročnom predviđanju. Srednjoročna i dugoročna razdoblja omogućuju utvrđivanje promjena u poslovnom okruženju i uzimanje u obzir utjecaja tih promjena na promatrani pokazatelj.

Za provođenje regresijske analize potrebno je:

    dostupnost godišnjih podataka o proučavanim pokazateljima,

    dostupnost jednokratnih prognoza, tj. predviđanja koja se ne poboljšavaju novim podacima.

Regresijska analiza obično se provodi za objekte koji imaju složenu, multifaktorijalnu prirodu, kao što su obujam ulaganja, dobit, obujam prodaje itd.

Na normativna metoda predviđanja utvrđuju se načini i rokovi postizanja mogućih stanja fenomena koji se uzima kao cilj. Riječ je o predviđanju postizanja željenih stanja fenomena na temelju unaprijed zadanih normi, ideala, poticaja i ciljeva. Takva prognoza odgovara na pitanje: na koji način se može postići željeno? Normativna metoda se češće koristi za programske ili ciljane prognoze. Koristi se i kvantitativni izraz standarda i određena ljestvica mogućnosti funkcije vrednovanja.

U slučaju korištenja kvantitativnog izraza, na primjer, fizioloških i racionalnih normi za potrošnju određenih prehrambenih i neprehrambenih proizvoda koje su razvili stručnjaci za različite skupine stanovništva, moguće je odrediti razinu potrošnje tih dobara za godine koje prethode postizanju navedene norme. Takvi izračuni nazivaju se interpolacija. Interpolacija je način izračunavanja pokazatelja koji nedostaju u vremenskoj seriji neke pojave, na temelju utvrđenog odnosa. Uzimajući stvarnu vrijednost indikatora i vrijednost njegovih standarda kao ekstremne članove dinamičke serije, moguće je odrediti veličinu vrijednosti unutar ove serije. Stoga se interpolacija smatra normativnom metodom. Prethodno navedena formula (4), korištena u ekstrapolaciji, može se koristiti u interpolaciji, gdje y n više neće karakterizirati stvarne podatke, već standard indikatora.

U slučaju korištenja ljestvice (polja, spektra) mogućnosti funkcije evaluacije, odnosno funkcije distribucije preferencija, u normativnoj metodi označava se približno sljedeća gradacija: nepoželjno - manje poželjno - više poželjno - najpoželjnije - optimalan (standard).

Normativna metoda predviđanja pomaže u izradi preporuka za povećanje razine objektivnosti, a time i učinkovitosti odluka.

Modeliranje, možda najteža metoda predviđanja. Matematičko modeliranje znači opis ekonomske pojave pomoću matematičkih formula, jednadžbi i nejednakosti. Matematički aparat trebao bi točno odražavati pozadinu prognoze, iako je prilično teško u potpunosti odražavati cjelokupnu dubinu i složenost predviđenog objekta. Pojam "model" potječe od latinske riječi modelus, što znači "mjera". Stoga bi bilo ispravnije modeliranje smatrati ne metodom predviđanja, već metodom za proučavanje slične pojave na modelu.

U širem smislu, modeli se nazivaju zamjene za predmet proučavanja, koji su u takvoj sličnosti s njim da vam omogućuju stjecanje novih znanja o objektu. Model treba promatrati kao matematički opis objekta. U ovom slučaju, model se definira kao fenomen (predmet, instalacija) koji je u nekoj korespondenciji s predmetom koji se proučava i može ga zamijeniti u procesu istraživanja, dajući informacije o objektu.

Uz uže razumijevanje modela, on se smatra objektom predviđanja, njegovo proučavanje omogućuje dobivanje informacija o mogućim stanjima objekta u budućnosti i načinima postizanja tih stanja. U ovom slučaju, svrha prediktivnog modela je dobiti informacije ne o objektu općenito, već samo o njegovim budućim stanjima. Zatim, prilikom izgradnje modela, može biti nemoguće izravno provjeriti njegovu korespondenciju s objektom, budući da model predstavlja samo njegovo buduće stanje, a sam objekt može trenutno biti odsutan ili imati drugačije postojanje.

Modeli mogu biti materijalni i idealni.

U ekonomiji se koriste idealni modeli. Najsavršeniji idealni model za kvantitativni opis društveno-ekonomske (ekonomske) pojave je matematički model koji koristi brojeve, formule, jednadžbe, algoritme ili grafički prikaz. Uz pomoć ekonomskih modela odrediti:

    odnos između različitih ekonomskih pokazatelja;

    razne vrste ograničenja nametnutih pokazateljima;

    kriterije za optimizaciju procesa.

Svrsishodan opis objekta može se predstaviti u obliku njegove formalizirane sheme, koja pokazuje koji se parametri i početne informacije moraju prikupiti da bi se izračunale željene vrijednosti. Matematički model, za razliku od formalizirane sheme, sadrži specifične numeričke podatke koji karakteriziraju objekt.Razvoj matematičkog modela uvelike ovisi o ideji prognostičara o suštini procesa koji se modelira. Na temelju svojih ideja postavlja radnu hipotezu uz pomoć koje se stvara analitički zapis modela u obliku formula, jednadžbi i nejednakosti. Kao rezultat rješavanja sustava jednadžbi dobivaju se specifični parametri funkcije koji opisuju promjenu željenih varijabli tijekom vremena.

Redoslijed i slijed rada kao elementa organizacije prognoziranja utvrđuje se ovisno o korištenoj prognoznoj metodi. Obično se ovaj rad provodi u nekoliko faza.

Faza 1 - prediktivna retrospekcija, tj. utvrđivanje predmeta prognoze i pozadine prognoze. Rad u prvoj fazi izvodi se u sljedećem redoslijedu:

    formiranje opisa objekta u prošlosti koji uključuje predprognoznu analizu objekta, ocjenu njegovih parametara, njihov značaj i međusobne odnose,

    utvrđivanje i vrednovanje izvora informacija, postupak i organizacija rada s njima, prikupljanje i plasiranje retrospektivnih informacija;

    postavljanje ciljeva istraživanja.

Obavljajući poslove prediktivne retrospekcije, prognostičari proučavaju povijest razvoja objekta i pozadinu prognoze kako bi dobili njihov sustavni opis.

Faza 2 - prediktivna dijagnoza, tijekom koje se proučava sustavni opis objekta predviđanja i pozadine prognoze kako bi se identificirali trendovi u njihovom razvoju i odabrali modeli i metode predviđanja. Rad se izvodi u sljedećem redoslijedu:

    razvoj modela objekta prognoze, uključujući formalizirani opis objekta, provjeru stupnja primjerenosti modela objektu;

    izbor metoda predviđanja (glavnih i pomoćnih), izrada algoritma i programa rada.

3. faza - pokroviteljstvo, tj. proces opsežnog razvoja prognoze, uključujući: 1) izračun predviđenih parametara za zadano vodeće razdoblje; 2) sinteza pojedinih sastavnica prognoze.

4. faza - procjena prognoze, uključujući njezinu provjeru, tj. utvrđivanje stupnja pouzdanosti, točnosti i valjanosti.

U tijeku prospekcije i evaluacije, zadaci prognoze i njezina evaluacija rješavaju se na temelju prethodnih faza.

Navedeno faziranje je okvirno i ovisi o glavnoj metodi predviđanja.

Rezultati predviđanja sastavljaju se u obliku potvrde, izvješća ili drugog materijala i prezentiraju kupcu.

U prognoziranju se može naznačiti odstupanje prognoze od stvarnog stanja objekta, što se naziva pogreška prognoze, koja se izračunava po formuli:

;
;
. (9.3)

Izvori pogrešaka u predviđanju

Glavni izvori mogu biti:

1. Jednostavan prijenos (ekstrapolacija) podataka iz prošlosti u budućnost (npr. tvrtka nema druge mogućnosti predviđanja, osim povećanja prodaje od 10%).

2. Nemogućnost točnog određivanja vjerojatnosti događaja i njegovog utjecaja na predmet koji se proučava.

3. Nepredviđene poteškoće (remetilački događaji) koji utječu na provedbu plana, na primjer, iznenadna smjena voditelja odjela prodaje.

Općenito, točnost predviđanja raste s akumulacijom iskustva u predviđanju i razvojem njegovih metoda.

Regresijska analiza

regresija (linearni) analiza- statistička metoda za proučavanje utjecaja jedne ili više nezavisnih varijabli na zavisnu varijablu. Neovisne varijable se inače nazivaju regresorima ili prediktorima, a zavisne varijable kriterijima. Terminologija ovisan i nezavisna varijable odražava samo matematičku ovisnost varijabli ( vidi Lažna korelacija), a ne uzročna veza.

Ciljevi regresijske analize

  1. Određivanje stupnja determiniranosti varijacije kriterijske (ovisne) varijable prediktorima (nezavisne varijable)
  2. Predviđanje vrijednosti zavisne varijable pomoću nezavisne varijable(a)
  3. Utvrđivanje doprinosa pojedinih nezavisnih varijabli varijaciji zavisne

Regresijskom analizom ne može se utvrditi postoji li odnos između varijabli, budući da je postojanje takvog odnosa preduvjet za primjenu analize.

Matematička definicija regresije

Strogo regresivna ovisnost može se definirati na sljedeći način. Neka su slučajne varijable s danom zajedničkom distribucijom vjerojatnosti. Ako je za svaki skup vrijednosti definirano uvjetno očekivanje

(opća regresijska jednadžba),

tada se funkcija poziva regresija Y vrijednosti po vrijednostima, a njegov grafikon - regresijska linija od , ili regresijska jednadžba.

Ovisnost se očituje u promjeni prosječnih vrijednosti Y pri promjeni . Iako za svaki fiksni skup vrijednosti, količina ostaje slučajna varijabla s određenom disperzijom.

Kako bi se razjasnilo pitanje koliko točno regresijska analiza procjenjuje promjenu Y s promjenom, prosječna vrijednost varijance Y koristi se za različite skupove vrijednosti (zapravo, govorimo o mjeri disperzije zavisna varijabla oko regresijske linije).

Metoda najmanjih kvadrata (izračun koeficijenata)

U praksi se regresijska linija najčešće traži u obliku linearna funkcija(linearna regresija) koja najbolje aproksimira željenu krivulju. To se radi metodom najmanjih kvadrata, kada je zbroj kvadrata odstupanja stvarno opaženih od njihovih procjena minimiziran (što znači procjene koje koriste ravnu liniju za koju se tvrdi da predstavlja željenu regresijsku ovisnost):

(M - veličina uzorka). Ovaj pristup se temelji na poznata činjenica da zbroj koji se pojavljuje u gornjem izrazu poprima minimalnu vrijednost upravo za slučaj kada .

Za rješavanje problema regresijske analize metodom najmanjih kvadrata uvodi se koncept rezidualne funkcije:

Uvjet za minimum funkcije ostatka:

Rezultirajući sustav je sustav linearne jednadžbe s nepoznatim

Ako slobodne članove lijeve strane jednadžbi predstavimo matricom

a koeficijenti nepoznanica na desnoj strani matrice

tada dobivamo matričnu jednadžbu: , koja se lako rješava Gaussovom metodom. Rezultirajuća matrica bit će matrica koja sadrži koeficijente jednadžbe regresijske linije:

Za dobivanje najboljih procjena potrebno je ispuniti LSM preduvjete (Gauss–Markovljevi uvjeti). U engleskoj literaturi takve se procjene nazivaju BLUE (Best Linear Unbiased Estimators) - najbolje linearne nepristrane procjene.

Tumačenje regresijskih parametara

Parametri su parcijalni koeficijenti korelacije; tumači se kao udio varijance Y koji se objašnjava fiksiranjem utjecaja preostalih prediktora, odnosno mjeri pojedinačni doprinos objašnjenju Y. U slučaju koreliranih prediktora, postoji problem nesigurnosti u procjenama , koji postaju ovisni o redoslijedu kojim su prediktori uključeni u model. U takvim slučajevima potrebno je primijeniti metode analize korelacijske i postupne regresijske analize.

Govoreći o nelinearnim modelima regresijske analize, važno je obratiti pozornost na to je li riječ o nelinearnosti u nezavisnim varijablama (s formalnog gledišta, lako se svodi na linearnu regresiju), ili o nelinearnosti u estimiranim parametrima. (uzrokujući ozbiljne računalne poteškoće). Kod prve vrste nelinearnosti, sa smislene točke gledišta, važno je izdvojiti pojavu u modelu članova oblika , , što ukazuje na prisutnost interakcija između značajki itd. (vidi Multikolinearnost).

vidi također

Linkovi

  • www.kgafk.ru - Predavanje na temu "Regresijska analiza"
  • www.basegroup.ru - metode za odabir varijabli u regresijskim modelima

Književnost

  • Norman Draper, Harry Smith Primijenjena regresijska analiza. Višestruka regresija= Primijenjena regresijska analiza. - 3. izd. - M .: "Dijalektika", 2007. - S. 912. - ISBN 0-471-17082-8
  • Održive metode za procjenu statističkih modela: monografija. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDK: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radčenko Stanislav Grigorijevič, Metodologija regresijske analize: monografija. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Zaklada Wikimedia. 2010. godine.

Što je regresija?

Razmotrimo dvije kontinuirane varijable x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Postavimo točke na 2D dijagram raspršenosti i recimo da imamo linearni odnos ako su podaci aproksimirani ravnom linijom.

Ako to pretpostavimo g ovisi o x, i promjene u g uzrokovane promjenama u x, možemo definirati regresijsku liniju (regresija g na x), koji najbolje opisuje pravocrtni odnos između ove dvije varijable.

Statistička upotreba riječi "regresija" dolazi od fenomena poznatog kao regresija na srednju vrijednost, koji se pripisuje Sir Francisu Galtonu (1889).

Pokazao je da dok visoki očevi obično imaju visoke sinove, prosječna visina sinova niža je od visine njihovih visokih očeva. Prosječna visina sinova je “nazadovala” i “vratila se” na prosječnu visinu svih očeva u populaciji. Tako u prosjeku visoki očevi imaju niže (ali još uvijek visoke) sinove, a niski očevi imaju više (ali još uvijek prilično niske) sinove.

regresijska linija

Matematička jednadžba koja procjenjuje jednostavnu (uparenu) liniju linearne regresije:

x naziva nezavisna varijabla ili prediktor.

Y je zavisna varijabla ili varijabla odgovora. To je vrijednost koju očekujemo g(u prosjeku) ako znamo vrijednost x, tj. je predviđena vrijednost g»

  • a- slobodan član (prijelaz) ocjenjivačke linije; ovu vrijednost Y, kada x=0(Sl. 1).
  • b- nagib ili gradijent procijenjene linije; to je iznos kojim Y povećava se u prosjeku ako povećavamo x za jednu jedinicu.
  • a i b nazivaju se koeficijenti regresije procijenjene linije, iako se ovaj izraz često koristi samo za b.

Parna linearna regresija može se proširiti da uključi više od jedne neovisne varijable; u ovom slučaju to je poznato kao višestruka regresija.

Sl. 1. Linija linearne regresije koja prikazuje sjecište a i nagiba b (količina povećanja Y kada se x poveća za jednu jedinicu)

Metoda najmanjeg kvadrata

Provodimo regresijsku analizu koristeći uzorak opažanja gdje a i b- procjena uzorka stvarnih (općih) parametara, α i β, koji određuju liniju linearne regresije u populaciji (općoj populaciji).

Najjednostavnija metoda za određivanje koeficijenata a i b je metoda najmanjih kvadrata(MNK).

Prilagodba se procjenjuje uzimajući u obzir reziduale (vertikalna udaljenost svake točke od linije, npr. rezidualno = vidljivo g- predviđeno g, riža. 2).

Linija najboljeg pristajanja bira se tako da je zbroj kvadrata reziduala minimalan.

Riža. 2. Linija linearne regresije s prikazanim rezidualima (okomite isprekidane linije) za svaku točku.

Pretpostavke linearne regresije

Dakle, za svaku promatranu vrijednost rezidual je jednak razlici i odgovarajućem predviđenom.Svaki rezidual može biti pozitivan ili negativan.

Možete koristiti reziduale za testiranje sljedećih pretpostavki iza linearne regresije:

  • Ostaci su normalno raspoređeni s nultom sredinom;

Ako su pretpostavke o linearnosti, normalnosti i/ili konstantnoj varijanci upitne, možemo transformirati ili izračunati novu regresijsku liniju za koju su te pretpostavke zadovoljene (npr. koristiti logaritamsku transformaciju itd.).

Abnormalne vrijednosti (outliers) i točke utjecaja

"Utjecajno" opažanje, ako je izostavljeno, mijenja jednu ili više procjena parametra modela (tj. nagib ili presjek).

Outlier (opažanje koje je u suprotnosti s većinom vrijednosti u skupu podataka) može biti "utjecajno" opažanje i može se dobro uočiti vizualno gledanjem 2D dijagrama raspršenosti ili dijagrama reziduala.

I za outliere i za "utjecajna" opažanja (točke) koriste se modeli, s njihovim uključivanjem i bez njih, obratite pozornost na promjenu procjene (regresijski koeficijenti).

Kada radite analizu, nemojte automatski odbacivati ​​outliere ili utjecajne točke, jer njihovo jednostavno ignoriranje može utjecati na rezultate. Uvijek proučavajte uzroke ovih odstupanja i analizirajte ih.

Hipoteza linearne regresije

Pri konstruiranju linearne regresije provjerava se nulta hipoteza da je opći nagib regresijske linije β jednak nuli.

Ako je nagib linije jednak nuli, ne postoji linearni odnos između i: promjena ne utječe

Za testiranje nulte hipoteze da je pravi nagib nula, možete koristiti sljedeći algoritam:

Izračunajte testnu statistiku jednaku omjeru , koji se pokorava distribuciji sa stupnjevima slobode, gdje je standardna pogreška koeficijenta


,

- procjena varijance reziduala.

Obično, ako je dosegnuta razina značajnosti, nulta hipoteza se odbacuje.


gdje je postotna točka distribucije sa stupnjevima slobode koja daje vjerojatnost dvosmjernog testa

Ovo je interval koji sadrži opći nagib s vjerojatnošću od 95%.

Za velike uzorke, recimo da možemo aproksimirati s vrijednošću od 1,96 (to jest, statistika testa težit će normalnoj distribuciji)

Ocjena kvalitete linearne regresije: koeficijent determinacije R 2

Zbog linearnog odnosa i očekujemo da se to mijenja kako se mijenja , a to nazivamo varijacijom koja je posljedica ili objašnjena regresijom. Preostala varijacija treba biti što manja.

Ako je tako, tada će većina varijacija biti objašnjena regresijom, a točke će ležati blizu regresijske linije, tj. linija dobro odgovara podacima.

Udio ukupne varijance koji se objašnjava regresijom naziva se koeficijent determinacije, obično izražen kao postotak i označen R2(u uparenoj linearnoj regresiji, ovo je vrijednost r2, kvadrat koeficijenta korelacije), omogućuje subjektivnu procjenu kvalitete regresijske jednadžbe.

Razlika je postotak varijance koji se ne može objasniti regresijom.

Bez formalnog testa za procjenu, prisiljeni smo osloniti se na subjektivnu prosudbu kako bismo odredili kvalitetu prilagodbe regresijske linije.

Primjena regresijske linije na prognozu

Možete koristiti regresijsku liniju za predviđanje vrijednosti iz vrijednosti unutar promatranog raspona (nikada ne ekstrapolirajte izvan ovih granica).

Predviđamo srednju vrijednost za vidljive veličine koje imaju određenu vrijednost zamjenom te vrijednosti u jednadžbu regresijske linije.

Dakle, ako predviđamo kao što koristimo ovu predviđenu vrijednost i njezinu standardnu ​​pogrešku za procjenu intervala pouzdanosti za pravu srednju populaciju.

Ponavljanje ovog postupka za različite vrijednosti omogućuje vam da izgradite granice pouzdanosti za ovu liniju. Ovo je pojas ili područje koje sadrži pravu liniju, na primjer, s razinom pouzdanosti od 95%.

Jednostavni regresijski planovi

Jednostavni regresijski dizajni sadrže jedan kontinuirani prediktor. Ako postoje 3 slučaja s prediktorskim vrijednostima P, kao što su 7, 4 i 9, a dizajn uključuje učinak prvog reda P, tada će matrica dizajna X biti

a regresijska jednadžba koja koristi P za X1 izgleda ovako

Y = b0 + b1 P

Ako jednostavan regresijski dizajn sadrži učinak višeg reda na P, kao što je kvadratni učinak, tada će vrijednosti u stupcu X1 u matrici dizajna biti podignute na drugu potenciju:

a jednadžba će dobiti oblik

Y = b0 + b1 P2

Sigma-ograničene i nadparametrizirane metode kodiranja ne primjenjuju se na jednostavne regresijske dizajne i druge dizajne koji sadrže samo kontinuirane prediktore (jer jednostavno nema kategoričkih prediktora). Bez obzira na odabranu metodu kodiranja, vrijednosti kontinuiranih varijabli se povećavaju odgovarajućom snagom i koriste se kao vrijednosti za X varijable. U tom se slučaju ne provodi konverzija. Osim toga, kada opisujete regresijske planove, možete izostaviti razmatranje matrice plana X i raditi samo s regresijskom jednadžbom.

Primjer: Jednostavna regresijska analiza

Ovaj primjer koristi podatke navedene u tablici:

Riža. 3. Tablica početnih podataka.

Podaci se temelje na usporedbi popisa stanovništva iz 1960. i 1970. u 30 nasumično odabranih županija. Nazivi okruga predstavljeni su kao nazivi promatranja. Informacije o svakoj varijabli prikazane su u nastavku:

Riža. 4. Tablica specifikacija varijabli.

Cilj istraživanja

Za ovaj primjer analizirat će se korelacija između stope siromaštva i snage koja predviđa postotak obitelji koje su ispod granice siromaštva. Stoga ćemo varijablu 3 (Pt_Poor) tretirati kao zavisnu varijablu.

Može se postaviti hipoteza: promjena broja stanovnika i postotak obitelji ispod granice siromaštva povezani su. Čini se razumnim očekivati ​​da siromaštvo dovodi do odljeva stanovništva, stoga bi postojala negativna korelacija između postotka ljudi ispod granice siromaštva i promjene stanovništva. Stoga ćemo varijablu 1 (Pop_Chng) tretirati kao prediktorsku varijablu.

Pregledajte rezultate

Regresijski koeficijenti

Riža. 5. Regresijski koeficijenti Pt_Poor na Pop_Chng.

Na sjecištu reda Pop_Chng i Param. nestandardizirani koeficijent za regresiju Pt_Poor na Pop_Chng je -0,40374. To znači da za svaku jedinicu smanjenja stanovništva dolazi do povećanja stope siromaštva od 0,40374. Gornje i donje (zadane) granice pouzdanosti od 95% za ovaj nestandardizirani koeficijent ne uključuju nulu, tako da je koeficijent regresije značajan na razini p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribucija varijabli

Koeficijenti korelacije mogu postati značajno precijenjeni ili podcijenjeni ako u podacima postoje velika odstupanja. Ispitajmo distribuciju zavisne varijable Pt_Poor po županiji. Da bismo to učinili, izgradit ćemo histogram varijable Pt_Poor.

Riža. 6. Histogram varijable Pt_Poor.

Kao što vidite, distribucija ove varijable znatno se razlikuje od normalne distribucije. Međutim, iako čak dvije županije (desna dva stupca) imaju veći postotak obitelji koje su ispod granice siromaštva od očekivanog u normalnoj distribuciji, čini se da su "unutar raspona".

Riža. 7. Histogram varijable Pt_Poor.

Ova je prosudba donekle subjektivna. Osnovno pravilo je da se odstupanja trebaju uzeti u obzir ako opažanje (ili opažanja) ne spadaju unutar intervala (srednja vrijednost ± 3 puta standardna devijacija). U ovom slučaju vrijedi ponoviti analizu sa i bez outliera kako bismo bili sigurni da oni nemaju ozbiljan učinak na korelaciju između članova populacije.

Dijagram raspršenosti

Ako je jedna od hipoteza apriorna o odnosu između zadanih varijabli, tada ju je korisno provjeriti na dijagramu odgovarajućeg raspršenog dijagrama.

Riža. 8. Dijagram raspršenosti.

Dijagram raspršenosti pokazuje jasnu negativnu korelaciju (-,65) između dviju varijabli. Također pokazuje interval pouzdanosti od 95% za regresijsku liniju, tj. s 95% vjerojatnosti regresijska linija prolazi između dvije isprekidane krivulje.

Kriteriji značajnosti

Riža. 9. Tablica koja sadrži kriterije značajnosti.

Test za koeficijent regresije Pop_Chng potvrđuje da je Pop_Chng snažno povezan s Pt_Poor, p<.001 .

Ishod

Ovaj primjer pokazao je kako analizirati jednostavan regresijski plan. Prikazana je i interpretacija nestandardiziranih i standardiziranih regresijskih koeficijenata. Raspravlja se o važnosti proučavanja distribucije odgovora zavisne varijable te se demonstrira tehnika za određivanje smjera i jačine odnosa između prediktora i zavisne varijable.

Regresijska i korelacijska analiza - statističke metode istraživanja. Ovo su najčešći načini za prikaz ovisnosti parametra o jednoj ili više neovisnih varijabli.

U nastavku ćemo na konkretnim praktičnim primjerima razmotriti ove dvije među ekonomistima vrlo popularne analize. Također ćemo dati primjer dobivanja rezultata kada se oni kombiniraju.

Regresijska analiza u Excelu

Prikazuje utjecaj nekih vrijednosti (nezavisnih, neovisnih) na zavisnu varijablu. Primjerice, kako broj ekonomski aktivnog stanovništva ovisi o broju poduzeća, plaćama i drugim parametrima. Ili: kako strana ulaganja, cijene energenata i sl. utječu na razinu BDP-a.

Rezultat analize omogućuje vam određivanje prioriteta. I na temelju glavnih čimbenika, predvidjeti, planirati razvoj prioritetnih područja, donositi upravljačke odluke.

Regresija se događa:

  • linearno (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolički (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Razmotrimo primjer izgradnje regresijskog modela u Excelu i tumačenje rezultata. Uzmimo linearni tip regresije.

Zadatak. U 6 poduzeća analizirana je prosječna mjesečna plaća i broj zaposlenih koji su otišli. Potrebno je utvrditi ovisnost broja umirovljenih radnika o prosječnoj plaći.

Model linearne regresije ima sljedeći oblik:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Gdje su a regresijski koeficijenti, x su utjecajne varijable, a k je broj faktora.

U našem primjeru, Y je pokazatelj broja radnika koji su napustili posao. Faktor utjecaja je plaća (x).

Excel ima ugrađene funkcije koje se mogu koristiti za izračunavanje parametara modela linearne regresije. Ali dodatak Analysis ToolPak to će učiniti brže.

Aktivirajte moćan analitički alat:

Nakon aktivacije, dodatak će biti dostupan na kartici Podaci.

Sada ćemo se izravno pozabaviti regresijskom analizom.



Prije svega, obraćamo pozornost na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru to je 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju odnos između proučavanih parametara za 75,5%. Što je veći koeficijent determinacije, to je model bolji. Dobro - iznad 0,8. Loše - manje od 0,5 (takva se analiza teško može smatrati razumnom). U našem primjeru - "nije loše".

Koeficijent 64,1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatra jednake 0. Odnosno, drugi faktori koji nisu opisani u modelu također utječu na vrijednost analiziranog parametra.

Koeficijent -0,16285 pokazuje težinu varijable X na Y. Odnosno, prosječna mjesečna plaća unutar ovog modela utječe na broj onih koji su odustali s težinom od -0,16285 (ovo je mali stupanj utjecaja). Znak “-” označava negativan utjecaj: što je veća plaća, to manje odustaje. Što je pošteno.



Korelacijska analiza u Excelu

Korelacijska analiza pomaže utvrditi postoji li odnos između pokazatelja u jednom ili dva uzorka. Na primjer, između vremena rada stroja i troškova popravaka, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji odnos, tada dovodi li povećanje jednog parametra do povećanja (pozitivna korelacija) ili do smanjenja (negativna) drugog. Korelacijska analiza pomaže analitičaru odrediti može li vrijednost jednog pokazatelja predvidjeti moguću vrijednost drugog.

Koeficijent korelacije označava se r. Varira od +1 do -1. Klasifikacija korelacija za različita područja bit će različita. Kada je vrijednost koeficijenta 0, ne postoji linearni odnos između uzoraka.

Razmotrite kako pomoću programa Excel pronaći koeficijent korelacije.

Funkcija CORREL koristi se za pronalaženje uparenih koeficijenata.

Zadatak: Utvrditi postoji li veza između vremena rada tokarilice i troškova njenog održavanja.

Postavite kursor u bilo koju ćeliju i pritisnite gumb fx.

  1. U kategoriji "Statistika" odaberite funkciju CORREL.
  2. Argument "Niz 1" - prvi raspon vrijednosti - vrijeme stroja: A2: A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - trošak popravka: B2:B14. Pritisnite OK.

Da biste odredili vrstu veze, morate pogledati apsolutni broj koeficijenta (svako područje djelatnosti ima svoju ljestvicu).

Za korelacijsku analizu nekoliko parametara (više od 2) prikladnije je koristiti "Analizu podataka" (dodatak "Analysis Package"). Na popisu trebate odabrati korelaciju i označiti niz. Svi.

Rezultirajući koeficijenti bit će prikazani u korelacijskoj matrici. Kao ova:

Korelacijska-regresijska analiza

U praksi se ove dvije tehnike često koriste zajedno.

Primjer:


Sada su vidljivi podaci regresijske analize.

1. Prvi put pojam "regresija" uveo je utemeljitelj biometrije F. Galton (XIX. stoljeće), čije je ideje razvio njegov sljedbenik K. Pearson.

Regresijska analiza- metoda statističke obrade podataka koja vam omogućuje mjerenje odnosa između jednog ili više uzroka (faktorijalni znakovi) i posljedice (efektivni znak).

znak- ovo je glavna značajka razlikovanja, značajka fenomena ili procesa koji se proučava.

Djelotvorni znak - ispitivani pokazatelj.

Znak faktora- pokazatelj koji utječe na vrijednost efektivne značajke.

Svrha regresijske analize je procijeniti funkcionalnu ovisnost prosječne vrijednosti efektivnog obilježja ( na) iz faktorijela ( x 1, x 2, ..., x n), izraženo kao regresijske jednadžbe

na= f(x 1, x 2, ..., x n). (6.1)

Postoje dvije vrste regresije: uparena i višestruka.

Uparena (jednostavna) regresija- jednadžba oblika:

na= f(x). (6.2)

Rezultirajuća značajka u parnoj regresiji smatra se funkcijom jednog argumenta, tj. jedan faktor.

Regresijska analiza uključuje sljedeće korake:

definicija tipa funkcije;

određivanje regresijskih koeficijenata;

Izračun teoretskih vrijednosti efektivne značajke;

Provjera statističke značajnosti regresijskih koeficijenata;

Provjera statističke značajnosti regresijske jednadžbe.

Višestruka regresija- jednadžba oblika:

na= f(x 1, x 2, ..., x n). (6.3)

Rezultirajuća značajka se smatra funkcijom nekoliko argumenata, tj. mnogo faktora.

2. Da bi se ispravno odredio tip funkcije, potrebno je na temelju teorijskih podataka pronaći smjer veze.

Prema smjeru veze, regres se dijeli na:

· izravna regresija, koji nastaju pod uvjetom da s povećanjem ili smanjenjem neovisne vrijednosti " X" vrijednosti zavisne veličine " na" također povećati ili smanjiti u skladu s tim;

· reverzna regresija, nastalih pod uvjetom da s povećanjem ili smanjenjem nezavisne vrijednosti "X" ovisna vrijednost " na" u skladu s tim smanjuje ili povećava.

Za karakterizaciju odnosa koriste se sljedeće vrste uparenih regresijskih jednadžbi:

· y=a+bxlinearni;

· y=e ax + b – eksponencijal;

· y=a+b/x – hiperbolično;

· y=a+b 1 x+b 2 x 2 – parabolično;

· y=ab x – eksponencijalni i tako dalje.

gdje a, b 1 , b 2- koeficijenti (parametri) jednadžbe; na- efektivni znak; x- znak faktora.

3. Konstrukcija regresijske jednadžbe svodi se na procjenu njezinih koeficijenata (parametara), za to se koriste metoda najmanjih kvadrata(MNK).

Metoda najmanjih kvadrata omogućuje vam da dobijete takve procjene parametara, u kojima je zbroj kvadratnih odstupanja stvarnih vrijednosti efektivne značajke " na»iz teorijskog« y x» je minimalan, tj

Opcije regresijske jednadžbe y=a+bx metodom najmanjih kvadrata procjenjuju se pomoću formula:

gdje a - slobodni koeficijent, b- koeficijent regresije, pokazuje koliko će se promijeniti rezultantni predznak g» prilikom promjene atributa faktora « x» po jedinici mjere.

4. Za procjenu statističke značajnosti regresijskih koeficijenata koristi se Studentov t-test.

Shema za provjeru značajnosti regresijskih koeficijenata:

1) H 0: a=0, b=0 - koeficijenti regresije su beznačajno različiti od nule.

H 1: a≠ 0, b≠ 0 - koeficijenti regresije značajno se razlikuju od nule.

2) R=0,05 – razina značajnosti.

gdje m b,m a- slučajne pogreške:

; . (6.7)

4) t stol(R; f),

gdje f=n-k- 1 - broj stupnjeva slobode (tablična vrijednost), n- broj promatranja, k X".

5) Ako , tada odstupa, tj. značajan koeficijent.

Ako je , tada se prihvaća, tj. koeficijent je beznačajan.

5. Za provjeru ispravnosti konstruirane regresijske jednadžbe koristi se Fisherov kriterij.

Shema za provjeru značajnosti regresijske jednadžbe:

1) H 0: regresijska jednadžba nije značajna.

H 1: regresijska jednadžba je značajna.

2) R=0,05 – razina značajnosti.

3) , (6.8)

gdje je broj opažanja; k- broj parametara u jednadžbi s varijablama " X"; na- stvarna vrijednost efektivnog svojstva; y x- teorijska vrijednost efektivne značajke; - koeficijent parne korelacije.

4) F stol(R; f 1 ; f2),

gdje f 1 \u003d k, f 2 \u003d n-k-1- broj stupnjeva slobode (tablične vrijednosti).

5) Ako F izračun >F tablica, tada je regresijska jednadžba ispravno odabrana i može se primijeniti u praksi.

Ako a F izr , tada je jednadžba regresije pogrešno odabrana.

6. Glavni pokazatelj koji odražava mjeru kvalitete regresijske analize je koeficijent determinacije (R 2).

Koeficijent determinacije pokazuje koliki je udio zavisne varijable " na» uzima se u obzir u analizi i uzrokovan je utjecajem čimbenika uključenih u analizu.

Koeficijent determinacije (R2) uzima vrijednosti u rasponu. Regresijska jednadžba je kvalitativna ako R2 ≥0,8.

Koeficijent determinacije jednak je kvadratu koeficijenta korelacije, tj.

Primjer 6.1. Na temelju sljedećih podataka konstruirajte i analizirajte regresijsku jednadžbu:

Riješenje.

1) Izračunajte koeficijent korelacije: . Odnos između znakova je izravan i umjeren.

2) Izradite uparenu jednadžbu linearne regresije.

2.1) Napravite proračunsku tablicu.

x na Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Iznos 159,45 558,55
Prosjek 77519,6 22,78 79,79 2990,6

,

Uparena jednadžba linearne regresije: y x \u003d 25,17 + 0,087x.

3) Pronađite teorijske vrijednosti " y x» zamjenom stvarnih vrijednosti u regresijsku jednadžbu « x».

4) Iscrtajte grafove stvarnih " na" i teorijske vrijednosti" y x» efektivna značajka (Slika 6.1): r xy =0,47) i mali broj opažanja.

7) Izračunajte koeficijent determinacije: R2=(0,47)2 =0,22. Konstruirana jednadžba je loše kvalitete.

Jer izračuni tijekom regresijske analize su prilično obimni, preporučuje se korištenje posebnih programa ("Statistica 10", SPSS itd.).

Na slici 6.2 prikazana je tablica s rezultatima regresijske analize provedene programom "Statistica 10".

Slika 6.2. Rezultati regresijske analize provedene pomoću programa "Statistica 10"

5. Literatura:

1. Gmurman V.E. Teorija vjerojatnosti i matematička statistika: Proc. priručnik za sveučilišta / V.E. Gmurman. - M.: Viša škola, 2003. - 479 str.

2. Koichubekov B.K. Biostatistika: Udžbenik. - Almaty: Evero, 2014. - 154 str.

3. Lobotskaya N.L. Viša matematika. / N.L. Lobotskaya, Yu.V. Morozov, A.A. Dunaev. - Minsk: Viša škola, 1987. - 319 str.

4. Medić V.A., Tokmačev M.S., Fishman B.B. Statistika u medicini i biologiji: Vodič. U 2 sveska / Ed. Yu.M. Komarov. T. 1. Teorijska statistika. - M.: Medicina, 2000. - 412 str.

5. Primjena metoda statističke analize za proučavanje javnog zdravlja i zdravstvene zaštite: udžbenik / ur. Kucherenko V.Z. - 4. izdanje, revidirano. i dodatni - M.: GEOTAR - Media, 2011. - 256 str.