Podaci za regresiju. Osnove analize podataka

Kao rezultat proučavanja materijala poglavlja 4, student bi trebao:

znati

  • osnovni pojmovi regresijske analize;
  • metode estimacije i svojstva estimacija metode najmanjih kvadrata;
  • osnovna pravila za testiranje značajnosti i intervalnu procjenu jednadžbe i regresijskih koeficijenata;

biti u mogućnosti

  • pronaći procjene parametara dvodimenzionalnih i višestrukih modela regresijskih jednadžbi iz uzorka podataka, analizirati njihova svojstva;
  • provjeriti značajnost jednadžbe i koeficijenata regresije;
  • pronaći intervalne procjene značajnih parametara;

vlastiti

  • vještine statističke procjene parametara dvodimenzionalnih i višestrukih regresijskih jednadžbi; vještine provjere primjerenosti regresijskih modela;
  • vještine dobivanja regresijske jednadžbe sa svim značajnim koeficijentima korištenjem analitičkog softvera.

Osnovni koncepti

Nakon provedbe korelacijske analize, kada se utvrdi prisutnost statistički značajnih odnosa između varijabli i procijeni stupanj njihove nepropusnosti, obično se prelazi na matematički opis vrste ovisnosti pomoću metoda regresijske analize. U tu svrhu odabire se klasa funkcija koja povezuje efektivni indikator na i argumenti„ izračunati procjene parametara jednadžbe ograničenja i analizirati točnost rezultirajuće jednadžbe .

Funkcija| koja opisuje ovisnost uvjetne prosječne vrijednosti efektivne značajke na iz zadanih vrijednosti argumenata, poziva se regresijska jednadžba.

Pojam "regresija" (od lat. regresija- povući se, vratiti se nečemu) uveo je engleski psiholog i antropolog F. Galton i povezuje se s jednim od njegovih prvih primjera, u kojem je Galton, obrađujući statističke podatke vezane uz pitanje nasljednosti rasta, utvrdio da ako visina očeva odstupa od prosječne visine svih očeva x inča, tada visina njihovih sinova odstupa od prosječne visine svih sinova za manje od x inča Identificirani trend je tzv regresija na srednju vrijednost.

Izraz "regresija" široko se koristi u statističkoj literaturi, iako u mnogim slučajevima ne opisuje točno statističku ovisnost.

Za točan opis regresijske jednadžbe potrebno je poznavati uvjetni zakon raspodjele efektivnog pokazatelja g. U statističkoj praksi obično je nemoguće dobiti takve informacije, stoga su ograničeni na pronalaženje prikladnih aproksimacija za funkciju f(x u x 2, .... l *), na temelju preliminarne smislene analize fenomena ili na izvornim statističkim podacima.

U okviru pojedinih modela pretpostavke o vrsti distribucije vektora indikatora<) может быть получен общий вид regresijske jednadžbe, gdje. Na primjer, pod pretpostavkom da proučavani skup pokazatelja poštuje ()-dimenzionalni zakon normalne distribucije s vektorom matematičkih očekivanja

Gdje je, i pomoću matrice kovarijance,

gdje je varijanca y,

Regresijska jednadžba (uvjetno očekivanje) ima oblik

Stoga, ako multivarijatna slučajna varijabla ()

poštuje ()-dimenzionalni zakon normalne distribucije, zatim regresijsku jednadžbu efektivnog indikatora na u eksplanatornim varijablama ima linearni in x pogled.

Međutim, u statističkoj praksi, obično se moramo ograničiti na pronalaženje prikladnih aproksimacija za nepoznatu pravu regresijsku funkciju f(x), budući da istraživač nema egzaktno znanje o uvjetnom zakonu distribucije vjerojatnosti analiziranog pokazatelja uspješnosti na za date vrijednosti argumenata X.

Razmotrite odnos između stvarnih, modelskih i regresijskih procjena. Neka pokazatelj učinka na povezan s argumentom x omjer

gdje je slučajna varijabla s normalnim zakonom distribucije, štoviše. Prava regresijska funkcija u ovom slučaju je

Pretpostavimo da ne znamo točan oblik prave regresijske jednadžbe, ali imamo devet opažanja dvodimenzionalne slučajne varijable povezanih relacijama prikazanim na slici. 4.1.

Riža. 4.1. Relativni položaj istinitogf(x) i teoretskivauregresijski modeli

Položaj točaka na sl. 4.1 dopušta nam da se ograničimo na klasu linearnih ovisnosti forme

Koristeći metodu najmanjih kvadrata, nalazimo procjenu za regresijsku jednadžbu.

Za usporedbu, na Sl. 4.1 prikazuje grafove stvarne regresijske funkcije i teorijske aproksimativne regresijske funkcije. Procjena regresijske jednadžbe konvergira u vjerojatnosti potonjoj vau s neograničenim povećanjem veličine uzorka ().

Budući da smo pogreškom odabrali linearnu regresijsku funkciju umjesto prave regresijske funkcije, što je, nažalost, dosta često u praksi statističkih istraživanja, naši statistički zaključci i procjene neće imati svojstvo konzistentnosti, tj. bez obzira koliko povećali opseg opažanja, naša procjena uzorka neće konvergirati pravoj regresijskoj funkciji

Ako smo ispravno odabrali klasu regresijskih funkcija, onda je netočnost u opisu korištenjem vau bi se objasnilo samo ograničenošću uzorka i stoga bi se mogao učiniti proizvoljno malim

Kako bi se na najbolji način vratila uvjetna vrijednost efektivnog pokazatelja i nepoznate regresijske funkcije iz početnih statističkih podataka, najčešće se koriste: kriteriji primjerenosti funkcije gubitka.

1. Metoda najmanjeg kvadrata, prema kojem je kvadrat odstupanja opaženih vrijednosti efektivnog pokazatelja, , od vrijednosti modela minimiziran, gdje su koeficijenti regresijske jednadžbe; vrijednosti vektora argumenata u "-M promatranju" :

Rješava se problem nalaženja procjene vektora. Rezultirajuća regresija naziva se glavni trg.

2. Metoda najmanjih modula, prema kojem je zbroj apsolutnih odstupanja opaženih vrijednosti efektivnog pokazatelja od modularnih vrijednosti minimiziran, tj.

Rezultirajuća regresija naziva se srednje apsolutno(medijan).

3. minimaks metoda svodi se na minimiziranje maksimalnog modula odstupanja opažene vrijednosti efektivnog pokazatelja y, od vrijednosti modela, tj.

Rezultirajuća regresija naziva se minimax.

U praktičnim primjenama često se javljaju problemi u kojima se proučava slučajna varijabla y, ovisno o nekom skupu varijabli i nepoznatih parametara. Smatrat ćemo () kao (k + 1)-dimenzionalna opća populacija, iz koje je slučajni uzorak volumena P, gdje je () rezultat /-tog opažanja,. Potrebno je procijeniti nepoznate parametre na temelju rezultata promatranja. Gore opisani zadatak odnosi se na zadatke regresijske analize.

regresijska analiza nazivamo metodom statističke analize ovisnosti slučajne varijable na o varijablama koje se u regresijskoj analizi smatraju neslučajnim varijablama, bez obzira na pravi zakon distribucije

REZULTATI

Tablica 8.3a. Regresijska statistika
Regresijska statistika
Višestruki R 0,998364
R-kvadrat 0,99673
Normalizirani R-kvadrat 0,996321
standardna pogreška 0,42405
Zapažanja 10

Pogledajmo najprije gornji dio izračuna prikazanih u tablici 8.3a, regresijsku statistiku.

Vrijednost R-kvadrata, koja se također naziva i mjera sigurnosti, karakterizira kvalitetu rezultirajuće regresijske linije. Ova se kvaliteta izražava stupnjem podudarnosti između izvornih podataka i regresijskog modela (izračunati podaci). Mjera izvjesnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremi, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedinice, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Obrnuto, vrijednost R-kvadrata blizu nule znači lošu kvalitetu konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje regresijske linije prema izvornim podacima.

Višestruki R- koeficijent višestruke korelacije R - izražava stupanj ovisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Više R jednako korijen od koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nula do jedan.

U jednostavnoj analizi linearne regresije, višestruki R jednak je Pearsonovom koeficijentu korelacije. Doista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tablica 8.3b. Regresijski koeficijenti
Izgledi standardna pogreška t-statistika
Y-raskrižje 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Dana je skraćena verzija izračuna

Sada razmotrite srednji dio izračuna prikazanih u tablici 8.3b. Ovdje je dan regresijski koeficijent b (2,305454545) i pomak duž y-osi, tj. konstanta a (2,694545455).

Na temelju izračuna, jednadžbu regresije možemo napisati na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na temelju predznaka (negativan ili pozitivan) koeficijenti regresije(koeficijent b).

Ako znak na koeficijent regresije- pozitivan, odnos ovisne varijable s nezavisnom bit će pozitivan. U našem slučaju predznak regresijskog koeficijenta je pozitivan, dakle i odnos je pozitivan.

Ako znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tablici 8.3c. prikazani su rezultati izlaza reziduala. Kako bi se ovi rezultati pojavili u izvješću, potrebno je aktivirati checkbox "Reziduali" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tablica 8.3c. Ostaci
Promatranje Predviđeno Y Ostaci Standardna stanja
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Pomoću ovog dijela izvješća možemo vidjeti odstupanja svake točke od konstruirane regresijske linije. Najveća apsolutna vrijednost

Suvremena politička znanost polazi od stava o odnosu svih pojava i procesa u društvu. Nemoguće je razumjeti događaje i procese, predviđati i upravljati pojavama političkog života bez proučavanja veza i ovisnosti koje postoje u političkoj sferi društva. Jedan od najčešćih zadataka istraživanja politike je proučavanje odnosa između nekih vidljivih varijabli. Cijela klasa statističkih metoda analize, objedinjena zajedničkim nazivom "regresijska analiza" (ili, kako se još naziva, "korelacijsko-regresijska analiza"), pomaže riješiti ovaj problem. Međutim, ako korelacijska analiza omogućuje procjenu jačine odnosa između dviju varijabli, tada je pomoću regresijske analize moguće odrediti vrstu tog odnosa, predvidjeti ovisnost vrijednosti bilo koje varijable o vrijednosti druge varijable. .

Prvo, sjetimo se što je korelacija. Korelativna naziva se najvažniji poseban slučaj statističkog odnosa, koji se sastoji u činjenici da jednake vrijednosti jedne varijable odgovaraju različitim prosječne vrijednosti još. S promjenom vrijednosti atributa x prirodno se mijenja prosječna vrijednost atributa y, dok se u svakom pojedinačnom slučaju vrijednost atributa na(s različitim vjerojatnostima) može poprimiti mnogo različitih vrijednosti.

Pojava pojma “korelacija” u statistici (a politička znanost za rješavanje svojih problema privlači dostignuće statistike, koja je, dakle, disciplina srodna političkoj znanosti) povezuje se s imenom engleskog biologa i statističara Francisa Galtona, koji je predložio u 19. stoljeću. teorijske osnove korelacijsko-regresijske analize. Pojam "korelacija" u znanosti je bio poznat i prije. Konkretno, u paleontologiji još u 18.st. primijenio ga je francuski znanstvenik Georges Cuvier. Uveo je takozvani korelacijski zakon, uz pomoć kojeg je, prema ostacima životinja pronađenim tijekom iskapanja, bilo moguće vratiti njihov izgled.

Uz ime ovog znanstvenika i njegov zakon korelacije veže se poznata priča. Tako su u dane sveučilišnog praznika studenti koji su se odlučili našaliti s poznatim profesorom na jednog studenta navukli kozju kožu s rogovima i papcima. Popeo se na prozor Cuvierove spavaće sobe i povikao: "Pojest ću te." Profesor se probudio, pogledao siluetu i odgovorio: „Ako imaš rogove i kopita, onda si biljojed i ne možeš me pojesti. A za nepoznavanje zakona korelacije dobit ćete dvojku. Okrenuo se i zaspao. Šala je šala, ali u ovom primjeru vidimo poseban slučaj korištenja višestruke korelacijsko-regresijske analize. Ovdje je profesor na temelju poznavanja vrijednosti dva promatrana svojstva (prisutnost rogova i kopita), na temelju zakona korelacije, izveo prosječnu vrijednost trećeg svojstva (razreda kojem ova životinja pripada je biljožder). U ovom slučaju ne govorimo o specifičnoj vrijednosti ove varijable (tj. ova životinja može poprimiti različite vrijednosti na nominalnoj ljestvici - može biti jarac, ovan ili bik...).

Sada prijeđimo na pojam "regresija". Strogo govoreći, to nije povezano sa značenjem onih statističkih problema koji se rješavaju ovom metodom. Objašnjenje pojma moguće je dati samo na temelju poznavanja povijesti razvoja metoda za proučavanje odnosa među značajkama. Jedan od prvih primjera istraživanja ove vrste bio je rad statističara F. Galtona i K. Pearsona, koji su pokušali pronaći obrazac između rasta očeva i njihove djece prema dva vidljiva znaka (gdje X- očeva visina i U- dječji rast). U svojoj studiji potvrdili su početnu hipotezu da u prosjeku visoki očevi odgajaju prosječno visoku djecu. Isti princip vrijedi i za niske očeve i djecu. No, da su znanstvenici tu stali, njihovi radovi nikada ne bi bili spomenuti u udžbenicima statistike. Istraživači su pronašli još jedan obrazac unutar već spomenute potvrđene hipoteze. Dokazali su da vrlo visoki očevi rađaju djecu koja su u prosjeku visoka, ali se po visini ne razlikuju mnogo od djece čiji se očevi, iako iznad prosjeka, ne razlikuju puno od prosječne visine. Isto vrijedi i za očeve vrlo niskog rasta (što odstupa od prosjeka niske skupine) – njihova se djeca u prosjeku nisu razlikovala visinom od vršnjaka čiji su očevi jednostavno bili niski. Nazvali su funkciju koja opisuje tu pravilnost regresijska funkcija. Nakon ovog istraživanja sve jednadžbe koje opisuju slične funkcije i konstruirane na sličan način počinju se nazivati ​​regresijskim jednadžbama.

Regresijska analiza- jedna od metoda multivarijantne statističke analize podataka, koja kombinira skup statističkih tehnika dizajniranih za proučavanje ili modeliranje odnosa između jedne ovisne i nekoliko (ili jedne) neovisne varijable. Zavisna varijabla, prema tradiciji prihvaćenoj u statistici, naziva se odgovor i označava se kao V Neovisne varijable nazivaju se prediktori i označavaju se kao x. Tijekom analize, neke varijable će biti slabo povezane s odgovorom i na kraju će biti isključene iz analize. Preostale varijable povezane s ovisnom također se mogu nazvati faktorima.

Regresijska analiza omogućuje predviđanje vrijednosti jedne ili više varijabli ovisno o drugoj varijabli (primjerice, sklonost nekonvencionalnom političkom ponašanju ovisno o stupnju obrazovanja) ili više varijabli. Izračunava se na računalu. Za sastavljanje regresijske jednadžbe koja vam omogućuje mjerenje stupnja ovisnosti kontrolirane značajke o faktorima, potrebno je uključiti profesionalne matematičare-programere. Regresijska analiza može pružiti neprocjenjivu uslugu u izgradnji prediktivnih modela za razvoj političke situacije, procjeni uzroka društvenih napetosti iu provođenju teorijskih eksperimenata. Regresijska analiza se aktivno koristi za proučavanje utjecaja na izborno ponašanje građana brojnih sociodemografskih parametara: spola, dobi, profesije, mjesta stanovanja, nacionalnosti, razine i prirode prihoda.

U odnosu na regresijsku analizu, pojmovi nezavisna i ovisan varijable. Neovisna varijabla je varijabla koja objašnjava ili uzrokuje promjenu druge varijable. Zavisna varijabla je varijabla čija se vrijednost objašnjava utjecajem prve varijable. Primjerice, na predsjedničkim izborima 2004. odlučujući čimbenici, t.j. nezavisne varijable bili su pokazatelji kao što su stabilizacija financijske situacije stanovništva zemlje, razina popularnosti kandidata i faktor dužnost. U ovom slučaju, postotak glasova danih kandidatima može se smatrati ovisnom varijablom. Slično, u paru varijabli “dob birača” i “razina izborne aktivnosti” prva je nezavisna, a druga zavisna.

Regresijska analiza omogućuje rješavanje sljedećih problema:

  • 1) utvrditi samu činjenicu prisutnosti ili odsutnosti statistički značajne veze između Ci x;
  • 2) izgraditi najbolje (u statističkom smislu) procjene regresijske funkcije;
  • 3) prema zadanim vrijednostima x izgraditi predviđanje za nepoznato Na
  • 4) ocijeniti specifičnu težinu utjecaja svakog čimbenika x na Na i, sukladno tome, isključiti beznačajne značajke iz modela;
  • 5) identificiranjem uzročno-posljedičnih veza između varijabli, djelomično upravljati vrijednostima P prilagođavanjem vrijednosti eksplanatornih varijabli x.

Regresijska analiza povezana je s potrebom odabira međusobno neovisnih varijabli koje utječu na vrijednost proučavanog pokazatelja, određivanje oblika regresijske jednadžbe i vrednovanje parametara pomoću statističkih metoda obrade primarnih socioloških podataka. Ova vrsta analize temelji se na ideji o obliku, smjeru i bliskosti (gustoći) odnosa. razlikovati sauna i višestruka regresija ovisno o broju proučavanih obilježja. U praksi se regresijska analiza obično provodi zajedno s korelacijskom analizom. Regresijska jednadžba opisuje numerički odnos između veličina, izražen kao tendencija povećanja ili smanjenja jedne varijable dok se druga povećava ili smanjuje. Istodobno, razl i h a jut l mraz i nelinearna regresija. U opisivanju političkih procesa podjednako se sreću obje varijante regresije.

Dijagram raspršenosti za distribuciju međuovisnosti interesa za političke članke ( U) i obrazovanje ispitanika (X) je linearna regresija (slika 30).

Riža. trideset.

Dijagram raspršenosti za distribuciju razine izborne aktivnosti ( U) a dob ispitanika (A) (uvjetni primjer) je nelinearna regresija (slika 31).


Riža. 31.

Za opisivanje odnosa dviju značajki (A "i Y) u uparenom regresijskom modelu koristi se linearna jednadžba

gdje je a slučajna vrijednost pogreške jednadžbe s varijacijom značajki, tj. odstupanje jednadžbe od "linearnosti".

Za procjenu koeficijenata a i b koristiti metodu najmanjih kvadrata, koja pretpostavlja da bi zbroj kvadrata odstupanja svake točke na dijagramu raspršenja od regresijske linije trebao biti minimalan. Izgledi a h b može se izračunati pomoću sustava jednadžbi:

Metoda najmanjeg kvadrata daje takve procjene koeficijenata a i b, za koju pravac prolazi točkom s koordinatama x i y, oni. postoji omjer na = sjekira + b. Grafički prikaz regresijske jednadžbe naziva se teorijska regresijska linija. S linearnom ovisnošću, koeficijent regresije predstavlja na grafu tangens nagiba teorijske regresijske linije na x-os. Predznak kod koeficijenta pokazuje smjer odnosa. Ako je veći od nule, tada je odnos direktan, a ako je manji, obrnut je.

Sljedeći primjer iz studije "Politički Petersburg-2006" (tablica 56) pokazuje linearan odnos između percepcije građana o stupnju zadovoljstva svojim životom u sadašnjosti i očekivanja promjena u kvaliteti života u budućnosti. Povezanost je izravna, linearna (standardizirani regresijski koeficijent je 0,233, razina značajnosti je 0,000). U ovom slučaju regresijski koeficijent nije visok, ali prelazi donju granicu statistički značajnog pokazatelja (donju granicu kvadrata statistički značajnog pokazatelja Pearsonovog koeficijenta).

Tablica 56

Utjecaj kvalitete života građana u sadašnjosti na očekivanja

(Sankt Peterburg, 2006.)

* Zavisna varijabla: "Što mislite kako će se vaš život promijeniti u sljedeće 2-3 godine?"

U političkom životu vrijednost varijable koja se proučava najčešće istodobno ovisi o nekoliko obilježja. Na primjer, na razinu i prirodu političke aktivnosti istodobno utječu politički režim države, političke tradicije, osobitosti političkog ponašanja ljudi na određenom području te društvena mikroskupina ispitanika, njegova dob, obrazovanje, prihodi razini, političkoj orijentaciji itd. U ovom slučaju morate koristiti jednadžbu višestruka regresija, koji ima sljedeći oblik:

gdje je koeficijent b.- parcijalni koeficijent regresije. Prikazuje doprinos svake nezavisne varijable određivanju vrijednosti nezavisne (ishodne) varijable. Ako je parcijalni regresijski koeficijent blizu 0, tada možemo zaključiti da ne postoji izravna veza između neovisnih i zavisnih varijabli.

Izračun takvog modela može se izvesti na osobnom računalu pomoću matrične algebre. Višestruka regresija omogućuje odraz višefaktorske prirode društvenih veza i razjašnjavanje stupnja utjecaja svakog čimbenika pojedinačno i svih zajedno na rezultirajuću osobinu.

Označen koeficijent b, naziva se koeficijent linearne regresije i pokazuje jačinu odnosa između varijacije faktorskog svojstva x i varijacije efektivne značajke Y Ovaj koeficijent mjeri snagu odnosa u apsolutnim mjernim jedinicama obilježja. Međutim, bliskost korelacije obilježja može se izraziti i standardnom devijacijom rezultirajućeg obilježja (takav koeficijent naziva se koeficijent korelacije). Za razliku od koeficijenta regresije b koeficijent korelacije ne ovisi o prihvaćenim mjernim jedinicama obilježja, pa je stoga usporediv za bilo koje obilježje. Obično se veza smatra jakom ako je /> 0,7, srednja nepropusnost - na 0,5 g 0,5.

Kao što znate, najbliža veza je funkcionalna veza, kada svaka pojedinačna vrijednost Y može se jedinstveno dodijeliti vrijednosti x. Dakle, što je korelacijski koeficijent bliži 1, to je odnos bliži funkcionalnom. Razina značajnosti za regresijsku analizu ne smije prelaziti 0,001.

Koeficijent korelacije dugo se smatrao glavnim pokazateljem bliskosti odnosa značajki. Međutim, kasnije je koeficijent determinacije postao takav pokazatelj. Značenje ovog koeficijenta je sljedeće - on odražava udio ukupne varijance rezultirajuće značajke Na, objašnjeno varijacijom značajke x. Nalazi se jednostavnim kvadriranjem koeficijenta korelacije (mijenjanjem od 0 do 1) i zauzvrat, za linearni odnos odražava udio od 0 (0%) do 1 (100%) karakteristične vrijednosti Y, određena vrijednostima atributa x. Bilježi se kao ja 2, a u dobivenim tablicama regresijske analize u paketu SPSS – bez kvadrata.

Označimo glavne probleme konstruiranja jednadžbe višestruke regresije.

  • 1. Izbor faktora uključenih u regresijsku jednadžbu. U ovoj fazi istraživač prvo sastavlja opći popis glavnih uzroka koji, prema teoriji, određuju fenomen koji se proučava. Zatim mora odabrati značajke u regresijskoj jednadžbi. Glavno pravilo odabira je da čimbenici uključeni u analizu trebaju što je manje moguće međusobno korelirati; samo u ovom slučaju moguće je određenom čimbeniku-atributu pripisati kvantitativnu mjeru utjecaja.
  • 2. Odabir oblika jednadžbe višestruke regresije(u praksi se češće koristi linearni ili linearno-logaritamski). Dakle, da bi koristio višestruku regresiju, istraživač prvo mora izgraditi hipotetski model utjecaja nekoliko neovisnih varijabli na rezultirajuću. Da bi dobiveni rezultati bili pouzdani, potrebno je da model točno odgovara stvarnom procesu, tj. odnos između varijabli mora biti linearan, niti jedna značajna nezavisna varijabla se ne može zanemariti, na isti način niti jedna varijabla koja nije izravno povezana s procesom koji se proučava ne može biti uključena u analizu. Osim toga, sva mjerenja varijabli moraju biti izuzetno točna.

Iz gornjeg opisa proizlazi niz uvjeta za primjenu ove metode bez kojih je nemoguće pristupiti postupku višestruke regresijske analize (MRA). Samo usklađenost sa svim sljedećim točkama omogućuje vam ispravno provođenje regresijske analize.

U statističkom modeliranju, regresijska analiza je studija koja se koristi za procjenu odnosa između varijabli. Ova matematička metoda uključuje mnoge druge metode za modeliranje i analizu više varijabli kada je fokus na odnosu između zavisne varijable i jedne ili više nezavisnih varijabli. Točnije, regresijska analiza pomaže vam razumjeti kako se tipična vrijednost zavisne varijable mijenja ako se jedna od nezavisnih varijabli promijeni dok druge nezavisne varijable ostanu fiksne.

U svim slučajevima ciljni rezultat je funkcija nezavisnih varijabli i naziva se regresijska funkcija. U regresijskoj analizi također je od interesa karakterizirati promjenu ovisne varijable kao funkciju regresije, koja se može opisati pomoću distribucije vjerojatnosti.

Zadaci regresijske analize

Ova statistička istraživačka metoda ima široku primjenu za prognoziranje, gdje njezina uporaba ima značajnu prednost, ali ponekad može dovesti do iluzije ili lažnih odnosa, pa se preporuča oprezno je koristiti u ovom pitanju, budući da npr. korelacija ne znači uzročnost.

Razvijen veliki broj metode za izvođenje regresijske analize, kao što su linearna i obična regresija najmanjih kvadrata, koje su parametarske. Njihova bit je da je regresijska funkcija definirana u terminima konačnog broja nepoznatih parametara koji se procjenjuju iz podataka. Neparametrijska regresija dopušta da njena funkcija leži u određenom skupu funkcija, koji može biti beskonačno dimenzionalan.

Kao statistička istraživačka metoda, regresijska analiza u praksi ovisi o obliku procesa generiranja podataka i načinu na koji se odnosi na regresijski pristup. Budući da je pravi oblik generiranja podataka u procesu obično nepoznat broj, regresijska analiza podataka često u određenoj mjeri ovisi o pretpostavkama o procesu. Te se pretpostavke ponekad mogu provjeriti ako je dostupno dovoljno podataka. Regresijski modeli često su korisni čak i kada su pretpostavke umjereno prekršene, iako možda neće raditi najbolje.

U užem smislu, regresija se može posebno odnositi na procjenu kontinuiranih varijabli odgovora, za razliku od diskretnih varijabli odgovora koje se koriste u klasifikaciji. Slučaj kontinuirane izlazne varijable naziva se i metrička regresija kako bi se razlikovao od srodnih problema.

Priča

Najviše rani oblik regresija je dobro poznata metoda najmanjih kvadrata. Objavili su ga Legendre 1805. i Gauss 1809. Legendre i Gauss primijenili su metodu na problem određivanja orbita tijela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih malih planeta) iz astronomskih promatranja. Gauss je 1821. objavio daljnji razvoj teorije najmanjih kvadrata, uključujući varijantu Gauss-Markovljevog teorema.

Izraz "regresija" skovao je Francis Galton u 19. stoljeću kako bi opisao biološki fenomen. Zaključak je bio da se rast potomaka od rasta predaka u pravilu smanjuje do normalnog prosjeka. Za Galtona, regresija je imala samo ovo biološko značenje, ali kasnije su njegov rad preuzeli Udni Yoley i Karl Pearson i odveli ga u općenitiji statistički kontekst. U radu Yulea i Pearsona, zajednička distribucija varijabli odgovora i objašnjenja smatra se Gaussovom. Tu je pretpostavku odbacio Fischer u radovima iz 1922. i 1925. godine. Fisher je predložio da je uvjetna distribucija varijable odgovora Gaussova, ali zajednička distribucija ne mora biti. U tom smislu, Fisherov prijedlog bliži je Gaussovoj formulaciji iz 1821. godine. Prije 1970. ponekad je trebalo i do 24 sata da se dobije rezultat regresijske analize.

Metode regresijske analize i dalje su područje aktivnog istraživanja. Posljednjih desetljeća razvijene su nove metode za robusnu regresiju; regresije koje uključuju korelirane odgovore; regresijske metode koje prilagođavaju različite vrste podataka koji nedostaju; neparametarska regresija; metode Bayesove regresije; regresije u kojima se prediktorske varijable mjere s greškom; regresije s više prediktora nego opažanja i uzročni zaključci s regresijom.

Regresijski modeli

Modeli regresijske analize uključuju sljedeće varijable:

  • Nepoznati parametri, označeni kao beta, koji mogu biti skalari ili vektori.
  • Neovisne varijable, X.
  • Zavisne varijable, Y.

NA razna polja znanosti u kojima se primjenjuje regresijska analiza koriste različite termine umjesto zavisnih i nezavisnih varijabli, ali u svim slučajevima regresijski model povezuje Y s funkcijom X i β.

Aproksimacija se obično formulira kao E (Y | X) = F (X, β). Za izvođenje regresijske analize potrebno je odrediti oblik funkcije f. Rjeđe se temelji na znanju o odnosu između Y i X koje se ne oslanja na podatke. Ako takvo znanje nije dostupno, odabire se fleksibilan ili prikladan oblik F.

Zavisna varijabla Y

Pretpostavimo sada da vektor nepoznatih parametara β ima duljinu k. Za izvođenje regresijske analize korisnik mora dati informacije o ovisnoj varijabli Y:

  • Ako se promatra N podatkovnih točaka oblika (Y, X), gdje je N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ako se promatra točno N = K, a funkcija F je linearna, tada se jednadžba Y = F(X, β) može riješiti točno, a ne približno. Ovo se svodi na rješavanje skupa N-jednadžbi s N-nepoznatim (elementima od β) koje imaju jedinstveno rješenje sve dok je X linearno neovisan. Ako je F nelinearan, rješenje možda ne postoji ili može postojati mnogo rješenja.
  • Najčešća situacija je kada postoji N > točaka na podacima. U ovom slučaju postoji dovoljno informacija u podacima za procjenu jedinstvene vrijednosti za β koja najbolje odgovara podacima, a regresijski model kada se primijeni na podatke može se promatrati kao nadjačani sustav u β.

U potonjem slučaju, regresijska analiza pruža alate za:

  • Pronalaženje rješenja za nepoznate parametre β, koje će, na primjer, minimizirati udaljenost između izmjerene i predviđene vrijednosti Y.
  • Pod određenim statističkim pretpostavkama, regresijska analiza koristi višak informacija za pružanje statističkih informacija o nepoznatim parametrima β i predviđenim vrijednostima zavisne varijable Y.

Potreban broj neovisnih mjerenja

Razmotrimo regresijski model koji ima tri nepoznata parametra: β 0 , β 1 i β 2 . Pretpostavimo da eksperimentator izvrši 10 mjerenja iste vrijednosti nezavisne varijable vektora X. U ovom slučaju regresijska analiza ne daje jedinstven skup vrijednosti. Najbolje što se može učiniti je procijeniti srednju vrijednost i standardnu ​​devijaciju zavisne varijable Y. Slično, mjerenje dvije različite vrijednosti X, možete dobiti dovoljno podataka za regresiju s dvije nepoznanice, ali ne i za tri ili više nepoznanica.

Ako su eksperimentatorova mjerenja obavljena na tri različite vrijednosti nezavisne vektorske varijable X, tada bi regresijska analiza dala jedinstven skup procjena za tri nepoznata parametra u β.

U slučaju opće linearne regresije, gornja izjava je ekvivalentna zahtjevu da je matrica X T X invertibilna.

Statističke pretpostavke

Kada je broj mjerenja N veći od broja nepoznatih parametara k i pogreške mjerenja ε i , tada se u pravilu višak informacija sadržanih u mjerenjima distribuira i koristi za statistička predviđanja u vezi s nepoznatim parametrima. Ovaj višak informacija naziva se stupanj slobode regresije.

Temeljne pretpostavke

Klasične pretpostavke za regresijsku analizu uključuju:

  • Uzorkovanje je reprezentativno za predviđanje zaključivanja.
  • Pogreška je slučajna varijabla sa srednjom vrijednošću nula, koja je uvjetovana eksplanatornim varijablama.
  • Neovisne varijable mjere se bez grešaka.
  • Kao nezavisne varijable (prediktori) one su linearno neovisne, odnosno nijedan prediktor nije moguće izraziti kao linearnu kombinaciju ostalih.
  • Pogreške su nekorelirane, to jest matrica kovarijancije pogrešaka dijagonala i svaki različit od nule element je varijanca pogreške.
  • Varijanca pogreške je konstantna kroz promatranja (homoskedastičnost). Ako nije, tada se mogu koristiti ponderirani najmanji kvadrati ili druge metode.

Ovi dovoljni uvjeti za procjenu najmanjih kvadrata imaju tražena svojstva, posebice ove pretpostavke znače da će procjene parametara biti objektivne, dosljedne i učinkovite, posebno kada se uzmu u obzir u klasi linearnih procjena. Važno je napomenuti da stvarni podaci rijetko zadovoljavaju uvjete. Odnosno, metoda se koristi čak i ako pretpostavke nisu točne. Odstupanja od pretpostavki ponekad se mogu koristiti kao mjera koliko je model koristan. Mnoge od ovih pretpostavki mogu se ublažiti naprednijim metodama. Izvješća o statističkoj analizi obično uključuju analizu testova na uzorku podataka i metodologije za korisnost modela.

Osim toga, varijable se u nekim slučajevima odnose na vrijednosti izmjerene na točkama. Mogu postojati prostorni trendovi i prostorne autokorelacije u varijablama koje krše statističke pretpostavke. Geografska ponderirana regresija jedina je metoda koja se bavi takvim podacima.

U linearnoj regresiji, značajka je da je zavisna varijabla, koja je Y i , linearna kombinacija parametara. Na primjer, u jednostavnoj linearnoj regresiji, n-točkasto modeliranje koristi jednu nezavisnu varijablu, x i, i dva parametra, β 0 i β 1 .

U višestrukoj linearnoj regresiji postoji nekoliko neovisnih varijabli ili njihovih funkcija.

Kada se nasumično uzorkuje iz populacije, njegovi parametri omogućuju dobivanje uzorka linearnog regresijskog modela.

S ovog aspekta najpopularnija je metoda najmanjih kvadrata. Pruža procjene parametara koje minimiziraju zbroj kvadrata reziduala. Ova vrsta minimizacije (što je tipično za linearnu regresiju) ove funkcije dovodi do skupa normalnih jednadžbi i skupa linearne jednadžbe s parametrima koji se rješavaju da bi se dobile procjene parametara.

Pretpostavljajući nadalje da se pogreška populacije općenito širi, istraživač može koristiti te procjene standardnih pogrešaka za stvaranje intervala pouzdanosti i izvođenje testiranja hipoteza o njezinim parametrima.

Nelinearna regresijska analiza

Primjer u kojem funkcija nije linearna s obzirom na parametre pokazuje da bi zbroj kvadrata trebalo minimizirati iterativnim postupkom. Ovo uvodi mnoge komplikacije koje definiraju razlike između linearnih i nelinearnih metoda najmanjih kvadrata. Posljedično, rezultati regresijske analize pri korištenju nelinearne metode ponekad su nepredvidivi.

Izračun snage i veličine uzorka

Ovdje u pravilu ne postoje konzistentne metode u pogledu broja promatranja u odnosu na broj nezavisnih varijabli u modelu. Prvo pravilo predložili su Dobra i Hardin i izgleda kao N = t^n, gdje je N veličina uzorka, n broj objašnjavajućih varijabli, a t broj promatranja potrebnih za postizanje željene točnosti ako je model imao samo jedna eksplanatorna varijabla. Na primjer, istraživač gradi linearni regresijski model koristeći skup podataka koji sadrži 1000 pacijenata (N). Ako istraživač odluči da je potrebno pet opažanja za točno određivanje linije (m), tada je najveći broj varijabli objašnjenja koje model može podržati 4.

Druge metode

Iako se parametri regresijskog modela obično procjenjuju metodom najmanjih kvadrata, postoje druge metode koje se koriste puno rjeđe. Na primjer, ovo su sljedeće metode:

  • Bayesove metode (primjerice, Bayesova metoda linearne regresije).
  • Postotna regresija koja se koristi za situacije u kojima se smanjenje postotnih pogrešaka smatra prikladnijim.
  • Najmanja apsolutna odstupanja, koja su robusnija u prisutnosti odstupanja što dovodi do kvantilne regresije.
  • Neparametarska regresija koja zahtijeva veliki broj promatranja i izračuna.
  • Udaljenost metrike učenja koja se uči u potrazi za smislenom metrikom udaljenosti u zadanom ulaznom prostoru.

Softver

Svi glavni statistički softverski paketi izvode se pomoću regresijske analize najmanjih kvadrata. Jednostavna linearna regresija i višestruka regresijska analiza mogu se koristiti u nekim aplikacijama za proračunske tablice, kao iu nekim kalkulatorima. Dok mnogi paketi statističkog softvera mogu izvoditi različite vrste neparametarske i robusne regresije, te su metode manje standardizirane; različiti softverski paketi implementiraju različite metode. Specijalizirani regresijski softver razvijen je za korištenje u područjima kao što su analiza ankete i neuroimaging.

Glavna značajka regresijske analize je da se može koristiti za dobivanje specifičnih informacija o obliku i prirodi odnosa između varijabli koje se proučavaju.

Redoslijed faza regresijske analize

Razmotrimo ukratko faze regresijske analize.

    Formulacija zadatka. U ovoj fazi formiraju se preliminarne hipoteze o ovisnosti proučavanih pojava.

    Definicija zavisnih i nezavisnih (eksplanatornih) varijabli.

    Prikupljanje statističkih podataka. Podaci se moraju prikupiti za svaku od varijabli uključenih u regresijski model.

    Postavljanje hipoteze o obliku veze (prosta ili višestruka, linearna ili nelinearna).

    Definicija regresijske funkcije (sastoji se u izračunavanju numeričkih vrijednosti parametara regresijske jednadžbe)

    Ocjena točnosti regresijske analize.

    Interpretacija dobivenih rezultata. Rezultati regresijske analize uspoređeni su s preliminarnim hipotezama. Ocjenjuje se ispravnost i vjerodostojnost dobivenih rezultata.

    Predviđanje nepoznatih vrijednosti zavisne varijable.

Uz pomoć regresijske analize moguće je riješiti problem predviđanja i klasifikacije. Prediktivne vrijednosti izračunavaju se zamjenom vrijednosti eksplanatornih varijabli u regresijsku jednadžbu. Problem klasifikacije rješava se na ovaj način: regresijska linija dijeli cijeli skup objekata u dvije klase, pri čemu dio skupa gdje je vrijednost funkcije veća od nule pripada jednoj klasi, a dio gdje je manja nego nula pripada drugoj klasi.

Zadaci regresijske analize

Razmotrite glavne zadatke regresijske analize: utvrđivanje oblika ovisnosti, određivanje regresijske funkcije, procjena nepoznatih vrijednosti zavisne varijable.

Uspostavljanje oblika ovisnosti.

Priroda i oblik odnosa između varijabli mogu oblikovati sljedeće vrste regresije:

    pozitivna linearna regresija (izražena kao ravnomjeran rast funkcije);

    pozitivna ravnomjerno ubrzavajuća regresija;

    pozitivna ravnomjerno rastuća regresija;

    negativna linearna regresija (izražena kao ravnomjerni pad funkcije);

    negativna ravnomjerno ubrzana opadajuća regresija;

    negativna ravnomjerno padajuća regresija.

Međutim, opisane sorte obično se ne nalaze u čistom obliku, već u kombinaciji jedna s drugom. U ovom slučaju govorimo o kombiniranim oblicima regresije.

Definicija regresijske funkcije.

Drugi zadatak je utvrditi učinak na zavisnu varijablu glavnih čimbenika ili uzroka, pod svim ostalim uvjetima, uz isključenje utjecaja na zavisnu varijablu slučajnih elemenata. regresijska funkcija definiran kao matematička jednadžba jednog ili drugog tipa.

Procjena nepoznatih vrijednosti zavisne varijable.

Rješenje ovog problema svodi se na rješavanje problema jedne od sljedećih vrsta:

    Procjena vrijednosti zavisne varijable unutar razmatranog intervala početnih podataka, tj. nedostajuće vrijednosti; ovo rješava problem interpolacije.

    Procjena budućih vrijednosti zavisne varijable, tj. pronalaženje vrijednosti izvan zadanog intervala početnih podataka; ovo rješava problem ekstrapolacije.

Oba problema rješavaju se zamjenom pronađenih procjena parametara vrijednosti nezavisnih varijabli u regresijsku jednadžbu. Rezultat rješavanja jednadžbe je procjena vrijednosti ciljne (ovisne) varijable.

Pogledajmo neke od pretpostavki na koje se oslanja regresijska analiza.

Pretpostavka linearnosti, tj. pretpostavlja se da je odnos između varijabli koje se razmatraju linearan. Dakle, u ovom smo primjeru izgradili dijagram raspršenosti i mogli vidjeti jasan linearni odnos. Ako na dijagramu raspršenosti varijabli vidimo jasno odsustvo linearnog odnosa, tj. postoji nelinearni odnos, treba koristiti nelinearne metode analize.

Pretpostavka normalnosti ostaci. Pretpostavlja se da je distribucija razlike između predviđenih i promatranih vrijednosti normalna. Da biste vizualno odredili prirodu distribucije, možete koristiti histograme ostaci.

Pri korištenju regresijske analize treba uzeti u obzir njezino glavno ograničenje. Sastoji se od činjenice da vam regresijska analiza omogućuje otkrivanje samo ovisnosti, a ne odnosa koji su u osnovi tih ovisnosti.

Regresijska analiza omogućuje procjenu stupnja povezanosti između varijabli izračunavanjem očekivane vrijednosti varijable na temelju nekoliko poznatih vrijednosti.

Regresijska jednadžba.

Regresijska jednadžba izgleda ovako: Y=a+b*X

Koristeći ovu jednadžbu, varijabla Y se izražava u smislu konstante a i nagiba pravca (ili nagiba) b pomnoženog s vrijednošću varijable X. Konstanta a se također naziva presjek, a nagib je regresija koeficijent ili B-faktor.

U većini slučajeva (ako ne i uvijek) postoji određena raspršenost opažanja o regresijskoj liniji.

Ostatak je odstupanje pojedine točke (opažanja) od regresijske linije (predviđena vrijednost).

Za rješavanje problema regresijske analize u MS Excelu odaberite iz izbornika Servis"Paket analize" i alat za regresijsku analizu. Odredite intervale unosa X i Y. Interval unosa Y raspon je zavisnih podataka koji se analiziraju i mora uključivati ​​jedan stupac. Ulazni interval X je raspon neovisnih podataka koji se analiziraju. Broj raspona unosa ne smije biti veći od 16.

Na izlazu procedure u izlaznom rasponu dobivamo dano izvješće tablica 8.3a-8,3 v.

REZULTATI

Tablica 8.3a. Regresijska statistika

Regresijska statistika

Višestruki R

R-kvadrat

Normalizirani R-kvadrat

standardna pogreška

Zapažanja

Prvo, razmotrite gornji dio izračuna prikazanih u tablica 8.3a, - regresijska statistika.

Vrijednost R-kvadrat, također nazvana mjera sigurnosti, karakterizira kvalitetu rezultirajuće regresijske linije. Ova se kvaliteta izražava stupnjem podudarnosti između izvornih podataka i regresijskog modela (izračunati podaci). Mjera izvjesnosti je uvijek unutar intervala.

U većini slučajeva vrijednost R-kvadrat nalazi se između ovih vrijednosti, naziva se ekstremnim, tj. između nule i jedan.

Ako vrijednost R-kvadrat blizu jedinici, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Nasuprot tome, vrijednost R-kvadrat, blizu nule, znači lošu kvalitetu konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje regresijske linije prema izvornim podacima.

množina R - koeficijent višestruke korelacije R - izražava stupanj ovisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruki R jednaka kvadratnom korijenu koeficijenta determinacije, ova vrijednost ima vrijednosti u rasponu od nula do jedan.

U jednostavnoj linearnoj regresijskoj analizi množina R jednaka Pearsonovom koeficijentu korelacije. Stvarno, množina R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tablica 8.3b. Regresijski koeficijenti

Izgledi

standardna pogreška

t-statistika

Y-raskrižje

Varijabla X 1

* Dana je skraćena verzija izračuna

Sada razmotrite srednji dio izračuna prikazanih u tablica 8.3b. Ovdje je dan regresijski koeficijent b (2,305454545) i pomak duž y-osi, tj. konstanta a (2,694545455).

Na temelju izračuna, jednadžbu regresije možemo napisati na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na temelju predznaka (negativan ili pozitivan) regresijskih koeficijenata (koeficijent b).

Ako je predznak koeficijenta regresije pozitivan, odnos između zavisne varijable i nezavisne varijable bit će pozitivan. U našem slučaju predznak regresijskog koeficijenta je pozitivan, dakle i odnos je pozitivan.

Ako je predznak koeficijenta regresije negativan, odnos između zavisne varijable i nezavisne varijable je negativan (obrnut).

NA tablica 8.3c. prikazani su izlazni rezultati ostaci. Kako bi se ovi rezultati pojavili u izvješću, potrebno je aktivirati checkbox "Reziduali" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tablica 8.3c. Ostaci

Promatranje

Predviđeno Y

Ostaci

Standardna stanja

Pomoću ovog dijela izvješća možemo vidjeti odstupanja svake točke od konstruirane regresijske linije. Najveća apsolutna vrijednost ostatak u našem slučaju - 0,778, najmanji - 0,043. Za bolju interpretaciju ovih podataka koristit ćemo se grafom izvornih podataka i konstruirane regresijske linije prikazane na sl. riža. 8.3. Kao što vidite, regresijska linija prilično je točno "prilagođena" vrijednostima izvornih podataka.

Treba uzeti u obzir da je primjer koji se razmatra prilično jednostavan i da nije uvijek moguće kvalitativno konstruirati liniju linearne regresije.

Riža. 8.3. Početni podaci i regresijska linija

Problem procjene nepoznatih budućih vrijednosti zavisne varijable na temelju poznatih vrijednosti nezavisne varijable ostao je nerazmotren, tj. zadatak predviđanja.

Imajući regresijsku jednadžbu, problem predviđanja se svodi na rješavanje jednadžbe Y= x*2,305454545+2,694545455 s poznatim vrijednostima x. Prikazani su rezultati predviđanja zavisne varijable Y šest koraka unaprijed u tablici 8.4.

Tablica 8.4. Rezultati predviđanja varijable Y

Y (predviđeno)

Dakle, kao rezultat korištenja regresijske analize u Microsoft Excel paketu, mi:

    izradio regresijsku jednadžbu;

    utvrđen oblik ovisnosti i smjer odnosa među varijablama - pozitivna linearna regresija, koja se izražava u ravnomjernom rastu funkcije;

    utvrdio smjer odnosa između varijabli;

    procijenjena kvaliteta dobivene regresijske linije;

    bili u mogućnosti vidjeti odstupanja izračunatih podataka od podataka izvornog skupa;

    predvidio buduće vrijednosti zavisne varijable.

Ako a regresijska funkcija je definiran, interpretiran i opravdan, a ocjena točnosti regresijske analize zadovoljava zahtjeve, možemo pretpostaviti da su izgrađeni model i prediktivne vrijednosti dovoljno pouzdane.

Predviđene vrijednosti dobivene na ovaj način su prosječne vrijednosti koje se mogu očekivati.

U ovom radu dali smo pregled glavnih karakteristika opisne statistike a među njima i takve pojmove kao što su značiti,medijan,maksimum,minimum i druge karakteristike varijacije podataka.

Također je došlo do kratke rasprave o konceptu emisije. Razmatrane karakteristike odnose se na tzv. eksplorativnu analizu podataka, čiji se zaključci ne moraju odnositi na opću populaciju, već samo na uzorak podataka. Istraživačka analiza podataka koristi se za izvođenje primarnih zaključaka i formiranje hipoteza o populaciji.

Također su razmotrene osnove korelacijske i regresijske analize, njihove zadaće i mogućnosti praktične primjene.