Dane do regresji. Podstawy analizy danych

W wyniku przestudiowania materiału rozdziału 4 student powinien:

wiedzieć

  • podstawowe pojęcia analizy regresji;
  • metody szacowania i własności szacowań metodą najmniejszych kwadratów;
  • podstawowe zasady testowania istotności i estymacji przedziałowej równania i współczynników regresji;

być w stanie

  • znajdować oszacowania parametrów dwuwymiarowych i wielokrotnych modeli równań regresji na podstawie danych przykładowych, analizować ich właściwości;
  • sprawdzić znaczenie równania i współczynników regresji;
  • znaleźć oszacowania interwałowe istotnych parametrów;

własny

  • umiejętności statystycznej estymacji parametrów równań regresji dwuwymiarowej i wielorakiej; umiejętności sprawdzania adekwatności modeli regresji;
  • umiejętność uzyskania równania regresji ze wszystkimi istotnymi współczynnikami za pomocą oprogramowania analitycznego.

Podstawowe koncepcje

Po przeprowadzeniu analizy korelacji, gdy zidentyfikowano występowanie statystycznie istotnych zależności między zmiennymi i oceniono stopień ich ścisłości, zwykle przystępują do matematycznego opisu rodzaju zależności z wykorzystaniem metod analizy regresji. W tym celu wybiera się klasę funkcji, która łączy efektywny wskaźnik w i argumenty” obliczają oszacowania parametrów równania więzów i analizują dokładność otrzymanego równania.

Funkcja| opisująca zależność warunkowej średniej wartości efektywnej cechy w z podanych wartości argumentów nosi nazwę równanie regresji.

Termin „regresja” (od łac. regresja- rekolekcje, powrót do czegoś) został wprowadzony przez angielskiego psychologa i antropologa F. Galtona i jest związany z jednym z jego pierwszych przykładów, w którym Galton, przetwarzając dane statystyczne związane z kwestią dziedziczności wzrostu, stwierdził, że jeśli wzrost ojcowie odbiegają od średniego wzrostu wszystkich ojców X cali, to wzrost ich synów odbiega od średniego wzrostu wszystkich synów o mniej niż x cale Zidentyfikowany trend został nazwany regresja do średniej.

Termin „regresja” jest szeroko stosowany w literaturze statystycznej, chociaż w wielu przypadkach nie charakteryzuje on dokładnie zależności statystycznej.

Dla dokładnego opisu równania regresji konieczna jest znajomość warunkowego prawa rozkładu wskaźnika efektywnego tak. W praktyce statystycznej uzyskanie takich informacji jest zwykle niemożliwe, dlatego ograniczają się one do znalezienia odpowiednich przybliżeń funkcji f(x ty X 2, .... l *), na podstawie wstępnej znaczącej analizy zjawiska lub oryginalnych danych statystycznych.

W ramach indywidualnych założeń modelu dotyczących rodzaju rozkładu wektora wskaźników<) может быть получен общий вид równania regresji, gdzie. Na przykład przy założeniu, że badany zestaw wskaźników jest zgodny z prawem ()-wymiarowego rozkładu normalnego z wektorem oczekiwań matematycznych

Gdzie i przez macierz kowariancji

gdzie jest wariancja? tak,

Równanie regresji (warunkowe oczekiwanie) ma postać

Tak więc, jeśli wielowymiarowa zmienna losowa ()

jest zgodny z ()-wymiarowym prawem rozkładu normalnego, to równanie regresji efektywnego wskaźnika w w zmiennych objaśniających ma liniową in X pogląd.

Jednak w praktyce statystycznej zwykle trzeba ograniczyć się do znalezienia odpowiednich przybliżeń dla nieznanej prawdziwej funkcji regresji f(x), ponieważ badacz nie ma dokładnej wiedzy na temat warunkowego prawa rozkładu prawdopodobieństwa analizowanego wskaźnika efektywności w dla podanych wartości argumentów X.

Rozważ relację między oszacowaniami rzeczywistymi, modelowymi i regresyjnymi. Niech wskaźnik wydajności w związane z argumentem X stosunek

gdzie jest ponadto zmienną losową z rozkładem normalnym. Prawdziwa funkcja regresji w tym przypadku to

Załóżmy, że nie znamy dokładnej postaci prawdziwego równania regresji, ale mamy dziewięć obserwacji dwuwymiarowej zmiennej losowej powiązanej relacjami pokazanymi na ryc. 4.1.

Ryż. 4.1. Względna pozycja prawdyf(x) i teoretycznewowmodele regresji

Lokalizacja punktów na ryc. 4.1 pozwala nam ograniczyć się do klasy liniowych zależności formy

Stosując metodę najmniejszych kwadratów znajdujemy oszacowanie równania regresji.

Dla porównania na ryc. 4.1 przedstawia wykresy prawdziwej funkcji regresji i teoretycznej przybliżonej funkcji regresji. Oszacowanie równania regresji jest zbieżne pod względem prawdopodobieństwa do tego ostatniego wow z nieograniczonym wzrostem wielkości próby ().

Ponieważ błędnie wybraliśmy funkcję regresji liniowej zamiast prawdziwej funkcji regresji, która niestety jest dość powszechna w praktyce badań statystycznych, nasze wnioski i szacunki statystyczne nie będą miały właściwości spójności, tj. bez względu na to, jak bardzo zwiększymy objętość obserwacji, nasze oszacowanie próbki nie będzie zbieżne do prawdziwej funkcji regresji

Jeśli poprawnie wybraliśmy klasę funkcji regresji, to niedokładność w opisie przy użyciu wow można by wytłumaczyć jedynie ograniczonością próby, a zatem można by ją uczynić dowolnie małą za pomocą

W celu jak najlepszego odtworzenia warunkowej wartości wskaźnika efektywnego i nieznanej funkcji regresji z początkowych danych statystycznych najczęściej stosuje się: kryteria adekwatności funkcje strat.

1. metoda najmniejszych kwadratów, zgodnie z którym minimalizowane jest kwadratowe odchylenie obserwowanych wartości wskaźnika efektywnego od wartości modelu, gdzie współczynniki równania regresji są wartościami wektora argumentów w obserwacji „-M :

Problem znalezienia oszacowania wektora jest rozwiązywany. Powstała regresja nazywa się Średnia kwadratowa.

2. Metoda najmniej modułów, zgodnie z którą suma odchyleń bezwzględnych obserwowanych wartości wskaźnika efektywnego od wartości modularnych jest minimalizowana, tj.

Powstała regresja nazywa się znaczy bezwzględny(mediana).

3. metoda minimaksowa sprowadza się do minimalizacji modułu odchylenia maksymalnego obserwowanej wartości wskaźnika efektywnego tak, od wartości modelu, tj.

Powstała regresja nazywa się minimaks.

W praktycznych zastosowaniach często pojawiają się problemy, w których badana jest zmienna losowa tak, w zależności od pewnego zestawu zmiennych i nieznanych parametrów. Rozważymy () jako (k + 1)-wymiarowa populacja ogólna, z której losowa próba objętości P, gdzie () jest wynikiem /-tej obserwacji. Wymagane jest oszacowanie nieznanych parametrów na podstawie wyników obserwacji. Opisane powyżej zadanie dotyczy zadań analizy regresji.

Analiza regresji nazwać metodę analizy statystycznej zależności zmiennej losowej w na zmiennych uwzględnianych w analizie regresji jako zmienne nielosowe, niezależnie od prawdziwego prawa rozkładu

WYNIKI

Tabela 8.3a. Statystyki regresji
Statystyki regresji
Wiele R 0,998364
Plac R 0,99673
Znormalizowany R-kwadrat 0,996321
Standardowy błąd 0,42405
Obserwacje 10

Przyjrzyjmy się najpierw górnej części obliczeń przedstawionych w tabeli 8.3a, statystykom regresji.

Wartość R-kwadrat, zwana także miarą pewności, charakteryzuje jakość otrzymanej linii regresji. Jakość ta wyraża się stopniem zgodności między danymi pierwotnymi a modelem regresji (dane obliczone). Miarą pewności jest zawsze przedział.

W większości przypadków wartość R-kwadrat mieści się pomiędzy tymi wartościami, zwanymi ekstremami, tj. od zera do jednego.

Jeżeli wartość R-kwadratu jest bliska jedności, oznacza to, że skonstruowany model wyjaśnia prawie całą zmienność odpowiednich zmiennych. Z kolei wartość R-kwadrat bliska zeru oznacza słabą jakość zbudowanego modelu.

W naszym przykładzie miarą pewności jest 0,99673, co wskazuje na bardzo dobre dopasowanie linii regresji do oryginalnych danych.

Wiele R- współczynnik korelacji wielokrotnej R - wyraża stopień zależności zmiennych niezależnych (X) i zmiennej zależnej (Y).

Wielokrotne R równa się pierwiastek kwadratowy ze współczynnika determinacji wartość ta przyjmuje wartości w zakresie od zera do jednego.

W prostej analizie regresji liniowej wielokrotne R jest równe współczynnikowi korelacji Pearsona. Rzeczywiście, wielokrotność R w naszym przypadku jest równa współczynnikowi korelacji Pearsona z poprzedniego przykładu (0,998364).

Tabela 8.3b. Współczynniki regresji
Szanse Standardowy błąd t-statystyka
Przecięcie Y 2,694545455 0,33176878 8,121757129
Zmienna X 1 2,305454545 0,04668634 49,38177965
* Podano skróconą wersję obliczeń

Rozważmy teraz środkową część obliczeń przedstawionych w tabeli 8.3b. Tutaj podano współczynnik regresji b (2,305454545) i przesunięcie wzdłuż osi y, tj. stała a (2.694545455).

Na podstawie obliczeń możemy zapisać równanie regresji w następujący sposób:

Y= x*2.305454545+2.694545455

Kierunek relacji między zmiennymi określany jest na podstawie znaków (ujemny lub dodatni) współczynniki regresji(współczynnik b).

Jeśli znak w współczynnik regresji- dodatni, związek zmiennej zależnej z niezależną będzie dodatni. W naszym przypadku znak współczynnika regresji jest dodatni, zatem zależność jest również dodatnia.

Jeśli znak w współczynnik regresji- ujemna, zależność między zmienną zależną a zmienną niezależną jest ujemna (odwrotna).

W tabeli 8.3c. przedstawiono wyniki wyjścia reszt. Aby te wyniki pojawiły się w raporcie, konieczne jest aktywowanie pola wyboru „Pozostałości” podczas uruchamiania narzędzia „Regresja”.

POZOSTAŁE WYPŁATA

Tabela 8.3c. Pozostaje
Obserwacja Przewidywane Y Pozostaje Wagi standardowe
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Korzystając z tej części raportu, możemy zobaczyć odchylenia każdego punktu od skonstruowanej linii regresji. Największa wartość bezwzględna

Współczesna politologia wychodzi ze stanowiska dotyczącego relacji wszystkich zjawisk i procesów w społeczeństwie. Nie da się zrozumieć wydarzeń i procesów, przewidywać i zarządzać zjawiskami życia politycznego bez badania powiązań i zależności istniejących w politycznej sferze społeczeństwa. Jednym z najczęstszych zadań badań nad polityką jest badanie relacji między niektórymi obserwowalnymi zmiennymi. Cała klasa statystycznych metod analizy, które łączy wspólna nazwa „analiza regresji” (lub, jak to się nazywa, „analiza korelacji i regresji”), pomaga rozwiązać ten problem. Jeżeli jednak analiza korelacji pozwala ocenić siłę związku między dwiema zmiennymi, to za pomocą analizy regresji można określić rodzaj tej zależności, przewidzieć zależność wartości dowolnej zmiennej od wartości innej zmiennej .

Najpierw pamiętajmy, czym jest korelacja. Współzależny nazwany najważniejszym szczególnym przypadkiem zależności statystycznej, który polega na tym, że równe wartości jednej zmiennej odpowiadają różnym wartości średnie inne. Wraz ze zmianą wartości atrybutu x zmienia się w naturalny sposób średnia wartość atrybutu y, natomiast w każdym indywidualnym przypadku wartość atrybutu w(z różnym prawdopodobieństwem) może przybierać wiele różnych wartości.

Pojawienie się terminu „korelacja” w statystyce (a politologia przyciąga osiągnięcie statystyki dla rozwiązywania jej problemów, która w związku z tym jest dyscypliną powiązaną z naukami politycznymi) wiąże się z nazwiskiem angielskiego biologa i statystyka Francisa Galtona, który zaproponował w XIX wieku. teoretyczne podstawy analizy korelacji i regresji. Termin „korelacja” w nauce był znany już wcześniej. W szczególności w paleontologii w XVIII wieku. zastosował go francuski naukowiec Georges Cuvier. Wprowadził tzw. prawo korelacji, za pomocą którego, według szczątków zwierząt znalezionych podczas wykopalisk, można było przywrócić ich wygląd.

Z nazwiskiem tego naukowca i jego prawem korelacji związana jest znana historia. Tak więc, w dni wakacji uniwersyteckich, studenci, którzy postanowili oszukać słynnego profesora, naciągnęli na jednego studenta kozią skórę z rogami i kopytami. Wszedł do okna sypialni Cuviera i krzyknął: „Zjem cię”. Profesor obudził się, spojrzał na sylwetkę i odpowiedział: „Jeśli masz rogi i kopyta, to jesteś roślinożercą i nie możesz mnie zjeść. A za nieznajomość prawa korelacji dostaniesz dwójkę. Odwrócił się i zasnął. Żart to żart, ale w tym przykładzie widzimy szczególny przypadek użycia analizy wielokrotnej korelacji i regresji. Tutaj profesor na podstawie znajomości wartości dwóch obserwowanych cech (obecność rogów i kopyt), na podstawie prawa korelacji, wyprowadził średnią wartość trzeciej cechy (klasa, do której należy to zwierzę jest roślinożercą). W tym przypadku nie mówimy o konkretnej wartości tej zmiennej (tzn. zwierzę to mogło przybierać różne wartości w skali nominalnej - może to być koza, baran, czy byk...).

Przejdźmy teraz do terminu „regresja”. Ściśle mówiąc, nie jest to związane ze znaczeniem tych problemów statystycznych, które rozwiązuje się za pomocą tej metody. Wyjaśnienie tego terminu można podać tylko na podstawie znajomości historii rozwoju metod badania związków między cechami. Jednym z pierwszych przykładów tego typu badań była praca statystyków F. Galtona i K. Pearsona, którzy próbowali znaleźć wzorzec między wzrostem ojców i ich dzieci według dwóch obserwowalnych znaków (gdzie X- wzrost ojca i U- wzrost dzieci). W swoim badaniu potwierdzili początkową hipotezę, że przeciętnie wysocy ojcowie wychowują średnio wysokie dzieci. Ta sama zasada dotyczy niskich ojców i dzieci. Gdyby jednak naukowcy na tym poprzestali, ich prace nigdy nie znalazłyby się w podręcznikach do statystyki. Badacze znaleźli inny wzór we wspomnianej już potwierdzonej hipotezie. Udowodnili, że bardzo wysocy ojcowie rodzą dzieci przeciętnie wysokie, ale niewiele różniące się wzrostem od dzieci, których ojcowie, choć powyżej przeciętnej, nie różnią się zbytnio od przeciętnego wzrostu. To samo dotyczy ojców o bardzo niskim wzroście (odbiegającym od średniej z grupy niskiego wzrostu) – ich dzieci średnio nie różniły się wzrostem od rówieśników, których ojcowie byli po prostu niscy. Nazwali funkcję opisującą tę prawidłowość funkcja regresji. Po tym badaniu wszystkie równania opisujące podobne funkcje i skonstruowane w podobny sposób zaczęto nazywać równaniami regresji.

Analiza regresji- jedna z metod wielowymiarowej statystycznej analizy danych, łącząca zestaw technik statystycznych zaprojektowanych do badania lub modelowania relacji między jedną zmienną zależną a kilkoma (lub jedną) zmienną niezależną. Zmienna zależna, zgodnie z tradycją przyjętą w statystyce, nazywana jest odpowiedzią i oznaczona jako V Zmienne niezależne nazywane są predyktorami i oznaczane jako x. W trakcie analizy niektóre zmienne będą słabo powiązane z odpowiedzią i ostatecznie zostaną wyłączone z analizy. Pozostałe zmienne związane z zależnymi można również nazwać czynnikami.

Analiza regresji umożliwia przewidywanie wartości jednej lub więcej zmiennych w zależności od innej zmiennej (np. skłonność do niekonwencjonalnych zachowań politycznych w zależności od poziomu wykształcenia) lub kilku zmiennych. Jest obliczany na PC. Aby skompilować równanie regresji, które pozwala zmierzyć stopień zależności kontrolowanej cechy od czynnikowych, konieczne jest zaangażowanie profesjonalnych matematyków-programistów. Analiza regresji może być nieocenioną pomocą w budowaniu modeli predykcyjnych rozwoju sytuacji politycznej, ocenie przyczyn napięć społecznych oraz przeprowadzaniu eksperymentów teoretycznych. Analiza regresji jest aktywnie wykorzystywana do badania wpływu na zachowania wyborcze obywateli szeregu parametrów społeczno-demograficznych: płci, wieku, zawodu, miejsca zamieszkania, narodowości, poziomu i charakteru dochodów.

W odniesieniu do analizy regresji pojęcia niezależny oraz zależny zmienne. Zmienna niezależna to zmienna, która wyjaśnia lub powoduje zmianę innej zmiennej. Zmienna zależna to zmienna, której wartość tłumaczy się wpływem pierwszej zmiennej. Na przykład w wyborach prezydenckich w 2004 r. decydujące czynniki, tj. zmiennymi niezależnymi były wskaźniki takie jak stabilizacja sytuacji materialnej ludności kraju, poziom popularności kandydatów oraz czynnik beneficjum. W tym przypadku procent głosów oddanych na kandydatów można uznać za zmienną zależną. Podobnie w parze zmiennych „wiek wyborcy” i „poziom aktywności wyborczej” pierwsza jest niezależna, druga zależna.

Analiza regresji pozwala rozwiązać następujące problemy:

  • 1) ustalić sam fakt występowania lub braku statystycznie istotnej zależności między Ci x;
  • 2) zbudować najlepsze (w sensie statystycznym) oszacowania funkcji regresji;
  • 3) według podanych wartości X zbuduj prognozę dla nieznanego Na
  • 4) ocenić wagę właściwą wpływu każdego czynnika X na Na i odpowiednio wykluczyć nieistotne cechy z modelu;
  • 5) identyfikując związki przyczynowe między zmiennymi, częściowo zarządzaj wartościami P, dostosowując wartości zmiennych objaśniających x.

Analiza regresji wiąże się z koniecznością wyselekcjonowania wzajemnie niezależnych zmiennych, które wpływają na wartość badanego wskaźnika, określenia postaci równania regresji oraz oceny parametrów z wykorzystaniem metod statystycznych do przetwarzania pierwotnych danych socjologicznych. Ten rodzaj analizy opiera się na idei formy, kierunku i bliskości (gęstości) relacji. Wyróżnić łaźnia parowa oraz wielokrotna regresja w zależności od liczby badanych cech. W praktyce analiza regresji jest zwykle wykonywana w połączeniu z analizą korelacji. Równanie regresji opisuje liczbowy związek między wielkościami, wyrażony jako tendencja wzrostu lub spadku jednej zmiennej, podczas gdy inna wzrasta lub maleje. W tym samym czasie razl i ha yut l mróz oraz regresja nieliniowa. W opisie procesów politycznych oba warianty regresji są jednakowo spotykane.

Wykres punktowy rozkładu współzależności interesów artykułami politycznymi ( U) i edukacja respondentów (X) jest regresją liniową (ryc. 30).

Ryż. trzydzieści.

Wykres punktowy rozkładu poziomu aktywności wyborczej ( U) a wiek respondenta (A) (przykład warunkowy) jest regresją nieliniową (ryc. 31).


Ryż. 31.

Do opisu relacji dwóch cech (A” i Y) w sparowanym modelu regresji stosuje się równanie liniowe

gdzie a, jest wartością losową błędu równania ze zmiennością cech, tj. odchylenie równania od „liniowości”.

Aby ocenić współczynniki a oraz b zastosować metodę najmniejszych kwadratów, która zakłada, że ​​suma kwadratów odchyleń każdego punktu na wykresie rozrzutu od linii regresji powinna być minimalna. Szanse a h b można obliczyć za pomocą układu równań:

Metoda estymacji najmniejszych kwadratów daje takie oszacowania współczynników a oraz b, dla którego linia przechodzi przez punkt o współrzędnych X oraz tak, tych. jest związek w = topór + b. Graficzna reprezentacja równania regresji nazywa się teoretyczna linia regresji. W przypadku zależności liniowej współczynnik regresji przedstawia na wykresie tangens nachylenia teoretycznej linii regresji do osi x. Znak przy współczynniku pokazuje kierunek relacji. Jeśli jest większe od zera, to zależność jest bezpośrednia, jeśli jest mniejsza, jest odwrotna.

Poniższy przykład z badania „Petersburg polityczny-2006” (tabela 56) pokazuje liniową zależność między postrzeganiem przez obywateli stopnia zadowolenia z życia w teraźniejszości a oczekiwaniami zmian jakości życia w przyszłości. Połączenie jest bezpośrednie, liniowe (standaryzowany współczynnik regresji wynosi 0,233, poziom istotności wynosi 0,000). W tym przypadku współczynnik regresji nie jest wysoki, ale przekracza dolną granicę wskaźnika istotnego statystycznie (dolną granicę kwadratu wskaźnika istotnego statystycznie współczynnika Pearsona).

Tabela 56

Wpływ jakości życia obywateli w teraźniejszości na oczekiwania

(Petersburg, 2006)

* Zmienna zależna: „Jak Twoim zdaniem zmieni się Twoje życie w ciągu najbliższych 2-3 lat?”

W życiu politycznym wartość badanej zmiennej najczęściej zależy jednocześnie od kilku cech. Na przykład na poziom i charakter działalności politycznej wpływa jednocześnie ustrój polityczny państwa, tradycje polityczne, specyfika zachowań politycznych ludzi na danym terenie oraz mikrogrupa społeczna respondenta, jego wiek, wykształcenie, dochody poziom, orientacja polityczna itp. W takim przypadku musisz użyć równania wielokrotna regresja, który ma następującą postać:

gdzie współczynnik b.- częściowy współczynnik regresji. Pokazuje wkład każdej zmiennej niezależnej w wyznaczenie wartości zmiennej niezależnej (wynikowej). Jeżeli częściowy współczynnik regresji jest bliski 0, to możemy stwierdzić, że nie ma bezpośredniego związku między zmienną niezależną i zależną.

Obliczenie takiego modelu można przeprowadzić na komputerze PC przy użyciu algebry macierzowej. Regresja wielokrotna pozwala odzwierciedlić wieloczynnikowy charakter więzi społecznych i wyjaśnić stopień wpływu każdego czynnika z osobna i wszystkich razem na uzyskaną cechę.

Oznaczony współczynnik b, nazywa się współczynnikiem regresji liniowej i pokazuje siłę związku między zmiennością atrybutu czynnika X i zmienność efektywnej funkcji Tak Współczynnik ten mierzy siłę związku w bezwzględnych jednostkach miary cech. Jednak bliskość korelacji cech można również wyrazić w postaci odchylenia standardowego otrzymanej cechy (taki współczynnik nazywamy współczynnikiem korelacji). W przeciwieństwie do współczynnika regresji b współczynnik korelacji nie zależy od przyjętych jednostek miary cech, a zatem jest porównywalny dla dowolnych cech. Zwykle połączenie uważa się za mocne, jeśli /> 0,7, średnia szczelność - przy 0,5 g 0,5.

Jak wiadomo, najbliższym połączeniem jest połączenie funkcjonalne, gdy każda pojedyncza wartość Tak można jednoznacznie przypisać do wartości x. Zatem im bliższy współczynnikowi korelacji jest 1, tym bliższy jest związek funkcjonalny. Poziom istotności dla analizy regresji nie powinien przekraczać 0,001.

Współczynnik korelacji od dawna uważany jest za główny wskaźnik bliskości związku cech. Jednak później takim wskaźnikiem stał się współczynnik determinacji. Znaczenie tego współczynnika jest następujące – odzwierciedla udział całkowitej wariancji otrzymanej cechy Na, wyjaśnione przez wariancję funkcji x. Oblicza się go po prostu podnosząc do kwadratu współczynnik korelacji (zmieniający się z 0 na 1), a dla zależności liniowej odzwierciedla udział od 0 (0%) do 1 (100%) wartości charakterystyczne Tak, określone przez wartości atrybutu x. Jest rejestrowany jako 2 , aw powstałych tabelach analizy regresji w pakiecie SPSS - bez kwadratu.

Oznaczmy główne problemy konstrukcji równania regresji wielorakiej.

  • 1. Wybór czynników zawartych w równaniu regresji. Na tym etapie badacz najpierw sporządza ogólną listę głównych przyczyn, które zgodnie z teorią determinują badane zjawisko. Następnie musi wybrać cechy w równaniu regresji. Główną zasadą selekcji jest to, że czynniki uwzględnione w analizie powinny być ze sobą jak najmniej skorelowane; tylko w tym przypadku możliwe jest przypisanie ilościowej miary wpływu do pewnego czynnika-atrybutu.
  • 2. Wybór postaci równania regresji wielokrotnej(w praktyce częściej stosuje się liniową lub liniowo-logarytmiczną). Aby więc zastosować regresję wielokrotną, badacz musi najpierw zbudować hipotetyczny model wpływu kilku zmiennych niezależnych na wynikowy. Aby uzyskane wyniki były wiarygodne, konieczne jest, aby model dokładnie odpowiadał rzeczywistemu procesowi, tj. zależność między zmiennymi musi być liniowa, nie można pominąć ani jednej istotnej zmiennej niezależnej, ani jednej zmiennej, która nie jest bezpośrednio związana z badanym procesem. Ponadto wszystkie pomiary zmiennych muszą być niezwykle dokładne.

Z powyższego opisu wynika szereg warunków stosowania tej metody, bez których nie można przejść do procedury analizy regresji wielokrotnej (MRA). Tylko zgodność ze wszystkimi poniższymi punktami pozwala na prawidłowe przeprowadzenie analizy regresji.

W modelowaniu statystycznym analiza regresji jest badaniem stosowanym do oceny związku między zmiennymi. Ta metoda matematyczna obejmuje wiele innych metod modelowania i analizowania wielu zmiennych, gdy nacisk kładziony jest na związek między zmienną zależną a co najmniej jedną zmienną niezależną. Mówiąc dokładniej, analiza regresji pomaga zrozumieć, w jaki sposób typowa wartość zmiennej zależnej zmienia się, gdy zmienia się jedna ze zmiennych niezależnych, podczas gdy inne zmienne niezależne pozostają stałe.

We wszystkich przypadkach wynik docelowy jest funkcją zmiennych niezależnych i jest nazywany funkcją regresji. W analizie regresji interesujące jest również scharakteryzowanie zmiany zmiennej zależnej jako funkcji regresji, którą można opisać za pomocą rozkładu prawdopodobieństwa.

Zadania analizy regresji

Ta metoda badań statystycznych jest szeroko stosowana do prognozowania, gdzie jej zastosowanie ma znaczną przewagę, ale czasami może prowadzić do złudzeń lub fałszywych relacji, dlatego zaleca się jej ostrożne stosowanie w tym pytaniu, gdyż np. korelacja nie oznacza związek przyczynowy.

Rozwinięty duża liczba metody przeprowadzania analizy regresji, takie jak regresja liniowa i zwykła metodą najmniejszych kwadratów, które są parametryczne. Ich istotą jest to, że funkcja regresji jest zdefiniowana w postaci skończonej liczby nieznanych parametrów, które są szacowane na podstawie danych. Regresja nieparametryczna pozwala, aby jego funkcja znajdowała się w pewnym zestawie funkcji, który może być nieskończenie wymiarowy.

Jako metoda badań statystycznych analiza regresji w praktyce zależy od kształtu procesu generowania danych i jego związku z podejściem regresji. Ponieważ prawdziwą formą generowania procesu danych jest zazwyczaj nieznana liczba, analiza regresji danych często zależy w pewnym stopniu od założeń dotyczących procesu. Założenia te można czasem przetestować, jeśli dostępnych jest wystarczająca ilość danych. Modele regresji są często przydatne nawet wtedy, gdy założenia są umiarkowanie naruszane, chociaż mogą nie działać najlepiej.

W węższym sensie regresja może odnosić się konkretnie do estymacji zmiennych odpowiedzi ciągłej, w przeciwieństwie do dyskretnych zmiennych odpowiedzi stosowanych w klasyfikacji. Przypadek ciągłej zmiennej wyjściowej jest również nazywany regresją metryczną, aby odróżnić ją od powiązanych problemów.

Fabuła

Najbardziej wczesna forma regresja jest dobrze znaną metodą najmniejszych kwadratów. Została opublikowana przez Legendre'a w 1805 roku i Gaussa w 1809 roku. Legendre i Gauss zastosowali tę metodę do problemu wyznaczania na podstawie obserwacji astronomicznych orbit ciał wokół Słońca (głównie komet, ale później także nowo odkrytych mniejszych planet). Gauss opublikował dalsze rozwinięcie teorii najmniejszych kwadratów w 1821 roku, w tym wariant twierdzenia Gaussa-Markowa.

Termin „regresja” został ukuty przez Francisa Galtona w XIX wieku w celu opisania zjawiska biologicznego. Najważniejsze było to, że wzrost potomków od wzrostu przodków z reguły cofa się do normalnej średniej. Dla Galtona regresja miała tylko to biologiczne znaczenie, ale później jego prace zostały podjęte przez Udni Yoley i Karla Pearsona i przeniesione do bardziej ogólnego kontekstu statystycznego. W pracy Yule'a i Pearsona łączny rozkład zmiennych odpowiedzi i objaśniających jest uważany za gaussowski. Założenie to zostało odrzucone przez Fischera w pismach z 1922 i 1925 roku. Fisher zasugerował, że rozkład warunkowy zmiennej odpowiedzi jest gaussowski, ale rozkład łączny nie musi taki być. Pod tym względem sugestia Fishera jest bliższa sformułowaniu Gaussa z 1821 roku. Przed 1970 r. uzyskanie wyniku analizy regresji zajmowało czasami do 24 godzin.

Metody analizy regresji są nadal obszarem aktywnych badań. W ostatnich dziesięcioleciach opracowano nowe metody solidnej regresji; regresje obejmujące skorelowane odpowiedzi; metody regresji, które uwzględniają różne rodzaje brakujących danych; regresja nieparametryczna; metody regresji bayesowskiej; regresje, w których zmienne predyktorowe są mierzone z błędem; regresje z większą liczbą predyktorów niż obserwacji oraz wnioskowanie przyczynowe z regresją.

Modele regresji

Modele analizy regresji obejmują następujące zmienne:

  • Nieznane parametry, oznaczone jako beta, które mogą być skalarem lub wektorem.
  • Zmienne niezależne, X.
  • Zmienne zależne, Y.

W różne obszary Nauki, w których stosuje się analizę regresji, używają różnych terminów zamiast zmiennych zależnych i niezależnych, ale we wszystkich przypadkach model regresji wiąże Y z funkcją X i β.

Przybliżenie jest zwykle formułowane jako E (Y | X) = F (X, β). Aby przeprowadzić analizę regresji, należy określić postać funkcji f. Rzadziej opiera się na wiedzy o relacji między Y i X, która nie opiera się na danych. Jeśli taka wiedza nie jest dostępna, wybiera się elastyczną lub wygodną formę F.

Zmienna zależna Y

Załóżmy teraz, że wektor o nieznanych parametrach β ma długość k. Aby przeprowadzić analizę regresji, użytkownik musi podać informacje o zmiennej zależnej Y:

  • Jeżeli obserwuje się N punktów danych postaci (Y, X), gdzie N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jeśli obserwuje się dokładnie N = K, a funkcja F jest liniowa, to równanie Y = F(X, β) można rozwiązać dokładnie, a nie w przybliżeniu. Sprowadza się to do rozwiązania zbioru N równań z N-niewiadomymi (elementami β), który ma jednoznaczne rozwiązanie, o ile X jest liniowo niezależne. Jeśli F jest nieliniowe, rozwiązanie może nie istnieć lub może być wiele rozwiązań.
  • Najczęstszą sytuacją jest sytuacja, w której do danych znajduje się N > punktów. W takim przypadku w danych jest wystarczająca ilość informacji, aby oszacować unikalną wartość dla β, która najlepiej pasuje do danych, a model regresji po zastosowaniu do danych może być postrzegany jako nadpisany system w β.

W tym drugim przypadku analiza regresji dostarcza narzędzi do:

  • Znalezienie rozwiązania dla nieznanych parametrów β, które np. zminimalizuje odległość między zmierzoną a przewidywaną wartością Y.
  • Przy pewnych założeniach statystycznych analiza regresji wykorzystuje nadmiar informacji w celu dostarczenia informacji statystycznych o nieznanych parametrach β i przewidywanych wartościach zmiennej zależnej Y.

Wymagana liczba niezależnych pomiarów

Rozważ model regresji, który ma trzy nieznane parametry: β 0 , β 1 i β 2 . Załóżmy, że eksperymentator wykonuje 10 pomiarów na tej samej wartości zmiennej niezależnej wektora X. W tym przypadku analiza regresji nie daje jednoznacznego zbioru wartości. Najlepsze, co można zrobić, to oszacowanie średniej i odchylenia standardowego zmiennej zależnej Y. Podobnie pomiar dwóch różne wartości X, możesz uzyskać wystarczającą ilość danych dla regresji z dwiema niewiadomymi, ale nie dla trzech lub więcej niewiadomych.

Gdyby pomiary eksperymentatora zostały wykonane przy trzech różnych wartościach niezależnej zmiennej wektora X, wówczas analiza regresji dostarczyłaby unikalnego zestawu szacunków dla trzech nieznanych parametrów w β.

W przypadku ogólnej regresji liniowej powyższe stwierdzenie jest równoznaczne z wymogiem odwracalności macierzy X T X.

Założenia statystyczne

Gdy liczba pomiarów N jest większa niż liczba nieznanych parametrów k i błędy pomiaru εi, to z reguły nadmiar informacji zawartych w pomiarach jest rozkładany i wykorzystywany do predykcji statystycznych dotyczących nieznanych parametrów. Ten nadmiar informacji nazywamy stopniem swobody regresji.

Podstawowe założenia

Klasyczne założenia analizy regresji obejmują:

  • Próbkowanie jest reprezentatywne dla przewidywania wnioskowania.
  • Błąd jest zmienną losową o wartości średniej równej zero, która jest uzależniona od zmiennych objaśniających.
  • Zmienne niezależne są mierzone bez błędów.
  • Jako zmienne niezależne (predyktory) są one liniowo niezależne, co oznacza, że ​​nie można wyrazić żadnego predyktora jako liniowej kombinacji pozostałych.
  • Błędy są nieskorelowane, to znaczy macierz kowariancji błędu przekątnych i każdy niezerowy element jest wariancją błędu.
  • Wariancja błędu jest stała we wszystkich obserwacjach (homoskedastyczność). Jeśli nie, można zastosować ważoną metodą najmniejszych kwadratów lub inne metody.

Te warunki wystarczające do oszacowania metodą najmniejszych kwadratów mają wymagane właściwości, w szczególności te założenia oznaczają, że oszacowania parametrów będą obiektywne, spójne i efektywne, zwłaszcza gdy zostaną uwzględnione w klasie oszacowań liniowych. Należy zauważyć, że rzeczywiste dane rzadko spełniają warunki. Oznacza to, że metoda jest stosowana nawet wtedy, gdy założenia nie są poprawne. Odstępstwo od założeń może czasami służyć jako miara użyteczności modelu. Wiele z tych założeń można złagodzić w bardziej zaawansowanych metodach. Raporty z analizy statystycznej zazwyczaj zawierają analizę testów z przykładowymi danymi i metodologią pod kątem użyteczności modelu.

Ponadto zmienne w niektórych przypadkach odnoszą się do wartości mierzonych w lokalizacjach punktowych. W zmiennych, które naruszają założenia statystyczne, mogą występować trendy przestrzenne i autokorelacje przestrzenne. Regresja ważona geograficznie jest jedyną metodą, która zajmuje się takimi danymi.

W regresji liniowej cechą jest to, że zmienna zależna, którą jest Y i , jest liniową kombinacją parametrów. Na przykład w prostej regresji liniowej modelowanie n-punktowe wykorzystuje jedną zmienną niezależną x i oraz dwa parametry β 0 i β 1 .

W wielokrotnej regresji liniowej istnieje kilka zmiennych niezależnych lub ich funkcji.

Przy losowej próbie z populacji jej parametry umożliwiają uzyskanie próby modelu regresji liniowej.

W tym aspekcie najpopularniejsza jest metoda najmniejszych kwadratów. Zapewnia oszacowania parametrów, które minimalizują sumę kwadratów reszt. Ten rodzaj minimalizacji (co jest typowe dla regresji liniowej) tej funkcji prowadzi do zestawu równań normalnych i zestawu równania liniowe z parametrami, które są rozwiązywane w celu uzyskania oszacowań parametrów.

Zakładając dalej, że błąd populacji generalnie się rozprzestrzenia, badacz może wykorzystać te oszacowania błędów standardowych do tworzenia przedziałów ufności i testowania hipotez dotyczących jego parametrów.

Analiza regresji nieliniowej

Przykład, w którym funkcja nie jest liniowa względem parametrów, wskazuje, że suma kwadratów powinna być minimalizowana za pomocą procedury iteracyjnej. Wprowadza to wiele komplikacji, które definiują różnice między liniową i nieliniową metodą najmniejszych kwadratów. W konsekwencji wyniki analizy regresji przy zastosowaniu metody nieliniowej są czasami nieprzewidywalne.

Obliczanie mocy i wielkości próbki

Tutaj z reguły nie ma spójnych metod dotyczących liczby obserwacji w porównaniu z liczbą zmiennych niezależnych w modelu. Pierwsza reguła została zaproponowana przez Dobra i Hardin i wygląda następująco: N = t^n, gdzie N to wielkość próby, n to liczba zmiennych objaśniających, a t to liczba obserwacji potrzebnych do uzyskania pożądanej dokładności, jeśli model miał tylko jedna zmienna objaśniająca. Na przykład badacz buduje model regresji liniowej przy użyciu zestawu danych zawierającego 1000 pacjentów (N). Jeśli badacz uzna, że ​​do dokładnego wyznaczenia prostej (m) potrzeba pięciu obserwacji, to maksymalna liczba zmiennych objaśniających, jaką może obsłużyć model, wynosi 4.

Inne metody

Chociaż parametry modelu regresji są zwykle szacowane przy użyciu metody najmniejszych kwadratów, istnieją inne metody, które są stosowane znacznie rzadziej. Na przykład są to następujące metody:

  • Metody bayesowskie (np. Bayesowska metoda regresji liniowej).
  • Regresja procentowa stosowana w sytuacjach, w których zmniejszenie błędów procentowych jest uważane za bardziej odpowiednie.
  • Najmniejsze odchylenia bezwzględne, które są bardziej odporne w obecności wartości odstających prowadzących do regresji kwantylowej.
  • Regresja nieparametryczna wymagająca dużej liczby obserwacji i obliczeń.
  • Odległość wyuczonej metryki uczenia się w poszukiwaniu znaczącej metryki odległości w danej przestrzeni wejściowej.

Oprogramowanie

Wszystkie główne pakiety oprogramowania statystycznego są wykonywane przy użyciu analizy regresji metodą najmniejszych kwadratów. Prosta regresja liniowa i analiza regresji wielokrotnej mogą być używane w niektórych aplikacjach arkuszy kalkulacyjnych, a także w niektórych kalkulatorach. Chociaż wiele pakietów oprogramowania statystycznego może wykonywać różne rodzaje nieparametrycznej i solidnej regresji, metody te są mniej wystandaryzowane; różne pakiety oprogramowania wdrażają różne metody. Specjalistyczne oprogramowanie do regresji zostało opracowane do użytku w obszarach takich jak analiza ankiet i neuroobrazowanie.

Główną cechą analizy regresji jest to, że można ją wykorzystać do uzyskania konkretnych informacji o formie i charakterze związku między badanymi zmiennymi.

Kolejność etapów analizy regresji

Rozważmy pokrótce etapy analizy regresji.

    Formułowanie zadań. Na tym etapie formułowane są wstępne hipotezy dotyczące zależności badanych zjawisk.

    Definicja zmiennych zależnych i niezależnych (objaśniających).

    Zbieranie danych statystycznych. Dane muszą być zbierane dla każdej ze zmiennych uwzględnionych w modelu regresji.

    Sformułowanie hipotezy o formie połączenia (proste lub wielokrotne, liniowe lub nieliniowe).

    Definicja funkcje regresji (polega na obliczeniu wartości liczbowych parametrów równania regresji)

    Ocena dokładności analizy regresji.

    Interpretacja otrzymanych wyników. Wyniki analizy regresji porównuje się z hipotezami wstępnymi. Oceniana jest poprawność i wiarygodność otrzymanych wyników.

    Predykcja nieznanych wartości zmiennej zależnej.

Za pomocą analizy regresji można rozwiązać problem prognozowania i klasyfikacji. Wartości predykcyjne oblicza się, podstawiając wartości zmiennych objaśniających do równania regresji. Problem klasyfikacji rozwiązuje się w ten sposób: linia regresji dzieli cały zbiór obiektów na dwie klasy, a część zbioru, w której wartość funkcji jest większa od zera należy do jednej klasy, a część, w której jest mniejsza niż zero należy do innej klasy.

Zadania analizy regresji

Rozważ główne zadania analizy regresji: ustalenie formy zależności, ustalenie funkcje regresji, oszacowanie nieznanych wartości zmiennej zależnej.

Ustalenie formy zależności.

Charakter i forma relacji między zmiennymi może tworzyć następujące typy regresji:

    dodatnia regresja liniowa (wyrażona jako jednolity wzrost funkcji);

    dodatnia jednostajnie przyspieszająca regresja;

    dodatnia jednostajnie rosnąca regresja;

    ujemna regresja liniowa (wyrażona jako jednolity spadek funkcji);

    ujemna jednostajnie przyspieszona regresja malejąca;

    ujemna równomiernie malejąca regresja.

Jednak opisane odmiany zwykle nie występują w czystej postaci, ale w połączeniu ze sobą. W tym przypadku mówi się o połączonych formach regresji.

Definicja funkcji regresji.

Drugim zadaniem jest znalezienie wpływu na zmienną zależną głównych czynników lub przyczyn, przy czym wszystkie inne rzeczy są równe i z zastrzeżeniem wykluczenia wpływu elementów losowych na zmienną zależną. funkcja regresji zdefiniowane jako równanie matematyczne tego czy innego typu.

Estymacja nieznanych wartości zmiennej zależnej.

Rozwiązanie tego problemu sprowadza się do rozwiązania problemu jednego z następujących typów:

    Oszacowanie wartości zmiennej zależnej w rozważanym przedziale danych początkowych, tj. brakujące wartości; to rozwiązuje problem interpolacji.

    Szacowanie przyszłych wartości zmiennej zależnej, tj. znajdowanie wartości poza podanym przedziałem danych początkowych; rozwiązuje to problem ekstrapolacji.

Oba problemy rozwiązuje się przez podstawienie znalezionych oszacowań parametrów wartości zmiennych niezależnych do równania regresji. Wynikiem rozwiązania równania jest oszacowanie wartości zmiennej docelowej (zależnej).

Przyjrzyjmy się niektórym założeniom, na których opiera się analiza regresji.

Założenie liniowości tj. zakłada się, że zależność między analizowanymi zmiennymi jest liniowa. W tym przykładzie stworzyliśmy wykres rozrzutu i byliśmy w stanie zobaczyć wyraźną zależność liniową. Jeżeli na wykresie rozrzutu zmiennych widzimy wyraźny brak zależności liniowej, tj. istnieje nieliniowa zależność, należy zastosować nieliniowe metody analizy.

Założenie normalności resztki. Zakłada, że ​​rozkład różnicy między wartościami przewidywanymi i obserwowanymi jest normalny. Aby wizualnie określić charakter rozkładu, możesz użyć histogramów resztki.

Stosując analizę regresji należy wziąć pod uwagę jej główne ograniczenie. Polega ona na tym, że analiza regresji pozwala wykryć tylko zależności, a nie relacje, które leżą u podstaw tych zależności.

Analiza regresji umożliwia ocenę stopnia powiązania między zmiennymi poprzez obliczenie wartości oczekiwanej zmiennej na podstawie kilku znanych wartości.

Równanie regresji.

Równanie regresji wygląda tak: Y=a+b*X

Korzystając z tego równania, zmienna Y jest wyrażona jako stała a i nachylenie prostej (lub nachylenia) b pomnożone przez wartość zmiennej X. Stała a jest również nazywana punktem przecięcia, a nachylenie jest regresją współczynnik lub współczynnik B.

W większości przypadków (jeśli nie zawsze) istnieje pewien rozrzut obserwacji dotyczących linii regresji.

Reszta to odchylenie pojedynczego punktu (obserwacji) od linii regresji (wartość przewidywana).

Aby rozwiązać problem analizy regresji w MS Excel, wybierz z menu Usługa"Pakiet Analiz" oraz narzędzie do analizy regresji. Określ interwały wejściowe X i Y. Interwał wejściowy Y to zakres analizowanych danych zależnych i musi zawierać jedną kolumnę. Przedział wejściowy X to zakres niezależnych danych do analizy. Liczba zakresów wejściowych nie może przekraczać 16.

Na wyjściu procedury w zakresie wyjściowym otrzymujemy raport podany w tabela 8.3a-8,3v.

WYNIKI

Tabela 8.3a. Statystyki regresji

Statystyki regresji

Wiele R

Plac R

Znormalizowany R-kwadrat

Standardowy błąd

Obserwacje

Najpierw rozważ górną część obliczeń przedstawionych w tabela 8.3a, - statystyki regresji.

Wartość Plac R, zwany także miarą pewności, charakteryzuje jakość otrzymanej linii regresji. Jakość ta wyraża się stopniem zgodności między danymi pierwotnymi a modelem regresji (dane obliczone). Miarą pewności jest zawsze przedział.

W większości przypadków wartość Plac R znajduje się pomiędzy tymi wartościami, zwanymi ekstremami, tj. od zera do jednego.

Jeśli wartość R-kwadrat bliski jedności oznacza to, że skonstruowany model wyjaśnia prawie całą zmienność odpowiednich zmiennych. Odwrotnie, wartość R-kwadrat bliski zeru oznacza słabą jakość zbudowanego modelu.

W naszym przykładzie miarą pewności jest 0,99673, co wskazuje na bardzo dobre dopasowanie linii regresji do oryginalnych danych.

liczba mnoga R - współczynnik korelacji wielokrotnej R - wyraża stopień zależności zmiennych niezależnych (X) i zmiennej zależnej (Y).

Wiele R równa pierwiastkowi kwadratowemu współczynnika determinacji, wartość ta przyjmuje wartości w zakresie od zera do jednego.

W prostej analizie regresji liniowej liczba mnoga R równy współczynnikowi korelacji Pearsona. Naprawdę, liczba mnoga R w naszym przypadku jest równy współczynnikowi korelacji Pearsona z poprzedniego przykładu (0,998364).

Tabela 8.3b. Współczynniki regresji

Szanse

Standardowy błąd

t-statystyka

Przecięcie Y

Zmienna X 1

* Podano skróconą wersję obliczeń

Rozważmy teraz środkową część obliczeń przedstawionych w tabela 8.3b. Tutaj podano współczynnik regresji b (2,305454545) i przesunięcie wzdłuż osi y, tj. stała a (2.694545455).

Na podstawie obliczeń możemy zapisać równanie regresji w następujący sposób:

Y= x*2.305454545+2.694545455

Kierunek zależności między zmiennymi określany jest na podstawie znaków (ujemnych lub dodatnich) współczynników regresji (współczynnik b).

Jeżeli znak współczynnika regresji jest dodatni, to zależność między zmienną zależną a zmienną niezależną będzie dodatnia. W naszym przypadku znak współczynnika regresji jest dodatni, zatem zależność jest również dodatnia.

Jeżeli znak współczynnika regresji jest ujemny, to zależność między zmienną zależną a zmienną niezależną jest ujemna (odwrotna).

W tabela 8.3c. prezentowane są wyniki wyjściowe resztki. Aby te wyniki pojawiły się w raporcie, konieczne jest aktywowanie pola wyboru „Pozostałości” podczas uruchamiania narzędzia „Regresja”.

POZOSTAŁE WYPŁATA

Tabela 8.3c. Pozostaje

Obserwacja

Przewidywane Y

Pozostaje

Wagi standardowe

Korzystając z tej części raportu, możemy zobaczyć odchylenia każdego punktu od skonstruowanej linii regresji. Największa wartość bezwzględna reszta w naszym przypadku - 0,778, najmniejsza - 0,043. Dla lepszej interpretacji tych danych posłużymy się wykresem oryginalnych danych oraz skonstruowaną linią regresji przedstawionych na rys. Ryż. 8,3. Jak widać linia regresji jest dość dokładnie „dopasowana” do wartości pierwotnych danych.

Należy wziąć pod uwagę, że rozważany przykład jest dość prosty i nie zawsze jest możliwe jakościowe skonstruowanie linii regresji liniowej.

Ryż. 8.3. Dane początkowe i linia regresji

Nierozpatrzony pozostał problem szacowania nieznanych przyszłych wartości zmiennej zależnej na podstawie znanych wartości zmiennej niezależnej, tj. zadanie prognozowania.

Mając równanie regresji, problem prognostyczny sprowadza się do rozwiązania równania Y= x*2.305454545+2.694545455 przy znanych wartościach x. Przedstawiono wyniki prognozowania zmiennej zależnej Y sześć kroków do przodu w tabeli 8.4.

Tabela 8.4. Wyniki przewidywania zmiennej Y

Y(przewidywane)

Tym samym w wyniku zastosowania analizy regresji w pakiecie Microsoft Excel:

    zbudował równanie regresji;

    ustalił formę zależności i kierunek relacji między zmiennymi - dodatnia regresja liniowa, która wyraża się w równomiernym wzroście funkcji;

    ustalił kierunek relacji między zmiennymi;

    ocenił jakość powstałej linii regresji;

    byli w stanie zobaczyć odchylenia obliczonych danych od danych oryginalnego zestawu;

    przewidział przyszłe wartości zmiennej zależnej.

Jeśli funkcja regresji jest zdefiniowana, zinterpretowana i uzasadniona, a ocena dokładności analizy regresji spełnia wymagania, możemy założyć, że zbudowany model i wartości predykcyjne są wystarczająco wiarygodne.

Uzyskane w ten sposób przewidywane wartości są wartościami średnimi, jakich można się spodziewać.

W tym artykule dokonaliśmy przeglądu głównych cech charakterystycznych opisowe statystyki a wśród nich takie koncepcje jak: oznaczać,mediana,maksymalny,minimum i inne cechy zmienności danych.

Odbyło się również krótkie omówienie koncepcji emisje. Rozpatrywane cechy odnoszą się do tzw. eksploracyjnej analizy danych, jej wnioski mogą nie dotyczyć populacji ogólnej, a jedynie próbki danych. Eksploracyjna analiza danych służy do wyciągania podstawowych wniosków i formułowania hipotez dotyczących populacji.

Rozważono również podstawy analizy korelacji i regresji, ich zadania oraz możliwości praktycznego wykorzystania.