Analiza regresji. Analiza regresji

Analiza regresji bada zależność pewnej wielkości od innej lub kilku innych wielkości. Analiza regresji jest wykorzystywana głównie w prognozowaniu średnioterminowym, a także w prognozowaniu długoterminowym. Okresy średnio- i długoterminowe pozwalają na ustalenie zmian w otoczeniu biznesowym oraz uwzględnienie wpływu tych zmian na badany wskaźnik.

Aby przeprowadzić analizę regresji, konieczne jest:

    dostępność rocznych danych o badanych wskaźnikach,

    dostępność prognoz jednorazowych, tj. prognozy, które nie poprawiają się wraz z nowymi danymi.

Analiza regresji jest zwykle przeprowadzana dla obiektów, które mają złożony, wieloczynnikowy charakter, takich jak wielkość inwestycji, zyski, wielkość sprzedaży itp.

Na normatywna metoda prognozowania określane są sposoby i warunki osiągania możliwych stanów zjawiska, przyjmowanych jako cel. Mówimy o przewidywaniu osiągnięcia pożądanych stanów zjawiska na podstawie z góry ustalonych norm, ideałów, bodźców i celów. Taka prognoza odpowiada na pytanie: w jaki sposób osiągnąć pożądane? Metoda normatywna jest częściej stosowana w przypadku prognoz programowych lub ukierunkowanych. Stosuje się zarówno ilościowe wyrażenie normy, jak i pewną skalę możliwości funkcji oceny.

W przypadku użycia wyrażenia ilościowego, na przykład fizjologicznych i racjonalnych norm spożycia niektórych produktów spożywczych i nieżywnościowych opracowanych przez specjalistów dla różnych grup ludności, możliwe jest określenie poziomu spożycia tych towarów dla lata poprzedzające osiągnięcie określonej normy. Takie obliczenia nazywane są interpolacją. Interpolacja to sposób obliczania wskaźników, których brakuje w szeregach czasowych zjawiska, na podstawie ustalonej zależności. Przyjmując rzeczywistą wartość wskaźnika i wartość jego standardów jako skrajne elementy szeregu dynamicznego, można określić wielkość wartości w tym szeregu. Dlatego interpolacja jest uważana za metodę normatywną. Poprzednio podana formuła (4), użyta w ekstrapolacji, może być użyta w interpolacji, gdzie y n nie będzie już charakteryzować rzeczywistych danych, ale standard wskaźnika.

W przypadku zastosowania skali (pola, widma) możliwości funkcji oceny, czyli funkcji rozkładu preferencji, w metodzie normatywnej, w przybliżeniu wskazuje się następującą gradację: niepożądana - mniej pożądana - bardziej pożądana - najbardziej pożądana - optymalny (standard).

Normatywna metoda prognozowania pomaga w opracowaniu rekomendacji zwiększania poziomu obiektywności, a co za tym idzie skuteczności decyzji.

Modelowanie, być może najtrudniejsza metoda prognozowania. Modelowanie matematyczne oznacza opis zjawiska gospodarczego za pomocą wzorów matematycznych, równań i nierówności. Aparat matematyczny powinien dokładnie odzwierciedlać tło prognozy, choć dość trudno jest w pełni oddać całą głębię i złożoność przewidywanego obiektu. Termin „model” pochodzi od łacińskiego słowa models, co oznacza „miara”. Dlatego bardziej słuszne byłoby rozważenie modelowania nie jako metody prognozowania, ale jako metody badania podobnego zjawiska na modelu.

W szerokim sensie modele nazywane są substytutami przedmiotu badań, które są do niego tak podobne, że pozwalają uzyskać nową wiedzę o przedmiocie. Model należy traktować jako matematyczny opis obiektu. W tym przypadku model definiowany jest jako zjawisko (podmiot, instalacja), które pozostaje w pewnej korespondencji z badanym obiektem i może je zastąpić w procesie badawczym, prezentując informacje o obiekcie.

Przy węższym zrozumieniu modelu jest on traktowany jako obiekt prognozowania, jego badanie pozwala na uzyskanie informacji o możliwych stanach obiektu w przyszłości i sposobach osiągnięcia tych stanów. W tym przypadku celem modelu predykcyjnego jest uzyskanie informacji nie o obiekcie w ogóle, ale tylko o jego przyszłych stanach. Wtedy, budując model, może okazać się niemożliwe bezpośrednie sprawdzenie jego zgodności z obiektem, ponieważ model reprezentuje tylko jego przyszły stan, a sam obiekt może być aktualnie nieobecny lub mieć inny istnienie.

Modele mogą być materialne i idealne.

W ekonomii stosuje się modele idealne. Najdoskonalszym modelem idealnym do ilościowego opisu zjawiska społeczno-gospodarczego (ekonomicznego) jest model matematyczny wykorzystujący liczby, formuły, równania, algorytmy lub reprezentację graficzną. Za pomocą modeli ekonomicznych określ:

    związek między różnymi wskaźnikami ekonomicznymi;

    różnego rodzaju ograniczenia nakładane na wskaźniki;

    kryteria optymalizacji procesu.

Wymowny opis obiektu można przedstawić w postaci jego sformalizowanego schematu, który wskazuje, jakie parametry i informacje początkowe należy zebrać, aby obliczyć pożądane wartości. Model matematyczny, w przeciwieństwie do schematu sformalizowanego, zawiera określone dane liczbowe charakteryzujące obiekt.Opracowanie modelu matematycznego w dużej mierze zależy od wyobrażenia prognosty o istocie modelowanego procesu. Na podstawie swoich pomysłów stawia roboczą hipotezę, za pomocą której tworzony jest analityczny zapis modelu w postaci wzorów, równań i nierówności. W wyniku rozwiązania układu równań otrzymuje się określone parametry funkcji, które opisują zmianę pożądanych zmiennych w czasie.

Kolejność i kolejność prac jako elementu organizacji prognozowania ustalana jest w zależności od zastosowanej metody prognozowania. Zwykle praca ta odbywa się w kilku etapach.

Etap 1 - retrospekcja predykcyjna, czyli ustalenie przedmiotu prognozy i tła prognozy. Prace na pierwszym etapie wykonywane są w następującej kolejności:

    tworzenie opisu obiektu w przeszłości, który obejmuje wstępną analizę obiektu, ocenę jego parametrów, ich znaczenia i wzajemnych relacji,

    identyfikacja i ocena źródeł informacji, tryb i organizacja pracy z nimi, gromadzenie i umieszczanie informacji retrospektywnych;

    wyznaczanie celów badawczych.

Wykonując zadania retrospekcji predykcyjnej, prognostycy badają historię rozwoju obiektu i tło prognozy w celu uzyskania ich systematycznego opisu.

Etap 2 - diagnoza predykcyjna, podczas której dokonuje się systematycznego opisu przedmiotu prognozy i tła prognozy w celu zidentyfikowania trendów w ich rozwoju oraz doboru modeli i metod prognozowania. Praca wykonywana jest w następującej kolejności:

    opracowanie modelu obiektu prognozy, w tym sformalizowanego opisu obiektu, sprawdzenie stopnia adekwatności modelu do obiektu;

    dobór metod prognozowania (głównych i pomocniczych), opracowanie algorytmu i programów pracy.

III etap - patronat, czyli proces ekstensywnego opracowania prognozy, obejmujący: 1) obliczenie przewidywanych parametrów dla danego okresu wyprzedzenia; 2) synteza poszczególnych składowych prognozy.

IV etap – ocena prognozy, w tym jej weryfikacja, czyli określenie stopnia wiarygodności, trafności i trafności.

W toku poszukiwań i ewaluacji zadania prognostyczne i ich ocena rozwiązywane są na podstawie poprzednich etapów.

Wskazane fazowanie jest przybliżone i zależy od głównej metody prognozowania.

Wyniki prognozy sporządzane są w formie certyfikatu, raportu lub innego materiału i przedstawiane klientowi.

W prognozowaniu można wskazać odchylenie prognozy od stanu faktycznego obiektu, co nazywamy błędem prognozy, który oblicza się ze wzoru:

;
;
. (9.3)

Źródła błędów w prognozowaniu

Głównymi źródłami mogą być:

1. Prosty transfer (ekstrapolacja) danych z przeszłości w przyszłość (np. firma nie ma innych opcji prognozowania poza 10% wzrostem sprzedaży).

2. Brak możliwości dokładnego określenia prawdopodobieństwa zdarzenia i jego wpływu na badany obiekt.

3. Nieprzewidziane trudności (zdarzenia zakłócające) wpływające na realizację planu, np. nagłe zwolnienie kierownika działu sprzedaży.

Ogólnie rzecz biorąc, dokładność prognozowania wzrasta wraz z gromadzeniem doświadczenia w prognozowaniu i rozwojem jego metod.

Analiza regresji

regresja (liniowy) analiza- statystyczna metoda badania wpływu jednej lub więcej zmiennych niezależnych na zmienną zależną. Zmienne niezależne są inaczej nazywane regresorami lub predyktorami, a zmienne zależne nazywane są kryteriami. Terminologia zależny oraz niezależny zmienne odzwierciedla tylko matematyczną zależność zmiennych ( patrz nieprawdziwa korelacja), a nie związek przyczynowy.

Cele analizy regresji

  1. Określenie stopnia determinizmu zmienności zmiennej kryterium (zależnej) przez predyktory (zmienne niezależne)
  2. Przewidywanie wartości zmiennej zależnej za pomocą zmiennych niezależnych
  3. Wyznaczenie udziału poszczególnych zmiennych niezależnych w zmienności zmiennej zależnej

Analiza regresji nie może być wykorzystana do ustalenia, czy istnieje związek między zmiennymi, ponieważ istnienie takiego związku jest warunkiem wstępnym zastosowania analizy.

Matematyczna definicja regresji

Zależność ściśle regresywną można zdefiniować w następujący sposób. Niech , będą zmiennymi losowymi o danym łącznym rozkładzie prawdopodobieństwa. Jeśli dla każdego zestawu wartości zdefiniowano warunkowe oczekiwanie

(ogólne równanie regresji),

wtedy funkcja jest wywoływana regresja Wartości Y według wartości, a ich wykres - linia regresji przez , lub równanie regresji.

Zależność od przejawia się w zmianie średnich wartości Y przy zmianie. Chociaż dla każdego ustalonego zestawu wartości wielkość pozostaje zmienną losową z pewnym rozrzutem.

Aby wyjaśnić pytanie, na ile dokładnie analiza regresji szacuje zmianę Y ze zmianą, dla różnych zestawów wartości stosuje się średnią wartość wariancji Y (w rzeczywistości mówimy o mierze rozproszenia zmienna zależna wokół linii regresji).

Metoda najmniejszych kwadratów (obliczanie współczynników)

W praktyce najczęściej poszukiwana jest linia regresji w postaci funkcja liniowa(regresja liniowa), która najlepiej przybliża pożądaną krzywą. Odbywa się to za pomocą metody najmniejszych kwadratów, gdy suma kwadratów odchyleń faktycznie obserwowanych od ich oszacowań jest zminimalizowana (co oznacza oszacowania przy użyciu linii prostej, która twierdzi, że reprezentuje pożądaną zależność regresji):

(M - wielkość próbki). To podejście opiera się na znany faktże suma występująca w powyższym wyrażeniu przyjmuje wartość minimalną właśnie dla przypadku, gdy .

W celu rozwiązania problemu analizy regresji metodą najmniejszych kwadratów wprowadzono pojęcie funkcje resztkowe:

Warunek minimum funkcji rezydualnej:

Powstały system to system równania liniowe z nieznanym

Jeśli wyrazy swobodne lewej strony równań przedstawimy przez macierz

oraz współczynniki niewiadomych po prawej stronie macierzy

wtedy otrzymujemy równanie macierzowe: , które łatwo rozwiązać metodą Gaussa. Otrzymana macierz będzie macierzą zawierającą współczynniki równania linii regresji:

Do uzyskania najlepszych szacunków konieczne jest spełnienie warunków LSM (warunki Gaussa–Markowa). W literaturze angielskiej takie oszacowania nazywane są NIEBIESKIMI (Best Linear Unbiased Estimators) - najlepsze liniowe nieobciążone oszacowania.

Interpretacja parametrów regresji

Parametrami są współczynniki korelacji cząstkowej; jest interpretowany jako proporcja wariancji Y wyjaśniona przez ustalenie wpływu pozostałych predyktorów, czyli mierzy indywidualny wkład w wyjaśnienie Y. W przypadku skorelowanych predyktorów pojawia się problem niepewności oszacowań , które stają się zależne od kolejności, w jakiej predyktory są uwzględniane w modelu. W takich przypadkach konieczne jest zastosowanie metod analizy korelacji i analizy regresji krokowej.

Mówiąc o nieliniowych modelach analizy regresji należy zwrócić uwagę, czy mówimy o nieliniowości zmiennych niezależnych (z formalnego punktu widzenia łatwo sprowadzonej do regresji liniowej), czy nieliniowości estymowanych parametrów (powodując poważne trudności obliczeniowe). W przypadku pierwszego typu nieliniowości, ze znaczącego punktu widzenia, ważne jest wyróżnienie wyglądu w modelu elementów postaci , , wskazującej na obecność interakcji między cechami , itp. (patrz Wielokoliniowość).

Zobacz też

Spinki do mankietów

  • www.kgafk.ru - Wykład „Analiza regresji”
  • www.basegroup.ru - metody selekcji zmiennych w modelach regresji

Literatura

  • Norman Draper, Harry Smith Zastosowana analiza regresji. Wielokrotna regresja= Zastosowana analiza regresji. - 3 wyd. - M.: "Dialektyka", 2007. - S. 912. - ISBN 0-471-17082-8
  • Zrównoważone metody szacowania modeli statystycznych: Monografia. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radchenko Stanisław Grigorievich, Metodologia analizy regresji: Monografia. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Fundacja Wikimedia. 2010 .

Czym jest regresja?

Rozważ dwie zmienne ciągłe x=(x1, x2,...,xn), y=(y1,y2,...,yn).

Umieśćmy punkty na wykresie punktowym 2D i powiedzmy, że mamy zależność liniowa jeśli dane są aproksymowane linią prostą.

Jeśli założymy, że tak zależy od x i zmiany w tak spowodowane zmianami w x, możemy zdefiniować linię regresji (regresja tak na x), która najlepiej opisuje liniową relację między tymi dwiema zmiennymi.

Statystyczne użycie słowa „regresja” pochodzi od zjawiska znanego jako regresja do średniej, przypisywanego Sir Francisowi Galtonowi (1889).

Pokazał, że podczas gdy wysocy ojcowie mają zwykle wysokich synów, średni wzrost synów jest niższy niż ich wysokich ojców. Średni wzrost synów „cofał się” i „cofał” do średniego wzrostu wszystkich ojców w populacji. Tak więc wysocy ojcowie mają średnio niższych (ale wciąż wysokich) synów, a niscy ojcowie mają wyższych (ale wciąż raczej niskich) synów.

linia regresji

Równanie matematyczne obliczające prostą (parami) linię regresji liniowej:

x nazywana zmienną niezależną lub predyktorem.

Tak jest zmienną zależną lub odpowiedzią. To jest wartość, której oczekujemy tak(średnio) jeśli znamy wartość x, tj. jest przewidywaną wartością tak»

  • a- wolny członek (przecięcie) linii oceny; ta wartość Tak, gdy x=0(Rys.1).
  • b- nachylenie lub nachylenie szacowanej linii; to kwota, o jaką Takśrednio wzrasta, jeśli się zwiększamy x za jedną jednostkę.
  • a oraz b nazywane są współczynnikami regresji oszacowanej linii, chociaż termin ten jest często używany tylko dla b.

Regresję liniową parami można rozszerzyć tak, aby obejmowała więcej niż jedną zmienną niezależną; w tym przypadku jest znany jako wielokrotna regresja.

Rys.1. Linia regresji liniowej pokazująca przecięcie a i nachylenie b (wielkość wzrostu Y, gdy x wzrasta o jedną jednostkę)

Metoda najmniejszych kwadratów

Wykonujemy analizę regresji na próbie obserwacji, gdzie a oraz b- przykładowe oszacowania prawdziwych (ogólnych) parametrów α i β , które wyznaczają linię regresji liniowej w populacji (populacja ogólna).

Najprostsza metoda wyznaczania współczynników a oraz b jest metoda najmniejszych kwadratów(MNK).

Dopasowanie jest oceniane poprzez uwzględnienie reszt (pionowa odległość każdego punktu od linii, np. reszta = obserwowalna tak- przewidywane tak, Ryż. 2).

Linia najlepszego dopasowania jest wybrana tak, aby suma kwadratów reszt była minimalna.

Ryż. 2. Linia regresji liniowej z przedstawionymi resztami (pionowe linie kropkowane) dla każdego punktu.

Założenia regresji liniowej

Tak więc dla każdej obserwowanej wartości reszta jest równa różnicy i odpowiadającej jej wartości przewidywanej.Każda reszta może być dodatnia lub ujemna.

Możesz użyć reszt do przetestowania następujących założeń regresji liniowej:

  • Reszty mają rozkład normalny ze średnią zerową;

Jeśli założenia liniowości, normalności i/lub stałej wariancji są wątpliwe, możemy dokonać transformacji lub obliczyć nową linię regresji, dla której te założenia są spełnione (np. użyj transformacji logarytmicznej itp.).

Nieprawidłowe wartości (wartości odstające) i punkty wpływu

„Wpływająca” obserwacja, jeśli zostanie pominięta, zmienia jeden lub więcej oszacowań parametrów modelu (tj. nachylenie lub przecięcie).

Obserwacja odstająca (obserwacja, która jest sprzeczna z większością wartości w zbiorze danych) może być „wpływającą” obserwacją i może być dobrze wykryta wizualnie, patrząc na wykres rozrzutu 2D lub wykres reszt.

Zarówno w przypadku obserwacji odstających, jak i obserwacji „wpływających” (punkty) stosuje się modele, zarówno z ich włączeniem, jak i bez nich, zwracając uwagę na zmianę oszacowania (współczynniki regresji).

Podczas przeprowadzania analizy nie odrzucaj automatycznie wartości odstających ani punktów wpływu, ponieważ samo ich zignorowanie może wpłynąć na wyniki. Zawsze badaj przyczyny tych wartości odstających i analizuj je.

Hipoteza regresji liniowej

Podczas konstruowania regresji liniowej sprawdzana jest hipoteza zerowa, że ​​ogólne nachylenie linii regresji β jest równe zeru.

Jeśli nachylenie linii wynosi zero, nie ma liniowej zależności między a: zmiana nie wpływa

Aby przetestować hipotezę zerową, że prawdziwe nachylenie wynosi zero, możesz użyć następującego algorytmu:

Oblicz statystykę testową równą stosunkowi , który jest zgodny z rozkładem ze stopniami swobody, gdzie błąd standardowy współczynnika


,

- oszacowanie wariancji reszt.

Zwykle, jeśli osiągnięty poziom istotności to hipoteza zerowa jest odrzucana.


gdzie jest punktem procentowym rozkładu ze stopniami swobody, który daje prawdopodobieństwo testu dwustronnego

Jest to przedział, który zawiera ogólne nachylenie z prawdopodobieństwem 95%.

W przypadku dużych próbek załóżmy, że możemy przybliżyć wartość 1,96 (to znaczy, że statystyka testowa będzie miała rozkład normalny)

Ocena jakości regresji liniowej: współczynnik determinacji R 2

Ze względu na zależność liniową i oczekujemy, że zmiany będą się zmieniać jako zmiany i nazywamy to zmiennością spowodowaną lub wyjaśnioną przez regresję. Odchylenie rezydualne powinno być jak najmniejsze.

Jeśli tak, to większość zmienności zostanie wyjaśniona przez regresję, a punkty będą leżeć blisko linii regresji, tj. linia dobrze pasuje do danych.

Proporcja całkowitej wariancji, którą wyjaśnia regresja, nazywa się współczynnik determinacji, zwykle wyrażany w procentach i oznaczany R2(w sparowanej regresji liniowej jest to wartość r2, kwadrat współczynnika korelacji), umożliwia subiektywną ocenę jakości równania regresji.

Różnica to procent wariancji, którego nie można wyjaśnić regresją.

Bez formalnego testu do oceny, jesteśmy zmuszeni polegać na subiektywnej ocenie w celu określenia jakości dopasowania linii regresji.

Stosowanie linii regresji do prognozy

Możesz użyć linii regresji, aby przewidzieć wartość z wartości z obserwowanego zakresu (nigdy nie ekstrapoluj poza te granice).

Przewidujemy średnią dla obserwowalnych, które mają określoną wartość, podstawiając tę ​​wartość do równania linii regresji.

Tak więc, jeśli przewidujemy jako, używamy tej przewidywanej wartości i jej błędu standardowego do oszacowania przedziału ufności dla prawdziwej średniej populacji.

Powtórzenie tej procedury dla różnych wartości pozwala zbudować granice ufności dla tej linii. Jest to pasmo lub obszar, który zawiera prawdziwą linię, na przykład z 95% poziomem ufności.

Proste plany regresji

Proste plany regresji zawierają jeden predyktor ciągły. Jeżeli istnieją 3 przypadki z wartościami predyktorów P , np. 7, 4 i 9, a projekt zawiera efekt pierwszego rzędu P , to macierz projektu X będzie miała postać

a równanie regresji przy użyciu P dla X1 wygląda tak:

Y = b0 + b1 P

Jeśli prosty projekt regresji zawiera efekt wyższego rzędu na P , taki jak efekt kwadratowy, to wartości w kolumnie X1 w macierzy projektu zostaną podniesione do drugiej potęgi:

a równanie przyjmie postać

Y = b0 + b1 P2

Metody kodowania z ograniczeniami sigma i nadparametryzowanymi nie mają zastosowania do prostych układów regresji i innych układów zawierających tylko predyktory ciągłe (ponieważ po prostu nie ma predyktorów jakościowych). Niezależnie od wybranej metody kodowania, wartości zmiennych ciągłych są zwiększane o odpowiednią moc i wykorzystywane jako wartości dla zmiennych X. W takim przypadku konwersja nie jest wykonywana. Ponadto, opisując plany regresji, można pominąć uwzględnienie macierzy planu X i pracować tylko z równaniem regresji.

Przykład: Prosta analiza regresji

W tym przykładzie wykorzystano dane podane w tabeli:

Ryż. 3. Tabela danych początkowych.

Dane opierają się na porównaniu spisów powszechnych z 1960 i 1970 roku w 30 losowo wybranych powiatach. Nazwy powiatów są reprezentowane jako nazwy obserwacji. Informacje dotyczące każdej zmiennej przedstawiono poniżej:

Ryż. 4. Tabela specyfikacji zmiennych.

Cel badań

W tym przykładzie przeanalizowana zostanie korelacja między stopą ubóstwa a mocą prognozującą odsetek rodzin znajdujących się poniżej granicy ubóstwa. Dlatego zmienną 3 (Pt_Poor ) będziemy traktować jako zmienną zależną.

Można postawić hipotezę: zmiany w populacji i odsetek rodzin poniżej granicy ubóstwa są ze sobą powiązane. Rozsądne wydaje się oczekiwanie, że ubóstwo prowadzi do odpływu ludności, stąd istniałaby ujemna korelacja między odsetkiem osób poniżej granicy ubóstwa a zmianą populacji. Dlatego będziemy traktować zmienną 1 (Pop_Chng ) jako zmienną predykcyjną.

Pokaż wyniki

Współczynniki regresji

Ryż. 5. Współczynniki regresji Pt_Poor na Pop_Chng.

Na przecięciu rzędu Pop_Chng i Param. niestandaryzowany współczynnik regresji Pt_Poor na Pop_Chng wynosi -0,40374 . Oznacza to, że na każdą jednostkę zmniejsza się liczba ludności, zwiększa się wskaźnik ubóstwa o 0,40374. Górne i dolne (domyślne) 95% granice ufności dla tego niestandaryzowanego współczynnika nie obejmują zera, więc współczynnik regresji jest istotny na poziomie p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Rozkład zmiennych

Współczynniki korelacji mogą być znacznie zawyżone lub niedoszacowane, jeśli w danych występują duże wartości odstające. Zbadajmy rozkład zmiennej zależnej Pt_Poor według powiatów. W tym celu zbudujemy histogram zmiennej Pt_Poor.

Ryż. 6. Histogram zmiennej Pt_Poor.

Jak widać rozkład tej zmiennej znacznie różni się od rozkładu normalnego. Jednakże, chociaż nawet dwa hrabstwa (w prawej kolumnie) mają wyższy odsetek rodzin znajdujących się poniżej granicy ubóstwa niż oczekiwano w normalnym rozkładzie, wydają się one znajdować „w tym zakresie”.

Ryż. 7. Histogram zmiennej Pt_Poor.

Ten osąd jest nieco subiektywny. Ogólna zasada jest taka, że ​​wartości odstające powinny być brane pod uwagę, jeśli obserwacja (lub obserwacje) nie mieszczą się w przedziale (średnia ± 3-krotność odchylenia standardowego). W takim przypadku warto powtórzyć analizę z wartościami odstającymi i bez nich, aby upewnić się, że nie mają one poważnego wpływu na korelację między członkami populacji.

Wykres punktowy

Jeżeli jedna z hipotez a priori dotyczy relacji między danymi zmiennymi, to warto sprawdzić ją na wykresie odpowiedniego wykresu rozrzutu.

Ryż. 8. Wykres punktowy.

Wykres rozrzutu pokazuje wyraźną ujemną korelację (-.65) między tymi dwiema zmiennymi. Pokazuje również 95% przedział ufności dla linii regresji, tj. z 95% prawdopodobieństwem linia regresji przechodzi między dwiema krzywymi przerywanymi.

Kryteria istotności

Ryż. 9. Tabela zawierająca kryteria istotności.

Test na współczynnik regresji Pop_Chng potwierdza, że ​​Pop_Chng jest silnie powiązany z Pt_Poor , p<.001 .

Wynik

Ten przykład pokazał, jak analizować prosty plan regresji. Przedstawiono również interpretację niestandaryzowanych i standaryzowanych współczynników regresji. Omówiono znaczenie badania rozkładu odpowiedzi zmiennej zależnej oraz przedstawiono technikę określania kierunku i siły związku między predyktorem a zmienną zależną.

Analiza regresji i korelacji - metody badań statystycznych. Są to najczęstsze sposoby pokazywania zależności parametru od jednej lub więcej zmiennych niezależnych.

Poniżej, na konkretnych praktycznych przykładach, rozważymy te dwie bardzo popularne wśród ekonomistów analizy. Podamy również przykład uzyskiwania wyników po ich połączeniu.

Analiza regresji w Excelu

Pokazuje wpływ niektórych wartości (niezależnych, niezależnych) na zmienną zależną. Na przykład, w jaki sposób liczba ludności aktywnej zawodowo zależy od liczby przedsiębiorstw, płac i innych parametrów. Albo: jak inwestycje zagraniczne, ceny energii itp. wpływają na poziom PKB.

Wynik analizy pozwala na ustalenie priorytetów. I w oparciu o główne czynniki, przewidywać, planować rozwój obszarów priorytetowych, podejmować decyzje zarządcze.

Regresja ma miejsce:

  • liniowy (y = a + bx);
  • paraboliczny (y = a + bx + cx 2);
  • wykładniczy (y = a * exp(bx));
  • moc (y = a*x^b);
  • hiperboliczny (y = b/x + a);
  • logarytmiczny (y = b * 1n(x) + a);
  • wykładniczy (y = a * b^x).

Rozważ przykład budowania modelu regresji w programie Excel i interpretacji wyników. Weźmy regresję liniową.

Zadanie. W 6 przedsiębiorstwach przeanalizowano przeciętne miesięczne wynagrodzenie oraz liczbę pracowników, którzy odeszli. Konieczne jest określenie zależności liczby pracowników na emeryturze od przeciętnego wynagrodzenia.

Model regresji liniowej ma następującą postać:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Gdzie a to współczynniki regresji, x to zmienne wpływające, a k to liczba czynników.

W naszym przykładzie Y jest wskaźnikiem odchodzących pracowników. Czynnikiem wpływającym są płace (x).

Excel ma wbudowane funkcje, których można użyć do obliczenia parametrów modelu regresji liniowej. Ale dodatek Analysis ToolPak zrobi to szybciej.

Aktywuj potężne narzędzie analityczne:

Po aktywacji dodatek będzie dostępny w zakładce Dane.

Teraz zajmiemy się bezpośrednio analizą regresji.



Przede wszystkim zwracamy uwagę na R-kwadrat i współczynniki.

R-kwadrat to współczynnik determinacji. W naszym przykładzie jest to 0,755, czyli 75,5%. Oznacza to, że obliczone parametry modelu wyjaśniają zależność między badanymi parametrami o 75,5%. Im wyższy współczynnik determinacji, tym lepszy model. Dobra - powyżej 0,8. Słaba - mniej niż 0,5 (taką analizę trudno uznać za rozsądną). W naszym przykładzie - „nieźle”.

Współczynnik 64,1428 pokazuje, jaki będzie Y, jeśli wszystkie zmienne w rozważanym modelu będą równe 0. Oznacza to, że inne czynniki, które nie są opisane w modelu, również wpływają na wartość analizowanego parametru.

Współczynnik -0,16285 pokazuje wagę zmiennej X na Y. Oznacza to, że średnia miesięczna pensja w tym modelu wpływa na liczbę odchodzących z wagą -0,16285 (jest to niewielki stopień wpływu). Znak „-” wskazuje na negatywny wpływ: im wyższa pensja, tym mniej rezygnacji. Co jest sprawiedliwe.



Analiza korelacji w Excelu

Analiza korelacji pomaga ustalić, czy istnieje związek między wskaźnikami w jednej lub dwóch próbach. Na przykład między czasem pracy maszyny a kosztami napraw, ceną sprzętu i czasem pracy, wzrostem i wagą dzieci itp.

Jeśli istnieje zależność, to czy wzrost jednego parametru prowadzi do wzrostu (korelacja dodatnia), czy spadku (korelacja ujemna) drugiego. Analiza korelacji pomaga analitykowi określić, czy wartość jednego wskaźnika może przewidzieć możliwą wartość innego.

Współczynnik korelacji oznaczono r. Różni się od +1 do -1. Klasyfikacja korelacji dla różnych obszarów będzie różna. Gdy wartość współczynnika wynosi 0, nie ma liniowej zależności między próbkami.

Zastanów się, jak użyć programu Excel, aby znaleźć współczynnik korelacji.

Funkcja CORREL służy do znajdowania sparowanych współczynników.

Zadanie: Ustal, czy istnieje związek między czasem pracy tokarki a kosztem jej utrzymania.

Umieść kursor w dowolnej komórce i naciśnij przycisk fx.

  1. W kategorii „Statystyczne” wybierz funkcję WSPÓŁPRACA.
  2. Argument „Tablica 1” – pierwszy zakres wartości – czas maszyny: A2:A14.
  3. Argument „Tablica 2” – drugi zakres wartości – koszt napraw: B2:B14. Kliknij OK.

Aby określić rodzaj połączenia, musisz spojrzeć na bezwzględną liczbę współczynnika (każda dziedzina działalności ma swoją własną skalę).

Do analizy korelacji kilku parametrów (więcej niż 2) wygodniej jest użyć „Analiza danych” (dodatek „Pakiet analizy”). Na liście musisz wybrać korelację i wyznaczyć tablicę. Wszystko.

Otrzymane współczynniki zostaną wyświetlone w macierzy korelacji. Jak ten:

Analiza korelacji-regresji

W praktyce te dwie techniki są często używane razem.

Przykład:


Teraz widoczne są dane analizy regresji.

1. Po raz pierwszy termin „regresja” został wprowadzony przez twórcę biometrii F. Galtona (XIX w.), którego idee rozwinął jego kontynuator K. Pearson.

Analiza regresji- metoda statystycznego przetwarzania danych, która pozwala zmierzyć związek między jedną lub większą liczbą przyczyn (znaki czynnikowe) a skutkiem (znak skuteczny).

podpisać- jest to główna cecha wyróżniająca, cecha badanego zjawiska lub procesu.

Skuteczny znak - badany wskaźnik.

Znak czynnika- wskaźnik, który wpływa na wartość efektywnej cechy.

Celem analizy regresji jest ocena funkcjonalnej zależności średniej wartości efektywnej cechy ( w) od silni ( x 1, x 2, ..., x n), wyrażony jako równania regresji

w= f(x 1, x 2, ..., x n). (6.1)

Istnieją dwa rodzaje regresji: sparowana i wielokrotna.

Sparowana (prosta) regresja- równanie postaci:

w= f(x). (6.2)

Cecha wypadkowa w regresji parami jest traktowana jako funkcja jednego argumentu, tj. jeden czynnik.

Analiza regresji obejmuje następujące kroki:

definicja typu funkcji;

wyznaczanie współczynników regresji;

Obliczanie teoretycznych wartości efektywnej cechy;

Sprawdzanie istotności statystycznej współczynników regresji;

Sprawdzenie statystycznej istotności równania regresji.

Wielokrotna regresja- równanie postaci:

w= f(x 1, x 2, ..., x n). (6.3)

Cecha wypadkowa jest rozpatrywana jako funkcja kilku argumentów, tj. wiele czynników.

2. W celu prawidłowego określenia rodzaju funkcji konieczne jest znalezienie kierunku połączenia na podstawie danych teoretycznych.

Zgodnie z kierunkiem połączenia regresja dzieli się na:

· regresja bezpośrednia, powstające pod warunkiem, że wraz ze wzrostem lub spadkiem wartości niezależnej” X" wartości wielkości zależnej” w" również odpowiednio zwiększyć lub zmniejszyć;

· regresja odwrotna, powstające pod warunkiem, że wraz ze wzrostem lub spadkiem wartości niezależnej "X" wartość zależna " w" odpowiednio maleje lub wzrasta.

Do scharakteryzowania zależności stosuje się następujące typy równań regresji sparowanych:

· y=a+bxliniowy;

· y=e ax + b – wykładniczy;

· y=a+b/x – hiperboliczny;

· y=a+b 1 x+b 2 x 2 – paraboliczny;

· y=ab x – wykładniczy itd.

gdzie a, b 1 , b 2- współczynniki (parametry) równania; w- skuteczny znak; X- znak czynnika.

3. Konstrukcja równania regresji sprowadza się do oszacowania jego współczynników (parametrów), do tego celu metoda najmniejszych kwadratów(MNK).

Metoda najmniejszych kwadratów pozwala na uzyskanie takich oszacowań parametrów, w których suma kwadratów odchyleń rzeczywistych wartości efektywnej cechy” w»z teorii « y x» jest minimalna, czyli

Opcje równania regresji y=a+bx metodą najmniejszych kwadratów szacowane są ze wzorów:

gdzie a - wolny współczynnik, b- współczynnik regresji, pokazuje, jak bardzo zmieni się wynikowy znak tak» przy zmianie atrybutu współczynnika « x» na jednostkę miary.

4. Do oceny istotności statystycznej współczynników regresji stosuje się test t-Studenta.

Schemat sprawdzania istotności współczynników regresji:

1) H 0: a=0, b=0 - współczynniki regresji nieznacznie różnią się od zera.

H 1: a≠ 0, b≠ 0 - współczynniki regresji znacznie różnią się od zera.

2) R=0,05 – poziom istotności.

gdzie m b,ja- błędy losowe:

; . (6.7)

4) t stół(R; f),

gdzie f=n-k- 1 - liczba stopni swobody (wartość tabeli), n- liczba obserwacji, k X".

5) Jeżeli , to odbiega, tj. znaczący współczynnik.

Jeżeli , to jest akceptowane, tj. współczynnik jest nieznaczny.

5. Do sprawdzenia poprawności skonstruowanego równania regresji stosuje się kryterium Fishera.

Schemat sprawdzania istotności równania regresji:

1) H 0: równanie regresji nie jest istotne.

H 1: równanie regresji jest istotne.

2) R=0,05 – poziom istotności.

3) , (6.8)

gdzie jest liczba obserwacji; k- ilość parametrów w równaniu ze zmiennymi " X"; w- rzeczywista wartość efektywnej cechy; y x- teoretyczna wartość efektywnej cechy; - współczynnik korelacji par.

4) Stół F(R; f1; f2),

gdzie f 1 \u003d k, f 2 \u003d n-k-1- liczba stopni swobody (wartości tabeli).

5) Jeśli F calc >F tabela, to równanie regresji jest wybrane poprawnie i może być zastosowane w praktyce.

Jeśli F oblicz , to równanie regresji jest wybierane niepoprawnie.

6. Głównym wskaźnikiem odzwierciedlającym miarę jakości analizy regresji jest: współczynnik determinacji (R 2).

Współczynnik determinacji pokazuje, jaka część zmiennej zależnej " w» jest uwzględniana w analizie i jest spowodowana wpływem czynników uwzględnionych w analizie.

Współczynnik determinacji (R2) przyjmuje wartości z zakresu . Równanie regresji jest jakościowe, jeśli R2 ≥0,8.

Współczynnik determinacji jest równy kwadratowi współczynnika korelacji, tj.

Przykład 6.1. Na podstawie poniższych danych skonstruuj i przeanalizuj równanie regresji:

Rozwiązanie.

1) Oblicz współczynnik korelacji: . Związek między znakami jest bezpośredni i umiarkowany.

2) Zbuduj sparowane równanie regresji liniowej.

2.1) Sporządź tabelę obliczeniową.

X w Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Suma 159,45 558,55
Przeciętny 77519,6 22,78 79,79 2990,6

,

Sparowane równanie regresji liniowej: y x \u003d 25,17 + 0,087x.

3) Znajdź wartości teoretyczne" y x» podstawiając rzeczywiste wartości do równania regresji « X».

4) Wykresy wykresów rzeczywistych " w" i wartości teoretyczne” y x» cecha efektywna (rysunek 6.1): r xy =0,47 i niewielka liczba obserwacji.

7) Oblicz współczynnik determinacji: R2=(0,47) 2 =0,22. Skonstruowane równanie jest słabej jakości.

Dlatego obliczenia podczas analizy regresji są dość obszerne, zaleca się stosowanie specjalnych programów ("Statistica 10", SPSS itp.).

Rysunek 6.2 przedstawia tabelę z wynikami analizy regresji przeprowadzonej za pomocą programu „Statistica 10”.

Rysunek 6.2. Wyniki analizy regresji przeprowadzonej za pomocą programu „Statistica 10”

5. Literatura:

1. Gmurman V.E. Teoria prawdopodobieństwa i statystyka matematyczna: Proc. podręcznik dla uniwersytetów / V.E. Gmurman. - M.: Szkoła Wyższa, 2003r. - 479 s.

2. Koichubekov B.K. Biostatystyka: Podręcznik. - Ałmaty: Evero, 2014 r. - 154 pkt.

3. Lobotskaya N.L. Wyższa matematyka. / NL Łobotskaja, Juw. Morozow, AA Dunajew. - Mińsk: Wyższa Szkoła, 1987. - 319 s.

4. Medyk V.A., Tokmachev MS, Fishman B.B. Statystyki w medycynie i biologii: przewodnik. W 2 tomach / Wyd. Yu.M. Komarowa. T. 1. Statystyka teoretyczna. - M.: Medycyna, 2000 r. - 412 s.

5. Zastosowanie metod analizy statystycznej w badaniach zdrowia publicznego i ochrony zdrowia: podręcznik / wyd. Kucherenko V.Z. - 4 wydanie, poprawione. i dodatkowe - M.: GEOTAR - Media, 2011. - 256 s.