회귀 분석. 회귀 분석

회귀 분석은 특정 수량의 다른 수량 또는 기타 여러 수량에 대한 의존성을 조사합니다. 회귀 분석은 주로 중기 예측과 장기 예측에 사용됩니다. 중장기적인 기간을 통해 비즈니스 환경의 변화를 식별하고 이러한 변화가 연구 중인 지표에 미치는 영향을 고려할 수 있습니다.

회귀 분석을 수행하려면 다음이 필요합니다.

    연구 지표에 대한 연간 데이터의 가용성,

    일회성 예측의 존재, 즉 새로운 데이터가 도착해도 수정되지 않는 예측.

회귀 분석은 일반적으로 투자 규모, 이익, 판매량 등과 같이 복잡하고 다요인적인 특성을 갖는 개체에 대해 수행됩니다.

~에 규범적인 예측 방법목표로 삼은 현상의 가능한 상태를 달성하기 위한 방법과 기한이 결정됩니다. 이는 미리 결정된 규범, 이상, 인센티브 및 목표를 기반으로 현상의 원하는 상태 달성을 예측하는 것입니다. 이 예측은 다음 질문에 답합니다. 어떤 방법으로 원하는 것을 달성할 수 있습니까? 규범적 방법은 프로그램이나 목표 예측에 더 자주 사용됩니다. 표준의 정량적 표현과 평가 기능의 특정 규모의 기능이 모두 사용됩니다.

예를 들어 다양한 인구 그룹을 위해 전문가가 개발한 개별 식품 및 비식품 소비에 대한 생리적, 합리적 기준과 같은 정량적 표현을 사용하는 경우 이러한 상품의 소비 수준을 결정할 수 있습니다. 특정 규범을 달성하기 전 몇 년. 이러한 계산을 보간이라고 합니다. 보간이란 확립된 관계를 기반으로 현상의 역동적인 계열에서 누락된 지표를 계산하는 방법입니다. 지표의 실제 값과 해당 표준의 값을 동적 계열의 극단적인 구성원으로 사용하면 이 계열 내 값의 값을 결정할 수 있습니다. 따라서 보간법은 규범적인 방법으로 간주됩니다. 외삽에 사용된 이전 공식 (4)를 보간에 사용할 수 있습니다. 여기서 y는 더 이상 실제 데이터의 특성을 나타내지 않고 표준 지표를 나타냅니다.

규범적 방법에서 척도(필드, 스펙트럼)를 사용하는 경우 평가 함수의 기능, 즉 선호도 분포 함수는 대략 다음과 같은 등급을 나타냅니다. 바람직하지 않음 - 덜 바람직함 - 더 바람직함 - 가장 바람직함 - 최적( 기준).

규범적 예측 방법은 객관성 수준을 높여 의사 결정의 효율성을 높이기 위한 권장 사항을 개발하는 데 도움이 됩니다.

모델링, 아마도 가장 복잡한 예측 방법일 것입니다. 수학적 모델링이란 수학적 공식, 방정식, 부등식을 통해 경제 현상을 설명하는 것을 의미합니다. 예측 대상의 전체 깊이와 복잡성을 완전히 반영하는 것은 매우 어렵지만 수학적 장치는 예측 배경을 정확하게 반영해야 합니다. "모델"이라는 용어는 "측정"을 의미하는 라틴어 모델러스(modelus)에서 파생되었습니다. 따라서 모델링은 예측하는 방법이 아니라, 유사한 현상을 모델을 이용하여 연구하는 방법이라고 생각하는 것이 더 정확할 것입니다.

넓은 의미에서 모델은 대상에 대한 새로운 지식을 얻을 수 있도록 하는 방식으로 유사한 연구 대상을 대체합니다. 모델은 객체에 대한 수학적 설명으로 간주되어야 합니다. 이 경우 모델은 연구 대상과 어느 정도 일치하고 연구 과정에서 이를 대체할 수 있는 현상(대상, 설정)으로 정의되어 대상에 대한 정보를 제공합니다.

모델에 대한 더 좁은 이해를 통해 예측 대상으로 간주되며, 연구를 통해 미래에 대상의 가능한 상태와 이러한 상태를 달성하는 방법에 대한 정보를 얻을 수 있습니다. 이 경우 예측 모델의 목표는 일반적인 객체에 대한 정보가 아니라 객체의 미래 상태에 대한 정보만 얻는 것입니다. 그러면 모델을 구축할 때 모델이 미래의 상태만 나타낼 뿐이고 객체 자체가 현재 없거나 다른 존재를 가질 수 있으므로 객체와의 적합성을 직접 확인하는 것이 불가능할 수 있습니다.

모델은 물질적일 수도 있고 이상적일 수도 있습니다.

경제학에서는 이상적인 모델을 사용합니다. 사회 경제적 (경제적) 현상의 정량적 설명을 위한 가장 발전된 이상적인 모델은 숫자, 공식, 방정식, 알고리즘 또는 그래픽 표현을 사용하는 수학적 모델입니다. 경제 모델을 사용하여 그들은 다음을 결정합니다.

    다양한 경제 지표 간의 의존성;

    지표에 부과되는 다양한 종류의 제한;

    프로세스를 최적화하기 위한 기준.

객체에 대한 의미 있는 설명은 필요한 수량을 계산하기 위해 수집해야 하는 매개변수와 초기 정보를 나타내는 공식화된 다이어그램의 형태로 표시될 수 있습니다. 공식화된 체계와 달리 수학적 모델에는 대상을 특징짓는 특정 수치 데이터가 포함되어 있습니다.수학적 모델의 개발은 모델링되는 프로세스의 본질에 대한 예측가의 이해에 크게 좌우됩니다. 그는 자신의 아이디어를 바탕으로 작업 가설을 제시하고 이를 통해 모델의 분석 기록을 공식, 방정식 및 부등식의 형태로 생성합니다. 방정식 시스템을 풀면 시간에 따른 원하는 변수의 변화를 설명하는 함수의 특정 매개변수가 얻어집니다.

예측 조직의 한 요소인 작업 순서와 순서는 사용된 예측 방법에 따라 결정됩니다. 일반적으로 이 작업은 여러 단계로 수행됩니다.

1단계 - 예측적 회고, 즉 예측 대상과 예측 배경 설정. 첫 번째 단계의 작업은 다음 순서로 수행됩니다.

    객체에 대한 사전 예측 분석, 매개변수 평가, 중요성 및 상호 관계를 포함하는 과거 객체에 대한 설명 형성,

    정보 출처의 식별 및 평가, 정보 출처의 절차 및 작업 조직, 회고적 정보의 수집 및 배치

    연구 목표 설정.

예측 회고 작업을 수행하는 동안 예측자는 개체의 개발 이력과 예측 배경을 조사하여 이에 대한 체계적인 설명을 얻습니다.

2단계 - 예측 진단. 예측 대상과 예측 배경에 대한 체계적인 설명을 조사하여 개발 추세를 파악하고 모델과 예측 방법을 선택합니다. 작업은 다음 순서로 수행됩니다.

    개체에 대한 공식화된 설명을 포함하여 예측 개체의 모델을 개발하고 개체에 대한 모델의 적절성 정도를 확인합니다.

    예측 방법(주 및 보조) 선택, 알고리즘 및 작업 프로그램 개발.

3단계 - 보호, 즉 다음을 포함하는 광범위한 예측 개발 프로세스입니다. 1) 특정 리드 기간에 대한 예측 매개변수 계산 2) 예측의 개별 구성요소를 종합합니다.

4단계 - 검증을 포함한 예측 평가, 즉 신뢰성, 정확성 및 타당성 정도 결정.

예측 및 평가 과정에서 이전 단계를 기반으로 예측 및 평가 문제가 해결됩니다.

표시된 단계는 대략적인 단계이며 주요 예측 방법에 따라 다릅니다.

예측 결과는 인증서, 보고서 또는 기타 자료의 형태로 작성되어 고객에게 제공됩니다.

예측에서는 객체의 실제 상태와 예측의 편차 정도를 표시할 수 있으며 이를 예측 오류라고 하며 다음 공식으로 계산됩니다.

;
;
. (9.3)

예측 오류의 원인

주요 소스는 다음과 같습니다.

1. 과거에서 미래로 데이터를 단순 전송(추정)합니다(예를 들어 회사에는 10% 매출 성장 외에는 다른 예측 옵션이 없습니다).

2. 사건의 확률과 그것이 연구 대상에 미치는 영향을 정확하게 결정할 수 없음.

3. 영업부서장의 갑작스러운 해고 등 계획 이행에 영향을 미치는 예상치 못한 어려움(파괴적인 사건).

일반적으로 예측 정확도는 예측 경험이 쌓이고 방법이 정교해지면 높아집니다.

회귀 분석

회귀 (선의) 분석- 하나 이상의 독립변수가 종속변수에 미치는 영향을 연구하기 위한 통계적 방법입니다. 독립변수는 회귀변수 또는 예측변수라고 하며, 종속변수는 기준변수라고 합니다. 술어 매달린그리고 독립적인변수는 변수의 수학적 종속성만 반영합니다( 잘못된 상관 관계를 참조하세요.), 인과 관계보다는.

회귀 분석의 목표

  1. 예측변수(독립변수)에 의한 기준(종속)변수의 변동 결정 정도 결정
  2. 독립변수를 사용하여 종속변수의 값 예측
  3. 종속변수의 변화에 ​​대한 개별 독립변수의 기여도 결정

회귀 분석은 변수 사이에 관계가 있는지 여부를 결정하는 데 사용할 수 없습니다. 왜냐하면 그러한 관계의 존재가 분석을 적용하기 위한 전제 조건이기 때문입니다.

회귀의 수학적 정의

엄밀한 회귀 관계는 다음과 같이 정의할 수 있습니다. 를 주어진 결합 확률 분포를 갖는 확률 변수로 둡니다. 각 값 세트에 대해 조건부 수학적 기대치가 정의된 경우

(일반 형태의 회귀 방정식),

그런 다음 함수가 호출됩니다. 회귀 Y 값을 값으로 표시하고 그 그래프는 다음과 같습니다. 회귀선으로, 또는 회귀 방정식.

에 대한 의존성은 의 변화에 ​​따른 Y의 평균값의 변화로 나타납니다. 그러나 각각의 고정된 값 세트에 대해 값은 특정 산란이 있는 무작위 변수로 유지됩니다.

회귀 분석이 변경 시 Y의 변화를 얼마나 정확하게 예측하는지에 대한 질문을 명확히 하기 위해 다양한 값 세트에 대한 Y 분산의 평균 값이 사용됩니다(실제로 우리는 종속 변수의 분산 척도에 대해 이야기하고 있습니다). 회귀선 주변).

최소제곱법(계수 계산)

실제로 회귀선은 다음 형식으로 가장 자주 발견됩니다. 선형 함수(선형 회귀)는 원하는 곡선에 가장 근접합니다. 이는 추정치에서 실제로 관찰된 편차의 제곱의 합이 최소화되는 최소 제곱법을 사용하여 수행됩니다(원하는 회귀 관계를 나타내기 위해 직선을 사용한 추정치를 의미함).

(M - 표본 크기). 이 접근 방식은 다음을 기반으로 합니다. 알려진 사실, 위 식에 나타나는 양은 다음과 같은 경우에 정확하게 최소값을 취합니다.

최소자승법을 이용한 회귀분석의 문제를 해결하기 위해 개념을 도입 잔차 함수:

잔차 함수의 최소 조건:

결과 시스템은 시스템입니다 선형 방정식모르는 사람들과

방정식의 왼쪽에 있는 자유 항을 행렬로 표현하면

오른쪽의 미지수에 대한 계수는 행렬입니다.

그런 다음 우리는 가우스 방법으로 쉽게 풀 수 있는 행렬 방정식을 얻습니다. 결과 행렬은 회귀선 방정식의 계수를 포함하는 행렬이 됩니다.

최상의 추정치를 얻으려면 OLS(Gauss-Markov 조건)의 전제 조건을 충족해야 합니다. 영문학에서는 이러한 추정을 BLUE(Best Linear Unbiased Estimators)라고 합니다.

회귀 매개변수 해석

매개변수는 부분 상관 계수입니다. 는 나머지 예측 변수의 영향을 고정하여 설명되는 Y 분산의 비율로 해석됩니다. 즉, Y 설명에 대한 개별 기여도를 측정합니다. 상관 예측 변수의 경우 추정치의 불확실성 문제가 발생합니다. 예측 변수가 모델에 포함되는 순서에 따라 달라집니다. 이러한 경우에는 상관관계분석과 단계적 회귀분석 방법을 활용하는 것이 필요하다.

회귀 분석의 비선형 모델에 대해 이야기할 때 독립 변수의 비선형성(형식적인 관점에서 볼 때 쉽게 선형 회귀로 축소됨)에 대해 이야기하는지 아니면 추정 매개변수의 비선형성(심각한 계산상의 어려움). 첫 번째 유형의 비선형성의 경우 실질적인 관점에서 형태의 항 모델의 모양을 강조하는 것이 중요합니다. , 기능 간의 상호 작용이 있음을 나타냅니다. (다중 공선성 참조)

또한보십시오

연결

  • www.kgafk.ru - "회귀 분석"주제 강의
  • www.basegroup.ru - 회귀 모델에서 변수를 선택하는 방법

문학

  • 노먼 드레이퍼, 해리 스미스회귀 분석을 적용했습니다. 다중 회귀= 회귀 분석을 적용했습니다. - 3판. - M.: "변증법", 2007. - P. 912. - ISBN 0-471-17082-8
  • 통계 모델을 추정하기 위한 강력한 방법: 논문. - K.: PP "Sansparel", 2005. - P. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radchenko Stanislav Grigorievich,회귀 분석 방법론: 논문. - K.: "Korniychuk", 2011. - P. 376. - ISBN 978-966-7599-72-0

위키미디어 재단. 2010.

회귀란 무엇입니까?

두 개의 연속 변수를 고려하십시오. x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

2차원 산점도에 점을 배치하고 다음과 같이 말합시다. 선형 관계, 데이터가 직선으로 근사되는 경우.

우리가 그 말을 믿는다면 와이에 달려있다 엑스및 변경 사항 와이정확하게는 변화로 인해 발생합니다. 엑스, 회귀선(회귀)을 결정할 수 있습니다. 와이~에 엑스) 이는 이 두 변수 사이의 선형 관계를 가장 잘 설명합니다.

회귀라는 단어의 통계적 사용은 Sir Francis Galton(1889)이 주장한 평균으로의 회귀라는 현상에서 유래되었습니다.

그는 키가 큰 아버지가 키가 큰 아들을 낳는 경향이 있지만, 아들의 평균 키가 키가 큰 아버지보다 작다는 사실을 보여주었습니다. 아들의 평균 키는 전체 인구의 모든 아버지의 평균 키를 향해 "퇴행"하고 "뒤로 이동"했습니다. 따라서 평균적으로 키가 큰 아버지에게는 키가 작지만 여전히 꽤 큰 아들이 있고, 키가 작은 아버지에게는 키가 크지만 여전히 키가 작은 아들이 있습니다.

회귀선

단순(쌍별) 선형 회귀선을 추정하는 수학 방정식:

엑스독립변수 또는 예측변수라고 합니다.

와이- 종속변수 또는 반응변수. 이것이 우리가 기대하는 가치이다 와이(평균적으로) 값을 안다면 엑스, 즉. "예측값" 입니다 와이»

  • - 평가선의 자유 멤버(교차점) 이것이 의미이다 와이, 언제 x=0(그림 1).
  • - 추정선의 기울기 또는 기울기; 이는 그 금액을 나타냅니다. 와이늘리면 평균적으로 증가합니다. 엑스하나의 단위에 대해.
  • 그리고 이 용어는 종종 다음 용도로만 사용되지만 추정선의 회귀 계수라고 합니다. .

쌍별 선형 회귀 분석은 두 개 이상의 독립 변수를 포함하도록 확장될 수 있습니다. 이 경우에는 다음과 같이 알려져 있습니다. 다중 회귀.

그림 1. 절편 a와 기울기 b를 보여주는 선형 회귀선(x가 1단위 증가함에 따라 Y의 양도 증가함)

최소제곱법

우리는 관찰 샘플을 사용하여 회귀 분석을 수행합니다. 그리고 - 모집단(일반 모집단)의 선형 회귀선을 결정하는 실제(일반) 매개변수 α 및 β의 표본 추정치입니다.

최대 간단한 방법계수의 결정 그리고 ~이다 최소제곱법(MNC).

적합성은 잔차(선에서 각 점의 수직 거리, 예: 잔차 = 관찰됨)를 보고 평가됩니다. 와이-예상 와이, 쌀. 2).

가장 잘 맞는 선은 잔차의 제곱의 합이 최소가 되도록 선택됩니다.

쌀. 2. 각 점에 대해 잔차가 표시된 선형 회귀선(세로 점선).

선형 회귀 가정

따라서 각 관측값에 대해 나머지는 차이 및 해당 예측값과 같습니다. 각 나머지는 양수 또는 음수일 수 있습니다.

잔차를 사용하여 선형 회귀 뒤에 있는 다음 가정을 테스트할 수 있습니다.

  • 잔차는 평균이 0인 정규 분포를 따릅니다.

선형성, 정규성 및/또는 상수 분산의 가정이 의심스러운 경우 이러한 가정이 충족되는 새로운 회귀선을 변환하거나 계산할 수 있습니다(예: 로그 변환 사용 등).

변칙값(이상치) 및 영향점

"영향력 있는" 관찰이 생략되면 하나 이상의 모델 매개변수 추정치(즉, 기울기 또는 절편)가 변경됩니다.

이상치(데이터 세트에 있는 대부분의 값과 일치하지 않는 관측치)는 "영향력 있는" 관측치일 수 있으며 이변량 산점도나 잔차 도표를 검사하여 시각적으로 쉽게 감지할 수 있습니다.

이상치와 "영향력 있는" 관측치(점) 모두에 대해 모델이 포함되거나 포함되지 않고 사용되며 추정치(회귀 계수)의 변화에 ​​주의를 기울입니다.

분석을 수행할 때 이상점이나 영향점을 자동으로 무시하면 안 됩니다. 단순히 무시하면 얻은 결과에 영향을 미칠 수 있기 때문입니다. 항상 이러한 이상치의 이유를 연구하고 분석하십시오.

선형 회귀 가설

선형 회귀 분석을 구성할 때 회귀선 β의 일반 기울기가 0과 같다는 귀무 가설이 테스트됩니다.

선의 기울기가 0이면 와 사이에 선형 관계가 없습니다. 변경 사항은 영향을 미치지 않습니다.

실제 기울기가 0이라는 귀무가설을 테스트하려면 다음 알고리즘을 사용할 수 있습니다.

자유도 분포를 따르는 ratio 와 동일한 검정 통계량을 계산합니다. 여기서 계수의 표준 오차는


,

- 잔차의 분산 추정.

일반적으로 유의 수준에 도달하면 귀무 가설이 기각됩니다.


자유도가 있는 분포의 백분율은 어디에 있으며, 이는 양측 테스트의 확률을 제공합니다.

95% 확률의 일반 기울기를 포함하는 구간입니다.

예를 들어, 큰 표본의 경우 1.96의 값으로 근사할 수 있습니다(즉, 검정 통계량은 정규 분포를 따르는 경향이 있습니다).

선형 회귀 품질 평가: 결정 계수 R 2

선형 관계로 인해 우리는 다음과 같이 변화할 것으로 예상합니다. , 이를 회귀로 인한 또는 회귀로 설명되는 변동이라고 부릅니다. 잔여 변동은 가능한 한 작아야 합니다.

이것이 사실이라면 대부분의 변동은 회귀로 설명되며 점은 회귀선에 가깝게 위치하게 됩니다. 선이 데이터에 잘 맞습니다.

회귀분석으로 설명되는 전체 분산의 비율을 다음과 같이 부릅니다. 결정 계수, 일반적으로 백분율로 표시되며 R 2(쌍선형회귀에서 이것은 수량입니다. r 2, 상관 계수의 제곱)을 사용하면 회귀 방정식의 품질을 주관적으로 평가할 수 있습니다.

차이는 회귀 분석으로 설명할 수 없는 분산의 비율을 나타냅니다.

평가할 공식적인 테스트는 없으며 회귀선의 적합도를 결정하려면 주관적인 판단에 의존해야 합니다.

예측에 회귀선 적용

회귀선을 사용하여 관찰된 범위의 맨 끝에 있는 값에서 값을 예측할 수 있습니다(이 한계를 넘어 추정하지 마십시오).

특정 값을 갖는 관측값의 평균을 회귀선의 방정식에 연결하여 예측합니다.

따라서 이 예측값과 표준 오차를 사용하여 실제 모집단 평균에 대한 신뢰 구간을 추정하면 다음과 같습니다.

다른 값에 대해 이 절차를 반복하면 이 선에 대한 신뢰 한계를 구성할 수 있습니다. 이는 예를 들어 95% 신뢰 수준에서 실제 선을 포함하는 밴드 또는 영역입니다.

단순 회귀 계획

단순 회귀 설계에는 하나의 연속 예측 변수가 포함됩니다. 예측 변수 값 P(예: 7, 4, 9)가 있는 관측치가 3개 있고 설계에 1차 효과 P가 포함된 경우 설계 행렬 X는 다음과 같습니다.

X1에 대해 P를 사용한 회귀 방정식은 다음과 같습니다.

Y = b0 + b1 P

단순 회귀 설계에 2차 효과와 같이 P에 대한 고차 효과가 포함된 경우 설계 행렬의 X1 열 값이 2승으로 올라갑니다.

방정식은 다음과 같은 형식을 취합니다.

Y = b0 + b1 P2

시그마 제약 및 과다 매개변수화된 코딩 방법은 단순 회귀 설계 및 연속형 예측 변수만 포함하는 기타 설계에는 적용되지 않습니다(단순히 범주형 예측 변수가 없기 때문). 선택한 코딩 방법에 관계없이 연속형 변수의 값은 그에 따라 증가되어 X 변수의 값으로 사용됩니다. 이 경우에는 녹음이 수행되지 않습니다. 또한 회귀 계획을 기술할 때 설계 행렬 X에 대한 고려를 생략하고 회귀 방정식만 사용하여 작업할 수 있습니다.

예: 단순 회귀 분석

이 예에서는 표에 표시된 데이터를 사용합니다.

쌀. 3. 초기 데이터 표.

무작위로 선택된 30개 카운티의 1960년과 1970년 인구 조사를 비교하여 수집한 데이터입니다. 카운티 이름은 관찰 이름으로 표시됩니다. 각 변수에 대한 정보는 다음과 같습니다.

쌀. 4. 가변 사양표.

연구 문제

본 예시에서는 빈곤율과 빈곤선 이하 가구의 비율을 예측하는 정도의 상관관계를 분석합니다. 따라서 변수 3(Pt_Poor)을 종속변수로 처리하겠습니다.

우리는 가설을 세울 수 있습니다. 인구 규모의 변화와 빈곤선 미만인 가족의 비율이 관련되어 있습니다. 빈곤이 해외 이주로 이어진다고 예상하는 것이 합리적으로 보입니다. 따라서 빈곤선 이하 인구 비율과 인구 변화 사이에는 음의 상관관계가 있을 것입니다. 따라서 변수 1(Pop_Chng)을 예측 변수로 처리합니다.

결과 보기

회귀계수

쌀. 5. Pop_Chng에 대한 Pt_Poor의 회귀 계수.

Pop_Chng 행과 Param 열의 교차점에 있습니다. Pop_Chng의 Pt_Poor 회귀에 대한 표준화되지 않은 계수는 -0.40374입니다. 이는 인구가 1단위 감소할 때마다 빈곤율이 .40374 증가한다는 것을 의미합니다. 이 표준화되지 않은 계수에 대한 상한 및 하한(기본값) 95% 신뢰 한계에는 0이 포함되지 않으므로 회귀 계수는 p 수준에서 중요합니다.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

가변 분포

데이터에 큰 특이치가 있는 경우 상관 계수는 상당히 과대평가되거나 과소평가될 수 있습니다. 종속변수 Pt_Poor의 지역별 분포를 살펴보겠습니다. 이를 위해 Pt_Poor 변수의 히스토그램을 작성해 보겠습니다.

쌀. 6. Pt_Poor 변수의 히스토그램.

보시다시피, 이 변수의 분포는 정규 분포와 현저히 다릅니다. 그러나 두 개의 카운티(두 개의 오른쪽 열)에도 정규 분포에서 예상되는 것보다 빈곤선 아래에 있는 가족의 비율이 더 높지만 "범위 내에" 있는 것으로 보입니다.

쌀. 7. Pt_Poor 변수의 히스토그램.

이 판단은 다소 주관적입니다. 경험상 관측치(또는 관측치)가 구간(표준편차의 평균 ± 3배) 내에 속하지 않는 경우 이상값을 고려해야 합니다. 이 경우 이상값이 모집단 구성원 간의 상관 관계에 큰 영향을 미치지 않는지 확인하기 위해 이상값이 있거나 없는 분석을 반복하는 것이 좋습니다.

산포도

가설 중 하나가 주어진 변수 간의 관계에 대한 선험적이라면 해당 산점도의 그래프에서 이를 테스트하는 것이 유용합니다.

쌀. 8. 산포도.

산점도는 두 변수 사이에 명확한 음의 상관관계(-.65)를 보여줍니다. 또한 회귀선에 대한 95% 신뢰구간을 보여줍니다. 즉, 회귀선이 두 점선 곡선 사이에 있을 확률이 95%입니다.

중요성 기준

쌀. 9. 유의성 기준이 포함된 표.

Pop_Chng 회귀 계수에 대한 테스트는 Pop_Chng가 Pt_Poor, p와 밀접한 관련이 있음을 확인합니다.<.001 .

결론

이 예에서는 단순 회귀 설계를 분석하는 방법을 보여주었습니다. 표준화되지 않은 회귀계수와 표준화된 회귀계수에 대한 해석도 제시되었습니다. 종속변수의 반응 분포를 연구하는 것의 중요성을 논의하고, 예측변수와 종속변수 간의 관계의 방향과 강도를 결정하는 기술을 시연합니다.

회귀 분석과 상관 분석은 통계 조사 방법입니다. 이는 하나 이상의 독립 변수에 대한 매개변수의 종속성을 표시하는 가장 일반적인 방법입니다.

아래에서는 구체적인 실제 사례를 사용하여 경제학자들 사이에서 매우 인기 있는 이 두 가지 분석을 고려할 것입니다. 또한 이들을 결합하여 결과를 얻는 예도 제공합니다.

Excel의 회귀 분석

종속변수에 대한 일부 값(독립, 독립)의 영향을 표시합니다. 예를 들어 경제 활동 인구의 수는 기업 수, 임금 및 기타 매개 변수에 어떻게 의존합니까? 또는 외국인 투자, 에너지 가격 등이 GDP 수준에 어떤 영향을 미치는가?

분석 결과를 통해 우선순위를 강조할 수 있습니다. 그리고 주요 요인을 기반으로 우선순위 영역의 개발을 예측, 계획하고 관리 결정을 내립니다.

회귀가 발생합니다.

  • 선형(y = a + bx);
  • 포물선형(y = a + bx + cx 2);
  • 지수(y = a * exp(bx));
  • 거듭제곱(y = a*x^b);
  • 쌍곡선(y = b/x + a);
  • 로그(y = b * 1n(x) + a);
  • 지수(y = a * b^x).

Excel에서 회귀 모델을 구축하고 결과를 해석하는 예를 살펴보겠습니다. 선형 회귀 유형을 살펴보겠습니다.

일. 6개 기업의 평균 월급과 퇴사자 수를 분석하였다. 평균 급여에 대한 퇴직 직원 수의 의존성을 결정하는 것이 필요합니다.

선형 회귀 모델은 다음과 같습니다.

Y = a 0 + a 1 x 1 +…+ak x k.

여기서 a는 회귀 계수이고, x는 영향을 미치는 변수이고, k는 요인의 수입니다.

이 예에서 Y는 직원을 그만둔 지표입니다. 영향을 미치는 요인은 임금(x)이다.

Excel에는 선형 회귀 모델의 매개변수를 계산하는 데 도움이 되는 기본 제공 함수가 있습니다. 하지만 "분석 패키지" 추가 기능을 사용하면 이 작업이 더 빠르게 수행됩니다.

우리는 강력한 분석 도구를 활성화합니다:

활성화되면 데이터 탭에서 추가 기능을 사용할 수 있습니다.

이제 회귀 분석 자체를 수행해 보겠습니다.



우선, R-제곱과 계수에 주목합니다.

R-제곱은 결정 계수입니다. 이 예에서는 – 0.755, 즉 75.5%입니다. 이는 모델의 계산된 매개변수가 연구된 매개변수 간의 관계의 75.5%를 설명한다는 것을 의미합니다. 결정 계수가 높을수록 모델이 더 좋습니다. 양호 - 0.8 이상. 나쁨 – 0.5 미만(이러한 분석은 합리적이라고 간주될 수 없음) 이 예에서는 "나쁘지 않습니다"입니다.

계수 64.1428은 고려 중인 모델의 모든 변수가 0인 경우 Y가 무엇인지 보여줍니다. 즉, 분석된 매개변수의 값은 모델에 설명되지 않은 다른 요인의 영향도 받습니다.

계수 -0.16285는 Y에 대한 변수 X의 가중치를 나타냅니다. 즉, 이 모델 내 평균 월급은 -0.16285의 가중치로 그만둔 사람 수에 영향을 미칩니다(이는 작은 정도의 영향입니다). "-" 기호는 부정적인 영향을 나타냅니다. 즉, 급여가 높을수록 그만 두는 사람이 줄어듭니다. 공평합니다.



Excel의 상관 분석

상관 분석은 하나 또는 두 개의 표본에 있는 지표 간에 관계가 있는지 확인하는 데 도움이 됩니다. 예를 들어 기계 작동 시간과 수리 비용, 장비 가격과 작동 시간, 어린이의 키와 몸무게 등이 영향을 받습니다.

연관성이 있는 경우 한 매개변수의 증가가 다른 매개변수의 증가(양의 상관관계) 또는 감소(음의 상관관계)로 이어지는 것입니다. 상관 분석은 분석가가 한 지표의 값을 사용하여 다른 지표의 가능한 값을 예측할 수 있는지 여부를 결정하는 데 도움이 됩니다.

상관 계수는 r로 표시됩니다. +1에서 -1까지 다양합니다. 서로 다른 영역에 대한 상관관계의 분류는 다를 것입니다. 계수가 0이면 샘플 간에 선형 관계가 없습니다.

엑셀을 이용하여 상관계수를 구하는 방법을 살펴보겠습니다.

쌍을 이루는 계수를 찾기 위해 CORREL 함수가 사용됩니다.

목표: 선반 작동 시간과 유지 관리 비용 사이에 관계가 있는지 확인합니다.

아무 셀에나 커서를 놓고 fx 버튼을 누릅니다.

  1. "통계" 범주에서 CORREL 함수를 선택합니다.
  2. 인수 "배열 1" - 값의 첫 번째 범위 - 기계 작동 시간: A2:A14.
  3. 인수 "배열 2" - 두 번째 값 범위 - 수리 비용: B2:B14. 확인을 클릭하세요.

연결 유형을 결정하려면 계수의 절대값을 확인해야 합니다(각 활동 분야에는 자체 규모가 있음).

여러 매개변수(2개 이상)의 상관관계 분석을 위해서는 "데이터 분석"("분석 패키지" 추가 기능)을 사용하는 것이 더 편리합니다. 목록에서 상관관계를 선택하고 배열을 지정해야 합니다. 모두.

결과 계수는 상관 행렬에 표시됩니다. 이와 같이:

상관관계 및 회귀 분석

실제로는 이 두 가지 기술을 함께 사용하는 경우가 많습니다.

예:


이제 회귀 분석 데이터가 표시되었습니다.

1. "회귀"라는 용어는 생체인식학의 창시자 F. Galton(19세기)에 의해 처음 소개되었으며 그의 추종자인 K. Pearson이 아이디어를 발전시켰습니다.

회귀 분석- 하나 이상의 원인(요인 특성)과 결과(결과 특성) 간의 관계를 측정할 수 있는 통계 데이터 처리 방법입니다.

징후-이것은 연구중인 현상이나 과정의 주요 특징, 특징입니다.

유효 부호 -연구중인 지표.

인자 기호- 결과 특성의 값에 영향을 미치는 지표입니다.

회귀 분석의 목적은 결과 특성의 평균값의 기능적 의존성을 평가하는 것입니다. ~에) 요인( x1, x2, …, xn), 다음과 같이 표현된다. 회귀 방정식

~에= 에프(x1, x2, …, xn). (6.1)

회귀에는 쌍 회귀와 다중 회귀의 두 가지 유형이 있습니다.

쌍을 이루는(단순) 회귀- 형식의 방정식:

~에= 에프(엑스). (6.2)

쌍회귀의 결과 특징은 하나의 인수의 함수로 간주됩니다. 하나의 요인 특성.

회귀 분석에는 다음 단계가 포함됩니다.

· 기능 유형을 결정합니다.

· 회귀계수 결정;

· 결과 특성의 이론적 값 계산;

· 회귀계수의 통계적 유의성을 확인합니다.

· 회귀 방정식의 통계적 유의성을 확인합니다.

다중 회귀- 형식의 방정식:

~에= 에프(x1, x2, …, xn). (6.3)

결과 속성은 여러 인수의 함수로 간주됩니다. 많은 요인 징후.

2. 기능의 종류를 정확하게 판단하기 위해서는 이론적인 데이터를 바탕으로 연결 방향을 찾는 것이 필요합니다.

연결 방향에 따라 회귀는 다음과 같이 나뉩니다.

· 직접 회귀독립 수량의 증가 또는 감소와 함께 발생하는 조건 " 엑스"종속 수량의 값 " 와이"또한 그에 따라 증가하거나 감소합니다.

· 역회귀독립 가치의 증가 또는 감소에 따라 발생하는 조건 "엑스"종속 수량 " 와이"그에 따라 감소하거나 증가합니다.

연결을 특성화하기 위해 다음 유형의 쌍을 이루는 회귀 방정식이 사용됩니다.

· y=a+bx선의;

· y=e ax + b – 지수;

· y=a+b/x – 쌍곡선;

· y=a+b 1 x+b 2 x 2 – 포물선;

· y=ab x – 지수등등

어디 가, b 1, b 2- 방정식의 계수(매개변수) ~에- 효과적인 표시; 엑스- 요인 기호.

3. 회귀 방정식의 구성은 계수(매개변수)를 추정하는 것으로 귀결됩니다. 이를 위해 우리는 다음을 사용합니다. 최소제곱법(MNC).

최소 제곱법을 사용하면 결과 속성의 실제 값에 대한 제곱 편차의 합이 "인 매개변수 추정치를 얻을 수 있습니다. ~에"이론적인 것에서" yx»는 최소입니다. 즉

회귀 방정식 매개변수 y=a+bх최소 제곱법을 사용하면 다음 공식을 사용하여 추정됩니다.

어디 ㅏ -자유계수, - 회귀 계수, 결과 부호가 얼마나 변경되는지 보여줍니다. 와이"요인의 특성이 변할 때" 엑스» 측정 단위당.

4. 회귀계수의 통계적 유의성을 평가하기 위해 스튜던트 t-검정을 사용합니다.

회귀 계수의 중요성을 테스트하기 위한 계획:

1) H 0:a=0, =0 - 회귀 계수가 0과 크게 다르지 않습니다.

H1: a≠ 0, b≠ 0 - 회귀 계수가 0과 크게 다릅니다.

2) 아르 자형=0.05 – 유의 수준.

어디 엠비,- 무작위 오류:

; . (6.7)

4) 티 테이블(아르 자형; 에프),

어디 에프=n-k- 1 - 자유도(표 값), N- 관찰 횟수, 케이 엑스".

5) 이면 거부됩니다. 계수가 중요합니다.

이면 승인됩니다. 즉, 계수는 중요하지 않습니다.

5. 구성된 회귀 방정식의 정확성을 확인하기 위해 Fisher 기준이 사용됩니다.

회귀 방정식의 중요성을 테스트하기 위한 계획:

1) H0:회귀 방정식은 중요하지 않습니다.

H1:회귀 방정식은 중요합니다.

2) 아르 자형=0.05 – 유의 수준.

3) , (6.8)

관측치 수는 어디에 있습니까? 케이- 변수가 있는 방정식의 매개변수 수 " 엑스"; ~에- 결과 속성의 실제 값 yx- 결과 부호의 이론적 값; - 쌍 상관 계수.

4) F 테이블(아르 자형; f 1 ; f 2),

어디 f1 =k, f2 =n-k-1-자유도(표 값).

5) 만일 F 계산 >F 테이블, 그러면 회귀 방정식이 올바르게 선택되어 실제로 사용할 수 있습니다.

만약에 F 계산 이면 회귀 방정식이 잘못 선택되었습니다.

6. 회귀분석의 질을 반영하는 주요 지표는 다음과 같다. 결정계수(R 2).

결정계수종속변수의 비율을 보여줍니다. ~에"는 분석에서 고려되며 분석에 포함된 요소의 영향으로 인해 발생합니다.

결정계수 (R2)간격의 값을 취합니다. 회귀 방정식은 다음과 같은 경우 정성적입니다. R 2 ≥0,8.

결정 계수는 상관 계수의 제곱과 같습니다. 즉,

예제 6.1.다음 데이터를 사용하여 회귀 방정식을 구성하고 분석합니다.

해결책.

1) 상관계수를 계산합니다. 표지판 간의 관계는 직접적이고 온건합니다.

2) 쌍을 이루는 선형 회귀 방정식을 구성합니다.

2.1) 계산 테이블을 생성합니다.

엑스 ~에 x 2 yx (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
합집합 159,45 558,55
평균 77519,6 22,78 79,79 2990,6

,

쌍을 이루는 선형 회귀 방정식: y x =25.17+0.087x.

3) 이론적인 값을 찾아보세요." yx"회귀 방정식에 실제 값을 대입하여" 엑스».

4) 실제 그래프 작성 " 와이"및 이론적인 가치 ​​" yx"유효 특성(그림 6.1):r xy =0.47) 및 소수의 관찰.

7) 결정계수를 계산합니다. R 2=(0.47) 2 =0.22. 구성된 방정식의 품질이 좋지 않습니다.

왜냐하면 회귀 분석을 수행할 때 계산은 매우 광범위하므로 특수 프로그램(Statistica 10, SPSS 등)을 사용하는 것이 좋습니다.

그림 6.2는 Statistica 10 프로그램을 이용하여 회귀분석한 결과를 표로 나타낸 것이다.

그림 6.2. Statistica 10 프로그램을 이용한 회귀분석 결과

5. 문학:

1. 그무르만 V.E. 확률 이론 및 수학적 통계: 교과서. 대학 매뉴얼 / V.E. 그무르만. -M .: 고등 학교, 2003. - 479 p.

2. 코이추베코프 B.K. 생물통계학: 교과서. - 알마티: Evero, 2014. - 154p.

3. Lobotskaya N.L. 더 높은 수학. / N. L. Lobotskaya, Yu.V. 모로 조프, A.A. Dunaev. - 미네소타: 고등학교, 1987. - 319 p.

4. 메딕 V.A., Tokmachev M.S., Fishman B.B. 의학 및 생물학 통계: 가이드. 2 권 / Ed. Yu.M. 코마로바. T. 1. 이론적 통계. -M .: 의학, 2000. - 412 p.

5. 공중 보건 및 보건 연구를 위한 통계 분석 방법의 적용: 교과서/편집. 쿠체렌코 V.Z. - 4판, 개정됨. 그리고 추가 – M.: GEOTAR - 미디어, 2011. - 256p.