회귀용 데이터. 데이터 분석 기초

4장의 자료를 학습한 결과, 학생은 다음을 수행해야 합니다.

알다

  • 회귀 분석의 기본 개념;
  • 최소 제곱 추정의 추정 방법 및 속성;
  • 방정식과 회귀 계수의 유의성과 간격 추정을 테스트하기 위한 기본 규칙

가능하다

  • 샘플 데이터를 사용하여 2차원 및 다중 회귀 방정식 모델의 매개변수 추정치를 찾고 해당 속성을 분석합니다.
  • 방정식과 회귀 계수의 중요성을 확인합니다.
  • 중요한 매개변수의 간격 추정치를 찾습니다.

소유하다

  • 이변량 및 다중 회귀 방정식 매개변수의 통계적 추정 기술; 회귀 모델의 타당성을 확인하는 기술;
  • 분석 소프트웨어를 사용하여 모든 중요한 계수를 포함하는 회귀 방정식을 얻는 기술.

기본 개념

상관분석을 수행한 후 변수들 사이에 통계적으로 유의미한 관계가 있는지 확인하고 그 친밀도를 평가하면 일반적으로 회귀분석 방법을 사용하여 종속성 유형에 대한 수학적 설명으로 진행됩니다. 이를 위해 효과적인 지표와 관련된 기능 클래스가 선택됩니다. ~에및 인수는 결합 방정식의 매개변수 추정치를 계산하고 결과 방정식의 정확성을 분석합니다.

함수|, 결과 특성의 조건부 평균 값의 의존성을 설명합니다. ~에주어진 인수 값에서 호출됩니다. 회귀 방정식.

"회귀"라는 용어(Lat. 회귀 –퇴각, 무언가로의 복귀)는 영국의 심리학자이자 인류학자인 F. Galton에 의해 소개되었으며 키 유전 문제와 관련된 통계 데이터를 처리하는 Galton이 키가 아버지는 모든 아버지의 평균 키에서 벗어납니다. 엑스인치이면, 그 아들의 키는 모든 아들의 평균 키에서 다음보다 작은 차이만큼 벗어납니다. 엑스신장. 확인된 추세는 다음과 같습니다. 평균으로의 회귀.

"회귀"라는 용어는 통계 문헌에서 널리 사용되지만 많은 경우 통계 관계를 정확하게 특성화하지는 않습니다.

회귀식을 정확하게 기술하기 위해서는 유효지표의 조건부 분포법칙을 알아야 한다. 유.통계 실무에서는 일반적으로 그러한 정보를 얻는 것이 불가능하므로 함수에 대한 적절한 근사치를 검색하는 것으로 제한됩니다. 에프(엑스엑스 2,...l*), 현상에 대한 사전 의미 있는 분석 또는 초기 통계 데이터를 기반으로 합니다.

지표 벡터의 분포 유형에 대한 개별 모델 가정의 틀 내에서<) может быть получен общий вид 회귀 방정식, 어디. 예를 들어, 연구 중인 지표 세트가 수학적 기대값의 벡터를 사용하여 ()차원 정규 분포 법칙을 따른다는 가정하에

여기서 공분산 행렬은

분산은 어디에 있습니까? 와이,

회귀 방정식(조건부 수학적 기대)의 형식은 다음과 같습니다.

따라서 다변량 확률변수()

()차원 정규분포 법칙을 따르고 유효지표의 회귀방정식을 따른다. ~에설명 변수는 선형입니다. 엑스보다.

그러나 통계 실무에서는 일반적으로 알 수 없는 실제 회귀 함수에 대한 적절한 근사치를 찾는 데에만 국한되어야 합니다. 에프엑스(F(x)),왜냐하면 연구자는 분석된 성과지표의 조건부 확률 분포 법칙에 대한 정확한 지식이 없기 때문입니다. ~에주어진 인수 값에 대해 엑스.

실제 추정, 모델 추정, 회귀 추정 간의 관계를 살펴보겠습니다. 효과적인 지표를 보자 ~에주장과 관련된 엑스비율

는 정규분포법칙을 따르는 확률변수이고, 그리고입니다. 이 경우 실제 회귀 함수는 다음과 같은 형식을 갖습니다.

실제 회귀 방정식의 정확한 형태가 우리에게 알려지지 않았지만 그림 1에 제시된 관계에 의해 관련된 2차원 확률 변수에 대한 9개의 관측치가 있다고 가정합니다. 4.1.

쌀. 4.1. 실제의 상대적 위치에프엑스(f(x)) 그리고 이론적이런회귀 모델

그림에서 점의 위치 4.1을 사용하면 다음 형식의 선형 종속성 클래스로 제한할 수 있습니다.

최소제곱법을 사용하여 회귀 방정식의 추정치를 구합니다.

비교를 위해 그림에서 4.1은 실제 회귀 함수와 이론적 근사 회귀 함수의 그래프를 보여줍니다. 회귀 방정식의 추정은 확률적으로 후자에 수렴됩니다. 이런샘플 크기가 무제한으로 증가합니다 ().

불행하게도 통계 연구에서 흔히 볼 수 있는 실제 회귀 함수 대신 선형 회귀 함수를 실수로 선택했기 때문에 통계적 결론과 추정치는 일관성의 속성을 갖지 않습니다. 관측치 수를 아무리 늘려도 표본 추정치는 실제 회귀 함수에 수렴되지 않습니다.

회귀 함수 클래스를 올바르게 선택했다면 다음을 사용한 설명의 부정확성은 다음과 같습니다. 이런제한된 샘플링으로만 설명되므로 원하는 만큼 작게 만들 수 있습니다.

초기 통계 데이터로부터 성능 지표의 조건부 값과 알 수 없는 회귀 함수를 가장 잘 복원하기 위해 다음이 가장 자주 사용됩니다. 타당성 기준손실 기능.

1. 최소제곱법,이에 따라 유효 지표 관측 값의 제곱 편차가 모델 값으로부터 최소화되고 회귀 방정식의 계수는 "-M"의 인수 벡터 값입니다. 관찰:

벡터의 추정치를 찾는 문제가 해결되었습니다. 결과 회귀는 다음과 같이 호출됩니다. 정사각형을 의미합니다.

2. 최소 모듈 방식, 이에 따라 유효 지표의 관찰 값과 모듈 값의 절대 편차의 합이 최소화됩니다. 즉

결과 회귀는 다음과 같이 호출됩니다. 절대적인 의미(중앙값).

3. 미니맥스 방식이는 유효 지표의 관측값의 최대 편차 계수를 최소화하는 것입니다. 와이,모델 값에서, 즉

결과 회귀는 다음과 같이 호출됩니다. 최소최대.

실제 응용에서는 확률변수를 연구하는 데 문제가 있는 경우가 많습니다. 와이,특정 변수 세트와 알 수 없는 매개변수에 따라 달라집니다. 우리는 ()를 다음과 같이 간주할 것이다. (k + 1) 무작위 표본이 추출된 차원 일반 모집단 피,여기서 ()는 i번째 관찰의 결과입니다. 관찰 결과를 바탕으로 알려지지 않은 매개변수를 추정하는 것이 필요합니다. 위에서 설명한 작업은 회귀 분석 문제와 관련이 있습니다.

회귀 분석 무작위 변수의 의존성을 통계적으로 분석하는 방법이라고합니다. ~에실제 분포법칙에 관계없이 회귀분석에서 비임의 값으로 간주되는 변수에 대해

결과의 결론

표 8.3a. 회귀 통계
회귀 통계
복수형 R 0,998364
R-제곱 0,99673
정규화된 R-제곱 0,996321
표준 에러 0,42405
관찰 10

먼저, 표 8.3a(회귀 통계)에 제시된 계산의 상단 부분을 살펴보겠습니다.

확실성의 척도라고도 불리는 R-제곱 값은 결과 회귀선의 품질을 나타냅니다. 이 품질은 원본 데이터와 회귀 모델(계산된 데이터) 간의 일치 정도로 표현됩니다. 확실성의 척도는 항상 구간 내에 있습니다.

대부분의 경우 R-제곱 값은 극단값이라고 하는 이러한 값 사이에 속합니다. 0과 1 사이.

R-제곱 값이 1에 가까우면 구성된 모델이 관련 변수의 변동성을 거의 모두 설명한다는 의미입니다. 반대로, R-제곱 값이 0에 가까우면 구성된 모델의 품질이 좋지 않음을 의미합니다.

이 예에서 확실성의 척도는 0.99673으로, 이는 회귀선이 원래 데이터에 매우 잘 맞는다는 것을 나타냅니다.

복수형 R- 다중 상관 계수 R - 독립 변수(X)와 종속 변수(Y)의 의존도를 나타냅니다.

다중 R은 다음과 같습니다. 제곱근결정계수로부터 이 수량은 0에서 1 사이의 값을 취합니다.

단순 선형 회귀 분석에서 다중 R은 Pearson 상관 계수와 같습니다. 실제로, 우리의 경우 배수 R은 이전 예의 Pearson 상관 계수(0.998364)와 같습니다.

표 8.3b. 회귀계수
승산 표준 에러 t-통계량
Y교차점 2,694545455 0,33176878 8,121757129
가변 X 1 2,305454545 0,04668634 49,38177965
* 계산의 잘린 버전이 제공됩니다.

이제 표 8.3b에 제시된 계산의 중간 부분을 고려하십시오. 여기서 회귀 계수 b(2.305454545)와 세로축을 따른 변위가 제공됩니다. 상수 a(2.694545455).

계산을 바탕으로 회귀 방정식을 다음과 같이 작성할 수 있습니다.

Y= x*2.305454545+2.694545455

변수 간의 관계 방향은 부호(음수 ​​또는 양수)에 따라 결정됩니다. 회귀계수(계수 b).

만약에 표시가 회귀계수- 양수이면 종속변수와 독립변수의 관계가 양수일 것입니다. 우리의 경우 회귀계수의 부호는 양수이므로 관계도 양수입니다.

만약에 표시가 회귀계수- 음수, 종속변수와 독립변수의 관계가 음수(역)입니다.

표 8.3c. 잔차 도출 결과가 제시됩니다. 이러한 결과를 보고서에 표시하려면 "회귀" 도구를 실행할 때 "잔차" 확인란을 활성화해야 합니다.

나머지 철회

표 8.3c. 나머지
관찰 예측된 Y 나머지 표준잔고
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

보고서의 이 부분을 사용하여 구성된 회귀선에서 각 점의 편차를 확인할 수 있습니다. 최대 절대값

현대 정치학은 사회의 모든 현상과 과정이 상호 연결된다는 입장에서 진행됩니다. 사회의 정치적 영역에 존재하는 연관성과 의존성을 연구하지 않고는 사건과 과정을 이해하고, 정치 생활 현상을 예측하고 관리하는 것이 불가능합니다. 정책 연구에서 가장 일반적인 작업 중 하나는 관찰된 변수 간의 관계를 조사하는 것입니다. "회귀 분석"(또는 "상관-회귀 분석"이라고도 함)이라는 일반적인 이름으로 통합된 전체 통계 분석 기법이 이 문제를 해결하는 데 도움이 됩니다. 그러나 상관 분석을 통해 두 변수 사이의 관계 강도를 평가할 수 있다면 회귀 분석을 사용하여 이 관계의 유형을 결정하고 변수 값이 다른 변수 값에 대한 의존성을 예측할 수 있습니다.

먼저 상관관계가 무엇인지 기억해 봅시다. 상관관계한 변수의 동일한 값이 다른 변수에 해당한다는 사실로 구성된 통계 관계의 가장 중요한 특수 사례를 지정합니다. 평균값또 다른. 속성 x 값이 변경되면 속성 y의 평균 값이 자연스럽게 변경되지만 각 개별 경우 속성 값은 ~에(다른 확률로) 다양한 값을 가질 수 있습니다.

통계(그리고 정치학은 문제를 해결하기 위한 통계의 성취를 포함하므로 이는 정치학과 관련된 학문)에서 "상관관계"라는 용어의 등장은 영국의 생물학자이자 통계학자인 Francis Galton의 이름과 관련이 있습니다. 19세기에. 상관관계 및 회귀분석의 이론적 기초. "상관관계"라는 용어는 이전에 과학에서 알려졌습니다. 특히 18세기 고생물학에서는요. 그것은 프랑스 과학자 Georges Cuvier가 사용했습니다. 그는 발굴 중에 발견된 동물의 유해로부터 외관을 재구성할 수 있는 소위 상관 법칙을 도입했습니다.

이 과학자의 이름과 그의 상관 법칙과 관련된 잘 알려진 이야기가 있습니다. 그래서 대학 방학 동안 유명한 교수에게 장난을 치기로 결정한 학생들은 뿔과 발굽이 달린 염소 가죽을 한 학생에게 끌어당겼습니다. 그는 퀴비에의 침실 창문으로 기어올라가 “널 잡아먹을 거야”라고 소리쳤다. 교수는 잠에서 깨어나 그 실루엣을 보고 이렇게 대답했습니다. “뿔과 발굽이 있다면 당신은 초식동물이므로 나를 먹을 수 없습니다. 그리고 상관 법칙을 모르면 나쁜 점수를 받게 될 것입니다.” 그는 반대편으로 몸을 돌려 잠이 들었습니다. 농담입니다. 이 예에서는 다중 상관 회귀 분석을 사용하는 특별한 경우를 관찰하고 있습니다. 여기서 교수는 관찰된 두 가지 특성(뿔과 발굽의 존재) 값에 대한 지식을 바탕으로 상관 법칙에 따라 세 번째 특성(이 동물이 속한 클래스-a)의 평균값을 도출했습니다. 초식 동물). 이 경우, 우리는 이 변수의 특정 값에 대해 이야기하는 것이 아닙니다(즉, 주어진 동물은 명목 규모에서 다른 값을 가질 수 있습니다. 이는 염소, 숫양 또는 황소일 수 있습니다...).

이제 "회귀"라는 용어로 넘어 갑시다. 엄밀히 말하면 이 방법을 사용하여 해결하는 통계적 문제의 의미와는 관련이 없습니다. 이 용어에 대한 설명은 특성 간의 연관성을 연구하는 방법 개발의 역사에 대한 지식을 바탕으로만 제공될 수 있습니다. 이런 종류의 연구의 첫 번째 사례 중 하나는 통계학자 F. Galton과 K. Pearson의 작업으로, 두 가지 관찰 가능한 특성에 따라 아버지와 자녀의 키 사이의 패턴을 발견하려고 했습니다. 엑스-아버지의 키와 유-어린이의 키). 그들의 연구에서 그들은 평균적으로 키가 큰 아버지가 키가 큰 자녀를 키운다는 초기 가설을 확인했습니다. 낮은 아버지와 자녀에게도 동일한 원칙이 적용됩니다. 그러나 만약 과학자들이 거기에 그친다면 그들의 연구는 결코 통계 교과서에 언급되지 않을 것입니다. 연구진은 이미 언급된 확인된 가설 내에서 또 다른 패턴을 발견했습니다. 그들은 키가 매우 큰 아버지가 평균적으로 키가 크지만 키가 크게 다르지 않은 자녀를 낳는다는 사실을 증명했습니다. 그 아버지는 평균보다 키가 크지만 평균 키와 크게 다르지 않습니다. 키가 매우 작은 아버지(키가 작은 그룹의 평균에서 벗어남)의 경우에도 마찬가지입니다. 평균적으로 그들의 자녀는 아버지가 단순히 키가 작은 동료와 키가 다르지 않았습니다. 그들은 이 패턴을 설명하는 함수를 호출했습니다. 회귀 함수.이 연구 이후 유사한 함수를 설명하고 유사한 방식으로 구성된 모든 방정식을 회귀 방정식이라고 부르기 시작했습니다.

회귀 분석- 하나의 종속 변수와 여러(또는 하나) 독립 변수 사이의 관계를 연구하거나 모델링하기 위해 고안된 일련의 통계 기술을 결합한 다변량 통계 데이터 분석 방법 중 하나입니다. 통계에서 인정되는 전통에 따르면 종속변수를 반응이라고 하며 다음과 같이 표시됩니다. V독립 변수를 예측 변수라고 하며 다음과 같이 표시됩니다. 엑스.분석 중에 일부 변수는 반응과 약한 관련성이 있는 것으로 확인되어 최종적으로 분석에서 제외됩니다. 종속변수와 관련된 나머지 변수도 요인이라고 할 수 있습니다.

회귀 분석을 사용하면 다른 변수(예: 교육 수준에 따라 파격적인 정치적 행동에 참여하는 경향) 또는 여러 변수에 따라 하나 이상의 변수 값을 예측할 수 있습니다. PC 기준으로 계산됩니다. 요인 특성에 대한 제어 특성의 의존도를 측정할 수 있는 회귀 방정식을 만들려면 전문 수학자 및 프로그래머가 참여해야 합니다. 회귀 분석은 정치 상황 전개에 대한 예측 모델을 구축하고, 사회적 긴장의 원인을 평가하고, 이론적 실험을 수행하는 데 귀중한 서비스를 제공할 수 있습니다. 회귀 분석은 성별, 연령, 직업, 거주지, 국적, 소득 수준 및 성격 등 시민의 투표 행동에 대한 다양한 사회 인구학적 매개변수의 영향을 연구하는 데 적극적으로 사용됩니다.

회귀 분석과 관련하여 다음 개념이 사용됩니다. 독립적인그리고 매달린변수. 독립변수는 다른 변수의 변화를 설명하거나 유발하는 변수입니다. 종속변수는 첫 번째 변수의 영향으로 값이 설명되는 변수입니다. 예를 들어, 2004년 대통령 선거에서 결정적인 요인은 다음과 같습니다. 독립 변수는 국가 인구의 재정 상황 안정, 후보자의 인기 수준 및 요인과 같은 지표였습니다. 의무.이 경우 종속변수는 후보자에 대한 득표율로 간주될 수 있습니다. 마찬가지로, "유권자 연령"과 "선거 활동 수준" 변수 쌍에서 첫 번째는 독립적이고 두 번째는 종속적입니다.

회귀 분석을 사용하면 다음 문제를 해결할 수 있습니다.

  • 1) 기 사이에 통계적으로 유의미한 연관성이 있는지 여부에 대한 사실을 확립합니다. 엑스;
  • 2) 회귀 함수에 대한 최상의(통계적 의미에서) 추정치를 구성합니다.
  • 3) 주어진 값에 따라 엑스미지의 것에 대한 예측을 구축하다
  • 4) 각 요인의 영향에 대한 비중을 평가합니다. 엑스~에 따라서 모델에서 필수적이지 않은 기능을 제외합니다.
  • 5) 변수간의 인과관계를 파악하여 설명변수의 값을 조절하여 P의 값을 부분적으로 조절한다. 엑스.

회귀 분석은 연구 중인 지표의 값에 영향을 미치는 상호 독립 변수를 선택하고, 회귀 방정식의 형태를 결정하고, 1차 사회학적 데이터 처리를 위한 통계적 방법을 사용하여 매개변수를 평가해야 하는 필요성과 관련됩니다. 이러한 유형의 분석은 관계의 형태, 방향 및 친밀도(밀도)에 대한 아이디어를 기반으로 합니다. 구별하다 사우나그리고 다중 회귀연구되는 특성의 수에 따라. 실제로 회귀 분석은 일반적으로 상관 분석과 함께 수행됩니다. 회귀 방정식한 변수가 증가하거나 감소하는 반면 다른 변수는 증가하거나 감소하는 경향으로 표현되는 수량 간의 수치적 관계를 설명합니다. 동시에 그들은 화를 낸다. 싸늘한그리고 비선형 회귀.정치적 과정을 설명할 때 두 가지 회귀 옵션이 모두 동일하게 발견됩니다.

정치적 주제에 관한 기사에 대한 관심의 상호의존성 분포에 대한 산점도( 유)응답자 교육 (엑스)는 선형 회귀를 나타냅니다(그림 30).

쌀. 서른.

선거 활동 수준 분포에 대한 산포도( 유)그리고 응답자(A)의 나이(조건부 예시)는 비선형 회귀분석이다(Fig. 31).


쌀. 31.

쌍회 회귀 모델에서 두 특성(A"와 U) 사이의 관계를 설명하기 위해 선형 방정식이 사용됩니다.

여기서 a는 특성이 다양할 때 방정식의 무작위 오류 값입니다. 즉, "선형성"으로부터 방정식의 편차.

계수를 추정하려면 그리고 회귀선을 기준으로 산점도에 있는 각 점의 편차 제곱의 합이 최소가 되어야 한다고 가정하는 최소 제곱법을 사용합니다. 승산 아아아방정식 시스템을 사용하여 계산할 수 있습니다.

최소 제곱 추정 방법은 다음과 같은 계수 추정값을 제공합니다. 그리고 비,직선이 좌표가 있는 점을 통과하는 경우 엑스그리고 와이,저것들. 관계가있다 ~에 = 도끼+ㄴ.회귀 방정식의 그래픽 표현은 다음과 같습니다. 이론적 회귀선.선형 의존성을 사용하면 회귀 계수는 그래프에서 이론적 회귀선의 가로축에 대한 경사각의 접선을 나타냅니다. 계수의 부호는 관계의 방향을 나타냅니다. 0보다 크면 직접 연결이고, 작으면 역연결입니다.

아래의 예는 "Political Petersburg-2006"(표 56) 연구에서 현재 삶의 만족도에 대한 시민들의 생각과 미래 삶의 질 변화에 대한 기대 사이의 선형 관계를 보여줍니다. 관계는 직접적이고 선형적입니다(표준화된 회귀 계수는 0.233, 유의 수준은 0.000). 이 경우 회귀계수는 높지 않으나 통계적으로 유의미한 지표의 하한(피어슨 계수의 통계적으로 유의한 지표의 제곱의 하한)을 초과한다.

표 56

현재 시민의 삶의 질이 기대에 미치는 영향

(상트페테르부르크, 2006)

* 종속변수: “앞으로 2~3년 후에 당신의 삶이 어떻게 바뀔 것이라고 생각하십니까?”

정치 생활에서 연구되는 변수의 값은 여러 특성에 동시에 좌우되는 경우가 가장 많습니다. 예를 들어, 정치 활동의 수준과 성격은 국가의 정치 체제, 정치 전통, 특정 지역 사람들의 정치적 행동 특성, 응답자의 사회 소그룹, 연령, 교육, 소득 수준의 영향을 동시에 받습니다. , 정치적 성향 등 이 경우 방정식을 사용해야합니다. 다중 회귀, 이는 다음과 같습니다.

계수는 어디에 있습니까? 비.- 부분 회귀 계수. 독립(결과) 변수의 값을 결정하는 데 있어 각 독립 변수의 기여도를 보여줍니다. 부분 회귀 계수가 0에 가까우면 독립 변수와 종속 변수 사이에 직접적인 연관성이 없다는 결론을 내릴 수 있습니다.

이러한 모델의 계산은 행렬 대수학을 사용하여 PC에서 수행할 수 있습니다. 다중 회귀를 통해 우리는 사회적 연결의 다요인적 특성을 반영하고 각 요소가 개별적으로 그리고 모두 함께 결과 속성에 미치는 영향을 명확히 할 수 있습니다.

계수는 다음과 같이 표시됩니다. 비,선형 회귀 계수라고 하며 요인 특성의 변동 간의 관계의 강도를 나타냅니다. 엑스결과적인 특성의 변화 와이이 계수는 속성 측정의 절대 단위로 관계의 강도를 측정합니다. 그러나 특성 간 상관 관계의 근접성은 결과 특성의 표준 편차 비율로 표현될 수도 있습니다(이 계수를 상관 계수라고 함). 회귀계수와 다르게 상관 계수는 허용되는 특성 측정 단위에 의존하지 않으므로 모든 특성에 대해 비교할 수 있습니다. 일반적으로 /> 0.7, 중간 닫힘 - 0.5g 0.5이면 연결이 강한 것으로 간주됩니다.

알려진 바와 같이, 가능한 가장 가까운 연결은 기능적 연결입니다. 와이의미를 명확하게 부여할 수 있다 엑스.따라서 상관계수가 1에 가까울수록 함수관계에 가까워진다. 회귀 분석의 유의 수준은 0.001을 초과할 수 없습니다.

상관 계수는 오랫동안 특성 간의 관계의 근접성을 나타내는 주요 지표로 간주되어 왔습니다. 그러나 나중에는 결정계수가 그러한 지표가 되었습니다. 이 계수의 의미는 다음과 같습니다. 이는 결과 특성의 전체 분산의 비율을 반영합니다. , 특성의 변화로 설명됨 엑스.이는 단순히 상관 계수(0에서 1까지 다양)를 제곱하여 구하며, 선형 관계의 경우 0(0%)에서 0(0%)에서 1까지의 비율을 반영합니다. 1 (100%) 특성값 와이,특성값에 의해 결정됨 엑스.다음과 같이 쓰여 있습니다. 나는 2, SPSS의 회귀 분석 결과 테이블에는 사각형이 없습니다.

다중 회귀 방정식을 구성할 때 발생하는 주요 문제를 간략하게 설명하겠습니다.

  • 1. 회귀 방정식에 포함할 요인을 선택합니다.이 단계에서 연구자는 먼저 이론에 따라 연구 중인 현상을 결정하는 주요 원인의 일반 목록을 작성합니다. 그런 다음 회귀 방정식에 특성을 선택해야 합니다. 선택의 기본 규칙: 분석에 포함된 요소는 서로 가능한 한 적은 상관 관계를 가져야 합니다. 이 경우에만 영향의 정량적 측정을 특정 요인-속성에 할당할 수 있습니다.
  • 2. 다중 회귀 방정식 양식 선택(실제로는 선형 또는 선형 로그가 더 자주 사용됩니다). 따라서 다중 회귀 분석을 사용하려면 연구자는 먼저 여러 독립 변수가 결과에 미치는 영향에 대한 가상 모델을 구축해야 합니다. 결과를 신뢰할 수 있으려면 모델이 실제 프로세스와 정확하게 일치해야 합니다. 변수 간의 관계는 선형이어야 하며 중요한 독립 변수는 무시할 수 없으며 연구 중인 프로세스와 직접 관련되지 않은 변수는 분석에 포함될 수 없습니다. 또한 모든 변수 측정은 매우 정확해야 합니다.

위의 설명에서 이 방법을 사용하기 위한 여러 조건이 나타나며, 이 조건이 없으면 다중 회귀 분석(MRA) 절차를 진행할 수 없습니다. 다음 사항을 모두 준수해야만 회귀 분석을 올바르게 수행할 수 있습니다.

통계 모델링에서 회귀 분석은 변수 간의 관계를 평가하는 데 사용되는 연구입니다. 이 수학적 방법에는 종속 변수와 하나 이상의 독립 변수 간의 관계에 초점을 맞춘 여러 변수를 모델링하고 분석하는 다른 많은 방법이 포함되어 있습니다. 보다 구체적으로, 회귀 분석은 독립 변수 중 하나가 변경되고 다른 독립 변수는 고정된 상태로 유지되는 경우 종속 변수의 일반적인 값이 어떻게 변경되는지 이해하는 데 도움이 됩니다.

모든 경우에 목표 추정치는 독립 변수의 함수이며 회귀 함수라고 합니다. 회귀 분석에서는 종속 변수의 변화를 확률 분포를 사용하여 설명할 수 있는 회귀 함수로 특성화하는 것도 중요합니다.

회귀 분석 문제

이러한 통계적 연구 방법은 예측에 널리 사용되며 그 활용이 상당한 이점을 가지고 있지만 때로는 환상이나 잘못된 관계로 이어질 수 있으므로 해당 사항에서는 신중하게 사용하는 것이 좋습니다. 예를 들어 상관 관계가 의미하는 것은 아닙니다. 원인.

개발됨 큰 숫자선형 및 최소 제곱 회귀와 같은 모수적 회귀 분석을 수행하는 방법입니다. 그 핵심은 회귀 함수가 데이터에서 추정되는 유한한 수의 알려지지 않은 매개변수로 정의된다는 것입니다. 비모수적 회귀를 사용하면 해당 함수가 무한 차원일 수 있는 특정 함수 집합 내에 놓이게 됩니다.

통계 연구 방법인 회귀 분석은 실제로 데이터 생성 프로세스의 형태와 그것이 회귀 접근 방식과 어떻게 관련되는지에 따라 달라집니다. 생성되는 데이터 프로세스의 실제 형태는 일반적으로 알 수 없는 숫자이기 때문에 데이터의 회귀 분석은 프로세스에 대한 가정에 어느 정도 의존하는 경우가 많습니다. 이러한 가정은 사용 가능한 데이터가 충분할 경우 테스트할 수 있는 경우도 있습니다. 회귀 모델은 가정이 어느 정도 위반되는 경우에도 유용하지만 최대 효율성을 발휘하지는 못할 수 있습니다.

더 좁은 의미에서 회귀는 분류에 사용되는 이산형 반응 변수와 달리 연속형 반응 변수의 추정을 구체적으로 나타낼 수 있습니다. 연속 출력 변수의 경우 관련 문제와 구별하기 위해 메트릭 회귀라고도 합니다.

이야기

제일 초기 형태회귀분석은 잘 알려진 최소제곱법입니다. 이 책은 1805년 Legendre와 1809년 Gauss에 의해 출판되었습니다. Legendre와 Gauss는 천문 관측을 통해 태양 주위의 천체(주로 혜성이지만 나중에 새로 발견된 소행성)의 궤도를 결정하는 문제에 이 방법을 적용했습니다. 가우스는 1821년에 가우스-마르코프 정리의 버전을 포함하여 최소 제곱 이론의 발전을 발표했습니다.

회귀(regression)라는 용어는 19세기에 프란시스 골턴(Francis Galton)이 생물학적 현상을 설명하기 위해 만들어낸 용어입니다. 그 아이디어는 조상의 키로부터 후손의 키가 정상 평균을 향해 아래쪽으로 회귀하는 경향이 있다는 것입니다. Galton의 경우 회귀는 이러한 생물학적 의미만 가지고 있었지만 나중에 Udney Yoley와 Karl Pearson에 의해 그의 작업이 계속되어 보다 일반적인 통계적 맥락으로 옮겨졌습니다. Yule과 Pearson의 연구에서는 반응 변수와 설명 변수의 공동 분포가 가우스 분포로 가정됩니다. 이 가정은 1922년과 1925년의 논문에서 Fischer에 의해 거부되었습니다. Fisher는 반응 변수의 조건부 분포는 가우스 분포이지만 결합 분포는 그럴 필요가 없다고 제안했습니다. 이런 점에서 피셔의 제안은 1821년 가우스의 공식화에 더 가깝습니다. 1970년 이전에는 회귀분석 결과를 얻는 데 최대 24시간이 걸리는 경우도 있었습니다.

회귀 분석 방법은 계속해서 활발한 연구 분야입니다. 최근 수십 년 동안 강력한 회귀 분석을 위한 새로운 방법이 개발되었습니다. 상관된 반응을 포함하는 회귀; 다양한 유형의 누락 데이터를 수용하는 회귀 방법; 비모수적 회귀; 베이지안 회귀 방법; 예측변수가 오류와 함께 측정되는 회귀; 관찰보다 더 많은 예측 변수를 사용하는 회귀 및 회귀를 통한 원인 및 결과 추론.

회귀 모델

회귀 분석 모델에는 다음 변수가 포함됩니다.

  • 스칼라 또는 벡터일 수 있는 베타로 지정된 알 수 없는 매개변수입니다.
  • 독립변수, X.
  • 종속변수, Y.

안에 다양한 분야회귀 분석이 사용되는 과학에서는 종속 변수와 독립 변수 대신 다른 용어를 사용하지만 모든 경우 회귀 모델은 Y를 X 및 β의 함수와 연관시킵니다.

근사치는 일반적으로 E(Y | X) = F(X, β)로 작성됩니다. 회귀 분석을 수행하려면 함수 f의 유형을 결정해야 합니다. 덜 일반적으로는 데이터에 의존하지 않는 Y와 X의 관계에 대한 지식을 기반으로 합니다. 그러한 지식을 사용할 수 없는 경우 유연하고 편리한 형식 F가 선택됩니다.

종속변수 Y

이제 알 수 없는 매개변수의 벡터 β의 길이가 k라고 가정하겠습니다. 회귀 분석을 수행하려면 사용자는 종속 변수 Y에 대한 정보를 제공해야 합니다.

  • (Y, X) 형식의 N개 데이터 포인트가 관찰되는 경우, 여기서 N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • 정확히 N = K가 관찰되고 함수 F가 선형인 경우 방정식 Y = F(X, β)는 근사가 아닌 정확하게 풀 수 있습니다. 이는 X가 선형 독립인 한 고유한 해를 갖는 N-미지수(요소 β)를 사용하여 일련의 N-방정식을 푸는 것과 같습니다. F가 비선형이면 해가 없거나 많은 해가 존재할 수 있습니다.
  • 가장 일반적인 상황은 N > 데이터 포인트가 관찰되는 경우입니다. 이 경우, 데이터에 가장 적합한 β에 대한 고유한 값을 추정할 수 있는 충분한 정보가 데이터에 있고, 데이터에 대한 적용이 β에서 과결정된 시스템으로 볼 수 있는 회귀 모델이 있습니다.

후자의 경우 회귀 분석은 다음을 위한 도구를 제공합니다.

  • 예를 들어 Y의 측정된 값과 예측된 값 사이의 거리를 최소화하는 알 수 없는 매개변수 β에 대한 솔루션을 찾습니다.
  • 특정 통계적 가정 하에서 회귀 분석은 초과 정보를 사용하여 알려지지 않은 매개변수 β와 종속 변수 Y의 예측 값에 대한 통계 정보를 제공합니다.

필요한 독립 측정 횟수

세 가지 알려지지 않은 매개변수인 β 0 , β 1 및 β 2 가 있는 회귀 모델을 고려하십시오. 실험자가 독립변수 벡터 X의 동일한 값에 대해 10번의 측정을 한다고 가정합니다. 이 경우 회귀 분석은 고유한 값 집합을 생성하지 않습니다. 할 수 있는 최선의 방법은 종속변수 Y의 평균과 표준편차를 추정하는 것입니다. 마찬가지로, 두 변수를 측정하는 것입니다. 다른 의미 X, 2개의 미지수에 대해서는 회귀 분석에 충분한 데이터를 얻을 수 있지만 3개 이상의 미지수에 대해서는 얻을 수 없습니다.

실험자의 측정이 독립 변수 벡터 X의 세 가지 다른 값에서 수행된 경우 회귀 분석은 β의 세 가지 알려지지 않은 매개 변수에 대한 고유한 추정치 세트를 제공합니다.

일반 선형 회귀의 경우 위의 설명은 행렬 X T X가 가역적이라는 요구 사항과 동일합니다.

통계적 가정

측정 횟수 N이 알려지지 않은 매개변수 k 및 측정 오류 ε i의 수보다 큰 경우, 일반적으로 측정에 포함된 초과 정보는 전파되어 알려지지 않은 매개변수에 관한 통계적 예측에 사용됩니다. 이러한 초과 정보를 회귀 자유도라고 합니다.

기본 가정

회귀 분석에 대한 고전적인 가정은 다음과 같습니다.

  • 샘플링은 추론 예측을 대표합니다.
  • 오류 항은 설명 변수에 따라 달라지는 평균이 0인 확률 변수입니다.
  • 독립변수는 오류 없이 측정됩니다.
  • 독립 변수(예측 변수)로서 선형 독립입니다. 즉, 어떤 예측 변수도 다른 변수의 선형 조합으로 표현할 수 없습니다.
  • 오류는 상관 관계가 없습니다. 즉, 대각선과 0이 아닌 각 요소의 오류 공분산 행렬이 오류 분산입니다.
  • 오차 분산은 관측치 전체에서 일정합니다(동분산성). 그렇지 않은 경우 가중치 최소 제곱법이나 다른 방법을 사용할 수 있습니다.

최소 제곱 추정을 위한 이러한 충분 조건은 필요한 속성을 갖습니다. 특히 이러한 가정은 특히 선형 추정기 클래스에서 고려할 때 모수 추정이 객관적이고 일관되며 효율적이라는 것을 의미합니다. 증거가 조건을 만족하는 경우는 거의 없다는 점에 유의하는 것이 중요합니다. 즉, 가정이 올바르지 않은 경우에도 방법이 사용됩니다. 가정의 변화는 모델이 얼마나 유용한지를 측정하는 데 사용될 수 있습니다. 이러한 가정 중 상당수는 고급 방법을 사용하면 완화될 수 있습니다. 통계 분석 보고서에는 일반적으로 샘플 데이터에 대한 테스트 분석과 모델의 유용성에 대한 방법론이 포함됩니다.

또한 변수는 경우에 따라 점 위치에서 측정된 값을 참조하기도 합니다. 통계적 가정을 위반하는 변수에는 공간 추세와 공간 자기상관이 있을 수 있습니다. 지리적 가중 회귀는 이러한 데이터를 다루는 유일한 방법입니다.

선형회귀의 특징은 종속변수인 Yi가 매개변수의 선형결합이라는 점이다. 예를 들어, 단순 선형 회귀는 하나의 독립 변수 x i 와 두 개의 매개변수 β 0 및 β 1 을 사용하여 n-포인트를 모델링합니다.

다중 선형 회귀에는 여러 개의 독립 변수 또는 해당 함수가 있습니다.

모집단에서 무작위 표본을 추출하면 해당 매개변수를 통해 표본 선형 회귀 모델을 얻을 수 있습니다.

이러한 측면에서 가장 많이 사용되는 방법은 최소제곱법이다. 잔차 제곱합을 최소화하는 모수 추정치를 얻는 데 사용됩니다. 이 함수의 이러한 종류의 최소화(선형 회귀 분석의 전형적인 현상)는 정규 방정식 세트와 다음 세트로 이어집니다. 선형 방정식모수 추정치를 얻기 위해 해결된 모수를 사용합니다.

모집단 오류가 일반적으로 전파된다는 추가 가정 하에 연구자는 이러한 표준 오류 추정치를 사용하여 신뢰 구간을 만들고 해당 매개변수에 대한 가설 테스트를 수행할 수 있습니다.

비선형 회귀 분석

함수가 매개변수에 대해 선형이 아닌 예는 반복 절차를 사용하여 제곱합을 최소화해야 함을 나타냅니다. 이로 인해 선형 및 비선형 최소 제곱법 간의 차이를 정의하는 많은 합병증이 발생합니다. 따라서 비선형 방법을 사용할 때 회귀 분석 결과를 예측할 수 없는 경우가 있습니다.

검정력 및 표본 크기 계산

일반적으로 관측치 수와 모델의 독립 변수 수를 비교하는 일관된 방법은 없습니다. 첫 번째 규칙은 Dobra와 Hardin이 제안했으며 N = t^n과 같습니다. 여기서 N은 표본 크기, n은 독립 변수의 수, t는 모델이 다음과 같은 경우 원하는 정확도를 달성하는 데 필요한 관측치의 수입니다. 독립변수는 단 하나. 예를 들어, 연구자는 1000명의 환자(N)가 포함된 데이터 세트를 사용하여 선형 회귀 모델을 구축합니다. 연구자가 선(m)을 정확하게 정의하기 위해 5개의 관측치가 필요하다고 결정한 경우 모델이 지원할 수 있는 최대 독립 변수 수는 4개입니다.

다른 방법

회귀 모델 매개변수는 일반적으로 최소 제곱법을 사용하여 추정되지만 훨씬 덜 자주 사용되는 다른 방법이 있습니다. 예를 들어 다음과 같은 방법이 있습니다.

  • 베이지안 방법(예: 베이지안 선형 회귀)
  • 백분율 오류를 줄이는 것이 더 적절하다고 간주되는 상황에 사용되는 백분율 회귀입니다.
  • 분위수 회귀로 이어지는 이상값이 있는 경우 더욱 강력한 최소 절대 편차입니다.
  • 많은 수의 관찰과 계산이 필요한 비모수적 회귀.
  • 주어진 입력 공간에서 의미 있는 거리 측정법을 찾기 위해 학습되는 원격 학습 측정법입니다.

소프트웨어

모든 주요 통계 소프트웨어 패키지는 최소 제곱 회귀 분석을 수행합니다. 단순 선형 회귀 분석과 다중 회귀 분석은 일부 계산기뿐만 아니라 일부 스프레드시트 응용 프로그램에서도 사용할 수 있습니다. 많은 통계 소프트웨어 패키지가 다양한 유형의 비모수적 및 로버스트 회귀를 수행할 수 있지만 이러한 방법은 덜 표준화되어 있습니다. 다른 소프트웨어 패키지는 다른 방법을 구현합니다. 검사 분석 및 신경 영상화와 같은 분야에 사용하기 위해 특수 회귀 소프트웨어가 개발되었습니다.

회귀 분석의 주요 특징: 이를 통해 연구 중인 변수 간의 관계가 어떤 형태와 성격을 가지고 있는지에 대한 구체적인 정보를 얻을 수 있습니다.

회귀 분석 단계의 순서

회귀분석의 단계를 간단히 살펴보겠습니다.

    문제 공식화. 이 단계에서 연구 중인 현상의 의존성에 대한 예비 가설이 형성됩니다.

    종속 및 독립(설명) 변수의 정의.

    통계 데이터 수집. 회귀 모델에 포함된 각 변수에 대해 데이터를 수집해야 합니다.

    연결 형태(단순 또는 다중, 선형 또는 비선형)에 대한 가설을 수립합니다.

    정의 회귀 함수 (회귀 방정식의 매개변수 수치를 계산하는 것으로 구성됨)

    회귀 분석의 정확성을 평가합니다.

    얻은 결과의 해석. 회귀분석을 통해 얻은 결과를 예비가설과 비교한다. 얻은 결과의 정확성과 신뢰성을 평가합니다.

    종속변수의 알려지지 않은 값을 예측합니다.

회귀분석을 이용하면 예측과 분류 문제를 해결할 수 있다. 예측값은 회귀식에 설명변수의 값을 대입하여 계산됩니다. 분류 문제는 다음과 같은 방식으로 해결됩니다. 회귀선은 전체 개체 집합을 두 개의 클래스로 나누고 함수 값이 0보다 큰 집합 부분은 하나의 클래스에 속하고 0보다 작은 부분은 다른 클래스에 속합니다.

회귀 분석 문제

회귀 분석의 주요 작업을 고려해 보겠습니다. 의존성 형태 설정, 결정 회귀 함수, 종속변수의 알 수 없는 값 추정.

의존의 형태를 확립합니다.

변수 간 ​​관계의 성격과 형태는 다음과 같은 유형의 회귀를 형성할 수 있습니다.

    양의 선형 회귀(함수의 균일한 증가로 표현됨);

    양수 균일 증가 회귀;

    양수 균일 증가 회귀;

    음의 선형 회귀(함수의 균일한 감소로 표현됨);

    음의 균등 가속 감소 회귀;

    음수 균일 감소 회귀.

그러나 설명된 품종은 일반적으로 순수한 형태로 발견되지 않고 서로 조합되어 발견됩니다. 이 경우 회귀의 결합된 형태에 대해 이야기합니다.

회귀 함수의 정의.

두 번째 작업은 주요 요인 또는 원인이 종속 변수에 미치는 영향을 식별하고, 다른 조건이 동일하며, 종속 변수에 대한 무작위 요소의 영향을 배제하는 것입니다. 회귀 함수한 유형 또는 다른 유형의 수학 방정식의 형태로 정의됩니다.

종속변수의 알려지지 않은 값 추정.

이 문제에 대한 해결책은 다음 유형 중 하나의 문제를 해결하는 것입니다.

    초기 데이터의 고려된 간격 내에서 종속 변수의 값 추정, 즉 누락된 값; 이 경우 보간 문제가 해결됩니다.

    종속변수의 미래값 추정, 즉 소스 데이터의 지정된 간격을 벗어난 값을 찾는 단계; 이 경우 외삽 문제가 해결됩니다.

두 문제 모두 독립변수 값에 대해 발견된 모수 추정치를 회귀식에 대입하여 해결됩니다. 방정식을 푼 결과는 목표(종속) 변수 값의 추정치입니다.

회귀 분석이 의존하는 몇 가지 가정을 살펴보겠습니다.

선형성 가정, 즉 고려 중인 변수 간의 관계는 선형인 것으로 가정됩니다. 따라서 이 예에서는 산점도를 그렸고 명확한 선형 관계를 확인할 수 있었습니다. 변수의 산점도에서 선형 관계가 분명히 존재하지 않는 경우, 즉 비선형 관계가 있는 경우 비선형 분석 방법을 사용해야 합니다.

정규성 가정 나머지. 예측값과 관측값의 차이 분포가 정규분포를 따른다고 가정합니다. 분포의 특성을 시각적으로 확인하려면 히스토그램을 사용할 수 있습니다. 나머지.

회귀 분석을 사용할 때 주요 제한 사항을 고려해야 합니다. 회귀 분석을 통해 종속성만 감지할 수 있고 이러한 종속성의 기본 연결은 감지할 수 없다는 사실로 구성됩니다.

회귀 분석을 사용하면 알려진 여러 값을 기반으로 변수의 추정값을 계산하여 변수 간 관계의 강도를 추정할 수 있습니다.

회귀 방정식.

회귀 방정식은 다음과 같습니다: Y=a+b*X

이 방정식을 사용하면 변수 Y는 상수 a와 선(또는 기울기) b의 기울기에 변수 X의 값을 곱하여 표현됩니다. 상수 a는 절편 항이라고도 하며 기울기는 다음과 같습니다. 회귀 계수 또는 B-계수.

대부분의 경우(항상 그런 것은 아니지만) 회귀선을 기준으로 특정 관측치가 분산되어 있습니다.

나머지 회귀선(예측 값)에서 단일 점(관찰)의 편차입니다.

MS Excel의 회귀분석 문제를 해결하려면 메뉴에서 선택하세요. 서비스"분석 패키지"회귀 분석 도구. 입력 간격 X와 Y를 설정합니다. 입력 간격 Y는 종속 분석 데이터의 범위이며 하나의 열을 포함해야 합니다. 입력 간격 X는 분석해야 하는 독립 데이터의 범위입니다. 입력 범위의 개수는 16개를 초과할 수 없습니다.

출력 범위의 절차 출력에서 ​​우리는 다음에 주어진 보고서를 얻습니다. 표 8.3a-8.3v.

결과의 결론

표 8.3a. 회귀 통계

회귀 통계

복수형 R

R-제곱

정규화된 R-제곱

표준 에러

관찰

먼저 제시된 계산의 상단 부분을 살펴 보겠습니다. 표 8.3a, - 회귀 통계.

크기 R-제곱는 확실성 척도라고도 하며 결과 회귀선의 품질을 나타냅니다. 이 품질은 원본 데이터와 회귀 모델(계산된 데이터) 간의 일치 정도로 표현됩니다. 확실성의 척도는 항상 구간 내에 있습니다.

대부분의 경우 값은 R-제곱극단적이라고 불리는 이러한 값 사이에 있습니다. 0과 1 사이.

값이 R-제곱단일성에 가깝다는 것은 구성된 모델이 해당 변수의 거의 모든 변동성을 설명한다는 것을 의미합니다. 반대로 뜻은 R-제곱, 0에 가까우면 구성된 모델의 품질이 좋지 않음을 의미합니다.

이 예에서 확실성의 척도는 0.99673으로, 이는 회귀선이 원래 데이터에 매우 잘 맞는다는 것을 나타냅니다.

복수형 R - 다중 상관 계수 R - 독립 변수(X)와 종속 변수(Y)의 의존도를 나타냅니다.

복수형 R결정 계수의 제곱근과 같습니다. 이 수량은 0에서 1 사이의 값을 취합니다.

단순선형회귀분석에서는 복수형 R피어슨 상관 계수와 같습니다. 정말, 복수형 R우리의 경우에는 이전 예의 Pearson 상관 계수(0.998364)와 같습니다.

표 8.3b. 회귀계수

승산

표준 에러

t-통계량

Y교차점

가변 X 1

* 계산의 잘린 버전이 제공됩니다.

이제 제시된 계산의 중간 부분을 고려하십시오. 표 8.3b. 여기서 회귀 계수 b(2.305454545)와 세로축을 따른 변위가 제공됩니다. 상수 a(2.694545455).

계산을 바탕으로 회귀 방정식을 다음과 같이 작성할 수 있습니다.

Y= x*2.305454545+2.694545455

변수 간의 관계 방향은 회귀계수(계수 b)의 부호(음수 ​​또는 양수)에 따라 결정됩니다.

회귀계수의 부호가 양수이면 종속변수와 독립변수의 관계는 양수입니다. 우리의 경우 회귀계수의 부호는 양수이므로 관계도 양수입니다.

회귀계수의 부호가 음수이면 종속변수와 독립변수의 관계는 음수(역)입니다.

안에 표 8.3c. 출력 결과가 표시됩니다. 나머지. 이러한 결과를 보고서에 표시하려면 "회귀" 도구를 실행할 때 "잔차" 확인란을 활성화해야 합니다.

나머지 철회

표 8.3c. 나머지

관찰

예측된 Y

나머지

표준잔고

보고서의 이 부분을 사용하여 구성된 회귀선에서 각 점의 편차를 확인할 수 있습니다. 최대 절대값 나머지우리의 경우 - 0.778, 가장 작은 - 0.043. 이러한 데이터를 더 잘 해석하기 위해 원본 데이터의 그래프와 다음에 제시된 구성된 회귀선을 사용합니다. 쌀. 8.3. 보시다시피 회귀선은 원본 데이터의 값에 매우 정확하게 "맞춤"됩니다.

고려 중인 예는 매우 간단하며 선형 회귀선을 질적으로 구성하는 것이 항상 가능한 것은 아니라는 점을 고려해야 합니다.

쌀. 8.3.소스 데이터 및 회귀선

이미 알려진 독립변수의 값을 바탕으로 종속변수의 알려지지 않은 미래값을 추정하는 문제는 아직 고려되지 않은 채 남아있다. 예측 문제.

회귀 방정식이 있으면 예측 문제는 알려진 x 값을 사용하여 방정식 Y= x*2.305454545+2.694545455를 푸는 것으로 축소됩니다. 6단계 앞서 종속변수 Y를 예측한 결과를 제시합니다. 표 8.4.

표 8.4. Y 변수 예측 결과

Y(예상)

따라서 Microsoft Excel에서 회귀 분석을 사용한 결과 다음과 같습니다.

    회귀 방정식을 구축했습니다.

    변수 간의 관계의 형태와 방향을 확립했습니다. 이는 함수의 균일한 성장으로 표현되는 양의 선형 회귀입니다.

    변수 간의 관계 방향을 설정했습니다.

    결과 회귀선의 품질을 평가했습니다.

    원래 세트의 데이터에서 계산된 데이터의 편차를 볼 수 있었습니다.

    종속변수의 미래값을 예측합니다.

만약에 회귀 함수정의, 해석, 타당성이 검증되어 회귀분석의 정확성에 대한 평가가 요구사항을 만족한다면 구축된 모델과 예측값은 충분한 신뢰성을 가지고 있다고 볼 수 있다.

이렇게 해서 얻은 예측값은 예상할 수 있는 평균값이다.

이번 작업에서는 주요 특징을 살펴보았습니다. 기술통계그리고 그 중에는 다음과 같은 개념이 있습니다. 평균값,중앙값,최고,최저한의및 데이터 변동의 기타 특성.

개념도 간략하게 다루었습니다 배출. 고려된 특성은 소위 탐색적 데이터 분석과 관련이 있으며, 그 결론은 일반 모집단에 적용되지 않고 데이터 샘플에만 적용될 수 있습니다. 탐색적 데이터 분석은 인구에 대한 주요 결론을 얻고 가설을 형성하는 데 사용됩니다.

상관분석과 회귀분석의 기초와 그 업무, 실제 활용 가능성에 대해서도 논의했습니다.