통계적 유의 수준을 계산하는 방법. 통계적 유의 수준이 무엇인지 설명

일련의 측정에 의해 결정된 표본 분포 매개변수는 랜덤 변수이므로 일반 매개변수와의 편차도 랜덤합니다. 이러한 편차의 평가는 본질적으로 확률론적입니다. 통계 분석에서는 특정 오류의 확률만 나타낼 수 있습니다.

일반 매개변수에 대해 하자 경험에서 파생된 편견 없는 추정 *. 우리는 충분히 큰 확률 b를 할당하고(확률 b를 갖는 사건이 실질적으로 확실한 것으로 간주될 수 있도록) 그러한 값 e b를 찾습니다. = 에프(b) 무엇을 위해

교체시 발생하는 오류의 실질적으로 가능한 값의 범위 * , ±e b 가 됩니다. 절대값이 큰 오류는 작은 확률로만 나타납니다.

~라고 불리는 유의 수준. 그렇지 않으면 식 (4.1)은 매개변수의 참 값이 다음과 같은 확률로 해석될 수 있습니다. 안에 있다

. (4.3)

확률 b는 신뢰 수준그리고 얻어진 추정치의 신뢰성을 특징짓습니다. 간격 b= * ± e b가 호출됩니다. 신뢰 구간. 간격 경계 ¢ = * - e b 및 ¢¢ = * + e b가 호출됩니다. 신뢰 경계. 주어진 신뢰 수준에서의 신뢰 구간은 추정의 정확도를 결정합니다. 신뢰 구간의 값은 매개변수를 찾을 수 있는 신뢰 수준에 따라 다릅니다. 신뢰 구간 내: b 값이 클수록 구간이 커집니다. b(및 e b의 값). 실험 횟수의 증가는 일정한 신뢰확률로 신뢰구간이 감소하거나 신뢰구간을 유지하면서 신뢰확률이 증가하는 것으로 나타난다.

실제로는 일반적으로 신뢰 확률 값(0.9, 0.95 또는 0.99)을 고정한 다음 결과의 신뢰 구간을 결정합니다. 비. 신뢰 구간을 구성할 때 절대 편차 문제가 해결됩니다.

따라서 추정치의 분포 법칙을 알고 있다면 * , 신뢰 구간을 결정하는 작업은 간단하게 해결됩니다. 정규 분포 확률 변수의 수학적 기대치를 위한 신뢰 구간 구성을 고려하십시오. 엑스표본 크기에 대해 알려진 일반 표준 N. 기대에 대한 최상의 경계 는 평균의 표준 편차가 있는 표본 평균입니다.

.

라플라스 함수를 사용하여 다음을 얻습니다.

. (4.5)

신뢰 확률 b가 주어지면 Laplace 함수 표에서 값을 결정합니다(부록 1). . 그런 다음 수학적 기대에 대한 신뢰 구간은 다음 형식을 취합니다.

. (4.7)

(4.7)에서 신뢰 구간의 감소는 실험 횟수의 제곱근에 반비례함을 알 수 있습니다.

일반 분산을 알면 하나의 관찰에 대해서도 수학적 기대치를 추정할 수 있습니다. 정규 분포 확률 변수의 경우 엑스실험 결과 값은 엑스 1, 그러면 선택된 b에 대한 수학적 기대치에 대한 신뢰 구간은 다음 형식을 갖습니다.

어디 1-/2 - 표준 정규 분포의 분위수(부록 2).

등급분포법 * 수량의 분포 법칙에 따라 다름 엑스특히 매개변수 자체에서 . 이 어려움을 해결하기 위해 수학 통계에서 두 가지 방법이 사용됩니다.

1) 대략적인 - ~에서 N³ 50은 e b에 대한 식에서 알 수 없는 매개변수를 추정값으로 바꿉니다. 예를 들면 다음과 같습니다.

2) 확률 변수에서 * 추정된 매개변수에 의존하지 않는 분포 법칙인 다른 랜덤 변수 Q *로 이동합니다. , 그러나 표본 크기에만 의존합니다. N그리고 수량의 분포 법칙의 유형에 엑스. 이러한 종류의 양은 확률 변수의 정규 분포에 대해 가장 자세히 연구되었습니다. 대칭 분위수는 일반적으로 Q¢ 및 Q¢¢에 대한 신뢰 한계로 사용됩니다.

, (4.9)

또는 고려(4.2)

. (4.10)

4.2. 통계적 가설 검증, 유의성 검증,

첫 번째 및 두 번째 종류의 오류.

아래에 통계적 가설하나 또는 다른 확률 변수의 일반 모집단 분포에 대한 몇 가지 가정을 이해합니다. 가설 검정은 일부 통계 지표의 비교로 이해되며, 검증 기준 (중요성 기준) 주어진 가설이 사실이라는 가정하에 결정된 값으로 샘플에서 계산됩니다. 가설을 테스트할 때 일반적으로 일부 가설이 테스트됩니다. 시간대립 가설과 비교하여 0 시간 1 .

가설을 받아들일지 기각할지 결정하기 위해 유의 수준이 제공됩니다. 아르 자형. 가장 일반적으로 사용되는 유의 수준은 0.10, 0.05 및 0.01입니다. 이 확률에 따르면 추정치 Q *(유의성 기준) 분포에 대한 가설을 사용하여 분위수 신뢰 한계는 일반적으로 대칭 Q /2 및 Q1- /2 . Q 번호 /2 및 Q1- /2가 호출됩니다 가설의 임계 값; Q 값 *< Q/2 및 Q * > Q 1- /2 크리티컬을 형성


가설의 영역 (또는 가설을 수용하지 않는 영역) (그림 12).

쌀. 12.중요 영역 쌀. 13.통계 확인

가설. 가설.

샘플에서 찾은 Q 0이 Q 사이에 있는 경우 /2 및 Q1- /2 인 경우 가설은 임의의 값을 허용하므로 이를 기각할 근거가 없습니다. Q 0 의 값이 임계 영역에 속하면 이 가설에 따르면 사실상 불가능합니다. 그러나 그것이 나타난 이후로 가설 자체는 거부됩니다.

가설을 검증할 때 두 가지 유형의 오류가 발생할 수 있습니다. 제1종 오류그게 실제로 참인 가설을 기각. 이러한 오류의 확률은 허용되는 유의 수준보다 크지 않습니다. 제2종 오류그게 가설은 받아들여지지만 사실은 거짓이다.. 이 오류의 확률이 낮을수록 유의 수준이 높아집니다. 이는 기각된 가설의 수가 증가하기 때문입니다. 두 번째 종류의 오류 확률이 a이면 값 (1 - a)가 호출됩니다. 기준의 힘.

무화과에. 도 13은 2개의 가설에 대응하는 랜덤 변수 Q의 분포 밀도의 2개의 곡선을 나타낸다 시간 0과 시간하나 . 경험치를 통해 얻은 값이 Q > Q인 경우 , 그러면 가설은 기각됩니다. 시간 0이고 가설이 받아들여진다. 시간 1, 그리고 그 반대의 경우 Q< Q.

가설의 유효성에 해당하는 확률 밀도 곡선 아래의 면적 시간 Q 값의 오른쪽에 0 , 유의 수준과 같습니다. 아르 자형, 즉, 제1종 오류의 확률. 가설의 유효성에 해당하는 확률 밀도 곡선 아래의 면적 시간 Q의 왼쪽에 1 , 두 번째 종류의 오류 확률과 동일하고 Q의 오른쪽에 있습니다. - 기준의 힘 (1 - a). 따라서 더 많은 아르 자형, 더 (1 - a). 가설을 테스트할 때 가능한 모든 기준 중에서 주어진 유의 수준에서 제2종 오류 확률이 낮은 기준을 선택하려고 합니다..

일반적으로 가설을 검정할 때 최적의 유의 수준으로 다음을 사용합니다. = 0.05, 테스트 중인 가설이 주어진 유의 수준으로 수용되면 물론 그 가설은 실험 데이터와 일치하는 것으로 인식되어야 하기 때문입니다. 다른 한편, 이 유의 수준의 사용은 가설을 기각할 근거를 제공하지 않습니다.

예를 들어, 두 개의 값과 일부 샘플 매개변수가 발견되며 이는 일반 매개변수의 추정치로 간주될 수 있습니다. 1 및 2. 와 의 차이는 랜덤이고 일반 매개변수는 다음과 같다고 가정합니다. 1 및 2는 서로 같습니다. 1 = 2. 이 가설을 없는, 또는 귀무 가설. 이를 테스트하려면 와 의 불일치가 귀무 가설에서 유의한지 알아내야 합니다. 이를 위해 일반적으로 확률 변수 D = –를 조사하고 0과의 차이가 중요한지 확인합니다. 때로는 가치를 고려하는 것이 더 편리합니다 / 그것을 통일성과 비교함으로써.

귀무가설을 기각하고 두 가지로 나뉘는 대안을 받아들입니다. > 및< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется 일방적인, 확인하려면 다음을 사용하십시오. 일방적인중요성 기준(기존의 양측). 이 경우 임계 영역의 절반만 고려하면 됩니다(그림 12).

예를 들어, 아르 자형= 0.05 양면 기준, 임계값 Q 0.025 및 Q 0.975는 해당합니다. 즉, Q * 값을 취한 Q *는 유의미한 것으로 간주됩니다(비무작위)< Q 0.025 и Q * >Q 0.975 . 단측 기준을 사용하면 이러한 부등식 중 하나가 분명히 불가능합니다(예: Q *< Q 0.025) и значимыми будут лишь Q * >Q 0.975 . 마지막 부등식의 확률은 0.025이므로 유의 수준은 0.025가 됩니다. 따라서 단측 유의성 검정에 대해 동일한 임계값이 양측 유의성 검정에 사용되는 경우 이 값은 유의 수준의 절반에 해당합니다.

일반적으로 단측 검정의 경우 양측 검정과 동일한 유의 수준이 적용됩니다. 이러한 조건에서 두 검정 모두 첫 번째 종류의 동일한 오류를 제공하기 때문입니다. 이를 위해 단측 검정은 허용된 것보다 두 배의 유의 수준에 해당하는 양측 검정에서 파생되어야 합니다.. 단측 검정에 대한 유의 수준을 유지하려면 아르 자형= 0.05, 양측의 경우 아르 자형= 0.10, 임계값 Q 0.05 및 Q 0.95를 제공합니다. 이 중 단측 검정의 경우 예를 들어 Q 0.95가 유지됩니다. 단측 검정의 유의 수준은 0.05입니다. 양측 검정에 대한 동일한 유의 수준은 임계값 Q 0.975에 해당합니다. 하지만 Q 0.95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

통계에서 유의 수준은 수신(예측) 데이터의 정확성과 진실성에 대한 신뢰도를 반영하는 중요한 지표입니다. 이 개념은 사회 학적 연구에서 과학적 가설의 통계적 테스트에 이르기까지 다양한 분야에서 널리 사용됩니다.

정의

통계적 유의 수준(또는 통계적으로 유의한 결과)은 연구 지표가 무작위로 발생할 확률을 나타냅니다. 현상의 전반적인 통계적 유의성은 p-값(p-수준)으로 표현됩니다. 모든 실험이나 관찰에서 얻은 데이터는 샘플링 오류로 인해 발생했을 가능성이 있습니다. 이것은 특히 사회학에 해당됩니다.

즉, 통계적으로 유의한 값으로 무작위 발생 확률이 극히 낮거나 극단적인 경향이 있습니다. 이 맥락에서 극단적인 것은 귀무 가설(얻은 표본 데이터와의 일관성에 대해 테스트되는 가설)에서 통계의 편차 정도입니다. 과학적 관행에서 유의 수준은 데이터 수집 전에 선택되며 일반적으로 계수는 0.05(5%)입니다. 정확한 값이 중요한 시스템의 경우 0.01(1%) 이하일 수 있습니다.

배경

유의 수준의 개념은 1925년 영국의 통계학자이자 유전학자인 Ronald Fisher가 통계적 가설을 테스트하는 기술을 개발할 때 도입했습니다. 어떤 프로세스를 분석할 때 특정 현상의 특정 확률이 있습니다. "측정 오류" 개념에 속하는 확률의 작은(또는 명확하지 않은) 비율로 작업할 때 어려움이 발생합니다.

테스트하기에 충분히 구체적이지 않은 통계로 작업할 때 과학자들은 작은 값으로 작동하는 것을 "방지하는" 귀무 가설의 문제에 직면했습니다. Fisher는 계산에서 귀무 가설을 기각할 수 있는 편리한 샘플 컷오프로 5%(0.05)에서 이벤트 확률을 결정하는 시스템을 제안했습니다.

고정 계수 도입

1933년 저지 과학자 Neumann과 Egon Pearson은 논문에서 사전에(데이터 수집 전에) 특정 유의 수준을 설정할 것을 권장했습니다. 이러한 규칙의 사용 예는 선거 기간 동안 명확하게 볼 수 있습니다. 두 명의 후보가 있는데 그 중 하나는 매우 인기 있고 다른 하나는 잘 알려져 있지 않다고 가정합니다. 첫 번째 후보가 선거에서 승리할 것이 분명하고 두 번째 후보의 가능성은 0인 경향이 있습니다. 노력 - 그러나 평등하지 않음: 불가항력, 선정적인 정보, 예측된 선거 결과를 변경할 수 있는 예기치 않은 결정의 가능성이 항상 있습니다.

Neumann과 Pearson은 Fisher가 제안한 유의 수준 0.05(기호 α로 표시)가 가장 편리하다는 데 동의했습니다. 그러나 1956년 Fischer 자신은 이 값을 고정하는 데 반대했습니다. 그는 α의 수준이 특정 상황에 따라 설정되어야 한다고 믿었습니다. 예를 들어, 입자 물리학에서는 0.01입니다.

p-값

p-값이라는 용어는 1960년 Brownlee에 의해 처음 사용되었습니다. P-레벨(p-값)은 결과의 참과 반비례하는 지표입니다. 가장 높은 p-값은 변수 간의 표본 관계에서 가장 낮은 신뢰 수준에 해당합니다.

이 값은 결과 해석과 관련된 오류 확률을 반영합니다. p-값 = 0.05(1/20)라고 가정합니다. 표본에서 발견된 변수 간의 관계가 표본의 임의적 특성일 가능성이 5%임을 나타냅니다. 즉, 이 종속성이 없으면 평균적으로 20번의 연구마다 여러 유사한 실험을 통해 변수 간의 동일하거나 더 큰 종속성을 기대할 수 있습니다. 종종 p-수준은 오류 수준의 "여백"으로 간주됩니다.

그런데 p-값은 변수 간의 실제 관계를 반영하지 않고 가정 내에서 특정 평균값만 나타낼 수 있습니다. 특히, 데이터의 최종 분석은 이 계수의 선택된 값에 따라 달라집니다. p-level = 0.05이면 일부 결과가 있고 계수가 0.01이면 다른 결과가 있습니다.

통계적 가설 테스트

통계적 유의 수준은 가설을 테스트할 때 특히 중요합니다. 예를 들어, 양측 검정을 계산할 때 불합격 영역은 샘플링 분포의 양 끝에서 균등하게 분할되고(영 좌표 기준) 얻은 데이터의 진실이 계산됩니다.

특정 프로세스(현상)를 모니터링할 때 새로운 통계 정보가 이전 값에 비해 작은 변화를 나타내는 것으로 판명되었다고 가정합니다. 동시에 결과의 불일치는 작고 명확하지 않지만 연구에 중요합니다. 전문가는 딜레마에 직면해 있습니다. 변경 사항이 실제로 발생합니까 아니면 샘플링 오류(측정 부정확성)입니까?

이 경우 귀무가설이 적용되거나 기각됩니다(모든 것이 오류로 기록되거나 시스템의 변경이 기각됨). 문제를 해결하는 과정은 전체 통계적 유의성(p-값)과 유의성 수준(α)의 비율을 기반으로 합니다. p-레벨인 경우< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

사용 값

유의 수준은 분석된 자료에 따라 다릅니다. 실제로 다음과 같은 고정 값이 사용됩니다.

  • α = 0.1(또는 10%);
  • α = 0.05(또는 5%);
  • α = 0.01(또는 1%);
  • α = 0.001(또는 0.1%).

더 정확한 계산이 필요할수록 계수 α가 더 작게 사용됩니다. 당연히 물리학, 화학, 제약 및 유전학의 통계 예측은 정치 과학 및 사회학보다 더 높은 정확도를 요구합니다.

특정 영역의 중요도 임계값

입자 물리학 및 제조와 같은 고정밀 분야에서 통계적 유의성은 정규 확률 분포(가우스 분포)에 대한 표준 편차(시그마 - σ 계수로 표시)의 비율로 표현되는 경우가 많습니다. σ는 수학적 기대치를 기준으로 특정 수량 값의 확산을 결정하는 통계 지표입니다. 이벤트 확률을 표시하는 데 사용됩니다.

지식 분야에 따라 계수 σ는 크게 다릅니다. 예를 들어, 힉스 입자의 존재를 예측할 때 매개변수 σ는 5(σ=5)와 같으며 p-값=1/350만 영역에 해당합니다.

능률

계수 α와 p-값이 정확한 특성이 아니라는 점을 고려해야 합니다. 연구 중인 현상의 통계에서 유의 수준이 무엇이든, 가설을 수용하기 위한 무조건적인 근거는 아닙니다. 예를 들어, α 값이 작을수록 가설이 설정될 가능성이 더 커집니다. 그러나 오류의 위험이 있어 연구의 통계적 검정력(유의성)을 감소시킨다.

통계적으로 유의미한 결과에만 집중하는 연구자는 잘못된 결론을 내릴 수 있습니다. 동시에 가정(실제로 α 및 p-값의 값임)을 적용하기 때문에 작업을 다시 확인하기가 어렵습니다. 따라서 통계적 유의성 계산과 함께 다른 지표인 통계적 효과의 크기를 결정하는 것이 항상 권장됩니다. 효과 크기는 효과의 강도를 정량적으로 측정한 것입니다.

값이 호출됩니다. 통계적으로 유의미한, 순전히 무작위로 발생하거나 더 극단적 인 값이 발생할 확률이 작은 경우. 여기서 극단은 귀무가설과의 편차 정도입니다. 차이가 존재하지 않는다고 가정할 경우 발생할 가능성이 없는 데이터가 있는 경우 차이는 "통계적으로 유의미한" 것으로 간주됩니다. 이 표현은 이 차이가 단어의 일반적인 의미에서 크거나, 중요하거나, 중요해야 함을 의미하지 않습니다.

검정의 유의 수준은 빈도 통계에서 가설 검정의 전통적인 개념입니다. 실제로 귀무 가설이 참인 경우 귀무 가설을 기각하기로 결정할 확률로 정의됩니다(결정은 제1종 오류 또는 위양성 결정으로 알려짐). 결정 프로세스는 종종 p-값에 의존합니다. ("pi-값"으로 읽음): p-값이 유의 수준보다 작으면 귀무 가설이 기각됩니다. p-값이 작을수록 검정 통계량이 더 유의하다고 합니다. p-값이 작을수록 귀무가설을 기각하는 이유가 더 강해집니다.

유의 수준은 일반적으로 그리스 문자 α(알파)로 표시됩니다. 인기 있는 유의 수준은 5%, 1% 및 0.1%입니다. 검정에서 α-수준보다 작은 p-값이 생성되면 귀무 가설이 기각됩니다. 이러한 결과를 비공식적으로 "통계적으로 유의미한"이라고 합니다. 예를 들어, 누군가가 "일어난 일이 1000분의 1에 해당하는 우연의 일치"라고 말하면 0.1% 유의 수준을 의미합니다.

α 수준의 다른 값에는 장점과 단점이 있습니다. α-수준이 작을수록 이미 설정된 대립 가설이 유의하다는 확신을 더 많이 갖지만 거짓 귀무 가설(제2종 오류 또는 "거짓 음성 결정")을 기각하지 않을 위험이 더 크기 때문에 통계적 검정력이 낮아집니다. α 수준의 선택은 필연적으로 유의성과 검정력 사이의 절충을 필요로 하므로 제1종 오류 확률과 제2종 오류 확률 사이의 절충이 필요합니다. 국내에서 과학 논문종종 "통계적 유의성"이라는 용어 대신 잘못된 용어 "유의성"이 사용됩니다.

또한보십시오

메모

조지 카셀라, 로저 L. 버거가설 검정 // 통계적 추론 . -두번째 버전. - Pacific Grove, CA: Duxbury, 2002. - S. 397. - 660 p. - ISBN 0-534-24312-6


위키미디어 재단. 2010년 .

다른 사전에 "중요성 수준"이 무엇인지 확인하십시오.

    숫자가 너무 작아서 단일 실험에서 확률 α가 있는 사건이 발생하지 않을 것이 거의 확실하다고 간주할 수 있습니다. 일반적으로 U. z. 0.05, 0.01 및 특수 정확도 0.005 등으로 임의로 고정됩니다. 일하다… … 지질 백과사전

    유의 수준- 통계적 기준("알파 수준"이라고도 하며 그리스 문자로 표시됨)은 제1종 오류 확률(실제로 참일 때 귀무 가설을 기각할 확률)의 상한입니다. 일반적인 값은 ... 사회통계사전

    영어 수준, 중요성; 독일 사람 중요한 의미. 위험 정도는 연구자가 샘플 데이터를 기반으로 한 가설, 엑스트라의 오류에 대해 잘못된 결론을 내릴 수 있다는 것입니다. 안티나지. 2009년 사회학 백과사전 ... 사회학 백과사전

    유의 수준- - [L.G. 스멘코. 정보 기술의 영어 러시아어 사전. M .: GP TsNIIS, 2003.] 주제 정보 기술 일반 EN 중요도 ... 기술 번역가 핸드북

    유의 수준- 3.31 유의 수준 α: 해당 가설이 참일 때 통계적 가설을 기각할 확률의 상한을 나타내는 주어진 값. 출처: GOST R ISO 12491 2011: 건축 자재 및 제품 ... ... 규범 및 기술 문서 용어 사전 참조 책

    유의 수준- 샘플 데이터를 기반으로 검증된 특징 분포에 대한 통계적 가설에 대한 잘못된 결론의 확률을 반영하는 수학적 통계의 개념. 충분한 수준의 심리학 연구에서 .... 현대의 교육 과정: 기본 개념 및 용어

    유의 수준- reikšmingumo lygis statusas T sritis automatika atitikmenys: engl. 유의 수준 vok. Signifikanzniveau, n rus. 유의 수준, m pranc. niveau de signifiance, m … Automatikos terminų žodynas

    유의 수준- reikšmingumo lygis statusas T sritis fizika atitikmenys: engl. 중요성 수준; 유의 수준 vok. Sicherheitsschwelle, f rus. 유의 수준, 프랑. niveau de meaning, m … Fizikos terminų žodynas

    통계 테스트, 유의 수준 참조... 위대한 소비에트 백과사전

    유의 수준- 의미, 수준을 참조하십시오 ... 사전심리학에서

서적

  • "일급비밀" . Lubyanka - 국가의 상황에 대해 스탈린에게 (1922-1934). 볼륨 4. 파트 1,. 다권 기초논문 발간 - 정보 리뷰및 OGPU 요약 - 과학적 중요성, 가치, 내용 및 범위 면에서 고유합니다. 이 역사적인…
  • 전문 교육 품질 관리 시스템의 도구로서의 교육 프로그램, Tkacheva Galina Viktorovna, Logachev Maxim Sergeevich, Samarin Yury Nikolaevich. 모노그래프는 전문 교육 프로그램의 내용을 구성하는 기존 관행을 분석합니다. 장소, 구조, 내용 및 중요성 수준이 결정됩니다 ...

p-값(eng.) - 통계적 가설을 테스트할 때 사용되는 값입니다. 사실 이것은 귀무가설(제1종 오류)을 기각할 때의 오류 확률입니다. P-값을 사용한 가설 검정은 분포의 임계값을 통해 기존 검정 절차의 대안입니다.

일반적으로 P-값은 주어진 분포(귀무 가설 하에서 검정 통계량의 분포)가 있는 확률 변수가 검정 통계량의 실제 값보다 작지 않은 값을 취할 확률과 같습니다. 위키피디아.

다시 말해, p-값은 계산된 검정 통계량이 귀무 가설의 기각으로 이어지는 최소 유의 수준(즉, 참 가설을 기각할 확률)입니다. 일반적으로 p-값은 일반적으로 허용되는 표준 유의 수준 0.005 또는 0.01과 비교됩니다.

예를 들어 표본에서 계산된 검정 통계량의 값이 p = 0.005에 해당하면 가설이 참일 확률이 0.5%임을 나타냅니다. 따라서 p-값이 작을수록 귀무 가설을 기각하는 "강도"가 증가하고 결과의 예상 유의성이 증가하므로 더 좋습니다.

이에 대한 흥미로운 설명은 Habré에 있습니다.

통계 분석은 블랙박스처럼 보이기 시작했습니다. 입력은 데이터, 출력은 주요 결과 테이블 및 p-값입니다.

p-값은 무엇을 말합니까?

피비린내 나는 컴퓨터 게임에 대한 중독과 실생활에서의 공격성 사이에 관계가 있는지 알아내기로 결정했다고 가정해 봅시다. 이를 위해 두 그룹의 학생이 무작위로 구성되었으며 각 그룹은 100 명으로 구성되었습니다 (1 그룹 - 슈팅 게임 팬, 두 번째 그룹 - 컴퓨터 게임을하지 않음). 예를 들어, 동료와의 싸움 횟수는 공격성의 지표로 작용합니다. 우리의 상상의 연구에서 학생 도박꾼 그룹이 실제로 동료들과 눈에 띄게 더 자주 충돌하는 것으로 나타났습니다. 그러나 결과 차이가 얼마나 통계적으로 유의한지 어떻게 알 수 있습니까? 어쩌면 우리는 우연히 관찰된 차이를 얻었을까요? 이러한 질문에 답하기 위해 p-값이 사용됩니다. 이는 실제로 일반 모집단에 차이가 없는 경우 이와 같거나 더 뚜렷한 차이를 얻을 확률입니다. 다시 말해, 실제로 컴퓨터 게임이 어떤 식으로든 공격성에 영향을 미치지 않는다는 전제 하에, 이것은 우리 그룹 간에 그러한 또는 훨씬 더 강력한 차이를 얻을 확률입니다. 그렇게 어렵게 들리지 않습니다. 그러나 이 특정 통계는 종종 잘못 해석됩니다.

p-값 예

그래서 우리는 표준 t-검정(또는 비모수 카이 검정 - 이 상황에서 더 적절한 것의 제곱)을 사용하여 공격성 수준의 측면에서 두 그룹의 학생을 서로 비교하고 탐내는 p- 유의 수준은 0.05보다 작습니다(예: 0.04). 그러나 결과로 나오는 p-significance 값은 실제로 무엇을 알려줍니까? 따라서 p-값이 실제로 일반 모집단에 차이가 없는 경우 이와 같거나 더 확연한 차이가 발생할 확률인 경우 올바른 설명은 무엇이라고 생각하십니까?

1. 컴퓨터 게임은 96% 확률로 공격적 행동의 원인입니다.
2. 공격성과 컴퓨터 게임이 관련이 없을 확률은 0.04입니다.
3. 유의 p-수준이 0.05보다 크면 공격성과 컴퓨터 게임이 어떤 식으로든 관련이 없음을 의미합니다.
4. 이러한 차이가 우연히 발생할 확률은 0.04입니다.
5. 모든 진술이 틀립니다.

다섯 번째 옵션을 선택한 경우 절대적으로 옳습니다! 그러나 수많은 연구에서 알 수 있듯이 데이터 분석에 상당한 경험이 있는 사람들도 종종 p-값을 잘못 해석합니다.

각 답변을 순서대로 살펴보겠습니다.

첫 번째 진술은 상관 오류의 예입니다. 두 변수가 유의하게 관련되어 있다는 사실은 원인과 결과에 대해 아무 것도 알려주지 않습니다. 아마도 컴퓨터 게임을 하는 데 시간을 보내는 것을 선호하는 더 공격적인 사람들이고 사람들을 더 공격적으로 만드는 것은 컴퓨터 게임이 아닙니다.

이것은 더 흥미로운 진술입니다. 문제는 우리가 처음에는 실제로 차이가 없다는 것을 당연하게 여깁니다. 그리고 이것을 염두에 두고 p-값을 계산합니다. 따라서 올바른 해석은 다음과 같습니다. "공격성과 컴퓨터 게임이 어떤 식으로든 관련이 없다고 가정할 때 그러한 또는 훨씬 더 뚜렷한 차이를 얻을 확률은 0.04입니다."

하지만 사소한 차이가 있다면 어떨까요? 이것은 연구된 변수 사이에 관계가 없다는 것을 의미합니까? 아니요, 단지 차이가 ​​있을 수 있음을 의미할 뿐이지만 결과에서는 이를 감지할 수 없었습니다.

이것은 p-값 자체의 정의와 직접 관련이 있습니다. 0.04는 이러한 차이 또는 훨씬 더 극단적인 차이가 발생할 확률입니다. 원칙적으로 우리의 실험에서와 같은 차이를 정확히 얻을 확률을 추정하는 것은 불가능합니다!

다음은 p-값과 같은 지표의 해석에서 숨길 수 있는 함정입니다. 따라서 주요 통계 지표의 분석 및 계산 방법의 기본 메커니즘을 이해하는 것이 매우 중요합니다.

p-값을 찾는 방법은 무엇입니까?

1. 실험의 예상 결과 결정

일반적으로 과학자들은 실험을 수행할 때 "정상" 또는 "전형적"으로 간주해야 할 결과에 대한 아이디어를 이미 가지고 있습니다. 이것은 과거 실험의 실험 결과, 신뢰할 수 있는 데이터 세트, 과학 문헌의 데이터를 기반으로 하거나 과학자가 다른 출처를 기반으로 할 수 있습니다. 실험에 대해 예상 결과를 정의하고 숫자로 표현하십시오.

예: 예를 들어, 이전 연구에서는 귀하의 국가에서 빨간색 자동차가 파란색 자동차보다 과속 딱지를 받을 가능성이 더 높다는 것을 보여주었습니다. 예를 들어, 평균 점수는 파란색 자동차보다 빨간색 자동차에 대한 선호도가 2:1임을 보여줍니다. 우리는 경찰이 귀하의 도시에서 자동차 색상에 대해 동일한 편견을 갖고 있는지 확인하고자 합니다. 이를 위해 우리는 과속으로 부과되는 벌금을 분석할 것입니다. 빨간색 또는 파란색 자동차에 무작위로 150장의 과속 딱지를 발행한 경우, 우리 도시의 경찰이 다음과 같이 자동차 색상에 편향되어 있다면 빨간색 자동차에 100개, 파란색 자동차에 50개의 과속 티켓이 발행될 것으로 예상합니다. 전국에서 관찰된다.

2. 실험의 관찰 가능한 결과 결정

예상 결과를 결정했으므로 이제 실제(또는 "관찰된") 값을 실험하고 찾아야 합니다. 이 결과를 숫자로 다시 나타내야 합니다. 우리가 실험 조건을 만들고 관찰된 결과가 예상한 것과 다른 경우 두 가지 가능성이 있습니다. 이것은 우연히 발생했거나 실험에 의해 정확하게 발생했습니다. p-값을 찾는 목적은 관찰된 결과가 예상된 결과와 다른지 여부를 정확하게 결정하여 "귀무 가설"(실험 변수와 관찰된 변수 사이에 관계가 없다는 가설)을 기각할 수 없는 방식으로 결정하는 것입니다. 결과.

예: 예를 들어, 우리 도시에서 빨간색 또는 파란색 자동차에 발행된 150개의 과속 딱지를 무작위로 선택했습니다. 우리는 90장의 티켓이 빨간 차량에, 60매가 파란 차량에 발행되었다고 결정했습니다. 이는 각각 100 및 50인 예상 결과와 다릅니다. 우리의 실험(이 경우 데이터 소스를 국가에서 도시로 변경)이 결과에 이러한 변화를 일으켰습니까, 아니면 우리 시 경찰이 국가 평균과 정확히 같은 방식으로 편향되어 있고 무작위 편차만 보입니까? p-값은 이를 결정하는 데 도움이 됩니다.

3. 실험의 자유도를 결정하십시오.

자유도 수는 실험의 변동성 정도이며 탐색 중인 범주 수에 따라 결정됩니다. 자유도 수에 대한 방정식은 자유도 수 = n-1입니다. 여기서 "n"은 실험에서 분석 중인 범주 또는 변수의 수입니다.

예: 우리 실험에는 두 가지 범주의 결과가 있습니다. 하나는 빨간색 자동차에 대한 범주이고 다른 하나는 파란색 자동차에 대한 범주입니다. 따라서 우리의 실험에서는 2-1 = 1 자유도를 갖습니다. 빨간색, 파란색 및 녹색 자동차를 비교하면 자유도가 2가 되는 식입니다.

4. 카이제곱 검정을 사용하여 예상 결과와 관찰 결과 비교

카이제곱("x2"로 표기)은 실험의 기대값과 관측값의 차이를 측정하는 수치입니다. 카이제곱 방정식은 x2 = Σ((o-e)2/e)입니다. 여기서 "o"는 관측값이고 "e"는 기대값입니다. 가능한 모든 결과에 대해 주어진 방정식의 결과를 합산하십시오(아래 참조).

이 방정식에는 합산 연산자 Σ(시그마)가 포함됩니다. 즉, 가능한 각 결과에 대해 ((|o-e|-.05)2/e)를 계산하고 숫자를 더하여 카이제곱 값을 얻어야 합니다. 이 예에서는 두 가지 가능한 결과가 있습니다. 패널티를 받은 차는 빨간색 또는 파란색입니다. 따라서 우리는 ((o-e)2/e)를 두 번 계산해야 합니다. 한 번은 빨간 차에 대해, 한 번은 파란 차에 대해 계산해야 합니다.

예: 기대값과 관측값을 방정식 x2 = Σ((o-e)2/e)에 대입해 보겠습니다. 합산 연산자 때문에 ((o-e)2/e)를 두 번 계산해야 함을 기억하십시오. 한 번은 빨간 차에, 한 번은 파란 차에 대해 계산합니다. 우리는 이 작업을 다음과 같이 할 것입니다:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. 중요도 수준 선택

이제 실험에서 자유도의 수와 카이제곱 검정의 값을 알았으므로 p-값을 찾기 전에 한 가지 더 수행해야 합니다. 중요도를 결정해야 합니다. 말하는 평범한 언어, 유의 수준은 결과에 대한 확신 정도를 나타냅니다. 유의성에 대한 낮은 값은 실험 결과가 우연히 얻은 낮은 확률에 해당하며 그 반대의 경우도 마찬가지입니다. 유의 수준은 소수(예: 0.01)로 기록되며, 이는 실험 결과를 우연히 얻었을 확률(이 경우 확률은 1%)에 해당합니다.

일반적으로 과학자들은 실험의 유의 수준을 0.05 또는 5%로 설정합니다. 즉, 이러한 유의성 기준을 충족하는 실험 결과는 순전히 우연에 의해 5%의 확률로 얻어질 수 있습니다. 즉, 우연이 아니라 과학자가 실험 변수를 어떻게 조작했는지에 따라 결과가 발생할 확률이 95%입니다. 대부분의 실험에서 두 변수 사이의 관계 존재에 대한 95% 신뢰는 두 변수가 서로 "정말" 관련되어 있다고 간주하기에 충분합니다.

예: 빨간색과 파란색 자동차가 있는 예의 경우 과학자 간의 규칙을 따르고 유의 수준을 0.05로 설정하겠습니다.

6. 카이제곱 분포 데이터시트를 사용하여 p-값 찾기

과학자와 통계학자는 큰 스프레드시트를 사용하여 실험의 p-값을 계산합니다. 테이블 데이터는 일반적으로 자유도 수에 해당하는 왼쪽에 세로 축이 있고 p-값에 해당하는 위쪽에 가로 축이 있습니다. 표의 데이터를 사용하여 먼저 자유도를 찾은 다음 카이제곱 값보다 큰 첫 번째 값을 찾을 때까지 왼쪽에서 오른쪽으로 계열을 살펴봅니다. 열 상단에서 해당 p-값을 확인합니다. 당신의 p-값은 이 숫자와 다음 숫자(당신의 왼쪽에 있는 것) 사이에 있습니다.

카이제곱 분포표는 여러 출처에서 얻을 수 있습니다(여기 이 링크에서 찾을 수 있음).

예: 카이-제곱 값은 3이었습니다. 실험에 1자유도만 있다는 것을 알고 있으므로 맨 처음 행을 선택합니다. 카이-제곱 테스트 값인 3보다 큰 값을 만날 때까지 이 선을 따라 왼쪽에서 오른쪽으로 이동합니다. 우리가 찾은 첫 번째 것은 3.84입니다. 열을 살펴보면 해당 p-값이 0.05임을 알 수 있습니다. 이는 p-값이 0.05에서 0.1 사이임을 의미합니다(표에서 다음으로 높은 p-값).

7. 귀무가설을 기각할지 유지할지 결정

실험에 대한 대략적인 p-값을 결정했으므로 실험의 귀무 가설을 기각할지 여부를 결정해야 합니다(이는 조작한 실험 변수가 관찰한 결과에 영향을 미치지 않는다는 가설임을 기억하십시오). p-값이 유의 수준보다 작으면 축하합니다. 조작한 변수와 관찰한 결과 사이에 매우 가능성 있는 관계가 있음을 증명한 것입니다. p-값이 유의 수준보다 높으면 관찰한 결과가 순수한 우연에 의한 것인지 변수의 조작으로 인한 것인지 확신할 수 없습니다.

예: p-값은 0.05에서 0.1 사이입니다. 이것은 분명히 0.05보다 작지 않으므로 불행히도 귀무 가설을 기각할 수 없습니다. 이는 우리 도시의 경찰이 전국 평균과 상당히 다른 확률로 빨간색과 파란색 차량에 티켓을 발부하고 있다고 말할 수 있는 최소 95% 확률에 도달하지 않았음을 의미합니다.

즉, 우리가 관찰한 결과가 위치 변경(전국이 아닌 도시 분석)의 결과가 아니라 단순한 사고일 확률이 5-10%입니다. 우리는 5% 미만의 정확도를 요구했기 때문에 우리 도시의 경찰이 빨간 차에 덜 편향되어 있다고 확신할 수 없습니다. 그렇지 않을 가능성은 작지만(통계적으로 유의미합니다) 있습니다.

심리학의 용어 논문, 졸업장 및 석사 논문의 통계 계산 결과 표에는 항상 "p"표시가 있습니다.

예를 들어, 연구 목표청소년기 남아와 여아의 삶의 의미 수준의 차이를 계산하였다.

평균

Mann-Whitney U 테스트

통계적 유의 수준(p)

소년(20명)

소녀들

(5명)

목표

28,9

35,2

17,5

0,027*

프로세스

30,1

32,0

38,5

0,435

결과

25,2

29,0

29,5

0,164

통제의 궤적 - "나"

20,3

23,6

0,067

통제의 장소 - "생명"

30,4

33,8

27,5

0,126

삶의 의미

98,9

111,2

0,103

* - 차이가 통계적으로 유의함(p0,05)

오른쪽 열은 "p"의 값을 나타내며 그 값에 따라 소년과 소녀의 미래 삶의 의미의 차이가 유의한지 여부를 결정할 수 있습니다. 규칙은 간단합니다.

  • 통계적 유의 수준 "p"가 0.05보다 작거나 같으면 차이가 유의하다는 결론을 내립니다. 위의 표에서 소년과 소녀의 차이는 지표 "목표"와 관련하여 중요합니다 - 미래의 삶의 의미. 여아의 경우 이 지표가 남아보다 통계적으로 유의하게 높습니다.
  • 통계적 유의 수준 "p"가 0.05보다 크면 차이가 유의하지 않다고 결론지었습니다. 위의 표에서 남학생과 여학생의 차이는 첫 번째 지표를 제외한 다른 모든 지표에서 유의미하지 않습니다.

통계적 유의 수준 "p"는 어디에서 왔습니까?

통계적 유의 수준이 계산됩니다. 통계 프로그램통계적 기준의 계산과 함께. 이러한 프로그램에서 통계적 유의 수준에 대한 임계 한계를 설정할 수도 있으며 해당 지표는 프로그램에서 강조 표시됩니다.

예를 들어, STATISTICA 프로그램에서 상관 관계를 계산할 때 p 한계를 0.05와 같이 설정할 수 있으며 통계적으로 중요한 모든 관계는 빨간색으로 강조 표시됩니다.

통계 기준 계산이 수동으로 수행되는 경우 얻은 기준의 값을 임계 값과 비교하여 유의 수준 "p"가 결정됩니다.

통계적 유의 수준 "p"는 무엇을 나타냅니까?

모든 통계 계산은 근사치입니다. 이 근사값의 수준이 "r"을 결정합니다. 유의 수준은 0.023 또는 0.965와 같이 소수로 기록됩니다. 이 숫자에 100을 곱하면 p 지표가 백분율로 표시됩니다(2.3% 및 96.5%). 이 비율은 공격성과 불안 사이의 관계에 대한 우리의 가정이 틀릴 확률을 반영합니다.

그건, 상관 계수공격성과 불안 사이의 0.58은 0.05의 통계적 유의 수준 또는 5% 오류 확률에서 획득됩니다. 이것이 정확히 무엇을 의미합니까?

우리가 발견한 상관관계는 우리 샘플에서 다음 패턴이 관찰됨을 의미합니다. 공격성이 높을수록 불안이 높아집니다. 즉, 우리가 두 명의 십대를 데려가면 한 사람이 다른 사람보다 더 높은 불안을 가질 것이며, 양의 상관 관계를 알면이 십대도 더 높은 공격성을 가질 것이라고 말할 수 있습니다. 그러나 모든 것이 통계에서 근사치이므로 이것을 언급하면서 우리는 실수를 할 수 있다는 것을 인정하고 오류의 확률은 5%입니다. 즉, 이 청소년 그룹에서 20번의 이러한 비교를 수행하면 불안을 알면서 공격성 수준에 대한 예측을 한 번 실수할 수 있습니다.

통계적 유의성 수준: 0.01 또는 0.05

통계적 유의 수준은 오류 확률을 반영합니다. 따라서 p=0.01에서 결과가 p=0.05에서보다 더 정확합니다.

심리학 연구에서는 결과의 두 가지 허용 가능한 수준의 통계적 유의성이 인정됩니다.

p=0.01 - 결과의 높은 신뢰도 비교 분석또는 관계 분석;

p=0.05 - 충분한 정확도.

이 글이 심리학 논문을 스스로 작성하는 데 도움이 되길 바랍니다. 도움이 필요하면 (심리학의 모든 유형의 작업, 통계 계산)에 문의하십시오.