統計的有意水準の計算方法。 統計的有意水準とは何かを説明する

一連の測定によって決定されるサンプル分布パラメーターは確率変数であるため、一般的なパラメーターからの偏差もランダムになります。 これらの偏差の評価は、本質的に確率論的です。統計分析では、特定のエラーの確率のみを示すことができます。

一般的なパラメータを考えてみましょう 経験に基づく偏りのない推定 *。 十分に大きな確率 b を割り当て (確率 b のイベントが実質的に確実であると見なすことができるように)、そのような値 e b を見つけます。 = (b) そのために

交換時に発生する誤差の実用的な値の範囲 の上 ※、±e b となります。 絶対値が大きい誤差は、わずかな確率でしか現れません。

と呼ばれる 重要なレベル. それ以外の場合、式 (4.1) は、パラメーターの真の値が 内にあります

. (4.3)

確率 b と呼ばれる 信頼水準得られた推定値の信頼性を特徴付けます。 間隔 b= a※±ebといいます 信頼区間. 間隔の境界 a¢ = a* - e b および a¢¢ = a* + e b が呼び出されます 信頼境界. 特定の信頼レベルでの信頼区間によって、推定の精度が決まります。 信頼区間の値は、パラメータが見つかることが保証されている信頼レベルによって異なります 信頼区間内: b の値が大きいほど、区間が大きくなります b (および e b の値)。 実験数の増加は、一定の信頼確率で信頼区間が減少するか、または信頼区間を維持しながら信頼確率が増加することで明らかになります。

実際には、通常、信頼確率の値 (0.9、0.95 または 0.99) を固定してから、結果の信頼区間を決定します。 b. 信頼区間を作成すると、絶対偏差の問題が解決されます。

したがって、推定値の分布法則がわかっている場合 * の場合、信頼区間を決定するタスクは単純に解決されます。 正規分布確率変数の数学的期待値に対する信頼区間の構築を考えてみましょう バツサンプル サイズに対する既知の一般的な標準 s を使用 n. 期待値の最良の境界 メートル平均の標準偏差を持つサンプル平均

.

ラプラス関数を使用すると、

. (4.5)

信頼確率 b が与えられると、ラプラス関数の表から値を決定します (付録 1) . 次に、数学的期待値の信頼区間は次の形式になります。

. (4.7)

(4.7) から、信頼区間の減少は実験回数の平方根に反比例することがわかります。

一般的な分散を知ることで、1 つの観測に対しても数学的期待値を推定できます。 正規分布確率変数の場合 バツ実験の結果、値 バツ 1 の場合、選択された b の数学的期待値の信頼区間は次の形式になります。

どこ 1-p/2 - 標準正規分布の分位数 (付録 2)。

等級配分法 ※分量分布法による バツ特に、パラメータ自体について . この問題を回避するために、数学的統計では 2 つの方法が使用されます。

1) おおよそ - で n³ 50 e b の式の未知のパラメーターを推定値に置き換えます。たとえば、次のようになります。

2) 確率変数から * 別の確率変数 Q * に移動し、その分布法則は推定されたパラメーターに依存しません 、しかしサンプルサイズのみに依存します。 nそして量の分布法則のタイプについて バツ. この種の量は、確率変数の正規分布について最も詳細に研究されています。 対称分位数は通常、Q¢ および Q¢¢ の信頼限界として使用されます。

, (4.9)

または考慮して(4.2)

. (4.10)

4.2. 統計的仮説の検定、有意性検定、

第 1 種および第 2 種のエラー。

統計的仮説 1つまたは別の確率変数の一般母集団の分布に関するいくつかの仮定が理解されています。 仮説検定は、いくつかの統計指標の比較として理解されています。 検証基準 (有意性基準) サンプルから計算され、その値は、与えられた仮説が真であるという仮定の下で決定されます。 仮説を検証する場合、通常、いくつかの仮説が検証されます。 対立仮説と比較して 0 1 .

仮説を受け入れるか棄却するかを決定するために、有意水準が与えられます。 R. 最も一般的に使用される有意水準は、0.10、0.05、および 0.01 です。 この確率によると、推定値 Q * (有意基準) の分布に関する仮説を使用して、分位点の信頼限界が検出されます。原則として、対称 Q p/2 と Q 1- p/2 . Qナンバー p/2 と Q 1- p/2 が呼び出されます 仮説の臨界値; Q値*< Qp/2 および Q * > Q 1- p/2 クリティカルを形成する


仮説の領域(または仮説を受け入れない領域)(図12)。

米。 12.クリティカルエリア 米。 13.統計のチェック

仮説。 仮説。

サンプルで見つかった Q 0 が Q の間にある場合 p/2 と Q 1- p/2 の場合、仮説はそのような値をランダムであると認めているため、それを棄却する根拠はありません。 Q 0 の値が臨界領域に入る場合、この仮説によれば、実際には不可能です。 しかし、それが現れて以来、仮説自体は棄却されています。

仮説を検証するときに発生する可能性のあるエラーには、2 つのタイプがあります。 タイプ I エラーそれですか 実際に正しい仮説を棄却する. このようなエラーの確率は、許容される有意水準を超えません。 タイプ II エラーそれですか 仮説は受け入れられますが、実際には間違っています. 棄却される仮説の数が増えるため、このエラーの確率は低く、有意水準が高くなります。 第 2 種のエラーの確率が a の場合、値 (1 - a) が呼び出されます。 基準の力.

図上。 図13は、2つの仮説に対応する確率変数Qの分布密度の2つの曲線を示す 0 と 1. 経験から得た値が Q > Q なら pとなり、仮説は棄却されます。 0 で仮説は受け入れられる Q の場合、 1 、およびその逆< Qp.

仮説の妥当性に対応する確率密度曲線の下の領域 Q値の右側に0 p、有意水準に等しい R、つまり、第 1 種のエラーの確率です。 仮説の妥当性に対応する確率密度曲線の下の領域 Qの左に1つ p、第 2 種誤り確率 a に等しく、Q の右側 p- 基準の検出力 (1 - a)。 したがって、より R、より多くの (1 - a)。 仮説を検証するとき、すべての可能な基準から、特定の有意水準でタイプ II エラーの可能性が低い基準を選択しようとします。.

通常、仮説を検証する際の最適な有意水準として、 p= 0.05、テストされている仮説が特定のレベルの有意性で受け入れられた場合、その仮説はもちろん実験データと一致していると認識されるべきであるため; 一方、このレベルの有意性の使用は、仮説を棄却する根拠にはなりません。

たとえば、 の 2 つの値といくつかのサンプル パラメーターが見つかります。これは、一般的なパラメーターの推定値と見なすことができます。 1および 2. と の差はランダムであり、一般的なパラメータは 1および 2 は互いに等しい、つまり 1 = 2. この仮説は ヌル、 また 帰無仮説. それをテストするには、帰無仮説の下で と の間の不一致が有意かどうかを確認する必要があります。 これを行うには、通常、確率変数 D = – を調査し、ゼロとの差が有意かどうかを確認します。 値を検討する方が便利な場合があります / 単位と比較することによって。

帰無仮説を棄却し、代わりの仮説を受け入れます。これは次の 2 つに分かれます。 > と< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется 一方的な、それを確認するには、使用します 一方的な有意性基準 (従来の基準とは対照的に、 二国間)。 この場合、重要な領域の半分の 1 つだけを考慮する必要があります (図 12)。

例えば、 R= 0.05 両側基準では、臨界値 Q 0.025 と Q 0.975 が対応します。つまり、値 Q * を取った Q * は有意 (非ランダム) と見なされます。< Q 0.025 и Q * >Q 0.975 . 一方的な基準では、これらの不等式の 1 つが明らかに不可能です (たとえば、Q *< Q 0.025) и значимыми будут лишь Q * >Q 0.975 . 最後の不等式の確率は 0.025 であるため、有意水準は 0.025 になります。 したがって、片側検定と両側検定で同じ臨界数を使用すると、これらの値は有意水準の半分に相当します。

通常、片側検定の場合、両側検定の場合と同じレベルの有意性が採用されます。これらの条件下では、両方の検定が同じタイプ I のエラーを提供するためです。 これを行うには、両側検定から片側検定を導出する必要があります。これは、許容される有意水準の 2 倍に相当します。. 片側検定の有意水準を維持するには R= 0.05、両側の場合、取る必要があります R= 0.10、これにより臨界値 Q 0.05 および Q 0.95 が得られます。 これらのうち、片側検定の場合、Q 0.95 などの 1 つが残ります。 片側検定の有意水準は 0.05 です。 両側検定の同じレベルの有意性は、臨界値 Q 0.975 に対応します。 しかし、Q 0.95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

統計における有意水準は、受信した (予測された) データの精度と真実性に対する信頼度を反映する重要な指標です。 この概念は、社会学的研究から科学的仮説の統計的検証まで、さまざまな分野で広く使用されています。

意味

統計的有意性 (または統計的に有意な結果) のレベルは、調査対象の指標がランダムに発生する確率を示します。 現象の全体的な統計的有意性は、p 値 (p レベル) によって表されます。 いかなる実験や観測においても、得られたデータがサンプリング誤差によって生じた可能性があります。 これは特に社会学に当てはまります。

つまり、値は統計的に有意であり、その確率はランダムに発生する可能性が非常に小さいか、極端になる傾向があります。 このコンテキストでの極端な点は、帰無仮説 (取得したサンプル データとの一貫性をテストする仮説) からの統計の偏差の程度です。 科学的実践では、有意水準はデータ収集前に選択され、原則として、その係数は 0.05 (5%) です。 正確な値が重要なシステムの場合、これは 0.01 (1%) 以下になる場合があります。

バックグラウンド

有意水準の概念は、1925 年に英国の統計学者で遺伝学者のロナルド フィッシャーが統計的仮説を検証する手法を開発していたときに導入されました。 プロセスを分析するとき、特定の現象の特定の確率があります。 「測定誤差」の概念に該当する小さな (または明白ではない) 確率を扱う場合、困難が生じます。

テストするほど具体的ではない統計を扱う場合、科学者は帰無仮説の問題に直面しました。これにより、小さな値での操作が「妨げられます」。 フィッシャーは、計算で帰無仮説を棄却できる便利なサンプル カットオフとして、5% (0.05) でイベントの確率を決定するようなシステムを提案しました。

固定係数の導入

1933年 ジャージー科学者 Neumann と Egon Pearson は論文で、事前に (データ収集前に) 特定の有意水準を設定することを推奨しています。 これらの規則の使用例は、選挙中にはっきりと見ることができます。 2 つの候補があり、1 つは非常に人気があり、もう 1 つはあまり知られていないとします。 最初の候補者が選挙に勝つことは明らかであり、2 番目の候補者の可能性はゼロになる傾向があります。 努力しますが、平等ではありません。予測される選挙結果を変える可能性のある不可抗力、センセーショナルな情報、予期しない決定の可能性は常にあります。

Neumann と Pearson は、Fisher が提案した 0.05 の有意水準 (記号 α で表される) が最も便利であることに同意しました。 しかし、フィッシャー自身は 1956 年にこの値を固定することに反対しました。 彼は、特定の状況に応じて α のレベルを設定する必要があると考えていました。 たとえば、素粒子物理学では 0.01 です。

p値

p 値という用語は、1960 年に Brownlee によって初めて使用されました。 P レベル (p 値) は、結果の真偽に反比例する指標です。 最高の p 値は、変数間のサンプリングされた関係における最低レベルの信頼に対応します。

この値は、結果の解釈に関連するエラーの確率を反映しています。 p 値 = 0.05 (1/20) と仮定します。 サンプルで検出された変数間の関係がサンプルのランダムな特徴である可能性が 5% であることを示しています。 つまり、この依存関係が存在しない場合、同様の実験を繰り返すと、平均して 20 番目の研究ごとに、変数間に同じかそれ以上の依存関係が期待できます。 多くの場合、p レベルはエラー レベルの「マージン」と見なされます。

ちなみに、p値は変数間の実際の関係を反映していない可能性があり、仮定内の特定の平均値のみを示しています. 特に、データの最終的な分析は、この係数の選択された値にも依存します。 p-level = 0.05 の場合、いくつかの結果があり、係数が 0.01 の場合、その他の結果があります。

統計的仮説のテスト

仮説を検証する場合、統計的有意性のレベルは特に重要です。 たとえば、両側検定を計算する場合、棄却領域はサンプリング分布の両端 (ゼロ座標に対して) で均等に分割され、得られたデータの真偽が計算されます。

あるプロセス(現象)を監視しているときに、新しい統計情報が以前の値と比較して小さな変化を示していることが判明したとします。 同時に、結果の不一致は小さく、明らかではありませんが、研究にとって重要です。 スペシャリストはジレンマに直面しています: 変化は本当に起こっているのか、それともサンプリング エラー (測定の不正確さ) なのか?

この場合、帰無仮説が適用または棄却されます (すべてがエラーとして取り消されるか、システムの変更が既成事実として認識されます)。 問題を解決するプロセスは、全体的な統計的有意性 (p 値) と有意水準 (α) の比率に基づいています。 p レベルの場合< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

使用値

重要度は、分析された材料によって異なります。 実際には、次の固定値が使用されます。

  • α = 0.1 (または 10%);
  • α = 0.05 (または 5%);
  • α = 0.01 (または 1%);
  • α = 0.001 (または 0.1%)。

より正確な計算が要求されるほど、係数 α は小さくなります。 当然のことながら、物理学、化学、薬学、遺伝学における統計予測は、政治学や社会学よりも高い精度を必要とします。

特定の領域における重要度のしきい値

素粒子物理学や製造などの高精度分野では、統計的有意性は、正規確率分布 (ガウス分布) に対する標準偏差 (シグマ - σ 係数で表される) の比率として表されることがよくあります。 σ は、数学的期待値に対する特定の量の値の広がりを決定する統計指標です。 イベントの確率をプロットするために使用されます。

知識の分野によって、係数 σ は大きく異なります。 たとえば、ヒッグス粒子の存在を予測する場合、パラメーター σ は 5 に等しく (σ=5)、これは p 値 = 1/350 万の領域に対応します。

効率

係数 α と p 値は正確な特性ではないことを考慮する必要があります。 調査中の現象の統計における重要性のレベルがどうであれ、それは仮説を受け入れるための無条件の根拠ではありません。 たとえば、α の値が小さいほど、確立された仮説が有意である可能性が高くなります。 ただし、エラーのリスクがあり、研究の統計的検出力 (有意性) が低下します。

統計的に有意な結果だけに注目する研究者は、誤った結論を導き出す可能性があります。 同時に、彼らは仮定を適用するため(実際にはαとp値の値です)、彼らの仕事を再確認することは困難です。 したがって、統計的有意性の計算とともに、統計的効果の大きさという別の指標を決定することが常に推奨されます。 効果の大きさは、効果の強さの定量的な尺度です。

値は呼び出されます 統計学的に重要な、それまたはさらに極端な値が純粋にランダムに発生する確率が小さい場合。 ここで、extreme は帰無仮説からの逸脱の程度です。 違いが存在しないと仮定して、発生する可能性が低いデータがある場合、その違いは「統計的に有意」であると言われます。 この表現は、この違いが大きい、重要、または一般的な意味で重要であることを意味するものではありません。

検定の有意水準は、頻度統計における仮説検定の従来の概念です。 これは、帰無仮説が実際に真である場合に、帰無仮説を棄却すると決定する確率として定義されます (この決定はタイプ I エラーまたは偽陽性決定として知られています)。決定プロセスは多くの場合、p 値に依存します。 (「pi 値」と読みます): p 値が有意水準より小さい場合、帰無仮説は棄却されます。 p値が小さいほど、検定統計量が有意であると言われます。 p 値が小さいほど、帰無仮説を棄却する理由が強くなります。

有意水準は通常、ギリシャ文字の α (アルファ) で表されます。 一般的な有意水準は、5%、1%、および 0.1% です。 検定で α レベル未満の p 値が生成された場合、帰無仮説は棄却されます。 このような結果は、非公式に「統計的に有意」と呼ばれます。 例えば、「起こる確率は1000分の1の偶然である」という人がいる場合、それは0.1%の有意水準を意味します。

αレベルの異なる値には、長所と短所があります。 αレベルが小さいほど、すでに確立されている対立仮説が有意であるという信頼性が高くなりますが、偽の帰無仮説 (タイプ II エラー、または「偽陰性決定」) を棄却しないリスクが高くなり、統計的検出力が低下します。 α レベルの選択には必然的に有意性と検出力の間のトレードオフが必要であり、したがってタイプ I とタイプ II のエラー確率の間のトレードオフが必要になります。 国内では 科学論文多くの場合、「統計的有意性」という用語の代わりに誤った用語「有意性」が使用されます。

こちらもご覧ください

ノート

ジョージ・カセラ、ロジャー・L・バーガー仮説検定 // 統計的推論 . -第 2 版。 - カリフォルニア州パシフィック グローブ: ダックスベリー、2002 年。 - S. 397. - 660 p. - ISBN 0-534-24312-6


ウィキメディア財団。 2010 .

他の辞書で「重要度」が何であるかを確認してください。

    その数は非常に少ないため、確率 α の事象は 1 回の実験では発生しないことがほぼ確実であると見なすことができます。 通常U. z. は任意に固定されます。つまり、0.05、0.01、および特別な精度で 0.005 などです。 仕事… … 地質百科事典

    重要なレベル- 統計的基準 (「アルファ レベル」とも呼ばれ、ギリシャ文字で表されます) は、タイプ I エラーの確率 (帰無仮説が実際に真であるときに帰無仮説を棄却する確率) の上限です。 典型的な値は... 社会統計辞典

    英語 レベル、重要性; ドイツ人 Signifikanzniveau。 リスクの程度は、研究者がサンプルデータに基づく仮説であるエキストラの誤謬について間違った結論を導き出す可能性があることです。 アンティナジ。 社会学百科事典、2009 ... 社会学百科事典

    重要なレベル――【L.G.スメンコ。 情報技術の英語ロシア語辞書。 M:GP TsNIIS、2003年。 技術翻訳者ハンドブック

    重要なレベル- 3.31 有意水準 α: 仮説が真である場合に統計的仮説を棄却する確率の上限を表す特定の値。 出典: GOST R ISO 12491 2011: 建築材料および製品. ... ... 規範および技術文書の用語の辞書参照ブック

    重要なレベル- サンプルデータに基づいて検証された、特徴の分布に関する統計的仮説に関する誤った結論の確率の程度を反映する、数学的統計の概念。 十分なレベルの心理研究では…… モダン 教育プロセス: 基本的な概念と用語

    重要なレベル- reikšmingumo lygis statusas T sritis automatika atitikmenys: engl. 有意水準 vok. Signifikanzniveau、n rus。 有意水準、m pranc。 niveau de signifiance, m … Automatikos terminų žodynas

    重要なレベル- reikšmingumo lygis statusas T sritis fizika atitikmenys: engl. 重要度; 有意水準 vok. Sicherheitsschwelle, f rus. 有意水準、fpranc。 niveau de significant, m … Fizikos terminų žodynas

    統計検定、有意水準を参照... 偉大なソビエト百科事典

    重要なレベル- 重要性、レベルを参照してください... 辞書心理学で

書籍

  • 「極秘」 . ルビャンカ - 国の状況についてスターリンに (1922-1934)。 ボリューム 4。パート 1、。 基礎論文の多巻刊行 - 情報レビュー OGPU の概要 - その科学的重要性、価値、内容、および範囲において独特です。 この歴史的な…
  • 職業教育の品質管理システムのツールとしての教育プログラム、Tkacheva Galina Viktorovna、Logachev Maxim Sergeevich、Samarin Yury Nikolaevich。 モノグラフは、専門教育プログラムの内容を形成する既存の慣行を分析しています。 重要な場所、構造、内容、およびレベルが決定されます...

p値(eng.) - 統計的仮説をテストするときに使用される値。 実際、これは帰無仮説を棄却するときのエラー (第 1 種エラー) の確率です。 P 値を使用した仮説検定は、分布の臨界値による従来の検定手順に代わるものです。

通常、P 値は、特定の分布 (帰無仮説の下での検定統計量の分布) を持つ確率変数が、検定統計量の実際の値以上の値を取る確率に等しくなります。 ウィキペディア。

つまり、p 値は、計算された検定統計量が帰無仮説の棄却につながる最小の有意水準 (つまり、真の仮説を棄却する確率) です。 通常、p 値は、一般に認められている標準的な有意水準である 0.005 または 0.01 と比較されます。

たとえば、サンプルから計算された検定統計量の値が p = 0.005 に対応する場合、これは仮説が真である確率が 0.5% であることを示します。 したがって、p 値が小さいほど、帰無仮説を棄却する「強さ」が増し、結果の期待される有意性が高まるため、優れています。

これについての興味深い説明は Habré にあります。

統計分析はブラック ボックスのようになりつつあります。入力はデータ、出力は主な結果の表と p 値です。

p値は何を示していますか?

血まみれのコンピューターゲームへの中毒と実生活での攻撃性との間に関係があるかどうかを調べることにしたとします。 このために、それぞれ 100 人の学童の 2 つのグループがランダムに形成されました (グループ 1 - シューティング ゲームのファン、グループ 2 - コンピュータ ゲームをプレイしていない)。 たとえば、仲間との戦いの数は攻撃性の指標として機能します。 私たちの架空の研究では、学童ギャンブラーのグループが仲間と著しく頻繁に衝突したことが判明しました. しかし、結果として得られる差が統計的にどれほど有意であるかをどのように確認すればよいのでしょうか? たぶん、観測された違いはまったく偶然に得られたのでしょうか? これらの質問に答えるために、p 値が使用されます。これは、一般集団に実際に違いがない場合に、そのような、またはより顕著な違いが得られる確率です。 言い換えれば、これは、実際にコンピューターゲームが攻撃性にまったく影響を与えないという条件で、グループ間でそのような、またはさらに大きな違いが得られる可能性です. それほど難しいことではありません。 ただし、この特定の統計はしばしば誤解されます。

p値の例

そこで、標準的な t 検定 (またはノンパラメトリック Chi 検定 - この状況ではより適切な 2 乗) を使用して攻撃性のレベルに関して、2 つの学童グループを互いに比較し、切望された p-有意水準は 0.05 未満です (たとえば、0.04)。 しかし、結果として得られる p 有意性値から実際に何がわかるでしょうか? したがって、p値が、一般集団に実際に違いがないという前提で、そのようなまたはより顕著な違いが得られる確率である場合、正しいステートメントはどれだと思いますか?

1. コンピューター ゲームは 96% の確率で攻撃的な行動の原因です。
2. 攻撃性とコンピューター ゲームに関連がない確率は 0.04 です。
3. p レベルの有意性が 0.05 を超える場合、これは、攻撃性とコンピューター ゲームがまったく関連していないことを意味します。
4. このような差が偶然生じる確率は 0.04 です。
5. すべての記述が間違っています。

5番目のオプションを選択した場合、あなたは絶対に正しいです! しかし、多くの研究が示すように、データ分析の経験が豊富な人でさえ、p 値を誤解することがよくあります。

それぞれの答えを順番に見てみましょう。

最初のステートメントは、相関エラーの例です。2 つの変数が有意に関連しているという事実は、原因と結果について何も教えてくれません。 おそらく、コンピュータ ゲームで時間を過ごすことを好むのはより攻撃的な人々であり、人々をより攻撃的にするのはコンピュータ ゲームではありません。

これはもっと興味深い声明です。 問題は、最初は、実際には違いがないことを当然のことと考えていることです。 そして、事実としてこれを念頭に置いて、p値を計算します。 したがって、正しい解釈は次のとおりです。

しかし、わずかな違いしかない場合はどうなるでしょうか? これは、調査された変数間に関係がないことを意味しますか? いいえ、違いがある可能性があることを意味するだけですが、私たちの結果ではそれらを検出できませんでした.

これは、p 値自体の定義に直接関連しています。 0.04 は、これらまたはそれ以上の極端な差が生じる確率です。 原則として、私たちの実験のように正確にそのような違いが得られる確率を見積もることは不可能です!

これらは、p 値などの指標の解釈に隠れている可能性がある落とし穴です。 したがって、主要な統計指標の分析および計算方法の根底にあるメカニズムを理解することは非常に重要です。

p値を見つける方法は?

1. 実験の期待される結果を決定する

通常、科学者が実験を行うとき、どのような結果を「正常」または「典型的」と見なすかについて、彼らはすでに考えを持っています。 これは、過去の実験の実験結果、信頼できるデータセット、科学文献からのデータに基づいている場合もあれば、科学者が他の情報源に基づいている場合もあります。 実験では、期待される結果を定義し、数値として表現します。

例: たとえば、以前の調査によると、あなたの国では、青い車よりも赤い車の方がスピード違反で切符を切られる可能性が高いことが示されています。 たとえば、平均スコアでは、青い車よりも赤い車が 2:1 で優先されます。 警察があなたの街の車の色に対して同じ偏見を持っているかどうかを判断したいと思います. これを行うために、スピード違反に対して発行された罰金を分析します。 赤または青の車に発行された 150 枚のスピード違反切符のランダムなセットを取得すると、私たちの市の警察がこのように車の色に偏っている場合、赤い車に 100 枚の切符が発行され、青色の車に 50 枚の切符が発行されると予想されます。全国。

2.実験の観察可能な結果を​​決定する

期待される結果を決定したので、実験して実際の (または「観察された」) 値を見つける必要があります。 これらの結果を数値として表す必要があります。 実験条件を作成し、観察された結果が予想された結果と異なる場合、2 つの可能性があります。これは偶然に発生したか、または実験によって正確に発生したかのいずれかです。 p値を見つける目的は、観測された結果が期待された結果と異なるかどうかを正確に判断することであり、「帰無仮説」 - 実験変数と観測された結果の間に関係がないという仮説 - を棄却することはできません。結果。

例: たとえば、私たちの市では、赤または青の車に発行された 150 枚のスピード違反切符をランダムに選択しました。 赤い車に 90 枚、青い車に 60 枚のチケットが発行されていることがわかりました。 これは、それぞれ 100 と 50 である期待される結果とは異なります。 私たちの実験 (この場合は、データ ソースを全国から都市に変更) が結果にこのような変化をもたらしたのでしょうか? それとも、市の警察が全国平均とまったく同じようにバイアスをかけ、ランダムな変動が見られるだけなのでしょうか? p 値は、これを判断するのに役立ちます。

3. 実験の自由度を決定する

自由度の数は、実験の変動の程度であり、調査しているカテゴリの数によって決まります。 自由度の数の方程式は、自由度の数 = n-1 です。ここで、「n」は、実験で分析するカテゴリまたは変数の数です。

例: この実験では、2 つのカテゴリの結果があります。1 つは赤い車のカテゴリ、もう 1 つは青い車のカテゴリです。 したがって、私たちの実験では、2-1 = 1 の自由度があります。 赤、青、緑の車を比較する場合、自由度は 2 になります。

4. カイ二乗検定を使用して、期待される結果と観測された結果を比較する

カイ 2 乗 (「x2」と表記) は、実験の期待値と観測値の差を測定する数値です。 カイ 2 乗の式は x2 = Σ((o-e)2/e) で、"o" は観測値、"e" は期待値です。 考えられるすべての結果について、指定された方程式の結果を合計します (以下を参照)。

この式には、合計演算子 Σ (シグマ) が含まれていることに注意してください。 つまり、考えられる結果ごとに ((|o-e|-.05)2/e) を計算し、数値を合計してカイ 2 乗値を取得する必要があります。 この例では、ペナルティを受けた車が赤か青かの 2 つの結果が考えられます。 したがって、((o-e)2/e) を 2 回カウントする必要があります。1 回は赤い車、もう 1 回は青い車です。

例: 期待値と観測値を式 x2 = Σ((o-e)2/e) に代入してみましょう。 合計演算子のため、((o-e)2/e) を 2 回カウントする必要があることを思い出してください。1 回は赤い車で、もう 1 回は青い車です。 これを次のように機能させます。
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5.重要度を選択する

実験の自由度とカイ 2 乗検定の値がわかったので、p 値を見つける前にもう 1 つ行う必要があります。 重要度のレベルを決定する必要があります。 おしゃべり 分かりやすい言葉、有意水準は、結果にどれだけ自信があるかを示します。 有意性の低い値は、実験結果が偶然に得られた可能性が低いことに対応し、逆もまた同様です。 有意水準は小数 (0.01 など) で表され、実験結果が偶然に得られた確率 (この場合、確率は 1%) に対応します。

慣例により、科学者は通常、実験の有意水準を 0.05 または 5% に設定します。 これは、そのような有意性の基準を満たす実験結果が、純粋に偶然に 5% の確率でしか得られなかったことを意味します。 言い換えれば、偶然ではなく、科学者が実験変数をどのように操作したかによって結果が生じた可能性は 95% あります。 ほとんどの実験では、2 つの変数間に関係があるという 95% の信頼度があれば、それらが互いに「本当に」関連していると考えるのに十分です。

例: 赤と青の車の例では、科学者の間の慣例に従い、有意水準を 0.05 に設定します。

6. カイ二乗分布データシートを使用して p 値を見つける

科学者や統計学者は、大規模なスプレッドシートを使用して実験の p 値を計算します。 通常、テーブル データには、自由度の数に対応する左側の縦軸と、p 値に対応する上部の横軸があります。 表のデータを使用して、最初に自由度の数を見つけ、カイ 2 乗値よりも大きい最初の値が見つかるまで系列を左から右に見ていきます。 列の上部にある対応する p 値を見てください。 あなたの p 値は、この数値と次の数値 (自分の数値の左側の数値) の間にあります。

カイ二乗分布表は、多くの情報源から入手できます (このリンクで見つけることができます)。

例: カイ 2 乗値は 3 でした。この実験では自由度が 1 しかないことがわかっているので、最初の行を選択します。 カイ二乗検定値である 3 より大きい値に遭遇するまで、この線に沿って左から右に進みます。 最初に見つかったのは 3.84 です。 列を調べると、対応する p 値が 0.05 であることがわかります。 これは、p 値が 0.05 から 0.1 の間であることを意味します (表で次に高い p 値)。

7. 帰無仮説を棄却するか維持するかを決定する

実験の近似 p 値を決定したので、実験の帰無仮説を棄却するかどうかを決定する必要があります (これは、操作した実験変数が観察した結果に影響を与えなかったという仮説であることを思い出してください)。 p 値が有意水準よりも小さい場合、おめでとう、操作した変数と観察した結果の間に非常に可能性の高い関係があることが証明されました。 p値が有意水準よりも高い場合、観察した結果が純粋な偶然によるものなのか、変数の操作によるものなのか確信が持てません。

例: p 値は 0.05 から 0.1 の間です。 これは明らかに 0.05 以上であるため、残念ながら帰無仮説を棄却することはできません。 これは、私たちの市の警察が全国平均とはかなり異なる確率で赤と青の車の切符を発行すると言う最低 95% の確率に達していないことを意味します。

言い換えれば、5 ~ 10% の確率で、観測された結果が場所の変更 (国全体ではなく都市の分析) の結果ではなく、単なる事故である可能性があります。 5% 未満の精度が要求されたので、私たちの街の警察が赤い車にあまり偏っていないとは言えません。そうでない可能性はわずかですが (統計的に有意な) 可能性があります。

タームペーパー、卒業証書、および心理学の修士論文の統計計算の結果の表には、常に「p」という指標があります。

たとえば、 研究目的思春期の男の子と女の子の人生の意味のレベルの違いが計算されました。

平均値

マン・ホイットニーの U 検定

統計的有意水準 (p)

男の子(20名)

女の子

(5名)

目標

28,9

35,2

17,5

0,027*

プロセス

30,1

32,0

38,5

0,435

結果

25,2

29,0

29,5

0,164

制御の軌跡 - 「私」

20,3

23,6

0,067

制御の軌跡 - 「生命」

30,4

33,8

27,5

0,126

人生の意味

98,9

111,2

0,103

* - 差は統計的に有意です (p0,05)

右の列は「p」の値を示しており、その値によって、男の子と女の子の将来の人生の意味の違いが有意であるか有意ではないかを判断できます。 ルールは簡単です:

  • 統計的有意水準「p」が 0.05 以下の場合、その差は有意であると結論付けます。 上の表では、男の子と女の子の違いは、指標「目標」(将来の人生の意味)に関連して重要です。 女の子では、この指標は男の子よりも統計的に有意に高くなっています。
  • 統計的有意水準「p」が 0.05 より大きい場合、差は有意ではないと結論付けられます。 上の表では、男の子と女の子の違いは、最初の指標を除いて、他のすべての指標では有意ではありません。

統計的有意水準「p」はどこから来たのですか

統計的有意水準が計算されます 統計プログラム統計的基準の計算と一緒に。 これらのプログラムでは、統計的有意性のレベルに限界を設定することもでき、対応する指標がプログラムによって強調表示されます。

たとえば、STATISTICA プログラムでは、相関を計算するときに、p 制限 (たとえば 0.05) を設定でき、統計的に有意なすべての関係が赤で強調表示されます。

統計的基準の計算が手動で実行される場合、有意水準「p」は、得られた基準の値を臨界値と比較することによって決定されます。

統計的有意水準「p」は何を示していますか

すべての統計計算は概算です。 この近似のレベルによって「r」が決まります。 有意水準は、0.023 や 0.965 のように小数で表されます。 この数値に 100 を掛けると、p インジケーターがパーセンテージとして得られます: 2.3% と 96.5%。 これらのパーセンテージは、たとえば攻撃性と不安の間の関係についての私たちの仮定が間違っている可能性を反映しています。

あれは、 相関係数攻撃性と不安の間の 0.58 は、統計的有意水準 0.05 または 5% のエラー確率で得られます。 これは正確にはどういう意味ですか?

私たちが見つけた相関関係は、次のパターンがサンプルで観察されることを意味します:攻撃性が高いほど、不安が高くなります. つまり、10 代の若者を 2 人取り、そのうちの 1 人がもう 1 人よりも高い不安を持っている場合、正の相関関係を知っていると、この 10 代の若者も攻撃性が高いと言えます。 しかし、統計ではすべてが概算であるため、これを述べると、間違いを犯す可能性があることを認め、エラーの確率は 5% です。 つまり、このグループの若者でそのような比較を20回行ったので、不安を知っていると、攻撃性のレベルに関する予測を1回間違える可能性があります。

統計的有意性のどちらのレベルが優れているか: 0.01 または 0.05

統計的有意性のレベルは、エラーの確率を反映しています。 したがって、p=0.01 での結果は、p=0.05 での結果よりも正確です。

心理学の研究では、結果の統計的有意性の 2 つの許容レベルが認められています。

p=0.01 - 結果の信頼性が高い 比較解析または関係の分析;

p=0.05 - 十分な精度。

この記事が、心理学の論文を自分で書くのに役立つことを願っています。 助けが必要な場合は、連絡してください(心理学のすべての種類の仕事; 統計計算)。