回帰分析。 回帰分析

回帰分析では、ある量が別の量または他のいくつかの量に依存しているかどうかを調べます。 回帰分析は主に中期予測や長期予測にも使用されます。 中長期的な期間では、ビジネス環境の変化を特定し、調査対象の指標に対するこれらの変化の影響を考慮することが可能になります。

回帰分析を実行するには、次のものが必要です。

    研究された指標に関する年次データの入手可能性、

    1 回限りの予測の存在、つまり このような予測は、新しいデータの到着によって修正されません。

回帰分析は通常、投資額、利益、販売量など、複雑で多要素の性質を持つオブジェクトに対して実行されます。

規範的な予測方法目標として、現象の可能な状態を達成するための方法と期限が決定されます。 これは、あらかじめ決められた規範、理想、インセンティブ、目標に基づいて、現象の望ましい状態の達成を予測することです。 この予測は、「どのような方法で希望を達成できるのか?」という質問に答えます。 規範的な手法は、プログラムまたは目標の予測によく使用されます。 基準の定量的表現と評価関数の能力の一定のスケールの両方が使用されます

定量的表現、たとえば、人口のさまざまなグループのために専門家によって開発された個々の食品および非食品の生理的および合理的な消費基準を使用する場合、これらの商品の消費レベルを決定することが可能です。指定された基準が達成されるまでの数年間。 このような計算は補間と呼ばれます。 補間は、確立された関係に基づいて、一連の動的な現象に欠落している指標を計算する方法です。 インジケーターの実際の値とその標準の値を動的シリーズの極端なメンバーとして使用すると、このシリーズ内の値の値を決定することができます。 したがって、補間は標準的な方法とみなされます。 外挿で使用された前に与えられた式 (4) は内挿でも使用でき、y は実際のデータを特徴付けるのではなく、標準インジケーターを特徴付けます。

規範的手法でスケール(フィールド、スペクトル)を使用する場合、評価関数の性能、つまり嗜好分布関数は、およそ次のようなグラデーションを示します。 望ましくない - あまり望ましくない - より望ましい - 最も望ましい - 最適 (標準)。

規範的な予測手法は、客観性のレベルを高め、意思決定の有効性を高めるための推奨事項を作成するのに役立ちます。

モデリング、おそらく最も複雑な予測方法です。 数学的モデリングとは、経済現象を数式、方程式、不等式を通じて記述することを意味します。 数学的装置は予測の背景を正確に反映する必要がありますが、予測対象の深さと複雑さ全体を完全に反映することは非常に困難です。 「モデル」という用語は、「測定」を意味するラテン語のmodelusに由来しています。 したがって、モデリングは予測する方法ではなく、モデルを使用して同様の現象を研究する方法と考えるのがより正確です。

広い意味では、モデルとは、研究対象に関する新しい知識を得ることができるように、研究対象に類似した代替品です。 モデルは、オブジェクトの数学的記述として考慮される必要があります。 この場合、モデルは、研究対象のオブジェクトと何らかの対応関係があり、研究プロセスでそれを置き換えることができる現象 (オブジェクト、設定) として定義され、オブジェクトに関する情報を提示します。

モデルをより狭く理解すると、モデルは予測の対象とみなされます。モデルを研究することで、将来のオブジェクトの可能な状態と、これらの状態を達成する方法に関する情報を得ることができます。 この場合、予測モデルの目的は、オブジェクト一般に関する情報ではなく、その将来の状態に関する情報のみを取得することです。 次に、モデルを構築するときに、モデルがオブジェクトとの適合性を直接チェックすることは不可能になる可能性があります。モデルは将来の状態のみを表し、オブジェクト自体は現在存在していないか、別の存在である可能性があるためです。

モデルは物質的なものでも理想的なものでも構いません。

経済学では理想モデルが使用されます。 社会経済(経済)現象を定量的に説明するための最も高度な理想的なモデルは、数値、公式、方程式、アルゴリズム、またはグラフ表現を使用した数学モデルです。 経済モデルを使用して、次のことを決定します。

    さまざまな経済指標間の依存性。

    インジケーターに課されるさまざまな種類の制限。

    プロセスを最適化するための基準。

オブジェクトの意味のある説明は、必要な数量を計算するためにどのようなパラメータと初期情報を収集する必要があるかを示す、形式化された図の形式で提示できます。 数学的モデルは、形式化されたスキームとは対照的に、オブジェクトを特徴付ける特定の数値データを含みます。数学的モデルの開発は、モデル化されるプロセスの本質に対する予測者の理解に大きく依存します。 彼のアイデアに基づいて、彼は作業仮説を提案し、それを利用してモデルの分析記録が数式、方程式、不等式の形で作成されます。 連立方程式を解く結果として、時間の経過に伴う目的の変数の変化を記述する関数の特定のパラメーターが取得されます。

予測組織の要素としての作業の順序と順序は、使用される予測方法に応じて決定されます。 通常、この作業はいくつかの段階で実行されます。

ステージ 1 - 予測の振り返り、つまり、予測対象と予測の背景を確立します。 最初の段階の作業は次の順序で実行されます。

    過去のオブジェクトの記述の形成。これには、オブジェクトの事前予測分析、そのパラメーターの評価、それらの重要性および相互関係が含まれます。

    情報源の特定と評価、情報源を用いた作業の手順と組織化、遡及情報の収集と配置。

    研究目標を設定する。

予測レトロスペクティブのタスクを実行する予測担当者は、オブジェクトの発展の歴史と予測の背景を調べて、それらの体系的な説明を取得します。

ステージ 2 - 予測診断。開発の傾向を特定し、モデルと予測方法を選択するために、予測対象と予測の背景の体系的な記述が検査されます。 作業は次の順序で実行されます。

    予測オブジェクトのモデルの開発。オブジェクトの形式化された説明を含み、オブジェクトに対するモデルの適切性の程度を確認します。

    予測方法(主および補助)の選択、アルゴリズムおよび作業プログラムの開発。

ステージ 3 - 保護、つまり、次のような広範な予測開発プロセス。1) 所定のリード期間の予測パラメーターの計算。 2) 予測の個々の要素の総合。

ステージ 4 - 検証を含む予測の評価、つまり、信頼性、精度、有効性の程度を決定します。

予測と評価の過程で、前の段階に基づいて、予測とその評価の問題が解決されます。

示されている段階はおおよそのものであり、主な予測方法によって異なります。

予測結果は証明書、報告書、その他の資料の形で作成され、顧客に提示されます。

予測では、オブジェクトの実際の状態からの予測の乖離量を示すことができます。これは予測誤差と呼ばれ、次の式で計算されます。

;
;
. (9.3)

予測における誤差の原因

主な情報源は次のとおりです。

1. 過去から未来へのデータの単純な転送 (外挿) (たとえば、会社には 10% の売上成長以外の予測オプションがありません)。

2. 事象の確率とそれが調査対象の物体に及ぼす影響を正確に判断できないこと。

3. 営業部門長の突然の解任など、計画の実行に影響を与える予期せぬ困難(混乱事象)。

一般に、予測の経験が蓄積され、その手法が洗練されるにつれて、予測の精度は向上します。

回帰分析

回帰 (線形) 分析- 従属変数に対する 1 つ以上の独立変数の影響を研究するための統計的手法。 独立変数は回帰変数または予測変数とも呼ばれ、従属変数は基準変数と呼ばれます。 用語 依存そして 独立した変数は、変数の数学的依存性のみを反映します ( 「誤った相関」を参照)、因果関係ではなく。

回帰分析の目標

  1. 予測変数 (独立変数) による基準 (従属) 変数の変動の決定度の決定
  2. 独立変数を使用した従属変数の値の予測
  3. 従属変数の変動に対する個々の独立変数の寄与の決定

回帰分析は、変数間に関係があるかどうかを判断するために使用できません。そのような関係が存在することが分析を適用するための前提条件であるためです。

回帰の数学的定義

厳密な回帰関係は次のように定義できます。 を、与えられた同時確率分布を持つ確率変数とします。 値のセットごとに条件付き数学的期待値が定義されている場合

(一般形式の回帰式)、

その後関数が呼び出されます 回帰 Yの値を値ごとに計算し、そのグラフは 回帰直線によって、または 回帰方程式.

への依存は、 の変化に伴う Y の平均値の変化として現れます。 ただし、値の固定セットごとに、値は一定のばらつきを伴う確率変数のままです。

変化するときの回帰分析がYの変化をどの程度正確に推定するかという問題を明確にするために、さまざまな値のセットに対するYの分散の平均値が使用されます(実際には、従属変数の分散の尺度について話しています)回帰直線付近)。

最小二乗法(係数の計算)

実際には、回帰直線は次の形式で見つかることがほとんどです。 一次関数(線形回帰) は、目的の曲線を最もよく近似します。 これは、実際に観察された値とその推定値からの二乗偏差の合計が最小化される場合に、最小二乗法を使用して行われます (つまり、望ましい回帰関係を表すとされる直線を使用した推定値を意味します)。

(M - サンプルサイズ)。 このアプローチは以下に基づいています 既知の事実、上の式に現れる量は、まさに の場合に最小値をとるということです。

最小二乗法を使用して回帰分析の問題を解決するために、次の概念が導入されます。 残差関数:

残差関数の最小条件:

結果として得られるシステムは、 一次方程式知らない人たちと

方程式の左辺の自由項を行列で表すと

右側の未知数の係数は行列です

次に、行列方程式を取得します。これは、ガウス法で簡単に解けます。 結果の行列は、回帰直線方程式の係数を含む行列になります。

最良の推定値を得るには、OLS (ガウス・マルコフ条件) の前提条件を満たす必要があります。 英語の文献では、このような推定値は、BLUE (Best Linear Unbiased Estimators) と呼ばれています。

回帰パラメータの解釈

パラメータは偏相関係数です。 は、残りの予測子の影響を固定することによって説明される Y の分散の割合として解釈されます。つまり、Y の説明に対する個々の寄与を測定します。相関のある予測子の場合、推定値の不確実性の問題が発生します。これは、予測子がモデルに含まれる順序に依存します。 このような場合には、相関分析および段階的回帰分析手法を使用する必要があります。

回帰分析の非線形モデルについて話すときは、独立変数の非線形性 (形式的な観点からは、簡単に線形回帰に帰着する) について話しているのか、推定パラメータの非線形性 (深刻な問題を引き起こす) について話しているのかに注意を払うことが重要です。計算上の困難さ)。 最初のタイプの非線形性の場合、実質的な観点から、特徴間の相互作用の存在を示す、 、 の形式の項のモデル内の外観を強調表示することが重要です など (多重共線性を参照)。

こちらも参照

リンク

  • www.kgafk.ru - 「回帰分析」というテーマに関する講義
  • www.basegroup.ru - 回帰モデルの変数を選択する方法

文学

  • ノーマン・ドレイパー、ハリー・スミス回帰分析を応用。 重回帰= 応用回帰分析。 - 第 3 版 - M.: 「弁証法」、2007年。 - P. 912。 - ISBN 0-471-17082-8
  • 統計モデルを推定するための堅牢な方法: Monograph。 - K.: PP "Sansparel"、2005. - P. 504. - ISBN 966-96574-0-7、UDC: 519.237.5:515.126.2、BBK 22.172+22.152
  • ラドチェンコ・スタニスラフ・グリゴリエヴィチ、回帰分析の方法論: モノグラフ。 - K.: "Korniychuk"、2011年。 - P. 376。 - ISBN 978-966-7599-72-0

ウィキメディア財団。 2010年。

回帰とは何ですか?

2 つの連続変数を考えます x=(x 1 , x 2 , ..., x n)、y=(y 1 , y 2 , ..., y n)。

2 次元の散布図上に点を配置して、次のようになったとします。 線形関係、データが直線で近似される場合。

私たちがそれを信じれば yに依存します バツ、および変更点 yまさに~の変化によって引き起こされます バツ回帰直線 (回帰 yの上 バツ)、これら 2 つの変数間の線形関係を最もよく表しています。

回帰という言葉の統計的使用は、フランシス ゴルトン卿 (1889 年) による、平均値への回帰として知られる現象に由来しています。

彼は、背の高い父親には背の高い息子が生まれる傾向があるが、息子の平均身長は背の高い父親の平均身長よりも低いことを示しました。 息子の平均身長は、人口に含まれるすべての父親の平均身長に向かって「後退」し、「後退」しました。 したがって、平均して、背の高い父親には背の低い(それでもかなり背が高い)息子が生まれ、背の低い父親にはより背の高い(それでもかなり背が低い)息子が生まれます。

回帰直線

単純な (ペアごとの) 線形回帰直線を推定する数式:

バツ独立変数または予測子と呼ばれます。

Y- 従属変数または応答変数。 これは私たちが期待する値です y(平均して) 値がわかっていれば バツ、つまり は「予測値」です y»

  • ある- 評価ラインの自由メンバー (交差点); これが意味です Y、 いつ x=0(図1)。
  • b- 推定された直線の傾きまたは勾配。 それはその量を表します Y増加すると平均して増加します バツ 1台分。
  • あるそして bは推定直線の回帰係数と呼ばれますが、この用語は次の目的でのみ使用されることがよくあります。 b.

ペアワイズ線形回帰は、複数の独立変数を含めるように拡張できます。 この場合、それは次のように知られています 重回帰.

図1。 切片 a と傾き b を示す線形回帰直線 (x が 1 単位増加するにつれて Y の量も増加します)

最小二乗法

観察のサンプルを使用して回帰分析を実行します。 あるそして b- 母集団 (一般集団) の線形回帰直線を決定する、真の (一般) パラメーター α と β のサンプル推定値。

ほとんど 簡単な方法係数の決定 あるそして b最小二乗法(MNC)。

近似は、残差 (ラインからの各点の垂直距離、例: 残差 = 観測値) を見ることによって評価されます。 y- 予測 y、 米。 2)。

残差の二乗和が最小になるように、最良の適合線が選択されます。

米。 2. 各点の残差を含む線形回帰直線 (垂直点線)。

線形回帰の仮定

したがって、各観測値の剰余は差と対応する予測値に等しくなります。各剰余は正または負の場合があります。

残差を使用して、線形回帰の背後にある次の仮定をテストできます。

  • 残差は平均がゼロになるように正規分布します。

線形性、正規性、定数分散の仮定に疑問がある場合は、これらの仮定が満たされる新しい回帰直線を変換または計算できます (たとえば、対数変換などを使用します)。

異常値(外れ値)と影響点

「影響力のある」観測値が省略された場合、1 つ以上のモデル パラメーターの推定値 (つまり、傾きまたは切片) が変更されます。

外れ値 (データセット内の大部分の値と一致しない観測値) は「影響力のある」観測値である可能性があり、二変量散布図または残差プロットを検査することで視覚的に簡単に検出できます。

外れ値と「影響力のある」観測値 (点) の両方について、モデルが含まれる場合と含まれない場合の両方でモデルが使用され、推定値 (回帰係数) の変化に注意が払われます。

分析を実行するときは、外れ値や影響点を自動的に破棄しないでください。単に無視すると、得られる結果に影響を与える可能性があります。 これらの外れ値の理由を常に調査し、分析してください。

線形回帰仮説

線形回帰を構築する場合、回帰直線 β の一般的な傾きがゼロに等しいという帰無仮説がテストされます。

線の傾きがゼロの場合、 と の間に線形関係はありません。変更は影響を及ぼしません。

真の傾きがゼロであるという帰無仮説を検定するには、次のアルゴリズムを使用できます。

比率 に等しい検定統計量を計算します。これは自由度の分布に従います。ここで、係数の標準誤差は次のとおりです。


,

- 残差の分散の推定。

通常、有意水準に達すると帰無仮説は棄却されます。


ここで、 は自由度を伴う分布のパーセンテージ ポイントであり、両側検定の確率を与えます。

これは、95% の確率で一般的な傾きが含まれる区間です。

たとえば、サンプルが大きい場合は、値 1.96 で近似できます (つまり、検定統計量は正規分布する傾向があります)。

線形回帰の品質の評価: 決定係数 R 2

線形関係があるため、次のように変化すると予想されます。 、そしてそれを回帰による、または回帰によって説明される変動と呼びます。 残留変動は可能な限り小さくする必要があります。

これが真であれば、ほとんどの変動は回帰によって説明され、点は回帰直線の近くに位置します。 線はデータによく適合します。

回帰によって説明される合計分散の割合は次のように呼ばれます。 決定係数、通常はパーセンテージで表され、次のように表されます。 R2(一対の線形回帰では、これは次の量です r2、相関係数の二乗)を使用すると、回帰式の品質を主観的に評価できます。

差は、回帰では説明できない分散のパーセンテージを表します。

評価する正式なテストはなく、回帰直線の適合度を判断するには主観的な判断に頼らなければなりません。

回帰直線を予測に適用する

回帰直線を使用すると、観測範囲の最端の値から値を予測できます (これらの限界を超えて外挿しないでください)。

特定の値を持つオブザーバブルの平均を、その値を回帰直線の方程式に代入することで予測します。

したがって、次のように予測すると、この予測値とその標準誤差を使用して、真の母集団平均の信頼区間を推定します。

さまざまな値に対してこの手順を繰り返すと、この線の信頼限界を構築できます。 これは、たとえば 95% の信頼レベルで真のラインを含むバンドまたは領域です。

単純な回帰計画

単純な回帰計画には 1 つの連続予測子が含まれます。 7、4、9 などの予測値 P を持つ観測値が 3 つあり、計画に一次効果 P が含まれている場合、計画行列 X は次のようになります。

X1 に P を使用した回帰式は次のようになります。

Y = b0 + b1 P

単純回帰計画に二次効果などの P に対する高次の効果が含まれている場合、計画行列の列 X1 の値は 2 乗されます。

そして方程式は次のような形になります

Y = b0 + b1 P2

シグマ制約およびオーバーパラメータ化されたコーディング手法は、単純な回帰設計や、連続予測子のみを含むその他の設計には適用されません (単純にカテゴリカル予測子が存在しないため)。 選択したコーディング方法に関係なく、連続変数の値はそれに応じてインクリメントされ、X 変数の値として使用されます。 この場合、再符号化は行われません。 さらに、回帰計画を記述するときに、計画行列 X の考慮を省略して、回帰式のみを使用することができます。

例: 単回帰分析

この例では、表に示されているデータを使用します。

米。 3. 初期データの表。

データは、無作為に選択された 30 郡における 1960 年と 1970 年の国勢調査の比較から編集されました。 郡名は観測名として表示されます。 各変数に関する情報を以下に示します。

米。 4. 変数仕様の表。

研究課題

この例では、貧困率と貧困線を下回る家族の割合を予測する程度との相関関係が分析されます。 したがって、変数 3 (Pt_Poor) を従属変数として扱います。

私たちは仮説を立てることができます。人口規模の変化と貧困線を下回っている家族の割合は関連しているということです。 貧困が海外流出につながると予想するのは合理的と思われ、したがって、貧困線を下回る人々の割合と人口の変化の間には負の相関関係があると考えられます。 したがって、変数 1 (Pop_Chng) を予測子変数として扱います。

結果を見る

回帰係数

米。 5. Pop_Chng に対する Pt_Poor の回帰係数。

Pop_Chng 行と Param 列の交差点。 Pop_Chng に対する Pt_Poor の回帰の非標準化係数は -0.40374 です。 これは、人口が 1 単位減少するごとに、貧困率が 0.40374 増加することを意味します。 この非標準化係数の 95% 信頼限界の上限と下限 (デフォルト) にはゼロが含まれないため、回帰係数は p レベルで有意になります。<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

変数の分布

データに大きな外れ値が存在する場合、相関係数は大幅に過大評価または過小評価される可能性があります。 従属変数 Pt_Poor の分布を地区ごとに調べてみましょう。 これを行うには、変数 Pt_Poor のヒストグラムを作成しましょう。

米。 6. Pt_Poor 変数のヒストグラム。

ご覧のとおり、この変数の分布は正規分布とは著しく異なります。 ただし、2 つの郡 (右の 2 つの列) でさえ、貧困線を下回る世帯の割合が正規分布で予想されるよりも高いにもかかわらず、「範囲内」であるようです。

米。 7. Pt_Poor 変数のヒストグラム。

この判断はやや主観的です。 経験則では、観測値が間隔 (平均±標準偏差の 3 倍) 内に収まらない場合は、外れ値を考慮する必要があります。 この場合、外れ値がある場合とない場合で分析を繰り返して、外れ値が母集団メンバー間の相関関係に大きな影響を与えていないことを確認する価値があります。

散布図

仮説の 1 つが指定された変数間の関係について先験的である場合、対応する散布図のグラフでそれをテストすると便利です。

米。 8. 散布図。

散布図は、2 つの変数間の明らかな負の相関 (-.65) を示しています。 また、回帰直線の 95% 信頼区間も示しています。つまり、回帰直線が 2 つの点線の間にある確率は 95% です。

有意性の基準

米。 9. 有意性基準を含む表。

Pop_Chng 回帰係数のテストにより、Pop_Chng が Pt_Poor 、p に強く関連していることが確認されます。<.001 .

結論

この例では、単純な回帰計画を分析する方法を示しました。 標準化されていない回帰係数と標準化された回帰係数の解釈も示されました。 従属変数の応答分布を研究することの重要性について説明し、予測変数と従属変数の間の関係の方向と強さを決定する手法を示します。

回帰分析と相関分析は統計調査手法です。 これらは、1 つ以上の独立変数に対するパラメーターの依存性を示す最も一般的な方法です。

以下では、具体的な実践例を使用して、経済学者の間で非常に人気のあるこれら 2 つの分析について検討します。 それらを組み合わせた場合の結果が得られる例も示します。

Excel での回帰分析

従属変数に対するいくつかの値(独立、独立)の影響を示します。 たとえば、経済活動人口の数は、企業の数、賃金、その他のパラメーターにどのように依存しますか。 あるいは、海外投資やエネルギー価格などがGDPの水準にどのような影響を与えるのか。

分析の結果により、優先順位を強調することができます。 そして、主要な要因に基づいて、重点分野の開発を予測、計画し、経営上の意思決定を行います。

回帰が起こります:

  • 線形 (y = a + bx);
  • 放物線 (y = a + bx + cx 2);
  • 指数関数 (y = a * exp(bx));
  • べき乗 (y = a*x^b);
  • 双曲線 (y = b/x + a);
  • 対数 (y = b * 1n(x) + a);
  • 指数関数 (y = a * b^x)。

Excel で回帰モデルを構築し、結果を解釈する例を見てみましょう。 線形タイプの回帰を考えてみましょう。

タスク。 6社の平均月収と離職者数を分析した。 離職者数が平均給与にどの程度依存しているかを判断する必要がある。

線形回帰モデルは次のようになります。

Y = a 0 + a 1 x 1 +…+a k x k。

ここで、a は回帰係数、x は影響を与える変数、k は因​​子の数です。

この例では、Y は従業員の退職の指標です。 影響を与える要因は賃金 (x) です。

Excel には、線形回帰モデルのパラメーターの計算に役立つ組み込み関数があります。 ただし、「分析パッケージ」アドオンを使用すると、これをより速く実行できます。

強力な分析ツールを有効にします。

アクティブ化すると、アドオンは [データ] タブで使用できるようになります。

それでは、回帰分析自体を実行してみましょう。



まず第一に、R 二乗と係数に注目します。

R 二乗は決定係数です。 この例では、0.755、つまり 75.5% です。 これは、モデルの計算されたパラメーターが、調査されたパラメーター間の関係の 75.5% を説明していることを意味します。 決定係数が高いほど、モデルは優れています。 良好 - 0.8 以上。 悪い – 0.5 未満 (このような分析は合理的であるとはほとんど考えられません)。 私たちの例では、「悪くない」です。

係数 64.1428 は、検討中のモデル内のすべての変数が 0 に等しい場合に Y が何になるかを示します。つまり、分析されたパラメーターの値は、モデルに記述されていない他の要因にも影響されます。

係数 -0.16285 は、変数 X の Y に対する重みを示します。つまり、このモデル内の平均月給は、重み -0.16285 で退職者数に影響します (これは影響の程度は小さいです)。 「-」記号はマイナスの影響を示します。給与が高くなるほど、辞める人が少なくなります。 それは公平なことだ。



Excelでの相関分析

相関分析は、1 つまたは 2 つのサンプル内の指標間に関係があるかどうかを判断するのに役立ちます。 たとえば、機械の稼働時間と修理費、機器の価格と稼働期間、子供の身長と体重などです。

関係がある場合、一方のパラメータの増加は他方のパラメータの増加 (正の相関) または減少 (負の相関) につながりますか。 相関分析は、アナリストが、ある指標の値を使用して別の指標の可能な値を予測できるかどうかを判断するのに役立ちます。

相関係数はrで表されます。 +1 から -1 まで変化します。 領域ごとに相関関係の分類は異なります。 係数が 0 の場合、サンプル間に線形関係はありません。

Excelを使って相関係数を求める方法を見てみましょう。

ペアの係数を見つけるには、CORREL 関数が使用されます。

目的: 旋盤の稼働時間とメンテナンスのコストとの間に関係があるかどうかを判断します。

任意のセルにカーソルを置き、fx ボタンを押します。

  1. 「統計」カテゴリで CORREL 関数を選択します。
  2. 引数「配列 1」 - 最初の値の範囲 - マシンの動作時間: A2:A14。
  3. 引数「配列 2」 - 2 番目の値の範囲 - 修理コスト: B2:B14。 「OK」をクリックします。

接続のタイプを判断するには、係数の絶対数を調べる必要があります (活動の各分野には独自のスケールがあります)。

複数のパラメータ(2 つ以上)の相関分析を行う場合は、「データ分析」(「分析パッケージ」アドオン)を使用すると便利です。 リストから相関を選択し、配列を指定する必要があります。 全て。

結果の係数は相関行列に表示されます。 このような:

相関分析と回帰分析

実際には、これら 2 つの手法が一緒に使用されることがよくあります。

例:


これで回帰分析データが見えるようになりました。

1. 「回帰」という用語は、生体認証の創始者 F. ゴルトン (19 世紀) によって初めて導入され、そのアイデアは彼の信奉者である K. ピアソンによって開発されました。

回帰分析- 1 つ以上の原因 (要因特性) と結果 (結果特性) の間の関係を測定できる統計データ処理の方法。

サイン- これは、研究対象の現象またはプロセスの主な特徴、特徴です。

有効なサイン -研究中の指標。

因数記号- 結果として得られる特性の値に影響を与える指標。

回帰分析の目的は、結果として得られる特性の平均値の関数依存性を評価することです ( ) 因数 ( x 1、x 2、…、x n)、 以下のように表現 回帰式

= f(x 1、x 2、…、x n). (6.1)

回帰には、一対回帰と多重回帰の 2 種類があります。

対応のある (単純な) 回帰- 形式の方程式:

= f(バツ). (6.2)

ペア回帰で得られる特徴は、1 つの引数の関数として考慮されます。 1つの要素の特徴。

回帰分析には次の手順が含まれます。

· 関数のタイプを決定する。

・回帰係数の決定。

· 得られた特性の理論値の計算。

· 回帰係数の統計的有意性をチェックする。

· 回帰式の統計的有意性をチェックする。

重回帰- 形式の方程式:

= f(x 1、x 2、…、x n). (6.3)

結果の属性は、いくつかの引数の関数として考慮されます。 多くの要因の兆候。

2. 関数の種類を正確に決定するには、理論データに基づいて接続の方向を見つける必要があります。

接続の方向に応じて、回帰は次のように分類されます。

· 直接回帰独立量の増減に伴って生じる条件 バツ"依存量の値」 よ」また、それに応じて増減します。

· 逆回帰独立した値の増加または減少に伴う条件下で発生します。 "バツ"依存量」 よ」それに応じて減少または増加します。

接続を特徴付けるには、次のタイプの一対の回帰式が使用されます。

· y=a+bx線形;

· y=e ax + b – 指数関数;

· y=a+b/x – 双曲線。

· y=a+b 1 x+b 2 x 2 – 放物線;

· y=ab x – 指数関数や。。など。

どこ a、b1、b2- 方程式の係数(パラメータ)。 - 有効な兆候; バツ- 因子記号。

3. 回帰方程式の構築は、その係数 (パラメーター) を推定することになります。これには、次を使用します。 最小二乗法(MNC)。

最小二乗法を使用すると、結果として得られる属性の実際の値の偏差の二乗の合計が計算されるようなパラメータ推定値を取得することができます。 「理論から」 y x» は最小限、つまり

回帰式パラメータ y=a+bх最小二乗法を使用した場合は、次の式を使用して推定されます。

どこ A -自由係数、 b- 回帰係数は、結果の符号がどの程度変化するかを示します。 y「因子の特性が変化したとき」 バツ» 測定単位ごと。

4. 回帰係数の統計的有意性を評価するために、Student の t 検定が使用されます。

回帰係数の有意性をテストするためのスキーム:

1) H0:a=0, b=0 - 回帰係数はゼロから大きく変わりません。

H 1: a≠ 0, b≠ 0 - 回帰係数はゼロとは大きく異なります。

2) R=0.05 – 有意水準。

どこ m b,ああ- ランダムなエラー:

; . (6.7)

4) テーブル(R; f),

どこ f=ん、k、 1 - 自由度の数 (表の値)、 n- 観測値の数、 k バツ"。

5) の場合、それは拒否されます。つまり、 係数は重要です。

の場合、それは受け入れられます。つまり、 係数は重要ではありません。

5. 構築された回帰式の正しさをチェックするために、フィッシャー基準が使用されます。

回帰式の有意性をテストするためのスキーム:

1) H0:回帰式は重要ではありません。

H1:回帰式は重要です。

2) R=0.05 – 有意水準。

3) , (6.8)

ここで、 は観測値の数です。 k- 変数を含む方程式内のパラメータの数 " バツ"; - 結果として得られる属性の実際の値。 y x- 結果の符号の理論値。 - ペア相関係数。

4) Fテーブル(R; f1; f2),

どこ f 1 =k、f 2 =n-k-1-自由度の数 (表の値)。

5) もし 計算された F >F テーブルであれば、回帰式が正しく選択され、実際に使用できるようになります。

もし F計算 の場合、回帰式は間違って選択されます。

6. 回帰分析の品質を反映する主な指標は次のとおりです。 決定係数 (R 2)。

決定係数従属変数の割合を示します。 」は分析に考慮されており、分析に含まれる要因の影響によって引き起こされます。

決定係数 (R2)間隔内の値を受け取ります。 次の場合、回帰式は定性的です。 R2 ≥0,8.

決定係数は相関係数の二乗に等しくなります。

例6.1。次のデータに基づいて、回帰式を構築して分析します。

解決。

1) 相関係数を計算します: 。 星座間の関係は直接的かつ中程度です。

2) 一対の線形回帰方程式を構築します。

2.1) 計算表を作成します。

バツ ×2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
159,45 558,55
平均 77519,6 22,78 79,79 2990,6

,

一対の線形回帰式: y x =25.17+0.087x。

3) 理論値を求めます。」 y x「実際の値を回帰式に代入することによって」 バツ».

4) 実際のグラフを作成する よ」と理論値」 y x「有効特性 (図 6.1):r xy =0.47) と少数の観測値。

7) 決定係数を計算します。 R2=(0.47) 2 =0.22。 構築された方程式の品質は低くなります。

なぜなら 回帰分析を実行するときの計算は非常に広範囲にわたるため、特別なプログラム (Statistica 10、SPSS など) を使用することをお勧めします。

図 6.2 は、Statistica 10 プログラムを使用して実行された回帰分析の結果を示す表です。

図6.2。 Statistica 10 プログラムを使用して実行された回帰分析の結果

5. 文献:

1. グムルマン V.E. 確率論と数理統計:教科書。 大学向けマニュアル / V.E. グムルマン。 - M.: 高等学校、2003 年。 - 479 ページ。

2. コイチュベコフ B.K. 生物統計学: 教科書。 - アルマトイ: エベロ、2014 年。 - 154 ページ。

3.ロボツカヤN.L. 高等数学。 /N.L. ロボツカヤ、Yu.V. モロゾフ、A.A. ドゥナエフ。 - 男性: 高等学校、1987 年。 - 319 ページ。

4. メディック V.A.、トクマチェフ M.S.、フィッシュマン B.B. 医学と生物学の統計: ガイド。 全2巻 / 編 Yu.M. コマロワ。 T. 1. 理論統計。 - M.: 医学、2000. - 412 p.

5. 公衆衛生とヘルスケアの研究のための統計分析方法の応用:教科書/編。 クチェレンコ V.Z. - 第 4 版、改訂。 そして追加の – M.: GEOTAR - メディア、2011. - 256 p.