回帰用のデータ。 データ分析の基礎

第 4 章の内容を学習した結果、生徒は次のことを行う必要があります。

知る

  • 回帰分析の基本概念。
  • 最小二乗推定の推定方法と特性。
  • 方程式と回帰係数の有意性と区間推定をテストするための基本的なルール。

できる

  • サンプルデータを使用して、2次元および重回帰方程式モデルのパラメータの推定値を見つけ、その特性を分析します。
  • 方程式の重要性と回帰係数を確認します。
  • 重要なパラメータの間隔推定値を見つけます。

自分の

  • 二変量および重回帰方程式のパラメータの統計的推定のスキル。 回帰モデルの適切性をチェックするスキル。
  • 分析ソフトウェアを使用して、すべての重要な係数を含む回帰式を取得するスキル。

基本概念

相関分析を実施した後、変数間の統計的に有意な関係の存在が特定され、その近さの程度が評価されると、通常、回帰分析手法を使用して依存関係の種類を数学的に説明します。 この目的のために、有効な指標に関連する関数のクラスが選択されます。 および引数は、結合方程式のパラメーターの推定値を計算し、結果として得られる方程式の精度を分析します。

関数|、結果の特性の条件付き平均値の依存性を記述します。 与えられた引数値から呼び出されます 回帰方程式。

「回帰」という用語(ラテン語から) 回帰 –後退、何かに戻る)は、英国の心理学者で人類学者のF.ゴルトンによって紹介され、彼の最初の例の1つと関連付けられています。ゴルトンは、身長の遺伝の問題に関連する統計データを処理して、身長が父親はすべての父親の平均身長から逸脱している バツインチの場合、息子の身長はすべての息子の平均身長から 未満離れています。 バツインチ。 特定された傾向は次のように呼ばれました。 平均への回帰。

「回帰」という用語は統計文献で広く使用されていますが、多くの場合、統計的関係を正確に特徴付けるものではありません。

回帰式を正確に記述するには、有効指標の条件付き分布則を知る必要があります。 あなた。統計の実践では、通常、そのような情報を取得することは不可能であるため、関数の適切な近似値を検索することに限定されます。 f(xあなた バツ 2,...l*)、現象の予備的な意味のある分析または初期の統計データに基づいています。

指標のベクトルの分布の種類に関する個々のモデルの仮定の枠組み内で<) может быть получен общий вид 回帰式、 どこ。 たとえば、研究対象の一連の指標が数学的期待値のベクトルを持つ () 次元の正規分布則に従うと仮定すると、

ここで、共分散行列は、

分散はどこですか そう、

回帰方程式 (条件付き数学的期待値) の形式は次のとおりです。

したがって、多変量確率変数の場合 ()

() 次元の正規分布の法則に従い、有効指標の回帰式に従う 説明変数の は線形です バツビュー。

ただし、統計の実践では、通常、未知の真の回帰関数の適切な近似値を見つけることに専念する必要があります。 f(x)、研究者は分析されたパフォーマンス指標の条件付き確率分布の法則について正確な知識を持っていないため 与えられた引数値に対して バツ。

真の推定値、モデル推定値、回帰推定値の関係を見てみましょう。 効果的なインジケーターを使用しましょう 議論に関連した バツ比率

ここで、 は正規分布則を持つ確率変数、および です。 この場合の真の回帰関数は次の形式になります。

真の回帰方程式の正確な形式は不明ですが、図 1 に示されている関係に関連する 2 次元の確率変数の 9 つの観測値があるとします。 4.1.

米。 4.1. 真の相対位置f(x) そして理論的おっと回帰モデル

図の点の位置 4.1 では、次の形式の線形依存関係のクラスに制限することができます。

最小二乗法を使用して、回帰式の推定値を求めます。

比較のために、図に示します。 4.1に真の回帰関数と理論近似回帰関数のグラフを示します。 回帰式の推定値は確率的に後者に収束します おっとサンプルサイズは無制限に増加します()。

私たちは真の回帰関数ではなく、誤って線形回帰関数を選択してしまいましたが、残念なことに、これは統計研究の実践では非常に一般的なことであり、統計的な結論と推定値には一貫性の特性がありません。 観測値の数をどのように増やしても、サンプル推定値は真の回帰関数に収束しません。

回帰関数のクラスを正しく選択していれば、次を使用した記述の不正確さはなくなります。 おっと限られたサンプリングによってのみ説明されるため、必要なだけ小さくすることができます。

パフォーマンス指標の条件値と未知の回帰関数を初期統計データから最適に復元するには、以下が最もよく使用されます。 十分性基準損失関数。

1. 最小二乗法、それに応じて、モデル値からの有効指標の観測値の二乗偏差が最小化されます。ここで、回帰式の係数は、「-M」の引数のベクトルの値です。観察:

ベクトルの推定値を見つける問題は解決されました。 結果として得られる回帰は次のように呼ばれます。 正方形を意味します。

2. 最小モジュール法、それに従って、モジュラー値からの有効なインジケーターの観察値の絶対偏差の合計が最小化されます。

結果として得られる回帰は次のように呼ばれます。 絶対的な意味(中央値)。

3. ミニマックス法結局のところ、有効な指標の観測値の最大偏差係数を最小限に抑えることになります。 そう、モデル値から、つまり

結果として得られる回帰は次のように呼ばれます。 ミニマックス。

実際のアプリケーションでは、確率変数を調べる問題がよく発生します。 そう、特定の変数セットと未知のパラメータに依存します。 () を次のように考えます。 (k + 1) 無作為に抽出された次元の一般集団。 P、ここで、() は i 番目の観測結果です。 観測結果に基づいて未知のパラメータを推定する必要があります。 上で説明したタスクは回帰分析の問題に関連しています。

回帰分析 確率変数の依存性を統計的に分析する方法と呼ばれます 真の分布法則に関係なく、回帰分析で非ランダム値として考慮される変数

結果の結論

表8.3a。 回帰統計
回帰統計
複数のR 0,998364
R二乗 0,99673
正規化された R 二乗 0,996321
標準誤差 0,42405
観察 10

まず、表 8.3a に示されている計算の上部 (回帰統計) を見てみましょう。

R 二乗値は、確実性の尺度とも呼ばれ、結果として得られる回帰直線の品質を特徴付けます。 この品質は、ソース データと回帰モデル (計算データ) の一致度によって表現されます。 確実性の尺度は常に間隔内にあります。

ほとんどの場合、R 二乗値は極値と呼ばれるこれらの値の間に収まります。 ゼロと1の間。

R 二乗値が 1 に近い場合、構築されたモデルが関連変数のほぼすべての変動を説明していることを意味します。 逆に、R 二乗値がゼロに近い場合は、構築されたモデルの品質が低いことを意味します。

この例では、確実性の尺度は 0.99673 で、回帰直線が元のデータに非常に良く適合していることを示しています。

複数のR- 重相関係数 R - 独立変数 (X) と従属変数 (Y) の依存度を表します。

複数の R は次と等しい 平方根決定係数から、この量は 0 から 1 までの範囲の値になります。

単純な線形回帰分析では、多重 R はピアソン相関係数と等しくなります。 実際、この場合の倍数 R は、前の例のピアソン相関係数 (0.998364) に等しくなります。

表8.3b。 回帰係数
オッズ 標準誤差 t 統計
Y字路 2,694545455 0,33176878 8,121757129
変数X1 2,305454545 0,04668634 49,38177965
* 計算の省略されたバージョンが提供されます。

次に、表 8.3b に示されている計算の中央部分を考えてみましょう。 ここで、回帰係数 b (2.305454545) と縦軸に沿った変位が与えられます。 定数 a (2.694545455)。

計算に基づいて、次のように回帰式を書くことができます。

Y= x*2.305454545+2.694545455

変数間の関係の方向は、符号 (負または正) に基づいて決定されます。 回帰係数(係数 b)。

の標識があれば、 回帰係数- 正の場合、従属変数と独立変数の間の関係は正になります。 この場合、回帰係数の符号は正であるため、関係も正です。

の標識があれば、 回帰係数- 負の場合、従属変数と独立変数の間の関係は負 (逆) です。

表8.3c。 残差の導出結果が表示されます。 これらの結果をレポートに表示するには、「回帰」ツールを実行するときに「残差」チェックボックスをオンにする必要があります。

残りの撤退

表8.3c。 残り物
観察 予測Y 残り物 標準天びん
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

レポートのこの部分を使用すると、作成された回帰直線からの各ポイントの偏差を確認できます。 絶対値の最大値

現代の政治学は、社会におけるあらゆる現象とプロセスの相互関係の立場から発展します。 社会の政治領域に存在するつながりや依存関係を研究せずに、出来事やプロセスを理解し、政治生活の現象を予測し、管理することは不可能です。 政策研究における最も一般的なタスクの 1 つは、いくつかの観測変数間の関係を調べることです。 一般名「回帰分析」(または「相関回帰分析」とも呼ばれます)の下にまとめられた統計分析手法全体が、この問題の解決に役立ちます。 ただし、相関分析によって 2 つの変数間の関係の強さを評価できる場合は、回帰分析を使用して、この関係のタイプを判断し、ある変数の値が別の変数の値に依存することを予測することができます。

まず、相関関係とは何かを思い出してください。 相関ある変数の等しい値が異なる変数に対応するという統計的関係の最も重要な特殊なケースに名前を付けます。 平均値別の。 属性 x の値が変化すると、属性 y の平均値も当然変化しますが、個々のケースでは属性の値も変化します。 (異なる確率で) 多くの異なる値を取ることができます。

統計における「相関」という用語の出現(そして政治学には問題を解決するための統計の成果が含まれており、したがって政治学に関連する学問です)は、英国の生物学者で統計学者のフランシス・ゴルトンの名前に関連付けられています。 19世紀に。 相関分析と回帰分析の理論的基礎。 「相関関係」という用語は、以前から科学の分野で知られていました。 特に 18 世紀の古生物学では。 フランスの科学者ジョルジュ・キュヴィエによって使用されました。 彼は、いわゆる相関法則を導入し、これを利用して、発掘中に見つかった動物の残骸からその外観を復元することができました。

この科学者の名前と彼の相関法に関連した有名な話があります。 そこで、大学の休暇中に、有名な教授にいたずらしようと決めた学生たちは、角とひづめのついたヤギの皮を一人の学生に着せました。 彼はキュヴィエさんの寝室の窓をよじ登り、「食べてやる」と叫びました。 教授は目を覚まし、そのシルエットを見てこう答えました。「角とひづめがあるなら、あなたは草食動物であり、私を食べることはできません。 そして相関の法則を知らないと悪い点をとられてしまいます。」 彼は反対側を向いて眠りに落ちた。 冗談ですが、この例では、多重相関回帰分析を使用する特殊なケースを観察しています。 ここで教授は、観察された2つの特徴(角とひづめの存在)の値の知識に基づいて、相関の法則に基づいて、3番目の特徴(この動物が属するクラス - a)の平均値を導き出しました。草食動物)。 この場合、私たちはこの変数の特定の値について話しているのではありません(つまり、特定の動物は名目スケールで異なる値をとる可能性があります。それはヤギ、雄羊、または雄牛である可能性があります...)。

さて、「回帰」という用語に移りましょう。 厳密に言えば、この方法を使用して解決される統計問題の意味とは関係ありません。 この用語の説明は、特性間の関連性を研究する方法の開発の歴史の知識に基づいてのみ行うことができます。 この種の研究の最初の例の 1 つは、統計学者の F. ゴルトンと K. ピアソンの研究で、彼らは 2 つの観察可能な特徴に従って父親と子供の身長の間のパターンを発見しようとしました (ここで、 バツ-父親の身長と う-子供の身長)。 彼らの研究では、平均して背の高い父親が背の高い子供を育てるという最初の仮説が確認されました。 同じ原則が、低位の父親と子供にも当てはまります。 しかし、科学者がそこで立ち止まってしまったら、彼らの研究は決して統計学の教科書に掲載されることはないでしょう。 研究者らは、すでに述べた確認された仮説の中に別のパターンを発見しました。 彼らは、非常に背の高い父親が産む子供は、平均身長は高くても、平均身長とそれほど変わらない父親の子供と、平均身長は高くても、身長はそれほど変わらないことを証明しました。 同じことが、非常に低身長の父親(低身長グループの平均から逸脱している)にも当てはまります。彼らの子供たちは、平均して、単に父親が低かっただけの子供たちと身長に差がありませんでした。 彼らはこのパターンを記述する関数を呼び出しました 回帰関数。この研究の後、同様の関数を記述し、同様の方法で構築されたすべての方程式は回帰方程式と呼ばれるようになりました。

回帰分析- 多変量統計データ分析の方法の 1 つで、1 つの従属変数と複数 (または 1 つ) の独立変数の間の関係を研究またはモデル化するために設計された一連の統計手法を組み合わせます。 統計学で受け入れられている伝統によれば、従属変数は応答と呼ばれ、次のように表されます。 V独立変数は予測子と呼ばれ、次のように表されます。 バツ。分析中に、一部の変数は応答との関連が弱いことが判明し、最終的には分析から除外されます。 従属変数に関連付けられた残りの変数も因子と呼ぶことができます。

回帰分析を使用すると、別の変数 (教育レベルに応じて型破りな政治的行動をする傾向など) または複数の変数に応じて 1 つ以上の変数の値を予測することができます。 PC上で計算されます。 制御特性の因子依存度を測定できる回帰式を作成するには、専門の数学者とプログラマーの協力が必要です。 回帰分析は、政治情勢の発展の予測モデルを構築したり、社会的緊張の原因を評価したり、理論実験を実施したりする際に、非常に貴重なサービスを提供できます。 回帰分析は、性別、年齢、職業、居住地、国籍、収入の水準および性質など、多数の社会人口学的パラメーターが国民の選挙行動に及ぼす影響を研究するために積極的に使用されています。

回帰分析に関連して、次の概念が使用されます。 独立したそして 依存変数。 独立変数とは、別の変数の変化を説明したり、その変化を引き起こす変数です。 従属変数は、その値が最初の変数の影響によって説明される変数です。 たとえば、2004 年の大統領選挙では、決定要因は次のとおりです。 独立変数は、国の人口の財政状況の安定化、候補者の人気のレベル、および要因などの指標でした。 在職中。この場合の従属変数は、候補者に投じられた票の割合と考えることができます。 同様に、「有権者の年齢」と「選挙活動のレベル」という変数のペアでは、最初の変数は独立しており、2 番目の変数は依存しています。

回帰分析を使用すると、次の問題を解決できます。

  • 1) 気と気の間に統計的に有意な関連性があるかどうかという事実そのものを確立する バツ;
  • 2)回帰関数の(統計的な意味での)最良の推定値を構築する。
  • 3) 与えられた値に従って バツ未知のことに対する予測を立てる U
  • 4) 各要因の影響の具体的な重みを評価する バツの上 Uしたがって、重要ではない特徴をモデルから除外します。
  • 5) 変数間の因果関係を特定し、説明変数の値を調節することでPの値を部分的に制御する バツ。

回帰分析には、研究対象の指標の値に影響を与える相互に独立した変数を選択し、回帰方程式の形式を決定し、一次社会学的データを処理するための統計的手法を使用してパラメータを評価する必要性が伴います。 このタイプの分析は、関係の形式、方向、近さ (密度) の考えに基づいています。 区別する サウナそして 重回帰研究対象の特性の数に応じて。 実際には、回帰分析は通常、相関分析と組み合わせて実行されます。 回帰方程式量間の数値関係を表し、ある変数が増加または減少する一方で、別の変数が増加または減少する傾向として表されます。 同時に彼らは怒っている 冷ややかなそして 非線形回帰。政治プロセスを説明する場合、どちらの回帰オプションも同様に見つかります。

政治的トピックに関する記事における関心の相互依存性の分布の散布図 ( う)および回答者の教育 (バツ)は線形回帰を表します (図 30)。

米。 三十。

選挙活動のレベルの分布の散布図 ( う)回答者の年齢 (A) (条件付き例) は非線形回帰です (図 31)。


米。 31.

一対回帰モデルの 2 つの特性 (A" と U) 間の関係を記述するには、線形方程式が使用されます。

ここで、a は、特性が変化する場合の式のランダム誤差値です。 方程式の「直線性」からの逸脱。

係数を推定するには そして b最小二乗法を使用します。これは、散布図上の各点の回帰直線からの偏差の二乗の合計が最小であると仮定します。 オッズ ああ、ああ連立方程式を使用して計算できます。

最小二乗推定法では、次のような係数推定値が得られます。 そして b、直線が座標のある点を通過する場合 バツそして そう、それらの。 関係があります = 斧+b。回帰式のグラフ表現は次のように呼ばれます。 理論的な回帰直線。線形依存性により、回帰係数は横軸に対する理論的回帰直線の傾斜角の接線をグラフ上で表します。 係数の符号は関係の方向を示します。 ゼロより大きい場合は直接接続、小さい場合は逆接続になります。

研究「Political Petersburg-2006」(表 56)からの以下の例は、現在の生活の満足度に関する国民の考えと、将来の生活の質の変化への期待との間の直線関係を示しています。 関係は直接的で線形です (標準化回帰係数は 0.233、有意水準は 0.000)。 この場合、回帰係数は高くありませんが、統計的に有意な指標の下限 (ピアソン係数の統計的に有意な指標の二乗の下限) を超えています。

表56

現在の国民の生活の質が期待に与える影響

(サンクトペテルブルク、2006)

* 従属変数: 「今後 2 ~ 3 年であなたの生活はどう変わると思いますか?」

政治生活においては、研究対象の変数の値はいくつかの特性に同時に依存することがほとんどです。 たとえば、政治活動のレベルと性質は、国家の政治体制、政治的伝統、特定の地域の人々の政治的行動の特徴、回答者の社会的ミクログループ、年齢、教育、収入レベルによって同時に影響されます。 、政治的方向性など。 この場合、次の方程式を使用する必要があります。 重回帰、次のようになります。

係数はどこにありますか b.- 偏回帰係数。 独立 (結果) 変数の値の決定に対する各独立変数の寄与を示します。 偏回帰係数が 0 に近い場合、独立変数と従属変数の間に直接の関係はないと結論付けることができます。

このようなモデルの計算は、行列代数を使用して PC 上で実行できます。 重回帰を使用すると、社会的つながりの多因子的な性質を反映し、結果として生じる属性に対する各因子の影響を個別に、またはまとめて明らかにすることができます。

で表される係数 b、は線形回帰係数と呼ばれ、因子特性の変動間の関係の強さを示します。 バツそしてその結果得られる形質のバリエーション Yこの係数は、属性の絶対測定単位で関係の強さを測定します。 ただし、特性間の相関の近さは、得られる特性の標準偏差の比率で表すこともできます (この係数を相関係数と呼びます)。 回帰係数とは異なります b相関係数は、一般に認められている特性の測定単位に依存しないため、どのような特性でも比較できます。 通常、接続は l > 0.7 の場合に強いとみなされ、中程度の近さ - 0.5 g 0.5 の場合。

知られているように、最も近い可能な接続は機能的な接続です。 Y意味を明確に割り当てることができる バツ。したがって、相関係数が 1 に近づくほど、関係は関数的になります。 回帰分析の有意水準は 0.001 を超えてはなりません。

相関係数は、特性間の関係の近さを示す主な指標として長い間考えられてきました。 しかし、その後、決定係数がそのような指標になりました。 この係数の意味は次のとおりです。この係数は、結果として得られる特性の合計分散の割合を反映します。 U、特性の分散によって説明される バツ。これは、相関係数 (0 から 1 まで変化) を単純に二乗することによって求められ、線形関係の場合、0 (0%) から 1% までの比率が反映されます。 1 (100%) 特性値 Yさん特性値によって決定される バツ。と書かれています I 2、 SPSS での回帰分析の結果の表には四角形がありません。

重回帰方程式を構築する際の主な問題の概要を説明します。

  • 1. 回帰式に含める係数を選択します。この段階で、研究者はまず、理論に従って研究対象の現象を決定する主な原因の一般的なリストを作成します。 次に、特徴を選択して回帰式に含める必要があります。 選択の基本ルール: 分析に含まれる要素は、相互の相関をできる限り少なくする必要があります。 この場合にのみ、影響の定量的尺度を特定の要因属性に割り当てることができます。
  • 2. 重回帰式の形式の選択(実際には、線形または線形対数がよく使用されます)。 したがって、重回帰を使用するには、研究者はまず、結果に対するいくつかの独立変数の影響に関する仮説モデルを構築する必要があります。 結果が信頼できるものであるためには、モデルが実際のプロセスと正確に一致している必要があります。 変数間の関係は線形である必要があり、重要な独立変数を無視することはできず、調査対象のプロセスに直接関係しない変数を分析に含めることはできません。 さらに、変数のすべての測定は非常に正確である必要があります。

上記の説明から、この方法を使用するための多くの条件が明らかになります。これらの条件がなければ、重回帰分析 (MRA) の手順を続行することは不可能です。 次のすべての点を遵守する場合にのみ、回帰分析を正しく実行できます。

統計モデリングにおいて、回帰分析は変数間の関係を評価するために使用される研究です。 この数学的手法には、従属変数と 1 つ以上の独立変数の間の関係に焦点を当てた、複数の変数をモデル化および分析するための他の多くの手法が含まれています。 より具体的には、回帰分析は、独立変数の 1 つが変化し、他の独立変数が固定されている場合に、従属変数の典型的な値がどのように変化するかを理解するのに役立ちます。

すべての場合において、ターゲット推定値は独立変数の関数であり、回帰関数と呼ばれます。 回帰分析では、従属変数の変化を回帰の関数として特徴付けることも重要であり、これは確率分布を使用して説明できます。

回帰分析の問題

この統計調査手法は予測に広く使用されており、その使用には大きな利点がありますが、場合によっては錯覚や誤った関係が生じる可能性があるため、相関関係は必ずしも意味するものではないため、前述の点では慎重に使用することをお勧めします。因果関係。

発展した 大きな数線形最小二乗回帰や通常の最小二乗回帰など、パラメトリックな回帰分析を実行する方法。 それらの本質は、回帰関数がデータから推定される有限数の未知のパラメーターに関して定義されることです。 ノンパラメトリック回帰では、その関数が特定の関数セット内に収まり、無限次元になる可能性があります。

統計調査手法としての回帰分析は、実際にはデータ生成プロセスの形式と、それが回帰アプローチとどのように関連するかによって異なります。 生成されるデータ プロセスの真の形式は通常未知の数であるため、データの回帰分析はプロセスに関する仮定にある程度依存することがよくあります。 十分なデータがあれば、これらの仮定をテストできる場合があります。 回帰モデルは、ピーク効率で機能しない可能性がありますが、仮定が中程度に違反している場合でも多くの場合役立ちます。

より狭い意味では、回帰は、分類に使用される離散応答変数とは対照的に、連続応答変数の推定を特に指す場合があります。 連続出力変数の場合は、関連する問題と区別するために計量回帰とも呼ばれます。

最も 初期の形式回帰はよく知られた最小二乗法です。 これは 1805 年にルジャンドルによって、1809 年にガウスによって出版されました。ルジャンドルとガウスは、この方法を、天体観測から太陽の周りの天体 (主に彗星ですが、後に新たに発見された小惑星) の軌道を決定する問題に適用しました。 ガウスは 1821 年に、ガウス-マルコフ定理のバージョンを含む最小二乗理論のさらなる発展を発表しました。

「回帰」という用語は、生物学的現象を説明するために 19 世紀にフランシス ゴルトンによって造られました。 その考えは、先祖の身長から見た子孫の身長は正規平均値に向かって下方に退行する傾向があるというものでした。 ゴルトンにとって、回帰はこの生物学的な意味のみを持っていましたが、後に彼の研究はウドニー・ヨーリーとカール・ピアソンによって引き継がれ、より一般的な統計の文脈に取り入れられました。 Yule と Pearson の研究では、応答変数と説明変数の同時分布はガウス分布であると仮定されています。 この仮定はフィッシャーによって 1922 年と 1925 年の論文で否定されました。 Fisher は、応答変数の条件付き分布はガウス分布ですが、同時分布はガウス分布である必要はない、と提案しました。 この点において、フィッシャーの提案は 1821 年のガウスの定式化に近いものです。 1970 年以前は、回帰分析の結果を得るまでに最大 24 時間かかることもありました。

回帰分析手法は、引き続き活発に研究されている分野です。 ここ数十年で、ロバスト回帰のための新しい手法が開発されました。 相関関係のある応答を含む回帰。 さまざまなタイプの欠損データに対応する回帰手法。 ノンパラメトリック回帰。 ベイジアン回帰法。 予測変数が誤差を伴って測定される回帰。 観察よりも多くの予測変数を使用する回帰と、回帰を使用した因果関係の推論です。

回帰モデル

回帰分析モデルには次の変数が含まれます。

  • 未知のパラメーター。ベータで指定され、スカラーまたはベクトルにすることができます。
  • 独立変数、X.
  • 従属変数、Y.

さまざまな地域回帰分析が使用される科学では、従属変数と独立変数の代わりに異なる用語が使用されますが、すべての場合において、回帰モデルは Y を X と β の関数に関連付けます。

近似は通常、E(Y | X) = F(X, β) として記述されます。 回帰分析を実行するには、関数 f の型を決定する必要があります。 それほど一般的ではありませんが、データに依存せず、Y と X の関係に関する知識に基づいています。 そのような知識が利用できない場合は、柔軟または便利なフォーム F が選択されます。

従属変数 Y

ここで、未知のパラメータ β のベクトルの長さが k であると仮定します。 回帰分析を実行するには、ユーザーは従属変数 Y に関する情報を提供する必要があります。

  • (Y, X) の形式の N 個のデータ ポイントが観察された場合、N は< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • 正確に N = K が観察され、関数 F が線形である場合、方程式 Y = F(X, β) は近似ではなく正確に解くことができます。 これは、X が線形独立である限り、一意の解を持つ N 個の未知数 (要素 β) を含む N 個の方程式のセットを解くことになります。 F が非線形の場合、解が存在しないか、多数の解が存在する可能性があります。
  • 最も一般的な状況は、N > データ ポイントが観察される場合です。 この場合、データに最もよく適合する β の一意の値を推定するのに十分な情報がデータ内にあり、データへの適用を β の過剰決定システムとみなすことができる回帰モデルが存在します。

後者の場合、回帰分析は次のツールを提供します。

  • 未知のパラメータ β の解を見つける。これにより、たとえば、Y の測定値と予測値の間の距離が最小化されます。
  • 特定の統計的仮定の下で、回帰分析は過剰な情報を使用して、未知のパラメーター β と従属変数 Y の予測値に関する統計情報を提供します。

必要な独立した測定の数

3 つの未知のパラメーター、β 0 、β 1 および β 2 を持つ回帰モデルを考えてみましょう。 実験者が独立変数ベクトル X の同じ値に対して 10 回の測定を行ったとします。この場合、回帰分析では一意の値のセットは生成されません。 できる最善のことは、従属変数 Y の平均と標準偏差を推定することです。同様に、2 つの値を測定すると、 さまざまな意味 X、2 つの未知数では回帰に十分なデータを取得できますが、3 つ以上の未知数では得られません。

実験者の測定が独立変数ベクトル X の 3 つの異なる値で行われた場合、回帰分析により β の 3 つの未知のパラメーターに対する一意の推定値のセットが提供されます。

一般的な線形回帰の場合、上記のステートメントは、行列 X T X が可逆であるという要件と同等です。

統計的な仮定

測定値 N が未知のパラメータ k および測定誤差 ε i の数より大きい場合、原則として、測定値に含まれる過剰な情報が配布され、未知のパラメータに関する統計的予測に使用されます。 この過剰な情報は回帰自由度と呼ばれます。

基本的な前提条件

回帰分析の古典的な前提には次のようなものがあります。

  • サンプリングは推論予測を表します。
  • 誤差項は平均が 0 の確率変数であり、説明変数の条件付きです。
  • 独立変数は誤差なく測定されます。
  • 独立変数 (予測子) として、これらは線形独立です。つまり、どの予測子も他の予測子の線形結合として表現することはできません。
  • 誤差には相関がありません。つまり、対角線の誤差共分散行列とゼロ以外の各要素が誤差分散です。
  • 誤差の分散は観測値全体で一定です (均一分散性)。 そうでない場合は、重み付き最小二乗法または他の方法を使用できます。

最小二乗推定のこれらの十分条件には、必要な特性があります。特に、これらの仮定は、特に線形推定器のクラスで考慮された場合、パラメーター推定が客観的で一貫性があり、効率的であることを意味します。 証拠が条件を満たすことはほとんどないことに注意することが重要です。 つまり、仮定が正しくない場合でもこの方法が使用されます。 仮定からの変動は、モデルがどの程度有用であるかを示す尺度として使用されることがあります。 これらの仮定の多くは、より高度な方法で緩和できます。 統計分析レポートには通常、サンプル データに対するテストの分析とモデルの有用性に関する方法論が含まれます。

さらに、変数は点の位置で測定された値を指す場合があります。 変数には、統計的仮定に違反する空間傾向や空間的自己相関が存在する可能性があります。 地理的加重回帰は、そのようなデータを処理する唯一の方法です。

線形回帰の特徴は、従属変数 Yi がパラメーターの線形結合であることです。 たとえば、単純な線形回帰では、1 つの独立変数 x i と 2 つのパラメーター β 0 および β 1 を使用して、n 点をモデル化します。

重線形回帰では、複数の独立変数またはその関数が存在します。

母集団からランダムなサンプルを取得すると、そのパラメーターを使用してサンプル線形回帰モデルを取得できます。

この点で最も一般的なのは最小二乗法です。 これは、残差の二乗和を最小化するパラメータ推定値を取得するために使用されます。 この関数のこの種の最小化 (線形回帰に典型的なもの) により、一連の正規方程式と一連の 一次方程式パラメータ推定値を取得するために解決されるパラメータを使用します。

母集団誤差は一般に伝播するというさらなる仮定の下で、研究者はこれらの標準誤差推定値を使用して信頼区間を作成し、そのパラメータに関する仮説検定を実行できます。

非線形回帰分析

関数がパラメーターに関して線形ではない例は、反復手順を使用して二乗和を最小化する必要があることを示しています。 これにより、線形最小二乗法の違いと非線形最小二乗法の違いを定義する多くの複雑な問題が生じます。 したがって、非線形手法を使用した場合の回帰分析の結果は予測できない場合があります。

検出力とサンプルサイズの計算

一般に、モデル内の観測値の数と独立変数の数に関して一貫した方法はありません。 最初のルールは Dobra と Hardin によって提案されたもので、N = t^n のようになります。ここで、N はサンプル サイズ、n は独立変数の数、t はモデルが独立変数は 1 つだけです。 たとえば、研究者は 1000 人の患者 (N) を含むデータセットを使用して線形回帰モデルを構築します。 研究者が線 (m) を正確に定義するには 5 つの観測値が必要であると判断した場合、モデルがサポートできる独立変数の最大数は 4 です。

その他の方法

回帰モデルのパラメーターは通常、最小二乗法を使用して推定されますが、それほど頻繁には使用されない他の方法もあります。 たとえば、次のような方法があります。

  • ベイズ法 (ベイズ線形回帰など)。
  • パーセンテージ回帰。パーセンテージ誤差を減らすことがより適切であると考えられる状況に使用されます。
  • 最小の絶対偏差。分位点回帰につながる外れ値が存在する場合により堅牢になります。
  • ノンパラメトリック回帰。多数の観測と計算が必要です。
  • 特定の入力空間で意味のある距離メトリックを見つけるために学習される距離学習メトリック。

ソフトウェア

すべての主要な統計ソフトウェア パッケージは最小二乗回帰分析を実行します。 単純な線形回帰分析と重回帰分析は、一部のスプレッドシート アプリケーションや一部の電卓で使用できます。 多くの統計ソフトウェア パッケージは、さまざまなタイプのノンパラメトリックで堅牢な回帰を実行できますが、これらの手法はあまり標準化されていません。 ソフトウェア パッケージが異なれば、実装されるメソッドも異なります。 検査分析や神経画像処理などの分野で使用するために、特殊な回帰ソフトウェアが開発されています。

回帰分析の主な特徴: 回帰分析を利用すると、研究対象の変数間の関係がどのような形式と性質を持っているかに関する具体的な情報を得ることができます。

回帰分析の一連の段階

回帰分析の段階を簡単に考えてみましょう。

    問題の定式化。 この段階で、研究対象の現象の依存性に関する暫定的な仮説が形成されます。

    従属変数と独立(説明)変数の定義。

    統計データの収集。 回帰モデルに含まれる変数ごとにデータを収集する必要があります。

    接続の形式 (単純または複数、線形または非線形) に関する仮説の定式化。

    意味 回帰関数 (回帰式のパラメータの数値を計算することにあります)

    回帰分析の精度を評価します。

    得られた結果の解釈。 得られた回帰分析の結果は、予備的な仮説と比較されます。 得られた結果の正確性と信頼性が評価されます。

    従属変数の未知の値を予測します。

回帰分析を使用すると、予測と分類の問題を解決できます。 説明変数の値を回帰式に代入して予測値を算出します。 分類問題は次の方法で解決されます。回帰直線はオブジェクトのセット全体を 2 つのクラスに分割し、セットの関数値が 0 より大きい部分は 1 つのクラスに属し、関数値が 0 より小さい部分は 1 つのクラスに属します。別のクラスに属しています。

回帰分析の問題

回帰分析の主なタスクを考えてみましょう: 依存関係の形式を確立し、 回帰関数、従属変数の未知の値の推定。

依存の形を確立する。

変数間の関係の性質と形式により、次のタイプの回帰が形成される可能性があります。

    正の線形回帰 (関数の一様な増加で表現);

    正の一様増加回帰。

    正の一様増加回帰。

    負の線形回帰 (関数の一様な減少として表現);

    負の一様に加速された減少回帰。

    負の一様に減少する回帰。

ただし、記載されている品種は通常、純粋な形ではなく、互いに組み合わせて存在します。 この場合、回帰の複合形式について説明します。

回帰関数の定義。

2 番目のタスクは、他の条件が同じであり、従属変数に対するランダムな要素の影響を除外することを条件として、主要な要因または原因の従属変数に対する影響を特定することになります。 回帰関数は、何らかの種類の数学方程式の形式で定義されます。

従属変数の未知の値の推定。

この問題の解決策は、結局のところ、次のいずれかのタイプの問題を解決することになります。

    初期データの考慮された区間内での従属変数の値の推定、つまり 欠損値; この場合、補間問題は解決されます。

    従属変数の将来の値の推定、つまり ソースデータの指定された間隔外の値を検索します。 この場合、外挿の問題は解決されます。

どちらの問題も、独立変数の値について見つかったパラメータ推定値を回帰式に代入することで解決されます。 方程式を解いた結果は、ターゲット (従属) 変数の値の推定値となります。

回帰分析が依存するいくつかの仮定を見てみましょう。

線形性の仮定、つまり 考慮中の変数間の関係は線形であると仮定されます。 したがって、この例では、散布図をプロットしたところ、明確な線形関係を確認できました。 変数の散布図上で線形関係が明らかに存在しないことがわかる場合、つまり、 非線形関係がある場合は、非線形解析手法を使用する必要があります。

正規性の仮定 残り物。 予測値と観測値の差の分布が正規であると仮定します。 分布の性質を視覚的に判断するには、ヒストグラムを使用できます。 残り物.

回帰分析を使用する場合は、その主な制限を考慮する必要があります。 それは、回帰分析では依存関係のみを検出でき、依存関係の根底にある接続は検出できないという事実にあります。

回帰分析を使用すると、いくつかの既知の値に基づいて変数の推定値を計算することで、変数間の関係の強さを推定できます。

回帰方程式。

回帰式は次のようになります: Y=a+b*X

この式を使用すると、変数 Y は、定数 a と、変数 X の値を掛けた直線の傾き (または傾き) b で表されます。定数 a は切片項とも呼ばれ、傾きは次のようになります。回帰係数または B 係数。

ほとんどの場合 (常にではありませんが)、回帰直線に対して観測値には一定のばらつきがあります。

残り 回帰直線 (予測値) からの単一点 (観測値) の偏差です。

MS Excel で回帰分析の問題を解決するには、メニューから サービス「分析パッケージ」回帰分析ツール。 入力間隔 X と Y を設定します。入力間隔 Y は依存する分析データの範囲であり、1 つの列が含まれている必要があります。 入力間隔 X は、分析する必要がある独立したデータの範囲です。 入力範囲の数は 16 を超えてはなりません。

出力範囲内のプロシージャの出力で、次のレポートを取得します。 表8.3a-8.3v.

結果の結論

表8.3a。 回帰統計

回帰統計

複数のR

R二乗

正規化された R 二乗

標準誤差

観察

まず、に示されている計算の上部を見てみましょう。 表8.3a、 - 回帰統計。

マグニチュード R二乗は、確実性の尺度とも呼ばれ、結果として得られる回帰直線の品質を特徴付けます。 この品質は、ソース データと回帰モデル (計算データ) の一致度によって表現されます。 確実性の尺度は常に間隔内にあります。

ほとんどの場合、値は R二乗これらの値の間にあることを極値と呼びます。 ゼロと1の間。

値が R二乗これは、構築されたモデルが対応する変数のほぼすべての変動を説明していることを意味します。 逆に言えば意味は R二乗ゼロに近い場合は、構築されたモデルの品質が低いことを意味します。

この例では、確実性の尺度は 0.99673 で、回帰直線が元のデータに非常に良く適合していることを示しています。

複数のR - 重相関係数 R - 独立変数 (X) と従属変数 (Y) の依存度を表します。

複数のRは決定係数の平方根に等しく、この量は 0 から 1 の範囲の値を取ります。

単純な線形回帰分析では 複数のRピアソン相関係数に等しい。 本当に、 複数のRこの例では、前の例のピアソン相関係数 (0.998364) に等しくなります。

表8.3b。 回帰係数

オッズ

標準誤差

t 統計

Y字路

変数X1

* 計算の省略されたバージョンが提供されます。

ここで、次の計算の中間部分を考えてみましょう。 表8.3b。 ここで、回帰係数 b (2.305454545) と縦軸に沿った変位が与えられます。 定数 a (2.694545455)。

計算に基づいて、次のように回帰式を書くことができます。

Y= x*2.305454545+2.694545455

変数間の関係の方向は、回帰係数 (係数 b) の符号 (負または正) に基づいて決定されます。

回帰係数の符号が正の場合、従属変数と独立変数の関係は正になります。 この場合、回帰係数の符号は正であるため、関係も正です。

回帰係数の符号が負の場合、従属変数と独立変数の関係は負 (逆) になります。

表8.3c。 出力結果が表示されます 残り物。 これらの結果をレポートに表示するには、「回帰」ツールを実行するときに「残差」チェックボックスをオンにする必要があります。

残りの撤退

表8.3c。 残り物

観察

予測Y

残り物

標準天びん

レポートのこの部分を使用すると、作成された回帰直線からの各ポイントの偏差を確認できます。 絶対値の最大値 残り私たちの場合 - 0.778、最小 - 0.043。 これらのデータをより適切に解釈するために、元のデータのグラフと、図に示されている構築された回帰直線を使用します。 米。 8.3。 ご覧のとおり、回帰直線は元のデータの値に非常に正確に「適合」しています。

検討中の例は非常に単純であり、線形回帰直線を定性的に構築できるとは限らないことを考慮する必要があります。

米。 8.3.ソースデータと回帰直線

独立変数の既知の値に基づいて従属変数の未知の将来の値を推定する問題は考慮されていないままです。 予想問題。

回帰式を使用すると、予測の問題は、既知の x 値を使用して方程式 Y= x*2.305454545+2.694545455 を解くことに帰着します。 6 ステップ先の従属変数 Y を予測した結果が表示されます。 表8.4にある.

表8.4。 Y変数予測結果

Y(予測)

したがって、Microsoft Excel で回帰分析を使用した結果、次のようになります。

    回帰式を構築しました。

    依存関係の形式と変数間の接続の方向を確立しました - 正の線形回帰。これは関数の一様な増加で表現されます。

    変数間の関係の方向性を確立しました。

    結果として得られる回帰直線の品質を評価しました。

    元のセットのデータから計算されたデータの偏差を確認できました。

    従属変数の予測された将来の値。

もし 回帰関数定義、解釈、正当化され、回帰分析の精度の評価が要件を満たしており、構築されたモデルと予測値は十分な信頼性を持っていると考えられます。

このようにして得られた予測値は、期待できる平均値です。

この作業では、主な特徴を確認しました 記述統計その中には次のような概念があります 平均値,中央値,最大,最小データ変動のその他の特性。

コンセプトについても簡単に説明しました 排出量。 考慮される特性は、いわゆる探索的データ分析に関連しており、その結論は一般集団には適用されず、データのサンプルにのみ適用される可能性があります。 探索的データ分析は、主要な結論を取得し、母集団に関する仮説を形成するために使用されます。

相関分析と回帰分析の基本、そのタスクと実用化の可能性についても説明しました。