Analyse de régression. Analyse de régression

L'analyse de régression examine la dépendance d'une certaine quantité à une autre quantité ou à plusieurs autres quantités. L'analyse de régression est principalement utilisée dans les prévisions à moyen terme, ainsi que dans les prévisions à long terme. Les périodes de moyen et long terme permettent d'établir les évolutions de l'environnement des affaires et de prendre en compte l'impact de ces évolutions sur l'indicateur étudié.

Pour effectuer une analyse de régression, il faut :

    disponibilité des données annuelles sur les indicateurs étudiés,

    disponibilité de prévisions ponctuelles, c'est-à-dire prévisions qui ne s'améliorent pas avec les nouvelles données.

L'analyse de régression est généralement effectuée pour des objets de nature complexe et multifactorielle, tels que le volume des investissements, les bénéfices, les volumes de ventes, etc.

À méthode de prévision normative les voies et modalités de réalisation des états possibles du phénomène, pris comme but, sont déterminées. Nous parlons de prédire la réalisation des états souhaités du phénomène sur la base de normes, d'idéaux, d'incitations et d'objectifs prédéterminés. Une telle prévision répond à la question : de quelles manières le souhait peut-il être atteint ? La méthode normative est plus souvent utilisée pour les prévisions programmatiques ou ciblées. On utilise à la fois une expression quantitative de la norme et une certaine échelle des possibilités de la fonction d'évaluation.

Dans le cas de l'utilisation d'une expression quantitative, par exemple des normes physiologiques et rationnelles de consommation de certains produits alimentaires et non alimentaires élaborées par des spécialistes pour différents groupes de la population, il est possible de déterminer le niveau de consommation de ces biens pour les années précédant l'atteinte de la norme spécifiée. De tels calculs sont appelés interpolation. L'interpolation est un moyen de calculer des indicateurs manquants dans la série chronologique d'un phénomène, sur la base d'une relation établie. En prenant la valeur réelle de l'indicateur et la valeur de ses normes comme membres extrêmes de la série dynamique, il est possible de déterminer l'ampleur des valeurs au sein de cette série. Par conséquent, l'interpolation est considérée comme une méthode normative. La formule (4) donnée précédemment, utilisée en extrapolation, peut être utilisée en interpolation, où y n ne caractérisera plus la donnée réelle, mais la norme de l'indicateur.

Dans le cas de l'utilisation d'une échelle (champ, spectre) des possibilités de la fonction d'évaluation, c'est-à-dire la fonction de distribution des préférences, dans la méthode normative, environ la gradation suivante est indiquée: indésirable - moins souhaitable - plus souhaitable - le plus souhaitable - optimal (standard).

La méthode de prévision normative permet d'élaborer des recommandations pour augmenter le niveau d'objectivité, et donc l'efficacité des décisions.

La modélisation, peut-être la méthode de prévision la plus difficile. La modélisation mathématique désigne la description d'un phénomène économique au moyen de formules mathématiques, d'équations et d'inégalités. L'appareil mathématique doit refléter avec précision l'arrière-plan prévu, bien qu'il soit assez difficile de refléter pleinement toute la profondeur et la complexité de l'objet prédit. Le terme "modèle" est dérivé du mot latin modelus, qui signifie "mesure". Il serait donc plus correct de considérer la modélisation non pas comme une méthode de prévision, mais comme une méthode d'étude d'un phénomène similaire sur un modèle.

Au sens large, les modèles sont appelés substituts de l'objet d'étude, qui présentent une telle similitude avec lui qu'ils permettent d'acquérir de nouvelles connaissances sur l'objet. Le modèle doit être considéré comme une description mathématique de l'objet. Dans ce cas, le modèle est défini comme un phénomène (sujet, installation) qui est en correspondance avec l'objet étudié et peut le remplacer dans le processus de recherche, en présentant des informations sur l'objet.

Avec une compréhension plus étroite du modèle, il est considéré comme un objet de prévision, son étude permet d'obtenir des informations sur les états possibles de l'objet dans le futur et les moyens d'atteindre ces états. Dans ce cas, le but du modèle prédictif est d'obtenir des informations non pas sur l'objet en général, mais uniquement sur ses états futurs. Ensuite, lors de la construction d'un modèle, il peut être impossible de vérifier directement sa correspondance avec l'objet, car le modèle ne représente que son état futur, et l'objet lui-même peut être actuellement absent ou avoir une autre existence.

Les modèles peuvent être matériels et idéaux.

Les modèles idéaux sont utilisés en économie. Le modèle idéal le plus parfait pour une description quantitative d'un phénomène socio-économique (économique) est un modèle mathématique qui utilise des nombres, des formules, des équations, des algorithmes ou une représentation graphique. A l'aide de modèles économiques déterminer :

    la relation entre divers indicateurs économiques;

    divers types de restrictions imposées aux indicateurs;

    critères pour optimiser le processus.

Une description significative d'un objet peut être représentée sous la forme de son schéma formalisé, qui indique quels paramètres et informations initiales doivent être collectés afin de calculer les valeurs souhaitées. Un modèle mathématique, contrairement à un schéma formalisé, contient des données numériques spécifiques caractérisant un objet.L'élaboration d'un modèle mathématique dépend en grande partie de l'idée que se fait le prévisionniste de l'essence du processus modélisé. Sur la base de ses idées, il propose une hypothèse de travail, à l'aide de laquelle un enregistrement analytique du modèle est créé sous forme de formules, d'équations et d'inégalités. À la suite de la résolution du système d'équations, des paramètres spécifiques de la fonction sont obtenus, qui décrivent l'évolution des variables souhaitées dans le temps.

L'ordre et la séquence des travaux en tant qu'élément de l'organisation de la prévision sont déterminés en fonction de la méthode de prévision utilisée. Habituellement, ce travail est effectué en plusieurs étapes.

Étape 1 - rétrospection prédictive, c'est-à-dire l'établissement de l'objet de la prévision et de l'arrière-plan de la prévision. Le travail de la première étape est effectué dans l'ordre suivant:

    formation d'une description d'un objet dans le passé, qui comprend une analyse pré-prévisionnelle de l'objet, une évaluation de ses paramètres, de leur signification et de leurs relations mutuelles,

    identification et évaluation des sources d'information, procédure et organisation du travail avec elles, collecte et placement d'informations rétrospectives;

    fixer des objectifs de recherche.

Réalisant les tâches de rétrospection prédictive, les prévisionnistes étudient l'historique du développement de l'objet et le contexte prévisionnel afin d'obtenir leur description systématique.

Étape 2 - diagnostic prédictif, au cours de laquelle une description systématique de l'objet de la prévision et du contexte de la prévision est étudiée afin d'identifier les tendances de leur développement et de sélectionner des modèles et des méthodes de prévision. Le travail est effectué dans l'ordre suivant:

    développement d'un modèle d'objet prévisionnel, incluant une description formalisée de l'objet, vérifiant le degré d'adéquation du modèle à l'objet ;

    choix des méthodes de prévision (principales et auxiliaires), développement d'un algorithme et de programmes de travail.

3ème étape - patronage, c'est-à-dire le processus de développement approfondi de la prévision, comprenant: 1) le calcul des paramètres prédits pour une période de plomb donnée; 2) synthèse des composantes individuelles de la prévision.

4ème étape - évaluation de la prévision, y compris sa vérification, c'est-à-dire détermination du degré de fiabilité, d'exactitude et de validité.

Au cours de la prospection et de l'évaluation, les tâches de prévision et son évaluation sont résolues sur la base des étapes précédentes.

Le phasage indiqué est approximatif et dépend de la principale méthode de prévision.

Les résultats de la prévision sont établis sous la forme d'un certificat, d'un rapport ou d'un autre document et sont présentés au client.

En prévision, l'écart de la prévision par rapport à l'état réel de l'objet peut être indiqué, ce qui s'appelle l'erreur de prévision, qui est calculée par la formule :

;
;
. (9.3)

Sources d'erreurs dans les prévisions

Les sources principales peuvent être :

1. Transfert simple (extrapolation) de données du passé vers le futur (par exemple, l'entreprise n'a pas d'autres options de prévision, à l'exception d'une augmentation de 10% des ventes).

2. L'incapacité de déterminer avec précision la probabilité d'un événement et son impact sur l'objet à l'étude.

3. Difficultés imprévues (événements perturbateurs) affectant la mise en œuvre du plan, par exemple, le licenciement soudain du responsable du service commercial.

En général, la précision des prévisions augmente avec l'accumulation d'expérience en matière de prévision et le développement de ses méthodes.

Analyse de régression

régression (linéaire) une analyse- une méthode statistique pour étudier l'influence d'une ou plusieurs variables indépendantes sur une variable dépendante. Les variables indépendantes sont autrement appelées régresseurs ou prédicteurs, et les variables dépendantes sont appelées critères. Terminologie dépendant et indépendant variables ne reflète que la dépendance mathématique des variables ( voir Corrélation fallacieuse), plutôt qu'une relation causale.

Objectifs de l'analyse de régression

  1. Détermination du degré de déterminisme de la variation de la variable critère (dépendante) par des prédicteurs (variables indépendantes)
  2. Prédire la valeur de la variable dépendante à l'aide de la ou des variables indépendantes
  3. Détermination de la contribution des variables indépendantes individuelles à la variation de la dépendance

L'analyse de régression ne peut pas être utilisée pour déterminer s'il existe une relation entre les variables, puisque l'existence d'une telle relation est une condition préalable à l'application de l'analyse.

Définition mathématique de la régression

La dépendance strictement régressive peut être définie comme suit. Soit , des variables aléatoires avec une distribution de probabilité conjointe donnée. Si pour chaque ensemble de valeurs une espérance conditionnelle est définie

(équation de régression générale),

alors la fonction s'appelle régression Y valeurs par valeurs, et son graphique - ligne de régression par , ou équation de régression.

La dépendance à se manifeste dans le changement des valeurs moyennes de Y lors du changement . Bien que pour chaque ensemble fixe de valeurs, la quantité reste une variable aléatoire avec une certaine dispersion.

Pour clarifier la question de savoir avec quelle précision l'analyse de régression estime le changement de Y avec un changement, la valeur moyenne de la variance de Y est utilisée pour différents ensembles de valeurs (en fait, nous parlons de la mesure de la dispersion du variable dépendante autour de la droite de régression).

Méthode des moindres carrés (calcul des coefficients)

En pratique, la droite de régression est le plus souvent recherchée sous la forme fonction linéaire(régression linéaire) qui se rapproche le plus de la courbe désirée. Ceci est fait en utilisant la méthode des moindres carrés , lorsque la somme des écarts au carré des réels observés par rapport à leurs estimations est minimisée (c'est-à-dire des estimations utilisant une ligne droite qui prétend représenter la dépendance de régression souhaitée):

(M - taille de l'échantillon). Cette approche est basée sur fait connu que la somme apparaissant dans l'expression ci-dessus prend la valeur minimale précisément pour le cas où .

Pour résoudre le problème de l'analyse de régression par la méthode des moindres carrés, le concept est introduit fonctions résiduelles:

La condition pour le minimum de la fonction résiduelle :

Le système résultant est le système équations linéaires avec inconnu

Si nous représentons les termes libres du côté gauche des équations par la matrice

et les coefficients des inconnues du côté droit de la matrice

on obtient alors l'équation matricielle : , qui se résout facilement par la méthode de Gauss. La matrice résultante sera une matrice contenant les coefficients de l'équation de la droite de régression :

Pour obtenir les meilleures estimations, il est nécessaire de remplir les prérequis LSM (conditions de Gauss-Markov). Dans la littérature anglaise, ces estimations sont appelées BLUE (Best Linear Unbiased Estimateurs) - les meilleures estimations linéaires sans biais.

Interprétation des paramètres de régression

Les paramètres sont des coefficients de corrélation partielle ; est interprété comme la proportion de la variance de Y expliquée en fixant l'influence des prédicteurs restants, c'est-à-dire qu'il mesure la contribution individuelle à l'explication de Y. Dans le cas de prédicteurs corrélés, il y a un problème d'incertitude dans les estimations , qui dépendent de l'ordre dans lequel les prédicteurs sont inclus dans le modèle. Dans de tels cas, il est nécessaire d'appliquer les méthodes d'analyse de corrélation et d'analyse de régression pas à pas.

En parlant de modèles non linéaires d'analyse de régression, il est important de faire attention à savoir si nous parlons de non-linéarité dans les variables indépendantes (d'un point de vue formel, facilement réduites à la régression linéaire), ou de non-linéarité dans les paramètres estimés (entraînant de sérieuses difficultés de calcul). Avec le premier type de non-linéarité, d'un point de vue significatif, il est important de distinguer l'apparition dans le modèle de membres de la forme , , indiquant la présence d'interactions entre caractéristiques , etc. (voir Multicolinéarité).

voir également

Liens

  • www.kgafk.ru - Conférence sur "l'analyse de régression"
  • www.basegroup.ru - méthodes de sélection des variables dans les modèles de régression

Littérature

  • Norman Draper, Harry Smith Analyse de régression appliquée. Régression multiple= Analyse de régression appliquée. - 3e éd. - M.: "Dialectique", 2007. - S. 912. - ISBN 0-471-17082-8
  • Méthodes durables d'estimation des modèles statistiques : monographie. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC : 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radchenko Stanislav Grigorievitch, Méthodologie d'analyse de régression : monographie. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Fondation Wikimédia. 2010 .

Qu'est-ce que la régression ?

Considérons deux variables continues x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Plaçons les points sur un nuage de points 2D et disons que nous avons relation linéaire si les données sont approchées par une ligne droite.

Si nous supposons que y dépend de X, et les changements de y causés par des changements dans X, on peut définir une droite de régression (régression y sur le X), qui décrit le mieux la relation linéaire entre ces deux variables.

L'utilisation statistique du mot "régression" provient d'un phénomène connu sous le nom de régression à la moyenne, attribué à Sir Francis Galton (1889).

Il a montré que si les pères de grande taille ont tendance à avoir des fils de grande taille, la taille moyenne des fils est inférieure à celle de leurs pères de grande taille. La taille moyenne des fils a « régressé » et « est revenue » à la taille moyenne de tous les pères de la population. Ainsi, en moyenne, les pères grands ont des fils plus petits (mais toujours grands) et les pères petits ont des fils plus grands (mais toujours assez petits).

ligne de régression

Équation mathématique qui évalue une droite de régression linéaire simple (par paires) :

X appelée variable indépendante ou prédicteur.

Oui est la variable dépendante ou de réponse. C'est la valeur que nous attendons pour y(en moyenne) si nous connaissons la valeur X, c'est à dire. est la valeur prédite y»

  • un- membre libre (franchissement) de la ligne d'évaluation ; cette valeur Oui, lorsque x=0(Fig. 1).
  • b- pente ou pente de la ligne estimée ; c'est le montant par lequel Oui augmente en moyenne si nous augmentons X pour une unité.
  • un et b sont appelés les coefficients de régression de la ligne estimée, bien que ce terme ne soit souvent utilisé que pour b.

La régression linéaire par paires peut être étendue pour inclure plus d'une variable indépendante ; dans ce cas, il est connu comme régression multiple.

Fig. 1. Droite de régression linéaire montrant l'intersection de a et de la pente b (la quantité d'augmentation de Y lorsque x augmente d'une unité)

Méthode des moindres carrés

Nous effectuons une analyse de régression en utilisant un échantillon d'observations où un et b- des estimations par échantillon des vrais paramètres (généraux), α et β , qui déterminent la ligne de régression linéaire dans la population (population générale).

La méthode la plus simple pour déterminer les coefficients un et b est méthode des moindres carrés(MNK).

L'ajustement est évalué en considérant les résidus (la distance verticale de chaque point à partir de la ligne, par exemple résidu = observable y- prédit y, Riz. 2).

La ligne de meilleur ajustement est choisie de sorte que la somme des carrés des résidus soit minimale.

Riz. 2. Ligne de régression linéaire avec les résidus représentés (lignes pointillées verticales) pour chaque point.

Hypothèses de régression linéaire

Ainsi, pour chaque valeur observée, le résidu est égal à la différence et à la valeur prédite correspondante.Chaque résidu peut être positif ou négatif.

Vous pouvez utiliser des valeurs résiduelles pour tester les hypothèses suivantes derrière la régression linéaire :

  • Les résidus sont normalement distribués avec une moyenne nulle ;

Si les hypothèses de linéarité, de normalité et/ou de variance constante sont discutables, nous pouvons transformer ou et calculer une nouvelle droite de régression pour laquelle ces hypothèses sont satisfaites (par exemple, utiliser une transformation logarithmique, etc.).

Valeurs anormales (outliers) et points d'influence

Une observation « influente », si elle est omise, modifie une ou plusieurs estimations de paramètres du modèle (c'est-à-dire la pente ou l'ordonnée à l'origine).

Une valeur aberrante (une observation qui contredit la plupart des valeurs de l'ensemble de données) peut être une observation "influente" et peut être bien détectée visuellement lors de l'examen d'un nuage de points 2D ou d'un graphique de résidus.

Tant pour les valeurs aberrantes que pour les observations "influentes" (points), des modèles sont utilisés, à la fois avec leur inclusion et sans eux, en prêtant attention à l'évolution de l'estimation (coefficients de régression).

Lorsque vous effectuez une analyse, ne supprimez pas automatiquement les valeurs aberrantes ou les points d'influence, car le simple fait de les ignorer peut affecter les résultats. Étudiez toujours les causes de ces valeurs aberrantes et analysez-les.

Hypothèse de régression linéaire

Lors de la construction d'une régression linéaire, l'hypothèse nulle est vérifiée que la pente générale de la droite de régression β est égale à zéro.

Si la pente de la droite est nulle, il n'y a pas de relation linéaire entre et : le changement n'affecte pas

Pour tester l'hypothèse nulle selon laquelle la vraie pente est nulle, vous pouvez utiliser l'algorithme suivant :

Calculer la statistique de test égale au rapport , qui obéit à une distribution à degrés de liberté, où l'erreur type du coefficient


,

- estimation de la variance des résidus.

Habituellement, si le niveau de signification atteint est l'hypothèse nulle est rejetée.


où est le point de pourcentage de la distribution avec degrés de liberté qui donne la probabilité d'un test bilatéral

C'est l'intervalle qui contient la pente générale avec une probabilité de 95 %.

Pour les grands échantillons, disons que nous pouvons approximer avec une valeur de 1,96 (c'est-à-dire que la statistique de test aura tendance à être normalement distribuée)

Evaluation de la qualité de la régression linéaire : coefficient de détermination R 2

En raison de la relation linéaire et nous nous attendons à ce que les changements changent , et nous appelons cela la variation due ou expliquée par la régression. La variation résiduelle doit être aussi petite que possible.

Si c'est le cas, alors la majeure partie de la variation sera expliquée par la régression, et les points se situeront près de la ligne de régression, c'est-à-dire la ligne correspond bien aux données.

La proportion de la variance totale expliquée par la régression est appelée coefficient de détermination, généralement exprimé en pourcentage et noté R2(en régression linéaire appariée, il s'agit de la valeur r2, le carré du coefficient de corrélation), permet d'évaluer subjectivement la qualité de l'équation de régression.

La différence est le pourcentage de variance qui ne peut pas être expliquée par la régression.

En l'absence de test formel à évaluer, nous sommes obligés de nous fier à un jugement subjectif pour déterminer la qualité de l'ajustement de la droite de régression.

Application d'une ligne de régression à une prévision

Vous pouvez utiliser une droite de régression pour prédire une valeur à partir d'une valeur dans la plage observée (ne jamais extrapoler au-delà de ces limites).

Nous prédisons la moyenne des observables qui ont une certaine valeur en substituant cette valeur dans l'équation de la droite de régression.

Ainsi, si la prédiction est telle que Nous utilisons cette valeur prédite et son erreur standard pour estimer l'intervalle de confiance pour la vraie moyenne de la population.

Répéter cette procédure pour différentes valeurs vous permet de construire des limites de confiance pour cette ligne. Il s'agit d'une bande ou d'une zone qui contient une vraie ligne, par exemple, avec un niveau de confiance de 95 %.

Plans de régression simples

Les plans de régression simples contiennent un prédicteur continu. S'il y a 3 cas avec des valeurs de prédicteur P , telles que 7, 4 et 9, et que le plan inclut un effet de premier ordre P , alors la matrice de plan X sera

et l'équation de régression utilisant P pour X1 ressemble à

Y = b0 + b1 P

Si un plan de régression simple contient un effet d'ordre supérieur sur P , tel qu'un effet quadratique, les valeurs de la colonne X1 de la matrice de plan seront élevées à la puissance seconde :

et l'équation prendra la forme

Y = b0 + b1 P2

Les méthodes de codage restreintes à sigma et surparamétrées ne s'appliquent pas aux plans de régression simples et aux autres plans contenant uniquement des prédicteurs continus (car il n'y a tout simplement pas de prédicteurs catégoriels). Quelle que soit la méthode de codage choisie, les valeurs des variables continues sont incrémentées de la puissance appropriée et utilisées comme valeurs pour les variables X. Dans ce cas, aucune conversion n'est effectuée. De plus, lors de la description des plans de régression, vous pouvez omettre de prendre en compte la matrice de plan X et travailler uniquement avec l'équation de régression.

Exemple : analyse de régression simple

Cet exemple utilise les données fournies dans le tableau :

Riz. 3. Tableau des données initiales.

Les données sont basées sur une comparaison des recensements de 1960 et 1970 dans 30 comtés choisis au hasard. Les noms de comté sont représentés comme des noms d'observation. Les informations concernant chaque variable sont présentées ci-dessous :

Riz. 4. Tableau de spécification des variables.

Objectif de recherche

Pour cet exemple, la corrélation entre le taux de pauvreté et la puissance qui prédit le pourcentage de familles qui sont sous le seuil de pauvreté sera analysée. Par conséquent, nous traiterons la variable 3 (Pt_Poor ) comme une variable dépendante.

On peut émettre une hypothèse : l'évolution de la population et le pourcentage de familles en dessous du seuil de pauvreté sont liés. Il semble raisonnable de s'attendre à ce que la pauvreté entraîne un exode de la population, il y aurait donc une corrélation négative entre le pourcentage de personnes en dessous du seuil de pauvreté et l'évolution de la population. Par conséquent, nous traiterons la variable 1 (Pop_Chng ) comme une variable prédictive.

Voir les résultats

Coefficients de régression

Riz. 5. Coefficients de régression Pt_Poor sur Pop_Chng.

A l'intersection de la ligne Pop_Chng et Param. le coefficient non standardisé pour la régression de Pt_Poor sur Pop_Chng est -0.40374 . Cela signifie que pour chaque unité de diminution de la population, il y a une augmentation du taux de pauvreté de 0,40374. Les limites de confiance supérieure et inférieure (par défaut) de 95 % pour ce coefficient non standardisé n'incluent pas zéro, de sorte que le coefficient de régression est significatif au niveau p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Répartition des variables

Les coefficients de corrélation peuvent devenir considérablement surestimés ou sous-estimés s'il existe de grandes valeurs aberrantes dans les données. Examinons la distribution de la variable dépendante Pt_Poor par comté. Pour ce faire, nous allons construire un histogramme de la variable Pt_Poor.

Riz. 6. Histogramme de la variable Pt_Poor.

Comme vous pouvez le voir, la distribution de cette variable diffère nettement de la distribution normale. Cependant, bien que même deux comtés (les deux colonnes de droite) aient un pourcentage plus élevé de familles qui sont en dessous du seuil de pauvreté que prévu dans une distribution normale, ils semblent être "à l'intérieur de la fourchette".

Riz. 7. Histogramme de la variable Pt_Poor.

Ce jugement est quelque peu subjectif. La règle empirique est que les valeurs aberrantes doivent être prises en compte si une observation (ou des observations) ne se situe pas dans l'intervalle (moyenne ± 3 fois l'écart type). Dans ce cas, il vaut la peine de répéter l'analyse avec et sans valeurs aberrantes pour s'assurer qu'elles n'ont pas d'effet sérieux sur la corrélation entre les membres de la population.

Nuage de points

Si l'une des hypothèses porte a priori sur la relation entre les variables données, alors il est utile de la vérifier sur le tracé du nuage de points correspondant.

Riz. 8. Nuage de points.

Le nuage de points montre une nette corrélation négative (-0,65) entre les deux variables. Il montre également l'intervalle de confiance à 95 % pour la ligne de régression, c'est-à-dire qu'avec une probabilité de 95 %, la ligne de régression passe entre les deux courbes en pointillés.

Critères d'importance

Riz. 9. Tableau contenant les critères d'importance.

Le test du coefficient de régression Pop_Chng confirme que Pop_Chng est fortement lié à Pt_Poor , p<.001 .

Résultat

Cet exemple a montré comment analyser un plan de régression simple. Une interprétation des coefficients de régression non standardisés et standardisés a également été présentée. L'importance d'étudier la distribution des réponses de la variable dépendante est discutée, et une technique pour déterminer la direction et la force de la relation entre le prédicteur et la variable dépendante est démontrée.

Analyse de régression et de corrélation - méthodes de recherche statistique. Ce sont les moyens les plus courants de montrer la dépendance d'un paramètre à une ou plusieurs variables indépendantes.

Ci-dessous, à l'aide d'exemples pratiques concrets, nous examinerons ces deux analyses très appréciées des économistes. Nous donnerons également un exemple d'obtention de résultats lorsqu'ils sont combinés.

Analyse de régression dans Excel

Montre l'influence de certaines valeurs (indépendantes, indépendantes) sur la variable dépendante. Par exemple, comment le nombre de la population économiquement active dépend du nombre d'entreprises, des salaires et d'autres paramètres. Ou : comment les investissements étrangers, les prix de l'énergie, etc. affectent-ils le niveau du PIB.

Le résultat de l'analyse vous permet d'établir des priorités. Et sur la base des principaux facteurs, prévoir, planifier le développement des zones prioritaires, prendre des décisions de gestion.

La régression se produit :

  • linéaire (y = a + bx);
  • parabolique (y = a + bx + cx 2);
  • exponentiel (y = a * exp(bx));
  • puissance (y = a*x^b);
  • hyperbolique (y = b/x + a);
  • logarithmique (y = b * 1n(x) + a);
  • exponentielle (y = a * b^x).

Prenons l'exemple de la création d'un modèle de régression dans Excel et de l'interprétation des résultats. Prenons un type de régression linéaire.

Une tâche. Dans 6 entreprises, le salaire mensuel moyen et le nombre d'employés qui ont quitté ont été analysés. Il est nécessaire de déterminer la dépendance du nombre d'employés à la retraite sur le salaire moyen.

Le modèle de régression linéaire a la forme suivante :

Y \u003d un 0 + un 1 x 1 + ... + un k x k.

Où a sont les coefficients de régression, x sont les variables d'influence et k est le nombre de facteurs.

Dans notre exemple, Y est l'indicateur des travailleurs qui ont démissionné. Le facteur d'influence est le salaire (x).

Excel a des fonctions intégrées qui peuvent être utilisées pour calculer les paramètres d'un modèle de régression linéaire. Mais le complément Analysis ToolPak le fera plus rapidement.

Activez un puissant outil d'analyse :

Une fois activé, le module complémentaire sera disponible sous l'onglet Données.

Nous allons maintenant traiter directement de l'analyse de régression.



Tout d'abord, nous prêtons attention au R-carré et aux coefficients.

R-carré est le coefficient de détermination. Dans notre exemple, il est de 0,755, soit 75,5 %. Cela signifie que les paramètres calculés du modèle expliquent la relation entre les paramètres étudiés à 75,5 %. Plus le coefficient de détermination est élevé, meilleur est le modèle. Bon - supérieur à 0,8. Mauvais - moins de 0,5 (une telle analyse peut difficilement être considérée comme raisonnable). Dans notre exemple - "pas mal".

Le coefficient 64,1428 montre ce que sera Y si toutes les variables du modèle considéré sont égales à 0. Autrement dit, d'autres facteurs non décrits dans le modèle affectent également la valeur du paramètre analysé.

Le coefficient -0,16285 montre le poids de la variable X sur Y. Autrement dit, le salaire mensuel moyen dans ce modèle affecte le nombre de décrocheurs avec un poids de -0,16285 (il s'agit d'un faible degré d'influence). Le signe « - » indique un impact négatif : plus le salaire est élevé, moins il y a d'abandon. Ce qui est juste.



Analyse de corrélation dans Excel

L'analyse de corrélation permet d'établir s'il existe une relation entre les indicateurs dans un ou deux échantillons. Par exemple, entre le temps de fonctionnement de la machine et le coût des réparations, le prix du matériel et la durée de fonctionnement, la taille et le poids des enfants, etc.

S'il existe une relation, alors si une augmentation d'un paramètre entraîne une augmentation (corrélation positive) ou une diminution (négative) de l'autre. L'analyse de corrélation aide l'analyste à déterminer si la valeur d'un indicateur peut prédire la valeur possible d'un autre.

Le coefficient de corrélation est noté r. Varie de +1 à -1. La classification des corrélations pour les différents domaines sera différente. Lorsque la valeur du coefficient est 0, il n'y a pas de relation linéaire entre les échantillons.

Considérez comment utiliser Excel pour trouver le coefficient de corrélation.

La fonction CORREL est utilisée pour trouver les coefficients appariés.

Tâche : Déterminer s'il existe une relation entre le temps de fonctionnement d'un tour et le coût de son entretien.

Placez le curseur dans n'importe quelle cellule et appuyez sur le bouton fx.

  1. Dans la catégorie "Statistiques", sélectionnez la fonction CORREL.
  2. Argument "Tableau 1" - la première plage de valeurs - l'heure de la machine : A2 : A14.
  3. Argument "Array 2" - la deuxième plage de valeurs - le coût des réparations : B2:B14. Cliquez sur OK.

Pour déterminer le type de connexion, il faut regarder le nombre absolu du coefficient (chaque domaine d'activité a sa propre échelle).

Pour une analyse de corrélation de plusieurs paramètres (plus de 2), il est plus pratique d'utiliser "Data Analysis" (add-on "Analysis Package"). Dans la liste, vous devez sélectionner une corrélation et désigner un tableau. Tout.

Les coefficients résultants seront affichés dans la matrice de corrélation. Comme celui-ci:

Analyse de corrélation-régression

En pratique, ces deux techniques sont souvent utilisées ensemble.

Exemple:


Maintenant, les données d'analyse de régression sont visibles.

1. Pour la première fois, le terme "régression" a été introduit par le fondateur de la biométrie F. Galton (XIXe siècle), dont les idées ont été développées par son disciple K. Pearson.

Analyse de régression- une méthode de traitement statistique des données qui permet de mesurer la relation entre une ou plusieurs causes (signes factoriels) et une conséquence (signe effectif).

pancarte- il s'agit de la principale caractéristique distinctive, caractéristique du phénomène ou du processus étudié.

Signe efficace - indicateur recherché.

Signe de facteur- un indicateur qui affecte la valeur de la caractéristique effective.

Le but de l'analyse de régression est d'évaluer la dépendance fonctionnelle de la valeur moyenne de la caractéristique effective ( à) du factoriel ( x 1, x 2, ..., x n), exprimée en équations de régression

à= F(x 1, x 2, ..., x n). (6.1)

Il existe deux types de régression : jumelée et multiple.

Régression jumelée (simple)- équation de la forme :

à= F(X). (6.2)

La caractéristique résultante dans la régression par paires est considérée comme une fonction d'un argument, c'est-à-dire un facteur.

L'analyse de régression comprend les étapes suivantes :

définition du type de fonction ;

détermination des coefficients de régression ;

Calcul des valeurs théoriques de la caractéristique effective ;

Vérification de la significativité statistique des coefficients de régression ;

Vérification de la signification statistique de l'équation de régression.

Régression multiple- équation de la forme :

à= F(x 1, x 2, ..., x n). (6.3)

La caractéristique résultante est considérée comme une fonction de plusieurs arguments, c'est-à-dire De nombreux facteurs.

2. Afin de déterminer correctement le type de fonction, il est nécessaire de trouver le sens de la connexion sur la base de données théoriques.

Selon le sens de la connexion, la régression se divise en :

· régression directe, survenant à la condition qu'avec une augmentation ou une diminution de la valeur indépendante " X" valeurs de la quantité dépendante " à"également augmenter ou diminuer en conséquence ;

· régression inverse, survenant à la condition qu'avec une augmentation ou une diminution de la valeur indépendante "X" valeur dépendante " à" diminue ou augmente en conséquence.

Pour caractériser les relations, les types suivants d'équations de régression appariées sont utilisés :

· y=a+bxlinéaire;

· y=e ax + b – exponentielle ;

· y=a+b/x – hyperbolique ;

· y=a+b 1 x+b 2 x 2 – parabolique ;

· y=ab x – exponentielle et etc.

un, b 1 , b 2- coefficients (paramètres) de l'équation ; à- signe efficace ; X- signe facteur.

3. La construction de l'équation de régression se réduit à estimer ses coefficients (paramètres), pour cela ils utilisent méthode des moindres carrés(MNK).

La méthode des moindres carrés vous permet d'obtenir de telles estimations des paramètres, dans lesquelles la somme des écarts au carré des valeurs réelles de la caractéristique effective " à» du théorique « y x» est minime, c'est-à-dire

Options d'équation de régression y=a+bx par la méthode des moindres carrés sont estimés à l'aide des formules :

un - coefficient libre, b- coefficient de régression, montre à quel point le signe résultant changera y» lors de la modification de l'attribut du facteur « X» par unité de mesure.

4. Pour évaluer la signification statistique des coefficients de régression, le test t de Student est utilisé.

Schéma de vérification de la significativité des coefficients de régression :

1) H 0 : un=0, b=0 - les coefficients de régression sont très peu différents de zéro.

H 1 : a≠ 0, b≠ 0 - les coefficients de régression sont significativement différents de zéro.

2) R=0,05 – niveau de signification.

m b,ma- erreurs aléatoires :

; . (6.7)

4) t table(R; F),

F=n-k- 1 - nombre de degrés de liberté (valeur du tableau), n- nombre d'observations, k X".

5) Si , alors dévie, c'est-à-dire coefficient important.

Si , alors est accepté, c'est-à-dire coefficient est insignifiant.

5. Pour vérifier l'exactitude de l'équation de régression construite, le critère de Fisher est utilisé.

Schéma de vérification de la signification de l'équation de régression :

1) H 0 : l'équation de régression n'est pas significative.

H 1 : l'équation de régression est significative.

2) R=0,05 – niveau de signification.

3) , (6.8)

où est le nombre d'observations ; k- le nombre de paramètres dans l'équation à variables " X"; à- la valeur réelle de la caractéristique effective ; y x- la valeur théorique de la caractéristique effective ; - coefficient de corrélation de paires.

4) tableau F(R; f 1 ; f2),

f 1 \u003d k, f 2 \u003d n-k-1- nombre de degrés de liberté (valeurs du tableau).

5) Si F calc >F tableau, alors l'équation de régression est choisie correctement et peut être appliquée dans la pratique.

Si un F calc , alors l'équation de régression est mal choisie.

6. Le principal indicateur reflétant la mesure de la qualité de l'analyse de régression est coefficient de détermination (R 2).

Coefficient de détermination montre quelle proportion de la variable dépendante " à» est pris en compte dans l'analyse et est causé par l'influence des facteurs inclus dans l'analyse.

Coefficient de détermination (R2) prend des valeurs dans la plage . L'équation de régression est qualitative si R2 ≥0,8.

Le coefficient de détermination est égal au carré du coefficient de corrélation, c'est-à-dire

Exemple 6.1. Sur la base des données suivantes, construisez et analysez l'équation de régression :

La solution.

1) Calculer le coefficient de corrélation : . La relation entre les signes est directe et modérée.

2) Construisez une équation de régression linéaire appariée.

2.1) Faites un tableau de calcul.

X à Hu x2 y x (a-a x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Somme 159,45 558,55
Moyen 77519,6 22,78 79,79 2990,6

,

Équation de régression linéaire appariée : yx \u003d 25,17 + 0,087x.

3) Trouver des valeurs théoriques" y x» en remplaçant les valeurs réelles dans l'équation de régression « X».

4) Tracer des graphiques de réel " à" et valeurs théoriques" y x» caractéristique effective (Figure 6.1) : r xy =0,47) et un petit nombre d'observations.

7) Calculez le coefficient de détermination : R2=(0,47) 2 =0,22. L'équation construite est de mauvaise qualité.

Car les calculs lors de l'analyse de régression sont assez volumineux, il est recommandé d'utiliser des programmes spéciaux ("Statistica 10", SPSS, etc.).

La figure 6.2 montre un tableau avec les résultats de l'analyse de régression effectuée à l'aide du programme "Statistica 10".

Illustration 6.2. Les résultats de l'analyse de régression effectuée à l'aide du programme "Statistica 10"

5. Littérature :

1. Gmurman V.E. Théorie des probabilités et statistiques mathématiques : Proc. manuel pour les universités / V.E. Gmurman. - M. : Lycée, 2003. - 479 p.

2. Koichubekov B.K. Biostatistique: Manuel. - Almaty : Evero, 2014. - 154 p.

3. Lobotskaya N.L. Mathématiques supérieures. / NL Lobotskaya, Yu.V. Morozov, A.A. Dunaïev. - Minsk : École supérieure, 1987. - 319 p.

4. Medic V.A., Tokmachev MS, Fishman B.B. Statistiques en médecine et biologie : un guide. En 2 tomes / Éd. Miam. Komarov. T. 1. Statistiques théoriques. - M. : Médecine, 2000. - 412 p.

5. Application de méthodes d'analyse statistique pour l'étude de la santé publique et des soins de santé: manuel / éd. Kucherenko V.Z. - 4e éd., révisée. et supplémentaire - M. : GEOTAR - Médias, 2011. - 256 p.