Données pour la régression. Fondamentaux de l'analyse des données

À la suite de l'étude de la matière du chapitre 4, l'étudiant doit :

connaître

  • concepts de base de l'analyse de régression;
  • méthodes d'estimation et propriétés des estimations de la méthode des moindres carrés;
  • règles de base pour les tests de signification et l'estimation par intervalle de l'équation et des coefficients de régression ;

être capable de

  • trouver des estimations des paramètres de modèles bidimensionnels et multiples d'équations de régression à partir de données d'échantillon, analyser leurs propriétés;
  • vérifier la signification de l'équation et des coefficients de régression ;
  • trouver des estimations d'intervalle de paramètres significatifs ;

posséder

  • les compétences d'estimation statistique des paramètres des équations de régression bidimensionnelle et multiple ; compétences pour vérifier l'adéquation des modèles de régression;
  • compétences pour obtenir une équation de régression avec tous les coefficients significatifs à l'aide d'un logiciel d'analyse.

Concepts de base

Après avoir effectué une analyse de corrélation, lorsque la présence de relations statistiquement significatives entre les variables a été identifiée et le degré de leur étanchéité a été évalué, ils procèdent généralement à une description mathématique du type de dépendances à l'aide de méthodes d'analyse de régression. A cet effet, une classe de fonctions est sélectionnée qui relie l'indicateur effectif à et arguments„ calculent les estimations des paramètres de l'équation de contrainte et analysent la précision de l'équation résultante .

Fonction | décrivant la dépendance de la valeur moyenne conditionnelle de la caractéristique effective àà partir des valeurs données des arguments, s'appelle équation de régression.

Le terme "régression" (du lat. régression- retraite, retour à quelque chose) a été introduit par le psychologue et anthropologue anglais F. Galton et est associé à l'un de ses premiers exemples, dans lequel Galton, traitant des données statistiques liées à la question de l'hérédité de la croissance, a constaté que si la hauteur de les pères s'écartent de la taille moyenne tous les pères sur X pouces, alors la taille de leurs fils s'écarte de la taille moyenne de tous les fils de moins de X pouces La tendance identifiée a été appelée Régression à la moyenne.

Le terme « régression » est largement utilisé dans la littérature statistique, bien que dans de nombreux cas, il ne caractérise pas avec précision la dépendance statistique.

Pour une description précise de l'équation de régression, il est nécessaire de connaître la loi de distribution conditionnelle de l'indicateur effectif y. Dans la pratique statistique, il est généralement impossible d'obtenir de telles informations, par conséquent, elles se limitent à trouver des approximations appropriées pour la fonction f(x tu X 2, .... l *), sur la base d'une analyse préliminaire significative du phénomène ou sur les données statistiques originales.

Dans le cadre des hypothèses individuelles du modèle sur le type de distribution du vecteur d'indicateurs<) может быть получен общий вид équations de régression, où. Par exemple, sous l'hypothèse que l'ensemble d'indicateurs étudié obéit à la loi de distribution normale de dimension () avec le vecteur d'espérances mathématiques

Où, et par la matrice de covariance,

où est la variance y,

L'équation de régression (espérance conditionnelle) a la forme

Ainsi, si une variable aléatoire multivariée ()

obéit à la loi de distribution normale () dimensionnelle, puis à l'équation de régression de l'indicateur effectif à dans les variables explicatives a linéaire dans X voir.

Cependant, dans la pratique statistique, il faut généralement se limiter à trouver des approximations appropriées pour la vraie fonction de régression inconnue f(x), puisque le chercheur n'a pas une connaissance exacte de la loi conditionnelle de la distribution de probabilité de l'indicateur de performance analysé à pour les valeurs données des arguments X.

Considérez la relation entre les estimations vraies, modélisées et de régression. Laissez l'indicateur de performance à associé à l'argument X rapport

où est une variable aléatoire avec une loi de distribution normale, de plus. La vraie fonction de régression dans ce cas est

Supposons que nous ne connaissions pas la forme exacte de la véritable équation de régression, mais que nous ayons neuf observations sur une variable aléatoire bidimensionnelle liée par les relations illustrées à la Fig. 4.1.

Riz. 4.1. La position relative du vraif(x) et théoriquewowmodèles de régression

Localisation des points sur la fig. 4.1 permet de se cantonner à la classe des dépendances linéaires de la forme

En utilisant la méthode des moindres carrés, nous trouvons une estimation de l'équation de régression.

A titre de comparaison, sur la Fig. 4.1 montre des graphiques de la fonction de régression vraie et de la fonction de régression d'approximation théorique. L'estimation de l'équation de régression converge en probabilité vers cette dernière wow avec une augmentation illimitée de la taille de l'échantillon ().

Étant donné que nous avons choisi par erreur une fonction de régression linéaire au lieu d'une véritable fonction de régression, ce qui, malheureusement, est assez courant dans la pratique de la recherche statistique, nos conclusions et estimations statistiques n'auront pas la propriété de cohérence, c'est-à-dire peu importe à quel point nous augmentons le volume d'observations, notre estimation d'échantillon ne convergera pas vers la vraie fonction de régression

Si nous avions choisi correctement la classe des fonctions de régression, alors l'imprécision dans la description utilisant wow ne s'expliquerait que par le caractère limité de l'échantillon et, par conséquent, il pourrait être rendu arbitrairement petit avec

Afin de restituer au mieux la valeur conditionnelle de l'indicateur effectif et de la fonction de régression inconnue à partir des données statistiques initiales, on utilise le plus souvent : critères d'adéquation fonctions de perte.

1. Méthode des moindres carrés, selon lequel l'écart au carré des valeurs observées de l'indicateur effectif, , par rapport aux valeurs du modèle est minimisé, où les coefficients de l'équation de régression; sont les valeurs du vecteur d'arguments dans "-M observation :

Le problème de trouver une estimation du vecteur est en cours de résolution. La régression qui en résulte est appelée carré moyen.

2. Méthode des moindres modules, selon lequel la somme des écarts absolus des valeurs observées de l'indicateur effectif par rapport aux valeurs modulaires est minimisée, c'est-à-dire

La régression qui en résulte est appelée moyen absolu(médian).

3. méthode minimax se réduit à minimiser le module d'écart maximum de la valeur observée de l'indicateur effectif y, de la valeur du modèle, c'est-à-dire

La régression qui en résulte est appelée minimax.

Dans les applications pratiques, il y a souvent des problèmes dans lesquels la variable aléatoire est étudiée y, en fonction d'un ensemble de variables et de paramètres inconnus. Nous considérerons () comme (k + 1) population générale dimensionnelle, à partir de laquelle un échantillon aléatoire de volume P, où () est le résultat de la /-ème observation,. Il est nécessaire d'estimer des paramètres inconnus sur la base des résultats des observations. La tâche décrite ci-dessus fait référence aux tâches d'analyse de régression.

analyse de régression appeler la méthode d'analyse statistique de la dépendance d'une variable aléatoire à sur les variables considérées dans l'analyse de régression comme des variables non aléatoires, quelle que soit la vraie loi de distribution

RÉSULTATS

Tableau 8.3a. Statistiques de régression
Statistiques de régression
Plusieurs R 0,998364
R Carré 0,99673
R-carré normalisé 0,996321
erreur standard 0,42405
Observations 10

Regardons d'abord la partie supérieure des calculs présentés dans le tableau 8.3a, les statistiques de régression.

La valeur R-carré, également appelée mesure de certitude, caractérise la qualité de la droite de régression résultante. Cette qualité s'exprime par le degré de correspondance entre les données d'origine et le modèle de régression (données calculées). La mesure de la certitude est toujours dans l'intervalle.

Dans la plupart des cas, la valeur R au carré se situe entre ces valeurs, appelées extrêmes, c'est-à-dire entre zéro et un.

Si la valeur du R-carré est proche de un, cela signifie que le modèle construit explique la quasi-totalité de la variabilité des variables correspondantes. A l'inverse, une valeur R au carré proche de zéro signifie une mauvaise qualité du modèle construit.

Dans notre exemple, la mesure de la certitude est de 0,99673, ce qui indique un très bon ajustement de la ligne de régression aux données d'origine.

Plusieurs R- coefficient de corrélation multiple R - exprime le degré de dépendance des variables indépendantes (X) et de la variable dépendante (Y).

Plusieurs R égaux racine carréeà partir du coefficient de détermination, cette valeur prend des valeurs comprises entre zéro et un.

Dans une analyse de régression linéaire simple, le multiple R est égal au coefficient de corrélation de Pearson. En effet, le multiple R dans notre cas est égal au coefficient de corrélation de Pearson de l'exemple précédent (0,998364).

Tableau 8.3b. Coefficients de régression
Chances erreur standard statistique t
Intersection en Y 2,694545455 0,33176878 8,121757129
Variable X 1 2,305454545 0,04668634 49,38177965
* Une version tronquée des calculs est donnée

Considérons maintenant la partie médiane des calculs présentés dans le tableau 8.3b. Ici, le coefficient de régression b (2,305454545) et le décalage le long de l'axe y sont donnés, c'est-à-dire constante a (2,694545455).

Sur la base des calculs, nous pouvons écrire l'équation de régression comme suit :

Y=x*2.305454545+2.694545455

Le sens de la relation entre les variables est déterminé en fonction des signes (négatifs ou positifs) coefficients de régression(coefficient b).

Si le signe à Coefficient de régression- positive, la relation de la variable dépendante avec l'indépendante sera positive. Dans notre cas, le signe du coefficient de régression est positif, donc la relation est également positive.

Si le signe à Coefficient de régression- négative, la relation entre la variable dépendante et la variable indépendante est négative (inverse).

Dans le tableau 8.3c. les résultats de la sortie des résidus sont présentés. Pour que ces résultats apparaissent dans le rapport, il est nécessaire d'activer la case à cocher "Résidus" lors du lancement de l'outil "Régression".

RETRAIT RESTANT

Tableau 8.3c. Restes
Observation Prédit Y Restes Soldes standards
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

En utilisant cette partie du rapport, nous pouvons voir les écarts de chaque point par rapport à la ligne de régression construite. La plus grande valeur absolue

La science politique moderne procède de la position sur la relation de tous les phénomènes et processus de la société. Il est impossible de comprendre les événements et les processus, de prévoir et de gérer les phénomènes de la vie politique sans étudier les liens et les dépendances qui existent dans la sphère politique de la société. L'une des tâches les plus courantes de la recherche sur les politiques consiste à étudier la relation entre certaines variables observables. Toute une classe de méthodes statistiques d'analyse, unies par le nom commun "analyse de régression" (ou, comme on l'appelle aussi, "analyse de corrélation-régression"), aide à résoudre ce problème. Cependant, si l'analyse de corrélation permet d'évaluer la force de la relation entre deux variables, alors en utilisant l'analyse de régression, il est possible de déterminer le type de cette relation, de prédire la dépendance de la valeur de n'importe quelle variable sur la valeur d'une autre variable .

Rappelons d'abord ce qu'est une corrélation. Corrélatif appelé le cas particulier le plus important de relation statistique, qui consiste dans le fait que des valeurs égales d'une variable correspondent à différentes valeurs moyennes une autre. Avec un changement de la valeur de l'attribut x, la valeur moyenne de l'attribut y change naturellement, tandis que dans chaque cas individuel la valeur de l'attribut à(avec des probabilités différentes) peut prendre de nombreuses valeurs différentes.

L'apparition du terme « corrélation » en statistique (et la science politique attire la réalisation de statistiques pour résoudre ses problèmes, qui est donc une discipline apparentée à la science politique) est associée au nom du biologiste et statisticien anglais Francis Galton, qui a proposé au 19ème siècle. fondements théoriques de l'analyse de corrélation-régression. Le terme "corrélation" en science était connu auparavant. En particulier, en paléontologie au XVIIIe siècle. il a été appliqué par le scientifique français Georges Cuvier. Il a introduit la loi dite de corrélation, à l'aide de laquelle, selon les restes d'animaux trouvés lors des fouilles, il était possible de restaurer leur apparence.

Il y a une histoire bien connue associée au nom de ce scientifique et à sa loi de corrélation. Ainsi, les jours de vacances universitaires, des étudiants qui ont décidé de jouer un tour à un professeur célèbre ont tiré une peau de chèvre avec des cornes et des sabots sur un étudiant. Il est monté à la fenêtre de la chambre de Cuvier et a crié : « Je vais te manger. Le professeur s'est réveillé, a regardé la silhouette et a répondu : « Si vous avez des cornes et des sabots, alors vous êtes un herbivore et ne pouvez pas me manger. Et pour l'ignorance de la loi de corrélation, vous obtiendrez un deux. Il se retourna et s'endormit. Une blague est une blague, mais dans cet exemple, nous voyons un cas particulier d'utilisation de l'analyse de corrélation-régression multiple. Ici, le professeur, basé sur la connaissance des valeurs des deux traits observés (la présence de cornes et de sabots), basé sur la loi de corrélation, a dérivé la valeur moyenne du troisième trait (la classe à laquelle appartient cet animal est un herbivore). Dans ce cas, nous ne parlons pas de la valeur spécifique de cette variable (c'est-à-dire que cet animal pourrait prendre différentes valeurs sur une échelle nominale - il pourrait s'agir d'une chèvre, d'un bélier ou d'un taureau...).

Passons maintenant au terme "régression". À proprement parler, cela n'est pas lié à la signification des problèmes statistiques résolus à l'aide de cette méthode. Une explication du terme ne peut être donnée que sur la base de la connaissance de l'histoire du développement des méthodes d'étude des relations entre les caractéristiques. L'un des premiers exemples d'études de ce type a été le travail des statisticiens F. Galton et K. Pearson, qui ont tenté de trouver un modèle entre la croissance des pères et celle de leurs enfants selon deux signes observables (où X- la taille du père et U- la croissance des enfants). Dans leur étude, ils ont confirmé l'hypothèse de départ selon laquelle, en moyenne, les pères de grande taille élèvent des enfants de taille moyenne. Le même principe s'applique aux pères et aux enfants faibles. Cependant, si les scientifiques s'étaient arrêtés là, leurs travaux n'auraient jamais été mentionnés dans les manuels de statistiques. Les chercheurs ont trouvé un autre modèle dans l'hypothèse confirmée déjà mentionnée. Ils ont prouvé que les pères très grands produisent des enfants grands en moyenne, mais pas très différents en taille des enfants dont les pères, bien qu'au-dessus de la moyenne, ne sont pas très différents de la taille moyenne. Il en va de même pour les pères de très petite taille (écartant la moyenne du groupe de petite taille) - leurs enfants, en moyenne, ne différaient pas en taille de leurs pairs dont les pères étaient simplement petits. Ils ont appelé la fonction qui décrit cette régularité fonction de régression. Après cette étude, toutes les équations décrivant des fonctions similaires et construites de manière similaire ont commencé à être appelées équations de régression.

Analyse de régression- une des méthodes d'analyse de données statistiques multivariées, combinant un ensemble de techniques statistiques destinées à étudier ou modéliser les relations entre une variable dépendante et plusieurs (ou une) variables indépendantes. La variable dépendante, selon la tradition acceptée en statistique, est appelée la réponse et est notée V Les variables indépendantes sont appelées prédicteurs et sont notées X. Au cours de l'analyse, certaines variables seront faiblement liées à la réponse et seront éventuellement exclues de l'analyse. Les variables restantes associées à la personne à charge peuvent également être appelées facteurs.

L'analyse de régression permet de prédire les valeurs d'une ou plusieurs variables en fonction d'une autre variable (par exemple, la propension à des comportements politiques non conventionnels en fonction du niveau d'éducation) ou de plusieurs variables. Il est calculé sur PC. Pour compiler une équation de régression permettant de mesurer le degré de dépendance de la caractéristique contrôlée aux facteurs, il est nécessaire d'impliquer des mathématiciens-programmeurs professionnels. L'analyse de régression peut fournir un service inestimable dans la construction de modèles prédictifs pour l'évolution d'une situation politique, l'évaluation des causes de tension sociale et la conduite d'expériences théoriques. L'analyse de régression est activement utilisée pour étudier l'impact sur le comportement électoral des citoyens d'un certain nombre de paramètres sociodémographiques : sexe, âge, profession, lieu de résidence, nationalité, niveau et nature des revenus.

En ce qui concerne l'analyse de régression, les concepts indépendant et dépendant variables. Une variable indépendante est une variable qui explique ou provoque un changement dans une autre variable. Une variable dépendante est une variable dont la valeur s'explique par l'influence de la première variable. Par exemple, lors des élections présidentielles de 2004, les facteurs déterminants, c'est-à-dire les variables indépendantes étaient des indicateurs tels que la stabilisation de la situation financière de la population du pays, le niveau de popularité des candidats et le facteur titulaire. Dans ce cas, le pourcentage de suffrages exprimés pour les candidats peut être considéré comme une variable dépendante. De même, dans le couple de variables « âge de l'électeur » et « niveau d'activité électorale », la première est indépendante, la seconde est dépendante.

L'analyse de régression vous permet de résoudre les problèmes suivants :

  • 1) établir le fait même de la présence ou de l'absence d'une relation statistiquement significative entre Ci X;
  • 2) construire les meilleures estimations (au sens statistique) de la fonction de régression ;
  • 3) selon les valeurs données X construire une prédiction pour l'inconnu À
  • 4) évaluer le poids spécifique de l'influence de chaque facteur X sur le À et, par conséquent, exclure les caractéristiques insignifiantes du modèle ;
  • 5) en identifiant des relations causales entre les variables, gérer partiellement les valeurs de P en ajustant les valeurs des variables explicatives X.

L'analyse de régression est associée à la nécessité de sélectionner des variables mutuellement indépendantes qui affectent la valeur de l'indicateur à l'étude, de déterminer la forme de l'équation de régression et d'évaluer les paramètres à l'aide de méthodes statistiques de traitement des données sociologiques primaires. Ce type d'analyse est basé sur l'idée de la forme, du sens et de la proximité (densité) de la relation. Distinguer chambre à vapeur et régression multiple en fonction du nombre de caractéristiques étudiées. En pratique, l'analyse de régression est généralement effectuée en conjonction avec l'analyse de corrélation. Équation de régression décrit une relation numérique entre des quantités, exprimée comme la tendance d'une variable à augmenter ou à diminuer tandis qu'une autre augmente ou diminue. En même temps, razl et h a yut l gel et régression non linéaire. Lors de la description des processus politiques, les deux variantes de régression se retrouvent également.

Nuage de points pour la distribution de l'interdépendance des intérêts dans les articles politiques ( U) et l'éducation des répondants (X) est une régression linéaire (Fig. 30).

Riz. trente.

Nuage de points pour la distribution du niveau d'activité électorale ( U) et l'âge du répondant (A) (exemple conditionnel) est une régression non linéaire (Fig. 31).


Riz. 31.

Pour décrire la relation de deux caractéristiques (A "et Y) dans un modèle de régression appariée, une équation linéaire est utilisée

où a, est une valeur aléatoire de l'erreur de l'équation avec variation des caractéristiques, c'est-à-dire écart de l'équation par rapport à la "linéarité".

Pour évaluer les coefficients un et b utilisez la méthode des moindres carrés, qui suppose que la somme des écarts au carré de chaque point du nuage de points par rapport à la ligne de régression doit être minimale. Chances un h b peut être calculé à l'aide du système d'équations :

La méthode d'estimation des moindres carrés donne de telles estimations des coefficients un et b, dont la droite passe par le point de coordonnées X et y, ceux. il y a un rapport à = hache + b. La représentation graphique de l'équation de régression est appelée ligne de régression théorique. Avec une dépendance linéaire, le coefficient de régression représente sur le graphique la tangente de la pente de la droite de régression théorique à l'axe des abscisses. Le signe au coefficient indique le sens de la connexion. Si elle est supérieure à zéro, la relation est directe, si elle est inférieure, elle est inverse.

L'exemple suivant de l'étude "Political Petersburg-2006" (tableau 56) montre une relation linéaire entre les perceptions des citoyens du degré de satisfaction à l'égard de leur vie dans le présent et les attentes de changements dans la qualité de vie à l'avenir. La connexion est directe, linéaire (le coefficient de régression normalisé est de 0,233, le seuil de signification est de 0,000). Dans ce cas, le coefficient de régression n'est pas élevé, mais il dépasse la limite inférieure de l'indicateur statistiquement significatif (la limite inférieure du carré de l'indicateur statistiquement significatif du coefficient de Pearson).

Tableau 56

L'impact de la qualité de vie des citoyens d'aujourd'hui sur les attentes

(Saint-Pétersbourg, 2006)

* Variable dépendante : "Comment pensez-vous que votre vie va changer dans les 2-3 prochaines années ?"

Dans la vie politique, la valeur de la variable étudiée dépend le plus souvent simultanément de plusieurs caractéristiques. Par exemple, le niveau et la nature de l'activité politique sont simultanément influencés par le régime politique de l'État, les traditions politiques, les particularités du comportement politique des personnes dans une zone donnée et le microgroupe social du répondant, son âge, son éducation, ses revenus niveau, orientation politique, etc. Dans ce cas, vous devez utiliser l'équation régression multiple, qui a la forme suivante :

où coefficient b.- coefficient de régression partielle. Il montre la contribution de chaque variable indépendante à la détermination des valeurs de la variable indépendante (résultat). Si le coefficient de régression partielle est proche de 0, alors nous pouvons conclure qu'il n'y a pas de relation directe entre les variables indépendantes et dépendantes.

Le calcul d'un tel modèle peut être effectué sur un PC en utilisant l'algèbre matricielle. La régression multiple permet de refléter la nature multifactorielle des liens sociaux et de clarifier le degré d'influence de chaque facteur individuellement et ensemble sur le trait résultant.

Coefficient noté b, est appelé le coefficient de régression linéaire et montre la force de la relation entre la variation du trait factoriel X et variation de la caractéristique effective Oui Ce coefficient mesure la force de la relation en unités absolues de mesure des caractéristiques. Cependant, la proximité de la corrélation des caractéristiques peut également être exprimée en termes d'écart type de la caractéristique résultante (un tel coefficient est appelé coefficient de corrélation). Contrairement au coefficient de régression b le coefficient de corrélation ne dépend pas des unités de mesure acceptées des caractéristiques et, par conséquent, il est comparable pour toutes les caractéristiques. Habituellement, la connexion est considérée comme solide si /> 0,7, étanchéité moyenne - à 0,5 g 0,5.

Comme vous le savez, la connexion la plus proche est une connexion fonctionnelle, lorsque chaque valeur individuelle Oui peut être affecté de manière unique à la valeur X. Ainsi, plus le coefficient de corrélation est proche de 1, plus la relation est proche d'une relation fonctionnelle. Le niveau de signification pour l'analyse de régression ne doit pas dépasser 0,001.

Le coefficient de corrélation a longtemps été considéré comme le principal indicateur de la proximité de la relation des caractéristiques. Cependant, plus tard, le coefficient de détermination est devenu un tel indicateur. La signification de ce coefficient est la suivante - il reflète la part de la variance totale de la caractéristique résultante À, expliqué par la variance de la caractéristique X. Il est trouvé en mettant simplement au carré le coefficient de corrélation (en passant de 0 à 1) et, à son tour, pour une relation linéaire, reflète la part de 0 (0%) à 1 (100%) valeurs caractéristiques Oui, déterminé par les valeurs de l'attribut X. Il est enregistré comme je 2 , et dans les tableaux résultants de l'analyse de régression dans le package SPSS - sans carré.

Notons les principaux problèmes de construction de l'équation de régression multiple.

  • 1. Choix des facteurs inclus dans l'équation de régression. A ce stade, le chercheur dresse d'abord une liste générale des principales causes qui, selon la théorie, déterminent le phénomène étudié. Ensuite, il doit sélectionner les caractéristiques dans l'équation de régression. La principale règle de sélection est que les facteurs inclus dans l'analyse doivent être aussi peu corrélés que possible entre eux ; ce n'est que dans ce cas qu'il est possible d'attribuer une mesure quantitative d'influence à un certain facteur-attribut.
  • 2. Sélection de la forme de l'équation de régression multiple(en pratique, linéaire ou linéaire-logarithmique est plus souvent utilisé). Ainsi, pour utiliser la régression multiple, le chercheur doit d'abord construire un modèle hypothétique de l'influence de plusieurs variables indépendantes sur celle résultante. Pour que les résultats obtenus soient fiables, il est nécessaire que le modèle corresponde exactement au processus réel, c'est-à-dire la relation entre les variables doit être linéaire, pas une seule variable indépendante significative ne peut être ignorée, de la même manière, pas une seule variable qui n'est pas directement liée au processus étudié ne peut être incluse dans l'analyse. De plus, toutes les mesures de variables doivent être extrêmement précises.

De la description ci-dessus découle un certain nombre de conditions pour l'application de cette méthode, sans lesquelles il est impossible de procéder à la procédure d'analyse de régression multiple (ARM). Seul le respect de l'ensemble des points suivants permet de réaliser correctement l'analyse de régression.

Dans la modélisation statistique, l'analyse de régression est une étude utilisée pour évaluer la relation entre les variables. Cette méthode mathématique comprend de nombreuses autres méthodes de modélisation et d'analyse de plusieurs variables lorsque l'accent est mis sur la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Plus précisément, l'analyse de régression vous aide à comprendre comment la valeur typique de la variable dépendante change si l'une des variables indépendantes change tandis que les autres variables indépendantes restent fixes.

Dans tous les cas, le score cible est une fonction des variables indépendantes et s'appelle la fonction de régression. Dans l'analyse de régression, il est également intéressant de caractériser l'évolution de la variable dépendante en fonction de la régression, qui peut être décrite à l'aide d'une distribution de probabilité.

Tâches de l'analyse de régression

Cette méthode de recherche statistique est largement utilisée pour la prévision, où son utilisation présente un avantage significatif, mais parfois elle peut conduire à une illusion ou à de fausses relations, il est donc recommandé de l'utiliser avec précaution dans cette question, car, par exemple, corrélation ne signifie pas causalité.

Développé grand nombre des procédés pour effectuer une analyse de régression, tels qu'une régression linéaire et des moindres carrés ordinaires, qui sont paramétriques. Leur essence est que la fonction de régression est définie en termes d'un nombre fini de paramètres inconnus qui sont estimés à partir des données. La régression non paramétrique permet à sa fonction de se situer dans un certain ensemble de fonctions, qui peuvent être de dimension infinie.

En tant que méthode de recherche statistique, l'analyse de régression dépend en pratique de la forme du processus de génération de données et de son lien avec l'approche de régression. Étant donné que la véritable forme du processus de génération de données est généralement un nombre inconnu, l'analyse de régression des données dépend souvent dans une certaine mesure d'hypothèses sur le processus. Ces hypothèses sont parfois vérifiables s'il y a suffisamment de données disponibles. Les modèles de régression sont souvent utiles même lorsque les hypothèses sont modérément violées, bien qu'ils puissent ne pas fonctionner au mieux.

Dans un sens plus étroit, la régression peut se référer spécifiquement à l'estimation des variables de réponse continues, par opposition aux variables de réponse discrètes utilisées dans la classification. Le cas d'une variable de sortie continue est également appelé régression métrique pour la distinguer des problèmes connexes.

Histoire

Le plus forme précoce La régression est la méthode bien connue des moindres carrés. Il a été publié par Legendre en 1805 et Gauss en 1809. Legendre et Gauss ont appliqué la méthode au problème de la détermination à partir d'observations astronomiques des orbites des corps autour du Soleil (principalement des comètes, mais plus tard aussi des planètes mineures nouvellement découvertes). Gauss a publié un développement ultérieur de la théorie des moindres carrés en 1821, y compris une variante du théorème de Gauss-Markov.

Le terme "régression" a été inventé par Francis Galton au 19ème siècle pour décrire un phénomène biologique. L'essentiel était que la croissance des descendants de la croissance des ancêtres, en règle générale, régresse jusqu'à la moyenne normale. Pour Galton, la régression n'avait que cette signification biologique, mais plus tard ses travaux ont été repris par Udni Yoley et Karl Pearson et amenés dans un contexte statistique plus général. Dans les travaux de Yule et Pearson, la distribution conjointe de la réponse et des variables explicatives est considérée comme gaussienne. Cette hypothèse a été rejetée par Fischer dans les articles de 1922 et 1925. Fisher a suggéré que la distribution conditionnelle de la variable de réponse est gaussienne, mais que la distribution conjointe n'a pas besoin de l'être. À cet égard, la suggestion de Fisher est plus proche de la formulation de Gauss de 1821. Avant 1970, il fallait parfois jusqu'à 24 heures pour obtenir le résultat d'une analyse de régression.

Les méthodes d'analyse de régression continuent d'être un domaine de recherche active. Au cours des dernières décennies, de nouvelles méthodes ont été développées pour la régression robuste ; régressions impliquant des réponses corrélées ; les méthodes de régression qui s'adaptent à divers types de données manquantes ; régression non paramétrique ; Méthodes de régression bayésienne ; les régressions dans lesquelles les variables prédictives sont mesurées avec erreur ; les régressions avec plus de prédicteurs que d'observations et les inférences causales avec régression.

Modèles de régression

Les modèles d'analyse de régression incluent les variables suivantes :

  • Paramètres inconnus, notés bêta, qui peuvent être un scalaire ou un vecteur.
  • Variables indépendantes, X.
  • Variables dépendantes, Y.

À divers domaines les sciences où l'analyse de régression est appliquée utilisent des termes différents au lieu de variables dépendantes et indépendantes, mais dans tous les cas, le modèle de régression relie Y à une fonction de X et β.

L'approximation est généralement formulée comme E (Y | X) = F (X, β). Pour effectuer une analyse de régression, la forme de la fonction f doit être déterminée. Plus rarement, elle repose sur une connaissance de la relation entre Y et X qui ne repose pas sur des données. Si une telle connaissance n'est pas disponible, alors une forme flexible ou pratique F est choisie.

Variable dépendante Y

Supposons maintenant que le vecteur de paramètres inconnus β a une longueur k. Pour effectuer une analyse de régression, l'utilisateur doit fournir des informations sur la variable dépendante Y :

  • Si N points de données de la forme (Y, X) sont observés, où N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Si exactement N = K sont observés et que la fonction F est linéaire, alors l'équation Y = F(X, β) peut être résolue exactement, pas approximativement. Cela revient à résoudre un ensemble de N-équations à N-inconnues (les éléments de β) qui a une solution unique tant que X est linéairement indépendant. Si F est non linéaire, une solution peut ne pas exister, ou il peut y avoir plusieurs solutions.
  • La situation la plus courante est celle où il y a N > points vers les données. Dans ce cas, il y a suffisamment d'informations dans les données pour estimer la valeur unique de β qui correspond le mieux aux données, et le modèle de régression lorsqu'il est appliqué aux données peut être considéré comme un système surchargé dans β.

Dans ce dernier cas, l'analyse de régression fournit des outils pour :

  • Trouver une solution pour les paramètres inconnus β, qui va, par exemple, minimiser la distance entre la valeur mesurée et prédite de Y.
  • Sous certaines hypothèses statistiques, l'analyse de régression utilise des informations en excès pour fournir des informations statistiques sur les paramètres inconnus β et les valeurs prédites de la variable dépendante Y.

Nombre requis de mesures indépendantes

Considérons un modèle de régression qui a trois paramètres inconnus : β 0 , β 1 et β 2 . Supposons que l'expérimentateur effectue 10 mesures dans la même valeur de la variable indépendante du vecteur X. Dans ce cas, l'analyse de régression ne donne pas un ensemble unique de valeurs. Le mieux que l'on puisse faire est d'estimer la moyenne et l'écart type de la variable dépendante Y. De même, mesurer les deux différentes valeurs X, vous pouvez obtenir suffisamment de données pour une régression à deux inconnues, mais pas pour trois inconnues ou plus.

Si les mesures de l'expérimentateur étaient prises à trois valeurs différentes de la variable vectorielle indépendante X, l'analyse de régression fournirait un ensemble unique d'estimations pour les trois paramètres inconnus en β.

Dans le cas d'une régression linéaire générale, l'énoncé ci-dessus équivaut à l'exigence selon laquelle la matrice X T X est inversible.

Hypothèses statistiques

Lorsque le nombre de mesures N est supérieur au nombre de paramètres inconnus k et aux erreurs de mesure ε i , alors, en règle générale, alors l'information excédentaire contenue dans les mesures est distribuée et utilisée pour des prédictions statistiques sur des paramètres inconnus. Cet excès d'information s'appelle le degré de liberté de la régression.

Hypothèses sous-jacentes

Les hypothèses classiques pour l'analyse de régression incluent :

  • L'échantillonnage est représentatif de la prédiction par inférence.
  • L'erreur est une variable aléatoire avec une valeur moyenne de zéro, qui est conditionnelle aux variables explicatives.
  • Les variables indépendantes sont mesurées sans erreur.
  • En tant que variables indépendantes (prédicteurs), elles sont linéairement indépendantes, c'est-à-dire qu'il n'est pas possible d'exprimer un prédicteur comme une combinaison linéaire des autres.
  • Les erreurs ne sont pas corrélées, c'est-à-dire que la matrice de covariance d'erreur des diagonales et chaque élément non nul est la variance de l'erreur.
  • La variance de l'erreur est constante d'une observation à l'autre (homoscédasticité). Sinon, les moindres carrés pondérés ou d'autres méthodes peuvent être utilisées.

Ces conditions suffisantes pour l'estimation par les moindres carrés ont les propriétés requises, en particulier ces hypothèses signifient que les estimations des paramètres seront objectives, cohérentes et efficaces, en particulier lorsqu'elles sont prises en compte dans la classe des estimations linéaires. Il est important de noter que les données réelles satisfont rarement aux conditions. Autrement dit, la méthode est utilisée même si les hypothèses ne sont pas correctes. La variation par rapport aux hypothèses peut parfois être utilisée comme mesure de l'utilité du modèle. Beaucoup de ces hypothèses peuvent être assouplies dans des méthodes plus avancées. Les rapports d'analyse statistique comprennent généralement l'analyse des tests par rapport aux données d'échantillon et à la méthodologie de l'utilité du modèle.

De plus, dans certains cas, les variables font référence à des valeurs mesurées à des emplacements ponctuels. Il peut y avoir des tendances spatiales et des autocorrélations spatiales dans les variables qui violent les hypothèses statistiques. La régression géographique pondérée est la seule méthode qui traite de telles données.

Dans la régression linéaire, la caractéristique est que la variable dépendante, qui est Y i , est une combinaison linéaire de paramètres. Par exemple, dans une régression linéaire simple, la modélisation à n points utilise une variable indépendante, x i , et deux paramètres, β 0 et β 1 .

Dans la régression linéaire multiple, il existe plusieurs variables indépendantes ou leurs fonctions.

Lorsqu'il est échantillonné au hasard dans une population, ses paramètres permettent d'obtenir un échantillon d'un modèle de régression linéaire.

Dans cet aspect, la méthode des moindres carrés est la plus populaire. Il fournit des estimations de paramètres qui minimisent la somme des carrés des résidus. Ce type de minimisation (qui est typique de la régression linéaire) de cette fonction conduit à un ensemble d'équations normales et un ensemble équations linéaires avec des paramètres qui sont résolus pour obtenir des estimations de paramètres.

En supposant en outre que l'erreur de population se propage généralement, le chercheur peut utiliser ces estimations des erreurs standard pour créer des intervalles de confiance et effectuer des tests d'hypothèses sur ses paramètres.

Analyse de régression non linéaire

Un exemple où la fonction n'est pas linéaire par rapport aux paramètres indique que la somme des carrés doit être minimisée avec une procédure itérative. Cela introduit de nombreuses complications qui définissent les différences entre les méthodes des moindres carrés linéaires et non linéaires. Par conséquent, les résultats de l'analyse de régression lors de l'utilisation d'une méthode non linéaire sont parfois imprévisibles.

Calcul de la puissance et de la taille de l'échantillon

Ici, en règle générale, il n'y a pas de méthodes cohérentes concernant le nombre d'observations par rapport au nombre de variables indépendantes dans le modèle. La première règle a été proposée par Dobra et Hardin et ressemble à N = t^n, où N est la taille de l'échantillon, n est le nombre de variables explicatives et t est le nombre d'observations nécessaires pour obtenir la précision souhaitée si le modèle avait une seule variable explicative. Par exemple, un chercheur construit un modèle de régression linéaire à l'aide d'un ensemble de données contenant 1 000 patients (N). Si le chercheur décide que cinq observations sont nécessaires pour déterminer avec précision la ligne (m), alors le nombre maximum de variables explicatives que le modèle peut prendre en charge est de 4.

Autres méthodes

Bien que les paramètres d'un modèle de régression soient généralement estimés à l'aide de la méthode des moindres carrés, il existe d'autres méthodes qui sont utilisées beaucoup moins fréquemment. Par exemple, ce sont les méthodes suivantes :

  • Méthodes bayésiennes (par exemple, la méthode bayésienne de régression linéaire).
  • Une régression en pourcentage utilisée dans les situations où la réduction des erreurs en pourcentage est considérée comme plus appropriée.
  • Les plus petits écarts absolus, qui sont plus robustes en présence de valeurs aberrantes conduisant à une régression quantile.
  • Régression non paramétrique nécessitant un grand nombre d'observations et de calculs.
  • La distance de la métrique d'apprentissage qui est apprise à la recherche d'une métrique de distance significative dans l'espace d'entrée donné.

Logiciel

Tous les principaux progiciels statistiques sont exécutés à l'aide d'une analyse de régression des moindres carrés. La régression linéaire simple et l'analyse de régression multiple peuvent être utilisées dans certaines applications de tableur ainsi que dans certaines calculatrices. Alors que de nombreux progiciels statistiques peuvent effectuer divers types de régression non paramétrique et robuste, ces méthodes sont moins standardisées; différents progiciels implémentent différentes méthodes. Un logiciel de régression spécialisé a été développé pour être utilisé dans des domaines tels que l'analyse d'enquêtes et la neuroimagerie.

La principale caractéristique de l'analyse de régression est qu'elle peut être utilisée pour obtenir des informations spécifiques sur la forme et la nature de la relation entre les variables étudiées.

La séquence des étapes de l'analyse de régression

Considérons brièvement les étapes de l'analyse de régression.

    Formulation des tâches. A ce stade, des hypothèses préliminaires sur la dépendance des phénomènes étudiés sont formées.

    Définition des variables dépendantes et indépendantes (explicatives).

    Collecte de données statistiques. Les données doivent être collectées pour chacune des variables incluses dans le modèle de régression.

    Formulation d'une hypothèse sur la forme de connexion (simple ou multiple, linéaire ou non linéaire).

    Définition fonctions de régression (consiste dans le calcul des valeurs numériques des paramètres de l'équation de régression)

    Évaluation de la précision de l'analyse de régression.

    Interprétation des résultats obtenus. Les résultats de l'analyse de régression sont comparés aux hypothèses préliminaires. L'exactitude et la plausibilité des résultats obtenus sont évaluées.

    Prédiction des valeurs inconnues de la variable dépendante.

Avec l'aide de l'analyse de régression, il est possible de résoudre le problème de la prévision et de la classification. Les valeurs prédictives sont calculées en substituant les valeurs des variables explicatives dans l'équation de régression. Le problème de classification est résolu de cette manière: la droite de régression divise l'ensemble des objets en deux classes, et la partie de l'ensemble où la valeur de la fonction est supérieure à zéro appartient à une classe, et la partie où elle est inférieure supérieur à zéro appartient à une autre classe.

Tâches de l'analyse de régression

Considérez les principales tâches de l'analyse de régression : établir la forme de dépendance, déterminer fonctions de régression, une estimation des valeurs inconnues de la variable dépendante.

Établir la forme de dépendance.

La nature et la forme de la relation entre les variables peuvent former les types de régression suivants :

    régression linéaire positive (exprimée comme une croissance uniforme de la fonction);

    régression positive uniformément accélérée;

    régression positive uniformément croissante ;

    régression linéaire négative (exprimée comme une baisse uniforme de la fonction);

    régression décroissante négative uniformément accélérée;

    régression uniformément décroissante négative.

Cependant, les variétés décrites ne se trouvent généralement pas sous forme pure, mais en combinaison les unes avec les autres. Dans ce cas, on parle de formes combinées de régression.

Définition de la fonction de régression.

La deuxième tâche consiste à connaître l'effet sur la variable dépendante des principaux facteurs ou causes, toutes choses égales par ailleurs, et sous réserve de l'exclusion de l'impact sur la variable dépendante des éléments aléatoires. fonction de régression définie comme une équation mathématique d'un type ou d'un autre.

Estimation des valeurs inconnues de la variable dépendante.

La solution de ce problème se réduit à résoudre un problème de l'un des types suivants :

    Estimation des valeurs de la variable dépendante dans l'intervalle considéré des données initiales, c'est-à-dire valeurs manquantes ; cela résout le problème de l'interpolation.

    Estimer les valeurs futures de la variable dépendante, c'est-à-dire trouver des valeurs en dehors de l'intervalle donné des données initiales ; cela résout le problème de l'extrapolation.

Les deux problèmes sont résolus en remplaçant les estimations trouvées des paramètres des valeurs des variables indépendantes dans l'équation de régression. Le résultat de la résolution de l'équation est une estimation de la valeur de la variable cible (dépendante).

Examinons quelques-unes des hypothèses sur lesquelles repose l'analyse de régression.

Hypothèse de linéarité, c'est-à-dire on suppose que la relation entre les variables considérées est linéaire. Ainsi, dans cet exemple, nous avons construit un nuage de points et avons pu voir une relation linéaire claire. Si, sur le nuage de points des variables, on constate une nette absence de relation linéaire, c'est-à-dire s'il existe une relation non linéaire, des méthodes d'analyse non linéaires doivent être utilisées.

Hypothèse de normalité les restes. Il suppose que la distribution de la différence entre les valeurs prédites et observées est normale. Pour déterminer visuellement la nature de la distribution, vous pouvez utiliser des histogrammes les restes.

Lors de l'utilisation d'une analyse de régression, il convient de tenir compte de sa principale limitation. Elle consiste dans le fait que l'analyse de régression permet de détecter uniquement les dépendances, et non les relations qui sous-tendent ces dépendances.

L'analyse de régression permet d'évaluer le degré d'association entre les variables en calculant la valeur attendue d'une variable à partir de plusieurs valeurs connues.

Équation de régression.

L'équation de régression ressemble à ceci : Y=a+b*X

En utilisant cette équation, la variable Y est exprimée en termes de constante a et de pente de la ligne (ou pente) b multipliée par la valeur de la variable X. La constante a est également appelée l'ordonnée à l'origine, et la pente est la régression coefficient ou facteur B.

Dans la plupart des cas (sinon toujours), il y a une certaine dispersion des observations sur la droite de régression.

Reste est l'écart d'un point individuel (observation) par rapport à la ligne de régression (valeur prédite).

Pour résoudre le problème de l'analyse de régression dans MS Excel, sélectionnez dans le menu Service"Pack d'analyse" et l'outil d'analyse de régression. Spécifiez les intervalles d'entrée X et Y. L'intervalle d'entrée Y est la plage de données dépendantes en cours d'analyse et doit inclure une colonne. L'intervalle d'entrée X est la plage de données indépendantes à analyser. Le nombre de plages d'entrée ne doit pas dépasser 16.

A la sortie de la procédure dans la plage de sortie, on obtient le rapport donné en tableau 8.3a-8.3v.

RÉSULTATS

Tableau 8.3a. Statistiques de régression

Statistiques de régression

Plusieurs R

R Carré

R-carré normalisé

erreur standard

Observations

Considérons d'abord la partie supérieure des calculs présentés dans tableau 8.3a, - statistiques de régression.

Évaluer R Carré, également appelée mesure de certitude, caractérise la qualité de la droite de régression résultante. Cette qualité s'exprime par le degré de correspondance entre les données d'origine et le modèle de régression (données calculées). La mesure de la certitude est toujours dans l'intervalle.

Dans la plupart des cas, la valeur R Carré se situe entre ces valeurs, appelées extrêmes, c'est-à-dire entre zéro et un.

Si la valeur R au carré proche de l'unité, cela signifie que le modèle construit explique la quasi-totalité de la variabilité des variables correspondantes. A l'inverse, la valeur R au carré, proche de zéro, signifie une mauvaise qualité du modèle construit.

Dans notre exemple, la mesure de la certitude est de 0,99673, ce qui indique un très bon ajustement de la ligne de régression aux données d'origine.

R pluriel - coefficient de corrélation multiple R - exprime le degré de dépendance des variables indépendantes (X) et de la variable dépendante (Y).

Plusieurs Régale à la racine carrée du coefficient de détermination, cette valeur prend des valeurs comprises entre zéro et un.

En analyse de régression linéaire simple R plurielégal au coefficient de corrélation de Pearson. Vraiment, R pluriel dans notre cas, il est égal au coefficient de corrélation de Pearson de l'exemple précédent (0,998364).

Tableau 8.3b. Coefficients de régression

Chances

erreur standard

statistique t

Intersection en Y

Variable X 1

* Une version tronquée des calculs est donnée

Considérons maintenant la partie médiane des calculs présentés dans tableau 8.3b. Ici, le coefficient de régression b (2,305454545) et le décalage le long de l'axe y sont donnés, c'est-à-dire constante a (2,694545455).

Sur la base des calculs, nous pouvons écrire l'équation de régression comme suit :

Y=x*2.305454545+2.694545455

Le sens de la relation entre les variables est déterminé en fonction des signes (négatifs ou positifs) des coefficients de régression (coefficient b).

Si le signe du coefficient de régression est positif, la relation entre la variable dépendante et la variable indépendante sera positive. Dans notre cas, le signe du coefficient de régression est positif, donc la relation est également positive.

Si le signe du coefficient de régression est négatif, la relation entre la variable dépendante et la variable indépendante est négative (inverse).

À tableau 8.3c. les résultats de sortie sont présentés les restes. Pour que ces résultats apparaissent dans le rapport, il est nécessaire d'activer la case à cocher "Résidus" lors du lancement de l'outil "Régression".

RETRAIT RESTANT

Tableau 8.3c. Restes

Observation

Prédit Y

Restes

Soldes standards

En utilisant cette partie du rapport, nous pouvons voir les écarts de chaque point par rapport à la ligne de régression construite. La plus grande valeur absolue reste dans notre cas - 0,778, le plus petit - 0,043. Pour une meilleure interprétation de ces données, nous utiliserons le graphique des données originales et la droite de régression construite présentée dans la Fig. riz. 8.3. Comme vous pouvez le voir, la ligne de régression est assez précisément "ajustée" aux valeurs des données d'origine.

Il faut tenir compte du fait que l'exemple considéré est assez simple et qu'il est loin d'être toujours possible de construire qualitativement une droite de régression linéaire.

Riz. 8.3. Données initiales et ligne de régression

Le problème de l'estimation des valeurs futures inconnues de la variable dépendante sur la base des valeurs connues de la variable indépendante est resté non pris en compte, c'est-à-dire tâche de prévision.

Ayant une équation de régression, le problème de prévision se réduit à résoudre l'équation Y= x*2.305454545+2.694545455 avec des valeurs connues de x. Les résultats de la prédiction de la variable dépendante Y six pas en avant sont présentés dans le tableau 8.4.

Tableau 8.4. Résultats de la prédiction de la variable Y

Y(prédit)

Ainsi, suite à l'utilisation de l'analyse de régression dans le package Microsoft Excel, nous :

    construit une équation de régression ;

    établi la forme de dépendance et la direction de la relation entre les variables - une régression linéaire positive, qui se traduit par une croissance uniforme de la fonction;

    établi le sens de la relation entre les variables;

    évalué la qualité de la droite de régression résultante ;

    ont pu voir les écarts des données calculées par rapport aux données de l'ensemble d'origine ;

    prédit les valeurs futures de la variable dépendante.

Si un fonction de régression est défini, interprété et justifié, et que l'évaluation de l'exactitude de l'analyse de régression répond aux exigences, nous pouvons supposer que le modèle construit et les valeurs prédictives sont suffisamment fiables.

Les valeurs prédites ainsi obtenues sont les valeurs moyennes auxquelles on peut s'attendre.

Dans cet article, nous avons passé en revue les principales caractéristiques statistiques descriptives et parmi eux des concepts tels que moyenne,médian,maximum,le minimum et d'autres caractéristiques de la variation des données.

Il y a également eu une brève discussion sur le concept émissions. Les caractéristiques considérées se réfèrent à l'analyse dite exploratoire des données, ses conclusions peuvent ne pas s'appliquer à la population générale, mais uniquement à un échantillon de données. L'analyse exploratoire des données est utilisée pour tirer des conclusions primaires et formuler des hypothèses sur la population.

Les bases de l'analyse de corrélation et de régression, leurs tâches et leurs possibilités d'utilisation pratique ont également été examinées.