Datos para la regresión. Fundamentos del análisis de datos

Como resultado del estudio del material del capítulo 4, el estudiante debe:

saber

  • conceptos básicos de análisis de regresión;
  • métodos de estimación y propiedades de las estimaciones del método de mínimos cuadrados;
  • reglas básicas para las pruebas de significación y estimación por intervalos de la ecuación y los coeficientes de regresión;

ser capaz de

  • encontrar estimaciones de los parámetros de modelos bidimensionales y múltiples de ecuaciones de regresión a partir de datos de muestra, analizar sus propiedades;
  • verificar el significado de la ecuación y los coeficientes de regresión;
  • encontrar estimaciones de intervalo de parámetros significativos;

propio

  • las habilidades de estimación estadística de los parámetros de las ecuaciones de regresión bidimensional y múltiple; habilidades para comprobar la idoneidad de los modelos de regresión;
  • habilidades para obtener una ecuación de regresión con todos los coeficientes significativos usando software analítico.

Conceptos básicos

Después de realizar un análisis de correlación, cuando se ha identificado la presencia de relaciones estadísticamente significativas entre variables y se ha evaluado el grado de estanqueidad de las mismas, se suele proceder a una descripción matemática del tipo de dependencias utilizando métodos de análisis de regresión. Para ello, se selecciona una clase de funciones que vinculan el indicador efectivo a y argumentos„ calcular estimaciones de los parámetros de la ecuación de restricción y analizar la precisión de la ecuación resultante.

Función| que describe la dependencia del valor promedio condicional de la característica efectiva a de los valores dados de los argumentos, se llama ecuación de regresión.

El término "regresión" (del lat. regresión- retirarse, volver a algo) fue introducido por el psicólogo y antropólogo inglés F. Galton y está asociado con uno de sus primeros ejemplos, en el que Galton, procesando datos estadísticos relacionados con la cuestión de la herencia del crecimiento, encontró que si la altura de los padres se desvía de la altura promedio de todos los padres en X pulgadas, entonces la altura de sus hijos se desvía de la altura promedio de todos los hijos en menos de X pulgadas La tendencia identificada se denominó regresión a la media.

El término "regresión" se usa ampliamente en la literatura estadística, aunque en muchos casos no caracteriza con precisión la dependencia estadística.

Para una descripción precisa de la ecuación de regresión, es necesario conocer la ley condicional de distribución del indicador efectivo y. En la práctica estadística, normalmente es imposible obtener dicha información, por lo que se limitan a encontrar aproximaciones adecuadas para la función f(x tu X 2, .... l *), basado en un análisis significativo preliminar del fenómeno o en los datos estadísticos originales.

En el marco de los supuestos de modelos individuales sobre el tipo de distribución del vector de indicadores<) может быть получен общий вид ecuaciones de regresión, dónde. Por ejemplo, bajo el supuesto de que el conjunto de indicadores estudiado obedece a la ley de distribución normal ()-dimensional con el vector de expectativas matemáticas

Donde, y por la matriz de covarianza,

donde esta la varianza y,

La ecuación de regresión (expectativa condicional) tiene la forma

Así, si una variable aleatoria multivariante ()

obedece a la ley de distribución normal ()-dimensional, entonces la ecuación de regresión del indicador efectivo a en variables explicativas tiene lineal en X vista.

Sin embargo, en la práctica estadística, por lo general hay que limitarse a encontrar aproximaciones adecuadas para la función de regresión verdadera desconocida f(x), ya que el investigador no tiene un conocimiento exacto de la ley condicional de la distribución de probabilidad del indicador de desempeño analizado a para los valores dados de los argumentos X.

Considere la relación entre las estimaciones verdaderas, del modelo y de regresión. Deje que el indicador de rendimiento a asociado con el argumento X relación

donde es una variable aleatoria con una ley de distribución normal, además. La verdadera función de regresión en este caso es

Suponga que no conocemos la forma exacta de la ecuación de regresión verdadera, pero tenemos nueve observaciones en una variable aleatoria bidimensional relacionada por las relaciones que se muestran en la figura. 4.1.

Arroz. 4.1. La posición relativa de la verdaderaf(x) y teóricoguaumodelos de regresión

Ubicación de los puntos en la fig. 4.1 nos permite limitarnos a la clase de dependencias lineales de la forma

Usando el método de mínimos cuadrados, encontramos una estimación para la ecuación de regresión.

A modo de comparación, en la Fig. 4.1 muestra gráficos de la función de regresión verdadera y la función de regresión de aproximación teórica. La estimación de la ecuación de regresión converge en probabilidad a esta última guau con un aumento ilimitado en el tamaño de la muestra ().

Dado que elegimos por error una función de regresión lineal en lugar de una función de regresión verdadera, lo cual, desafortunadamente, es bastante común en la práctica de la investigación estadística, nuestras conclusiones y estimaciones estadísticas no tendrán la propiedad de consistencia, es decir, no importa cuánto aumentemos el volumen de observaciones, nuestra estimación muestral no convergerá a la verdadera función de regresión

Si hubiéramos elegido correctamente la clase de funciones de regresión, entonces la inexactitud en la descripción usando guau se explicaría sólo por lo limitado de la muestra y, por lo tanto, podría hacerse arbitrariamente pequeña con

Para restaurar mejor el valor condicional del indicador efectivo y la función de regresión desconocida a partir de los datos estadísticos iniciales, se utilizan con mayor frecuencia los siguientes: criterios de adecuación funciones de pérdida.

1. método de mínimos cuadrados, según el cual se minimiza la desviación al cuadrado de los valores observados del indicador efectivo, de los valores del modelo, donde los coeficientes de la ecuación de regresión; son los valores del vector de argumentos en "-M observación :

Se está resolviendo el problema de encontrar una estimación del vector. La regresión resultante se llama cuadrado medio.

2. Método de mínimos módulos, según el cual se minimiza la suma de las desviaciones absolutas de los valores observados del indicador efectivo de los valores modulares, es decir

La regresión resultante se llama media absoluta(mediana).

3. método minimax se reduce a minimizar el módulo de máxima desviación del valor observado del indicador efectivo y, del valor del modelo, es decir

La regresión resultante se llama minimax.

En aplicaciones prácticas, a menudo hay problemas en los que se estudia la variable aleatoria y, dependiendo de un conjunto de variables y parámetros desconocidos. Consideraremos () como (k + 1) población general bidimensional, de la que se extrae una muestra aleatoria de volumen PAGS, donde () es el resultado de la /-ésima observación,. Se requiere estimar parámetros desconocidos en base a los resultados de las observaciones. La tarea descrita anteriormente se refiere a las tareas de análisis de regresión.

análisis de regresión llamar al método de análisis estadístico de la dependencia de una variable aleatoria a sobre variables consideradas en el análisis de regresión como variables no aleatorias, independientemente de la verdadera ley de distribución

RESULTADOS

Tabla 8.3a. Estadísticas de regresión
Estadísticas de regresión
Múltiples R 0,998364
R Plaza 0,99673
R-cuadrado normalizado 0,996321
Error estándar 0,42405
Observaciones 10

Veamos primero la parte superior de los cálculos presentados en la Tabla 8.3a, las estadísticas de regresión.

El valor R-cuadrado, también llamado medida de certeza, caracteriza la calidad de la línea de regresión resultante. Esta cualidad se expresa por el grado de correspondencia entre los datos originales y el modelo de regresión (datos calculados). La medida de certeza está siempre dentro del intervalo.

En la mayoría de los casos, el valor de R-cuadrado está entre estos valores, llamados extremos, es decir entre cero y uno.

Si el valor del R-cuadrado es cercano a uno, significa que el modelo construido explica casi toda la variabilidad de las variables correspondientes. Por el contrario, un valor de R-cuadrado cercano a cero significa una mala calidad del modelo construido.

En nuestro ejemplo, la medida de certeza es 0,99673, lo que indica un muy buen ajuste de la línea de regresión a los datos originales.

Múltiples R- coeficiente de correlación múltiple R - expresa el grado de dependencia de las variables independientes (X) y de la variable dependiente (Y).

Múltiples R es igual raíz cuadrada a partir del coeficiente de determinación, este valor toma valores en el rango de cero a uno.

En un análisis de regresión lineal simple, el múltiplo R es igual al coeficiente de correlación de Pearson. De hecho, el múltiplo R en nuestro caso es igual al coeficiente de correlación de Pearson del ejemplo anterior (0.998364).

Tabla 8.3b. Coeficientes de regresión
Posibilidades Error estándar estadística t
intersección en Y 2,694545455 0,33176878 8,121757129
Variable X 1 2,305454545 0,04668634 49,38177965
* Se da una versión truncada de los cálculos

Ahora considere la parte media de los cálculos presentados en la tabla 8.3b. Aquí, se dan el coeficiente de regresión b (2.305454545) y el desplazamiento a lo largo del eje y, es decir constante a (2.694545455).

Con base en los cálculos, podemos escribir la ecuación de regresión de la siguiente manera:

Y=x*2.305454545+2.694545455

La dirección de la relación entre variables se determina en función de los signos (negativo o positivo) coeficientes de regresión(coeficiente b).

Si el letrero en coeficiente de regresion- positiva, la relación de la variable dependiente con la independiente será positiva. En nuestro caso, el signo del coeficiente de regresión es positivo, por tanto, la relación también es positiva.

Si el letrero en coeficiente de regresion- negativa, la relación entre la variable dependiente y la variable independiente es negativa (inversa).

En la tabla 8.3c. se presentan los resultados de la salida de los residuales. Para que estos resultados aparezcan en el informe, es necesario activar la casilla de verificación "Residuales" al iniciar la herramienta "Regresión".

RETIRO RESTANTE

Tabla 8.3c. Restos
Observación Y pronosticado Restos Balanzas estándar
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Usando esta parte del informe, podemos ver las desviaciones de cada punto de la línea de regresión construida. mayor valor absoluto

La ciencia política moderna parte de la posición sobre la relación de todos los fenómenos y procesos en la sociedad. Es imposible comprender hechos y procesos, predecir y gestionar los fenómenos de la vida política sin estudiar las conexiones y dependencias que existen en el ámbito político de la sociedad. Una de las tareas más comunes de la investigación de políticas es estudiar la relación entre algunas variables observables. Toda una clase de métodos estadísticos de análisis, unidos por el nombre común "análisis de regresión" (o, como también se le llama, "análisis de correlación-regresión"), ayuda a resolver este problema. Sin embargo, si el análisis de correlación permite evaluar la fuerza de la relación entre dos variables, entonces mediante el análisis de regresión es posible determinar el tipo de esta relación, para predecir la dependencia del valor de cualquier variable en el valor de otra variable .

Primero, recordemos qué es una correlación. Correlativo llamado el caso especial más importante de relación estadística, que consiste en el hecho de que valores iguales de una variable corresponden a diferentes valores promedio otro. Con un cambio en el valor del atributo x, el valor promedio del atributo y cambia naturalmente, mientras que en cada caso individual el valor del atributo a(con diferentes probabilidades) puede tomar muchos valores diferentes.

La aparición del término “correlación” en estadística (y la ciencia política atrae la consecución de la estadística para la solución de sus problemas, que, por tanto, es una disciplina afín a la ciencia política) está asociada al nombre del biólogo y estadístico inglés Francis Galton, que propuso en el siglo XIX. fundamentos teóricos del análisis de correlación-regresión. El término "correlación" en la ciencia se conocía antes. En particular, en paleontología allá por el siglo XVIII. fue aplicado por el científico francés Georges Cuvier. Introdujo la llamada ley de correlación, con la ayuda de la cual, según los restos de animales encontrados durante las excavaciones, fue posible restaurar su apariencia.

Hay una historia bien conocida asociada con el nombre de este científico y su ley de correlación. Entonces, en los días de vacaciones universitarias, los estudiantes que decidieron jugarle una broma a un profesor famoso le pusieron una piel de cabra con cuernos y pezuñas a un estudiante. Se subió a la ventana del dormitorio de Cuvier y gritó: "Te comeré". El profesor se despertó, miró la silueta y respondió: “Si tienes cuernos y pezuñas, entonces eres un herbívoro y no me puedes comer. Y por desconocimiento de la ley de correlación obtendrás un dos. Se dio la vuelta y se durmió. Una broma es una broma, pero en este ejemplo estamos viendo un caso especial de uso de análisis de regresión de correlación múltiple. Aquí el profesor, basado en el conocimiento de los valores de los dos rasgos observados (la presencia de cuernos y pezuñas), basado en la ley de correlación, derivó el valor promedio del tercer rasgo (la clase a la que pertenece este animal). es un herbívoro). En este caso, no estamos hablando del valor específico de esta variable (es decir, este animal podría tomar diferentes valores en una escala nominal, podría ser una cabra, un carnero o un toro ...).

Ahora pasemos al término "regresión". Estrictamente hablando, no está relacionado con el significado de aquellos problemas estadísticos que se resuelven con la ayuda de este método. Solo se puede dar una explicación del término sobre la base del conocimiento de la historia del desarrollo de métodos para estudiar las relaciones entre las características. Uno de los primeros ejemplos de estudios de este tipo fue el trabajo de los estadísticos F. Galton y K. Pearson, quienes intentaron encontrar un patrón entre el crecimiento de los padres y el de sus hijos según dos signos observables (donde X- la altura del padre y tu- crecimiento de los niños). En su estudio, confirmaron la hipótesis inicial de que, en promedio, los padres altos crían hijos promedio altos. El mismo principio se aplica a los padres e hijos bajos. Sin embargo, si los científicos se hubieran detenido ahí, sus trabajos nunca se habrían mencionado en los libros de texto de estadística. Los investigadores encontraron otro patrón dentro de la hipótesis confirmada ya mencionada. Demostraron que los padres muy altos producen hijos que son altos en promedio, pero no muy diferentes en estatura de los niños cuyos padres, aunque por encima del promedio, no son muy diferentes de la estatura promedio. Lo mismo es cierto para los padres con estatura muy pequeña (que se desvía del promedio del grupo de baja estatura): sus hijos, en promedio, no diferían en estatura de sus compañeros cuyos padres eran simplemente bajos. Llamaron a la función que describe esta regularidad función de regresión. Después de este estudio, todas las ecuaciones que describen funciones similares y están construidas de manera similar comenzaron a llamarse ecuaciones de regresión.

Análisis de regresión- uno de los métodos de análisis de datos estadísticos multivariados, que combina un conjunto de técnicas estadísticas diseñadas para estudiar o modelar las relaciones entre una variable dependiente y varias (o una) independiente. La variable dependiente, según la tradición aceptada en estadística, se denomina respuesta y se denota como V Las variables independientes se denominan predictores y se denotan como X. Durante el curso del análisis, algunas variables estarán débilmente relacionadas con la respuesta y eventualmente serán excluidas del análisis. El resto de variables asociadas a la dependiente también pueden denominarse factores.

El análisis de regresión permite predecir los valores de una o más variables en función de otra variable (por ejemplo, la propensión al comportamiento político no convencional en función del nivel educativo) o de varias variables. Se calcula en PC. Para compilar una ecuación de regresión que le permita medir el grado de dependencia de la característica controlada de los factores, es necesario involucrar a matemáticos-programadores profesionales. El análisis de regresión puede brindar un servicio invaluable en la construcción de modelos predictivos para el desarrollo de una situación política, la evaluación de las causas de la tensión social y la realización de experimentos teóricos. El análisis de regresión se utiliza activamente para estudiar el impacto en el comportamiento electoral de los ciudadanos de una serie de parámetros sociodemográficos: género, edad, profesión, lugar de residencia, nacionalidad, nivel y naturaleza de los ingresos.

En relación con el análisis de regresión, los conceptos independiente y dependiente variables Una variable independiente es una variable que explica o provoca un cambio en otra variable. Una variable dependiente es una variable cuyo valor se explica por la influencia de la primera variable. Por ejemplo, en las elecciones presidenciales de 2004, los factores determinantes, es decir, Las variables independientes fueron indicadores como la estabilización de la situación financiera de la población del país, el nivel de popularidad de los candidatos y el factor incumbencia. En este caso, el porcentaje de votos emitidos por los candidatos puede considerarse como una variable dependiente. Asimismo, en el par de variables “edad del votante” y “nivel de actividad electoral”, la primera es independiente, la segunda es dependiente.

El análisis de regresión le permite resolver los siguientes problemas:

  • 1) establecer el hecho mismo de la presencia o ausencia de una relación estadísticamente significativa entre Ci X;
  • 2) construir las mejores estimaciones (en el sentido estadístico) de la función de regresión;
  • 3) según los valores dados X construir una predicción para lo desconocido A
  • 4) evaluar el peso específico de la influencia de cada factor X sobre el A y, en consecuencia, excluir características insignificantes del modelo;
  • 5) mediante la identificación de relaciones causales entre variables, gestionar parcialmente los valores de P ajustando los valores de las variables explicativas X.

El análisis de regresión está asociado con la necesidad de seleccionar variables independientes entre sí que afectan el valor del indicador en estudio, determinar la forma de la ecuación de regresión y evaluar parámetros utilizando métodos estadísticos para procesar datos sociológicos primarios. Este tipo de análisis se basa en la idea de la forma, dirección y cercanía (densidad) de la relación. Distinguir cuarto de vapor y regresión múltiple dependiendo del número de características estudiadas. En la práctica, el análisis de regresión generalmente se realiza junto con el análisis de correlación. Ecuación de regresión describe una relación numérica entre cantidades, expresada como la tendencia de una variable a aumentar o disminuir mientras que otra aumenta o disminuye. Al mismo tiempo, razl y h a yut l escarcha y regresión no lineal. Al describir procesos políticos, ambas variantes de regresión se encuentran por igual.

Diagrama de dispersión para la distribución de la interdependencia de interés en artículos políticos ( tu) y educación de los encuestados (X) es una regresión lineal (Fig. 30).

Arroz. treinta.

Diagrama de dispersión para la distribución del nivel de actividad electoral ( tu) y la edad del encuestado (A) (ejemplo condicional) es una regresión no lineal (Fig. 31).


Arroz. 31

Para describir la relación de dos características (A "e Y) en un modelo de regresión pareada, se usa una ecuación lineal

donde a, es un valor aleatorio del error de la ecuación con variación de características, es decir desviación de la ecuación de la "linealidad".

Para evaluar los coeficientes a y b use el método de mínimos cuadrados, que supone que la suma de las desviaciones al cuadrado de cada punto en el gráfico de dispersión de la línea de regresión debe ser mínima. Posibilidades a h b se puede calcular usando el sistema de ecuaciones:

El método de estimación de mínimos cuadrados da tales estimaciones de los coeficientes a y b, por el cual la recta pasa por el punto de coordenadas X y y, aquellos. hay una proporción a = hacha + b. La representación gráfica de la ecuación de regresión se llama línea de regresión teórica. Con una dependencia lineal, el coeficiente de regresión representa en el gráfico la tangente de la pendiente de la línea de regresión teórica al eje x. El signo en el coeficiente muestra la dirección de la relación. Si es mayor que cero, entonces la relación es directa; si es menor, es inversa.

El siguiente ejemplo del estudio “Petersburgo Político-2006” (Cuadro 56) muestra una relación lineal entre las percepciones de los ciudadanos sobre el grado de satisfacción con sus vidas en el presente y las expectativas de cambios en la calidad de vida en el futuro. La conexión es directa, lineal (el coeficiente de regresión estandarizado es 0,233, el nivel de significancia es 0,000). En este caso, el coeficiente de regresión no es alto, pero supera el límite inferior del indicador estadísticamente significativo (el límite inferior del cuadrado del indicador estadísticamente significativo del coeficiente de Pearson).

Cuadro 56

El impacto de la calidad de vida de los ciudadanos en el presente sobre las expectativas

(San Petersburgo, 2006)

* Variable dependiente: "¿Cómo crees que cambiará tu vida en los próximos 2-3 años?"

En la vida política, el valor de la variable objeto de estudio suele depender simultáneamente de varias características. Por ejemplo, el nivel y la naturaleza de la actividad política están influenciados simultáneamente por el régimen político del estado, las tradiciones políticas, las peculiaridades del comportamiento político de las personas en un área determinada y el microgrupo social del encuestado, su edad, educación, ingresos nivel, orientación política, etc. En este caso, necesitas usar la ecuación regresión múltiple, que tiene la siguiente forma:

donde coeficiente b.- coeficiente de regresión parcial. Muestra la contribución de cada variable independiente para determinar los valores de la variable independiente (resultado). Si el coeficiente de regresión parcial es cercano a 0, entonces podemos concluir que no existe una relación directa entre las variables independientes y dependientes.

El cálculo de dicho modelo se puede realizar en una PC usando álgebra matricial. La regresión múltiple permite reflejar la naturaleza multifactorial de los lazos sociales y esclarecer el grado de influencia de cada factor individualmente y en conjunto sobre el rasgo resultante.

Coeficiente denotado b, se denomina coeficiente de regresión lineal y muestra la fuerza de la relación entre la variación del atributo del factor X y variación de la característica efectiva Y Este coeficiente mide la fuerza de la relación en unidades absolutas de medida de características. Sin embargo, la cercanía de la correlación de características también se puede expresar en términos de la desviación estándar de la característica resultante (dicho coeficiente se denomina coeficiente de correlación). A diferencia del coeficiente de regresión b el coeficiente de correlación no depende de las unidades de medida aceptadas de las características y, por lo tanto, es comparable para cualquier característica. Por lo general, la conexión se considera fuerte si /> 0.7, estanqueidad media - a 0.5 g 0.5.

Como saben, la conexión más cercana es una conexión funcional, cuando cada valor individual Y se puede asignar unívocamente al valor X. Por lo tanto, cuanto más cercano sea el coeficiente de correlación a 1, más cercana será la relación a una funcional. El nivel de significación para el análisis de regresión no debe exceder 0,001.

El coeficiente de correlación se ha considerado durante mucho tiempo como el principal indicador de la cercanía de la relación de características. Sin embargo, más tarde el coeficiente de determinación se convirtió en un indicador de este tipo. El significado de este coeficiente es el siguiente: refleja la parte de la varianza total de la característica resultante A, explicada por la varianza de la característica X. Se encuentra simplemente elevando al cuadrado el coeficiente de correlación (cambiando de 0 a 1) y, a su vez, para una relación lineal refleja la participación de 0 (0%) a 1 (100%) valores característicos Y, determinado por los valores del atributo X. se registra como yo 2 , y en las tablas resultantes del análisis de regresión en el paquete SPSS, sin un cuadrado.

Denotemos los principales problemas de construir la ecuación de regresión múltiple.

  • 1. Elección de factores incluidos en la ecuación de regresión. En esta etapa, el investigador primero elabora una lista general de las principales causas que, según la teoría, determinan el fenómeno en estudio. Luego debe seleccionar las características en la ecuación de regresión. La principal regla de selección es que los factores incluidos en el análisis se correlacionen lo menos posible entre sí; sólo en este caso es posible atribuir una medida cuantitativa de influencia a un determinado factor-atributo.
  • 2. Selección de la forma de la ecuación de regresión múltiple(en la práctica, se usa con más frecuencia lineal o logarítmico lineal). Entonces, para usar la regresión múltiple, el investigador primero debe construir un modelo hipotético de la influencia de varias variables independientes en el resultado. Para que los resultados obtenidos sean confiables, es necesario que el modelo coincida exactamente con el proceso real, es decir, la relación entre las variables debe ser lineal, no se puede ignorar una sola variable independiente significativa, de la misma manera, no se puede incluir en el análisis una sola variable que no esté directamente relacionada con el proceso en estudio. Además, todas las mediciones de variables deben ser extremadamente precisas.

De la descripción anterior se desprende una serie de condiciones para la aplicación de este método, sin las cuales es imposible proceder al procedimiento de análisis de regresión múltiple (MRA). Solo el cumplimiento de todos los puntos siguientes le permite realizar correctamente el análisis de regresión.

En el modelado estadístico, el análisis de regresión es un estudio utilizado para evaluar la relación entre variables. Este método matemático incluye muchos otros métodos para modelar y analizar múltiples variables cuando el foco está en la relación entre una variable dependiente y una o más variables independientes. Más específicamente, el análisis de regresión lo ayuda a comprender cómo cambia el valor típico de la variable dependiente si una de las variables independientes cambia mientras que las otras variables independientes permanecen fijas.

En todos los casos, el puntaje objetivo es una función de las variables independientes y se denomina función de regresión. En el análisis de regresión, también es interesante caracterizar el cambio en la variable dependiente en función de la regresión, que puede describirse mediante una distribución de probabilidad.

Tareas de análisis de regresión

Este método de investigación estadística es muy utilizado para hacer pronósticos, donde su uso tiene una ventaja importante, pero en ocasiones puede llevar a ilusiones o relaciones falsas, por lo que se recomienda usarlo con cuidado en esta pregunta, ya que, por ejemplo, correlación no significa causalidad.

Desarrollado Número grande métodos para realizar análisis de regresión, como regresión lineal y de mínimos cuadrados ordinarios, que son paramétricos. Su esencia es que la función de regresión se define en términos de un número finito de parámetros desconocidos que se estiman a partir de los datos. La regresión no paramétrica permite que su función se encuentre en un determinado conjunto de funciones, que pueden ser de dimensión infinita.

Como método de investigación estadística, el análisis de regresión en la práctica depende de la forma del proceso de generación de datos y de cómo se relaciona con el enfoque de regresión. Dado que la verdadera forma de generación del proceso de datos suele ser un número desconocido, el análisis de regresión de datos a menudo depende en cierta medida de las suposiciones sobre el proceso. Estas suposiciones a veces son comprobables si hay suficientes datos disponibles. Los modelos de regresión a menudo son útiles incluso cuando se violan moderadamente los supuestos, aunque es posible que no funcionen de la mejor manera.

En un sentido más estricto, la regresión puede referirse específicamente a la estimación de variables de respuesta continua, a diferencia de las variables de respuesta discretas utilizadas en la clasificación. El caso de una variable de salida continua también se denomina regresión métrica para distinguirlo de problemas relacionados.

Historia

lo mas forma temprana La regresión es el conocido método de mínimos cuadrados. Fue publicado por Legendre en 1805 y Gauss en 1809. Legendre y Gauss aplicaron el método al problema de determinar a partir de observaciones astronómicas las órbitas de los cuerpos alrededor del Sol (principalmente cometas, pero más tarde también planetas menores recién descubiertos). Gauss publicó un mayor desarrollo de la teoría de los mínimos cuadrados en 1821, incluida una variante del teorema de Gauss-Markov.

El término "regresión" fue acuñado por Francis Galton en el siglo XIX para describir un fenómeno biológico. La conclusión era que el crecimiento de los descendientes a partir del crecimiento de los antepasados, por regla general, retrocede hasta el promedio normal. Para Galton, la regresión tenía solo este significado biológico, pero más tarde Udni Yoley y Karl Pearson retomaron su trabajo y lo llevaron a un contexto estadístico más general. En el trabajo de Yule y Pearson, la distribución conjunta de las variables de respuesta y explicativas se considera gaussiana. Esta suposición fue rechazada por Fischer en los artículos de 1922 y 1925. Fisher sugirió que la distribución condicional de la variable de respuesta es Gaussiana, pero la distribución conjunta no necesita serlo. En este sentido, la sugerencia de Fisher está más cerca de la formulación de Gauss de 1821. Antes de 1970, a veces tomaba hasta 24 horas obtener el resultado de un análisis de regresión.

Los métodos de análisis de regresión continúan siendo un área de investigación activa. En las últimas décadas, se han desarrollado nuevos métodos para la regresión robusta; regresiones que involucran respuestas correlacionadas; métodos de regresión que acomodan varios tipos de datos faltantes; regresión no paramétrica; métodos de regresión bayesiana; regresiones en las que las variables predictoras se miden con error; regresiones con más predictores que observaciones e inferencias causales con regresión.

Modelos de regresión

Los modelos de análisis de regresión incluyen las siguientes variables:

  • Parámetros desconocidos, denominados beta, que pueden ser un escalar o un vector.
  • Variables independientes, X.
  • Variables dependientes, Y.

A Varias áreas Las ciencias en las que se aplica el análisis de regresión utilizan diferentes términos en lugar de variables dependientes e independientes, pero en todos los casos el modelo de regresión relaciona Y con una función de X y β.

La aproximación generalmente se formula como E (Y | X) = F (X, β). Para realizar el análisis de regresión, se debe determinar la forma de la función f. Más raramente, se basa en el conocimiento sobre la relación entre Y y X que no se basa en datos. Si tal conocimiento no está disponible, entonces se elige una forma F flexible o conveniente.

Variable dependiente Y

Supongamos ahora que el vector de parámetros desconocidos β tiene una longitud k. Para realizar un análisis de regresión, el usuario debe proporcionar información sobre la variable dependiente Y:

  • Si se observan N puntos de datos de la forma (Y, X), donde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Si se observa exactamente N = K y la función F es lineal, entonces la ecuación Y = F(X, β) puede resolverse exactamente, no aproximadamente. Esto se reduce a resolver un conjunto de N-ecuaciones con N-incógnitas (los elementos de β) que tiene una solución única siempre que X sea linealmente independiente. Si F no es lineal, es posible que no exista una solución o que existan muchas soluciones.
  • La situación más común es donde hay N > puntos para los datos. En este caso, hay suficiente información en los datos para estimar el valor único de β que mejor se ajusta a los datos, y el modelo de regresión, cuando se aplica a los datos, puede verse como un sistema anulado en β.

En este último caso, el análisis de regresión proporciona herramientas para:

  • Encontrar una solución para los parámetros desconocidos β, que, por ejemplo, minimizará la distancia entre el valor medido y el predicho de Y.
  • Bajo ciertas suposiciones estadísticas, el análisis de regresión utiliza información excedente para proporcionar información estadística sobre los parámetros desconocidos β y los valores pronosticados de la variable dependiente Y.

Número requerido de mediciones independientes

Considere un modelo de regresión que tiene tres parámetros desconocidos: β 0 , β 1 y β 2 . Supongamos que el experimentador realiza 10 mediciones en el mismo valor de la variable independiente del vector X. En este caso, el análisis de regresión no da un conjunto único de valores. Lo mejor que se puede hacer es estimar la media y la desviación estándar de la variable dependiente Y. De manera similar, medir los dos valores diferentes X, puede obtener suficientes datos para una regresión con dos incógnitas, pero no para tres o más incógnitas.

Si las medidas del experimentador se tomaron en tres valores diferentes de la variable vectorial independiente X, entonces el análisis de regresión proporcionaría un conjunto único de estimaciones para los tres parámetros desconocidos en β.

En el caso de la regresión lineal general, la declaración anterior es equivalente al requisito de que la matriz X T X sea invertible.

Supuestos estadísticos

Cuando el número de mediciones N es mayor que el número de parámetros desconocidos k y los errores de medición ε i , entonces, por regla general, el exceso de información contenido en las mediciones se distribuye y utiliza para predicciones estadísticas sobre parámetros desconocidos. Este exceso de información se denomina grado de libertad de la regresión.

Presunciones subyacentes

Los supuestos clásicos para el análisis de regresión incluyen:

  • El muestreo es representativo de la predicción por inferencia.
  • El error es una variable aleatoria con un valor medio de cero, que está condicionada a las variables explicativas.
  • Las variables independientes se miden sin errores.
  • Como variables independientes (predictores), son linealmente independientes, es decir, no es posible expresar ningún predictor como una combinación lineal de los demás.
  • Los errores no están correlacionados, es decir, la matriz de covarianza del error de las diagonales y cada elemento distinto de cero es la varianza del error.
  • La varianza del error es constante entre las observaciones (homocedasticidad). De lo contrario, se pueden utilizar mínimos cuadrados ponderados u otros métodos.

Estas condiciones suficientes para la estimación de mínimos cuadrados tienen las propiedades requeridas, en particular, estos supuestos significan que las estimaciones de parámetros serán objetivas, consistentes y eficientes, especialmente cuando se toman en cuenta en la clase de estimaciones lineales. Es importante señalar que los datos reales rara vez cumplen las condiciones. Es decir, el método se utiliza incluso si las suposiciones no son correctas. La variación de los supuestos a veces se puede usar como una medida de cuán útil es el modelo. Muchas de estas suposiciones se pueden relajar en métodos más avanzados. Los informes de análisis estadístico generalmente incluyen análisis de pruebas contra datos de muestra y metodología para la utilidad del modelo.

Además, las variables en algunos casos se refieren a valores medidos en ubicaciones puntuales. Puede haber tendencias espaciales y autocorrelaciones espaciales en variables que violen los supuestos estadísticos. La regresión ponderada geográfica es el único método que trata estos datos.

En la regresión lineal, la característica es que la variable dependiente, que es Y i , es una combinación lineal de parámetros. Por ejemplo, en la regresión lineal simple, el modelado de n puntos utiliza una variable independiente, x i , y dos parámetros, β 0 y β 1 .

En la regresión lineal múltiple, hay varias variables independientes o sus funciones.

Cuando se muestrean aleatoriamente de una población, sus parámetros permiten obtener una muestra de un modelo de regresión lineal.

En este aspecto, el método de mínimos cuadrados es el más popular. Proporciona estimaciones de parámetros que minimizan la suma de cuadrados de los residuos. Este tipo de minimización (que es típica de la regresión lineal) de esta función conduce a un conjunto de ecuaciones normales y un conjunto ecuaciones lineales con parámetros que se resuelven para obtener estimaciones de parámetros.

Suponiendo además que el error de población generalmente se propaga, el investigador puede usar estas estimaciones de errores estándar para crear intervalos de confianza y realizar pruebas de hipótesis sobre sus parámetros.

Análisis de regresión no lineal

Un ejemplo donde la función no es lineal con respecto a los parámetros indica que la suma de los cuadrados debe minimizarse con un procedimiento iterativo. Esto introduce muchas complicaciones que definen las diferencias entre los métodos de mínimos cuadrados lineales y no lineales. En consecuencia, los resultados del análisis de regresión cuando se utiliza un método no lineal a veces son impredecibles.

Cálculo de potencia y tamaño de muestra

Aquí, por regla general, no hay métodos consistentes con respecto al número de observaciones en comparación con el número de variables independientes en el modelo. La primera regla fue propuesta por Dobra y Hardin y parece N = t^n, donde N es el tamaño de la muestra, n es el número de variables explicativas y t es el número de observaciones necesarias para lograr la precisión deseada si el modelo tuviera una única variable explicativa. Por ejemplo, un investigador crea un modelo de regresión lineal utilizando un conjunto de datos que contiene 1000 pacientes (N). Si el investigador decide que se necesitan cinco observaciones para determinar con precisión la línea (m), entonces el número máximo de variables explicativas que puede soportar el modelo es 4.

Otros metodos

Aunque los parámetros de un modelo de regresión se suelen estimar mediante el método de los mínimos cuadrados, existen otros métodos que se utilizan con mucha menos frecuencia. Por ejemplo, estos son los siguientes métodos:

  • Métodos bayesianos (por ejemplo, el método bayesiano de regresión lineal).
  • Una regresión porcentual utilizada para situaciones en las que se considera más apropiado reducir los errores porcentuales.
  • Las desviaciones absolutas más pequeñas, que son más sólidas en presencia de valores atípicos que conducen a una regresión por cuantiles.
  • Regresión no paramétrica que requiere un gran número de observaciones y cálculos.
  • La distancia de la métrica de aprendizaje que se aprende en busca de una métrica de distancia significativa en el espacio de entrada dado.

Software

Todos los principales paquetes de software estadístico se realizan utilizando análisis de regresión de mínimos cuadrados. La regresión lineal simple y el análisis de regresión múltiple se pueden utilizar en algunas aplicaciones de hojas de cálculo, así como en algunas calculadoras. Si bien muchos paquetes de software estadístico pueden realizar varios tipos de regresión robusta y no paramétrica, estos métodos están menos estandarizados; diferentes paquetes de software implementan diferentes métodos. Se ha desarrollado un software de regresión especializado para su uso en áreas como el análisis de encuestas y la neuroimagen.

La característica principal del análisis de regresión es que puede utilizarse para obtener información específica sobre la forma y naturaleza de la relación entre las variables en estudio.

La secuencia de etapas del análisis de regresión

Consideremos brevemente las etapas del análisis de regresión.

    Formulación de tareas. En esta etapa, se forman hipótesis preliminares sobre la dependencia de los fenómenos estudiados.

    Definición de variables dependientes e independientes (explicativas).

    Recogida de datos estadísticos. Se deben recopilar datos para cada una de las variables incluidas en el modelo de regresión.

    Formulación de una hipótesis sobre la forma de conexión (simple o múltiple, lineal o no lineal).

    Definición funciones de regresión (consiste en el cálculo de los valores numéricos de los parámetros de la ecuación de regresión)

    Evaluación de la precisión del análisis de regresión.

    Interpretación de los resultados obtenidos. Los resultados del análisis de regresión se comparan con hipótesis preliminares. Se evalúa la corrección y plausibilidad de los resultados obtenidos.

    Predicción de valores desconocidos de la variable dependiente.

Con la ayuda del análisis de regresión, es posible resolver el problema de la previsión y la clasificación. Los valores predictivos se calculan sustituyendo los valores de las variables explicativas en la ecuación de regresión. El problema de clasificación se resuelve de esta manera: la recta de regresión divide todo el conjunto de objetos en dos clases, y la parte del conjunto donde el valor de la función es mayor que cero pertenece a una clase, y la parte donde es menor que cero pertenece a otra clase.

Tareas de análisis de regresión

Considere las tareas principales del análisis de regresión: establecer la forma de dependencia, determinar funciones de regresión, una estimación de los valores desconocidos de la variable dependiente.

Establecimiento de la forma de dependencia.

La naturaleza y forma de la relación entre variables puede formar los siguientes tipos de regresión:

    regresión lineal positiva (expresada como un crecimiento uniforme de la función);

    regresión con aceleración uniforme positiva;

    regresión positiva uniformemente creciente;

    regresión lineal negativa (expresada como una función de caída uniforme);

    regresión decreciente uniformemente acelerada negativa;

    regresión negativa uniformemente decreciente.

Sin embargo, las variedades descritas no suelen encontrarse en forma pura, sino combinadas entre sí. En este caso, se habla de formas combinadas de regresión.

Definición de la función de regresión.

La segunda tarea es averiguar el efecto sobre la variable dependiente de los principales factores o causas, en igualdad de condiciones, y sujeto a la exclusión del impacto sobre la variable dependiente de los elementos aleatorios. función de regresión definida como una ecuación matemática de un tipo u otro.

Estimación de valores desconocidos de la variable dependiente.

La solución de este problema se reduce a resolver un problema de uno de los siguientes tipos:

    Estimación de los valores de la variable dependiente dentro del intervalo considerado de los datos iniciales, es decir valores faltantes; esto resuelve el problema de la interpolación.

    Estimar los valores futuros de la variable dependiente, es decir encontrar valores fuera del intervalo dado de los datos iniciales; esto resuelve el problema de la extrapolación.

Ambos problemas se resuelven sustituyendo las estimaciones encontradas de los parámetros de los valores de las variables independientes en la ecuación de regresión. El resultado de resolver la ecuación es una estimación del valor de la variable objetivo (dependiente).

Veamos algunos de los supuestos en los que se basa el análisis de regresión.

Suposición de linealidad, es decir se supone que la relación entre las variables consideradas es lineal. Entonces, en este ejemplo, construimos un diagrama de dispersión y pudimos ver una relación lineal clara. Si, en el diagrama de dispersión de variables, vemos una clara ausencia de una relación lineal, es decir existe una relación no lineal, se deben utilizar métodos de análisis no lineales.

Supuesto de normalidad sobras. Asume que la distribución de la diferencia entre los valores predichos y observados es normal. Para determinar visualmente la naturaleza de la distribución, puede usar histogramas sobras.

Al utilizar el análisis de regresión, se debe tener en cuenta su principal limitación. Consiste en el hecho de que el análisis de regresión le permite detectar solo dependencias, y no las relaciones que subyacen a estas dependencias.

El análisis de regresión permite evaluar el grado de asociación entre variables calculando el valor esperado de una variable a partir de varios valores conocidos.

Ecuación de regresión.

La ecuación de regresión se ve así: Y=a+b*X

Con esta ecuación, la variable Y se expresa en términos de la constante a y la pendiente de la línea (o pendiente) b multiplicada por el valor de la variable X. La constante a también se denomina intersección y la pendiente es la regresión coeficiente o factor B.

En la mayoría de los casos (si no siempre) hay una cierta dispersión de observaciones sobre la línea de regresión.

Resto es la desviación de un punto individual (observación) de la línea de regresión (valor predicho).

Para resolver el problema del análisis de regresión en MS Excel, seleccione del menú Servicio"Paquete de análisis" y la herramienta de análisis de regresión. Especifique los intervalos de entrada X e Y. El intervalo de entrada Y es el rango de datos dependientes que se analizan y debe incluir una columna. El intervalo de entrada X es el rango de datos independientes a analizar. El número de rangos de entrada no debe exceder de 16.

A la salida del procedimiento en el rango de salida, obtenemos el informe dado en tabla 8.3a-8.3v.

RESULTADOS

Tabla 8.3a. Estadísticas de regresión

Estadísticas de regresión

Múltiples R

R Plaza

R-cuadrado normalizado

Error estándar

Observaciones

Primero, considere la parte superior de los cálculos presentados en tabla 8.3a, - estadísticas de regresión.

Valor R Plaza, también llamada medida de certeza, caracteriza la calidad de la línea de regresión resultante. Esta cualidad se expresa por el grado de correspondencia entre los datos originales y el modelo de regresión (datos calculados). La medida de certeza está siempre dentro del intervalo.

En la mayoría de los casos, el valor R Plaza está entre estos valores, llamado extremo, es decir entre cero y uno.

si el valor R Plaza cercano a la unidad, esto significa que el modelo construido explica casi toda la variabilidad de las variables correspondientes. Por el contrario, el valor R Plaza, cercano a cero, significa mala calidad del modelo construido.

En nuestro ejemplo, la medida de certeza es 0,99673, lo que indica un muy buen ajuste de la línea de regresión a los datos originales.

R plural - coeficiente de correlación múltiple R - expresa el grado de dependencia de las variables independientes (X) y de la variable dependiente (Y).

Múltiples R igual a la raíz cuadrada del coeficiente de determinación, este valor toma valores en el rango de cero a uno.

En análisis de regresión lineal simple R plural igual al coeficiente de correlación de Pearson. En realidad, R plural en nuestro caso, es igual al coeficiente de correlación de Pearson del ejemplo anterior (0,998364).

Tabla 8.3b. Coeficientes de regresión

Posibilidades

Error estándar

estadística t

intersección en Y

Variable X 1

* Se da una versión truncada de los cálculos

Ahora considere la parte media de los cálculos presentados en tabla 8.3b. Aquí, se dan el coeficiente de regresión b (2.305454545) y el desplazamiento a lo largo del eje y, es decir constante a (2.694545455).

Con base en los cálculos, podemos escribir la ecuación de regresión de la siguiente manera:

Y=x*2.305454545+2.694545455

La dirección de la relación entre las variables se determina a partir de los signos (negativo o positivo) de los coeficientes de regresión (coeficiente b).

Si el signo del coeficiente de regresión es positivo, la relación entre la variable dependiente y la variable independiente será positiva. En nuestro caso, el signo del coeficiente de regresión es positivo, por tanto, la relación también es positiva.

Si el signo del coeficiente de regresión es negativo, la relación entre la variable dependiente y la variable independiente es negativa (inversa).

A tabla 8.3c. se presentan los resultados de salida sobras. Para que estos resultados aparezcan en el informe, es necesario activar la casilla de verificación "Residuales" al iniciar la herramienta "Regresión".

RETIRO RESTANTE

Tabla 8.3c. Restos

Observación

Y pronosticado

Restos

Balanzas estándar

Usando esta parte del informe, podemos ver las desviaciones de cada punto de la línea de regresión construida. mayor valor absoluto resto en nuestro caso - 0.778, el más pequeño - 0.043. Para una mejor interpretación de estos datos, utilizaremos la gráfica de los datos originales y la línea de regresión construida que se presenta en la Fig. arroz. 8.3. Como puede ver, la línea de regresión se "ajusta" con bastante precisión a los valores de los datos originales.

Debe tenerse en cuenta que el ejemplo bajo consideración es bastante simple y no siempre es posible construir cualitativamente una línea de regresión lineal.

Arroz. 8.3. Datos iniciales y línea de regresión

El problema de estimar valores futuros desconocidos de la variable dependiente en base a los valores conocidos de la variable independiente permaneció sin considerar, es decir tarea de previsión.

Al tener una ecuación de regresión, el problema de pronóstico se reduce a resolver la ecuación Y= x*2.305454545+2.694545455 con valores conocidos de x. Se presentan los resultados de predecir la variable dependiente Y seis pasos adelante en la tabla 8.4.

Tabla 8.4. Resultados de predicción de variables Y

Y (predicho)

Por lo tanto, como resultado del uso del análisis de regresión en el paquete de Microsoft Excel, nosotros:

    construyó una ecuación de regresión;

    estableció la forma de dependencia y la dirección de la relación entre las variables - una regresión lineal positiva, que se expresa en un crecimiento uniforme de la función;

    estableció la dirección de la relación entre las variables;

    evaluó la calidad de la línea de regresión resultante;

    pudieron ver las desviaciones de los datos calculados de los datos del conjunto original;

    predijo los valores futuros de la variable dependiente.

si un función de regresión se define, interpreta y justifica, y la evaluación de la precisión del análisis de regresión cumple con los requisitos, podemos asumir que el modelo construido y los valores predictivos son suficientemente confiables.

Los valores pronosticados obtenidos de esta forma son los valores medios que se pueden esperar.

En este artículo revisamos las principales características estadísticas descriptivas y entre ellos conceptos tales como significar,mediana,máximo,mínimo y otras características de la variación de datos.

También hubo una breve discusión sobre el concepto emisiones. Las características consideradas se refieren al llamado análisis exploratorio de datos, sus conclusiones pueden no ser aplicables a la población general, sino solo a una muestra de datos. El análisis exploratorio de datos se utiliza para sacar conclusiones primarias y formar hipótesis sobre la población.

También se consideraron los conceptos básicos del análisis de correlación y regresión, sus tareas y posibilidades de uso práctico.