Análisis de regresión. Análisis de regresión

El análisis de regresión examina la dependencia de una cierta cantidad de otra cantidad o varias otras cantidades. El análisis de regresión se utiliza principalmente en la previsión a medio plazo, así como en la previsión a largo plazo. Los períodos de mediano y largo plazo permiten establecer cambios en el entorno empresarial y tener en cuenta el impacto de estos cambios en el indicador en estudio.

Para realizar el análisis de regresión es necesario:

    disponibilidad de datos anuales sobre los indicadores estudiados,

    disponibilidad de pronósticos puntuales, es decir, pronósticos que no mejoran con nuevos datos.

El análisis de regresión generalmente se realiza para objetos que tienen una naturaleza compleja y multifactorial, como el volumen de inversiones, ganancias, volúmenes de ventas, etc.

A método de pronóstico normativo se determinan las formas y plazos para alcanzar los estados posibles del fenómeno, tomado como meta. Estamos hablando de predecir el logro de los estados deseados del fenómeno sobre la base de normas, ideales, incentivos y objetivos predeterminados. Tal pronóstico responde a la pregunta: ¿de qué manera se puede lograr lo deseado? El método normativo se usa más a menudo para pronósticos programáticos o dirigidos. Se utiliza tanto una expresión cuantitativa del estándar como una cierta escala de las posibilidades de la función de evaluación.

En el caso de utilizar una expresión cuantitativa, por ejemplo, normas fisiológicas y racionales para el consumo de ciertos productos alimenticios y no alimenticios desarrollados por especialistas para varios grupos de la población, es posible determinar el nivel de consumo de estos bienes para los años anteriores a la consecución de la norma especificada. Estos cálculos se denominan interpolación. La interpolación es una forma de calcular indicadores que faltan en la serie temporal de un fenómeno, a partir de una relación establecida. Tomando el valor real del indicador y el valor de sus estándares como miembros extremos de la serie dinámica, es posible determinar la magnitud de los valores dentro de esta serie. Por lo tanto, la interpolación se considera un método normativo. La fórmula dada anteriormente (4), utilizada en la extrapolación, se puede utilizar en la interpolación, donde y n ya no caracterizará los datos reales, sino el estándar del indicador.

En el caso de utilizar una escala (campo, espectro) de las posibilidades de la función de evaluación, es decir, la función de distribución de preferencias, en el método normativo se indica aproximadamente la siguiente gradación: indeseable - menos deseable - más deseable - más deseable - óptimo (estándar).

El método de pronóstico normativo ayuda a desarrollar recomendaciones para aumentar el nivel de objetividad y, por lo tanto, la eficacia de las decisiones.

Modelado, quizás el método de pronóstico más difícil. El modelado matemático significa la descripción de un fenómeno económico a través de fórmulas matemáticas, ecuaciones y desigualdades. El aparato matemático debe reflejar con precisión el fondo del pronóstico, aunque es bastante difícil reflejar completamente la profundidad y complejidad del objeto pronosticado. El término "modelo" se deriva de la palabra latina modelus, que significa "medida". Por lo tanto, sería más correcto considerar el modelado no como un método de pronóstico, sino como un método para estudiar un fenómeno similar en un modelo.

En un sentido amplio, se denominan modelos sustitutos del objeto de estudio, los cuales se encuentran en tal similitud con éste que permite obtener nuevos conocimientos sobre el objeto. El modelo debe ser considerado como una descripción matemática del objeto. En este caso, el modelo se define como un fenómeno (sujeto, instalación) que está en alguna correspondencia con el objeto de estudio y puede reemplazarlo en el proceso de investigación, presentando información sobre el objeto.

Con una comprensión más estrecha del modelo, se lo considera como un objeto de pronóstico, su estudio permite obtener información sobre los posibles estados del objeto en el futuro y las formas de alcanzar estos estados. En este caso, el propósito del modelo predictivo es obtener información no sobre el objeto en general, sino solo sobre sus estados futuros. Entonces, al construir un modelo, puede ser imposible verificar directamente su correspondencia con el objeto, ya que el modelo representa solo su estado futuro, y el objeto mismo puede estar actualmente ausente o tener una existencia diferente.

Los modelos pueden ser materiales e ideales.

Los modelos ideales se utilizan en economía. El modelo ideal más perfecto para una descripción cuantitativa de un fenómeno socioeconómico (económico) es un modelo matemático que utiliza números, fórmulas, ecuaciones, algoritmos o una representación gráfica. Con la ayuda de modelos económicos determine:

    la relación entre varios indicadores económicos;

    varios tipos de restricciones impuestas a los indicadores;

    criterios para optimizar el proceso.

Una descripción significativa de un objeto se puede representar en forma de su esquema formalizado, que indica qué parámetros e información inicial se deben recopilar para calcular los valores deseados. Un modelo matemático, a diferencia de un esquema formalizado, contiene datos numéricos específicos que caracterizan un objeto. El desarrollo de un modelo matemático depende en gran medida de la idea del pronosticador sobre la esencia del proceso que se modela. Sobre la base de sus ideas, presenta una hipótesis de trabajo, con la ayuda de la cual se crea un registro analítico del modelo en forma de fórmulas, ecuaciones y desigualdades. Como resultado de resolver el sistema de ecuaciones, se obtienen parámetros específicos de la función, que describen el cambio en las variables deseadas a lo largo del tiempo.

El orden y la secuencia de trabajo como elemento de la organización de la previsión se determina en función del método de previsión utilizado. Por lo general, este trabajo se lleva a cabo en varias etapas.

Etapa 1: retrospección predictiva, es decir, el establecimiento del objeto de pronóstico y los antecedentes del pronóstico. El trabajo en la primera etapa se realiza en la siguiente secuencia:

    formación de una descripción de un objeto en el pasado, que incluye un análisis previo al pronóstico del objeto, una evaluación de sus parámetros, su significado y relaciones mutuas,

    identificación y evaluación de fuentes de información, el procedimiento y organización del trabajo con ellas, la recopilación y ubicación de información retrospectiva;

    establecimiento de objetivos de investigacin.

Al realizar las tareas de retrospección predictiva, los pronosticadores estudian la historia del desarrollo del objeto y los antecedentes del pronóstico para obtener su descripción sistemática.

Etapa 2: diagnóstico predictivo, durante el cual se estudia una descripción sistemática del objeto del pronóstico y los antecedentes del pronóstico para identificar tendencias en su desarrollo y seleccionar modelos y métodos de pronóstico. El trabajo se realiza en la siguiente secuencia:

    desarrollo de un modelo de objeto de pronóstico, incluida una descripción formal del objeto, comprobando el grado de adecuación del modelo al objeto;

    selección de métodos de pronóstico (principal y auxiliar), desarrollo de un algoritmo y programas de trabajo.

3ra etapa - patrocinio, es decir, el proceso de desarrollo extenso del pronóstico, que incluye: 1) cálculo de parámetros pronosticados para un período de anticipación determinado; 2) síntesis de componentes individuales del pronóstico.

Cuarta etapa: evaluación del pronóstico, incluida su verificación, es decir, determinar el grado de confiabilidad, precisión y validez.

En el curso de la prospección y evaluación, las tareas de previsión y su evaluación se resuelven sobre la base de las etapas anteriores.

El escalonamiento indicado es aproximado y depende del principal método de pronóstico.

Los resultados del pronóstico se redactan en forma de certificado, informe u otro material y se presentan al cliente.

En el pronóstico, se puede indicar la desviación del pronóstico del estado real del objeto, lo que se denomina error de pronóstico, que se calcula mediante la fórmula:

;
;
. (9.3)

Fuentes de errores en la previsión

Las principales fuentes pueden ser:

1. Transferencia simple (extrapolación) de datos del pasado al futuro (por ejemplo, la empresa no tiene otras opciones de pronóstico, excepto un aumento del 10% en las ventas).

2. La incapacidad de determinar con precisión la probabilidad de un evento y su impacto en el objeto de estudio.

3. Dificultades imprevistas (eventos disruptivos) que afecten la implementación del plan, por ejemplo, el despido repentino del jefe del departamento de ventas.

En general, la precisión de los pronósticos aumenta con la acumulación de experiencia en pronósticos y el desarrollo de sus métodos.

Análisis de regresión

regresión (lineal) análisis- un método estadístico para estudiar la influencia de una o más variables independientes sobre una variable dependiente. Las variables independientes se denominan regresores o predictores, y las variables dependientes se denominan criterios. Terminología dependiente y independiente variables refleja sólo la dependencia matemática de las variables ( ver Correlación espuria), en lugar de una relación causal.

Objetivos del análisis de regresión

  1. Determinación del grado de determinismo de la variación de la variable criterio (dependiente) por predictores (variables independientes)
  2. Predecir el valor de la variable dependiente usando la(s) variable(s) independiente(s)
  3. Determinación de la contribución de las variables independientes individuales a la variación de la dependiente

El análisis de regresión no se puede utilizar para determinar si existe una relación entre las variables, ya que la existencia de tal relación es un requisito previo para aplicar el análisis.

Definición matemática de regresión

La dependencia estrictamente regresiva se puede definir de la siguiente manera. Sean , variables aleatorias con una distribución de probabilidad conjunta dada. Si para cada conjunto de valores se define una expectativa condicional

(ecuación de regresión general),

entonces la función se llama regresión Y valores por valores, y su gráfico - línea de regresión por , o ecuación de regresión.

La dependencia de se manifiesta en el cambio de los valores medios de Y al cambiar. Aunque para cada conjunto fijo de valores, la cantidad sigue siendo una variable aleatoria con cierta dispersión.

Para aclarar la cuestión de con qué precisión el análisis de regresión estima el cambio en Y con un cambio, el valor promedio de la varianza de Y se usa para diferentes conjuntos de valores (de hecho, estamos hablando de la medida de dispersión del variable dependiente alrededor de la línea de regresión).

Método de mínimos cuadrados (cálculo de coeficientes)

En la práctica, la línea de regresión se busca con mayor frecuencia en la forma función lineal(regresión lineal) que mejor se aproxima a la curva deseada. Esto se hace utilizando el método de mínimos cuadrados, cuando se minimiza la suma de las desviaciones al cuadrado de lo realmente observado de sus estimaciones (es decir, estimaciones que utilizan una línea recta que pretende representar la dependencia de regresión deseada):

(M - tamaño de la muestra). Este enfoque se basa en hecho conocido que la suma que aparece en la expresión anterior toma el valor mínimo precisamente para el caso en que .

Para resolver el problema del análisis de regresión por el método de mínimos cuadrados, se introduce el concepto funciones residuales:

La condición para el mínimo de la función residual:

El sistema resultante es el sistema ecuaciones lineales con desconocido

Si representamos los términos libres del lado izquierdo de las ecuaciones por la matriz

y los coeficientes de las incógnitas en el lado derecho de la matriz

luego obtenemos la ecuación matricial: , que se resuelve fácilmente por el método de Gauss. La matriz resultante será una matriz que contiene los coeficientes de la ecuación de la línea de regresión:

Para obtener las mejores estimaciones, es necesario cumplir los requisitos previos de LSM (condiciones de Gauss-Markov). En la literatura inglesa, tales estimaciones se denominan BLUE (Best Linear Unbiased Estimators), las mejores estimaciones lineales imparciales.

Interpretación de los parámetros de regresión

Los parámetros son coeficientes de correlación parcial; se interpreta como la proporción de la varianza de Y explicada fijando la influencia de los predictores restantes, es decir, mide la contribución individual a la explicación de Y. En el caso de los predictores correlacionados, existe un problema de incertidumbre en las estimaciones , que se vuelven dependientes del orden en que se incluyen los predictores en el modelo. En tales casos, es necesario aplicar los métodos de análisis de correlación y análisis de regresión paso a paso.

Hablando de modelos no lineales de análisis de regresión, es importante prestar atención a si estamos hablando de no linealidad en variables independientes (desde un punto de vista formal, fácilmente reducible a regresión lineal), o no linealidad en parámetros estimados. (causando serias dificultades computacionales). Con el primer tipo de no linealidad, desde un punto de vista significativo, es importante destacar la aparición en el modelo de miembros de la forma , , indicando la presencia de interacciones entre características , etc. (ver Multicolinealidad).

ver también

Enlaces

  • www.kgafk.ru - Conferencia sobre "Análisis de regresión"
  • www.basegroup.ru - métodos para seleccionar variables en modelos de regresión

Literatura

  • Norman Draper, Harry Smith Análisis de regresión aplicado. Regresión múltiple= Análisis de Regresión Aplicado. - 3ra ed. - M.: "Dialéctica", 2007. - S. 912. - ISBN 0-471-17082-8
  • Métodos Sostenibles para Estimar Modelos Estadísticos: Monografía. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radchenko Stanislav Grigorievich, Metodología de Análisis de Regresión: Monográfico. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Fundación Wikimedia. 2010 .

¿Qué es la regresión?

Considere dos variables continuas x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Coloquemos los puntos en un diagrama de dispersión 2D y digamos que tenemos relación lineal si los datos se aproximan por una línea recta.

Si asumimos que y depende de X, y los cambios en y causada por cambios en X, podemos definir una línea de regresión (regresión y sobre el X), que describe mejor la relación lineal entre estas dos variables.

El uso estadístico de la palabra "regresión" proviene de un fenómeno conocido como regresión a la media, atribuido a Sir Francis Galton (1889).

Mostró que mientras los padres altos tienden a tener hijos altos, la altura promedio de los hijos es más pequeña que la de sus padres altos. La estatura promedio de los hijos "retrocedió" y "retrocedió" a la estatura promedio de todos los padres de la población. Así, en promedio, los padres altos tienen hijos más bajos (pero todavía altos), y los padres bajos tienen hijos más altos (pero aún bastante bajos).

línea de regresión

Ecuación matemática que evalúa una línea de regresión lineal simple (por pares):

X llamada variable independiente o predictor.

Y es la variable dependiente o de respuesta. Este es el valor que esperamos para y(en promedio) si conocemos el valor X, es decir. es el valor predicho y»

  • a- miembro libre (cruce) de la línea de evaluación; este valor Y, cuando x=0(Figura 1).
  • b- pendiente o pendiente de la línea estimada; es la cantidad por la cual Y aumenta en promedio si aumentamos X por una unidad
  • a y b se denominan coeficientes de regresión de la línea estimada, aunque este término se usa a menudo solo para b.

La regresión lineal por pares se puede ampliar para incluir más de una variable independiente; en este caso se conoce como regresión múltiple.

Figura 1. Línea de regresión lineal que muestra la intersección de a y la pendiente b (la cantidad de aumento en Y cuando x aumenta en una unidad)

Método de mínimos cuadrados

Realizamos un análisis de regresión usando una muestra de observaciones donde a y b- estimaciones muestrales de los parámetros verdaderos (generales), α y β , que determinan la línea de regresión lineal en la población (población general).

El método más simple para determinar los coeficientes. a y b es método de mínimos cuadrados(MNK).

El ajuste se evalúa considerando los residuales (la distancia vertical de cada punto desde la línea, por ejemplo, residual = observable y- predicho y, Arroz. 2).

La recta de mejor ajuste se elige de modo que la suma de los cuadrados de los residuos sea mínima.

Arroz. 2. Línea de regresión lineal con residuos representados (líneas punteadas verticales) para cada punto.

Supuestos de regresión lineal

Entonces, para cada valor observado, el residual es igual a la diferencia y el predicho correspondiente.Cada residual puede ser positivo o negativo.

Puede usar residuos para probar las siguientes suposiciones detrás de la regresión lineal:

  • Los residuos se distribuyen normalmente con media cero;

Si los supuestos de linealidad, normalidad y/o varianza constante son cuestionables, podemos transformar o y calcular una nueva línea de regresión para la cual se cumplan estos supuestos (p. ej., usar una transformación logarítmica, etc.).

Valores anormales (outliers) y puntos de influencia

Una observación "influyente", si se omite, cambia una o más estimaciones de parámetros del modelo (es decir, pendiente o intersección).

Un valor atípico (una observación que contradice la mayoría de los valores en el conjunto de datos) puede ser una observación "influyente" y puede detectarse bien visualmente cuando se observa un gráfico de dispersión 2D o un gráfico de residuos.

Tanto para valores atípicos como para observaciones "influyentes" (puntos), se utilizan modelos, tanto con su inclusión como sin ellos, prestando atención al cambio en la estimación (coeficientes de regresión).

Al realizar un análisis, no descarte automáticamente los valores atípicos o los puntos de influencia, ya que simplemente ignorarlos puede afectar los resultados. Siempre estudie las causas de estos valores atípicos y analícelos.

Hipótesis de regresión lineal

Al construir una regresión lineal, se comprueba la hipótesis nula de que la pendiente general de la línea de regresión β es igual a cero.

Si la pendiente de la recta es cero, no hay relación lineal entre y: el cambio no afecta

Para probar la hipótesis nula de que la pendiente verdadera es cero, puede usar el siguiente algoritmo:

Calcular el estadístico de prueba igual a la razón , que obedece a una distribución con grados de libertad, donde el error estándar del coeficiente


,

- estimación de la varianza de los residuos.

Por lo general, si el nivel de significación alcanzado es la hipótesis nula se rechaza.


donde es el punto porcentual de la distribución con grados de libertad que da la probabilidad de una prueba de dos colas

Este es el intervalo que contiene la pendiente general con una probabilidad del 95%.

Para muestras grandes, digamos que podemos aproximarnos con un valor de 1.96 (es decir, la estadística de prueba tenderá a distribuirse normalmente)

Evaluación de la calidad de la regresión lineal: coeficiente de determinación R 2

Debido a la relación lineal y esperamos que cambie a medida que cambia , y llamamos a esto la variación que es debida o explicada por la regresión. La variación residual debe ser lo más pequeña posible.

Si es así, la regresión explicará la mayor parte de la variación y los puntos estarán cerca de la línea de regresión, es decir, la recta se ajusta bien a los datos.

La proporción de la varianza total que es explicada por la regresión se llama coeficiente de determinación, generalmente expresado como un porcentaje y denotado R2(en regresión lineal pareada, este es el valor r2, el cuadrado del coeficiente de correlación), le permite evaluar subjetivamente la calidad de la ecuación de regresión.

La diferencia es el porcentaje de varianza que no puede explicarse por regresión.

Sin una prueba formal para evaluar, nos vemos obligados a confiar en el juicio subjetivo para determinar la calidad del ajuste de la línea de regresión.

Aplicar una línea de regresión a un pronóstico

Puede usar una línea de regresión para predecir un valor a partir de un valor dentro del rango observado (nunca extrapole más allá de estos límites).

Predecimos la media de los observables que tienen un cierto valor sustituyendo ese valor en la ecuación de la línea de regresión.

Entonces, si predecimos como Usamos este valor predicho y su error estándar para estimar el intervalo de confianza para la verdadera media de la población.

Repetir este procedimiento para diferentes valores le permite construir límites de confianza para esta línea. Esta es una banda o área que contiene una línea verdadera, por ejemplo, con un nivel de confianza del 95%.

Planes de regresión simple

Los diseños de regresión simple contienen un predictor continuo. Si hay 3 casos con valores predictores P, como 7, 4 y 9, y el diseño incluye un efecto de primer orden P, entonces la matriz de diseño X será

y la ecuación de regresión que usa P para X1 parece

Y = b0 + b1 P

Si un diseño de regresión simple contiene un efecto de orden superior en P, como un efecto cuadrático, entonces los valores en la columna X1 en la matriz de diseño se elevarán a la segunda potencia:

y la ecuación tomará la forma

Y = b0 + b1 P2

Los métodos de codificación con restricciones de Sigma y sobreparametrizados no se aplican a los diseños de regresión simple y otros diseños que contienen solo predictores continuos (porque simplemente no hay predictores categóricos). Independientemente del método de codificación elegido, los valores de las variables continuas se incrementan en la potencia adecuada y se utilizan como valores para las variables X. En este caso, no se realiza ninguna conversión. Además, al describir los planes de regresión, puede omitir la consideración de la matriz del plan X y trabajar solo con la ecuación de regresión.

Ejemplo: análisis de regresión simple

Este ejemplo utiliza los datos proporcionados en la tabla:

Arroz. 3. Tabla de datos iniciales.

Los datos se basan en una comparación de los censos de 1960 y 1970 en 30 condados seleccionados al azar. Los nombres de los condados se representan como nombres de observación. La información relativa a cada variable se presenta a continuación:

Arroz. 4. Tabla de especificación de variables.

Objetivo de la investigación

Para este ejemplo se analizará la correlación entre la tasa de pobreza y la potencia que predice el porcentaje de familias que se encuentran por debajo de la línea de pobreza. Por lo tanto, trataremos la variable 3 (Pt_Pobre) como una variable dependiente.

Se puede plantear una hipótesis: el cambio en la población y el porcentaje de familias que están por debajo de la línea de pobreza están relacionados. Parece razonable esperar que la pobreza provoque una salida de población, por lo que habría una correlación negativa entre el porcentaje de personas por debajo del umbral de pobreza y el cambio de población. Por lo tanto, trataremos la variable 1 (Pop_Chng) como una variable predictora.

Ver resultados

Coeficientes de regresión

Arroz. 5. Coeficientes de regresión Pt_Poor sobre Pop_Chng.

En la intersección de la fila Pop_Chng y Param. el coeficiente no estandarizado para la regresión de Pt_Poor sobre Pop_Chng es -0.40374. Esto significa que por cada unidad de disminución en la población, hay un aumento en la tasa de pobreza de .40374. Los límites de confianza del 95 % superior e inferior (predeterminado) para este coeficiente no estandarizado no incluyen el cero, por lo que el coeficiente de regresión es significativo en el nivel p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribución de variables

Los coeficientes de correlación pueden sobreestimarse o subestimarse significativamente si hay grandes valores atípicos en los datos. Examinemos la distribución de la variable dependiente Pt_Poor por condado. Para ello, construiremos un histograma de la variable Pt_Pobre.

Arroz. 6. Histograma de la variable Pt_Poor.

Como puede ver, la distribución de esta variable difiere notablemente de la distribución normal. Sin embargo, aunque incluso dos condados (las dos columnas de la derecha) tienen un porcentaje más alto de familias que están por debajo de la línea de pobreza de lo esperado en una distribución normal, parecen estar "dentro del rango".

Arroz. 7. Histograma de la variable Pt_Poor.

Este juicio es algo subjetivo. La regla general es que los valores atípicos deben tenerse en cuenta si una observación (u observaciones) no se encuentra dentro del intervalo (media ± 3 veces la desviación estándar). En este caso, vale la pena repetir el análisis con y sin valores atípicos para asegurarse de que no tengan un efecto grave en la correlación entre los miembros de la población.

Gráfico de dispersión

Si una de las hipótesis es a priori sobre la relación entre las variables dadas, entonces es útil verificarla en la gráfica del diagrama de dispersión correspondiente.

Arroz. 8. Diagrama de dispersión.

El diagrama de dispersión muestra una clara correlación negativa (-.65) entre las dos variables. También muestra el intervalo de confianza del 95 % para la línea de regresión, es decir, con una probabilidad del 95 %, la línea de regresión pasa entre las dos curvas discontinuas.

Criterios de significación

Arroz. 9. Tabla que contiene los criterios de significancia.

La prueba del coeficiente de regresión Pop_Chng confirma que Pop_Chng está fuertemente relacionado con Pt_Pobre, p<.001 .

Salir

Este ejemplo mostró cómo analizar un plan de regresión simple. También se presentó una interpretación de los coeficientes de regresión estandarizados y no estandarizados. Se discute la importancia de estudiar la distribución de respuesta de la variable dependiente y se demuestra una técnica para determinar la dirección y la fuerza de la relación entre el predictor y la variable dependiente.

Análisis de regresión y correlación - métodos de investigación estadística. Estas son las formas más comunes de mostrar la dependencia de un parámetro de una o más variables independientes.

A continuación, utilizando ejemplos prácticos concretos, consideraremos estos dos análisis muy populares entre los economistas. También daremos un ejemplo de cómo obtener resultados cuando se combinan.

Análisis de regresión en Excel

Muestra la influencia de algunos valores (independientes, independientes) sobre la variable dependiente. Por ejemplo, cómo el número de población económicamente activa depende del número de empresas, salarios y otros parámetros. O: ¿cómo afectan las inversiones extranjeras, los precios de la energía, etc. al nivel del PIB?

El resultado del análisis le permite priorizar. Y en base a los principales factores, predecir, planificar el desarrollo de las áreas prioritarias, tomar decisiones de gestión.

La regresión ocurre:

  • lineal (y = a + bx);
  • parabólico (y = a + bx + cx 2);
  • exponencial (y = a * exp(bx));
  • potencia (y = a*x^b);
  • hiperbólica (y = b/x + a);
  • logarítmica (y = b * 1n(x) + a);
  • exponencial (y = a * b^x).

Considere el ejemplo de construir un modelo de regresión en Excel e interpretar los resultados. Tomemos un tipo de regresión lineal.

Una tarea. En 6 empresas se analizó el salario medio mensual y el número de empleados que se fueron. Es necesario determinar la dependencia del número de empleados jubilados del salario promedio.

El modelo de regresión lineal tiene la siguiente forma:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Donde a son los coeficientes de regresión, x son las variables influyentes y k es el número de factores.

En nuestro ejemplo, Y es el indicador de trabajadores que renuncian. El factor que influye es el salario (x).

Excel tiene funciones integradas que se pueden usar para calcular los parámetros de un modelo de regresión lineal. Pero el complemento Analysis ToolPak lo hará más rápido.

Activa una poderosa herramienta analítica:

Una vez activado, el complemento estará disponible en la pestaña Datos.

Ahora nos ocuparemos directamente del análisis de regresión.



En primer lugar, prestamos atención al R-cuadrado y los coeficientes.

R-cuadrado es el coeficiente de determinación. En nuestro ejemplo, es 0,755 o 75,5%. Esto significa que los parámetros calculados del modelo explican la relación entre los parámetros estudiados en un 75,5%. Cuanto mayor sea el coeficiente de determinación, mejor será el modelo. Bueno - por encima de 0,8. Pobre: ​​menos de 0,5 (tal análisis difícilmente puede considerarse razonable). En nuestro ejemplo - "no está mal".

El coeficiente 64.1428 muestra cuál será Y si todas las variables del modelo considerado son iguales a 0. Es decir, otros factores que no están descritos en el modelo también afectan el valor del parámetro analizado.

El coeficiente -0,16285 muestra el peso de la variable X sobre Y. Es decir, el salario medio mensual dentro de este modelo afecta al número de desertores con un peso de -0,16285 (este es un grado de influencia pequeño). El signo “-” indica un impacto negativo: a mayor salario, menor renuncia. Lo cual es justo.



Análisis de correlación en Excel

El análisis de correlación ayuda a establecer si existe una relación entre los indicadores en una o dos muestras. Por ejemplo, entre el tiempo de funcionamiento de la máquina y el costo de las reparaciones, el precio del equipo y la duración de la operación, la altura y el peso de los niños, etc.

Si existe una relación, entonces si un aumento en un parámetro conduce a un aumento (correlación positiva) o una disminución (negativa) en el otro. El análisis de correlación ayuda al analista a determinar si el valor de un indicador puede predecir el posible valor de otro.

El coeficiente de correlación se denota r. Varía de +1 a -1. La clasificación de correlaciones para diferentes áreas será diferente. Cuando el valor del coeficiente es 0, no existe una relación lineal entre las muestras.

Considere cómo usar Excel para encontrar el coeficiente de correlación.

La función CORREL se utiliza para encontrar los coeficientes apareados.

Tarea: Determinar si existe una relación entre el tiempo de operación de un torno y el costo de su mantenimiento.

Coloque el cursor en cualquier celda y presione el botón fx.

  1. En la categoría "Estadística", seleccione la función CORREL.
  2. Argumento "Array 1" - el primer rango de valores - el tiempo de la máquina: A2: A14.
  3. Argumento "Array 2" - el segundo rango de valores - el costo de las reparaciones: B2:B14. Haga clic en Aceptar.

Para determinar el tipo de conexión, debe observar el número absoluto del coeficiente (cada campo de actividad tiene su propia escala).

Para el análisis de correlación de varios parámetros (más de 2), es más conveniente utilizar "Análisis de datos" (complemento "Paquete de análisis"). En la lista, debe seleccionar una correlación y designar una matriz. Todos.

Los coeficientes resultantes se mostrarán en la matriz de correlación. Como éste:

Análisis de correlación-regresión

En la práctica, estas dos técnicas a menudo se usan juntas.

Ejemplo:


Ahora los datos del análisis de regresión son visibles.

1. El término "regresión" fue introducido por primera vez por el fundador de la biometría F. Galton (siglo XIX), cuyas ideas fueron desarrolladas por su seguidor K. Pearson.

Análisis de regresión- un método de procesamiento estadístico de datos que le permite medir la relación entre una o más causas (signos factoriales) y una consecuencia (signo efectivo).

señal- esta es la principal característica distintiva, característica del fenómeno o proceso que se estudia.

signo efectivo - indicador investigado.

Signo de factores- un indicador que afecta el valor de la característica efectiva.

El propósito del análisis de regresión es evaluar la dependencia funcional del valor promedio de la característica efectiva ( a) de factorial ( x 1, x 2, ..., x norte), expresado como ecuaciones de regresión

a= F(x 1, x 2, ..., x norte). (6.1)

Hay dos tipos de regresión: pareada y múltiple.

Regresión pareada (simple)- ecuación de la forma:

a= F(X). (6.2)

La característica resultante en la regresión por pares se considera como una función de un argumento, es decir un factor

El análisis de regresión incluye los siguientes pasos:

definición del tipo de función;

determinación de coeficientes de regresión;

Cálculo de valores teóricos de la característica efectiva;

Comprobación de la significancia estadística de los coeficientes de regresión;

Comprobación de la significancia estadística de la ecuación de regresión.

Regresión múltiple- ecuación de la forma:

a= F(x 1, x 2, ..., x norte). (6.3)

La característica resultante se considera como una función de varios argumentos, es decir muchos factores.

2. Para determinar correctamente el tipo de función, es necesario encontrar la dirección de la conexión en base a datos teóricos.

Según la dirección de la conexión, la regresión se divide en:

· regresión directa, que surja bajo la condición de que con un aumento o disminución en el valor independiente " X" valores de la cantidad dependiente" a" también aumentar o disminuir en consecuencia;

· regresión inversa, surja bajo la condición de que con un aumento o disminución en el valor independiente "X" valor dependiente " a" disminuye o aumenta en consecuencia.

Para caracterizar las relaciones, se utilizan los siguientes tipos de ecuaciones de regresión pareadas:

· y=a+bxlineal;

· y=e ax + b – exponencial;

· y=a+b/x – hiperbólico;

· y=a+b 1 x+b 2 x 2 – parabólica;

· y=ab x – exponencial y etc.

dónde a, b 1 , b 2- coeficientes (parámetros) de la ecuación; a- signo efectivo; X- signo de factor.

3. La construcción de la ecuación de regresión se reduce a estimar sus coeficientes (parámetros), para ello utilizan método de mínimos cuadrados(MNK).

El método de mínimos cuadrados le permite obtener tales estimaciones de los parámetros, en los que la suma de las desviaciones al cuadrado de los valores reales de la característica efectiva " a»del teórico « y x» es mínimo, es decir

Opciones de ecuación de regresión y=a+bx por el método de mínimos cuadrados se estiman utilizando las fórmulas:

dónde a - coeficiente libre, b- coeficiente de regresión, muestra cuánto cambiará el signo resultante y» al cambiar el atributo del factor « X» por unidad de medida.

4. Para evaluar la significación estadística de los coeficientes de regresión, se utiliza la prueba t de Student.

Esquema para verificar la importancia de los coeficientes de regresión:

1) H0: un=0, b=0 - los coeficientes de regresión son insignificantemente diferentes de cero.

H1: a≠ 0, b≠ 0: los coeficientes de regresión son significativamente diferentes de cero.

2) R=0.05 – nivel de significancia.

dónde m b,ma- errores aleatorios:

; . (6.7)

4) mesa(R; F),

dónde F=n-k- 1 - número de grados de libertad (valor de tabla), norte- número de observaciones, k X".

5) Si , entonces se desvía, es decir coeficiente significativo.

Si , entonces se acepta, es decir coeficiente es insignificante.

5. Para verificar la corrección de la ecuación de regresión construida, se utiliza el criterio de Fisher.

Esquema para verificar el significado de la ecuación de regresión:

1) H 0: la ecuación de regresión no es significativa.

H 1: la ecuación de regresión es significativa.

2) R=0.05 – nivel de significancia.

3) , (6.8)

donde es el número de observaciones; k- el número de parámetros en la ecuación con variables " X"; a- el valor real de la característica efectiva; y x- el valor teórico de la característica efectiva; - coeficiente de correlación de pares.

4) mesa f(R; f1; f2),

dónde f 1 \u003d k, f 2 \u003d n-k-1- número de grados de libertad (valores de tabla).

5) Si F calc >F tabla, entonces la ecuación de regresión se elige correctamente y se puede aplicar en la práctica.

si un Cálculo de F , entonces la ecuación de regresión se elige incorrectamente.

6. El principal indicador que refleja la medida de la calidad del análisis de regresión es coeficiente de determinación (R 2).

Coeficiente de determinación muestra qué proporción de la variable dependiente " a» se tiene en cuenta en el análisis y es causado por la influencia de los factores incluidos en el análisis.

Coeficiente de determinación (R2) toma valores en el rango . La ecuación de regresión es cualitativa si R2 ≥0,8.

El coeficiente de determinación es igual al cuadrado del coeficiente de correlación, es decir

Ejemplo 6.1. Con base en los siguientes datos, construya y analice la ecuación de regresión:

Solución.

1) Calcular el coeficiente de correlación: . La relación entre los signos es directa y moderada.

2) Construya una ecuación de regresión lineal pareada.

2.1) Hacer una tabla de cálculo.

X a Hu x2 y x (a-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Suma 159,45 558,55
Promedio 77519,6 22,78 79,79 2990,6

,

Ecuación de regresión lineal pareada: y x \u003d 25.17 + 0.087x.

3) Encontrar valores teóricos" y x» sustituyendo los valores reales en la ecuación de regresión « X».

4) Trazar gráficos de reales " a" y valores teóricos" y x» característica efectiva (Figura 6.1): r xy =0.47) y un pequeño número de observaciones.

7) Calcular el coeficiente de determinación: R2=(0,47) 2 =0,22. La ecuación construida es de mala calidad.

Porque los cálculos durante el análisis de regresión son bastante voluminosos, se recomienda utilizar programas especiales ("Statistica 10", SPSS, etc.).

La figura 6.2 muestra una tabla con los resultados del análisis de regresión realizado con el programa "Statistica 10".

Figura 6.2. Los resultados del análisis de regresión realizado con el programa "Statistica 10"

5. Literatura:

1. Gmurman V. E. Teoría de la Probabilidad y Estadística Matemática: Proc. manual para universidades / V.E. Gmurman. - M.: Escuela superior, 2003. - 479 p.

2. Koichubekov B.K. Bioestadística: libro de texto. - Almatý: Evero, 2014. - 154 p.

3. Lobotskaya N. L. Matemáticas avanzadas. / N. L. Lobotskaya, Yu.V. Morozov, A.A. Dunaev. - Minsk: Escuela Superior, 1987. - 319 p.

4. Medic V.A., Tokmachev M.S., Fishman B.B. Estadísticas en Medicina y Biología: Una Guía. En 2 tomos / Ed. Yu.M. Komarov. T. 1. Estadística teórica. - M.: Medicina, 2000. - 412 p.

5. Aplicación de métodos de análisis estadístico para el estudio de la salud pública y la atención sanitaria: libro de texto / ed. Kucherenko V. Z. - 4ª ed., revisada. y adicional - M.: GEOTAR - Medios, 2011. - 256 p.