Análise de regressão. Análise de regressão

A análise de regressão examina a dependência de uma certa quantidade em outra quantidade ou várias outras quantidades. A análise de regressão é usada principalmente na previsão de médio prazo, bem como na previsão de longo prazo. Os prazos de médio e longo prazo permitem estabelecer mudanças no ambiente de negócios e levar em conta o impacto dessas mudanças no indicador em estudo.

Para realizar a análise de regressão, é necessário:

    disponibilidade de dados anuais sobre os indicadores estudados,

    disponibilidade de previsões únicas, ou seja, previsões que não melhoram com novos dados.

A análise de regressão geralmente é realizada para objetos de natureza complexa e multifatorial, como volume de investimentos, lucros, volumes de vendas, etc.

No método de previsão normativa determinam-se as formas e os termos de alcançar os estados possíveis do fenômeno, tomados como meta. Estamos falando de prever a realização de estados desejados do fenômeno com base em normas, ideais, incentivos e objetivos predeterminados. Tal previsão responde à pergunta: de que maneiras o desejado pode ser alcançado? O método normativo é mais usado para previsões programáticas ou direcionadas. Tanto uma expressão quantitativa do padrão quanto uma certa escala das possibilidades da função de avaliação são usadas.

No caso de se utilizar uma expressão quantitativa, por exemplo, normas fisiológicas e racionais para o consumo de determinados produtos alimentícios e não alimentícios desenvolvidos por especialistas para diversos grupos da população, é possível determinar o nível de consumo desses bens para os anos anteriores ao cumprimento da norma especificada. Esses cálculos são chamados de interpolação. A interpolação é uma forma de calcular indicadores que estão faltando na série temporal de um fenômeno, com base em uma relação estabelecida. Tomando o valor real do indicador e o valor de seus padrões como membros extremos da série dinâmica, é possível determinar a magnitude dos valores dentro dessa série. Portanto, a interpolação é considerada um método normativo. A fórmula (4) dada anteriormente, usada na extrapolação, pode ser usada na interpolação, onde y n não mais caracterizará os dados reais, mas o padrão do indicador.

No caso de se utilizar uma escala (campo, espectro) das possibilidades da função de avaliação, ou seja, a função de distribuição de preferências, no método normativo, indica-se aproximadamente a seguinte gradação: indesejável - menos desejável - mais desejável - mais desejável - ideal (padrão).

O método de previsão normativa ajuda a desenvolver recomendações para aumentar o nível de objetividade e, portanto, a eficácia das decisões.

Modelagem, talvez o método de previsão mais difícil. Modelagem matemática significa a descrição de um fenômeno econômico por meio de fórmulas matemáticas, equações e desigualdades. O aparato matemático deve refletir com precisão o plano de fundo da previsão, embora seja bastante difícil refletir totalmente toda a profundidade e complexidade do objeto previsto. O termo "modelo" é derivado da palavra latina modelus, que significa "medida". Portanto, seria mais correto considerar a modelagem não como um método de previsão, mas como um método para estudar um fenômeno semelhante em um modelo.

Em sentido amplo, os modelos são chamados de substitutos do objeto de estudo, que estão em tal semelhança com ele que permitem obter novos conhecimentos sobre o objeto. O modelo deve ser considerado como uma descrição matemática do objeto. Nesse caso, o modelo é definido como um fenômeno (sujeito, instalação) que está em alguma correspondência com o objeto em estudo e pode substituí-lo no processo de pesquisa, apresentando informações sobre o objeto.

Com uma compreensão mais estreita do modelo, ele é considerado como um objeto de previsão, seu estudo permite obter informações sobre os possíveis estados do objeto no futuro e formas de alcançar esses estados. Nesse caso, o objetivo do modelo preditivo é obter informações não sobre o objeto em geral, mas apenas sobre seus estados futuros. Então, ao construir um modelo, pode ser impossível verificar diretamente sua correspondência com o objeto, pois o modelo representa apenas seu estado futuro, e o próprio objeto pode estar ausente ou ter uma existência diferente.

Os modelos podem ser materiais e ideais.

Modelos ideais são usados ​​em economia. O modelo ideal mais perfeito para uma descrição quantitativa de um fenômeno socioeconômico (econômico) é um modelo matemático que utiliza números, fórmulas, equações, algoritmos ou uma representação gráfica. Com a ajuda de modelos econômicos, determine:

    a relação entre vários indicadores econômicos;

    vários tipos de restrições impostas aos indicadores;

    critérios para otimizar o processo.

Uma descrição significativa de um objeto pode ser representada na forma de seu esquema formalizado, que indica quais parâmetros e informações iniciais devem ser coletadas para calcular os valores desejados. Um modelo matemático, ao contrário de um esquema formalizado, contém dados numéricos específicos que caracterizam um objeto. O desenvolvimento de um modelo matemático depende em grande parte da ideia do prognosticador sobre a essência do processo que está sendo modelado. Com base em suas ideias, ele apresenta uma hipótese de trabalho, com a qual é criado um registro analítico do modelo na forma de fórmulas, equações e desigualdades. Como resultado da resolução do sistema de equações, são obtidos parâmetros específicos da função, que descrevem a mudança nas variáveis ​​desejadas ao longo do tempo.

A ordem e a sequência do trabalho como elemento da organização da previsão é determinada dependendo do método de previsão utilizado. Normalmente este trabalho é realizado em várias etapas.

Fase 1 - retrospecção preditiva, ou seja, o estabelecimento do objeto da previsão e do background da previsão. O trabalho na primeira fase é realizado na seguinte sequência:

    formação de uma descrição de um objeto no passado, que inclui uma análise pré-previsão do objeto, uma avaliação de seus parâmetros, seu significado e relações mútuas,

    identificação e avaliação de fontes de informação, procedimento e organização do trabalho com elas, coleta e colocação de informação retrospectiva;

    estabelecimento de objetivos de pesquisa.

Executando as tarefas de retrospecção preditiva, os previsores estudam a história do desenvolvimento do objeto e os antecedentes da previsão para obter sua descrição sistemática.

Fase 2 - diagnóstico preditivo, durante o qual se estuda a descrição sistemática do objeto de previsão e o background da previsão, a fim de identificar tendências no seu desenvolvimento e selecionar modelos e métodos de previsão. O trabalho é realizado na seguinte sequência:

    desenvolvimento de um modelo de objeto de previsão, incluindo uma descrição formalizada do objeto, verificando o grau de adequação do modelo ao objeto;

    seleção de métodos de previsão (principais e auxiliares), desenvolvimento de algoritmo e programas de trabalho.

3ª etapa - mecenato, ou seja, o processo de desenvolvimento extensivo da previsão, incluindo: 1) cálculo dos parâmetros previstos para um determinado lead period; 2) síntese de componentes individuais da previsão.

4ª etapa - avaliação da previsão, incluindo sua verificação, ou seja, determinação do grau de confiabilidade, precisão e validade.

No decorrer da prospecção e avaliação, as tarefas de previsão e sua avaliação são resolvidas com base nas etapas anteriores.

A fase indicada é aproximada e depende do método principal de previsão.

Os resultados da previsão são elaborados na forma de certificado, relatório ou outro material e são apresentados ao cliente.

Na previsão, o desvio da previsão do estado real do objeto pode ser indicado, o que é chamado de erro de previsão, calculado pela fórmula:

;
;
. (9.3)

Fontes de erros na previsão

As principais fontes podem ser:

1. Transferência simples (extrapolação) de dados do passado para o futuro (por exemplo, a empresa não tem outras opções de previsão, exceto um aumento de 10% nas vendas).

2. A incapacidade de determinar com precisão a probabilidade de um evento e seu impacto no objeto em estudo.

3. Dificuldades imprevistas (eventos disruptivos) que afetam a implementação do plano, por exemplo, a demissão repentina do chefe do departamento de vendas.

Em geral, a precisão da previsão aumenta com o acúmulo de experiência em previsão e o desenvolvimento de seus métodos.

Análise de regressão

regressão (linear) análise- um método estatístico para estudar a influência de uma ou mais variáveis ​​independentes sobre uma variável dependente. As variáveis ​​independentes são também chamadas de regressores ou preditores, e as variáveis ​​dependentes são chamadas de critérios. Terminologia dependente e independente variáveis ​​reflete apenas a dependência matemática das variáveis ​​( veja Correlação espúria), em vez de uma relação causal.

Objetivos da análise de regressão

  1. Determinação do grau de determinismo da variação da variável critério (dependente) por preditores (variáveis ​​independentes)
  2. Previsão do valor da variável dependente usando a(s) variável(eis) independente(s)
  3. Determinação da contribuição de variáveis ​​independentes individuais para a variação da variável dependente

A análise de regressão não pode ser utilizada para determinar se existe relação entre as variáveis, pois a existência de tal relação é um pré-requisito para a aplicação da análise.

Definição matemática de regressão

A dependência estritamente regressiva pode ser definida como segue. Seja , variáveis ​​aleatórias com uma dada distribuição de probabilidade conjunta. Se para cada conjunto de valores for definida uma expectativa condicional

(equação de regressão geral),

então a função é chamada regressão Y valores por valores, e seu gráfico - linha de regressão por, ou equação de regressão.

A dependência de se manifesta na mudança nos valores médios de Y ao mudar . Embora para cada conjunto fixo de valores, a quantidade permanece uma variável aleatória com certa dispersão.

Para esclarecer a questão de com que precisão a análise de regressão estima a mudança em Y com uma mudança, o valor médio da variância de Y é usado para diferentes conjuntos de valores (na verdade, estamos falando da medida de dispersão do variável dependente em torno da linha de regressão).

Método dos mínimos quadrados (cálculo de coeficientes)

Na prática, a linha de regressão é mais frequentemente procurada na forma Função linear(regressão linear) que melhor se aproxima da curva desejada. Isso é feito usando o método dos mínimos quadrados, quando a soma dos desvios quadrados dos realmente observados de suas estimativas é minimizada (ou seja, estimativas usando uma linha reta que afirma representar a dependência de regressão desejada):

(M - tamanho da amostra). Essa abordagem é baseada em fato conhecido que a soma que aparece na expressão acima toma o valor mínimo precisamente para o caso em que .

Para resolver o problema da análise de regressão pelo método dos mínimos quadrados, o conceito é introduzido funções residuais:

A condição para o mínimo da função residual:

O sistema resultante é o sistema equações lineares com desconhecido

Se representarmos os termos livres do lado esquerdo das equações pela matriz

e os coeficientes das incógnitas no lado direito da matriz

então obtemos a equação matricial: , que é facilmente resolvida pelo método de Gauss. A matriz resultante será uma matriz contendo os coeficientes da equação da linha de regressão:

Para obter as melhores estimativas, é necessário cumprir os pré-requisitos do LSM (condições de Gauss-Markov). Na literatura inglesa, tais estimativas são chamadas de BLUE (Best Linear Unbiased Estimators) - as melhores estimativas lineares imparciais.

Interpretando Parâmetros de Regressão

Os parâmetros são coeficientes de correlação parcial; é interpretado como a proporção da variância de Y explicada fixando a influência dos preditores restantes, ou seja, mede a contribuição individual para a explicação de Y. No caso de preditores correlacionados, há um problema de incerteza nas estimativas , que se tornam dependentes da ordem em que os preditores são incluídos no modelo. Nesses casos, é necessário aplicar os métodos de análise de correlação e análise de regressão passo a passo.

Falando em modelos não lineares de análise de regressão, é importante prestar atenção se estamos falando de não linearidade em variáveis ​​independentes (do ponto de vista formal, facilmente reduzido a regressão linear), ou não linearidade em parâmetros estimados (causando sérias dificuldades computacionais). Com o primeiro tipo de não linearidade, do ponto de vista significativo, é importante destacar a aparência no modelo de membros da forma , , indicando a presença de interações entre características , etc. (veja Multicolinearidade).

Veja também

Links

  • www.kgafk.ru - Palestra sobre "Análise de Regressão"
  • www.basegroup.ru - métodos para selecionar variáveis ​​em modelos de regressão

Literatura

  • Norman Draper, Harry Smith Análise de regressão aplicada. Regressão múltipla= Análise de Regressão Aplicada. - 3ª edição. - M.: "Dialética", 2007. - S. 912. - ISBN 0-471-17082-8
  • Métodos Sustentáveis ​​para Estimativa de Modelos Estatísticos: Monografia. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radchenko Stanislav Grigorievich, Metodologia de Análise de Regressão: Monografia. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Fundação Wikimedia. 2010.

O que é regressão?

Considere duas variáveis ​​contínuas x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Vamos colocar os pontos em um gráfico de dispersão 2D e dizer que temos relação linear se os dados forem aproximados por uma linha reta.

Se assumirmos que y depende de x, e as mudanças y causados ​​por alterações x, podemos definir uma linha de regressão (regressão y no x), que melhor descreve a relação linear entre essas duas variáveis.

O uso estatístico da palavra "regressão" vem de um fenômeno conhecido como regressão à média, atribuído a Sir Francis Galton (1889).

Ele mostrou que, enquanto os pais altos tendem a ter filhos altos, a altura média dos filhos é menor do que a de seus pais altos. A altura média dos filhos "regrediu" e "retornou" à altura média de todos os pais da população. Assim, em média, os pais altos têm filhos mais baixos (mas ainda altos), e os pais baixos têm filhos mais altos (mas ainda bastante baixos).

linha de regressão

Equação matemática que avalia uma linha de regressão linear simples (em pares):

x chamado de variável independente ou preditor.

Sé a variável dependente ou de resposta. Este é o valor que esperamos para y(em média) se soubermos o valor x, ou seja é o valor previsto y»

  • uma- membro livre (travessia) da linha de avaliação; este valor S, quando x=0(Figura 1).
  • b- inclinação ou inclinação da linha estimada; é a quantidade pela qual S aumenta em média se aumentarmos x para uma unidade.
  • uma e b são chamados de coeficientes de regressão da linha estimada, embora esse termo seja frequentemente usado apenas para b.

A regressão linear em pares pode ser estendida para incluir mais de uma variável independente; neste caso é conhecido como regressão múltipla.

Figura 1. Linha de regressão linear mostrando a interseção de a e a inclinação b (a quantidade de aumento em Y quando x aumenta em uma unidade)

Método dos mínimos quadrados

Realizamos análise de regressão usando uma amostra de observações onde uma e b- estimativas amostrais dos parâmetros verdadeiros (gerais), α e β , que determinam a linha de regressão linear na população (população geral).

O método mais simples para determinar os coeficientes uma e bé método dos mínimos quadrados(MNK).

O ajuste é avaliado considerando os resíduos (a distância vertical de cada ponto da linha, por exemplo, residual = observável y- previsto y, Arroz. 2).

A linha de melhor ajuste é escolhida de modo que a soma dos quadrados dos resíduos seja mínima.

Arroz. 2. Linha de regressão linear com resíduos representados (linhas pontilhadas verticais) para cada ponto.

Suposições de regressão linear

Assim, para cada valor observado, o resíduo é igual à diferença e ao predito correspondente, cada resíduo pode ser positivo ou negativo.

Você pode usar resíduos para testar as seguintes suposições por trás da regressão linear:

  • Os resíduos são normalmente distribuídos com média zero;

Se as suposições de linearidade, normalidade e/ou variância constante forem questionáveis, podemos transformar ou e calcular uma nova linha de regressão para a qual essas suposições sejam satisfeitas (por exemplo, usar uma transformação logarítmica, etc.).

Valores anormais (outliers) e pontos de influência

Uma observação "influente", se omitida, altera uma ou mais estimativas de parâmetros do modelo (ou seja, inclinação ou interceptação).

Um outlier (uma observação que contradiz a maioria dos valores no conjunto de dados) pode ser uma observação "influente" e pode ser bem detectada visualmente ao olhar para um gráfico de dispersão 2D ou um gráfico de resíduos.

Tanto para outliers quanto para observações "influentes" (pontos), são usados ​​modelos, tanto com sua inclusão quanto sem eles, preste atenção à mudança na estimativa (coeficientes de regressão).

Ao fazer uma análise, não descarte automaticamente outliers ou pontos de influência, pois simplesmente ignorá-los pode afetar os resultados. Sempre estude as causas desses outliers e analise-os.

Hipótese de regressão linear

Ao construir uma regressão linear, verifica-se a hipótese nula de que a inclinação geral da linha de regressão β é igual a zero.

Se a inclinação da linha for zero, não há relação linear entre e: a mudança não afeta

Para testar a hipótese nula de que a inclinação verdadeira é zero, você pode usar o seguinte algoritmo:

Calcule a estatística de teste igual à razão , que obedece a uma distribuição com graus de liberdade, onde o erro padrão do coeficiente


,

- estimativa da variância dos resíduos.

Normalmente, se o nível de significância alcançado for a hipótese nula é rejeitada.


onde é o ponto percentual da distribuição com graus de liberdade que dá a probabilidade de um teste bicaudal

Este é o intervalo que contém a inclinação geral com uma probabilidade de 95%.

Para amostras grandes, digamos que podemos aproximar com um valor de 1,96 (ou seja, a estatística de teste tenderá a ser normalmente distribuída)

Avaliação da qualidade da regressão linear: coeficiente de determinação R 2

Por causa da relação linear e esperamos que mude conforme as mudanças , e chamamos isso de variação que é devido ou explicada pela regressão. A variação residual deve ser a menor possível.

Se sim, então a maior parte da variação será explicada pela regressão, e os pontos ficarão próximos à linha de regressão, ou seja, a linha se ajusta bem aos dados.

A proporção da variância total que é explicada pela regressão é chamada coeficiente de determinação, geralmente expresso em porcentagem e denotado R2(na regressão linear pareada, este é o valor r2, o quadrado do coeficiente de correlação), permite avaliar subjetivamente a qualidade da equação de regressão.

A diferença é a porcentagem de variância que não pode ser explicada pela regressão.

Sem nenhum teste formal para avaliar, somos forçados a confiar no julgamento subjetivo para determinar a qualidade do ajuste da linha de regressão.

Aplicando uma linha de regressão a uma previsão

Você pode usar uma linha de regressão para prever um valor a partir de um valor dentro do intervalo observado (nunca extrapole além desses limites).

Prevemos a média para observáveis ​​que têm um determinado valor substituindo esse valor na equação da linha de regressão.

Assim, se predizendo como Usamos esse valor previsto e seu erro padrão para estimar o intervalo de confiança para a verdadeira média populacional.

Repetir este procedimento para valores diferentes permite construir limites de confiança para esta linha. Esta é uma faixa ou área que contém uma linha verdadeira, por exemplo, com um nível de confiança de 95%.

Planos de regressão simples

Projetos de regressão simples contêm um preditor contínuo. Se houver 3 casos com valores preditores P , como 7, 4 e 9, e o projeto incluir um efeito de primeira ordem P , então a matriz de projeto X será

e a equação de regressão usando P para X1 parece

Y = b0 + b1 P

Se um projeto de regressão simples contiver um efeito de ordem superior em P , como um efeito quadrático, os valores na coluna X1 na matriz de projeto serão elevados à segunda potência:

e a equação terá a forma

Y = b0 + b1 P2

Os métodos de codificação com restrição de Sigma e superparametrizados não se aplicam a projetos de regressão simples e outros projetos contendo apenas preditores contínuos (porque simplesmente não há preditores categóricos). Independentemente do método de codificação escolhido, os valores das variáveis ​​contínuas são incrementados pela potência apropriada e utilizados como valores para as variáveis ​​X. Nesse caso, nenhuma conversão é executada. Além disso, ao descrever os planos de regressão, você pode omitir a consideração da matriz do plano X e trabalhar apenas com a equação de regressão.

Exemplo: Análise de Regressão Simples

Este exemplo usa os dados fornecidos na tabela:

Arroz. 3. Tabela de dados iniciais.

Os dados são baseados em uma comparação dos censos de 1960 e 1970 em 30 municípios selecionados aleatoriamente. Os nomes dos condados são representados como nomes de observação. As informações sobre cada variável são apresentadas a seguir:

Arroz. 4. Tabela de especificação variável.

Objetivo da pesquisa

Para este exemplo, será analisada a correlação entre a taxa de pobreza e o poder que prediz o percentual de famílias que estão abaixo da linha de pobreza. Portanto, trataremos a variável 3 (Pt_Poor ) como uma variável dependente.

Pode-se levantar uma hipótese: a mudança na população e o percentual de famílias que estão abaixo da linha da pobreza estão relacionados. Parece razoável esperar que a pobreza leve a uma saída de população, portanto, haveria uma correlação negativa entre a porcentagem de pessoas abaixo da linha de pobreza e a mudança populacional. Portanto, trataremos a variável 1 (Pop_Chng ) como uma variável preditora.

Ver resultados

Coeficientes de regressão

Arroz. 5. Coeficientes de regressão Pt_Poor em Pop_Chng.

Na interseção da linha Pop_Chng e Param. o coeficiente não padronizado para a regressão de Pt_Poor em Pop_Chng é -0,40374 . Isso significa que para cada unidade de redução na população, há um aumento na taxa de pobreza de 0,40374. Os limites de confiança superior e inferior (padrão) de 95% para este coeficiente não padronizado não incluem zero, portanto, o coeficiente de regressão é significativo no nível p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribuição de variáveis

Os coeficientes de correlação podem se tornar significativamente superestimados ou subestimados se houver grandes discrepâncias nos dados. Vamos examinar a distribuição da variável dependente Pt_Pobre por município. Para isso, vamos construir um histograma da variável Pt_Poor.

Arroz. 6. Histograma da variável Pt_Poor.

Como você pode ver, a distribuição dessa variável difere marcadamente da distribuição normal. No entanto, embora mesmo dois municípios (as duas colunas à direita) tenham uma porcentagem maior de famílias que estão abaixo da linha de pobreza do que o esperado em uma distribuição normal, eles parecem estar "dentro da faixa".

Arroz. 7. Histograma da variável Pt_Poor.

Este julgamento é um pouco subjetivo. A regra geral é que os valores discrepantes devem ser levados em consideração se uma observação (ou observações) não estiver dentro do intervalo (média ± 3 vezes o desvio padrão). Nesse caso, vale a pena repetir a análise com e sem outliers para garantir que eles não tenham um efeito sério na correlação entre os membros da população.

Gráfico de dispersão

Se uma das hipóteses é a priori sobre a relação entre as variáveis ​​dadas, então é útil verificá-la no gráfico do gráfico de dispersão correspondente.

Arroz. 8. Gráfico de dispersão.

O gráfico de dispersão mostra uma clara correlação negativa (-0,65) entre as duas variáveis. Também mostra o intervalo de confiança de 95% para a linha de regressão, ou seja, com 95% de probabilidade a linha de regressão passa entre as duas curvas tracejadas.

Critérios de significância

Arroz. 9. Tabela contendo os critérios de significância.

O teste para o coeficiente de regressão Pop_Chng confirma que Pop_Chng está fortemente relacionado com Pt_Poor , p<.001 .

Resultado

Este exemplo mostrou como analisar um plano de regressão simples. Também foi apresentada uma interpretação dos coeficientes de regressão não padronizados e padronizados. Discute-se a importância de estudar a distribuição da resposta da variável dependente e demonstra-se uma técnica para determinar a direção e a força da relação entre o preditor e a variável dependente.

Análise de regressão e correlação - métodos de pesquisa estatística. Essas são as formas mais comuns de mostrar a dependência de um parâmetro em uma ou mais variáveis ​​independentes.

Abaixo, usando exemplos práticos concretos, consideraremos essas duas análises muito populares entre os economistas. Daremos também um exemplo de obtenção de resultados quando combinados.

Análise de regressão no Excel

Mostra a influência de alguns valores (independente, independente) na variável dependente. Por exemplo, como o número de população economicamente ativa depende do número de empresas, salários e outros parâmetros. Ou: como os investimentos estrangeiros, os preços da energia etc. afetam o nível do PIB.

O resultado da análise permite priorizar. E com base nos principais fatores, prever, planejar o desenvolvimento de áreas prioritárias, tomar decisões de gestão.

A regressão acontece:

  • linear (y = a + bx);
  • parabólico (y = a + bx + cx 2);
  • exponencial (y = a * exp(bx));
  • potência (y = a*x^b);
  • hiperbólico (y = b/x + a);
  • logarítmico (y = b * 1n(x) + a);
  • exponencial (y = a * b^x).

Considere o exemplo de construir um modelo de regressão no Excel e interpretar os resultados. Vamos pegar um tipo linear de regressão.

Uma tarefa. Em 6 empresas, foram analisados ​​o salário médio mensal e o número de funcionários que saíram. É necessário determinar a dependência do número de funcionários aposentados do salário médio.

O modelo de regressão linear tem a seguinte forma:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Onde a são os coeficientes de regressão, x são as variáveis ​​que influenciam ek é o número de fatores.

Em nosso exemplo, Y é o indicador de demissão de trabalhadores. O fator que influencia é o salário (x).

O Excel possui funções internas que podem ser usadas para calcular os parâmetros de um modelo de regressão linear. Mas o suplemento Analysis ToolPak fará isso mais rápido.

Ative uma poderosa ferramenta analítica:

Uma vez ativado, o complemento estará disponível na guia Dados.

Agora vamos lidar diretamente com a análise de regressão.



Em primeiro lugar, prestamos atenção ao quadrado R e aos coeficientes.

R-quadrado é o coeficiente de determinação. Em nosso exemplo, é 0,755, ou 75,5%. Isso significa que os parâmetros calculados do modelo explicam em 75,5% a relação entre os parâmetros estudados. Quanto maior o coeficiente de determinação, melhor o modelo. Bom - acima de 0,8. Pobre - menos de 0,5 (tal análise dificilmente pode ser considerada razoável). Em nosso exemplo - "não é ruim".

O coeficiente 64,1428 mostra qual será Y se todas as variáveis ​​do modelo considerado forem iguais a 0. Ou seja, outros fatores não descritos no modelo também afetam o valor do parâmetro analisado.

O coeficiente -0,16285 mostra o peso da variável X sobre Y. Ou seja, o salário médio mensal dentro deste modelo afeta o número de desistentes com um peso de -0,16285 (este é um pequeno grau de influência). O sinal “-” indica um impacto negativo: quanto maior o salário, menor a desistência. O que é justo.



Análise de correlação no Excel

A análise de correlação ajuda a estabelecer se existe uma relação entre os indicadores em uma ou duas amostras. Por exemplo, entre o tempo de operação da máquina e o custo dos reparos, o preço do equipamento e a duração da operação, a altura e o peso das crianças, etc.

Se houver uma relação, então se um aumento em um parâmetro leva a um aumento (correlação positiva) ou a uma diminuição (negativa) no outro. A análise de correlação ajuda o analista a determinar se o valor de um indicador pode prever o possível valor de outro.

O coeficiente de correlação é denotado r. Varia de +1 a -1. A classificação das correlações para diferentes áreas será diferente. Quando o valor do coeficiente é 0, não há relação linear entre as amostras.

Considere como usar o Excel para encontrar o coeficiente de correlação.

A função CORREL é usada para encontrar os coeficientes emparelhados.

Tarefa: Determinar se existe relação entre o tempo de operação de um torno e o custo de sua manutenção.

Coloque o cursor em qualquer célula e pressione o botão fx.

  1. Na categoria "Estatístico", selecione a função CORREL.
  2. Argumento "Array 1" - o primeiro intervalo de valores - o tempo da máquina: A2: A14.
  3. Argumento "Array 2" - o segundo intervalo de valores - o custo dos reparos: B2:B14. Clique OK.

Para determinar o tipo de conexão, você precisa observar o número absoluto do coeficiente (cada campo de atividade tem sua própria escala).

Para análise de correlação de vários parâmetros (mais de 2), é mais conveniente usar "Análise de Dados" (complemento "Pacote de Análise"). Na lista, você precisa selecionar uma correlação e designar uma matriz. Tudo.

Os coeficientes resultantes serão exibidos na matriz de correlação. Como este:

Análise de correlação-regressão

Na prática, essas duas técnicas são frequentemente usadas em conjunto.

Exemplo:


Agora os dados da análise de regressão estão visíveis.

1. Pela primeira vez o termo "regressão" foi introduzido pelo fundador da biometria F. Galton (século XIX), cujas idéias foram desenvolvidas por seu seguidor K. Pearson.

Análise de regressão- um método de processamento de dados estatísticos que permite medir a relação entre uma ou mais causas (sinais fatoriais) e uma consequência (sinal efetivo).

sinal- esta é a principal característica distintiva, característica do fenômeno ou processo que está sendo estudado.

Sinal eficaz - indicador investigado.

Sinal de fator- um indicador que afeta o valor do recurso efetivo.

O objetivo da análise de regressão é avaliar a dependência funcional do valor médio do recurso efetivo ( no) de fatorial ( x 1, x 2, ..., x n), Expresso como equações de regressão

no= f(x 1, x 2, ..., x n). (6.1)

Existem dois tipos de regressão: pareada e múltipla.

Regressão pareada (simples)- equação da forma:

no= f(x). (6.2)

O recurso resultante na regressão de pares é considerado como uma função de um argumento, ou seja, um fator.

A análise de regressão inclui as seguintes etapas:

definição do tipo de função;

determinação de coeficientes de regressão;

Cálculo de valores teóricos do recurso efetivo;

Verificação da significância estatística dos coeficientes de regressão;

Verificação da significância estatística da equação de regressão.

Regressão múltipla- equação da forma:

no= f(x 1, x 2, ..., x n). (6.3)

A característica resultante é considerada em função de vários argumentos, ou seja, muitos fatores.

2. Para determinar corretamente o tipo de função, é necessário encontrar a direção da conexão com base em dados teóricos.

De acordo com a direção da conexão, a regressão é dividida em:

· regressão direta, surgindo sob a condição de que com um aumento ou diminuição do valor independente " X" valores da quantidade dependente " no" também aumentar ou diminuir em conformidade;

· regressão reversa, surgindo sob a condição de que com um aumento ou diminuição do valor independente "X" valor dependente " no" diminui ou aumenta de acordo.

Para caracterizar as relações, são usados ​​os seguintes tipos de equações de regressão pareadas:

· y=a+bxlinear;

· y=e ax + b – exponencial;

· y=a+b/x – hiperbólico;

· y=a+b 1 x+b 2 x 2 – parabólica;

· y=ab x – exponencial e etc

Onde a, b1, b2- coeficientes (parâmetros) da equação; no- sinal eficaz; X- sinal do fator.

3. A construção da equação de regressão se reduz a estimar seus coeficientes (parâmetros), para isso utilizam método dos mínimos quadrados(MNK).

O método dos mínimos quadrados permite obter tais estimativas dos parâmetros, em que a soma dos desvios quadrados dos valores reais do recurso efetivo " no»da teoria « x x» é mínimo, ou seja

Opções de equação de regressão y=a+bx pelo método dos mínimos quadrados são estimados usando as fórmulas:

Onde uma - coeficiente livre, b- coeficiente de regressão, mostra o quanto o sinal resultante mudará y» ao alterar o atributo do fator « x» por unidade de medida.

4. Para avaliar a significância estatística dos coeficientes de regressão, é utilizado o teste t de Student.

Esquema para verificar a significância dos coeficientes de regressão:

1) H 0: a=0, b=0 - os coeficientes de regressão são insignificantemente diferentes de zero.

H 1: a≠ 0, b≠ 0 - os coeficientes de regressão são significativamente diferentes de zero.

2) R=0,05 – nível de significância.

Onde m b,m a- erros aleatórios:

; . (6.7)

4) mesa t(R; f),

Onde f=n-k- 1 - número de graus de liberdade (valor da tabela), n- número de observações, k X".

5) Se , então se desvia, ou seja. coeficiente significativo.

Se , então é aceito, ou seja. coeficiente é insignificante.

5. Para verificar a correção da equação de regressão construída, utiliza-se o critério de Fisher.

Esquema para verificar a significância da equação de regressão:

1) H 0: a equação de regressão não é significativa.

H 1: a equação de regressão é significativa.

2) R=0,05 – nível de significância.

3) , (6.8)

onde é o número de observações; k- o número de parâmetros na equação com variáveis ​​" X"; no- o valor real do recurso efetivo; x x- o valor teórico do recurso efetivo; - coeficiente de correlação de pares.

4) mesa F(R; f1; f2),

Onde f 1 \u003d k, f 2 \u003d n-k-1- número de graus de liberdade (valores da tabela).

5) Se F calc >F tabela, então a equação de regressão é escolhida corretamente e pode ser aplicada na prática.

Se um Cálculo F , então a equação de regressão é escolhida incorretamente.

6. O principal indicador que reflete a medida da qualidade da análise de regressão é coeficiente de determinação (R ​​2).

Coeficiente de determinação mostra qual proporção da variável dependente " no» é levado em consideração na análise e é causado pela influência dos fatores incluídos na análise.

Coeficiente de determinação (R2) assume valores no intervalo . A equação de regressão é qualitativa se R2 ≥0,8.

O coeficiente de determinação é igual ao quadrado do coeficiente de correlação, ou seja

Exemplo 6.1. Com base nos dados a seguir, construa e analise a equação de regressão:

Solução.

1) Calcule o coeficiente de correlação: . A relação entre os signos é direta e moderada.

2) Construa uma equação de regressão linear pareada.

2.1) Faça uma tabela de cálculo.

X no Hu x 2 x x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Soma 159,45 558,55
Média 77519,6 22,78 79,79 2990,6

,

Equação de regressão linear pareada: y x \u003d 25,17 + 0,087x.

3) Encontre valores teóricos" x x» substituindo valores reais na equação de regressão « X».

4) Plote gráficos de " no" e valores teóricos" x x» característica efetiva (Figura 6.1): r xy =0,47) e um pequeno número de observações.

7) Calcule o coeficiente de determinação: R2=(0,47) 2 =0,22. A equação construída é de má qualidade.

Porque os cálculos durante a análise de regressão são bastante volumosos, recomenda-se o uso de programas especiais ("Statistica 10", SPSS, etc.).

A Figura 6.2 mostra uma tabela com os resultados da análise de regressão realizada com o programa "Statistica 10".

Figura 6.2. Os resultados da análise de regressão realizada usando o programa "Statistica 10"

5. Literatura:

1. Gmurman V.E. Teoria das Probabilidades e Estatística Matemática: Proc. manual para universidades / V.E. Gmurman. - M.: Escola superior, 2003. - 479 p.

2. Koichubekov B.K. Bioestatística: livro didático. - Almaty: Evero, 2014. - 154 p.

3. Lobotskaya N.L. Matemática Superior. / N. L. Lobotskaya, Yu. V. Morozov, A. A. Dunaev. - Minsk: Escola Superior, 1987. - 319 p.

4. Medic V.A., Tokmachev M.S., Fishman B.B. Estatística em Medicina e Biologia: Um Guia. Em 2 volumes / Ed. Yu.M. Komarov. T. 1. Estatística teórica. - M.: Medicina, 2000. - 412 p.

5. Aplicação de métodos de análise estatística para o estudo da saúde pública e dos cuidados de saúde: livro texto/ed. Kucherenko V.Z. - 4ª ed., revisada. e adicional - M.: GEOTAR - Mídia, 2011. - 256 p.