Dados para regressão. Fundamentos de analise de dados

Como resultado do estudo do material do capítulo 4, o aluno deverá:

conhecer

  • conceitos básicos de análise de regressão;
  • métodos de estimação e propriedades de estimativas do método dos mínimos quadrados;
  • regras básicas para teste de significância e estimativa de intervalo da equação e coeficientes de regressão;

ser capaz de

  • encontrar estimativas dos parâmetros de modelos bidimensionais e múltiplos de equações de regressão a partir de dados amostrais, analisar suas propriedades;
  • verificar a significância da equação e os coeficientes de regressão;
  • encontrar estimativas de intervalo de parâmetros significativos;

ter

  • as habilidades de estimação estatística dos parâmetros das equações de regressão bidimensional e múltipla; habilidades para verificar a adequação dos modelos de regressão;
  • habilidades na obtenção de uma equação de regressão com todos os coeficientes significativos usando software analítico.

Conceitos Básicos

Após a realização de uma análise de correlação, quando identificada a presença de relações estatisticamente significativas entre as variáveis ​​e avaliado o grau de sua estanqueidade, geralmente procede-se a uma descrição matemática do tipo de dependência usando métodos de análise de regressão. Para isso, é selecionada uma classe de funções que vincula o indicador efetivo no e argumentos„ calculam estimativas dos parâmetros da equação de restrição e analisam a precisão da equação resultante .

Função| descrevendo a dependência do valor médio condicional do recurso efetivo no dos valores dados dos argumentos, é chamado equação de regressão.

O termo "regressão" (do lat. regressão- recuar, voltar a alguma coisa) foi introduzido pelo psicólogo e antropólogo inglês F. Galton e está associado a um de seus primeiros exemplos, no qual Galton, processando dados estatísticos relacionados à questão da hereditariedade do crescimento, descobriu que se a altura de os pais se desviam da altura média de todos os pais X polegadas, então a altura de seus filhos se desvia da altura média de todos os filhos em menos de x polegadas A tendência identificada foi denominada Regressão à média.

O termo "regressão" é amplamente utilizado na literatura estatística, embora em muitos casos não caracterize com precisão a dependência estatística.

Para uma descrição precisa da equação de regressão, é necessário conhecer a lei condicional de distribuição do indicador efetivo sim Na prática estatística, geralmente é impossível obter tais informações, portanto, elas se limitam a encontrar aproximações adequadas para a função f(x você X 2, .... l *), com base em uma análise preliminar significativa do fenômeno ou nos dados estatísticos originais.

No quadro de pressupostos de modelos individuais sobre o tipo de distribuição do vetor de indicadores<) может быть получен общий вид equações de regressão, Onde. Por exemplo, sob a suposição de que o conjunto de indicadores estudado obedece à lei de distribuição normal ()-dimensional com o vetor de expectativas matemáticas

Onde, e pela matriz de covariância,

onde está a variação sim,

A equação de regressão (expectativa condicional) tem a forma

Assim, se uma variável aleatória multivariada ()

obedece à lei de distribuição normal ()-dimensional, então a equação de regressão do indicador efetivo no em variáveis ​​explicativas tem linear em X Visão.

No entanto, na prática estatística, geralmente temos que nos limitar a encontrar aproximações adequadas para a função de regressão verdadeira desconhecida f(x), uma vez que o pesquisador não tem conhecimento exato da lei condicional da distribuição de probabilidade do indicador de desempenho analisado no para os valores dados dos argumentos X.

Considere a relação entre estimativas verdadeiras, de modelo e de regressão. Deixe o indicador de desempenho no associado ao argumento X Razão

onde é uma variável aleatória com uma lei de distribuição normal, além disso. A verdadeira função de regressão neste caso é

Suponha que não conhecemos a forma exata da equação de regressão verdadeira, mas temos nove observações sobre uma variável aleatória bidimensional relacionada pelas relações mostradas na Fig. 4.1.

Arroz. 4.1. A posição relativa do verdadeirof(x) e teóricouaumodelos de regressão

Localização dos pontos na fig. 4.1 nos permite limitar-nos à classe de dependências lineares da forma

Usando o método dos mínimos quadrados, encontramos uma estimativa para a equação de regressão.

Para comparação, na Fig. 4.1 mostra gráficos da função de regressão verdadeira e da função de regressão de aproximação teórica. A estimativa da equação de regressão converge em probabilidade para o último uau com um aumento ilimitado no tamanho da amostra ().

Como escolhemos erroneamente uma função de regressão linear em vez de uma função de regressão verdadeira, o que, infelizmente, é bastante comum na prática da pesquisa estatística, nossas conclusões e estimativas estatísticas não terão a propriedade de consistência, ou seja, não importa o quanto aumentemos o volume de observações, nossa estimativa amostral não convergirá para a função de regressão verdadeira

Se tivéssemos escolhido a classe de funções de regressão corretamente, então a imprecisão na descrição usando uau seria explicado apenas pela limitação da amostra e, portanto, poderia ser arbitrariamente pequeno com

Para restaurar melhor o valor condicional do indicador efetivo e a função de regressão desconhecida dos dados estatísticos iniciais, os seguintes são mais frequentemente usados: critérios de adequação funções de perda.

1. Método dos mínimos quadrados, segundo o qual o desvio quadrado dos valores observados do indicador efetivo, , dos valores do modelo é minimizado, onde os coeficientes da equação de regressão; são os valores do vetor de argumentos em "-M observação :

O problema de encontrar uma estimativa do vetor está sendo resolvido. A regressão resultante é chamada quadrado médio.

2. Método de menos módulos, segundo o qual a soma dos desvios absolutos dos valores observados do indicador efetivo dos valores modulares é minimizada, ou seja,

A regressão resultante é chamada significar absoluto(mediana).

3. método minimaxé reduzido a minimizar o módulo de desvio máximo do valor observado do indicador efetivo sim, do valor do modelo, ou seja,

A regressão resultante é chamada minimax.

Em aplicações práticas, muitas vezes há problemas em que a variável aleatória é estudada sim, dependendo de algum conjunto de variáveis ​​e parâmetros desconhecidos. Vamos considerar () como (k+ 1) população geral dimensional, da qual uma amostra aleatória de volume P, onde () é o resultado da observação /-th,. É necessário estimar parâmetros desconhecidos com base nos resultados das observações. A tarefa descrita acima refere-se às tarefas de análise de regressão.

análise de regressão chamar o método de análise estatística da dependência de uma variável aleatória no em variáveis ​​consideradas na análise de regressão como variáveis ​​não aleatórias, independentemente da verdadeira lei de distribuição

RESULTADOS

Tabela 8.3a. Estatísticas de regressão
Estatísticas de regressão
R múltiplo 0,998364
R-quadrado 0,99673
Quadrado R normalizado 0,996321
erro padrão 0,42405
Observações 10

Vejamos primeiro a parte superior dos cálculos apresentados na Tabela 8.3a, as estatísticas de regressão.

O valor R-quadrado, também chamado de medida de certeza, caracteriza a qualidade da linha de regressão resultante. Essa qualidade é expressa pelo grau de correspondência entre os dados originais e o modelo de regressão (dados calculados). A medida de certeza está sempre dentro do intervalo.

Na maioria dos casos, o valor R-quadrado está entre esses valores, chamados extremos, ou seja, entre zero e um.

Se o valor do R-quadrado estiver próximo de um, significa que o modelo construído explica quase toda a variabilidade das variáveis ​​correspondentes. Por outro lado, um valor de R-quadrado próximo a zero significa má qualidade do modelo construído.

Em nosso exemplo, a medida de certeza é 0,99673, o que indica um ajuste muito bom da linha de regressão aos dados originais.

R múltiplo- coeficiente de correlação múltipla R - expressa o grau de dependência das variáveis ​​independentes (X) e dependentes (Y).

Múltiplos R iguais raiz quadrada a partir do coeficiente de determinação, esse valor assume valores na faixa de zero a um.

Em uma análise de regressão linear simples, o múltiplo R é igual ao coeficiente de correlação de Pearson. De fato, o múltiplo R em nosso caso é igual ao coeficiente de correlação de Pearson do exemplo anterior (0,998364).

Tabela 8.3b. Coeficientes de regressão
Chances erro padrão estatística t
Intersecção em Y 2,694545455 0,33176878 8,121757129
Variável X 1 2,305454545 0,04668634 49,38177965
* Uma versão truncada dos cálculos é fornecida

Agora considere a parte do meio dos cálculos apresentados na tabela 8.3b. Aqui, o coeficiente de regressão b (2,305454545) e o deslocamento ao longo do eixo y são fornecidos, ou seja, constante a (2,694545455).

Com base nos cálculos, podemos escrever a equação de regressão da seguinte forma:

Y= x*2,305454545+2,694545455

A direção da relação entre as variáveis ​​é determinada com base nos sinais (negativos ou positivos) coeficientes de regressão(coeficiente b).

Se o sinal em Coeficiente de regressão- positivo, a relação da variável dependente com a independente será positiva. No nosso caso, o sinal do coeficiente de regressão é positivo, portanto, a relação também é positiva.

Se o sinal em Coeficiente de regressão- negativo, a relação entre a variável dependente e a variável independente é negativa (inversa).

Na tabela 8.3c. são apresentados os resultados da saída dos resíduos. Para que esses resultados apareçam no relatório, é necessário ativar a caixa de seleção "Resíduos" ao iniciar a ferramenta "Regressão".

RETIRADA RESTANTE

Tabela 8.3c. Restos
Observação Y previsto Restos Saldos padrão
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Usando esta parte do relatório, podemos ver os desvios de cada ponto da linha de regressão construída. Maior valor absoluto

A ciência política moderna procede da posição sobre a relação de todos os fenômenos e processos na sociedade. É impossível compreender eventos e processos, prever e gerenciar os fenômenos da vida política sem estudar as conexões e dependências que existem na esfera política da sociedade. Uma das tarefas mais comuns da pesquisa de políticas é estudar a relação entre algumas variáveis ​​observáveis. Toda uma classe de métodos estatísticos de análise, unidos pelo nome comum "análise de regressão" (ou, como também é chamada, "análise de correlação-regressão"), ajuda a resolver esse problema. No entanto, se a análise de correlação permite avaliar a força da relação entre duas variáveis, então, usando a análise de regressão, é possível determinar o tipo dessa relação, para prever a dependência do valor de qualquer variável em relação ao valor de outra variável. .

Primeiro, vamos lembrar o que é uma correlação. Correlativo chamado de caso especial mais importante de relação estatística, que consiste no fato de que valores iguais de uma variável correspondem a diferentes Valores médios outro. Com uma mudança no valor do atributo x, o valor médio do atributo y naturalmente muda, enquanto em cada caso individual o valor do atributo no(com probabilidades diferentes) pode assumir muitos valores diferentes.

O surgimento do termo “correlação” na estatística (e a ciência política atrai a realização da estatística para a resolução de seus problemas, que, portanto, é uma disciplina relacionada à ciência política) está associada ao nome do biólogo e estatístico inglês Francis Galton, que propôs no século XIX. fundamentos teóricos da análise de correlação-regressão. O termo "correlação" na ciência era conhecido antes. Em particular, na paleontologia no século 18. foi aplicado pelo cientista francês Georges Cuvier. Ele introduziu a chamada lei de correlação, com a qual, de acordo com os restos de animais encontrados durante as escavações, foi possível restaurar sua aparência.

Há uma história bem conhecida associada ao nome desse cientista e sua lei de correlação. Então, nos dias de férias da universidade, os alunos que decidiram pregar uma peça em um professor famoso puxaram uma pele de cabra com chifres e cascos sobre um aluno. Ele subiu na janela do quarto de Cuvier e gritou: "Vou comer você". O professor acordou, olhou para a silhueta e respondeu: “Se você tem chifres e cascos, então você é um herbívoro e não pode me comer. E por ignorância da lei da correlação você terá um empate. Ele se virou e adormeceu. Uma piada é uma piada, mas neste exemplo estamos vendo um caso especial de uso de análise de correlação-regressão múltipla. Aqui o professor, com base no conhecimento dos valores dos dois traços observados (a presença de chifres e cascos), com base na lei da correlação, derivou o valor médio do terceiro traço (a classe a que este animal pertence é um herbívoro). Nesse caso, não estamos falando do valor específico dessa variável (ou seja, esse animal pode assumir valores diferentes em uma escala nominal - pode ser uma cabra, um carneiro ou um touro ...).

Agora vamos passar para o termo "regressão". Estritamente falando, não está relacionado com o significado daqueles problemas estatísticos que são resolvidos com a ajuda desse método. Uma explicação do termo só pode ser dada com base no conhecimento da história do desenvolvimento de métodos para estudar as relações entre os recursos. Um dos primeiros exemplos de estudos desse tipo foi o trabalho dos estatísticos F. Galton e K. Pearson, que tentaram encontrar um padrão entre o crescimento dos pais e dos filhos segundo dois sinais observáveis ​​(onde X- altura do pai e VOCÊ- crescimento infantil). Em seu estudo, eles confirmaram a hipótese inicial de que, em média, pais altos criam crianças médias altas. O mesmo princípio se aplica a pais e filhos inferiores. No entanto, se os cientistas tivessem parado por aí, seus trabalhos nunca teriam sido mencionados nos livros de estatística. Os pesquisadores encontraram outro padrão dentro da já mencionada hipótese confirmada. Eles provaram que pais muito altos produzem filhos que são altos em média, mas não muito diferentes em altura de crianças cujos pais, embora acima da média, não são muito diferentes da estatura média. O mesmo vale para os pais com estatura muito baixa (desviando da média do grupo baixo) - seus filhos, em média, não diferiram em altura dos pares cujos pais eram simplesmente baixos. Eles chamaram a função que descreve essa regularidade função de regressão. Após este estudo, todas as equações que descrevem funções semelhantes e construídas de forma semelhante passaram a ser chamadas de equações de regressão.

Análise de regressão- um dos métodos de análise estatística multivariada de dados, combinando um conjunto de técnicas estatísticas destinadas a estudar ou modelar relações entre uma variável dependente e várias (ou uma) variáveis ​​independentes. A variável dependente, de acordo com a tradição aceita em estatística, é chamada de resposta e é denotada como V As variáveis ​​independentes são chamadas de preditores e são denotadas como x. No decorrer da análise, algumas variáveis ​​estarão fracamente relacionadas à resposta e eventualmente serão excluídas da análise. As demais variáveis ​​associadas ao dependente também podem ser chamadas de fatores.

A análise de regressão permite prever os valores de uma ou mais variáveis ​​dependendo de outra variável (por exemplo, a propensão a comportamentos políticos não convencionais dependendo do nível de escolaridade) ou de várias variáveis. É calculado no PC. Para compilar uma equação de regressão que permita medir o grau de dependência do recurso controlado em relação aos fatores, é necessário envolver matemáticos-programadores profissionais. A análise de regressão pode fornecer um serviço inestimável na construção de modelos preditivos para o desenvolvimento de uma situação política, na avaliação das causas da tensão social e na condução de experimentos teóricos. A análise de regressão é usada ativamente para estudar o impacto no comportamento eleitoral dos cidadãos de vários parâmetros sociodemográficos: sexo, idade, profissão, local de residência, nacionalidade, nível e natureza da renda.

Em relação à análise de regressão, os conceitos independente e dependente variáveis. Uma variável independente é uma variável que explica ou causa uma mudança em outra variável. Uma variável dependente é uma variável cujo valor é explicado pela influência da primeira variável. Por exemplo, nas eleições presidenciais de 2004, os fatores determinantes, ou seja, variáveis ​​independentes foram indicadores como a estabilização da situação financeira da população do país, o nível de popularidade dos candidatos e o fator incumbência. Nesse caso, o percentual de votos dos candidatos pode ser considerado uma variável dependente. Da mesma forma, no par de variáveis ​​“idade do eleitor” e “nível de atividade eleitoral”, a primeira é independente, a segunda é dependente.

A análise de regressão permite resolver os seguintes problemas:

  • 1) estabelecer o próprio fato da presença ou ausência de uma relação estatisticamente significativa entre Ci x;
  • 2) construir as melhores estimativas (no sentido estatístico) da função de regressão;
  • 3) de acordo com os valores fornecidos X construir uma previsão para o desconhecido No
  • 4) avaliar o peso específico da influência de cada fator X no No e, consequentemente, excluir características insignificantes do modelo;
  • 5) ao identificar relações causais entre variáveis, gerencie parcialmente os valores de P ajustando os valores das variáveis ​​explicativas x.

A análise de regressão está associada à necessidade de selecionar variáveis ​​mutuamente independentes que afetam o valor do indicador em estudo, determinar a forma da equação de regressão e avaliar parâmetros usando métodos estatísticos de processamento de dados sociológicos primários. Esse tipo de análise se baseia na ideia de forma, direção e proximidade (densidade) do relacionamento. Distinguir sala de vapor e regressão múltipla dependendo do número de características estudadas. Na prática, a análise de regressão geralmente é realizada em conjunto com a análise de correlação. Equação de Regressão descreve uma relação numérica entre quantidades, expressa como uma tendência de uma variável aumentar ou diminuir enquanto outra aumenta ou diminui. Ao mesmo tempo, razl e h a yut l geada e regressão não linear. Ao descrever os processos políticos, ambas as variantes de regressão são encontradas igualmente.

Gráfico de dispersão para a distribuição de interdependência de interesse em artigos políticos ( VOCÊ) e educação dos entrevistados (X)é uma regressão linear (Fig. 30).

Arroz. trinta.

Gráfico de dispersão para a distribuição do nível de atividade eleitoral ( VOCÊ) e a idade do entrevistado (A) (exemplo condicional) é uma regressão não linear (Fig. 31).


Arroz. 31.

Para descrever a relação de dois recursos (A "e Y) em um modelo de regressão pareado, uma equação linear é usada

onde a, é um valor aleatório do erro da equação com variação de características, ou seja. desvio da equação da "linearidade".

Para avaliar os coeficientes uma e b use o método dos mínimos quadrados, que assume que a soma dos desvios quadrados de cada ponto no gráfico de dispersão da linha de regressão deve ser mínima. Chances a h b pode ser calculado pelo sistema de equações:

O método de estimação de mínimos quadrados fornece tais estimativas dos coeficientes uma e b, para o qual a linha passa pelo ponto com coordenadas X e sim, Essa. existe uma relação no = machado + b. A representação gráfica da equação de regressão é chamada linha de regressão teórica. Com uma dependência linear, o coeficiente de regressão representa no gráfico a tangente da inclinação da linha de regressão teórica ao eixo x. O sinal no coeficiente mostra a direção da conexão. Se for maior que zero, então a relação é direta; se for menor, é inversa.

O seguinte exemplo do estudo "Political Petersburg-2006" (Tabela 56) mostra uma relação linear entre as percepções dos cidadãos sobre o grau de satisfação com suas vidas no presente e as expectativas de mudanças na qualidade de vida no futuro. A conexão é direta, linear (o coeficiente de regressão padronizado é 0,233, o nível de significância é 0,000). Nesse caso, o coeficiente de regressão não é alto, mas excede o limite inferior do indicador estatisticamente significativo (o limite inferior do quadrado do indicador estatisticamente significativo do coeficiente de Pearson).

Tabela 56

O impacto da qualidade de vida dos cidadãos no presente nas expectativas

(São Petersburgo, 2006)

* Variável dependente: "Como você acha que sua vida vai mudar nos próximos 2-3 anos?"

Na vida política, o valor da variável em estudo na maioria das vezes depende simultaneamente de várias características. Por exemplo, o nível e a natureza da atividade política são simultaneamente influenciados pelo regime político do estado, tradições políticas, as peculiaridades do comportamento político das pessoas em uma determinada área e o microgrupo social do entrevistado, sua idade, escolaridade, renda nível, orientação política, etc. Neste caso, você precisa usar a equação regressão múltipla, que tem a seguinte forma:

onde coeficiente b.- coeficiente de regressão parcial. Mostra a contribuição de cada variável independente para determinar os valores da variável independente (resultado). Se o coeficiente de regressão parcial estiver próximo de 0, podemos concluir que não há relação direta entre as variáveis ​​independentes e dependentes.

O cálculo de tal modelo pode ser realizado em um PC usando álgebra matricial. A regressão múltipla permite refletir a natureza multifatorial dos laços sociais e esclarecer o grau de influência de cada fator individualmente e em conjunto no traço resultante.

Coeficiente indicado b,é chamado de coeficiente de regressão linear e mostra a força da relação entre a variação do atributo fator X e variação do recurso efetivo S Esse coeficiente mede a força do relacionamento em unidades absolutas de medida de recursos. No entanto, a proximidade da correlação das características também pode ser expressa em termos do desvio padrão da característica resultante (tal coeficiente é chamado de coeficiente de correlação). Ao contrário do coeficiente de regressão b o coeficiente de correlação não depende das unidades aceitas de medida de características e, portanto, é comparável para quaisquer características. Normalmente, a conexão é considerada forte se /> 0,7, estanqueidade média - em 0,5 g 0,5.

Como você sabe, a conexão mais próxima é uma conexão funcional, quando cada valor individual S pode ser atribuído exclusivamente ao valor x. Assim, quanto mais próximo o coeficiente de correlação estiver de 1, mais próxima será a relação de uma relação funcional. O nível de significância para análise de regressão não deve exceder 0,001.

O coeficiente de correlação há muito é considerado como o principal indicador da proximidade da relação de características. No entanto, mais tarde, o coeficiente de determinação tornou-se um indicador desse tipo. O significado deste coeficiente é o seguinte - reflete a parcela da variância total do recurso resultante No, explicado pela variância do recurso x. Ele é encontrado simplesmente elevando o coeficiente de correlação ao quadrado (mudando de 0 para 1) e, por sua vez, para uma relação linear reflete a participação de 0 (0%) a 1 (100%) valores característicos Y, determinado pelos valores do atributo x.É registrado como eu 2 , e nas tabelas resultantes da análise de regressão no pacote SPSS - sem quadrado.

Vamos denotar os principais problemas de construção da equação de regressão múltipla.

  • 1. Escolha dos fatores incluídos na equação de regressão. Nesta etapa, o pesquisador primeiro compila uma lista geral das principais causas que, segundo a teoria, determinam o fenômeno em estudo. Em seguida, ele deve selecionar os recursos na equação de regressão. A principal regra de seleção é que os fatores incluídos na análise devem se correlacionar o menos possível entre si; somente neste caso é possível atribuir uma medida quantitativa de influência a um determinado fator-atributo.
  • 2. Selecionando a Forma da Equação de Regressão Múltipla(na prática, linear ou linear-logarítmico é mais frequentemente usado). Assim, para utilizar a regressão múltipla, o pesquisador deve primeiro construir um modelo hipotético da influência de diversas variáveis ​​independentes na resultante. Para que os resultados obtidos sejam confiáveis, é necessário que o modelo corresponda exatamente ao processo real, ou seja, a relação entre as variáveis ​​deve ser linear, nenhuma variável independente significativa pode ser ignorada, da mesma forma, nenhuma variável que não esteja diretamente relacionada ao processo em estudo pode ser incluída na análise. Além disso, todas as medições de variáveis ​​devem ser extremamente precisas.

Da descrição acima decorre uma série de condições para a aplicação deste método, sem as quais é impossível proceder ao procedimento de análise de regressão múltipla (MRA). Somente a conformidade com todos os pontos a seguir permite realizar corretamente a análise de regressão.

Na modelagem estatística, a análise de regressão é um estudo utilizado para avaliar a relação entre as variáveis. Este método matemático inclui muitos outros métodos para modelar e analisar múltiplas variáveis ​​quando o foco está na relação entre uma variável dependente e uma ou mais variáveis ​​independentes. Mais especificamente, a análise de regressão ajuda a entender como o valor típico da variável dependente muda se uma das variáveis ​​independentes mudar enquanto as outras variáveis ​​independentes permanecem fixas.

Em todos os casos, a pontuação alvo é uma função das variáveis ​​independentes e é chamada de função de regressão. Na análise de regressão, também é interessante caracterizar a mudança na variável dependente em função da regressão, que pode ser descrita usando uma distribuição de probabilidade.

Tarefas de análise de regressão

Esse método de pesquisa estatística é amplamente utilizado para previsão, onde seu uso tem uma vantagem significativa, mas às vezes pode levar a ilusões ou falsas relações, por isso é recomendável usá-lo com cuidado nessa questão, pois, por exemplo, correlação não significa causalidade.

Desenvolvido grande número métodos para realizar análises de regressão, como regressão linear e de mínimos quadrados ordinários, que são paramétricos. Sua essência é que a função de regressão é definida em termos de um número finito de parâmetros desconhecidos que são estimados a partir dos dados. A regressão não paramétrica permite que sua função esteja em um determinado conjunto de funções, que podem ser de dimensão infinita.

Como método de pesquisa estatística, a análise de regressão na prática depende da forma do processo de geração de dados e de como ele se relaciona com a abordagem de regressão. Como a verdadeira forma de geração do processo de dados é tipicamente um número desconhecido, a análise de regressão de dados geralmente depende, até certo ponto, de suposições sobre o processo. Essas suposições às vezes são testáveis ​​se houver dados suficientes disponíveis. Os modelos de regressão costumam ser úteis mesmo quando as suposições são violadas moderadamente, embora possam não ter o melhor desempenho.

Em um sentido mais restrito, a regressão pode se referir especificamente à estimação de variáveis ​​de resposta contínuas, em oposição às variáveis ​​de resposta discretas usadas na classificação. O caso de uma variável de saída contínua também é chamado de regressão métrica para distingui-la de problemas relacionados.

História

A maioria forma inicial regressão é o método bem conhecido de mínimos quadrados. Foi publicado por Legendre em 1805 e Gauss em 1809. Legendre e Gauss aplicaram o método ao problema de determinar a partir de observações astronômicas as órbitas dos corpos ao redor do Sol (principalmente cometas, mas mais tarde também planetas menores recém-descobertos). Gauss publicou um desenvolvimento adicional da teoria dos mínimos quadrados em 1821, incluindo uma variante do teorema de Gauss-Markov.

O termo "regressão" foi cunhado por Francis Galton no século 19 para descrever um fenômeno biológico. A linha inferior era que o crescimento de descendentes do crescimento de ancestrais, como regra, regride para a média normal. Para Galton, a regressão tinha apenas esse significado biológico, mas mais tarde seu trabalho foi retomado por Udni Yoley e Karl Pearson e levado a um contexto estatístico mais geral. No trabalho de Yule e Pearson, a distribuição conjunta da resposta e das variáveis ​​explicativas é considerada gaussiana. Esta suposição foi rejeitada por Fischer nos jornais de 1922 e 1925. Fisher sugeriu que a distribuição condicional da variável de resposta é gaussiana, mas a distribuição conjunta não precisa ser. Nesse sentido, a sugestão de Fisher está mais próxima da formulação de Gauss de 1821. Antes de 1970, às vezes levava até 24 horas para obter o resultado de uma análise de regressão.

Os métodos de análise de regressão continuam sendo uma área de pesquisa ativa. Nas últimas décadas, novos métodos foram desenvolvidos para regressão robusta; regressões envolvendo respostas correlacionadas; métodos de regressão que acomodam vários tipos de dados ausentes; regressão não paramétrica; métodos de regressão bayesiana; regressões nas quais as variáveis ​​preditoras são medidas com erro; regressões com mais preditores do que observações e inferências causais com regressão.

Modelos de regressão

Os modelos de análise de regressão incluem as seguintes variáveis:

  • Parâmetros desconhecidos, denotados como beta, que podem ser escalares ou vetoriais.
  • Variáveis ​​independentes, X.
  • Variáveis ​​dependentes, Y.

NO vários campos ciências onde a análise de regressão é aplicada usam termos diferentes em vez de variáveis ​​dependentes e independentes, mas em todos os casos o modelo de regressão relaciona Y a uma função de X e β.

A aproximação é geralmente formulada como E (Y | X) = F (X, β). Para realizar a análise de regressão, a forma da função f deve ser determinada. Mais raramente, é baseado no conhecimento sobre a relação entre Y e X que não depende de dados. Se tal conhecimento não estiver disponível, então uma forma F flexível ou conveniente é escolhida.

Variável dependente Y

Suponhamos agora que o vetor de parâmetros desconhecidos β tem comprimento k. Para realizar uma análise de regressão, o usuário deve fornecer informações sobre a variável dependente Y:

  • Se N pontos de dados da forma (Y, X) são observados, onde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Se exatamente N = K são observados, e a função F é linear, então a equação Y = F(X, β) pode ser resolvida exatamente, não aproximadamente. Isso se resume a resolver um conjunto de N-equações com N-incógnitas (os elementos de β) que tem uma solução única, desde que X seja linearmente independente. Se F não é linear, uma solução pode não existir ou pode haver muitas soluções.
  • A situação mais comum é onde existem N > pontos para os dados. Nesse caso, há informações suficientes nos dados para estimar o valor único de β que melhor se ajusta aos dados, e o modelo de regressão quando aplicado aos dados pode ser visto como um sistema sobrescrito em β.

Neste último caso, a análise de regressão fornece ferramentas para:

  • Encontrar uma solução para parâmetros desconhecidos β, que irá, por exemplo, minimizar a distância entre o valor medido e o valor previsto de Y.
  • Sob certas suposições estatísticas, a análise de regressão usa informações em excesso para fornecer informações estatísticas sobre os parâmetros desconhecidos β e os valores previstos da variável dependente Y.

Número necessário de medições independentes

Considere um modelo de regressão que possui três parâmetros desconhecidos: β 0 , β 1 e β 2 . Vamos supor que o experimentador faça 10 medições no mesmo valor da variável independente do vetor X. Nesse caso, a análise de regressão não fornece um conjunto único de valores. O melhor que pode ser feito é estimar a média e o desvio padrão da variável dependente Y. Da mesma forma, medir os dois valores diferentes X, você pode obter dados suficientes para uma regressão com duas incógnitas, mas não para três ou mais incógnitas.

Se as medições do experimentador fossem feitas em três valores diferentes da variável vetorial independente X, a análise de regressão forneceria um conjunto único de estimativas para os três parâmetros desconhecidos em β.

No caso de regressão linear geral, a afirmação acima é equivalente ao requisito de que a matriz X T X seja invertível.

Premissas Estatísticas

Quando o número de medições N é maior que o número de parâmetros desconhecidos ke os erros de medição ε i , então, via de regra, o excesso de informação contido nas medições é distribuído e usado para previsões estatísticas sobre parâmetros desconhecidos. Esse excesso de informação é chamado de grau de liberdade da regressão.

Suposições subjacentes

As suposições clássicas para análise de regressão incluem:

  • A amostragem é representativa da previsão de inferência.
  • O erro é uma variável aleatória com valor médio zero, que é condicional às variáveis ​​explicativas.
  • As variáveis ​​independentes são medidas sem erros.
  • Como variáveis ​​independentes (preditores), eles são linearmente independentes, ou seja, não é possível expressar nenhum preditor como uma combinação linear dos demais.
  • Os erros são não correlacionados, ou seja, a matriz de covariância do erro das diagonais e cada elemento diferente de zero é a variância do erro.
  • A variância do erro é constante entre as observações (homocedasticidade). Se não, então os mínimos quadrados ponderados ou outros métodos podem ser usados.

Estas condições suficientes para a estimativa dos mínimos quadrados possuem as propriedades requeridas, em particular estas premissas significam que as estimativas dos parâmetros serão objetivas, consistentes e eficientes, principalmente quando consideradas na classe das estimativas lineares. É importante notar que os dados reais raramente satisfazem as condições. Ou seja, o método é usado mesmo que as suposições não estejam corretas. A variação das suposições às vezes pode ser usada como uma medida de quão útil é o modelo. Muitas dessas suposições podem ser relaxadas em métodos mais avançados. Os relatórios de análise estatística geralmente incluem análise de testes em relação a dados de amostra e metodologia para a utilidade do modelo.

Além disso, variáveis ​​em alguns casos referem-se a valores medidos em localizações de pontos. Pode haver tendências espaciais e autocorrelações espaciais em variáveis ​​que violem os pressupostos estatísticos. A regressão geográfica ponderada é o único método que lida com esses dados.

Na regressão linear, a característica é que a variável dependente, que é Y i , é uma combinação linear de parâmetros. Por exemplo, na regressão linear simples, a modelagem de n pontos usa uma variável independente, xi, e dois parâmetros, β 0 e β 1 .

Na regressão linear múltipla, existem várias variáveis ​​independentes ou suas funções.

Quando amostrados aleatoriamente de uma população, seus parâmetros permitem obter uma amostra de um modelo de regressão linear.

Nesse aspecto, o método dos mínimos quadrados é o mais popular. Fornece estimativas de parâmetros que minimizam a soma dos quadrados dos resíduos. Esse tipo de minimização (que é típico da regressão linear) dessa função leva a um conjunto de equações normais e um conjunto equações lineares com parâmetros que são resolvidos para obter estimativas de parâmetros.

Assumindo ainda que o erro populacional geralmente se propaga, o pesquisador pode usar essas estimativas de erros padrão para criar intervalos de confiança e realizar testes de hipóteses sobre seus parâmetros.

Análise de regressão não linear

Um exemplo onde a função não é linear em relação aos parâmetros indica que a soma dos quadrados deve ser minimizada com um procedimento iterativo. Isso introduz muitas complicações que definem as diferenças entre métodos lineares e não lineares de mínimos quadrados. Consequentemente, os resultados da análise de regressão ao usar um método não linear às vezes são imprevisíveis.

Cálculo de poder e tamanho da amostra

Aqui, via de regra, não há métodos consistentes em relação ao número de observações em relação ao número de variáveis ​​independentes no modelo. A primeira regra foi proposta por Dobra e Hardin e se parece com N = t^n, onde N é o tamanho da amostra, n é o número de variáveis ​​explicativas e t é o número de observações necessárias para alcançar a precisão desejada se o modelo tivesse apenas uma variável explicativa. Por exemplo, um pesquisador constrói um modelo de regressão linear usando um conjunto de dados que contém 1.000 pacientes (N). Se o pesquisador decidir que são necessárias cinco observações para determinar com precisão a linha (m), então o número máximo de variáveis ​​explicativas que o modelo pode suportar é 4.

Outros métodos

Embora os parâmetros de um modelo de regressão sejam geralmente estimados usando o método dos mínimos quadrados, existem outros métodos que são usados ​​com muito menos frequência. Por exemplo, estes são os seguintes métodos:

  • Métodos Bayesianos (por exemplo, o método Bayesiano de regressão linear).
  • Uma regressão percentual usada para situações em que a redução de erros percentuais é considerada mais apropriada.
  • Os menores desvios absolutos, que são mais robustos na presença de outliers levando à regressão quantílica.
  • Regressão não paramétrica que requer um grande número de observações e cálculos.
  • A distância da métrica de aprendizado que é aprendida na busca de uma métrica de distância significativa no espaço de entrada fornecido.

Programas

Todos os principais pacotes de software estatístico são executados usando análise de regressão de mínimos quadrados. A regressão linear simples e a análise de regressão múltipla podem ser usadas em alguns aplicativos de planilhas, bem como em algumas calculadoras. Embora muitos pacotes de software estatístico possam realizar vários tipos de regressão não paramétrica e robusta, esses métodos são menos padronizados; diferentes pacotes de software implementam métodos diferentes. Um software de regressão especializado foi desenvolvido para uso em áreas como análise de pesquisa e neuroimagem.

A principal característica da análise de regressão é que ela pode ser usada para obter informações específicas sobre a forma e a natureza da relação entre as variáveis ​​em estudo.

A sequência de etapas da análise de regressão

Consideremos brevemente os estágios da análise de regressão.

    Formulação de tarefas. Nesta fase, são formadas hipóteses preliminares sobre a dependência dos fenômenos estudados.

    Definição de variáveis ​​dependentes e independentes (explicativas).

    Recolha de dados estatísticos. Os dados devem ser coletados para cada uma das variáveis ​​incluídas no modelo de regressão.

    Formulação de uma hipótese sobre a forma de ligação (simples ou múltipla, linear ou não linear).

    Definição funções de regressão (consiste no cálculo dos valores numéricos dos parâmetros da equação de regressão)

    Avaliação da acurácia da análise de regressão.

    Interpretação dos resultados obtidos. Os resultados da análise de regressão são comparados com hipóteses preliminares. A correção e plausibilidade dos resultados obtidos são avaliadas.

    Previsão de valores desconhecidos da variável dependente.

Com a ajuda da análise de regressão, é possível resolver o problema de previsão e classificação. Os valores preditivos são calculados substituindo os valores das variáveis ​​explicativas na equação de regressão. O problema de classificação é resolvido da seguinte forma: a linha de regressão divide todo o conjunto de objetos em duas classes, e a parte do conjunto em que o valor da função é maior que zero pertence a uma classe, e a parte em que é menor que zero pertence a outra classe.

Tarefas de análise de regressão

Considere as principais tarefas da análise de regressão: estabelecer a forma de dependência, determinar funções de regressão, uma estimativa dos valores desconhecidos da variável dependente.

Estabelecendo a forma de dependência.

A natureza e a forma da relação entre as variáveis ​​podem formar os seguintes tipos de regressão:

    regressão linear positiva (expressa como um crescimento uniforme da função);

    regressão positiva uniformemente acelerada;

    regressão positiva uniformemente crescente;

    regressão linear negativa (expressa como uma queda uniforme na função);

    regressão decrescente uniformemente acelerada negativa;

    regressão negativa uniformemente decrescente.

No entanto, as variedades descritas geralmente não são encontradas na forma pura, mas em combinação entre si. Neste caso, fala-se de formas combinadas de regressão.

Definição da função de regressão.

A segunda tarefa é descobrir o efeito sobre a variável dependente dos principais fatores ou causas, todas as outras coisas sendo iguais, e sujeito à exclusão do impacto sobre a variável dependente de elementos aleatórios. função de regressão definida como uma equação matemática de um tipo ou de outro.

Estimativa de valores desconhecidos da variável dependente.

A solução deste problema é reduzida a resolver um problema de um dos seguintes tipos:

    Estimativa dos valores da variável dependente dentro do intervalo considerado dos dados iniciais, ou seja, valores ausentes; isso resolve o problema de interpolação.

    Estimando os valores futuros da variável dependente, ou seja, encontrar valores fora do intervalo dado dos dados iniciais; isso resolve o problema da extrapolação.

Ambos os problemas são resolvidos substituindo as estimativas encontradas dos parâmetros dos valores das variáveis ​​independentes na equação de regressão. O resultado da resolução da equação é uma estimativa do valor da variável alvo (dependente).

Vejamos algumas das suposições nas quais a análise de regressão se baseia.

Suposição de linearidade, ou seja, assume-se que a relação entre as variáveis ​​consideradas é linear. Portanto, neste exemplo, construímos um gráfico de dispersão e conseguimos ver uma relação linear clara. Se, no gráfico de dispersão das variáveis, vemos uma clara ausência de uma relação linear, ou seja, existe uma relação não linear, métodos não lineares de análise devem ser usados.

Suposição de normalidade sobras. Assume-se que a distribuição da diferença entre os valores previstos e observados é normal. Para determinar visualmente a natureza da distribuição, você pode usar histogramas sobras.

Ao utilizar a análise de regressão, deve-se levar em conta sua principal limitação. Consiste no fato de que a análise de regressão permite detectar apenas dependências, e não os relacionamentos subjacentes a essas dependências.

A análise de regressão permite avaliar o grau de associação entre as variáveis ​​calculando o valor esperado de uma variável com base em vários valores conhecidos.

Equação de regressão.

A equação de regressão fica assim: Y=a+b*X

Usando esta equação, a variável Y é expressa em termos da constante a e a inclinação da linha (ou inclinação) b multiplicada pelo valor da variável X. A constante a também é chamada de interceptação e a inclinação é a regressão coeficiente ou fator B.

Na maioria dos casos (se não sempre) há uma certa dispersão de observações sobre a linha de regressão.

Restante é o desvio de um ponto individual (observação) da linha de regressão (valor previsto).

Para resolver o problema da análise de regressão no MS Excel, selecione no menu Serviço"Pacote de Análise" e a ferramenta de análise de regressão. Especifique os intervalos de entrada X e Y. O intervalo de entrada Y é o intervalo de dados dependentes que estão sendo analisados ​​e deve incluir uma coluna. O intervalo de entrada X é o intervalo de dados independentes a serem analisados. O número de intervalos de entrada não deve exceder 16.

Na saída do procedimento no intervalo de saída, obtemos o relatório fornecido em tabela 8.3a-8,3v.

RESULTADOS

Tabela 8.3a. Estatísticas de regressão

Estatísticas de regressão

R múltiplo

R-quadrado

Quadrado R normalizado

erro padrão

Observações

Primeiro, considere a parte superior dos cálculos apresentados em tabela 8.3a, - estatísticas de regressão.

Valor R-quadrado, também chamada de medida de certeza, caracteriza a qualidade da linha de regressão resultante. Essa qualidade é expressa pelo grau de correspondência entre os dados originais e o modelo de regressão (dados calculados). A medida de certeza está sempre dentro do intervalo.

Na maioria dos casos, o valor R-quadrado está entre esses valores, chamados extremos, ou seja, entre zero e um.

Se o valor R ao quadrado próximo da unidade, isso significa que o modelo construído explica quase toda a variabilidade das variáveis ​​correspondentes. Ao contrário, o valor R ao quadrado, próximo de zero, significa má qualidade do modelo construído.

Em nosso exemplo, a medida de certeza é 0,99673, o que indica um ajuste muito bom da linha de regressão aos dados originais.

plural R - coeficiente de correlação múltipla R - expressa o grau de dependência das variáveis ​​independentes (X) e dependentes (Y).

R múltiplo igual à raiz quadrada do coeficiente de determinação, esse valor assume valores na faixa de zero a um.

Na análise de regressão linear simples plural R igual ao coeficiente de correlação de Pearson. Sério, plural R no nosso caso, é igual ao coeficiente de correlação de Pearson do exemplo anterior (0,998364).

Tabela 8.3b. Coeficientes de regressão

Chances

erro padrão

estatística t

Intersecção em Y

Variável X 1

* Uma versão truncada dos cálculos é fornecida

Agora considere a parte do meio dos cálculos apresentados em tabela 8.3b. Aqui, o coeficiente de regressão b (2,305454545) e o deslocamento ao longo do eixo y são fornecidos, ou seja, constante a (2,694545455).

Com base nos cálculos, podemos escrever a equação de regressão da seguinte forma:

Y= x*2,305454545+2,694545455

A direção da relação entre as variáveis ​​é determinada com base nos sinais (negativos ou positivos) dos coeficientes de regressão (coeficiente b).

Se o sinal do coeficiente de regressão for positivo, a relação entre a variável dependente e a variável independente será positiva. No nosso caso, o sinal do coeficiente de regressão é positivo, portanto, a relação também é positiva.

Se o sinal do coeficiente de regressão for negativo, a relação entre a variável dependente e a variável independente é negativa (inversa).

NO tabela 8.3c. resultados de saída são apresentados sobras. Para que esses resultados apareçam no relatório, é necessário ativar a caixa de seleção "Resíduos" ao iniciar a ferramenta "Regressão".

RETIRADA RESTANTE

Tabela 8.3c. Restos

Observação

Y previsto

Restos

Saldos padrão

Usando esta parte do relatório, podemos ver os desvios de cada ponto da linha de regressão construída. Maior valor absoluto restante no nosso caso - 0,778, o menor - 0,043. Para uma melhor interpretação desses dados, usaremos o gráfico dos dados originais e a linha de regressão construída apresentada na Fig. arroz. 8.3. Como você pode ver, a linha de regressão é "ajustada" com bastante precisão aos valores dos dados originais.

Deve-se levar em conta que o exemplo em questão é bastante simples e nem sempre é possível construir qualitativamente uma linha de regressão linear.

Arroz. 8.3. Dados iniciais e linha de regressão

O problema de estimar valores futuros desconhecidos da variável dependente com base nos valores conhecidos da variável independente permaneceu desconsiderado, ou seja, tarefa de previsão.

Tendo uma equação de regressão, o problema de previsão se reduz a resolver a equação Y= x*2,305454545+2,694545455 com valores conhecidos de x. Os resultados da previsão da variável dependente Y seis passos à frente são apresentados na tabela 8.4.

Tabela 8.4. Resultados de previsão da variável Y

Y(previsto)

Assim, como resultado do uso da análise de regressão no pacote Microsoft Excel, temos:

    construiu uma equação de regressão;

    estabeleceu a forma de dependência e a direção da relação entre as variáveis ​​- uma regressão linear positiva, que se expressa em um crescimento uniforme da função;

    estabeleceu a direção da relação entre as variáveis;

    avaliou a qualidade da linha de regressão resultante;

    foram capazes de ver os desvios dos dados calculados dos dados do conjunto original;

    previu os valores futuros da variável dependente.

Se um função de regressãoé definido, interpretado e justificado, e a avaliação da precisão da análise de regressão atende aos requisitos, podemos supor que o modelo construído e os valores preditivos são suficientemente confiáveis.

Os valores previstos obtidos desta forma são os valores médios que podem ser esperados.

Neste artigo, revisamos as principais características estatísticas descritivas e entre eles conceitos como significa,mediana,máximo,mínimo e outras características de variação de dados.

Houve também uma breve discussão sobre o conceito emissões. As características consideradas referem-se à chamada análise exploratória de dados, suas conclusões podem não se aplicar à população geral, mas apenas a uma amostra de dados. A análise exploratória de dados é usada para tirar conclusões primárias e formar hipóteses sobre a população.

Também foram considerados os fundamentos da análise de correlação e regressão, suas tarefas e possibilidades de uso prático.