Como calcular o nível de significância estatística. Explique o que é um nível de significância estatística

Os parâmetros de distribuição da amostra determinados por uma série de medidas são variáveis ​​aleatórias, portanto, seus desvios dos parâmetros gerais também serão aleatórios. A avaliação desses desvios é de natureza probabilística - na análise estatística, só se pode indicar a probabilidade de um determinado erro.

Deixe para o parâmetro geral uma derivado da experiência estimativa imparcial uma*. Atribuímos uma probabilidade b suficientemente grande (tal que um evento com probabilidade b possa ser considerado praticamente certo) e encontramos tal valor e b = f(b) para o qual

A faixa de valores praticamente possíveis do erro que ocorre ao substituir uma no uma* , será ±e b . Erros que são grandes em valor absoluto aparecerão apenas com uma pequena probabilidade.

chamado nível de significância. Caso contrário, a expressão (4.1) pode ser interpretada como a probabilidade de que o valor verdadeiro do parâmetro uma está dentro

. (4.3)

A probabilidade b é chamada nível de confiança e caracteriza a confiabilidade da estimativa obtida. Intervalo EU b= uma* ± e b é chamado intervalo de confiança. Limites de intervalo uma¢ = uma* - e b e uma¢¢ = uma* + e b são chamados limites de confiança. O intervalo de confiança em um determinado nível de confiança determina a precisão da estimativa. O valor do intervalo de confiança depende do nível de confiança com o qual o parâmetro é encontrado uma dentro do intervalo de confiança: quanto maior o valor de b, maior o intervalo EU b (e o valor de e b). Um aumento no número de experimentos se manifesta em uma redução no intervalo de confiança com uma probabilidade de confiança constante ou em um aumento na probabilidade de confiança mantendo o intervalo de confiança.

Na prática, costuma-se fixar o valor da probabilidade de confiança (0,9; 0,95 ou 0,99) e depois determinar o intervalo de confiança do resultado EU b. Ao construir um intervalo de confiança, o problema do desvio absoluto é resolvido:

Assim, se a lei de distribuição da estimativa fosse conhecida uma* , a tarefa de determinar o intervalo de confiança seria resolvida de forma simples. Considere a construção de um intervalo de confiança para a expectativa matemática de uma variável aleatória normalmente distribuída X com um padrão geral conhecido s sobre um tamanho de amostra n. Melhor Limite para Expectativa mé a média amostral com o desvio padrão da média

.

Usando a função de Laplace, obtemos

. (4.5)

Dada a probabilidade de confiança b, determinamos o valor da tabela da função de Laplace (Apêndice 1) . Então o intervalo de confiança para a esperança matemática assume a forma

. (4.7)

De (4.7) pode-se ver que a diminuição do intervalo de confiança é inversamente proporcional à raiz quadrada do número de experimentos.

Conhecer a variância geral nos permite estimar a expectativa matemática mesmo para uma observação. Se para uma variável aleatória normalmente distribuída X como resultado da experiência, o valor X 1 , então o intervalo de confiança para a esperança matemática para o b escolhido tem a forma

Onde você 1-p/2 - quantil da distribuição normal padrão (Anexo 2).

Lei de distribuição de notas uma* depende da lei de distribuição da quantidade X e, em particular, no próprio parâmetro uma. Para contornar essa dificuldade, dois métodos são usados ​​em estatística matemática:

1) aproximado - em n³ 50 substitua os parâmetros desconhecidos na expressão para e b por suas estimativas, por exemplo:

2) de uma variável aleatória uma* vá para outra variável aleatória Q * , cuja lei de distribuição não depende do parâmetro estimado uma, mas depende apenas do tamanho da amostra. n e sobre o tipo de lei de distribuição da quantidade X. Quantidades desse tipo foram estudadas com mais detalhes para a distribuição normal de variáveis ​​aleatórias. Os quantis simétricos são geralmente usados ​​como limites de confiança para Q¢ e Q¢¢

, (4.9)

ou levando em consideração (4.2)

. (4.10)

4.2. Testando hipóteses estatísticas, testes de significância,

erros do primeiro e do segundo tipo.

Debaixo hipóteses estatísticas algumas suposições sobre as distribuições da população geral de uma ou outra variável aleatória são compreendidas. O teste de hipóteses é entendido como uma comparação de alguns indicadores estatísticos, critérios de verificação (critérios de significância) calculados a partir da amostra, com seus valores determinados sob a suposição de que a hipótese dada é verdadeira. Ao testar hipóteses, algumas hipóteses geralmente são testadas. H 0 em comparação com a hipótese alternativa H 1 .

Para decidir se aceita ou rejeita uma hipótese, o nível de significância é dado R. Os níveis de significância mais usados ​​são 0,10, 0,05 e 0,01. De acordo com essa probabilidade, usando a hipótese sobre a distribuição da estimativa Q* (critério de significância), os limites de confiança quantil são encontrados, via de regra, Q simétricos p/2 e Q 1- p/2 . Números Q p/2 e Q 1- p/2 são chamados valores críticos da hipótese; Valores Q*< Qp/2 e Q * > Q 1- p/2 formam uma crítica


a área da hipótese (ou a área de não aceitação da hipótese) (Fig. 12).

Arroz. 12.Área crítica Arroz. 13. Verificando estatísticas

hipóteses. hipóteses.

Se Q 0 encontrado na amostra estiver entre Q p/2 e Q 1- p/2 , então a hipótese admite tal valor como aleatório e, portanto, não há motivos para rejeitá-la. Se o valor de Q 0 cair na região crítica, então, de acordo com essa hipótese, é praticamente impossível. Mas desde que apareceu, a própria hipótese é rejeitada.

Existem dois tipos de erros que podem ser cometidos ao testar hipóteses. Erro tipo Ié aquele rejeitar uma hipótese que é realmente verdadeira. A probabilidade de tal erro não é maior do que o nível de significância aceito. Erro tipo IIé aquele a hipótese é aceita, mas na verdade é falsa. A probabilidade desse erro é tanto menor quanto maior o nível de significância, pois isso aumenta o número de hipóteses rejeitadas. Se a probabilidade de um erro do segundo tipo for a, então o valor (1 - a) é chamado o poder do critério.

Na fig. 13 mostra duas curvas da densidade de distribuição da variável aleatória Q, correspondendo a duas hipóteses H 0 e H 1 . Se o valor obtido da experiência for Q > Q p, então a hipótese é rejeitada. H 0 e a hipótese é aceita H 1 e vice-versa, se Q< Qp.

Área sob a curva de densidade de probabilidade correspondente à validade da hipótese H 0 à direita do valor Q p, é igual ao nível de significância R, ou seja, as probabilidades de um erro do primeiro tipo. Área sob a curva de densidade de probabilidade correspondente à validade da hipótese H 1 à esquerda de Q p, é igual à probabilidade de erro do segundo tipo a, e à direita de Q p- o poder do critério (1 - a). Assim, quanto mais R, mais (1 - a). Ao testar uma hipótese, eles tentam escolher entre todos os critérios possíveis aquele que, em um determinado nível de significância, tem menor probabilidade de erro do Tipo II..

Normalmente, como o nível ótimo de significância ao testar hipóteses, use p= 0,05, pois se a hipótese testada for aceita com um determinado nível de significância, então a hipótese, é claro, deve ser reconhecida como consistente com os dados experimentais; por outro lado, a utilização desse nível de significância não fornece fundamento para a rejeição da hipótese.

Por exemplo, são encontrados dois valores de e algum parâmetro amostral, que podem ser considerados como estimativas dos parâmetros gerais uma 1 e uma 2. Supõe-se que a diferença entre e é aleatória e que os parâmetros gerais uma 1 e uma 2 são iguais entre si, ou seja. uma 1 = uma 2. Essa hipótese é chamada nulo, ou hipótese nula. Para testá-lo, você precisa descobrir se a discrepância entre e é significativa sob a hipótese nula. Para fazer isso, geralmente investiga-se uma variável aleatória D = – e verifica-se se sua diferença de zero é significativa. Às vezes é mais conveniente considerar o valor / comparando-o com a unidade.

Rejeitando a hipótese nula, eles aceitam a alternativa, que se divide em duas: > e< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется unilateral, e para verificar, use unilateral critérios de significância (em oposição ao convencional, bilateral). Neste caso, é necessário considerar apenas uma das metades da região crítica (Fig. 12).

Por exemplo, R= 0,05 com um critério bilateral, os valores críticos Q 0,025 e Q 0,975 correspondem, ou seja, Q * que tomaram os valores Q * são considerados significativos (não aleatórios)< Q 0.025 и Q * >Q 0,975. Com um critério unilateral, uma dessas desigualdades é obviamente impossível (por exemplo, Q *< Q 0.025) и значимыми будут лишь Q * >Q 0,975. A probabilidade da última desigualdade é de 0,025 e, portanto, o nível de significância será de 0,025. Assim, se forem utilizados os mesmos números críticos para o teste de significância unicaudal como para o bicaudal, esses valores corresponderão à metade do nível de significância.

Normalmente, para um teste unicaudal, o mesmo nível de significância é tomado como para um teste bicaudal, pois nessas condições ambos os testes fornecem o mesmo erro tipo I. Para isso, um teste unicaudal deve ser derivado de um teste bicaudal, correspondendo ao dobro do nível de significância do que o aceito. Para manter um nível de significância para um teste unilateral R= 0,05, para bilateral é necessário tomar R= 0,10, o que dá os valores críticos Q 0,05 e Q 0,95. Destes, para um teste unilateral, um permanecerá, por exemplo, Q 0,95. O nível de significância para o teste unicaudal é de 0,05. O mesmo nível de significância para o teste bicaudal corresponde ao valor crítico Q 0,975. Mas Q 0,95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

O nível de significância nas estatísticas é um indicador importante que reflete o grau de confiança na precisão e veracidade dos dados recebidos (previstos). O conceito é amplamente utilizado em vários campos: da pesquisa sociológica ao teste estatístico de hipóteses científicas.

Definição

O nível de significância estatística (ou resultado estatisticamente significativo) mostra qual é a probabilidade de ocorrência aleatória dos indicadores estudados. A significância estatística geral do fenômeno é expressa pelo valor-p (nível-p). Em qualquer experimento ou observação, existe a possibilidade de que os dados obtidos tenham surgido devido a erros de amostragem. Isso é especialmente verdadeiro para a sociologia.

Ou seja, um valor é estatisticamente significativo, cuja probabilidade de ocorrência aleatória é extremamente pequena ou tende a extremos. O extremo neste contexto é o grau de desvio das estatísticas da hipótese nula (uma hipótese que é testada quanto à consistência com os dados amostrais obtidos). Na prática científica, o nível de significância é escolhido antes da coleta de dados e, via de regra, seu coeficiente é de 0,05 (5%). Para sistemas onde valores precisos são críticos, isso pode ser 0,01 (1%) ou menos.

Fundo

O conceito de nível de significância foi introduzido pelo estatístico e geneticista britânico Ronald Fisher em 1925, quando estava desenvolvendo uma técnica para testar hipóteses estatísticas. Ao analisar qualquer processo, há uma certa probabilidade de certos fenômenos. Dificuldades surgem ao trabalhar com porcentagens pequenas (ou não óbvias) de probabilidades que se enquadram no conceito de "erro de medição".

Ao trabalhar com estatísticas que não eram específicas o suficiente para serem testadas, os cientistas se depararam com o problema da hipótese nula, que “impede” operar com valores pequenos. Fisher propôs que tais sistemas determinassem a probabilidade de eventos a 5% (0,05) como um corte amostral conveniente que permite rejeitar a hipótese nula nos cálculos.

Introdução de um coeficiente fixo

Em 1933 Cientistas de Jerzy Neumann e Egon Pearson em seus artigos recomendaram estabelecer um certo nível de significância com antecedência (antes da coleta de dados). Exemplos do uso dessas regras são claramente visíveis durante as eleições. Suponha que haja dois candidatos, um dos quais é muito popular e o outro não é muito conhecido. É óbvio que o primeiro candidato vencerá a eleição, e as chances do segundo tendem a zero. Esforçar-se - mas não igual: há sempre a possibilidade de força maior, informações sensacionalistas, decisões inesperadas que podem alterar os resultados eleitorais previstos.

Neumann e Pearson concordaram que o nível de significância proposto por Fisher de 0,05 (indicado pelo símbolo α) é o mais conveniente. No entanto, o próprio Fischer em 1956 se opôs à fixação desse valor. Ele acreditava que o nível de α deveria ser definido de acordo com circunstâncias específicas. Por exemplo, na física de partículas é 0,01.

valor p

O termo valor-p foi usado pela primeira vez por Brownlee em 1960. O nível-p (valor-p) é um indicador inversamente relacionado à veracidade dos resultados. O maior valor de p corresponde ao menor nível de confiança na relação amostrada entre as variáveis.

Este valor reflete a probabilidade de erros associados à interpretação dos resultados. Suponha valor p = 0,05 (1/20). Ele mostra uma chance de cinco por cento de que a relação entre as variáveis ​​encontradas na amostra seja apenas uma característica aleatória da amostra. Ou seja, se essa dependência estiver ausente, então com repetidos experimentos semelhantes, em média, em cada vigésimo estudo, pode-se esperar a mesma ou maior dependência entre as variáveis. Muitas vezes, o nível p é considerado como a "margem" do nível de erro.

Aliás, o valor-p pode não refletir a real relação entre as variáveis, mas apenas mostra um certo valor médio dentro das premissas. Em particular, a análise final dos dados também dependerá dos valores escolhidos desse coeficiente. Com p-level = 0,05 haverá alguns resultados, e com um coeficiente igual a 0,01, outros.

Testando hipóteses estatísticas

O nível de significância estatística é especialmente importante ao testar hipóteses. Por exemplo, ao calcular um teste bicaudal, a área de rejeição é dividida igualmente em ambas as extremidades da distribuição amostral (em relação à coordenada zero) e a verdade dos dados obtidos é calculada.

Suponha que, ao monitorar um determinado processo (fenômeno), descobriu-se que novas informações estatísticas indicam pequenas alterações em relação aos valores anteriores. Ao mesmo tempo, as discrepâncias nos resultados são pequenas, não óbvias, mas importantes para o estudo. O especialista enfrenta um dilema: as mudanças realmente ocorrem ou são erros de amostragem (imprecisão de medição)?

Nesse caso, a hipótese nula é aplicada ou rejeitada (tudo é anulado como erro, ou a mudança no sistema é reconhecida como fato consumado). O processo de resolução do problema é baseado na razão entre a significância estatística geral (p-valor) e o nível de significância (α). Se o nível p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valores usados

O nível de significância depende do material analisado. Na prática, são utilizados os seguintes valores fixos:

  • α = 0,1 (ou 10%);
  • α = 0,05 (ou 5%);
  • α = 0,01 (ou 1%);
  • α = 0,001 (ou 0,1%).

Quanto mais precisos forem os cálculos, menor será o coeficiente α utilizado. Naturalmente, as previsões estatísticas em física, química, farmacêutica e genética exigem maior precisão do que em ciência política e sociologia.

Limiares de significância em áreas específicas

Em campos de alta precisão, como física de partículas e manufatura, a significância estatística é frequentemente expressa como a razão do desvio padrão (indicado pelo coeficiente sigma - σ) em relação a uma distribuição de probabilidade normal (distribuição gaussiana). σ é um indicador estatístico que determina o spread de valores de uma determinada quantidade em relação às expectativas matemáticas. Usado para traçar a probabilidade de eventos.

Dependendo da área de conhecimento, o coeficiente σ varia muito. Por exemplo, ao prever a existência do bóson de Higgs, o parâmetro σ é igual a cinco (σ=5), que corresponde ao valor p=1/3,5 milhões de áreas.

Eficiência

Deve-se levar em conta que os coeficientes α e p-value não são características exatas. Qualquer que seja o nível de significância nas estatísticas do fenômeno em estudo, não é uma base incondicional para aceitar a hipótese. Por exemplo, quanto menor o valor de α, maior a chance de que a hipótese que está sendo estabelecida seja significativa. No entanto, existe o risco de erro, o que reduz o poder estatístico (significância) do estudo.

Pesquisadores que se concentram exclusivamente em resultados estatisticamente significativos podem tirar conclusões errôneas. Ao mesmo tempo, é difícil verificar novamente seu trabalho, pois eles aplicam suposições (que, na verdade, são os valores de α e p-value). Portanto, é sempre recomendável, juntamente com o cálculo da significância estatística, determinar outro indicador - a magnitude do efeito estatístico. O tamanho do efeito é uma medida quantitativa da força de um efeito.

O valor é chamado estatisticamente significativo, se a probabilidade de uma ocorrência puramente aleatória ou valores ainda mais extremos for pequena. Aqui, extremo é o grau de desvio da hipótese nula. Diz-se que uma diferença é "estatisticamente significativa" se houver dados que dificilmente ocorreriam, assumindo que a diferença não existe; essa expressão não significa que essa diferença deva ser grande, importante ou significativa no sentido geral da palavra.

O nível de significância de um teste é a noção tradicional de teste de hipóteses em estatísticas de frequência. É definida como a probabilidade de decidir rejeitar a hipótese nula se, de fato, a hipótese nula for verdadeira (a decisão é conhecida como erro Tipo I ou decisão falso positivo). (leia "valor-pi"): se o valor-p for menor que o nível de significância, então a hipótese nula é rejeitada. Quanto menor o valor de p, mais significativa é a estatística de teste. Quanto menor o valor de p, mais forte é a razão para rejeitar a hipótese nula.

O nível de significância é geralmente denotado pela letra grega α (alfa). Os níveis de significância populares são 5%, 1% e 0,1%. Se o teste produzir um valor p menor que o nível α, então a hipótese nula é rejeitada. Tais resultados são informalmente referidos como "estatisticamente significativos". Por exemplo, se alguém disser que "as chances do que aconteceu é uma coincidência igual a uma em mil", isso significa nível de significância de 0,1%.

Diferentes valores do nível α têm suas vantagens e desvantagens. Níveis α menores dão mais confiança de que uma hipótese alternativa já estabelecida é significativa, mas há um risco maior de não rejeitar uma hipótese nula falsa (erro tipo II, ou "decisão falsa negativa") e, portanto, menos poder estatístico. A escolha do nível α inevitavelmente requer uma troca entre significância e poder e, portanto, entre probabilidades de erro Tipo I e Tipo II. Em casa papéis científicos muitas vezes o termo incorreto "significado" é usado em vez do termo "significado estatístico".

Veja também

Notas

George Casella, Roger L. Berger Teste de hipóteses // Inferência estatística . -Segunda edição. - Pacific Grove, CA: Duxbury, 2002. - S. 397. - 660 p. - ISBN 0-534-24312-6


Fundação Wikimedia. 2010.

Veja o que é o "Nível de Significância" em outros dicionários:

    O número é tão pequeno que pode ser considerado quase certo que um evento com probabilidade α não ocorrerá em um único experimento. Geralmente U.z. é fixado arbitrariamente, a saber: 0,05, 0,01, e com precisão especial 0,005, etc. Em geol. trabalhar… … Enciclopédia Geológica

    nível de significância- critério estatístico (também chamado de “nível alfa” e denotado por uma letra grega) é um limite superior na probabilidade de um erro do tipo I (a probabilidade de rejeitar uma hipótese nula quando ela é realmente verdadeira). Os valores típicos são... Dicionário de Estatísticas Sociológicas

    Inglês nível, significância; Alemão Signifikanzniveau. O grau de risco é que o pesquisador possa tirar a conclusão errada sobre a falácia dos extras, hipóteses baseadas em dados amostrais. Antinazi. Enciclopédia de Sociologia, 2009 ... Enciclopédia de Sociologia

    nível de significância- - [L.G. Sumenko. Dicionário Inglês Russo de Tecnologias da Informação. M.: GP TsNIIS, 2003.] Tópicos tecnologia da informação em geral EN nível de significância ... Manual do Tradutor Técnico

    nível de significância- 3,31 nível de significância α: Um dado valor que representa o limite superior da probabilidade de rejeitar uma hipótese estatística quando essa hipótese é verdadeira. Fonte: GOST R ISO 12491 2011: Materiais e produtos de construção. ... ... Dicionário-livro de referência de termos de documentação normativa e técnica

    NÍVEL DE SIGNIFICÂNCIA- o conceito de estatística matemática, refletindo o grau de probabilidade de uma conclusão errônea sobre uma hipótese estatística sobre a distribuição de uma característica, verificada com base em dados amostrais. Na pesquisa psicológica para um nível suficiente ... ... Moderno processo educacional: conceitos e termos básicos

    nível de significância- reikšmingumo lygis statusas T sritis automatika atitikmenys: engl. nível de significância vok. Signifikanzniveau, n rus. nível de significância, m pranc. niveau de significance, m … Automatikos terminų žodynas

    nível de significância- reikšmingumo lygis statusas T sritis fizika atitikmenys: engl. Nível de significância; nível de significância vok. Sicherheitsschwelle, f rus. nível de significância, fpranc. niveau de meaning, m … Fizikos terminų žodynas

    Teste estatístico, veja Nível de significância... Grande Enciclopédia Soviética

    NÍVEL DE SIGNIFICÂNCIA- Veja significância, nível... Dicionário em psicologia

Livros

  • "Ultra secreto" . Lubyanka - para Stalin sobre a situação no país (1922-1934). Volume 4. Parte 1,. Publicação fundamental de artigos em vários volumes - revisões de informações e resumos da OGPU - é único em seu significado científico, valor, conteúdo e escopo. Neste histórico…
  • Programa educacional como ferramenta para o sistema de gestão da qualidade da educação profissional, Tkacheva Galina Viktorovna, Logachev Maxim Sergeevich, Samarin Yury Nikolaevich. A monografia analisa as práticas existentes de formação do conteúdo dos programas de educação profissional. O lugar, estrutura, conteúdo e nível de significância são determinados ...

valor p(eng.) - o valor usado ao testar hipóteses estatísticas. Na verdade, esta é a probabilidade de erro ao rejeitar a hipótese nula (erro do primeiro tipo). O teste de hipóteses usando o valor P é uma alternativa ao procedimento clássico de teste por meio do valor crítico da distribuição.

Normalmente, o valor P é igual à probabilidade de uma variável aleatória com uma dada distribuição (a distribuição da estatística de teste sob a hipótese nula) assumir um valor não inferior ao valor real da estatística de teste. Wikipédia.

Em outras palavras, o valor p é o menor nível de significância (ou seja, a probabilidade de rejeitar uma hipótese verdadeira) para o qual a estatística de teste computada leva à rejeição da hipótese nula. Normalmente, o valor p é comparado com os níveis de significância padrão geralmente aceitos de 0,005 ou 0,01.

Por exemplo, se o valor da estatística de teste calculada a partir da amostra corresponder a p = 0,005, isso indica uma probabilidade de 0,5% da hipótese ser verdadeira. Assim, quanto menor o valor de p, melhor, pois aumenta a “força” de rejeitar a hipótese nula e aumenta a significância esperada do resultado.

Uma explicação interessante disso está em Habré.

A análise estatística está começando a parecer uma caixa preta: a entrada são dados, a saída é uma tabela de resultados principais e um valor-p.

O que o valor-p diz?

Suponha que decidimos descobrir se existe uma relação entre o vício em jogos de computador sangrentos e a agressividade na vida real. Para isso, foram formados aleatoriamente dois grupos de escolares de 100 pessoas cada (grupo 1 - fãs de atiradores, grupo 2 - não jogando jogos de computador). Por exemplo, o número de brigas com colegas funciona como um indicador de agressividade. Em nosso estudo imaginário, descobriu-se que o grupo de alunos-jogadores entrava em conflito com seus camaradas visivelmente mais frequentemente. Mas como descobrimos quão estatisticamente significativas são as diferenças resultantes? Talvez tenhamos a diferença observada por acaso? Para responder a essas perguntas, é usado o valor p - essa é a probabilidade de obter diferenças tão ou mais pronunciadas, desde que não haja diferenças na população geral. Em outras palavras, essa é a probabilidade de obter diferenças tão ou até mais fortes entre nossos grupos, desde que, de fato, os jogos de computador não afetem em nada a agressividade. Não soa tão difícil. No entanto, esta estatística particular é muitas vezes mal interpretada.

exemplos de valor p

Assim, comparamos dois grupos de escolares entre si em termos de nível de agressividade usando um teste t padrão (ou um teste Chi não paramétrico - o quadrado do mais apropriado nessa situação) e descobrimos que o cobiçado p- nível de significância é inferior a 0,05 (por exemplo, 0,04). Mas o que o valor de p-significância resultante realmente nos diz? Então, se o valor-p é a probabilidade de obter diferenças tão ou mais pronunciadas, desde que não haja realmente diferenças na população geral, então qual você acha que é a afirmação correta:

1. Os jogos de computador são a causa do comportamento agressivo com 96% de probabilidade.
2. A probabilidade de que agressividade e jogos de computador não estejam relacionados é de 0,04.
3. Se obtivermos um nível de significância p maior que 0,05, isso significaria que agressividade e jogos de computador não estão relacionados de forma alguma.
4. A probabilidade de obter tais diferenças por acaso é 0,04.
5. Todas as afirmações estão erradas.

Se você escolheu a quinta opção, então você está absolutamente certo! Mas, como vários estudos mostram, mesmo pessoas com experiência significativa em análise de dados geralmente interpretam mal os valores-p.

Vamos pegar cada resposta em ordem:

A primeira afirmação é um exemplo do erro de correlação: o fato de duas variáveis ​​estarem significativamente relacionadas não nos diz nada sobre causa e efeito. Talvez sejam as pessoas mais agressivas que preferem passar o tempo jogando jogos de computador, e não são os jogos de computador que tornam as pessoas mais agressivas.

Esta é uma afirmação mais interessante. A questão é que inicialmente tomamos como certo que realmente não há diferenças. E, tendo isso em mente como um fato, calculamos o valor-p. Portanto, a interpretação correta é: "Supondo que agressividade e jogos de computador não estejam relacionados de forma alguma, então a probabilidade de obter diferenças tão ou mais pronunciadas era de 0,04".

Mas e se tivéssemos diferenças insignificantes? Isso significa que não há relação entre as variáveis ​​estudadas? Não, significa apenas que pode haver diferenças, mas nossos resultados não nos permitiram detectá-las.

Isso está diretamente relacionado à definição do próprio valor-p. 0,04 é a probabilidade de obter essas diferenças ou ainda mais extremas. Em princípio, é impossível estimar a probabilidade de obter exatamente essas diferenças como em nosso experimento!

Estas são as armadilhas que podem estar escondidas na interpretação de tal indicador como valor-p. Por isso, é muito importante compreender os mecanismos subjacentes aos métodos de análise e cálculo dos principais indicadores estatísticos.

Como encontrar o valor-p?

1. Determine os resultados esperados do seu experimento

Normalmente, quando os cientistas realizam um experimento, eles já têm uma ideia de quais resultados considerar “normais” ou “típicos”. Isso pode ser baseado em resultados experimentais de experimentos anteriores, em conjuntos de dados confiáveis, em dados da literatura científica, ou o cientista pode se basear em algumas outras fontes. Para sua experiência, defina os resultados esperados e expresse-os como números.

Exemplo: Por exemplo, estudos anteriores mostraram que, em seu país, os carros vermelhos são mais propensos a receber multas por excesso de velocidade do que os carros azuis. Por exemplo, as pontuações médias mostram uma preferência de 2:1 por carros vermelhos sobre os azuis. Queremos determinar se a polícia tem o mesmo preconceito contra a cor dos carros em sua cidade. Para isso, analisaremos as multas aplicadas por excesso de velocidade. Se pegarmos um conjunto aleatório de 150 multas por excesso de velocidade emitidas para carros vermelhos ou azuis, esperaríamos que 100 multas fossem emitidas para carros vermelhos e 50 para azuis se a polícia em nossa cidade for tão tendenciosa quanto à cor dos carros como observado em todo o país.

2. Determine os resultados observáveis ​​do seu experimento

Agora que você determinou os resultados esperados, você precisa experimentar e encontrar os valores reais (ou "observados"). Você novamente precisa representar esses resultados como números. Se criamos condições experimentais e os resultados observados diferem dos esperados, temos duas possibilidades - ou isso aconteceu por acaso ou é causado precisamente por nosso experimento. O objetivo de encontrar o valor-p é justamente determinar se os resultados observados diferem dos esperados de tal forma que não se possa rejeitar a "hipótese nula" - a hipótese de que não há relação entre as variáveis ​​experimentais e as observadas. resultados.

Exemplo: Por exemplo, em nossa cidade, selecionamos aleatoriamente 150 multas por excesso de velocidade emitidas para carros vermelhos ou azuis. Determinamos que foram emitidas 90 multas para carros vermelhos e 60 para carros azuis. Isso é diferente dos resultados esperados, que são 100 e 50, respectivamente. Nosso experimento (neste caso, alterando a fonte de dados de nacional para urbano) produziu essa mudança nos resultados, ou nossa polícia da cidade é tendenciosa exatamente da mesma maneira que a média nacional e vemos apenas uma variação aleatória? O valor-p nos ajudará a determinar isso.

3. Determine o número de graus de liberdade do seu experimento

O número de graus de liberdade é o grau de variabilidade em seu experimento, que é determinado pelo número de categorias que você está explorando. A equação para o número de graus de liberdade é Número de graus de liberdade = n-1, onde "n" é o número de categorias ou variáveis ​​que você está analisando em seu experimento.

Exemplo: Em nosso experimento, existem duas categorias de resultados: uma categoria para carros vermelhos e outra para carros azuis. Portanto, em nosso experimento, temos 2-1 = 1 grau de liberdade. Se estivéssemos comparando carros vermelhos, azuis e verdes, teríamos 2 graus de liberdade e assim por diante.

4. Compare os resultados esperados e observados usando o teste do qui-quadrado

Qui-quadrado (escrito "x2") é um valor numérico que mede a diferença entre os valores esperados e observados de um experimento. A equação para o qui-quadrado é x2 = Σ((o-e)2/e) onde "o" é o valor observado e "e" é o valor esperado. Some os resultados da equação dada para todos os resultados possíveis (veja abaixo).

Observe que esta equação inclui o operador de soma Σ (sigma). Em outras palavras, você precisa calcular ((|o-e|-.05)2/e) para cada resultado possível e somar os números para obter o valor do qui-quadrado. Em nosso exemplo, temos dois resultados possíveis - ou o carro que recebeu a penalidade é vermelho ou azul. Então temos que contar ((o-e)2/e) duas vezes - uma para os carros vermelhos e outra para os carros azuis.

Exemplo: Vamos colocar nossos valores esperados e observados na equação x2 = Σ((o-e)2/e). Lembre-se que por causa do operador de soma, precisamos contar ((o-e)2/e) duas vezes - uma para os carros vermelhos e outra para os carros azuis. Faremos este trabalho da seguinte forma:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Escolha um nível de significância

Agora que sabemos o número de graus de liberdade em nosso experimento e sabemos o valor do teste do qui-quadrado, precisamos fazer mais uma coisa antes de encontrarmos nosso valor-p. Precisamos determinar o nível de significância. falando linguagem simples, o nível de significância indica o quanto estamos confiantes em nossos resultados. Um valor baixo para significância corresponde a uma baixa probabilidade de que os resultados experimentais tenham sido obtidos por acaso e vice-versa. Os níveis de significância são escritos como frações decimais (como 0,01), que corresponde à probabilidade de termos obtido os resultados experimentais por acaso (neste caso, a probabilidade disso é de 1%).

Por convenção, os cientistas normalmente definem o nível de significância de seus experimentos para 0,05 ou 5%. Isso significa que os resultados experimentais que atendem a esse critério de significância só poderiam ser obtidos com uma probabilidade de 5% puramente por acaso. Em outras palavras, há 95% de chance de que os resultados tenham sido causados ​​pela forma como o cientista manipulou as variáveis ​​experimentais, e não por acaso. Para a maioria dos experimentos, 95% de confiança de que existe uma relação entre duas variáveis ​​é suficiente para considerar que elas estão “realmente” relacionadas entre si.

Exemplo: Para o nosso exemplo com carros vermelhos e azuis, vamos seguir a convenção entre os cientistas e definir o nível de significância para 0,05.

6. Use uma folha de dados de distribuição qui-quadrado para encontrar seu valor-p

Cientistas e estatísticos usam grandes planilhas para calcular o valor-p de seus experimentos. Os dados da tabela geralmente têm um eixo vertical à esquerda, correspondente ao número de graus de liberdade, e um eixo horizontal na parte superior, correspondente ao valor-p. Use os dados da tabela para encontrar primeiro o número de graus de liberdade e, em seguida, olhe para a série da esquerda para a direita até encontrar o primeiro valor maior que o valor do qui-quadrado. Observe o valor-p correspondente no topo de sua coluna. Seu valor-p está entre este número e o próximo (aquele à esquerda do seu).

As tabelas de distribuição qui-quadrado podem ser obtidas de várias fontes (aqui você pode encontrar uma neste link).

Exemplo: Nosso valor de qui-quadrado foi 3. Como sabemos que há apenas 1 grau de liberdade em nosso experimento, selecionaremos a primeira linha. Vamos da esquerda para a direita ao longo desta linha até encontrarmos um valor maior que 3, nosso valor de teste qui-quadrado. O primeiro que encontramos é 3,84. Observando nossa coluna, vemos que o valor-p correspondente é 0,05. Isso significa que nosso valor-p está entre 0,05 e 0,1 (o próximo valor-p mais alto na tabela).

7. Decida se rejeita ou mantém sua hipótese nula

Como você determinou o valor-p aproximado para seu experimento, você precisa decidir se rejeita ou não a hipótese nula de seu experimento (lembre-se, esta é a hipótese de que as variáveis ​​experimentais que você manipulou não afetaram os resultados observados). Se o seu valor-p for menor que o seu nível de significância, parabéns, você provou que existe uma relação muito provável entre as variáveis ​​que você manipulou e os resultados que você observou. Se seu valor-p for maior que seu nível de significância, você não pode ter certeza se os resultados observados foram devidos ao puro acaso ou à manipulação de suas variáveis.

Exemplo: Nosso valor p está entre 0,05 e 0,1. Isso é claramente não inferior a 0,05, então, infelizmente, não podemos rejeitar nossa hipótese nula. Isso significa que não atingimos um mínimo de 95% de probabilidade de dizer que a polícia de nossa cidade emite multas para carros vermelhos e azuis com probabilidade bem diferente da média nacional.

Em outras palavras, há uma chance de 5-10% de que os resultados que observamos não sejam consequências de uma mudança de localização (análise da cidade, não de todo o país), mas simplesmente um acidente. Como exigimos uma precisão inferior a 5%, não podemos dizer que temos certeza de que a polícia em nossa cidade é menos tendenciosa em relação aos carros vermelhos - há uma pequena (mas estatisticamente significativa) chance de que isso não aconteça.

Nas tabelas de resultados de cálculos estatísticos em trabalhos de conclusão de curso, diploma e teses de mestrado em psicologia, há sempre um indicador "p".

Por exemplo, de acordo com objetivos de pesquisa Foram calculadas diferenças no nível de sentido de vida em meninos e meninas da adolescência.

Significa

Teste U de Mann-Whitney

Nível de significância estatística (p)

Meninos (20 pessoas)

Garotas

(5 pessoas)

Metas

28,9

35,2

17,5

0,027*

Processo

30,1

32,0

38,5

0,435

Resultado

25,2

29,0

29,5

0,164

Locus de controle - "eu"

20,3

23,6

0,067

Locus de controle - "Vida"

30,4

33,8

27,5

0,126

Significado da vida

98,9

111,2

0,103

* - as diferenças são estatisticamente significativas (p0,05)

A coluna da direita indica o valor de "p" e é pelo seu valor que se pode determinar se as diferenças no sentido da vida no futuro em meninos e meninas são significativas ou não. A regra é simples:

  • Se o nível de significância estatística "p" for menor ou igual a 0,05, então concluímos que as diferenças são significativas. Na tabela acima, as diferenças entre meninos e meninas são significativas em relação ao indicador "Objetivos" - sentido de vida no futuro. Nas meninas, esse indicador é estatisticamente significativamente maior do que nos meninos.
  • Se o nível de significância estatística "p" for superior a 0,05, conclui-se que as diferenças não são significativas. Na tabela acima, as diferenças entre meninos e meninas não são significativas para todos os outros indicadores, exceto para o primeiro.

De onde vem o nível de significância estatística "p"

O nível de significância estatística é calculado programa estatístico juntamente com o cálculo do critério estatístico. Nesses programas, você também pode definir um limite crítico para o nível de significância estatística e os indicadores correspondentes serão destacados pelo programa.

Por exemplo, no programa STATISTICA, ao calcular correlações, você pode definir o limite p, por exemplo, 0,05, e todas as relações estatisticamente significativas serão destacadas em vermelho.

Se o cálculo do critério estatístico for realizado manualmente, então o nível de significância "p" é determinado comparando o valor do critério obtido com o valor crítico.

O que o nível de significância estatística "p" mostra

Todos os cálculos estatísticos são aproximados. O nível desta aproximação determina o "r". O nível de significância é escrito como decimais, por exemplo, 0,023 ou 0,965. Se multiplicarmos esse número por 100, obtemos o indicador p em porcentagem: 2,3% e 96,5%. Essas porcentagens refletem a probabilidade de que nossa suposição de uma relação, por exemplo, entre agressividade e ansiedade, esteja errada.

Aquilo é, coeficiente de correlação 0,58 entre agressividade e ansiedade é obtido a um nível de significância estatística de 0,05 ou 5% de probabilidade de erro. O que exatamente isso significa?

A correlação que encontramos significa que o seguinte padrão é observado em nossa amostra: quanto maior a agressividade, maior a ansiedade. Ou seja, se pegarmos dois adolescentes, e um deles terá maior ansiedade que o outro, então, sabendo da correlação positiva, podemos dizer que esse adolescente também terá maior agressividade. Mas como tudo é aproximado em estatística, então, afirmando isso, admitimos que podemos cometer um erro e a probabilidade de erro é de 5%. Ou seja, tendo feito 20 dessas comparações nesse grupo de adolescentes, podemos errar na previsão sobre o nível de agressividade uma vez, conhecendo a ansiedade.

Qual nível de significância estatística é melhor: 0,01 ou 0,05

O nível de significância estatística reflete a probabilidade de erro. Portanto, o resultado em p=0,01 é mais preciso do que em p=0,05.

Na pesquisa psicológica, dois níveis aceitáveis ​​de significância estatística dos resultados são aceitos:

p=0,01 - alta confiabilidade do resultado análise comparativa ou análise de relacionamentos;

p=0,05 - precisão suficiente.

Espero que este artigo o ajude a escrever um artigo de psicologia por conta própria. Se precisar de ajuda, entre em contato (todos os tipos de trabalho em psicologia; cálculos estatísticos).