Cómo calcular el nivel de significación estadística. Explique qué es un nivel de significancia estadística.

Los parámetros de distribución de la muestra determinados por una serie de mediciones son variables aleatorias, por lo tanto, sus desviaciones de los parámetros generales también serán aleatorias. La evaluación de estas desviaciones es de naturaleza probabilística: en el análisis estadístico, solo se puede indicar la probabilidad de un error en particular.

Sea para el parámetro general a derivado de la experiencia estimación imparcial a*. Asignamos una probabilidad b suficientemente grande (tal que un evento con probabilidad b puede considerarse prácticamente seguro) y encontramos tal valor e b = F(b) para el cual

El rango de valores prácticamente posibles del error que ocurre al reemplazar a sobre el a* , será ±e b . Los errores que son grandes en valor absoluto aparecerán solo con una pequeña probabilidad.

llamó Nivel significativo. De lo contrario, la expresión (4.1) puede interpretarse como la probabilidad de que el valor verdadero del parámetro a se encuentra dentro

. (4.3)

La probabilidad b se llama nivel de confianza y caracteriza la fiabilidad de la estimación obtenida. Intervalo yo b= a* ± e b se llama intervalo de confianza. Límites de intervalo a¢ = a* - mi b y a¢¢ = a* + e b se llaman límites de confianza. El intervalo de confianza en un nivel de confianza determinado determina la precisión de la estimación. El valor del intervalo de confianza depende del nivel de confianza con el que se garantiza encontrar el parámetro a dentro del intervalo de confianza: cuanto mayor sea el valor de b, mayor será el intervalo yo b (y el valor de e b). Un aumento en el número de experimentos se manifiesta en una reducción del intervalo de confianza con una probabilidad de confianza constante o en un aumento de la probabilidad de confianza manteniendo el intervalo de confianza.

En la práctica, normalmente se fija el valor de la probabilidad de confianza (0,9; 0,95 o 0,99) y luego se determina el intervalo de confianza del resultado. yo b. Al construir un intervalo de confianza, el problema de la desviación absoluta se resuelve:

Así, si se conociera la ley de distribución de la estimación a* , el problema de determinar el intervalo de confianza se resolvería de forma sencilla. Considere la construcción de un intervalo de confianza para la expectativa matemática de una variable aleatoria normalmente distribuida X con un estándar general conocido s sobre un tamaño de muestra norte. Mejor límite para la expectativa metro es la media de la muestra con la desviación estándar de la media

.

Usando la función de Laplace, obtenemos

. (4.5)

Dada la probabilidad de confianza b, determinamos el valor de la tabla de la función de Laplace (Apéndice 1) . Entonces el intervalo de confianza para la expectativa matemática toma la forma

. (4.7)

De (4.7) se puede ver que la disminución en el intervalo de confianza es inversamente proporcional a la raíz cuadrada del número de experimentos.

Conocer la varianza general nos permite estimar la expectativa matemática incluso para una observación. Si para una variable aleatoria normalmente distribuida X como resultado del experimento, el valor X 1, entonces el intervalo de confianza para la expectativa matemática para la b elegida tiene la forma

dónde tu 1-pags/2 - cuantil de la distribución normal estándar (Apéndice 2).

Ley de distribución de calificaciones a* depende de la ley de distribución de la cantidad X y, en particular, sobre el propio parámetro a. Para sortear esta dificultad, se utilizan dos métodos en estadística matemática:

1) aproximado - en norte³ 50 reemplazar los parámetros desconocidos en la expresión para e b con sus estimaciones, por ejemplo:

2) de una variable aleatoria a* ir a otra variable aleatoria Q * , cuya ley de distribución no depende del parámetro estimado a, pero depende únicamente del tamaño de la muestra. norte y sobre el tipo de ley de distribución de la cantidad X. Las cantidades de este tipo se han estudiado con más detalle para la distribución normal de variables aleatorias. Los cuantiles simétricos suelen utilizarse como límites de confianza para Q¢ y Q¢¢

, (4.9)

o teniendo en cuenta (4.2)

. (4.10)

4.2. Pruebas de hipótesis estadísticas, pruebas de significancia,

errores de primera y segunda especie.

Por debajo hipótesis estadísticas se entienden algunos supuestos sobre las distribuciones de la población general de una u otra variable aleatoria. La prueba de hipótesis se entiende como una comparación de algunos indicadores estadísticos, criterios de verificación (criterios de significación) calculados a partir de la muestra, con sus valores determinados bajo el supuesto de que la hipótesis dada es verdadera. Al probar hipótesis, generalmente se prueba alguna hipótesis. H 0 en comparación con la hipótesis alternativa H 1 .

Para decidir si aceptar o rechazar una hipótesis, se da el nivel de significancia R. Los niveles de significación más utilizados son 0,10, 0,05 y 0,01. De acuerdo con esta probabilidad, utilizando la hipótesis sobre la distribución de la estimación Q * (criterio de significación), se encuentran límites de confianza cuantiles, por regla general, Q simétricos pags/2 y Q 1- pags/2 . números Q pags/2 y Q 1- pags/2 se llaman valores críticos de la hipótesis; Valores Q*< Qpags/2 y Q* > Q 1- pags/2 forman un crítico


el área de la hipótesis (o el área de no aceptación de la hipótesis) (Fig. 12).

Arroz. 12Área crítica Arroz. 13 Comprobación estadística

hipótesis hipótesis

Si Q 0 encontrado en la muestra cae entre Q pags/2 y Q 1- pags/2, entonces la hipótesis admite tal valor como aleatorio y por lo tanto no hay motivos para rechazarlo. Si el valor de Q 0 cae en la región crítica, entonces, según esta hipótesis, es prácticamente imposible. Pero desde que apareció, la hipótesis misma es rechazada.

Hay dos tipos de errores que se pueden cometer al probar hipótesis. error tipo I es eso rechazar una hipótesis que en realidad es cierta. La probabilidad de tal error no es mayor que el nivel de significación aceptado. Error tipo II es eso se acepta la hipótesis, pero en realidad es falsa. La probabilidad de este error es menor cuanto mayor sea el nivel de significación, ya que esto aumenta el número de hipótesis rechazadas. Si la probabilidad de un error de segundo tipo es a, entonces el valor (1 - a) se llama el poder del criterio.

En la fig. 13 muestra dos curvas de la densidad de distribución de la variable aleatoria Q, correspondientes a dos hipótesis H 0 y H una . Si el valor obtenido de la experiencia es Q > Q pags, entonces se rechaza la hipótesis. H 0 y se acepta la hipótesis H 1 , y viceversa, si Q< Qpags.

Área bajo la curva de densidad de probabilidad correspondiente a la validez de la hipótesis H 0 a la derecha del valor Q pags, es igual al nivel de significancia R, es decir, las probabilidades de un error del primer tipo. Área bajo la curva de densidad de probabilidad correspondiente a la validez de la hipótesis H 1 a la izquierda de Q pags, es igual a la probabilidad de error de segundo tipo a, y a la derecha de Q pags- la potencia del criterio (1 - a). Así, cuanto más R, más (1 - a). A la hora de contrastar una hipótesis, intentan elegir entre todos los criterios posibles aquel que, en un determinado nivel de significación, tenga una menor probabilidad de cometer un error de tipo II..

Por lo general, como nivel óptimo de significación al probar hipótesis, utilice pags= 0.05, ya que si la hipótesis que se está probando se acepta con un nivel de significación dado, entonces la hipótesis, por supuesto, debe reconocerse como consistente con los datos experimentales; por otro lado, el uso de este nivel de significación no proporciona motivos para rechazar la hipótesis.

Por ejemplo, se encuentran dos valores de y algún parámetro de muestra, que pueden ser considerados como estimaciones de los parámetros generales a 1 y a 2. Se supone que la diferencia entre y es aleatoria y que los parámetros generales a 1 y a 2 son iguales entre sí, es decir a 1 = a 2. Esta hipótesis se llama nulo, o hipótesis nula. Para probarlo, debe averiguar si la discrepancia entre y es significativa bajo la hipótesis nula. Para ello, normalmente se investiga una variable aleatoria D = – y se comprueba si su diferencia con cero es significativa. A veces es más conveniente considerar el valor / comparándolo con la unidad.

Rechazando la hipótesis nula, aceptan la alternativa, que se divide en dos: > y< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется unilateral, y para comprobarlo, utilice unilateral criterios de significación (a diferencia de los convencionales, bilateral). En este caso, es necesario considerar solo una de las mitades de la región crítica (Fig. 12).

Por ejemplo, R= 0,05 con un criterio de dos colas, se corresponden los valores críticos Q 0,025 y Q 0,975, es decir, Q* que han tomado los valores Q* se consideran significativos (no aleatorios)< Q 0.025 и Q * >Q 0.975 . Con un criterio unilateral, una de estas desigualdades es obviamente imposible (por ejemplo, Q *< Q 0.025) и значимыми будут лишь Q * >Q 0.975 . La probabilidad de la última desigualdad es 0,025 y, por tanto, el nivel de significación será 0,025. Así, si se utilizan los mismos números críticos para la prueba de significación de una cola que para la de dos colas, estos valores corresponderán a la mitad del nivel de significación.

Usualmente, para una prueba de una cola, se toma el mismo nivel de significancia que para una prueba de dos colas, ya que bajo estas condiciones ambas pruebas arrojan el mismo error tipo I. Para ello, se debe derivar una prueba de una cola de una de dos colas, correspondiente al doble del nivel de significación que el aceptado.. Para mantener un nivel de significación para una prueba de una cola R= 0,05, para bilateral hay que tomar R= 0,10, lo que da los valores críticos Q 0,05 y Q 0,95. De estos, para una prueba unilateral, quedará uno, por ejemplo, Q 0.95. El nivel de significación para la prueba de una cola es 0,05. El mismo nivel de significancia para la prueba de dos colas corresponde al valor crítico Q 0.975. Pero Q 0.95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

El nivel de significancia en las estadísticas es un indicador importante que refleja el grado de confianza en la precisión y veracidad de los datos recibidos (predichos). El concepto es ampliamente utilizado en varios campos: desde la investigación sociológica hasta la comprobación estadística de hipótesis científicas.

Definición

El nivel de significación estadística (o resultado estadísticamente significativo) muestra cuál es la probabilidad de ocurrencia aleatoria de los indicadores estudiados. La significación estadística general del fenómeno se expresa mediante el valor p (nivel p). En cualquier experimento u observación, existe la posibilidad de que los datos obtenidos surgieran debido a errores de muestreo. Esto es especialmente cierto para la sociología.

Es decir, un valor es estadísticamente significativo, cuya probabilidad de ocurrencia aleatoria es extremadamente pequeña o tiende a los extremos. El extremo en este contexto es el grado de desviación de las estadísticas de la hipótesis nula (una hipótesis cuya consistencia se prueba con los datos de muestra obtenidos). En la práctica científica, el nivel de significancia se elige antes de la recolección de datos y, por regla general, su coeficiente es 0,05 (5%). Para sistemas donde los valores precisos son críticos, esto puede ser 0.01 (1%) o menos.

Fondo

El concepto de nivel de significación fue introducido por el estadístico y genetista británico Ronald Fisher en 1925 cuando estaba desarrollando una técnica para probar hipótesis estadísticas. Al analizar cualquier proceso, existe una cierta probabilidad de ciertos fenómenos. Surgen dificultades cuando se trabaja con porcentajes pequeños (o no obvios) de probabilidades que caen bajo el concepto de "error de medición".

Al trabajar con estadísticas que no eran lo suficientemente específicas para ser probadas, los científicos se enfrentaban al problema de la hipótesis nula, que “impide” operar con valores pequeños. Fisher propuso que tales sistemas determinen la probabilidad de eventos al 5% (0.05) como un corte de muestra conveniente que permite rechazar la hipótesis nula en los cálculos.

Introducción de un coeficiente fijo

en 1933 científicos jerzy Neumann y Egon Pearson en sus artículos recomendaron establecer un cierto nivel de significación por adelantado (antes de la recopilación de datos). Los ejemplos del uso de estas reglas son claramente visibles durante las elecciones. Supongamos que hay dos candidatos, uno de los cuales es muy popular y el otro no es muy conocido. Es obvio que el primer candidato ganará las elecciones y las posibilidades del segundo tienden a cero. Esforzarse, pero no igualar: siempre existe la posibilidad de fuerza mayor, información sensacionalista, decisiones inesperadas que pueden cambiar los resultados electorales previstos.

Neumann y Pearson acordaron que el nivel de significancia propuesto por Fisher de 0.05 (indicado por el símbolo α) es el más conveniente. Sin embargo, el propio Fischer en 1956 se opuso a fijar este valor. Creía que el nivel de α debería establecerse de acuerdo con las circunstancias específicas. Por ejemplo, en física de partículas es 0,01.

valor p

El término valor p fue utilizado por primera vez por Brownlee en 1960. El nivel P (p-value) es un indicador que está inversamente relacionado con la veracidad de los resultados. El valor p más alto corresponde al nivel más bajo de confianza en la relación muestreada entre las variables.

Este valor refleja la probabilidad de errores asociados con la interpretación de los resultados. Suponga un valor de p = 0,05 (1/20). Muestra una probabilidad del cinco por ciento de que la relación entre las variables encontradas en la muestra sea solo una característica aleatoria de la muestra. Es decir, si esta dependencia está ausente, entonces con experimentos similares repetidos, en promedio, en cada vigésimo estudio, se puede esperar la misma o mayor dependencia entre las variables. A menudo, el nivel p se considera como el "margen" del nivel de error.

Por cierto, el valor p puede no reflejar la relación real entre las variables, sino que solo muestra un cierto valor promedio dentro de los supuestos. En particular, el análisis final de los datos también dependerá de los valores elegidos de este coeficiente. Con p-nivel = 0,05 habrá unos resultados, y con un coeficiente igual a 0,01, otros.

Prueba de hipótesis estadísticas

El nivel de significación estadística es especialmente importante cuando se prueban hipótesis. Por ejemplo, al calcular una prueba de dos colas, el área de rechazo se divide por igual en ambos extremos de la distribución de muestreo (en relación con la coordenada cero) y se calcula la verdad de los datos obtenidos.

Supongamos que, al monitorear un determinado proceso (fenómeno), resulta que la nueva información estadística indica pequeños cambios en relación con los valores anteriores. Al mismo tiempo, las discrepancias en los resultados son pequeñas, no obvias, pero importantes para el estudio. El especialista se enfrenta a un dilema: ¿los cambios realmente ocurren o son errores de muestreo (inexactitud de la medición)?

En este caso, se aplica o se rechaza la hipótesis nula (todo se da de baja como un error, o el cambio en el sistema se reconoce como un hecho consumado). El proceso de resolución del problema se basa en la relación entre la significancia estadística general (valor p) y el nivel de significancia (α). Si nivel p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valores usados

El nivel de significación depende del material analizado. En la práctica, se utilizan los siguientes valores fijos:

  • α = 0,1 (o 10%);
  • α = 0,05 (o 5%);
  • α = 0,01 (o 1%);
  • α = 0,001 (o 0,1%).

Cuanto más precisos sean los cálculos requeridos, menor será el coeficiente α que se utilice. Naturalmente, los pronósticos estadísticos en física, química, productos farmacéuticos y genética requieren mayor precisión que en ciencias políticas y sociología.

Umbrales de significación en áreas específicas

En campos de alta precisión, como la física de partículas y la fabricación, la importancia estadística suele expresarse como la relación de la desviación estándar (indicada por el coeficiente sigma - σ) en relación con una distribución de probabilidad normal (distribución gaussiana). σ es un indicador estadístico que determina la dispersión de los valores de una determinada cantidad en relación con las expectativas matemáticas. Se utiliza para trazar la probabilidad de eventos.

Dependiendo del campo de conocimiento, el coeficiente σ varía mucho. Por ejemplo, al predecir la existencia del bosón de Higgs, el parámetro σ es igual a cinco (σ=5), lo que corresponde al valor p=1/3,5 millones de áreas.

Eficiencia

Hay que tener en cuenta que los coeficientes α y p-value no son características exactas. Cualquiera que sea el nivel de significación en las estadísticas del fenómeno en estudio, no es una base incondicional para aceptar la hipótesis. Por ejemplo, cuanto menor sea el valor de α, mayor será la probabilidad de que la hipótesis que se establezca sea significativa. Sin embargo, existe un riesgo de error, que reduce el poder estadístico (significación) del estudio.

Los investigadores que se centran exclusivamente en resultados estadísticamente significativos pueden sacar conclusiones erróneas. Al mismo tiempo, es difícil verificar su trabajo, ya que aplican suposiciones (que, de hecho, son los valores de α y p-value). Por lo tanto, siempre se recomienda, junto con el cálculo de la significancia estadística, determinar otro indicador: la magnitud del efecto estadístico. El tamaño del efecto es una medida cuantitativa de la fuerza de un efecto.

El valor se llama Estadísticamente significante, si la probabilidad de una ocurrencia puramente aleatoria o incluso valores más extremos es pequeña. Aquí, extremo es el grado de desviación de la hipótesis nula. Se dice que una diferencia es "estadísticamente significativa" si hay datos que es poco probable que ocurran, asumiendo que la diferencia no existe; esta expresión no significa que esta diferencia deba ser grande, importante o significativa en el sentido general de la palabra.

El nivel de significación de una prueba es la noción tradicional de prueba de hipótesis en las estadísticas de frecuencia. Se define como la probabilidad de decidir rechazar la hipótesis nula si, de hecho, la hipótesis nula es verdadera (la decisión se conoce como error de tipo I o decisión de falso positivo). El proceso de decisión a menudo se basa en un valor p (léase "valor pi"): si el valor p es menor que el nivel de significancia, entonces se rechaza la hipótesis nula. Cuanto más pequeño es el valor p, más significativo se dice que es el estadístico de prueba. Cuanto menor sea el valor p, mayor será la razón para rechazar la hipótesis nula.

El nivel de significación generalmente se denota con la letra griega α (alfa). Los niveles de significación populares son 5%, 1% y 0,1%. Si la prueba produce un valor p menor que el nivel α, entonces se rechaza la hipótesis nula. Dichos resultados se denominan informalmente "estadísticamente significativos". Por ejemplo, si alguien dice que "las posibilidades de que suceda es una coincidencia igual a uno en mil", significa un nivel de significación del 0,1 %.

Los diferentes valores del nivel α tienen sus ventajas y desventajas. Los niveles α más pequeños brindan más confianza de que una hipótesis alternativa ya establecida es significativa, pero existe un mayor riesgo de no rechazar una hipótesis nula falsa (error de tipo II o "decisión negativa falsa") y, por lo tanto, menos poder estadístico. La elección del nivel α requiere inevitablemente un compromiso entre significación y potencia y, por lo tanto, entre probabilidades de error de tipo I y tipo II. en doméstico articulos cientificos a menudo se utiliza el término incorrecto "significación" en lugar del término "significación estadística".

ver también

notas

George Casella, Roger L.Berger Prueba de Hipótesis // Inferencia Estadística. -Segunda edicion. - Pacific Grove, CA: Duxbury, 2002. - S. 397. - 660 p. - ISBN 0-534-24312-6


Fundación Wikimedia. 2010 .

Vea cuál es el "Nivel de importancia" en otros diccionarios:

    El número es tan pequeño que se puede considerar casi seguro que un evento con probabilidad α no ocurrirá en un solo experimento. Por lo general, U. z. se fija arbitrariamente, a saber: 0,05, 0,01, y con especial precisión 0,005, etc. En geol. trabajar… … Enciclopedia geológica

    Nivel significativo- criterio estadístico (también llamado “nivel alfa” y denotado por una letra griega) es un límite superior en la probabilidad de un error tipo I (la probabilidad de rechazar una hipótesis nula cuando en realidad es verdadera). Los valores típicos son... Diccionario de Estadística Sociológica

    inglés nivel, significado; Alemán Signifikanzniveau. El grado de riesgo es que el investigador pueda sacar una conclusión equivocada sobre la falacia de los extras, hipótesis basadas en datos de muestra. Antinazi. Enciclopedia de Sociología, 2009 ... Enciclopedia de Sociología

    Nivel significativo- - [L. G. Sumenko. Diccionario Inglés Ruso de Tecnologías de la Información. M .: GP TsNIIS, 2003.] Temas tecnología de la información en general EN nivel de importancia ... Manual del traductor técnico

    Nivel significativo- 3.31 nivel de significancia α: Un valor dado que representa el límite superior de la probabilidad de rechazar una hipótesis estadística cuando esa hipótesis es verdadera. Fuente: GOST R ISO 12491 2011: Materiales y productos de construcción ... ... Diccionario-libro de referencia de términos de documentación normativa y técnica

    NIVEL SIGNIFICATIVO- el concepto de estadística matemática, que refleja el grado de probabilidad de una conclusión errónea con respecto a una hipótesis estadística sobre la distribución de una característica, verificada sobre la base de datos de muestra. En investigación psicológica para un nivel suficiente ... ... Moderno proceso educativo: conceptos y términos básicos

    Nivel significativo- reikšmingumo lygis statusas T sritis automatika atitikmenys: engl. nivel de significancia vok. Signifikanzniveau, n rus. nivel de significación, m pranc. niveau de signifiance, m … Automatikos terminų žodynas

    Nivel significativo- reikšmingumo lygis statusas T sritis fizika atitikmenys: engl. nivel de significancia; nivel de significancia vok. Sicherheitsschwelle, f rus. nivel de significación, fpranc. niveau de significante, m … Fizikos terminų žodynas

    Prueba estadística, ver Nivel de significación... Gran enciclopedia soviética

    NIVEL SIGNIFICATIVO- Ver significado, nivel... Diccionario en psicología

Libros

  • "Ultra secreto" . Lubyanka - a Stalin sobre la situación del país (1922-1934). Volumen 4. Parte 1,. Publicación fundamental de artículos en varios volúmenes - reseñas de información y resúmenes de la OGPU- es único en su importancia científica, valor, contenido y alcance. En este histórico…
  • El programa educativo como herramienta para el sistema de gestión de la calidad de la formación profesional, Tkacheva Galina Viktorovna, Logachev Maxim Sergeevich, Samarin Yury Nikolaevich. La monografía analiza las prácticas existentes de formación del contenido de los programas educativos profesionales. Se determina el lugar, la estructura, el contenido y el nivel de significación...

valor p(ing.) - el valor utilizado al probar hipótesis estadísticas. De hecho, esta es la probabilidad de error al rechazar la hipótesis nula (error de primera especie). La prueba de hipótesis mediante el valor P es una alternativa al procedimiento clásico de prueba a través del valor crítico de la distribución.

Por lo general, el valor P es igual a la probabilidad de que una variable aleatoria con una distribución dada (la distribución del estadístico de prueba bajo la hipótesis nula) tome un valor no menor que el valor real del estadístico de prueba. Wikipedia.

En otras palabras, el valor p es el nivel de significación más pequeño (es decir, la probabilidad de rechazar una hipótesis verdadera) para el cual la estadística de prueba calculada conduce al rechazo de la hipótesis nula. Por lo general, el valor p se compara con los niveles de significación estándar generalmente aceptados de 0,005 o 0,01.

Por ejemplo, si el valor del estadístico de prueba calculado a partir de la muestra corresponde a p = 0,005, esto indica una probabilidad del 0,5% de que la hipótesis sea cierta. Así, cuanto menor sea el valor de p, mejor, ya que aumenta la “fuerza” de rechazar la hipótesis nula y aumenta la significación esperada del resultado.

Una explicación interesante de esto está en Habré.

El análisis estadístico comienza a parecerse a una caja negra: la entrada son datos, la salida es una tabla de resultados principales y un valor p.

¿Qué dice el valor p?

Supongamos que decidimos averiguar si existe una relación entre la adicción a los juegos de computadora sangrientos y la agresividad en la vida real. Para esto, se formaron aleatoriamente dos grupos de escolares de 100 personas cada uno (grupo 1 - fanáticos de los juegos de disparos, grupo 2 - que no juegan juegos de computadora). Por ejemplo, el número de peleas con los compañeros actúa como indicador de agresividad. En nuestro estudio imaginario, resultó que el grupo de escolares-jugadores tuvo conflictos con sus camaradas con mucha más frecuencia. Pero, ¿cómo averiguamos cuán estadísticamente significativas son las diferencias resultantes? ¿Quizás obtuvimos la diferencia observada por accidente? Para responder a estas preguntas, se utiliza el valor p: esta es la probabilidad de obtener diferencias tan o más pronunciadas, siempre que en realidad no haya diferencias en la población general. En otras palabras, esta es la probabilidad de obtener diferencias tales o incluso mayores entre nuestros grupos, siempre que, de hecho, los juegos de computadora no afecten la agresividad de ninguna manera. No suena tan difícil. Sin embargo, esta estadística en particular a menudo se malinterpreta.

ejemplos de valor p

Entonces, comparamos dos grupos de escolares entre sí en términos del nivel de agresividad utilizando una prueba t estándar (o una prueba Chi no paramétrica, el cuadrado de la más apropiada en esta situación) y encontramos que el codiciado p- el nivel de significación es inferior a 0,05 (por ejemplo, 0,04). Pero, ¿qué nos dice realmente el valor de p-significación resultante? Entonces, si el valor p es la probabilidad de obtener diferencias tan pronunciadas o más pronunciadas, siempre que en realidad no haya diferencias en la población general, entonces, ¿cuál cree que es la afirmación correcta?

1. Los juegos de computadora son la causa del comportamiento agresivo con un 96% de probabilidad.
2. La probabilidad de que la agresividad y los juegos de computadora no estén relacionados es 0.04.
3. Si obtuviéramos un p-nivel de significación superior a 0,05, esto significaría que la agresividad y los juegos de ordenador no tienen ninguna relación.
4. La probabilidad de obtener tales diferencias por casualidad es 0,04.
5. Todas las afirmaciones son incorrectas.

Si eliges la quinta opción, ¡tienes toda la razón! Pero, como muestran numerosos estudios, incluso las personas con experiencia significativa en el análisis de datos a menudo malinterpretan los valores p.

Tomemos cada respuesta en orden:

La primera afirmación es un ejemplo del error de correlación: el hecho de que dos variables estén significativamente relacionadas no nos dice nada sobre causa y efecto. Tal vez son las personas más agresivas las que prefieren pasar el tiempo jugando juegos de computadora, y no son los juegos de computadora los que hacen que las personas sean más agresivas.

Esta es una declaración más interesante. Lo que pasa es que inicialmente damos por hecho que realmente no hay diferencias. Y, teniendo esto en cuenta como un hecho, calculamos el valor p. Por lo tanto, la interpretación correcta es: "Suponiendo que la agresividad y los juegos de computadora no están relacionados de ninguna manera, entonces la probabilidad de obtener diferencias tan pronunciadas o incluso más pronunciadas fue de 0.04".

Pero, ¿y si tenemos diferencias insignificantes? ¿Significa esto que no existe relación entre las variables estudiadas? No, solo significa que puede haber diferencias, pero nuestros resultados no nos permitieron detectarlas.

Esto está directamente relacionado con la propia definición del valor p. 0,04 es la probabilidad de obtener estas o incluso más diferencias extremas. En principio, ¡es imposible estimar la probabilidad de obtener exactamente tales diferencias como en nuestro experimento!

Estas son las trampas que pueden ocultarse en la interpretación de un indicador como el valor p. Por lo tanto, es muy importante comprender los mecanismos que subyacen a los métodos de análisis y cálculo de los principales indicadores estadísticos.

¿Cómo encontrar el valor p?

1. Determina los resultados esperados de tu experimento

Por lo general, cuando los científicos realizan un experimento, ya tienen una idea de qué resultados considerar "normales" o "típicos". Esto puede basarse en los resultados experimentales de experimentos anteriores, en conjuntos de datos confiables, en datos de la literatura científica, o el científico puede basarse en otras fuentes. Para su experimento, defina los resultados esperados y expréselos como números.

Ejemplo: Por ejemplo, estudios anteriores han demostrado que en su país, los autos rojos tienen más probabilidades de recibir multas por exceso de velocidad que los autos azules. Por ejemplo, los puntajes promedio muestran una preferencia de 2:1 por los autos rojos sobre los azules. Queremos determinar si la policía tiene el mismo prejuicio contra el color de los autos en tu ciudad. Para ello, analizaremos las multas emitidas por exceso de velocidad. Si tomamos un conjunto aleatorio de 150 multas por exceso de velocidad emitidas a autos rojos o azules, esperaríamos que se emitieran 100 multas a autos rojos y 50 a azules si la policía de nuestra ciudad está tan sesgada hacia el color de los autos como se observa. a través del país.

2. Determina los resultados observables de tu experimento

Ahora que ha determinado los resultados esperados, necesita experimentar y encontrar los valores reales (u "observados"). Nuevamente necesita representar estos resultados como números. Si creamos condiciones experimentales y los resultados observados difieren de los esperados, entonces tenemos dos posibilidades: o esto sucedió por casualidad o esto es causado precisamente por nuestro experimento. El propósito de encontrar el valor p es precisamente determinar si los resultados observados difieren de los esperados de tal manera que no se puede rechazar la "hipótesis nula" - la hipótesis de que no hay relación entre las variables experimentales y las observadas. resultados.

Ejemplo: Por ejemplo, en nuestra ciudad, seleccionamos al azar 150 multas por exceso de velocidad que se emitieron a autos rojos o azules. Determinamos que se emitieron 90 multas a los autos rojos y 60 a los azules. Esto es diferente de los resultados esperados, que son 100 y 50, respectivamente. ¿Nuestro experimento (en este caso, cambiar la fuente de datos de nacional a urbana) produjo este cambio en los resultados, o la policía de nuestra ciudad está sesgada exactamente de la misma manera que el promedio nacional y solo vemos una variación aleatoria? El valor p nos ayudará a determinar esto.

3. Determina el número de grados de libertad de tu experimento

El número de grados de libertad es el grado de variabilidad de su experimento, que está determinado por el número de categorías que está explorando. La ecuación para el número de grados de libertad es Número de grados de libertad = n-1, donde "n" es el número de categorías o variables que está analizando en su experimento.

Ejemplo: en nuestro experimento, hay dos categorías de resultados: una categoría para autos rojos y otra para autos azules. Por lo tanto, en nuestro experimento tenemos 2-1 = 1 grado de libertad. Si estuviéramos comparando autos rojos, azules y verdes, tendríamos 2 grados de libertad, y así sucesivamente.

4. Compare los resultados esperados y observados utilizando la prueba de chi-cuadrado

Chi-cuadrado (escrito "x2") es un valor numérico que mide la diferencia entre los valores esperados y observados de un experimento. La ecuación para el chi-cuadrado es x2 = Σ((o-e)2/e) donde "o" es el valor observado y "e" es el valor esperado. Suma los resultados de la ecuación dada para todos los resultados posibles (ver más abajo).

Tenga en cuenta que esta ecuación incluye el operador de suma Σ (sigma). En otras palabras, debe calcular ((|o-e|-.05)2/e) para cada resultado posible y sumar los números para obtener el valor de chi-cuadrado. En nuestro ejemplo, tenemos dos resultados posibles: el automóvil que recibió la sanción es rojo o azul. Así que tenemos que contar ((o-e)2/e) dos veces: una para los autos rojos y otra para los autos azules.

Ejemplo: Reemplacemos nuestros valores esperados y observados en la ecuación x2 = Σ((o-e)2/e). Recuerda que debido al operador de suma, necesitamos contar ((o-e)2/e) dos veces: una para los autos rojos y otra para los autos azules. Haremos este trabajo de la siguiente manera:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Elija un nivel de importancia

Ahora que conocemos el número de grados de libertad en nuestro experimento y conocemos el valor de la prueba de chi-cuadrado, necesitamos hacer una cosa más antes de que podamos encontrar nuestro valor p. Necesitamos determinar el nivel de significancia. hablando lenguaje simple, el nivel de significación indica la confianza que tenemos en nuestros resultados. Un valor bajo de significancia corresponde a una probabilidad baja de que los resultados experimentales se hayan obtenido por casualidad, y viceversa. Los niveles de significación se escriben como fracciones decimales (como 0,01), que corresponde a la probabilidad de que obtuviéramos los resultados experimentales por casualidad (en este caso, la probabilidad de que sea del 1%).

Por convención, los científicos suelen establecer el nivel de significación de sus experimentos en 0,05 o 5%. Esto significa que los resultados experimentales que cumplen con dicho criterio de significancia solo podrían obtenerse con una probabilidad del 5% por pura casualidad. En otras palabras, hay un 95 % de probabilidad de que los resultados hayan sido causados ​​por la forma en que el científico manipuló las variables experimentales, y no por casualidad. Para la mayoría de los experimentos, un 95% de confianza en que existe una relación entre dos variables es suficiente para considerar que están “realmente” relacionadas entre sí.

Ejemplo: para nuestro ejemplo con autos rojos y azules, sigamos la convención entre los científicos y establezcamos el nivel de significancia en 0.05.

6. Use una hoja de datos de distribución de chi-cuadrado para encontrar su valor p

Los científicos y estadísticos usan hojas de cálculo grandes para calcular el valor p de sus experimentos. Los datos de la tabla suelen tener un eje vertical a la izquierda, que corresponde al número de grados de libertad, y un eje horizontal en la parte superior, que corresponde al valor p. Usa los datos de la tabla para encontrar primero tu número de grados de libertad, luego mira tu serie de izquierda a derecha hasta que encuentres el primer valor mayor que tu valor de chi-cuadrado. Mire el valor p correspondiente en la parte superior de su columna. Tu valor p está entre este número y el siguiente (el que está a la izquierda del tuyo).

Las tablas de distribución de chi-cuadrado se pueden obtener de muchas fuentes (aquí puede encontrar una en este enlace).

Ejemplo: nuestro valor de chi-cuadrado fue 3. Dado que sabemos que solo hay 1 grado de libertad en nuestro experimento, seleccionaremos la primera fila. Vamos de izquierda a derecha a lo largo de esta línea hasta que encontramos un valor mayor que 3, nuestro valor de prueba de chi-cuadrado. El primero que encontramos es 3,84. Mirando nuestra columna, vemos que el valor p correspondiente es 0.05. Esto significa que nuestro valor p está entre 0,05 y 0,1 (el siguiente valor p más alto de la tabla).

7. Decide si rechazas o mantienes tu hipótesis nula

Dado que ha determinado el valor p aproximado para su experimento, debe decidir si rechaza o no la hipótesis nula de su experimento (recuerde, esta es la hipótesis de que las variables experimentales que manipuló no afectaron los resultados que observó). Si su valor p es menor que su nivel de significación, felicidades, ha demostrado que existe una relación muy probable entre las variables que manipuló y los resultados que observó. Si su valor p es más alto que su nivel de significancia, no puede estar seguro de si los resultados que observó se debieron al puro azar o a la manipulación de sus variables.

Ejemplo: Nuestro valor p está entre 0,05 y 0,1. Claramente, esto no es menos de 0.05, por lo que lamentablemente no podemos rechazar nuestra hipótesis nula. Esto significa que no hemos alcanzado un mínimo del 95% de probabilidad de decir que la policía de nuestra ciudad emite multas a los autos rojos y azules con una probabilidad bastante diferente al promedio nacional.

En otras palabras, hay un 5-10% de posibilidades de que los resultados que observamos no sean consecuencia de un cambio de ubicación (análisis de la ciudad, no de todo el país), sino simplemente un accidente. Dado que requerimos una precisión de menos del 5 %, no podemos decir que estamos seguros de que la policía de nuestra ciudad tenga menos prejuicios hacia los autos rojos; existe una pequeña (pero estadísticamente significativa) posibilidad de que este no sea el caso.

En las tablas de resultados de cálculos estadísticos en trabajos finales, diplomas y tesis de maestría en psicología, siempre hay un indicador "p".

Por ejemplo, de acuerdo con investigar objetivos Se calcularon las diferencias en el nivel de sentido de la vida en niños y niñas de la adolescencia.

Significar

Prueba U de Mann-Whitney

Nivel de significación estadística (p)

Chicos (20 personas)

Muchachas

(5 personas)

Metas

28,9

35,2

17,5

0,027*

Proceso

30,1

32,0

38,5

0,435

Resultado

25,2

29,0

29,5

0,164

Locus de control - "yo"

20,3

23,6

0,067

Lugar de control - "Vida"

30,4

33,8

27,5

0,126

Sentido de la vida

98,9

111,2

0,103

* - las diferencias son estadísticamente significativas (p0,05)

La columna de la derecha indica el valor de "p" y es por su valor que se puede determinar si las diferencias en el significado de la vida en el futuro en niños y niñas son significativas o no significativas. La regla es sencilla:

  • Si el nivel de significación estadística "p" es menor o igual a 0,05, entonces concluimos que las diferencias son significativas. En la tabla anterior, las diferencias entre niños y niñas son significativas en relación con el indicador "Objetivos": significado de la vida en el futuro. En las niñas, este indicador es estadísticamente significativamente más alto que en los niños.
  • Si el nivel de significancia estadística "p" es mayor a 0,05, entonces se concluye que las diferencias no son significativas. En la tabla anterior, las diferencias entre niños y niñas no son significativas para todos los demás indicadores, excepto para el primero.

¿De dónde viene el nivel de significancia estadística "p"?

El nivel de significación estadística se calcula programa estadistico junto con el cálculo del criterio estadístico. En estos programas, también puede establecer un límite crítico para el nivel de significación estadística y el programa resaltará los indicadores correspondientes.

Por ejemplo, en el programa STATISTICA, al calcular las correlaciones, puede establecer el límite p, por ejemplo, 0,05, y todas las relaciones estadísticamente significativas se resaltarán en rojo.

Si el cálculo del criterio estadístico se realiza manualmente, entonces el nivel de significación "p" se determina comparando el valor del criterio obtenido con el valor crítico.

¿Qué muestra el nivel de significación estadística "p"?

Todos los cálculos estadísticos son aproximados. El nivel de esta aproximación determina la "r". El nivel de significación se escribe como decimales, por ejemplo, 0,023 o 0,965. Si multiplicamos este número por 100, obtenemos el indicador p como porcentaje: 2,3% y 96,5%. Estos porcentajes reflejan la probabilidad de que nuestra suposición de una relación, por ejemplo, entre agresividad y ansiedad, sea incorrecta.

Eso es, coeficiente de correlación Se obtiene un 0,58 entre agresividad y ansiedad a un nivel de significación estadística de 0,05 o una probabilidad de error del 5%. ¿Qué significa esto exactamente?

La correlación que encontramos hace que en nuestra muestra se observe el siguiente patrón: a mayor agresividad, mayor ansiedad. Es decir, si tomamos dos adolescentes, y uno de ellos tendrá mayor ansiedad que el otro, entonces, conociendo la correlación positiva, podemos decir que este adolescente también tendrá mayor agresividad. Pero como todo es aproximado en estadística, al afirmar esto, admitimos que podemos cometer un error, y la probabilidad de error es del 5%. Es decir, habiendo realizado 20 comparaciones de este tipo en este grupo de adolescentes, podemos equivocarnos con el pronóstico sobre el nivel de agresividad una vez, conociendo la ansiedad.

Qué nivel de significación estadística es mejor: 0,01 o 0,05

El nivel de significación estadística refleja la probabilidad de error. Por lo tanto, el resultado en p=0,01 es más preciso que en p=0,05.

En la investigación psicológica se aceptan dos niveles aceptables de significación estadística de los resultados:

p=0,01 - alta fiabilidad del resultado análisis comparativo o análisis de relaciones;

p=0,05 - precisión suficiente.

Espero que este artículo te ayude a escribir un artículo de psicología por tu cuenta. Si necesita ayuda, comuníquese con (todos los tipos de trabajo en psicología; cálculos estadísticos).