Comment calculer le niveau de signification statistique. Expliquer ce qu'est un niveau de signification statistique

Les paramètres de distribution d'échantillon déterminés par une série de mesures sont des variables aléatoires, par conséquent, leurs écarts par rapport aux paramètres généraux seront également aléatoires. L'évaluation de ces écarts est de nature probabiliste - dans l'analyse statistique, on ne peut qu'indiquer la probabilité d'une erreur particulière.

Soit pour le paramètre général un dérivé de l'expérience estimation impartiale un*. Nous attribuons une probabilité b suffisamment grande (pour qu'un événement de probabilité b puisse être considéré comme pratiquement certain) et trouvons une telle valeur e b = F(b) pour lequel

La plage de valeurs pratiquement possibles de l'erreur qui se produit lors du remplacement un sur le un* , sera ±e b . Les erreurs qui sont importantes en valeur absolue n'apparaîtront qu'avec une faible probabilité.

appelé niveau de signification. Sinon, l'expression (4.1) peut être interprétée comme la probabilité que la vraie valeur du paramètre un repose dans

. (4.3)

La probabilité b est appelée un niveau de confiance et caractérise la fiabilité de l'estimation obtenue. Intervalle je b= un* ± e b est appelé Intervalle de confiance. Limites d'intervalle un¢ = un* - e b et un¢¢ = un* + e b sont appelés limites de confiance. L'intervalle de confiance à un niveau de confiance donné détermine la précision de l'estimation. La valeur de l'intervalle de confiance dépend du niveau de confiance avec lequel le paramètre est garanti d'être trouvé unà l'intérieur de l'intervalle de confiance : plus la valeur de b est grande, plus l'intervalle est grand je b (et la valeur de e b). Une augmentation du nombre d'expériences se traduit par une diminution de l'intervalle de confiance avec une probabilité de confiance constante ou par une augmentation de la probabilité de confiance tout en maintenant l'intervalle de confiance.

En pratique, on fixe généralement la valeur de la probabilité de confiance (0,9 ; 0,95 ou 0,99) puis on détermine l'intervalle de confiance du résultat je b. Lors de la construction d'un intervalle de confiance, le problème de l'écart absolu est résolu :

Ainsi, si la loi de distribution de l'estimation était connue un* , le problème de la détermination de l'intervalle de confiance serait résolu simplement. Considérons la construction d'un intervalle de confiance pour l'espérance mathématique d'une variable aléatoire normalement distribuée X avec une norme générale connue s sur une taille d'échantillon n. Meilleur lié à l'attente m est la moyenne de l'échantillon avec l'écart type de la moyenne

.

En utilisant la fonction de Laplace, on obtient

. (4.5)

Étant donné la probabilité de confiance b, nous déterminons la valeur à partir du tableau de la fonction de Laplace (Annexe 1) . Alors l'intervalle de confiance pour l'espérance mathématique prend la forme

. (4.7)

D'après (4.7), on peut voir que la diminution de l'intervalle de confiance est inversement proportionnelle à la racine carrée du nombre d'expériences.

Connaître la variance générale nous permet d'estimer l'espérance mathématique même pour une observation. Si pour une variable aléatoire normalement distribuée Xà la suite de l'expérience, la valeur X 1 , alors l'intervalle de confiance pour l'espérance mathématique pour le b choisi a la forme

tu 1-p/2 - quantile de la distribution normale standard (Annexe 2).

Loi de répartition des notes un* dépend de la loi de distribution de la grandeur X et, en particulier, sur le paramètre lui-même un. Pour contourner cette difficulté, deux méthodes sont utilisées en statistique mathématique :

1) approximatif - à n³ 50 remplacer les paramètres inconnus dans l'expression de e b par leurs estimations, par exemple :

2) à partir d'une variable aléatoire un* passer à une autre variable aléatoire Q * , dont la loi de distribution ne dépend pas du paramètre estimé un, mais ne dépend que de la taille de l'échantillon. n et sur le type de loi de distribution de la grandeur X. Les grandeurs de ce genre ont été étudiées plus en détail pour la distribution normale des variables aléatoires. Les quantiles symétriques sont généralement utilisés comme limites de confiance pour Q¢ et Q¢¢

, (4.9)

ou en tenant compte de (4.2)

. (4.10)

4.2. Tester des hypothèses statistiques, des tests de signification,

erreurs du premier et du second type.

En dessous de hypothèses statistiques certaines hypothèses sur les distributions de la population générale de l'une ou l'autre variable aléatoire sont comprises. Le test d'hypothèse est compris comme une comparaison de certains indicateurs statistiques, critères de vérification (critères d'importance) calculé à partir de l'échantillon, avec leurs valeurs déterminées sous l'hypothèse que l'hypothèse donnée est vraie. Lors du test d'hypothèses, certaines hypothèses sont généralement testées. H 0 par rapport à l'hypothèse alternative H 1 .

Pour décider d'accepter ou de rejeter une hypothèse, le niveau de signification est donné R. Les niveaux de signification les plus couramment utilisés sont 0,10, 0,05 et 0,01. Selon cette probabilité, en utilisant l'hypothèse sur la distribution de l'estimation Q * (critère de signification), les limites de confiance des quantiles sont généralement symétriques Q p/2 et Q 1- p/2 . Numéros Q p/2 et Q 1- p/2 sont appelés valeurs critiques de l'hypothèse; Valeurs Q *< Qp/2 et Q * > Q 1- p/2 forment une critique


la zone de l'hypothèse (ou la zone de non-acceptation de l'hypothèse) (Fig. 12).

Riz. 12. Zone critique Riz. 13. Vérification statistique

hypothèses. hypothèses.

Si Q 0 trouvé dans l'échantillon se situe entre Q p/2 et Q 1- p/2 , alors l'hypothèse admet une telle valeur comme aléatoire et il n'y a donc aucune raison de la rejeter. Si la valeur de Q 0 tombe dans la région critique, alors selon cette hypothèse, c'est pratiquement impossible. Mais depuis qu'elle est apparue, l'hypothèse elle-même est rejetée.

Deux types d'erreurs peuvent être commises lors du test d'hypothèses. Erreur de type I est-ce rejeter une hypothèse qui est en réalité vraie. La probabilité d'une telle erreur n'est pas supérieure au niveau de signification accepté. Erreur de type II est-ce l'hypothèse est acceptée, mais en fait elle est fausse. La probabilité de cette erreur est d'autant plus faible que le niveau de signification est élevé, car cela augmente le nombre d'hypothèses rejetées. Si la probabilité d'une erreur de seconde espèce est a, alors la valeur (1 - a) est appelée la puissance du critère.

Sur la fig. 13 montre deux courbes de la densité de distribution de la variable aléatoire Q, correspondant à deux hypothèses H 0 et H une . Si la valeur obtenue par expérience est Q > Q p, alors l'hypothèse est rejetée. H 0 et l'hypothèse est acceptée H 1 , et vice versa, si Q< Qp.

Aire sous la courbe de densité de probabilité correspondant à la validité de l'hypothèse H 0 à droite de la valeur Q p, est égal au niveau de signification R, c'est-à-dire les probabilités d'une erreur de première espèce. Aire sous la courbe de densité de probabilité correspondant à la validité de l'hypothèse H 1 à gauche de Q p, est égal à la probabilité d'erreur de seconde espèce a, et à droite de Q p- la puissance du critère (1 - a). Ainsi, plus R, plus (1 - a). Lorsqu'ils testent une hypothèse, ils essaient de choisir parmi tous les critères possibles celui qui, à un niveau de signification donné, a la plus faible probabilité d'erreur de type II..

Habituellement, comme niveau de signification optimal lors du test d'hypothèses, utilisez p= 0,05, car si l'hypothèse testée est acceptée avec un niveau de signification donné, alors l'hypothèse, bien sûr, doit être reconnue comme cohérente avec les données expérimentales ; en revanche, l'utilisation de ce niveau de signification ne permet pas de rejeter l'hypothèse.

Par exemple, deux valeurs de et un paramètre d'échantillon sont trouvés, qui peuvent être considérés comme des estimations des paramètres généraux un 1 et un 2. On suppose que la différence entre et est aléatoire et que les paramètres généraux un 1 et un 2 sont égaux entre eux, c'est-à-dire un 1 = un 2. Cette hypothèse est appelée nul, ou hypothèse nulle. Pour le tester, vous devez savoir si l'écart entre et est significatif sous l'hypothèse nulle. Pour ce faire, on étudie généralement une variable aléatoire D = – et vérifie si sa différence par rapport à zéro est significative. Il est parfois plus commode de considérer la valeur / en la comparant à l'unité.

Rejetant l'hypothèse nulle, ils acceptent l'alternative, qui se scinde en deux : > et< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется unilatéral, et pour le vérifier, utilisez unilatéral critères d'importance (par opposition aux critères conventionnels, bilatéral). Dans ce cas, il est nécessaire de ne considérer qu'une des moitiés de la région critique (Fig. 12).

Par exemple, R= 0,05 avec un critère bilatéral, les valeurs critiques Q 0,025 et Q 0,975 correspondent, c'est-à-dire que Q* ayant pris les valeurs Q* sont considérées comme significatives (non aléatoires)< Q 0.025 и Q * >Q 0,975 . Avec un critère unilatéral, une de ces inégalités est évidemment impossible (par exemple, Q *< Q 0.025) и значимыми будут лишь Q * >Q 0,975 . La probabilité de la dernière inégalité est de 0,025 et donc le niveau de signification sera de 0,025. Ainsi, si les mêmes nombres critiques sont utilisés pour le test de signification unilatéral que pour le test bilatéral, ces valeurs correspondront à la moitié du niveau de signification.

Habituellement, pour un test unilatéral, le même niveau de signification est pris que pour un test bilatéral, car dans ces conditions, les deux tests fournissent la même erreur de type I. Pour ce faire, un test unilatéral doit être dérivé d'un test bilatéral, correspondant à deux fois le niveau de signification que celui accepté. Pour maintenir un niveau de signification pour un test unilatéral R= 0,05, pour les bilatéraux il faut prendre R= 0,10, ce qui donne les valeurs critiques Q 0,05 et Q 0,95. Parmi ceux-ci, pour un test unilatéral, un restera, par exemple, Q 0,95. Le seuil de signification pour le test unilatéral est de 0,05. Le même niveau de signification pour le test bilatéral correspond à la valeur critique Q 0,975. Mais Q 0,95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

Le niveau de signification des statistiques est un indicateur important qui reflète le degré de confiance dans l'exactitude et la véracité des données reçues (prédites). Le concept est largement utilisé dans divers domaines : de la recherche sociologique au test statistique d'hypothèses scientifiques.

Définition

Le niveau de signification statistique (ou résultat statistiquement significatif) indique quelle est la probabilité d'occurrence aléatoire des indicateurs étudiés. La signification statistique globale du phénomène est exprimée par la valeur p (niveau p). Dans toute expérience ou observation, il est possible que les données obtenues soient dues à des erreurs d'échantillonnage. C'est particulièrement vrai pour la sociologie.

Autrement dit, une valeur est statistiquement significative, dont la probabilité d'occurrence aléatoire est extrêmement faible ou tend vers les extrêmes. L'extrême dans ce contexte est le degré d'écart des statistiques par rapport à l'hypothèse nulle (une hypothèse dont la cohérence avec les données d'échantillon obtenues est testée). Dans la pratique scientifique, le niveau de signification est choisi avant la collecte des données et, en règle générale, son coefficient est de 0,05 (5%). Pour les systèmes où des valeurs précises sont essentielles, cela peut être de 0,01 (1 %) ou moins.

Arrière plan

Le concept de niveau de signification a été introduit par le statisticien et généticien britannique Ronald Fisher en 1925 alors qu'il développait une technique pour tester des hypothèses statistiques. Lors de l'analyse de tout processus, il existe une certaine probabilité de certains phénomènes. Des difficultés surviennent lorsque l'on travaille avec de petits pourcentages (ou non évidents) de probabilités qui relèvent du concept d'"erreur de mesure".

Lorsqu'ils travaillaient avec des statistiques qui n'étaient pas suffisamment spécifiques pour être testées, les scientifiques étaient confrontés au problème de l'hypothèse nulle, qui « empêche » de fonctionner avec de petites valeurs. Fisher a proposé pour de tels systèmes de déterminer la probabilité des événements à 5% (0,05) comme seuil d'échantillonnage pratique qui permet de rejeter l'hypothèse nulle dans les calculs.

Introduction d'un coefficient fixe

En 1933 Scientifiques de Jerzy Neumann et Egon Pearson dans leurs articles ont recommandé de fixer un certain niveau de signification à l'avance (avant la collecte des données). Des exemples d'utilisation de ces règles sont clairement visibles lors des élections. Supposons qu'il y ait deux candidats, dont l'un est très populaire et l'autre peu connu. Il est évident que le premier candidat remportera l'élection, et les chances du second tendent vers zéro. Efforcez-vous - mais pas d'égal à égal : il y a toujours la possibilité d'un cas de force majeure, d'informations sensationnelles, de décisions inattendues qui peuvent modifier les résultats électoraux prévus.

Neumann et Pearson ont convenu que le niveau de signification proposé par Fisher de 0,05 (désigné par le symbole α) est le plus pratique. Cependant, Fischer lui-même en 1956 s'est opposé à la fixation de cette valeur. Il pensait que le niveau de α devait être fixé en fonction de circonstances spécifiques. Par exemple, en physique des particules, il est de 0,01.

valeur p

Le terme valeur p a été utilisé pour la première fois par Brownlee en 1960. Le niveau P (p-value) est un indicateur inversement lié à la véracité des résultats. La valeur de p la plus élevée correspond au niveau de confiance le plus bas dans la relation échantillonnée entre les variables.

Cette valeur reflète la probabilité d'erreurs associées à l'interprétation des résultats. Supposons que la valeur p = 0,05 (1/20). Il montre une probabilité de cinq pour cent que la relation entre les variables trouvées dans l'échantillon ne soit qu'une caractéristique aléatoire de l'échantillon. Autrement dit, si cette dépendance est absente, alors avec des expériences similaires répétées, en moyenne, dans chaque vingtième étude, on peut s'attendre à une dépendance identique ou supérieure entre les variables. Souvent, le niveau p est considéré comme la "marge" du niveau d'erreur.

Soit dit en passant, la valeur p peut ne pas refléter la relation réelle entre les variables, mais ne montre qu'une certaine valeur moyenne dans les hypothèses. En particulier, l'analyse finale des données dépendra également des valeurs choisies de ce coefficient. Avec p-level = 0,05 il y aura des résultats, et avec un coefficient égal à 0,01, d'autres.

Tester des hypothèses statistiques

Le niveau de signification statistique est particulièrement important lors du test des hypothèses. Par exemple, lors du calcul d'un test bilatéral, la zone de rejet est divisée également aux deux extrémités de la distribution d'échantillonnage (par rapport à la coordonnée zéro) et la vérité des données obtenues est calculée.

Supposons que lors de la surveillance d'un certain processus (phénomène), il s'avère que de nouvelles informations statistiques indiquent de petits changements par rapport aux valeurs précédentes. Dans le même temps, les écarts dans les résultats sont faibles, pas évidents, mais importants pour l'étude. Le spécialiste est confronté à un dilemme : les changements se produisent-ils réellement ou s'agit-il d'erreurs d'échantillonnage (imprécision de mesure) ?

Dans ce cas, l'hypothèse nulle est appliquée ou rejetée (tout est radié comme une erreur, ou le changement de système est reconnu comme un fait accompli). Le processus de résolution du problème est basé sur le rapport entre la signification statistique globale (valeur p) et le niveau de signification (α). Si niveau p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valeurs utilisées

Le niveau de signification dépend du matériau analysé. En pratique, les valeurs fixes suivantes sont utilisées :

  • α = 0,1 (ou 10 %) ;
  • α = 0,05 (ou 5 %) ;
  • α = 0,01 (ou 1 % );
  • α = 0,001 (ou 0,1 %).

Plus les calculs sont précis, plus le coefficient α est petit. Naturellement, les prévisions statistiques en physique, en chimie, en pharmacie et en génétique exigent une plus grande précision qu'en sciences politiques et en sociologie.

Seuils de signification dans des domaines spécifiques

Dans des domaines de haute précision tels que la physique des particules et la fabrication, la signification statistique est souvent exprimée comme le rapport de l'écart type (désigné par le coefficient sigma - σ) par rapport à une distribution de probabilité normale (distribution gaussienne). σ est un indicateur statistique qui détermine la dispersion des valeurs d'une certaine quantité par rapport aux attentes mathématiques. Utilisé pour tracer la probabilité des événements.

Selon le domaine de connaissance, le coefficient σ varie fortement. Par exemple, lors de la prédiction de l'existence du boson de Higgs, le paramètre σ est égal à cinq (σ=5), ce qui correspond à la p-value=1/3,5 millions de zones.

Efficacité

Il faut tenir compte du fait que les coefficients α et p-value ne sont pas des caractéristiques exactes. Quel que soit le niveau de significativité dans les statistiques du phénomène étudié, ce n'est pas une base inconditionnelle pour accepter l'hypothèse. Par exemple, plus la valeur de α est petite, plus grande est la probabilité que l'hypothèse en cours d'établissement soit significative. Cependant, il existe un risque d'erreur, ce qui réduit la puissance statistique (significativité) de l'étude.

Les chercheurs qui se concentrent exclusivement sur des résultats statistiquement significatifs peuvent tirer des conclusions erronées. Dans le même temps, il est difficile de revérifier leur travail, car ils appliquent des hypothèses (qui, en fait, sont les valeurs de α et p-value). Par conséquent, il est toujours recommandé, parallèlement au calcul de la signification statistique, de déterminer un autre indicateur - l'ampleur de l'effet statistique. La taille de l'effet est une mesure quantitative de la force d'un effet.

La valeur est appelée statistiquement significatif, si la probabilité d'une occurrence purement aléatoire de celui-ci ou même de valeurs plus extrêmes est faible. Ici, extrême est le degré d'écart par rapport à l'hypothèse nulle. Une différence est dite « statistiquement significative » s'il existe des données qui ne se produiraient probablement pas, en supposant que la différence n'existe pas ; cette expression ne signifie pas que cette différence doit être grande, importante ou significative au sens général du terme.

Le niveau de signification d'un test est la notion traditionnelle de test d'hypothèse dans les statistiques de fréquence. Il est défini comme la probabilité de décider de rejeter l'hypothèse nulle si, en fait, l'hypothèse nulle est vraie (la décision est connue sous le nom d'erreur de type I, ou décision faussement positive.) Le processus de décision repose souvent sur une valeur p (lire "pi-value") : si la p-value est inférieure au niveau de signification, alors l'hypothèse nulle est rejetée. Plus la valeur de p est petite, plus la statistique de test est dite significative. Plus la valeur de p est petite, plus la raison de rejeter l'hypothèse nulle est forte.

Le niveau de signification est généralement désigné par la lettre grecque α (alpha). Les niveaux de signification populaires sont de 5 %, 1 % et 0,1 %. Si le test produit une valeur p inférieure au niveau α, l'hypothèse nulle est rejetée. De tels résultats sont officieusement qualifiés de "statistiquement significatifs". Par exemple, si quelqu'un dit que "les chances que ce qui s'est passé soient une coïncidence égale à une sur mille", cela signifie un niveau de signification de 0,1%.

Différentes valeurs du niveau α ont leurs avantages et leurs inconvénients. Des niveaux α plus petits donnent plus de confiance qu'une hypothèse alternative déjà établie est significative, mais il y a un plus grand risque de ne pas rejeter une fausse hypothèse nulle ( erreur de type II , ou « fausse décision négative »), et donc moins de puissance statistique. Le choix du niveau α nécessite inévitablement un compromis entre la signification et la puissance, et donc entre les probabilités d'erreur de type I et de type II. En domestique articles scientifiques souvent, le terme incorrect « significativité » est utilisé à la place du terme « significativité statistique ».

voir également

Remarques

George Casella, Roger L.Berger Test d'hypothèses // Inférence statistique . -Deuxième édition. - Pacific Grove, Californie : Duxbury, 2002. - S. 397. - 660 p. - ISBN 0-534-24312-6


Fondation Wikimédia. 2010 .

Voyez ce qu'est le "niveau de signification" dans d'autres dictionnaires :

    Le nombre est si petit qu'il peut être considéré comme presque certain qu'un événement avec probabilité α ne se produira pas dans une seule expérience. Habituellement U. z. est fixé arbitrairement, à savoir : 0,05, 0,01, et avec une précision particulière 0,005, etc. En géol. travailler… … Encyclopédie géologique

    niveau de signification- critère statistique (il est aussi appelé « niveau alpha » et désigné par une lettre grecque) est une borne supérieure sur la probabilité d'une erreur de type I (probabilité de rejeter une hypothèse nulle alors qu'elle est effectivement vraie). Les valeurs typiques sont... Dictionnaire de statistiques sociologiques

    Anglais niveau, importance ; Allemand Niveau significatif. Le degré de risque est que le chercheur puisse tirer la mauvaise conclusion sur l'erreur des extras, des hypothèses basées sur des données d'échantillon. Antinazi. Encyclopédie de sociologie, 2009... Encyclopédie de sociologie

    niveau de signification- - [L.G. Sumenko. Dictionnaire anglais russe des technologies de l'information. M.: GP TsNIIS, 2003.] Sujets technologie de l'information en général EN niveau d'importance ... Manuel du traducteur technique

    niveau de signification- 3.31 niveau de signification α : valeur donnée représentant la limite supérieure de la probabilité de rejeter une hypothèse statistique lorsque cette hypothèse est vraie. Source : GOST R ISO 12491 2011 : Matériaux et produits de construction. ... ... Dictionnaire-ouvrage de référence des termes de la documentation normative et technique

    NIVEAU DE SIGNIFICATION- le concept de statistique mathématique, reflétant le degré de probabilité d'une conclusion erronée concernant une hypothèse statistique sur la distribution d'une caractéristique, vérifiée sur la base de données d'échantillon. En recherche psychologique pour un niveau suffisant ... ... Moderne processus éducatif: concepts et termes de base

    niveau de signification- reikšmingumo lygis statusas T sritis automatika atitikmenys : engl. niveau de signification vok. Signifikanzniveau, n rus. niveau de signification, m pranc. niveau de signifiance, m … Automatikos terminų žodynas

    niveau de signification- reikšmingumo lygis statusas T sritis fizika atitikmenys : engl. niveau de signification; niveau de signification vok. Sicherheitsschwelle, f rus. seuil de signification, fpranc. niveau de signification, m … Fizikos terminų žodynas

    Test statistique, voir Niveau de signification... Grande Encyclopédie soviétique

    NIVEAU DE SIGNIFICATION- Voir l'importance, le niveau... Dictionnaire en psychologie

Livres

  • "Top secret" . Loubianka - à Staline sur la situation dans le pays (1922-1934). Tome 4. Partie 1,. Publication fondamentale d'articles en plusieurs volumes - revues d'informations et résumés de l'OGPU - est unique par son importance scientifique, sa valeur, son contenu et sa portée. Dans cet historique…
  • Programme éducatif en tant qu'outil pour le système de gestion de la qualité de l'enseignement professionnel, Tkacheva Galina Viktorovna, Logachev Maxim Sergeevich, Samarin Yury Nikolaevich. La monographie analyse les pratiques existantes de formation du contenu des programmes de formation professionnelle. Le lieu, la structure, le contenu et le niveau d'importance sont déterminés ...

valeur p(eng.) - la valeur utilisée lors du test des hypothèses statistiques. En fait, il s'agit de la probabilité d'erreur lors du rejet de l'hypothèse nulle (erreur de première espèce). Le test d'hypothèse à l'aide de la valeur P est une alternative à la procédure de test classique via la valeur critique de la distribution.

Habituellement, la valeur P est égale à la probabilité qu'une variable aléatoire avec une distribution donnée (la distribution de la statistique de test sous l'hypothèse nulle) prenne une valeur non inférieure à la valeur réelle de la statistique de test. Wikipédia.

En d'autres termes, la valeur de p est le plus petit niveau de signification (c'est-à-dire la probabilité de rejeter une hypothèse vraie) pour lequel la statistique de test calculée conduit au rejet de l'hypothèse nulle. En règle générale, la valeur de p est comparée aux niveaux de signification standard généralement acceptés de 0,005 ou 0,01.

Par exemple, si la valeur de la statistique de test calculée à partir de l'échantillon correspond à p = 0,005, cela indique une probabilité de 0,5 % que l'hypothèse soit vraie. Ainsi, plus la valeur de p est petite, mieux c'est, car elle augmente la «force» de rejeter l'hypothèse nulle et augmente la signification attendue du résultat.

Une explication intéressante à ce sujet se trouve sur Habré.

L'analyse statistique commence à ressembler à une boîte noire : l'entrée est constituée de données, la sortie est un tableau des principaux résultats et une valeur de p.

Que dit la valeur p ?

Supposons que nous décidions de découvrir s'il existe une relation entre la dépendance aux jeux informatiques sanglants et l'agressivité dans la vie réelle. Pour cela, deux groupes d'écoliers de 100 personnes chacun ont été formés au hasard (groupe 1 - fans de tireurs, groupe 2 - ne jouant pas à des jeux informatiques). Par exemple, le nombre de bagarres avec des pairs agit comme un indicateur d'agressivité. Dans notre étude imaginaire, il s'est avéré que le groupe d'écoliers-joueurs était nettement plus souvent en conflit avec leurs camarades. Mais comment savoir à quel point les différences résultantes sont statistiquement significatives ? Peut-être avons-nous obtenu la différence observée tout à fait par accident? Pour répondre à ces questions, la valeur p est utilisée - il s'agit de la probabilité d'obtenir des différences telles ou plus prononcées, à condition qu'il n'y ait en fait aucune différence dans la population générale. En d'autres termes, il s'agit de la probabilité d'obtenir des différences telles ou même plus fortes entre nos groupes, à condition que, dans les faits, les jeux informatiques n'affectent en rien l'agressivité. Cela ne semble pas si difficile. Cependant, cette statistique particulière est souvent mal interprétée.

exemples de valeur p

Ainsi, nous avons comparé deux groupes d'écoliers en termes de niveau d'agressivité à l'aide d'un test t standard (ou d'un test Chi non paramétrique - le carré du plus approprié dans cette situation) et avons constaté que le p- le niveau de signification est inférieur à 0,05 (par exemple, 0,04). Mais que nous dit réellement la valeur de p-significativité qui en résulte ? Donc, si la valeur p est la probabilité d'obtenir des différences telles ou plus prononcées, à condition qu'il n'y ait en fait aucune différence dans la population générale, alors quelle est, selon vous, la bonne affirmation :

1. Les jeux informatiques sont la cause de comportements agressifs avec une probabilité de 96 %.
2. La probabilité que l'agressivité et les jeux informatiques ne soient pas liés est de 0,04.
3. Si nous obtenions un niveau p de signification supérieur à 0,05, cela signifierait que l'agressivité et les jeux informatiques ne sont en aucun cas liés.
4. La probabilité d'obtenir de telles différences par hasard est de 0,04.
5. Toutes les déclarations sont fausses.

Si vous avez choisi la cinquième option, alors vous avez tout à fait raison ! Mais, comme le montrent de nombreuses études, même les personnes ayant une expérience significative dans l'analyse de données interprètent souvent mal les valeurs de p.

Prenons chaque réponse dans l'ordre :

Le premier énoncé est un exemple d'erreur de corrélation : le fait que deux variables soient significativement liées ne nous dit rien sur la cause et l'effet. Peut-être que ce sont les gens plus agressifs qui préfèrent passer du temps à jouer à des jeux informatiques, et ce ne sont pas les jeux informatiques qui rendent les gens plus agressifs.

C'est une déclaration plus intéressante. Le fait est que nous tenons initialement pour acquis qu'il n'y a vraiment pas de différences. Et, en gardant cela à l'esprit comme un fait, nous calculons la valeur p. Par conséquent, l'interprétation correcte est : "En supposant que l'agressivité et les jeux informatiques ne sont en aucun cas liés, la probabilité d'obtenir des différences telles ou même plus prononcées était de 0,04."

Mais que se passe-t-il si nous avons des différences insignifiantes ? Est-ce à dire qu'il n'y a pas de relation entre les variables étudiées ? Non, cela signifie seulement qu'il peut y avoir des différences, mais nos résultats ne nous ont pas permis de les détecter.

Ceci est directement lié à la définition de la valeur p elle-même. 0,04 est la probabilité d'obtenir ces différences ou même des différences plus extrêmes. En principe, il est impossible d'estimer la probabilité d'obtenir exactement de telles différences que dans notre expérience !

Ce sont les écueils qui peuvent être cachés dans l'interprétation d'un tel indicateur comme p-value. Il est donc très important de comprendre les mécanismes qui sous-tendent les méthodes d'analyse et de calcul des principaux indicateurs statistiques.

Comment trouver la p-value ?

1. Déterminez les résultats attendus de votre expérience

Habituellement, lorsque les scientifiques mènent une expérience, ils ont déjà une idée des résultats à considérer comme "normaux" ou "typiques". Cela peut être basé sur les résultats expérimentaux d'expériences passées, sur des ensembles de données fiables, sur des données de la littérature scientifique, ou le scientifique peut se baser sur d'autres sources. Pour votre expérience, définissez les résultats attendus et exprimez-les sous forme de nombres.

Exemple : Par exemple, des études antérieures ont montré que dans votre pays, les voitures rouges sont plus susceptibles d'obtenir des contraventions pour excès de vitesse que les voitures bleues. Par exemple, les scores moyens montrent une préférence de 2:1 pour les voitures rouges par rapport aux bleues. Nous voulons déterminer si la police a le même préjugé contre la couleur des voitures dans votre ville. Pour ce faire, nous analyserons les amendes infligées pour excès de vitesse. Si nous prenons un ensemble aléatoire de 150 contraventions pour excès de vitesse émises pour des voitures rouges ou bleues, nous nous attendrions à ce que 100 contraventions soient émises pour des voitures rouges et 50 pour des voitures bleues si la police de notre ville est aussi biaisée envers la couleur des voitures que celle observée. à travers le pays.

2. Déterminez les résultats observables de votre expérience

Maintenant que vous avez déterminé les résultats attendus, vous devez expérimenter et trouver les valeurs réelles (ou "observées"). Vous devez à nouveau représenter ces résultats sous forme de nombres. Si nous créons des conditions expérimentales et que les résultats observés diffèrent de ceux attendus, nous avons alors deux possibilités - soit cela s'est produit par hasard, soit cela est causé précisément par notre expérience. Le but de trouver la valeur p est précisément de déterminer si les résultats observés diffèrent de ceux attendus de telle manière que l'on ne peut pas rejeter "l'hypothèse nulle" - l'hypothèse qu'il n'y a pas de relation entre les variables expérimentales et les variables observées résultats.

Exemple : Par exemple, dans notre ville, nous avons sélectionné au hasard 150 contraventions pour excès de vitesse qui ont été émises pour des voitures rouges ou bleues. Nous avons déterminé que 90 contraventions avaient été émises pour des voitures rouges et 60 pour des voitures bleues. Ceci est différent des résultats attendus, qui sont respectivement de 100 et 50. Notre expérience (dans ce cas, changer la source de données de national à urbain) a-t-elle produit ce changement dans les résultats, ou notre police municipale est-elle biaisée exactement de la même manière que la moyenne nationale et nous ne voyons qu'une variation aléatoire ? La valeur p nous aidera à déterminer cela.

3. Déterminez le nombre de degrés de liberté de votre expérience

Le nombre de degrés de liberté correspond au degré de variabilité de votre expérience, qui est déterminé par le nombre de catégories que vous explorez. L'équation du nombre de degrés de liberté est Nombre de degrés de liberté = n-1, où "n" est le nombre de catégories ou de variables que vous analysez dans votre expérience.

Exemple : Dans notre expérience, il y a deux catégories de résultats : une catégorie pour les voitures rouges et une pour les voitures bleues. Par conséquent, dans notre expérience, nous avons 2-1 = 1 degré de liberté. Si nous comparions des voitures rouges, bleues et vertes, nous aurions 2 degrés de liberté, et ainsi de suite.

4. Comparez les résultats attendus et observés à l'aide du test du chi carré

Le chi carré (écrit "x2") est une valeur numérique qui mesure la différence entre les valeurs attendues et observées d'une expérience. L'équation du chi carré est x2 = Σ((o-e)2/e) où "o" est la valeur observée et "e" est la valeur attendue. Additionnez les résultats de l'équation donnée pour tous les résultats possibles (voir ci-dessous).

Notez que cette équation inclut l'opérateur de sommation Σ (sigma). En d'autres termes, vous devez calculer ((|o-e|-.05)2/e) pour chaque résultat possible et additionner les nombres pour obtenir la valeur du chi carré. Dans notre exemple, nous avons deux résultats possibles - soit la voiture qui a reçu la pénalité est rouge ou bleue. Nous devons donc compter ((o-e)2/e) deux fois - une fois pour les voitures rouges et une fois pour les voitures bleues.

Exemple : Insérons nos valeurs attendues et observées dans l'équation x2 = Σ((o-e)2/e). Rappelez-vous qu'en raison de l'opérateur de sommation, nous devons compter ((o-e)2/e) deux fois - une fois pour les voitures rouges et une fois pour les voitures bleues. Nous ferons ce travail comme suit :
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Choisissez un niveau d'importance

Maintenant que nous connaissons le nombre de degrés de liberté dans notre expérience et que nous connaissons la valeur du test du chi carré, nous devons faire encore une chose avant de pouvoir trouver notre valeur de p. Nous devons déterminer le niveau de signification. en parlant langage clair, le niveau de signification indique à quel point nous sommes confiants dans nos résultats. Une faible valeur de significativité correspond à une faible probabilité que les résultats expérimentaux aient été obtenus par hasard, et inversement. Les niveaux de signification sont écrits sous forme de fractions décimales (comme 0,01), ce qui correspond à la probabilité que nous ayons obtenu les résultats expérimentaux par hasard (dans ce cas, la probabilité est de 1%).

Par convention, les scientifiques fixent généralement le niveau de signification de leurs expériences à 0,05, soit 5 %. Cela signifie que les résultats expérimentaux qui répondent à un tel critère de signification ne pourraient être obtenus qu'avec une probabilité de 5 % uniquement par hasard. En d'autres termes, il y a 95 % de chances que les résultats soient dus à la manière dont le scientifique a manipulé les variables expérimentales, et non au hasard. Pour la plupart des expériences, une confiance de 95 % qu'il existe une relation entre deux variables est suffisante pour considérer qu'elles sont « réellement » liées l'une à l'autre.

Exemple : Pour notre exemple avec des voitures rouges et bleues, suivons la convention entre les scientifiques et fixons le niveau de signification à 0,05.

6. Utilisez une feuille de données de distribution du chi carré pour trouver votre valeur de p

Les scientifiques et les statisticiens utilisent de grandes feuilles de calcul pour calculer la valeur p de leurs expériences. Les données du tableau ont généralement un axe vertical à gauche, correspondant au nombre de degrés de liberté, et un axe horizontal en haut, correspondant à la valeur p. Utilisez les données du tableau pour trouver d'abord votre nombre de degrés de liberté, puis regardez votre série de gauche à droite jusqu'à ce que vous trouviez la première valeur supérieure à votre valeur de chi carré. Regardez la valeur p correspondante en haut de votre colonne. Votre p-value se situe entre ce nombre et le suivant (celui à gauche du vôtre).

Les tableaux de distribution du chi carré peuvent être obtenus à partir de nombreuses sources (ici vous pouvez en trouver un sur ce lien).

Exemple : Notre valeur de chi carré était de 3. Puisque nous savons qu'il n'y a qu'un seul degré de liberté dans notre expérience, nous sélectionnerons la toute première ligne. Nous allons de gauche à droite le long de cette ligne jusqu'à ce que nous rencontrions une valeur supérieure à 3, notre valeur de test du chi carré. Le premier que nous trouvons est 3,84. En regardant notre colonne, nous voyons que la valeur de p correspondante est de 0,05. Cela signifie que notre valeur p est comprise entre 0,05 et 0,1 (la prochaine valeur p la plus élevée du tableau).

7. Décidez de rejeter ou de conserver votre hypothèse nulle

Puisque vous avez déterminé la valeur p approximative de votre expérience, vous devez décider de rejeter ou non l'hypothèse nulle de votre expérience (rappelez-vous qu'il s'agit de l'hypothèse selon laquelle les variables expérimentales que vous avez manipulées n'ont pas affecté les résultats que vous avez observés). Si votre valeur de p est inférieure à votre niveau de signification, félicitations, vous avez prouvé qu'il existe une relation très probable entre les variables que vous avez manipulées et les résultats que vous avez observés. Si votre valeur de p est supérieure à votre niveau de signification, vous ne pouvez pas être sûr que les résultats que vous avez observés étaient dus au pur hasard ou à la manipulation de vos variables.

Exemple : Notre valeur de p est comprise entre 0,05 et 0,1. Ce n'est clairement pas moins de 0,05, donc malheureusement nous ne pouvons pas rejeter notre hypothèse nulle. Cela signifie que nous n'avons pas atteint un minimum de 95% de probabilité de dire que la police de notre ville émet des contraventions aux voitures rouges et bleues avec une probabilité assez différente de la moyenne nationale.

En d'autres termes, il y a 5 à 10 % de chances que les résultats que nous observons ne soient pas les conséquences d'un changement de lieu (analyse de la ville, pas de tout le pays), mais simplement d'un accident. Puisque nous avons exigé une précision inférieure à 5%, nous ne pouvons pas dire que nous sommes sûrs que la police de notre ville est moins biaisée envers les voitures rouges - il y a une petite chance (mais statistiquement significative) que ce ne soit pas le cas.

Dans les tableaux des résultats des calculs statistiques dans les dissertations, diplômes et mémoires de maîtrise en psychologie, il y a toujours un indicateur "p".

Par exemple, conformément à objectifs de recherche Les différences dans le niveau de signification de la vie chez les garçons et les filles de l'adolescence ont été calculées.

Moyenne

Test U de Mann-Whitney

Niveau de signification statistique (p)

Garçons (20 personnes)

Les filles

(5 personnes)

Buts

28,9

35,2

17,5

0,027*

Traiter

30,1

32,0

38,5

0,435

Résultat

25,2

29,0

29,5

0,164

Locus de contrôle - "je"

20,3

23,6

0,067

Locus de contrôle - "Vie"

30,4

33,8

27,5

0,126

Sens de la vie

98,9

111,2

0,103

* - les différences sont statistiquement significatives (p0,05)

La colonne de droite indique la valeur de « p » et c'est par sa valeur que l'on peut déterminer si les différences dans le sens de la vie future chez les garçons et les filles sont significatives ou non significatives. La règle est simple :

  • Si le niveau de signification statistique "p" est inférieur ou égal à 0,05, alors nous concluons que les différences sont significatives. Dans le tableau ci-dessus, les différences entre les garçons et les filles sont significatives par rapport à l'indicateur "Objectifs" - sens de la vie dans le futur. Chez les filles, cet indicateur est statistiquement significativement plus élevé que chez les garçons.
  • Si le niveau de signification statistique "p" est supérieur à 0,05, on en conclut que les différences ne sont pas significatives. Dans le tableau ci-dessus, les différences entre garçons et filles ne sont pas significatives pour tous les autres indicateurs, sauf pour le premier.

D'où vient le niveau de signification statistique "p" ?

Le niveau de signification statistique est calculé programme statistique ainsi que le calcul du critère statistique. Dans ces programmes, vous pouvez également définir une limite critique pour le niveau de signification statistique et les indicateurs correspondants seront mis en évidence par le programme.

Par exemple, dans le programme STATISTICA, lors du calcul des corrélations, vous pouvez définir la limite p, par exemple 0,05, et toutes les relations statistiquement significatives seront surlignées en rouge.

Si le calcul du critère statistique est effectué manuellement, alors le niveau de signification "p" est déterminé en comparant la valeur du critère obtenu avec la valeur critique.

Que montre le niveau de signification statistique "p"

Tous les calculs statistiques sont approximatifs. Le niveau de cette approximation détermine le "r". Le niveau de signification est écrit sous forme de décimales, par exemple, 0,023 ou 0,965. Si nous multiplions ce nombre par 100, nous obtenons l'indicateur p en pourcentage : 2,3 % et 96,5 %. Ces pourcentages reflètent la probabilité que notre hypothèse d'une relation, par exemple, entre l'agressivité et l'anxiété, soit erronée.

C'est-à-dire, Coefficient de corrélation 0,58 entre l'agressivité et l'anxiété est obtenu à un niveau de signification statistique de 0,05 ou une probabilité d'erreur de 5 %. Qu'est-ce que cela signifie exactement?

La corrélation que nous avons trouvée signifie que le schéma suivant est observé dans notre échantillon : plus l'agressivité est élevée, plus l'anxiété est élevée. Autrement dit, si nous prenons deux adolescents et que l'un d'eux aura une anxiété plus élevée que l'autre, alors, connaissant la corrélation positive, nous pouvons dire que cet adolescent aura également une agressivité plus élevée. Mais puisque tout est approximatif dans les statistiques, alors, en disant cela, nous admettons que nous pouvons faire une erreur, et la probabilité d'une erreur est de 5%. Autrement dit, après avoir effectué 20 comparaisons de ce type dans ce groupe d'adolescents, nous pouvons nous tromper avec la prévision du niveau d'agressivité une fois, connaissant l'anxiété.

Quel niveau de signification statistique est le meilleur : 0,01 ou 0,05

Le niveau de signification statistique reflète la probabilité d'erreur. Par conséquent, le résultat à p=0,01 est plus précis qu'à p=0,05.

Dans la recherche psychologique, deux niveaux acceptables de signification statistique des résultats sont acceptés :

p=0,01 - haute fiabilité du résultat analyse comparative ou analyse des relations;

p=0,05 - précision suffisante.

J'espère que cet article vous aidera à rédiger vous-même un article de psychologie. Si vous avez besoin d'aide, veuillez contacter (tous types de travaux en psychologie; calculs statistiques).