Jak obliczyć poziom istotności statystycznej. Wyjaśnij, jaki jest poziom istotności statystycznej

Parametry rozmieszczenia próbki wyznaczone serią pomiarów są zmiennymi losowymi, dlatego też ich odchylenia od parametrów ogólnych będą również losowe. Ocena tych odchyleń ma charakter probabilistyczny – w analizie statystycznej można jedynie wskazać prawdopodobieństwo wystąpienia konkretnego błędu.

Niech dla parametru ogólnego a pochodzą z bezstronnych oszacowań z doświadczenia a*. Przypisujemy a dostatecznie duże prawdopodobieństwo b (takie, że zdarzenie z prawdopodobieństwem b można uznać za praktycznie pewne) i znajdujemy taką wartość e b = f(b) dla których

Zakres praktycznie możliwych wartości błędu jaki występuje przy wymianie a na a* , będzie ±eb . Błędy o dużej wartości bezwzględnej pojawią się tylko z małym prawdopodobieństwem.

nazywa poziom istotności. W przeciwnym razie wyrażenie (4.1) można interpretować jako prawdopodobieństwo, że prawdziwa wartość parametru a leży wśród

. (4.3)

Prawdopodobieństwo b nazywa się poziom zaufania i charakteryzuje wiarygodność otrzymanego oszacowania. Interwał I b= a* ± e b nazywa się przedział ufności. Granice przedziałów a¢ = a* - e b i a¢¢ = a* + e b są nazywane granice zaufania. Przedział ufności na danym poziomie ufności określa dokładność oszacowania. Wartość przedziału ufności zależy od poziomu ufności, z jakim gwarantuje się znalezienie parametru a wewnątrz przedziału ufności: im większa wartość b, tym większy przedział I b (i wartość e b). Wzrost liczby eksperymentów przejawia się zmniejszeniem przedziału ufności przy stałym prawdopodobieństwie ufności lub wzrostem prawdopodobieństwa ufności przy zachowaniu przedziału ufności.

W praktyce zwykle ustala się wartość prawdopodobieństwa ufności (0,9; 0,95 lub 0,99), a następnie wyznacza się przedział ufności wyniku I b. Podczas konstruowania przedziału ufności rozwiązano problem odchylenia bezwzględnego:

Tak więc, jeśli znane jest prawo rozkładu oszacowania a* , problem wyznaczenia przedziału ufności zostałby rozwiązany w prosty sposób. Rozważ konstrukcję przedziału ufności dla matematycznego oczekiwania zmiennej losowej o rozkładzie normalnym X ze znanym ogólnym standardem s ponad wielkość próbki n. Najlepiej związane z oczekiwaniami m to średnia próbki z odchyleniem standardowym średniej

.

Korzystając z funkcji Laplace'a otrzymujemy

. (4.5)

Biorąc pod uwagę prawdopodobieństwo ufności b, wyznaczamy wartość z tabeli funkcji Laplace'a (Załącznik 1) . Wtedy przedział ufności dla oczekiwań matematycznych przyjmuje postać

. (4.7)

Z (4.7) widać, że spadek przedziału ufności jest odwrotnie proporcjonalny do pierwiastka kwadratowego liczby eksperymentów.

Znajomość ogólnej wariancji pozwala nam oszacować matematyczne oczekiwanie nawet dla jednej obserwacji. Jeśli dla zmiennej losowej o rozkładzie normalnym X w wyniku eksperymentu wartość X 1 , to przedział ufności dla matematycznego oczekiwania dla wybranego b ma postać

gdzie U 1-p/2 - kwantyl standardowego rozkładu normalnego (Załącznik 2).

Prawo podziału ocen a* zależy od prawa dystrybucji ilości X a w szczególności na samym parametrze a. Aby obejść tę trudność, w statystyce matematycznej stosuje się dwie metody:

1) przybliżony - w n³ 50 zastąp nieznane parametry w wyrażeniu na e b ich oszacowaniami, na przykład:

2) ze zmiennej losowej a* przejdź do innej zmiennej losowej Q * , której prawo rozkładu nie zależy od oszacowanego parametru a, ale zależy tylko od wielkości próbki. n i od rodzaju prawa dystrybucji ilości X. Tego rodzaju wielkości zostały szczegółowo zbadane dla rozkładu normalnego zmiennych losowych. Kwantyle symetryczne są zwykle używane jako granice ufności dla Q¢ i Q¢¢

, (4.9)

lub biorąc pod uwagę (4.2)

. (4.10)

4.2. Testowanie hipotez statystycznych, testy istotności,

błędy pierwszego i drugiego rodzaju.

Pod hipotezy statystyczne pewne założenia dotyczące rozkładów ogólnej populacji tej lub innej zmiennej losowej są zrozumiałe. Testowanie hipotez rozumiane jest jako porównanie niektórych wskaźników statystycznych, kryteria weryfikacji (kryteria istotności) obliczone z próby, z ich wartościami wyznaczonymi przy założeniu, że dana hipoteza jest prawdziwa. Podczas testowania hipotez zwykle testuje się niektóre hipotezy. H 0 w porównaniu z hipotezą alternatywną H 1 .

Aby zdecydować, czy przyjąć lub odrzucić hipotezę, podaje się poziom istotności R. Najczęściej używane poziomy istotności to 0,10, 0,05 i 0,01. Zgodnie z tym prawdopodobieństwem, korzystając z hipotezy o rozkładzie oszacowania Q * (kryterium istotności), kwantylowe granice ufności są z reguły symetryczne Q p/2 i Q 1- p/2 . Liczby Q p/2 i Q 1- p/2 są nazywane krytyczne wartości hipotezy; Wartości Q*< Qp/2 i Q * > Q 1- p/2 tworzą krytyczny


obszar hipotezy (lub obszar nieakceptowania hipotezy) (ryc. 12).

Ryż. 12. Obszar krytyczny Ryż. 13. Sprawdzanie statystyk

hipotezy. hipotezy.

Jeżeli Q 0 znalezione w próbce mieści się między Q p/2 i Q 1- p/2 , to hipoteza dopuszcza taką wartość jako losową i dlatego nie ma podstaw do jej odrzucenia. Jeśli wartość Q 0 spadnie do obszaru krytycznego, to zgodnie z tą hipotezą jest to praktycznie niemożliwe. Ale odkąd się pojawiła, sama hipoteza została odrzucona.

Podczas testowania hipotez można popełnić dwa rodzaje błędów. Błąd pierwszego rodzaju czy to odrzucenie hipotezy, która jest rzeczywiście prawdziwa. Prawdopodobieństwo takiego błędu nie jest większe niż przyjęty poziom istotności. Błąd typu II czy to hipoteza jest akceptowana, ale w rzeczywistości jest fałszywa. Prawdopodobieństwo tego błędu jest tym mniejsze, im wyższy poziom istotności, ponieważ zwiększa to liczbę odrzuconych hipotez. Jeżeli prawdopodobieństwo błędu drugiego rodzaju wynosi a, to wywoływana jest wartość (1 - a) moc kryterium.

Na ryc. 13 przedstawia dwie krzywe gęstości rozkładu zmiennej losowej Q odpowiadające dwóm hipotezom H 0 i H jeden . Jeżeli wartość uzyskana z doświadczenia to Q > Q p, to hipoteza zostaje odrzucona. H 0 i hipoteza zostaje przyjęta H 1 i odwrotnie, jeśli Q< Qp.

Pole pod krzywą gęstości prawdopodobieństwa odpowiadające słuszności hipotezy H 0 na prawo od wartości Q p, jest równy poziomowi istotności R, czyli prawdopodobieństwa błędu pierwszego rodzaju. Pole pod krzywą gęstości prawdopodobieństwa odpowiadające słuszności hipotezy H 1 na lewo od Q p, jest równe prawdopodobieństwu błędu drugiego rodzaju a i na prawo od Q p- moc kryterium (1 - a). Tak więc im więcej R, tym więcej (1 - a). Testując hipotezę, starają się wybrać spośród wszystkich możliwych kryteriów takie, które przy danym poziomie istotności ma mniejsze prawdopodobieństwo błędu II typu..

Zwykle jako optymalny poziom istotności przy testowaniu hipotez należy użyć p= 0,05, gdyż jeśli testowana hipoteza jest przyjęta z danym poziomem istotności, to oczywiście należy ją uznać za zgodną z danymi eksperymentalnymi; z drugiej strony zastosowanie tego poziomu istotności nie daje podstaw do odrzucenia hipotezy.

Na przykład znaleziono dwie wartości i pewien przykładowy parametr, który można uznać za oszacowanie parametrów ogólnych a 1 i a 2 . Postawiono hipotezę, że różnica między i jest losowa oraz że parametry ogólne a 1 i a 2 są sobie równe, tj. a 1 = a 2 . Ta hipoteza nazywa się zero, lub Hipoteza zerowa. Aby to przetestować, musisz dowiedzieć się, czy rozbieżność między i jest istotna w ramach hipotezy zerowej. W tym celu zwykle bada się zmienną losową D = – i sprawdza, czy jej różnica od zera jest znacząca. Czasami wygodniej jest rozważyć wartość / porównując ją z jednością.

Odrzucając hipotezę zerową, akceptują alternatywną, która dzieli się na dwie: > i< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется jednostronny, a żeby to sprawdzić, użyj jednostronny kryteria istotności (w przeciwieństwie do konwencjonalnych, dwustronny). W takim przypadku należy wziąć pod uwagę tylko jedną z połówek obszaru krytycznego (ryc. 12).

Na przykład, R= 0,05 przy kryterium dwustronnym, wartości krytyczne Q 0,025 i Q 0,975 odpowiadają, tj. Q *, które przyjęły wartości Q * są uważane za znaczące (nielosowe)< Q 0.025 и Q * >Q 0,975 . Przy kryterium jednostronnym jedna z tych nierówności jest oczywiście niemożliwa (na przykład Q *< Q 0.025) и значимыми будут лишь Q * >Q 0,975 . Prawdopodobieństwo ostatniej nierówności wynosi 0,025, a zatem poziom istotności wyniesie 0,025. Tak więc, jeśli te same wartości krytyczne zostaną użyte do jednostronnego testu istotności, jak do dwustronnego, wartości te będą odpowiadały połowie poziomu istotności.

Zwykle w przypadku testu jednostronnego przyjmuje się ten sam poziom istotności, jak w przypadku testu dwustronnego, ponieważ w tych warunkach oba testy dają ten sam błąd typu I. Aby to zrobić, test jednostronny musi być wyprowadzony z testu dwustronnego, odpowiadającego dwukrotnemu poziomowi istotności niż przyjęty. Aby utrzymać poziom istotności dla testu jednostronnego R= 0,05, w przypadku obustronnego należy wziąć R= 0,10, co daje wartości krytyczne Q 0,05 i Q 0,95. Spośród nich dla testu jednostronnego pozostanie na przykład Q 0,95. Poziom istotności dla testu jednostronnego wynosi 0,05. Ten sam poziom istotności dla testu dwustronnego odpowiada wartości krytycznej Q 0,975. Ale Q 0,95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

Poziom istotności w statystykach jest ważnym wskaźnikiem, który odzwierciedla stopień ufności w dokładność, prawdziwość otrzymanych (przewidywanych) danych. Pojęcie to jest szeroko stosowane w różnych dziedzinach: od badań socjologicznych po statystyczne testowanie hipotez naukowych.

Definicja

Poziom istotności statystycznej (lub wynik istotny statystycznie) pokazuje, jakie jest prawdopodobieństwo losowego wystąpienia badanych wskaźników. Ogólna istotność statystyczna zjawiska jest wyrażona wartością p (poziom p). W każdym eksperymencie lub obserwacji istnieje możliwość, że uzyskane dane powstały z powodu błędów próbkowania. Dotyczy to zwłaszcza socjologii.

Oznacza to, że wartość jest statystycznie istotna, której prawdopodobieństwo wystąpienia losowego jest bardzo małe lub dąży do skrajności. Skrajnością w tym kontekście jest stopień odchylenia statystyki od hipotezy zerowej (hipotezy, która jest testowana pod kątem zgodności z uzyskanymi danymi próbki). W praktyce naukowej poziom istotności wybiera się przed zebraniem danych i z reguły jego współczynnik wynosi 0,05 (5%). W przypadku systemów, w których dokładne wartości są krytyczne, może to być 0,01 (1%) lub mniej.

Tło

Pojęcie poziomu istotności zostało wprowadzone przez brytyjskiego statystyka i genetyka Ronalda Fishera w 1925 roku, kiedy opracowywał technikę testowania hipotez statystycznych. Analizując dowolny proces, istnieje pewne prawdopodobieństwo wystąpienia pewnych zjawisk. Trudności pojawiają się podczas pracy z małymi (lub nieoczywistymi) odsetkami prawdopodobieństw, które mieszczą się w pojęciu „błędu pomiaru”.

Podczas pracy ze statystykami, które nie są wystarczająco szczegółowe, aby je przetestować, naukowcy natknęli się na problem hipotezy zerowej, która „uniemożliwia” operowanie małymi wartościami. Fisher zaproponował dla takich systemów określenie prawdopodobieństwa zdarzeń na poziomie 5% (0,05) jako dogodnego odcięcia próby, pozwalającego odrzucić hipotezę zerową w obliczeniach.

Wprowadzenie stałego współczynnika

W 1933 Jerzy naukowcy Neumann i Egon Pearson w swoich artykułach zalecali ustalenie pewnego poziomu istotności z góry (przed zebraniem danych). Przykłady zastosowania tych zasad są wyraźnie widoczne podczas wyborów. Załóżmy, że jest dwóch kandydatów, z których jeden jest bardzo popularny, a drugi mało znany. Jest oczywiste, że pierwszy kandydat wygra wybory, a szanse drugiego są zerowe. Dąż – ale nie równy: zawsze istnieje możliwość wystąpienia siły wyższej, sensacyjnych informacji, nieoczekiwanych decyzji, które mogą zmienić przewidywane wyniki wyborów.

Neumann i Pearson zgodzili się, że zaproponowany przez Fishera poziom istotności 0,05 (oznaczony symbolem α) jest najwygodniejszy. Jednak sam Fischer w 1956 roku sprzeciwił się ustaleniu tej wartości. Uważał, że poziom α powinien być ustalany zgodnie z określonymi okolicznościami. Na przykład w fizyce cząstek elementarnych jest to 0,01.

wartość p

Termin wartość p został po raz pierwszy użyty przez Brownlee w 1960 roku. Poziom P (wartość p) jest wskaźnikiem odwrotnie proporcjonalnym do prawdziwości wyników. Najwyższa wartość p odpowiada najniższemu poziomowi ufności w próbkowanej relacji między zmiennymi.

Wartość ta odzwierciedla prawdopodobieństwo błędów związanych z interpretacją wyników. Załóż, że wartość p = 0,05 (1/20). Pokazuje pięcioprocentowe prawdopodobieństwo, że związek między zmiennymi znalezionymi w próbie jest tylko losową cechą próby. Oznacza to, że jeśli nie ma tej zależności, to przy wielu podobnych eksperymentach średnio w co dwudziestym badaniu można oczekiwać takiej samej lub większej zależności między zmiennymi. Często poziom p jest uważany za „margines” poziomu błędu.

Nawiasem mówiąc, wartość p może nie odzwierciedlać rzeczywistego związku między zmiennymi, ale pokazuje tylko pewną średnią wartość w ramach założeń. W szczególności ostateczna analiza danych będzie również zależeć od wybranych wartości tego współczynnika. Przy poziomie p = 0,05 będą pewne wyniki, a przy współczynniku równym 0,01 inne.

Testowanie hipotez statystycznych

Poziom istotności statystycznej jest szczególnie ważny podczas testowania hipotez. Na przykład podczas obliczania testu dwustronnego obszar odrzucenia jest dzielony równo na obu końcach rozkładu próbkowania (w stosunku do współrzędnej zerowej) i obliczana jest prawdziwość uzyskanych danych.

Załóżmy, że podczas monitorowania pewnego procesu (zjawiska) okazało się, że nowe informacje statystyczne wskazują na niewielkie zmiany w stosunku do poprzednich wartości. Jednocześnie rozbieżności w wynikach są niewielkie, nieoczywiste, ale ważne dla badania. Specjalista staje przed dylematem: czy zmiany rzeczywiście zachodzą, czy są to błędy próbkowania (niedokładność pomiaru)?

W takim przypadku albo hipoteza zerowa zostaje zastosowana, albo odrzucona (wszystko jest odpisywane jako błąd, albo zmiana w systemie jest uznawana za fakt dokonany). Proces rozwiązywania problemu opiera się na stosunku ogólnej istotności statystycznej (wartość p) do poziomu istotności (α). Jeśli poziom p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Używane wartości

Poziom istotności zależy od analizowanego materiału. W praktyce stosuje się następujące stałe wartości:

  • α = 0,1 (lub 10%);
  • α = 0,05 (lub 5%);
  • α = 0,01 (lub 1%);
  • α = 0,001 (lub 0,1%).

Im dokładniejsze są wymagane obliczenia, tym mniejszy jest współczynnik α. Oczywiście prognozy statystyczne w fizyce, chemii, farmacji i genetyce wymagają większej dokładności niż w naukach politycznych i socjologii.

Progi istotności w określonych obszarach

W dziedzinach o wysokiej precyzji, takich jak fizyka cząstek elementarnych i produkcja, istotność statystyczna jest często wyrażana jako stosunek odchylenia standardowego (oznaczonego współczynnikiem sigma - σ) do normalnego rozkładu prawdopodobieństwa (rozkład Gaussa). σ jest wskaźnikiem statystycznym, który określa rozrzut wartości określonej wielkości w stosunku do oczekiwań matematycznych. Służy do wykreślania prawdopodobieństwa zdarzeń.

W zależności od dziedziny wiedzy współczynnik σ jest bardzo zróżnicowany. Na przykład, przewidując istnienie bozonu Higgsa, parametr σ jest równy pięciu (σ=5), co odpowiada wartości p=1/3,5 miliona obszarów.

Efektywność

Należy wziąć pod uwagę, że współczynniki α i p-value nie są dokładnymi charakterystykami. Bez względu na poziom istotności w statystyce badanego zjawiska nie jest to bezwarunkowa podstawa do przyjęcia hipotezy. Na przykład im mniejsza wartość α, tym większa szansa, że ​​postawiona hipoteza jest istotna. Istnieje jednak ryzyko błędu, co zmniejsza moc statystyczną (istotność) badania.

Badacze, którzy skupiają się wyłącznie na wynikach istotnych statystycznie, mogą wyciągać błędne wnioski. Jednocześnie trudno jest dwukrotnie sprawdzić ich pracę, ponieważ stosują założenia (które w rzeczywistości są wartościami α i p-value). Dlatego zawsze zaleca się, wraz z obliczeniem istotności statystycznej, wyznaczenie innego wskaźnika – wielkości efektu statystycznego. Wielkość efektu jest ilościową miarą siły efektu.

Wartość nazywa się statystycznie istotny, jeśli prawdopodobieństwo wystąpienia czysto losowego lub nawet bardziej ekstremalnych wartości jest małe. Tutaj ekstremum jest stopniem odchylenia od hipotezy zerowej. Mówi się, że różnica jest „istotna statystycznie”, jeśli istnieją dane, których wystąpienie byłoby mało prawdopodobne, gdyby założono, że różnica nie istnieje; wyrażenie to nie oznacza, że ​​różnica ta powinna być duża, ważna lub znacząca w ogólnym znaczeniu tego słowa.

Poziom istotności testu to tradycyjne pojęcie testowania hipotez w statystykach częstości. Definiuje się ją jako prawdopodobieństwo podjęcia decyzji o odrzuceniu hipotezy zerowej, jeśli w rzeczywistości hipoteza zerowa jest prawdziwa (decyzja jest znana jako błąd typu I lub decyzja fałszywie dodatnia). Proces decyzyjny często opiera się na wartości p (czytaj „wartość pi”): jeśli wartość p jest mniejsza niż poziom istotności, to hipoteza zerowa jest odrzucana. Im mniejsza wartość p, tym bardziej istotna jest statystyka testowa. Im mniejsza wartość p, tym silniejszy powód do odrzucenia hipotezy zerowej.

Poziom istotności jest zwykle oznaczany grecką literą α (alfa). Popularne poziomy istotności to 5%, 1% i 0,1%. Jeśli test daje wartość p mniejszą niż poziom α, to hipoteza zerowa jest odrzucana. Takie wyniki są nieformalnie określane jako „istotne statystycznie”. Na przykład, jeśli ktoś mówi, że „szanse, że to, co się wydarzyło, jest zbiegiem okoliczności równym jeden na tysiąc”, to ma na myśli poziom istotności 0,1%.

Różne wartości poziomu α mają swoje zalety i wady. Mniejsze poziomy α dają większą pewność, że alternatywna hipoteza już ustalona jest znacząca, ale istnieje większe ryzyko nieodrzucenia fałszywej hipotezy zerowej (błąd typu II lub „decyzja fałszywie negatywna”), a zatem mniejsze moc statystyczna. Wybór poziomu α nieuchronnie wymaga kompromisu między istotnością a mocą, a zatem między prawdopodobieństwem błędu Typu I i Typu II. W kraju publikacje naukowe często zamiast terminu „istotność statystyczna” stosuje się niepoprawny termin „istotność”.

Zobacz też

Uwagi

George Casella, Roger L. Berger Testowanie hipotez // Wnioskowanie statystyczne . -Druga edycja. - Pacific Grove, Kalifornia: Duxbury, 2002. - S. 397. - 660 str. - ISBN 0-534-24312-6


Fundacja Wikimedia. 2010 .

Zobacz, co „Poziom istotności” znajduje się w innych słownikach:

    Liczba ta jest tak mała, że ​​można uznać za prawie pewne, że zdarzenie z prawdopodobieństwem α nie wystąpi w jednym eksperymencie. Zwykle U. z. ustala się arbitralnie, a mianowicie: 0,05, 0,01 oraz ze szczególną dokładnością 0,005 itd. W geol. praca… … Encyklopedia geologiczna

    poziom istotności- kryterium statystyczne (zwane również „poziomem alfa” i oznaczane literą grecką) to górna granica prawdopodobieństwa błędu I typu (prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona prawdziwa). Typowe wartości to... Słownik statystyki socjologicznej

    język angielski poziom, znaczenie; Niemiecki Signifikanzniveau. Stopień ryzyka polega na tym, że badacz może wyciągnąć błędny wniosek o błędności statystów, hipotez opartych na przykładowych danych. Antynazi. Encyklopedia Socjologii, 2009 ... Encyklopedia socjologii

    poziom istotności- - [L.G. Sumenko. Angielsko-rosyjski słownik technologii informacyjnych. M.: GP TsNIIS, 2003.] Tematy technologia informacyjna ogólnie EN poziom znaczenia ... Podręcznik tłumacza technicznego

    poziom istotności- 3,31 poziom istotności α: Dana wartość reprezentująca górną granicę prawdopodobieństwa odrzucenia hipotezy statystycznej, gdy ta hipoteza jest prawdziwa. Źródło: GOST R ISO 12491 2011: Materiały i produkty budowlane ... ... Słownik-odnośnik terminów dokumentacji normatywnej i technicznej

    POZIOM ISTOTNOŚCI- pojęcie statystyki matematycznej, odzwierciedlające stopień prawdopodobieństwa błędnego wniosku dotyczącego hipotezy statystycznej o rozkładzie cechy, zweryfikowanej na podstawie danych próbnych. W badaniach psychologicznych na wystarczającym poziomie ... ... Nowoczesny proces edukacyjny: podstawowe pojęcia i terminy

    poziom istotności- reikšmingumo lygis statusas T sritis automatika atitikmenys: engl. poziom istotności vok. Signifikanzniveau, n rus. poziom istotności, m pranc. niveau de signifiance, m … Automatikos terminų žodynas

    poziom istotności- reikšmingumo lygis statusas T sritis fizika atitikmenys: engl. poziom istotności; poziom istotności vok. Sicherheitsschwelle, fr. poziom istotności, fpranc. niveau de sense, m … Fizikos terminų žodynas

    Test statystyczny, patrz Poziom istotności... Wielka radziecka encyklopedia

    POZIOM ISTOTNOŚCI- Zobacz znaczenie, poziom... Słownik w psychologii

Książki

  • "Ściśle tajny" . Łubianka - do Stalina w sprawie sytuacji w kraju (1922-1934). Tom 4. Część 1,. Wielotomowa publikacja podstawowa artykułów - recenzje informacyjne i streszczenia OGPU - jest wyjątkowy pod względem znaczenia naukowego, wartości, treści i zakresu. W tym historycznym…
  • Program edukacyjny jako narzędzie systemu zarządzania jakością w szkolnictwie zawodowym, Tkacheva Galina Viktorovna, Logachev Maxim Sergeevich, Samarin Yury Nikolaevich. Monografia analizuje dotychczasowe praktyki kształtowania treści profesjonalnych programów edukacyjnych. Ustala się miejsce, strukturę, treść i poziom istotności...

wartość p(pol.) - wartość używana podczas testowania hipotez statystycznych. W rzeczywistości jest to prawdopodobieństwo błędu przy odrzuceniu hipotezy zerowej (błąd pierwszego rodzaju). Testowanie hipotez za pomocą wartości P jest alternatywą dla klasycznej procedury testowania poprzez wartość krytyczną rozkładu.

Zazwyczaj wartość P jest równa prawdopodobieństwu, że zmienna losowa o danym rozkładzie (rozkład statystyki testowej przy hipotezie zerowej) przyjmie wartość nie mniejszą niż rzeczywista wartość statystyki testowej. Wikipedia.

Innymi słowy, wartość p to najmniejszy poziom istotności (tj. prawdopodobieństwo odrzucenia prawdziwej hipotezy), dla którego obliczona statystyka testowa prowadzi do odrzucenia hipotezy zerowej. Zazwyczaj wartość p jest porównywana z ogólnie przyjętymi standardowymi poziomami istotności 0,005 lub 0,01.

Na przykład, jeśli wartość statystyki testowej obliczonej z próbki odpowiada p = 0,005, oznacza to 0,5% prawdopodobieństwa prawdziwości hipotezy. Zatem im mniejsza wartość p, tym lepiej, ponieważ zwiększa „siłę” odrzucenia hipotezy zerowej i zwiększa oczekiwaną istotność wyniku.

Ciekawe wyjaśnienie tego znajduje się na Habré.

Analiza statystyczna zaczyna przypominać czarną skrzynkę: dane wejściowe to dane, dane wyjściowe to tabela głównych wyników i wartość p.

Co mówi wartość p?

Załóżmy, że postanowiliśmy sprawdzić, czy istnieje związek między uzależnieniem od krwawych gier komputerowych a agresywnością w prawdziwym życiu. W tym celu utworzono losowo dwie grupy uczniów po 100 osób każda (grupa 1 - fani strzelanek, grupa 2 - nie grający w gry komputerowe). Na przykład liczba walk z rówieśnikami działa jako wskaźnik agresywności. W naszym wyimaginowanym badaniu okazało się, że grupa dzieci w wieku szkolnym-hazardów wyraźnie częściej kłóciła się ze swoimi towarzyszami. Ale jak dowiadujemy się, jak istotne statystycznie są wynikające z tego różnice? Może zauważoną różnicę otrzymaliśmy całkiem przypadkowo? Aby odpowiedzieć na te pytania, stosuje się wartość poziomu istotności p (wartość p) - jest to prawdopodobieństwo uzyskania takich lub bardziej wyraźnych różnic, pod warunkiem, że faktycznie nie ma różnic w populacji ogólnej. Innymi słowy, jest to prawdopodobieństwo uzyskania takich, a nawet silniejszych różnic między naszymi grupami, pod warunkiem, że tak naprawdę gry komputerowe w żaden sposób nie wpływają na agresywność. To nie brzmi tak trudno. Jednak ta konkretna statystyka jest często błędnie interpretowana.

przykłady wartości p

Porównaliśmy więc ze sobą dwie grupy uczniów pod względem poziomu agresywności za pomocą standardowego testu t-Studenta (lub nieparametrycznego testu Chi – kwadratu bardziej odpowiedniego w tej sytuacji) i stwierdziliśmy, że pożądany p- poziom istotności jest mniejszy niż 0,05 (na przykład 0,04). Ale co tak naprawdę mówi nam otrzymana wartość p-istotności? Tak więc, jeśli wartość p jest prawdopodobieństwem uzyskania takich lub bardziej wyraźnych różnic, pod warunkiem, że faktycznie nie ma różnic w populacji ogólnej, to jak myślisz, jakie jest prawidłowe stwierdzenie:

1. Gry komputerowe są przyczyną zachowań agresywnych z prawdopodobieństwem 96%.
2. Prawdopodobieństwo, że agresywność i gry komputerowe nie są ze sobą powiązane, wynosi 0,04.
3. Jeśli otrzymamy p-poziom istotności większy niż 0,05, oznacza to, że agresywność i gry komputerowe nie są w żaden sposób powiązane.
4. Prawdopodobieństwo przypadkowego uzyskania takich różnic wynosi 0,04.
5. Wszystkie stwierdzenia są błędne.

Jeśli wybrałeś piątą opcję, masz całkowitą rację! Jednak, jak pokazują liczne badania, nawet osoby z dużym doświadczeniem w analizie danych często błędnie interpretują wartości p.

Weźmy każdą odpowiedź w kolejności:

Pierwsze stwierdzenie jest przykładem błędu korelacji: fakt, że dwie zmienne są ze sobą w znacznym stopniu powiązane, nie mówi nam nic o przyczynie i skutku. Może to bardziej agresywni ludzie wolą spędzać czas grając w gry komputerowe, a to nie gry komputerowe czynią ludzi bardziej agresywnymi.

To ciekawsze stwierdzenie. Chodzi o to, że początkowo przyjmujemy za pewnik, że tak naprawdę nie ma różnic. Mając to na uwadze jako fakt, obliczamy wartość p. Dlatego prawidłowa interpretacja brzmi: „Zakładając, że agresywność i gry komputerowe nie są ze sobą w żaden sposób powiązane, to prawdopodobieństwo uzyskania takich lub nawet bardziej wyraźnych różnic wynosiło 0,04”.

Ale co, jeśli otrzymamy nieznaczne różnice? Czy to oznacza, że ​​nie ma związku między badanymi zmiennymi? Nie, to tylko oznacza, że ​​mogą istnieć różnice, ale nasze wyniki nie pozwoliły nam ich wykryć.

Jest to bezpośrednio związane z samą definicją wartości p. 0,04 to prawdopodobieństwo uzyskania tych lub nawet bardziej ekstremalnych różnic. W zasadzie nie da się oszacować prawdopodobieństwa uzyskania dokładnie takich różnic, jak w naszym eksperymencie!

Są to pułapki, które można ukryć w interpretacji takiego wskaźnika, jakim jest wartość p. Dlatego bardzo ważne jest zrozumienie mechanizmów leżących u podstaw metod analizy i obliczania głównych wskaźników statystycznych.

Jak znaleźć wartość p?

1. Określ oczekiwane wyniki swojego eksperymentu

Zwykle, gdy naukowcy przeprowadzają eksperyment, mają już wyobrażenie o tym, jakie wyniki należy uznać za „normalne” lub „typowe”. Może to być oparte na wynikach eksperymentalnych wcześniejszych eksperymentów, na wiarygodnych zestawach danych, na danych z literatury naukowej lub naukowiec może opierać się na innych źródłach. Na potrzeby eksperymentu zdefiniuj oczekiwane wyniki i przedstaw je jako liczby.

Przykład: Na przykład wcześniejsze badania wykazały, że w Twoim kraju czerwone samochody częściej uzyskują mandaty za przekroczenie prędkości niż samochody niebieskie. Na przykład średnie wyniki pokazują preferencję 2:1 dla czerwonych samochodów nad niebieskimi. Chcemy ustalić, czy policja ma takie same uprzedzenia do koloru samochodów w Twoim mieście. W tym celu przeanalizujemy mandaty za przekroczenie prędkości. Jeśli weźmiemy losowy zestaw 150 mandatów za przekroczenie prędkości wystawionych na czerwone lub niebieskie samochody, spodziewalibyśmy się, że 100 mandatów zostanie wystawionych na czerwone samochody i 50 na niebieskie, jeśli policja w naszym mieście jest tak stronnicza, jak to obserwuje się w całym kraju.

2. Określ obserwowalne wyniki swojego eksperymentu

Teraz, gdy już określiłeś oczekiwane wyniki, musisz poeksperymentować i znaleźć rzeczywiste (lub „obserwowane”) wartości. Ponownie musisz przedstawić te wyniki jako liczby. Jeśli stworzymy warunki eksperymentalne, a obserwowane wyniki różnią się od oczekiwanych, to mamy dwie możliwości - albo stało się to przypadkiem, albo jest to spowodowane właśnie naszym eksperymentem. Celem wyznaczenia wartości p jest precyzyjne określenie, czy obserwowane wyniki różnią się od oczekiwanych w taki sposób, że nie można odrzucić „hipotezy zerowej” – hipotezy, że nie ma związku między zmiennymi eksperymentalnymi a obserwowanymi wyniki.

Przykład: Na przykład w naszym mieście losowo wybraliśmy 150 mandatów za przekroczenie prędkości, które zostały wystawione na czerwone lub niebieskie samochody. Ustaliliśmy, że na samochody czerwone wydano 90 biletów, a na niebieskie 60. Różni się to od oczekiwanych wyników, które wynoszą odpowiednio 100 i 50. Czy nasz eksperyment (w tym przypadku zmiana źródła danych z krajowego na miejskie) spowodował taką zmianę wyników, czy też policja miejska jest nastawiona dokładnie w taki sam sposób, jak średnia krajowa, i widzimy tylko przypadkowe odchylenie? Wartość p pomoże nam to określić.

3. Określ liczbę stopni swobody swojego eksperymentu

Liczba stopni swobody to stopień zmienności w twoim eksperymencie, który jest określany przez liczbę eksplorowanych kategorii. Równanie liczby stopni swobody to Liczba stopni swobody = n-1, gdzie „n” to liczba kategorii lub zmiennych analizowanych w eksperymencie.

Przykład: W naszym eksperymencie istnieją dwie kategorie wyników: jedna kategoria dla czerwonych samochodów, a druga dla niebieskich samochodów. Dlatego w naszym eksperymencie mamy 2-1 = 1 stopień swobody. Gdybyśmy porównywali samochody czerwone, niebieskie i zielone, mielibyśmy 2 stopnie swobody i tak dalej.

4. Porównaj oczekiwane i obserwowane wyniki za pomocą testu chi-kwadrat

Chi-kwadrat (zapisane „x2”) to wartość liczbowa, która mierzy różnicę między wartościami oczekiwanymi i obserwowanymi eksperymentu. Równanie dla chi-kwadrat to x2 = Σ((o-e)2/e), gdzie „o” to wartość obserwowana, a „e” to wartość oczekiwana. Zsumuj wyniki danego równania dla wszystkich możliwych wyników (patrz poniżej).

Zauważ, że to równanie zawiera operator sumowania Σ (sigma). Innymi słowy, musisz obliczyć ((|o-e|-.05)2/e) dla każdego możliwego wyniku i zsumować liczby, aby uzyskać wartość chi-kwadrat. W naszym przykładzie mamy dwa możliwe wyniki - albo samochód, który otrzymał karę, jest czerwony lub niebieski. Musimy więc policzyć ((o-e)2/e) dwa razy - raz dla samochodów czerwonych i raz dla samochodów niebieskich.

Przykład: Wstawmy nasze wartości oczekiwane i obserwowane do równania x2 = Σ((o-e)2/e). Pamiętajmy, że ze względu na operator sumowania musimy policzyć ((o-e)2/e) dwa razy - raz dla samochodów czerwonych i raz dla samochodów niebieskich. Sprawimy, że to zadziała w następujący sposób:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Wybierz poziom istotności

Teraz, gdy znamy liczbę stopni swobody w naszym eksperymencie i znamy wartość testu chi-kwadrat, musimy zrobić jeszcze jedną rzecz, zanim znajdziemy naszą wartość p. Musimy określić poziom istotności. mówić zwykły język, poziom istotności wskazuje, jak pewni jesteśmy w naszych wynikach. Niska wartość istotności odpowiada małemu prawdopodobieństwu, że wyniki eksperymentu zostały uzyskane przypadkowo i odwrotnie. Poziomy istotności są zapisywane jako ułamki dziesiętne (takie jak 0,01), co odpowiada prawdopodobieństwu przypadkowego uzyskania wyników eksperymentalnych (w tym przypadku prawdopodobieństwo tego wynosi 1%).

Zgodnie z konwencją naukowcy zazwyczaj ustalają poziom istotności swoich eksperymentów na 0,05, czyli 5%. Oznacza to, że wyniki eksperymentalne spełniające takie kryterium istotności można było uzyskać jedynie z prawdopodobieństwem 5% wyłącznie przypadkowo. Innymi słowy, istnieje 95% szansa, że ​​wyniki zostały spowodowane przez sposób, w jaki naukowiec manipulował zmiennymi eksperymentalnymi, a nie przez przypadek. W przypadku większości eksperymentów 95% pewności, że istnieje związek między dwiema zmiennymi, wystarczy, aby uznać, że są one „naprawdę” ze sobą powiązane.

Przykład: W naszym przykładzie z czerwonymi i niebieskimi samochodami postępujmy zgodnie z konwencją między naukowcami i ustawmy poziom istotności na 0,05.

6. Użyj arkusza danych rozkładu chi-kwadrat, aby znaleźć swoją wartość p

Naukowcy i statystycy używają dużych arkuszy kalkulacyjnych do obliczania wartości p swoich eksperymentów. Dane tabeli mają zwykle oś pionową po lewej stronie, odpowiadającą liczbie stopni swobody, oraz oś poziomą u góry, odpowiadającą wartości p. Użyj danych w tabeli, aby najpierw znaleźć liczbę stopni swobody, a następnie spójrz na swój szereg od lewej do prawej, aż znajdziesz pierwszą wartość większą niż wartość chi-kwadrat. Spójrz na odpowiednią wartość p na górze swojej kolumny. Twoja wartość p znajduje się między tą liczbą a następną (tą na lewo od twojej).

Tabele rozkładu chi-kwadrat można uzyskać z wielu źródeł (tutaj znajdziesz jedną pod tym linkiem).

Przykład: Nasza wartość chi-kwadrat wynosiła 3. Ponieważ wiemy, że w naszym eksperymencie jest tylko 1 stopień swobody, wybierzemy pierwszy wiersz. Idziemy od lewej do prawej wzdłuż tej linii, aż napotkamy wartość większą niż 3, czyli wartość naszego testu chi-kwadrat. Pierwszy, który znajdujemy, to 3,84. Patrząc na naszą kolumnę, widzimy, że odpowiadająca jej wartość p wynosi 0,05. Oznacza to, że nasza wartość p wynosi od 0,05 do 0,1 (kolejna najwyższa wartość p w tabeli).

7. Zdecyduj, czy odrzucić lub zachować swoją hipotezę zerową

Ponieważ określiłeś przybliżoną wartość p dla eksperymentu, musisz zdecydować, czy odrzucić hipotezę zerową eksperymentu, czy nie (przypomnijmy, że jest to hipoteza, że ​​zmienne eksperymentalne, którymi manipulowałeś, nie miały wpływu na obserwowane wyniki). Jeśli twoja wartość p jest mniejsza niż twój poziom istotności, gratulacje, udowodniłeś, że istnieje bardzo prawdopodobny związek między zmiennymi, którymi manipulowałeś, a obserwowanymi wynikami. Jeśli twoja wartość p jest wyższa niż twój poziom istotności, nie możesz być pewien, czy obserwowane wyniki były wynikiem czystego przypadku, czy manipulacji zmiennymi.

Przykład: Nasza wartość p wynosi od 0,05 do 0,1. Jest to oczywiście nie mniej niż 0,05, więc niestety nie możemy odrzucić naszej hipotezy zerowej. Oznacza to, że nie osiągnęliśmy minimum 95% prawdopodobieństwa stwierdzenia, że ​​policja w naszym mieście wystawia bilety do czerwonych i niebieskich samochodów z prawdopodobieństwem znacznie odbiegającym od średniej krajowej.

Innymi słowy, istnieje 5-10% szans, że obserwowane przez nas wyniki nie są konsekwencjami zmiany lokalizacji (analiza miasta, a nie całego kraju), ale po prostu wypadkiem. Ponieważ wymagaliśmy dokładności poniżej 5%, nie możemy powiedzieć, że jesteśmy pewni, że policja w naszym mieście jest mniej skłonna do czerwonych samochodów – istnieje niewielka (ale statystycznie istotna) szansa, że ​​tak nie jest.

W tabelach wyników obliczeń statystycznych w pracach semestralnych, dyplomowych i magisterskich z psychologii zawsze znajduje się wskaźnik „p”.

Na przykład zgodnie z cele badań Obliczono różnice w poziomie sensu życia chłopców i dziewcząt w wieku dorastania.

Oznaczać

Test U Manna-Whitneya

Poziom istotności statystycznej (p)

Chłopcy (20 osób)

Dziewczyny

(5 ludzi)

Cele

28,9

35,2

17,5

0,027*

Proces

30,1

32,0

38,5

0,435

Wynik

25,2

29,0

29,5

0,164

Miejsce kontroli - „ja”

20,3

23,6

0,067

Umiejscowienie kontroli - „Życie”

30,4

33,8

27,5

0,126

Sens życia

98,9

111,2

0,103

* - różnice są istotne statystycznie (p0,05)

W prawej kolumnie wskazano wartość „p” i to po jej wartości można określić, czy różnice w sensowności życia w przyszłości chłopców i dziewcząt są znaczące czy nieistotne. Zasada jest prosta:

  • Jeżeli poziom istotności statystycznej „p” jest mniejszy lub równy 0,05, to dochodzimy do wniosku, że różnice są znaczące. W powyższej tabeli różnice między chłopcami i dziewczętami są istotne w odniesieniu do wskaźnika „Cele” – sens życia w przyszłości. U dziewcząt wskaźnik ten jest istotnie statystycznie wyższy niż u chłopców.
  • Jeżeli poziom istotności statystycznej „p” jest większy niż 0,05, to stwierdza się, że różnice nie są istotne. W powyższej tabeli różnice między chłopcami i dziewczętami nie są istotne dla wszystkich pozostałych wskaźników, z wyjątkiem pierwszego.

Skąd pochodzi poziom istotności statystycznej „p”

Oblicza się poziom istotności statystycznej program statystyczny wraz z obliczeniem kryterium statystycznego. W tych programach można również ustawić krytyczny limit poziomu istotności statystycznej, a odpowiednie wskaźniki zostaną wyróżnione przez program.

Na przykład w programie STATISTICA przy obliczaniu korelacji można ustawić granicę p, na przykład 0,05, a wszystkie istotne statystycznie zależności zostaną podświetlone na czerwono.

Jeżeli obliczenie kryterium statystycznego odbywa się ręcznie, to poziom istotności „p” określa się porównując wartość otrzymanego kryterium z wartością krytyczną.

Co pokazuje poziom istotności statystycznej „p”?

Wszystkie obliczenia statystyczne są przybliżone. Poziom tego przybliżenia określa „r”. Poziom istotności jest zapisywany w postaci dziesiętnej, na przykład 0,023 lub 0,965. Jeśli pomnożymy tę liczbę przez 100, otrzymamy wskaźnik p w procentach: 2,3% i 96,5%. Te wartości procentowe odzwierciedlają prawdopodobieństwo, że nasze założenie o związku, na przykład między agresywnością a lękiem, jest błędne.

To znaczy, Współczynnik korelacji 0,58 między agresywnością a lękiem uzyskuje się przy poziomie istotności statystycznej 0,05 lub 5% prawdopodobieństwie błędu. Co to dokładnie oznacza?

Znaleziona przez nas korelacja oznacza, że ​​w naszej próbie obserwujemy następującą prawidłowość: im wyższa agresywność, tym wyższy niepokój. To znaczy, jeśli weźmiemy dwoje nastolatków, a jeden z nich będzie miał większy lęk niż drugi, to wiedząc o pozytywnej korelacji, możemy powiedzieć, że ten nastolatek będzie miał również większą agresywność. Ale ponieważ wszystko jest przybliżone w statystykach, stwierdzając to, przyznajemy, że możemy popełnić błąd, a prawdopodobieństwo błędu wynosi 5%. Oznacza to, że dokonując 20 takich porównań w tej grupie adolescentów, możemy raz pomylić się z prognozą poziomu agresywności, znając lęk.

Który poziom istotności statystycznej jest lepszy: 0,01 czy 0,05

Poziom istotności statystycznej odzwierciedla prawdopodobieństwo błędu. Dlatego wynik przy p=0,01 jest dokładniejszy niż przy p=0,05.

W badaniach psychologicznych przyjmuje się dwa akceptowalne poziomy istotności statystycznej wyników:

p=0,01 - wysoka wiarygodność wyniku analiza porównawcza lub analiza relacji;

p=0,05 - wystarczająca dokładność.

Mam nadzieję, że ten artykuł pomoże ci samodzielnie napisać pracę z psychologii. Jeśli potrzebujesz pomocy, prosimy o kontakt (wszelkie rodzaje pracy w psychologii; obliczenia statystyczne).