Рівень статистичної важливості як порахувати. Пояснити, що таке рівень статистичної значущості

Вибіркові параметри розподілу, що визначаються за серією вимірювань, є випадковими величинами, отже, їх відхилення від генеральних параметрів також будуть випадковими. Оцінка цих відхилень носить імовірнісний характер - за статистичного аналізу можна лише вказати ймовірність тієї чи іншої похибки.

Нехай для генерального параметра аотримана з досвіду незміщена оцінка а*. Призначимо досить велику ймовірність b (таку, що подію з ймовірністю b можна вважати практично достовірною) і знайдемо таке значення e b = f(b), для якого

Діапазон практично можливих значень помилки, що виникає під час заміни ана а* , буде ± e b . Великі за абсолютною величиною помилки з'являтимуться лише з малою ймовірністю

званою рівнем значимості. Інакше вираз (4.1) можна інтерпретувати як ймовірність того, що дійсне значення параметра алежить у межах

. (4.3)

Імовірність b називається довірчою ймовірністюта характеризує надійність отриманої оцінки. Інтервал I b = a* ± e b називається довірчим інтервалом. Межі інтервалу a¢ = a* - e b і a¢¢ = a* + e b називаються довірчими кордонами. Довірчий інтервал при даній вірогідності визначає точність оцінки. Величина довірчого інтервалу залежить від вірогідності, з якою гарантується знаходження параметра авсередині довірчого інтервалу: що більше величина b, то більше вписувалося інтервал I b (та величина e b). Збільшення числа дослідів проявляється у скороченні довірчого інтервалу при постійній довірчій ймовірності або у підвищенні довірчої ймовірності при збереженні довірчого інтервалу.

Насправді зазвичай фіксують значення довірчої ймовірності (0,9; 0,95 або 0,99) і потім визначають довірчий інтервал результату I b. При побудові довірчого інтервалу вирішується задача щодо абсолютного відхилення:

Таким чином, якби був відомий закон розподілу оцінки а* , Завдання визначення довірчого інтервалу вирішувалося б просто. Розглянемо побудову довірчого інтервалу для математичного очікування нормально розподіленої випадкової величини Хз відомим генеральним стандартом s за вибіркою обсягом n. Найкращою оцінкою для математичного очікування mє середнє вибірки зі стандартним відхиленням середнього

.

Використовуючи функцію Лапласа, отримуємо

. (4.5)

Задавшись довірчою ймовірністю b, визначимо таблицю функції Лапласа (додаток 1) величину . Тоді довірчий інтервал для математичного очікування набуває вигляду

. (4.7)

З (4.7) видно, що зменшення довірчого інтервалу обернено пропорційно до кореня квадратного з числа дослідів.

Знання генеральної дисперсії дозволяє оцінювати математичне очікування навіть із одному спостереженню. Якщо для нормально розподіленої випадкової величини Хв результаті експерименту отримано значення х 1 , то довірчий інтервал для математичного очікування при вибраній b має вигляд

де U 1-p/2 - квантиль стандартного нормального розподілу (додаток 2).

Закон розподілу оцінки а* залежить від закону розподілу величини Хі, зокрема, від самого параметра а. Щоб обійти цю скруту, в математичній статистиці застосовують два методи:

1) наближений - при n³ 50 замінюють у виразі для e b невідомі параметри їх оцінками, наприклад:

2) від випадкової величини а* переходять до іншої випадкової величини Q * , закон розподілу якої не залежить від параметра, що оцінюється а, а залежить лише від обсягу вибірки nта від виду закону розподілу величини Х. Такі величини найбільш докладно вивчені для нормального розподілу випадкових величин. Як довірчі межі Q¢ і Q¢¢ зазвичай використовуються симетричні кванти.

, (4.9)

або з урахуванням (4.2)

. (4.10)

4.2. Перевірка статистичних гіпотез, критерії значимості,

помилки першого та другого роду.

Під статистичними гіпотезамирозуміються деякі припущення щодо розподілів генеральної сукупності тієї чи іншої випадкової величини. Під перевіркою гіпотези розуміють зіставлення деяких статистичних показників, критеріїв перевірки (критеріїв значимості), обчислюваних за вибіркою, зі своїми значеннями, визначеними у припущенні, що це гіпотеза правильна. Під час перевірки гіпотез зазвичай піддається випробуванню деяка гіпотеза Н 0 у порівнянні з альтернативною гіпотезою Н 1 .

Щоб вирішити питання про прийняття чи неприйняття гіпотези, задаються рівнем значущості р. Найчастіше використовуються рівні значимості, рівні 0.10, 0.05 та 0.01. За цією ймовірністю, використовуючи гіпотезу про розподіл оцінки Q* (критерію значущості), знаходять квантильні довірчі межі, як правило, симетричні Q p/2 і Q 1- p/2. Числа Q p/2 і Q 1- p/2 називаються критичними значеннями гіпотези; значення Q*< Qp/2 і Q * > Q 1- p/2 утворюють критичну


ділянку гіпотези (або область неприйняття гіпотези) (рис. 12).

Рис. 12.Критична область Рис. 13.Перевірка статистичних

гіпотези. гіпотез.

Якщо знайдене за вибіркою Q0 потрапляє між Q p/2 і Q 1- p/2 , то гіпотеза допускає таке значення як випадкове і тому немає підстав її відкидати. Якщо ж значення Q 0 потрапляє в критичну область, то за цією гіпотезою воно є практично неможливим. Але оскільки воно виникло, то відкидається сама гіпотеза.

Під час перевірки гіпотез можна зробити помилки двох типів. Помилка першого родуполягає в тому що відкидається гіпотеза, яка насправді вірна. Імовірність такої помилки не більша за прийнятий рівень значущості. Помилка другого родуполягає в тому що гіпотеза приймається, а насправді вона невірна. Імовірність цієї помилки тим менше, чим вищий рівень значущості, так як при цьому збільшується кількість гіпотез, що відкидаються. Якщо ймовірність помилки другого роду дорівнює a то величину (1 - a) називають потужністю критерію.

На рис. 13 наведено дві криві щільності розподілу випадкової величини Q, що відповідають двом гіпотезам Н 0 та Н 1 . Якщо з досвіду виходить значення Q > Q p, то відкидається гіпотеза Н 0 і приймається гіпотеза Н 1 , і навпаки, якщо Q< Qp.

Площа під кривою щільності ймовірності, що відповідає справедливості гіпотези Н 0 праворуч від значення Q p, що дорівнює рівню значимості р, тобто ймовірність помилки першого роду. Площа під кривою щільності ймовірності, що відповідає справедливості гіпотези Н 1 ліворуч від Q p, дорівнює ймовірності помилки другого роду a, а праворуч від Q p- Потужності критерію (1 - a). Таким чином, чим більше ртим більше (1 - a). При перевірці гіпотези прагнуть із усіх можливих критеріїв вибрати той, у якого при заданому рівні значущості менша ймовірність помилки другого роду.

Зазвичай як оптимальний рівень значущості під час перевірки гіпотез використовують p= 0,05, оскільки якщо перевіряється гіпотеза приймається з цим рівнем значимості, то гіпотезу, безумовно, слід визнати, що узгоджується з експериментальними даними; з іншого боку, використання цього рівня значущості не дає підстав для відкидання гіпотези.

Наприклад, знайдено два значення та деякого вибіркового параметра, які можна розглядати як оцінки генеральних параметрів а 1 і а 2 . Висловлюється гіпотеза, що різницю між і випадкове і що генеральні параметри а 1 і а 2 рівні між собою, тобто. а 1 = а 2 . Така гіпотеза називається нульовий, або нуль-гіпотезою. Для її перевірки потрібно з'ясувати, чи значуща розбіжність між та в умовах нульової гіпотези. Для цього зазвичай досліджують випадкову величину D = - і перевіряють, чи значуща її відмінність від нуля. Іноді зручніше розглядати величину / порівнюючи її з одиницею.

Відкидаючи нульову гіпотезу, цим приймають альтернативну, яка розпадається на дві: > і< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется односторонній, і для її перевірки застосовують одностороннікритерії значущості (на відміну від звичайних, двосторонніх). При цьому необхідно розглядати лише одну з половин критичної галузі (рис. 12).

Наприклад, р= 0,05 при двосторонньому критерії відповідають критичні значення Q 0.025 і Q 0.975 , тобто значущими (невипадковими) вважаються Q * , що прийняли значення Q *< Q 0.025 и Q * >Q 0.975. При односторонньому критерії одна з цих нерівностей свідомо неможлива (наприклад, Q *< Q 0.025) и значимыми будут лишь Q * >Q 0.975. Імовірність останньої нерівності дорівнює 0,025, і, отже, рівень значущості дорівнюватиме 0,025. Таким чином, якщо за одностороннього критерію значущості використовувати ті ж критичні числа, що й за двостороннього, цим значенням буде відповідати вдвічі менший рівень значущості.

Зазвичай для одностороннього критерію беруть той самий рівень значущості, як і для двостороннього, оскільки за цих умов обидва критерії забезпечують однакову помилку першого роду. Для цього односторонній критерій треба виводити з двостороннього, що відповідає вдвічі більшому рівню значущості, ніж той, що прийнято. Щоб зберегти для одностороннього критерію рівень значущості р= 0,05, для двостороннього необхідно взяти р= 0,10, що дає критичні значення Q 0.05 та Q 0.95 . З них для одностороннього критерію залишиться якесь одне, наприклад, Q 0.95 . Рівень значущості для одностороннього критерію дорівнює у своїй 0.05. Цьому рівні значимості для двостороннього критерію відповідає критичне значення Q 0.975 . Але Q 0.95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

Рівень значущості у статистиці є важливим показником, що відображає ступінь впевненості в точності, істинності отриманих (прогнозованих) даних. Поняття широко застосовується у різних сферах: від проведення соціологічних досліджень до статистичного тестування наукових гіпотез.

Визначення

Рівень статистичної значущості (або статистично значущий результат) показує, якою є ймовірність випадкового виникнення досліджуваних показників. Загальна статистична значущість явища виражається коефіцієнтом р-value (p-рівень). У будь-якому експерименті чи спостереженні існує ймовірність, що отримані дані виникли через помилки вибірки. Особливо це актуально для соціології.

Тобто статистично значимої є величина, чия ймовірність випадкового виникнення вкрай мала чи прагне крайності. Крайністю у цьому контексті вважають ступінь відхилення статистики від нуль-гіпотези (гіпотези, яку перевіряють на узгодженість із отриманими вибірковими даними). У науковій практиці рівень значущості вибирається перед збиранням даних, як правило, його коефіцієнт становить 0,05 (5 %). Для систем, де дуже важливі точні значення, цей показник може становити 0,01 (1%) і менше.

Історія питання

Поняття рівня значимості було запроваджено британським статистиком і генетиком Рональдом Фішером 1925 року, що він розробляв методику перевірки статистичних гіпотез. При аналізі будь-якого процесу існує певна можливість тих чи інших явищ. Проблеми з'являються під час роботи з невеликими (чи очевидними) відсотками ймовірностей, які під поняття «похибка вимірів».

Працюючи зі статистичними даними, недостатньо конкретними, щоб їх перевірити, вчені стикалися з проблемою нульової гіпотези, яка «заважає» оперувати малими величинами. Фішер запропонував для таких систем визначити ймовірність подій у 5% (0,05) як зручний вибірковий зріз, що дозволяє відхилити нуль-гіпотезу при розрахунках.

Введення фіксованого коефіцієнта

У 1933 році вчені ЄжиНейман та Егон Пірсон у своїх роботах рекомендували заздалегідь (до збору даних) встановлювати певний рівень значущості. Приклади використання цих правил добре помітні під час проведення виборів. Припустимо, є два кандидати, один із яких дуже популярний, а другий – маловідомий. Очевидно, що перший кандидат вибори виграє, а шанси другого прагнуть нуля. Прагнуть - але не рівні: завжди є ймовірність форс-мажорних обставин, сенсаційної інформації, несподіваних рішень, які можуть змінити прогнозовані результати виборів.

Нейман і Пірсон погодилися, що запропонований Фішером рівень значущості 0,05 (який позначається символом α) найбільш зручний. Проте сам Фішер у 1956 році виступив проти фіксації цього значення. Він вважав, що рівень α має встановлюватись відповідно до конкретних обставин. Наприклад, у фізиці частинок він становить 0,01.

Значення p-рівня

Термін р-value вперше використаний у роботах Браунлі у 1960 році. P-рівень (p-значення) є показником, який знаходиться у зворотній залежності від істинності результатів. Найвищий коефіцієнт р-value відповідає найменшому рівню довіри до проведеної вибірки залежності між змінними.

Це значення відображає ймовірність помилок, пов'язаних з інтерпретацією результатів. Припустимо, p-рівень = 0,05 (1/20). Він показує п'ятивідсоткову ймовірність того, що знайдений у вибірці зв'язок між змінними – лише випадкова особливість проведеної вибірки. Тобто, якщо ця залежність відсутня, то при багаторазових подібних експериментах у середньому в кожному двадцятому дослідженні очікується така вже або більша залежність між змінними. Часто p-рівень розглядається як «допустима межа» рівня помилок.

До речі, р-value може відбивати реальну залежність між змінними, лише показує якесь середнє значення не більше припущень. Зокрема, остаточний аналіз даних також залежатиме від обраних значень даного коефіцієнта. При p-рівні = 0,05 будуть одні результати, а при коефіцієнті, що дорівнює 0,01, інші.

Перевірка статистичних гіпотез

Рівень статистичної значущості особливо важливий при перевірці гіпотез, що висуваються. Наприклад, при розрахунках двостороннього тесту область відторгнення розділяють порівну на обох кінцях вибіркового розподілу (щодо нульової координати) і обчислюють істинність даних.

Припустимо, при моніторингу якогось процесу (яви) з'ясувалося, що нова статистична інформація свідчить про невеликі зміни щодо попередніх значень. У цьому розбіжності у результатах малі, не очевидні, але важливі дослідження. Перед фахівцем постає дилема: зміни реально відбуваються, чи це помилки вибірки (неточність вимірів)?

У цьому випадку застосовують або відкидають нульову гіпотезу (списують все на похибку, або визнають зміну системи як факт, що відбувся). Процес розв'язання задачі базується на співвідношенні загальної статистичної значущості (р-value) та рівня значущості (α). Якщо р-рівень< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Використовувані значення

Рівень значущості залежить від аналізованого матеріалу. На практиці використовують такі фіксовані значення:

  • α = 0,1 (або 10%);
  • α = 0,05 (або 5%);
  • α = 0,01 (або 1%);
  • α = 0,001 (або 0,1%).

Чим більш точними потрібні розрахунки, тим менший коефіцієнт використовується. Природно, що статистичні прогнози у фізиці, хімії, фармацевтиці, генетиці потребують більшої точності, ніж у політології, соціології.

Пороги значимості у конкретних областях

У високоточних областях, таких як фізика частинок та виробнича діяльність, статистична значущість часто виражається як співвідношення середньоквадратичного відхилення (позначається коефіцієнтом сигма - σ) щодо нормального розподілу ймовірностей (розподіл Гауса). σ – це статистичний показник, що визначає розсіювання значень певної величини щодо математичних очікувань. Використовується для складання графіків ймовірності подій.

Залежно від галузі знань, коефіцієнт σ сильно відрізняється. Наприклад, при прогнозуванні існування бозона Хіггса параметр дорівнює п'яти (σ=5), що відповідає значенню р-value=1/3,5 млн. При дослідженнях геномів рівень значущості може становити 5×10 -8 , що не є рідкістю для цієї області.

Ефективність

Необхідно враховувати, що коефіцієнти і р-value не є точними характеристиками. Яким би не був рівень значущості у статистиці досліджуваного явища, він не є безумовною основою для прийняття гіпотези. Наприклад, що менше значення α, то більше вписувалося шанс, що встановлювана гіпотеза значуща. Проте існує ризик помилитися, що зменшує статистичну потужність (значущість) дослідження.

Дослідники, які зациклюються виключно на статистично значимих результатах, можуть одержати хибні висновки. При цьому перевіряти ще раз їх роботу важко, тому що ними застосовуються припущення (якими фактично і є значення α і р-value). Тому рекомендується завжди, поряд із обчисленням статистичної значущості, визначати інший показник – величину статистичного ефекту. Величина ефекту – це кількісна міра сили ефекту.

Величину називають статистично значущоюякщо мала ймовірність суто випадкового виникнення її або ще більш крайніх величин. Тут під крайністю розуміється ступінь відхилення від нуль-гіпотези. Різниця називається «статистично значущою», якщо є дані, поява яких було малоймовірно, якщо припустити, що ця різниця відсутня; цей вислів не означає, що ця різниця має бути великою, важливою, або значущою в загальному розумінні цього слова.

Рівень значущості тесту – це традиційне поняття перевірки гіпотез у частотній статистиці. Він визначається як ймовірність прийняти рішення відхилити нуль-гіпотезу, якщо насправді нуль-гіпотеза вірна (рішення відоме як помилка першого роду, або хибнопозитивне рішення.) Процес рішення часто спирається на p-величину (читається «пі-величина»): якщо p-величина менша за рівень значущості, то нуль-гіпотеза відкидається. Чим менше p-величина, тим значнішою називається тестова статистика. Чим менше p-величина, тим сильніше підстави відкинути нуль-гіпотезу.

Рівень важливості зазвичай позначають грецькою літерою (альфа). Популярними рівнями значущості є 5%, 1% та 0.1%. Якщо тест видає p-величину менше α-рівня, то нуль-гіпотеза відхиляється. Такі результати неформально називають статистично значущими. Наприклад, якщо хтось каже, що «шанси того, що трапилося, є збігом, рівним одному з тисячі», то мають на увазі 0.1 % рівень значущості.

Різні значення α-рівня мають свої переваги та недоліки. Найменші α-рівні дають більшу впевненість у тому, що вже встановлена ​​альтернативна гіпотеза значуща, але при цьому є більший ризик не відкинути хибну нуль-гіпотезу (помилка другого роду, або «хибнонегативне рішення»), і таким чином менша статистична потужність. Вибір α-рівня неминуче вимагає компромісу між значимістю і потужністю, а отже, між ймовірностями помилок першого і другого роду . У вітчизняних наукових працяхНерідко вживається неправильний термін "достовірність" замість терміна "статистична значимість".

Див. також

Примітки

George Casella, Roger L. Berger Hypothesis Testing // Statistical Inference. - Second Edition. – Pacific Grove, CA: Duxbury, 2002. – С. 397. – 660 с. - ISBN 0-534-24312-6


Wikimedia Foundation. 2010 .

Дивитись що таке "Рівень значущості" в інших словниках:

    Число настільки мале, що можна вважати практично безперечним, що подія з ймовірністю α не відбудеться при одиничному досвіді. Зазвичай У. з. фіксується довільно, а саме: 0,05, 0,01 і за особливої ​​точності 0,005 і т. д. У геол. роботах… … Геологічна енциклопедія

    рівень значущості- Статистичного критерію (його називають також "альфа рівень" і позначають грецькою літерою) - це обмеження зверху на ймовірність помилки першого роду (ймовірність відкинути нульову гіпотезу, коли вона насправді вірна). Типові значення – … Словник соціологічної статистики

    Англ. level, significance; ньому. Signifikanzniveau. Ступінь ризику в тому, що дослідник може зробити неправильний висновок про хибність статист, гіпотези на основі вибіркових даних. Антіназі. Енциклопедія соціології, 2009 … Енциклопедія соціології

    рівень значущості- - [Л.Г.Суменко. Англо-російський словник з інформаційних технологій. М.: ДП ЦНИИС, 2003.] Тематики інформаційні технології загалом EN level of significance … Довідник технічного перекладача

    рівень значущості- 3.31 рівень значущості (significance level) α: Задане значення, що є верхньою межею ймовірності відкинути статистичну гіпотезу, коли ця гіпотеза вірна. Джерело: ГОСТ Р ИСО 12491 2011: Матеріали та вироби будівельні. Словник-довідник термінів нормативно-технічної документації

    РІВЕНЬ ЗНАЧИМОСТІ- поняття математичної статистики, що відображає ступінь ймовірності помилкового висновку щодо статистичної гіпотези про розподіл ознаки, що перевіряється на основі вибіркових даних. У психологічних дослідженнях за достатній рівень... Сучасний освітній процес: основні поняття та терміни

    рівень значущості- reikšmingumo lygis statusas T sritis automatika atitikmenys: angl. significance level vok. Signifikanzniveau, n rus. рівень значущості, m pranc. niveau de signifiance, m … Automatikos terminų žodynas

    рівень значущості- reikšmingumo lygis statusas T sritis fizika atitikmenys: angl. level of significance; significance level vok. Sicherheitsschwelle, f rus. рівень значущості f pranc. niveau de significance, m … Fizikos terminų žodynas

    Статистичного критерію, див. Велика Радянська Енциклопедія

    РІВЕНЬ ЗНАЧИМОСТІ- Див значимості, рівень … Тлумачний словникз психології

Книги

  • "Цілком таємно" . Луб'янка - Сталіну про становище країни (1922-1934 рр.). Том 4. Частина 1, . Багатотомна фундаментальна публікація документів інформаційних оглядівта зведення ОГПУ - унікальна за своєю науковою значимістю, цінністю, змістом та масштабами. У цьому історичному...
  • Освітня програма як інструмент системи управління якістю професійної освіти, Ткачова Галина Вікторівна, Логачов Максим Сергійович, Самарін Юрій Миколайович. У монографії проведено аналіз існуючих практик формування змісту професійних освітніх програм. Визначено місце, структура, зміст та рівень значущості…

P-значення(англ.) – величина, яка використовується при тестуванні статистичних гіпотез. Фактично це ймовірність помилки при відхиленні нульової гіпотези (помилки першого роду). Перевірка гіпотез за допомогою P-значення є альтернативою класичній процедурі перевірки через критичне значення розподілу.

Зазвичай P-значення дорівнює ймовірності того, що випадкова величина з даним розподілом (розподілом тестової статистики при нульовій гіпотезі) набуде значення, не меншого, ніж фактичне значення тестової статистики. Вікіпедія.

Інакше висловлюючись, p-значение – це найменше значення рівня значимості (тобто. ймовірності відмовитися від справедливої ​​гіпотези), котрій обчислена перевірна статистика веде відмовити від нульової гіпотези. Зазвичай p-значення порівнюють із загальноприйнятими стандартними рівнями значущості 0,005 або 0,01.

Наприклад, якщо обчислене за вибіркою значення перевірочної статистики відповідає p = 0,005 це вказує на ймовірність справедливості гіпотези 0,5%. Таким чином, чим p-значення менше, тим краще, оскільки при цьому збільшується сила відхилення нульової гіпотези і збільшується очікувана значущість результату.

Цікаве пояснення цього є на Хабре.

Статистичний аналіз починає нагадувати чорну скриньку: на вхід подаються дані, на вихід - таблиця основних результатів та значення p-рівня значущості (p-value).

Про що говорить p-value?

Припустимо, ми вирішили з'ясувати, чи існує взаємозв'язок між пристрастю до кривавих комп'ютерних ігор та агресивністю у реальному житті. Для цього були випадковим чином сформовані дві групи школярів по 100 осіб у кожній (1 група – фанати стрілялок, друга група – які не грають у комп'ютерні ігри). Як показник агресивності виступає, наприклад, число бійок з однолітками. У нашому уявному дослідженні виявилося, що група школярів-ігроманів справді помітно частіше конфліктує з товаришами. Але як з'ясувати, наскільки статистично достовірні отримані відмінності? Можливо, ми отримали різницю, що спостерігається, абсолютно випадково? Для відповіді на ці питання і використовується значення p-рівня значущості (p-value) - це можливість отримати такі або більш виражені відмінності за умови, що в генеральній сукупності ніяких відмінностей насправді немає. Іншими словами, це ймовірність отримати такі чи ще сильніші відмінності між нашими групами, за умови, що насправді комп'ютерні ігри ніяк не впливають на агресивність. Звучить не так уже й складно. Однак саме цей статистичний показник дуже часто інтерпретується неправильно.

Приклади про p-value

Отже, ми порівняли дві групи школярів між собою за рівнем агресивності за допомогою стандартного t-тесту (або непараметричного критерію Хі - квадрат доречнішого в даній ситуації) і отримали, що заповітний p-рівень значимості менше 0.05 (наприклад 0.04). Але про що насправді говорить нам отримане значення p-рівня значущості? Отже, якщо p-value - це можливість отримати такі або більш виражені відмінності за умови, що в генеральній сукупності ніяких відмінностей насправді немає, то яке, на вашу думку, вірне твердження:

1.Комп'ютерні ігри – причина агресивної поведінки з ймовірністю 96%.
2. Імовірність того, що агресивність та комп'ютерні ігри не пов'язані, дорівнює 0.04.
3. Якби ми отримали p-рівень значущості більше, ніж 0.05, це означало б, що агресивність та комп'ютерні ігри не пов'язані між собою.
4. Імовірність випадково одержати такі відмінності дорівнює 0.04.
5. Усі твердження неправильні.

Якщо ви вибрали п'ятий варіант, то абсолютно праві! Але, як свідчать численні дослідження, навіть із значним досвідом у аналізі даних часто некоректно інтерпретують значення p-value.

Давайте розберемо всі відповіді по порядку:

Перше твердження - приклад помилки кореляції: факт значимого взаємозв'язку двох змінних нічого не говорить нам про причини та наслідки. Можливо, це агресивніші люди воліють проводити час за комп'ютерними іграми, а зовсім не комп'ютерні ігри роблять людей агресивнішими.

Це вже цікавіше твердження. Вся справа в тому, що ми спочатку приймаємо за це, що ніяких відмінностей насправді немає. І, тримаючи це на увазі як факт, розраховуємо значення p-value. Тому правильна інтерпретація: «Якщо припустити, що агресивність та комп'ютерні ігри ніяк не пов'язані, то можливість отримати такі або ще більш виражені відмінності склала 0.04».

А що робити, якщо ми набули незначних відмінностей? Чи це означає, що жодного зв'язку між досліджуваними змінними немає? Ні, це означає лише те, що відмінності, можливо, є, але наші результати не дозволили їх виявити.

Це безпосередньо з самим визначенням p-value. 0.04 - це можливість отримати такі або ще більш екстремальні відмінності. Оцінити можливість отримати саме такі відмінності, як у нашому експерименті, в принципі неможливо!

Ось такі підводні камені можуть ховатися в інтерпретації такого показника як p-value. Тому дуже важливо розуміти механізми, закладені на основі методів аналізу та розрахунку основних статистичних показників.

Як знайти p-value?

1. Визначте очікувані у вашому експерименті результати

Зазвичай коли вчені проводять експеримент, вони вже мають ідею того, які результати вважати «нормальними» чи «типовими». Це може бути засноване на експериментальних результатах минулих дослідів, на достовірних наборах даних, даних з наукової літератури, або вчений може ґрунтуватися на будь-яких інших джерелах. Для вашого експерименту визначте очікувані результати і висловіть їх у вигляді чисел.

Приклад: Наприклад, попередні дослідження показали, що у вашій країні червоні машини частіше отримують штрафи за перевищення швидкості, ніж сині машини. Наприклад, середні результати показують перевагу 2:1 червоних машин перед синіми. Ми хочемо визначити, чи належить поліція так само упереджено до кольору машин у вашому місті. Для цього ми аналізуватимемо штрафи, видані за перевищення швидкості. Якщо ми візьмемо випадковий набір зі 150 штрафів за перевищення швидкості, виданих або червоним, або синім автомобілям, ми очікуємо, що 100 штрафів буде виписано червоним автомобілям, а 50 синім, якщо поліція в нашому місті так само упереджено ставиться до кольору машин, як це спостерігається по всій країні.

2. Визначте результати вашого експерименту.

Тепер, коли ви визнали очікувані результати, необхідно провести експеримент і знайти дійсні (або «спостерігаються») значення. Вам знову необхідно подати ці результати у вигляді чисел. Якщо ми створюємо експериментальні умови, і результати, що спостерігаються, відрізняються від очікуваних, то у нас є дві можливості – або це сталося випадково, або це викликано саме нашим експериментом. Мета знаходження p-значення якраз і полягає в тому, щоб визначити, чи відрізняються результати, що спостерігаються від очікуваних настільки, щоб можна було не відкидати «нульову гіпотезу» – гіпотезу про те, що між експериментальними змінними і спостережуваними результатами немає ніякого зв'язку.

Приклад: Наприклад, у нашому місті ми випадково обрали 150 штрафів за перевищення швидкості, виданих або червоним, або синім автомобілям. Ми визначили, що 90 штрафів було виписано червоним автомобілям, та 60 синім. Це відрізняється від очікуваних результатів, які дорівнюють 100 і 50, відповідно. Чи дійсно наш експеримент (в даному випадку, зміна джерела даних з національного на міський) призвів до цієї зміни в результатах, чи наша міська поліція ставиться упереджено так само, як і в середньому по країні, а ми бачимо просто випадкове відхилення? P-значення допоможе нам визначити.

3. Визначте кількість ступенів свободи вашого експерименту

Число ступенів свободи - це ступінь змінності вашого експерименту, який визначається кількістю категорій, які ви досліджуєте. Рівняння для числа ступенів свободи - Число ступенів свободи = n-1, де "n" це число категорій або змінних, які ви аналізуєте у своєму експерименті.

Приклад: У нашому експерименті дві категорії результатів: одна категорія для червоних машин та одна для синіх машин. Тож у нашому експерименті ми маємо 2-1 = 1 ступінь свободи. Якби ми порівнювали червоні, сині та зелені машини, у нас було б 2 ступені свободи, і так далі.

4. Порівняйте очікувані та спостерігаються результати за допомогою критерію хі-квадрат

Хі-квадрат (пишеться «x2») це числове значення, яке вимірює різницю між очікуваними та спостережуваними значеннями експерименту. Рівняння для хі-квадрата наступне x2 = Σ((o-e)2/e), де «o» це значення, що спостерігається, а «e» це очікуване значення. Підсумуйте результати цього рівняння для всіх можливих результатів (див. нижче).

Зауважте, що це рівняння включає оператор підсумовування Σ (сигма). Іншими словами, вам необхідно підрахувати ((o-e|-.05)2/e) для кожного можливого результату, і скласти отримані числа, щоб отримати значення критерію хі-квадрат. У нашому прикладі у нас два можливі результати - або машина, що отримала штраф червона, або синя. Тому ми повинні порахувати ((o-e)2/e) двічі – один раз для червоних машин і один раз для синіх машин.

Приклад: Давайте підставимо наші очікувані та спостерігаються значення рівняння x2 = Σ((o-e)2/e). Пам'ятайте, що через оператора підсумовування нам необхідно порахувати ((o-e)2/e) двічі – один раз для червоних автомобілів і один раз для синіх автомобілів. Ми виконаємо цю роботу так:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Виберіть рівень значущості

Тепер, коли ми знаємо кількість ступенів свободи нашого експерименту, і довідалися значення критерію хі-квадрат, нам потрібно зробити ще одну річ перед тим, як ми знайдемо наше p-значення. Нам слід визначити рівень значущості. Говорячи простою мовою, рівень значущості показує, наскільки ми впевнені у наших результатах. Низьке значення для значущості відповідає низькій ймовірності того, що експериментальні результати вийшли випадково, і навпаки. Рівні значущості записуються у вигляді десяткових дробів (таких як 0.01), що відповідає ймовірності того, що експериментальні результати ми одержали випадково (в даному випадку ймовірність цього 1%).

За згодою, вчені зазвичай встановлюють рівень значущості своїх експериментів рівним 0.05, або 5%. Це означає, що експериментальні результати, які відповідають такому критерію значущості, тільки з ймовірністю 5% могли статися випадково. Інакше кажучи, існує 95% ймовірність, що результати були викликані тим, як учений маніпулював експериментальними змінними, а чи не випадково. Для більшості експериментів 95% впевненості наявності зв'язку між двома змінними достатньо, щоб вважати, що вони «справді» пов'язані один з одним.

Приклад: для нашого прикладу з червоними та синіми машинами, давайте підемо угоді між вченими, і встановимо рівень значущості в 0.05.

6. Використовуйте таблицю з даними розподілу хі-квадрат, щоб знайти ваше p-значення

Вчені та статисти використовують великі таблиці для обчислення p-значення своїх експериментів. Дані таблиці зазвичай мають вертикальну вісь зліва, що відповідає числу ступенів свободи, і горизонтальну вісь зверху, що відповідає p-значенню. Використовуйте дані таблиці, щоб спочатку знайти число ваших ступенів свободи, потім подивіться на ваш ряд зліва направо, поки не знайдете перше значення, більше вашого значення хі-квадрат. Подивіться відповідне p-значення вгорі вашого стовпця. Ваше p-значення знаходиться між цим числом і наступним за ним (тим, яке знаходиться ліворуч від вашого).

Таблиці з розподілом хі-квадрат можна отримати з безлічі джерел (ось за цим посиланням можна знайти одну з них).

Приклад: Наше значення критерію хі-квадрат дорівнювало 3. Так як ми знаємо, що в нашому експерименті всього 1 ступінь свободи, виберемо найперший рядок. Йдемо зліва направо по даному рядку, поки не зустрінемо значення, більше 3, нашого значення критерію хі-квадрат. Перше, що ми знаходимо це 3.84. Дивимося нагору нашого стовпця, і бачимо, що відповідне p-значення дорівнює 0.05. Це означає, що наше p-значення між 0.05 та 0.1 (наступне p-значення у таблиці за зростанням).

7. Вирішіть, відхилити чи залишити вашу нульову гіпотезу

Так як ви визначили приблизне p-значення для вашого експерименту, вам необхідно вирішити, чи відхиляти нульову гіпотезу вашого експерименту чи ні (нагадуємо, це гіпотеза про те, що експериментальні змінні, якими ви маніпулювали не вплинули на результати, що спостерігаються). Якщо ваше p-значення менше, ніж ваш рівень значущості – вітаємо, ви довели, що дуже ймовірний зв'язок між змінними, якими ви маніпулювали та результатами, які ви спостерігали. Якщо ваше p-значення вище, ніж ваш рівень значущості, ви не можете з упевненістю сказати, чи були результати, які ви спостерігали, результатом чистої випадковості або маніпуляцією вашими змінними.

Приклад: Наше значення p знаходиться між 0,05 і 0,1. Це явно не менше ніж 0,05, тому, на жаль, ми не можемо відхилити нашу нульову гіпотезу. Це означає, що ми не досягли мінімум 95% ймовірності того, щоб сказати, що поліція в нашому місті видає штрафи червоним та синім автомобілям з такою ймовірністю, яка досить сильно відрізняється від середньої країни.

Іншими словами, існує 5-10% шанс, що результати, які ми спостерігаємо – це не наслідки зміни місця (аналізу міста, а не всієї країни), а просто випадковість. Так як ми вимагали точності менше ніж 5%, ми не можемо сказати, що ми впевнені в тому, що поліція нашого міста менш упереджено ставиться до червоних автомобілів – існує невелика (але статистично значуща) ймовірність, що це не так.

У таблицях результатів статистичних розрахунків у курсових, дипломних і магістерських роботах з психології завжди є показник «р».

Наприклад, відповідно до завданнями дослідженнябули розраховані відмінності рівня свідомості життя у хлопчиків і дівчат підліткового віку.

Середнє значення

U-критерій Манна-Уітні

Рівень статистичної значущості (p)

Хлопчики (20 чол.)

Дівчатка

(5 чол.)

Цілі

28,9

35,2

17,5

0,027*

Процес

30,1

32,0

38,5

0,435

Результат

25,2

29,0

29,5

0,164

Локус контролю - "Я"

20,3

23,6

0,067

Локус контролю – «Життя»

30,4

33,8

27,5

0,126

Свідомість життя

98,9

111,2

0,103

* - відмінності статистично достовірні (р0,05)

У правому стовпці вказано значення «р» і саме за його величиною можна визначити значущі відмінності свідомості життя в майбутньому у хлопчиків та дівчаток або не значимі. Правило просте:

  • Якщо рівень статистичної значимості «р» менше чи дорівнює 0,05, робимо висновок, що відмінності значущі. У наведеній таблиці різницю між хлопчиками і дівчатками значущі щодо показника «Цілі» - свідомість життя майбутньому. У дівчат цей показник статистично значуще вище, ніж у хлопчиків.
  • Якщо рівень статистичної значимості «р» більше 0,05, робиться висновок, що відмінності не значущі. У наведеній таблиці різницю між хлопчиками і дівчатками не значимі за іншими показниками, крім першого.

Звідки береться рівень статистичної значущості "р"

Рівень статистичної значущості обчислюється статистичною програмоюразом із розрахунком статистичного критерію. У цих програмах можна також задати критичну межу рівня статистичної значущості та відповідні показники виділятимуться програмою.

Наприклад, у програмі STATISTICA при розрахунку кореляцій можна встановити межу "р", наприклад, 0,05 і всі статистично значущі взаємозв'язки будуть виділені червоним кольором.

Якщо розрахунок статистичного критерію проводиться вручну, рівень значущості «р» виявляється шляхом порівняння значення отриманого критерію з критичним значенням.

Що свідчить рівень статистичної значимості «р»

Усі статистичні розрахунки мають приблизний характер. Рівень цієї приблизності визначає «р». Рівень значущості записується у вигляді десяткових дробів, наприклад 0,023 або 0,965. Якщо помножити таке число на 100, то отримаємо показник р у відсотках: 2,3% та 96,5%. Ці відсотки відображають ймовірність помилковості нашого припущення про взаємозв'язок, наприклад, між агресивністю та тривожністю.

Тобто, коефіцієнт кореляції 0,58 між агресивністю та тривожністю отримано при рівні статистичної значущості 0,05 або ймовірності помилки 5%. Що це саме означає?

Виявлена ​​нами кореляція означає, що в нашій вибірці спостерігається така закономірність: що вища агресивність, то вища тривожність. Тобто, якщо ми візьмемо двох підлітків, і в одного тривожність буде вищою, ніж в іншого, то, знаючи про позитивну кореляцію, ми можемо стверджувати, що у цього підлітка і агресивність буде вищою. Але так як у статистиці все приблизно, то, стверджуючи це, ми припускаємо, що можемо помилитися, причому ймовірність помилки 5%. Тобто, зробивши 20 таких порівнянь у цій групі підлітків, ми можемо 1 раз помилитись із прогнозом про рівень агресивності, знаючи тривожність.

Який рівень статистичної значущості кращий: 0,01 чи 0,05

Рівень статистичної значущості відбиває можливість помилки. Отже, результат при р=0,01 точніший, ніж при р=0,05.

У психологічних дослідженнях прийнято два допустимі рівні статистичної значущості результатів:

р = 0,01 - висока достовірність результату порівняльного аналізучи аналізу взаємозв'язків;

р=0,05 – достатня точність.

Сподіваюся, ця стаття допоможе вам написати роботу з психології самостійно. Якщо знадобиться допомога, звертайтеся (всі види робіт із психології; статистичні розрахунки).