İstatistiksel anlamlılık düzeyi nasıl hesaplanır. İstatistiksel anlamlılık düzeyinin ne olduğunu açıklayın

Bir dizi ölçümle belirlenen örnek dağılım parametreleri rastgele değişkenlerdir, bu nedenle genel parametrelerden sapmaları da rastgele olacaktır. Bu sapmaların değerlendirilmesi, doğası gereği olasılıksaldır - istatistiksel analizde, yalnızca belirli bir hatanın olasılığı belirtilebilir.

Genel parametre için izin verin a deneyimden elde edilen tarafsız tahmin a*. Yeterince büyük bir olasılık b atarız (b olasılıklı bir olay pratik olarak kesin olarak kabul edilebilir) ve böyle bir e b değeri buluruz. = f(b) bunun için

Değiştirirken oluşan hatanın pratik olarak olası değerleri aralığı aüzerinde a* , ±e b olacak. Mutlak değeri büyük olan hatalar yalnızca küçük bir olasılıkla görünecektir.

aranan önem düzeyi. Aksi takdirde, (4.1) ifadesi, parametrenin gerçek değerinin olma olasılığı olarak yorumlanabilir. a içinde yatıyor

. (4.3)

Olasılık b denir güven seviyesi ve elde edilen tahminin güvenilirliğini karakterize eder. Aralık ben b= a* ± e b denir güven aralığı. Aralık sınırları a¢ = a* - e b ve a¢¢ = a* + e b denir güven sınırları. Belirli bir güven düzeyindeki güven aralığı, tahminin doğruluğunu belirler. Güven aralığının değeri, parametrenin bulunmasının garanti edildiği güven düzeyine bağlıdır. a güven aralığı içinde: b'nin değeri ne kadar büyükse, aralık o kadar büyük olur ben b (ve e b'nin değeri). Deney sayısındaki artış, sabit bir güven olasılığı ile güven aralığında bir azalma veya güven aralığı korunurken güven olasılığında bir artış ile kendini gösterir.

Uygulamada, genellikle güven olasılığının değeri (0.9; 0.95 veya 0.99) sabitlenir ve ardından sonucun güven aralığı belirlenir. ben b. Bir güven aralığı oluştururken, mutlak sapma sorunu çözülür:

Böylece, tahminin dağılım yasası biliniyorsa a* , güven aralığını belirleme sorunu basitçe çözülecektir. Normal dağılmış bir rastgele değişkenin matematiksel beklentisi için bir güven aralığı oluşturmayı düşünün. X bir örneklem büyüklüğü üzerinde bilinen bir genel standart s ile n. Beklenti için En İyi Sınır m ortalamanın standart sapması ile örnek ortalamasıdır

.

Laplace fonksiyonunu kullanarak,

. (4.5)

Güven olasılığı b verildiğinde, Laplace fonksiyonunun tablosundan değeri belirliyoruz (Ek 1) . Daha sonra matematiksel beklenti için güven aralığı şu şekli alır:

. (4.7)

(4.7)'den güven aralığındaki azalmanın deney sayısının karekökü ile ters orantılı olduğu görülebilir.

Genel varyansı bilmek, bir gözlem için bile matematiksel beklentiyi tahmin etmemizi sağlar. Normal dağılan bir rastgele değişken için ise X deney sonucunda değer X 1 , o zaman seçilen b için matematiksel beklenti için güven aralığı şu şekildedir:

nerede sen 1-p/2 - standart normal dağılımın niceliği (Ek 2).

Not dağıtım yasası a* miktarın dağıtım yasasına bağlıdır X ve özellikle parametrenin kendisinde a. Bu zorluğun üstesinden gelmek için matematiksel istatistiklerde iki yöntem kullanılır:

1) yaklaşık - n³ 50, e b ifadesindeki bilinmeyen parametreleri tahminleriyle değiştirin, örneğin:

2) rastgele bir değişkenden a* dağıtım yasası tahmin edilen parametreye bağlı olmayan başka bir rastgele değişken Q * 'ya gidin a, ancak yalnızca örnek boyutuna bağlıdır. n ve miktarın dağıtım yasasının türü hakkında X. Bu tür nicelikler, rastgele değişkenlerin normal dağılımı için en ayrıntılı şekilde incelenmiştir. Simetrik nicelikler genellikle Q¢ ve Q¢¢ için güven sınırları olarak kullanılır

, (4.9)

veya dikkate alındığında (4.2)

. (4.10)

4.2. İstatistiksel hipotezlerin test edilmesi, anlamlılık testleri,

birinci ve ikinci tür hatalar.

Altında istatistiksel hipotezler bir veya başka bir rastgele değişkenin genel popülasyonunun dağılımları hakkında bazı varsayımlar anlaşılmıştır. Hipotez testi, bazı istatistiksel göstergelerin karşılaştırması olarak anlaşılır, doğrulama kriterleri (önem kriterleri) verilen hipotezin doğru olduğu varsayımı altında belirlenen değerleri ile örneklemden hesaplanmıştır. Hipotezleri test ederken, genellikle bazı hipotezler test edilir. H 0 alternatif hipotez ile karşılaştırıldığında H 1 .

Bir hipotezi kabul etmeye veya reddetmeye karar vermek için anlamlılık düzeyi verilir. R. En sık kullanılan anlamlılık seviyeleri 0.10, 0.05 ve 0.01'dir. Bu olasılığa göre, Q * tahmininin (önem kriteri) dağılımı hakkındaki hipotezi kullanarak, kural olarak, simetrik Q'nun nicel güven sınırları bulunur. p/2 ve Q 1- p/2 . Q numaraları p/2 ve Q 1- p/2 denir hipotezin kritik değerleri; Q değerleri *< Qp/2 ve Q * > Q 1- p/2 bir kritik oluşturur


hipotezin alanı (veya hipotezin kabul edilmediği alan) (Şekil 12).

Pirinç. 12. Kritik bölge Pirinç. 13.İstatistikleri kontrol etme

hipotezler. hipotezler.

Örnekte bulunan Q 0, Q arasında düşerse p/2 ve Q 1- p/2 , o zaman hipotez böyle bir değeri rastgele olarak kabul eder ve bu nedenle onu reddetmek için bir neden yoktur. Q 0 değeri kritik bölgeye düşerse, bu hipoteze göre pratik olarak imkansızdır. Ancak ortaya çıktığı için, hipotezin kendisi reddedilmiştir.

Hipotezler test edilirken yapılabilecek iki tür hata vardır. Tip I hatası bu mu gerçekten doğru olan bir hipotezi reddetmek. Böyle bir hatanın olasılığı, kabul edilen önem düzeyinden daha büyük değildir. Tip II hata bu mu hipotez kabul edilir, ancak aslında yanlıştır. Bu hatanın olasılığı ne kadar düşükse, önem düzeyi o kadar yüksek olur, çünkü bu reddedilen hipotezlerin sayısını artırır. İkinci türden bir hata olasılığı a ise, (1 - a) değerine denir. kriterin gücü.

Şek. 13, iki hipoteze karşılık gelen, rastgele değişken Q'nun dağılım yoğunluğunun iki eğrisini gösterir. H 0 ve H bir . Tecrübeden elde edilen değer Q > Q ise p ise hipotez reddedilir. H 0 ve hipotez kabul edildi H 1 ve tersi, eğer Q< Qp.

Hipotezin geçerliliğine karşılık gelen olasılık yoğunluk eğrisinin altındaki alan H 0, Q değerinin sağında p, önem düzeyine eşittir R, yani birinci türden bir hatanın olasılıkları. Hipotezin geçerliliğine karşılık gelen olasılık yoğunluk eğrisinin altındaki alan H 1 Q'nun solunda p, ikinci tür a hata olasılığına eşittir ve Q'nun sağında p- kriterin gücü (1 - a). Böylece, daha R, daha fazla (1 - a). Bir hipotezi test ederken, tüm olası kriterler arasından belirli bir önem düzeyinde Tip II hata olasılığı daha düşük olanı seçmeye çalışırlar..

Genellikle, hipotezleri test ederken optimal önem düzeyi olarak, p= 0.05, çünkü test edilen hipotez belirli bir anlamlılık düzeyinde kabul edilirse, o zaman hipotezin elbette deneysel verilerle tutarlı olduğu kabul edilmelidir; Öte yandan, bu anlamlılık düzeyinin kullanılması, hipotezi reddetmek için temel oluşturmaz.

Örneğin, genel parametrelerin tahminleri olarak kabul edilebilecek iki değer ve bazı örnek parametreler bulunur. a 1 ve a 2. Arasındaki farkın rastgele olduğu ve genel parametrelerin a 1 ve a 2 birbirine eşittir, yani. a 1 = a 2. Bu hipotez denir hükümsüz, veya sıfır hipotezi. Test etmek için, sıfır hipotezi altında ve arasındaki tutarsızlığın anlamlı olup olmadığını öğrenmeniz gerekir. Bunu yapmak için, genellikle bir rastgele değişken D = - araştırılır ve sıfırdan farkının anlamlı olup olmadığı kontrol edilir. Bazen / değerini birlik ile karşılaştırarak düşünmek daha uygundur.

Sıfır hipotezini reddederek, ikiye ayrılan alternatifi kabul ederler: > ve< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется tek taraflı ve kontrol etmek için kullanın tek taraflıönem kriterleri (geleneksel, iki taraflı). Bu durumda kritik bölgenin yarısından sadece birini dikkate almak gerekir (Şekil 12).

Örneğin, R= 0.05 iki taraflı bir kriterle, kritik Q 0.025 ve Q 0.975 değerleri karşılık gelir, yani Q * değerlerini alan Q * önemli olarak kabul edilir (rastgele olmayan)< Q 0.025 и Q * >S 0.975. Tek taraflı bir kriterle, bu eşitsizliklerden birinin imkansız olduğu açıktır (örneğin, Q *< Q 0.025) и значимыми будут лишь Q * >S 0.975. Son eşitsizliğin olasılığı 0,025'tir ve dolayısıyla anlamlılık düzeyi 0,025 olacaktır. Bu nedenle, tek kuyruklu anlamlılık testi için iki kuyruklu olanla aynı kritik sayılar kullanılırsa, bu değerler anlamlılık seviyesinin yarısına karşılık gelecektir.

Genellikle, tek kuyruklu bir test için, iki kuyruklu bir testle aynı anlamlılık düzeyi alınır, çünkü bu koşullar altında her iki test de aynı tip I hatayı verir. Bunu yapmak için, tek kuyruklu bir test, kabul edilenden iki kat anlamlılık düzeyine tekabül eden iki kuyruklu testten türetilmelidir.. Tek kuyruklu bir test için anlamlılık düzeyini korumak için R= 0.05, iki taraflı için almak gerekir R= 0.10, kritik değerleri Q 0.05 ve Q 0.95 verir. Bunlardan tek taraflı bir test için biri, örneğin Q 0.95 olarak kalacaktır. Tek kuyruklu test için anlamlılık düzeyi 0.05'tir. İki kuyruklu test için aynı anlamlılık düzeyi kritik değer Q 0.975'e karşılık gelir. Ama Q 0.95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

İstatistiklerdeki önem düzeyi, alınan (tahmin edilen) verilerin doğruluğuna ve doğruluğuna olan güven derecesini yansıtan önemli bir göstergedir. Bu kavram çeşitli alanlarda yaygın olarak kullanılmaktadır: sosyolojik araştırmalardan bilimsel hipotezlerin istatistiksel testlerine kadar.

Tanım

İstatistiksel anlamlılık düzeyi (veya istatistiksel olarak anlamlı sonuç), incelenen göstergelerin rastgele oluşma olasılığının ne olduğunu gösterir. Olayın genel istatistiksel önemi, p değeri (p düzeyi) ile ifade edilir. Herhangi bir deney veya gözlemde, elde edilen verilerin örnekleme hatalarından kaynaklanma olasılığı vardır. Bu özellikle sosyoloji için geçerlidir.

Diğer bir deyişle, rastgele oluşma olasılığı son derece küçük veya aşırı olma eğiliminde olan bir değer istatistiksel olarak anlamlıdır. Bu bağlamda uç nokta, istatistiklerin sıfır hipotezinden (elde edilen örnek verilerle tutarlılık açısından test edilen bir hipotez) sapma derecesidir. Bilimsel uygulamada, veri toplamadan önce anlamlılık düzeyi seçilir ve kural olarak katsayısı 0,05'tir (%5). Doğru değerlerin kritik olduğu sistemler için bu 0,01 (%1) veya daha az olabilir.

Arka fon

Anlamlılık düzeyi kavramı, İngiliz istatistikçi ve genetikçi Ronald Fisher tarafından 1925'te istatistiksel hipotezleri test etmek için bir teknik geliştirirken tanıtıldı. Herhangi bir süreci analiz ederken, belirli olayların belirli bir olasılığı vardır. "Ölçüm hatası" kavramına giren küçük (veya belirgin olmayan) olasılık yüzdeleriyle çalışırken zorluklar ortaya çıkar.

Bilim adamları, test edilecek kadar spesifik olmayan istatistiklerle çalışırken, küçük değerlerle çalışmayı “engelleyen” sıfır hipotezi sorunuyla karşı karşıya kaldılar. Fisher, bu tür sistemler için, bir kişinin hesaplamalarda sıfır hipotezini reddetmesine izin veren uygun bir örnek kesim noktası olarak olayların olasılığını %5'te (0.05) belirlemeyi önerdi.

Sabit bir katsayının tanıtılması

1933'te Jerzy bilim adamları Neumann ve Egon Pearson, makalelerinde önceden (veri toplamadan önce) belirli bir önem düzeyinin belirlenmesini tavsiye ettiler. Bu kuralların kullanım örnekleri seçimler sırasında açıkça görülmektedir. Diyelim ki biri çok popüler, diğeri pek tanınmayan iki aday var. Seçimi ilk adayın kazanacağı aşikar ve ikincinin şansı sıfıra iniyor. Çalışın - ama eşit değil: Her zaman mücbir sebep, sansasyonel bilgi, tahmin edilen seçim sonuçlarını değiştirebilecek beklenmedik kararlar olasılığı vardır.

Neumann ve Pearson, Fisher'in önerdiği 0.05 önem seviyesinin (α sembolü ile gösterilir) en uygunu olduğu konusunda anlaştılar. Ancak, Fischer 1956'da bu değerin sabitlenmesine karşı çıktı. α seviyesinin belirli koşullara göre ayarlanması gerektiğine inanıyordu. Örneğin, parçacık fiziğinde 0.01'dir.

p değeri

p değeri terimi ilk olarak 1960 yılında Brownlee tarafından kullanılmıştır. P düzeyi (p değeri), sonuçların doğruluğu ile ters orantılı bir göstergedir. En yüksek p değeri, değişkenler arasındaki örneklenmiş ilişkide en düşük güven düzeyine karşılık gelir.

Bu değer, sonuçların yorumlanmasıyla ilişkili hataların olasılığını yansıtır. p-değeri = 0,05 (1/20) varsayın. Örnekte bulunan değişkenler arasındaki ilişkinin örneklemin rastgele bir özelliği olma olasılığını yüzde beş gösterir. Yani, bu bağımlılık yoksa, ortalama olarak her yirminci çalışmada tekrarlanan benzer deneylerle, değişkenler arasında aynı veya daha fazla bağımlılık beklenebilir. Genellikle p düzeyi, hata düzeyinin "marjı" olarak kabul edilir.

Bu arada, p değeri değişkenler arasındaki gerçek ilişkiyi yansıtmayabilir, sadece varsayımlar dahilinde belirli bir ortalama değeri gösterir. Özellikle verilerin nihai analizi de bu katsayının seçilen değerlerine bağlı olacaktır. p-seviyesi = 0.05 ile bazı sonuçlar ve 0.01'e eşit bir katsayı ile diğerleri olacaktır.

İstatistiksel hipotezleri test etme

İstatistiksel anlamlılık düzeyi, hipotezleri test ederken özellikle önemlidir. Örneğin, iki kuyruklu bir test hesaplanırken, örnekleme dağılımının (sıfır koordinatına göre) her iki ucunda ret alanı eşit olarak bölünür ve elde edilen verilerin doğruluğu hesaplanır.

Belirli bir süreci (olgu) izlerken, yeni istatistiksel bilgilerin önceki değerlere göre küçük değişiklikler gösterdiğinin ortaya çıktığını varsayalım. Aynı zamanda, sonuçlardaki tutarsızlıklar küçüktür, belirgin değildir, ancak çalışma için önemlidir. Uzman bir ikilemle karşı karşıya: değişiklikler gerçekten mi oluyor yoksa örnekleme hataları mı (ölçüm yanlışlığı)?

Bu durumda, sıfır hipotezi uygulanır veya reddedilir (her şey bir hata olarak yazılır veya sistemdeki değişiklik oldu bitti olarak kabul edilir). Problemi çözme süreci, genel istatistiksel anlamlılığın (p-değeri) ve anlamlılık seviyesinin (α) oranına dayanmaktadır. p-seviyesi ise< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Kullanılan değerler

Önem düzeyi, analiz edilen materyale bağlıdır. Pratikte aşağıdaki sabit değerler kullanılır:

  • a = 0.1 (veya %10);
  • a = 0,05 (veya %5);
  • a = 0,01 (veya %1);
  • a = 0,001 (veya %0,1).

Hesaplamalar ne kadar doğru olursa, α katsayısı o kadar küçük kullanılır. Doğal olarak, fizik, kimya, eczacılık ve genetikteki istatistiksel tahminler, siyaset bilimi ve sosyolojiden daha fazla doğruluk gerektirir.

Belirli alanlarda önem eşikleri

Parçacık fiziği ve imalat gibi yüksek hassasiyetli alanlarda, istatistiksel önem genellikle standart sapmanın (sigma - σ katsayısı ile gösterilir) normal bir olasılık dağılımına (Gauss dağılımı) göre oranı olarak ifade edilir. σ, matematiksel beklentilere göre belirli bir miktarın değerlerinin yayılmasını belirleyen istatistiksel bir göstergedir. Olayların olasılığını çizmek için kullanılır.

Bilgi alanına bağlı olarak, σ katsayısı büyük ölçüde değişir. Örneğin, Higgs bozonunun varlığını tahmin ederken, σ parametresi beşe (σ=5) eşittir, bu da p-değeri=1/3,5 milyon alana karşılık gelir.

Yeterlik

α ve p-değeri katsayılarının kesin özellikler olmadığı dikkate alınmalıdır. İncelenen olgunun istatistiklerindeki önem düzeyi ne olursa olsun, hipotezi kabul etmek için koşulsuz bir temel değildir. Örneğin, α değeri ne kadar küçükse, kurulan hipotezin anlamlı olma şansı o kadar yüksek olur. Ancak, çalışmanın istatistiksel gücünü (anlamını) azaltan bir hata riski vardır.

Yalnızca istatistiksel olarak anlamlı sonuçlara odaklanan araştırmacılar hatalı sonuçlar çıkarabilir. Aynı zamanda, varsayımları uyguladıkları için (aslında α ve p-değerinin değerleri olan) çalışmalarını iki kez kontrol etmek zordur. Bu nedenle, istatistiksel anlamlılığın hesaplanmasıyla birlikte, başka bir göstergenin - istatistiksel etkinin büyüklüğünün - belirlenmesi her zaman önerilir. Etki boyutu, bir etkinin gücünün nicel bir ölçüsüdür.

Değer denir istatistiksel olarak anlamlı, tamamen rastgele bir oluşum olasılığı veya hatta daha aşırı değerler küçükse. Burada aşırı, sıfır hipotezinden sapma derecesidir. Farkın var olmadığı varsayıldığında, ortaya çıkması muhtemel olmayan veriler varsa, bir farkın "istatistiksel olarak anlamlı" olduğu söylenir; bu ifade, bu farkın kelimenin genel anlamıyla büyük, önemli veya anlamlı olması gerektiği anlamına gelmez.

Bir testin anlamlılık düzeyi, frekans istatistiklerindeki geleneksel hipotez testi kavramıdır. Aslında sıfır hipotezi doğruysa (karar Tip I hata veya yanlış pozitif karar olarak bilinir) boş hipotezi reddetmeye karar verme olasılığı olarak tanımlanır. Karar süreci genellikle bir p-değerine dayanır. ("pi-değeri" okuyun): p değeri anlamlılık seviyesinden küçükse, boş hipotez reddedilir. p değeri ne kadar küçükse, test istatistiğinin o kadar anlamlı olduğu söylenir. p değeri ne kadar küçükse, boş hipotezi reddetme nedeni o kadar güçlüdür.

Önem düzeyi genellikle Yunanca α (alfa) harfi ile gösterilir. Popüler önem seviyeleri %5, %1 ve %0,1'dir. Test, α düzeyinden daha düşük bir p değeri üretiyorsa, boş hipotez reddedilir. Bu tür sonuçlar gayri resmi olarak "istatistiksel olarak anlamlı" olarak adlandırılır. Örneğin, birisi "olanların olma ihtimali binde bir olan bir tesadüftür" derse, bu %0,1 anlamlılık düzeyi anlamına gelir.

α seviyesinin farklı değerlerinin avantajları ve dezavantajları vardır. Daha küçük α seviyeleri, halihazırda kurulmuş bir alternatif hipotezin anlamlı olduğuna dair daha fazla güven verir, ancak yanlış bir sıfır hipotezini reddetmeme riski daha yüksektir (Tip II hata veya "yanlış negatif karar") ve dolayısıyla daha az istatistiksel güç vardır. α-düzeyinin seçimi, kaçınılmaz olarak, önem ve güç arasında ve dolayısıyla Tip I ve Tip II hata olasılıkları arasında bir dengeyi gerektirir. yurtiçinde bilimsel belgeler genellikle "istatistiksel önem" terimi yerine yanlış "anlam" terimi kullanılır.

Ayrıca bakınız

Notlar

George Casella, Roger L. Berger Hipotez Testi // İstatistiksel Çıkarım . -İkinci baskı. - Pacific Grove, CA: Duxbury, 2002. - S. 397. - 660 s. - ISBN 0-534-24312-6


Wikimedia Vakfı. 2010 .

Diğer sözlüklerde "Önem Düzeyi" nin ne olduğunu görün:

    Sayı o kadar küçüktür ki, tek bir deneyde α olasılığı olan bir olayın meydana gelmeyeceği neredeyse kesin olarak kabul edilebilir. Genellikle U. z. keyfi olarak sabitlenir, yani: 0,05, 0,01 ve özel doğrulukla 0,005, vb. Geol'de. iş… … Jeolojik Ansiklopedi

    önem düzeyi- istatistiksel kriter ("alfa düzeyi" olarak da adlandırılır ve bir Yunan harfiyle gösterilir), tip I hata olasılığının bir üst sınırıdır (gerçekte doğru olduğunda boş bir hipotezi reddetme olasılığı). Tipik değerler... Sosyolojik İstatistik Sözlüğü

    ingilizce seviye, önem; Almanca Significanzniveau. Risk derecesi, araştırmacının örnek verilere dayalı hipotezler, ekstraların yanlışlığı hakkında yanlış sonuca varabilmesidir. Antinazi. Sosyoloji Ansiklopedisi, 2009 ... Sosyoloji Ansiklopedisi

    önem düzeyi- - [L.G. Sumenko. İngilizce Rusça Bilgi Teknolojileri Sözlüğü. M .: GP TsNIIS, 2003.] Konular genel olarak bilgi teknolojisi EN önem düzeyi ... Teknik Çevirmenin El Kitabı

    önem düzeyi- 3.31 anlamlılık düzeyi α: Bu hipotez doğru olduğunda bir istatistiksel hipotezi reddetme olasılığının üst sınırını temsil eden belirli bir değer. Kaynak: GOST R ISO 12491 2011: Yapı malzemeleri ve ürünleri. ... ... Normatif ve teknik dokümantasyon terimlerinin sözlük referans kitabı

    ÖNEM DÜZEYİ- bir özelliğin dağılımı hakkında istatistiksel bir hipoteze ilişkin hatalı bir sonucun olasılık derecesini yansıtan, örnek veriler temelinde doğrulanan matematiksel istatistik kavramı. Yeterli düzeyde psikolojik araştırmalarda ... ... Modern Eğitim süreci: temel kavramlar ve terimler

    önem düzeyi- reikšmingumo lygis statusas T sritis automatika atitikmenys: tür. önem düzeyi vok. Significanzniveau, n rusya. anlamlılık düzeyi, m şaka. niveau de anlam, m … Automatikos terminų žodynas

    önem düzeyi- reikšmingumo lygis statusas T sritis fizika atitikmenys: engl. önem düzeyi; önem düzeyi vok. Sicherheitsschwelle, f rus. önem düzeyi, fprac. Niveau de önem, m … Fizikos terminų žodynas

    İstatistiksel test, bkz. Önem düzeyi... Büyük Sovyet Ansiklopedisi

    ÖNEM DÜZEYİ- Önemi, düzeyi gör... Sözlük psikolojide

Kitabın

  • "Çok gizli". Lubyanka - ülkedeki durum hakkında Stalin'e (1922-1934). Cilt 4. Kısım 1,. Çok ciltli temel makale yayını - bilgi incelemeleri ve OGPU'nun özetleri - bilimsel önemi, değeri, içeriği ve kapsamı bakımından benzersizdir. Bu tarihi alanda…
  • Mesleki eğitimin kalite yönetim sistemi için bir araç olarak eğitim programı, Tkacheva Galina Viktorovna, Logachev Maxim Sergeevich, Samarin Yury Nikolaevich. Monografi, profesyonel eğitim programlarının içeriğini oluşturan mevcut uygulamaları analiz eder. Yeri, yapısı, içeriği ve önem derecesi belirlenir...

p değeri(eng.) - istatistiksel hipotezleri test ederken kullanılan değer. Aslında bu, sıfır hipotezi reddedilirken hata olasılığıdır (birinci tür hata). P-değerini kullanan hipotez testi, dağılımın kritik değeri aracılığıyla klasik test prosedürüne bir alternatiftir.

Genellikle, P değeri, belirli bir dağılıma sahip rastgele bir değişkenin (sıfır hipotezi altındaki test istatistiğinin dağılımı), test istatistiğinin gerçek değerinden daha az olmayan bir değer alma olasılığına eşittir. Vikipedi.

Başka bir deyişle, p değeri, hesaplanan test istatistiğinin sıfır hipotezinin reddedilmesine yol açtığı en küçük anlamlılık düzeyidir (yani gerçek bir hipotezi reddetme olasılığı). Tipik olarak, p-değeri, genel olarak kabul edilen 0,005 veya 0,01'lik standart anlamlılık seviyeleri ile karşılaştırılır.

Örneğin, örnekten hesaplanan test istatistiğinin değeri p = 0,005'e tekabül ediyorsa, bu, hipotezin doğru olma olasılığının % 0,5'ini gösterir. Bu nedenle, p değeri ne kadar küçükse o kadar iyidir, çünkü sıfır hipotezini reddetmenin “gücünü” arttırır ve sonucun beklenen önemini arttırır.

Bunun ilginç bir açıklaması Habre'de.

İstatistiksel analiz bir kara kutu gibi görünmeye başlıyor: girdi veri, çıktı ana sonuçların bir tablosu ve bir p değeri.

p değeri ne diyor?

Kanlı bilgisayar oyunlarına bağımlılık ile gerçek hayatta saldırganlık arasında bir ilişki olup olmadığını bulmaya karar verdiğimizi varsayalım. Bunun için, her biri 100 kişilik iki okul çocuğu grubu rastgele oluşturuldu (grup 1 - atıcı hayranlar, grup 2 - bilgisayar oyunu oynamayan). Örneğin, akranlarla yapılan kavgaların sayısı saldırganlığın bir göstergesi olarak hareket eder. Hayali çalışmamızda, okul çocukları-kumarbaz grubunun yoldaşlarıyla belirgin şekilde daha sık çatıştığı ortaya çıktı. Fakat ortaya çıkan farklılıkların istatistiksel olarak ne kadar önemli olduğunu nasıl anlarız? Belki de gözlemlenen farkı tamamen tesadüfen elde ettik? Bu soruları cevaplamak için p-değeri kullanılır - bu, genel popülasyonda gerçekte hiçbir farklılık olmaması koşuluyla, bu tür veya daha belirgin farklılıklar elde etme olasılığıdır. Başka bir deyişle, bilgisayar oyunlarının saldırganlığı hiçbir şekilde etkilememesi koşuluyla, gruplarımız arasında bu tür hatta daha güçlü farklılıklar elde etme olasılığıdır. Kulağa o kadar zor gelmiyor. Ancak, bu özel istatistik genellikle yanlış yorumlanır.

p değeri örnekleri

Bu nedenle, standart bir t-testi (veya parametrik olmayan bir Chi testi - bu durumda daha uygun olanın karesi) kullanarak saldırganlık düzeyi açısından iki okul çocuğu grubunu birbiriyle karşılaştırdık ve gıpta edilen p- anlamlılık düzeyi 0,05'ten azdır (örneğin, 0,04). Ama sonuçta ortaya çıkan p-anlamlılık değeri bize gerçekte ne söylüyor? Öyleyse, eğer p-değeri, genel popülasyonda aslında hiçbir farklılık olmaması koşuluyla, bu tür veya daha belirgin farklılıklar elde etme olasılığıysa, sizce doğru ifade nedir:

1. Bilgisayar oyunları, %96 olasılıkla saldırgan davranışların nedenidir.
2. Saldırganlık ve bilgisayar oyunlarının ilişkili olmama olasılığı 0,04'tür.
3. 0.05'ten büyük bir p-seviyesi anlamlılık elde edersek, bu saldırganlık ve bilgisayar oyunlarının hiçbir şekilde ilişkili olmadığı anlamına gelir.
4. Bu tür farkların tesadüfen oluşma olasılığı 0.04'tür.
5. Tüm ifadeler yanlıştır.

Beşinci seçeneği seçtiyseniz, kesinlikle haklısınız! Ancak, çok sayıda çalışmanın gösterdiği gibi, veri analizinde önemli deneyime sahip kişiler bile p-değerlerini sıklıkla yanlış yorumlarlar.

Her cevabı sırayla alalım:

İlk ifade korelasyon hatasına bir örnektir: iki değişkenin önemli ölçüde ilişkili olduğu gerçeği bize neden ve sonuç hakkında hiçbir şey söylemez. Belki bilgisayar oyunları oynayarak zaman geçirmeyi tercih edenler daha agresif insanlardır ve insanları daha agresif yapan bilgisayar oyunları değildir.

Bu daha ilginç bir açıklama. Mesele şu ki, başlangıçta gerçekten hiçbir fark olmadığını kabul ediyoruz. Ve bunu bir gerçek olarak akılda tutarak p-değerini hesaplıyoruz. Bu nedenle doğru yorum şudur: "Saldırganlık ve bilgisayar oyunlarının hiçbir şekilde ilişkili olmadığını varsayarsak, bu tür ve hatta daha belirgin farkların ortaya çıkma olasılığı 0.04'tür."

Ama ya önemsiz farklarımız varsa? Bu, çalışılan değişkenler arasında bir ilişki olmadığı anlamına mı geliyor? Hayır, bu sadece farklılıklar olabileceği anlamına gelir, ancak sonuçlarımız bunları tespit etmemize izin vermedi.

Bu doğrudan p-değerinin tanımıyla ilgilidir. 0.04, bu veya daha aşırı farklılıkları elde etme olasılığıdır. Prensip olarak, deneyimizde olduğu gibi tam olarak bu tür farklılıkları elde etme olasılığını tahmin etmek imkansızdır!

Bunlar, p değeri gibi bir göstergenin yorumlanmasında gizlenebilecek tuzaklardır. Bu nedenle, ana istatistiksel göstergelerin analiz ve hesaplama yöntemlerinin altında yatan mekanizmaları anlamak çok önemlidir.

p değeri nasıl bulunur?

1. Deneyinizin beklenen sonuçlarını belirleyin

Genellikle, bilim adamları bir deney yaptıklarında, hangi sonuçların "normal" veya "tipik" olarak kabul edileceği konusunda zaten bir fikirleri vardır. Bu, geçmiş deneylerin deneysel sonuçlarına, güvenilir veri setlerine, bilimsel literatürdeki verilere dayanabilir veya bilim adamı başka bazı kaynaklara dayanabilir. Deneyiniz için beklenen sonuçları tanımlayın ve bunları sayı olarak ifade edin.

Örnek: Örneğin, daha önceki araştırmalar, ülkenizde kırmızı arabaların mavi arabalara göre hız cezası alma olasılığının daha yüksek olduğunu göstermiştir. Örneğin, ortalama puanlar mavi arabalara göre kırmızı arabaların 2:1 oranında tercih edildiğini gösterir. Polisin, şehrinizdeki arabaların rengine karşı aynı önyargıya sahip olup olmadığını belirlemek istiyoruz. Bunu yapmak için, hız için verilen cezaları analiz edeceğiz. Kırmızı ya da mavi arabalara verilen 150 hız cezasından oluşan rastgele bir set alırsak, şehrimizdeki polis bu gözlemlendiği gibi arabaların rengine karşı önyargılıysa, kırmızı arabalara 100 ve mavi arabalara 50 bilet verilmesini bekleriz. ülke çapında.

2. Deneyinizin gözlemlenebilir sonuçlarını belirleyin

Artık beklenen sonuçları belirlediğinize göre, gerçek (veya "gözlenen") değerleri denemeniz ve bulmanız gerekir. Bu sonuçları yine sayı olarak göstermeniz gerekir. Deneysel koşullar yaratırsak ve gözlemlenen sonuçlar beklenenden farklıysa, o zaman iki olasılığımız var - ya bu tesadüfen oldu ya da buna tam olarak bizim deneyimiz neden oldu. p-değerini bulmanın amacı, gözlemlenen sonuçların beklenenlerden farklı olup olmadığını kesin olarak belirlemektir, öyle ki "boş hipotez" - deneysel değişkenler ile gözlemlenen arasında hiçbir ilişki olmadığı hipotezi reddedilemez. Sonuçlar.

Örnek: Örneğin, şehrimizde kırmızı veya mavi arabalara verilen 150 hız cezasını rastgele seçtik. Kırmızı arabalara 90, mavi arabalara 60 bilet verildiğini belirledik. Bu, sırasıyla 100 ve 50 olan beklenen sonuçlardan farklıdır. Deneyimiz (bu durumda, veri kaynağını ulusaldan kentsele değiştirmek) sonuçlarda bu değişikliği meydana getirdi mi, yoksa şehir polisimiz ulusal ortalama ile tamamen aynı şekilde önyargılı mı ve sadece rastgele bir varyasyon görüyoruz? p değeri bunu belirlememize yardımcı olacaktır.

3. Deneyinizin serbestlik derecesi sayısını belirleyin

Serbestlik derecesi sayısı, keşfetmekte olduğunuz kategorilerin sayısına göre belirlenen, denemenizdeki değişkenlik derecesidir. Serbestlik derecesi sayısının denklemi Serbestlik derecesi sayısı = n-1 şeklindedir; burada "n", denemenizde analiz etmekte olduğunuz kategori veya değişkenlerin sayısıdır.

Örnek: Deneyimizde iki sonuç kategorisi vardır: kırmızı arabalar için bir kategori ve mavi arabalar için bir kategori. Bu nedenle, deneyimizde 2-1 = 1 serbestlik derecesine sahibiz. Kırmızı, mavi ve yeşil arabaları karşılaştırıyor olsaydık, 2 serbestlik derecesine sahip olurduk, vb.

4. Ki-kare testini kullanarak beklenen ve gözlemlenen sonuçları karşılaştırın

Ki-kare ("x2" olarak yazılır) bir deneyin beklenen ve gözlenen değerleri arasındaki farkı ölçen sayısal bir değerdir. Ki-kare denklemi x2 = Σ((o-e)2/e)'dir, burada "o" gözlemlenen değerdir ve "e" beklenen değerdir. Tüm olası sonuçlar için verilen denklemin sonuçlarını toplayın (aşağıya bakın).

Bu denklemin toplama operatörünü Σ (sigma) içerdiğine dikkat edin. Başka bir deyişle, her olası sonuç için ((|o-e|-.05)2/e) hesaplamanız ve ki-kare değerini elde etmek için sayıları toplamanız gerekir. Örneğimizde iki olası sonucumuz var - ya cezayı alan araç kırmızı ya da mavi. Bu yüzden ((o-e)2/e)'yi iki kez saymalıyız - bir kez kırmızı arabalar için ve bir kez mavi arabalar için.

Örnek: Beklenen ve gözlemlenen değerlerimizi x2 = Σ((o-e)2/e) denklemine yerleştirelim. Toplama operatörü nedeniyle, ((o-e)2/e)'yi iki kez saymamız gerektiğini unutmayın - bir kez kırmızı arabalar için ve bir kez mavi arabalar için. Bu çalışmayı aşağıdaki gibi yapacağız:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Bir Önem Düzeyi Seçin

Artık deneyimizdeki serbestlik derecesi sayısını ve ki-kare testinin değerini bildiğimize göre, p-değerimizi bulmadan önce bir şey daha yapmamız gerekiyor. Önem derecesini belirlememiz gerekiyor. konuşmak sade dil, anlamlılık düzeyi sonuçlarımızdan ne kadar emin olduğumuzu gösterir. Düşük anlamlılık değeri, deneysel sonuçların şans eseri elde edilmiş olma olasılığının düşük olmasına karşılık gelir ve bunun tersi de geçerlidir. Önem seviyeleri, deneysel sonuçları tesadüfen elde etme olasılığımıza karşılık gelen (bu durumda, bunun olasılığı %1'dir) ondalık kesirler (0.01 gibi) olarak yazılır.

Geleneksel olarak, bilim adamları tipik olarak deneylerinin önem düzeyini 0,05 veya %5 olarak belirlerler. Bu, böyle bir anlamlılık kriterini karşılayan deneysel sonuçların yalnızca şans eseri %5 olasılıkla elde edilebileceği anlamına gelir. Başka bir deyişle, sonuçların tesadüfen değil, bilim insanının deneysel değişkenleri nasıl manipüle ettiğinden kaynaklanma olasılığı %95'tir. Çoğu deney için, iki değişken arasında bir ilişki olduğuna dair %95 güven, bunların birbirleriyle "gerçekten" ilişkili olduklarını düşünmek için yeterlidir.

Örnek: Kırmızı ve mavi arabalı örneğimiz için bilim adamları arasındaki kuralı takip edelim ve anlamlılık seviyesini 0,05 olarak belirleyelim.

6. P-değerinizi bulmak için bir ki-kare dağılım veri sayfası kullanın

Bilim adamları ve istatistikçiler, deneylerinin p-değerini hesaplamak için büyük elektronik tablolar kullanır. Tablo verileri genellikle solda serbestlik derecesi sayısına karşılık gelen dikey bir eksene ve üstte p değerine karşılık gelen yatay bir eksene sahiptir. Önce serbestlik derecenizi bulmak için tablodaki verileri kullanın, ardından ki-kare değerinizden daha büyük ilk değeri bulana kadar serinize soldan sağa bakın. Sütununuzun üstündeki karşılık gelen p değerine bakın. P değeriniz bu sayı ile bir sonraki (sizin solundaki) arasındadır.

Ki-kare dağılım tabloları birçok kaynaktan elde edilebilir (burada bu linkte bulabilirsiniz).

Örnek: Ki-kare değerimiz 3'tü. Deneyimizde sadece 1 serbestlik derecesi olduğunu bildiğimiz için ilk satırı seçeceğiz. Ki-kare test değerimiz olan 3'ten büyük bir değerle karşılaşana kadar bu çizgi boyunca soldan sağa doğru gidiyoruz. Bulduğumuz ilk sayı 3.84'tür. Sütunumuza baktığımızda, karşılık gelen p-değerinin 0,05 olduğunu görüyoruz. Bu, p değerimizin 0,05 ile 0,1 arasında olduğu anlamına gelir (tablodaki bir sonraki en yüksek p değeri).

7. Boş hipotezinizi reddedip reddetmeyeceğinize karar verin

Deneyiniz için yaklaşık p-değerini belirlediğiniz için, deneyinizin sıfır hipotezini reddedip reddetmemeye karar vermeniz gerekir (hatırlayın, bu, manipüle ettiğiniz deneysel değişkenlerin gözlemlediğiniz sonuçları etkilemediği hipotezidir). Eğer p değeriniz anlamlılık seviyenizden düşükse tebrikler, manipüle ettiğiniz değişkenler ile gözlemlediğiniz sonuçlar arasında çok olası bir ilişki olduğunu kanıtladınız. Eğer p değeriniz anlamlılık seviyenizden yüksekse, gözlemlediğiniz sonuçların tamamen şanstan mı yoksa değişkenlerinizin manipülasyonundan mı kaynaklandığından emin olamazsınız.

Örnek: p-değerimiz 0,05 ile 0,1 arasındadır. Bu açıkça 0,05'ten az değildir, bu nedenle ne yazık ki sıfır hipotezimizi reddedemeyiz. Bu da bizim şehrimizde polisin kırmızı ve mavi arabalara ulusal ortalamadan oldukça farklı bir olasılıkla bilet kestiğini söyleme ihtimalimiz minimum %95'e ulaşmadığımız anlamına geliyor.

Diğer bir deyişle, gözlemlediğimiz sonuçların bir yer değişikliğinin (tüm ülkenin değil şehrin analizinin) sonuçları değil, sadece bir kaza sonucu olma ihtimali %5-10'dur. %5'ten daha az bir doğruluk istediğimizden, şehrimizdeki polisin kırmızı arabalara karşı daha az önyargılı olduğundan emin olduğumuzu söyleyemeyiz - durumun böyle olmaması için küçük (ama istatistiksel olarak anlamlı) bir şans var.

Psikolojide dönem ödevi, diploma ve yüksek lisans tezlerinde istatistiksel hesaplamaların sonuçlarının tablolarında her zaman bir "p" göstergesi vardır.

Örneğin, uyarınca araştırma hedefleri Ergenlik çağındaki kız ve erkek çocukların yaşamın anlamlılık düzeyindeki farklılıklar hesaplanmıştır.

Kastetmek

Mann-Whitney U testi

İstatistiksel anlamlılık düzeyi (p)

Erkekler (20 kişi)

kızlar

(5 kişi)

Hedefler

28,9

35,2

17,5

0,027*

İşlem

30,1

32,0

38,5

0,435

Sonuç

25,2

29,0

29,5

0,164

Kontrol odağı - "Ben"

20,3

23,6

0,067

Kontrol Odağı - "Yaşam"

30,4

33,8

27,5

0,126

hayatın anlamlılığı

98,9

111,2

0,103

* - farklılıklar istatistiksel olarak anlamlıdır (p0,05)

Sağdaki sütun "p"nin değerini gösterir ve bu değere göre, kız ve erkek çocuklardaki gelecekteki yaşamın anlamlılığındaki farklılıkların önemli olup olmadığı belirlenebilir. Kural basit:

  • İstatistiksel anlamlılık düzeyi "p" 0,05'ten küçük veya 0,05'e eşitse, farklılıkların anlamlı olduğu sonucuna varırız. Yukarıdaki tabloda, erkekler ve kızlar arasındaki farklar, "Hedefler" - gelecekteki yaşamın anlamlılığı göstergesi ile ilgili olarak önemlidir. Kızlarda, bu gösterge erkeklerden istatistiksel olarak anlamlı derecede yüksektir.
  • İstatistiksel anlamlılık düzeyi "p" 0,05'ten büyükse, farklılıkların anlamlı olmadığı sonucuna varılır. Yukarıdaki tabloda, erkek ve kız çocukları arasındaki farklar, birincisi hariç diğer tüm göstergeler için anlamlı değildir.

İstatistiksel anlamlılık düzeyi "p" nereden geliyor?

İstatistiksel anlamlılık düzeyi hesaplanır istatistik programı istatistiksel kriterin hesaplanması ile birlikte. Bu programlarda, istatistiksel anlamlılık düzeyi için kritik bir sınır da belirleyebilirsiniz ve ilgili göstergeler program tarafından vurgulanacaktır.

Örneğin, STATISTICA programında, korelasyonları hesaplarken, p sınırını, örneğin 0,05'i ayarlayabilirsiniz ve istatistiksel olarak anlamlı tüm ilişkiler kırmızıyla vurgulanacaktır.

İstatistiksel kriterin hesaplanması manuel olarak yapılıyorsa, elde edilen kriterin değeri ile kritik değer karşılaştırılarak anlamlılık düzeyi "p" belirlenir.

İstatistiksel anlamlılık düzeyi "p" neyi gösterir?

Tüm istatistiksel hesaplamalar yaklaşıktır. Bu yaklaşımın seviyesi "r"yi belirler. Önem düzeyi ondalık olarak yazılır, örneğin 0,023 veya 0,965. Bu sayıyı 100 ile çarparsak yüzde olarak p göstergesini elde ederiz: %2,3 ve %96,5. Bu yüzdeler, örneğin saldırganlık ve kaygı arasındaki ilişki varsayımımızın yanlış olma olasılığını yansıtır.

Yani, korelasyon katsayısı Saldırganlık ve kaygı arasındaki 0,58, 0,05 istatistiksel anlamlılık düzeyinde veya %5 hata olasılığında elde edilir. Bu tam olarak ne anlama geliyor?

Bulduğumuz korelasyon, örneğimizde şu kalıbın gözlemlendiği anlamına gelir: saldırganlık ne kadar yüksekse, kaygı da o kadar yüksek olur. Yani iki genci ele alırsak ve biri diğerinden daha yüksek kaygıya sahip olacaksa, pozitif korelasyonu bilerek bu gencin de daha yüksek saldırganlık göstereceğini söyleyebiliriz. Ancak istatistikte her şey yaklaşık olduğu için, bunu belirterek, hata yapabileceğimizi ve hata olasılığının% 5 olduğunu kabul ediyoruz. Yani, bu ergen grubunda bu tür 20 karşılaştırma yaptıktan sonra, bir kez saldırganlık düzeyi ile ilgili tahminde, kaygıyı bilerek hata yapabiliriz.

Hangi istatistiksel anlamlılık düzeyi daha iyidir: 0,01 veya 0,05

İstatistiksel anlamlılık düzeyi, hata olasılığını yansıtır. Bu nedenle, p=0,01'deki sonuç, p=0,05'tekinden daha doğrudur.

Psikolojik araştırmalarda, sonuçların kabul edilebilir iki istatistiksel anlamlılık düzeyi kabul edilir:

p=0.01 - sonucun yüksek güvenilirliği Karşılaştırmalı analiz veya ilişkilerin analizi;

p=0.05 - yeterli doğruluk.

Umarım bu makale kendi başınıza bir psikoloji makalesi yazmanıza yardımcı olur. Yardıma ihtiyacınız varsa, lütfen iletişime geçin (psikolojide her türlü çalışma; istatistiksel hesaplamalar).