วิธีการคำนวณระดับนัยสำคัญทางสถิติ อธิบายว่าระดับนัยสำคัญทางสถิติคืออะไร

พารามิเตอร์การกระจายตัวอย่างที่กำหนดโดยชุดของการวัดเป็นตัวแปรสุ่ม ดังนั้นค่าเบี่ยงเบนจากพารามิเตอร์ทั่วไปจะเป็นแบบสุ่มด้วย การประเมินความเบี่ยงเบนเหล่านี้เป็นความน่าจะเป็นในธรรมชาติ - ในการวิเคราะห์ทางสถิติ เราสามารถระบุความน่าจะเป็นของข้อผิดพลาดเฉพาะเท่านั้น

ให้สำหรับพารามิเตอร์ทั่วไป เอมาจากประสบการณ์การประมาณการที่เป็นกลาง เอ*. เรากำหนดความน่าจะเป็นที่มากพอ b (เช่นเหตุการณ์ที่มีความน่าจะเป็น b สามารถพิจารณาได้ว่ามีความแน่นอนในทางปฏิบัติ) และหาค่าดังกล่าว e b = (ข) ซึ่ง

ช่วงของค่าที่เป็นไปได้ในทางปฏิบัติของข้อผิดพลาดที่เกิดขึ้นเมื่อเปลี่ยน เอบน เอ* จะเป็น ±e b ข้อผิดพลาดที่มีค่าสัมบูรณ์มากจะปรากฏขึ้นด้วยความน่าจะเป็นเพียงเล็กน้อยเท่านั้น

เรียกว่า ระดับความสำคัญ. มิฉะนั้น นิพจน์ (4.1) สามารถตีความว่าเป็นความน่าจะเป็นที่ค่าที่แท้จริงของพารามิเตอร์ เออยู่ภายใน

. (4.3)

ความน่าจะเป็น b เรียกว่า ระดับความเชื่อมั่นและกำหนดลักษณะความน่าเชื่อถือของการประมาณการที่ได้รับ ช่วงเวลา ฉันข= เอ* ± e b เรียกว่า ช่วงความมั่นใจ. ขอบเขตช่วงเวลา เอ¢ = เอ* - อี ข และ เอ¢¢ = เอ* + e b เรียกว่า ขอบเขตความไว้วางใจ. ช่วงความเชื่อมั่นที่ระดับความเชื่อมั่นที่กำหนดจะกำหนดความถูกต้องของการประมาณการ ค่าของช่วงความเชื่อมั่นขึ้นอยู่กับระดับความเชื่อมั่นที่รับประกันว่าจะหาพารามิเตอร์ได้ เอภายในช่วงความเชื่อมั่น: ยิ่งค่า b มากเท่าใด ช่วงเวลาก็ยิ่งมากขึ้นเท่านั้น ฉัน b (และค่าของ e b) การเพิ่มจำนวนการทดลองแสดงให้เห็นในการลดช่วงความเชื่อมั่นด้วยความน่าจะเป็นของความเชื่อมั่นคงที่หรือการเพิ่มขึ้นของความน่าจะเป็นของความเชื่อมั่นในขณะที่ยังคงช่วงความเชื่อมั่นไว้

ในทางปฏิบัติ เรามักจะแก้ไขค่าของความน่าจะเป็นของความเชื่อมั่น (0.9; 0.95 หรือ 0.99) แล้วกำหนดช่วงความเชื่อมั่นของผลลัพธ์ ฉันข. เมื่อสร้างช่วงความเชื่อมั่น ปัญหาการเบี่ยงเบนสัมบูรณ์จะได้รับการแก้ไข:

ดังนั้นหากทราบกฎการกระจายของการประมาณการ เอ* ปัญหาการกำหนดช่วงความเชื่อมั่นจะแก้ไขได้ง่ายๆ พิจารณาการสร้างช่วงความเชื่อมั่นสำหรับความคาดหวังทางคณิตศาสตร์ของตัวแปรสุ่มแบบกระจายปกติ Xด้วยมาตรฐานทั่วไปที่เป็นที่รู้จักมากกว่าขนาดกลุ่มตัวอย่าง . ขอบเขตที่ดีที่สุดสำหรับความคาดหวัง คือค่าเฉลี่ยตัวอย่างที่มีค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ย

.

การใช้ฟังก์ชัน Laplace เราจะได้

. (4.5)

จากความน่าจะเป็นของความเชื่อมั่น b เรากำหนดค่าจากตารางของฟังก์ชัน Laplace (ภาคผนวก 1) . จากนั้นช่วงความเชื่อมั่นสำหรับความคาดหวังทางคณิตศาสตร์จะอยู่ในรูปแบบ

. (4.7)

จาก (4.7) จะเห็นได้ว่าช่วงความเชื่อมั่นที่ลดลงนั้นแปรผกผันกับสแควร์รูทของจำนวนการทดลอง

การรู้ความแปรปรวนทั่วไปช่วยให้เราสามารถประมาณการคาดหมายทางคณิตศาสตร์ได้แม้จากการสังเกตเพียงครั้งเดียว ถ้าสำหรับตัวแปรสุ่มแบบกระจายปกติ Xจากผลการทดลองพบว่าค่า X 1 จากนั้นช่วงความเชื่อมั่นสำหรับความคาดหวังทางคณิตศาสตร์สำหรับ b ที่เลือกจะมีรูปแบบ

ที่ไหน ยู 1-พี/2 - ควอนไทล์ของการแจกแจงแบบปกติมาตรฐาน (ภาคผนวก 2)

กฎหมายการจำหน่ายเกรด เอ* ขึ้นอยู่กับกฎหมายการกระจายของปริมาณ Xและโดยเฉพาะบนพารามิเตอร์เอง เอ. เพื่อแก้ไขปัญหานี้ มีการใช้สองวิธีในสถิติทางคณิตศาสตร์:

1) โดยประมาณ - ที่ ³ 50 แทนที่พารามิเตอร์ที่ไม่รู้จักในนิพจน์สำหรับ e b ด้วยค่าประมาณ เช่น

2) จากตัวแปรสุ่ม เอ* ไปที่ตัวแปรสุ่มอื่น Q * กฎการแจกแจงซึ่งไม่ขึ้นอยู่กับพารามิเตอร์โดยประมาณ เอแต่ขึ้นกับขนาดกลุ่มตัวอย่างเท่านั้น และประเภทกฎการจำหน่ายของปริมาณ X. ปริมาณประเภทนี้ได้รับการศึกษาอย่างละเอียดที่สุดสำหรับการแจกแจงแบบปกติของตัวแปรสุ่ม ควอนไทล์สมมาตรมักใช้เป็นขีดจำกัดความเชื่อมั่นสำหรับ Q¢ และ Q¢¢

, (4.9)

หรือคำนึงถึง (4.2)

. (4.10)

4.2. การทดสอบสมมติฐานทางสถิติ การทดสอบนัยสำคัญ

ข้อผิดพลาดประเภทที่หนึ่งและสอง

ภายใต้ สมมติฐานทางสถิติสมมติฐานบางประการเกี่ยวกับการแจกแจงประชากรทั่วไปของตัวแปรสุ่มตัวใดตัวหนึ่งนั้นเป็นที่เข้าใจกัน การทดสอบสมมติฐานเป็นที่เข้าใจกันว่าเป็นการเปรียบเทียบตัวบ่งชี้ทางสถิติบางตัว เกณฑ์การตรวจสอบ (เกณฑ์ความสำคัญ) คำนวณจากกลุ่มตัวอย่างโดยมีค่ากำหนดภายใต้สมมติฐานที่ว่าสมมติฐานที่กำหนดนั้นเป็นจริง เมื่อทดสอบสมมติฐาน มักจะมีการทดสอบสมมติฐานบางอย่าง ชม 0 เทียบกับสมมติฐานทางเลือก ชม 1 .

ในการตัดสินใจว่าจะยอมรับหรือปฏิเสธสมมติฐาน ระดับนัยสำคัญจะได้รับ R. ระดับนัยสำคัญที่ใช้บ่อยที่สุดคือ 0.10, 0.05 และ 0.01 ตามความน่าจะเป็นนี้ โดยใช้สมมติฐานเกี่ยวกับการแจกแจงค่าประมาณ Q * (เกณฑ์ความสำคัญ) ตามกฎแล้วจะพบขีดจำกัดความเชื่อมั่นเชิงปริมาณ แบบสมมาตร Q พี/2 และ Q 1- พี/2 . คิวตัวเลข พี/2 และ Q 1- พี/2 เรียกว่า ค่านิยมที่สำคัญของสมมติฐาน; ค่า Q*< Qพี/2 และ Q * > Q 1- พี/2 รูปแบบวิกฤต


พื้นที่ของสมมติฐาน (หรือพื้นที่ที่ไม่ยอมรับสมมติฐาน) (รูปที่ 12)

ข้าว. 12.พื้นที่วิกฤต ข้าว. 13.กำลังตรวจสอบสถิติ

สมมติฐาน สมมติฐาน

หากพบ Q 0 ในกลุ่มตัวอย่างอยู่ระหว่าง Q พี/2 และ Q 1- พี/2 จากนั้นสมมติฐานก็ยอมรับค่าดังกล่าวว่าเป็นค่าสุ่ม ดังนั้นจึงไม่มีเหตุผลที่จะปฏิเสธมัน หากค่าของ Q 0 อยู่ในบริเวณวิกฤต ตามสมมติฐานนี้ แทบจะเป็นไปไม่ได้เลย แต่เนื่องจากมันปรากฏ สมมติฐานเองจึงถูกปฏิเสธ

มีข้อผิดพลาดสองประเภทที่สามารถทำได้เมื่อทดสอบสมมติฐาน ข้อผิดพลาดประเภทที่ 1คือว่า ปฏิเสธสมมติฐานที่เป็นจริง. ความน่าจะเป็นของข้อผิดพลาดดังกล่าวไม่มากกว่าระดับนัยสำคัญที่ยอมรับ ข้อผิดพลาดประเภท IIคือว่า สมมติฐานเป็นที่ยอมรับ แต่ในความเป็นจริงมันเป็นเท็จ. ความน่าจะเป็นของข้อผิดพลาดนี้ยิ่งต่ำ ระดับนัยสำคัญยิ่งสูงขึ้น เนื่องจากสิ่งนี้จะเพิ่มจำนวนสมมติฐานที่ถูกปฏิเสธ หากความน่าจะเป็นของข้อผิดพลาดประเภทที่สองคือ a ค่า (1 - a) จะถูกเรียก อำนาจของเกณฑ์.

ในรูป 13 แสดงเส้นโค้งสองเส้นของความหนาแน่นของการแจกแจงของตัวแปรสุ่ม Q ซึ่งสอดคล้องกับสองสมมติฐาน ชม 0 และ ชมหนึ่ง . หากค่าที่ได้รับจากประสบการณ์คือ Q > Q พีแล้วสมมติฐานก็ถูกปฏิเสธ ชม 0 และสมมติฐานเป็นที่ยอมรับ ชม 1 และในทางกลับกัน ถ้า Q< Qพี.

พื้นที่ใต้เส้นโค้งความหนาแน่นของความน่าจะเป็นที่สอดคล้องกับความถูกต้องของสมมติฐาน ชม 0 ทางด้านขวาของค่า Q พี, เท่ากับระดับนัยสำคัญ Rนั่นคือความน่าจะเป็นของข้อผิดพลาดประเภทแรก พื้นที่ใต้เส้นโค้งความหนาแน่นของความน่าจะเป็นที่สอดคล้องกับความถูกต้องของสมมติฐาน ชม 1 ทางซ้ายของ Q พีเท่ากับความน่าจะเป็นของข้อผิดพลาดประเภทที่สอง a และทางด้านขวาของ Q พี- พลังของเกณฑ์ (1 - a) ดังนั้น ยิ่ง R, ยิ่ง (1 - ก). เมื่อทดสอบสมมติฐาน พวกเขาพยายามเลือกจากเกณฑ์ที่เป็นไปได้ทั้งหมด ซึ่งในระดับนัยสำคัญที่กำหนด มีความน่าจะเป็นที่ต่ำกว่าที่จะเกิดข้อผิดพลาดประเภท II.

โดยปกติ ตามระดับนัยสำคัญที่เหมาะสมที่สุดในการทดสอบสมมติฐาน ให้ใช้ พี= 0.05 เนื่องจากหากสมมติฐานที่กำลังทดสอบได้รับการยอมรับในระดับนัยสำคัญที่กำหนด แน่นอนว่าสมมติฐานนั้นควรได้รับการยอมรับว่าสอดคล้องกับข้อมูลการทดลอง ในทางกลับกัน การใช้ระดับความสำคัญนี้ไม่ได้ให้เหตุผลในการปฏิเสธสมมติฐาน

ตัวอย่างเช่น พบค่าสองค่าของและพารามิเตอร์ตัวอย่างบางส่วน ซึ่งถือได้ว่าเป็นค่าประมาณของพารามิเตอร์ทั่วไป เอ 1 และ เอ 2. มีการตั้งสมมติฐานว่าความแตกต่างระหว่าง และ เป็นการสุ่ม และพารามิเตอร์ทั่วไป เอ 1 และ เอ 2 มีค่าเท่ากัน กล่าวคือ เอ 1 = เอ 2. สมมติฐานนี้เรียกว่า โมฆะ, หรือ สมมติฐานว่าง. ในการทดสอบ คุณต้องค้นหาว่าความแตกต่างระหว่างและมีความสำคัญภายใต้สมมติฐานว่างหรือไม่ ในการทำเช่นนี้ เรามักจะตรวจสอบตัวแปรสุ่ม D = – และตรวจสอบว่าความแตกต่างจาก 0 นั้นมีนัยสำคัญหรือไม่ บางครั้งก็สะดวกกว่าในการพิจารณาคุณค่า / โดยเปรียบเทียบกับความสามัคคี

ปฏิเสธสมมติฐานว่าง พวกเขายอมรับทางเลือกหนึ่ง ซึ่งแบ่งออกเป็นสอง: > และ< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется ฝ่ายเดียวและเพื่อตรวจสอบ ให้ใช้ ฝ่ายเดียวเกณฑ์ความสำคัญ (ตรงข้ามกับแบบธรรมดา ทวิภาคี). ในกรณีนี้จำเป็นต้องพิจารณาเพียงครึ่งหนึ่งของขอบเขตวิกฤต (รูปที่ 12)

ตัวอย่างเช่น, R= 0.05 ด้วยเกณฑ์สองด้านค่าวิกฤต Q 0.025 และ Q 0.975 สอดคล้องกันเช่น Q * ที่ได้รับค่า Q * ถือว่ามีนัยสำคัญ (ไม่ใช่แบบสุ่ม)< Q 0.025 и Q * >คิว 0.975 . ด้วยเกณฑ์ด้านเดียว ความไม่เท่าเทียมกันอย่างใดอย่างหนึ่งเหล่านี้จึงเป็นไปไม่ได้ (เช่น Q *< Q 0.025) и значимыми будут лишь Q * >คิว 0.975 . ความน่าจะเป็นของความไม่เท่าเทียมกันสุดท้ายคือ 0.025 ดังนั้นระดับนัยสำคัญจะเป็น 0.025 ดังนั้น หากใช้ตัวเลขวิกฤตเดียวกันสำหรับการทดสอบนัยสำคัญด้านเดียวและสองด้าน ค่าเหล่านี้จะสอดคล้องกับระดับนัยสำคัญเพียงครึ่งเดียว

โดยปกติ สำหรับการทดสอบแบบด้านเดียว ระดับนัยสำคัญระดับเดียวกับการทดสอบแบบสองด้าน เนื่องจากภายใต้เงื่อนไขเหล่านี้ การทดสอบทั้งสองแบบจะมีข้อผิดพลาดประเภทที่ 1 เหมือนกัน ในการทำเช่นนี้ การทดสอบแบบด้านเดียวจะต้องได้มาจากการทดสอบแบบสองด้าน ซึ่งสอดคล้องกับระดับนัยสำคัญสองเท่าที่ยอมรับได้. เพื่อรักษาระดับนัยสำคัญสำหรับการทดสอบด้านเดียว R= 0.05 สำหรับทวิภาคีจำเป็นต้องใช้ R= 0.10 ซึ่งให้ค่าวิกฤต Q 0.05 และ Q 0.95 ของเหล่านี้ สำหรับการทดสอบด้านเดียว จะยังคงอยู่ ตัวอย่างเช่น Q 0.95 ระดับนัยสำคัญสำหรับการทดสอบด้านเดียวคือ 0.05 ระดับนัยสำคัญระดับเดียวกันสำหรับการทดสอบแบบสองด้านสอดคล้องกับค่าวิกฤต Q 0.975 แต่คิว 0.95< Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

ระดับนัยสำคัญในสถิติเป็นตัวบ่งชี้สำคัญที่สะท้อนถึงระดับความเชื่อมั่นในความถูกต้องและความจริงของข้อมูลที่ได้รับ (คาดการณ์) แนวคิดนี้ใช้กันอย่างแพร่หลายในด้านต่างๆ ตั้งแต่การวิจัยทางสังคมวิทยาไปจนถึงการทดสอบทางสถิติของสมมติฐานทางวิทยาศาสตร์

คำนิยาม

ระดับของนัยสำคัญทางสถิติ (หรือผลลัพธ์ที่มีนัยสำคัญทางสถิติ) แสดงให้เห็นว่าความน่าจะเป็นของการเกิดขึ้นแบบสุ่มของตัวบ่งชี้ที่ศึกษาคือเท่าใด นัยสำคัญทางสถิติโดยรวมของปรากฏการณ์แสดงโดยค่า p (ระดับ p) ในการทดลองหรือการสังเกตใดๆ มีความเป็นไปได้ที่ข้อมูลที่ได้รับจะเกิดขึ้นเนื่องจากข้อผิดพลาดในการสุ่มตัวอย่าง โดยเฉพาะอย่างยิ่งสำหรับสังคมวิทยา

กล่าวคือ ค่ามีนัยสำคัญทางสถิติ ซึ่งความน่าจะเป็นที่จะเกิดขึ้นโดยสุ่มนั้นน้อยมากหรือมีแนวโน้มถึงขีดสุด สุดขั้วในบริบทนี้คือระดับความเบี่ยงเบนของสถิติจากสมมติฐานว่าง (สมมติฐานที่ทดสอบเพื่อความสอดคล้องกับข้อมูลตัวอย่างที่ได้รับ) ในการปฏิบัติทางวิทยาศาสตร์ ระดับนัยสำคัญจะถูกเลือกก่อนการรวบรวมข้อมูล และตามกฎแล้ว ค่าสัมประสิทธิ์ของมันคือ 0.05 (5%) สำหรับระบบที่ค่าที่แม่นยำเป็นสิ่งสำคัญ อาจเป็น 0.01 (1%) หรือน้อยกว่า

พื้นหลัง

แนวคิดเรื่องระดับนัยสำคัญได้รับการแนะนำโดย Ronald Fisher นักสถิติและนักพันธุศาสตร์ชาวอังกฤษในปี 1925 เมื่อเขากำลังพัฒนาเทคนิคสำหรับการทดสอบสมมติฐานทางสถิติ เมื่อวิเคราะห์กระบวนการใด ๆ มีความน่าจะเป็นของปรากฏการณ์บางอย่าง ความยากลำบากเกิดขึ้นเมื่อทำงานกับเปอร์เซ็นต์ความน่าจะเป็นเพียงเล็กน้อย (หรือไม่ชัดเจน) ซึ่งอยู่ภายใต้แนวคิดของ "ข้อผิดพลาดในการวัด"

เมื่อทำงานกับสถิติที่ไม่เฉพาะเจาะจงพอที่จะทดสอบ นักวิทยาศาสตร์ต้องเผชิญกับปัญหาของสมมติฐานว่าง ซึ่ง "ป้องกัน" การทำงานด้วยค่าเพียงเล็กน้อย ฟิชเชอร์เสนอให้ระบบดังกล่าวกำหนดความน่าจะเป็นของเหตุการณ์ที่ 5% (0.05) เป็นการตัดตัวอย่างที่สะดวกซึ่งช่วยให้สามารถปฏิเสธสมมติฐานว่างในการคำนวณได้

บทนำของสัมประสิทธิ์คงที่

ในปี ค.ศ. 1933 นักวิทยาศาสตร์เจอร์ซี่ Neumann และ Egon Pearson ในเอกสารของพวกเขาแนะนำให้ตั้งค่าระดับนัยสำคัญบางอย่างไว้ล่วงหน้า (ก่อนการรวบรวมข้อมูล) ตัวอย่างของการใช้กฎเหล่านี้จะมองเห็นได้ชัดเจนในระหว่างการเลือกตั้ง สมมติว่ามีผู้สมัครสองคน คนหนึ่งเป็นที่นิยมมาก และอีกคนหนึ่งไม่เป็นที่รู้จัก เห็นได้ชัดว่าผู้สมัครคนแรกจะชนะการเลือกตั้ง และโอกาสของผู้สมัครคนที่สองมักจะเป็นศูนย์ มุ่งมั่น - แต่ไม่เท่ากัน: มีความเป็นไปได้ที่จะเกิดเหตุสุดวิสัย ข้อมูลที่น่าตื่นเต้น การตัดสินใจที่ไม่คาดคิดที่สามารถเปลี่ยนแปลงผลการเลือกตั้งที่คาดการณ์ไว้ได้

Neumann และ Pearson เห็นด้วยว่าระดับนัยสำคัญของ Fisher ที่เสนอคือ 0.05 (แสดงด้วยสัญลักษณ์ α) เป็นวิธีที่สะดวกที่สุด อย่างไรก็ตาม ฟิสเชอร์เองในปี 1956 ไม่เห็นด้วยกับการกำหนดมูลค่านี้ เขาเชื่อว่าระดับของ α ควรกำหนดตามสถานการณ์เฉพาะ ตัวอย่างเช่น ในฟิสิกส์อนุภาค มันคือ 0.01

p-value

คำว่า p-value ถูกใช้ครั้งแรกโดย Brownlee ในปี 1960 ระดับ P (p-value) เป็นตัวบ่งชี้ที่สัมพันธ์ผกผันกับความจริงของผลลัพธ์ ค่า p สูงสุดสอดคล้องกับระดับความเชื่อมั่นต่ำสุดในความสัมพันธ์ตัวอย่างระหว่างตัวแปร

ค่านี้สะท้อนถึงความน่าจะเป็นของข้อผิดพลาดที่เกี่ยวข้องกับการตีความผลลัพธ์ สมมติว่า p-value = 0.05 (1/20) มันแสดงให้เห็นโอกาสร้อยละห้าที่ความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่างเป็นเพียงคุณลักษณะสุ่มของกลุ่มตัวอย่าง นั่นคือหากไม่มีการพึ่งพาอาศัยกันนี้ โดยเฉลี่ยแล้วด้วยการทดลองที่คล้ายคลึงกันซ้ำแล้วซ้ำเล่าในทุกการศึกษาที่ยี่สิบ เราสามารถคาดหวังการพึ่งพาอาศัยกันระหว่างตัวแปรได้เหมือนกันหรือมากกว่า บ่อยครั้งที่ระดับ p ถือเป็น "ระยะขอบ" ของระดับข้อผิดพลาด

อย่างไรก็ตาม ค่า p อาจไม่สะท้อนถึงความสัมพันธ์ที่แท้จริงระหว่างตัวแปร แต่แสดงเฉพาะค่าเฉลี่ยบางอย่างภายในสมมติฐานเท่านั้น โดยเฉพาะอย่างยิ่งการวิเคราะห์ข้อมูลขั้นสุดท้ายจะขึ้นอยู่กับค่าที่เลือกของสัมประสิทธิ์นี้ ด้วย p-level = 0.05 จะมีผลลัพธ์บางอย่างและมีค่าสัมประสิทธิ์เท่ากับ 0.01 อื่น ๆ

การทดสอบสมมติฐานทางสถิติ

ระดับนัยสำคัญทางสถิติมีความสำคัญอย่างยิ่งเมื่อทำการทดสอบสมมติฐาน ตัวอย่างเช่น เมื่อคำนวณการทดสอบแบบสองด้าน พื้นที่ปฏิเสธจะถูกแบ่งเท่าๆ กันที่ปลายทั้งสองของการกระจายตัวอย่าง (เทียบกับพิกัดศูนย์) และคำนวณความจริงของข้อมูลที่ได้รับ

สมมติว่าเมื่อตรวจสอบกระบวนการบางอย่าง (ปรากฏการณ์) ปรากฏว่าข้อมูลทางสถิติใหม่บ่งชี้การเปลี่ยนแปลงเล็กน้อยเมื่อเทียบกับค่าก่อนหน้า ในขณะเดียวกัน ความคลาดเคลื่อนในผลลัพธ์มีน้อย ไม่ชัดเจน แต่สำคัญสำหรับการศึกษา ผู้เชี่ยวชาญเผชิญกับภาวะที่กลืนไม่เข้าคายไม่ออก: การเปลี่ยนแปลงเกิดขึ้นจริงหรือเป็นการสุ่มตัวอย่างข้อผิดพลาด (ความไม่ถูกต้องในการวัด)

ในกรณีนี้ สมมติฐานว่างจะถูกนำไปใช้หรือถูกปฏิเสธ (ทุกอย่างถูกตัดออกเนื่องจากข้อผิดพลาด กระบวนการแก้ปัญหาขึ้นอยู่กับอัตราส่วนของนัยสำคัญทางสถิติโดยรวม (ค่า p) และระดับนัยสำคัญ (α) ถ้า p-level< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

ค่าที่ใช้

ระดับความสำคัญขึ้นอยู่กับวัสดุที่วิเคราะห์ ในทางปฏิบัติจะใช้ค่าคงที่ต่อไปนี้:

  • α = 0.1 (หรือ 10%);
  • α = 0.05 (หรือ 5%);
  • α = 0.01 (หรือ 1%);
  • α = 0.001 (หรือ 0.1%)

ยิ่งต้องการการคำนวณที่แม่นยำมากเท่าใด ค่าสัมประสิทธิ์ α ก็จะยิ่งน้อยลงเท่านั้น การคาดการณ์ทางสถิติในทางฟิสิกส์ เคมี เภสัชกรรม และพันธุศาสตร์ต้องการความแม่นยำมากกว่าในทางรัฐศาสตร์และสังคมวิทยา

เกณฑ์ความสำคัญในพื้นที่เฉพาะ

ในสาขาที่มีความแม่นยำสูง เช่น ฟิสิกส์อนุภาคและการผลิต นัยสำคัญทางสถิติมักแสดงเป็นอัตราส่วนของส่วนเบี่ยงเบนมาตรฐาน (แสดงโดยค่าสัมประสิทธิ์ซิกมา - σ) เทียบกับการแจกแจงความน่าจะเป็นปกติ (การแจกแจงแบบเกาส์เซียน) σ เป็นตัวบ่งชี้ทางสถิติที่กำหนดการแพร่กระจายของค่าของปริมาณที่แน่นอนซึ่งสัมพันธ์กับความคาดหวังทางคณิตศาสตร์ ใช้เพื่อพลอตความน่าจะเป็นของเหตุการณ์

ค่าสัมประสิทธิ์ σ แตกต่างกันอย่างมากทั้งนี้ขึ้นอยู่กับสาขาความรู้ ตัวอย่างเช่น เมื่อทำนายการมีอยู่ของ Higgs boson พารามิเตอร์ σ เท่ากับห้า (σ=5) ซึ่งสอดคล้องกับ p-value=1/3.5 ล้าน พื้นที่

ประสิทธิภาพ

ต้องคำนึงว่าค่าสัมประสิทธิ์ α และ p-value ไม่ใช่คุณสมบัติที่แน่นอน ไม่ว่าระดับนัยสำคัญในสถิติของปรากฏการณ์ที่กำลังศึกษาอยู่ที่ระดับใด มันไม่ใช่พื้นฐานที่ไม่มีเงื่อนไขสำหรับการยอมรับสมมติฐาน ตัวอย่างเช่น ยิ่งค่าของ α น้อยเท่าใด โอกาสที่สมมติฐานที่ตั้งขึ้นก็จะมีนัยสำคัญมากขึ้นเท่านั้น อย่างไรก็ตาม มีความเสี่ยงที่จะเกิดข้อผิดพลาด ซึ่งลดอำนาจทางสถิติ (ความสำคัญ) ของการศึกษา

นักวิจัยที่มุ่งเน้นเฉพาะผลลัพธ์ที่มีนัยสำคัญทางสถิติเท่านั้นอาจได้ข้อสรุปที่ผิดพลาด ในเวลาเดียวกัน เป็นการยากที่จะตรวจสอบงานซ้ำอีกครั้ง เนื่องจากใช้สมมติฐาน (ซึ่งอันที่จริงแล้วเป็นค่าของ α และ p-value) ดังนั้นจึงแนะนำเสมอพร้อมกับการคำนวณนัยสำคัญทางสถิติ เพื่อกำหนดตัวบ่งชี้อื่น - ขนาดของผลกระทบทางสถิติ ขนาดเอฟเฟกต์เป็นการวัดเชิงปริมาณของความแข็งแกร่งของเอฟเฟกต์

ค่าที่เรียกว่า มีนัยสำคัญทางสถิติ, หากความน่าจะเป็นของการเกิดขึ้นอย่างสุ่มๆ ของมันหรือค่าที่รุนแรงยิ่งกว่านั้นมีน้อย สุดขั้วคือระดับความเบี่ยงเบนจากสมมติฐานว่าง มีการกล่าวถึงความแตกต่างว่า "มีนัยสำคัญทางสถิติ" หากมีข้อมูลที่ไม่น่าจะเกิดขึ้น สมมติว่าไม่มีความแตกต่าง สำนวนนี้ไม่ได้หมายความว่าความแตกต่างนี้ควรมีขนาดใหญ่ สำคัญ หรือมีความสำคัญในความหมายทั่วไปของคำ

ระดับนัยสำคัญของการทดสอบคือแนวคิดดั้งเดิมของการทดสอบสมมติฐานในสถิติความถี่ มันถูกกำหนดให้เป็นความน่าจะเป็นของการตัดสินใจที่จะปฏิเสธสมมติฐานว่างหากในความเป็นจริงสมมติฐานว่างเป็นจริง (การตัดสินใจเรียกว่าข้อผิดพลาดประเภท I หรือการตัดสินใจเชิงบวกที่ผิดพลาด) กระบวนการตัดสินใจมักอาศัยค่า p (อ่านว่า "ค่า pi"): หากค่า p น้อยกว่าระดับนัยสำคัญ สมมติฐานว่างจะถูกปฏิเสธ ยิ่งค่า p มีค่าน้อยเท่าไร สถิติการทดสอบก็จะยิ่งมีความสำคัญมากขึ้นเท่านั้น ยิ่งค่า p น้อยกว่า เหตุผลในการปฏิเสธสมมติฐานว่างก็จะยิ่งแข็งแกร่งขึ้น

ระดับความสำคัญมักแสดงด้วยอักษรกรีก α (อัลฟา) ระดับความสำคัญที่เป็นที่นิยมคือ 5%, 1% และ 0.1% หากการทดสอบสร้างค่า p น้อยกว่าระดับ α สมมติฐานว่างจะถูกปฏิเสธ ผลลัพธ์ดังกล่าวเรียกว่า "มีนัยสำคัญทางสถิติ" อย่างไม่เป็นทางการ ตัวอย่างเช่น หากมีคนพูดว่า "โอกาสของสิ่งที่เกิดขึ้นเป็นเรื่องบังเอิญเท่ากับหนึ่งในพัน" นั่นหมายความว่าระดับนัยสำคัญ 0.1%

ค่าต่าง ๆ ของระดับ α มีข้อดีและข้อเสีย ระดับ α ที่น้อยกว่าให้ความมั่นใจมากกว่าว่าสมมติฐานทางเลือกที่กำหนดไว้แล้วมีความสำคัญ แต่มีความเสี่ยงมากกว่าที่จะไม่ปฏิเสธสมมติฐานว่างที่เป็นเท็จ (ข้อผิดพลาด Type II หรือ "การตัดสินใจเชิงลบที่ผิดพลาด") และทำให้มีกำลังทางสถิติน้อยลง การเลือกระดับ α อย่างหลีกเลี่ยงไม่ได้จำเป็นต้องมีการแลกเปลี่ยนระหว่างความสำคัญและอำนาจ และด้วยเหตุนี้ระหว่างความน่าจะเป็นของข้อผิดพลาด Type I และ Type II ภายในประเทศ เอกสารทางวิทยาศาสตร์มักใช้คำว่า "ความสำคัญ" ที่ไม่ถูกต้องแทนคำว่า "นัยสำคัญทางสถิติ"

ดูสิ่งนี้ด้วย

หมายเหตุ

จอร์จ คาเซลลา, โรเจอร์ แอล. เบอร์เกอร์การทดสอบสมมติฐาน // การอนุมานทางสถิติ - รุ่นที่สอง - Pacific Grove, CA: Duxbury, 2002. - S. 397. - 660 p. - ไอเอสบีเอ็น 0-534-24312-6


มูลนิธิวิกิมีเดีย 2010 .

ดูว่า "ระดับความสำคัญ" ในพจนานุกรมอื่นๆ คืออะไร:

    ตัวเลขมีขนาดเล็กมากจนเกือบจะแน่ใจได้ว่าเหตุการณ์ที่มีความน่าจะเป็น α จะไม่เกิดขึ้นในการทดสอบครั้งเดียว โดยปกติ U. z. ถูกกำหนดโดยพลการ กล่าวคือ: 0.05, 0.01 และด้วยความแม่นยำพิเศษ 0.005 เป็นต้น ในกอล งาน… … สารานุกรมธรณีวิทยา

    ระดับความสำคัญ- เกณฑ์ทางสถิติ (เรียกอีกอย่างว่า "ระดับอัลฟา" และเขียนแทนด้วยตัวอักษรกรีก) เป็นขอบเขตบนของความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 (ความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่างเมื่อเป็นจริง) ค่านิยมทั่วไปคือ... พจนานุกรมสถิติทางสังคมวิทยา

    ภาษาอังกฤษ ระดับความสำคัญ; เยอรมัน ซิกนิฟิคานซ์นิโว ระดับความเสี่ยงคือผู้วิจัยอาจสรุปข้อสรุปที่ไม่ถูกต้องเกี่ยวกับการเข้าใจผิดของสิ่งพิเศษ สมมติฐานตามข้อมูลตัวอย่าง อันตินาซี สารานุกรมสังคมวิทยา 2552 ... สารานุกรมสังคมวิทยา

    ระดับความสำคัญ- - [แอล.จี. ซูเมนโก. พจนานุกรมภาษาอังกฤษของรัสเซียเทคโนโลยีสารสนเทศ M.: GP TsNIIS, 2003.] หัวข้อเทคโนโลยีสารสนเทศโดยทั่วไประดับความสำคัญ EN ... คู่มือนักแปลทางเทคนิค

    ระดับความสำคัญ- 3.31 ระดับนัยสำคัญ α: ค่าที่กำหนดซึ่งแสดงถึงขอบเขตบนของความน่าจะเป็นที่จะปฏิเสธสมมติฐานทางสถิติเมื่อสมมติฐานนั้นเป็นจริง ที่มา: GOST R ISO 12491 2011: วัสดุก่อสร้างและผลิตภัณฑ์ ... ... หนังสืออ้างอิงพจนานุกรมของข้อกำหนดของเอกสารเชิงบรรทัดฐานและทางเทคนิค

    ระดับความสำคัญ- แนวคิดของสถิติทางคณิตศาสตร์ ซึ่งสะท้อนถึงระดับความน่าจะเป็นของข้อสรุปที่ผิดพลาดเกี่ยวกับสมมติฐานทางสถิติเกี่ยวกับการกระจายของคุณลักษณะ ตรวจสอบโดยใช้ข้อมูลตัวอย่าง ในการวิจัยทางจิตวิทยาในระดับที่เพียงพอ ... ... ทันสมัย กระบวนการศึกษา: แนวคิดพื้นฐานและข้อกำหนด

    ระดับความสำคัญ- สถานะ reikšmingumo lygis T sritis automatika atitikmenys: engl ระดับนัยสำคัญ Signifikanzniveau, n rus. ระดับนัยสำคัญ ม. niveau de signifiance, m … Automatikos ปลายทาง žodynas

    ระดับความสำคัญ- สถานะ reikšmingumo lygis T sritis fizika atitikmenys: engl. ระดับความสำคัญ ระดับนัยสำคัญ Sicherheitsschwelle, f rus. ระดับนัยสำคัญ fpranc niveau de สำคัญ, m … Fizikos terminų žodynas

    การทดสอบทางสถิติ ดูระดับความสำคัญ... สารานุกรมแห่งสหภาพโซเวียตผู้ยิ่งใหญ่

    ระดับความสำคัญ- ดูความสำคัญระดับ... พจนานุกรมในทางจิตวิทยา

หนังสือ

  • "ความลับสุดยอด" . Lubyanka - ถึง Stalin เกี่ยวกับสถานการณ์ในประเทศ (2465-2477) เล่มที่ 4 ตอนที่ 1,. สิ่งพิมพ์พื้นฐานหลายเล่ม - ข้อมูลรีวิวและบทสรุปของ OGPU - มีความโดดเด่นในด้านความสำคัญ คุณค่า เนื้อหา และขอบเขตทางวิทยาศาสตร์ ในประวัติศาสตร์นี้…
  • โปรแกรมการศึกษาเป็นเครื่องมือสำหรับระบบการจัดการคุณภาพของอาชีวศึกษา Tkacheva Galina Viktorovna, Logachev Maxim Sergeevich, Samarin Yury Nikolaevich เอกสารวิเคราะห์แนวทางปฏิบัติที่มีอยู่ของการสร้างเนื้อหาของโปรแกรมการศึกษาระดับมืออาชีพ กำหนดสถานที่ โครงสร้าง เนื้อหา และระดับความสำคัญ ...

p-value(อังกฤษ) - ค่าที่ใช้ทดสอบสมมติฐานทางสถิติ อันที่จริง นี่คือความน่าจะเป็นของข้อผิดพลาดเมื่อปฏิเสธสมมติฐานว่าง (ข้อผิดพลาดประเภทแรก) การทดสอบสมมติฐานโดยใช้ค่า P เป็นทางเลือกแทนขั้นตอนการทดสอบแบบคลาสสิกผ่านค่าวิกฤตของการแจกแจง

โดยปกติ ค่า P จะเท่ากับความน่าจะเป็นที่ตัวแปรสุ่มที่มีการแจกแจงที่กำหนด (การกระจายของสถิติการทดสอบภายใต้สมมติฐานว่าง) จะใช้ค่าไม่น้อยกว่าค่าจริงของสถิติการทดสอบ วิกิพีเดีย.

กล่าวอีกนัยหนึ่ง ค่า p เป็นระดับนัยสำคัญที่เล็กที่สุด (กล่าวคือ ความน่าจะเป็นที่จะปฏิเสธสมมติฐานที่แท้จริง) ซึ่งสถิติการทดสอบที่คำนวณได้นำไปสู่การปฏิเสธสมมติฐานว่าง โดยปกติ ค่า p จะถูกเปรียบเทียบกับระดับนัยสำคัญมาตรฐานที่ยอมรับโดยทั่วไปที่ 0.005 หรือ 0.01

ตัวอย่างเช่น หากค่าของสถิติการทดสอบที่คำนวณจากตัวอย่างตรงกับ p = 0.005 แสดงว่ามีความเป็นไปได้ 0.5% ที่สมมติฐานเป็นจริง ดังนั้น ยิ่งค่า p น้อยเท่าไหร่ ก็ยิ่งดีเท่านั้น เนื่องจากจะเพิ่ม "ความแข็งแกร่ง" ของการปฏิเสธสมมติฐานว่างและเพิ่มความสำคัญที่คาดหวังของผลลัพธ์

คำอธิบายที่น่าสนใจเกี่ยวกับเรื่องนี้อยู่ที่ Habré

การวิเคราะห์ทางสถิติเริ่มดูเหมือนกล่องดำ: อินพุตคือข้อมูล เอาต์พุตคือตารางผลลัพธ์หลักและค่า p

p-value พูดว่าอะไร?

สมมติว่าเราตัดสินใจที่จะค้นหาว่ามีความสัมพันธ์ระหว่างการเสพติดเกมคอมพิวเตอร์นองเลือดกับความก้าวร้าวในชีวิตจริงหรือไม่ ในการนี้ เด็กนักเรียนสองกลุ่ม กลุ่มละ 100 คน ถูกสุ่มขึ้นมา (กลุ่มที่ 1 - แฟนเกมยิงปืน กลุ่มที่ 2 - ไม่เล่นเกมคอมพิวเตอร์) ตัวอย่างเช่น จำนวนการต่อสู้กับเพื่อนทำหน้าที่เป็นตัวบ่งชี้ถึงความก้าวร้าว ในการศึกษาจินตภาพของเรา ปรากฎว่ากลุ่มเด็กนักเรียนเล่นการพนันขัดแย้งกับสหายของพวกเขาบ่อยขึ้นอย่างเห็นได้ชัด แต่เราจะทราบได้อย่างไรว่าความแตกต่างของผลลัพธ์มีนัยสำคัญทางสถิติอย่างไร บางทีเราอาจได้รับความแตกต่างที่สังเกตได้โดยบังเอิญ? เพื่อตอบคำถามเหล่านี้ ค่า p ถูกใช้ - นี่คือความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวหรือเด่นชัดกว่านี้ โดยที่จริง ๆ แล้วไม่มีความแตกต่างในประชากรทั่วไป กล่าวอีกนัยหนึ่งนี่คือความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวหรือมากยิ่งขึ้นระหว่างกลุ่มของเราโดยที่ในความเป็นจริงเกมคอมพิวเตอร์ไม่ส่งผลต่อความก้าวร้าวในทางใดทางหนึ่ง ฟังดูไม่ยากเลย อย่างไรก็ตาม สถิติเฉพาะนี้มักถูกตีความผิด

ตัวอย่างค่า p

ดังนั้นเราจึงเปรียบเทียบเด็กนักเรียนสองกลุ่มในแง่ของระดับความก้าวร้าวโดยใช้การทดสอบ t มาตรฐาน (หรือการทดสอบ Chi แบบไม่อิงพารามิเตอร์ - กำลังสองที่เหมาะสมกว่าในสถานการณ์นี้) และพบว่า p- โลภ ระดับนัยสำคัญน้อยกว่า 0.05 (เช่น 0.04) แต่ค่า p-significance ที่เป็นผลลัพธ์บอกอะไรเราได้บ้าง? ดังนั้น หากค่า p คือความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวหรือเด่นชัดกว่านี้ โดยที่ไม่มีความแตกต่างในประชากรทั่วไป คุณคิดว่าข้อความใดคือข้อความที่ถูกต้อง:

1. เกมคอมพิวเตอร์เป็นสาเหตุของพฤติกรรมก้าวร้าว โดยมีโอกาส 96%
2. ความน่าจะเป็นที่ความก้าวร้าวและเกมคอมพิวเตอร์ไม่เกี่ยวข้องกันคือ 0.04
3. ถ้าเรามีนัยสำคัญระดับ p มากกว่า 0.05 นี่หมายความว่าความก้าวร้าวและเกมคอมพิวเตอร์ไม่เกี่ยวข้องกันแต่อย่างใด
4. ความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวโดยบังเอิญคือ 0.04
5. ข้อความทั้งหมดไม่ถูกต้อง

หากคุณเลือกตัวเลือกที่ห้า แสดงว่าคุณคิดถูก! แต่จากการศึกษาจำนวนมากพบว่า แม้แต่ผู้ที่มีประสบการณ์สำคัญในการวิเคราะห์ข้อมูลก็มักจะตีความค่า p ผิด

มาเรียงคำตอบกันตามลำดับ:

ข้อความสั่งแรกเป็นตัวอย่างของข้อผิดพลาดเกี่ยวกับสหสัมพันธ์: ข้อเท็จจริงที่ว่าสองตัวแปรมีความเกี่ยวข้องกันอย่างมีนัยสำคัญ ไม่ได้บอกเราเกี่ยวกับเหตุและผล บางทีอาจเป็นคนก้าวร้าวมากกว่าที่ต้องการใช้เวลาเล่นเกมคอมพิวเตอร์ และไม่ใช่เกมคอมพิวเตอร์ที่ทำให้คนก้าวร้าวมากขึ้น

นี่เป็นข้อความที่น่าสนใจกว่า ประเด็นคือในตอนแรกเราถือว่าไม่มีความแตกต่างกันจริงๆ และโดยคำนึงถึงสิ่งนี้ตามความเป็นจริง เราคำนวณค่า p ดังนั้น การตีความที่ถูกต้องคือ: "สมมติว่าความก้าวร้าวและเกมคอมพิวเตอร์ไม่เกี่ยวข้อง แต่อย่างใด ความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวหรือเด่นชัดยิ่งขึ้นคือ 0.04"

แต่ถ้าเรามีความแตกต่างเล็กน้อยล่ะ? นี่หมายความว่าไม่มีความสัมพันธ์ระหว่างตัวแปรที่ศึกษาหรือไม่? ไม่ หมายความว่าอาจมีความแตกต่างกันเท่านั้น แต่ผลลัพธ์ของเราไม่อนุญาตให้เราตรวจพบความแตกต่าง

สิ่งนี้เกี่ยวข้องโดยตรงกับคำจำกัดความของ p-value เอง 0.04 คือความน่าจะเป็นที่จะได้ค่าความแตกต่างเหล่านี้หรือมากยิ่งกว่านั้นอีก โดยหลักการแล้ว เป็นไปไม่ได้ที่จะประมาณความน่าจะเป็นที่จะได้รับความแตกต่างอย่างแน่นอนในการทดลองของเรา!

นี่คือข้อผิดพลาดที่ซ่อนอยู่ในการตีความตัวบ่งชี้เช่น p-value ดังนั้นจึงเป็นสิ่งสำคัญมากที่จะต้องเข้าใจกลไกที่เป็นพื้นฐานของวิธีการวิเคราะห์และการคำนวณตัวบ่งชี้ทางสถิติหลัก

จะหา p-value ได้อย่างไร?

1. กำหนดผลลัพธ์ที่คาดหวังจากการทดสอบของคุณ

โดยปกติ เมื่อนักวิทยาศาสตร์ทำการทดลอง พวกเขามีความคิดอยู่แล้วว่าผลลัพธ์ใดที่ควรพิจารณา "ปกติ" หรือ "ทั่วไป" ซึ่งอาจขึ้นอยู่กับผลการทดลองของการทดลองที่ผ่านมา บนชุดข้อมูลที่เชื่อถือได้ ข้อมูลจากวรรณกรรมทางวิทยาศาสตร์ หรือนักวิทยาศาสตร์อาจอ้างอิงจากแหล่งข้อมูลอื่น สำหรับการทดสอบของคุณ ให้กำหนดผลลัพธ์ที่คาดหวัง และแสดงเป็นตัวเลข

ตัวอย่าง: ตัวอย่างเช่น การศึกษาก่อนหน้านี้แสดงให้เห็นว่าในประเทศของคุณ รถสีแดงมีแนวโน้มที่จะได้ตั๋วที่เร็วกว่ารถสีน้ำเงิน ตัวอย่างเช่น คะแนนเฉลี่ยแสดงความพึงพอใจ 2:1 สำหรับรถสีแดงมากกว่ารถสีน้ำเงิน เราต้องการตรวจสอบว่าตำรวจมีอคติแบบเดียวกันกับสีรถยนต์ในเมืองของคุณหรือไม่ ในการทำเช่นนี้เราจะวิเคราะห์ค่าปรับสำหรับการเร่งความเร็ว ถ้าเราสุ่มตั๋ว 150 ใบที่ออกให้สำหรับรถสีแดงหรือสีน้ำเงิน เราคาดว่าจะออกตั๋ว 100 ใบสำหรับรถสีแดง และ 50 ใบเป็นสีน้ำเงิน ถ้าตำรวจในเมืองของเรามีอคติต่อสีรถตามที่เห็นนี้ ทั่วทั้งประเทศ.

2. กำหนดผลลัพธ์ที่สังเกตได้จากการทดลองของคุณ

เมื่อคุณได้กำหนดผลลัพธ์ที่คาดหวังแล้ว คุณต้องทดลองและค้นหาค่าจริง (หรือ "สังเกต") คุณต้องแสดงผลลัพธ์เหล่านี้เป็นตัวเลขอีกครั้ง หากเราสร้างเงื่อนไขการทดลอง และผลลัพธ์ที่สังเกตได้แตกต่างไปจากที่คาดไว้ เราก็มีความเป็นไปได้สองอย่าง - สิ่งนี้เกิดขึ้นโดยบังเอิญ หรือสิ่งนี้เกิดจากการทดสอบของเราอย่างแม่นยำ วัตถุประสงค์ในการค้นหาค่า p นั้นแม่นยำเพื่อกำหนดว่าผลลัพธ์ที่สังเกตได้นั้นแตกต่างจากที่คาดไว้ในลักษณะที่เราไม่สามารถปฏิเสธ "สมมติฐานว่าง" ได้หรือไม่ - สมมติฐานที่ว่าไม่มีความสัมพันธ์ระหว่างตัวแปรทดลองกับค่าที่สังเกตได้ ผลลัพธ์.

ตัวอย่าง: ตัวอย่างเช่น ในเมืองของเรา เราสุ่มเลือกตั๋วความเร็วสูง 150 ใบที่ออกให้กับรถสีแดงหรือสีน้ำเงิน เราพิจารณาแล้วว่าออกตั๋ว 90 ใบสำหรับรถสีแดงและ 60 ใบสำหรับรถสีน้ำเงิน ซึ่งต่างจากผลลัพธ์ที่คาดไว้ ซึ่งก็คือ 100 และ 50 ตามลำดับ การทดลองของเรา (ในกรณีนี้ การเปลี่ยนแหล่งข้อมูลจากระดับชาติเป็นระดับเมือง) ทำให้เกิดการเปลี่ยนแปลงนี้ในผลลัพธ์หรือไม่ หรือตำรวจเมืองของเรามีอคติแบบเดียวกับค่าเฉลี่ยของประเทศ และเราเห็นเพียงรูปแบบสุ่มเท่านั้น ค่า p จะช่วยให้เราระบุสิ่งนี้ได้

3. กำหนดจำนวนองศาอิสระในการทดสอบของคุณ

จำนวนองศาอิสระคือระดับความแปรปรวนในการทดสอบของคุณ ซึ่งพิจารณาจากจำนวนหมวดหมู่ที่คุณกำลังสำรวจ สมการสำหรับจำนวนองศาอิสระคือจำนวนองศาอิสระ = n-1 โดยที่ "n" คือจำนวนหมวดหมู่หรือตัวแปรที่คุณกำลังวิเคราะห์ในการทดสอบของคุณ

ตัวอย่าง: ในการทดสอบของเรา มีผลลัพธ์สองหมวดหมู่: ประเภทหนึ่งสำหรับรถสีแดง และอีกหมวดสำหรับรถสีน้ำเงิน ดังนั้น ในการทดลองของเรา เรามี 2-1 = 1 ดีกรีอิสระ ถ้าเราเปรียบเทียบรถสีแดง สีน้ำเงิน และสีเขียว เราจะมีอิสระ 2 ระดับ เป็นต้น

4. เปรียบเทียบผลลัพธ์ที่คาดหวังและที่สังเกตได้โดยใช้การทดสอบไคสแควร์

Chi-square (เขียนว่า "x2") เป็นค่าตัวเลขที่วัดความแตกต่างระหว่างค่าที่คาดหวังและค่าที่สังเกตได้ของการทดสอบ สมการของไคสแควร์คือ x2 = Σ((o-e)2/e) โดยที่ "o" คือค่าที่สังเกตได้ และ "e" คือค่าที่คาดไว้ รวมผลลัพธ์ของสมการที่กำหนดสำหรับผลลัพธ์ที่เป็นไปได้ทั้งหมด (ดูด้านล่าง)

โปรดทราบว่าสมการนี้รวมตัวดำเนินการบวก Σ (ซิกมา) กล่าวอีกนัยหนึ่ง คุณต้องคำนวณ ((|o-e|-.05)2/e) สำหรับแต่ละผลลัพธ์ที่เป็นไปได้ และเพิ่มตัวเลขเข้าด้วยกันเพื่อให้ได้ค่าไคสแควร์ ในตัวอย่างของเรา เรามีผลลัพธ์ที่เป็นไปได้สองประการ - รถที่ได้รับโทษเป็นสีแดงหรือสีน้ำเงิน ดังนั้นเราต้องนับ ((o-e)2/e) สองครั้ง - หนึ่งครั้งสำหรับรถสีแดง และอีกครั้งสำหรับรถสีน้ำเงิน

ตัวอย่าง: ลองแทนค่าที่คาดหวังและสังเกตของเราลงในสมการ x2 = Σ((o-e)2/e) จำไว้ว่าเนื่องจากตัวดำเนินการบวก เราต้องนับ ((o-e)2/e) สองครั้ง - หนึ่งครั้งสำหรับรถสีแดง และอีกครั้งสำหรับรถสีน้ำเงิน เราจะทำงานนี้ดังนี้:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3

5. เลือกระดับความสำคัญ

ตอนนี้เรารู้จำนวนองศาอิสระในการทดลองแล้ว และเรารู้ค่าของการทดสอบไคสแควร์แล้ว เราต้องทำอีกอย่างหนึ่งก่อนที่เราจะหาค่า p ได้ เราจำเป็นต้องกำหนดระดับความสำคัญ การพูด ภาษาธรรมดาระดับนัยสำคัญบ่งชี้ว่าเรามั่นใจในผลลัพธ์ของเราเพียงใด ค่านัยสำคัญที่ต่ำจะสอดคล้องกับความน่าจะเป็นต่ำที่ผลการทดลองได้มาโดยบังเอิญ และในทางกลับกัน ระดับนัยสำคัญเขียนเป็นเศษส่วนทศนิยม (เช่น 0.01) ซึ่งสอดคล้องกับความน่าจะเป็นที่เราได้รับผลการทดลองโดยบังเอิญ (ในกรณีนี้ ความน่าจะเป็นคือ 1%)

ตามแบบแผน นักวิทยาศาสตร์มักจะกำหนดระดับความสำคัญของการทดลองไว้ที่ 0.05 หรือ 5% ซึ่งหมายความว่าผลการทดลองที่ตรงตามเกณฑ์ที่มีนัยสำคัญนั้นสามารถรับได้โดยความน่าจะเป็นเพียง 5% โดยบังเอิญเท่านั้น กล่าวอีกนัยหนึ่ง มีโอกาส 95% ที่ผลลัพธ์เกิดจากการที่นักวิทยาศาสตร์จัดการกับตัวแปรทดลอง ไม่ใช่โดยบังเอิญ สำหรับการทดลองส่วนใหญ่ ความมั่นใจ 95% ว่ามีความสัมพันธ์ระหว่างสองตัวแปรก็เพียงพอที่จะพิจารณาว่าตัวแปรทั้งสองมีความเกี่ยวข้องกัน "จริงๆ"

ตัวอย่าง: สำหรับตัวอย่างรถยนต์สีแดงและสีน้ำเงิน ให้ทำตามแบบแผนระหว่างนักวิทยาศาสตร์และตั้งค่าระดับนัยสำคัญเป็น 0.05

6. ใช้แผ่นข้อมูลการแจกแจงแบบไคสแควร์เพื่อค้นหาค่า p ของคุณ

นักวิทยาศาสตร์และนักสถิติใช้สเปรดชีตขนาดใหญ่เพื่อคำนวณค่า p ของการทดลอง ข้อมูลตารางมักจะมีแกนตั้งทางด้านซ้าย ซึ่งสอดคล้องกับจำนวนองศาอิสระ และแกนนอนที่ด้านบน ซึ่งสอดคล้องกับค่า p ใช้ข้อมูลในตารางเพื่อค้นหาจำนวนองศาอิสระของคุณก่อน จากนั้นดูอนุกรมของคุณจากซ้ายไปขวาจนกว่าคุณจะพบค่าแรกที่มากกว่าค่าไคสแควร์ของคุณ ดูค่า p ที่สอดคล้องกันที่ด้านบนของคอลัมน์ของคุณ ค่า p ของคุณอยู่ระหว่างตัวเลขนี้กับค่าถัดไป (ค่าที่อยู่ทางซ้ายของคุณ)

ตารางการแจกแจงแบบไคสแควร์สามารถหาได้จากหลายแหล่ง (คุณสามารถหาได้จากลิงค์นี้)

ตัวอย่าง: ค่าไคสแควร์ของเราคือ 3 เนื่องจากเรารู้ว่าการทดลองของเรามีอิสระเพียง 1 องศา เราจะเลือกแถวแรก เราไปจากซ้ายไปขวาตามเส้นนี้จนกว่าเราจะพบค่าที่มากกว่า 3 ซึ่งเป็นค่าทดสอบไคสแควร์ของเรา อันแรกที่เราพบคือ 3.84 เมื่อค้นหาคอลัมน์ของเรา เราจะเห็นว่าค่า p ที่สอดคล้องกันคือ 0.05 ซึ่งหมายความว่าค่า p ของเราอยู่ระหว่าง 0.05 ถึง 0.1 (ค่า p สูงสุดถัดไปในตาราง)

7. ตัดสินใจว่าจะปฏิเสธหรือเก็บสมมติฐานว่างไว้

เนื่องจากคุณได้กำหนดค่า p โดยประมาณสำหรับการทดสอบของคุณแล้ว คุณต้องตัดสินใจว่าจะปฏิเสธสมมติฐานว่างของการทดสอบของคุณหรือไม่ (จำได้ว่า นี่คือสมมติฐานที่ว่าตัวแปรทดลองที่คุณจัดการไม่ได้ส่งผลต่อผลลัพธ์ที่คุณสังเกต) หากค่า p ของคุณน้อยกว่าระดับนัยสำคัญ ยินดีด้วย คุณได้พิสูจน์แล้วว่ามีความเป็นไปได้สูงที่จะมีความสัมพันธ์ระหว่างตัวแปรที่คุณจัดการและผลลัพธ์ที่คุณสังเกต หากค่า p ของคุณสูงกว่าระดับนัยสำคัญ คุณจะไม่สามารถแน่ใจได้ว่าผลลัพธ์ที่คุณสังเกตเห็นนั้นเกิดจากโอกาสหรือการปรับเปลี่ยนตัวแปรของคุณ

ตัวอย่าง: ค่า p อยู่ระหว่าง 0.05 ถึง 0.1 นี่มันไม่น้อยกว่า 0.05 อย่างชัดเจน โชคไม่ดีที่เราไม่สามารถปฏิเสธสมมติฐานว่างของเราได้ ซึ่งหมายความว่าเรายังไม่ถึงระดับความน่าจะเป็นขั้นต่ำ 95% ที่จะบอกว่าตำรวจในเมืองของเราออกตั๋วสำหรับรถสีแดงและสีน้ำเงินที่มีความน่าจะเป็นที่ค่อนข้างแตกต่างจากค่าเฉลี่ยของประเทศ

กล่าวอีกนัยหนึ่ง มีโอกาส 5-10% ที่ผลลัพธ์ที่เราสังเกตจะไม่ใช่ผลของการเปลี่ยนแปลงตำแหน่ง (การวิเคราะห์ของเมือง ไม่ใช่ทั้งประเทศ) แต่เป็นเพียงอุบัติเหตุ เนื่องจากเราต้องการความแม่นยำน้อยกว่า 5% เราจึงไม่สามารถพูดได้ว่าเรามั่นใจว่าตำรวจในเมืองของเรามีอคติกับรถสีแดงน้อยกว่า มีโอกาสเล็กน้อย (แต่มีนัยสำคัญทางสถิติ) ที่จะไม่เป็นเช่นนั้น

ในตารางผลการคำนวณทางสถิติในเอกสารภาคเรียน อนุปริญญา และวิทยานิพนธ์ระดับปริญญาโททางจิตวิทยา จะมีตัวบ่งชี้ "p" อยู่เสมอ

ตัวอย่างเช่น ตาม วัตถุประสงค์ของการวิจัยคำนวณความแตกต่างในระดับความหมายของชีวิตในเด็กชายและเด็กหญิงในวัยรุ่น

หมายถึง

การทดสอบ Mann-Whitney U

ระดับนัยสำคัญทางสถิติ (p)

เด็กผู้ชาย (20 คน)

เด็กผู้หญิง

(5 คน)

เป้าหมาย

28,9

35,2

17,5

0,027*

กระบวนการ

30,1

32,0

38,5

0,435

ผลลัพธ์

25,2

29,0

29,5

0,164

สถานที่ควบคุม - "ฉัน"

20,3

23,6

0,067

สถานที่แห่งการควบคุม - "ชีวิต"

30,4

33,8

27,5

0,126

ความหมายของชีวิต

98,9

111,2

0,103

* - ความแตกต่างมีนัยสำคัญทางสถิติ (p0,05)

คอลัมน์ทางขวาระบุค่าของ "p" และด้วยค่าของมันเองที่เราสามารถระบุได้ว่าความแตกต่างในความหมายของชีวิตในอนาคตของเด็กชายและเด็กหญิงมีความสำคัญหรือไม่ กฎนั้นง่าย:

  • หากระดับนัยสำคัญทางสถิติ "p" น้อยกว่าหรือเท่ากับ 0.05 เราก็สรุปได้ว่าความแตกต่างมีนัยสำคัญ ในตารางด้านบน ความแตกต่างระหว่างเด็กชายและเด็กหญิงมีความสำคัญเมื่อเทียบกับตัวบ่งชี้ "เป้าหมาย" - ความหมายของชีวิตในอนาคต ในเด็กผู้หญิง ตัวบ่งชี้นี้สูงกว่าเด็กผู้ชายอย่างมีนัยสำคัญทางสถิติ
  • หากระดับนัยสำคัญทางสถิติ "p" มากกว่า 0.05 จะสรุปได้ว่าความแตกต่างไม่มีนัยสำคัญ ในตารางด้านบน ความแตกต่างระหว่างเด็กชายและเด็กหญิงไม่สำคัญสำหรับตัวบ่งชี้อื่นๆ ทั้งหมด ยกเว้นตัวบ่งชี้แรก

ระดับนัยสำคัญทางสถิติ "p" มาจากไหน

มีการคำนวณระดับนัยสำคัญทางสถิติ โปรแกรมสถิติพร้อมทั้งคำนวณเกณฑ์ทางสถิติ ในโปรแกรมเหล่านี้ คุณยังสามารถตั้งค่าขีดจำกัดวิกฤตสำหรับระดับนัยสำคัญทางสถิติ และโปรแกรมจะเน้นตัวบ่งชี้ที่เกี่ยวข้อง

ตัวอย่างเช่น ในโปรแกรม STATISTICA เมื่อคำนวณสหสัมพันธ์ คุณสามารถตั้งค่าขีดจำกัด p เช่น 0.05 และความสัมพันธ์ที่มีนัยสำคัญทางสถิติทั้งหมดจะถูกเน้นด้วยสีแดง

หากการคำนวณเกณฑ์ทางสถิติดำเนินการด้วยตนเอง ระดับนัยสำคัญ "p" จะถูกกำหนดโดยการเปรียบเทียบค่าของเกณฑ์ที่ได้รับกับค่าวิกฤต

ระดับนัยสำคัญทางสถิติ "p" แสดงอะไร

การคำนวณทางสถิติทั้งหมดเป็นค่าโดยประมาณ ระดับของการประมาณนี้จะกำหนด "r" ระดับนัยสำคัญเขียนเป็นทศนิยม เช่น 0.023 หรือ 0.965 หากเราคูณตัวเลขนี้ด้วย 100 เราจะได้ตัวบ่งชี้ p เป็นเปอร์เซ็นต์: 2.3% และ 96.5% เปอร์เซ็นต์เหล่านี้สะท้อนถึงความเป็นไปได้ที่สมมติฐานเกี่ยวกับความสัมพันธ์ของเรา เช่น ระหว่างความก้าวร้าวและความวิตกกังวลจะผิด

นั่นคือ, ค่าสัมประสิทธิ์สหสัมพันธ์ 0.58 ระหว่างความก้าวร้าวและความวิตกกังวลได้รับที่ระดับนัยสำคัญทางสถิติที่ 0.05 หรือความน่าจะเป็นของข้อผิดพลาด 5% สิ่งนี้หมายความว่าอย่างไร?

ความสัมพันธ์ที่เราพบหมายความว่ารูปแบบต่อไปนี้ถูกสังเกตในตัวอย่างของเรา: ยิ่งมีความก้าวร้าวสูง ความวิตกกังวลก็จะยิ่งสูงขึ้น นั่นคือถ้าเราเอาวัยรุ่นสองคนและหนึ่งในนั้นจะมีความวิตกกังวลสูงกว่าอีกคนหนึ่ง เมื่อรู้เกี่ยวกับความสัมพันธ์เชิงบวก เราสามารถพูดได้ว่าวัยรุ่นคนนี้ก็จะมีความก้าวร้าวมากขึ้นเช่นกัน แต่เนื่องจากทุกอย่างเป็นตัวเลขโดยประมาณในสถิติ ดังนั้น การระบุสิ่งนี้ เรายอมรับว่าเราสามารถทำผิดพลาดได้ และความน่าจะเป็นของข้อผิดพลาดคือ 5% นั่นคือเมื่อเปรียบเทียบ 20 รายการในกลุ่มวัยรุ่นนี้แล้ว เราอาจทำผิดพลาดกับการคาดการณ์เกี่ยวกับระดับของความก้าวร้าวได้ครั้งเดียว โดยรู้ถึงความวิตกกังวล

ระดับนัยสำคัญทางสถิติใดดีกว่า: 0.01 หรือ 0.05

ระดับนัยสำคัญทางสถิติสะท้อนถึงความน่าจะเป็นของข้อผิดพลาด ดังนั้นผลลัพธ์ที่ p=0.01 จึงแม่นยำกว่าที่ p=0.05

ในการวิจัยทางจิตวิทยา ยอมรับผลลัพธ์ที่มีนัยสำคัญทางสถิติสองระดับที่ยอมรับได้:

p=0.01 - ความน่าเชื่อถือสูงของผลลัพธ์ การวิเคราะห์เปรียบเทียบหรือการวิเคราะห์ความสัมพันธ์

p=0.05 - ความแม่นยำเพียงพอ

ฉันหวังว่าบทความนี้จะช่วยคุณเขียนบทความจิตวิทยาด้วยตัวคุณเอง หากคุณต้องการความช่วยเหลือ โปรดติดต่อ (งานทุกประเภทในด้านจิตวิทยา การคำนวณทางสถิติ)