อิฐ
การวิเคราะห์การถดถอย การวิเคราะห์การถดถอย

การวิเคราะห์การถดถอย การวิเคราะห์การถดถอย

การวิเคราะห์การถดถอยจะตรวจสอบการพึ่งพาปริมาณหนึ่งกับปริมาณอื่นหรือปริมาณอื่นๆ อีกหลายปริมาณ การวิเคราะห์การถดถอยส่วนใหญ่จะใช้ในการพยากรณ์ระยะกลาง เช่นเดียวกับในการพยากรณ์ระยะยาว ช่วงระยะกลางและระยะยาวทำให้สามารถสร้างการเปลี่ยนแปลงในสภาพแวดล้อมทางธุรกิจและคำนึงถึงผลกระทบของการเปลี่ยนแปลงเหล่านี้ต่อตัวบ่งชี้ที่อยู่ระหว่างการศึกษา

ในการดำเนินการวิเคราะห์การถดถอย มีความจำเป็น:

ความพร้อมใช้งานของข้อมูลประจำปีเกี่ยวกับตัวบ่งชี้ที่ศึกษา

ความพร้อมใช้งานของการคาดการณ์แบบครั้งเดียว เช่น การคาดการณ์ที่ไม่ปรับปรุงด้วยข้อมูลใหม่

การวิเคราะห์การถดถอยมักดำเนินการสำหรับออบเจ็กต์ที่มีลักษณะหลายปัจจัยที่ซับซ้อน เช่น ปริมาณการลงทุน กำไร ปริมาณการขาย ฯลฯ

ที่ วิธีการพยากรณ์เชิงบรรทัดฐานกำหนดวิธีการและเงื่อนไขในการบรรลุสภาวะที่เป็นไปได้ของปรากฏการณ์ซึ่งถือเป็นเป้าหมาย เรากำลังพูดถึงการทำนายความสำเร็จของสภาวะที่ต้องการของปรากฏการณ์บนพื้นฐานของบรรทัดฐาน อุดมคติ แรงจูงใจ และเป้าหมายที่กำหนดไว้ล่วงหน้า การคาดการณ์ดังกล่าวจะตอบคำถาม: บรรลุสิ่งที่ต้องการด้วยวิธีใด? วิธีการเชิงบรรทัดฐานมักใช้สำหรับการคาดการณ์แบบเป็นโปรแกรมหรือแบบกำหนดเป้าหมาย ใช้ทั้งนิพจน์เชิงปริมาณของมาตรฐานและระดับความเป็นไปได้บางอย่างของฟังก์ชันการประเมิน

ในกรณีของการใช้นิพจน์เชิงปริมาณ ตัวอย่างเช่น บรรทัดฐานทางสรีรวิทยาและเหตุผลสำหรับการบริโภคอาหารและผลิตภัณฑ์ที่ไม่ใช่อาหารบางประเภทที่พัฒนาโดยผู้เชี่ยวชาญสำหรับกลุ่มประชากรต่างๆ เป็นไปได้ที่จะกำหนดระดับการบริโภคของสินค้าเหล่านี้สำหรับ ปีก่อนบรรลุผลสำเร็จตามเกณฑ์ที่กำหนด การคำนวณดังกล่าวเรียกว่าการแก้ไข การประมาณค่าเป็นวิธีการคำนวณตัวบ่งชี้ที่ขาดหายไปในอนุกรมเวลาของปรากฏการณ์ โดยอิงจากความสัมพันธ์ที่จัดตั้งขึ้น เมื่อใช้ค่าจริงของตัวบ่งชี้และค่าของมาตรฐานในฐานะสมาชิกสุดขีดของซีรีย์ไดนามิก เป็นไปได้ที่จะกำหนดขนาดของค่าภายในซีรีย์นี้ ดังนั้นการแก้ไขจึงถือเป็นวิธีการเชิงบรรทัดฐาน สูตรที่ให้ไว้ก่อนหน้านี้ (4) ซึ่งใช้ในการคาดคะเน สามารถใช้ในการประมาณค่า โดยที่ y n จะไม่กำหนดลักษณะข้อมูลจริงอีกต่อไป แต่เป็นมาตรฐานของตัวบ่งชี้

ในกรณีของการใช้มาตราส่วน (ภาคสนาม สเปกตรัม) ของความเป็นไปได้ของฟังก์ชันการประเมิน กล่าวคือ ฟังก์ชันการกระจายความพึงใจ ในวิธีเชิงบรรทัดฐาน จะระบุการไล่ระดับโดยประมาณต่อไปนี้: ไม่ต้องการ - พึงปรารถนาน้อยกว่า - พึงปรารถนามากกว่า - พึงปรารถนามากที่สุด - เหมาะสมที่สุด (มาตรฐาน)

วิธีการพยากรณ์เชิงบรรทัดฐานช่วยในการพัฒนาคำแนะนำสำหรับการเพิ่มระดับของความเป็นกลาง และด้วยเหตุนี้ประสิทธิภาพของการตัดสินใจ

การสร้างแบบจำลองอาจเป็นวิธีการพยากรณ์ที่ยากที่สุด แบบจำลองทางคณิตศาสตร์หมายถึงคำอธิบายของปรากฏการณ์ทางเศรษฐศาสตร์ผ่านสูตรทางคณิตศาสตร์ สมการ และอสมการ เครื่องมือทางคณิตศาสตร์ควรสะท้อนพื้นหลังการคาดการณ์ได้อย่างแม่นยำ แม้ว่าจะค่อนข้างยากที่จะสะท้อนความลึกและความซับซ้อนทั้งหมดของวัตถุที่คาดการณ์ได้อย่างเต็มที่ คำว่า "โมเดล" มาจากคำภาษาละติน modelus ซึ่งแปลว่า "วัด" ดังนั้นจึงเป็นการถูกต้องกว่าที่จะพิจารณาการสร้างแบบจำลองไม่ใช่วิธีการพยากรณ์ แต่เป็นวิธีการศึกษาปรากฏการณ์ที่คล้ายกันในแบบจำลอง

ในความหมายกว้าง ๆ แบบจำลองเรียกว่าสิ่งทดแทนวัตถุของการศึกษาซึ่งมีความคล้ายคลึงกันกับแบบจำลองที่ช่วยให้คุณได้รับความรู้ใหม่เกี่ยวกับวัตถุ แบบจำลองนี้ควรถือเป็นคำอธิบายทางคณิตศาสตร์ของวัตถุ ในกรณีนี้ แบบจำลองถูกกำหนดให้เป็นปรากฏการณ์ (ตัวแบบ การติดตั้ง) ที่สัมพันธ์กับวัตถุที่กำลังศึกษาและสามารถแทนที่ได้ในกระบวนการวิจัย โดยนำเสนอข้อมูลเกี่ยวกับวัตถุนั้น

ด้วยความเข้าใจที่แคบลงของแบบจำลอง จึงถือเป็นเป้าหมายของการพยากรณ์ การศึกษาช่วยให้ได้รับข้อมูลเกี่ยวกับสถานะที่เป็นไปได้ของวัตถุในอนาคตและวิธีที่จะบรรลุสถานะเหล่านี้ ในกรณีนี้ จุดประสงค์ของแบบจำลองการทำนายคือเพื่อให้ได้ข้อมูลที่ไม่เกี่ยวกับวัตถุโดยทั่วไป แต่เกี่ยวกับสถานะในอนาคตเท่านั้น จากนั้น เมื่อสร้างแบบจำลอง อาจเป็นไปไม่ได้ที่จะตรวจสอบความสอดคล้องของวัตถุกับวัตถุโดยตรง เนื่องจากแบบจำลองนั้นแสดงถึงสถานะในอนาคตเท่านั้น และวัตถุนั้นอาจไม่มีอยู่ในปัจจุบันหรือมีตัวตนที่ต่างออกไป

โมเดลสามารถเป็นวัสดุและในอุดมคติได้

โมเดลในอุดมคติถูกใช้ในทางเศรษฐศาสตร์ แบบจำลองในอุดมคติที่สมบูรณ์แบบที่สุดสำหรับคำอธิบายเชิงปริมาณของปรากฏการณ์ทางเศรษฐกิจและสังคม (เศรษฐกิจ) คือแบบจำลองทางคณิตศาสตร์ที่ใช้ตัวเลข สูตร สมการ อัลกอริธึม หรือการแสดงกราฟิก ด้วยความช่วยเหลือของแบบจำลองทางเศรษฐกิจกำหนด:

ความสัมพันธ์ระหว่างตัวชี้วัดทางเศรษฐกิจต่างๆ

ข้อจำกัดประเภทต่างๆ ที่กำหนดไว้สำหรับตัวชี้วัด

เกณฑ์เพื่อเพิ่มประสิทธิภาพกระบวนการ

คำอธิบายที่มีความหมายของวัตถุสามารถแสดงในรูปแบบของโครงร่างที่เป็นทางการ ซึ่งบ่งชี้ว่าพารามิเตอร์และข้อมูลเบื้องต้นใดที่ต้องถูกรวบรวมเพื่อคำนวณค่าที่ต้องการ แบบจำลองทางคณิตศาสตร์ซึ่งแตกต่างจากโครงร่างที่เป็นทางการคือมีข้อมูลตัวเลขเฉพาะที่ระบุลักษณะของวัตถุ การพัฒนาแบบจำลองทางคณิตศาสตร์ส่วนใหญ่ขึ้นอยู่กับแนวคิดของผู้พยากรณ์เกี่ยวกับสาระสำคัญของกระบวนการที่กำลังสร้างแบบจำลอง ตามความคิดของเขา เขาได้เสนอสมมติฐานที่ใช้งานได้ โดยใช้บันทึกการวิเคราะห์ของแบบจำลองในรูปแบบของสูตร สมการ และอสมการ จากการแก้ระบบสมการ จะได้พารามิเตอร์เฉพาะของฟังก์ชัน ซึ่งจะอธิบายการเปลี่ยนแปลงของตัวแปรที่ต้องการเมื่อเวลาผ่านไป

ลำดับและลำดับของงานเป็นองค์ประกอบขององค์กรของการพยากรณ์ถูกกำหนดโดยขึ้นอยู่กับวิธีการพยากรณ์ที่ใช้ โดยปกติงานนี้จะดำเนินการในหลายขั้นตอน

ขั้นที่ 1 - การย้อนหลังเชิงพยากรณ์ กล่าวคือ การจัดตั้งวัตถุประสงค์ของการพยากรณ์และภูมิหลังการคาดการณ์ งานในระยะแรกดำเนินการตามลำดับต่อไปนี้:

การก่อตัวของคำอธิบายของวัตถุในอดีตซึ่งรวมถึงการวิเคราะห์ล่วงหน้าของวัตถุการประเมินพารามิเตอร์ความสำคัญและความสัมพันธ์ซึ่งกันและกัน

การระบุและประเมินแหล่งที่มาของข้อมูล ขั้นตอนและองค์กรในการทำงานกับแหล่งข้อมูล การรวบรวมและการจัดวางข้อมูลย้อนหลัง

การกำหนดวัตถุประสงค์การวิจัย

นักพยากรณ์จะศึกษาประวัติความเป็นมาของการพัฒนาวัตถุและภูมิหลังการพยากรณ์เพื่อดำเนินงานของการทำนายย้อนหลัง เพื่อให้ได้คำอธิบายที่เป็นระบบ

ระยะที่ 2 - การวินิจฉัยเชิงทำนาย ในระหว่างนั้นจะมีการศึกษาคำอธิบายอย่างเป็นระบบของวัตถุของการพยากรณ์และภูมิหลังการพยากรณ์เพื่อระบุแนวโน้มในการพัฒนาและเลือกแบบจำลองและวิธีการพยากรณ์ งานจะดำเนินการในลำดับต่อไปนี้:

การพัฒนาแบบจำลองวัตถุพยากรณ์ รวมทั้งคำอธิบายอย่างเป็นทางการของวัตถุ การตรวจสอบระดับความเพียงพอของแบบจำลองต่อวัตถุ

การเลือกวิธีการพยากรณ์ (หลักและเสริม) การพัฒนาอัลกอริธึมและโปรแกรมการทำงาน

ระยะที่ 3 - การอุปถัมภ์ เช่น กระบวนการพัฒนาการคาดการณ์ที่ครอบคลุม ซึ่งรวมถึง 1) การคำนวณพารามิเตอร์ที่คาดการณ์ไว้สำหรับช่วงเวลานำที่กำหนด 2) การสังเคราะห์องค์ประกอบแต่ละส่วนของการพยากรณ์

ขั้นตอนที่ 4 - การประเมินการคาดการณ์ รวมถึงการตรวจสอบ เช่น การกำหนดระดับความน่าเชื่อถือ ความแม่นยำ และความถูกต้อง

ในระหว่างการสำรวจและประเมินผล งานการพยากรณ์และการประเมินจะได้รับการแก้ไขบนพื้นฐานของขั้นตอนก่อนหน้า

ระยะที่ระบุเป็นค่าโดยประมาณและขึ้นอยู่กับวิธีการพยากรณ์หลัก

ผลลัพธ์ของการคาดการณ์จะถูกวาดขึ้นในรูปแบบของใบรับรอง รายงาน หรือวัสดุอื่นๆ และนำเสนอต่อลูกค้า

ในการคาดการณ์ สามารถระบุความเบี่ยงเบนของการพยากรณ์จากสถานะจริงของวัตถุได้ ซึ่งเรียกว่าข้อผิดพลาดในการคาดการณ์ ซึ่งคำนวณโดยสูตร:

;
;
. (9.3)

แหล่งที่มาของข้อผิดพลาดในการพยากรณ์

แหล่งที่มาหลักสามารถ:

1. การถ่ายโอนข้อมูลอย่างง่าย (คาดการณ์) จากอดีตสู่อนาคต (เช่น บริษัทไม่มีตัวเลือกการคาดการณ์อื่น ๆ ยกเว้นการเพิ่มยอดขาย 10%)

2. ไม่สามารถกำหนดความน่าจะเป็นของเหตุการณ์และผลกระทบต่อวัตถุที่กำลังศึกษาได้อย่างถูกต้อง

3. ปัญหาที่ไม่คาดฝัน (เหตุการณ์ก่อกวน) ที่ส่งผลต่อการดำเนินการตามแผน เช่น การเลิกจ้างหัวหน้าแผนกขายกะทันหัน

โดยทั่วไป ความแม่นยำของการพยากรณ์จะเพิ่มขึ้นตามการสะสมประสบการณ์ในการพยากรณ์และการพัฒนาวิธีการ

การวิเคราะห์การถดถอย

การถดถอย (เชิงเส้น) การวิเคราะห์- วิธีทางสถิติสำหรับศึกษาอิทธิพลของตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไปบนตัวแปรตาม ตัวแปรอิสระเรียกว่าตัวถดถอยหรือตัวทำนายและตัวแปรตามเรียกว่าเกณฑ์ คำศัพท์ ขึ้นอยู่กับและ เป็นอิสระตัวแปรสะท้อนเฉพาะการพึ่งพาทางคณิตศาสตร์ของตัวแปร ( ดู สหสัมพันธ์ปลอม) มากกว่าความสัมพันธ์เชิงสาเหตุ

เป้าหมายของการวิเคราะห์การถดถอย

การกำหนดระดับของการกำหนดความผันแปรของตัวแปรเกณฑ์ (ตาม) โดยตัวทำนาย (ตัวแปรอิสระ)
การคาดคะเนค่าของตัวแปรตามโดยใช้ตัวแปรอิสระ
การกำหนดการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวต่อการแปรผันของการขึ้นต่อกัน

การวิเคราะห์การถดถอยไม่สามารถใช้ในการพิจารณาว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ เนื่องจากการมีอยู่ของความสัมพันธ์นั้นเป็นข้อกำหนดเบื้องต้นสำหรับการวิเคราะห์

นิยามทางคณิตศาสตร์ของการถดถอย

การพึ่งพาอาศัยกันแบบถดถอยอย่างเคร่งครัดสามารถกำหนดได้ดังนี้ ให้ เป็นตัวแปรสุ่มที่มีการแจกแจงความน่าจะเป็นร่วมที่กำหนด หากสำหรับแต่ละชุดของค่ามีการกำหนดความคาดหวังแบบมีเงื่อนไข

(สมการถดถอยทั่วไป)

จากนั้นจะเรียกฟังก์ชันนี้ว่า การถดถอยค่า Y ตามค่าและกราฟของมัน - เส้นถดถอยโดย , or สมการถดถอย.

การพึ่งพาเป็นที่ประจักษ์ในการเปลี่ยนแปลงในค่าเฉลี่ยของ Y เมื่อเปลี่ยนแปลง . แม้ว่าสำหรับชุดค่าคงที่แต่ละชุด ปริมาณยังคงเป็นตัวแปรสุ่มที่มีการกระจายตัวที่แน่นอน

เพื่อชี้แจงคำถามว่าการวิเคราะห์การถดถอยประมาณการการเปลี่ยนแปลงใน Y ด้วยการเปลี่ยนแปลงได้แม่นยำเพียงใด ค่าเฉลี่ยของความแปรปรวนของ Y จะถูกใช้สำหรับชุดค่าต่างๆ (อันที่จริง เรากำลังพูดถึงการวัดการกระจายของ ตัวแปรตามรอบเส้นถดถอย)

วิธีกำลังสองน้อยที่สุด (การคำนวณค่าสัมประสิทธิ์)

ในทางปฏิบัติมักใช้เส้นถดถอยในรูปแบบ ฟังก์ชันเชิงเส้น(การถดถอยเชิงเส้น) ที่ใกล้เคียงกับเส้นโค้งที่ต้องการมากที่สุด ทำได้โดยใช้วิธีกำลังสองน้อยที่สุด เมื่อผลรวมของค่าเบี่ยงเบนกำลังสองของค่าที่สังเกตได้จริงจากการประมาณการลดลง (หมายถึงการประมาณโดยใช้เส้นตรงที่อ้างว่าแสดงถึงการพึ่งพาการถดถอยที่ต้องการ):

(M - ขนาดตัวอย่าง). วิธีนี้ขึ้นอยู่กับ รู้ความจริงว่าผลรวมที่ปรากฏในนิพจน์ข้างต้นใช้ค่าต่ำสุดอย่างแม่นยำสำหรับกรณีที่เมื่อ

เพื่อแก้ปัญหาการวิเคราะห์การถดถอยโดยวิธีกำลังสองน้อยที่สุด จึงมีการแนะนำแนวคิด ฟังก์ชั่นตกค้าง:

เงื่อนไขสำหรับฟังก์ชันที่เหลือขั้นต่ำ:

ระบบผลลัพธ์คือระบบ สมการเชิงเส้นที่ไม่รู้จัก

ถ้าเราแทนพจน์ว่างทางด้านซ้ายของสมการด้วยเมทริกซ์

และสัมประสิทธิ์ของนิรนามทางด้านขวาของเมทริกซ์

จากนั้นเราจะได้สมการเมทริกซ์: ซึ่งแก้ได้ง่ายโดยวิธีเกาส์ เมทริกซ์ผลลัพธ์จะเป็นเมทริกซ์ที่มีค่าสัมประสิทธิ์ของสมการเส้นถดถอย:

เพื่อให้ได้ค่าประมาณที่ดีที่สุด จำเป็นต้องปฏิบัติตามข้อกำหนดเบื้องต้นของ LSM (เงื่อนไข Gauss–Markov) ในวรรณคดีอังกฤษ ค่าประมาณดังกล่าวเรียกว่า BLUE (ตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุด) ซึ่งเป็นค่าประมาณที่ไม่เอนเอียงเชิงเส้นที่ดีที่สุด

การตีความพารามิเตอร์การถดถอย

พารามิเตอร์เป็นค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน ถูกตีความว่าเป็นสัดส่วนของความแปรปรวนของ Y ที่อธิบายโดยการกำหนดอิทธิพลของตัวทำนายที่เหลือ กล่าวคือ วัดการมีส่วนร่วมของแต่ละคนในการอธิบายของ Y ในกรณีของตัวทำนายที่มีความสัมพันธ์กัน มีปัญหาความไม่แน่นอนในการประมาณการ ซึ่งขึ้นอยู่กับลำดับที่ตัวทำนายรวมอยู่ในแบบจำลอง ในกรณีเช่นนี้ จำเป็นต้องใช้วิธีการวิเคราะห์สหสัมพันธ์และการวิเคราะห์การถดถอยแบบขั้นตอน

เมื่อพูดถึงโมเดลการวิเคราะห์การถดถอยที่ไม่เป็นเชิงเส้น สิ่งสำคัญคือต้องให้ความสนใจว่าเรากำลังพูดถึงความไม่เป็นเชิงเส้นในตัวแปรอิสระหรือไม่ (จากมุมมองที่เป็นทางการ การลดลงอย่างง่ายเป็นการถดถอยเชิงเส้น) หรือความไม่เป็นเชิงเส้นในพารามิเตอร์โดยประมาณ (ทำให้เกิดปัญหาในการคำนวณอย่างร้ายแรง) ด้วยความไม่เชิงเส้นประเภทแรก จากมุมมองที่มีความหมาย สิ่งสำคัญคือต้องแยกแยะลักษณะที่ปรากฏในตัวแบบของสมาชิกของแบบฟอร์ม , , ระบุการมีอยู่ของการโต้ตอบระหว่างคุณลักษณะ ฯลฯ (ดู Multicollinearity)

ดูสิ่งนี้ด้วย

ลิงค์

www.kgafk.ru - การบรรยายเรื่อง "การวิเคราะห์การถดถอย"
www.basegroup.ru - วิธีการเลือกตัวแปรในแบบจำลองการถดถอย

วรรณกรรม

นอร์แมน เดรเปอร์, แฮร์รี่ สมิธการวิเคราะห์การถดถอยประยุกต์ การถดถอยพหุคูณ= การวิเคราะห์ถดถอยประยุกต์ - ครั้งที่ 3 - ม.: "ภาษาถิ่น", 2550 - ส. 912 - ISBN 0-471-17082-8
วิธีการที่ยั่งยืนสำหรับการประมาณแบบจำลองทางสถิติ: เอกสาร. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
Radchenko Stanislav Grigorievich,วิธีการวิเคราะห์การถดถอย: เอกสาร. - ก. : "กรณีชุก", 2554. - ส. 376. - ISBN 978-966-7599-72-0

มูลนิธิวิกิมีเดีย 2010 .

การถดถอยคืออะไร?

พิจารณาสองตัวแปรต่อเนื่อง x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n)

ลองวางจุดบนพล็อตกระจาย 2D แล้วบอกว่าเรามี ความสัมพันธ์เชิงเส้นถ้าข้อมูลถูกประมาณด้วยเส้นตรง

ถ้าสมมุติว่า yขึ้นอยู่กับ xและการเปลี่ยนแปลงใน yเกิดจากการเปลี่ยนแปลงใน xเราสามารถกำหนดเส้นการถดถอยได้ (regression yบน x) ซึ่งอธิบายความสัมพันธ์แบบเส้นตรงระหว่างตัวแปรทั้งสองนี้ได้ดีที่สุด

การใช้ทางสถิติของคำว่า "การถดถอย" มาจากปรากฏการณ์ที่เรียกว่าการถดถอยถึงค่าเฉลี่ย ซึ่งมาจากเซอร์ฟรานซิส กาลตัน (1889)

เขาแสดงให้เห็นว่าในขณะที่พ่อที่สูงมักจะมีลูกชายที่สูง ความสูงเฉลี่ยของลูกชายนั้นเล็กกว่าพ่อที่สูงของพวกเขา ความสูงเฉลี่ยของลูกชาย "ถดถอย" และ "ย้ายกลับ" เป็นความสูงเฉลี่ยของบิดาทั้งหมดในประชากร ดังนั้น โดยเฉลี่ยแล้ว พ่อที่สูงจะมีลูกชายที่เตี้ยกว่า (แต่ยังสูงอยู่) และพ่อที่เตี้ยก็มีลูกชายที่สูงกว่า (แต่ยังค่อนข้างเตี้ย)

เส้นถดถอย

สมการทางคณิตศาสตร์ที่ประเมินเส้นถดถอยเชิงเส้นอย่างง่าย (คู่):

xเรียกว่าตัวแปรอิสระหรือตัวทำนาย

Yเป็นตัวแปรตามหรือตัวแปรตอบสนอง นี่คือคุณค่าที่เราคาดหวังไว้ y(โดยเฉลี่ย) หากเรารู้คุณค่า x, เช่น. คือค่าที่ทำนายไว้ y»

เอ- สมาชิกฟรี (ข้าม) ของสายการประเมิน ค่านี้ Y, เมื่อไร x=0(รูปที่ 1).
ข- ความชันหรือความชันของเส้นโดยประมาณ เป็นจำนวนเงินโดยที่ Yเพิ่มขึ้นโดยเฉลี่ยถ้าเราเพิ่มขึ้น xสำหรับหนึ่งหน่วย
เอและ ขเรียกว่าสัมประสิทธิ์การถดถอยของเส้นประมาณการ แม้ว่าคำนี้มักใช้เฉพาะกับ ข.

สามารถขยายการถดถอยเชิงเส้นแบบคู่เพื่อรวมตัวแปรอิสระมากกว่าหนึ่งตัว ในกรณีนี้เรียกว่า การถดถอยพหุคูณ.

รูปที่ 1 เส้นถดถอยเชิงเส้นแสดงจุดตัดของ a และความชัน b (ปริมาณการเพิ่มขึ้นใน Y เมื่อ x เพิ่มขึ้นหนึ่งหน่วย)

วิธีกำลังสองน้อยที่สุด

เราทำการวิเคราะห์การถดถอยโดยใช้ตัวอย่างการสังเกตโดยที่ เอและ ข- ตัวอย่างประมาณการของพารามิเตอร์จริง (ทั่วไป) α และ β ซึ่งกำหนดเส้นของการถดถอยเชิงเส้นในประชากร (ประชากรทั่วไป)

วิธีที่ง่ายที่สุดในการหาค่าสัมประสิทธิ์ เอและ ขเป็น วิธีกำลังสองน้อยที่สุด(เอ็มเค).

ความพอดีนั้นประเมินโดยพิจารณาจากเศษที่เหลือ (ระยะแนวตั้งของแต่ละจุดจากเส้น เช่น เศษ = ที่สังเกตได้ y- คาดการณ์ y, ข้าว. 2).

เลือกเส้นที่พอดีที่สุดเพื่อให้ผลรวมของกำลังสองของเศษเหลือน้อยที่สุด

ข้าว. 2. เส้นถดถอยเชิงเส้นพร้อมแสดงเศษเหลือ (เส้นประแนวตั้ง) สำหรับแต่ละจุด

สมมติฐานการถดถอยเชิงเส้น

ดังนั้น สำหรับแต่ละค่าที่สังเกตได้ ค่าคงเหลือจะเท่ากับผลต่างและค่าที่ทำนายที่สอดคล้องกัน ค่าที่เหลือแต่ละค่าอาจเป็นค่าบวกหรือค่าลบก็ได้

คุณสามารถใช้ค่าคงเหลือเพื่อทดสอบสมมติฐานต่อไปนี้เบื้องหลังการถดถอยเชิงเส้น:

ปกติแล้วเศษที่เหลือจะถูกแจกจ่ายโดยมีค่าเฉลี่ยเป็นศูนย์

หากสมมติฐานเกี่ยวกับความเป็นเส้นตรง ความปกติ และ/หรือความแปรปรวนคงที่เป็นที่น่าสงสัย เราสามารถแปลงหรือและคำนวณเส้นการถดถอยใหม่ที่เป็นไปตามสมมติฐานเหล่านี้ (เช่น ใช้การแปลงลอการิทึม เป็นต้น)

ค่าผิดปกติ (ค่าผิดปกติ) และจุดที่มีอิทธิพล

การสังเกตที่ "มีอิทธิพล" หากละเว้น จะเปลี่ยนค่าประมาณพารามิเตอร์ของแบบจำลองตั้งแต่หนึ่งค่าขึ้นไป (เช่น ความชันหรือค่าตัดขวาง)

ค่าผิดปกติ (การสังเกตที่ขัดแย้งกับค่าส่วนใหญ่ในชุดข้อมูล) อาจเป็นการสังเกตที่ "มีอิทธิพล" และสามารถตรวจพบได้ด้วยสายตาเมื่อดูแผนภาพ 2 มิติหรือพล็อตของสารตกค้าง

ทั้งสำหรับค่าผิดปกติและสำหรับการสังเกต "ที่มีอิทธิพล" (จุด) มีการใช้แบบจำลองทั้งที่มีการรวมและไม่มีรูปแบบ ให้ความสนใจกับการเปลี่ยนแปลงในการประมาณการ (สัมประสิทธิ์การถดถอย)

เมื่อทำการวิเคราะห์ อย่าละทิ้งค่าผิดปกติหรือจุดอิทธิพลโดยอัตโนมัติ เพราะการเพิกเฉยอาจส่งผลต่อผลลัพธ์ได้ ศึกษาสาเหตุของค่าผิดปกติเหล่านี้และวิเคราะห์อยู่เสมอ

สมมติฐานการถดถอยเชิงเส้น

เมื่อสร้างการถดถอยเชิงเส้น สมมติฐานว่างจะถูกตรวจสอบว่าความชันทั่วไปของเส้นถดถอย β เท่ากับศูนย์

หากความชันของเส้นเป็นศูนย์ แสดงว่าไม่มีความสัมพันธ์เชิงเส้นตรงระหว่าง กับ: การเปลี่ยนแปลงจะไม่ส่งผลกระทบ

ในการทดสอบสมมติฐานว่างว่าความชันที่แท้จริงเป็นศูนย์ คุณสามารถใช้อัลกอริทึมต่อไปนี้:

คำนวณสถิติการทดสอบเท่ากับอัตราส่วน ซึ่งเป็นไปตามการแจกแจงด้วยองศาอิสระ โดยที่ค่าความคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์

- การประมาณค่าความแปรปรวนของค่าคงเหลือ

โดยปกติ หากถึงระดับนัยสำคัญแล้ว สมมติฐานว่างจะถูกปฏิเสธ

โดยที่จุดเปอร์เซ็นต์ของการแจกแจงแบบมีดีกรีอิสระซึ่งให้ความน่าจะเป็นของการทดสอบแบบสองด้านคือ

นี่คือช่วงเวลาที่มีความชันทั่วไปที่มีความน่าจะเป็น 95%

สำหรับตัวอย่างขนาดใหญ่ สมมติว่าเราสามารถประมาณค่าได้ 1.96 (นั่นคือ สถิติการทดสอบมักจะกระจายแบบปกติ)

การประเมินคุณภาพของการถดถอยเชิงเส้น: สัมประสิทธิ์การกำหนด R 2

เนื่องจากความสัมพันธ์เชิงเส้นและเราคาดหวังการเปลี่ยนแปลงตามการเปลี่ยนแปลง และเราเรียกสิ่งนี้ว่ารูปแบบที่เกิดจากหรืออธิบายโดยการถดถอย ความแปรผันที่เหลือควรมีขนาดเล็กที่สุด

ถ้าเป็นเช่นนั้น ความผันแปรส่วนใหญ่จะอธิบายโดยการถดถอย และจุดจะอยู่ใกล้เส้นการถดถอย กล่าวคือ เส้นตรงกับข้อมูลได้ดี

สัดส่วนของความแปรปรวนทั้งหมดที่อธิบายโดยการถดถอยเรียกว่า ค่าสัมประสิทธิ์การกำหนดมักจะแสดงเป็นเปอร์เซ็นต์และแสดงแทน R2(ในการถดถอยเชิงเส้นคู่ นี่คือค่า r2, กำลังสองของสัมประสิทธิ์สหสัมพันธ์) ช่วยให้คุณประเมินคุณภาพของสมการถดถอยตามอัตวิสัย

ความแตกต่างคือเปอร์เซ็นต์ของความแปรปรวนที่ไม่สามารถอธิบายได้ด้วยการถดถอย

เนื่องจากไม่มีการทดสอบอย่างเป็นทางการในการประเมิน เราจึงจำเป็นต้องพึ่งพาวิจารณญาณในการพิจารณาคุณภาพของเส้นการถดถอย

การใช้เส้นถดถอยกับการคาดการณ์

คุณสามารถใช้เส้นการถดถอยเพื่อคาดการณ์ค่าจากค่าภายในช่วงที่สังเกตได้ (อย่าคาดการณ์เกินขีดจำกัดเหล่านี้)

เราทำนายค่าเฉลี่ยของสิ่งที่สังเกตได้ที่มีค่าหนึ่งโดยแทนที่ค่านั้นลงในสมการเส้นถดถอย

ดังนั้น หากคาดการณ์ว่า เราใช้ค่าที่คาดการณ์ไว้นี้และข้อผิดพลาดมาตรฐานในการประมาณช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยประชากรจริง

การทำซ้ำขั้นตอนนี้สำหรับค่าต่างๆ ช่วยให้คุณสร้างขีดจำกัดความเชื่อมั่นสำหรับบรรทัดนี้ นี่คือแถบหรือพื้นที่ที่มีเส้นจริง เช่น มีระดับความเชื่อมั่น 95%

แผนการถดถอยอย่างง่าย

การออกแบบการถดถอยอย่างง่ายประกอบด้วยตัวทำนายต่อเนื่องหนึ่งตัว หากมี 3 กรณีที่มีค่าตัวทำนาย P เช่น 7, 4 และ 9 และการออกแบบรวมเอฟเฟกต์ลำดับแรก P แล้วเมทริกซ์การออกแบบ X จะเป็น

และสมการถดถอยโดยใช้ P สำหรับ X1 ดูเหมือน

Y = b0 + b1 P

หากการออกแบบการถดถอยอย่างง่ายมีผลลำดับที่สูงกว่าใน P เช่นเอฟเฟกต์กำลังสอง ค่าในคอลัมน์ X1 ในเมทริกซ์การออกแบบจะเพิ่มขึ้นเป็นกำลังสอง:

และสมการจะอยู่ในรูป

Y = b0 + b1 P2

วิธีการเข้ารหัสที่จำกัดด้วยซิกมาและเกินพารามิเตอร์ใช้ไม่ได้กับการออกแบบการถดถอยแบบธรรมดาและการออกแบบอื่นๆ ที่มีตัวทำนายแบบต่อเนื่องเท่านั้น (เพราะไม่มีตัวทำนายตามหมวดหมู่) โดยไม่คำนึงถึงวิธีการเข้ารหัสที่เลือก ค่าของตัวแปรต่อเนื่องจะเพิ่มขึ้นตามกำลังที่เหมาะสมและใช้เป็นค่าสำหรับตัวแปร X ในกรณีนี้ จะไม่มีการแปลง นอกจากนี้ เมื่ออธิบายแผนการถดถอย คุณสามารถละเว้นการพิจารณาเมทริกซ์แผน X และทำงานกับสมการถดถอยเท่านั้น

ตัวอย่าง: การวิเคราะห์การถดถอยอย่างง่าย

ตัวอย่างนี้ใช้ข้อมูลที่ให้ไว้ในตาราง:

ข้าว. 3. ตารางข้อมูลเบื้องต้น

ข้อมูลนี้อิงจากการเปรียบเทียบสำมะโนปี 1960 และ 1970 ใน 30 มณฑลที่สุ่มเลือก ชื่อมณฑลจะแสดงเป็นชื่อสังเกต ข้อมูลเกี่ยวกับตัวแปรแต่ละตัวแสดงไว้ด้านล่าง:

ข้าว. 4. ตารางข้อกำหนดตัวแปร

วัตถุประสงค์การวิจัย

สำหรับตัวอย่างนี้ จะมีการวิเคราะห์ความสัมพันธ์ระหว่างอัตราความยากจนกับอำนาจที่คาดการณ์เปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจน ดังนั้น เราจะถือว่าตัวแปร 3 (Pt_Poor ) เป็นตัวแปรตาม

เราสามารถเสนอสมมติฐานได้: การเปลี่ยนแปลงของประชากรและเปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจนนั้นสัมพันธ์กัน ดูเหมือนว่ามีเหตุผลที่จะคาดหวังว่าความยากจนจะนำไปสู่การไหลออกของประชากร ดังนั้นจะมีความสัมพันธ์เชิงลบระหว่างเปอร์เซ็นต์ของคนที่อยู่ใต้เส้นความยากจนกับการเปลี่ยนแปลงของประชากร ดังนั้น เราจะถือว่าตัวแปร 1 (Pop_Cng ) เป็นตัวแปรทำนาย

ดูผลลัพธ์

สัมประสิทธิ์การถดถอย

ข้าว. 5. สัมประสิทธิ์การถดถอย Pt_Poor บน Pop_Cng

ที่จุดตัดของแถว Pop_Chng และ Param สัมประสิทธิ์ที่ไม่ได้มาตรฐานสำหรับการถดถอยของ Pt_Poor บน Pop_Chng คือ -0.40374 ซึ่งหมายความว่าสำหรับทุกหน่วยประชากรที่ลดลง จะมีอัตราความยากจนเพิ่มขึ้นที่ 0.40374 ขีดจำกัดความเชื่อมั่น 95% บนและล่าง (ค่าเริ่มต้น) สำหรับสัมประสิทธิ์ที่ไม่ได้มาตรฐานนี้ไม่รวมศูนย์ ดังนั้นสัมประสิทธิ์การถดถอยจึงมีนัยสำคัญที่ระดับ p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

การกระจายตัวของตัวแปร

ค่าสัมประสิทธิ์สหสัมพันธ์อาจถูกประเมินสูงเกินไปหรือถูกประเมินต่ำเกินไปหากมีค่าผิดปกติจำนวนมากในข้อมูล ให้เราตรวจสอบการกระจายของตัวแปรตาม Pt_Poor ตามเขต ในการทำเช่นนี้ เราจะสร้างฮิสโตแกรมของตัวแปร Pt_Poor

ข้าว. 6. ฮิสโตแกรมของตัวแปร Pt_Poor

อย่างที่คุณเห็น การกระจายของตัวแปรนี้แตกต่างอย่างเห็นได้ชัดจากการแจกแจงแบบปกติ อย่างไรก็ตาม แม้ว่าสองมณฑล (สองคอลัมน์ทางขวา) จะมีเปอร์เซ็นต์ของครอบครัวที่ต่ำกว่าเส้นความยากจนมากกว่าที่คาดไว้ในการแจกแจงแบบปกติ แต่ดูเหมือนว่าพวกเขาจะ "อยู่ภายในขอบเขต"

ข้าว. 7. ฮิสโตแกรมของตัวแปร Pt_Poor

การตัดสินนี้ค่อนข้างเป็นเรื่องส่วนตัว กฎทั่วไปคือควรพิจารณาค่าผิดปกติหากการสังเกต (หรือการสังเกต) ไม่อยู่ภายในช่วงเวลา (ค่าเฉลี่ย ± 3 เท่าของค่าเบี่ยงเบนมาตรฐาน) ในกรณีนี้ ควรทำการวิเคราะห์ซ้ำโดยมีทั้งแบบมีและไม่มีค่าผิดปกติ เพื่อให้แน่ใจว่าไม่มีผลกระทบร้ายแรงต่อความสัมพันธ์ระหว่างสมาชิกของประชากร

พล็อตกระจาย

หากสมมติฐานข้อใดข้อหนึ่งเป็นประเด็นสำคัญเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรที่กำหนด จะเป็นประโยชน์ที่จะตรวจสอบมันบนพล็อตของ scatterplot ที่เกี่ยวข้อง

ข้าว. 8. แผนการกระจาย

scatterplot แสดงความสัมพันธ์เชิงลบที่ชัดเจน (-.65) ระหว่างสองตัวแปร นอกจากนี้ยังแสดงช่วงความเชื่อมั่น 95% สำหรับเส้นการถดถอย กล่าวคือ โดยมีความน่าจะเป็น 95% ที่เส้นการถดถอยจะผ่านระหว่างเส้นโค้งเส้นประสองเส้น

เกณฑ์ความสำคัญ

ข้าว. 9. ตารางที่มีเกณฑ์ความสำคัญ

การทดสอบสัมประสิทธิ์การถดถอย Pop_Chng ยืนยันว่า Pop_Cng เกี่ยวข้องอย่างยิ่งกับ Pt_Poor , p<.001 .

ผล

ตัวอย่างนี้แสดงวิธีวิเคราะห์แผนการถดถอยอย่างง่าย ยังได้นำเสนอการตีความสัมประสิทธิ์การถดถอยที่ไม่ได้มาตรฐานและเป็นมาตรฐานอีกด้วย มีการกล่าวถึงความสำคัญของการศึกษาการกระจายการตอบสนองของตัวแปรตาม และเทคนิคในการกำหนดทิศทางและความแรงของความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตามจะแสดง

การวิเคราะห์การถดถอยและสหสัมพันธ์ - วิธีการวิจัยทางสถิติ นี่เป็นวิธีทั่วไปในการแสดงการพึ่งพาพารามิเตอร์กับตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไป

ด้านล่างนี้ โดยใช้ตัวอย่างเชิงปฏิบัติที่เป็นรูปธรรม เราจะพิจารณาการวิเคราะห์ยอดนิยมสองข้อนี้ในหมู่นักเศรษฐศาสตร์ เราจะยกตัวอย่างของการได้ผลลัพธ์เมื่อนำมารวมกัน

การวิเคราะห์การถดถอยใน Excel

แสดงอิทธิพลของค่าบางค่า (อิสระ อิสระ) ต่อตัวแปรตาม ตัวอย่างเช่น จำนวนประชากรที่ใช้งานทางเศรษฐกิจขึ้นอยู่กับจำนวนวิสาหกิจ ค่าจ้าง และพารามิเตอร์อื่นๆ อย่างไร หรือ: การลงทุนจากต่างประเทศ ราคาพลังงาน ฯลฯ ส่งผลต่อระดับ GDP อย่างไร

ผลลัพธ์ของการวิเคราะห์ช่วยให้คุณจัดลำดับความสำคัญได้ และขึ้นอยู่กับปัจจัยหลัก ในการทำนาย วางแผนการพัฒนาพื้นที่ที่มีความสำคัญ ตัดสินใจด้านการจัดการ

การถดถอยเกิดขึ้น:

เชิงเส้น (y = a + bx);
พาราโบลา (y = a + bx + cx 2);
เลขชี้กำลัง (y = a * exp (bx));
กำลัง (y = a*x^b);
ไฮเปอร์โบลิก (y = b/x + a);
ลอการิทึม (y = b * 1n(x) + a);
เลขชี้กำลัง (y = a * b^x)

พิจารณาตัวอย่างการสร้างแบบจำลองการถดถอยใน Excel และตีความผลลัพธ์ ลองหาประเภทการถดถอยเชิงเส้น

งาน. ที่ 6 องค์กร วิเคราะห์เงินเดือนเฉลี่ยและจำนวนพนักงานที่ลาออก จำเป็นต้องกำหนดจำนวนพนักงานที่เกษียณอายุตามเงินเดือนเฉลี่ย

ตัวแบบการถดถอยเชิงเส้นมีรูปแบบดังนี้:

Y \u003d a 0 + a 1 x 1 + ... + a k x k

โดยที่ a คือสัมประสิทธิ์การถดถอย x คือตัวแปรที่มีอิทธิพล และ k คือจำนวนปัจจัย

ในตัวอย่างของเรา Y คือตัวบ่งชี้ของการเลิกจ้างพนักงาน ปัจจัยที่มีอิทธิพลคือค่าจ้าง (x)

Excel มีฟังก์ชันในตัวที่สามารถใช้ในการคำนวณพารามิเตอร์ของตัวแบบการถดถอยเชิงเส้น แต่ Add-in ของ Analysis ToolPak จะทำได้เร็วขึ้น

เปิดใช้งานเครื่องมือวิเคราะห์ที่ทรงพลัง:

เมื่อเปิดใช้งานแล้ว ส่วนเสริมจะอยู่ภายใต้แท็บข้อมูล

ตอนนี้เราจะจัดการกับการวิเคราะห์การถดถอยโดยตรง

ก่อนอื่นเราให้ความสนใจกับ R-square และสัมประสิทธิ์

R-square คือสัมประสิทธิ์การกำหนด ในตัวอย่างของเราคือ 0.755 หรือ 75.5% ซึ่งหมายความว่าพารามิเตอร์ที่คำนวณได้ของแบบจำลองจะอธิบายความสัมพันธ์ระหว่างพารามิเตอร์ที่ศึกษา 75.5% ยิ่งค่าสัมประสิทธิ์การกำหนดยิ่งสูง แบบจำลองยิ่งดี ดี - สูงกว่า 0.8 แย่ - น้อยกว่า 0.5 (การวิเคราะห์ดังกล่าวแทบจะไม่ถือว่าสมเหตุสมผล) ในตัวอย่างของเรา - "ไม่เลว"

สัมประสิทธิ์ 64.1428 แสดงว่า Y จะเป็นอย่างไรหากตัวแปรทั้งหมดในแบบจำลองที่พิจารณามีค่าเท่ากับ 0 นั่นคือ ปัจจัยอื่นๆ ที่ไม่ได้อธิบายไว้ในแบบจำลองก็ส่งผลต่อค่าของพารามิเตอร์ที่วิเคราะห์ด้วยเช่นกัน

ค่าสัมประสิทธิ์ -0.16285 แสดงน้ำหนักของตัวแปร X บน Y นั่นคือเงินเดือนเฉลี่ยภายในแบบจำลองนี้ส่งผลต่อจำนวนผู้เลิกบุหรี่ที่มีน้ำหนัก -0.16285 (นี่เป็นอิทธิพลเพียงเล็กน้อย) เครื่องหมาย “-” หมายถึงผลกระทบด้านลบ ยิ่งเงินเดือนสูง ลาออกน้อยลง ซึ่งเป็นธรรม

การวิเคราะห์สหสัมพันธ์ใน Excel

การวิเคราะห์สหสัมพันธ์ช่วยในการระบุว่ามีความสัมพันธ์ระหว่างตัวบ่งชี้ในตัวอย่างหนึ่งหรือสองตัวอย่าง ตัวอย่างเช่น ระหว่างเวลาการทำงานของเครื่องกับค่าซ่อม ราคาอุปกรณ์และระยะเวลาการทำงาน ความสูงและน้ำหนักของเด็ก เป็นต้น

หากมีความสัมพันธ์ การเพิ่มขึ้นในพารามิเตอร์หนึ่งจะนำไปสู่การเพิ่มขึ้น (ความสัมพันธ์เชิงบวก) หรือการลดลง (เชิงลบ) ในอีกพารามิเตอร์หนึ่ง การวิเคราะห์สหสัมพันธ์ช่วยนักวิเคราะห์ในการพิจารณาว่าค่าของตัวบ่งชี้หนึ่งสามารถทำนายค่าที่เป็นไปได้ของอีกค่าหนึ่งได้หรือไม่

สัมประสิทธิ์สหสัมพันธ์แสดงเป็น r เปลี่ยนแปลงจาก +1 ถึง -1 การจำแนกความสัมพันธ์ในด้านต่าง ๆ จะแตกต่างกัน เมื่อค่าสัมประสิทธิ์เป็น 0 จะไม่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวอย่าง

พิจารณาวิธีใช้ Excel เพื่อค้นหาสัมประสิทธิ์สหสัมพันธ์

ฟังก์ชัน CORREL ใช้เพื่อค้นหาสัมประสิทธิ์ที่จับคู่

ภารกิจ: ตรวจสอบว่ามีความสัมพันธ์ระหว่างเวลาทำงานของเครื่องกลึงกับค่าบำรุงรักษาหรือไม่

วางเคอร์เซอร์ในเซลล์ใดก็ได้แล้วกดปุ่ม fx

ในหมวด "สถิติ" เลือกฟังก์ชัน CORREL
อาร์กิวเมนต์ "Array 1" - ช่วงแรกของค่า - เวลาของเครื่อง: A2: A14
อาร์กิวเมนต์ "Array 2" - ช่วงที่สองของค่า - ค่าซ่อม: B2:B14 คลิกตกลง

ในการกำหนดประเภทของการเชื่อมต่อ คุณต้องดูจำนวนสัมประสิทธิ์สัมบูรณ์ (แต่ละสาขาของกิจกรรมมีมาตราส่วนของตัวเอง)

สำหรับการวิเคราะห์สหสัมพันธ์ของพารามิเตอร์หลายตัว (มากกว่า 2) จะสะดวกกว่าในการใช้ "การวิเคราะห์ข้อมูล" (โปรแกรมเสริม "แพ็คเกจการวิเคราะห์") ในรายการ คุณต้องเลือกความสัมพันธ์และกำหนดอาร์เรย์ ทั้งหมด.

ค่าสัมประสิทธิ์ที่ได้จะแสดงในเมทริกซ์สหสัมพันธ์ ชอบอันนี้:

การวิเคราะห์สหสัมพันธ์-ถดถอย

ในทางปฏิบัติ ทั้งสองเทคนิคนี้มักใช้ร่วมกัน

ตัวอย่าง:

ตอนนี้ข้อมูลการวิเคราะห์การถดถอยสามารถมองเห็นได้

1. เป็นครั้งแรกที่คำว่า "การถดถอย" ได้รับการแนะนำโดยผู้ก่อตั้งไบโอเมตริกซ์ F. Galton (ศตวรรษที่ XIX) ซึ่งความคิดได้รับการพัฒนาโดยผู้ติดตาม K. Pearson

การวิเคราะห์การถดถอย- วิธีการประมวลผลข้อมูลทางสถิติที่ช่วยให้คุณวัดความสัมพันธ์ระหว่างสาเหตุอย่างน้อยหนึ่งอย่าง (เครื่องหมายแฟกทอเรียล) และผลที่ตามมา (สัญญาณที่มีประสิทธิภาพ)

เข้าสู่ระบบ- นี่คือลักษณะเด่นหลัก คุณลักษณะของปรากฏการณ์ หรือกระบวนการที่กำลังศึกษา

สัญญาณที่มีประสิทธิภาพ -ตัวบ่งชี้ที่ตรวจสอบ

เครื่องหมายปัจจัย- ตัวบ่งชี้ที่มีผลต่อค่าของคุณสมบัติที่มีประสิทธิภาพ

จุดประสงค์ของการวิเคราะห์การถดถอยคือเพื่อประเมินการพึ่งพาฟังก์ชันของค่าเฉลี่ยของคุณลักษณะที่มีประสิทธิภาพ ( ที่) จากแฟคทอเรียล ( x 1, x 2, ..., x น) แสดงเป็น สมการถดถอย

ที่= ฉ(x 1, x 2, ..., x น). (6.1)

การถดถอยมีสองประเภท: จับคู่และหลายตัว

การถดถอยแบบคู่ (อย่างง่าย)- สมการของรูปแบบ:

ที่= ฉ(x). (6.2)

คุณลักษณะผลลัพธ์ในการถดถอยแบบคู่ถือเป็นฟังก์ชันของอาร์กิวเมนต์เดียว นั่นคือ ปัจจัยหนึ่ง

การวิเคราะห์การถดถอยประกอบด้วยขั้นตอนต่อไปนี้:

คำจำกัดความของประเภทฟังก์ชัน

การหาค่าสัมประสิทธิ์การถดถอย

การคำนวณค่าทางทฤษฎีของคุณสมบัติที่มีประสิทธิภาพ

การตรวจสอบนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอย

การตรวจสอบนัยสำคัญทางสถิติของสมการถดถอย

การถดถอยพหุคูณ- สมการของรูปแบบ:

ที่= ฉ(x 1, x 2, ..., x น). (6.3)

คุณลักษณะผลลัพธ์ถือเป็นฟังก์ชันของอาร์กิวเมนต์หลายตัว เช่น หลายปัจจัย

2. เพื่อให้กำหนดประเภทของฟังก์ชันได้อย่างถูกต้อง จำเป็นต้องค้นหาทิศทางของการเชื่อมต่อตามข้อมูลทางทฤษฎี

ตามทิศทางของการเชื่อมต่อ การถดถอยแบ่งออกเป็น:

· การถดถอยโดยตรงเกิดขึ้นภายใต้เงื่อนไขว่าด้วยค่าอิสระเพิ่มขึ้นหรือลดลง " เอ็กซ์"ค่าของปริมาณขึ้นอยู่กับ " ที่"เพิ่มขึ้นหรือลดลงตามนั้น

· การถดถอยย้อนกลับเกิดขึ้นโดยมีเงื่อนไขว่ามูลค่าอิสระเพิ่มขึ้นหรือลดลง "เอ็กซ์"ค่าขึ้นอยู่กับ " ที่"ลดลงหรือเพิ่มขึ้นตามไปด้วย

ในการอธิบายลักษณะความสัมพันธ์ จะใช้สมการถดถอยคู่ประเภทต่อไปนี้:

· y=a+bx– เส้นตรง;

· y=e ขวาน + b – เลขชี้กำลัง;

· y=a+b/x – ไฮเปอร์โบลิก;

· y=a+b 1 x+b 2 x 2 – พาราโบลา;

· y=ab x – เลขชี้กำลังและอื่น ๆ.

ที่ไหน ก ข 1 ข 2- ค่าสัมประสิทธิ์ (พารามิเตอร์) ของสมการ ที่- สัญญาณที่มีประสิทธิภาพ X- เครื่องหมายปัจจัย

3. การสร้างสมการถดถอยจะลดลงเพื่อประมาณค่าสัมประสิทธิ์ (พารามิเตอร์) สำหรับสิ่งนี้พวกเขาใช้ วิธีกำลังสองน้อยที่สุด(เอ็มเค).

วิธีกำลังสองน้อยที่สุดช่วยให้คุณได้รับค่าประมาณของพารามิเตอร์ดังกล่าวซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าจริงของคุณสมบัติที่มีประสิทธิภาพ " ที่»จากทฤษฎี « y x» น้อยที่สุด นั่นคือ

ตัวเลือกสมการถดถอย y=a+bxโดยวิธีกำลังสองน้อยที่สุดประมาณโดยใช้สูตร:

ที่ไหน ก -ค่าสัมประสิทธิ์ฟรี ข- สัมประสิทธิ์การถดถอย แสดงว่าเครื่องหมายผลลัพธ์จะเปลี่ยนไปมากน้อยเพียงใด y» เมื่อเปลี่ยนแอตทริบิวต์ปัจจัย « x» ต่อหน่วยวัด

4. ในการประเมินนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอย ใช้การทดสอบ t ของนักเรียน

โครงการตรวจสอบความสำคัญของสัมประสิทธิ์การถดถอย:

1) H 0: a=0, ข=0 - สัมประสิทธิ์การถดถอยแตกต่างจากศูนย์เล็กน้อย

H 1: a≠ 0, ข 0 - สัมประสิทธิ์การถดถอยแตกต่างจากศูนย์อย่างมีนัยสำคัญ

2) R=0.05 – ระดับนัยสำคัญ

ที่ไหน ม.ข,ม- ข้อผิดพลาดแบบสุ่ม:

; . (6.7)

4) t โต๊ะ(อาร์; ฉ),

ที่ไหน ฉ=น-เค- 1 - จำนวนองศาอิสระ (ค่าตาราง) น- จำนวนการสังเกต k เอ็กซ์".

5) ถ้า แล้วเบี่ยงเบนเช่น ค่าสัมประสิทธิ์ที่สำคัญ

หาก เป็นที่ยอมรับ เช่น ค่าสัมประสิทธิ์ไม่มีนัยสำคัญ

5. เพื่อตรวจสอบความถูกต้องของสมการถดถอยที่สร้างขึ้น ใช้เกณฑ์ของฟิชเชอร์

แบบแผนสำหรับการตรวจสอบความสำคัญของสมการถดถอย:

1) ชั่วโมง 0:สมการถดถอยไม่มีนัยสำคัญ

เอช 1:สมการถดถอยมีนัยสำคัญ

2) R=0.05 – ระดับนัยสำคัญ

3) , (6.8)

จำนวนการสังเกตอยู่ที่ไหน k- จำนวนพารามิเตอร์ในสมการพร้อมตัวแปร " เอ็กซ์"; ที่- มูลค่าที่แท้จริงของคุณลักษณะที่มีประสิทธิภาพ y x- ค่าทางทฤษฎีของคุณสมบัติที่มีประสิทธิภาพ - สัมประสิทธิ์สหสัมพันธ์คู่

4) ตารางเอฟ(อาร์; ฉ 1 ; f2),

ที่ไหน f 1 \u003d k, f 2 \u003d n-k-1-จำนวนองศาอิสระ (ค่าตาราง)

5) ถ้า F คำนวณ >F ตารางจากนั้นจึงเลือกสมการถดถอยอย่างถูกต้องและสามารถนำไปใช้ในทางปฏิบัติได้

ถ้า F แคล แล้วเลือกสมการถดถอยอย่างไม่ถูกต้อง

6. ตัวบ่งชี้หลักที่สะท้อนการวัดคุณภาพของการวิเคราะห์การถดถอยคือ สัมประสิทธิ์การกำหนด (R 2)

สัมประสิทธิ์ความมุ่งมั่นแสดงสัดส่วนของตัวแปรตาม " ที่» ถูกนำมาพิจารณาในการวิเคราะห์และเกิดจากอิทธิพลของปัจจัยที่รวมอยู่ในการวิเคราะห์

สัมประสิทธิ์ความมุ่งมั่น (R2)รับค่าในช่วง สมการถดถอยเป็นเชิงคุณภาพ if R2 ≥0,8.

สัมประสิทธิ์การกำหนดเท่ากับกำลังสองของสัมประสิทธิ์สหสัมพันธ์เช่น

ตัวอย่างที่ 6.1จากข้อมูลต่อไปนี้ ให้สร้างและวิเคราะห์สมการถดถอย:

วิธีการแก้.

1) คำนวณสัมประสิทธิ์สหสัมพันธ์: . ความสัมพันธ์ระหว่างสัญญาณโดยตรงและปานกลาง

2) สร้างสมการถดถอยเชิงเส้นคู่

2.1) จัดทำตารางการคำนวณ

№ X ที่ Hu x2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
ซำ 159,45 558,55
เฉลี่ย 77519,6 22,78 79,79 2990,6

,

สมการถดถอยเชิงเส้นคู่: y x \u003d 25.17 + 0.087x

3) ค้นหาค่าทางทฤษฎี " y x» โดยการแทนค่าจริงลงในสมการถดถอย « X».

4) พล็อตกราฟของจริง " ที่"และค่านิยมทางทฤษฎี" y x» คุณลักษณะที่มีประสิทธิภาพ (รูปที่ 6.1): r xy = 0.47) และการสังเกตจำนวนเล็กน้อย

7) คำนวณค่าสัมประสิทธิ์การกำหนด: R2=(0.47) 2 =0.22. สมการที่สร้างขึ้นมีคุณภาพต่ำ

เพราะ การคำนวณระหว่างการวิเคราะห์การถดถอยนั้นค่อนข้างมาก ขอแนะนำให้ใช้โปรแกรมพิเศษ ("Statistica 10", SPSS เป็นต้น)

รูปที่ 6.2 แสดงตารางผลการวิเคราะห์การถดถอยโดยใช้โปรแกรม "Statistica 10"

รูปที่ 6.2 ผลการวิเคราะห์การถดถอยโดยใช้โปรแกรม "Statistica 10"

5. วรรณคดี:

1. Gmurman V.E. ทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์: Proc. คู่มือสำหรับมหาวิทยาลัย / V.E. กัมเมอร์แมน. - ม.: ม.ต้น ปี 2546 - 479 น.

2. Koichubekov B.K. ชีวสถิติ: ตำราเรียน. - อัลมาตี: Evero, 2014. - 154 p.

3. Lobotskaya N.L. คณิตศาสตร์ที่สูงขึ้น / น.ล. Lobotskaya, Yu.V. โมโรซอฟ, เอ.เอ. ดูนาเยฟ. - มินสค์: โรงเรียนมัธยม, 2530 - 319 น.

4. Medic V.A. , Tokmachev M.S. , Fishman B.B. สถิติในการแพทย์และชีววิทยา: คู่มือ. ใน 2 เล่ม / เอ็ด ยูเอ็ม โคมารอฟ. ต. 1. สถิติเชิงทฤษฎี. - ม.: แพทยศาสตร์, 2543. - 412 น.

5. การประยุกต์วิธีการวิเคราะห์ทางสถิติเพื่อการศึกษาด้านสาธารณสุขและการดูแลสุขภาพ : หนังสือเรียน / กศน. Kucherenko V.Z. - ฉบับที่ 4, แก้ไข. และเพิ่มเติม - ม.: GEOtar - สื่อ, 2554. - 256 น.

№	X	ที่	Hu	x2	y x		(y-y x) 2
					55,89	47,54	65,70
					45,07	15,42	222,83
					54,85	34,19	8,11
					51,36	5,55	11,27
					42,28	45,16	13,84
					47,69	1,71	44,77
					45,86	9,87	192,05
ซำ						159,45	558,55
เฉลี่ย				77519,6		22,78	79,79	2990,6