การวิเคราะห์การถดถอย การวิเคราะห์การถดถอย
การวิเคราะห์การถดถอยจะตรวจสอบการพึ่งพาปริมาณหนึ่งกับปริมาณอื่นหรือปริมาณอื่นๆ อีกหลายปริมาณ การวิเคราะห์การถดถอยส่วนใหญ่จะใช้ในการพยากรณ์ระยะกลาง เช่นเดียวกับในการพยากรณ์ระยะยาว ช่วงระยะกลางและระยะยาวทำให้สามารถสร้างการเปลี่ยนแปลงในสภาพแวดล้อมทางธุรกิจและคำนึงถึงผลกระทบของการเปลี่ยนแปลงเหล่านี้ต่อตัวบ่งชี้ที่อยู่ระหว่างการศึกษา
ในการดำเนินการวิเคราะห์การถดถอย มีความจำเป็น:
ความพร้อมใช้งานของข้อมูลประจำปีเกี่ยวกับตัวบ่งชี้ที่ศึกษา
ความพร้อมใช้งานของการคาดการณ์แบบครั้งเดียว เช่น การคาดการณ์ที่ไม่ปรับปรุงด้วยข้อมูลใหม่
การวิเคราะห์การถดถอยมักดำเนินการสำหรับออบเจ็กต์ที่มีลักษณะหลายปัจจัยที่ซับซ้อน เช่น ปริมาณการลงทุน กำไร ปริมาณการขาย ฯลฯ
ที่ วิธีการพยากรณ์เชิงบรรทัดฐานกำหนดวิธีการและเงื่อนไขในการบรรลุสภาวะที่เป็นไปได้ของปรากฏการณ์ซึ่งถือเป็นเป้าหมาย เรากำลังพูดถึงการทำนายความสำเร็จของสภาวะที่ต้องการของปรากฏการณ์บนพื้นฐานของบรรทัดฐาน อุดมคติ แรงจูงใจ และเป้าหมายที่กำหนดไว้ล่วงหน้า การคาดการณ์ดังกล่าวจะตอบคำถาม: บรรลุสิ่งที่ต้องการด้วยวิธีใด? วิธีการเชิงบรรทัดฐานมักใช้สำหรับการคาดการณ์แบบเป็นโปรแกรมหรือแบบกำหนดเป้าหมาย ใช้ทั้งนิพจน์เชิงปริมาณของมาตรฐานและระดับความเป็นไปได้บางอย่างของฟังก์ชันการประเมิน
ในกรณีของการใช้นิพจน์เชิงปริมาณ ตัวอย่างเช่น บรรทัดฐานทางสรีรวิทยาและเหตุผลสำหรับการบริโภคอาหารและผลิตภัณฑ์ที่ไม่ใช่อาหารบางประเภทที่พัฒนาโดยผู้เชี่ยวชาญสำหรับกลุ่มประชากรต่างๆ เป็นไปได้ที่จะกำหนดระดับการบริโภคของสินค้าเหล่านี้สำหรับ ปีก่อนบรรลุผลสำเร็จตามเกณฑ์ที่กำหนด การคำนวณดังกล่าวเรียกว่าการแก้ไข การประมาณค่าเป็นวิธีการคำนวณตัวบ่งชี้ที่ขาดหายไปในอนุกรมเวลาของปรากฏการณ์ โดยอิงจากความสัมพันธ์ที่จัดตั้งขึ้น เมื่อใช้ค่าจริงของตัวบ่งชี้และค่าของมาตรฐานในฐานะสมาชิกสุดขีดของซีรีย์ไดนามิก เป็นไปได้ที่จะกำหนดขนาดของค่าภายในซีรีย์นี้ ดังนั้นการแก้ไขจึงถือเป็นวิธีการเชิงบรรทัดฐาน สูตรที่ให้ไว้ก่อนหน้านี้ (4) ซึ่งใช้ในการคาดคะเน สามารถใช้ในการประมาณค่า โดยที่ y n จะไม่กำหนดลักษณะข้อมูลจริงอีกต่อไป แต่เป็นมาตรฐานของตัวบ่งชี้
ในกรณีของการใช้มาตราส่วน (ภาคสนาม สเปกตรัม) ของความเป็นไปได้ของฟังก์ชันการประเมิน กล่าวคือ ฟังก์ชันการกระจายความพึงใจ ในวิธีเชิงบรรทัดฐาน จะระบุการไล่ระดับโดยประมาณต่อไปนี้: ไม่ต้องการ - พึงปรารถนาน้อยกว่า - พึงปรารถนามากกว่า - พึงปรารถนามากที่สุด - เหมาะสมที่สุด (มาตรฐาน)
วิธีการพยากรณ์เชิงบรรทัดฐานช่วยในการพัฒนาคำแนะนำสำหรับการเพิ่มระดับของความเป็นกลาง และด้วยเหตุนี้ประสิทธิภาพของการตัดสินใจ
การสร้างแบบจำลองอาจเป็นวิธีการพยากรณ์ที่ยากที่สุด แบบจำลองทางคณิตศาสตร์หมายถึงคำอธิบายของปรากฏการณ์ทางเศรษฐศาสตร์ผ่านสูตรทางคณิตศาสตร์ สมการ และอสมการ เครื่องมือทางคณิตศาสตร์ควรสะท้อนพื้นหลังการคาดการณ์ได้อย่างแม่นยำ แม้ว่าจะค่อนข้างยากที่จะสะท้อนความลึกและความซับซ้อนทั้งหมดของวัตถุที่คาดการณ์ได้อย่างเต็มที่ คำว่า "โมเดล" มาจากคำภาษาละติน modelus ซึ่งแปลว่า "วัด" ดังนั้นจึงเป็นการถูกต้องกว่าที่จะพิจารณาการสร้างแบบจำลองไม่ใช่วิธีการพยากรณ์ แต่เป็นวิธีการศึกษาปรากฏการณ์ที่คล้ายกันในแบบจำลอง
ในความหมายกว้าง ๆ แบบจำลองเรียกว่าสิ่งทดแทนวัตถุของการศึกษาซึ่งมีความคล้ายคลึงกันกับแบบจำลองที่ช่วยให้คุณได้รับความรู้ใหม่เกี่ยวกับวัตถุ แบบจำลองนี้ควรถือเป็นคำอธิบายทางคณิตศาสตร์ของวัตถุ ในกรณีนี้ แบบจำลองถูกกำหนดให้เป็นปรากฏการณ์ (ตัวแบบ การติดตั้ง) ที่สัมพันธ์กับวัตถุที่กำลังศึกษาและสามารถแทนที่ได้ในกระบวนการวิจัย โดยนำเสนอข้อมูลเกี่ยวกับวัตถุนั้น
ด้วยความเข้าใจที่แคบลงของแบบจำลอง จึงถือเป็นเป้าหมายของการพยากรณ์ การศึกษาช่วยให้ได้รับข้อมูลเกี่ยวกับสถานะที่เป็นไปได้ของวัตถุในอนาคตและวิธีที่จะบรรลุสถานะเหล่านี้ ในกรณีนี้ จุดประสงค์ของแบบจำลองการทำนายคือเพื่อให้ได้ข้อมูลที่ไม่เกี่ยวกับวัตถุโดยทั่วไป แต่เกี่ยวกับสถานะในอนาคตเท่านั้น จากนั้น เมื่อสร้างแบบจำลอง อาจเป็นไปไม่ได้ที่จะตรวจสอบความสอดคล้องของวัตถุกับวัตถุโดยตรง เนื่องจากแบบจำลองนั้นแสดงถึงสถานะในอนาคตเท่านั้น และวัตถุนั้นอาจไม่มีอยู่ในปัจจุบันหรือมีตัวตนที่ต่างออกไป
โมเดลสามารถเป็นวัสดุและในอุดมคติได้
โมเดลในอุดมคติถูกใช้ในทางเศรษฐศาสตร์ แบบจำลองในอุดมคติที่สมบูรณ์แบบที่สุดสำหรับคำอธิบายเชิงปริมาณของปรากฏการณ์ทางเศรษฐกิจและสังคม (เศรษฐกิจ) คือแบบจำลองทางคณิตศาสตร์ที่ใช้ตัวเลข สูตร สมการ อัลกอริธึม หรือการแสดงกราฟิก ด้วยความช่วยเหลือของแบบจำลองทางเศรษฐกิจกำหนด:
ความสัมพันธ์ระหว่างตัวชี้วัดทางเศรษฐกิจต่างๆ
ข้อจำกัดประเภทต่างๆ ที่กำหนดไว้สำหรับตัวชี้วัด
เกณฑ์เพื่อเพิ่มประสิทธิภาพกระบวนการ
คำอธิบายที่มีความหมายของวัตถุสามารถแสดงในรูปแบบของโครงร่างที่เป็นทางการ ซึ่งบ่งชี้ว่าพารามิเตอร์และข้อมูลเบื้องต้นใดที่ต้องถูกรวบรวมเพื่อคำนวณค่าที่ต้องการ แบบจำลองทางคณิตศาสตร์ซึ่งแตกต่างจากโครงร่างที่เป็นทางการคือมีข้อมูลตัวเลขเฉพาะที่ระบุลักษณะของวัตถุ การพัฒนาแบบจำลองทางคณิตศาสตร์ส่วนใหญ่ขึ้นอยู่กับแนวคิดของผู้พยากรณ์เกี่ยวกับสาระสำคัญของกระบวนการที่กำลังสร้างแบบจำลอง ตามความคิดของเขา เขาได้เสนอสมมติฐานที่ใช้งานได้ โดยใช้บันทึกการวิเคราะห์ของแบบจำลองในรูปแบบของสูตร สมการ และอสมการ จากการแก้ระบบสมการ จะได้พารามิเตอร์เฉพาะของฟังก์ชัน ซึ่งจะอธิบายการเปลี่ยนแปลงของตัวแปรที่ต้องการเมื่อเวลาผ่านไป
ลำดับและลำดับของงานเป็นองค์ประกอบขององค์กรของการพยากรณ์ถูกกำหนดโดยขึ้นอยู่กับวิธีการพยากรณ์ที่ใช้ โดยปกติงานนี้จะดำเนินการในหลายขั้นตอน
ขั้นที่ 1 - การย้อนหลังเชิงพยากรณ์ กล่าวคือ การจัดตั้งวัตถุประสงค์ของการพยากรณ์และภูมิหลังการคาดการณ์ งานในระยะแรกดำเนินการตามลำดับต่อไปนี้:
การก่อตัวของคำอธิบายของวัตถุในอดีตซึ่งรวมถึงการวิเคราะห์ล่วงหน้าของวัตถุการประเมินพารามิเตอร์ความสำคัญและความสัมพันธ์ซึ่งกันและกัน
การระบุและประเมินแหล่งที่มาของข้อมูล ขั้นตอนและองค์กรในการทำงานกับแหล่งข้อมูล การรวบรวมและการจัดวางข้อมูลย้อนหลัง
การกำหนดวัตถุประสงค์การวิจัย
นักพยากรณ์จะศึกษาประวัติความเป็นมาของการพัฒนาวัตถุและภูมิหลังการพยากรณ์เพื่อดำเนินงานของการทำนายย้อนหลัง เพื่อให้ได้คำอธิบายที่เป็นระบบ
ระยะที่ 2 - การวินิจฉัยเชิงทำนาย ในระหว่างนั้นจะมีการศึกษาคำอธิบายอย่างเป็นระบบของวัตถุของการพยากรณ์และภูมิหลังการพยากรณ์เพื่อระบุแนวโน้มในการพัฒนาและเลือกแบบจำลองและวิธีการพยากรณ์ งานจะดำเนินการในลำดับต่อไปนี้:
การพัฒนาแบบจำลองวัตถุพยากรณ์ รวมทั้งคำอธิบายอย่างเป็นทางการของวัตถุ การตรวจสอบระดับความเพียงพอของแบบจำลองต่อวัตถุ
การเลือกวิธีการพยากรณ์ (หลักและเสริม) การพัฒนาอัลกอริธึมและโปรแกรมการทำงาน
ระยะที่ 3 - การอุปถัมภ์ เช่น กระบวนการพัฒนาการคาดการณ์ที่ครอบคลุม ซึ่งรวมถึง 1) การคำนวณพารามิเตอร์ที่คาดการณ์ไว้สำหรับช่วงเวลานำที่กำหนด 2) การสังเคราะห์องค์ประกอบแต่ละส่วนของการพยากรณ์
ขั้นตอนที่ 4 - การประเมินการคาดการณ์ รวมถึงการตรวจสอบ เช่น การกำหนดระดับความน่าเชื่อถือ ความแม่นยำ และความถูกต้อง
ในระหว่างการสำรวจและประเมินผล งานการพยากรณ์และการประเมินจะได้รับการแก้ไขบนพื้นฐานของขั้นตอนก่อนหน้า
ระยะที่ระบุเป็นค่าโดยประมาณและขึ้นอยู่กับวิธีการพยากรณ์หลัก
ผลลัพธ์ของการคาดการณ์จะถูกวาดขึ้นในรูปแบบของใบรับรอง รายงาน หรือวัสดุอื่นๆ และนำเสนอต่อลูกค้า
ในการคาดการณ์ สามารถระบุความเบี่ยงเบนของการพยากรณ์จากสถานะจริงของวัตถุได้ ซึ่งเรียกว่าข้อผิดพลาดในการคาดการณ์ ซึ่งคำนวณโดยสูตร:
;
;
.
(9.3)
แหล่งที่มาของข้อผิดพลาดในการพยากรณ์
แหล่งที่มาหลักสามารถ:
1. การถ่ายโอนข้อมูลอย่างง่าย (คาดการณ์) จากอดีตสู่อนาคต (เช่น บริษัทไม่มีตัวเลือกการคาดการณ์อื่น ๆ ยกเว้นการเพิ่มยอดขาย 10%)
2. ไม่สามารถกำหนดความน่าจะเป็นของเหตุการณ์และผลกระทบต่อวัตถุที่กำลังศึกษาได้อย่างถูกต้อง
3. ปัญหาที่ไม่คาดฝัน (เหตุการณ์ก่อกวน) ที่ส่งผลต่อการดำเนินการตามแผน เช่น การเลิกจ้างหัวหน้าแผนกขายกะทันหัน
โดยทั่วไป ความแม่นยำของการพยากรณ์จะเพิ่มขึ้นตามการสะสมประสบการณ์ในการพยากรณ์และการพัฒนาวิธีการ
การวิเคราะห์การถดถอย
การถดถอย (เชิงเส้น) การวิเคราะห์- วิธีทางสถิติสำหรับศึกษาอิทธิพลของตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไปบนตัวแปรตาม ตัวแปรอิสระเรียกว่าตัวถดถอยหรือตัวทำนายและตัวแปรตามเรียกว่าเกณฑ์ คำศัพท์ ขึ้นอยู่กับและ เป็นอิสระตัวแปรสะท้อนเฉพาะการพึ่งพาทางคณิตศาสตร์ของตัวแปร ( ดู สหสัมพันธ์ปลอม) มากกว่าความสัมพันธ์เชิงสาเหตุ
เป้าหมายของการวิเคราะห์การถดถอย
- การกำหนดระดับของการกำหนดความผันแปรของตัวแปรเกณฑ์ (ตาม) โดยตัวทำนาย (ตัวแปรอิสระ)
- การคาดคะเนค่าของตัวแปรตามโดยใช้ตัวแปรอิสระ
- การกำหนดการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวต่อการแปรผันของการขึ้นต่อกัน
การวิเคราะห์การถดถอยไม่สามารถใช้ในการพิจารณาว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ เนื่องจากการมีอยู่ของความสัมพันธ์นั้นเป็นข้อกำหนดเบื้องต้นสำหรับการวิเคราะห์
นิยามทางคณิตศาสตร์ของการถดถอย
การพึ่งพาอาศัยกันแบบถดถอยอย่างเคร่งครัดสามารถกำหนดได้ดังนี้ ให้ เป็นตัวแปรสุ่มที่มีการแจกแจงความน่าจะเป็นร่วมที่กำหนด หากสำหรับแต่ละชุดของค่ามีการกำหนดความคาดหวังแบบมีเงื่อนไข
(สมการถดถอยทั่วไป)จากนั้นจะเรียกฟังก์ชันนี้ว่า การถดถอยค่า Y ตามค่าและกราฟของมัน - เส้นถดถอยโดย , or สมการถดถอย.
การพึ่งพาเป็นที่ประจักษ์ในการเปลี่ยนแปลงในค่าเฉลี่ยของ Y เมื่อเปลี่ยนแปลง . แม้ว่าสำหรับชุดค่าคงที่แต่ละชุด ปริมาณยังคงเป็นตัวแปรสุ่มที่มีการกระจายตัวที่แน่นอน
เพื่อชี้แจงคำถามว่าการวิเคราะห์การถดถอยประมาณการการเปลี่ยนแปลงใน Y ด้วยการเปลี่ยนแปลงได้แม่นยำเพียงใด ค่าเฉลี่ยของความแปรปรวนของ Y จะถูกใช้สำหรับชุดค่าต่างๆ (อันที่จริง เรากำลังพูดถึงการวัดการกระจายของ ตัวแปรตามรอบเส้นถดถอย)
วิธีกำลังสองน้อยที่สุด (การคำนวณค่าสัมประสิทธิ์)
ในทางปฏิบัติมักใช้เส้นถดถอยในรูปแบบ ฟังก์ชันเชิงเส้น(การถดถอยเชิงเส้น) ที่ใกล้เคียงกับเส้นโค้งที่ต้องการมากที่สุด ทำได้โดยใช้วิธีกำลังสองน้อยที่สุด เมื่อผลรวมของค่าเบี่ยงเบนกำลังสองของค่าที่สังเกตได้จริงจากการประมาณการลดลง (หมายถึงการประมาณโดยใช้เส้นตรงที่อ้างว่าแสดงถึงการพึ่งพาการถดถอยที่ต้องการ):
(M - ขนาดตัวอย่าง). วิธีนี้ขึ้นอยู่กับ รู้ความจริงว่าผลรวมที่ปรากฏในนิพจน์ข้างต้นใช้ค่าต่ำสุดอย่างแม่นยำสำหรับกรณีที่เมื่อ
เพื่อแก้ปัญหาการวิเคราะห์การถดถอยโดยวิธีกำลังสองน้อยที่สุด จึงมีการแนะนำแนวคิด ฟังก์ชั่นตกค้าง:
เงื่อนไขสำหรับฟังก์ชันที่เหลือขั้นต่ำ:
ระบบผลลัพธ์คือระบบ สมการเชิงเส้นที่ไม่รู้จัก
ถ้าเราแทนพจน์ว่างทางด้านซ้ายของสมการด้วยเมทริกซ์
และสัมประสิทธิ์ของนิรนามทางด้านขวาของเมทริกซ์
จากนั้นเราจะได้สมการเมทริกซ์: ซึ่งแก้ได้ง่ายโดยวิธีเกาส์ เมทริกซ์ผลลัพธ์จะเป็นเมทริกซ์ที่มีค่าสัมประสิทธิ์ของสมการเส้นถดถอย:
เพื่อให้ได้ค่าประมาณที่ดีที่สุด จำเป็นต้องปฏิบัติตามข้อกำหนดเบื้องต้นของ LSM (เงื่อนไข Gauss–Markov) ในวรรณคดีอังกฤษ ค่าประมาณดังกล่าวเรียกว่า BLUE (ตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุด) ซึ่งเป็นค่าประมาณที่ไม่เอนเอียงเชิงเส้นที่ดีที่สุด
การตีความพารามิเตอร์การถดถอย
พารามิเตอร์เป็นค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน ถูกตีความว่าเป็นสัดส่วนของความแปรปรวนของ Y ที่อธิบายโดยการกำหนดอิทธิพลของตัวทำนายที่เหลือ กล่าวคือ วัดการมีส่วนร่วมของแต่ละคนในการอธิบายของ Y ในกรณีของตัวทำนายที่มีความสัมพันธ์กัน มีปัญหาความไม่แน่นอนในการประมาณการ ซึ่งขึ้นอยู่กับลำดับที่ตัวทำนายรวมอยู่ในแบบจำลอง ในกรณีเช่นนี้ จำเป็นต้องใช้วิธีการวิเคราะห์สหสัมพันธ์และการวิเคราะห์การถดถอยแบบขั้นตอน
เมื่อพูดถึงโมเดลการวิเคราะห์การถดถอยที่ไม่เป็นเชิงเส้น สิ่งสำคัญคือต้องให้ความสนใจว่าเรากำลังพูดถึงความไม่เป็นเชิงเส้นในตัวแปรอิสระหรือไม่ (จากมุมมองที่เป็นทางการ การลดลงอย่างง่ายเป็นการถดถอยเชิงเส้น) หรือความไม่เป็นเชิงเส้นในพารามิเตอร์โดยประมาณ (ทำให้เกิดปัญหาในการคำนวณอย่างร้ายแรง) ด้วยความไม่เชิงเส้นประเภทแรก จากมุมมองที่มีความหมาย สิ่งสำคัญคือต้องแยกแยะลักษณะที่ปรากฏในตัวแบบของสมาชิกของแบบฟอร์ม , , ระบุการมีอยู่ของการโต้ตอบระหว่างคุณลักษณะ ฯลฯ (ดู Multicollinearity)
ดูสิ่งนี้ด้วย
ลิงค์
- www.kgafk.ru - การบรรยายเรื่อง "การวิเคราะห์การถดถอย"
- www.basegroup.ru - วิธีการเลือกตัวแปรในแบบจำลองการถดถอย
วรรณกรรม
- นอร์แมน เดรเปอร์, แฮร์รี่ สมิธการวิเคราะห์การถดถอยประยุกต์ การถดถอยพหุคูณ= การวิเคราะห์ถดถอยประยุกต์ - ครั้งที่ 3 - ม.: "ภาษาถิ่น", 2550 - ส. 912 - ISBN 0-471-17082-8
- วิธีการที่ยั่งยืนสำหรับการประมาณแบบจำลองทางสถิติ: เอกสาร. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
- Radchenko Stanislav Grigorievich,วิธีการวิเคราะห์การถดถอย: เอกสาร. - ก. : "กรณีชุก", 2554. - ส. 376. - ISBN 978-966-7599-72-0
มูลนิธิวิกิมีเดีย 2010 .
การถดถอยคืออะไร?
พิจารณาสองตัวแปรต่อเนื่อง x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n)
ลองวางจุดบนพล็อตกระจาย 2D แล้วบอกว่าเรามี ความสัมพันธ์เชิงเส้นถ้าข้อมูลถูกประมาณด้วยเส้นตรง
ถ้าสมมุติว่า yขึ้นอยู่กับ xและการเปลี่ยนแปลงใน yเกิดจากการเปลี่ยนแปลงใน xเราสามารถกำหนดเส้นการถดถอยได้ (regression yบน x) ซึ่งอธิบายความสัมพันธ์แบบเส้นตรงระหว่างตัวแปรทั้งสองนี้ได้ดีที่สุด
การใช้ทางสถิติของคำว่า "การถดถอย" มาจากปรากฏการณ์ที่เรียกว่าการถดถอยถึงค่าเฉลี่ย ซึ่งมาจากเซอร์ฟรานซิส กาลตัน (1889)
เขาแสดงให้เห็นว่าในขณะที่พ่อที่สูงมักจะมีลูกชายที่สูง ความสูงเฉลี่ยของลูกชายนั้นเล็กกว่าพ่อที่สูงของพวกเขา ความสูงเฉลี่ยของลูกชาย "ถดถอย" และ "ย้ายกลับ" เป็นความสูงเฉลี่ยของบิดาทั้งหมดในประชากร ดังนั้น โดยเฉลี่ยแล้ว พ่อที่สูงจะมีลูกชายที่เตี้ยกว่า (แต่ยังสูงอยู่) และพ่อที่เตี้ยก็มีลูกชายที่สูงกว่า (แต่ยังค่อนข้างเตี้ย)
เส้นถดถอย
สมการทางคณิตศาสตร์ที่ประเมินเส้นถดถอยเชิงเส้นอย่างง่าย (คู่):
xเรียกว่าตัวแปรอิสระหรือตัวทำนาย
Yเป็นตัวแปรตามหรือตัวแปรตอบสนอง นี่คือคุณค่าที่เราคาดหวังไว้ y(โดยเฉลี่ย) หากเรารู้คุณค่า x, เช่น. คือค่าที่ทำนายไว้ y»
- เอ- สมาชิกฟรี (ข้าม) ของสายการประเมิน ค่านี้ Y, เมื่อไร x=0(รูปที่ 1).
- ข- ความชันหรือความชันของเส้นโดยประมาณ เป็นจำนวนเงินโดยที่ Yเพิ่มขึ้นโดยเฉลี่ยถ้าเราเพิ่มขึ้น xสำหรับหนึ่งหน่วย
- เอและ ขเรียกว่าสัมประสิทธิ์การถดถอยของเส้นประมาณการ แม้ว่าคำนี้มักใช้เฉพาะกับ ข.
สามารถขยายการถดถอยเชิงเส้นแบบคู่เพื่อรวมตัวแปรอิสระมากกว่าหนึ่งตัว ในกรณีนี้เรียกว่า การถดถอยพหุคูณ.
รูปที่ 1 เส้นถดถอยเชิงเส้นแสดงจุดตัดของ a และความชัน b (ปริมาณการเพิ่มขึ้นใน Y เมื่อ x เพิ่มขึ้นหนึ่งหน่วย)
วิธีกำลังสองน้อยที่สุด
เราทำการวิเคราะห์การถดถอยโดยใช้ตัวอย่างการสังเกตโดยที่ เอและ ข- ตัวอย่างประมาณการของพารามิเตอร์จริง (ทั่วไป) α และ β ซึ่งกำหนดเส้นของการถดถอยเชิงเส้นในประชากร (ประชากรทั่วไป)
วิธีที่ง่ายที่สุดในการหาค่าสัมประสิทธิ์ เอและ ขเป็น วิธีกำลังสองน้อยที่สุด(เอ็มเค).
ความพอดีนั้นประเมินโดยพิจารณาจากเศษที่เหลือ (ระยะแนวตั้งของแต่ละจุดจากเส้น เช่น เศษ = ที่สังเกตได้ y- คาดการณ์ y, ข้าว. 2).
เลือกเส้นที่พอดีที่สุดเพื่อให้ผลรวมของกำลังสองของเศษเหลือน้อยที่สุด
ข้าว. 2. เส้นถดถอยเชิงเส้นพร้อมแสดงเศษเหลือ (เส้นประแนวตั้ง) สำหรับแต่ละจุด
สมมติฐานการถดถอยเชิงเส้น
ดังนั้น สำหรับแต่ละค่าที่สังเกตได้ ค่าคงเหลือจะเท่ากับผลต่างและค่าที่ทำนายที่สอดคล้องกัน ค่าที่เหลือแต่ละค่าอาจเป็นค่าบวกหรือค่าลบก็ได้
คุณสามารถใช้ค่าคงเหลือเพื่อทดสอบสมมติฐานต่อไปนี้เบื้องหลังการถดถอยเชิงเส้น:
- ปกติแล้วเศษที่เหลือจะถูกแจกจ่ายโดยมีค่าเฉลี่ยเป็นศูนย์
หากสมมติฐานเกี่ยวกับความเป็นเส้นตรง ความปกติ และ/หรือความแปรปรวนคงที่เป็นที่น่าสงสัย เราสามารถแปลงหรือและคำนวณเส้นการถดถอยใหม่ที่เป็นไปตามสมมติฐานเหล่านี้ (เช่น ใช้การแปลงลอการิทึม เป็นต้น)
ค่าผิดปกติ (ค่าผิดปกติ) และจุดที่มีอิทธิพล
การสังเกตที่ "มีอิทธิพล" หากละเว้น จะเปลี่ยนค่าประมาณพารามิเตอร์ของแบบจำลองตั้งแต่หนึ่งค่าขึ้นไป (เช่น ความชันหรือค่าตัดขวาง)
ค่าผิดปกติ (การสังเกตที่ขัดแย้งกับค่าส่วนใหญ่ในชุดข้อมูล) อาจเป็นการสังเกตที่ "มีอิทธิพล" และสามารถตรวจพบได้ด้วยสายตาเมื่อดูแผนภาพ 2 มิติหรือพล็อตของสารตกค้าง
ทั้งสำหรับค่าผิดปกติและสำหรับการสังเกต "ที่มีอิทธิพล" (จุด) มีการใช้แบบจำลองทั้งที่มีการรวมและไม่มีรูปแบบ ให้ความสนใจกับการเปลี่ยนแปลงในการประมาณการ (สัมประสิทธิ์การถดถอย)
เมื่อทำการวิเคราะห์ อย่าละทิ้งค่าผิดปกติหรือจุดอิทธิพลโดยอัตโนมัติ เพราะการเพิกเฉยอาจส่งผลต่อผลลัพธ์ได้ ศึกษาสาเหตุของค่าผิดปกติเหล่านี้และวิเคราะห์อยู่เสมอ
สมมติฐานการถดถอยเชิงเส้น
เมื่อสร้างการถดถอยเชิงเส้น สมมติฐานว่างจะถูกตรวจสอบว่าความชันทั่วไปของเส้นถดถอย β เท่ากับศูนย์
หากความชันของเส้นเป็นศูนย์ แสดงว่าไม่มีความสัมพันธ์เชิงเส้นตรงระหว่าง กับ: การเปลี่ยนแปลงจะไม่ส่งผลกระทบ
ในการทดสอบสมมติฐานว่างว่าความชันที่แท้จริงเป็นศูนย์ คุณสามารถใช้อัลกอริทึมต่อไปนี้:
คำนวณสถิติการทดสอบเท่ากับอัตราส่วน ซึ่งเป็นไปตามการแจกแจงด้วยองศาอิสระ โดยที่ค่าความคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์
,
- การประมาณค่าความแปรปรวนของค่าคงเหลือ
โดยปกติ หากถึงระดับนัยสำคัญแล้ว สมมติฐานว่างจะถูกปฏิเสธ
โดยที่จุดเปอร์เซ็นต์ของการแจกแจงแบบมีดีกรีอิสระซึ่งให้ความน่าจะเป็นของการทดสอบแบบสองด้านคือ
นี่คือช่วงเวลาที่มีความชันทั่วไปที่มีความน่าจะเป็น 95%
สำหรับตัวอย่างขนาดใหญ่ สมมติว่าเราสามารถประมาณค่าได้ 1.96 (นั่นคือ สถิติการทดสอบมักจะกระจายแบบปกติ)
การประเมินคุณภาพของการถดถอยเชิงเส้น: สัมประสิทธิ์การกำหนด R 2
เนื่องจากความสัมพันธ์เชิงเส้นและเราคาดหวังการเปลี่ยนแปลงตามการเปลี่ยนแปลง
และเราเรียกสิ่งนี้ว่ารูปแบบที่เกิดจากหรืออธิบายโดยการถดถอย ความแปรผันที่เหลือควรมีขนาดเล็กที่สุด
ถ้าเป็นเช่นนั้น ความผันแปรส่วนใหญ่จะอธิบายโดยการถดถอย และจุดจะอยู่ใกล้เส้นการถดถอย กล่าวคือ เส้นตรงกับข้อมูลได้ดี
สัดส่วนของความแปรปรวนทั้งหมดที่อธิบายโดยการถดถอยเรียกว่า ค่าสัมประสิทธิ์การกำหนดมักจะแสดงเป็นเปอร์เซ็นต์และแสดงแทน R2(ในการถดถอยเชิงเส้นคู่ นี่คือค่า r2, กำลังสองของสัมประสิทธิ์สหสัมพันธ์) ช่วยให้คุณประเมินคุณภาพของสมการถดถอยตามอัตวิสัย
ความแตกต่างคือเปอร์เซ็นต์ของความแปรปรวนที่ไม่สามารถอธิบายได้ด้วยการถดถอย
เนื่องจากไม่มีการทดสอบอย่างเป็นทางการในการประเมิน เราจึงจำเป็นต้องพึ่งพาวิจารณญาณในการพิจารณาคุณภาพของเส้นการถดถอย
การใช้เส้นถดถอยกับการคาดการณ์
คุณสามารถใช้เส้นการถดถอยเพื่อคาดการณ์ค่าจากค่าภายในช่วงที่สังเกตได้ (อย่าคาดการณ์เกินขีดจำกัดเหล่านี้)
เราทำนายค่าเฉลี่ยของสิ่งที่สังเกตได้ที่มีค่าหนึ่งโดยแทนที่ค่านั้นลงในสมการเส้นถดถอย
ดังนั้น หากคาดการณ์ว่า เราใช้ค่าที่คาดการณ์ไว้นี้และข้อผิดพลาดมาตรฐานในการประมาณช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยประชากรจริง
การทำซ้ำขั้นตอนนี้สำหรับค่าต่างๆ ช่วยให้คุณสร้างขีดจำกัดความเชื่อมั่นสำหรับบรรทัดนี้ นี่คือแถบหรือพื้นที่ที่มีเส้นจริง เช่น มีระดับความเชื่อมั่น 95%
แผนการถดถอยอย่างง่าย
การออกแบบการถดถอยอย่างง่ายประกอบด้วยตัวทำนายต่อเนื่องหนึ่งตัว หากมี 3 กรณีที่มีค่าตัวทำนาย P เช่น 7, 4 และ 9 และการออกแบบรวมเอฟเฟกต์ลำดับแรก P แล้วเมทริกซ์การออกแบบ X จะเป็น
และสมการถดถอยโดยใช้ P สำหรับ X1 ดูเหมือน
Y = b0 + b1 P
หากการออกแบบการถดถอยอย่างง่ายมีผลลำดับที่สูงกว่าใน P เช่นเอฟเฟกต์กำลังสอง ค่าในคอลัมน์ X1 ในเมทริกซ์การออกแบบจะเพิ่มขึ้นเป็นกำลังสอง:
และสมการจะอยู่ในรูป
Y = b0 + b1 P2
วิธีการเข้ารหัสที่จำกัดด้วยซิกมาและเกินพารามิเตอร์ใช้ไม่ได้กับการออกแบบการถดถอยแบบธรรมดาและการออกแบบอื่นๆ ที่มีตัวทำนายแบบต่อเนื่องเท่านั้น (เพราะไม่มีตัวทำนายตามหมวดหมู่) โดยไม่คำนึงถึงวิธีการเข้ารหัสที่เลือก ค่าของตัวแปรต่อเนื่องจะเพิ่มขึ้นตามกำลังที่เหมาะสมและใช้เป็นค่าสำหรับตัวแปร X ในกรณีนี้ จะไม่มีการแปลง นอกจากนี้ เมื่ออธิบายแผนการถดถอย คุณสามารถละเว้นการพิจารณาเมทริกซ์แผน X และทำงานกับสมการถดถอยเท่านั้น
ตัวอย่าง: การวิเคราะห์การถดถอยอย่างง่าย
ตัวอย่างนี้ใช้ข้อมูลที่ให้ไว้ในตาราง:
ข้าว. 3. ตารางข้อมูลเบื้องต้น
ข้อมูลนี้อิงจากการเปรียบเทียบสำมะโนปี 1960 และ 1970 ใน 30 มณฑลที่สุ่มเลือก ชื่อมณฑลจะแสดงเป็นชื่อสังเกต ข้อมูลเกี่ยวกับตัวแปรแต่ละตัวแสดงไว้ด้านล่าง:
ข้าว. 4. ตารางข้อกำหนดตัวแปร
วัตถุประสงค์การวิจัย
สำหรับตัวอย่างนี้ จะมีการวิเคราะห์ความสัมพันธ์ระหว่างอัตราความยากจนกับอำนาจที่คาดการณ์เปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจน ดังนั้น เราจะถือว่าตัวแปร 3 (Pt_Poor ) เป็นตัวแปรตาม
เราสามารถเสนอสมมติฐานได้: การเปลี่ยนแปลงของประชากรและเปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจนนั้นสัมพันธ์กัน ดูเหมือนว่ามีเหตุผลที่จะคาดหวังว่าความยากจนจะนำไปสู่การไหลออกของประชากร ดังนั้นจะมีความสัมพันธ์เชิงลบระหว่างเปอร์เซ็นต์ของคนที่อยู่ใต้เส้นความยากจนกับการเปลี่ยนแปลงของประชากร ดังนั้น เราจะถือว่าตัวแปร 1 (Pop_Cng ) เป็นตัวแปรทำนาย
ดูผลลัพธ์
สัมประสิทธิ์การถดถอย
ข้าว. 5. สัมประสิทธิ์การถดถอย Pt_Poor บน Pop_Cng
ที่จุดตัดของแถว Pop_Chng และ Param สัมประสิทธิ์ที่ไม่ได้มาตรฐานสำหรับการถดถอยของ Pt_Poor บน Pop_Chng คือ -0.40374 ซึ่งหมายความว่าสำหรับทุกหน่วยประชากรที่ลดลง จะมีอัตราความยากจนเพิ่มขึ้นที่ 0.40374 ขีดจำกัดความเชื่อมั่น 95% บนและล่าง (ค่าเริ่มต้น) สำหรับสัมประสิทธิ์ที่ไม่ได้มาตรฐานนี้ไม่รวมศูนย์ ดังนั้นสัมประสิทธิ์การถดถอยจึงมีนัยสำคัญที่ระดับ p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.
การกระจายตัวของตัวแปร
ค่าสัมประสิทธิ์สหสัมพันธ์อาจถูกประเมินสูงเกินไปหรือถูกประเมินต่ำเกินไปหากมีค่าผิดปกติจำนวนมากในข้อมูล ให้เราตรวจสอบการกระจายของตัวแปรตาม Pt_Poor ตามเขต ในการทำเช่นนี้ เราจะสร้างฮิสโตแกรมของตัวแปร Pt_Poor
ข้าว. 6. ฮิสโตแกรมของตัวแปร Pt_Poor
อย่างที่คุณเห็น การกระจายของตัวแปรนี้แตกต่างอย่างเห็นได้ชัดจากการแจกแจงแบบปกติ อย่างไรก็ตาม แม้ว่าสองมณฑล (สองคอลัมน์ทางขวา) จะมีเปอร์เซ็นต์ของครอบครัวที่ต่ำกว่าเส้นความยากจนมากกว่าที่คาดไว้ในการแจกแจงแบบปกติ แต่ดูเหมือนว่าพวกเขาจะ "อยู่ภายในขอบเขต"
ข้าว. 7. ฮิสโตแกรมของตัวแปร Pt_Poor
การตัดสินนี้ค่อนข้างเป็นเรื่องส่วนตัว กฎทั่วไปคือควรพิจารณาค่าผิดปกติหากการสังเกต (หรือการสังเกต) ไม่อยู่ภายในช่วงเวลา (ค่าเฉลี่ย ± 3 เท่าของค่าเบี่ยงเบนมาตรฐาน) ในกรณีนี้ ควรทำการวิเคราะห์ซ้ำโดยมีทั้งแบบมีและไม่มีค่าผิดปกติ เพื่อให้แน่ใจว่าไม่มีผลกระทบร้ายแรงต่อความสัมพันธ์ระหว่างสมาชิกของประชากร
พล็อตกระจาย
หากสมมติฐานข้อใดข้อหนึ่งเป็นประเด็นสำคัญเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรที่กำหนด จะเป็นประโยชน์ที่จะตรวจสอบมันบนพล็อตของ scatterplot ที่เกี่ยวข้อง
ข้าว. 8. แผนการกระจาย
scatterplot แสดงความสัมพันธ์เชิงลบที่ชัดเจน (-.65) ระหว่างสองตัวแปร นอกจากนี้ยังแสดงช่วงความเชื่อมั่น 95% สำหรับเส้นการถดถอย กล่าวคือ โดยมีความน่าจะเป็น 95% ที่เส้นการถดถอยจะผ่านระหว่างเส้นโค้งเส้นประสองเส้น
เกณฑ์ความสำคัญ
ข้าว. 9. ตารางที่มีเกณฑ์ความสำคัญ
การทดสอบสัมประสิทธิ์การถดถอย Pop_Chng ยืนยันว่า Pop_Cng เกี่ยวข้องอย่างยิ่งกับ Pt_Poor , p<.001 .
ผล
ตัวอย่างนี้แสดงวิธีวิเคราะห์แผนการถดถอยอย่างง่าย ยังได้นำเสนอการตีความสัมประสิทธิ์การถดถอยที่ไม่ได้มาตรฐานและเป็นมาตรฐานอีกด้วย มีการกล่าวถึงความสำคัญของการศึกษาการกระจายการตอบสนองของตัวแปรตาม และเทคนิคในการกำหนดทิศทางและความแรงของความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตามจะแสดง
การวิเคราะห์การถดถอยและสหสัมพันธ์ - วิธีการวิจัยทางสถิติ นี่เป็นวิธีทั่วไปในการแสดงการพึ่งพาพารามิเตอร์กับตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไป
ด้านล่างนี้ โดยใช้ตัวอย่างเชิงปฏิบัติที่เป็นรูปธรรม เราจะพิจารณาการวิเคราะห์ยอดนิยมสองข้อนี้ในหมู่นักเศรษฐศาสตร์ เราจะยกตัวอย่างของการได้ผลลัพธ์เมื่อนำมารวมกัน
การวิเคราะห์การถดถอยใน Excel
แสดงอิทธิพลของค่าบางค่า (อิสระ อิสระ) ต่อตัวแปรตาม ตัวอย่างเช่น จำนวนประชากรที่ใช้งานทางเศรษฐกิจขึ้นอยู่กับจำนวนวิสาหกิจ ค่าจ้าง และพารามิเตอร์อื่นๆ อย่างไร หรือ: การลงทุนจากต่างประเทศ ราคาพลังงาน ฯลฯ ส่งผลต่อระดับ GDP อย่างไร
ผลลัพธ์ของการวิเคราะห์ช่วยให้คุณจัดลำดับความสำคัญได้ และขึ้นอยู่กับปัจจัยหลัก ในการทำนาย วางแผนการพัฒนาพื้นที่ที่มีความสำคัญ ตัดสินใจด้านการจัดการ
การถดถอยเกิดขึ้น:
- เชิงเส้น (y = a + bx);
- พาราโบลา (y = a + bx + cx 2);
- เลขชี้กำลัง (y = a * exp (bx));
- กำลัง (y = a*x^b);
- ไฮเปอร์โบลิก (y = b/x + a);
- ลอการิทึม (y = b * 1n(x) + a);
- เลขชี้กำลัง (y = a * b^x)
พิจารณาตัวอย่างการสร้างแบบจำลองการถดถอยใน Excel และตีความผลลัพธ์ ลองหาประเภทการถดถอยเชิงเส้น
งาน. ที่ 6 องค์กร วิเคราะห์เงินเดือนเฉลี่ยและจำนวนพนักงานที่ลาออก จำเป็นต้องกำหนดจำนวนพนักงานที่เกษียณอายุตามเงินเดือนเฉลี่ย
ตัวแบบการถดถอยเชิงเส้นมีรูปแบบดังนี้:
Y \u003d a 0 + a 1 x 1 + ... + a k x k
โดยที่ a คือสัมประสิทธิ์การถดถอย x คือตัวแปรที่มีอิทธิพล และ k คือจำนวนปัจจัย
ในตัวอย่างของเรา Y คือตัวบ่งชี้ของการเลิกจ้างพนักงาน ปัจจัยที่มีอิทธิพลคือค่าจ้าง (x)
Excel มีฟังก์ชันในตัวที่สามารถใช้ในการคำนวณพารามิเตอร์ของตัวแบบการถดถอยเชิงเส้น แต่ Add-in ของ Analysis ToolPak จะทำได้เร็วขึ้น
เปิดใช้งานเครื่องมือวิเคราะห์ที่ทรงพลัง:
เมื่อเปิดใช้งานแล้ว ส่วนเสริมจะอยู่ภายใต้แท็บข้อมูล
ตอนนี้เราจะจัดการกับการวิเคราะห์การถดถอยโดยตรง
ก่อนอื่นเราให้ความสนใจกับ R-square และสัมประสิทธิ์
R-square คือสัมประสิทธิ์การกำหนด ในตัวอย่างของเราคือ 0.755 หรือ 75.5% ซึ่งหมายความว่าพารามิเตอร์ที่คำนวณได้ของแบบจำลองจะอธิบายความสัมพันธ์ระหว่างพารามิเตอร์ที่ศึกษา 75.5% ยิ่งค่าสัมประสิทธิ์การกำหนดยิ่งสูง แบบจำลองยิ่งดี ดี - สูงกว่า 0.8 แย่ - น้อยกว่า 0.5 (การวิเคราะห์ดังกล่าวแทบจะไม่ถือว่าสมเหตุสมผล) ในตัวอย่างของเรา - "ไม่เลว"
สัมประสิทธิ์ 64.1428 แสดงว่า Y จะเป็นอย่างไรหากตัวแปรทั้งหมดในแบบจำลองที่พิจารณามีค่าเท่ากับ 0 นั่นคือ ปัจจัยอื่นๆ ที่ไม่ได้อธิบายไว้ในแบบจำลองก็ส่งผลต่อค่าของพารามิเตอร์ที่วิเคราะห์ด้วยเช่นกัน
ค่าสัมประสิทธิ์ -0.16285 แสดงน้ำหนักของตัวแปร X บน Y นั่นคือเงินเดือนเฉลี่ยภายในแบบจำลองนี้ส่งผลต่อจำนวนผู้เลิกบุหรี่ที่มีน้ำหนัก -0.16285 (นี่เป็นอิทธิพลเพียงเล็กน้อย) เครื่องหมาย “-” หมายถึงผลกระทบด้านลบ ยิ่งเงินเดือนสูง ลาออกน้อยลง ซึ่งเป็นธรรม
การวิเคราะห์สหสัมพันธ์ใน Excel
การวิเคราะห์สหสัมพันธ์ช่วยในการระบุว่ามีความสัมพันธ์ระหว่างตัวบ่งชี้ในตัวอย่างหนึ่งหรือสองตัวอย่าง ตัวอย่างเช่น ระหว่างเวลาการทำงานของเครื่องกับค่าซ่อม ราคาอุปกรณ์และระยะเวลาการทำงาน ความสูงและน้ำหนักของเด็ก เป็นต้น
หากมีความสัมพันธ์ การเพิ่มขึ้นในพารามิเตอร์หนึ่งจะนำไปสู่การเพิ่มขึ้น (ความสัมพันธ์เชิงบวก) หรือการลดลง (เชิงลบ) ในอีกพารามิเตอร์หนึ่ง การวิเคราะห์สหสัมพันธ์ช่วยนักวิเคราะห์ในการพิจารณาว่าค่าของตัวบ่งชี้หนึ่งสามารถทำนายค่าที่เป็นไปได้ของอีกค่าหนึ่งได้หรือไม่
สัมประสิทธิ์สหสัมพันธ์แสดงเป็น r เปลี่ยนแปลงจาก +1 ถึง -1 การจำแนกความสัมพันธ์ในด้านต่าง ๆ จะแตกต่างกัน เมื่อค่าสัมประสิทธิ์เป็น 0 จะไม่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวอย่าง
พิจารณาวิธีใช้ Excel เพื่อค้นหาสัมประสิทธิ์สหสัมพันธ์
ฟังก์ชัน CORREL ใช้เพื่อค้นหาสัมประสิทธิ์ที่จับคู่
ภารกิจ: ตรวจสอบว่ามีความสัมพันธ์ระหว่างเวลาทำงานของเครื่องกลึงกับค่าบำรุงรักษาหรือไม่
วางเคอร์เซอร์ในเซลล์ใดก็ได้แล้วกดปุ่ม fx
- ในหมวด "สถิติ" เลือกฟังก์ชัน CORREL
- อาร์กิวเมนต์ "Array 1" - ช่วงแรกของค่า - เวลาของเครื่อง: A2: A14
- อาร์กิวเมนต์ "Array 2" - ช่วงที่สองของค่า - ค่าซ่อม: B2:B14 คลิกตกลง
ในการกำหนดประเภทของการเชื่อมต่อ คุณต้องดูจำนวนสัมประสิทธิ์สัมบูรณ์ (แต่ละสาขาของกิจกรรมมีมาตราส่วนของตัวเอง)
สำหรับการวิเคราะห์สหสัมพันธ์ของพารามิเตอร์หลายตัว (มากกว่า 2) จะสะดวกกว่าในการใช้ "การวิเคราะห์ข้อมูล" (โปรแกรมเสริม "แพ็คเกจการวิเคราะห์") ในรายการ คุณต้องเลือกความสัมพันธ์และกำหนดอาร์เรย์ ทั้งหมด.
ค่าสัมประสิทธิ์ที่ได้จะแสดงในเมทริกซ์สหสัมพันธ์ ชอบอันนี้:
การวิเคราะห์สหสัมพันธ์-ถดถอย
ในทางปฏิบัติ ทั้งสองเทคนิคนี้มักใช้ร่วมกัน
ตัวอย่าง:
ตอนนี้ข้อมูลการวิเคราะห์การถดถอยสามารถมองเห็นได้
1. เป็นครั้งแรกที่คำว่า "การถดถอย" ได้รับการแนะนำโดยผู้ก่อตั้งไบโอเมตริกซ์ F. Galton (ศตวรรษที่ XIX) ซึ่งความคิดได้รับการพัฒนาโดยผู้ติดตาม K. Pearson
การวิเคราะห์การถดถอย- วิธีการประมวลผลข้อมูลทางสถิติที่ช่วยให้คุณวัดความสัมพันธ์ระหว่างสาเหตุอย่างน้อยหนึ่งอย่าง (เครื่องหมายแฟกทอเรียล) และผลที่ตามมา (สัญญาณที่มีประสิทธิภาพ)
เข้าสู่ระบบ- นี่คือลักษณะเด่นหลัก คุณลักษณะของปรากฏการณ์ หรือกระบวนการที่กำลังศึกษา
สัญญาณที่มีประสิทธิภาพ -ตัวบ่งชี้ที่ตรวจสอบ
เครื่องหมายปัจจัย- ตัวบ่งชี้ที่มีผลต่อค่าของคุณสมบัติที่มีประสิทธิภาพ
จุดประสงค์ของการวิเคราะห์การถดถอยคือเพื่อประเมินการพึ่งพาฟังก์ชันของค่าเฉลี่ยของคุณลักษณะที่มีประสิทธิภาพ ( ที่) จากแฟคทอเรียล ( x 1, x 2, ..., x น) แสดงเป็น สมการถดถอย
ที่= ฉ(x 1, x 2, ..., x น). (6.1)
การถดถอยมีสองประเภท: จับคู่และหลายตัว
การถดถอยแบบคู่ (อย่างง่าย)- สมการของรูปแบบ:
ที่= ฉ(x). (6.2)
คุณลักษณะผลลัพธ์ในการถดถอยแบบคู่ถือเป็นฟังก์ชันของอาร์กิวเมนต์เดียว นั่นคือ ปัจจัยหนึ่ง
การวิเคราะห์การถดถอยประกอบด้วยขั้นตอนต่อไปนี้:
คำจำกัดความของประเภทฟังก์ชัน
การหาค่าสัมประสิทธิ์การถดถอย
การคำนวณค่าทางทฤษฎีของคุณสมบัติที่มีประสิทธิภาพ
การตรวจสอบนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอย
การตรวจสอบนัยสำคัญทางสถิติของสมการถดถอย
การถดถอยพหุคูณ- สมการของรูปแบบ:
ที่= ฉ(x 1, x 2, ..., x น). (6.3)
คุณลักษณะผลลัพธ์ถือเป็นฟังก์ชันของอาร์กิวเมนต์หลายตัว เช่น หลายปัจจัย
2. เพื่อให้กำหนดประเภทของฟังก์ชันได้อย่างถูกต้อง จำเป็นต้องค้นหาทิศทางของการเชื่อมต่อตามข้อมูลทางทฤษฎี
ตามทิศทางของการเชื่อมต่อ การถดถอยแบ่งออกเป็น:
· การถดถอยโดยตรงเกิดขึ้นภายใต้เงื่อนไขว่าด้วยค่าอิสระเพิ่มขึ้นหรือลดลง " เอ็กซ์"ค่าของปริมาณขึ้นอยู่กับ " ที่"เพิ่มขึ้นหรือลดลงตามนั้น
· การถดถอยย้อนกลับเกิดขึ้นโดยมีเงื่อนไขว่ามูลค่าอิสระเพิ่มขึ้นหรือลดลง "เอ็กซ์"ค่าขึ้นอยู่กับ " ที่"ลดลงหรือเพิ่มขึ้นตามไปด้วย
ในการอธิบายลักษณะความสัมพันธ์ จะใช้สมการถดถอยคู่ประเภทต่อไปนี้:
· y=a+bx– เส้นตรง;
· y=e ขวาน + b – เลขชี้กำลัง;
· y=a+b/x – ไฮเปอร์โบลิก;
· y=a+b 1 x+b 2 x 2 – พาราโบลา;
· y=ab x – เลขชี้กำลังและอื่น ๆ.
ที่ไหน ก ข 1 ข 2- ค่าสัมประสิทธิ์ (พารามิเตอร์) ของสมการ ที่- สัญญาณที่มีประสิทธิภาพ X- เครื่องหมายปัจจัย
3. การสร้างสมการถดถอยจะลดลงเพื่อประมาณค่าสัมประสิทธิ์ (พารามิเตอร์) สำหรับสิ่งนี้พวกเขาใช้ วิธีกำลังสองน้อยที่สุด(เอ็มเค).
วิธีกำลังสองน้อยที่สุดช่วยให้คุณได้รับค่าประมาณของพารามิเตอร์ดังกล่าวซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าจริงของคุณสมบัติที่มีประสิทธิภาพ " ที่»จากทฤษฎี « y x» น้อยที่สุด นั่นคือ
ตัวเลือกสมการถดถอย y=a+bxโดยวิธีกำลังสองน้อยที่สุดประมาณโดยใช้สูตร:
ที่ไหน ก -ค่าสัมประสิทธิ์ฟรี ข- สัมประสิทธิ์การถดถอย แสดงว่าเครื่องหมายผลลัพธ์จะเปลี่ยนไปมากน้อยเพียงใด y» เมื่อเปลี่ยนแอตทริบิวต์ปัจจัย « x» ต่อหน่วยวัด
4. ในการประเมินนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอย ใช้การทดสอบ t ของนักเรียน
โครงการตรวจสอบความสำคัญของสัมประสิทธิ์การถดถอย:
1) H 0: a=0, ข=0 - สัมประสิทธิ์การถดถอยแตกต่างจากศูนย์เล็กน้อย
H 1: a≠ 0, ข 0 - สัมประสิทธิ์การถดถอยแตกต่างจากศูนย์อย่างมีนัยสำคัญ
2) R=0.05 – ระดับนัยสำคัญ
ที่ไหน ม.ข,ม- ข้อผิดพลาดแบบสุ่ม:
; . (6.7)
4) t โต๊ะ(อาร์; ฉ),
ที่ไหน ฉ=น-เค- 1 - จำนวนองศาอิสระ (ค่าตาราง) น- จำนวนการสังเกต k เอ็กซ์".
5) ถ้า แล้วเบี่ยงเบนเช่น ค่าสัมประสิทธิ์ที่สำคัญ
หาก เป็นที่ยอมรับ เช่น ค่าสัมประสิทธิ์ไม่มีนัยสำคัญ
5. เพื่อตรวจสอบความถูกต้องของสมการถดถอยที่สร้างขึ้น ใช้เกณฑ์ของฟิชเชอร์
แบบแผนสำหรับการตรวจสอบความสำคัญของสมการถดถอย:
1) ชั่วโมง 0:สมการถดถอยไม่มีนัยสำคัญ
เอช 1:สมการถดถอยมีนัยสำคัญ
2) R=0.05 – ระดับนัยสำคัญ
3) , (6.8)
จำนวนการสังเกตอยู่ที่ไหน k- จำนวนพารามิเตอร์ในสมการพร้อมตัวแปร " เอ็กซ์"; ที่- มูลค่าที่แท้จริงของคุณลักษณะที่มีประสิทธิภาพ y x- ค่าทางทฤษฎีของคุณสมบัติที่มีประสิทธิภาพ - สัมประสิทธิ์สหสัมพันธ์คู่
4) ตารางเอฟ(อาร์; ฉ 1 ; f2),
ที่ไหน f 1 \u003d k, f 2 \u003d n-k-1-จำนวนองศาอิสระ (ค่าตาราง)
5) ถ้า F คำนวณ >F ตารางจากนั้นจึงเลือกสมการถดถอยอย่างถูกต้องและสามารถนำไปใช้ในทางปฏิบัติได้
ถ้า F แคล
6. ตัวบ่งชี้หลักที่สะท้อนการวัดคุณภาพของการวิเคราะห์การถดถอยคือ สัมประสิทธิ์การกำหนด (R 2)
สัมประสิทธิ์ความมุ่งมั่นแสดงสัดส่วนของตัวแปรตาม " ที่» ถูกนำมาพิจารณาในการวิเคราะห์และเกิดจากอิทธิพลของปัจจัยที่รวมอยู่ในการวิเคราะห์
สัมประสิทธิ์ความมุ่งมั่น (R2)รับค่าในช่วง สมการถดถอยเป็นเชิงคุณภาพ if R2 ≥0,8.
สัมประสิทธิ์การกำหนดเท่ากับกำลังสองของสัมประสิทธิ์สหสัมพันธ์เช่น
ตัวอย่างที่ 6.1จากข้อมูลต่อไปนี้ ให้สร้างและวิเคราะห์สมการถดถอย:
วิธีการแก้.
1) คำนวณสัมประสิทธิ์สหสัมพันธ์: . ความสัมพันธ์ระหว่างสัญญาณโดยตรงและปานกลาง
2) สร้างสมการถดถอยเชิงเส้นคู่
2.1) จัดทำตารางการคำนวณ
№ | X | ที่ | Hu | x2 | y x | (y-y x) 2 | ||
55,89 | 47,54 | 65,70 | ||||||
45,07 | 15,42 | 222,83 | ||||||
54,85 | 34,19 | 8,11 | ||||||
51,36 | 5,55 | 11,27 | ||||||
42,28 | 45,16 | 13,84 | ||||||
47,69 | 1,71 | 44,77 | ||||||
45,86 | 9,87 | 192,05 | ||||||
ซำ | 159,45 | 558,55 | ||||||
เฉลี่ย | 77519,6 | 22,78 | 79,79 | 2990,6 |
,
สมการถดถอยเชิงเส้นคู่: y x \u003d 25.17 + 0.087x
3) ค้นหาค่าทางทฤษฎี " y x» โดยการแทนค่าจริงลงในสมการถดถอย « X».
4) พล็อตกราฟของจริง " ที่"และค่านิยมทางทฤษฎี" y x» คุณลักษณะที่มีประสิทธิภาพ (รูปที่ 6.1): r xy = 0.47) และการสังเกตจำนวนเล็กน้อย
7) คำนวณค่าสัมประสิทธิ์การกำหนด: R2=(0.47) 2 =0.22. สมการที่สร้างขึ้นมีคุณภาพต่ำ
เพราะ การคำนวณระหว่างการวิเคราะห์การถดถอยนั้นค่อนข้างมาก ขอแนะนำให้ใช้โปรแกรมพิเศษ ("Statistica 10", SPSS เป็นต้น)
รูปที่ 6.2 แสดงตารางผลการวิเคราะห์การถดถอยโดยใช้โปรแกรม "Statistica 10"
รูปที่ 6.2 ผลการวิเคราะห์การถดถอยโดยใช้โปรแกรม "Statistica 10"
5. วรรณคดี:
1. Gmurman V.E. ทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์: Proc. คู่มือสำหรับมหาวิทยาลัย / V.E. กัมเมอร์แมน. - ม.: ม.ต้น ปี 2546 - 479 น.
2. Koichubekov B.K. ชีวสถิติ: ตำราเรียน. - อัลมาตี: Evero, 2014. - 154 p.
3. Lobotskaya N.L. คณิตศาสตร์ที่สูงขึ้น / น.ล. Lobotskaya, Yu.V. โมโรซอฟ, เอ.เอ. ดูนาเยฟ. - มินสค์: โรงเรียนมัธยม, 2530 - 319 น.
4. Medic V.A. , Tokmachev M.S. , Fishman B.B. สถิติในการแพทย์และชีววิทยา: คู่มือ. ใน 2 เล่ม / เอ็ด ยูเอ็ม โคมารอฟ. ต. 1. สถิติเชิงทฤษฎี. - ม.: แพทยศาสตร์, 2543. - 412 น.
5. การประยุกต์วิธีการวิเคราะห์ทางสถิติเพื่อการศึกษาด้านสาธารณสุขและการดูแลสุขภาพ : หนังสือเรียน / กศน. Kucherenko V.Z. - ฉบับที่ 4, แก้ไข. และเพิ่มเติม - ม.: GEOtar - สื่อ, 2554. - 256 น.