ข้อมูลสำหรับการถดถอย พื้นฐานของการวิเคราะห์ข้อมูล

จากการศึกษาเนื้อหาของบทที่ 4 นักเรียนควร:

รู้

  • แนวคิดพื้นฐานของการวิเคราะห์การถดถอย
  • วิธีการประมาณค่าและคุณสมบัติของการประมาณวิธีการกำลังสองน้อยที่สุด
  • กฎพื้นฐานสำหรับการทดสอบนัยสำคัญและการประมาณช่วงของสมการและสัมประสิทธิ์การถดถอย

สามารถ

  • หาค่าประมาณของพารามิเตอร์ของสมการถดถอยแบบสองมิติและหลายตัวจากข้อมูลตัวอย่าง วิเคราะห์คุณสมบัติของพวกมัน
  • ตรวจสอบความสำคัญของสมการและสัมประสิทธิ์การถดถอย
  • หาค่าประมาณช่วงของพารามิเตอร์ที่สำคัญ

เป็นเจ้าของ

  • ทักษะการประมาณค่าทางสถิติของพารามิเตอร์ของสมการถดถอยแบบสองมิติและแบบพหุคูณ ทักษะในการตรวจสอบความเพียงพอของตัวแบบการถดถอย
  • ทักษะในการหาสมการถดถอยพร้อมสัมประสิทธิ์ที่มีนัยสำคัญทั้งหมดโดยใช้ซอฟต์แวร์วิเคราะห์

แนวคิดพื้นฐาน

หลังจากทำการวิเคราะห์สหสัมพันธ์ เมื่อมีการระบุความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างตัวแปรและระดับของความหนาแน่นที่ได้รับการประเมินแล้ว มักจะดำเนินการอธิบายทางคณิตศาสตร์ของประเภทของการพึ่งพาโดยใช้วิธีวิเคราะห์การถดถอย เพื่อจุดประสงค์นี้ มีการเลือกคลาสของฟังก์ชันที่เชื่อมโยงตัวบ่งชี้ที่มีประสิทธิภาพ ที่และอาร์กิวเมนต์” คำนวณค่าประมาณของพารามิเตอร์ของสมการข้อจำกัดและวิเคราะห์ความถูกต้องของสมการผลลัพธ์

ฟังก์ชัน| อธิบายการพึ่งพาค่าเฉลี่ยตามเงื่อนไขของคุณลักษณะที่มีประสิทธิภาพ ที่จากค่าที่กำหนดของอาร์กิวเมนต์เรียกว่า สมการถดถอย

คำว่า "ถดถอย" (จาก lat. การถดถอย-ถอยกลับไปบางสิ่งบางอย่าง) ได้รับการแนะนำโดยนักจิตวิทยาและนักมานุษยวิทยาชาวอังกฤษ F. Galton และเกี่ยวข้องกับหนึ่งในตัวอย่างแรกของเขาซึ่ง Galton ประมวลผลข้อมูลทางสถิติที่เกี่ยวข้องกับคำถามเกี่ยวกับพันธุกรรมของการเติบโตพบว่าถ้าความสูงของ พ่อเบี่ยงเบนจากความสูงเฉลี่ยพ่อทุกคนบน Xนิ้ว แล้วความสูงของลูกชายจะเบี่ยงเบนไปจากความสูงเฉลี่ยของลูกชายทั้งหมดน้อยกว่า xนิ้ว แนวโน้มที่ระบุเรียกว่า การถดถอยไปยังค่าเฉลี่ย

คำว่า "การถดถอย" ใช้กันอย่างแพร่หลายในเอกสารทางสถิติ แม้ว่าในหลายกรณี จะไม่มีการระบุลักษณะเฉพาะของการพึ่งพาทางสถิติอย่างถูกต้อง

สำหรับคำอธิบายที่ถูกต้องของสมการถดถอย จำเป็นต้องรู้กฎเงื่อนไขของการแจกแจงตัวบ่งชี้ที่มีประสิทธิภาพ ย.ในทางปฏิบัติทางสถิติ มักจะเป็นไปไม่ได้ที่จะได้รับข้อมูลดังกล่าว ดังนั้นจึงถูกจำกัดให้หาค่าประมาณที่เหมาะสมสำหรับฟังก์ชัน ฉ(xยู X 2, .... l *) โดยอิงจากการวิเคราะห์ที่มีความหมายเบื้องต้นของปรากฏการณ์หรือจากข้อมูลสถิติดั้งเดิม

ภายในกรอบของสมมติฐานแบบจำลองส่วนบุคคลเกี่ยวกับประเภทของการกระจายเวกเตอร์ของตัวบ่งชี้<) может быть получен общий вид สมการถดถอย, ที่ไหน. ตัวอย่างเช่น ภายใต้สมมติฐานที่ว่าชุดของตัวบ่งชี้ที่ศึกษานั้นเป็นไปตามกฎการแจกแจงแบบปกติมิติ () กับเวกเตอร์ของการคาดหมายทางคณิตศาสตร์

โดยที่และโดยเมทริกซ์ความแปรปรวนร่วม

ความแปรปรวนอยู่ที่ไหน คุณ

สมการถดถอย (ความคาดหวังแบบมีเงื่อนไข) มีรูปแบบ

ดังนั้น ถ้าตัวแปรสุ่มหลายตัวแปร ()

ปฏิบัติตามกฎการแจกแจงปกติมิติ () จากนั้นสมการถดถอยของตัวบ่งชี้ที่มีประสิทธิภาพ ที่ในตัวแปรอธิบายมีเส้นตรงใน Xดู.

อย่างไรก็ตาม ในทางปฏิบัติทางสถิติ เรามักจะจำกัดตัวเองให้หาค่าประมาณที่เหมาะสมสำหรับฟังก์ชันการถดถอยที่แท้จริงที่ไม่รู้จัก ฉ(x),เนื่องจากผู้วิจัยไม่มีความรู้ที่แน่นอนเกี่ยวกับกฎเงื่อนไขของการแจกแจงความน่าจะเป็นของตัวบ่งชี้ประสิทธิภาพที่วิเคราะห์แล้ว ที่สำหรับค่าที่กำหนดของอาร์กิวเมนต์ เอ็กซ์

พิจารณาความสัมพันธ์ระหว่างการประมาณค่าจริง แบบจำลอง และการถดถอย ให้ตัวบ่งชี้ประสิทธิภาพ ที่เกี่ยวข้องกับข้อโต้แย้ง Xอัตราส่วน

โดยที่ตัวแปรสุ่มที่มีกฎการแจกแจงแบบปกติคือที่ไหน ฟังก์ชันถดถอยที่แท้จริงในกรณีนี้คือ

สมมติว่าเราไม่ทราบรูปแบบที่แน่นอนของสมการถดถอยที่แท้จริง แต่เรามีข้อสังเกตเก้าประการเกี่ยวกับตัวแปรสุ่มสองมิติที่เกี่ยวข้องโดยความสัมพันธ์ที่แสดงในรูปที่ 4.1.

ข้าว. 4.1. ตำแหน่งสัมพัทธ์ของความจริงเอฟ(x) และตามทฤษฎีว้าวตัวแบบถดถอย

ตำแหน่งของจุดในรูป 4.1 ช่วยให้เราสามารถจำกัดตัวเองให้อยู่ในคลาสของการพึ่งพาเชิงเส้นของแบบฟอร์ม

โดยใช้วิธีกำลังสองน้อยที่สุด เราจะหาค่าประมาณของสมการถดถอย

สำหรับการเปรียบเทียบ ในรูป 4.1 แสดงกราฟของฟังก์ชันการถดถอยที่แท้จริงและฟังก์ชันการถดถอยโดยประมาณตามทฤษฎี ค่าประมาณของสมการถดถอยมาบรรจบกันในความน่าจะเป็นหลัง ว้าวด้วยการเพิ่มขนาดตัวอย่าง () ได้ไม่จำกัด

เนื่องจากเราเลือกฟังก์ชันการถดถอยเชิงเส้นอย่างผิดพลาดแทนที่จะเป็นฟังก์ชันการถดถอยที่แท้จริง ซึ่งน่าเสียดายที่เป็นเรื่องธรรมดาในทางปฏิบัติของการวิจัยทางสถิติ ข้อสรุปทางสถิติและการประมาณการของเราจึงไม่มีคุณสมบัติความสอดคล้องกัน กล่าวคือ ไม่ว่าเราจะเพิ่มปริมาณการสังเกตมากน้อยเพียงใด การประมาณการตัวอย่างของเราจะไม่มาบรรจบกับฟังก์ชันการถดถอยที่แท้จริง

หากเราเลือกฟังก์ชันการถดถอยของคลาสอย่างถูกต้อง ความคลาดเคลื่อนในการอธิบายโดยใช้ ว้าวจะอธิบายได้ด้วยข้อจำกัดของกลุ่มตัวอย่างเท่านั้น ดังนั้นจึงทำให้มีขนาดเล็กตามอำเภอใจได้

เพื่อที่จะคืนค่าเงื่อนไขของตัวบ่งชี้ที่มีประสิทธิภาพและฟังก์ชันการถดถอยที่ไม่รู้จักจากข้อมูลสถิติเริ่มต้นได้ดีที่สุด มักใช้สิ่งต่อไปนี้: เกณฑ์ความเพียงพอฟังก์ชั่นการสูญเสีย

1. วิธีกำลังสองน้อยที่สุดตามค่าเบี่ยงเบนกำลังสองของค่าที่สังเกตได้ของตัวบ่งชี้ที่มีประสิทธิภาพ , จากค่าแบบจำลองจะลดลงโดยที่ค่าสัมประสิทธิ์ของสมการถดถอย เป็นค่าเวกเตอร์ของอาร์กิวเมนต์ในการสังเกต "-M :

ปัญหาการหาค่าประมาณของเวกเตอร์กำลังได้รับการแก้ไข การถดถอยที่เกิดขึ้นเรียกว่า ตาราง.

2. วิธีการของโมดูลน้อยที่สุดตามที่ผลรวมของการเบี่ยงเบนสัมบูรณ์ของค่าที่สังเกตได้ของตัวบ่งชี้ที่มีประสิทธิภาพจากค่าโมดูลาร์จะลดลงเช่น

การถดถอยที่เกิดขึ้นเรียกว่า หมายถึงแน่นอน(ค่ามัธยฐาน).

3. วิธีมินิแม็กซ์ลดลงเพื่อลดโมดูลค่าเบี่ยงเบนสูงสุดของค่าที่สังเกตได้ของตัวบ่งชี้ที่มีประสิทธิภาพ คุณจากค่าโมเดล กล่าวคือ

การถดถอยที่เกิดขึ้นเรียกว่า มินิแม็กซ์

ในทางปฏิบัติมักมีปัญหาในการศึกษาตัวแปรสุ่ม คุณขึ้นอยู่กับตัวแปรบางชุดและพารามิเตอร์ที่ไม่รู้จัก เราจะพิจารณา () เป็น (k + 1)-ประชากรทั่วไปมิติ ซึ่งสุ่มตัวอย่างปริมาตร พีโดยที่ () เป็นผลจากการสังเกต /-th, จำเป็นต้องประมาณค่าพารามิเตอร์ที่ไม่รู้จักตามผลการสังเกต งานที่อธิบายไว้ข้างต้นหมายถึงงานการวิเคราะห์การถดถอย

การวิเคราะห์การถดถอย เรียกวิธีการวิเคราะห์ทางสถิติของการพึ่งพาตัวแปรสุ่ม ที่กับตัวแปรที่พิจารณาในการวิเคราะห์การถดถอยเป็นตัวแปรไม่สุ่มโดยไม่คำนึงถึงกฎการแจกแจงที่แท้จริง

ผลลัพธ์

ตาราง 8.3a. สถิติการถดถอย
สถิติการถดถอย
หลาย R 0,998364
R-สี่เหลี่ยม 0,99673
R-square ปกติ 0,996321
มาตรฐานบกพร่อง 0,42405
ข้อสังเกต 10

ขั้นแรกให้ดูที่ส่วนบนของการคำนวณที่แสดงในตารางที่ 8.3a ซึ่งเป็นสถิติการถดถอย

ค่า R-square หรือที่เรียกว่าการวัดความแน่นอน เป็นตัวกำหนดคุณภาพของเส้นการถดถอยที่เกิดขึ้น คุณภาพนี้แสดงโดยระดับความสอดคล้องระหว่างข้อมูลดั้งเดิมกับแบบจำลองการถดถอย (ข้อมูลที่คำนวณ) การวัดความแน่นอนอยู่ภายในช่วงเวลาเสมอ

ในกรณีส่วนใหญ่ ค่า R-squared จะอยู่ระหว่างค่าเหล่านี้ เรียกว่า Extremes กล่าวคือ ระหว่างศูนย์และหนึ่ง

หากค่าของ R-square ใกล้เคียงกัน แสดงว่าแบบจำลองที่สร้างขึ้นนั้นอธิบายความแปรปรวนเกือบทั้งหมดของตัวแปรที่เกี่ยวข้องกัน ในทางกลับกัน ค่า R-squared ที่ใกล้ศูนย์หมายถึงคุณภาพของแบบจำลองที่สร้างขึ้นไม่ดี

ในตัวอย่างของเรา การวัดความแน่นอนคือ 0.99673 ซึ่งบ่งชี้ว่าเส้นการถดถอยมีความเหมาะสมมากกับข้อมูลเดิม

หลาย R- สัมประสิทธิ์สหสัมพันธ์พหุคูณ R - แสดงระดับการพึ่งพาตัวแปรอิสระ (X) และตัวแปรตาม (Y)

หลาย R เท่ากับ รากที่สองจากค่าสัมประสิทธิ์การกำหนด ค่านี้ใช้ค่าในช่วงจากศูนย์ถึงหนึ่ง

ในการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย หลาย R เท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน อันที่จริง ตัวคูณ R ในกรณีของเราเท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจากตัวอย่างก่อนหน้า (0.998364)

ตารางที่ 8.3b. สัมประสิทธิ์การถดถอย
อัตราต่อรอง มาตรฐานบกพร่อง t-สถิติ
สี่แยก Y 2,694545455 0,33176878 8,121757129
ตัวแปร X 1 2,305454545 0,04668634 49,38177965
* มีการคำนวณเวอร์ชันที่ถูกตัดทอนให้

ตอนนี้ให้พิจารณาส่วนตรงกลางของการคำนวณที่แสดงในตารางที่ 8.3b ในที่นี้ ค่าสัมประสิทธิ์การถดถอย b (2.305454545) และออฟเซ็ตตามแกน y จะได้รับ นั่นคือ ค่าคงที่ a (2.694545455)

จากการคำนวณเราสามารถเขียนสมการถดถอยได้ดังนี้:

Y= x*2.305454545+2.694545455

ทิศทางของความสัมพันธ์ระหว่างตัวแปรถูกกำหนดตามสัญญาณ (ลบหรือบวก) สัมประสิทธิ์การถดถอย(ค่าสัมประสิทธิ์ข).

ถ้าป้ายที่ สัมประสิทธิ์การถดถอย- บวก ความสัมพันธ์ของตัวแปรตามกับตัวแปรอิสระจะเป็นบวก ในกรณีของเรา เครื่องหมายของสัมประสิทธิ์การถดถอยเป็นบวก ดังนั้น ความสัมพันธ์จึงเป็นบวกด้วย

ถ้าป้ายที่ สัมประสิทธิ์การถดถอย- เชิงลบ ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระเป็นค่าลบ (ผกผัน)

ในตาราง 8.3c ผลลัพธ์ของการส่งออกของส่วนที่เหลือจะถูกนำเสนอ เพื่อให้ผลลัพธ์เหล่านี้ปรากฏในรายงาน จำเป็นต้องเปิดใช้งานช่องทำเครื่องหมาย "ส่วนที่เหลือ" เมื่อเปิดเครื่องมือ "การถดถอย"

การถอนเงินที่เหลืออยู่

ตารางที่ 8.3c เศษซาก
การสังเกต คาดการณ์ Y เศษซาก เครื่องชั่งมาตรฐาน
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

การใช้ส่วนนี้ของรายงาน เราจะเห็นความเบี่ยงเบนของแต่ละจุดจากเส้นถดถอยที่สร้างขึ้น ค่าสัมบูรณ์ที่ยิ่งใหญ่ที่สุด

รัฐศาสตร์สมัยใหม่มาจากตำแหน่งเกี่ยวกับความสัมพันธ์ของปรากฏการณ์และกระบวนการทั้งหมดในสังคม เป็นไปไม่ได้ที่จะเข้าใจเหตุการณ์และกระบวนการ ทำนายและจัดการปรากฏการณ์ของชีวิตทางการเมืองโดยไม่ได้ศึกษาความเชื่อมโยงและการพึ่งพาที่มีอยู่ในขอบเขตทางการเมืองของสังคม งานทั่วไปอย่างหนึ่งของการวิจัยเชิงนโยบายคือการศึกษาความสัมพันธ์ระหว่างตัวแปรที่สังเกตได้บางตัว วิธีการวิเคราะห์ทางสถิติทั้งคลาส รวมกันโดยใช้ชื่อสามัญว่า "การวิเคราะห์การถดถอย" (หรือที่เรียกอีกอย่างว่า "การวิเคราะห์สหสัมพันธ์-การถดถอย") ช่วยแก้ปัญหานี้ได้ อย่างไรก็ตาม หากการวิเคราะห์สหสัมพันธ์ทำให้สามารถประเมินความแข็งแกร่งของความสัมพันธ์ระหว่างสองตัวแปรได้ จากนั้นใช้การวิเคราะห์การถดถอย เป็นไปได้ที่จะกำหนดประเภทของความสัมพันธ์นี้ เพื่อทำนายการพึ่งพาค่าของตัวแปรใด ๆ กับค่าของตัวแปรอื่น .

อันดับแรก ให้จำไว้ว่าความสัมพันธ์คืออะไร สหสัมพันธ์เรียกว่ากรณีพิเศษที่สำคัญที่สุดของความสัมพันธ์ทางสถิติซึ่งประกอบด้วยค่าที่เท่ากันของตัวแปรหนึ่งตัวสอดคล้องกับค่าต่างๆ ค่าเฉลี่ยอื่น. เมื่อค่าของแอตทริบิวต์ x เปลี่ยนแปลงไป ค่าเฉลี่ยของแอตทริบิวต์ y จะเปลี่ยนแปลงไปตามธรรมชาติ ในขณะที่แต่ละกรณีค่าของแอตทริบิวต์ ที่(ด้วยความน่าจะเป็นต่างกัน) สามารถรับค่าต่างๆ ได้มากมาย

การปรากฏตัวของคำว่า "สหสัมพันธ์" ในสถิติ (และรัฐศาสตร์ดึงดูดความสำเร็จของสถิติในการแก้ปัญหาซึ่งเป็นวินัยที่เกี่ยวข้องกับรัฐศาสตร์) เกี่ยวข้องกับชื่อของนักชีววิทยาชาวอังกฤษและนักสถิติฟรานซิสกัลตัน ที่เสนอในศตวรรษที่ 19 พื้นฐานทางทฤษฎีของการวิเคราะห์สหสัมพันธ์และการถดถอย คำว่า "สหสัมพันธ์" ในวิทยาศาสตร์เป็นที่รู้จักมาก่อน โดยเฉพาะอย่างยิ่งในด้านบรรพชีวินวิทยาในศตวรรษที่ 18 มันถูกนำไปใช้โดยนักวิทยาศาสตร์ชาวฝรั่งเศส Georges Cuvier เขาแนะนำกฎหมายความสัมพันธ์ที่เรียกว่าด้วยความช่วยเหลือซึ่งตามซากของสัตว์ที่พบในระหว่างการขุดค้นสามารถฟื้นฟูรูปลักษณ์ของพวกเขาได้

มีเรื่องราวที่รู้จักกันดีเกี่ยวกับชื่อของนักวิทยาศาสตร์คนนี้และกฎแห่งสหสัมพันธ์ของเขา ดังนั้น ในวันหยุดของมหาวิทยาลัย นักเรียนที่ตัดสินใจเล่นเล่ห์เหลี่ยมกับอาจารย์ที่มีชื่อเสียงจึงดึงหนังแพะที่มีเขาและกีบมาทับนักเรียนหนึ่งคน เขาปีนขึ้นไปทางหน้าต่างห้องนอนของคูวิเยร์แล้วตะโกน: "ฉันจะกินเธอ" ศาสตราจารย์ตื่นขึ้น มองดูเงาแล้วตอบว่า “ถ้าคุณมีเขาและกีบ แสดงว่าคุณเป็นสัตว์กินพืชและกินฉันไม่ได้ และสำหรับความไม่รู้ของกฎแห่งสหสัมพันธ์คุณจะได้รับผีสาง เขาพลิกตัวและผล็อยหลับไป เรื่องตลกเป็นเรื่องตลก แต่ในตัวอย่างนี้ เราเห็นกรณีพิเศษของการใช้การวิเคราะห์การถดถอยสหสัมพันธ์พหุคูณ ที่นี่ศาสตราจารย์ตามความรู้เกี่ยวกับค่านิยมของลักษณะที่สังเกตได้ทั้งสอง (การปรากฏตัวของเขาและกีบ) ตามกฎของสหสัมพันธ์ได้รับค่าเฉลี่ยของลักษณะที่สาม (คลาสที่สัตว์ตัวนี้อยู่ เป็นสัตว์กินพืช) ในกรณีนี้ เราไม่ได้พูดถึงค่าเฉพาะของตัวแปรนี้ (กล่าวคือ สัตว์ตัวนี้สามารถรับค่าที่แตกต่างกันในระดับเล็กน้อย - อาจเป็นแพะ แกะตัวผู้ หรือกระทิง ...)

ทีนี้มาดูคำว่า "การถดถอย" กัน พูดอย่างเคร่งครัดไม่เกี่ยวข้องกับความหมายของปัญหาทางสถิติที่แก้ไขได้ด้วยความช่วยเหลือของวิธีนี้ คำอธิบายของคำศัพท์จะได้รับบนพื้นฐานของความรู้เกี่ยวกับประวัติศาสตร์ของการพัฒนาวิธีการศึกษาความสัมพันธ์ระหว่างคุณลักษณะเท่านั้น ตัวอย่างแรกๆ ของการศึกษาประเภทนี้คืองานของนักสถิติ F. Galton และ K. Pearson ที่พยายามค้นหาแบบแผนระหว่างการเติบโตของพ่อกับลูกตามสัญญาณที่สังเกตได้สองประการ (โดยที่ เอ็กซ์-ความสูงของพ่อและ ยู-การเจริญเติบโตของเด็ก) ในการศึกษาของพวกเขา พวกเขายืนยันสมมติฐานเบื้องต้นที่ว่า โดยเฉลี่ยแล้ว พ่อที่สูงจะเลี้ยงลูกที่สูงโดยเฉลี่ย หลักการเดียวกันนี้ใช้กับพ่อและลูกที่ต่ำต้อย อย่างไรก็ตาม หากนักวิทยาศาสตร์หยุดอยู่ที่นั่น งานของพวกเขาก็จะไม่ถูกกล่าวถึงในตำราเรียนเกี่ยวกับสถิติ นักวิจัยพบรูปแบบอื่นภายในสมมติฐานที่ได้รับการยืนยันดังกล่าวแล้ว พวกเขาพิสูจน์ว่าพ่อที่สูงมาก ๆ ให้กำเนิดลูกที่มีความสูงโดยเฉลี่ย แต่ส่วนสูงไม่ต่างจากเด็กที่พ่อแม้จะสูงกว่าค่าเฉลี่ย แต่ก็ไม่แตกต่างจากความสูงเฉลี่ยมากนัก เช่นเดียวกับพ่อที่มีรูปร่างเล็กมาก (เบี่ยงเบนจากค่าเฉลี่ยของกลุ่มสั้น) - โดยเฉลี่ยแล้วลูก ๆ ของพวกเขาไม่แตกต่างจากเพื่อนที่มีพ่อเตี้ย พวกเขาเรียกฟังก์ชันที่อธิบายความสม่ำเสมอนี้ ฟังก์ชันถดถอยหลังจากการศึกษานี้ สมการทั้งหมดที่อธิบายหน้าที่คล้ายคลึงกันและสร้างในลักษณะเดียวกันเริ่มเรียกว่าสมการถดถอย

การวิเคราะห์การถดถอย- หนึ่งในวิธีการวิเคราะห์ข้อมูลทางสถิติหลายตัวแปร ซึ่งรวมชุดเทคนิคทางสถิติที่ออกแบบมาเพื่อศึกษาหรือจำลองความสัมพันธ์ระหว่างตัวแปรอิสระหนึ่งตัวกับตัวแปรอิสระหลายตัว (หรือหนึ่งตัว) ตัวแปรตามตามประเพณีที่ยอมรับในสถิติเรียกว่าการตอบสนองและแสดงเป็น วีตัวแปรอิสระเรียกว่าตัวทำนายและแสดงเป็น xในระหว่างการวิเคราะห์ ตัวแปรบางตัวจะมีความเกี่ยวข้องเพียงเล็กน้อยกับการตอบสนองและจะถูกแยกออกจากการวิเคราะห์ในที่สุด ตัวแปรที่เหลือที่เกี่ยวข้องกับการขึ้นต่อกันอาจถูกเรียกว่าแฟกเตอร์

การวิเคราะห์การถดถอยทำให้สามารถทำนายค่าของตัวแปรตั้งแต่หนึ่งตัวขึ้นไปโดยขึ้นอยู่กับตัวแปรอื่น (เช่น แนวโน้มสำหรับพฤติกรรมทางการเมืองที่แปลกใหม่ขึ้นอยู่กับระดับการศึกษา) หรือหลายตัวแปร มันถูกคำนวณบนพีซี ในการเรียบเรียงสมการถดถอยที่ให้คุณวัดระดับการพึ่งพาคุณลักษณะที่ควบคุมกับปัจจัยนั้น จำเป็นต้องให้นักคณิตศาสตร์-โปรแกรมเมอร์มืออาชีพมีส่วนร่วม การวิเคราะห์การถดถอยสามารถให้บริการที่ทรงคุณค่าในการสร้างแบบจำลองการคาดการณ์สำหรับการพัฒนาสถานการณ์ทางการเมือง การประเมินสาเหตุของความตึงเครียดทางสังคม และในการดำเนินการทดลองเชิงทฤษฎี การวิเคราะห์การถดถอยถูกนำมาใช้อย่างแข็งขันเพื่อศึกษาผลกระทบต่อพฤติกรรมการเลือกตั้งของพลเมืองของตัวแปรทางสังคมและประชากร: เพศ อายุ อาชีพ ที่อยู่อาศัย สัญชาติ ระดับ และลักษณะของรายได้

ในความสัมพันธ์กับการวิเคราะห์การถดถอย แนวคิด เป็นอิสระและ ขึ้นอยู่กับตัวแปร ตัวแปรอิสระเป็นตัวแปรที่อธิบายหรือทำให้เกิดการเปลี่ยนแปลงในตัวแปรอื่น ตัวแปรตามคือตัวแปรที่มีค่าอธิบายโดยอิทธิพลของตัวแปรตัวแรก ตัวอย่างเช่น ในการเลือกตั้งประธานาธิบดีในปี 2547 ปัจจัยที่กำหนดคือ ตัวแปรอิสระเป็นตัวชี้วัด เช่น เสถียรภาพของฐานะการเงินของประชากรของประเทศ ระดับความนิยมของผู้สมัคร และปัจจัย การดำรงตำแหน่งในกรณีนี้ เปอร์เซ็นต์ของการลงคะแนนเสียงสำหรับผู้สมัครถือได้ว่าเป็นตัวแปรตาม ในทำนองเดียวกันในตัวแปรคู่ "อายุของผู้มีสิทธิเลือกตั้ง" และ "ระดับของกิจกรรมการเลือกตั้ง" ตัวแปรแรกเป็นอิสระ ตัวแปรที่สองขึ้นอยู่กับ

การวิเคราะห์การถดถอยช่วยให้คุณสามารถแก้ปัญหาต่อไปนี้:

  • 1) สร้างข้อเท็จจริงของการมีอยู่หรือไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่าง Ci x;
  • 2) สร้างการประมาณการที่ดีที่สุด (ในแง่สถิติ) ของฟังก์ชันการถดถอย
  • 3) ตามค่าที่กำหนด Xสร้างคำทำนายสำหรับสิ่งที่ไม่รู้จัก ที่
  • 4) ประเมินน้ำหนักจำเพาะของอิทธิพลของแต่ละปัจจัย Xบน ที่และด้วยเหตุนี้จึงไม่รวมคุณลักษณะที่ไม่มีนัยสำคัญจากแบบจำลอง
  • 5) โดยการระบุความสัมพันธ์เชิงสาเหตุระหว่างตัวแปร จัดการค่า P บางส่วน โดยการปรับค่าของตัวแปรอธิบาย x

การวิเคราะห์การถดถอยเกี่ยวข้องกับความจำเป็นในการเลือกตัวแปรอิสระร่วมกันที่ส่งผลต่อค่าของตัวบ่งชี้ที่กำลังศึกษา กำหนดรูปแบบของสมการถดถอย และประเมินพารามิเตอร์โดยใช้วิธีการทางสถิติสำหรับการประมวลผลข้อมูลทางสังคมวิทยาเบื้องต้น การวิเคราะห์ประเภทนี้ขึ้นอยู่กับแนวคิดของรูปแบบ ทิศทาง และความใกล้ชิด (ความหนาแน่น) ของความสัมพันธ์ แยกแยะ ห้องอบไอน้ำและ การถดถอยพหุคูณขึ้นอยู่กับจำนวนของคุณสมบัติที่ศึกษา ในทางปฏิบัติ การวิเคราะห์การถดถอยมักจะทำร่วมกับการวิเคราะห์สหสัมพันธ์ สมการถดถอยอธิบายความสัมพันธ์เชิงตัวเลขระหว่างปริมาณ ซึ่งแสดงเป็นแนวโน้มที่ตัวแปรหนึ่งจะเพิ่มขึ้นหรือลดลง ในขณะที่อีกตัวแปรหนึ่งเพิ่มขึ้นหรือลดลง ในเวลาเดียวกัน razl และ h a yut l น้ำแข็งและ การถดถอยแบบไม่เชิงเส้นเมื่ออธิบายกระบวนการทางการเมือง จะพบการถดถอยทั้งสองแบบเท่ากัน

Scatterplot สำหรับการกระจายการพึ่งพาอาศัยกันของผลประโยชน์ในบทความทางการเมือง ( ยู)และการศึกษาของผู้ตอบแบบสอบถาม (X)เป็นการถดถอยเชิงเส้น (รูปที่ 30)

ข้าว. สามสิบ.

Scatterplot สำหรับการกระจายระดับของกิจกรรมการเลือกตั้ง ( ยู)และอายุของผู้ตอบ (A) (ตัวอย่างตามเงื่อนไข) เป็นการถดถอยแบบไม่เชิงเส้น (รูปที่ 31)


ข้าว. 31.

เพื่ออธิบายความสัมพันธ์ของคุณสมบัติทั้งสอง (A "และ Y) ในแบบจำลองการถดถอยแบบคู่ ใช้สมการเชิงเส้น

โดยที่ a คือค่าสุ่มของความคลาดเคลื่อนของสมการที่มีการเปลี่ยนแปลงของคุณสมบัติ กล่าวคือ การเบี่ยงเบนของสมการจาก "เส้นตรง"

เพื่อประเมินค่าสัมประสิทธิ์ เอและ ใช้วิธีกำลังสองน้อยที่สุด ซึ่งถือว่าผลรวมของการเบี่ยงเบนกำลังสองของแต่ละจุดบนพล็อตกระจายจากเส้นถดถอยควรมีค่าน้อยที่สุด อัตราต่อรอง h ขสามารถคำนวณได้โดยใช้ระบบสมการดังนี้

วิธีการประมาณค่ากำลังสองน้อยที่สุดให้ค่าประมาณของสัมประสิทธิ์ เอและ ที่เส้นผ่านจุดที่มีพิกัด Xและ คุณเหล่านั้น. มีความสัมพันธ์ ที่ = ขวาน + ข.การแสดงกราฟิกของสมการถดถอยเรียกว่า เส้นถดถอยเชิงทฤษฎีด้วยการพึ่งพาเชิงเส้น สัมประสิทธิ์การถดถอยจะแสดงแทนเจนต์ของความชันของเส้นการถดถอยเชิงทฤษฎีไปยังแกน x บนกราฟ เครื่องหมายที่สัมประสิทธิ์แสดงทิศทางของความสัมพันธ์ ถ้ามากกว่าศูนย์ แสดงว่าความสัมพันธ์โดยตรง ถ้าน้อยกว่า จะเป็นผกผัน

ตัวอย่างต่อไปนี้จากการศึกษา "การเมืองปีเตอร์สเบิร์ก-2549" (ตารางที่ 56) แสดงให้เห็นความสัมพันธ์เชิงเส้นตรงระหว่างการรับรู้ของพลเมืองเกี่ยวกับระดับความพึงพอใจในชีวิตของตนในปัจจุบันและความคาดหวังของการเปลี่ยนแปลงในคุณภาพชีวิตในอนาคต การเชื่อมต่อเป็นแบบตรง เชิงเส้น (ค่าสัมประสิทธิ์การถดถอยมาตรฐานคือ 0.233 ระดับนัยสำคัญคือ 0.000) ในกรณีนี้ สัมประสิทธิ์การถดถอยไม่สูง แต่เกินขีดจำกัดล่างของตัวบ่งชี้ที่มีนัยสำคัญทางสถิติ (ขีดจำกัดล่างของกำลังสองของตัวบ่งชี้ที่มีนัยสำคัญทางสถิติของสัมประสิทธิ์เพียร์สัน)

ตาราง56

ผลกระทบของคุณภาพชีวิตของประชาชนในปัจจุบันที่มีต่อความคาดหวัง

(เซนต์ปีเตอร์สเบิร์ก 2549)

* ตัวแปรตาม: "คุณคิดว่าชีวิตของคุณจะเปลี่ยนไปในอีก 2-3 ปีข้างหน้าอย่างไร"

ในชีวิตทางการเมือง ค่าของตัวแปรที่อยู่ระหว่างการศึกษามักขึ้นอยู่กับคุณสมบัติหลายประการพร้อมกัน ตัวอย่างเช่น ระดับและธรรมชาติของกิจกรรมทางการเมืองได้รับอิทธิพลจากระบอบการเมืองของรัฐ ประเพณีทางการเมือง ลักษณะเฉพาะของพฤติกรรมทางการเมืองของผู้คนในพื้นที่ที่กำหนด และกลุ่มย่อยทางสังคมของผู้ตอบแบบสอบถาม อายุ การศึกษา รายได้ ระดับ การวางแนวทางการเมือง ฯลฯ ในกรณีนี้คุณต้องใช้สมการ การถดถอยพหุคูณซึ่งมีรูปแบบดังนี้

โดยที่สัมประสิทธิ์ ข.- สัมประสิทธิ์การถดถอยบางส่วน มันแสดงให้เห็นการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวในการกำหนดค่าของตัวแปรอิสระ (ผลลัพธ์) หากสัมประสิทธิ์การถดถอยบางส่วนใกล้เคียงกับ 0 เราก็สรุปได้ว่าไม่มีความสัมพันธ์โดยตรงระหว่างตัวแปรอิสระและตัวแปรตาม

การคำนวณของแบบจำลองดังกล่าวสามารถทำได้บนพีซีโดยใช้เมทริกซ์พีชคณิต การถดถอยพหุคูณทำให้คุณสามารถสะท้อนถึงลักษณะพหุปัจจัยของความสัมพันธ์ทางสังคม และชี้แจงระดับของอิทธิพลของแต่ละปัจจัยทีละอย่างและรวมกันทั้งหมดเกี่ยวกับลักษณะที่เป็นผล

ค่าสัมประสิทธิ์แสดง เรียกว่าสัมประสิทธิ์การถดถอยเชิงเส้นและแสดงความแรงของความสัมพันธ์ระหว่างการแปรผันของแอตทริบิวต์แฟกเตอร์ Xและการเปลี่ยนแปลงของคุณลักษณะที่มีประสิทธิภาพ Yค่าสัมประสิทธิ์นี้วัดความแข็งแกร่งของความสัมพันธ์ในหน่วยการวัดคุณสมบัติแบบสัมบูรณ์ อย่างไรก็ตาม ความใกล้ชิดของความสัมพันธ์ของคุณลักษณะยังสามารถแสดงในแง่ของค่าเบี่ยงเบนมาตรฐานของคุณลักษณะผลลัพธ์ (ค่าสัมประสิทธิ์ดังกล่าวเรียกว่าสัมประสิทธิ์สหสัมพันธ์) ไม่เหมือนกับสัมประสิทธิ์การถดถอย ค่าสัมประสิทธิ์สหสัมพันธ์ไม่ได้ขึ้นอยู่กับหน่วยการวัดคุณสมบัติที่ยอมรับ ดังนั้นจึงเทียบได้กับคุณสมบัติใดๆ โดยปกติการเชื่อมต่อจะถือว่าแข็งแกร่งถ้า /> 0.7 ความหนาแน่นปานกลาง - ที่ 0.5 ก. 0.5

ดังที่คุณทราบ การเชื่อมต่อที่ใกล้เคียงที่สุดคือการเชื่อมต่อที่ใช้งานได้ เมื่อแต่ละค่าแต่ละค่า Yสามารถกำหนดมูลค่าได้ไม่ซ้ำกัน xดังนั้น ยิ่งค่าสัมประสิทธิ์สหสัมพันธ์ใกล้ 1 มากเท่าใด ความสัมพันธ์ก็ยิ่งใกล้ชิดกับค่าเชิงฟังก์ชันมากขึ้นเท่านั้น ระดับนัยสำคัญของการวิเคราะห์การถดถอยไม่ควรเกิน 0.001

ค่าสัมประสิทธิ์สหสัมพันธ์ได้รับการพิจารณาว่าเป็นตัวบ่งชี้หลักของความใกล้ชิดของความสัมพันธ์ของคุณลักษณะมาเป็นเวลานาน อย่างไรก็ตาม ภายหลังสัมประสิทธิ์ความมุ่งมั่นกลายเป็นตัวบ่งชี้ดังกล่าว ความหมายของสัมประสิทธิ์นี้มีดังต่อไปนี้ - มันสะท้อนถึงส่วนแบ่งของความแปรปรวนทั้งหมดของคุณลักษณะผลลัพธ์ ที่อธิบายโดยความแปรปรวนของคุณสมบัติ xพบได้โดยการยกกำลังสองสัมประสิทธิ์สหสัมพันธ์ (เปลี่ยนจาก 0 เป็น 1) และในทางกลับกัน สำหรับความสัมพันธ์เชิงเส้นจะสะท้อนถึงส่วนแบ่งจาก 0 (0%) ถึง 1 (100%) ค่าลักษณะเฉพาะ ใช่กำหนดโดยค่าของแอตทริบิวต์ xมันถูกบันทึกเป็น ฉัน 2 ,และในตารางผลลัพธ์ของการวิเคราะห์การถดถอยในแพ็คเกจ SPSS - ไม่มีกำลังสอง

ให้เราแสดงปัญหาหลักของการสร้างสมการถดถอยพหุคูณ

  • 1. การเลือกปัจจัยที่รวมอยู่ในสมการถดถอยในขั้นตอนนี้ ผู้วิจัยได้รวบรวมรายการสาเหตุหลักทั่วไปก่อน ซึ่งตามทฤษฎีแล้ว ให้กำหนดปรากฏการณ์ที่อยู่ระหว่างการศึกษา จากนั้นเขาต้องเลือกคุณสมบัติในสมการถดถอย กฎการเลือกหลักคือปัจจัยที่รวมอยู่ในการวิเคราะห์ควรมีความสัมพันธ์ซึ่งกันและกันน้อยที่สุด ในกรณีนี้เท่านั้นจึงเป็นไปได้ที่จะระบุการวัดอิทธิพลเชิงปริมาณกับแอตทริบิวต์ปัจจัยบางอย่าง
  • 2. การเลือกรูปแบบของสมการถดถอยพหุคูณ(ในทางปฏิบัติมักใช้ลอการิทึมเชิงเส้นหรือเชิงเส้นมากกว่า) ดังนั้น ในการใช้การถดถอยพหุคูณ อันดับแรก ผู้วิจัยต้องสร้างแบบจำลองสมมุติฐานของอิทธิพลของตัวแปรอิสระหลายตัวที่มีต่อตัวแปรผลลัพธ์ เพื่อให้ผลลัพธ์ที่ได้มีความน่าเชื่อถือ แบบจำลองจำเป็นต้องตรงกับกระบวนการจริงทุกประการ กล่าวคือ ความสัมพันธ์ระหว่างตัวแปรต้องเป็นเชิงเส้น ไม่สามารถละเลยตัวแปรอิสระที่มีนัยสำคัญเพียงตัวเดียวได้ ในทำนองเดียวกัน ไม่สามารถรวมตัวแปรเดียวที่ไม่เกี่ยวข้องโดยตรงกับกระบวนการภายใต้การศึกษาในการวิเคราะห์ได้ นอกจากนี้ การวัดตัวแปรทั้งหมดจะต้องแม่นยำอย่างยิ่ง

จากคำอธิบายข้างต้นมีเงื่อนไขหลายประการสำหรับการประยุกต์ใช้วิธีนี้ โดยที่จะไม่สามารถดำเนินการตามขั้นตอนของการวิเคราะห์การถดถอยพหุคูณ (MRA) การปฏิบัติตามประเด็นต่อไปนี้ทั้งหมดเท่านั้นทำให้คุณสามารถวิเคราะห์การถดถอยได้อย่างถูกต้อง

ในการสร้างแบบจำลองทางสถิติ การวิเคราะห์การถดถอยเป็นการศึกษาที่ใช้เพื่อประเมินความสัมพันธ์ระหว่างตัวแปร วิธีการทางคณิตศาสตร์นี้รวมถึงวิธีการอื่นๆ อีกมากมายสำหรับการสร้างแบบจำลองและวิเคราะห์ตัวแปรหลายตัวเมื่อโฟกัสอยู่ที่ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระอย่างน้อยหนึ่งตัว โดยเฉพาะอย่างยิ่ง การวิเคราะห์การถดถอยช่วยให้คุณเข้าใจว่าค่าปกติของตัวแปรตามเปลี่ยนแปลงไปอย่างไร หากตัวแปรอิสระตัวใดตัวหนึ่งเปลี่ยนแปลงไปในขณะที่ตัวแปรอิสระอื่นๆ ยังคงคงที่อยู่

ในทุกกรณี คะแนนเป้าหมายเป็นฟังก์ชันของตัวแปรอิสระและเรียกว่าฟังก์ชันการถดถอย ในการวิเคราะห์การถดถอย การกำหนดลักษณะการเปลี่ยนแปลงในตัวแปรตามเป็นฟังก์ชันของการถดถอยเป็นสิ่งที่น่าสนใจเช่นกัน ซึ่งสามารถอธิบายได้โดยใช้การแจกแจงความน่าจะเป็น

งานของการวิเคราะห์การถดถอย

วิธีการวิจัยทางสถิตินี้ใช้กันอย่างแพร่หลายในการคาดการณ์ ซึ่งการใช้งานมีข้อได้เปรียบที่สำคัญ แต่บางครั้งอาจนำไปสู่ภาพลวงตาหรือความสัมพันธ์ที่ผิดพลาด ดังนั้นจึงแนะนำให้ใช้อย่างระมัดระวังในคำถามนี้ เนื่องจากความสัมพันธ์ไม่ได้หมายความว่า สาเหตุ

ที่พัฒนา จำนวนมากวิธีการวิเคราะห์การถดถอย เช่น การถดถอยกำลังสองน้อยที่สุดแบบเชิงเส้นและแบบธรรมดา ซึ่งเป็นแบบพาราเมตริก สาระสำคัญของพวกเขาคือฟังก์ชันการถดถอยถูกกำหนดในแง่ของจำนวนพารามิเตอร์ที่ไม่รู้จักซึ่งประเมินจากข้อมูล การถดถอยแบบไม่อิงพารามิเตอร์ทำให้ฟังก์ชันของมันอยู่ในชุดของฟังก์ชันบางชุด ซึ่งสามารถเป็นแบบอนันต์มิติได้

เป็นวิธีการวิจัยทางสถิติ ในทางปฏิบัติการวิเคราะห์การถดถอยขึ้นอยู่กับรูปแบบของกระบวนการสร้างข้อมูลและความเกี่ยวข้องกับวิธีการถดถอย เนื่องจากรูปแบบที่แท้จริงของการสร้างกระบวนการข้อมูลมักเป็นตัวเลขที่ไม่รู้จัก การวิเคราะห์การถดถอยของข้อมูลจึงมักขึ้นอยู่กับสมมติฐานบางประการเกี่ยวกับกระบวนการ สมมติฐานเหล่านี้บางครั้งสามารถทดสอบได้หากมีข้อมูลเพียงพอ ตัวแบบการถดถอยมักจะมีประโยชน์แม้ว่าข้อสันนิษฐานจะถูกละเมิดในระดับปานกลาง แม้ว่าตัวแบบการถดถอยอาจไม่ทำงานได้ดีที่สุดก็ตาม

ในความหมายที่แคบกว่า การถดถอยสามารถอ้างถึงการประมาณค่าของตัวแปรตอบสนองอย่างต่อเนื่องโดยเฉพาะ เมื่อเทียบกับตัวแปรการตอบสนองแบบแยกส่วนที่ใช้ในการจำแนกประเภท กรณีของตัวแปรเอาต์พุตต่อเนื่องเรียกอีกอย่างว่าการถดถอยเมตริกเพื่อแยกความแตกต่างจากปัญหาที่เกี่ยวข้อง

เรื่องราว

มากที่สุด ฟอร์มต้นการถดถอยเป็นวิธีที่รู้จักกันดีของกำลังสองน้อยที่สุด มันถูกตีพิมพ์โดย Legendre ในปี 1805 และ Gauss ในปี 1809 Legendre และ Gauss ใช้วิธีนี้ในการกำหนดปัญหาจากการสังเกตทางดาราศาสตร์วงโคจรของวัตถุรอบดวงอาทิตย์ (ส่วนใหญ่เป็นดาวหาง เกาส์ตีพิมพ์การพัฒนาเพิ่มเติมของทฤษฎีกำลังสองน้อยที่สุดในปี ค.ศ. 1821 ซึ่งรวมถึงทฤษฎีบทเกาส์-มาร์คอฟที่แปรผัน

คำว่า "ถดถอย" ถูกสร้างขึ้นโดยฟรานซิส กัลตันในศตวรรษที่ 19 เพื่ออธิบายปรากฏการณ์ทางชีววิทยา บรรทัดล่างคือการเติบโตของลูกหลานจากการเติบโตของบรรพบุรุษตามกฎแล้วถดถอยลงสู่ค่าเฉลี่ยปกติ สำหรับ Galton การถดถอยมีความหมายทางชีวภาพเท่านั้น แต่ต่อมางานของเขาถูก Udni Yoley และ Karl Pearson หยิบขึ้นมาและนำไปสู่บริบททางสถิติทั่วไปมากขึ้น ในงานของเทศกาลคริสต์มาสและเพียร์สัน การกระจายร่วมกันของการตอบสนองและตัวแปรอธิบายถือเป็นแบบเกาส์เซียน สมมติฐานนี้ถูกปฏิเสธโดย Fischer ในเอกสารของปี 1922 และ 1925 ฟิชเชอร์แนะนำว่าการแจกแจงแบบมีเงื่อนไขของตัวแปรตอบสนองคือ Gaussian แต่ไม่จำเป็นต้องเป็นการกระจายร่วม ในเรื่องนี้ ข้อเสนอแนะของฟิชเชอร์นั้นใกล้เคียงกับสูตรของเกาส์ในปี 1821 ก่อนปี 1970 บางครั้งอาจใช้เวลาถึง 24 ชั่วโมงเพื่อให้ได้ผลลัพธ์ของการวิเคราะห์การถดถอย

วิธีการวิเคราะห์การถดถอยยังคงเป็นพื้นที่ของการวิจัยเชิงรุก ในทศวรรษที่ผ่านมา มีการพัฒนาวิธีการใหม่เพื่อการถดถอยที่แข็งแกร่ง การถดถอยที่เกี่ยวข้องกับการตอบสนองที่มีความสัมพันธ์ วิธีการถดถอยที่รองรับข้อมูลที่ขาดหายไปประเภทต่างๆ การถดถอยแบบไม่อิงพารามิเตอร์ วิธีการถดถอยแบบเบย์ การถดถอยที่ตัวแปรทำนายถูกวัดด้วยข้อผิดพลาด การถดถอยที่มีตัวทำนายมากกว่าการสังเกต และการอนุมานเชิงสาเหตุด้วยการถดถอย

แบบจำลองการถดถอย

โมเดลการวิเคราะห์การถดถอยประกอบด้วยตัวแปรต่อไปนี้:

  • พารามิเตอร์ที่ไม่รู้จัก ซึ่งแสดงเป็นเบต้า ซึ่งสามารถเป็นสเกลาร์หรือเวกเตอร์
  • ตัวแปรอิสระ X.
  • ตัวแปรตาม, Y.

ที่ สาขาต่างๆวิทยาศาสตร์ที่ใช้การวิเคราะห์การถดถอยใช้คำศัพท์ที่แตกต่างกันแทนตัวแปรตามและตัวแปรอิสระ แต่ในทุกกรณี แบบจำลองการถดถอยจะเชื่อมโยง Y กับฟังก์ชันของ X และ β

การประมาณมักจะกำหนดเป็น E (Y | X) = F (X, β) ในการวิเคราะห์การถดถอย ต้องกำหนดรูปแบบของฟังก์ชัน f น้อยครั้งกว่านั้นจะขึ้นอยู่กับความรู้เกี่ยวกับความสัมพันธ์ระหว่าง Y และ X ที่ไม่ขึ้นอยู่กับข้อมูล หากไม่มีความรู้ดังกล่าว ให้เลือกแบบฟอร์ม F ที่ยืดหยุ่นหรือสะดวก

ตัวแปรตาม Y

ให้เราสมมติว่าเวกเตอร์ของพารามิเตอร์ที่ไม่รู้จัก β มีความยาว k เพื่อทำการวิเคราะห์การถดถอย ผู้ใช้ต้องให้ข้อมูลเกี่ยวกับตัวแปรตาม Y:

  • หากสังเกตจุดข้อมูล N ของแบบฟอร์ม (Y, X) โดยที่ N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • หากสังเกต N = K ทุกประการ และฟังก์ชัน F เป็นเส้นตรง สมการ Y = F(X, β) จะสามารถแก้ไขได้ทุกประการ ไม่ใช่ประมาณ สิ่งนี้ทำให้การแก้เซตของสมการ N กับ N-unknowns (องค์ประกอบของ β) นั้นมีคำตอบเฉพาะตราบใดที่ X มีความเป็นอิสระเชิงเส้น ถ้า F ไม่เชิงเส้น อาจไม่มีคำตอบ หรืออาจมีคำตอบมากมาย
  • สถานการณ์ที่พบบ่อยที่สุดคือจุดที่มี N > ชี้ไปที่ข้อมูล ในกรณีนี้ มีข้อมูลเพียงพอในข้อมูลที่จะประมาณค่าเฉพาะสำหรับ β ที่เหมาะสมกับข้อมูลมากที่สุด และตัวแบบการถดถอยเมื่อนำไปใช้กับข้อมูลสามารถมองได้ว่าเป็นระบบที่ถูกแทนที่ใน β

ในกรณีหลัง การวิเคราะห์การถดถอยมีเครื่องมือสำหรับ:

  • การหาวิธีแก้ปัญหาสำหรับพารามิเตอร์ที่ไม่รู้จัก β ซึ่งจะทำให้ระยะห่างระหว่างค่าที่วัดได้และค่าที่คาดการณ์ไว้ของ Y น้อยที่สุด
  • ภายใต้สมมติฐานทางสถิติบางประการ การวิเคราะห์การถดถอยจะใช้ข้อมูลที่มากเกินไปเพื่อให้ข้อมูลทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก β และค่าที่คาดการณ์ไว้ของตัวแปรตาม Y

จำนวนการวัดอิสระที่ต้องการ

พิจารณาตัวแบบการถดถอยที่มีพารามิเตอร์ที่ไม่รู้จักสามตัว: β 0 , β 1 และ β 2 สมมติว่าผู้ทดลองทำการวัด 10 ครั้งในค่าเดียวกันของตัวแปรอิสระของเวกเตอร์ X ในกรณีนี้ การวิเคราะห์การถดถอยไม่ได้ให้ชุดค่าที่ไม่ซ้ำกัน สิ่งที่ดีที่สุดที่ทำได้คือการประมาณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของตัวแปรตาม Y ในทำนองเดียวกัน การวัดค่า two ค่านิยมที่แตกต่างกัน X คุณสามารถรับข้อมูลเพียงพอสำหรับการถดถอยที่มีสองไม่ทราบข้อมูล แต่ไม่ใช่สำหรับไม่ทราบสามรายการขึ้นไป

หากการวัดของผู้ทดลองใช้ค่าที่แตกต่างกันสามค่าของตัวแปรเวกเตอร์อิสระ X การวิเคราะห์การถดถอยจะให้ชุดค่าประมาณที่ไม่ซ้ำกันสำหรับพารามิเตอร์ที่ไม่รู้จักสามตัวใน β

ในกรณีของการถดถอยเชิงเส้นทั่วไป ข้อความข้างต้นเทียบเท่ากับข้อกำหนดที่เมทริกซ์ X T X สามารถกลับด้านได้

สมมติฐานทางสถิติ

เมื่อจำนวนการวัด N มากกว่าจำนวนพารามิเตอร์ที่ไม่รู้จัก k และข้อผิดพลาดในการวัด ε ผม ตามกฎแล้ว ข้อมูลส่วนเกินที่มีอยู่ในการวัดจะถูกแจกจ่ายและใช้สำหรับการคาดการณ์ทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก ข้อมูลส่วนเกินนี้เรียกว่าระดับความอิสระของการถดถอย

สมมติฐานพื้นฐาน

สมมติฐานคลาสสิกสำหรับการวิเคราะห์การถดถอยประกอบด้วย:

  • การสุ่มตัวอย่างเป็นตัวแทนของการทำนายการอนุมาน
  • ข้อผิดพลาดคือตัวแปรสุ่มที่มีค่าเฉลี่ยเป็นศูนย์ ซึ่งเป็นเงื่อนไขของตัวแปรอธิบาย
  • ตัวแปรอิสระจะถูกวัดโดยไม่มีข้อผิดพลาด
  • ในฐานะตัวแปรอิสระ (ตัวทำนาย) พวกมันเป็นอิสระเชิงเส้น กล่าวคือ มันเป็นไปไม่ได้ที่จะแสดงตัวทำนายใด ๆ เป็นชุดค่าผสมเชิงเส้นของตัวแปรอื่น
  • ข้อผิดพลาดไม่มีความสัมพันธ์กัน กล่าวคือ เมทริกซ์ความแปรปรวนร่วมข้อผิดพลาดของเส้นทแยงมุมและองค์ประกอบที่ไม่ใช่ศูนย์แต่ละองค์ประกอบคือความแปรปรวนของข้อผิดพลาด
  • ความแปรปรวนของข้อผิดพลาดจะคงที่ตลอดการสังเกต (homoscedasticity) ถ้าไม่เช่นนั้น สามารถใช้ช่องสี่เหลี่ยมที่ถ่วงน้ำหนักน้อยที่สุดหรือวิธีอื่นๆ ได้

เงื่อนไขที่เพียงพอเหล่านี้สำหรับการประมาณค่ากำลังสองน้อยที่สุดมีคุณสมบัติที่จำเป็น โดยเฉพาะอย่างยิ่ง สมมติฐานเหล่านี้หมายความว่าการประมาณค่าพารามิเตอร์จะเป็นไปตามวัตถุประสงค์ สอดคล้องกัน และมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งเมื่อนำมาพิจารณาในกลุ่มของการประมาณการเชิงเส้น สิ่งสำคัญคือต้องสังเกตว่าข้อมูลจริงไม่ค่อยเป็นไปตามเงื่อนไข กล่าวคือใช้วิธีนี้แม้ว่าสมมติฐานจะไม่ถูกต้องก็ตาม การเปลี่ยนแปลงจากสมมติฐานในบางครั้งสามารถใช้เป็นตัวชี้วัดว่าแบบจำลองมีประโยชน์อย่างไร หลายข้อสันนิษฐานเหล่านี้สามารถผ่อนคลายได้ด้วยวิธีการขั้นสูง รายงานการวิเคราะห์ทางสถิติมักจะรวมการวิเคราะห์การทดสอบกับข้อมูลตัวอย่างและวิธีการเพื่อประโยชน์ของแบบจำลอง

นอกจากนี้ ตัวแปรในบางกรณียังอ้างถึงค่าที่วัดที่ตำแหน่งจุด อาจมีแนวโน้มเชิงพื้นที่และความสัมพันธ์เชิงพื้นที่ในตัวแปรที่ละเมิดสมมติฐานทางสถิติ การถดถอยแบบถ่วงน้ำหนักทางภูมิศาสตร์เป็นวิธีเดียวที่เกี่ยวข้องกับข้อมูลดังกล่าว

ในการถดถอยเชิงเส้น คุณลักษณะคือตัวแปรตาม ซึ่งคือ Y ผม เป็นชุดค่าผสมเชิงเส้นของพารามิเตอร์ ตัวอย่างเช่น ในการถดถอยเชิงเส้นอย่างง่าย การสร้างแบบจำลองจุด n ใช้ตัวแปรอิสระหนึ่งตัว x i และพารามิเตอร์สองตัวคือ β 0 และ β 1

ในการถดถอยเชิงเส้นพหุคูณ มีตัวแปรอิสระหรือฟังก์ชันหลายตัว

เมื่อสุ่มสุ่มตัวอย่างจากประชากร พารามิเตอร์จะทำให้ได้ตัวอย่างของแบบจำลองการถดถอยเชิงเส้น

ในแง่นี้ วิธีกำลังสองน้อยที่สุดเป็นวิธีที่ได้รับความนิยมมากที่สุด มันให้ค่าประมาณพารามิเตอร์ที่ลดผลรวมของกำลังสองของเศษเหลือ การย่อเล็กสุดประเภทนี้ (ซึ่งเป็นเรื่องปกติของการถดถอยเชิงเส้น) ของฟังก์ชันนี้นำไปสู่ชุดของสมการปกติและเซต สมการเชิงเส้นด้วยพารามิเตอร์ที่ได้รับการแก้ไขเพื่อให้ได้ค่าประมาณพารามิเตอร์

สมมติว่าข้อผิดพลาดของประชากรโดยทั่วไปแพร่กระจายออกไป ผู้วิจัยสามารถใช้ค่าประมาณของข้อผิดพลาดมาตรฐานเพื่อสร้างช่วงความเชื่อมั่นและดำเนินการทดสอบสมมติฐานเกี่ยวกับพารามิเตอร์

การวิเคราะห์การถดถอยไม่เชิงเส้น

ตัวอย่างที่ฟังก์ชันไม่เป็นเส้นตรงเมื่อเทียบกับพารามิเตอร์ระบุว่าผลรวมของกำลังสองควรถูกย่อให้เล็กสุดด้วยกระบวนการวนซ้ำ สิ่งนี้ทำให้เกิดความยุ่งยากหลายอย่างที่กำหนดความแตกต่างระหว่างวิธีการกำลังสองน้อยที่สุดเชิงเส้นและไม่เชิงเส้น ดังนั้น ผลลัพธ์ของการวิเคราะห์การถดถอยเมื่อใช้วิธีที่ไม่เป็นเชิงเส้นในบางครั้งจึงคาดเดาไม่ได้

การคำนวณกำลังและขนาดตัวอย่าง

ตามกฎแล้วไม่มีวิธีการที่สอดคล้องกันเกี่ยวกับจำนวนการสังเกตเมื่อเทียบกับจำนวนตัวแปรอิสระในแบบจำลอง กฎข้อแรกเสนอโดย Dobra และ Hardin และดูเหมือนว่า N = t^n โดยที่ N คือขนาดตัวอย่าง n คือจำนวนตัวแปรอธิบาย และ t คือจำนวนการสังเกตที่จำเป็นเพื่อให้ได้ความแม่นยำตามที่ต้องการ หากแบบจำลองมี ตัวแปรอธิบายเพียงตัวเดียว ตัวอย่างเช่น นักวิจัยสร้างแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดข้อมูลที่มีผู้ป่วย 1,000 ราย (N) หากผู้วิจัยตัดสินใจว่าจำเป็นต้องมีการสังเกตห้าครั้งเพื่อกำหนดเส้นตรง (m) อย่างถูกต้อง จำนวนตัวแปรอธิบายสูงสุดที่แบบจำลองสามารถรองรับได้คือ 4

วิธีอื่นๆ

แม้ว่าพารามิเตอร์ของตัวแบบการถดถอยมักจะประมาณโดยใช้วิธีกำลังสองน้อยที่สุด แต่ก็มีวิธีการอื่นที่ใช้ไม่บ่อยนัก ตัวอย่างเช่น มีวิธีการดังต่อไปนี้:

  • วิธีเบย์เซียน (เช่น วิธีเบเซียนของการถดถอยเชิงเส้น)
  • เปอร์เซ็นต์การถดถอยที่ใช้สำหรับสถานการณ์ที่การลดข้อผิดพลาดเป็นเปอร์เซ็นต์ถือว่าเหมาะสมกว่า
  • การเบี่ยงเบนสัมบูรณ์ที่เล็กที่สุด ซึ่งมีประสิทธิภาพมากกว่าเมื่อมีค่าผิดปกติที่นำไปสู่การถดถอยควอนไทล์
  • การถดถอยแบบไม่อิงพารามิเตอร์ที่ต้องการการสังเกตและการคำนวณจำนวนมาก
  • ระยะทางของตัววัดการเรียนรู้ที่เรียนรู้ในการค้นหาตัววัดระยะทางที่มีความหมายในพื้นที่ป้อนข้อมูลที่กำหนด

ซอฟต์แวร์

แพ็คเกจซอฟต์แวร์ทางสถิติที่สำคัญทั้งหมดดำเนินการโดยใช้การวิเคราะห์การถดถอยกำลังสองน้อยที่สุด สามารถใช้การถดถอยเชิงเส้นอย่างง่ายและการวิเคราะห์การถดถอยพหุคูณในแอปพลิเคชันสเปรดชีตบางโปรแกรมเช่นเดียวกับเครื่องคิดเลขบางตัว แม้ว่าชุดซอฟต์แวร์ทางสถิติจำนวนมากสามารถดำเนินการถดถอยแบบไม่อิงพารามิเตอร์ได้หลายประเภท แต่วิธีการเหล่านี้มีมาตรฐานน้อยกว่า แพ็คเกจซอฟต์แวร์ต่าง ๆ ใช้วิธีการที่แตกต่างกัน ซอฟต์แวร์การถดถอยแบบพิเศษได้รับการพัฒนาเพื่อใช้ในด้านต่างๆ เช่น การวิเคราะห์แบบสำรวจและการสร้างภาพประสาท

คุณลักษณะหลักของการวิเคราะห์การถดถอยคือสามารถใช้เพื่อให้ได้ข้อมูลเฉพาะเกี่ยวกับรูปแบบและลักษณะของความสัมพันธ์ระหว่างตัวแปรที่ศึกษา

ลำดับขั้นของการวิเคราะห์การถดถอย

ให้เราพิจารณาสั้นๆ เกี่ยวกับขั้นตอนของการวิเคราะห์การถดถอย

    สูตรงาน ในขั้นตอนนี้ มีการสร้างสมมติฐานเบื้องต้นเกี่ยวกับการพึ่งพาปรากฏการณ์ที่ศึกษา

    คำจำกัดความของตัวแปรตามและอิสระ (อธิบาย)

    การรวบรวมข้อมูลทางสถิติ ต้องรวบรวมข้อมูลสำหรับแต่ละตัวแปรที่รวมอยู่ในแบบจำลองการถดถอย

    การกำหนดสมมติฐานเกี่ยวกับรูปแบบของการเชื่อมต่อ

    คำนิยาม ฟังก์ชันถดถอย (ประกอบด้วยการคำนวณค่าตัวเลขของพารามิเตอร์ของสมการถดถอย)

    การประเมินความถูกต้องของการวิเคราะห์การถดถอย

    การตีความผลลัพธ์ที่ได้รับ ผลการวิเคราะห์การถดถอยเปรียบเทียบกับสมมติฐานเบื้องต้น ความถูกต้องและความเป็นไปได้ของผลลัพธ์ที่ได้รับจะได้รับการประเมิน

    การทำนายค่าที่ไม่รู้จักของตัวแปรตาม

ด้วยความช่วยเหลือของการวิเคราะห์การถดถอย เป็นไปได้ที่จะแก้ปัญหาการคาดการณ์และการจำแนกประเภท ค่าทำนายคำนวณโดยการแทนที่ค่าของตัวแปรอธิบายลงในสมการถดถอย ปัญหาการจัดหมวดหมู่ได้รับการแก้ไขด้วยวิธีนี้: เส้นการถดถอยแบ่งชุดของวัตถุทั้งหมดออกเป็นสองคลาสและส่วนของชุดที่มีค่าของฟังก์ชันมากกว่าศูนย์เป็นของหนึ่งคลาสและส่วนที่น้อยกว่า กว่าศูนย์เป็นของคลาสอื่น

งานของการวิเคราะห์การถดถอย

พิจารณางานหลักของการวิเคราะห์การถดถอย: การสร้างรูปแบบการพึ่งพา, การกำหนด ฟังก์ชันถดถอย, ค่าประมาณของค่าที่ไม่รู้จักของตัวแปรตาม

การสร้างรูปแบบการพึ่งพาอาศัยกัน

ลักษณะและรูปแบบของความสัมพันธ์ระหว่างตัวแปรสามารถก่อให้เกิดการถดถอยประเภทต่อไปนี้:

    การถดถอยเชิงเส้นเชิงบวก (แสดงเป็นการเติบโตที่สม่ำเสมอของฟังก์ชัน)

    การถดถอยแบบเร่งบวกสม่ำเสมอ;

    การถดถอยที่เพิ่มขึ้นเป็นบวก

    การถดถอยเชิงเส้นเชิงลบ (แสดงเป็นฟังก์ชันดรอปแบบสม่ำเสมอ);

    การถดถอยลดลงอย่างรวดเร็วสม่ำเสมอ

    การถดถอยลดลงอย่างสม่ำเสมอ

อย่างไรก็ตาม พันธุ์ที่อธิบายไว้มักจะไม่พบในรูปแบบบริสุทธิ์ แต่รวมกัน ในกรณีนี้ เราพูดถึงรูปแบบการถดถอยรวมกัน

นิยามของฟังก์ชันการถดถอย

งานที่สองคือการค้นหาผลกระทบต่อตัวแปรตามของปัจจัยหรือสาเหตุหลัก สิ่งอื่น ๆ ทั้งหมดเท่าเทียมกัน และขึ้นอยู่กับการยกเว้นของผลกระทบต่อตัวแปรตามขององค์ประกอบสุ่ม ฟังก์ชันถดถอยกำหนดเป็นสมการทางคณิตศาสตร์ประเภทใดประเภทหนึ่ง

การประมาณค่าที่ไม่รู้จักของตัวแปรตาม

การแก้ปัญหานี้ลดลงเป็นการแก้ปัญหาประเภทใดประเภทหนึ่งต่อไปนี้:

    การประมาณค่าของตัวแปรตามภายในช่วงเวลาที่พิจารณาของข้อมูลเริ่มต้นคือ ค่าที่ขาดหายไป; นี้แก้ปัญหาของการแก้ไข

    การประมาณค่าในอนาคตของตัวแปรตามเช่น ค้นหาค่านอกช่วงเวลาที่กำหนดของข้อมูลเริ่มต้น นี้แก้ปัญหาของการอนุมาน

ปัญหาทั้งสองได้รับการแก้ไขโดยการแทนที่การประมาณการที่พบของพารามิเตอร์ของค่าของตัวแปรอิสระลงในสมการถดถอย ผลลัพธ์ของการแก้สมการคือการประมาณค่าของตัวแปรเป้าหมาย (ขึ้นกับ)

ลองดูสมมติฐานบางข้อที่การวิเคราะห์การถดถอยอาศัยกัน

สมมติฐานเชิงเส้น กล่าวคือ สันนิษฐานว่าความสัมพันธ์ระหว่างตัวแปรที่พิจารณาเป็นเชิงเส้น ในตัวอย่างนี้ เราสร้าง scatterplot และสามารถเห็นความสัมพันธ์เชิงเส้นที่ชัดเจน หากบน scatterplot ของตัวแปร เราเห็นว่าไม่มีความสัมพันธ์เชิงเส้นที่ชัดเจน กล่าวคือ มีความสัมพันธ์ที่ไม่เป็นเชิงเส้น ควรใช้วิธีการวิเคราะห์ที่ไม่เป็นเชิงเส้น

สมมติฐานความปกติ ของเหลือ. ถือว่าการกระจายความแตกต่างระหว่างค่าที่คาดการณ์และค่าที่สังเกตได้เป็นเรื่องปกติ คุณสามารถใช้ฮิสโตแกรมเพื่อกำหนดลักษณะการแจกแจงด้วยสายตาได้ ของเหลือ.

เมื่อใช้การวิเคราะห์การถดถอย เราควรคำนึงถึงข้อจำกัดหลักด้วย ประกอบด้วยข้อเท็จจริงที่ว่าการวิเคราะห์การถดถอยช่วยให้คุณตรวจจับเฉพาะการขึ้นต่อกันเท่านั้น ไม่ใช่ความสัมพันธ์ที่รองรับการขึ้นต่อกันเหล่านี้

การวิเคราะห์การถดถอยทำให้สามารถประเมินระดับความสัมพันธ์ระหว่างตัวแปรได้โดยการคำนวณค่าที่คาดหวังของตัวแปรตามค่าที่ทราบหลายค่า

สมการถดถอย

สมการถดถอยมีลักษณะดังนี้: Y=a+b*X

การใช้สมการนี้ ตัวแปร Y จะแสดงในรูปของค่าคงที่ a และความชันของเส้น (หรือความชัน) b คูณด้วยค่าของตัวแปร X ค่าคงที่ a เรียกอีกอย่างว่าการสกัดกั้น และความชันคือการถดถอย ค่าสัมประสิทธิ์หรือปัจจัย B

ในกรณีส่วนใหญ่ (ถ้าไม่เสมอไป) มีข้อสังเกตบางประการเกี่ยวกับเส้นการถดถอย

ส่วนที่เหลือ คือการเบี่ยงเบนของแต่ละจุด (การสังเกต) จากเส้นถดถอย (ค่าที่คาดการณ์)

ในการแก้ปัญหาการวิเคราะห์การถดถอยใน MS Excel ให้เลือกจากเมนู บริการ"ชุดวิเคราะห์"และเครื่องมือวิเคราะห์การถดถอย ระบุช่วงอินพุต X และ Y ช่วงอินพุต Y คือช่วงของข้อมูลที่ขึ้นต่อกันที่กำลังวิเคราะห์และต้องมีหนึ่งคอลัมน์ ช่วงอินพุต X คือช่วงของข้อมูลอิสระที่จะวิเคราะห์ จำนวนช่วงอินพุตต้องไม่เกิน 16

ที่ผลลัพธ์ของขั้นตอนในช่วงผลลัพธ์ เราได้รับรายงานที่ระบุใน ตาราง 8.3a-8.3v.

ผลลัพธ์

ตาราง 8.3a. สถิติการถดถอย

สถิติการถดถอย

หลาย R

R-สี่เหลี่ยม

R-square ปกติ

มาตรฐานบกพร่อง

ข้อสังเกต

ขั้นแรก พิจารณาส่วนบนของการคำนวณที่นำเสนอใน ตาราง 8.3a, - สถิติการถดถอย

ค่า R-สี่เหลี่ยมเรียกอีกอย่างว่าการวัดความแน่นอน แสดงถึงคุณภาพของเส้นการถดถอยที่เกิดขึ้น คุณภาพนี้แสดงโดยระดับความสอดคล้องระหว่างข้อมูลดั้งเดิมกับแบบจำลองการถดถอย (ข้อมูลที่คำนวณ) การวัดความแน่นอนอยู่ภายในช่วงเวลาเสมอ

ในกรณีส่วนใหญ่ ค่า R-สี่เหลี่ยมอยู่ระหว่างค่าเหล่านี้ เรียกว่า สุดโต่ง กล่าวคือ ระหว่างศูนย์และหนึ่ง

ถ้าค่า R-สี่เหลี่ยมใกล้เคียงกับความสามัคคี นี่หมายความว่าแบบจำลองที่สร้างขึ้นจะอธิบายความแปรปรวนเกือบทั้งหมดของตัวแปรที่เกี่ยวข้องกัน ในทางกลับกัน ค่า R-สี่เหลี่ยมใกล้ศูนย์หมายถึงคุณภาพของแบบจำลองที่สร้างขึ้น

ในตัวอย่างของเรา การวัดความแน่นอนคือ 0.99673 ซึ่งบ่งชี้ว่าเส้นการถดถอยมีความเหมาะสมมากกับข้อมูลเดิม

พหูพจน์ R - สัมประสิทธิ์สหสัมพันธ์พหุคูณ R - แสดงระดับการพึ่งพาตัวแปรอิสระ (X) และตัวแปรตาม (Y)

หลาย Rเท่ากับรากที่สองของสัมประสิทธิ์การกำหนด ค่านี้ใช้ค่าในช่วงจากศูนย์ถึงหนึ่ง

ในการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย พหูพจน์ Rเท่ากับค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน จริงๆ, พหูพจน์ Rในกรณีของเรา จะเท่ากับค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจากตัวอย่างก่อนหน้า (0.998364)

ตารางที่ 8.3b. สัมประสิทธิ์การถดถอย

อัตราต่อรอง

มาตรฐานบกพร่อง

t-สถิติ

สี่แยก Y

ตัวแปร X 1

* มีการคำนวณเวอร์ชันที่ถูกตัดทอนให้

ตอนนี้ให้พิจารณาส่วนตรงกลางของการคำนวณที่นำเสนอใน ตาราง 8.3b. ในที่นี้ ค่าสัมประสิทธิ์การถดถอย b (2.305454545) และออฟเซ็ตตามแกน y จะได้รับ นั่นคือ ค่าคงที่ a (2.694545455)

จากการคำนวณเราสามารถเขียนสมการถดถอยได้ดังนี้:

Y= x*2.305454545+2.694545455

ทิศทางของความสัมพันธ์ระหว่างตัวแปรถูกกำหนดตามสัญญาณ (ลบหรือบวก) ของสัมประสิทธิ์การถดถอย (สัมประสิทธิ์ b)

ถ้าเครื่องหมายของสัมประสิทธิ์การถดถอยเป็นบวก ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระจะเป็นบวก ในกรณีของเรา เครื่องหมายของสัมประสิทธิ์การถดถอยเป็นบวก ดังนั้น ความสัมพันธ์จึงเป็นบวกด้วย

ถ้าเครื่องหมายของสัมประสิทธิ์การถดถอยเป็นลบ ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระจะเป็นค่าลบ (ผกผัน)

ที่ ตาราง 8.3c. ผลลัพธ์ที่ได้จะถูกนำเสนอ ของเหลือ. เพื่อให้ผลลัพธ์เหล่านี้ปรากฏในรายงาน จำเป็นต้องเปิดใช้งานช่องทำเครื่องหมาย "ส่วนที่เหลือ" เมื่อเปิดเครื่องมือ "การถดถอย"

การถอนเงินที่เหลืออยู่

ตารางที่ 8.3c เศษซาก

การสังเกต

คาดการณ์ Y

เศษซาก

เครื่องชั่งมาตรฐาน

การใช้ส่วนนี้ของรายงาน เราจะเห็นความเบี่ยงเบนของแต่ละจุดจากเส้นถดถอยที่สร้างขึ้น ค่าสัมบูรณ์ที่ยิ่งใหญ่ที่สุด ส่วนที่เหลือในกรณีของเรา - 0.778 ที่เล็กที่สุด - 0.043 เพื่อการตีความข้อมูลเหล่านี้ให้ดีขึ้น เราจะใช้กราฟของข้อมูลเดิมและเส้นการถดถอยที่สร้างขึ้นที่แสดงในรูปที่ ข้าว. 8.3. อย่างที่คุณเห็น เส้นการถดถอยนั้นค่อนข้าง "พอดี" กับค่าของข้อมูลดั้งเดิม

ควรคำนึงว่าตัวอย่างที่กำลังพิจารณานั้นค่อนข้างง่ายและยังห่างไกลจากความเป็นไปได้เสมอที่จะสร้างเส้นถดถอยเชิงเส้นในเชิงคุณภาพ

ข้าว. 8.3.ข้อมูลเริ่มต้นและเส้นถดถอย

ปัญหาของการประมาณค่าในอนาคตที่ไม่รู้จักของตัวแปรตามโดยพิจารณาจากค่าที่ทราบของตัวแปรอิสระยังคงไม่ได้รับการพิจารณาเช่น งานพยากรณ์.

มีสมการถดถอย ปัญหาการพยากรณ์จะลดลงเป็นการแก้สมการ Y= x*2.305454545+2.694545455 โดยมีค่า x ที่ทราบ ผลลัพธ์ของการทำนายตัวแปรตาม Y หกขั้นตอนข้างหน้าจะถูกนำเสนอ ในตาราง 8.4.

ตารางที่ 8.4. Y ผลการทำนายตัวแปร

Y(คาดการณ์)

ดังนั้น จากการใช้การวิเคราะห์การถดถอยในแพ็คเกจ Microsoft Excel เรา:

    สร้างสมการถดถอย

    กำหนดรูปแบบของการพึ่งพาและทิศทางของความสัมพันธ์ระหว่างตัวแปร - การถดถอยเชิงเส้นเชิงบวกซึ่งแสดงออกในการเติบโตที่สม่ำเสมอของฟังก์ชัน

    กำหนดทิศทางของความสัมพันธ์ระหว่างตัวแปร

    ประเมินคุณภาพของเส้นถดถอยที่เกิดขึ้น

    สามารถเห็นความคลาดเคลื่อนของข้อมูลที่คำนวณได้จากข้อมูลชุดเดิม

    ทำนายค่าในอนาคตของตัวแปรตาม

ถ้า ฟังก์ชันถดถอยถูกกำหนด ตีความ และให้เหตุผล และการประเมินความถูกต้องของการวิเคราะห์การถดถอยตรงตามข้อกำหนด เราสามารถสรุปได้ว่าแบบจำลองที่สร้างขึ้นและค่าการทำนายมีความน่าเชื่อถือเพียงพอ

ค่าที่คาดการณ์ได้ด้วยวิธีนี้คือค่าเฉลี่ยที่สามารถคาดหวังได้

ในบทความนี้ เราได้ทบทวนคุณสมบัติหลัก สถิติเชิงพรรณนาและในหมู่พวกเขามีแนวคิดเช่น หมายถึง,ค่ามัธยฐาน,ขีดสุด,ขั้นต่ำและลักษณะอื่นๆ ของการแปรผันของข้อมูล

นอกจากนี้ยังมีการอภิปรายสั้น ๆ เกี่ยวกับแนวคิด การปล่อยมลพิษ. ลักษณะที่พิจารณาแล้วหมายถึงการวิเคราะห์ข้อมูลเชิงสำรวจ ข้อสรุปอาจใช้ไม่ได้กับประชากรทั่วไป แต่ใช้กับตัวอย่างข้อมูลเท่านั้น การวิเคราะห์ข้อมูลเชิงสำรวจใช้เพื่อสรุปผลเบื้องต้นและสร้างสมมติฐานเกี่ยวกับประชากร

พื้นฐานของการวิเคราะห์สหสัมพันธ์และการวิเคราะห์การถดถอย งานและความเป็นไปได้ของการใช้งานจริงได้รับการพิจารณาด้วย