მონაცემები რეგრესიისთვის. მონაცემთა ანალიზის საფუძვლები

მე-4 თავის მასალის შესწავლის შედეგად მოსწავლემ უნდა:

ვიცით

  • რეგრესიული ანალიზის ძირითადი ცნებები;
  • უმცირესი კვადრატების მეთოდის შეფასების მეთოდები და შეფასების თვისებები;
  • განტოლებისა და რეგრესიის კოეფიციენტების მნიშვნელოვნების ტესტირების და ინტერვალური შეფასების ძირითადი წესები;

შეძლებს

  • რეგრესიის განტოლებების ორგანზომილებიანი და მრავალჯერადი მოდელების პარამეტრების შეფასებების პოვნა ნიმუშის მონაცემებიდან, მათი თვისებების ანალიზი;
  • განტოლებისა და რეგრესიის კოეფიციენტების მნიშვნელოვნების შემოწმება;
  • იპოვეთ მნიშვნელოვანი პარამეტრების ინტერვალური შეფასებები;

საკუთარი

  • ორგანზომილებიანი და მრავალჯერადი რეგრესიის განტოლებების პარამეტრების სტატისტიკური შეფასების უნარები; რეგრესიის მოდელების ადეკვატურობის შემოწმების უნარები;
  • ყველა მნიშვნელოვანი კოეფიციენტით რეგრესიის განტოლების მიღების უნარები ანალიტიკური პროგრამული უზრუნველყოფის გამოყენებით.

Ძირითადი ცნებები

კორელაციური ანალიზის ჩატარების შემდეგ, როდესაც ცვლადებს შორის სტატისტიკურად მნიშვნელოვანი დამოკიდებულების არსებობა გამოვლინდა და მათი შებოჭილობის ხარისხი შეფასდა, ისინი ჩვეულებრივ გადადიან დამოკიდებულებების ტიპის მათემატიკურ აღწერაზე რეგრესიული ანალიზის მეთოდების გამოყენებით. ამ მიზნით შეირჩევა ფუნქციების კლასი, რომელიც აკავშირებს ეფექტურ ინდიკატორს ზედა არგუმენტები„ გამოთვალეთ შეზღუდვის განტოლების პარამეტრების შეფასება და გაანალიზეთ მიღებული განტოლების სიზუსტე.

ფუნქცია|, რომელიც აღწერს ეფექტური მახასიათებლის პირობითი საშუალო მნიშვნელობის დამოკიდებულებას ზეარგუმენტების მოცემული მნიშვნელობებიდან ეწოდება რეგრესიის განტოლება.

ტერმინი "რეგრესია" (ლათ. რეგრესია -უკან დახევა, რაღაცის დაბრუნება) შემოიღო ინგლისელმა ფსიქოლოგმა და ანთროპოლოგმა ფ. გალტონმა და ასოცირდება მის ერთ-ერთ პირველ მაგალითთან, რომელშიც გალტონმა, ზრდის მემკვიდრეობითობის საკითხთან დაკავშირებული სტატისტიკური მონაცემების დამუშავებით, აღმოაჩინა, რომ თუ სიმაღლე მამები ყველა მამის საშუალო სიმაღლიდან გადახრის Xინჩით, მაშინ მათი ვაჟების სიმაღლე ყველა ვაჟის საშუალო სიმაღლიდან ნაკლებია xინჩი გამოვლენილ ტენდენციას ეწოდა რეგრესია საშუალოზე.

ტერმინი „რეგრესია“ ფართოდ გამოიყენება სტატისტიკურ ლიტერატურაში, თუმცა ხშირ შემთხვევაში ის ზუსტად არ ახასიათებს სტატისტიკურ დამოკიდებულებას.

რეგრესიის განტოლების ზუსტი აღწერისთვის აუცილებელია ეფექტური ინდიკატორის განაწილების პირობითი კანონის ცოდნა. წ.სტატისტიკურ პრაქტიკაში, როგორც წესი, შეუძლებელია ასეთი ინფორმაციის მოპოვება, ამიტომ ისინი შემოიფარგლება ფუნქციისთვის შესაფერისი მიახლოებების მოძიებით. f(x u X 2, .... l *), ფენომენის წინასწარი შინაარსიანი ანალიზის ან ორიგინალური სტატისტიკური მონაცემების საფუძველზე.

ინდიკატორთა ვექტორის განაწილების ტიპის შესახებ ინდივიდუალური მოდელის დაშვებების ფარგლებში<) может быть получен общий вид რეგრესიის განტოლებები, სად. მაგალითად, იმ ვარაუდით, რომ ინდიკატორების შესწავლილი ნაკრები ემორჩილება ()-განზომილებიანი ნორმალური განაწილების კანონს მათემატიკური მოლოდინების ვექტორთან.

სად და კოვარიანტული მატრიცის მიხედვით,

სად არის განსხვავება y,

რეგრესიის განტოლებას (პირობითი მოლოდინი) აქვს ფორმა

ამრიგად, თუ მრავალვარიანტული შემთხვევითი ცვლადი ()

ემორჩილება ()-განზომილებიანი ნორმალური განაწილების კანონს, შემდეგ ეფექტური ინდიკატორის რეგრესიის განტოლებას ზეგანმარტებით ცვლადებში აქვს წრფივი in Xხედი.

თუმცა, სტატისტიკურ პრაქტიკაში, ჩვეულებრივ, უნდა შემოიფარგლოთ უცნობი ჭეშმარიტი რეგრესიის ფუნქციისთვის შესაფერისი მიახლოებების მოძიებით. f(x),ვინაიდან მკვლევარს არ აქვს ზუსტი ცოდნა გაანალიზებული შესრულების ინდიკატორის ალბათობის განაწილების პირობითი კანონის შესახებ ზეარგუმენტების მოცემული მნიშვნელობებისთვის X.

განვიხილოთ კავშირი ჭეშმარიტ, მოდელსა და რეგრესიის შეფასებებს შორის. მოდით შესრულების მაჩვენებელი ზედაკავშირებული არგუმენტთან Xთანაფარდობა

სადაც არის შემთხვევითი ცვლადი ნორმალური განაწილების კანონით, უფრო მეტიც. ჭეშმარიტი რეგრესიის ფუნქცია ამ შემთხვევაში არის

დავუშვათ, რომ ჩვენ არ ვიცით ჭეშმარიტი რეგრესიის განტოლების ზუსტი ფორმა, მაგრამ გვაქვს ცხრა დაკვირვება ორგანზომილებიან შემთხვევით ცვლადზე, რომელიც დაკავშირებულია ნახ. 4.1.

ბრინჯი. 4.1. ჭეშმარიტის შედარებითი პოზიციაf(x) და თეორიულივაურეგრესიის მოდელები

წერტილების მდებარეობა ნახ. 4.1 საშუალებას გვაძლევს შემოვიფარგლოთ ფორმის წრფივი დამოკიდებულების კლასში

უმცირესი კვადრატების მეთოდის გამოყენებით, ჩვენ ვპოულობთ შეფასებას რეგრესიის განტოლებისთვის.

შედარებისთვის, ნახ. 4.1 გვიჩვენებს ჭეშმარიტი რეგრესიის ფუნქციისა და თეორიული მიახლოებითი რეგრესიის ფუნქციის გრაფიკებს. რეგრესიის განტოლების შეფასება ალბათობით გადადის ამ უკანასკნელთან ვაუნიმუშის ზომის შეუზღუდავი ზრდით ().

ვინაიდან ჩვენ შეცდომით ავირჩიეთ წრფივი რეგრესიის ფუნქცია ჭეშმარიტი რეგრესიის ფუნქციის ნაცვლად, რაც, სამწუხაროდ, საკმაოდ გავრცელებულია სტატისტიკური კვლევის პრაქტიკაში, ჩვენს სტატისტიკურ დასკვნებსა და შეფასებებს არ ექნება თანმიმდევრულობის თვისება, ე.ი. რაც არ უნდა გავზარდოთ დაკვირვების მოცულობა, ჩვენი ნიმუშის შეფასება არ გადავა ნამდვილ რეგრესიის ფუნქციასთან

თუ ჩვენ სწორად ავირჩიეთ რეგრესიის ფუნქციების კლასი, მაშინ აღწერის უზუსტობა გამოყენებით ვაუაიხსნება მხოლოდ ნიმუშის შეზღუდულობით და, მაშასადამე, მისი თვითნებურად დაპატარავება შეიძლებოდა

ეფექტური ინდიკატორის პირობითი მნიშვნელობისა და უცნობი რეგრესიის ფუნქციის საუკეთესოდ აღდგენის მიზნით საწყისი სტატისტიკური მონაცემებიდან ყველაზე ხშირად გამოიყენება შემდეგი: ადეკვატურობის კრიტერიუმებიდაკარგვის ფუნქციები.

1. მინიმალური კვადრატის მეთოდი,რომლის მიხედვითაც ეფექტური ინდიკატორის დაკვირვებული მნიშვნელობების კვადრატული გადახრა, მოდელის მნიშვნელობებიდან მინიმუმამდეა დაყვანილი, სადაც რეგრესიის განტოლების კოეფიციენტები არის არგუმენტების ვექტორის მნიშვნელობები "-M დაკვირვებაში". :

ვექტორის შეფასების პოვნის პრობლემა წყდება. შედეგად რეგრესია ე.წ საშუალო კვადრატი.

2. უმცირესი მოდულების მეთოდი, რომლის მიხედვითაც ეფექტური ინდიკატორის დაკვირვებული მნიშვნელობების აბსოლუტური გადახრების ჯამი მოდულარული მნიშვნელობებისგან მინიმუმამდეა დაყვანილი, ე.ი.

შედეგად რეგრესია ე.წ ნიშნავს აბსოლუტურ(მედიანა).

3. მინიმაქსის მეთოდიმცირდება ეფექტური ინდიკატორის დაკვირვებული მნიშვნელობის მაქსიმალური გადახრის მოდულის მინიმიზაციამდე y,მოდელის მნიშვნელობიდან, ე.ი.

შედეგად რეგრესია ე.წ მინიმაქსი.

პრაქტიკულ პროგრამებში ხშირად არის პრობლემები, რომლებშიც შემთხვევითი ცვლადი შესწავლილია y,დამოკიდებულია ცვლადების ზოგიერთ კომპლექტზე და უცნობ პარამეტრებზე. ჩვენ განვიხილავთ () როგორც (k + 1)-განზომილებიანი ზოგადი პოპულაცია, საიდანაც მოცულობის შემთხვევითი ნიმუში P,სადაც () არის /-დაკვირვების შედეგი,. საჭიროა უცნობი პარამეტრების შეფასება დაკვირვების შედეგების საფუძველზე. ზემოთ აღწერილი ამოცანა ეხება რეგრესიული ანალიზის ამოცანებს.

რეგრესიული ანალიზი მოვუწოდებთ შემთხვევითი ცვლადის დამოკიდებულების სტატისტიკური ანალიზის მეთოდს ზერეგრესიის ანალიზში განხილულ ცვლადებზე, როგორც არა შემთხვევითი ცვლადები, მიუხედავად ჭეშმარიტი განაწილების კანონისა

შედეგები

ცხრილი 8.3a. რეგრესიის სტატისტიკა
რეგრესიის სტატისტიკა
მრავალჯერადი რ 0,998364
R-კვადრატი 0,99673
ნორმალიზებული R-კვადრატი 0,996321
სტანდარტული შეცდომა 0,42405
დაკვირვებები 10

ჯერ გადავხედოთ 8.3a ცხრილში წარმოდგენილი გამოთვლების ზედა ნაწილს, რეგრესიის სტატისტიკას.

მნიშვნელობა R-კვადრატი, რომელსაც ასევე უწოდებენ სიზუსტის საზომს, ახასიათებს შედეგად მიღებული რეგრესიის ხაზის ხარისხს. ეს ხარისხი გამოიხატება ორიგინალურ მონაცემებსა და რეგრესიულ მოდელს შორის შესაბამისობის ხარისხით (გამოთვლილი მონაცემები). დარწმუნების საზომი ყოველთვის არის ინტერვალის ფარგლებში.

უმეტეს შემთხვევაში, R-კვადრატის მნიშვნელობა არის ამ მნიშვნელობებს შორის, რომელსაც ეწოდება უკიდურესები, ე.ი. ნულსა და ერთს შორის.

თუ R-კვადრატის მნიშვნელობა ერთთან ახლოსაა, ეს ნიშნავს, რომ აგებული მოდელი ხსნის შესაბამისი ცვლადების თითქმის ყველა ცვალებადობას. პირიქით, R-კვადრატის მნიშვნელობა ნულთან ახლოს ნიშნავს აშენებული მოდელის ცუდ ხარისხს.

ჩვენს მაგალითში, სიზუსტის საზომია 0.99673, რაც მიუთითებს რეგრესიის ხაზის ძალიან კარგ შეხამებაზე თავდაპირველ მონაცემებთან.

მრავალჯერადი რ- მრავალჯერადი კორელაციის კოეფიციენტი R - გამოხატავს დამოუკიდებელი ცვლადების (X) და დამოკიდებული ცვლადის (Y) დამოკიდებულების ხარისხს.

მრავალი R უდრის კვადრატული ფესვიგანსაზღვრის კოეფიციენტიდან, ეს მნიშვნელობა იღებს მნიშვნელობებს ნულიდან ერთამდე დიაპაზონში.

მარტივი წრფივი რეგრესიის ანალიზში, მრავალჯერადი R უდრის პირსონის კორელაციის კოეფიციენტს. მართლაც, მრავალჯერადი R ჩვენს შემთხვევაში უდრის პირსონის კორელაციის კოეფიციენტს წინა მაგალითიდან (0.998364).

ცხრილი 8.3ბ. რეგრესიის კოეფიციენტები
შანსები სტანდარტული შეცდომა t-სტატისტიკა
Y-გადაკვეთა 2,694545455 0,33176878 8,121757129
ცვლადი X 1 2,305454545 0,04668634 49,38177965
* მოცემულია გამოთვლების შეკვეცილი ვერსია

ახლა განიხილეთ 8.3ბ ცხრილში წარმოდგენილი გამოთვლების შუა ნაწილი. აქ მოცემულია რეგრესიის კოეფიციენტი b (2.305454545) და გადაადგილება y ღერძის გასწვრივ, ე.ი. მუდმივი a (2.694545455).

გამოთვლების საფუძველზე შეგვიძლია დავწეროთ რეგრესიის განტოლება შემდეგნაირად:

Y= x*2.305454545+2.694545455

ცვლადებს შორის ურთიერთობის მიმართულება განისაზღვრება ნიშნების მიხედვით (უარყოფითი ან დადებითი) რეგრესიის კოეფიციენტები(ბ კოეფიციენტი).

თუ ნიშანი ზე რეგრესიის კოეფიციენტი- დადებითი, დამოკიდებული ცვლადის ურთიერთობა დამოუკიდებელთან დადებითი იქნება. ჩვენს შემთხვევაში რეგრესიის კოეფიციენტის ნიშანი დადებითია, შესაბამისად, ურთიერთობაც დადებითია.

თუ ნიშანი ზე რეგრესიის კოეფიციენტი- უარყოფითი, დამოკიდებულება დამოუკიდებელ ცვლადსა და დამოუკიდებელ ცვლადს შორის უარყოფითია (შებრუნებული).

ცხრილში 8.3c. წარმოდგენილია ნარჩენების გამომუშავების შედეგები. იმისათვის, რომ ეს შედეგები გამოჩნდეს ანგარიშში, საჭიროა გააქტიუროთ ჩამრთველი „ნარჩენები“ „რეგრესიის“ ხელსაწყოს გაშვებისას.

დარჩენილი გატანა

ცხრილი 8.3c. რჩება
დაკვირვება იწინასწარმეტყველა Y რჩება სტანდარტული ნაშთები
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

ანგარიშის ამ ნაწილის გამოყენებით, ჩვენ შეგვიძლია დავინახოთ თითოეული წერტილის გადახრები აგებული რეგრესიის ხაზიდან. უდიდესი აბსოლუტური ღირებულება

თანამედროვე პოლიტიკური მეცნიერება გამომდინარეობს საზოგადოებაში არსებული ყველა ფენომენისა და პროცესის ურთიერთმიმართების პოზიციიდან. შეუძლებელია მოვლენებისა და პროცესების გაგება, პოლიტიკური ცხოვრების ფენომენების პროგნოზირება და მართვა საზოგადოების პოლიტიკურ სფეროში არსებული კავშირებისა და დამოკიდებულებების შესწავლის გარეშე. პოლიტიკის კვლევის ერთ-ერთი ყველაზე გავრცელებული ამოცანაა ზოგიერთი დაკვირვებადი ცვლადის ურთიერთკავშირის შესწავლა. ამ პრობლემის გადაჭრაში გვეხმარება ანალიზის სტატისტიკური მეთოდების მთელი კლასი, რომელიც გაერთიანებულია საერთო სახელწოდებით „რეგრესული ანალიზი“ (ან, როგორც მას ასევე უწოდებენ „კორელაცია-რეგრესიული ანალიზი“). თუმცა, თუ კორელაციური ანალიზი შესაძლებელს ხდის ორ ცვლადს შორის ურთიერთობის სიძლიერის შეფასებას, მაშინ რეგრესიული ანალიზის გამოყენებით შესაძლებელია ამ ურთიერთობის ტიპის განსაზღვრა, ნებისმიერი ცვლადის მნიშვნელობის დამოკიდებულების პროგნოზირება სხვა ცვლადის მნიშვნელობაზე. .

ჯერ გავიხსენოთ რა არის კორელაცია. კორელატიურიეწოდება სტატისტიკური ურთიერთობის ყველაზე მნიშვნელოვან სპეციალურ შემთხვევას, რომელიც მდგომარეობს იმაში, რომ ერთი ცვლადის თანაბარი მნიშვნელობები შეესაბამება განსხვავებულს. საშუალო ღირებულებებისხვა. x ატრიბუტის მნიშვნელობის ცვლილებით ბუნებრივად იცვლება y ატრიბუტის საშუალო მნიშვნელობა, ხოლო თითოეულ ცალკეულ შემთხვევაში ატრიბუტის მნიშვნელობა ზე(სხვადასხვა ალბათობით) შეუძლია მიიღოს მრავალი განსხვავებული მნიშვნელობა.

ტერმინი „კორელაცია“ სტატისტიკაში (და პოლიტიკური მეცნიერება იზიდავს სტატისტიკის მიღწევას მისი პრობლემების გადასაჭრელად, რაც, მაშასადამე, პოლიტიკურ მეცნიერებასთან დაკავშირებული დისციპლინაა) უკავშირდება ინგლისელი ბიოლოგისა და სტატისტიკოსის ფრენსის გალტონის სახელს. რომელმაც შემოგვთავაზა მე-19 საუკუნეში. კორელაცია-რეგრესიული ანალიზის თეორიული საფუძვლები. მეცნიერებაში ტერმინი „კორელაცია“ ადრეც იყო ცნობილი. კერძოდ, პალეონტოლოგიაში ჯერ კიდევ მე-18 საუკუნეში. იგი გამოიყენა ფრანგმა მეცნიერმა ჟორჟ კუვიემ. მან შემოიღო ეგრეთ წოდებული კორელაციის კანონი, რომლის დახმარებით გათხრების დროს აღმოჩენილი ცხოველების ნაშთების მიხედვით შესაძლებელი გახდა მათი გარეგნობის აღდგენა.

ამ მეცნიერის სახელსა და მის კორელაციის კანონს უკავშირდება ცნობილი ამბავი. ასე რომ, უნივერსიტეტის არდადეგების დღეებში, სტუდენტებმა, რომლებმაც გადაწყვიტეს ეთამაშათ ცნობილ პროფესორს, ერთ სტუდენტს რქებითა და ჩლიქებით თხის ტყავი გადაახვიეს. კუვიეს საძინებლის ფანჯარაში აძვრა და დაიყვირა: - შეგჭამო. პროფესორმა გაიღვიძა, დახედა სილუეტს და უპასუხა: „თუ რქები და ჩლიქები გაქვს, მაშინ ბალახისმჭამელი ხარ და ვერ შეჭამ. და კორელაციის კანონის უცოდინრობისთვის თქვენ მიიღებთ დუმს. გადაბრუნდა და ჩაეძინა. ხუმრობა ხუმრობაა, მაგრამ ამ მაგალითში ჩვენ ვხედავთ მრავალჯერადი კორელაცია-რეგრესიის ანალიზის გამოყენების განსაკუთრებულ შემთხვევას. აქ პროფესორმა, ორი დაკვირვებული ნიშან-თვისების მნიშვნელობების (რქების და ჩლიქების არსებობა) ცოდნის საფუძველზე, კორელაციის კანონის საფუძველზე, გამოიტანა მესამე მახასიათებლის საშუალო მნიშვნელობა (კლასი, რომელსაც ეს ცხოველი ეკუთვნის. არის ბალახისმჭამელი). ამ შემთხვევაში, ჩვენ არ ვსაუბრობთ ამ ცვლადის კონკრეტულ მნიშვნელობაზე (ანუ, ამ ცხოველმა შეიძლება მიიღოს სხვადასხვა მნიშვნელობები ნომინალური მასშტაბით - ეს შეიძლება იყოს თხა, ვერძი ან ხარი ...).

ახლა გადავიდეთ ტერმინ „რეგრესიაზე“. მკაცრად რომ ვთქვათ, ეს არ არის დაკავშირებული იმ სტატისტიკური ამოცანების მნიშვნელობასთან, რომლებიც ამ მეთოდით წყდება. ტერმინის ახსნა შეიძლება მხოლოდ მახასიათებლებს შორის ურთიერთობების შესწავლის მეთოდების შემუშავების ისტორიის ცოდნის საფუძველზე. ამ ტიპის კვლევების ერთ-ერთი პირველი მაგალითი იყო სტატისტიკოსების ფ. გალტონისა და კ. პირსონის მუშაობა, რომლებიც ცდილობდნენ ეპოვათ ნიმუში მამებისა და მათი შვილების ზრდას შორის ორი შესამჩნევი ნიშნის მიხედვით (სადაც X-მამის სიმაღლე და U-ბავშვთა ზრდა). მათ კვლევაში მათ დაადასტურეს თავდაპირველი ჰიპოთეზა, რომ საშუალოდ მაღალი მამები ზრდიან საშუალო სიმაღლის შვილებს. იგივე პრინციპი მოქმედებს დაბალი მამებისა და შვილების მიმართ. თუმცა, მეცნიერები იქ რომ შეჩერებულიყვნენ, სტატისტიკის სახელმძღვანელოებში მათი ნამუშევრები არასოდეს იქნებოდა ნახსენები. მკვლევარებმა უკვე ნახსენები დადასტურებული ჰიპოთეზის ფარგლებში სხვა ნიმუში აღმოაჩინეს. მათ დაადასტურეს, რომ ძალიან მაღალი მამები აჩენენ საშუალო სიმაღლის შვილებს, მაგრამ სიმაღლით დიდად არ განსხვავდებიან ბავშვებისგან, რომელთა მამები, თუმცა საშუალოზე მაღალია, დიდად არ განსხვავდებიან საშუალო სიმაღლისგან. იგივე ითქმის ძალიან მცირე სიმაღლის მქონე მამებზე (მოკლე ჯგუფის საშუალოდან გადახრილი) - მათი შვილები, საშუალოდ, სიმაღლით არ განსხვავდებოდნენ თანატოლებისგან, რომელთა მამები უბრალოდ დაბალი იყვნენ. მათ უწოდეს ფუნქცია, რომელიც აღწერს ამ კანონზომიერებას რეგრესიის ფუნქცია.ამ კვლევის შემდეგ, ყველა განტოლებას, რომელიც აღწერს მსგავს ფუნქციებს და აგებულია მსგავსი გზით, დაიწყო რეგრესიის განტოლება.

Რეგრესიული ანალიზი- მრავალვარიანტული სტატისტიკური მონაცემთა ანალიზის ერთ-ერთი მეთოდი, რომელიც აერთიანებს სტატისტიკური ტექნიკის ერთობლიობას, რომელიც შექმნილია ერთ დამოკიდებულ და რამდენიმე (ან ერთ) დამოუკიდებელ ცვლადს შორის ურთიერთობების შესასწავლად ან მოდელირებისთვის. დამოკიდებულ ცვლადს, სტატისტიკაში მიღებული ტრადიციის მიხედვით, ეწოდება პასუხი და აღინიშნება როგორც დამოუკიდებელ ცვლადებს პროგნოზირებს უწოდებენ და აღინიშნება როგორც x.ანალიზის მსვლელობისას ზოგიერთი ცვლადი სუსტად იქნება დაკავშირებული პასუხთან და საბოლოოდ გამოირიცხება ანალიზიდან. დამოკიდებულთან დაკავშირებულ დანარჩენ ცვლადებს ასევე შეიძლება ეწოდოს ფაქტორები.

რეგრესიული ანალიზი შესაძლებელს ხდის ერთი ან მეტი ცვლადის მნიშვნელობების პროგნოზირებას სხვა ცვლადზე (მაგალითად, არატრადიციული პოლიტიკური ქცევისადმი მიდრეკილება განათლების დონის მიხედვით) ან რამდენიმე ცვლადის მიხედვით. ის გამოითვლება კომპიუტერზე. რეგრესიის განტოლების შესადგენად, რომელიც საშუალებას გაძლევთ გაზომოთ კონტროლირებადი მახასიათებლის დამოკიდებულების ხარისხი ფაქტორებზე, აუცილებელია პროფესიონალი მათემატიკოს-პროგრამისტების ჩართვა. რეგრესიის ანალიზს შეუძლია უზრუნველყოს ფასდაუდებელი სერვისი პოლიტიკური სიტუაციის განვითარების პროგნოზირების მოდელების შექმნაში, სოციალური დაძაბულობის მიზეზების შეფასებასა და თეორიული ექსპერიმენტების ჩატარების საქმეში. რეგრესიული ანალიზი აქტიურად გამოიყენება მოქალაქეთა საარჩევნო ქცევაზე გავლენის შესასწავლად მთელი რიგი სოციალურ-დემოგრაფიული პარამეტრების: სქესი, ასაკი, პროფესია, საცხოვრებელი ადგილი, ეროვნება, შემოსავლის დონე და ბუნება.

რეგრესიულ ანალიზთან დაკავშირებით ცნებები დამოუკიდებელიდა დამოკიდებულიცვლადები. დამოუკიდებელი ცვლადი არის ცვლადი, რომელიც ხსნის ან იწვევს სხვა ცვლადის ცვლილებას. დამოკიდებული ცვლადი არის ცვლადი, რომლის მნიშვნელობა აიხსნება პირველი ცვლადის გავლენით. მაგალითად, 2004 წლის საპრეზიდენტო არჩევნებში განმსაზღვრელი ფაქტორები, ე.ი. დამოუკიდებელი ცვლადები იყო ისეთი ინდიკატორები, როგორიცაა ქვეყნის მოსახლეობის ფინანსური მდგომარეობის სტაბილიზაცია, კანდიდატების პოპულარობის დონე და ფაქტორი. თანამდებობა.ამ შემთხვევაში დამოკიდებულ ცვლადად შეიძლება ჩაითვალოს კანდიდატებისთვის მიცემული ხმების პროცენტი. ანალოგიურად, „ამომრჩევლის ასაკი“ და „საარჩევნო აქტივობის დონე“ ცვლადების წყვილში პირველი დამოუკიდებელია, მეორე კი დამოკიდებული.

რეგრესიული ანალიზი საშუალებას გაძლევთ გადაჭრას შემდეგი პრობლემები:

  • 1) დაადგინეთ Ci-ს შორის სტატისტიკურად მნიშვნელოვანი ურთიერთობის არსებობის ან არარსებობის ფაქტი x;
  • 2) რეგრესიის ფუნქციის საუკეთესო (სტატისტიკური გაგებით) შეფასებების აგება;
  • 3) მოცემული მნიშვნელობების მიხედვით Xშექმენით პროგნოზი უცნობისთვის ზე
  • 4) შეაფასეთ თითოეული ფაქტორის გავლენის სპეციფიკური წონა Xზე ზედა, შესაბამისად, გამოირიცხოს მოდელიდან უმნიშვნელო მახასიათებლები;
  • 5) ცვლადებს შორის მიზეზობრივი ურთიერთობების იდენტიფიცირებით, ნაწილობრივ მართეთ P-ის მნიშვნელობები ახსნა-განმარტებითი ცვლადების მნიშვნელობების კორექტირებით. x.

რეგრესიული ანალიზი დაკავშირებულია ურთიერთდამოუკიდებელ ცვლადების შერჩევის აუცილებლობასთან, რომლებიც გავლენას ახდენენ შესასწავლი ინდიკატორის მნიშვნელობაზე, განსაზღვრავენ რეგრესიის განტოლების ფორმას და აფასებენ პარამეტრებს პირველადი სოციოლოგიური მონაცემების დამუშავების სტატისტიკური მეთოდების გამოყენებით. ამ ტიპის ანალიზი ემყარება ურთიერთობის ფორმის, მიმართულების და სიახლოვის (სიმკვრივის) იდეას. გამოარჩევენ ორთქლის ოთახიდა მრავალჯერადი რეგრესიაშესწავლილი თვისებების რაოდენობის მიხედვით. პრაქტიკაში, რეგრესიული ანალიზი ჩვეულებრივ ტარდება კორელაციურ ანალიზთან ერთად. რეგრესიის განტოლებააღწერს რიცხვით ურთიერთობას რაოდენობას შორის, რომელიც გამოიხატება ტენდენციად ერთი ცვლადის გაზრდის ან შემცირებისკენ, ხოლო მეორე ზრდის ან კლებისკენ. ამავე დროს, razl და h a yut l ყინვაგამძლედა არაწრფივი რეგრესია.პოლიტიკური პროცესების აღწერისას რეგრესიის ორივე ვარიანტი თანაბრად გვხვდება.

Scatterplot პოლიტიკურ სტატიებში ინტერესთა ურთიერთდამოკიდებულების განაწილებისთვის ( U)და რესპონდენტთა განათლება (X)არის წრფივი რეგრესია (სურ. 30).

ბრინჯი. ოცდაათი.

Scatterplot საარჩევნო აქტივობის დონის განაწილებისთვის ( U)ხოლო რესპონდენტის ასაკი (A) (პირობითი მაგალითი) არის არაწრფივი რეგრესია (სურ. 31).


ბრინჯი. 31.

დაწყვილებულ რეგრესიულ მოდელში ორი მახასიათებლის (A "და Y) ურთიერთობის აღსაწერად გამოიყენება წრფივი განტოლება.

სადაც a, არის განტოლების შეცდომის შემთხვევითი მნიშვნელობა მახასიათებლების ცვალებადობით, ე.ი. განტოლების გადახრა „წრფივისაგან“.

კოეფიციენტების შესაფასებლად და გამოიყენეთ უმცირესი კვადრატების მეთოდი, რომელიც ვარაუდობს, რომ სკატერის ნაკვეთზე თითოეული წერტილის კვადრატული გადახრების ჯამი რეგრესიის ხაზიდან მინიმალური უნდა იყოს. შანსები სთ ბშეიძლება გამოითვალოს განტოლებების სისტემის გამოყენებით:

უმცირესი კვადრატების შეფასების მეთოდი იძლევა კოეფიციენტების ასეთ შეფასებას და ბ,რომლისთვისაც წრფე გადის კოორდინატების მქონე წერტილში Xდა y,იმათ. არის ურთიერთობა ზე = ცული + ბ.რეგრესიის განტოლების გრაფიკული გამოსახულება ე.წ თეორიული რეგრესიის ხაზი.წრფივი დამოკიდებულებით, რეგრესიის კოეფიციენტი გრაფიკზე წარმოადგენს თეორიული რეგრესიის ხაზის დახრილობის ტანგენტს x ღერძზე. კოეფიციენტზე ნიშანი გვიჩვენებს ურთიერთობის მიმართულებას. თუ ის მეტია ნულზე, მაშინ კავშირი პირდაპირია, თუ ნაკლებია, ის შებრუნებულია.

შემდეგი მაგალითი კვლევიდან „პოლიტიკური პეტერბურგი-2006“ (ცხრილი 56) გვიჩვენებს წრფივ კავშირს მოქალაქეთა აღქმას აწმყოში მათი ცხოვრებით კმაყოფილების ხარისხისა და მომავალში ცხოვრების ხარისხის ცვლილებების მოლოდინებს შორის. კავშირი არის პირდაპირი, წრფივი (სტანდარტიზებული რეგრესიის კოეფიციენტი არის 0,233, მნიშვნელოვნების დონე 0,000). ამ შემთხვევაში რეგრესიის კოეფიციენტი არ არის მაღალი, მაგრამ ის აჭარბებს სტატისტიკურად მნიშვნელოვანი მაჩვენებლის ქვედა ზღვარს (პირსონის კოეფიციენტის სტატისტიკურად მნიშვნელოვანი მაჩვენებლის კვადრატის ქვედა ზღვარი).

ცხრილი 56

აწმყოში მოქალაქეების ცხოვრების ხარისხის გავლენა მოლოდინებზე

(სანქტ-პეტერბურგი, 2006 წ.)

* დამოკიდებული ცვლადი: "როგორ ფიქრობ, შეიცვლება შენი ცხოვრება მომდევნო 2-3 წელიწადში?"

პოლიტიკურ ცხოვრებაში შესწავლილი ცვლადის მნიშვნელობა ყველაზე ხშირად ერთდროულად რამდენიმე მახასიათებელზეა დამოკიდებული. მაგალითად, პოლიტიკური აქტივობის დონესა და ბუნებაზე ერთდროულად გავლენას ახდენს სახელმწიფოს პოლიტიკური რეჟიმი, პოლიტიკური ტრადიციები, ხალხის პოლიტიკური ქცევის თავისებურებები მოცემულ სფეროში და რესპონდენტის სოციალური მიკროჯგუფი, მისი ასაკი, განათლება, შემოსავალი. დონე, პოლიტიკური ორიენტაცია და ა.შ. ამ შემთხვევაში, თქვენ უნდა გამოიყენოთ განტოლება მრავალჯერადი რეგრესია, რომელსაც აქვს შემდეგი ფორმა:

სადაც კოეფიციენტი ბ.- ნაწილობრივი რეგრესიის კოეფიციენტი. იგი აჩვენებს თითოეული დამოუკიდებელი ცვლადის წვლილს დამოუკიდებელი (შედეგის) ცვლადის მნიშვნელობების განსაზღვრაში. თუ ნაწილობრივი რეგრესიის კოეფიციენტი 0-სთან ახლოსაა, მაშინ შეგვიძლია დავასკვნათ, რომ არ არსებობს პირდაპირი კავშირი დამოუკიდებელ და დამოკიდებულ ცვლადებს შორის.

ასეთი მოდელის გაანგარიშება შეიძლება შესრულდეს კომპიუტერზე მატრიცული ალგებრის გამოყენებით. მრავალჯერადი რეგრესია საშუალებას გაძლევთ ასახოთ სოციალური კავშირების მულტიფაქტორული ბუნება და განმარტოთ თითოეული ფაქტორის გავლენა ინდივიდუალურად და ყველა ერთად მიღებულ თვისებაზე.

კოეფიციენტი აღინიშნება ბ,ეწოდება წრფივი რეგრესიის კოეფიციენტი და გვიჩვენებს კავშირის სიძლიერეს ფაქტორის ატრიბუტის ცვალებადობას შორის Xდა ეფექტური მახასიათებლის ვარიაცია ეს კოეფიციენტი ზომავს ურთიერთობის სიძლიერეს მახასიათებლების საზომი აბსოლუტური ერთეულებით. თუმცა, ნიშან-თვისებათა კორელაციის სიახლოვე შეიძლება გამოიხატოს მიღებული მახასიათებლის სტანდარტული გადახრითაც (ასეთ კოეფიციენტს კორელაციის კოეფიციენტი ეწოდება). რეგრესიის კოეფიციენტისგან განსხვავებით კორელაციის კოეფიციენტი არ არის დამოკიდებული მახასიათებლების გაზომვის მიღებულ ერთეულებზე და, შესაბამისად, ის შედარებადია ნებისმიერი მახასიათებლისთვის. ჩვეულებრივ, კავშირი ითვლება ძლიერად, თუ /> 0.7, საშუალო შებოჭილობა - 0.5 გ 0.5-ზე.

მოგეხსენებათ, უახლოესი კავშირი არის ფუნქციური კავშირი, როდესაც თითოეული ინდივიდუალური მნიშვნელობა აქვს შეიძლება ცალსახად მიენიჭოს მნიშვნელობას x.ამრიგად, რაც უფრო ახლოს არის კორელაციის კოეფიციენტი 1-თან, მით უფრო ახლოს არის ურთიერთობა ფუნქციურთან. რეგრესიის ანალიზისთვის მნიშვნელოვნების დონე არ უნდა აღემატებოდეს 0,001-ს.

კორელაციის კოეფიციენტი დიდი ხანია განიხილება, როგორც მახასიათებლების ურთიერთობის სიახლოვის მთავარი მაჩვენებელი. თუმცა, მოგვიანებით განსაზღვრის კოეფიციენტი გახდა ასეთი მაჩვენებელი. ამ კოეფიციენტის მნიშვნელობა შემდეგია - ის ასახავს მიღებული მახასიათებლის მთლიანი დისპერსიის წილს ზე, აიხსნება მახასიათებლის დისპერსიით x.ის აღმოჩენილია კორელაციის კოეფიციენტის უბრალოდ კვადრატში (ცვლილება 0-დან 1-მდე) და, თავის მხრივ, წრფივი ურთიერთობისთვის ასახავს წილს 0-დან (0%). 1 (100%) დამახასიათებელი მნიშვნელობები Y,განისაზღვრება ატრიბუტის მნიშვნელობებით x.ჩაწერილია როგორც მე 2,ხოლო რეგრესიული ანალიზის შედეგად მიღებული ცხრილებში SPSS პაკეტში - კვადრატის გარეშე.

ავღნიშნოთ მრავალჯერადი რეგრესიის განტოლების აგების ძირითადი ამოცანები.

  • 1. რეგრესიის განტოლებაში შემავალი ფაქტორების არჩევანი.ამ ეტაპზე მკვლევარი ჯერ აყალიბებს ძირითადი მიზეზების ზოგად ჩამონათვალს, რომლებიც თეორიის მიხედვით განსაზღვრავს შესასწავლ ფენომენს. შემდეგ მან უნდა შეარჩიოს მახასიათებლები რეგრესიის განტოლებაში. შერჩევის მთავარი წესი არის ის, რომ ანალიზში შემავალი ფაქტორები მაქსიმალურად მცირე კორელაციაში უნდა იყოს ერთმანეთთან; მხოლოდ ამ შემთხვევაშია შესაძლებელი გავლენის რაოდენობრივი საზომის მიკუთვნება გარკვეულ ფაქტორ-ატრიბუტს.
  • 2. მრავალჯერადი რეგრესიის განტოლების ფორმის შერჩევა(პრაქტიკაში უფრო ხშირად გამოიყენება წრფივი ან წრფივი-ლოგარითმული). ასე რომ, მრავალჯერადი რეგრესიის გამოსაყენებლად, მკვლევარმა ჯერ უნდა ააგოს რამდენიმე დამოუკიდებელი ცვლადის გავლენის ჰიპოთეტური მოდელი მიღებულ ერთზე. იმისთვის, რომ მიღებული შედეგები იყოს სანდო, აუცილებელია, რომ მოდელი ზუსტად ემთხვეოდეს რეალურ პროცესს, ე.ი. ცვლადებს შორის კავშირი უნდა იყოს წრფივი, არ შეიძლება არც ერთი მნიშვნელოვანი დამოუკიდებელი ცვლადის იგნორირება, ისევე როგორც არც ერთი ცვლადი, რომელიც უშუალოდ არ არის დაკავშირებული შესწავლილ პროცესთან, არ შეიძლება იყოს ჩართული ანალიზში. გარდა ამისა, ცვლადების ყველა გაზომვა უნდა იყოს უკიდურესად ზუსტი.

ზემოაღნიშნული აღწერილობიდან გამომდინარეობს ამ მეთოდის გამოყენების მთელი რიგი პირობები, რომელთა გარეშე შეუძლებელია მრავალჯერადი რეგრესიული ანალიზის (MRA) პროცედურაზე გადასვლა. მხოლოდ ყველა ქვემოთ ჩამოთვლილი პუნქტის დაცვა საშუალებას გაძლევთ სწორად განახორციელოთ რეგრესიული ანალიზი.

სტატისტიკურ მოდელირებაში რეგრესიული ანალიზი არის კვლევა, რომელიც გამოიყენება ცვლადებს შორის კავშირის შესაფასებლად. ეს მათემატიკური მეთოდი მოიცავს მრავალ სხვა მეთოდს მრავალი ცვლადის მოდელირებისა და ანალიზისთვის, როდესაც ყურადღება გამახვილებულია დამოკიდებულ ცვლადსა და ერთ ან მეტ დამოუკიდებელ ცვლადს შორის ურთიერთობაზე. უფრო კონკრეტულად, რეგრესიის ანალიზი გეხმარებათ გაიგოთ, თუ როგორ იცვლება დამოკიდებული ცვლადის ტიპიური მნიშვნელობა, თუ იცვლება ერთ-ერთი დამოუკიდებელი ცვლადი, ხოლო დანარჩენი დამოუკიდებელი ცვლადი ფიქსირებული რჩება.

ყველა შემთხვევაში, სამიზნე ქულა დამოუკიდებელი ცვლადების ფუნქციაა და მას რეგრესიული ფუნქცია ეწოდება. რეგრესიის ანალიზში ასევე საინტერესოა დამოკიდებული ცვლადის ცვლილების დახასიათება რეგრესიის ფუნქციის სახით, რომელიც შეიძლება აღწერილი იყოს ალბათობის განაწილების გამოყენებით.

რეგრესიული ანალიზის ამოცანები

სტატისტიკური კვლევის ეს მეთოდი ფართოდ გამოიყენება პროგნოზირებისთვის, სადაც მის გამოყენებას აქვს მნიშვნელოვანი უპირატესობა, მაგრამ ზოგჯერ შეიძლება გამოიწვიოს ილუზია ან ცრუ ურთიერთობები, ამიტომ რეკომენდებულია მისი ფრთხილად გამოყენება ამ კითხვაში, რადგან, მაგალითად, კორელაცია არ ნიშნავს მიზეზობრიობა.

განვითარებული დიდი რიცხვირეგრესიული ანალიზის განხორციელების მეთოდები, როგორიცაა წრფივი და ჩვეულებრივი უმცირესი კვადრატების რეგრესია, რომლებიც პარამეტრულია. მათი არსი იმაში მდგომარეობს, რომ რეგრესიის ფუნქცია განისაზღვრება სასრული რაოდენობის უცნობი პარამეტრების მიხედვით, რომლებიც შეფასებულია მონაცემებიდან. არაპარამეტრული რეგრესია საშუალებას აძლევს მის ფუნქციას მოთავსდეს ფუნქციების გარკვეულ კომპლექტში, რომელიც შეიძლება იყოს უსასრულო-განზომილებიანი.

როგორც სტატისტიკური კვლევის მეთოდი, რეგრესიული ანალიზი პრაქტიკაში დამოკიდებულია მონაცემთა გენერირების პროცესის ფორმაზე და იმაზე, თუ როგორ უკავშირდება ის რეგრესიულ მიდგომას. ვინაიდან მონაცემთა პროცესის გენერირების ნამდვილი ფორმა, როგორც წესი, უცნობი რიცხვია, მონაცემთა რეგრესიის ანალიზი ხშირად გარკვეულწილად დამოკიდებულია პროცესის შესახებ დაშვებებზე. ეს ვარაუდები ზოგჯერ შესამოწმებელია, თუ საკმარისი მონაცემებია ხელმისაწვდომი. რეგრესიის მოდელები ხშირად გამოსადეგია მაშინაც კი, როდესაც ვარაუდები ზომიერად ირღვევა, თუმცა ისინი შეიძლება არ მუშაობდნენ საუკეთესოდ.

უფრო ვიწრო გაგებით, რეგრესია შეიძლება ეხებოდეს კონკრეტულად უწყვეტი პასუხის ცვლადების შეფასებას, განსხვავებით დისკრეტული პასუხის ცვლადებისგან, რომლებიც გამოიყენება კლასიფიკაციაში. უწყვეტი გამომავალი ცვლადის შემთხვევას ასევე უწოდებენ მეტრულ რეგრესიას, რათა განასხვავოს იგი დაკავშირებული პრობლემებისგან.

ამბავი

Ყველაზე ადრეული ფორმარეგრესია უმცირესი კვადრატების ცნობილი მეთოდია. იგი გამოქვეყნდა Legendre-ის მიერ 1805 წელს და Gauss-ის მიერ 1809 წელს. ლეჟანდრმა და გაუსმა გამოიყენეს მეთოდი ასტრონომიული დაკვირვებებით მზის გარშემო სხეულების (ძირითადად კომეტების, მაგრამ მოგვიანებით ახლად აღმოჩენილი მცირე პლანეტების) ორბიტების განსაზღვრის პრობლემაზე. გაუსმა გამოაქვეყნა უმცირესი კვადრატების თეორიის შემდგომი განვითარება 1821 წელს, მათ შორის გაუს-მარკოვის თეორემის ვარიანტი.

ტერმინი „რეგრესია“ შემოიღო ფრენსის გალტონმა მე-19 საუკუნეში ბიოლოგიური ფენომენის აღსაწერად. დასკვნა ის იყო, რომ შთამომავლების ზრდა წინაპრების ზრდის შედეგად, როგორც წესი, რეგრესია ნორმალურ საშუალომდე. გალტონისთვის რეგრესიას მხოლოდ ეს ბიოლოგიური მნიშვნელობა ჰქონდა, მაგრამ მოგვიანებით მისი ნამუშევარი უდნი იოლიმ და კარლ პირსონმა აითვისეს და უფრო ზოგად სტატისტიკურ კონტექსტში გადაიყვანეს. იულისა და პირსონის ნაშრომში საპასუხო და ახსნითი ცვლადების ერთობლივი განაწილება მიჩნეულია გაუსიანად. ეს ვარაუდი უარყო ფიშერმა 1922 და 1925 წლების ნაშრომებში. ფიშერმა თქვა, რომ პასუხის ცვლადის პირობითი განაწილება არის გაუსიანი, მაგრამ ერთობლივი განაწილება არ არის აუცილებელი. ამ მხრივ, ფიშერის წინადადება უფრო ახლოსაა გაუსის 1821 წლის ფორმულირებასთან. 1970 წლამდე რეგრესიული ანალიზის შედეგის მიღებას ზოგჯერ 24 საათამდე სჭირდებოდა.

რეგრესიული ანალიზის მეთოდები კვლავაც აქტიური კვლევის სფეროა. ბოლო ათწლეულების განმავლობაში შემუშავდა ახალი მეთოდები ძლიერი რეგრესიისთვის; რეგრესია, რომელიც მოიცავს კორელაციურ პასუხებს; რეგრესიის მეთოდები, რომლებიც ათავსებენ სხვადასხვა სახის გამოტოვებულ მონაცემებს; არაპარამეტრული რეგრესია; ბაიესის რეგრესიის მეთოდები; რეგრესიები, რომლებშიც პროგნოზირების ცვლადები შეცდომით იზომება; რეგრესია მეტი პროგნოზირებით, ვიდრე დაკვირვებით და მიზეზობრივი დასკვნა რეგრესით.

რეგრესიის მოდელები

რეგრესიული ანალიზის მოდელები მოიცავს შემდეგ ცვლადებს:

  • უცნობი პარამეტრები, აღინიშნება როგორც ბეტა, რომელიც შეიძლება იყოს სკალარი ან ვექტორი.
  • დამოუკიდებელი ცვლადები, X.
  • დამოკიდებული ცვლადები, Y.

AT სხვადასხვა სფეროებშიმეცნიერებები, სადაც რეგრესიული ანალიზი გამოიყენება, იყენებენ სხვადასხვა ტერმინებს დამოკიდებული და დამოუკიდებელი ცვლადების ნაცვლად, მაგრამ ყველა შემთხვევაში რეგრესიის მოდელი აკავშირებს Y-ს X და β ფუნქციასთან.

მიახლოება ჩვეულებრივ ჩამოყალიბებულია როგორც E (Y | X) = F (X, β). რეგრესიული ანალიზის ჩასატარებლად უნდა განისაზღვროს f ფუნქციის ფორმა. უფრო იშვიათად, ის დაფუძნებულია Y-სა და X-ს შორის ურთიერთობის შესახებ ცოდნაზე, რომელიც არ ეყრდნობა მონაცემებს. თუ ასეთი ცოდნა არ არის ხელმისაწვდომი, მაშინ არჩეულია მოქნილი ან მოსახერხებელი ფორმა F.

დამოკიდებული ცვლადი Y

ახლა დავუშვათ, რომ β უცნობი პარამეტრების ვექტორს აქვს სიგრძე k. რეგრესიის ანალიზის შესასრულებლად მომხმარებელმა უნდა მიაწოდოს ინფორმაცია დამოკიდებული ცვლადის შესახებ Y:

  • თუ დაფიქსირდა ფორმის N მონაცემთა წერტილი (Y, X), სადაც N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • თუ ზუსტად N = K დაფიქსირდა და F ფუნქცია წრფივია, მაშინ განტოლება Y = F(X, β) შეიძლება ამოხსნას ზუსტად და არა მიახლოებით. ეს ემყარება N-განტოლებათა ნაკრების ამოხსნას N-უცნობებთან (β ელემენტები), რომელსაც აქვს უნიკალური ამონახსნები, სანამ X წრფივი დამოუკიდებელია. თუ F არაწრფივია, გამოსავალი შეიძლება არ არსებობდეს, ან შეიძლება იყოს ბევრი ამონახსნები.
  • ყველაზე გავრცელებული სიტუაციაა, სადაც არის N > წერტილები მონაცემებზე. ამ შემთხვევაში, არის საკმარისი ინფორმაცია მონაცემებში, რათა შევაფასოთ β-ის უნიკალური მნიშვნელობა, რომელიც საუკეთესოდ ერგება მონაცემებს, ხოლო რეგრესიის მოდელი, როდესაც გამოიყენება მონაცემებზე, შეიძლება ჩაითვალოს β-ში გადაფარულ სისტემად.

ამ უკანასკნელ შემთხვევაში, რეგრესიის ანალიზი იძლევა ინსტრუმენტებს:

  • ამოხსნის პოვნა უცნობი პარამეტრებისთვის β, რომელიც, მაგალითად, შეამცირებს მანძილს Y-ის გაზომილ და პროგნოზირებულ მნიშვნელობას შორის.
  • გარკვეული სტატისტიკური დაშვებებით, რეგრესიის ანალიზი იყენებს ზედმეტ ინფორმაციას, რათა მიაწოდოს სტატისტიკური ინფორმაცია უცნობი პარამეტრების β და დამოკიდებული ცვლადის Y პროგნოზირებული მნიშვნელობების შესახებ.

დამოუკიდებელი გაზომვების საჭირო რაოდენობა

განვიხილოთ რეგრესიის მოდელი, რომელსაც აქვს სამი უცნობი პარამეტრი: β 0 , β 1 და β 2 . დავუშვათ, რომ ექსპერიმენტატორი აკეთებს 10 გაზომვას ვექტორის X-ის დამოუკიდებელი ცვლადის იმავე მნიშვნელობით. ამ შემთხვევაში, რეგრესიის ანალიზი არ იძლევა მნიშვნელობების უნიკალურ კომპლექტს. საუკეთესო, რაც შეიძლება გაკეთდეს, არის დამოკიდებული Y ცვლადის საშუალო და სტანდარტული გადახრის შეფასება. ანალოგიურად, ამ ორის გაზომვა სხვადასხვა ღირებულებები X, შეგიძლიათ მიიღოთ საკმარისი მონაცემები რეგრესიისთვის ორი უცნობისთვის, მაგრამ არა სამი ან მეტი უცნობისთვის.

თუ ექსპერიმენტატორის გაზომვები მიღებული იყო დამოუკიდებელი ვექტორული ცვლადის X-ის სამ სხვადასხვა მნიშვნელობებზე, მაშინ რეგრესიის ანალიზი უზრუნველყოფს შეფასებების უნიკალურ კომპლექტს β-ში სამი უცნობი პარამეტრისთვის.

ზოგადი წრფივი რეგრესიის შემთხვევაში, ზემოაღნიშნული დებულება ექვივალენტურია მოთხოვნისა, რომ მატრიცა X T X იყოს შექცევადი.

სტატისტიკური დაშვებები

როდესაც გაზომვების N რაოდენობა მეტია უცნობი პარამეტრების k და გაზომვის შეცდომებზე ε i, მაშინ, როგორც წესი, გაზომვებში შემავალი ჭარბი ინფორმაცია ნაწილდება და გამოიყენება უცნობი პარამეტრების სტატისტიკური პროგნოზირებისთვის. ინფორმაციის ამ სიჭარბეს რეგრესიის თავისუფლების ხარისხს უწოდებენ.

საფუძვლიანი ვარაუდები

რეგრესიის ანალიზისთვის კლასიკური დაშვებები მოიცავს:

  • შერჩევის აღება არის დასკვნის პროგნოზის წარმომადგენელი.
  • შეცდომა არის შემთხვევითი ცვლადი, რომლის საშუალო მნიშვნელობა ნულის ტოლია, რომელიც განპირობებულია განმარტებითი ცვლადებით.
  • დამოუკიდებელი ცვლადები იზომება შეცდომების გარეშე.
  • როგორც დამოუკიდებელი ცვლადები (პრედიქტორები), ისინი წრფივად დამოუკიდებელნი არიან, ანუ შეუძლებელია რომელიმე პროგნოზის გამოხატვა, როგორც სხვების წრფივი კომბინაცია.
  • შეცდომები არაკორელირებულია, ანუ დიაგონალების ცდომილების კოვარიანტული მატრიცა და ყოველი არანულოვანი ელემენტი არის შეცდომის ვარიანსი.
  • შეცდომის ცვალებადობა მუდმივია დაკვირვებებში (ჰომოსკედასტიურობა). თუ არა, მაშინ შეიძლება გამოყენებულ იქნას შეწონილი უმცირესი კვადრატები ან სხვა მეთოდები.

უმცირესი კვადრატების შეფასების ამ საკმარის პირობებს აქვს საჭირო თვისებები, კერძოდ, ეს დაშვებები ნიშნავს, რომ პარამეტრების შეფასებები იქნება ობიექტური, თანმიმდევრული და ეფექტური, განსაკუთრებით მაშინ, როდესაც მხედველობაში მიიღება ხაზოვანი შეფასებების კლასში. მნიშვნელოვანია აღინიშნოს, რომ ფაქტობრივი მონაცემები იშვიათად აკმაყოფილებს პირობებს. ანუ მეთოდი გამოიყენება მაშინაც კი, თუ ვარაუდები არ არის სწორი. ვარაუდებიდან ცვალებადობა ზოგჯერ შეიძლება გამოყენებულ იქნას, როგორც საზომი, თუ რამდენად სასარგებლოა მოდელი. ამ ვარაუდებიდან ბევრი შეიძლება შემსუბუქდეს უფრო მოწინავე მეთოდებში. სტატისტიკური ანალიზის ანგარიშები, როგორც წესი, მოიცავს ტესტების ანალიზს ნიმუშის მონაცემებისა და მოდელის სარგებლიანობის მეთოდოლოგიისთვის.

გარდა ამისა, ცვლადები ზოგიერთ შემთხვევაში ეხება წერტილების ადგილებზე გაზომილ მნიშვნელობებს. შეიძლება არსებობდეს სივრცითი ტენდენციები და სივრცითი ავტოკორელაციები ცვლადებში, რომლებიც არღვევენ სტატისტიკურ დაშვებებს. გეოგრაფიული შეწონილი რეგრესია ერთადერთი მეთოდია, რომელიც ეხება ასეთ მონაცემებს.

ხაზოვანი რეგრესიის მახასიათებელია ის, რომ დამოკიდებული ცვლადი, რომელიც არის Y i, არის პარამეტრების წრფივი კომბინაცია. მაგალითად, მარტივ ხაზოვან რეგრესიაში, n-პუნქტიანი მოდელირება იყენებს ერთ დამოუკიდებელ ცვლადს, x i და ორ პარამეტრს, β 0 და β 1 .

მრავალჯერადი წრფივი რეგრესიის დროს არსებობს რამდენიმე დამოუკიდებელი ცვლადი ან მათი ფუნქცია.

პოპულაციის შემთხვევითი შერჩევისას, მისი პარამეტრები შესაძლებელს ხდის ხაზოვანი რეგრესიის მოდელის ნიმუშის მიღებას.

ამ ასპექტში ყველაზე პოპულარულია უმცირესი კვადრატების მეთოდი. ის უზრუნველყოფს პარამეტრთა შეფასებებს, რომლებიც ამცირებენ ნარჩენების კვადრატების ჯამს. ამ ფუნქციის ამგვარი მინიმიზაცია (რაც დამახასიათებელია წრფივი რეგრესია) იწვევს ნორმალურ განტოლებათა და სიმრავლეს წრფივი განტოლებებიპარამეტრებით, რომლებიც იხსნება პარამეტრების შეფასების მისაღებად.

თუ ვივარაუდებთ, რომ პოპულაციის შეცდომა ზოგადად გავრცელდება, მკვლევარს შეუძლია გამოიყენოს სტანდარტული შეცდომების ეს შეფასებები, რათა შექმნას ნდობის ინტერვალები და განახორციელოს ჰიპოთეზების ტესტირება მისი პარამეტრების შესახებ.

არაწრფივი რეგრესიული ანალიზი

მაგალითი, სადაც ფუნქცია არ არის წრფივი პარამეტრების მიმართ, მიუთითებს, რომ კვადრატების ჯამი მინიმუმამდე უნდა შემცირდეს განმეორებითი პროცედურის საშუალებით. ეს იწვევს ბევრ გართულებას, რომელიც განსაზღვრავს განსხვავებებს ხაზოვან და არაწრფივ უმცირეს კვადრატების მეთოდებს შორის. შესაბამისად, რეგრესიული ანალიზის შედეგები არაწრფივი მეთოდის გამოყენებისას ზოგჯერ არაპროგნოზირებადია.

სიმძლავრის და ნიმუშის ზომის გაანგარიშება

აქ, როგორც წესი, არ არსებობს თანმიმდევრული მეთოდები დაკვირვებების რაოდენობასთან შედარებით მოდელის დამოუკიდებელი ცვლადების რაოდენობასთან. პირველი წესი შემოგვთავაზეს დობრამ და ჰარდინმა და ჰგავს N = t^n, სადაც N არის ნიმუშის ზომა, n არის განმარტებითი ცვლადების რაოდენობა და t არის დაკვირვებების რაოდენობა, რომელიც საჭიროა სასურველი სიზუსტის მისაღწევად, თუ მოდელს ჰქონდა მხოლოდ ერთი განმარტებითი ცვლადი. მაგალითად, მკვლევარი აშენებს ხაზოვანი რეგრესიის მოდელს მონაცემთა ნაკრების გამოყენებით, რომელიც შეიცავს 1000 პაციენტს (N). თუ მკვლევარი გადაწყვეტს, რომ წრფის (მ) ზუსტად დასადგენად საჭიროა ხუთი დაკვირვება, მაშინ ახსნა-განმარტებითი ცვლადების მაქსიმალური რაოდენობა, რომლის მხარდაჭერაც მოდელს შეუძლია, არის 4.

სხვა მეთოდები

მიუხედავად იმისა, რომ რეგრესიული მოდელის პარამეტრები ჩვეულებრივ ფასდება უმცირესი კვადრატების მეთოდის გამოყენებით, არის სხვა მეთოდებიც, რომლებიც ნაკლებად ხშირად გამოიყენება. მაგალითად, ეს არის შემდეგი მეთოდები:

  • ბაიესის მეთოდები (მაგალითად, ხაზოვანი რეგრესიის ბაიესის მეთოდი).
  • პროცენტული რეგრესია, რომელიც გამოიყენება სიტუაციებისთვის, როდესაც პროცენტული შეცდომების შემცირება უფრო მიზანშეწონილია.
  • უმცირესი აბსოლუტური გადახრები, რომელიც უფრო მძლავრია კვანტილურ რეგრესამდე მიმავალი უკუსვლების არსებობისას.
  • არაპარამეტრული რეგრესია, რომელიც მოითხოვს დაკვირვებებისა და გამოთვლების დიდ რაოდენობას.
  • სასწავლო მეტრიკის მანძილი, რომელიც ისწავლება მოცემულ შეყვანის სივრცეში მნიშვნელოვანი მანძილის მეტრიკის ძიებაში.

პროგრამული უზრუნველყოფა

ყველა ძირითადი სტატისტიკური პროგრამული პაკეტი შესრულებულია უმცირესი კვადრატების რეგრესიის ანალიზის გამოყენებით. მარტივი წრფივი რეგრესია და მრავალჯერადი რეგრესიის ანალიზი შეიძლება გამოყენებულ იქნას როგორც ცხრილების ზოგიერთ აპლიკაციაში, ასევე ზოგიერთ კალკულატორში. მიუხედავად იმისა, რომ ბევრ სტატისტიკურ პროგრამულ პაკეტს შეუძლია შეასრულოს სხვადასხვა ტიპის არაპარამეტრული და ძლიერი რეგრესია, ეს მეთოდები ნაკლებად სტანდარტიზებულია; სხვადასხვა პროგრამული პაკეტები ახორციელებენ სხვადასხვა მეთოდებს. სპეციალიზებული რეგრესიის პროგრამული უზრუნველყოფა შემუშავებულია გამოსაყენებლად ისეთ სფეროებში, როგორიცაა კვლევის ანალიზი და ნეიროვიზუალიზაცია.

რეგრესიული ანალიზის მთავარი მახასიათებელია ის, რომ მისი გამოყენება შესაძლებელია შესწავლილ ცვლადებს შორის ურთიერთობის ფორმისა და ხასიათის შესახებ კონკრეტული ინფორმაციის მისაღებად.

რეგრესიული ანალიზის ეტაპების თანმიმდევრობა

მოკლედ განვიხილოთ რეგრესიული ანალიზის ეტაპები.

    დავალების ფორმულირება. ამ ეტაპზე ყალიბდება წინასწარი ჰიპოთეზები შესწავლილი ფენომენების დამოკიდებულების შესახებ.

    დამოკიდებული და დამოუკიდებელი (განმარტებითი) ცვლადების განმარტება.

    სტატისტიკური მონაცემების შეგროვება. მონაცემები უნდა შეგროვდეს რეგრესიის მოდელში შემავალი თითოეული ცვლადისთვის.

    ჰიპოთეზის ფორმულირება კავშირის ფორმის შესახებ (მარტივი ან მრავალჯერადი, წრფივი ან არაწრფივი).

    განმარტება რეგრესიის ფუნქციები (შედგება რეგრესიის განტოლების პარამეტრების რიცხვითი მნიშვნელობების გამოთვლაში)

    რეგრესიული ანალიზის სიზუსტის შეფასება.

    მიღებული შედეგების ინტერპრეტაცია. რეგრესიული ანალიზის შედეგები შედარებულია წინასწარ ჰიპოთეზებთან. ფასდება მიღებული შედეგების სისწორე და დამაჯერებლობა.

    დამოკიდებული ცვლადის უცნობი მნიშვნელობების პროგნოზირება.

რეგრესიული ანალიზის დახმარებით შესაძლებელია პროგნოზირებისა და კლასიფიკაციის პრობლემის გადაჭრა. პროგნოზირებადი მნიშვნელობები გამოითვლება განმარტებითი ცვლადების მნიშვნელობების რეგრესიის განტოლებაში ჩანაცვლებით. კლასიფიკაციის პრობლემა მოგვარებულია ამ გზით: რეგრესიის ხაზი ყოფს ობიექტების მთელ კომპლექტს ორ კლასად, ხოლო სიმრავლის ნაწილი, სადაც ფუნქციის მნიშვნელობა ნულზე მეტია, ეკუთვნის ერთ კლასს, ხოლო ნაწილი, სადაც ის ნაკლებია. ვიდრე ნული სხვა კლასს ეკუთვნის.

რეგრესიული ანალიზის ამოცანები

განვიხილოთ რეგრესიული ანალიზის ძირითადი ამოცანები: დამოკიდებულების ფორმის დადგენა, განსაზღვრა რეგრესიის ფუნქციებიდამოკიდებული ცვლადის უცნობი მნიშვნელობების შეფასება.

დამოკიდებულების ფორმის დადგენა.

ცვლადებს შორის ურთიერთობის ბუნება და ფორმა შეიძლება ჩამოაყალიბოს რეგრესიის შემდეგი ტიპები:

    დადებითი ხაზოვანი რეგრესია (გამოიხატება ფუნქციის ერთგვაროვანი ზრდის სახით);

    დადებითი თანაბრად აჩქარებული რეგრესია;

    დადებითი თანაბრად მზარდი რეგრესია;

    უარყოფითი წრფივი რეგრესია (გამოიხატება ფუნქციის ერთგვაროვანი ვარდნის სახით);

    უარყოფითი ერთნაირად დაჩქარებული კლებადი რეგრესია;

    უარყოფითი ერთნაირად კლებადი რეგრესია.

თუმცა, აღწერილი ჯიშები, როგორც წესი, არ გვხვდება სუფთა სახით, არამედ ერთმანეთთან კომბინაციაში. ამ შემთხვევაში, საუბარია რეგრესიის კომბინირებულ ფორმებზე.

რეგრესიის ფუნქციის განმარტება.

მეორე ამოცანაა ძირითადი ფაქტორების ან მიზეზების დამოკიდებულ ცვლადზე გავლენის დადგენა, ყველა სხვა თანაბარი და ექვემდებარება შემთხვევითი ელემენტების დამოკიდებულ ცვლადზე ზემოქმედების გამორიცხვას. რეგრესიის ფუნქციაგანისაზღვრება, როგორც ამა თუ იმ ტიპის მათემატიკური განტოლება.

დამოკიდებული ცვლადის უცნობი მნიშვნელობების შეფასება.

ამ პრობლემის გადაწყვეტა მცირდება ერთ-ერთი შემდეგი ტიპის პრობლემის გადაჭრაზე:

    დამოკიდებული ცვლადის მნიშვნელობების შეფასება საწყისი მონაცემების განხილულ ინტერვალში, ე.ი. დაკარგული მნიშვნელობები; ეს წყვეტს ინტერპოლაციის პრობლემას.

    დამოკიდებული ცვლადის მომავალი მნიშვნელობების შეფასება, ე.ი. საწყისი მონაცემების მოცემული ინტერვალის გარეთ მნიშვნელობების პოვნა; ეს წყვეტს ექსტრაპოლაციის პრობლემას.

ორივე პრობლემა მოგვარებულია დამოუკიდებელი ცვლადების მნიშვნელობების პარამეტრების ნაპოვნი შეფასებების რეგრესიის განტოლებაში ჩანაცვლებით. განტოლების ამოხსნის შედეგი არის სამიზნე (დამოკიდებული) ცვლადის მნიშვნელობის შეფასება.

მოდით შევხედოთ რამდენიმე ვარაუდს, რომლებსაც ეყრდნობა რეგრესიული ანალიზი.

წრფივობის დაშვება, ე.ი. ვარაუდობენ, რომ განხილულ ცვლადებს შორის კავშირი წრფივია. ამრიგად, ამ მაგალითში ჩვენ ავაშენეთ სკატერპლატი და შევძელით მკაფიო წრფივი ურთიერთობის დანახვა. თუ ცვლადების გაფანტულ ნახაზზე ჩვენ ვხედავთ წრფივი ურთიერთობის აშკარა არარსებობას, ე.ი. არსებობს არაწრფივი კავშირი, უნდა იქნას გამოყენებული ანალიზის არაწრფივი მეთოდები.

ნორმალურობის დაშვება ნარჩენები. იგი ვარაუდობს, რომ პროგნოზირებულ და დაკვირვებულ მნიშვნელობებს შორის სხვაობის განაწილება ნორმალურია. განაწილების ბუნების ვიზუალურად დასადგენად, შეგიძლიათ გამოიყენოთ ჰისტოგრამები ნარჩენები.

რეგრესიული ანალიზის გამოყენებისას მხედველობაში უნდა იქნას მიღებული მისი მთავარი შეზღუდვა. ის მდგომარეობს იმაში, რომ რეგრესიული ანალიზი საშუალებას გაძლევთ ამოიცნოთ მხოლოდ დამოკიდებულებები და არა ურთიერთობები, რომლებიც ამ დამოკიდებულებებს უდევს საფუძველს.

რეგრესიული ანალიზი შესაძლებელს ხდის ცვლადებს შორის ასოცირების ხარისხის შეფასებას ცვლადის მოსალოდნელი მნიშვნელობის გამოთვლით რამდენიმე ცნობილ მნიშვნელობაზე დაყრდნობით.

რეგრესიის განტოლება.

რეგრესიის განტოლება ასე გამოიყურება: Y=a+b*X

ამ განტოლების გამოყენებით Y ცვლადი გამოიხატება a მუდმივის და ბ წრფის (ან დახრილობის) დახრილობის გამრავლებით X ცვლადის მნიშვნელობაზე. a მუდმივას ასევე ეწოდება კვეთა, ხოლო დახრილობა არის რეგრესია. კოეფიციენტი ან B-ფაქტორი.

უმეტეს შემთხვევაში (თუ არა ყოველთვის) არის დაკვირვებების გარკვეული გაფანტვა რეგრესიის ხაზთან დაკავშირებით.

დარჩენილი არის ცალკეული წერტილის (დაკვირვების) გადახრა რეგრესიის ხაზიდან (პროგნოზირებადი მნიშვნელობა).

MS Excel-ში რეგრესიული ანალიზის პრობლემის გადასაჭრელად აირჩიეთ მენიუდან სერვისი"ანალიზის პაკეტი"და რეგრესიული ანალიზის ინსტრუმენტი. მიუთითეთ X და Y შეყვანის ინტერვალები. Y შეყვანის ინტერვალი არის დამოკიდებული მონაცემების ანალიზის დიაპაზონი და უნდა შეიცავდეს ერთ სვეტს. შეყვანის ინტერვალი X არის გასაანალიზებელი დამოუკიდებელი მონაცემების დიაპაზონი. შეყვანის დიაპაზონების რაოდენობა არ უნდა აღემატებოდეს 16-ს.

პროცედურის გამოსავალზე გამომავალი დიაპაზონში, ჩვენ ვიღებთ მოხსენებას, რომელიც მოცემულია ცხრილი 8.3a-8.3 ვ.

შედეგები

ცხრილი 8.3a. რეგრესიის სტატისტიკა

რეგრესიის სტატისტიკა

მრავალჯერადი რ

R-კვადრატი

ნორმალიზებული R-კვადრატი

სტანდარტული შეცდომა

დაკვირვებები

პირველ რიგში, განიხილეთ გამოთვლების ზედა ნაწილი წარმოდგენილი ცხრილი 8.3a, - რეგრესიის სტატისტიკა.

ღირებულება R-კვადრატი, რომელსაც ასევე უწოდებენ დარწმუნების საზომს, ახასიათებს მიღებული რეგრესიული ხაზის ხარისხს. ეს ხარისხი გამოიხატება ორიგინალურ მონაცემებსა და რეგრესიულ მოდელს შორის შესაბამისობის ხარისხით (გამოთვლილი მონაცემები). დარწმუნების საზომი ყოველთვის არის ინტერვალის ფარგლებში.

უმეტეს შემთხვევაში, ღირებულება R-კვადრატიარის ამ მნიშვნელობებს შორის, ეწოდება უკიდურესი, ე.ი. ნულსა და ერთს შორის.

თუ ღირებულება R-კვადრატიერთიანობასთან ახლოს, ეს ნიშნავს, რომ აგებული მოდელი ხსნის შესაბამისი ცვლადების თითქმის ყველა ცვალებადობას. პირიქით, ღირებულება R-კვადრატი, ნულთან მიახლოებული, ნიშნავს აშენებული მოდელის ცუდ ხარისხს.

ჩვენს მაგალითში, სიზუსტის საზომია 0.99673, რაც მიუთითებს რეგრესიის ხაზის ძალიან კარგ შეხამებაზე თავდაპირველ მონაცემებთან.

მრავლობითი R - მრავალჯერადი კორელაციის კოეფიციენტი R - გამოხატავს დამოუკიდებელი ცვლადების (X) და დამოკიდებული ცვლადის (Y) დამოკიდებულების ხარისხს.

მრავალჯერადი რგანსაზღვრის კოეფიციენტის კვადრატული ფესვის ტოლია, ეს მნიშვნელობა იღებს მნიშვნელობებს ნულიდან ერთამდე დიაპაზონში.

მარტივი წრფივი რეგრესიის ანალიზში მრავლობითი Rპირსონის კორელაციის კოეფიციენტის ტოლია. მართლაც, მრავლობითი Rჩვენს შემთხვევაში, ის უდრის პირსონის კორელაციის კოეფიციენტს წინა მაგალითიდან (0.998364).

ცხრილი 8.3ბ. რეგრესიის კოეფიციენტები

შანსები

სტანდარტული შეცდომა

t-სტატისტიკა

Y-გადაკვეთა

ცვლადი X 1

* მოცემულია გამოთვლების შეკვეცილი ვერსია

ახლა განვიხილოთ გამოთვლების შუა ნაწილი წარმოდგენილი ცხრილი 8.3ბ. აქ მოცემულია რეგრესიის კოეფიციენტი b (2.305454545) და გადაადგილება y ღერძის გასწვრივ, ე.ი. მუდმივი a (2.694545455).

გამოთვლების საფუძველზე შეგვიძლია დავწეროთ რეგრესიის განტოლება შემდეგნაირად:

Y= x*2.305454545+2.694545455

ცვლადებს შორის ურთიერთობის მიმართულება განისაზღვრება რეგრესიის კოეფიციენტების (კოეფიციენტი b) ნიშნების (უარყოფითი ან დადებითი) საფუძველზე.

თუ რეგრესიის კოეფიციენტის ნიშანი დადებითია, დამოკიდებულ ცვლადსა და დამოუკიდებელ ცვლადს შორის კავშირი დადებითი იქნება. ჩვენს შემთხვევაში რეგრესიის კოეფიციენტის ნიშანი დადებითია, შესაბამისად, ურთიერთობაც დადებითია.

თუ რეგრესიის კოეფიციენტის ნიშანი უარყოფითია, დამოკიდებულ ცვლადსა და დამოუკიდებელ ცვლადს შორის კავშირი უარყოფითია (შებრუნებული).

AT ცხრილი 8.3c. წარმოდგენილია გამომავალი შედეგები ნარჩენები. იმისათვის, რომ ეს შედეგები გამოჩნდეს ანგარიშში, საჭიროა გააქტიუროთ ჩამრთველი „ნარჩენები“ „რეგრესიის“ ხელსაწყოს გაშვებისას.

დარჩენილი გატანა

ცხრილი 8.3c. რჩება

დაკვირვება

იწინასწარმეტყველა Y

რჩება

სტანდარტული ნაშთები

ანგარიშის ამ ნაწილის გამოყენებით, ჩვენ შეგვიძლია დავინახოთ თითოეული წერტილის გადახრები აგებული რეგრესიის ხაზიდან. უდიდესი აბსოლუტური ღირებულება ნარჩენიჩვენს შემთხვევაში - 0,778, ყველაზე პატარა - 0,043. ამ მონაცემების უკეთესი ინტერპრეტაციისთვის ჩვენ გამოვიყენებთ ორიგინალური მონაცემების გრაფიკს და აგებულ რეგრესიულ ხაზს, რომელიც წარმოდგენილია ნახ. ბრინჯი. 8.3. როგორც ხედავთ, რეგრესიის ხაზი საკმაოდ ზუსტად არის "მორგებული" ორიგინალური მონაცემების მნიშვნელობებთან.

გასათვალისწინებელია, რომ განხილული მაგალითი საკმაოდ მარტივია და ყოველთვის არ არის შესაძლებელი ხაზოვანი რეგრესიის ხაზის ხარისხობრივად აგება.

ბრინჯი. 8.3.საწყისი მონაცემები და რეგრესიის ხაზი

დამოუკიდებელი ცვლადის ცნობილი მნიშვნელობების საფუძველზე დამოკიდებული ცვლადის უცნობი მომავალი მნიშვნელობების შეფასების პრობლემა განუხილველი დარჩა, ე.ი. პროგნოზირების ამოცანა.

რეგრესიის განტოლების არსებობის შემთხვევაში, პროგნოზირების ამოცანა მცირდება განტოლების Y= x*2.305454545+2.694545455 ამოხსნამდე x-ის ცნობილი მნიშვნელობებით. წარმოდგენილია დამოკიდებული ცვლადის Y პროგნოზირების შედეგები ექვსი ნაბიჯით წინ ცხრილში 8.4.

ცხრილი 8.4. Y ცვლადი პროგნოზირების შედეგები

Y (პროგნოზირებადი)

ამრიგად, Microsoft Excel-ის პაკეტში რეგრესიული ანალიზის გამოყენების შედეგად, ჩვენ:

    ააგო რეგრესიის განტოლება;

    დაადგინა ცვლადებს შორის დამოკიდებულების ფორმა და მიმართულება - დადებითი წრფივი რეგრესია, რომელიც გამოიხატება ფუნქციის ერთგვაროვან ზრდაში;

    დაადგინა ცვლადებს შორის ურთიერთობის მიმართულება;

    შეაფასა მიღებული რეგრესიული ხაზის ხარისხი;

    შეძლეს დაენახათ გამოთვლილი მონაცემების გადახრები საწყისი ნაკრების მონაცემებიდან;

    იწინასწარმეტყველა დამოკიდებული ცვლადის მომავალი მნიშვნელობები.

Თუ რეგრესიის ფუნქციაარის განსაზღვრული, ინტერპრეტირებული და დასაბუთებული, ხოლო რეგრესიული ანალიზის სიზუსტის შეფასება აკმაყოფილებს მოთხოვნებს, შეგვიძლია ვივარაუდოთ, რომ აგებული მოდელი და პროგნოზირებადი მნიშვნელობები საკმარისად სანდოა.

ამ გზით მიღებული პროგნოზირებული მნიშვნელობები არის საშუალო მნიშვნელობები, რომლებიც შეიძლება მოსალოდნელი იყოს.

ამ სტატიაში ჩვენ განვიხილეთ ძირითადი მახასიათებლები აღწერითი სტატისტიკადა მათ შორის ისეთი ცნებები, როგორიცაა ნიშნავს,მედიანური,მაქსიმუმ,მინიმალურიდა მონაცემთა ცვალებადობის სხვა მახასიათებლები.

ასევე გაიმართა კონცეფციის მოკლე განხილვა გამონაბოლქვი. განხილული მახასიათებლები ეხება ე.წ. საძიებო მონაცემთა ანალიზი გამოიყენება პირველადი დასკვნების გამოსატანად და ზოგადი პოპულაციის შესახებ ჰიპოთეზების ფორმირებისთვის.

ასევე განხილული იქნა კორელაციური და რეგრესიული ანალიზის საფუძვლები, მათი ამოცანები და პრაქტიკული გამოყენების შესაძლებლობები.