Რეგრესიული ანალიზი. Რეგრესიული ანალიზი

რეგრესიული ანალიზი იკვლევს გარკვეული რაოდენობის დამოკიდებულებას სხვა რაოდენობაზე ან რამდენიმე სხვა სიდიდეზე. რეგრესიული ანალიზი ძირითადად გამოიყენება როგორც საშუალოვადიანი პროგნოზირებისას, ასევე გრძელვადიანი პროგნოზირებისას. საშუალო და გრძელვადიანი პერიოდები შესაძლებელს ხდის ბიზნეს გარემოში ცვლილებების დამკვიდრებას და ამ ცვლილებების გავლენის გათვალისწინებას შესასწავლ მაჩვენებელზე.

რეგრესიული ანალიზის ჩასატარებლად აუცილებელია:

    შესწავლილი მაჩვენებლების შესახებ წლიური მონაცემების ხელმისაწვდომობა,

    ერთჯერადი პროგნოზების ხელმისაწვდომობა, ე.ი. პროგნოზები, რომლებიც არ უმჯობესდება ახალი მონაცემებით.

რეგრესიული ანალიზი ჩვეულებრივ ტარდება ობიექტებისთვის, რომლებსაც აქვთ რთული, მრავალფაქტორული ხასიათი, როგორიცაა ინვესტიციების მოცულობა, მოგება, გაყიდვების მოცულობა და ა.შ.

ზე ნორმატიული პროგნოზირების მეთოდიგანისაზღვრება მიზნად აღებული ფენომენის შესაძლო მდგომარეობების მიღწევის გზები და ვადები. საუბარია ფენომენის სასურველი მდგომარეობების მიღწევის წინასწარ განსაზღვრაზე, წინასწარ განსაზღვრული ნორმების, იდეალების, წახალისებისა და მიზნების საფუძველზე. ასეთი პროგნოზი პასუხობს კითხვას: რა გზებით შეიძლება სასურველის მიღწევა? ნორმატიული მეთოდი უფრო ხშირად გამოიყენება პროგრამული ან მიზნობრივი პროგნოზებისთვის. გამოიყენება როგორც სტანდარტის რაოდენობრივი გამოხატულება, ასევე შეფასების ფუნქციის შესაძლებლობების გარკვეული მასშტაბი.

რაოდენობრივი გამოხატვის გამოყენების შემთხვევაში, მაგალითად, გარკვეული საკვები და არასასურსათო პროდუქტების მოხმარების ფიზიოლოგიური და რაციონალური ნორმები, რომლებიც შემუშავებულია სპეციალისტების მიერ მოსახლეობის სხვადასხვა ჯგუფისთვის, შესაძლებელია განისაზღვროს ამ საქონლის მოხმარების დონე. განსაზღვრული ნორმის მიღწევის წინა წლები. ასეთ გამოთვლებს ინტერპოლაცია ეწოდება. ინტერპოლაცია არის ფენომენის დროის სერიებში დაკარგული ინდიკატორების გამოთვლის საშუალება, დამყარებული ურთიერთობის საფუძველზე. ინდიკატორის რეალური მნიშვნელობისა და მისი სტანდარტების მნიშვნელობის გათვალისწინებით, როგორც დინამიური სერიის უკიდურესი წევრები, შესაძლებელია ამ სერიის ფარგლებში არსებული მნიშვნელობების სიდიდის დადგენა. ამიტომ ინტერპოლაცია ნორმატიულ მეთოდად ითვლება. ადრე მოცემული ფორმულა (4), რომელიც გამოიყენება ექსტრაპოლაციაში, შეიძლება გამოყენებულ იქნას ინტერპოლაციაში, სადაც y n აღარ ახასიათებს რეალურ მონაცემებს, არამედ ინდიკატორის სტანდარტს.

ნორმატიულ მეთოდში შეფასების ფუნქციის, ანუ უპირატესობის განაწილების ფუნქციის შესაძლებლობების მასშტაბის (ველი, სპექტრი) გამოყენების შემთხვევაში, მიეთითება დაახლოებით შემდეგი გრადაცია: არასასურველი - ნაკლებად სასურველი - უფრო სასურველი - ყველაზე სასურველი - ოპტიმალური (სტანდარტული).

ნორმატიული პროგნოზირების მეთოდი ხელს უწყობს რეკომენდაციების შემუშავებას ობიექტურობის დონისა და, შესაბამისად, გადაწყვეტილებების ეფექტურობის ასამაღლებლად.

მოდელირება, ალბათ ყველაზე რთული პროგნოზირების მეთოდი. მათემატიკური მოდელირება ნიშნავს ეკონომიკური ფენომენის აღწერას მათემატიკური ფორმულების, განტოლებებისა და უტოლობების მეშვეობით. მათემატიკური აპარატი ზუსტად უნდა ასახავდეს საპროგნოზო ფონს, თუმცა საკმაოდ რთულია პროგნოზირებული ობიექტის მთელი სიღრმისა და სირთულის სრულად ასახვა. ტერმინი "მოდელი" მომდინარეობს ლათინური სიტყვიდან modelus, რაც ნიშნავს "ზომას". ამიტომ უფრო სწორი იქნება მოდელირება განიხილებოდეს არა როგორც პროგნოზირების მეთოდად, არამედ როგორც მოდელზე მსგავსი ფენომენის შესწავლის მეთოდად.

ფართო გაგებით, მოდელებს უწოდებენ შესწავლის ობიექტის შემცვლელებს, რომლებიც იმგვარ მსგავსებაშია მასთან, რაც საშუალებას გაძლევთ მიიღოთ ახალი ცოდნა ობიექტის შესახებ. მოდელი უნდა განიხილებოდეს, როგორც ობიექტის მათემატიკური აღწერა. ამ შემთხვევაში მოდელი განისაზღვრება, როგორც ფენომენი (სუბიექტი, ინსტალაცია), რომელიც გარკვეულ შესაბამისობაშია შესასწავლ ობიექტთან და შეუძლია შეცვალოს იგი კვლევის პროცესში, წარმოადგინოს ინფორმაცია ობიექტის შესახებ.

მოდელის უფრო ვიწრო გაგებით, იგი განიხილება როგორც პროგნოზირების ობიექტი, მისი შესწავლა საშუალებას იძლევა მიიღოთ ინფორმაცია მომავალში ობიექტის შესაძლო მდგომარეობებისა და ამ მდგომარეობის მიღწევის გზების შესახებ. ამ შემთხვევაში, პროგნოზირებადი მოდელის მიზანია ინფორმაციის მოპოვება არა ზოგადად ობიექტის, არამედ მხოლოდ მისი მომავალი მდგომარეობის შესახებ. შემდეგ, მოდელის აგებისას, შეიძლება შეუძლებელი იყოს უშუალოდ მისი შესაბამისობის შემოწმება ობიექტთან, რადგან მოდელი წარმოადგენს მხოლოდ მის მომავალ მდგომარეობას, ხოლო თავად ობიექტი შეიძლება ამჟამად არ იყოს ან განსხვავებული არსებობა.

მოდელები შეიძლება იყოს მატერიალური და იდეალური.

იდეალური მოდელები გამოიყენება ეკონომიკაში. ყველაზე სრულყოფილი იდეალური მოდელი სოციალურ-ეკონომიკური (ეკონომიკური) ფენომენის რაოდენობრივი აღწერისთვის არის მათემატიკური მოდელი, რომელიც იყენებს რიცხვებს, ფორმულებს, განტოლებებს, ალგორითმებს ან გრაფიკულ წარმოდგენას. ეკონომიკური მოდელების დახმარებით განსაზღვრეთ:

    ურთიერთობა სხვადასხვა ეკონომიკურ მაჩვენებლებს შორის;

    ინდიკატორებზე დაწესებული სხვადასხვა სახის შეზღუდვები;

    პროცესის ოპტიმიზაციის კრიტერიუმები.

ობიექტის მნიშვნელოვანი აღწერა შეიძლება წარმოდგენილი იყოს მისი ფორმალიზებული სქემის სახით, რომელიც მიუთითებს რომელი პარამეტრები და საწყისი ინფორმაცია უნდა შეგროვდეს სასურველი მნიშვნელობების გამოსათვლელად. მათემატიკური მოდელი, განსხვავებით ფორმალიზებული სქემისგან, შეიცავს კონკრეტულ ციფრულ მონაცემებს, რომლებიც ახასიათებს ობიექტს. მათემატიკური მოდელის შემუშავება დიდწილად დამოკიდებულია მოდელირების პროცესის არსზე პროგნოზის იდეებზე. მისი იდეებიდან გამომდინარე, ის აყენებს სამუშაო ჰიპოთეზას, რომლის დახმარებით იქმნება მოდელის ანალიტიკური ჩანაწერი ფორმულების, განტოლებებისა და უტოლობების სახით. განტოლებათა სისტემის ამოხსნის შედეგად მიიღება ფუნქციის კონკრეტული პარამეტრები, რომლებიც აღწერს დროთა განმავლობაში სასურველი ცვლადების ცვლილებას.

სამუშაოს თანმიმდევრობა და თანმიმდევრობა, როგორც პროგნოზირების ორგანიზაციის ელემენტი, განისაზღვრება გამოყენებული პროგნოზირების მეთოდის მიხედვით. როგორც წესი, ეს სამუშაო ხორციელდება რამდენიმე ეტაპად.

ეტაპი 1 - პროგნოზირებადი რეტროსპექტივა, ანუ პროგნოზირების ობიექტის და პროგნოზის ფონის დადგენა. სამუშაო პირველ ეტაპზე ხორციელდება შემდეგი თანმიმდევრობით:

    წარსულში არსებული ობიექტის აღწერის ფორმირება, რომელიც მოიცავს ობიექტის წინასწარ პროგნოზირებულ ანალიზს, მისი პარამეტრების შეფასებას, მათ მნიშვნელობას და ურთიერთდამოკიდებულებებს,

    ინფორმაციის წყაროების იდენტიფიცირება და შეფასება, მათთან მუშაობის პროცედურა და ორგანიზება, რეტროსპექტული ინფორმაციის შეგროვება და განთავსება;

    კვლევის მიზნების დასახვა.

პროგნოზირებადი რეტროსპექციის ამოცანების შესრულებისას, პროგნოზები სწავლობენ ობიექტის განვითარების ისტორიას და პროგნოზის ფონს, რათა მიიღონ მათი სისტემატური აღწერა.

ეტაპი 2 - პროგნოზირებადი დიაგნოზი, რომლის დროსაც შეისწავლება პროგნოზირების ობიექტის სისტემატური აღწერა და პროგნოზის ფონი, რათა მოხდეს მათი განვითარების ტენდენციების იდენტიფიცირება და პროგნოზირების მოდელები და მეთოდები. სამუშაო შესრულებულია შემდეგი თანმიმდევრობით:

    საპროგნოზო ობიექტის მოდელის შემუშავება, ობიექტის ფორმალიზებული აღწერის ჩათვლით, მოდელის ობიექტთან შესაბამისობის ხარისხის შემოწმება;

    პროგნოზირების მეთოდების შერჩევა (ძირითადი და დამხმარე), ალგორითმის და სამუშაო პროგრამების შემუშავება.

მე-3 ეტაპი - პატრონაჟი, ანუ პროგნოზის ვრცელი განვითარების პროცესი, მათ შორის: 1) პროგნოზირებული პარამეტრების გამოთვლა მოცემული ტყვიის პერიოდისთვის; 2) პროგნოზის ცალკეული კომპონენტების სინთეზი.

მე-4 ეტაპი - პროგნოზის შეფასება, მისი გადამოწმების ჩათვლით, ანუ სანდოობის, სიზუსტისა და მართებულობის ხარისხის დადგენა.

ძიების და შეფასების პროცესში პროგნოზირების ამოცანები და მისი შეფასება წყდება წინა ეტაპების საფუძველზე.

მითითებული ფაზირება არის მიახლოებითი და დამოკიდებულია ძირითადი პროგნოზირების მეთოდზე.

პროგნოზის შედეგები დგება სერთიფიკატის, ანგარიშის ან სხვა მასალის სახით და წარედგინება მომხმარებელს.

პროგნოზირებისას შეიძლება მიეთითოს პროგნოზის გადახრა ობიექტის ფაქტობრივი მდგომარეობიდან, რასაც ეწოდება პროგნოზის შეცდომა, რომელიც გამოითვლება ფორმულით:

;
;
. (9.3)

პროგნოზირებისას შეცდომების წყარო

ძირითადი წყაროები შეიძლება იყოს:

1. წარსულიდან მომავლისთვის მონაცემების მარტივი გადაცემა (ექსტრაპოლაცია) (მაგალითად, კომპანიას არ აქვს სხვა საპროგნოზო ვარიანტები, გარდა გაყიდვების 10%-იანი ზრდისა).

2. მოვლენის ალბათობისა და შესასწავლ ობიექტზე მისი ზემოქმედების ზუსტად განსაზღვრის შეუძლებლობა.

3. გაუთვალისწინებელი სირთულეები (დარღვევის მოვლენები), რომლებიც გავლენას ახდენენ გეგმის განხორციელებაზე, მაგალითად, გაყიდვების განყოფილების უფროსის უეცარი გათავისუფლება.

ზოგადად, პროგნოზირების სიზუსტე იზრდება პროგნოზირების გამოცდილების დაგროვებით და მისი მეთოდების შემუშავებით.

Რეგრესიული ანალიზი

რეგრესია (ხაზოვანი) ანალიზი- დამოკიდებულ ცვლადზე ერთი ან მეტი დამოუკიდებელი ცვლადის გავლენის შესწავლის სტატისტიკური მეთოდი. დამოუკიდებელ ცვლადებს სხვაგვარად რეგრესორებს ან პროგნოზირებს უწოდებენ, დამოკიდებულ ცვლადებს კი კრიტერიუმებს. ტერმინოლოგია დამოკიდებულიდა დამოუკიდებელიცვლადები ასახავს მხოლოდ ცვლადების მათემატიკურ დამოკიდებულებას ( იხილეთ ცრუ კორელაცია), ვიდრე მიზეზობრივი კავშირი.

რეგრესიული ანალიზის მიზნები

  1. კრიტერიუმის (დამოკიდებული) ცვლადის ვარიაციის დეტერმინიზმის ხარისხის განსაზღვრა პროგნოზირებით (დამოუკიდებელი ცვლადები)
  2. დამოკიდებული ცვლადის მნიშვნელობის პროგნოზირება დამოუკიდებელი ცვლადი(ებ)ის გამოყენებით
  3. ცალკეული დამოუკიდებელი ცვლადების წვლილის განსაზღვრა დამოკიდებულის ვარიაციით

რეგრესიული ანალიზის გამოყენება შეუძლებელია იმის დასადგენად, არის თუ არა კავშირი ცვლადებს შორის, ვინაიდან ასეთი ურთიერთობის არსებობა ანალიზის გამოყენების წინაპირობაა.

რეგრესიის მათემატიკური განმარტება

მკაცრად რეგრესიული დამოკიდებულება შეიძლება განისაზღვროს შემდეგნაირად. მოდით , იყოს შემთხვევითი ცვლადები მოცემული ერთობლივი ალბათობის განაწილებით. თუ მნიშვნელობების თითოეული ნაკრებისთვის განისაზღვრება პირობითი მოლოდინი

(ზოგადი რეგრესიის განტოლება),

შემდეგ ფუნქცია გამოიძახება რეგრესია Y ფასდება მნიშვნელობებით და მისი გრაფიკი - რეგრესიის ხაზიმიერ, ან რეგრესიის განტოლება.

დამოკიდებულება გამოიხატება Y-ის საშუალო მნიშვნელობების ცვლილებაში ცვლილებისას. მიუხედავად იმისა, რომ მნიშვნელობების თითოეული ფიქსირებული ნაკრებისთვის, რაოდენობა რჩება შემთხვევით ცვლადად გარკვეული დისპერსიით.

იმის გასარკვევად, თუ რამდენად ზუსტად აფასებს რეგრესიის ანალიზი Y-ში ცვლილებას ცვლილებით, Y-ის ვარიაციის საშუალო მნიშვნელობა გამოიყენება მნიშვნელობების სხვადასხვა ნაკრებისთვის (სინამდვილეში, ჩვენ ვსაუბრობთ დისპერსიის ზომაზე. დამოკიდებული ცვლადი რეგრესიის ხაზის გარშემო).

უმცირესი კვადრატების მეთოდი (კოეფიციენტების გამოთვლა)

პრაქტიკაში, რეგრესიის ხაზი ყველაზე ხშირად ფორმაშია მოძიებული ხაზოვანი ფუნქცია(წრფივი რეგრესია), რომელიც საუკეთესოდ აახლოებს სასურველ მრუდს. ეს კეთდება უმცირესი კვადრატების მეთოდის გამოყენებით, როდესაც მათი შეფასებებიდან რეალურად დაკვირვებული კვადრატული გადახრების ჯამი მინიმუმამდეა დაყვანილი (იგულისხმება შეფასებები სწორი ხაზის გამოყენებით, რომელიც აცხადებს, რომ წარმოადგენს სასურველ რეგრესიულ დამოკიდებულებას):

(M - ნიმუშის ზომა). ეს მიდგომა ეფუძნება ცნობილი ფაქტირომ ზემოაღნიშნულ გამოსახულებაში გამოსახული ჯამი იღებს მინიმალურ მნიშვნელობას ზუსტად იმ შემთხვევისთვის, როდესაც .

უმცირესი კვადრატების მეთოდით რეგრესიული ანალიზის პრობლემის გადასაჭრელად შემოღებულია კონცეფცია ნარჩენი ფუნქციები:

ნარჩენი ფუნქციის მინიმალური პირობა:

შედეგად მიღებული სისტემა არის სისტემა წრფივი განტოლებებიუცნობთან

თუ განტოლებების მარცხენა მხარის თავისუფალ წევრებს მატრიცით წარმოვადგენთ

და უცნობების კოეფიციენტები მატრიცის მარჯვენა მხარეს

მაშინ მივიღებთ მატრიცულ განტოლებას: , რომელიც ადვილად ამოხსნილია გაუსის მეთოდით. შედეგად მიღებული მატრიცა იქნება მატრიცა, რომელიც შეიცავს რეგრესიის ხაზის განტოლების კოეფიციენტებს:

საუკეთესო შეფასებების მისაღებად აუცილებელია LSM-ის წინაპირობების შესრულება (გაუს-მარკოვის პირობები). ინგლისურ ლიტერატურაში ასეთ შეფასებებს უწოდებენ BLUE (Best Linear Unbiased Estimators) - საუკეთესო ხაზოვანი მიუკერძოებელი შეფასებები.

რეგრესიის პარამეტრების ინტერპრეტაცია

პარამეტრები არის ნაწილობრივი კორელაციის კოეფიციენტები; ინტერპრეტირებულია, როგორც Y-ის ვარიაციის პროპორცია, რომელიც ახსნილია დარჩენილი პროგნოზირების გავლენის დაფიქსირებით, ანუ ზომავს ინდივიდუალურ წვლილს Y-ის ახსნაში. კორელაციური პროგნოზირების შემთხვევაში, არსებობს გაურკვევლობის პრობლემა შეფასებებში. , რომლებიც დამოკიდებულნი ხდებიან მოდელში პროგნოზირების შეყვანის თანმიმდევრობაზე. ასეთ შემთხვევებში აუცილებელია კორელაციური და ეტაპობრივი რეგრესიული ანალიზის ანალიზის მეთოდების გამოყენება.

რეგრესიის ანალიზის არაწრფივ მოდელებზე საუბრისას, მნიშვნელოვანია ყურადღება მიაქციოთ, საუბარია არაწრფივობაზე დამოუკიდებელ ცვლადებში (ფორმალური თვალსაზრისით, ადვილად დაყვანილი წრფივ რეგრესიამდე), თუ არაწრფივობაზე სავარაუდო პარამეტრებში. (იწვევს სერიოზულ გამოთვლით სირთულეებს). პირველი ტიპის არაწრფივობით, მნიშვნელოვანი თვალსაზრისით, მნიშვნელოვანია გამოვყოთ ფორმის წევრების მოდელში იერსახე , , რაც მიუთითებს მახასიათებლებს შორის ურთიერთქმედების არსებობაზე და ა.შ. (იხ. მულტიკოლინარობა).

იხილეთ ასევე

ბმულები

  • www.kgafk.ru - ლექცია თემაზე "რეგრესიის ანალიზი"
  • www.basegroup.ru - რეგრესიის მოდელებში ცვლადების შერჩევის მეთოდები

ლიტერატურა

  • ნორმან დრეიპერი, ჰარი სმიტიგამოყენებითი რეგრესიული ანალიზი. მრავალჯერადი რეგრესია= გამოყენებითი რეგრესიის ანალიზი. - მე-3 გამოცემა. - მ .: "დიალექტიკა", 2007. - S. 912. - ISBN 0-471-17082-8
  • სტატისტიკური მოდელების შეფასების მდგრადი მეთოდები: მონოგრაფია. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • რადჩენკო სტანისლავ გრიგორიევიჩი,რეგრესიული ანალიზის მეთოდოლოგია: მონოგრაფია. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

ფონდი ვიკიმედია. 2010 წ.

რა არის რეგრესია?

განვიხილოთ ორი უწყვეტი ცვლადი x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

დავდოთ წერტილები 2D სკატერის ნაკვეთზე და ვთქვათ გვაქვს ხაზოვანი ურთიერთობათუ მონაცემები მიახლოებულია სწორი ხაზით.

თუ ვივარაუდებთ, რომ დამოკიდებულია xდა ცვლილებები გამოწვეული ცვლილებებით x, ჩვენ შეგვიძლია განვსაზღვროთ რეგრესიის ხაზი (რეგრესია on x), რომელიც საუკეთესოდ აღწერს სწორხაზოვან ურთიერთობას ამ ორ ცვლადს შორის.

სიტყვა "რეგრესიის" სტატისტიკური გამოყენება მომდინარეობს ფენომენიდან, რომელიც ცნობილია როგორც რეგრესია საშუალოზე, რომელიც მიეწერება სერ ფრენსის გალტონს (1889).

მან აჩვენა, რომ მაშინ, როცა მაღალ მამებს მაღალი ვაჟები ჰყავთ, ვაჟების საშუალო სიმაღლე უფრო მცირეა, ვიდრე მაღალი მამების. ვაჟების საშუალო სიმაღლე "რეგრესია" და "უკან გადავიდა" მოსახლეობის ყველა მამის საშუალო სიმაღლეზე. ამრიგად, საშუალოდ, მაღალ მამებს ჰყავთ უფრო დაბალი (მაგრამ მაინც მაღალი) ვაჟები, ხოლო დაბალ მამებს ჰყავთ მაღალი (მაგრამ მაინც საკმაოდ დაბალი) ვაჟები.

რეგრესიის ხაზი

მათემატიკური განტოლება, რომელიც აფასებს მარტივ (წყვილში) წრფივ რეგრესიის ხაზს:

xდამოუკიდებელ ცვლადს ან პროგნოზირს უწოდებენ.

არის დამოკიდებული ან საპასუხო ცვლადი. ეს არის ღირებულება, რომელსაც ჩვენ ველით (საშუალოდ) თუ ვიცით ღირებულება x, ე.ი. არის პროგნოზირებული მნიშვნელობა »

  • - შეფასების ხაზის თავისუფალი წევრი (გადაკვეთა); ამ ღირებულებას , Როდესაც x=0(ნახ.1).
  • - სავარაუდო ხაზის დახრილობა ან გრადიენტი; ეს არის თანხა, რომლითაც იზრდება საშუალოდ თუ გავზრდით xერთი ერთეულისთვის.
  • და უწოდებენ სავარაუდო ხაზის რეგრესიის კოეფიციენტებს, თუმცა ეს ტერმინი ხშირად გამოიყენება მხოლოდ .

წყვილი ხაზოვანი რეგრესია შეიძლება გაფართოვდეს ერთზე მეტი დამოუკიდებელი ცვლადის ჩათვლით; ამ შემთხვევაში ცნობილია როგორც მრავალჯერადი რეგრესია.

ნახ.1. ხაზოვანი რეგრესიის ხაზი, რომელიც გვიჩვენებს a-სა და b-ის დახრილობის კვეთას (Y-ის ზრდის ოდენობა, როდესაც x იზრდება ერთი ერთეულით)

მინიმალური კვადრატის მეთოდი

ჩვენ ვასრულებთ რეგრესიულ ანალიზს დაკვირვების ნიმუშის გამოყენებით, სადაც და - ჭეშმარიტი (ზოგადი) პარამეტრების ნიმუშები, α და β, რომლებიც განსაზღვრავენ პოპულაციაში (ზოგად პოპულაციაში) ხაზოვანი რეგრესიის ხაზს.

კოეფიციენტების განსაზღვრის უმარტივესი მეთოდი და არის მინიმალური კვადრატის მეთოდი(MNK).

შესაბამისობა ფასდება ნარჩენების გათვალისწინებით (თითოეული წერტილის ვერტიკალური მანძილი ხაზიდან, მაგ. ნარჩენი = დაკვირვებადი - იწინასწარმეტყველა , ბრინჯი. 2).

საუკეთესო მორგების ხაზი არჩეულია ისე, რომ ნარჩენების კვადრატების ჯამი მინიმალური იყოს.

ბრინჯი. 2. ხაზოვანი რეგრესიის ხაზი გამოსახული ნარჩენებით (ვერტიკალური წერტილოვანი ხაზები) თითოეული წერტილისთვის.

ხაზოვანი რეგრესიის დაშვებები

ასე რომ, თითოეული დაკვირვებული მნიშვნელობისთვის ნარჩენი უდრის განსხვავებას და შესაბამის პროგნოზირებულს.თითოეული ნარჩენი შეიძლება იყოს დადებითი ან უარყოფითი.

თქვენ შეგიძლიათ გამოიყენოთ ნარჩენები ხაზოვანი რეგრესიის მიღმა შემდეგი დაშვებების შესამოწმებლად:

  • ნარჩენები ჩვეულებრივ ნაწილდება ნულოვანი საშუალოთ;

თუ წრფივობის, ნორმალურობის და/ან მუდმივი დისპერსიის დაშვებები საეჭვოა, ჩვენ შეგვიძლია გარდავქმნათ ან და გამოვთვალოთ ახალი რეგრესიის ხაზი, რომლისთვისაც ეს დაშვებები დაკმაყოფილებულია (მაგ. გამოიყენეთ ლოგარითმული ტრანსფორმაცია და ა.შ.).

არანორმალური მნიშვნელობები (აღკვეთილები) და გავლენის წერტილები

„გავლენიანი“ დაკვირვება, თუ გამოტოვებულია, ცვლის მოდელის პარამეტრის ერთ ან მეტ შეფასებას (ანუ დახრილობას ან კვეთას).

გამოკვეთი (დაკვირვება, რომელიც ეწინააღმდეგება მონაცემთა ნაკრების მნიშვნელობების უმეტესობას) შეიძლება იყოს "გავლენიანი" დაკვირვება და შეიძლება კარგად იყოს გამოვლენილი ვიზუალურად 2D გაფანტვის ან ნარჩენების ნაკვეთის დათვალიერებისას.

როგორც outliers, ასევე "გავლენიანი" დაკვირვებებისთვის (პუნქტები) გამოიყენება მოდელები, როგორც მათი ჩართვით, ასევე მათ გარეშე, ყურადღება მიაქციეთ შეფასების ცვლილებას (რეგრესიის კოეფიციენტები).

ანალიზის გაკეთებისას, ავტომატურად ნუ გადააგდებთ შორეულ წერტილებს ან გავლენის წერტილებს, რადგან მათი უგულებელყოფა შეიძლება გავლენა იქონიოს შედეგებზე. ყოველთვის შეისწავლეთ ამ გამონაყარის მიზეზები და გაანალიზეთ ისინი.

ხაზოვანი რეგრესიის ჰიპოთეზა

წრფივი რეგრესიის აგებისას მოწმდება ნულოვანი ჰიპოთეზა, რომ β რეგრესიის ხაზის ზოგადი დახრილობა ნულის ტოლია.

თუ ხაზის დახრილობა ნულის ტოლია, არ არსებობს წრფივი კავშირი და: ცვლილება არ მოქმედებს

ნულოვანი ჰიპოთეზის შესამოწმებლად, რომ ჭეშმარიტი დახრილობა ნულის ტოლია, შეგიძლიათ გამოიყენოთ შემდეგი ალგორითმი:

გამოთვალეთ ტესტის სტატისტიკის ტოლი თანაფარდობა, რომელიც ემორჩილება განაწილებას თავისუფლების ხარისხით, სადაც არის კოეფიციენტის სტანდარტული შეცდომა


,

- ნარჩენების დისპერსიის შეფასება.

ჩვეულებრივ, თუ მიღწეული მნიშვნელოვნების დონეა, ნულოვანი ჰიპოთეზა უარყოფილია.


სად არის განაწილების პროცენტული წერტილი თავისუფლების ხარისხით, რომელიც იძლევა ორმხრივი ტესტის ალბათობას

ეს არის ინტერვალი, რომელიც შეიცავს ზოგად დახრილობას 95%-ის ალბათობით.

დიდი ნიმუშებისთვის, ვთქვათ, შეგვიძლია მიახლოებით 1.96 მნიშვნელობით (ანუ, ტესტის სტატისტიკა ჩვეულებრივ განაწილდება)

წრფივი რეგრესიის ხარისხის შეფასება: განსაზღვრის კოეფიციენტი R 2

ხაზოვანი ურთიერთობის გამო და ჩვენ ველით, რომ ცვლილებები იცვლება და ჩვენ ამას ვუწოდებთ ვარიაციას, რომელიც გამოწვეულია ან აიხსნება რეგრესით. ნარჩენი ვარიაცია უნდა იყოს რაც შეიძლება მცირე.

თუ ასეა, მაშინ ვარიაციის უმეტესი ნაწილი აიხსნება რეგრესიით და წერტილები ახლოს იქნება რეგრესიის ხაზთან, ე.ი. ხაზი კარგად ერგება მონაცემებს.

მთლიანი დისპერსიის პროპორცია, რომელიც აიხსნება რეგრესიით, ეწოდება განსაზღვრის კოეფიციენტი, ჩვეულებრივ გამოხატულია პროცენტულად და აღინიშნება R2(დაწყვილებულ ხაზოვან რეგრესიაში ეს არის მნიშვნელობა r2, კორელაციის კოეფიციენტის კვადრატი), საშუალებას გაძლევთ სუბიექტურად შეაფასოთ რეგრესიის განტოლების ხარისხი.

განსხვავება არის დისპერსიის პროცენტული მაჩვენებელი, რომელიც არ შეიძლება აიხსნას რეგრესიით.

შეფასების ფორმალური ტესტის გარეშე, ჩვენ იძულებულნი ვართ დავეყრდნოთ სუბიექტურ განსჯას, რათა განვსაზღვროთ რეგრესიული ხაზის შესაბამისობის ხარისხი.

რეგრესიის ხაზის გამოყენება პროგნოზზე

თქვენ შეგიძლიათ გამოიყენოთ რეგრესიის ხაზი მნიშვნელობის პროგნოზირებისთვის დაკვირვებულ დიაპაზონში მყოფი მნიშვნელობიდან (არასოდეს გადააჭარბოთ ამ საზღვრებს მიღმა).

ჩვენ ვიწინასწარმეტყველებთ საშუალებებს დაკვირვებადებისთვის, რომლებსაც აქვთ გარკვეული მნიშვნელობა, ამ მნიშვნელობის ჩანაცვლებით რეგრესიის ხაზის განტოლებაში.

ასე რომ, თუ პროგნოზირება როგორც ჩვენ ვიყენებთ ამ პროგნოზირებულ მნიშვნელობას და მის სტანდარტულ შეცდომას ნამდვილი პოპულაციის საშუალო ნდობის ინტერვალის შესაფასებლად.

ამ პროცედურის გამეორება სხვადასხვა მნიშვნელობებისთვის საშუალებას გაძლევთ შექმნათ ნდობის ლიმიტები ამ ხაზისთვის. ეს არის ჯგუფი ან ტერიტორია, რომელიც შეიცავს ნამდვილ ხაზს, მაგალითად, 95% ნდობის დონით.

მარტივი რეგრესიის გეგმები

მარტივი რეგრესიის დიზაინი შეიცავს ერთ უწყვეტ პროგნოზს. თუ არსებობს 3 შემთხვევა პროგნოზირების მნიშვნელობებით P, როგორიცაა 7, 4 და 9, და დიზაინი მოიცავს პირველი რიგის ეფექტს P, მაშინ დიზაინის მატრიცა X იქნება

და რეგრესიის განტოლება P-ს გამოყენებით X1-ისთვის ჰგავს

Y = b0 + b1 P

თუ მარტივი რეგრესიის დიზაინი შეიცავს P-ზე უფრო მაღალი რიგის ეფექტს, როგორიცაა კვადრატული ეფექტი, მაშინ X1 სვეტის მნიშვნელობები დიზაინის მატრიცაში გაიზრდება მეორე ხარისხზე:

და განტოლება მიიღებს ფორმას

Y = b0 + b1 P2

სიგმა-შეზღუდული და ზედმეტად პარამეტრიზებული კოდირების მეთოდები არ გამოიყენება მარტივი რეგრესიის დიზაინებზე და სხვა დიზაინებზე, რომლებიც შეიცავს მხოლოდ უწყვეტ პროგნოზირებს (რადგან უბრალოდ არ არსებობს კატეგორიული პროგნოზები). კოდირების არჩეული მეთოდის მიუხედავად, უწყვეტი ცვლადების მნიშვნელობები იზრდება შესაბამისი სიმძლავრით და გამოიყენება X ცვლადების მნიშვნელობებად. ამ შემთხვევაში, კონვერტაცია არ ხდება. გარდა ამისა, რეგრესიის გეგმების აღწერისას შეგიძლიათ გამოტოვოთ გეგმის მატრიცის X განხილვა და იმუშაოთ მხოლოდ რეგრესიის განტოლებაზე.

მაგალითი: მარტივი რეგრესიული ანალიზი

ეს მაგალითი იყენებს ცხრილში მოცემულ მონაცემებს:

ბრინჯი. 3. საწყისი მონაცემების ცხრილი.

მონაცემები ეფუძნება 1960 და 1970 წლების აღწერების შედარებას 30 შემთხვევით შერჩეულ ოლქში. ოლქების სახელები წარმოდგენილია როგორც დაკვირვების სახელები. ინფორმაცია თითოეული ცვლადის შესახებ წარმოდგენილია ქვემოთ:

ბრინჯი. 4. ცვლადის სპეციფიკაციების ცხრილი.

კვლევის მიზანი

ამ მაგალითისთვის, გაანალიზდება სიღარიბის მაჩვენებელსა და ძალას შორის, რომელიც პროგნოზირებს სიღარიბის ზღვარს ქვემოთ მყოფი ოჯახების პროცენტულ რაოდენობას. ამიტომ, ჩვენ განვიხილავთ ცვლადს 3 (Pt_Poor ) როგორც დამოკიდებულ ცვლადს.

შეიძლება წამოვაყენოთ ჰიპოთეზა: მოსახლეობის ცვლილება და სიღარიბის ზღვარს ქვემოთ მყოფი ოჯახების პროცენტული მაჩვენებელი დაკავშირებულია. გონივრულია იმის მოლოდინი, რომ სიღარიბე იწვევს მოსახლეობის გადინებას, შესაბამისად, უარყოფითი კორელაცია იქნება სიღარიბის ზღვარს ქვემოთ მყოფი ადამიანების პროცენტულ რაოდენობასა და მოსახლეობის ცვლილებას შორის. ამიტომ, ჩვენ განვიხილავთ ცვლად 1-ს (Pop_Chng ), როგორც პროგნოზირებულ ცვლადს.

შედეგების ნახვა

რეგრესიის კოეფიციენტები

ბრინჯი. 5. რეგრესიის კოეფიციენტები Pt_Poor Pop_Chng-ზე.

Pop_Chng რიგისა და პარამის კვეთაზე. Pop_Chng-ზე Pt_Poor-ის რეგრესიის არასტანდარტული კოეფიციენტი არის -0.40374. ეს ნიშნავს, რომ მოსახლეობის ყოველი ერთეული შემცირების შემთხვევაში, სიღარიბის მაჩვენებელი იზრდება .40374-ით. ზედა და ქვედა (ნაგულისხმევი) 95% ნდობის ლიმიტები ამ არასტანდარტიზებული კოეფიციენტისთვის არ შეიცავს ნულს, ამიტომ რეგრესიის კოეფიციენტი მნიშვნელოვანია p დონეზე.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

ცვლადების განაწილება

კორელაციის კოეფიციენტები შეიძლება გახდეს მნიშვნელოვნად გადაჭარბებული ან არასაკმარისად შეფასებული, თუ მონაცემებში არის დიდი გამონაკლისი. განვიხილოთ დამოკიდებული ცვლადის Pt_Poor განაწილება ქვეყნის მიხედვით. ამისათვის ჩვენ ავაშენებთ Pt_Poor ცვლადის ჰისტოგრამას.

ბრინჯი. 6. Pt_Poor ცვლადის ჰისტოგრამა.

როგორც ხედავთ, ამ ცვლადის განაწილება მკვეთრად განსხვავდება ნორმალური განაწილებისგან. თუმცა, მიუხედავად იმისა, რომ ორ ქვეყანასაც კი (მარჯვენა ორ სვეტში) აქვს სიღარიბის ზღვარს ქვემოთ მყოფი ოჯახების უფრო მაღალი პროცენტული მაჩვენებელი, ვიდრე მოსალოდნელია ნორმალური განაწილებით, ისინი, როგორც ჩანს, "ფარგლებს შიგნით არიან".

ბრინჯი. 7. Pt_Poor ცვლადის ჰისტოგრამა.

ეს გადაწყვეტილება გარკვეულწილად სუბიექტურია. პრაქტიკული წესი არის ის, რომ მხედველობაში უნდა იქნას მიღებული დაკვირვება (ან დაკვირვება) ინტერვალის ფარგლებში (საშუალოდ ± 3-ჯერ სტანდარტული გადახრა). ამ შემთხვევაში, ღირს ანალიზის გამეორება გარედან და მის გარეშე, რათა დავრწმუნდეთ, რომ მათ არ აქვთ სერიოზული გავლენა პოპულაციის წევრებს შორის კორელაციაზე.

Scatterplot

თუ ერთ-ერთი ჰიპოთეზა აპრიორია მოცემულ ცვლადებს შორის დამოკიდებულების შესახებ, მაშინ სასარგებლოა მისი შემოწმება შესაბამისი სკატერპლტის ნაკვეთზე.

ბრინჯი. 8. Scatterplot.

Scatterplot აჩვენებს მკაფიო უარყოფით კორელაციას (-.65) ორ ცვლადს შორის. ის ასევე აჩვენებს 95% ნდობის ინტერვალს რეგრესიის ხაზისთვის, ანუ 95% ალბათობით რეგრესიის ხაზი გადის ორ წყვეტილ მრუდს შორის.

მნიშვნელოვნების კრიტერიუმები

ბრინჯი. 9. მნიშვნელოვნების კრიტერიუმების შემცველი ცხრილი.

Pop_Chng რეგრესიის კოეფიციენტის ტესტი ადასტურებს, რომ Pop_Chng მტკიცედ არის დაკავშირებული Pt_Poor-თან, p.<.001 .

შედეგი

ამ მაგალითმა აჩვენა, თუ როგორ უნდა გავაანალიზოთ მარტივი რეგრესიის გეგმა. ასევე წარმოდგენილი იყო არასტანდარტული და სტანდარტიზებული რეგრესიის კოეფიციენტების ინტერპრეტაცია. განხილულია დამოკიდებული ცვლადის პასუხის განაწილების შესწავლის მნიშვნელობა და ნაჩვენებია პროგნოზირებისა და დამოკიდებულ ცვლადს შორის ურთიერთობის მიმართულებისა და სიძლიერის განსაზღვრის ტექნიკა.

რეგრესიული და კორელაციური ანალიზი - სტატისტიკური კვლევის მეთოდები. ეს არის პარამეტრის დამოკიდებულების ჩვენების ყველაზე გავრცელებული გზები ერთ ან რამდენიმე დამოუკიდებელ ცვლადზე.

ქვემოთ, კონკრეტული პრაქტიკული მაგალითების გამოყენებით, განვიხილავთ ამ ორ ძალიან პოპულარულ ანალიზს ეკონომისტებს შორის. ჩვენ ასევე მივცემთ შედეგების მიღების მაგალითს მათი შერწყმისას.

რეგრესიული ანალიზი Excel-ში

აჩვენებს ზოგიერთი მნიშვნელობის (დამოუკიდებელი, დამოუკიდებელი) გავლენას დამოკიდებულ ცვლადზე. მაგალითად, რამდენად არის დამოკიდებული ეკონომიკურად აქტიური მოსახლეობის რაოდენობა საწარმოების რაოდენობაზე, ხელფასებზე და სხვა პარამეტრებზე. ან: როგორ მოქმედებს მშპ-ის დონეზე უცხოური ინვესტიციები, ენერგიის ფასები და ა.შ.

ანალიზის შედეგი იძლევა პრიორიტეტების დადგენის საშუალებას. და ძირითადი ფაქტორებიდან გამომდინარე, პროგნოზირება, პრიორიტეტული სფეროების განვითარების დაგეგმვა, მართვის გადაწყვეტილებების მიღება.

რეგრესია ხდება:

  • წრფივი (y = a + bx);
  • პარაბოლური (y ​​= a + bx + cx 2);
  • ექსპონენციალური (y ​​= a * exp(bx));
  • სიმძლავრე (y = a*x^b);
  • ჰიპერბოლური (y ​​= b/x + a);
  • ლოგარითმული (y = b * 1n(x) + a);
  • ექსპონენციალური (y ​​= a * b^x).

განვიხილოთ Excel-ში რეგრესიის მოდელის აგების და შედეგების ინტერპრეტაციის მაგალითი. ავიღოთ წრფივი ტიპის რეგრესია.

დავალება. 6 საწარმოში გაანალიზდა საშუალო თვიური ხელფასი და წასული დასაქმებულთა რაოდენობა. აუცილებელია განისაზღვროს პენსიაზე გასული თანამშრომელთა რაოდენობის დამოკიდებულება საშუალო ხელფასზე.

ხაზოვანი რეგრესიის მოდელს აქვს შემდეგი ფორმა:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

სადაც a არის რეგრესიის კოეფიციენტები, x არის გავლენიანი ცვლადები და k არის ფაქტორების რაოდენობა.

ჩვენს მაგალითში, Y არის თანამშრომელთა დატოვების მაჩვენებელი. გავლენის ფაქტორი არის ხელფასი (x).

Excel-ს აქვს ჩაშენებული ფუნქციები, რომლებიც შეიძლება გამოყენებულ იქნას ხაზოვანი რეგრესიის მოდელის პარამეტრების გამოსათვლელად. მაგრამ Analysis ToolPak დანამატი ამას უფრო სწრაფად გააკეთებს.

გააქტიურეთ ძლიერი ანალიტიკური ინსტრუმენტი:

გააქტიურების შემდეგ, დანამატი ხელმისაწვდომი იქნება მონაცემთა ჩანართში.

ახლა ჩვენ უშუალოდ შევეხებით რეგრესიის ანალიზს.



უპირველეს ყოვლისა, ყურადღებას ვაქცევთ R-კვადრატს და კოეფიციენტებს.

R-კვადრატი არის განსაზღვრის კოეფიციენტი. ჩვენს მაგალითში ეს არის 0.755, ანუ 75.5%. ეს ნიშნავს, რომ მოდელის გამოთვლილი პარამეტრები 75.5%-ით ხსნის შესწავლილ პარამეტრებს შორის კავშირს. რაც უფრო მაღალია განსაზღვრის კოეფიციენტი, მით უკეთესია მოდელი. კარგი - 0.8-ზე მეტი. ცუდი - 0,5-ზე ნაკლები (ასეთი ანალიზი ძნელად შეიძლება ჩაითვალოს გონივრულად). ჩვენს მაგალითში - "არა ცუდი".

კოეფიციენტი 64.1428 გვიჩვენებს, რა იქნება Y, თუ განსახილველ მოდელში ყველა ცვლადი 0-ის ტოლია. ანუ სხვა ფაქტორები, რომლებიც არ არის აღწერილი მოდელში ასევე გავლენას ახდენს გაანალიზებული პარამეტრის მნიშვნელობაზე.

კოეფიციენტი -0,16285 გვიჩვენებს X ცვლადის წონას Y-ზე. ანუ, საშუალო თვიური ხელფასი ამ მოდელის ფარგლებში გავლენას ახდენს თანამდებობიდან გათავისუფლების რაოდენობაზე -0,16285 წონით (ეს გავლენის მცირე ხარისხია). ნიშანი "-" მიუთითებს უარყოფით ზემოქმედებაზე: რაც უფრო მაღალია ხელფასი, მით ნაკლებია სამსახურიდან გათავისუფლება. რაც სამართლიანია.



კორელაციური ანალიზი Excel-ში

კორელაციური ანალიზი გვეხმარება იმის დადგენაში, არის თუ არა კავშირი ინდიკატორებს შორის ერთ ან ორ ნიმუშში. მაგალითად, აპარატის მუშაობის დროსა და რემონტის ღირებულებას შორის, აღჭურვილობის ფასსა და მუშაობის ხანგრძლივობას, ბავშვების სიმაღლესა და წონას და ა.შ.

თუ არსებობს კავშირი, მაშინ ერთი პარამეტრის ზრდა იწვევს თუ არა მეორეს ზრდას (დადებითი კორელაცია) თუ შემცირებას (უარყოფითი). კორელაციური ანალიზი ანალიტიკოსს ეხმარება განსაზღვროს, შეუძლია თუ არა ერთი ინდიკატორის მნიშვნელობა მეორის შესაძლო მნიშვნელობის პროგნოზირება.

კორელაციის კოეფიციენტი აღინიშნება r. მერყეობს +1-დან -1-მდე. კორელაციების კლასიფიკაცია სხვადასხვა სფეროსთვის განსხვავებული იქნება. როდესაც კოეფიციენტის მნიშვნელობა არის 0, ნიმუშებს შორის არ არსებობს წრფივი კავშირი.

განვიხილოთ, თუ როგორ გამოიყენოთ Excel კორელაციის კოეფიციენტის მოსაძებნად.

CORREL ფუნქცია გამოიყენება დაწყვილებული კოეფიციენტების საპოვნელად.

ამოცანა: დაადგინეთ არის თუ არა კავშირი ქარხნის მუშაობის დროსა და მისი მოვლა-პატრონობის ღირებულებას შორის.

ჩადეთ კურსორი ნებისმიერ უჯრედში და დააჭირეთ fx ღილაკს.

  1. "სტატისტიკური" კატეგორიაში აირჩიეთ CORREL ფუნქცია.
  2. არგუმენტი "მასივი 1" - მნიშვნელობების პირველი დიაპაზონი - აპარატის დრო: A2: A14.
  3. არგუმენტი "მასივი 2" - მნიშვნელობების მეორე დიაპაზონი - რემონტის ღირებულება: B2:B14. დააწკაპუნეთ OK.

კავშირის ტიპის დასადგენად, თქვენ უნდა დაათვალიეროთ კოეფიციენტის აბსოლუტური რაოდენობა (საქმიანობის თითოეულ სფეროს აქვს თავისი მასშტაბი).

რამდენიმე პარამეტრის (2-ზე მეტი) კორელაციური ანალიზისთვის უფრო მოსახერხებელია "მონაცემთა ანალიზის" (დამატებითი "ანალიზის პაკეტი") გამოყენება. სიაში თქვენ უნდა აირჩიოთ კორელაცია და დანიშნოთ მასივი. ყველა.

მიღებული კოეფიციენტები ნაჩვენები იქნება კორელაციის მატრიცაში. როგორც ეს:

კორელაციულ-რეგრესიული ანალიზი

პრაქტიკაში, ეს ორი ტექნიკა ხშირად გამოიყენება ერთად.

მაგალითი:


ახლა რეგრესიის ანალიზის მონაცემები ჩანს.

1. პირველად ტერმინი „რეგრესია“ შემოიღო ბიომეტრიის ფუძემდებელმა ფ.გალტონმა (XIX ს.), რომლის იდეები განავითარა მისმა მიმდევარმა კ.პირსონმა.

Რეგრესიული ანალიზი- სტატისტიკური მონაცემების დამუშავების მეთოდი, რომელიც საშუალებას გაძლევთ გაზომოთ კავშირი ერთ ან რამდენიმე მიზეზს (ფაქტორულ ნიშნებს) და შედეგს (ეფექტურ ნიშანს) შორის.

ნიშანი- ეს არის შესწავლილი ფენომენის ან პროცესის მთავარი განმასხვავებელი თვისება, თვისება.

ეფექტური ნიშანი -გამოკვლეული მაჩვენებელი.

ფაქტორის ნიშანი- ინდიკატორი, რომელიც გავლენას ახდენს ეფექტური ფუნქციის მნიშვნელობაზე.

რეგრესიის ანალიზის მიზანია ეფექტური მახასიათებლის საშუალო მნიშვნელობის ფუნქციური დამოკიდებულების შეფასება ( ზე) ფაქტორულიდან ( x 1, x 2, ..., x n), გამოხატულია როგორც რეგრესიის განტოლებები

ზე= (x 1, x 2, ..., x n). (6.1)

არსებობს რეგრესიის ორი ტიპი: დაწყვილებული და მრავალჯერადი.

დაწყვილებული (მარტივი) რეგრესია- ფორმის განტოლება:

ზე= (x). (6.2)

შედეგიანი თვისება წყვილთა რეგრესიაში განიხილება, როგორც ერთი არგუმენტის ფუნქცია, ე.ი. ერთი ფაქტორი.

რეგრესიული ანალიზი მოიცავს შემდეგ ნაბიჯებს:

ფუნქციის ტიპის განსაზღვრა;

რეგრესიის კოეფიციენტების განსაზღვრა;

ეფექტური მახასიათებლის თეორიული მნიშვნელობების გაანგარიშება;

რეგრესიის კოეფიციენტების სტატისტიკური მნიშვნელოვნების შემოწმება;

რეგრესიის განტოლების სტატისტიკური მნიშვნელობის შემოწმება.

მრავალჯერადი რეგრესია- ფორმის განტოლება:

ზე= (x 1, x 2, ..., x n). (6.3)

შედეგიანი თვისება განიხილება, როგორც რამდენიმე არგუმენტის ფუნქცია, ე.ი. ბევრი ფაქტორი.

2. ფუნქციის ტიპის სწორად დასადგენად აუცილებელია თეორიულ მონაცემებზე დაყრდნობით შეერთების მიმართულების პოვნა.

კავშირის მიმართულების მიხედვით, რეგრესია იყოფა:

· პირდაპირი რეგრესია,წარმოიქმნება იმ პირობით, რომ დამოუკიდებელი მნიშვნელობის გაზრდით ან შემცირებით " X"დამოკიდებული რაოდენობის მნიშვნელობები " ზე"ასევე იზრდება ან მცირდება შესაბამისად;

· საპირისპირო რეგრესია,წარმოიქმნება იმ პირობით, რომ დამოუკიდებელი მნიშვნელობის გაზრდით ან შემცირებით "X"დამოკიდებული ღირებულება " ზე"შესაბამისად მცირდება ან იზრდება.

ურთიერთობების დასახასიათებლად გამოიყენება დაწყვილებული რეგრესიის განტოლებების შემდეგი ტიპები:

· y=a+bxხაზოვანი;

· y=e ცული + b – ექსპონენციალური;

· y=a+b/x – ჰიპერბოლური;

· y=a+b 1 x+b 2 x 2 – პარაბოლური;

· y=ab x – ექსპონენციალურიდა ა.შ.

სად a, b 1, b 2- განტოლების კოეფიციენტები (პარამეტრები); ზე- ეფექტური ნიშანი; X- ფაქტორის ნიშანი.

3. რეგრესიის განტოლების აგება მცირდება მისი კოეფიციენტების (პარამეტრების) შეფასებამდე, ამისთვის იყენებენ მინიმალური კვადრატის მეთოდი(MNK).

ყველაზე მცირე კვადრატების მეთოდი საშუალებას გაძლევთ მიიღოთ პარამეტრების ისეთი შეფასებები, რომლებშიც არის ეფექტური მახასიათებლის რეალური მნიშვნელობების კვადრატული გადახრების ჯამი. ზე"თეორიულიდან" y x» მინიმალურია, ანუ

რეგრესიის განტოლების ვარიანტები y=a+bxუმცირესი კვადრატების მეთოდით შეფასებულია ფორმულების გამოყენებით:

სად A -თავისუფალი კოეფიციენტი, - რეგრესიის კოეფიციენტი, გვიჩვენებს, რამდენად შეიცვლება შედეგის ნიშანი "ფაქტორის ატრიბუტის შეცვლისას" x» გაზომვის ერთეულზე.

4. რეგრესიის კოეფიციენტების სტატისტიკური მნიშვნელოვნების შესაფასებლად გამოიყენება სტუდენტის t-ტესტი.

რეგრესიის კოეფიციენტების მნიშვნელოვნების შემოწმების სქემა:

1) H 0: ა=0, =0 - რეგრესიის კოეფიციენტები უმნიშვნელოდ განსხვავდება ნულისაგან.

H 1: a≠ 0, b≠ 0 - რეგრესიის კოეფიციენტები მნიშვნელოვნად განსხვავდება ნულიდან.

2) =0.05 – მნიშვნელოვნების დონე.

სად მ ბ,მ ა- შემთხვევითი შეცდომები:

; . (6.7)

4) t მაგიდა(R; ვ),

სად =n-k- 1 - თავისუფლების გრადუსების რაოდენობა (ცხრილის მნიშვნელობა), - დაკვირვებების რაოდენობა, X".

5) თუ , მაშინ გადახრის, ე.ი. მნიშვნელოვანი კოეფიციენტი.

თუ , მაშინ მიღებულია, ე.ი. კოეფიციენტი უმნიშვნელოა.

5. აგებული რეგრესიის განტოლების სისწორის შესამოწმებლად გამოიყენება ფიშერის კრიტერიუმი.

რეგრესიის განტოლების მნიშვნელოვნების შემოწმების სქემა:

1) H 0:რეგრესიის განტოლება არ არის მნიშვნელოვანი.

H 1:რეგრესიის განტოლება მნიშვნელოვანია.

2) =0.05 – მნიშვნელოვნების დონე.

3) , (6.8)

სად არის დაკვირვებების რაოდენობა; - პარამეტრების რაოდენობა განტოლებაში ცვლადებით " X"; ზე- ეფექტური მახასიათებლის რეალური მნიშვნელობა; y x- ეფექტური მახასიათებლის თეორიული ღირებულება; - წყვილის კორელაციის კოეფიციენტი.

4) F მაგიდა(R; f 1 ; f2),

სად f 1 \u003d k, f 2 \u003d n-k-1-თავისუფლების გრადუსების რაოდენობა (ცხრილის მნიშვნელობები).

5) თუ F calc >F ცხრილი, მაშინ რეგრესიის განტოლება არჩეულია სწორად და შეიძლება გამოყენებულ იქნას პრაქტიკაში.

თუ F კალკ , მაშინ რეგრესიის განტოლება შერჩეულია არასწორად.

6. რეგრესიული ანალიზის ხარისხის საზომის ამსახველი ძირითადი მაჩვენებელია განსაზღვრის კოეფიციენტი (R 2).

განსაზღვრის კოეფიციენტიგვიჩვენებს დამოკიდებული ცვლადის რა პროპორციას " ზე» გათვალისწინებულია ანალიზში და გამოწვეულია ანალიზში შემავალი ფაქტორების გავლენით.

განსაზღვრის კოეფიციენტი (R2)იღებს მნიშვნელობებს დიაპაზონში. რეგრესიის განტოლება ხარისხობრივია თუ R2 ≥0,8.

განსაზღვრის კოეფიციენტი უდრის კორელაციის კოეფიციენტის კვადრატს, ე.ი.

მაგალითი 6.1.შემდეგ მონაცემებზე დაყრდნობით შექმენით და გააანალიზეთ რეგრესიის განტოლება:

გამოსავალი.

1) გამოთვალეთ კორელაციის კოეფიციენტი: . ნიშნებს შორის ურთიერთობა პირდაპირი და ზომიერია.

2) შექმენით დაწყვილებული წრფივი რეგრესიის განტოლება.

2.1) შეადგინეთ საანგარიშო ცხრილი.

X ზე ჰუ x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
ჯამი 159,45 558,55
საშუალო 77519,6 22,78 79,79 2990,6

,

დაწყვილებული წრფივი რეგრესიის განტოლება: y x \u003d 25.17 + 0.087x.

3) იპოვნეთ თეორიული მნიშვნელობები" y x» ფაქტობრივი მნიშვნელობების ჩანაცვლებით რეგრესიის განტოლებაში « X».

4) ფაქტობრივი გრაფიკების დახატვა ზე"და თეორიული ღირებულებები" y x» ეფექტური თვისება (სურათი 6.1): r xy =0.47) და მცირე რაოდენობის დაკვირვება.

7) გამოთვალეთ განსაზღვრის კოეფიციენტი: R2=(0.47) 2 =0.22. აგებული განტოლება უხარისხოა.

იმიტომ რომ რეგრესიული ანალიზის დროს გამოთვლები საკმაოდ მოცულობითია, რეკომენდებულია სპეციალური პროგრამების გამოყენება ("Statistica 10", SPSS და ა.შ.).

6.2-ზე ნაჩვენებია ცხრილი პროგრამით „Statistica 10“-ით განხორციელებული რეგრესიული ანალიზის შედეგებით.

სურათი 6.2. პროგრამა „Statistica 10“-ის გამოყენებით განხორციელებული რეგრესიული ანალიზის შედეგები

5. ლიტერატურა:

1. გმურმანი ვ.ე. ალბათობის თეორია და მათემატიკური სტატისტიკა: პროკ. სახელმძღვანელო უნივერსიტეტებისთვის / V.E. გმურმანი. - მ.: უმაღლესი სკოლა, 2003. - 479გვ.

2. კოიჩუბეკოვი ბ.კ. ბიოსტატისტიკა: სახელმძღვანელო. - Almaty: Evero, 2014. - 154გვ.

3. ლობოტსკაია ნ.ლ. უმაღლესი მათემატიკა. / ნ.ლ. ლობოტსკაია, იუ.ვ. მოროზოვი, ა.ა. დუნაევი. - მინსკი: უმაღლესი სკოლა, 1987. - 319გვ.

4. მედიც V.A., Tokmachev M.S., Fishman B.B. სტატისტიკა მედიცინასა და ბიოლოგიაში: გზამკვლევი. 2 ტომად / რედ. იუ.მ. კომაროვი. T. 1. თეორიული სტატისტიკა. - მ.: მედიცინა, 2000. - 412გვ.

5. სტატისტიკური ანალიზის მეთოდების გამოყენება საზოგადოებრივი ჯანდაცვისა და ჯანდაცვის კვლევისათვის: სახელმძღვანელო / რედ. კუჩერენკო ვ.ზ. - მე-4 გამოცემა, შესწორებული. და დამატებითი - M.: GEOTAR - მედია, 2011. - 256გვ.