Gerileme için veriler. Veri analizinin temelleri

4. bölümün materyalini çalışmanın bir sonucu olarak, öğrenci şunları yapmalıdır:

bilmek

  • regresyon analizinin temel kavramları;
  • tahmin yöntemleri ve en küçük kareler yönteminin tahminlerinin özellikleri;
  • denklem ve regresyon katsayılarının önem testi ve aralık tahmini için temel kurallar;

yapabilmek

  • örnek verilerden iki boyutlu ve çoklu regresyon denklem modellerinin parametrelerinin tahminlerini bulun, özelliklerini analiz edin;
  • denklemin önemini ve regresyon katsayılarını kontrol edin;
  • önemli parametrelerin aralık tahminlerini bulmak;

sahip olmak

  • iki boyutlu ve çoklu regresyon denklemlerinin parametrelerini istatistiksel tahmin etme becerileri; regresyon modellerinin yeterliliğini kontrol etme becerileri;
  • analitik yazılım kullanarak tüm önemli katsayıları içeren bir regresyon denklemi elde etme becerileri.

Temel konseptler

Bir korelasyon analizi yaptıktan sonra, değişkenler arasında istatistiksel olarak anlamlı ilişkilerin varlığı belirlendiğinde ve sıkılık dereceleri değerlendirildiğinde, bunlar genellikle regresyon analizi yöntemlerini kullanarak bağımlılık türlerinin matematiksel bir açıklamasına geçerler. Bu amaçla, etkin göstergeyi birbirine bağlayan bir fonksiyon sınıfı seçilir. de ve argümanlar„ kısıtlama denkleminin parametrelerinin tahminlerini hesaplar ve ortaya çıkan denklemin doğruluğunu analiz eder.

İşlev | etkili özelliğin koşullu ortalama değerinin bağımlılığını açıklayan de argümanların verilen değerlerinden, denir regresyon denklemi.

"Gerileme" terimi (lat. gerileme- geri çekilme, bir şeye dönüş) İngiliz psikolog ve antropolog F. Galton tarafından tanıtıldı ve ilk örneklerinden biri ile ilişkilendirildi; burada Galton, büyümenin kalıtımı sorusuyla ilgili istatistiksel verileri işleyerek, eğer yüksekliğin yüksek olduğunu buldu. babalar tüm babaların ortalama boyundan sapıyor X inç, o zaman oğullarının boyu tüm oğulların ortalama boyundan daha az sapar x inç Belirlenen trendin adı ortalamaya gerileme.

"Regresyon" terimi, birçok durumda istatistiksel bağımlılığı doğru bir şekilde karakterize etmese de, istatistik literatüründe yaygın olarak kullanılmaktadır.

Regresyon denkleminin doğru bir tanımı için, etkili göstergenin koşullu dağılım yasasını bilmek gerekir. y.İstatistiksel uygulamada, bu tür bilgileri elde etmek genellikle imkansızdır, bu nedenle, işlev için uygun yaklaşımları bulmakla sınırlıdırlar. f(x sen X 2, .... l *), olgunun anlamlı bir ön analizine veya orijinal istatistiksel verilere dayanmaktadır.

Gösterge vektörünün dağılım türü hakkındaki bireysel model varsayımları çerçevesinde<) может быть получен общий вид regresyon denklemleri, nerede. Örneğin, çalışılan gösterge setinin matematiksel beklentiler vektörü ile () boyutlu normal dağılım yasasına uyduğu varsayımı altında

Nerede ve kovaryans matrisine göre,

fark nerede y,

Regresyon denklemi (koşullu beklenti) şu şekildedir:

Böylece, eğer bir çok değişkenli rastgele değişken ()

() boyutlu normal dağılım yasasına, ardından etkin göstergenin regresyon denklemine uyar de açıklayıcı değişkenlerde doğrusaldır X görüş.

Bununla birlikte, istatistiksel uygulamada, bilinmeyen gerçek regresyon fonksiyonu için uygun yaklaşımlar bulmakla yetinmek gerekir. f(x), Araştırmacı, analiz edilen performans göstergesinin olasılık dağılımının koşullu yasası hakkında kesin bilgiye sahip olmadığından de argümanların verilen değerleri için X.

Gerçek, model ve regresyon tahminleri arasındaki ilişkiyi düşünün. performans göstergesi olsun de argümanla ilişkili X oran

burada ayrıca normal dağılım yasasına sahip bir rastgele değişkendir. Bu durumda gerçek regresyon işlevi

Gerçek regresyon denkleminin tam biçimini bilmediğimizi varsayalım, ancak Şekil 1'de gösterilen ilişkilerle ilişkili iki boyutlu bir rastgele değişken üzerinde dokuz gözlemimiz var. 4.1.

Pirinç. 4.1. Gerçeğin göreceli konumuf(x) ve teorikvayregresyon modelleri

Şek. 4.1, kendimizi formun doğrusal bağımlılıkları sınıfıyla sınırlamamıza izin verir.

En küçük kareler yöntemini kullanarak, regresyon denklemi için bir tahmin buluyoruz.

Karşılaştırma için, Şek. 4.1, gerçek regresyon fonksiyonunun ve teorik yaklaşık regresyon fonksiyonunun grafiklerini gösterir. Regresyon denkleminin tahmini, olasılık açısından ikincisine yakınsar vayörnek boyutunda () sınırsız bir artış ile.

Ne yazık ki istatistiksel araştırma pratiğinde oldukça yaygın olan gerçek bir regresyon işlevi yerine yanlışlıkla bir doğrusal regresyon işlevi seçtiğimiz için, istatistiksel sonuçlarımız ve tahminlerimiz tutarlılık özelliğine sahip olmayacaktır, yani. gözlem hacmini ne kadar artırırsak artıralım, örnek tahminimiz gerçek regresyon fonksiyonuna yakınsamayacak

Eğer regresyon fonksiyonlarının sınıfını doğru seçmiş olsaydık, açıklamadaki yanlışlık vay sadece örneklemin sınırlılığı ile açıklanabilir ve bu nedenle keyfi olarak küçük yapılabilir.

Etkili göstergenin koşullu değerini ve bilinmeyen regresyon fonksiyonunu ilk istatistiksel verilerden en iyi şekilde geri yüklemek için, en sık olarak aşağıdakiler kullanılır: yeterlilik kriterleri kayıp fonksiyonları.

1. en küçük kareler yöntemi, etkili göstergenin gözlemlenen değerlerinin model değerlerinden kare sapmasının en aza indirildiği, burada regresyon denkleminin katsayıları; "-M gözlemindeki argüman vektörünün değerleridir. :

Vektörün bir tahminini bulma sorunu çözülüyor. Ortaya çıkan regresyon denir kare demek.

2. En az modül yöntemi, etkili göstergenin gözlenen değerlerinin modüler değerlerden mutlak sapmalarının toplamının en aza indirildiği, yani.

Ortaya çıkan regresyon denir mutlak demek(medyan).

3. minimaks yöntemi etkili göstergenin gözlemlenen değerinin maksimum sapma modülünü en aza indirgemek için azaltılır y, model değerinden, yani

Ortaya çıkan regresyon denir minimaks.

Pratik uygulamalarda, genellikle rasgele değişkenin çalışıldığı problemler vardır. y, bazı değişkenlere ve bilinmeyen parametrelere bağlıdır. () olarak ele alacağız (k + 1)-boyutlu genel popülasyon, içinden rastgele bir hacim örneği P, burada (), /-th gözleminin sonucudur. Gözlemlerin sonuçlarına dayanarak bilinmeyen parametreleri tahmin etmek gerekir. Yukarıda açıklanan görev, regresyon analizinin görevlerini ifade eder.

regresyon analizi rastgele bir değişkenin bağımlılığının istatistiksel analiz yöntemini çağırın de gerçek dağılım yasasına bakılmaksızın, regresyon analizinde rastgele olmayan değişkenler olarak kabul edilen değişkenler üzerinde

SONUÇLAR

Tablo 8.3a. Regresyon istatistikleri
Regresyon istatistikleri
Çoklu R 0,998364
R Meydanı 0,99673
Normalleştirilmiş R-kare 0,996321
standart hata 0,42405
gözlemler 10

Önce Tablo 8.3a'da sunulan hesaplamaların üst kısmına yani regresyon istatistiklerine bakalım.

Kesinlik ölçüsü olarak da adlandırılan R-kare değeri, ortaya çıkan regresyon çizgisinin kalitesini karakterize eder. Bu kalite, orijinal veriler ile regresyon modeli (hesaplanan veriler) arasındaki uygunluk derecesi ile ifade edilir. Kesinliğin ölçüsü her zaman aralığın içindedir.

Çoğu durumda, R-kare değeri, uç değerler olarak adlandırılan bu değerler arasındadır, yani. sıfır ile bir arasında.

R-kare değeri bire yakınsa, bu, oluşturulan modelin karşılık gelen değişkenlerin neredeyse tüm değişkenliğini açıkladığı anlamına gelir. Tersine, sıfıra yakın bir R-kare değeri, oluşturulan modelin kalitesiz olduğu anlamına gelir.

Örneğimizde, kesinlik ölçüsü 0,99673'tür ve bu, regresyon çizgisinin orijinal verilere çok iyi uyduğunu gösterir.

Çoklu R- çoklu korelasyon katsayısı R - bağımsız değişkenlerin (X) ve bağımlı değişkenin (Y) bağımlılık derecesini ifade eder.

Çoklu R eşittir kare kök belirleme katsayısından bu değer sıfır ile bir arasında değerler alır.

Basit bir doğrusal regresyon analizinde, çoklu R, Pearson korelasyon katsayısına eşittir. Aslında, bizim durumumuzdaki çoklu R, önceki örnekteki (0,998364) Pearson korelasyon katsayısına eşittir.

Tablo 8.3b. Regresyon katsayıları
Oranlar standart hata t-istatistik
Y kavşağı 2,694545455 0,33176878 8,121757129
Değişken X 1 2,305454545 0,04668634 49,38177965
* Hesaplamaların kısaltılmış hali verilmiştir.

Şimdi tablo 8.3b'de sunulan hesaplamaların orta kısmını ele alalım. Burada regresyon katsayısı b (2,305454545) ve y ekseni boyunca ofset verilmiştir, yani sabit bir (2,694545455).

Hesaplamalara dayanarak, regresyon denklemini aşağıdaki gibi yazabiliriz:

Y= x*2,305454545+2,694545455

Değişkenler arasındaki ilişkinin yönü, işaretlere (negatif veya pozitif) göre belirlenir. regresyon katsayıları(katsayı b).

Eğer işareti regresyon katsayısı- pozitif, bağımlı değişkenin bağımsız ile ilişkisi pozitif olacaktır. Bizim durumumuzda regresyon katsayısının işareti pozitiftir, dolayısıyla ilişki de pozitiftir.

Eğer işareti regresyon katsayısı- negatif, bağımlı değişken ile bağımsız değişken arasındaki ilişki negatiftir (ters).

Tablo 8.3c'de. artıkların çıktısının sonuçları sunulmuştur. Bu sonuçların raporda görünmesi için, "Regresyon" aracını başlatırken "Kalıntılar" onay kutusunun etkinleştirilmesi gerekir.

KALAN ÇEKİM

Tablo 8.3c. Kalıntılar
Gözlem tahmin edilen Y Kalıntılar Standart bakiyeler
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Raporun bu bölümünü kullanarak, oluşturulan regresyon çizgisinden her bir noktanın sapmalarını görebiliriz. En büyük mutlak değer

Modern siyaset bilimi, toplumdaki tüm fenomenlerin ve süreçlerin ilişkisi konusundaki konumundan hareket eder. Toplumun siyasi alanında var olan bağlantıları ve bağımlılıkları incelemeden olayları ve süreçleri anlamak, siyasi yaşam fenomenlerini tahmin etmek ve yönetmek imkansızdır. Politika araştırmasının en yaygın görevlerinden biri, bazı gözlemlenebilir değişkenler arasındaki ilişkiyi incelemektir. "Regresyon analizi" (veya aynı zamanda "korelasyon-gerileme analizi" olarak da adlandırılır) ortak adıyla birleştirilen bütün bir istatistiksel analiz yöntemleri sınıfı, bu sorunun çözülmesine yardımcı olur. Bununla birlikte, korelasyon analizi iki değişken arasındaki ilişkinin gücünü değerlendirmeyi mümkün kılıyorsa, regresyon analizi kullanılarak bu ilişkinin türünü belirlemek, herhangi bir değişkenin değerinin başka bir değişkenin değerine bağımlılığını tahmin etmek mümkündür. .

İlk olarak, korelasyonun ne olduğunu hatırlayalım. bağıntılı bir değişkenin eşit değerlerinin farklı değerlere karşılık gelmesinden oluşan istatistiksel ilişkinin en önemli özel durumu olarak adlandırılır. ortalama değerler bir diğer. x niteliğinin değerindeki bir değişiklikle, y niteliğinin ortalama değeri doğal olarak değişirken, her durumda niteliğin değeri değişir. de(farklı olasılıklarla) birçok farklı değer alabilir.

İstatistikte “korelasyon” teriminin ortaya çıkışı (ve siyaset bilimi, sorunlarını çözmek için istatistiklerin başarısını çeker, bu nedenle siyaset bilimiyle ilgili bir disiplindir), İngiliz biyolog ve istatistikçi Francis Galton'un adıyla ilişkilidir. 19. yüzyılda kim teklif etti. korelasyon-regresyon analizinin teorik temelleri. Bilimde "korelasyon" terimi daha önce biliniyordu. Özellikle, 18. yüzyılda paleontolojide. Fransız bilim adamı Georges Cuvier tarafından uygulandı. Kazılar sırasında bulunan hayvan kalıntılarına göre görünüşlerini eski haline getirmenin mümkün olduğu sözde korelasyon yasasını çıkardı.

Bu bilim adamının adı ve korelasyon yasası ile ilgili iyi bilinen bir hikaye var. Böylece, bir üniversitenin tatil olduğu günlerde, ünlü bir profesöre oyun oynamaya karar veren öğrenciler, bir öğrencinin üzerine boynuzlu ve toynaklı bir keçi derisi çektiler. Cuvier'in yatak odasının penceresine tırmandı ve "Seni yerim" diye bağırdı. Profesör uyandı, siluete baktı ve cevap verdi: “Boynuzlarınız ve toynaklarınız varsa, o zaman bir otobursunuz ve beni yiyemezsiniz. Ve korelasyon yasasını bilmediğiniz için bir ikili elde edeceksiniz. Döndü ve uykuya daldı. Şaka şakadır ama bu örnekte çoklu korelasyon-regresyon analizinin kullanıldığı özel bir durum görüyoruz. Burada profesör, gözlemlenen iki özelliğin (boynuzların ve toynakların varlığı) değerlerinin bilgisine dayanarak, korelasyon yasasına dayanarak, üçüncü özelliğin (bu hayvanın ait olduğu sınıf) ortalama değerini türetmiştir. bir otoburdur). Bu durumda, bu değişkenin belirli değerinden bahsetmiyoruz (yani, bu hayvan nominal ölçekte farklı değerler alabilir - keçi, koç veya boğa olabilir ...).

Şimdi "gerileme" terimine geçelim. Açıkçası, bu yöntemle çözülen istatistiksel problemlerin anlamı ile bağlantılı değildir. Terimin açıklaması, yalnızca özellikler arasındaki ilişkileri incelemek için yöntemlerin gelişim tarihi bilgisi temelinde verilebilir. Bu tür çalışmaların ilk örneklerinden biri, babaların ve çocuklarının büyümesi arasında gözlemlenebilir iki belirtiye göre bir model bulmaya çalışan istatistikçiler F. Galton ve K. Pearson'un çalışmalarıydı. X- babasının boyu ve U-çocukların büyümesi). Çalışmalarında, ortalama olarak uzun boylu babaların ortalama olarak uzun boylu çocuklar yetiştirdiği şeklindeki ilk hipotezi doğruladılar. Aynı ilke düşük babalar ve çocuklar için de geçerlidir. Ancak bilim adamları burada dursalardı, istatistik ders kitaplarında çalışmalarından asla bahsedilmezdi. Araştırmacılar, daha önce bahsedilen doğrulanmış hipotezde başka bir model buldular. Çok uzun babaların, ortalama olarak uzun boylu, ancak babaları ortalamanın üzerinde olmasına rağmen ortalama boydan çok farklı olmayan çocuklardan boy olarak çok farklı olmayan çocuklar ürettiklerini kanıtladılar. Aynı şey, çok kısa boylu babalar için de geçerlidir (kısa grubun ortalamasından sapan) - çocukları, ortalama olarak, babaları kısa olan akranlarından farklı değildi. Bu düzenliliği tanımlayan işlevi çağırdılar. regresyon fonksiyonu. Bu çalışmadan sonra benzer fonksiyonları tanımlayan ve benzer şekilde kurulan tüm denklemlere regresyon denklemleri denilmeye başlanmıştır.

Regresyon analizi- bir bağımlı ve birkaç (veya bir) bağımsız değişken arasındaki ilişkileri incelemek veya modellemek için tasarlanmış bir dizi istatistiksel tekniği birleştiren çok değişkenli istatistiksel veri analizi yöntemlerinden biri. İstatistikte kabul edilen geleneğe göre bağımlı değişken, yanıt olarak adlandırılır ve şu şekilde gösterilir: v Bağımsız değişkenler yordayıcı olarak adlandırılır ve şu şekilde gösterilir: x. Analiz süresince, bazı değişkenler yanıtla zayıf bir şekilde ilişkili olacak ve sonunda analizden çıkarılacaktır. Bağımlı olanla ilişkili kalan değişkenler de faktör olarak adlandırılabilir.

Regresyon analizi, başka bir değişkene (örneğin, eğitim düzeyine bağlı olarak geleneksel olmayan politik davranış eğilimi) veya birkaç değişkene bağlı olarak bir veya daha fazla değişkenin değerlerini tahmin etmeyi mümkün kılar. PC'de hesaplanır. Kontrol edilen özelliğin faktör olanlara bağımlılık derecesini ölçmenizi sağlayan bir regresyon denklemi derlemek için profesyonel matematikçi-programcıları dahil etmek gerekir. Regresyon analizi, siyasi bir durumun gelişimi için tahmin modelleri oluşturmada, sosyal gerilimin nedenlerini değerlendirmede ve teorik deneyler yürütmede paha biçilmez bir hizmet sağlayabilir. Regresyon analizi, bir dizi sosyo-demografik parametrenin vatandaşların seçim davranışları üzerindeki etkisini incelemek için aktif olarak kullanılır: cinsiyet, yaş, meslek, ikamet yeri, uyruk, gelir düzeyi ve niteliği.

Regresyon analizi ile ilgili olarak, kavramlar bağımsız ve bağımlı değişkenler. Bağımsız değişken, başka bir değişkende bir değişikliği açıklayan veya buna neden olan bir değişkendir. Bağımlı değişken, değeri ilk değişkenin etkisiyle açıklanan bir değişkendir. Örneğin 2004 yılında yapılan cumhurbaşkanlığı seçimlerinde belirleyici olan, yani; bağımsız değişkenler, ülke nüfusunun mali durumunun istikrarı, adayların popülerlik düzeyi ve faktör gibi göstergelerdi. görev Bu durumda adaylara verilen oy yüzdesi bağımlı değişken olarak kabul edilebilir. Benzer şekilde “seçmenin yaşı” ve “seçim faaliyetinin düzeyi” değişken çiftinde de birincisi bağımsız, ikincisi bağımlıdır.

Regresyon analizi, aşağıdaki sorunları çözmenizi sağlar:

  • 1) Ci arasında istatistiksel olarak anlamlı bir ilişkinin varlığının veya yokluğunun gerçekliğini tespit etmek x;
  • 2) regresyon fonksiyonunun en iyi (istatistiksel anlamda) tahminlerini oluşturun;
  • 3) verilen değerlere göre X bilinmeyen için bir tahmin oluşturmak -de
  • 4) her faktörün etkisinin özgül ağırlığını değerlendirin Xüzerinde -de ve buna göre önemsiz özellikleri modelden hariç tutun;
  • 5) Değişkenler arasındaki nedensel ilişkileri belirleyerek, açıklayıcı değişkenlerin değerlerini ayarlayarak P değerlerini kısmen yönetir. x.

Regresyon analizi, incelenen göstergenin değerini etkileyen karşılıklı olarak bağımsız değişkenleri seçme, regresyon denkleminin şeklini belirleme ve birincil sosyolojik verileri işlemek için istatistiksel yöntemler kullanarak parametreleri değerlendirme ihtiyacı ile ilişkilidir. Bu tür analiz, ilişkinin biçimi, yönü ve yakınlığı (yoğunluğu) fikrine dayanır. Ayırt etmek buhar odası ve çoklu regresyonÇalışılan özelliklerin sayısına bağlı olarak. Uygulamada, regresyon analizi genellikle korelasyon analizi ile birlikte gerçekleştirilir. Regresyon Denklemi Bir değişkenin artma veya azalma eğilimi gösterirken diğerinin artma veya azalma eğilimi olarak ifade edilen nicelikler arasındaki sayısal ilişkiyi tanımlar. Aynı zamanda razl ve h a yut l don ve doğrusal olmayan regresyon. Politik süreçleri tarif ederken, gerilemenin her iki çeşidi de eşit olarak bulunur.

Siyasi makalelerdeki ilgi bağımlılığının dağılımı için dağılım grafiği ( sen) ve katılımcıların eğitimi (X) doğrusal bir regresyondur (Şekil 30).

Pirinç. otuz.

Seçim faaliyeti seviyesinin dağılımı için dağılım grafiği ( sen) ve yanıtlayanın yaşı (A) (koşullu örnek) doğrusal olmayan bir regresyondur (Şekil 31).


Pirinç. 31.

Eşleştirilmiş bir regresyon modelinde iki özelliğin (A" ve Y) ilişkisini açıklamak için doğrusal bir denklem kullanılır.

burada a, özelliklerin değişimi ile denklem hatasının rastgele bir değeridir, yani denklemin "doğrusallıktan" sapması.

Katsayıları değerlendirmek için a ve b dağılım grafiğindeki her noktanın regresyon çizgisinden sapmalarının karelerinin toplamının minimum olması gerektiğini varsayan en küçük kareler yöntemini kullanın. Oranlar bir hb denklem sistemi kullanılarak hesaplanabilir:

En küçük kareler tahmini yöntemi, katsayıların bu tür tahminlerini verir. a ve b,çizginin koordinatlı noktadan geçtiği X ve y,şunlar. bir ilişki var de = balta + b. Regresyon denkleminin grafik gösterimi denir teorik regresyon çizgisi. Doğrusal bir bağımlılıkla, regresyon katsayısı grafikte teorik regresyon çizgisinin eğiminin x eksenine teğetini temsil eder. Katsayıdaki işaret ilişkinin yönünü gösterir. Sıfırdan büyükse ilişki doğrudan, küçükse terstir.

"Political Petersburg-2006" (Tablo 56) çalışmasından alınan aşağıdaki örnek, vatandaşların şu andaki yaşamlarından memnuniyet derecesine ilişkin algıları ile gelecekteki yaşam kalitesindeki değişikliklere ilişkin beklentileri arasında doğrusal bir ilişki göstermektedir. Bağlantı doğrudan, doğrusaldır (standartlaştırılmış regresyon katsayısı 0,233, anlamlılık düzeyi 0,000'dir). Bu durumda regresyon katsayısı yüksek olmamakla birlikte istatistiksel olarak anlamlı göstergenin alt sınırını (Pearson katsayısının istatistiksel olarak anlamlı göstergesinin karesinin alt sınırını) aşmaktadır.

Tablo 56

Vatandaşların şimdiki yaşam kalitesinin beklentiler üzerindeki etkisi

(St.Petersburg, 2006)

* Bağımlı değişken: "Önümüzdeki 2-3 yılda hayatınızın nasıl değişeceğini düşünüyorsunuz?"

Siyasi yaşamda, incelenen değişkenin değeri çoğu zaman aynı anda birkaç özelliğe bağlıdır. Örneğin, siyasi faaliyetin düzeyi ve niteliği aynı anda devletin siyasi rejimi, siyasi gelenekler, belirli bir bölgedeki insanların siyasi davranışlarının özellikleri ve yanıt verenin sosyal mikro grubu, yaşı, eğitimi, geliri tarafından etkilenir. seviye, siyasi yönelim vb. Bu durumda, denklemi kullanmanız gerekir. çoklu regresyon, aşağıdaki forma sahiptir:

nerede katsayı b.- kısmi regresyon katsayısı. Her bağımsız değişkenin bağımsız (çıktı) değişkenin değerlerini belirlemeye katkısını gösterir. Kısmi regresyon katsayısı 0'a yakınsa, bağımsız ve bağımlı değişkenler arasında doğrudan bir ilişki olmadığı sonucuna varabiliriz.

Böyle bir modelin hesaplanması, matris cebiri kullanılarak bir bilgisayarda gerçekleştirilebilir. Çoklu regresyon, sosyal bağların çok faktörlü doğasını yansıtmanıza ve her bir faktörün sonuçta ortaya çıkan özellik üzerindeki etki derecesini ayrı ayrı ve hep birlikte netleştirmenize olanak tanır.

katsayı belirtilen b, doğrusal regresyon katsayısı olarak adlandırılır ve faktör özelliğinin değişimi arasındaki ilişkinin gücünü gösterir. X ve etkili özelliğin varyasyonu Y Bu katsayı, özelliklerin mutlak ölçüm birimlerinde ilişkinin gücünü ölçer. Bununla birlikte, özelliklerin korelasyonunun yakınlığı, ortaya çıkan özelliğin standart sapması cinsinden de ifade edilebilir (böyle bir katsayıya korelasyon katsayısı denir). Regresyon katsayısının aksine b korelasyon katsayısı, özelliklerin kabul edilen ölçüm birimlerine bağlı değildir ve bu nedenle, herhangi bir özellik için karşılaştırılabilir. Genellikle, /> 0,7, orta sızdırmazlık - 0,5 g 0,5 ise bağlantı güçlü kabul edilir.

Bildiğiniz gibi, en yakın bağlantı işlevsel bir bağlantıdır, her bir değer Y değere benzersiz bir şekilde atanabilir x. Bu nedenle, korelasyon katsayısı 1'e ne kadar yakınsa, ilişki işlevsel olana o kadar yakındır. Regresyon analizi için anlamlılık düzeyi 0.001'i geçmemelidir.

Korelasyon katsayısı uzun zamandır özelliklerin ilişkisinin yakınlığının ana göstergesi olarak kabul edilmektedir. Ancak daha sonra belirleme katsayısı böyle bir gösterge haline geldi. Bu katsayının anlamı şu şekildedir - ortaya çıkan özelliğin toplam varyansının payını yansıtır. -de, özelliğin varyansıyla açıklanır x. Basitçe korelasyon katsayısının (0'dan 1'e değişen) karesini alarak bulunur ve doğrusal bir ilişki için payı 0'dan (%0) 1 (%100) karakteristik değerler Y,özelliğin değerleri tarafından belirlenir x. olarak kaydedilir ben 2 , ve SPSS paketindeki sonuçta ortaya çıkan regresyon analizi tablolarında - karesiz.

Çoklu regresyon denklemi oluşturmanın ana problemlerini gösterelim.

  • 1. Regresyon denkleminde yer alan faktörlerin seçimi. Bu aşamada, araştırmacı önce teoriye göre incelenen olguyu belirleyen ana nedenlerin genel bir listesini derler. Daha sonra regresyon denklemindeki özellikleri seçmesi gerekir. Ana seçim kuralı, analize dahil edilen faktörlerin birbirleriyle mümkün olduğunca az korelasyon göstermesidir; sadece bu durumda, belirli bir faktör özelliğine nicel bir etki ölçüsü atfetmek mümkündür.
  • 2. Çoklu Regresyon Denkleminin Formunun Seçilmesi(pratikte, doğrusal veya doğrusal-logaritmik daha sık kullanılır). Bu nedenle, çoklu regresyon kullanmak için, araştırmacı önce birkaç bağımsız değişkenin ortaya çıkan değişken üzerindeki etkisinin varsayımsal bir modelini oluşturmalıdır. Elde edilen sonuçların güvenilir olabilmesi için modelin gerçek süreçle birebir örtüşmesi yani değişkenler arasındaki ilişki doğrusal olmalıdır, tek bir anlamlı bağımsız değişken göz ardı edilemez, aynı şekilde incelenen süreçle doğrudan ilişkili olmayan tek bir değişken de analize dahil edilemez. Ek olarak, değişkenlerin tüm ölçümleri son derece doğru olmalıdır.

Yukarıdaki açıklamadan, bu yöntemin uygulanması için, çoklu regresyon analizi (MRA) prosedürüne ilerlemenin imkansız olduğu bir dizi koşul izlenir. Yalnızca aşağıdaki noktaların tümüne uyulması, regresyon analizini doğru bir şekilde yapmanızı sağlar.

İstatistiksel modellemede, regresyon analizi, değişkenler arasındaki ilişkiyi değerlendirmek için kullanılan bir çalışmadır. Bu matematiksel yöntem, bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiye odaklanıldığında, birden çok değişkeni modellemek ve analiz etmek için birçok başka yöntem içerir. Daha spesifik olarak, regresyon analizi, bağımsız değişkenlerden biri değişirken diğer bağımsız değişkenler sabit kalırsa, bağımlı değişkenin tipik değerinin nasıl değiştiğini anlamanıza yardımcı olur.

Her durumda, hedef puan bağımsız değişkenlerin bir fonksiyonudur ve regresyon fonksiyonu olarak adlandırılır. Regresyon analizinde, bağımlı değişkendeki değişikliği, bir olasılık dağılımı kullanılarak tanımlanabilecek regresyonun bir fonksiyonu olarak karakterize etmek de ilgi çekicidir.

Regresyon analizinin görevleri

Bu istatistiksel araştırma yöntemi, kullanımının önemli bir avantaja sahip olduğu, ancak bazen yanılsamaya veya yanlış ilişkilere yol açabileceği tahmin için yaygın olarak kullanılır, bu nedenle, örneğin, korelasyon olmadığı için, bu soruda dikkatli kullanılması önerilir. nedensellik

Gelişmiş Büyük sayı parametrik olan doğrusal ve sıradan en küçük kareler regresyonu gibi regresyon analizi yapmak için yöntemler. Özleri, regresyon fonksiyonunun verilerden tahmin edilen sonlu sayıda bilinmeyen parametreler cinsinden tanımlanmasıdır. Parametrik olmayan regresyon, fonksiyonunun sonsuz boyutlu olabilen belirli bir fonksiyonlar kümesinde bulunmasına izin verir.

İstatistiksel bir araştırma yöntemi olarak, pratikte regresyon analizi, veri oluşturma sürecinin biçimine ve bunun regresyon yaklaşımıyla nasıl ilişkili olduğuna bağlıdır. Veri süreci oluşturmanın gerçek biçimi tipik olarak bilinmeyen bir sayı olduğundan, veri regresyon analizi genellikle bir dereceye kadar süreçle ilgili varsayımlara bağlıdır. Yeterli veri varsa, bu varsayımlar bazen test edilebilir. Regresyon modelleri, varsayımlar orta düzeyde ihlal edildiğinde bile genellikle yararlıdır, ancak en iyi performansı gösteremeyebilirler.

Daha dar bir anlamda, regresyon, sınıflandırmada kullanılan ayrık yanıt değişkenlerinin aksine, özellikle sürekli yanıt değişkenlerinin tahminine atıfta bulunabilir. Sürekli bir çıktı değişkeni durumu, onu ilgili problemlerden ayırmak için metrik regresyon olarak da adlandırılır.

Hikaye

en çok erken form regresyon iyi bilinen en küçük kareler yöntemidir. Legendre tarafından 1805'te ve Gauss tarafından 1809'da yayınlandı. Legendre ve Gauss, yöntemi astronomik gözlemlerden Güneş etrafındaki cisimlerin (esas olarak kuyruklu yıldızlar, ancak daha sonra yeni keşfedilen küçük gezegenler) yörüngelerini belirleme sorununa uyguladı. Gauss, 1821'de Gauss-Markov teoreminin bir varyantı da dahil olmak üzere en küçük kareler teorisinin daha da geliştirilmesini yayınladı.

"Gerileme" terimi, 19. yüzyılda Francis Galton tarafından biyolojik bir fenomeni tanımlamak için icat edildi. Sonuç olarak, ataların büyümesinden torunların büyümesi, kural olarak, normal ortalamaya geriler. Galton için regresyon yalnızca bu biyolojik anlama sahipti, ancak daha sonra çalışmaları Udni Yoley ve Karl Pearson tarafından ele alındı ​​​​ve daha genel bir istatistiksel bağlama alındı. Yule ve Pearson'un çalışmasında, yanıt ve açıklayıcı değişkenlerin ortak dağılımı Gauss olarak kabul edilir. Bu varsayım, Fischer tarafından 1922 ve 1925 gazetelerinde reddedildi. Fisher, yanıt değişkeninin koşullu dağılımının Gauss olduğunu, ancak ortak dağılımın olması gerekmediğini öne sürdü. Bu bakımdan Fisher'in önerisi, Gauss'un 1821 formülasyonuna daha yakındır. 1970'den önce, bir regresyon analizinin sonucunu almak bazen 24 saati buluyordu.

Regresyon analizi yöntemleri, aktif bir araştırma alanı olmaya devam ediyor. Son yıllarda, güçlü regresyon için yeni yöntemler geliştirilmiştir; ilişkili yanıtları içeren regresyonlar; çeşitli eksik veri türlerini barındıran regresyon yöntemleri; parametrik olmayan regresyon; Bayes regresyon yöntemleri; yordayıcı değişkenlerin hatayla ölçüldüğü regresyonlar; gözlemlerden daha fazla yordayıcı içeren regresyonlar ve regresyonlu nedensel çıkarımlar.

Regresyon Modelleri

Regresyon analizi modelleri aşağıdaki değişkenleri içerir:

  • Bir skaler veya bir vektör olabilen, beta olarak gösterilen bilinmeyen parametreler.
  • Bağımsız değişkenler, X.
  • Bağımlı değişkenler, Y.

AT Çeşitli bölgeler regresyon analizinin uygulandığı bilimler bağımlı ve bağımsız değişkenler yerine farklı terimler kullanır, ancak her durumda regresyon modeli Y'yi X ve β'nın bir fonksiyonuyla ilişkilendirir.

Yaklaşım genellikle E (Y | X) = F (X, β) şeklinde formüle edilir. Regresyon analizi yapabilmek için f fonksiyonunun formunun belirlenmesi gerekir. Daha nadiren, verilere dayanmayan Y ve X arasındaki ilişki hakkındaki bilgilere dayanır. Böyle bir bilgi mevcut değilse, esnek veya uygun bir F formu seçilir.

Bağımlı değişken Y

Şimdi bilinmeyen parametre vektörünün β uzunluğunun k olduğunu varsayalım. Bir regresyon analizi yapmak için, kullanıcının Y bağımlı değişkeni hakkında bilgi vermesi gerekir:

  • Formun (Y, X) N veri noktası gözlenirse, burada N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Tam olarak N = K gözlenirse ve F işlevi doğrusalsa, o zaman Y = F(X, β) denklemi yaklaşık olarak değil, tam olarak çözülebilir. Bu, X lineer olarak bağımsız olduğu sürece benzersiz bir çözüme sahip olan N-bilinmeyenli (β'nın elemanları) bir dizi N-denklem çözmekle özetlenir. F doğrusal değilse, bir çözüm olmayabilir veya birçok çözüm olabilir.
  • En yaygın durum, verilere N > noktasının olduğu durumdur. Bu durumda, verilere en iyi uyan benzersiz β değerini tahmin etmek için verilerde yeterli bilgi vardır ve verilere uygulandığında regresyon modeli β'da geçersiz kılınmış bir sistem olarak görülebilir.

İkinci durumda, regresyon analizi aşağıdakiler için araçlar sağlar:

  • Bilinmeyen parametreler β için, örneğin ölçülen ve tahmin edilen Y değeri arasındaki mesafeyi en aza indirecek bir çözüm bulmak.
  • Belirli istatistiksel varsayımlar altında, regresyon analizi, bilinmeyen parametreler β ve bağımlı değişken Y'nin tahmin edilen değerleri hakkında istatistiksel bilgi sağlamak için fazla bilgiyi kullanır.

Gerekli bağımsız ölçüm sayısı

Üç bilinmeyen parametresi olan bir regresyon modeli düşünün: β 0 , β 1 ve β 2 . Deneycinin X vektörünün bağımsız değişkeninin aynı değerinde 10 ölçüm yaptığını varsayalım. Bu durumda, regresyon analizi benzersiz bir değerler dizisi vermez. Yapılabilecek en iyi şey, Y bağımlı değişkeninin ortalamasını ve standart sapmasını tahmin etmektir. farklı değerler X, iki bilinmeyenli bir regresyon için yeterli veri elde edebilirsiniz, ancak üç veya daha fazla bilinmeyenli için değil.

Deneycinin ölçümleri, bağımsız vektör değişkeni X'in üç farklı değerinde alınmışsa, regresyon analizi, β'daki üç bilinmeyen parametre için benzersiz bir tahmin seti sağlayacaktır.

Genel lineer regresyon durumunda, yukarıdaki ifade, X T X matrisinin tersinir olması gerekliliğine eşdeğerdir.

İstatistiksel Varsayımlar

Ölçüm sayısı N, bilinmeyen parametrelerin sayısından ve ölçüm hatalarından εi daha büyük olduğunda, kural olarak, ölçümlerde bulunan fazla bilgi dağıtılır ve bilinmeyen parametrelerle ilgili istatistiksel tahminler için kullanılır. Bu fazla bilgi, regresyonun serbestlik derecesi olarak adlandırılır.

Temel varsayımlar

Regresyon analizi için klasik varsayımlar şunları içerir:

  • Örnekleme, çıkarım tahminini temsil eder.
  • Hata, açıklayıcı değişkenlere bağlı olan, ortalama değeri sıfır olan rastgele bir değişkendir.
  • Bağımsız değişkenler hatasız ölçülür.
  • Bağımsız değişkenler (öngörücüler) olarak doğrusal olarak bağımsızdırlar, yani herhangi bir yordayıcıyı diğerlerinin doğrusal bir kombinasyonu olarak ifade etmek mümkün değildir.
  • Hatalar ilintisizdir, yani köşegenlerin hata kovaryans matrisi ve sıfır olmayan her öğe hatanın varyansıdır.
  • Hata varyansı gözlemler boyunca sabittir (homoskedasite). Değilse, ağırlıklı en küçük kareler veya diğer yöntemler kullanılabilir.

En küçük kareler tahmini için bu yeterli koşullar, gerekli özelliklere sahiptir, özellikle bu varsayımlar, özellikle doğrusal tahminler sınıfında dikkate alındığında, parametre tahminlerinin objektif, tutarlı ve verimli olacağı anlamına gelir. Gerçek verilerin nadiren koşulları karşıladığını not etmek önemlidir. Yani, varsayımlar doğru olmasa bile yöntem kullanılır. Varsayımlardan sapma bazen modelin ne kadar yararlı olduğunun bir ölçüsü olarak kullanılabilir. Bu varsayımların çoğu, daha gelişmiş yöntemlerle gevşetilebilir. İstatistiksel analiz raporları tipik olarak örnek verilere karşı testlerin analizini ve modelin kullanışlılığına yönelik metodolojiyi içerir.

Ek olarak, bazı durumlarda değişkenler, nokta konumlarında ölçülen değerleri ifade eder. İstatistiksel varsayımları ihlal eden değişkenlerde mekansal eğilimler ve mekansal otokorelasyonlar olabilir. Coğrafi ağırlıklı regresyon, bu tür verilerle ilgilenen tek yöntemdir.

Doğrusal regresyonda özellik, Y i olan bağımlı değişkenin, parametrelerin doğrusal bir kombinasyonu olmasıdır. Örneğin, basit doğrusal regresyonda, n-noktalı modelleme bir bağımsız değişken, x i ve iki parametre, β 0 ve β 1 kullanır.

Çoklu doğrusal regresyonda, birkaç bağımsız değişken veya bunların işlevleri vardır.

Bir popülasyondan rastgele örneklendiğinde, parametreleri doğrusal regresyon modelinin bir örneğini elde etmeyi mümkün kılar.

Bu açıdan en küçük kareler yöntemi en popüler yöntemdir. Kalıntıların kareler toplamını en aza indiren parametre tahminleri sağlar. Bu fonksiyonun bu tür minimizasyonu (doğrusal regresyonun tipik özelliğidir), bir dizi normal denkleme ve bir dizi lineer denklemler parametre tahminlerini elde etmek için çözülen parametrelerle.

Popülasyon hatasının genel olarak yayıldığını varsayarsak, araştırmacı bu standart hata tahminlerini güven aralıkları oluşturmak ve parametreleri hakkında hipotez testi gerçekleştirmek için kullanabilir.

Doğrusal Olmayan Regresyon Analizi

Fonksiyonun parametrelere göre doğrusal olmadığı bir örnek, kareler toplamının yinelemeli bir prosedürle en aza indirilmesi gerektiğini gösterir. Bu, doğrusal ve doğrusal olmayan en küçük kareler yöntemleri arasındaki farkları tanımlayan birçok komplikasyonu beraberinde getirir. Sonuç olarak, doğrusal olmayan bir yöntem kullanılırken regresyon analizinin sonuçları bazen tahmin edilemez.

Güç ve örneklem boyutunun hesaplanması

Burada, kural olarak, modeldeki bağımsız değişken sayısına kıyasla gözlem sayısına ilişkin tutarlı yöntemler yoktur. İlk kural Dobra ve Hardin tarafından önerildi ve N = t^n gibi görünüyor, burada N örneklem büyüklüğü, n açıklayıcı değişkenlerin sayısı ve t, model varsa istenen doğruluğu elde etmek için gereken gözlem sayısıdır. sadece bir açıklayıcı değişken. Örneğin, bir araştırmacı 1000 hasta (N) içeren bir veri kümesini kullanarak doğrusal bir regresyon modeli oluşturur. Araştırmacı, çizgiyi (m) doğru bir şekilde belirlemek için beş gözlem gerektiğine karar verirse, modelin destekleyebileceği maksimum açıklayıcı değişken sayısı 4'tür.

Öbür metodlar

Bir regresyon modelinin parametreleri genellikle en küçük kareler yöntemi kullanılarak tahmin edilse de, çok daha az sıklıkla kullanılan başka yöntemler de vardır. Örneğin, bunlar aşağıdaki yöntemlerdir:

  • Bayes yöntemleri (örneğin, Bayes doğrusal regresyon yöntemi).
  • Yüzde hatalarını azaltmanın daha uygun olduğu durumlar için kullanılan bir yüzde gerilemesi.
  • Kuantil regresyona yol açan aykırı değerlerin varlığında daha sağlam olan en küçük mutlak sapmalar.
  • Çok sayıda gözlem ve hesaplama gerektiren parametrik olmayan regresyon.
  • Belirli bir girdi uzayında anlamlı bir mesafe metriği arayışında öğrenilen öğrenme metriğinin mesafesi.

Yazılım

Tüm önemli istatistiksel yazılım paketleri, en küçük kareler regresyon analizi kullanılarak gerçekleştirilir. Basit doğrusal regresyon ve çoklu regresyon analizi, bazı elektronik tablo uygulamalarında ve bazı hesap makinelerinde kullanılabilir. Pek çok istatistiksel yazılım paketi, çeşitli türlerde parametrik olmayan ve güçlü regresyon gerçekleştirebilirken, bu yöntemler daha az standardize edilmiştir; farklı yazılım paketleri farklı yöntemler uygular. Anket analizi ve nörogörüntüleme gibi alanlarda kullanılmak üzere özel regresyon yazılımı geliştirilmiştir.

Regresyon analizinin temel özelliği, incelenen değişkenler arasındaki ilişkinin biçimi ve doğası hakkında belirli bilgiler elde etmek için kullanılabilmesidir.

Regresyon analizi aşamalarının sırası

Regresyon analizinin aşamalarını kısaca ele alalım.

    Görev formülasyonu. Bu aşamada, incelenen fenomenlerin bağımlılığı hakkında ön hipotezler oluşturulur.

    Bağımlı ve bağımsız (açıklayıcı) değişkenlerin tanımı.

    İstatistiksel verilerin toplanması. Regresyon modelinde yer alan değişkenlerin her biri için veri toplanmalıdır.

    Bağlantı biçimi (basit veya çoklu, doğrusal veya doğrusal olmayan) hakkında bir hipotezin formüle edilmesi.

    Tanım regresyon fonksiyonları (regresyon denkleminin parametrelerinin sayısal değerlerinin hesaplanmasından oluşur)

    Regresyon analizinin doğruluğunun değerlendirilmesi.

    Elde edilen sonuçların yorumlanması. Regresyon analizinin sonuçları ön hipotezlerle karşılaştırılır. Elde edilen sonuçların doğruluğu ve inandırıcılığı değerlendirilir.

    Bağımlı değişkenin bilinmeyen değerlerinin tahmini.

Regresyon analizi yardımıyla tahmin ve sınıflandırma problemini çözmek mümkündür. Tahmini değerler, açıklayıcı değişkenlerin değerleri regresyon denkleminde değiştirilerek hesaplanır. Sınıflandırma problemi şu şekilde çözülür: regresyon çizgisi tüm nesne kümesini iki sınıfa ayırır ve kümenin fonksiyonun değerinin sıfırdan büyük olduğu kısmı bir sınıfa, küçük olduğu kısmı ise bir sınıfa aittir. sıfırdan başka bir sınıfa aittir.

Regresyon analizinin görevleri

Regresyon analizinin ana görevlerini göz önünde bulundurun: bağımlılık biçimini belirlemek, belirlemek regresyon fonksiyonları, bağımlı değişkenin bilinmeyen değerlerinin bir tahmini.

Bağımlılık biçiminin oluşturulması.

Değişkenler arasındaki ilişkinin doğası ve biçimi aşağıdaki regresyon türlerini oluşturabilir:

    pozitif lineer regresyon (fonksiyonun düzgün büyümesi olarak ifade edilir);

    pozitif düzgün hızlanan regresyon;

    pozitif düzgün artan regresyon;

    negatif doğrusal regresyon (fonksiyonda tekdüze bir düşüş olarak ifade edilir);

    negatif düzgün hızlandırılmış azalan regresyon;

    negatif düzgün azalan regresyon.

Bununla birlikte, açıklanan çeşitler genellikle saf halde değil, birbirleriyle kombinasyon halinde bulunur. Bu durumda, birleşik gerileme biçimlerinden söz edilir.

Regresyon fonksiyonunun tanımı.

İkinci görev, ana faktörlerin veya nedenlerin bağımlı değişken üzerindeki etkisini bulmaktır, diğer her şey eşittir ve rastgele öğelerin bağımlı değişken üzerindeki etkisinin hariç tutulmasına tabidir. regresyon fonksiyonuşu ya da bu türden bir matematiksel denklem olarak tanımlanır.

Bağımlı değişkenin bilinmeyen değerlerinin tahmini.

Bu sorunun çözümü, aşağıdaki türlerden birinin sorununu çözmeye indirgenmiştir:

    İlk verilerin dikkate alınan aralığı içindeki bağımlı değişkenin değerlerinin tahmini, yani. kayıp değerler; bu enterpolasyon problemini çözer.

    Bağımlı değişkenin gelecekteki değerlerinin tahmin edilmesi, yani. ilk verilerin verilen aralığı dışındaki değerleri bulmak; bu ekstrapolasyon problemini çözer.

Her iki problem de, bağımsız değişkenlerin değerlerinin parametrelerinin bulunan tahminlerinin regresyon denklemine değiştirilmesiyle çözülür. Denklemi çözmenin sonucu, hedef (bağımlı) değişkenin değerinin bir tahminidir.

Regresyon analizinin dayandığı bazı varsayımlara bakalım.

Doğrusallık varsayımı, yani incelenen değişkenler arasındaki ilişkinin doğrusal olduğu varsayılır. Böylece, bu örnekte, bir dağılım grafiği oluşturduk ve net bir doğrusal ilişki görebildik. Değişkenlerin dağılım grafiğinde, doğrusal bir ilişkinin açık bir şekilde yokluğunu görürsek, yani doğrusal olmayan bir ilişki varsa, doğrusal olmayan analiz yöntemleri kullanılmalıdır.

Normallik Varsayımı kalanlar. Öngörülen ve gözlemlenen değerler arasındaki farkın dağılımının normal olduğunu varsayar. Dağılımın doğasını görsel olarak belirlemek için histogramları kullanabilirsiniz. kalanlar.

Regresyon analizini kullanırken, ana sınırlaması dikkate alınmalıdır. Regresyon analizinin, bu bağımlılıkların altında yatan ilişkileri değil, yalnızca bağımlılıkları tespit etmenize izin vermesi gerçeğinden oluşur.

Regresyon analizi, bilinen birkaç değere dayalı olarak bir değişkenin beklenen değerini hesaplayarak değişkenler arasındaki ilişkinin derecesini değerlendirmeyi mümkün kılar.

Regresyon denklemi.

Regresyon denklemi şöyle görünür: Y=a+b*X

Bu denklem kullanılarak Y değişkeni, a sabiti ve doğrunun (veya eğimin) b eğiminin X değişkeninin değeriyle çarpımı olarak ifade edilir. a sabitine aynı zamanda kesişme noktası da denir ve eğim regresyondur katsayısı veya B faktörü.

Çoğu durumda (her zaman olmasa da) regresyon çizgisi hakkında belirli bir gözlem dağılımı vardır.

kalan tek bir noktanın (gözlem) regresyon çizgisinden (öngörülen değer) sapmasıdır.

MS Excel'de regresyon analizi problemini çözmek için menüden seçin Hizmet"Analiz Paketi" ve Regresyon analiz aracı. X ve Y giriş aralıklarını belirtin Y giriş aralığı, analiz edilen bağımlı veri aralığıdır ve bir sütun içermelidir. Giriş aralığı X, analiz edilecek bağımsız veri aralığıdır. Giriş aralığı sayısı 16'yı geçmemelidir.

Çıktı aralığındaki prosedürün çıktısında, verilen raporu alırız. tablo 8.3a-8.3v.

SONUÇLAR

Tablo 8.3a. Regresyon istatistikleri

Regresyon istatistikleri

Çoklu R

R Meydanı

Normalleştirilmiş R-kare

standart hata

gözlemler

İlk olarak, aşağıda sunulan hesaplamaların üst kısmını göz önünde bulundurun. tablo 8.3a, - gerileme istatistikleri.

Değer R Meydanı kesinlik ölçüsü olarak da adlandırılan , ortaya çıkan regresyon çizgisinin kalitesini karakterize eder. Bu kalite, orijinal veriler ile regresyon modeli (hesaplanan veriler) arasındaki uygunluk derecesi ile ifade edilir. Kesinliğin ölçüsü her zaman aralığın içindedir.

Çoğu durumda, değer R Meydanı bu değerler arasındadır, aşırı denir, yani. sıfır ile bir arasında.

eğer değer R-kare bire yakın, bu, oluşturulan modelin karşılık gelen değişkenlerin neredeyse tüm değişkenliğini açıkladığı anlamına gelir. Buna karşılık, değer R-kare, sıfıra yakın, oluşturulan modelin kalitesiz olduğu anlamına gelir.

Örneğimizde, kesinlik ölçüsü 0,99673'tür ve bu, regresyon çizgisinin orijinal verilere çok iyi uyduğunu gösterir.

çoğul R - çoklu korelasyon katsayısı R - bağımsız değişkenlerin (X) ve bağımlı değişkenin (Y) bağımlılık derecesini ifade eder.

Çoklu R belirleme katsayısının kareköküne eşittir, bu değer sıfır ile bir arasında değerler alır.

Basit doğrusal regresyon analizinde çoğul R Pearson korelasyon katsayısına eşittir. Yok canım, çoğul R bizim durumumuzda, önceki örnekteki Pearson korelasyon katsayısına eşittir (0.998364).

Tablo 8.3b. Regresyon katsayıları

Oranlar

standart hata

t-istatistik

Y kavşağı

Değişken X 1

* Hesaplamaların kısaltılmış hali verilmiştir.

Şimdi, aşağıda sunulan hesaplamaların orta kısmını ele alalım. tablo 8.3b. Burada regresyon katsayısı b (2,305454545) ve y ekseni boyunca ofset verilmiştir, yani sabit bir (2,694545455).

Hesaplamalara dayanarak, regresyon denklemini aşağıdaki gibi yazabiliriz:

Y= x*2,305454545+2,694545455

Değişkenler arasındaki ilişkinin yönü, regresyon katsayılarının (katsayı b) işaretlerine (negatif veya pozitif) göre belirlenir.

Regresyon katsayısının işareti pozitif ise bağımlı değişken ile bağımsız değişken arasındaki ilişki pozitif olacaktır. Bizim durumumuzda regresyon katsayısının işareti pozitiftir, dolayısıyla ilişki de pozitiftir.

Regresyon katsayısının işareti negatif ise bağımlı değişken ile bağımsız değişken arasındaki ilişki negatiftir (ters).

AT tablo 8.3c. çıktı sonuçları sunulur kalanlar. Bu sonuçların raporda görünmesi için, "Regresyon" aracını başlatırken "Kalıntılar" onay kutusunun etkinleştirilmesi gerekir.

KALAN ÇEKİM

Tablo 8.3c. Kalıntılar

Gözlem

tahmin edilen Y

Kalıntılar

Standart bakiyeler

Raporun bu bölümünü kullanarak, oluşturulan regresyon çizgisinden her bir noktanın sapmalarını görebiliriz. En büyük mutlak değer kalan bizim durumumuzda - 0.778, en küçük - 0.043. Bu verilerin daha iyi yorumlanması için, orijinal verilerin grafiğini ve Şekil 2'de sunulan oluşturulmuş regresyon çizgisini kullanacağız. pilav. 8.3. Gördüğünüz gibi, regresyon çizgisi, orijinal verilerin değerlerine oldukça doğru bir şekilde "uydurulmuştur".

Ele alınan örneğin oldukça basit olduğu ve niteliksel olarak doğrusal bir regresyon çizgisi oluşturmanın her zaman mümkün olmadığı dikkate alınmalıdır.

Pirinç. 8.3. Başlangıç ​​verileri ve regresyon çizgisi

Bağımsız değişkenin bilinen değerlerine dayalı olarak bağımlı değişkenin gelecekteki bilinmeyen değerlerini tahmin etme sorunu dikkate alınmadan kaldı, yani. tahmin görevi.

Bir regresyon denklemine sahip olan tahmin problemi, x'in bilinen değerleri ile Y= x*2.305454545+2.694545455 denklemini çözmeye indirgenmiştir. Bağımlı değişken Y'yi altı adım öteden tahmin etmenin sonuçları sunulmuştur. tablo 8.4'te.

Tablo 8.4. Y değişkeni tahmin sonuçları

Y(tahmin edilen)

Böylece, Microsoft Excel paketinde regresyon analizi kullanmanın bir sonucu olarak:

    bir regresyon denklemi oluşturdu;

    bağımlılığın biçimini ve değişkenler arasındaki ilişkinin yönünü belirledi - işlevin düzgün bir büyümesinde ifade edilen pozitif bir doğrusal regresyon;

    değişkenler arasındaki ilişkinin yönünü belirleyen;

    ortaya çıkan regresyon çizgisinin kalitesini değerlendirdi;

    hesaplanan verilerin orijinal setin verilerinden sapmalarını görebilmiş;

    bağımlı değişkenin gelecekteki değerlerini tahmin etti.

Eğer bir regresyon fonksiyonu tanımlanmış, yorumlanmış ve gerekçelendirilmiş ve regresyon analizinin doğruluğunun değerlendirilmesi gereksinimleri karşılıyorsa, oluşturulan modelin ve tahmin değerlerinin yeterince güvenilir olduğunu varsayabiliriz.

Bu şekilde elde edilen tahmin edilen değerler beklenebilecek ortalama değerlerdir.

Bu yazıda, ana özellikleri inceledik tanımlayıcı istatistikler ve bunların arasında gibi kavramlar kastetmek,medyan,maksimum,minimum ve veri varyasyonunun diğer özellikleri.

Konseptin kısa bir tartışması da oldu. emisyonlar. Ele alınan özellikler, sözde keşifsel veri analizine atıfta bulunur, sonuçları genel nüfus için geçerli olmayabilir, ancak yalnızca bir veri örneği için geçerli olabilir. Keşifsel veri analizi, popülasyon hakkında birincil sonuçlar çıkarmak ve hipotezler oluşturmak için kullanılır.

Korelasyon ve regresyon analizinin temelleri, görevleri ve pratik kullanım olanakları da ele alındı.