Regresyon analizi. Regresyon analizi

Regresyon analizi, belirli bir niceliğin başka bir niceliğe veya birkaç başka niceliğe bağımlılığını inceler. Regresyon analizi, esas olarak orta vadeli tahminde olduğu kadar uzun vadeli tahminde de kullanılır. Orta ve uzun vadeli dönemler, iş ortamındaki değişiklikleri belirlemeyi ve bu değişikliklerin incelenen gösterge üzerindeki etkisini dikkate almayı mümkün kılar.

Regresyon analizi yapmak için şunlar gereklidir:

    çalışılan göstergelere ilişkin yıllık verilerin mevcudiyeti,

    tek seferlik tahminlerin mevcudiyeti, örn. yeni verilerle düzelmeyen tahminler.

Regresyon analizi genellikle yatırım hacmi, kar, satış hacmi vb. karmaşık, çok faktörlü yapıya sahip nesneler için yapılır.

-de normatif tahmin yöntemi amaç olarak alınan olgunun olası durumlarına ulaşmanın yolları ve şartları belirlenir. Önceden belirlenmiş normlar, idealler, teşvikler ve hedefler temelinde fenomenin istenen durumlarına ulaşılacağını tahmin etmekten bahsediyoruz. Böyle bir tahmin şu soruyu yanıtlar: İstenen hangi yollarla elde edilebilir? Normatif yöntem daha çok programlı veya hedefli tahminler için kullanılır. Hem standardın nicel ifadesi hem de değerlendirme fonksiyonunun olasılıklarının belirli bir ölçeği kullanılır.

Kantitatif bir ifadenin kullanılması durumunda, örneğin, nüfusun çeşitli grupları için uzmanlar tarafından geliştirilen belirli gıda ve gıda dışı ürünlerin tüketimi için fizyolojik ve rasyonel normlar, bu malların tüketim düzeyini belirlemek mümkündür. belirtilen normun elde edilmesinden önceki yıllar. Bu tür hesaplamalara enterpolasyon denir. İnterpolasyon, yerleşik bir ilişkiye dayalı olarak bir olgunun zaman serisinde eksik olan göstergeleri hesaplamanın bir yoludur. Dinamik serinin uç üyeleri olarak göstergenin gerçek değeri ve standartlarının değeri alınarak, bu seri içindeki değerlerin büyüklüğünü belirlemek mümkündür. Bu nedenle, enterpolasyon normatif bir yöntem olarak kabul edilir. Ekstrapolasyonda kullanılan daha önce verilen formül (4), interpolasyonda kullanılabilir; burada yn artık gerçek verileri değil, göstergenin standardını karakterize eder.

Normatif yöntemde değerlendirme fonksiyonunun, yani tercih dağılım fonksiyonunun olasılıklarının bir ölçeğinin (alan, spektrum) kullanılması durumunda, yaklaşık olarak aşağıdaki derecelendirme belirtilir: istenmeyen - daha az arzu edilen - daha fazla arzu edilen - en çok arzu edilen - optimal (standart).

Normatif tahmin yöntemi, nesnellik düzeyini ve dolayısıyla kararların etkinliğini artırmak için öneriler geliştirmeye yardımcı olur.

modelleme, belki de en zor tahmin yöntemi. Matematiksel modelleme, ekonomik bir olgunun matematiksel formüller, denklemler ve eşitsizlikler yoluyla tanımlanması anlamına gelir. Tahmin edilen nesnenin tüm derinliğini ve karmaşıklığını tam olarak yansıtmak oldukça zor olsa da, matematiksel aparat tahmin arka planını doğru bir şekilde yansıtmalıdır. "Model" terimi, "ölçmek" anlamına gelen Latince modelus kelimesinden türetilmiştir. Bu nedenle modellemeyi bir tahmin yöntemi olarak değil, benzer bir olguyu bir model üzerinde inceleme yöntemi olarak düşünmek daha doğru olacaktır.

Geniş anlamda, modellere, nesne hakkında yeni bilgiler edinmenize olanak tanıyan, onunla o kadar benzerlik içinde olan, çalışma nesnesinin ikameleri denir. Model, nesnenin matematiksel bir açıklaması olarak düşünülmelidir. Bu durumda, model, incelenen nesneyle bazı yazışmalarda olan ve nesne hakkında bilgi sunan araştırma sürecinde onun yerini alabilecek bir fenomen (konu, yerleştirme) olarak tanımlanır.

Modelin daha dar bir şekilde anlaşılmasıyla, bir tahmin nesnesi olarak kabul edilir, incelenmesi, nesnenin gelecekteki olası durumları ve bu durumlara ulaşmanın yolları hakkında bilgi edinilmesini sağlar. Bu durumda tahmin modelinin amacı, genel olarak nesne hakkında değil, yalnızca gelecekteki durumları hakkında bilgi elde etmektir. Daha sonra, bir model oluştururken, model yalnızca gelecekteki durumunu temsil ettiğinden ve nesnenin kendisi şu anda mevcut olmayabilir veya farklı bir varlığa sahip olabileceğinden, bir model oluştururken, nesneye uygunluğunu doğrudan kontrol etmek imkansız olabilir.

Modeller maddi ve ideal olabilir.

İktisatta ideal modeller kullanılır. Sosyo-ekonomik (ekonomik) bir olgunun niceliksel olarak tanımlanması için en mükemmel ideal model, sayıların, formüllerin, denklemlerin, algoritmaların veya grafiksel gösterimin kullanıldığı matematiksel bir modeldir. Ekonomik modellerin yardımıyla şunları belirleyin:

    çeşitli ekonomik göstergeler arasındaki ilişki;

    göstergelere getirilen çeşitli kısıtlamalar;

    Süreci optimize etmek için kriterler.

Bir nesnenin anlamlı bir açıklaması, istenen değerleri hesaplamak için hangi parametrelerin ve ilk bilgilerin toplanması gerektiğini gösteren resmileştirilmiş şeması biçiminde temsil edilebilir. Bir matematiksel model, resmileştirilmiş bir şemadan farklı olarak, bir nesneyi karakterize eden belirli sayısal veriler içerir.Bir matematiksel modelin geliştirilmesi, büyük ölçüde tahmincinin modellenen sürecin özü hakkındaki fikrine bağlıdır. Fikirlerine dayanarak, modelin analitik bir kaydının formüller, denklemler ve eşitsizlikler şeklinde oluşturulduğu bir çalışma hipotezi ortaya koyuyor. Denklem sisteminin çözülmesinin bir sonucu olarak, zaman içinde istenen değişkenlerdeki değişimi tanımlayan fonksiyonun spesifik parametreleri elde edilir.

Tahmin organizasyonunun bir unsuru olarak işin sırası ve sırası, kullanılan tahmin yöntemine bağlı olarak belirlenir. Genellikle bu çalışma birkaç aşamada gerçekleştirilir.

Aşama 1 - tahmini geriye dönük inceleme, yani tahmin nesnesinin ve tahmin arka planının oluşturulması. İlk aşamadaki çalışma aşağıdaki sırayla gerçekleştirilir:

    nesnenin ön tahmin analizini, parametrelerinin değerlendirilmesini, bunların önemini ve karşılıklı ilişkilerini içeren geçmişte bir nesnenin tanımının oluşturulması,

    bilgi kaynaklarının tanımlanması ve değerlendirilmesi, onlarla çalışmanın prosedürü ve organizasyonu, geriye dönük bilgilerin toplanması ve yerleştirilmesi;

    araştırma hedefleri belirlemek.

Öngörülü geriye dönük inceleme görevlerini yerine getiren tahminciler, sistematik açıklamalarını elde etmek için nesnenin gelişim tarihini ve tahmin arka planını inceler.

Aşama 2 - tahmine dayalı teşhis, bu sırada tahmin nesnesinin ve tahmin arka planının sistematik bir açıklamasının, gelişimlerindeki eğilimleri belirlemek ve tahmin modellerini ve yöntemlerini seçmek için incelendiği. İş aşağıdaki sırayla gerçekleştirilir:

    modelin nesneye uygunluk derecesinin kontrol edilmesi, nesnenin resmileştirilmiş bir açıklaması dahil olmak üzere bir tahmin nesnesi modelinin geliştirilmesi;

    tahmin yöntemlerinin seçimi (ana ve yardımcı), bir algoritma ve çalışma programlarının geliştirilmesi.

3. aşama - himaye, yani. aşağıdakileri içeren kapsamlı bir tahmin geliştirme süreci: 1) belirli bir teslim süresi için tahmin edilen parametrelerin hesaplanması; 2) tahminin bireysel bileşenlerinin sentezi.

4. aşama - doğrulaması da dahil olmak üzere tahminin değerlendirilmesi, yani güvenilirlik, doğruluk ve geçerlilik derecesinin belirlenmesi.

Araştırma ve değerlendirme sürecinde, tahmin görevleri ve değerlendirmesi önceki aşamalar temelinde çözülür.

Belirtilen aşama yaklaşıktır ve ana tahmin yöntemine bağlıdır.

Tahminin sonuçları bir sertifika, rapor veya başka bir materyal şeklinde düzenlenir ve müşteriye sunulur.

Tahminde, tahminin nesnenin gerçek durumundan sapması, aşağıdaki formülle hesaplanan tahmin hatası olarak adlandırılan belirtilebilir:

;
;
. (9.3)

Tahmindeki hataların kaynakları

Ana kaynaklar şunlar olabilir:

1. Geçmişten geleceğe verilerin basit aktarımı (ekstrapolasyon) (örneğin, şirketin satışlarda% 10'luk bir artış dışında başka tahmin seçenekleri yoktur).

2. Bir olayın olasılığını ve incelenen nesne üzerindeki etkisini doğru bir şekilde belirleyememe.

3. Planın uygulanmasını etkileyen öngörülemeyen zorluklar (yıkıcı olaylar), örneğin satış departmanı başkanının aniden görevden alınması.

Genel olarak, tahminin doğruluğu, tahminde deneyim birikimi ve yöntemlerinin geliştirilmesi ile artar.

Regresyon analizi

gerileme (doğrusal) analiz- bir veya daha fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisini incelemek için istatistiksel bir yöntem. Bağımsız değişkenlere regresörler veya öngörücüler denir ve bağımlı değişkenlere kriter denir. terminoloji bağımlı ve bağımsız değişkenler yalnızca değişkenlerin matematiksel bağımlılığını yansıtır ( Sahte korelasyona bakın), nedensel bir ilişkiden ziyade.

Regresyon analizinin hedefleri

  1. Ölçüt (bağımlı) değişkenin yordayıcılar (bağımsız değişkenler) tarafından değişiminin determinizm derecesinin belirlenmesi
  2. Bağımsız değişken(ler)i kullanarak bağımlı değişkenin değerini tahmin etme
  3. Bireysel bağımsız değişkenlerin bağımlı değişkenin değişimine katkısının belirlenmesi

Regresyon analizi değişkenler arasında bir ilişki olup olmadığını belirlemek için kullanılamaz, çünkü böyle bir ilişkinin varlığı analizin uygulanabilmesi için ön koşuldur.

Regresyonun matematiksel tanımı

Kesin olarak gerileyen bağımlılık aşağıdaki gibi tanımlanabilir. , belirli bir ortak olasılık dağılımına sahip rastgele değişkenler olsun. Her değer kümesi için koşullu bir beklenti tanımlanırsa

(genel regresyon denklemi),

sonra işlev çağrılır gerileme Değerlere göre Y değerleri ve grafiği - regresyon hattı tarafından veya regresyon denklemi.

Bağımlılık değişirken Y'nin ortalama değerlerindeki değişimde kendini gösterir. Her bir sabit değer kümesi için miktar, belirli bir dağılımla rasgele bir değişken olarak kalsa da.

Regresyon analizinin bir değişiklikle Y'deki değişimi ne kadar doğru tahmin ettiği sorusunu açıklığa kavuşturmak için, farklı değer kümeleri için Y'nin varyansının ortalama değeri kullanılır (aslında, dağılımın ölçüsünden bahsediyoruz. regresyon çizgisi etrafındaki bağımlı değişken).

En küçük kareler yöntemi (katsayıların hesaplanması)

Uygulamada, regresyon çizgisi çoğunlukla şu şekilde aranır: doğrusal fonksiyon(doğrusal regresyon) istenen eğriye en iyi yaklaşan. Bu, tahminlerinden fiilen gözlemlenen sapmaların karelerinin toplamı en aza indirildiğinde en küçük kareler yöntemi kullanılarak yapılır (istenen regresyon bağımlılığını temsil ettiğini iddia eden düz bir çizgi kullanan tahminler anlamına gelir):

(M - örneklem büyüklüğü). Bu yaklaşımın temelinde bilinen gerçek yukarıdaki ifadede görünen toplamın, tam olarak durum için minimum değeri aldığı .

Regresyon analizi problemini en küçük kareler yöntemiyle çözmek için kavram tanıtılır. artık fonksiyonlar:

Artık fonksiyonun minimum koşulu:

Ortaya çıkan sistem sistemdir lineer denklemler bilinmeyen ile

Denklemlerin sol tarafındaki serbest terimleri matrisle temsil edersek

ve matrisin sağ tarafındaki bilinmeyenlerin katsayıları

sonra Gauss yöntemiyle kolayca çözülen matris denklemini elde ederiz: . Ortaya çıkan matris, regresyon çizgisi denkleminin katsayılarını içeren bir matris olacaktır:

En iyi tahminleri elde etmek için LSM ön koşullarını (Gauss-Markov koşulları) yerine getirmek gerekir. İngiliz literatüründe, bu tür tahminlere MAVİ (En İyi Doğrusal Tarafsız Tahmin Ediciler) - en iyi doğrusal tarafsız tahminler denir.

Regresyon Parametrelerini Yorumlama

Parametreler kısmi korelasyon katsayılarıdır; kalan yordayıcıların etkisini sabitleyerek açıklanan Y varyansının oranı olarak yorumlanır, yani Y'nin açıklamasına bireysel katkıyı ölçer. İlişkili yordayıcılar söz konusu olduğunda, tahminlerde bir belirsizlik sorunu vardır. , öngörücülerin modele dahil edilme sırasına bağlı hale gelir. Bu gibi durumlarda, korelasyon ve kademeli regresyon analizi analiz yöntemlerini uygulamak gerekir.

Doğrusal olmayan regresyon analizi modellerinden bahsetmişken, bağımsız değişkenlerde doğrusal olmama (biçimsel bir bakış açısından, kolayca doğrusal regresyona indirgenebilir) veya tahmin edilen parametrelerde doğrusal olmama hakkında konuşup konuşmadığımıza dikkat etmek önemlidir. (ciddi hesaplama güçlüklerine neden olur). İlk doğrusal olmama türüyle, anlamlı bir bakış açısıyla, formun üyelerinin modelindeki görünümünü ayırmak önemlidir , , özellikler arasındaki etkileşimlerin varlığını gösterir , vb. (bkz. Çoklu bağlantı).

Ayrıca bakınız

Bağlantılar

  • www.kgafk.ru - "Regresyon Analizi" Konulu Ders
  • www.basegroup.ru - regresyon modellerinde değişken seçme yöntemleri

Edebiyat

  • Norman Draper, Harry Smith Uygulamalı regresyon analizi. Çoklu regresyon= Uygulanan Regresyon Analizi. - 3. baskı - M .: "Diyalektik", 2007. - S. 912. - ISBN 0-471-17082-8
  • İstatistiksel Modelleri Tahmin Etmek İçin Sürdürülebilir Yöntemler: Monografi. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radchenko Stanislav Grigorieviç, Regresyon Analiz Metodolojisi: Monografi. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Wikimedia Vakfı. 2010

gerileme nedir?

İki sürekli değişken düşünün x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Noktaları 2B dağılım grafiğine yerleştirelim ve diyelim ki Doğrusal ilişki veriler düz bir çizgi ile yaklaştırılırsa.

Eğer bunu varsayarsak y bağlıdır x ve içindeki değişiklikler y değişikliklerden kaynaklanan x, bir gerileme çizgisi tanımlayabiliriz (gerileme yüzerinde x), bu iki değişken arasındaki doğrusal ilişkiyi en iyi tanımlayan.

"Gerileme" kelimesinin istatistiksel kullanımı, Sir Francis Galton'a (1889) atfedilen, ortalamaya gerileme olarak bilinen bir fenomenden gelir.

Uzun boylu babaların uzun boylu oğulları olma eğilimindeyken, oğullarının ortalama boyunun uzun babalarından daha kısa olduğunu gösterdi. Oğulların ortalama boyu "geriledi" ve popülasyondaki tüm babaların ortalama boyuna "geri çekildi". Bu nedenle, ortalama olarak, uzun boylu babaların daha kısa (ama yine de uzun) oğulları olur ve kısa babaların daha uzun (ama yine de oldukça kısa) oğulları olur.

regresyon hattı

Basit (ikili) bir lineer regresyon çizgisini değerlendiren matematiksel denklem:

x bağımsız değişken veya yordayıcı olarak adlandırılır.

Y bağımlı veya yanıt değişkenidir. Beklediğimiz değer bu y(ortalama olarak) değeri biliyorsak x, yani tahmin edilen değerdir y»

  • a- değerlendirme çizgisinin serbest üyesi (geçişi); Bu değer Y, ne zaman x=0(Şek.1).
  • b- tahmin edilen çizginin eğimi veya eğimi; bu miktar Y artırırsak ortalama olarak artar x bir birim için.
  • a ve b tahmin edilen doğrunun regresyon katsayıları olarak adlandırılır, ancak bu terim genellikle yalnızca b.

İkili doğrusal regresyon, birden fazla bağımsız değişken içerecek şekilde genişletilebilir; bu durumda olarak bilinir çoklu regresyon.

Şekil 1. a ve eğim b'nin kesişimini gösteren doğrusal regresyon çizgisi (x bir birim arttığında Y'deki artış miktarı)

en küçük kareler yöntemi

Bir gözlem örneğini kullanarak regresyon analizi yapıyoruz. a ve b- popülasyondaki (genel popülasyon) doğrusal regresyon çizgisini belirleyen gerçek (genel) parametrelerin, α ve β örnek tahminleri.

Katsayıları belirlemenin en basit yöntemi a ve b dır-dir en küçük kareler yöntemi(MNK).

Uyum, kalıntılar dikkate alınarak değerlendirilir (her noktanın çizgiden dikey mesafesi, örneğin artık = gözlemlenebilir y- tahmin y, Pirinç. 2).

En uygun çizgi, artıkların karelerinin toplamı minimum olacak şekilde seçilir.

Pirinç. 2. Her nokta için tasvir edilen kalıntılarla (dikey noktalı çizgiler) doğrusal regresyon çizgisi.

Doğrusal Regresyon Varsayımları

Böylece, gözlemlenen her değer için artık, farka ve karşılık gelen tahmin edilene eşittir.Her artık pozitif veya negatif olabilir.

Artıkları, doğrusal regresyonun arkasındaki aşağıdaki varsayımları test etmek için kullanabilirsiniz:

  • Artıklar normal olarak sıfır ortalama ile dağıtılır;

Doğrusallık, normallik ve/veya sabit varyans varsayımları sorgulanabilirse, bu varsayımların karşılandığı yeni bir regresyon doğrusunu dönüştürebilir veya hesaplayabiliriz (örneğin, bir logaritmik dönüşüm kullanın, vb.).

Anormal değerler (aykırı değerler) ve etki noktaları

"Etkili" bir gözlem atlanırsa, bir veya daha fazla model parametre tahminini değiştirir (örn. eğim veya kesişme noktası).

Bir aykırı değer (veri kümesindeki değerlerin çoğuyla çelişen bir gözlem) "etkili" bir gözlem olabilir ve bir 2B dağılım grafiğine veya bir kalıntı grafiğine bakıldığında görsel olarak iyi tespit edilebilir.

Hem aykırı değerler hem de "etkili" gözlemler (noktalar) için, modeller hem dahil edilerek hem de bunlar olmadan kullanılır, tahmindeki değişikliğe (gerileme katsayıları) dikkat edin.

Bir analiz yaparken, aykırı değerleri veya etki noktalarını otomatik olarak göz ardı etmeyin, çünkü bunları yok saymak sonuçları etkileyebilir. Her zaman bu aykırı değerlerin nedenlerini inceleyin ve analiz edin.

Doğrusal regresyon hipotezi

Doğrusal bir regresyon oluştururken, sıfır hipotezi, regresyon çizgisinin β genel eğiminin sıfıra eşit olduğu kontrol edilir.

Doğrunun eğimi sıfır ise, ve arasında doğrusal bir ilişki yoktur: değişiklik etkilemez

Gerçek eğimin sıfır olduğu sıfır hipotezini test etmek için aşağıdaki algoritmayı kullanabilirsiniz:

Test istatistiğini, katsayının standart hatasının olduğu, serbestlik dereceli bir dağılıma uyan orana eşit olarak hesaplayın.


,

- artıkların varyansının tahmini.

Genellikle, ulaşılan anlamlılık düzeyi ise sıfır hipotezi reddedilir.


iki kuyruklu test olasılığını veren serbestlik dereceli dağılımın yüzde noktası nerede

Bu, %95 olasılıkla genel eğimi içeren aralıktır.

Büyük örneklemler için 1,96 değeri ile yaklaşık olarak tahmin edebileceğimizi varsayalım (yani, test istatistiği normal dağılma eğiliminde olacaktır)

Doğrusal regresyon kalitesinin değerlendirilmesi: belirleme katsayısı R 2

Doğrusal ilişki nedeniyle ve değiştikçe değişmesini bekliyoruz ve biz buna regresyondan kaynaklanan veya regresyon tarafından açıklanan varyasyon diyoruz. Artık varyasyon mümkün olduğu kadar küçük olmalıdır.

Eğer öyleyse, varyasyonun çoğu regresyon tarafından açıklanacak ve noktalar regresyon çizgisine yakın olacaktır, yani. satır verilere iyi uyuyor.

Regresyon ile açıklanan toplam varyansın oranına denir. belirleme katsayısı, genellikle yüzde olarak ifade edilir ve gösterilir R2(eşleştirilmiş doğrusal regresyonda, bu değerdir r2, korelasyon katsayısının karesi), regresyon denkleminin kalitesini öznel olarak değerlendirmenizi sağlar.

Fark, regresyon ile açıklanamayan varyans yüzdesidir.

Değerlendirecek resmi bir test olmadığı için, regresyon çizgisinin uygunluğunun kalitesini belirlemek için öznel yargıya güvenmek zorunda kalıyoruz.

Bir Tahmine Gerileme Doğrusu Uygulamak

Gözlemlenen aralık içindeki bir değerden bir değer tahmin etmek için bir regresyon çizgisi kullanabilirsiniz (asla bu sınırların ötesinde tahminde bulunmayın).

Belirli bir değere sahip olan gözlemlenebilirlerin ortalamasını, bu değeri regresyon çizgisi denkleminde yerine koyarak tahmin ediyoruz.

Bu nedenle, şu şekilde tahmin ediyorsak, gerçek popülasyon ortalaması için güven aralığını tahmin etmek için bu tahmin edilen değeri ve standart hatasını kullanırız.

Bu işlemi farklı değerler için tekrarlamak, bu satır için güven limitleri oluşturmanızı sağlar. Bu, örneğin %95 güven düzeyiyle gerçek bir çizgi içeren bir bant veya alandır.

Basit regresyon planları

Basit regresyon tasarımları bir sürekli öngörücü içerir. 7, 4 ve 9 gibi P tahmin değerlerine sahip 3 durum varsa ve tasarım birinci dereceden bir etki P içeriyorsa, o zaman tasarım matrisi X olacaktır.

ve X1 için P kullanan regresyon denklemi şuna benzer:

Y = b0 + b1 P

Basit bir regresyon tasarımı, ikinci dereceden bir etki gibi P üzerinde daha yüksek dereceli bir etki içeriyorsa, tasarım matrisindeki X1 sütunundaki değerler ikinci güce yükseltilecektir:

ve denklem şeklini alacak

Y = b0 + b1 P2

Sigma-kısıtlı ve aşırı parametreli kodlama yöntemleri, basit regresyon tasarımları ve yalnızca sürekli tahmin ediciler içeren diğer tasarımlar için geçerli değildir (çünkü hiçbir kategorik tahmin edici yoktur). Seçilen kodlama yönteminden bağımsız olarak, sürekli değişkenlerin değerleri uygun güçte artırılır ve X değişkenleri için değerler olarak kullanılır. Bu durumda dönüştürme yapılmaz. Ayrıca, regresyon planlarını tanımlarken X plan matrisini göz ardı edebilir ve yalnızca regresyon denklemiyle çalışabilirsiniz.

Örnek: Basit Regresyon Analizi

Bu örnek, tabloda sağlanan verileri kullanır:

Pirinç. 3. Başlangıç ​​verileri tablosu.

Veriler, rastgele seçilmiş 30 ilçede 1960 ve 1970 nüfus sayımlarının karşılaştırmasına dayanmaktadır. İlçe adları, gözlem adları olarak temsil edilir. Her bir değişkene ilişkin bilgiler aşağıda sunulmuştur:

Pirinç. 4. Değişken özellik tablosu.

Araştırma hedefi

Bu örnek için, yoksulluk oranı ile yoksulluk sınırının altında kalan ailelerin yüzdesini tahmin etme gücü arasındaki ilişki incelenecektir. Bu nedenle değişken 3'ü (Pt_Poor ) bağımlı değişken olarak ele alacağız.

Bir hipotez öne sürülebilir: nüfustaki değişim ile yoksulluk sınırının altında kalan ailelerin yüzdesi ilişkilidir. Yoksulluğun bir nüfus çıkışına yol açmasını beklemek makul görünmektedir, dolayısıyla yoksulluk sınırının altındaki insanların yüzdesi ile nüfus değişimi arasında negatif bir korelasyon olacaktır. Bu nedenle, değişken 1'i (Pop_Chng ) bir yordayıcı değişken olarak ele alacağız.

Sonuçları Görüntüle

Regresyon katsayıları

Pirinç. 5. Pop_Chng üzerinde Pt_Poor regresyon katsayıları.

Pop_Chng satırı ve Param'ın kesiştiği noktada. Pt_Poor'un Pop_Chng üzerindeki regresyonu için standartlaştırılmamış katsayı -0,40374'tür. Bu, nüfustaki her birim azalma için yoksulluk oranında .40374'lük bir artış olduğu anlamına gelir. Bu standartlaştırılmamış katsayı için üst ve alt (varsayılan) %95 güven sınırları sıfır içermez, dolayısıyla regresyon katsayısı p düzeyinde anlamlıdır.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

değişkenlerin dağılımı

Verilerde büyük aykırı değerler varsa, korelasyon katsayıları önemli ölçüde fazla tahmin edilebilir veya hafife alınabilir. Pt_Poor bağımlı değişkeninin ilçelere göre dağılımını inceleyelim. Bunu yapmak için, Pt_Poor değişkeninin bir histogramını oluşturacağız.

Pirinç. 6. Pt_Poor değişkeninin histogramı.

Görüldüğü gibi bu değişkenin dağılımı normal dağılımdan oldukça farklıdır. Bununla birlikte, iki ilçede bile (sağdaki iki sütun) yoksulluk sınırının altında kalan aile yüzdesi normal dağılımda beklenenden daha yüksek olsa da, "aralığın içinde" görünüyorlar.

Pirinç. 7. Pt_Poor değişkeninin histogramı.

Bu yargı biraz özneldir. Temel kural, bir gözlemin (veya gözlemlerin) aralığın (ortalama ± 3 kat standart sapma) içinde olmaması durumunda aykırı değerlerin dikkate alınması gerektiğidir. Bu durumda, anakütle üyeleri arasındaki korelasyon üzerinde ciddi bir etkiye sahip olmadıklarından emin olmak için aykırı değerler içeren ve içermeyen analizi tekrarlamaya değer.

Dağılım grafiği

Hipotezlerden biri, verilen değişkenler arasındaki ilişki hakkında a priori ise, o zaman karşılık gelen dağılım grafiğinin grafiği üzerinde kontrol etmek yararlıdır.

Pirinç. 8. Dağılım grafiği.

Dağılım grafiği, iki değişken arasında net bir negatif korelasyon (-.65) gösterir. Ayrıca, regresyon çizgisi için %95 güven aralığını, yani regresyon çizgisinin iki kesikli eğri arasından %95 olasılıkla geçmesini gösterir.

önem kriterleri

Pirinç. 9. Anlamlılık kriterlerini içeren tablo.

Pop_Chng regresyon katsayısı testi, Pop_Chng'nin Pt_Poor , p ile güçlü bir şekilde ilişkili olduğunu doğrular.<.001 .

Sonuç

Bu örnek, basit bir regresyon planının nasıl analiz edileceğini gösterdi. Standardize edilmemiş ve standardize edilmiş regresyon katsayılarının bir yorumu da sunulmuştur. Bağımlı değişkenin yanıt dağılımını incelemenin önemi tartışılmış ve yordayıcı ile bağımlı değişken arasındaki ilişkinin yönünü ve gücünü belirlemeye yönelik bir teknik gösterilmiştir.

Regresyon ve korelasyon analizi - istatistiksel araştırma yöntemleri. Bunlar, bir parametrenin bir veya daha fazla bağımsız değişkene bağımlılığını göstermenin en yaygın yollarıdır.

Aşağıda, somut pratik örnekler kullanarak, iktisatçılar arasında çok popüler olan bu iki analizi ele alacağız. Birleştirildiğinde sonuç elde edilmesine de bir örnek vereceğiz.

Excel'de Regresyon Analizi

Bazı değerlerin (bağımsız, bağımsız) bağımlı değişken üzerindeki etkisini gösterir. Örneğin, ekonomik olarak aktif nüfus sayısının işletme sayısına, ücretlere ve diğer parametrelere nasıl bağlı olduğu. Veya: yabancı yatırımlar, enerji fiyatları vb. GSYİH seviyesini nasıl etkiler?

Analiz sonucu önceliklendirme yapmanızı sağlar. Ve ana faktörlere dayanarak, öncelikli alanların gelişimini tahmin etmek, planlamak, yönetim kararları almak.

Gerileme olur:

  • doğrusal (y = a + bx);
  • parabolik (y = a + bx + cx 2);
  • üstel (y = a * exp(bx));
  • güç (y = a*x^b);
  • hiperbolik (y = b/x + a);
  • logaritmik (y = b * 1n(x) + a);
  • üstel (y = a * b^x).

Excel'de bir regresyon modeli oluşturma ve sonuçları yorumlama örneğini ele alalım. Doğrusal bir regresyon türü ele alalım.

Bir görev. 6 işletmede aylık ortalama maaş ve işten ayrılan çalışan sayısı analiz edildi. Emekli çalışan sayısının ortalama maaşa bağımlılığının belirlenmesi gerekmektedir.

Doğrusal regresyon modeli aşağıdaki forma sahiptir:

Y \u003d 0 + a 1 x 1 + ... + a k x k.

Burada a, regresyon katsayılarıdır, x, etkileyen değişkenlerdir ve k, faktörlerin sayısıdır.

Örneğimizde Y işten ayrılanların göstergesidir. Etkileyen faktör ücretlerdir (x).

Excel, bir doğrusal regresyon modelinin parametrelerini hesaplamak için kullanılabilecek yerleşik işlevlere sahiptir. Ancak Analysis ToolPak eklentisi bunu daha hızlı yapacaktır.

Güçlü bir analitik aracı etkinleştirin:

Etkinleştirildiğinde, eklenti Veri sekmesi altında bulunacaktır.

Şimdi doğrudan regresyon analizi ile ilgileneceğiz.



Öncelikle R-kare ve katsayılarına dikkat ediyoruz.

R-kare belirleme katsayısıdır. Örneğimizde, 0,755 veya %75,5'tir. Bu, modelin hesaplanan parametrelerinin çalışılan parametreler arasındaki ilişkiyi %75,5 oranında açıkladığı anlamına gelmektedir. Belirleme katsayısı ne kadar yüksek olursa, model o kadar iyi olur. İyi - 0,8'in üzerinde. Zayıf - 0,5'ten az (böyle bir analiz pek makul kabul edilemez). Örneğimizde - "fena değil".

64.1428 katsayısı, incelenen modeldeki tüm değişkenlerin 0'a eşit olması durumunda Y'nin ne olacağını gösterir. Yani, modelde açıklanmayan diğer faktörler de analiz edilen parametrenin değerini etkiler.

-0,16285 katsayısı, X değişkeninin Y üzerindeki ağırlığını gösterir. Yani, bu modeldeki ortalama aylık maaş, -0,16285 ağırlıkla işten ayrılanların sayısını etkiler (bu, küçük bir etki derecesidir). “-” işareti olumsuz bir etkiyi gösterir: maaş ne kadar yüksekse, işten ayrılma o kadar az olur. Hangisi adil.



Excel'de korelasyon analizi

Korelasyon analizi, bir veya iki örnekteki göstergeler arasında bir ilişki olup olmadığını belirlemeye yardımcı olur. Örneğin, makinenin çalışma süresi ile onarım maliyeti arasında, ekipman fiyatı ile çalışma süresi arasında, çocukların boy ve kiloları vb.

Bir ilişki varsa, o zaman bir parametredeki artışın diğerinde bir artışa (pozitif korelasyon) veya azalmaya (negatif) yol açması. Korelasyon analizi, analistin bir göstergenin değerinin diğerinin olası değerini tahmin edip edemeyeceğini belirlemesine yardımcı olur.

Korelasyon katsayısı r ile gösterilir. +1 ile -1 arasında değişir. Farklı alanlar için korelasyonların sınıflandırılması farklı olacaktır. Katsayı değeri 0 olduğunda, örnekler arasında doğrusal bir ilişki yoktur.

Korelasyon katsayısını bulmak için Excel'i nasıl kullanacağınızı düşünün.

CORREL fonksiyonu eşleştirilmiş katsayıları bulmak için kullanılır.

Görev: Bir torna tezgahının çalışma süresi ile bakım maliyeti arasında bir ilişki olup olmadığını belirleyin.

İmleci herhangi bir hücreye getirin ve fx düğmesine basın.

  1. "İstatistik" kategorisinde CORREL işlevini seçin.
  2. Argüman "Dizi 1" - ilk değer aralığı - makinenin süresi: A2: A14.
  3. Argüman "Dizi 2" - ikinci değer aralığı - onarım maliyeti: B2:B14. Tamam'ı tıklayın.

Bağlantı türünü belirlemek için, katsayının mutlak sayısına bakmanız gerekir (her faaliyet alanının kendi ölçeği vardır).

Birkaç parametrenin (2'den fazla) korelasyon analizi için "Veri Analizi" ("Analiz Paketi" eklentisi) kullanmak daha uygundur. Listede bir korelasyon seçmeniz ve bir dizi belirlemeniz gerekir. Herşey.

Ortaya çıkan katsayılar korelasyon matrisinde görüntülenecektir. Bunun gibi:

korelasyon-regresyon analizi

Pratikte bu iki teknik sıklıkla birlikte kullanılmaktadır.

Örnek:


Artık regresyon analizi verileri görülebilir.

1. "Gerileme" terimi ilk kez, fikirleri takipçisi K. Pearson tarafından geliştirilen biyometrinin kurucusu F. Galton (XIX yüzyıl) tarafından tanıtıldı.

Regresyon analizi- bir veya daha fazla neden (faktör işaretleri) ile bir sonuç (etkin işaret) arasındaki ilişkiyi ölçmenize olanak tanıyan bir istatistiksel veri işleme yöntemi.

işaret- bu, incelenen olgunun veya sürecin ana ayırt edici özelliği, özelliğidir.

Etkili işaret - araştırılan gösterge

faktör işareti- etkili özelliğin değerini etkileyen bir gösterge.

Regresyon analizinin amacı, etkin özelliğin ortalama değerinin işlevsel bağımlılığını değerlendirmektir ( de) faktöriyelden ( x 1, x 2, ..., x n), olarak ifade edilen regresyon denklemleri

de= f(x 1, x 2, ..., x n). (6.1)

İki tür regresyon vardır: eşli ve çoklu.

Eşleştirilmiş (basit) regresyon- formun denklemi:

de= f(x). (6.2)

İkili regresyonda ortaya çıkan özellik, bir bağımsız değişkenin, yani bir faktör.

Regresyon analizi aşağıdaki adımları içerir:

fonksiyon tipinin tanımı;

regresyon katsayılarının belirlenmesi;

Etkili özelliğin teorik değerlerinin hesaplanması;

Regresyon katsayılarının istatistiksel anlamlılığının kontrol edilmesi;

Regresyon denkleminin istatistiksel öneminin kontrol edilmesi.

Çoklu regresyon- formun denklemi:

de= f(x 1, x 2, ..., x n). (6.3)

Ortaya çıkan özellik, birkaç argümanın bir fonksiyonu olarak kabul edilir, örn. birçok faktör.

2. Fonksiyon tipini doğru bir şekilde belirlemek için, teorik verilere dayanarak bağlantının yönünü bulmak gerekir.

Bağlantının yönüne göre, regresyon aşağıdakilere ayrılır:

· doğrudan gerileme, bağımsız değerde bir artış veya azalma olması koşuluyla ortaya çıkan " X" bağımlı miktarın değerleri " "de" ayrıca buna göre artırın veya azaltın;

· ters regresyon, bağımsız değerde bir artış veya azalma olması koşuluyla ortaya çıkan "X" bağımlı değer " "de" bağlı olarak azalır veya artar.

İlişkileri karakterize etmek için, aşağıdaki eşleştirilmiş regresyon denklemleri türleri kullanılır:

· y=a+bxdoğrusal;

· y=e ax + b – üstel;

· y=a+b/x – hiperbolik;

· y=a+b 1 x+b 2 x 2 – parabolik;

· y=ab x – üstel ve benzeri.

nerede bir, b 1 , b 2- denklemin katsayıları (parametreleri); de- etkili işaret; X- faktör işareti.

3. Regresyon denkleminin yapısı, katsayılarını (parametrelerini) tahmin etmeye indirgenir, bunun için kullanırlar. en küçük kareler yöntemi(MNK).

En küçük kareler yöntemi, etkin özelliğin gerçek değerlerinin kare sapmalarının toplamının olduğu parametre tahminlerini elde etmenizi sağlar " de»teorikten « y x» minimumdur, yani

Regresyon Denklemi Seçenekleri y=a+bx en küçük kareler yöntemiyle aşağıdaki formüller kullanılarak tahmin edilir:

nerede a - serbest katsayı, b- regresyon katsayısı, bileşke işaretinin ne kadar değişeceğini gösterir y» faktör niteliğini değiştirirken « x» ölçü birimi başına.

4. Regresyon katsayılarının istatistiksel anlamlılığını değerlendirmek için Student t-testi kullanılır.

Regresyon katsayılarının önemini kontrol etme şeması:

1) H 0: bir=0, b=0 - regresyon katsayıları sıfırdan önemli ölçüde farklıdır.

H 1: a≠ 0, b≠ 0 - regresyon katsayıları sıfırdan önemli ölçüde farklıdır.

2) R=0.05 – anlamlılık düzeyi.

nerede m b,ben- rastgele hatalar:

; . (6.7)

4) t masa(R; f),

nerede f=nk- 1 - serbestlik derecesi sayısı (tablo değeri), n- gözlem sayısı, k X".

5) Eğer , o zaman sapar, yani önemli katsayı.

Eğer , o zaman kabul edilir, yani katsayı önemsizdir.

5. Oluşturulan regresyon denkleminin doğruluğunu kontrol etmek için Fisher kriteri kullanılır.

Regresyon denkleminin önemini kontrol etme şeması:

1) H 0: regresyon denklemi anlamlı değildir.

H 1: regresyon denklemi önemlidir.

2) R=0.05 – anlamlılık düzeyi.

3) , (6.8)

gözlem sayısı nerede; k- değişkenli denklemdeki parametre sayısı " X"; de- etkili özelliğin gerçek değeri; y x- etkili özelliğin teorik değeri; - çift korelasyon katsayısı.

4) F tablosu(R; f1 ; f2),

nerede f 1 \u003d k, f 2 \u003d n-k-1- serbestlik derecesi sayısı (tablo değerleri).

5) eğer F hesap >F tablosu, o zaman regresyon denklemi doğru seçilir ve pratikte uygulanabilir.

Eğer bir F hesap , o zaman regresyon denklemi yanlış seçilir.

6. Regresyon analizinin kalitesinin ölçüsünü yansıtan ana gösterge, belirleme katsayısı (R 2).

belirleme katsayısı bağımlı değişkenin ne oranda olduğunu gösterir" de» analizde dikkate alınır ve analize dahil edilen faktörlerin etkisinden kaynaklanır.

belirleme katsayısı (R2) aralığında değerler alır. Regresyon denklemi nitelikseldir, eğer R2 ≥0,8.

Belirleme katsayısı, korelasyon katsayısının karesine eşittir, yani

Örnek 6.1. Aşağıdaki verilere dayanarak, regresyon denklemini oluşturun ve analiz edin:

Çözüm.

1) Korelasyon katsayısını hesaplayın: . İşaretler arasındaki ilişki doğrudan ve orta düzeydedir.

2) Eşleştirilmiş bir doğrusal regresyon denklemi oluşturun.

2.1) Bir hesaplama tablosu yapın.

X de Hu x 2 y x (y-yx) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
toplam 159,45 558,55
Ortalama 77519,6 22,78 79,79 2990,6

,

Eşleştirilmiş doğrusal regresyon denklemi: y x \u003d 25,17 + 0,087x.

3) Teorik değerleri bulun " y x» gerçek değerleri regresyon denkleminde yerine koyarak « X».

4) Gerçek grafikleri çizin " "de" ve teorik değerler " y x» etkin özellik (Şekil 6.1): r xy =0.47) ve az sayıda gözlem.

7) Belirleme katsayısını hesaplayın: R2=(0.47) 2 =0.22. Oluşturulan denklem kalitesiz.

Çünkü regresyon analizi sırasındaki hesaplamalar oldukça hacimlidir, özel programların ("Statistica 10", SPSS vb.) kullanılması önerilir.

Şekil 6.2, "Statistica 10" programı kullanılarak gerçekleştirilen regresyon analizinin sonuçlarını içeren bir tabloyu göstermektedir.

Şekil 6.2. "Statistica 10" programı kullanılarak yapılan regresyon analizinin sonuçları

5. Edebiyat:

1. Gmurman V.E. Olasılık Teorisi ve Matematiksel İstatistik: Proc. üniversiteler için el kitabı / V.E. Gmurman. - M.: Yüksekokul, 2003. - 479 s.

2. Koichubekov B.K. Biyoistatistik: Ders Kitabı. - Almatı: Evero, 2014. - 154 s.

3. Lobotskaya N.L. Yüksek Matematik. / N.L. Lobotskaya, Yu.V. Morozov, A.A. Dunaev. - Minsk: Yüksek Okul, 1987. - 319 s.

4. Medic V.A., Tokmachev M.S., Balıkadam B.B. Tıp ve Biyolojide İstatistik: Bir Kılavuz. 2 ciltte / Ed. Yu.M. Komarov. T. 1. Teorik istatistikler. - M.: Tıp, 2000. - 412 s.

5. Halk sağlığı ve sağlık hizmetlerinin incelenmesi için istatistiksel analiz yöntemlerinin uygulanması: ders kitabı / ed. Kucherenko V.Z. - 4. baskı, gözden geçirilmiş. ve ek - M.: GEOTAR - Medya, 2011. - 256 s.