Analisis regresi. Analisis regresi

Analisis regresi mengkaji ketergantungan suatu besaran tertentu pada besaran lain atau beberapa besaran lain. Analisis regresi terutama digunakan dalam peramalan jangka menengah, serta peramalan jangka panjang. Jangka menengah dan jangka panjang memungkinkan untuk menetapkan perubahan dalam lingkungan bisnis dan memperhitungkan dampak dari perubahan ini pada indikator yang diteliti.

Untuk melakukan analisis regresi, perlu:

    ketersediaan data tahunan pada indikator yang dipelajari,

    ketersediaan prakiraan satu kali, yaitu perkiraan yang tidak membaik dengan data baru.

Analisis regresi biasanya dilakukan untuk objek yang memiliki sifat kompleks dan multifaktorial, seperti volume investasi, keuntungan, volume penjualan, dll.

Pada metode peramalan normatif cara dan syarat untuk mencapai keadaan yang mungkin dari fenomena, yang diambil sebagai tujuan, ditentukan. Kita berbicara tentang memprediksi pencapaian keadaan fenomena yang diinginkan berdasarkan norma, cita-cita, insentif, dan tujuan yang telah ditentukan. Ramalan seperti itu menjawab pertanyaan: dengan cara apa yang diinginkan dapat dicapai? Metode normatif lebih sering digunakan untuk prakiraan terprogram atau tertarget. Baik ekspresi kuantitatif standar maupun skala tertentu dari kemungkinan fungsi evaluasi digunakan.

Dalam hal menggunakan ekspresi kuantitatif, misalnya, norma fisiologis dan rasional untuk konsumsi produk makanan dan non-makanan tertentu yang dikembangkan oleh spesialis untuk berbagai kelompok populasi, tingkat konsumsi barang-barang ini dapat ditentukan untuk tahun-tahun sebelum pencapaian norma yang ditentukan. Perhitungan seperti itu disebut interpolasi. Interpolasi adalah cara menghitung indikator yang hilang dalam deret waktu suatu fenomena, berdasarkan hubungan yang mapan. Dengan mengambil nilai aktual dari indikator dan nilai standarnya sebagai anggota ekstrem dari deret dinamis, dimungkinkan untuk menentukan besarnya nilai dalam deret ini. Oleh karena itu, interpolasi dianggap sebagai metode normatif. Rumus yang diberikan sebelumnya (4), yang digunakan dalam ekstrapolasi, dapat digunakan dalam interpolasi, di mana y n tidak lagi mencirikan data aktual, tetapi standar indikator.

Dalam kasus penggunaan skala (bidang, spektrum) dari kemungkinan fungsi evaluasi, yaitu, fungsi distribusi preferensi, dalam metode normatif, kira-kira gradasi berikut ditunjukkan: tidak diinginkan - kurang diinginkan - lebih diinginkan - paling diinginkan - optimal (standar).

Metode peramalan normatif membantu mengembangkan rekomendasi untuk meningkatkan tingkat objektivitas, dan karenanya efektivitas keputusan.

Pemodelan, mungkin metode peramalan yang paling sulit. Pemodelan matematika berarti penggambaran suatu fenomena ekonomi melalui rumus matematika, persamaan dan pertidaksamaan. Peralatan matematika harus secara akurat mencerminkan latar belakang perkiraan, meskipun cukup sulit untuk sepenuhnya mencerminkan seluruh kedalaman dan kompleksitas objek yang diprediksi. Istilah "model" berasal dari kata Latin modelus, yang berarti "ukuran". Oleh karena itu, akan lebih tepat untuk mempertimbangkan pemodelan bukan sebagai metode peramalan, tetapi sebagai metode untuk mempelajari fenomena serupa pada suatu model.

Dalam arti luas, model disebut sebagai pengganti objek studi, yang memiliki kemiripan sedemikian rupa sehingga memungkinkan untuk mendapatkan pengetahuan baru tentang objek tersebut. Model harus dianggap sebagai deskripsi matematis dari objek. Dalam hal ini model diartikan sebagai suatu fenomena (subjek, instalasi) yang ada dalam beberapa korespondensi dengan objek yang diteliti dan dapat menggantikannya dalam proses penelitian, menyajikan informasi tentang objek tersebut.

Dengan pemahaman yang lebih sempit tentang model, itu dianggap sebagai objek peramalan, studinya memungkinkan memperoleh informasi tentang kemungkinan keadaan objek di masa depan dan cara untuk mencapai keadaan ini. Dalam hal ini, tujuan dari model prediktif adalah untuk memperoleh informasi bukan tentang objek secara umum, tetapi hanya tentang keadaan masa depannya. Kemudian, ketika membangun model, mungkin tidak mungkin untuk secara langsung memeriksa korespondensinya dengan objek, karena model hanya mewakili keadaan masa depannya, dan objek itu sendiri saat ini mungkin tidak ada atau memiliki keberadaan yang berbeda.

Model bisa material dan ideal.

Model ideal digunakan dalam ekonomi. Model ideal yang paling sempurna untuk deskripsi kuantitatif suatu fenomena sosial ekonomi (ekonomi) adalah model matematika yang menggunakan angka, rumus, persamaan, algoritma atau representasi grafis. Dengan bantuan model ekonomi, tentukan:

    hubungan antara berbagai indikator ekonomi;

    berbagai macam pembatasan yang dikenakan pada indikator;

    kriteria untuk mengoptimalkan proses.

Deskripsi yang bermakna dari suatu objek dapat direpresentasikan dalam bentuk skema formalnya, yang menunjukkan parameter dan informasi awal mana yang harus dikumpulkan untuk menghitung nilai yang diinginkan. Model matematika, tidak seperti skema formal, berisi data numerik spesifik yang mencirikan suatu objek. Pengembangan model matematika sangat tergantung pada gagasan peramal tentang esensi proses yang dimodelkan. Berdasarkan ide-idenya, ia mengajukan hipotesis kerja, yang dengannya catatan analitis model dibuat dalam bentuk rumus, persamaan, dan ketidaksetaraan. Sebagai hasil dari pemecahan sistem persamaan, parameter spesifik dari fungsi diperoleh, yang menggambarkan perubahan variabel yang diinginkan dari waktu ke waktu.

Urutan dan urutan pekerjaan sebagai elemen organisasi peramalan ditentukan tergantung pada metode peramalan yang digunakan. Biasanya pekerjaan ini dilakukan dalam beberapa tahap.

Tahap 1 - retrospeksi prediktif, yaitu penetapan objek prakiraan dan latar belakang prakiraan. Pekerjaan pada tahap pertama dilakukan dalam urutan berikut:

    pembentukan deskripsi suatu objek di masa lalu, yang mencakup analisis pra-perkiraan objek, penilaian parameternya, signifikansinya dan hubungan timbal baliknya,

    identifikasi dan evaluasi sumber informasi, prosedur dan organisasi kerja dengan mereka, pengumpulan dan penempatan informasi retrospektif;

    menetapkan tujuan penelitian.

Melakukan tugas retrospeksi prediktif, peramal mempelajari sejarah perkembangan objek dan latar belakang ramalan untuk mendapatkan deskripsi sistematis mereka.

Tahap 2 - diagnosis prediktif, di mana deskripsi sistematis dari objek peramalan dan latar belakang prakiraan dipelajari untuk mengidentifikasi tren dalam perkembangannya dan memilih model dan metode peramalan. Pekerjaan dilakukan dalam urutan berikut:

    pengembangan model objek prakiraan, termasuk deskripsi objek yang diformalkan, memeriksa tingkat kecukupan model terhadap objek;

    pemilihan metode peramalan (utama dan tambahan), pengembangan algoritma dan program kerja.

Tahap 3 - patronase, yaitu proses pengembangan prakiraan yang ekstensif, termasuk: 1) perhitungan parameter yang diprediksi untuk jangka waktu tertentu; 2) sintesis masing-masing komponen ramalan.

Tahap 4 - penilaian ramalan, termasuk verifikasinya, yaitu, menentukan tingkat keandalan, akurasi, dan validitas.

Dalam proses pencarian dan evaluasi, tugas peramalan dan evaluasinya diselesaikan berdasarkan tahap sebelumnya.

Pentahapan yang ditunjukkan adalah perkiraan dan tergantung pada metode peramalan utama.

Hasil prakiraan disusun dalam bentuk sertifikat, laporan atau materi lainnya dan disajikan kepada pelanggan.

Dalam peramalan, penyimpangan ramalan dari keadaan sebenarnya dari objek dapat ditunjukkan, yang disebut kesalahan ramalan, yang dihitung dengan rumus:

;
;
. (9.3)

Sumber kesalahan dalam peramalan

Sumber utama dapat berupa:

1. Transfer sederhana (ekstrapolasi) data dari masa lalu ke masa depan (misalnya, perusahaan tidak memiliki opsi perkiraan lain, kecuali peningkatan penjualan 10%).

2. Ketidakmampuan untuk secara akurat menentukan probabilitas suatu peristiwa dan dampaknya terhadap objek yang diteliti.

3. Kesulitan yang tidak terduga (kejadian yang mengganggu) yang mempengaruhi pelaksanaan rencana, misalnya pemecatan mendadak kepala departemen penjualan.

Secara umum, akurasi peramalan meningkat dengan akumulasi pengalaman dalam peramalan dan pengembangan metodenya.

Analisis regresi

regresi (linier) analisis- metode statistik untuk mempelajari pengaruh satu atau lebih variabel independen terhadap variabel dependen. Variabel independen sebaliknya disebut regressor atau prediktor, dan variabel dependen disebut kriteria. Terminologi bergantung dan mandiri variabel hanya mencerminkan ketergantungan matematis dari variabel ( lihat korelasi palsu), bukan hubungan sebab akibat.

Tujuan analisis regresi

  1. Penentuan derajat determinisme variasi variabel kriteria (dependen) oleh prediktor (variabel bebas)
  2. Memprediksi nilai variabel dependen menggunakan variabel independen
  3. Penentuan kontribusi variabel independen individu terhadap variasi dependen

Analisis regresi tidak dapat digunakan untuk menentukan ada tidaknya hubungan antar variabel, karena adanya hubungan tersebut merupakan prasyarat untuk menerapkan analisis.

Definisi matematis dari regresi

Ketergantungan regresif yang ketat dapat didefinisikan sebagai berikut. Biarkan , menjadi variabel acak dengan distribusi probabilitas bersama yang diberikan. Jika untuk setiap set nilai, ekspektasi bersyarat didefinisikan

(persamaan regresi umum),

maka fungsi tersebut disebut regresi Nilai Y dengan nilai, dan grafiknya - Garis regresi oleh , atau persamaan regresi.

Ketergantungan pada dimanifestasikan dalam perubahan nilai rata-rata Y saat berubah. Meskipun untuk setiap set nilai tetap, kuantitas tetap merupakan variabel acak dengan dispersi tertentu.

Untuk memperjelas pertanyaan tentang seberapa akurat analisis regresi memperkirakan perubahan Y dengan perubahan, nilai rata-rata varians Y digunakan untuk set nilai yang berbeda (sebenarnya, kita berbicara tentang ukuran dispersi variabel terikat di sekitar garis regresi).

Metode kuadrat terkecil (perhitungan koefisien)

Dalam prakteknya, garis regresi paling sering dicari dalam bentuk fungsi linear(regresi linier) yang paling mendekati kurva yang diinginkan. Ini dilakukan dengan menggunakan metode kuadrat terkecil, ketika jumlah deviasi kuadrat dari yang sebenarnya diamati dari perkiraan mereka diminimalkan (artinya perkiraan menggunakan garis lurus yang mengklaim mewakili ketergantungan regresi yang diinginkan):

(M - ukuran sampel). Pendekatan ini didasarkan pada fakta yang diketahui bahwa jumlah yang muncul dalam ekspresi di atas mengambil nilai minimum tepat untuk kasus ketika .

Untuk memecahkan masalah analisis regresi dengan metode kuadrat terkecil, konsep diperkenalkan fungsi sisa:

Kondisi minimum dari fungsi residual:

Sistem yang dihasilkan adalah sistem persamaan linear dengan tidak diketahui

Jika kita menyatakan suku bebas ruas kiri persamaan dengan matriks

dan koefisien yang tidak diketahui di sisi kanan matriks

maka kita mendapatkan persamaan matriks: , yang mudah diselesaikan dengan metode Gauss. Matriks yang dihasilkan akan berupa matriks yang memuat koefisien-koefisien persamaan garis regresi:

Untuk mendapatkan estimasi terbaik, perlu memenuhi prasyarat LSM (kondisi Gauss–Markov). Dalam literatur bahasa Inggris, estimasi seperti itu disebut BLUE (Best Linear Unbiased Estimators) - estimasi tak bias linier terbaik.

Menafsirkan Parameter Regresi

Parameternya adalah koefisien korelasi parsial; diinterpretasikan sebagai proporsi varians Y yang dijelaskan dengan memperbaiki pengaruh prediktor yang tersisa, yaitu mengukur kontribusi individu terhadap penjelasan Y. Dalam kasus prediktor yang berkorelasi, ada masalah ketidakpastian dalam estimasi , yang menjadi tergantung pada urutan prediktor yang disertakan dalam model. Dalam kasus seperti itu, perlu diterapkan metode analisis korelasi dan analisis regresi bertahap.

Berbicara tentang model analisis regresi non-linier, penting untuk memperhatikan apakah kita berbicara tentang non-linier dalam variabel independen (dari sudut pandang formal, mudah direduksi menjadi regresi linier), atau non-linier dalam parameter yang diestimasi. (menyebabkan kesulitan komputasi yang serius). Dengan jenis nonlinier pertama, dari sudut pandang yang berarti, penting untuk memilih penampilan dalam model anggota bentuk , , yang menunjukkan adanya interaksi antara fitur , dll. (lihat Multikolinearitas).

Lihat juga

Tautan

  • www.kgafk.ru - Kuliah tentang "Analisis Regresi"
  • www.basegroup.ru - metode untuk memilih variabel dalam model regresi

literatur

  • Norman Draper, Harry Smith Analisis regresi yang diterapkan. Regresi Berganda= Analisis Regresi Terapan. - edisi ke-3. - M .: "Dialektika", 2007. - S. 912. - ISBN 0-471-17082-8
  • Metode Berkelanjutan untuk Memperkirakan Model Statistik: Monograf. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radchenko Stanislav Grigorievich, Metodologi Analisis Regresi: Monograf. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Yayasan Wikimedia. 2010 .

Apa itu regresi?

Pertimbangkan dua variabel kontinu x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Mari kita tempatkan poin pada plot pencar 2D dan katakan kita punya hubungan linier jika data didekati dengan garis lurus.

Jika kita berasumsi bahwa kamu tergantung pada x, dan perubahan kamu disebabkan oleh perubahan x, kita dapat mendefinisikan garis regresi (regression kamu pada x), yang paling menggambarkan hubungan garis lurus antara dua variabel ini.

Penggunaan statistik kata "regresi" berasal dari fenomena yang dikenal sebagai regresi ke mean, dikaitkan dengan Sir Francis Galton (1889).

Dia menunjukkan bahwa sementara ayah yang tinggi cenderung memiliki anak laki-laki yang tinggi, rata-rata tinggi anak laki-laki lebih kecil daripada ayah mereka yang tinggi. Tinggi rata-rata anak laki-laki "mundur" dan "bergerak kembali" ke tinggi rata-rata semua ayah dalam populasi. Jadi, rata-rata, ayah yang tinggi memiliki anak laki-laki yang lebih pendek (tetapi masih tinggi), dan ayah yang pendek memiliki anak yang lebih tinggi (tetapi masih agak pendek).

Garis regresi

Persamaan matematika yang mengevaluasi garis regresi linier sederhana (berpasangan):

x disebut variabel bebas atau prediktor.

kamu adalah variabel dependen atau respon. Ini adalah nilai yang kami harapkan kamu(rata-rata) jika kita tahu nilainya x, yaitu adalah nilai prediksi kamu»

  • sebuah- anggota bebas (persimpangan) dari garis evaluasi; nilai ini kamu, Kapan x=0(Gbr.1).
  • b- kemiringan atau gradien dari garis perkiraan; itu adalah jumlah yang kamu meningkat rata-rata jika kita meningkatkan x untuk satu unit.
  • sebuah dan b disebut koefisien regresi dari garis taksiran, meskipun istilah ini sering digunakan hanya untuk b.

Regresi linier berpasangan dapat diperluas untuk memasukkan lebih dari satu variabel bebas; dalam hal ini dikenal sebagai regresi berganda.

Gambar.1. Garis regresi linier yang menunjukkan perpotongan a dan kemiringan b (jumlah kenaikan Y ketika x bertambah satu satuan)

Metode kuadrat terkecil

Kami melakukan analisis regresi menggunakan sampel pengamatan di mana: sebuah dan b- estimasi sampel dari parameter (umum) yang sebenarnya, dan , yang menentukan garis regresi linier dalam populasi (populasi umum).

Metode paling sederhana untuk menentukan koefisien sebuah dan b adalah metode kuadrat terkecil(MNK).

Kesesuaian dievaluasi dengan mempertimbangkan residual (jarak vertikal setiap titik dari garis, misalnya residual = dapat diamati kamu- diprediksi kamu, Beras. 2).

Garis yang paling cocok dipilih sehingga jumlah kuadrat dari residualnya minimal.

Beras. 2. Garis regresi linier dengan residual yang digambarkan (garis putus-putus vertikal) untuk setiap titik.

Asumsi Regresi Linier

Jadi, untuk setiap nilai yang diamati, residualnya sama dengan selisihnya dan sesuai dengan yang diprediksi.Setiap residual bisa positif atau negatif.

Anda dapat menggunakan residual untuk menguji asumsi berikut di balik regresi linier:

  • Residu terdistribusi normal dengan rata-rata nol;

Jika asumsi linearitas, normalitas, dan/atau varians konstan dipertanyakan, kita dapat mengubah atau dan menghitung garis regresi baru yang memenuhi asumsi ini (misalnya, menggunakan transformasi logaritmik, dll.).

Nilai abnormal (pencilan) dan titik pengaruh

Pengamatan "berpengaruh", jika dihilangkan, mengubah satu atau lebih estimasi parameter model (yaitu kemiringan atau intersep).

Pencilan (pengamatan yang bertentangan dengan sebagian besar nilai dalam kumpulan data) dapat menjadi pengamatan yang "berpengaruh" dan dapat dideteksi dengan baik secara visual saat melihat sebar 2D atau sebidang residu.

Baik untuk outlier dan untuk pengamatan (poin) "berpengaruh" digunakan, baik dengan inklusi maupun tanpanya, perhatikan perubahan estimasi (koefisien regresi).

Saat melakukan analisis, jangan secara otomatis membuang outlier atau titik pengaruh, karena mengabaikannya dapat memengaruhi hasil. Selalu pelajari penyebab outlier ini dan analisislah.

Hipotesis regresi linier

Saat menyusun regresi linier, hipotesis nol diperiksa bahwa kemiringan umum garis regresi sama dengan nol.

Jika kemiringan garis adalah nol, tidak ada hubungan linier antara dan: perubahan tidak mempengaruhi

Untuk menguji hipotesis nol bahwa kemiringan sebenarnya adalah nol, Anda dapat menggunakan algoritma berikut:

Hitung statistik uji yang sama dengan rasio , yang mematuhi distribusi dengan derajat kebebasan, di mana kesalahan standar koefisien


,

- estimasi varians dari residual.

Biasanya, jika tingkat signifikansi yang dicapai adalah hipotesis nol ditolak.


di mana adalah titik persentase dari distribusi dengan derajat kebebasan yang memberikan probabilitas uji dua sisi

Ini adalah interval yang berisi kemiringan umum dengan probabilitas 95%.

Untuk sampel besar, misalkan kita dapat memperkirakan dengan nilai 1,96 (yaitu, statistik uji akan cenderung berdistribusi normal)

Evaluasi Kualitas Regresi Linier: Koefisien Determinasi R 2

Karena hubungan linier dan kami mengharapkan perubahan sebagai perubahan , dan kami menyebutnya variasi yang disebabkan atau dijelaskan oleh regresi. Variasi residual harus sekecil mungkin.

Jika demikian, maka sebagian besar variasi akan dijelaskan oleh regresi, dan titik-titik akan terletak dekat dengan garis regresi, yaitu. garis cocok dengan data dengan baik.

Proporsi varians total yang dijelaskan oleh regresi disebut koefisien determinasi, biasanya dinyatakan sebagai persentase dan dilambangkan R2(dalam regresi linier berpasangan, ini adalah nilainya r2, kuadrat dari koefisien korelasi), memungkinkan Anda menilai kualitas persamaan regresi secara subyektif.

Selisihnya adalah persentase varians yang tidak dapat dijelaskan dengan regresi.

Tanpa tes formal untuk mengevaluasi, kita terpaksa mengandalkan penilaian subjektif untuk menentukan kualitas kecocokan garis regresi.

Menerapkan Garis Regresi ke Prakiraan

Anda dapat menggunakan garis regresi untuk memprediksi nilai dari nilai dalam rentang yang diamati (jangan pernah memperkirakan di luar batas ini).

Kami memprediksi rata-rata untuk yang dapat diamati yang memiliki nilai tertentu dengan mensubstitusikan nilai tersebut ke dalam persamaan garis regresi.

Jadi, jika memprediksi sebagai Kami menggunakan nilai prediksi ini dan kesalahan standarnya untuk memperkirakan interval kepercayaan untuk rata-rata populasi yang sebenarnya.

Mengulangi prosedur ini untuk nilai yang berbeda memungkinkan Anda membangun batas kepercayaan untuk baris ini. Ini adalah band atau area yang berisi garis yang benar, misalnya, dengan tingkat kepercayaan 95%.

Rencana regresi sederhana

Desain regresi sederhana berisi satu prediktor kontinu. Jika terdapat 3 kasus dengan nilai prediktor P , seperti 7, 4 dan 9, dan desain termasuk efek orde pertama P , maka matriks desain X akan menjadi

dan persamaan regresi menggunakan P untuk X1 terlihat seperti

Y = b0 + b1 P

Jika desain regresi sederhana mengandung efek orde yang lebih tinggi pada P , seperti efek kuadrat, maka nilai pada kolom X1 dalam matriks desain akan dipangkatkan ke dua:

dan persamaannya akan berbentuk

Y = b0 + b1 P2

Metode pengkodean yang dibatasi sigma dan overparameter tidak berlaku untuk desain regresi sederhana dan desain lain yang hanya berisi prediktor kontinu (karena tidak ada prediktor kategoris). Terlepas dari metode pengkodean yang dipilih, nilai variabel kontinu bertambah dengan kekuatan yang sesuai dan digunakan sebagai nilai untuk variabel X. Dalam hal ini, tidak ada konversi yang dilakukan. Selain itu, saat menjelaskan rencana regresi, Anda dapat menghilangkan pertimbangan matriks rencana X, dan hanya bekerja dengan persamaan regresi.

Contoh: Analisis Regresi Sederhana

Contoh ini menggunakan data yang disediakan dalam tabel:

Beras. 3. Tabel data awal.

Data tersebut didasarkan pada perbandingan sensus tahun 1960 dan 1970 di 30 kabupaten yang dipilih secara acak. Nama kabupaten direpresentasikan sebagai nama observasi. Informasi mengenai masing-masing variabel disajikan di bawah ini:

Beras. 4. Tabel spesifikasi variabel.

Objek penelitian

Untuk contoh ini, korelasi antara tingkat kemiskinan dan kekuatan yang memprediksi persentase keluarga yang berada di bawah garis kemiskinan akan dianalisis. Oleh karena itu, kita akan memperlakukan variabel 3 (Pt_Poor ) sebagai variabel terikat.

Seseorang dapat mengajukan hipotesis: perubahan populasi dan persentase keluarga yang berada di bawah garis kemiskinan saling berkaitan. Tampaknya masuk akal untuk mengharapkan bahwa kemiskinan menyebabkan arus keluar penduduk, maka akan ada korelasi negatif antara persentase orang di bawah garis kemiskinan dan perubahan populasi. Oleh karena itu, kita akan memperlakukan variabel 1 (Pop_Chng ) sebagai variabel prediktor.

Lihat hasil

Koefisien regresi

Beras. 5. Koefisien regresi Pt_Poor pada Pop_Chng.

Di persimpangan baris Pop_Chng dan Param. koefisien non-standar untuk regresi Pt_Poor pada Pop_Chng adalah -0,40374 . Artinya, untuk setiap penurunan satu unit penduduk, terjadi peningkatan angka kemiskinan sebesar 0,40374. Batas kepercayaan atas dan bawah (default) 95% untuk koefisien non-standar ini tidak termasuk nol, sehingga koefisien regresi signifikan pada tingkat p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribusi variabel

Koefisien korelasi dapat menjadi terlalu tinggi atau terlalu rendah secara signifikan jika ada outlier besar dalam data. Mari kita periksa distribusi variabel dependen Pt_Poor menurut county. Untuk melakukan ini, kita akan membangun histogram dari variabel Pt_Poor.

Beras. 6. Histogram variabel Pt_Poor.

Seperti yang Anda lihat, distribusi variabel ini sangat berbeda dari distribusi normal. Namun, meskipun dua kabupaten (dua kolom kanan) memiliki persentase keluarga yang berada di bawah garis kemiskinan lebih tinggi daripada yang diperkirakan dalam distribusi normal, mereka tampaknya "di dalam kisaran".

Beras. 7. Histogram variabel Pt_Poor.

Penilaian ini agak subjektif. Aturan praktisnya adalah bahwa outlier harus diperhitungkan jika pengamatan (atau pengamatan) tidak termasuk dalam interval (rata-rata ± 3 kali standar deviasi). Dalam hal ini, analisis perlu diulang dengan dan tanpa outlier untuk memastikan bahwa mereka tidak memiliki efek serius pada korelasi antara anggota populasi.

plot sebar

Jika salah satu hipotesis adalah apriori tentang hubungan antara variabel yang diberikan, maka akan berguna untuk memeriksanya pada plot dari scatterplot yang sesuai.

Beras. 8. Gambar sebar.

Scatterplot menunjukkan korelasi negatif yang jelas (-.65) antara kedua variabel. Ini juga menunjukkan interval kepercayaan 95% untuk garis regresi, yaitu, dengan probabilitas 95% garis regresi melewati antara dua kurva putus-putus.

Kriteria signifikansi

Beras. 9. Tabel yang memuat kriteria signifikansi.

Pengujian koefisien regresi Pop_Chng menegaskan bahwa Pop_Chng sangat terkait dengan Pt_Poor , p<.001 .

Hasil

Contoh ini menunjukkan bagaimana menganalisis rencana regresi sederhana. Interpretasi koefisien regresi non-standar dan standar juga disajikan. Pentingnya mempelajari distribusi respon dari variabel dependen dibahas, dan teknik untuk menentukan arah dan kekuatan hubungan antara prediktor dan variabel dependen ditunjukkan.

Analisis regresi dan korelasi - metode penelitian statistik. Ini adalah cara paling umum untuk menunjukkan ketergantungan parameter pada satu atau lebih variabel independen.

Di bawah ini, dengan menggunakan contoh-contoh praktis yang konkret, kita akan mempertimbangkan dua analisis yang sangat populer ini di kalangan ekonom. Kami juga akan memberikan contoh memperoleh hasil ketika digabungkan.

Analisis Regresi di Excel

Menunjukkan pengaruh beberapa nilai (independen, independen) terhadap variabel dependen. Misalnya, bagaimana jumlah penduduk yang aktif secara ekonomi tergantung pada jumlah perusahaan, upah, dan parameter lainnya. Atau: bagaimana investasi asing, harga energi, dll. mempengaruhi tingkat PDB.

Hasil analisis memungkinkan Anda untuk memprioritaskan. Dan berdasarkan faktor utama, untuk memprediksi, merencanakan pengembangan area prioritas, membuat keputusan manajemen.

Regresi terjadi:

  • linier (y = a + bx);
  • parabola (y = a + bx + cx 2);
  • eksponensial (y = a * exp(bx));
  • daya (y = a*x^b);
  • hiperbolik (y = b/x + a);
  • logaritma (y = b * 1n(x) + a);
  • eksponensial (y = a * b^x).

Pertimbangkan contoh membangun model regresi di Excel dan menafsirkan hasilnya. Mari kita ambil jenis regresi linier.

Sebuah tugas. Di 6 perusahaan, gaji bulanan rata-rata dan jumlah karyawan yang keluar dianalisis. Hal ini diperlukan untuk menentukan ketergantungan jumlah pensiunan karyawan pada gaji rata-rata.

Model regresi linier memiliki bentuk sebagai berikut:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Dimana a adalah koefisien regresi, x adalah variabel yang mempengaruhi, dan k adalah jumlah faktor.

Dalam contoh kita, Y adalah indikator pekerja yang berhenti. Faktor yang mempengaruhi adalah upah (x).

Excel memiliki fungsi bawaan yang dapat digunakan untuk menghitung parameter model regresi linier. Tetapi add-in Analysis ToolPak akan melakukannya lebih cepat.

Aktifkan alat analisis yang kuat:

Setelah diaktifkan, add-on akan tersedia di bawah tab Data.

Sekarang kita akan berurusan langsung dengan analisis regresi.



Pertama-tama, kami memperhatikan R-kuadrat dan koefisien.

R-square adalah koefisien determinasi. Dalam contoh kita, ini adalah 0,755, atau 75,5%. Artinya parameter yang dihitung dari model menjelaskan hubungan antara parameter yang diteliti sebesar 75,5%. Semakin tinggi koefisien determinasi, semakin baik modelnya. Baik - di atas 0,8. Buruk - kurang dari 0,5 (analisis semacam itu hampir tidak dapat dianggap masuk akal). Dalam contoh kita - "tidak buruk".

Koefisien 64,1428 menunjukkan apa yang akan menjadi Y jika semua variabel dalam model yang dipertimbangkan sama dengan 0. Artinya, faktor lain yang tidak dijelaskan dalam model juga mempengaruhi nilai parameter yang dianalisis.

Koefisien -0,16285 menunjukkan bobot variabel X pada Y. Artinya, rata-rata gaji bulanan dalam model ini mempengaruhi jumlah berhenti merokok dengan bobot -0,16285 (ini adalah tingkat pengaruh yang kecil). Tanda “-” menunjukkan dampak negatif: semakin tinggi gaji, semakin sedikit berhenti. Yang adil.



Analisis korelasi di Excel

Analisis korelasi membantu untuk menetapkan apakah ada hubungan antara indikator dalam satu atau dua sampel. Misalnya antara waktu pengoperasian mesin dengan biaya perbaikan, harga peralatan dan lama pengoperasian, tinggi dan berat badan anak, dll.

Jika ada hubungan, maka apakah peningkatan satu parameter menyebabkan peningkatan (korelasi positif) atau penurunan (negatif) yang lain. Analisis korelasi membantu analis menentukan apakah nilai satu indikator dapat memprediksi kemungkinan nilai indikator lainnya.

Koefisien korelasi dilambangkan r. Bervariasi dari +1 hingga -1. Klasifikasi korelasi untuk area yang berbeda akan berbeda. Ketika nilai koefisien adalah 0, tidak ada hubungan linier antara sampel.

Pertimbangkan cara menggunakan Excel untuk menemukan koefisien korelasi.

Fungsi CORREL digunakan untuk mencari koefisien berpasangan.

Tugas: Menentukan apakah ada hubungan antara waktu operasi mesin bubut dan biaya pemeliharaannya.

Letakkan kursor di sel mana saja dan tekan tombol fx.

  1. Dalam kategori "Statistik", pilih fungsi CORREL.
  2. Argumen "Array 1" - rentang nilai pertama - waktu mesin: A2: A14.
  3. Argumen "Array 2" - rentang nilai kedua - biaya perbaikan: B2:B14. Klik Oke.

Untuk menentukan jenis koneksi, Anda perlu melihat jumlah absolut koefisien (setiap bidang kegiatan memiliki skalanya sendiri).

Untuk analisis korelasi beberapa parameter (lebih dari 2), lebih mudah menggunakan "Analisis Data" (pengaya "Paket Analisis"). Dalam daftar, Anda perlu memilih korelasi dan menetapkan array. Semua.

Koefisien yang dihasilkan akan ditampilkan dalam matriks korelasi. Seperti yang ini:

Analisis korelasi-regresi

Dalam praktiknya, kedua teknik ini sering digunakan bersama-sama.

Contoh:


Sekarang data analisis regresi terlihat.

1. Untuk pertama kalinya istilah "regresi" diperkenalkan oleh pendiri biometrik F. Galton (abad XIX), yang idenya dikembangkan oleh pengikutnya K. Pearson.

Analisis regresi- metode pemrosesan data statistik yang memungkinkan Anda mengukur hubungan antara satu atau lebih penyebab (tanda faktorial) dan konsekuensi (tanda efektif).

tanda- ini adalah fitur pembeda utama, fitur dari fenomena atau proses yang sedang dipelajari.

Tanda efektif - indikator yang diselidiki.

Tanda faktor- indikator yang mempengaruhi nilai fitur efektif.

Tujuan dari analisis regresi adalah untuk mengevaluasi ketergantungan fungsional dari nilai rata-rata fitur efektif ( pada) dari faktorial ( x 1, x 2, ..., x n), diekspresikan sebagai persamaan regresi

pada= f(x 1, x 2, ..., x n). (6.1)

Ada dua jenis regresi: berpasangan dan ganda.

Regresi berpasangan (sederhana)- persamaan bentuk:

pada= f(x). (6.2)

Fitur yang dihasilkan dalam regresi berpasangan dianggap sebagai fungsi dari satu argumen, yaitu. satu faktor.

Analisis regresi meliputi langkah-langkah berikut:

definisi tipe fungsi;

penentuan koefisien regresi;

Perhitungan nilai teoretis dari fitur efektif;

Memeriksa signifikansi statistik dari koefisien regresi;

Memeriksa signifikansi statistik dari persamaan regresi.

Regresi Berganda- persamaan bentuk:

pada= f(x 1, x 2, ..., x n). (6.3)

Fitur yang dihasilkan dianggap sebagai fungsi dari beberapa argumen, mis. banyak faktor.

2. Untuk menentukan jenis fungsi dengan benar, perlu untuk menemukan arah koneksi berdasarkan data teoritis.

Menurut arah koneksinya, regresi dibagi menjadi:

· regresi langsung, timbul dengan kondisi bahwa dengan kenaikan atau penurunan nilai independen " X" nilai besaran yang bergantung " pada" juga menambah atau mengurangi sesuai;

· regresi terbalik, timbul dalam kondisi bahwa dengan kenaikan atau penurunan nilai independen "X" nilai tergantung " pada" berkurang atau bertambah sesuai.

Untuk mengkarakterisasi hubungan, jenis persamaan regresi berpasangan berikut digunakan:

· y=a+bxlinier;

· y=e ax + b – eksponensial;

· y=a+b/x – hiperbolik;

· y=a+b 1 x+b 2 x 2 – parabola;

· y=ab x – eksponensial dan sebagainya.

di mana a, b 1 , b 2- koefisien (parameter) persamaan; pada- tanda efektif; X- tanda faktor.

3. Konstruksi persamaan regresi direduksi menjadi memperkirakan koefisien (parameter), untuk ini mereka menggunakan metode kuadrat terkecil(MNK).

Metode kuadrat terkecil memungkinkan Anda untuk mendapatkan perkiraan parameter seperti itu, di mana jumlah deviasi kuadrat dari nilai aktual fitur efektif " pada»dari teori « y x» minimal, yaitu

Opsi Persamaan Regresi y=a+bx dengan metode kuadrat terkecil diperkirakan menggunakan rumus:

di mana sebuah - koefisien bebas, b- koefisien regresi, menunjukkan seberapa besar tanda yang dihasilkan akan berubah kamu» saat mengubah atribut faktor « x» per satuan ukuran.

4. Untuk menilai signifikansi statistik dari koefisien regresi, digunakan uji-t Student.

Skema untuk memeriksa signifikansi koefisien regresi:

1) H 0: a=0, b=0 - koefisien regresi berbeda secara signifikan dari nol.

H 1: 0, b≠ 0 - koefisien regresi berbeda secara signifikan dari nol.

2) R=0,05 – tingkat signifikansi.

di mana m b,saya- kesalahan acak:

; . (6.7)

4) t meja(R; f),

di mana f=n-k- 1 - jumlah derajat kebebasan (nilai tabel), n- jumlah pengamatan, k X".

5) Jika , maka menyimpang, mis. koefisien signifikan.

Jika , maka diterima, yaitu koefisien tidak signifikan.

5. Untuk memeriksa kebenaran persamaan regresi yang dibangun, digunakan kriteria Fisher.

Skema untuk memeriksa signifikansi persamaan regresi:

1) H 0: persamaan regresi tidak signifikan.

H 1: persamaan regresi adalah signifikan.

2) R=0,05 – tingkat signifikansi.

3) , (6.8)

di mana jumlah pengamatan; k- jumlah parameter dalam persamaan dengan variabel " X"; pada- nilai sebenarnya dari fitur efektif; y x- nilai teoretis dari fitur efektif; - koefisien korelasi pasangan.

4) tabel F(R; f 1 ; f2),

di mana f 1 \u003d k, f 2 \u003d n-k-1- jumlah derajat kebebasan (nilai tabel).

5) Jika F hitung >F tabel, maka persamaan regresi tersebut dipilih dengan benar dan dapat diterapkan di lapangan.

Jika sebuah F kal , maka persamaan regresi yang dipilih salah.

6. Indikator utama yang mencerminkan ukuran kualitas analisis regresi adalah koefisien determinasi (R 2).

Koefisien determinasi menunjukkan berapa proporsi variabel terikat” pada» diperhitungkan dalam analisis dan disebabkan oleh pengaruh faktor-faktor yang termasuk dalam analisis.

Koefisien determinasi (R2) mengambil nilai dalam rentang. Persamaan regresi bersifat kualitatif jika R2 ≥0,8.

Koefisien determinasi sama dengan kuadrat dari koefisien korelasi, yaitu

Contoh 6.1. Berdasarkan data berikut, buat dan analisis persamaan regresi:

Larutan.

1) Hitung koefisien korelasi: . Hubungan antara tanda-tanda adalah langsung dan sedang.

2) Membangun persamaan regresi linier berpasangan.

2.1) Buatlah tabel perhitungan.

X pada Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Jumlah 159,45 558,55
Rata-rata 77519,6 22,78 79,79 2990,6

,

Persamaan regresi linier berpasangan: y x \u003d 25,17 + 0,087x.

3) Temukan nilai teoretis " y x» dengan mensubstitusikan nilai sebenarnya ke dalam persamaan regresi « X».

4) Plot grafik aktual " pada" dan nilai teoretis” y x» fitur efektif (Gambar 6.1): r xy = 0,47) dan sejumlah kecil pengamatan.

7) Hitung koefisien determinasi: R2=(0.47) 2 =0.22. Persamaan yang dibangun memiliki kualitas yang buruk.

Karena perhitungan selama analisis regresi cukup banyak, disarankan untuk menggunakan program khusus ("Statistica 10", SPSS, dll.).

Gambar 6.2 menunjukkan tabel dengan hasil analisis regresi yang dilakukan dengan menggunakan program “Statistica 10”.

Gambar 6.2. Hasil analisis regresi yang dilakukan dengan menggunakan program “Statistica 10”

5. Sastra:

1. Gmurman V.E. Teori Probabilitas dan Statistik Matematika: Proc. manual untuk universitas / V.E. Gmurman. - M.: Sekolah Tinggi, 2003. - 479 hal.

2. Koichubekov B.K. Biostatistik: Buku Ajar. - Almaty: Evero, 2014. - 154 hal.

3. Lobotskaya N.L. Matematika Tinggi. / N.L. Lobotskaya, Yu.V. Morozov, A.A. Dunev. - Minsk: Sekolah Tinggi, 1987. - 319 hal.

4. Medic V.A., Tokmachev M.S., Fishman B.B. Statistik dalam Kedokteran dan Biologi: Panduan. Dalam 2 volume / Ed. Yu.M. Komarov. T. 1. Statistik teoritis. - M.: Kedokteran, 2000. - 412 hal.

5. Penerapan metode analisis statistik untuk studi kesehatan masyarakat dan perawatan kesehatan: buku teks / ed. Kucherenko V.Z. - Edisi ke-4, direvisi. dan tambahan - M.: GEOTAR - Media, 2011. - 256 hal.