Data untuk regresi. Dasar-dasar analisis data

Sebagai hasil dari mempelajari materi bab 4, siswa harus:

tahu

  • konsep dasar analisis regresi;
  • metode estimasi dan sifat estimasi metode kuadrat terkecil;
  • aturan dasar untuk pengujian signifikansi dan estimasi interval persamaan dan koefisien regresi;

mampu untuk

  • menemukan estimasi parameter model persamaan regresi dua dimensi dan ganda dari data sampel, menganalisis sifat-sifatnya;
  • periksa signifikansi persamaan dan koefisien regresi;
  • menemukan perkiraan interval parameter signifikan;

memiliki

  • keterampilan estimasi statistik parameter persamaan regresi dua dimensi dan ganda; keterampilan untuk memeriksa kecukupan model regresi;
  • keterampilan dalam memperoleh persamaan regresi dengan semua koefisien signifikan menggunakan perangkat lunak analitik.

Konsep dasar

Setelah melakukan analisis korelasi, ketika keberadaan hubungan yang signifikan secara statistik antara variabel telah diidentifikasi dan tingkat keketatannya telah dinilai, mereka biasanya melanjutkan ke deskripsi matematis dari jenis dependensi menggunakan metode analisis regresi. Untuk tujuan ini, kelas fungsi dipilih yang menghubungkan indikator yang efektif pada dan argumen„ menghitung perkiraan parameter persamaan kendala dan menganalisis keakuratan persamaan yang dihasilkan .

Fungsi| menggambarkan ketergantungan nilai rata-rata bersyarat dari fitur efektif pada dari nilai argumen yang diberikan, disebut persamaan regresi.

Istilah "regresi" (dari lat. regresi- mundur, kembali ke sesuatu) diperkenalkan oleh psikolog dan antropolog Inggris F. Galton dan dikaitkan dengan salah satu contoh pertamanya, di mana Galton, memproses data statistik terkait dengan pertanyaan tentang hereditas pertumbuhan, menemukan bahwa jika ketinggian para ayah menyimpang dari tinggi rata-rata semua ayah pada X inci, maka tinggi anak laki-laki mereka menyimpang dari tinggi rata-rata semua anak laki-laki kurang dari x inci Tren yang teridentifikasi disebut regresi ke mean.

Istilah "regresi" banyak digunakan dalam literatur statistik, meskipun dalam banyak kasus tidak secara akurat mencirikan ketergantungan statistik.

Untuk deskripsi persamaan regresi yang akurat, perlu diketahui hukum distribusi bersyarat dari indikator yang efektif y. Dalam praktik statistik, biasanya tidak mungkin untuk memperoleh informasi seperti itu, oleh karena itu, mereka terbatas untuk menemukan perkiraan yang sesuai untuk fungsi tersebut. f(x kamu X 2, .... l *), berdasarkan analisis awal yang berarti dari fenomena atau pada data statistik asli.

Dalam kerangka asumsi model individu tentang jenis distribusi vektor indikator<) может быть получен общий вид persamaan regresi, di mana. Misalnya, dengan asumsi bahwa himpunan indikator yang dipelajari mematuhi hukum distribusi normal dimensi () dengan vektor ekspektasi matematis

Dimana, dan dengan matriks kovarians,

di mana variansnya? y,

Persamaan regresi (ekspektasi bersyarat) memiliki bentuk

Jadi, jika variabel acak multivariat ()

mematuhi hukum distribusi normal ()-dimensi, maka persamaan regresi indikator efektif pada dalam variabel penjelas memiliki linier di X melihat.

Namun, dalam praktik statistik, seseorang biasanya harus membatasi diri untuk menemukan perkiraan yang cocok untuk fungsi regresi sejati yang tidak diketahui f(x), karena peneliti tidak memiliki pengetahuan pasti tentang hukum bersyarat dari distribusi probabilitas dari indikator kinerja yang dianalisis pada untuk nilai argumen yang diberikan X.

Pertimbangkan hubungan antara estimasi true, model, dan regresi. Biarkan indikator kinerja pada terkait dengan argumen X perbandingan

di mana adalah variabel acak dengan hukum distribusi normal, apalagi. Fungsi regresi yang sebenarnya dalam kasus ini adalah

Misalkan kita tidak mengetahui bentuk pasti dari persamaan regresi yang sebenarnya, tetapi kita memiliki sembilan pengamatan pada variabel acak dua dimensi yang terkait dengan hubungan yang ditunjukkan pada Gambar. 4.1.

Beras. 4.1. Posisi relatif dari yang benarf(x) dan teoritiswowmodel regresi

Lokasi titik pada gambar. 4.1 memungkinkan kita untuk membatasi diri pada kelas dependensi linier dari bentuk

Dengan menggunakan metode kuadrat terkecil, kami menemukan perkiraan untuk persamaan regresi.

Sebagai perbandingan, pada Gambar. 4.1 menunjukkan grafik fungsi regresi sebenarnya dan fungsi regresi pendekatan teoritis. Estimasi persamaan regresi konvergen dalam probabilitas ke yang terakhir wow dengan peningkatan tak terbatas dalam ukuran sampel ().

Karena kami salah memilih fungsi regresi linier daripada fungsi regresi sebenarnya, yang sayangnya, cukup umum dalam praktik penelitian statistik, kesimpulan dan perkiraan statistik kami tidak akan memiliki sifat konsistensi, yaitu. tidak peduli berapa banyak kita meningkatkan volume pengamatan, perkiraan sampel kita tidak akan menyatu dengan fungsi regresi yang sebenarnya

Jika kita telah memilih kelas fungsi regresi dengan benar, maka ketidaktepatan dalam deskripsi menggunakan wow hanya akan dijelaskan oleh keterbatasan sampel dan, oleh karena itu, dapat dibuat kecil secara sewenang-wenang dengan

Untuk mengembalikan nilai kondisional indikator efektif dan fungsi regresi yang tidak diketahui dari data statistik awal, berikut ini paling sering digunakan: kriteria kecukupan fungsi kerugian.

1. metode kuadrat terkecil, yang menurutnya deviasi kuadrat dari nilai yang diamati dari indikator efektif, , dari nilai model diminimalkan, di mana koefisien persamaan regresi; adalah nilai vektor argumen dalam pengamatan "-M :

Masalah menemukan perkiraan vektor sedang dipecahkan. Regresi yang dihasilkan disebut berarti persegi.

2. Metode modul terkecil, yang menurutnya jumlah deviasi absolut dari nilai yang diamati dari indikator efektif dari nilai modular diminimalkan, mis.

Regresi yang dihasilkan disebut berarti mutlak(median).

3. metode minimal dikurangi untuk meminimalkan modul deviasi maksimum dari nilai yang diamati dari indikator efektif y, dari nilai model, yaitu

Regresi yang dihasilkan disebut minimal

Dalam aplikasi praktis, sering ada masalah di mana variabel acak dipelajari y, tergantung pada beberapa set variabel dan parameter yang tidak diketahui. Kami akan mempertimbangkan () sebagai (k + 1) populasi umum dimensi, dari mana sampel volume acak P, di mana () adalah hasil pengamatan ke-/,. Hal ini diperlukan untuk memperkirakan parameter yang tidak diketahui berdasarkan hasil pengamatan. Tugas yang dijelaskan di atas mengacu pada tugas analisis regresi.

analisis regresi sebut metode analisis statistik ketergantungan variabel acak pada pada variabel yang dipertimbangkan dalam analisis regresi sebagai variabel non-acak, terlepas dari hukum distribusi yang benar

HASIL

Tabel 8.3a. Statistik regresi
Statistik regresi
Beberapa R 0,998364
R-kuadrat 0,99673
R-kuadrat yang dinormalisasi 0,996321
kesalahan standar 0,42405
Pengamatan 10

Mari kita lihat bagian atas dari perhitungan yang disajikan pada Tabel 8.3a, statistik regresi.

Nilai R-square, juga disebut ukuran kepastian, mencirikan kualitas garis regresi yang dihasilkan. Kualitas ini dinyatakan dengan derajat kesesuaian antara data asli dan model regresi (data yang dihitung). Ukuran kepastian selalu dalam interval.

Dalam kebanyakan kasus, nilai R-kuadrat berada di antara nilai-nilai ini, yang disebut ekstrem, yaitu. antara nol dan satu.

Jika nilai R-square mendekati satu, ini berarti model yang dibangun menjelaskan hampir semua variabilitas dari variabel terkait. Sebaliknya, nilai R-kuadrat mendekati nol berarti kualitas model yang dibangun buruk.

Dalam contoh kita, ukuran kepastian adalah 0,99673, yang menunjukkan kecocokan yang sangat baik dari garis regresi dengan data asli.

Beberapa R- koefisien korelasi ganda R - menyatakan derajat ketergantungan variabel bebas (X) dan variabel terikat (Y).

Kelipatan R sama dengan akar pangkat dua dari koefisien determinasi, nilai ini mengambil nilai dalam rentang dari nol hingga satu.

Dalam analisis regresi linier sederhana, kelipatan R sama dengan koefisien korelasi Pearson. Memang, kelipatan R dalam kasus kami sama dengan koefisien korelasi Pearson dari contoh sebelumnya (0,998364).

Tabel 8.3b. Koefisien regresi
Kemungkinan kesalahan standar t-statistik
persimpangan Y 2,694545455 0,33176878 8,121757129
Variabel X 1 2,305454545 0,04668634 49,38177965
* Versi perhitungan yang terpotong diberikan

Sekarang perhatikan bagian tengah dari perhitungan yang disajikan pada tabel 8.3b. Di sini, koefisien regresi b (2.305454545) dan offset sepanjang sumbu y diberikan, yaitu. konstanta a (2.694545455).

Berdasarkan perhitungan tersebut, kita dapat menulis persamaan regresi sebagai berikut:

Y= x*2.305454545+2.694545455

Arah hubungan antar variabel ditentukan berdasarkan tanda-tandanya (negatif atau positif) koefisien regresi(koefisien b).

Jika tanda di koefisien regresi- positif, hubungan variabel dependen dengan independen akan positif. Dalam kasus kami, tanda koefisien regresi adalah positif, oleh karena itu, hubungannya juga positif.

Jika tanda di koefisien regresi- negatif, hubungan antara variabel terikat dan variabel bebas bersifat negatif (berbalik).

Pada tabel 8.3c. hasil output dari residual disajikan. Agar hasil ini muncul dalam laporan, perlu untuk mengaktifkan kotak centang "Residuals" saat meluncurkan alat "Regresi".

SISA PENARIKAN

Tabel 8.3c. Tetap
Pengamatan Prediksi Y Tetap Saldo standar
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Dengan menggunakan bagian laporan ini, kita dapat melihat penyimpangan setiap titik dari garis regresi yang dibangun. Nilai mutlak terbesar

Ilmu politik modern berangkat dari posisi pada hubungan semua fenomena dan proses dalam masyarakat. Tidak mungkin memahami peristiwa dan proses, memprediksi dan mengelola fenomena kehidupan politik tanpa mempelajari koneksi dan ketergantungan yang ada di ranah politik masyarakat. Salah satu tugas paling umum dari penelitian kebijakan adalah mempelajari hubungan antara beberapa variabel yang dapat diamati. Seluruh kelas metode analisis statistik, disatukan oleh nama umum "analisis regresi" (atau, sebagaimana juga disebut, "analisis korelasi-regresi"), membantu memecahkan masalah ini. Namun, jika analisis korelasi memungkinkan untuk menilai kekuatan hubungan antara dua variabel, maka dengan menggunakan analisis regresi dimungkinkan untuk menentukan jenis hubungan ini, untuk memprediksi ketergantungan nilai variabel apa pun pada nilai variabel lain. .

Pertama, mari kita ingat apa korelasi itu. Korelatif disebut kasus khusus paling penting dari hubungan statistik, yang terdiri dari fakta bahwa nilai yang sama dari satu variabel sesuai dengan yang berbeda nilai rata-rata lain. Dengan perubahan nilai atribut x, nilai rata-rata atribut y berubah secara alami, sedangkan pada setiap kasus individu nilai atribut pada(dengan probabilitas yang berbeda) dapat mengambil banyak nilai yang berbeda.

Munculnya istilah "korelasi" dalam statistik (dan ilmu politik menarik pencapaian statistik untuk memecahkan masalah, yang, oleh karena itu, merupakan disiplin ilmu yang terkait dengan ilmu politik) dikaitkan dengan nama ahli biologi dan ahli statistik Inggris Francis Galton, yang diusulkan pada abad ke-19. landasan teoritis analisis korelasi-regresi. Istilah "korelasi" dalam sains sudah dikenal sebelumnya. Secara khusus, dalam paleontologi kembali pada abad ke-18. itu diterapkan oleh ilmuwan Prancis Georges Cuvier. Dia memperkenalkan apa yang disebut hukum korelasi, yang dengannya, menurut sisa-sisa hewan yang ditemukan selama penggalian, dimungkinkan untuk mengembalikan penampilan mereka.

Ada cerita terkenal yang terkait dengan nama ilmuwan ini dan hukum korelasinya. Jadi, pada hari libur universitas, mahasiswa yang memutuskan untuk mempermainkan seorang profesor terkenal menarik kulit kambing dengan tanduk dan kuku di atas satu mahasiswa. Dia naik ke jendela kamar tidur Cuvier dan berteriak, "Aku akan memakanmu." Profesor bangun, melihat siluet dan menjawab: "Jika Anda memiliki tanduk dan kuku, maka Anda adalah herbivora dan tidak bisa memakan saya. Dan untuk ketidaktahuan tentang hukum korelasi Anda akan mendapatkan deuce. Dia berbalik dan tertidur. Lelucon adalah lelucon, tetapi dalam contoh ini kita melihat kasus khusus menggunakan analisis regresi korelasi berganda. Di sini profesor, berdasarkan pengetahuan tentang nilai dari dua sifat yang diamati (keberadaan tanduk dan kuku), berdasarkan hukum korelasi, memperoleh nilai rata-rata dari sifat ketiga (kelas yang dimiliki hewan ini adalah herbivora). Dalam hal ini, kita tidak berbicara tentang nilai spesifik dari variabel ini (yaitu, hewan ini dapat mengambil nilai yang berbeda pada skala nominal - bisa berupa kambing, domba jantan, atau banteng ...).

Sekarang mari kita beralih ke istilah "regresi". Sebenarnya, ini tidak terkait dengan arti dari masalah statistik yang diselesaikan dengan bantuan metode ini. Penjelasan istilah hanya dapat diberikan atas dasar pengetahuan tentang sejarah perkembangan metode untuk mempelajari hubungan antar fitur. Salah satu contoh pertama studi semacam ini adalah karya ahli statistik F. Galton dan K. Pearson, yang mencoba menemukan pola antara pertumbuhan ayah dan anak-anak mereka menurut dua tanda yang dapat diamati (di mana X- tinggi badan ayah dan U- pertumbuhan anak). Dalam studi mereka, mereka mengkonfirmasi hipotesis awal bahwa, rata-rata, ayah tinggi membesarkan anak-anak dengan tinggi rata-rata. Prinsip yang sama berlaku untuk ayah dan anak yang rendah. Namun, jika para ilmuwan berhenti di situ, karya-karya mereka tidak akan pernah disebutkan dalam buku teks statistik. Para peneliti menemukan pola lain dalam hipotesis terkonfirmasi yang telah disebutkan. Mereka membuktikan bahwa ayah yang sangat tinggi menghasilkan anak-anak yang tinggi rata-rata, tetapi tidak jauh berbeda tinggi dari anak-anak yang ayahnya, meskipun di atas rata-rata, tidak jauh berbeda dari tinggi rata-rata. Hal yang sama berlaku untuk ayah dengan perawakan sangat kecil (menyimpang dari rata-rata kelompok pendek) - anak-anak mereka, rata-rata, tidak berbeda tinggi dari teman sebaya yang ayahnya pendek. Mereka menyebut fungsi yang menggambarkan keteraturan ini fungsi regresi. Setelah penelitian ini, semua persamaan yang menggambarkan fungsi serupa dan dibangun dengan cara yang sama mulai disebut persamaan regresi.

Analisis regresi- salah satu metode analisis data statistik multivariat, menggabungkan serangkaian teknik statistik yang dirancang untuk mempelajari atau memodelkan hubungan antara satu variabel dependen dan beberapa (atau satu) variabel independen. Variabel terikat, menurut tradisi yang diterima dalam statistik, disebut respons dan dilambangkan sebagai V Variabel independen disebut prediktor dan dilambangkan sebagai x. Selama analisis berlangsung, beberapa variabel akan memiliki hubungan yang lemah dengan respons dan pada akhirnya akan dikeluarkan dari analisis. Variabel yang tersisa yang terkait dengan dependen juga dapat disebut faktor.

Analisis regresi memungkinkan untuk memprediksi nilai satu atau lebih variabel tergantung pada variabel lain (misalnya, kecenderungan perilaku politik yang tidak konvensional tergantung pada tingkat pendidikan) atau beberapa variabel. Itu dihitung di PC. Untuk menyusun persamaan regresi yang memungkinkan Anda mengukur tingkat ketergantungan fitur terkontrol pada faktor, perlu melibatkan ahli matematika-programmer profesional. Analisis regresi dapat memberikan layanan yang sangat berharga dalam membangun model prediksi untuk perkembangan situasi politik, menilai penyebab ketegangan sosial, dan dalam melakukan eksperimen teoretis. Analisis regresi secara aktif digunakan untuk mempelajari dampak pada perilaku pemilihan warga negara dari sejumlah parameter sosio-demografis: jenis kelamin, usia, profesi, tempat tinggal, kebangsaan, tingkat dan sifat pendapatan.

Dalam kaitannya dengan analisis regresi, konsep mandiri dan bergantung variabel. Variabel bebas adalah variabel yang menjelaskan atau menyebabkan perubahan pada variabel lain. Variabel terikat adalah variabel yang nilainya dijelaskan oleh pengaruh variabel pertama. Misalnya, dalam pemilihan presiden tahun 2004, faktor penentunya, yaitu variabel independen adalah indikator seperti stabilisasi situasi keuangan penduduk negara, tingkat popularitas kandidat dan faktor jabatan. Dalam hal ini, persentase suara yang diberikan untuk calon dapat dianggap sebagai variabel dependen. Demikian pula pada pasangan variabel “usia pemilih” dan “tingkat aktivitas pemilu”, variabel pertama independen, variabel kedua dependen.

Analisis regresi memungkinkan Anda untuk memecahkan masalah berikut:

  • 1) menetapkan fakta ada atau tidak adanya hubungan yang signifikan secara statistik antara Ci x;
  • 2) membangun estimasi terbaik (dalam arti statistik) dari fungsi regresi;
  • 3) sesuai dengan nilai yang diberikan X membangun prediksi untuk yang tidak diketahui Pada
  • 4) mengevaluasi bobot spesifik pengaruh masing-masing faktor X di Pada dan, karenanya, mengecualikan fitur yang tidak signifikan dari model;
  • 5) dengan mengidentifikasi hubungan sebab akibat antar variabel, mengelola sebagian nilai P dengan menyesuaikan nilai variabel penjelas x.

Analisis regresi dikaitkan dengan kebutuhan untuk memilih variabel bebas yang saling mempengaruhi yang mempengaruhi nilai indikator yang diteliti, menentukan bentuk persamaan regresi, dan mengevaluasi parameter menggunakan metode statistik untuk pengolahan data sosiologis primer. Jenis analisis ini didasarkan pada gagasan tentang bentuk, arah dan kedekatan (densitas) hubungan. Membedakan ruang uap dan regresi berganda tergantung pada jumlah fitur yang dipelajari. Dalam prakteknya, analisis regresi biasanya dilakukan bersamaan dengan analisis korelasi. Persamaan Regresi menggambarkan hubungan numerik antara jumlah, dinyatakan sebagai kecenderungan untuk satu variabel untuk menambah atau mengurangi sementara yang lain meningkat atau menurun. Pada saat yang sama, razl dan h a yut l embun beku dan regresi non-linier. Ketika menggambarkan proses politik, kedua varian regresi sama-sama ditemukan.

Scatterplot untuk distribusi interdependensi kepentingan dalam artikel politik ( U) dan pendidikan responden (X) adalah regresi linier (Gbr. 30).

Beras. tigapuluh.

Scatterplot untuk distribusi tingkat kegiatan pemilu ( U) dan usia responden (A) (contoh bersyarat) adalah regresi non-linier (Gbr. 31).


Beras. 31.

Untuk menggambarkan hubungan dua fitur (A” dan Y) dalam model regresi berpasangan, digunakan persamaan linier

di mana a, adalah nilai acak dari kesalahan persamaan dengan variasi fitur, yaitu. penyimpangan persamaan dari "linearitas".

Untuk mengevaluasi koefisien sebuah dan b gunakan metode kuadrat terkecil, yang mengasumsikan bahwa jumlah deviasi kuadrat dari setiap titik pada plot pencar dari garis regresi harus minimal. Kemungkinan a h b dapat dihitung dengan menggunakan sistem persamaan:

Metode estimasi kuadrat terkecil memberikan estimasi koefisien seperti itu sebuah dan b, yang garisnya melalui titik dengan koordinat X dan y, itu. ada hubungan pada = kapak + b. Representasi grafis dari persamaan regresi disebut garis regresi teoritis. Dengan ketergantungan linier, koefisien regresi menunjukkan pada grafik garis singgung kemiringan garis regresi teoretis terhadap sumbu x. Tanda pada koefisien menunjukkan arah sambungan. Jika lebih besar dari nol, maka hubungannya searah; jika lebih kecil, itu terbalik.

Contoh berikut dari studi "Political Petersburg-2006" (Tabel 56) menunjukkan hubungan linier antara persepsi warga tentang tingkat kepuasan dengan kehidupan mereka saat ini dan harapan akan perubahan kualitas hidup di masa depan. Hubungannya adalah langsung, linier (koefisien regresi standar adalah 0,233, tingkat signifikansi adalah 0,000). Dalam hal ini, koefisien regresi tidak tinggi, tetapi melebihi batas bawah indikator signifikan secara statistik (batas bawah kuadrat indikator signifikan secara statistik dari koefisien Pearson).

Tabel 56

Dampak kualitas hidup warga saat ini terhadap harapan

(St. Petersburg, 2006)

* Variabel terikat: "Bagaimana menurut Anda hidup Anda akan berubah dalam 2-3 tahun ke depan?"

Dalam kehidupan politik, nilai variabel yang diteliti paling sering secara bersamaan tergantung pada beberapa fitur. Misalnya, tingkat dan sifat aktivitas politik secara simultan dipengaruhi oleh rezim politik negara, tradisi politik, kekhasan perilaku politik orang-orang di wilayah tertentu dan kelompok mikro sosial responden, usianya, pendidikan, pendapatan. tingkat, orientasi politik, dll. Dalam hal ini, Anda perlu menggunakan persamaan regresi berganda, yang memiliki bentuk sebagai berikut:

dimana koefisien b.- koefisien regresi parsial. Ini menunjukkan kontribusi masing-masing variabel independen untuk menentukan nilai variabel independen (hasil). Jika koefisien regresi parsial mendekati 0, maka dapat disimpulkan bahwa tidak ada hubungan langsung antara variabel bebas dan variabel terikat.

Perhitungan model seperti itu dapat dilakukan pada PC menggunakan aljabar matriks. Regresi berganda memungkinkan Anda untuk mencerminkan sifat multifaktorial dari ikatan sosial dan memperjelas tingkat pengaruh setiap faktor secara individual dan bersama-sama pada sifat yang dihasilkan.

Koefisien dilambangkan b, disebut koefisien regresi linier dan menunjukkan kekuatan hubungan antara variasi sifat faktor X dan variasi fitur efektif kamu Koefisien ini mengukur kekuatan hubungan dalam satuan absolut pengukuran fitur. Namun, kedekatan korelasi fitur juga dapat dinyatakan dalam standar deviasi fitur yang dihasilkan (koefisien seperti ini disebut koefisien korelasi). Berbeda dengan koefisien regresi b koefisien korelasi tidak bergantung pada unit pengukuran fitur yang diterima, dan oleh karena itu, sebanding untuk fitur apa pun. Biasanya, sambungan dianggap kuat jika /> 0,7, kekencangan sedang - pada 0,5 g 0,5.

Seperti yang Anda ketahui, koneksi terdekat adalah koneksi fungsional, ketika setiap nilai individu kamu dapat ditetapkan secara unik ke nilai x. Dengan demikian, semakin dekat koefisien korelasinya dengan 1, semakin dekat hubungannya dengan hubungan fungsional. Tingkat signifikansi untuk analisis regresi tidak boleh melebihi 0,001.

Koefisien korelasi telah lama dianggap sebagai indikator utama kedekatan hubungan fitur. Namun, kemudian koefisien determinasi menjadi indikator seperti itu. Arti dari koefisien ini adalah sebagai berikut - ini mencerminkan bagian dari total varians dari fitur yang dihasilkan Pada, dijelaskan oleh varians fitur x. Ini ditemukan dengan hanya mengkuadratkan koefisien korelasi (berubah dari 0 ke 1) dan, pada gilirannya, untuk hubungan linier mencerminkan bagian dari 0 (0%) menjadi 1 (100%) nilai karakteristik Y, ditentukan oleh nilai-nilai atribut x. Hal ini dicatat sebagai saya 2 , dan dalam tabel hasil analisis regresi dalam paket SPSS - tanpa kotak.

Mari kita tunjukkan masalah utama dalam membangun persamaan regresi berganda.

  • 1. Pilihan faktor termasuk dalam persamaan regresi. Pada tahap ini peneliti terlebih dahulu menyusun daftar umum penyebab utama yang menurut teori menentukan fenomena yang diteliti. Kemudian dia harus memilih fitur dalam persamaan regresi. Aturan pemilihan utama adalah bahwa faktor-faktor yang termasuk dalam analisis harus berkorelasi sesedikit mungkin satu sama lain; hanya dalam hal ini dimungkinkan untuk menghubungkan ukuran pengaruh kuantitatif dengan atribut-faktor tertentu.
  • 2. Memilih Bentuk Persamaan Regresi Berganda(dalam praktiknya, linier atau logaritma linier lebih sering digunakan). Jadi, untuk menggunakan regresi berganda, peneliti harus terlebih dahulu membangun model hipotesis pengaruh beberapa variabel independen terhadap variabel yang dihasilkan. Agar hasil yang diperoleh dapat diandalkan, perlu model yang sama persis dengan proses nyata, yaitu. hubungan antar variabel harus linier, tidak ada satu pun variabel bebas yang signifikan dapat diabaikan, demikian pula tidak ada satu variabel pun yang tidak berhubungan langsung dengan proses yang diteliti dapat dimasukkan dalam analisis. Selain itu, semua pengukuran variabel harus sangat akurat.

Dari uraian di atas berikut sejumlah syarat untuk penerapan metode ini, yang tanpanya tidak mungkin dilanjutkan ke prosedur analisis regresi berganda (MRA). Hanya kepatuhan dengan semua poin berikut yang memungkinkan Anda untuk melakukan analisis regresi dengan benar.

Dalam pemodelan statistik, analisis regresi adalah studi yang digunakan untuk mengevaluasi hubungan antar variabel. Metode matematika ini mencakup banyak metode lain untuk memodelkan dan menganalisis banyak variabel ketika fokusnya adalah pada hubungan antara variabel terikat dan satu atau lebih variabel bebas. Lebih khusus lagi, analisis regresi membantu Anda memahami bagaimana nilai khas dari variabel dependen berubah jika salah satu variabel independen berubah sementara variabel independen lainnya tetap.

Dalam semua kasus, skor target adalah fungsi dari variabel independen dan disebut fungsi regresi. Dalam analisis regresi, juga menarik untuk mengkarakterisasi perubahan variabel dependen sebagai fungsi regresi, yang dapat dijelaskan dengan menggunakan distribusi probabilitas.

Tugas analisis regresi

Metode penelitian statistik ini banyak digunakan untuk peramalan, di mana penggunaannya memiliki keuntungan yang signifikan, tetapi kadang-kadang dapat menyebabkan ilusi atau hubungan yang salah, sehingga disarankan untuk menggunakannya dengan hati-hati dalam pertanyaan ini, karena, misalnya, korelasi tidak berarti hal menyebabkan.

Dikembangkan jumlah besar metode untuk melakukan analisis regresi, seperti regresi linier dan kuadrat terkecil biasa, yang bersifat parametrik. Esensinya adalah bahwa fungsi regresi didefinisikan dalam jumlah terbatas parameter yang tidak diketahui yang diperkirakan dari data. Regresi nonparametrik memungkinkan fungsinya terletak pada sekumpulan fungsi tertentu, yang dapat berdimensi tak hingga.

Sebagai metode penelitian statistik, analisis regresi dalam praktiknya bergantung pada bentuk proses pembuatan data dan bagaimana kaitannya dengan pendekatan regresi. Karena bentuk sebenarnya dari pembangkitan proses data biasanya berupa angka yang tidak diketahui, analisis regresi data sering kali bergantung pada asumsi tentang proses tersebut sampai batas tertentu. Asumsi ini terkadang dapat diuji jika tersedia cukup data. Model regresi sering berguna bahkan ketika asumsi dilanggar secara moderat, meskipun mungkin tidak berkinerja terbaik.

Dalam arti yang lebih sempit, regresi dapat merujuk secara khusus pada estimasi variabel respons kontinu, sebagai lawan dari variabel respons diskrit yang digunakan dalam klasifikasi. Kasus variabel output kontinu juga disebut regresi metrik untuk membedakannya dari masalah terkait.

Cerita

Yang paling bentuk awal regresi adalah metode kuadrat terkecil yang terkenal. Itu diterbitkan oleh Legendre pada tahun 1805 dan Gauss pada tahun 1809. Legendre dan Gauss menerapkan metode ini pada masalah penentuan dari pengamatan astronomis orbit benda-benda di sekitar Matahari (terutama komet, tetapi kemudian juga planet-planet kecil yang baru ditemukan). Gauss menerbitkan pengembangan lebih lanjut dari teori kuadrat terkecil pada tahun 1821, termasuk varian dari teorema Gauss-Markov.

Istilah "regresi" diciptakan oleh Francis Galton pada abad ke-19 untuk menggambarkan fenomena biologis. Intinya adalah bahwa pertumbuhan keturunan dari pertumbuhan nenek moyang, sebagai suatu peraturan, mundur ke rata-rata normal. Bagi Galton, regresi hanya memiliki makna biologis ini, tetapi kemudian karyanya diambil oleh Udni Yoley dan Karl Pearson dan dibawa ke konteks statistik yang lebih umum. Dalam karya Yule dan Pearson, distribusi bersama dari variabel respon dan penjelas dianggap Gaussian. Asumsi ini ditolak oleh Fischer dalam makalah tahun 1922 dan 1925. Fisher menyarankan bahwa distribusi kondisional dari variabel respon adalah Gaussian, tetapi distribusi bersama tidak perlu. Dalam hal ini, saran Fisher lebih dekat dengan rumusan Gauss tahun 1821. Sebelum tahun 1970, terkadang dibutuhkan waktu hingga 24 jam untuk mendapatkan hasil analisis regresi.

Metode analisis regresi terus menjadi bidang penelitian yang aktif. Dalam beberapa dekade terakhir, metode baru telah dikembangkan untuk regresi yang kuat; regresi yang melibatkan tanggapan berkorelasi; metode regresi yang mengakomodasi berbagai jenis data yang hilang; regresi nonparametrik; metode regresi Bayesian; regresi di mana variabel prediktor diukur dengan kesalahan; regresi dengan prediktor lebih dari pengamatan, dan kesimpulan kausal dengan regresi.

Model Regresi

Model analisis regresi meliputi variabel sebagai berikut:

  • Parameter tidak diketahui, dilambangkan sebagai beta, yang dapat berupa skalar atau vektor.
  • Variabel bebas, X.
  • Variabel terikat, Y.

PADA berbagai daerah ilmu di mana analisis regresi diterapkan menggunakan istilah yang berbeda daripada variabel dependen dan independen, tetapi dalam semua kasus model regresi menghubungkan Y dengan fungsi X dan .

Aproksimasi biasanya dirumuskan sebagai E (Y | X) = F (X, ). Untuk melakukan analisis regresi, bentuk fungsi f harus ditentukan. Lebih jarang, itu didasarkan pada pengetahuan tentang hubungan antara Y dan X yang tidak bergantung pada data. Jika pengetahuan tersebut tidak tersedia, maka bentuk F yang fleksibel atau nyaman dipilih.

Variabel terikat Y

Mari kita asumsikan bahwa vektor parameter yang tidak diketahui memiliki panjang k. Untuk melakukan analisis regresi, pengguna harus memberikan informasi tentang variabel dependen Y:

  • Jika N titik data berbentuk (Y, X) diamati, di mana N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jika tepat N = K diamati, dan fungsi F linier, maka persamaan Y = F(X, ) dapat diselesaikan dengan tepat, bukan mendekati. Ini bermuara pada penyelesaian himpunan N-persamaan dengan N-tidak diketahui (elemen dari ) yang memiliki solusi unik selama X bebas linier. Jika F tidak linier, solusi mungkin tidak ada, atau mungkin ada banyak solusi.
  • Situasi yang paling umum adalah di mana ada N > poin ke data. Dalam hal ini, ada informasi yang cukup dalam data untuk memperkirakan nilai unik untuk yang paling sesuai dengan data, dan model regresi ketika diterapkan pada data dapat dilihat sebagai sistem yang diganti dalam .

Dalam kasus terakhir, analisis regresi menyediakan alat untuk:

  • Menemukan solusi untuk parameter yang tidak diketahui, yang akan, misalnya, meminimalkan jarak antara nilai Y yang terukur dan yang diprediksi.
  • Di bawah asumsi statistik tertentu, analisis regresi menggunakan informasi berlebih untuk memberikan informasi statistik tentang parameter yang tidak diketahui dan nilai prediksi variabel dependen Y.

Jumlah pengukuran independen yang diperlukan

Pertimbangkan model regresi yang memiliki tiga parameter yang tidak diketahui: 0 , 1 dan 2 . Mari kita asumsikan bahwa pelaku eksperimen melakukan 10 pengukuran dengan nilai yang sama dari variabel bebas dari vektor X. Dalam kasus ini, analisis regresi tidak memberikan serangkaian nilai yang unik. Cara terbaik yang dapat dilakukan adalah dengan mengestimasi mean dan standar deviasi dari variabel dependen Y. Demikian pula dengan mengukur keduanya nilai yang berbeda X, Anda bisa mendapatkan cukup data untuk regresi dengan dua yang tidak diketahui, tetapi tidak untuk tiga atau lebih yang tidak diketahui.

Jika pengukuran eksperimen dilakukan pada tiga nilai yang berbeda dari variabel vektor independen X, maka analisis regresi akan memberikan satu set perkiraan unik untuk tiga parameter yang tidak diketahui dalam .

Dalam kasus regresi linier umum, pernyataan di atas ekuivalen dengan persyaratan bahwa matriks X T X dapat dibalik.

Asumsi Statistik

Ketika jumlah pengukuran N lebih besar dari jumlah parameter yang tidak diketahui k dan kesalahan pengukuran i , maka, sebagai aturan, kelebihan informasi yang terkandung dalam pengukuran didistribusikan dan digunakan untuk prediksi statistik mengenai parameter yang tidak diketahui. Kelebihan informasi ini disebut derajat kebebasan regresi.

Asumsi yang Mendasari

Asumsi klasik untuk analisis regresi meliputi:

  • Sampling merupakan perwakilan dari prediksi inferensi.
  • Kesalahan adalah variabel acak dengan nilai rata-rata nol, yang tergantung pada variabel penjelas.
  • Variabel independen diukur tanpa kesalahan.
  • Sebagai variabel independen (prediktor), mereka adalah independen linier, yaitu tidak mungkin untuk mengekspresikan prediktor sebagai kombinasi linier dari yang lain.
  • Kesalahan tidak berkorelasi, yaitu matriks kovarians kesalahan diagonal dan setiap elemen bukan nol adalah varians kesalahan.
  • Varians kesalahan konstan di seluruh pengamatan (homoskedastisitas). Jika tidak, maka kuadrat terkecil tertimbang atau metode lain dapat digunakan.

Kondisi yang cukup untuk estimasi kuadrat terkecil ini memiliki sifat yang diperlukan, khususnya asumsi ini berarti bahwa estimasi parameter akan objektif, konsisten dan efisien, terutama jika diperhitungkan dalam kelas estimasi linier. Penting untuk dicatat bahwa data aktual jarang memenuhi kondisi. Artinya, metode tersebut digunakan meskipun asumsinya tidak benar. Variasi dari asumsi terkadang dapat digunakan sebagai ukuran seberapa berguna model tersebut. Banyak dari asumsi ini dapat dilonggarkan dalam metode yang lebih maju. Laporan analisis statistik biasanya mencakup analisis pengujian terhadap data sampel dan metodologi untuk kegunaan model.

Selain itu, variabel dalam beberapa kasus mengacu pada nilai yang diukur pada lokasi titik. Mungkin ada tren spasial dan autokorelasi spasial dalam variabel yang melanggar asumsi statistik. Regresi berbobot geografis adalah satu-satunya metode yang menangani data tersebut.

Dalam regresi linier, fiturnya adalah bahwa variabel dependen, yaitu Y i , adalah kombinasi linear dari parameter. Misalnya, dalam regresi linier sederhana, pemodelan n-point menggunakan satu variabel independen, xi , dan dua parameter, 0 dan 1 .

Dalam regresi linier berganda terdapat beberapa variabel bebas atau fungsinya.

Ketika diambil sampel secara acak dari suatu populasi, parameternya memungkinkan untuk memperoleh sampel model regresi linier.

Dalam aspek ini, metode kuadrat terkecil adalah yang paling populer. Ini memberikan perkiraan parameter yang meminimalkan jumlah kuadrat dari residual. Minimisasi semacam ini (yang merupakan ciri khas dari regresi linier) dari fungsi ini mengarah ke satu set persamaan normal dan satu set persamaan linear dengan parameter yang dipecahkan untuk mendapatkan estimasi parameter.

Dengan asumsi lebih lanjut bahwa kesalahan populasi umumnya menyebar, peneliti dapat menggunakan perkiraan kesalahan standar ini untuk membuat interval kepercayaan dan melakukan pengujian hipotesis tentang parameternya.

Analisis Regresi Nonlinier

Contoh di mana fungsi tidak linier terhadap parameter menunjukkan bahwa jumlah kuadrat harus diminimalkan dengan prosedur iteratif. Ini memperkenalkan banyak komplikasi yang menentukan perbedaan antara metode kuadrat terkecil linier dan non-linier. Akibatnya, hasil analisis regresi ketika menggunakan metode non-linier terkadang tidak dapat diprediksi.

Perhitungan daya dan ukuran sampel

Di sini, sebagai aturan, tidak ada metode yang konsisten mengenai jumlah pengamatan dibandingkan dengan jumlah variabel independen dalam model. Aturan pertama diusulkan oleh Dobra dan Hardin dan terlihat seperti N = t^n, di mana N adalah ukuran sampel, n adalah jumlah variabel penjelas, dan t adalah jumlah pengamatan yang diperlukan untuk mencapai akurasi yang diinginkan jika model memiliki hanya satu variabel penjelas. Misalnya, seorang peneliti membangun model regresi linier menggunakan dataset yang berisi 1000 pasien (N). Jika peneliti memutuskan bahwa lima pengamatan diperlukan untuk menentukan garis (m) secara akurat, maka jumlah maksimum variabel penjelas yang dapat didukung model adalah 4.

Metode lain

Meskipun parameter model regresi biasanya diperkirakan menggunakan metode kuadrat terkecil, ada metode lain yang lebih jarang digunakan. Misalnya, ini adalah metode berikut:

  • Metode Bayesian (misalnya, metode regresi linier Bayesian).
  • Regresi persentase yang digunakan untuk situasi di mana pengurangan kesalahan persentase dianggap lebih tepat.
  • Deviasi absolut terkecil, yang lebih kuat dengan adanya outlier yang mengarah ke regresi kuantil.
  • Regresi nonparametrik membutuhkan banyak pengamatan dan perhitungan.
  • Jarak metrik pembelajaran yang dipelajari untuk mencari metrik jarak yang berarti di ruang input yang diberikan.

Perangkat lunak

Semua paket perangkat lunak statistik utama dilakukan dengan menggunakan analisis regresi kuadrat terkecil. Regresi linier sederhana dan analisis regresi berganda dapat digunakan dalam beberapa aplikasi spreadsheet serta beberapa kalkulator. Sementara banyak paket perangkat lunak statistik dapat melakukan berbagai jenis regresi nonparametrik dan kuat, metode ini kurang standar; paket perangkat lunak yang berbeda menerapkan metode yang berbeda. Perangkat lunak regresi khusus telah dikembangkan untuk digunakan di berbagai bidang seperti analisis survei dan neuroimaging.

Ciri utama analisis regresi adalah dapat digunakan untuk memperoleh informasi spesifik tentang bentuk dan sifat hubungan antar variabel yang diteliti.

Urutan tahapan analisis regresi

Mari kita perhatikan secara singkat tahapan analisis regresi.

    Perumusan tugas. Pada tahap ini, hipotesis awal tentang ketergantungan fenomena yang dipelajari terbentuk.

    Definisi variabel dependen dan independen (penjelas).

    Pengumpulan data statistik. Data harus dikumpulkan untuk setiap variabel yang termasuk dalam model regresi.

    Perumusan hipotesis tentang bentuk hubungan (sederhana atau ganda, linier atau nonlinier).

    Definisi fungsi regresi (terdiri dari perhitungan nilai numerik parameter persamaan regresi)

    Evaluasi keakuratan analisis regresi.

    Interpretasi dari hasil yang diperoleh. Hasil analisis regresi dibandingkan dengan hipotesis awal. Kebenaran dan masuk akal dari hasil yang diperoleh dievaluasi.

    Prediksi nilai variabel dependen yang tidak diketahui.

Dengan bantuan analisis regresi, adalah mungkin untuk memecahkan masalah peramalan dan klasifikasi. Nilai prediktif dihitung dengan mensubstitusikan nilai variabel penjelas ke dalam persamaan regresi. Masalah klasifikasi diselesaikan dengan cara ini: garis regresi membagi seluruh himpunan objek menjadi dua kelas, dan bagian himpunan yang nilai fungsinya lebih besar dari nol termasuk dalam satu kelas, dan bagian yang nilainya lebih kecil dari nol milik kelas lain.

Tugas analisis regresi

Pertimbangkan tugas utama analisis regresi: menetapkan bentuk ketergantungan, menentukan fungsi regresi, perkiraan nilai variabel terikat yang tidak diketahui.

Membentuk bentuk ketergantungan.

Sifat dan bentuk hubungan antar variabel dapat membentuk jenis-jenis regresi sebagai berikut:

    regresi linier positif (dinyatakan sebagai pertumbuhan fungsi yang seragam);

    regresi percepatan seragam positif;

    regresi positif yang meningkat secara seragam;

    regresi linier negatif (dinyatakan sebagai penurunan fungsi yang seragam);

    regresi menurun yang dipercepat secara seragam negatif;

    regresi negatif seragam menurun.

Namun, varietas yang dijelaskan biasanya tidak ditemukan dalam bentuk murni, tetapi dalam kombinasi satu sama lain. Dalam hal ini, seseorang berbicara tentang bentuk-bentuk regresi gabungan.

Definisi fungsi regresi.

Tugas kedua adalah menemukan efek pada variabel dependen dari faktor atau penyebab utama, semua hal lain dianggap sama, dan tunduk pada pengecualian dampak pada variabel dependen elemen acak. fungsi regresi didefinisikan sebagai persamaan matematika dari satu jenis atau lainnya.

Estimasi nilai yang tidak diketahui dari variabel dependen.

Solusi dari masalah ini direduksi menjadi pemecahan masalah dari salah satu jenis berikut:

    Estimasi nilai variabel dependen dalam interval yang dipertimbangkan dari data awal, mis. nilai yang hilang; ini memecahkan masalah interpolasi.

    Memperkirakan nilai masa depan dari variabel dependen, mis. menemukan nilai di luar interval yang diberikan dari data awal; ini memecahkan masalah ekstrapolasi.

Kedua masalah diselesaikan dengan mensubstitusikan estimasi yang ditemukan dari parameter nilai variabel independen ke dalam persamaan regresi. Hasil penyelesaian persamaan tersebut merupakan estimasi nilai variabel target (dependen).

Mari kita lihat beberapa asumsi yang menjadi dasar analisis regresi.

Asumsi linieritas, yaitu diasumsikan bahwa hubungan antara variabel-variabel yang dipertimbangkan adalah linier. Jadi, dalam contoh ini, kami membangun sebar dan dapat melihat hubungan linier yang jelas. Jika, pada diagram pencar variabel, kita melihat jelas tidak adanya hubungan linier, yaitu ada hubungan non-linier, metode analisis non-linier harus digunakan.

Asumsi Normalitas sisa. Ini mengasumsikan bahwa distribusi perbedaan antara nilai yang diprediksi dan yang diamati adalah normal. Untuk menentukan sifat distribusi secara visual, Anda dapat menggunakan histogram sisa.

Saat menggunakan analisis regresi, seseorang harus mempertimbangkan batasan utamanya. Ini terdiri dari fakta bahwa analisis regresi memungkinkan Anda untuk mendeteksi hanya dependensi, dan bukan hubungan yang mendasari dependensi ini.

Analisis regresi memungkinkan untuk menilai derajat hubungan antar variabel dengan menghitung nilai yang diharapkan dari suatu variabel berdasarkan beberapa nilai yang diketahui.

persamaan regresi.

Persamaan regresi terlihat seperti ini: Y=a+b*X

Dengan menggunakan persamaan ini, variabel Y dinyatakan dalam konstanta a dan kemiringan garis (atau kemiringan) b dikalikan dengan nilai variabel X. Konstanta a juga disebut intersep, dan kemiringan adalah regresi koefisien atau B-faktor.

Dalam kebanyakan kasus (jika tidak selalu) ada sebaran pengamatan tertentu tentang garis regresi.

Sisa adalah penyimpangan titik individu (pengamatan) dari garis regresi (nilai prediksi).

Untuk mengatasi masalah analisis regresi di MS Excel, pilih dari menu Melayani"Paket Analisis" dan alat analisis Regresi. Tentukan interval input X dan Y. Interval input Y adalah rentang data dependen yang dianalisis dan harus mencakup satu kolom. Interval input X adalah rentang data independen yang akan dianalisis. Jumlah rentang input tidak boleh melebihi 16.

Pada output dari prosedur dalam rentang output, kami mendapatkan laporan yang diberikan dalam tabel 8.3a-8.3v.

HASIL

Tabel 8.3a. Statistik regresi

Statistik regresi

Beberapa R

R-kuadrat

R-kuadrat yang dinormalisasi

kesalahan standar

Pengamatan

Pertama, pertimbangkan bagian atas perhitungan yang disajikan dalam tabel 8.3a, - statistik regresi.

Nilai R-kuadrat, juga disebut ukuran kepastian, mencirikan kualitas garis regresi yang dihasilkan. Kualitas ini dinyatakan dengan derajat kesesuaian antara data asli dan model regresi (data yang dihitung). Ukuran kepastian selalu dalam interval.

Dalam kebanyakan kasus, nilai R-kuadrat berada di antara nilai-nilai ini, yang disebut ekstrim, yaitu antara nol dan satu.

Jika nilai R-kuadrat mendekati kesatuan, ini berarti bahwa model yang dibangun menjelaskan hampir semua variabilitas variabel yang sesuai. Sebaliknya, nilai R-kuadrat, mendekati nol, berarti kualitas model yang dibangun buruk.

Dalam contoh kita, ukuran kepastian adalah 0,99673, yang menunjukkan kecocokan yang sangat baik dari garis regresi dengan data asli.

jamak R - koefisien korelasi ganda R - menyatakan derajat ketergantungan variabel bebas (X) dan variabel terikat (Y).

Beberapa R sama dengan akar kuadrat dari koefisien determinasi, nilai ini mengambil nilai dalam kisaran dari nol hingga satu.

Dalam analisis regresi linier sederhana jamak R sama dengan koefisien korelasi Pearson. Betulkah, jamak R dalam kasus kami, ini sama dengan koefisien korelasi Pearson dari contoh sebelumnya (0,998364).

Tabel 8.3b. Koefisien regresi

Kemungkinan

kesalahan standar

t-statistik

persimpangan Y

Variabel X 1

* Versi perhitungan yang terpotong diberikan

Sekarang perhatikan bagian tengah dari perhitungan yang disajikan dalam tabel 8.3b. Di sini, koefisien regresi b (2.305454545) dan offset sepanjang sumbu y diberikan, yaitu. konstanta a (2.694545455).

Berdasarkan perhitungan tersebut, kita dapat menulis persamaan regresi sebagai berikut:

Y= x*2.305454545+2.694545455

Arah hubungan antar variabel ditentukan berdasarkan tanda-tanda (negatif atau positif) dari koefisien regresi (koefisien b).

Jika tanda koefisien regresi positif, maka hubungan antara variabel dependen dan variabel independen akan positif. Dalam kasus kami, tanda koefisien regresi adalah positif, oleh karena itu, hubungannya juga positif.

Jika tanda koefisien regresinya negatif, maka hubungan antara variabel terikat dan variabel bebas adalah negatif (berbalik).

PADA tabel 8.3c. hasil keluaran disajikan sisa. Agar hasil ini muncul dalam laporan, perlu untuk mengaktifkan kotak centang "Residuals" saat meluncurkan alat "Regresi".

SISA PENARIKAN

Tabel 8.3c. Tetap

Pengamatan

Prediksi Y

Tetap

Saldo standar

Dengan menggunakan bagian laporan ini, kita dapat melihat penyimpangan setiap titik dari garis regresi yang dibangun. Nilai mutlak terbesar sisa dalam kasus kami - 0,778, yang terkecil - 0,043. Untuk interpretasi yang lebih baik dari data ini, kami akan menggunakan grafik data asli dan garis regresi yang dibangun yang disajikan pada Gambar. Nasi. 8.3. Seperti yang Anda lihat, garis regresi cukup akurat "disesuaikan" dengan nilai data asli.

Harus diperhitungkan bahwa contoh yang dipertimbangkan cukup sederhana dan jauh dari selalu mungkin untuk membangun garis regresi linier secara kualitatif.

Beras. 8.3. Data awal dan garis regresi

Masalah memperkirakan nilai masa depan yang tidak diketahui dari variabel dependen berdasarkan nilai variabel independen yang diketahui tetap tidak dipertimbangkan, mis. tugas peramalan.

Memiliki persamaan regresi, masalah peramalan direduksi menjadi penyelesaian persamaan Y= x*2.305454545+2.694545455 dengan nilai x yang diketahui. Hasil memprediksi variabel dependen Y enam langkah ke depan disajikan dalam tabel 8.4.

Tabel 8.4. Hasil prediksi variabel Y

Y (diprediksi)

Jadi, sebagai hasil dari penggunaan analisis regresi dalam paket Microsoft Excel, kami:

    membangun persamaan regresi;

    menetapkan bentuk ketergantungan dan arah hubungan antara variabel - regresi linier positif, yang dinyatakan dalam pertumbuhan fungsi yang seragam;

    menetapkan arah hubungan antar variabel;

    menilai kualitas garis regresi yang dihasilkan;

    mampu melihat penyimpangan data yang dihitung dari data set asli;

    memprediksi nilai masa depan dari variabel dependen.

Jika sebuah fungsi regresi didefinisikan, ditafsirkan dan dibenarkan, dan penilaian keakuratan analisis regresi memenuhi persyaratan, kita dapat mengasumsikan bahwa model yang dibangun dan nilai prediksi cukup andal.

Nilai prediksi yang diperoleh dengan cara ini adalah nilai rata-rata yang dapat diharapkan.

Dalam makalah ini, kami meninjau karakteristik utama Statistik deskriptif dan di antara mereka konsep-konsep seperti berarti,median,maksimum,minimum dan karakteristik variasi data lainnya.

Ada juga diskusi singkat tentang konsep emisi. Karakteristik yang dipertimbangkan mengacu pada apa yang disebut analisis data eksplorasi, kesimpulannya mungkin tidak berlaku untuk populasi umum, tetapi hanya untuk sampel data. Analisis data eksplorasi digunakan untuk menarik kesimpulan primer dan membentuk hipotesis tentang populasi.

Dasar-dasar analisis korelasi dan regresi, tugas dan kemungkinan penggunaan praktisnya juga dipertimbangkan.