Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
ANALISIS KORELASI DAN REGRESI
Budi SubandrioDaud Eliezar
DIKLAT FUNGSIONAL STATISTISI TINGKAT AHLI ANGKATAN XXI TAHUN 2020
PUSDIKLAT BADAN PUSAT STATISTIK
BIODATA
• Nama : Daud Eliezar
• Riwayat Pekerjaan : - BPS Propinsi Kalimantan Tengah
(1996 – 2001)
- Pusdiklat BPS (2001 – sekarang)
• Riwayat Pendidikan : - Akademi Ilmu Statistik (1996)
- Sekolah Tinggi Ilmu Statistik (2000)
- Institut Teknologi Sepuluh November
(2010)
• Nomor HP : 081213748545
• Alamat e-mail : [email protected]
2
3
Setelah mempelajari materi ini, peserta dapat :
Setelah
mengikuti
pembelajaran
ini, Peserta
mampu mampu
menerapkan
regresi dan
korelasi secara
benar dalam
kasus-kasus riil
HASIL BELAJAR
INDIKATOR HASIL BELAJAR
1. Menghitung korelasi;
2. Menghitung regresi.
TUJUAN PEMBELAJARAN
MATERI
Teknik menghitung korelasi dan regresi1
Analisis data dengan korelasi dan regresi2
KorelasiBerganda
Kalau variabel Y berkorelasi dengan X2 dan X3, makakoefisien korelasi antara Y dan X2 (X3 konstan),
antara Y dan X3 (X2 konstan) dan antara X2 dan X3 (Y Konstan) disebut Koefisien Korelasi Parsial (KKP)
dengan rumus sbb:
KoefisienKorelasiParsial
2 3 23
2 .32 2
3 231 1
y y
y
y
r r rr
r r
Koefisien korelasi parsialX2 dengan Y, X3 konstan
3 2 23
3 .22 2
2 231 1
y y
y
y
r r rr
r r
Koefisien korelasi parsialX3 dengan Y, X2 konstan
23 2 3
23.2 2
2 31 1
y y
y
y y
r r rr
r r
Koefisien korelasi parsialX2 dengan X3,
Y konstan
5
RegresiLinear Berganda
Kesalahan baku dalam regresi berganda adalah suatuukuran untuk melihat ketepatan antara nilai
taksiran/dugaan (Ŷ)dengan nilai sebenarnya (Y)
KesalahanBaku/
StandarError
Perbedaan/Selisih antara nilai dugaan dengan nilaisebenarnya disebut dengan residual/ error
2ˆ
1 1
Y Y SSESE
n k n k
1 2
2
0 1 1 2 2
...
...
( 1)k
k k
YX X X
Y b Y b X Y b X Y b X YS
n k
Ŷ = Nilai dugaan Y dimana X1 dan X2 diketahuiY = Nilai pengamatan dari Yn = Jumlah sampel atau datak = jumlah variabel bebas
6
RegresiLinear Berganda
Digunakan untuk melihat seberapa jauh nilai pendugab1, b2, …, bk terhadap nilai sebenarnya
KesalahanBaku
Penduga/ StandarError of Estimate
Rumus Kesalahan Baku untuk 2 parameter b1 dan b2
1 2
. 1. 2
2 2 21
Y X Xk
k k x x
SSb
X nX r
Sbk = Kesalahan Baku Penduga bk, k=1,2rx1x2 = Koefisien korelasi sederhana X1 dan X2
7
RegresiLinear Berganda
Interval/selang kepercayaan memudahkan kita dalammenduga nilai dari karakteristik populasi.
Dengan tingkat kepercayaan sebesar (1-α) kita percayabahwa karakteristik yang diduga berada pada kisaran
atau selang nilai tersebut.
Interval/ Selang
Kepercayaan
1 2 ... 1 2
2 2
ˆ ˆ ...kYX X X kY t S Y Y t SYX X X
Y = Taksiran/Penduga Y untuk suatu nilai X tertentu
1 2 ... kYX X XS = Nilai kesalahan baku
t adalah nilai t-tabel untuk taraf nyata (α) tertentudengan derajat bebas (df)=n-(k+1)
Interval Kepercayaan (1-α) untuk taksiran Y
8
RegresiLinear Berganda Penentuan selang/kisaran nilai dugaan masing-
masing parameter Bk secara parsial dapat dicaridengan rumus :
Interval/ Selang
Kepercayaan
2 2k k k k kb t Sb B b t Sb
bk = Koefisien regresi utk masing-masing parameter
Sbk= Nilai kesalahan baku penduga
t adalah nilai t-tabel untuk taraf nyata (α) tertentudengan derajat bebas (df)=n-(k+1)
Interval Kepercayaan (1-α) untuk masing-masingparameter Bk
9
RegresiLinear Berganda
PengujianModel
RegresiBerganda
Menguji apakah suatu variabel bebas berpengaruh/ tidaksecara nyata (signifikan) terhadap variabel tidak bebas.
0 1 1 2 2ˆ ..._ k kY b b X b X b X
Langkah-Langkah Pengujian :
1. Menentukan dugaan sementara (Hipotesis)
H0 : ßk = 0H1 : ßk ≠ 0
Suatu variabel bebas, “berpengaruh tidak nyata”apabila nilai koefisiennya sama dengan nol.
2. Menentukan daerah kritis (wilayah ditolaknya H0)
Ditentukan oleh nilai tabel-t dengan derajat bebas(n-k), taraf nyata α, dimana n=jumlah sampel dank=banyaknya variabel
Dengan uji 2 arah, maka nilai t hitung dapat dicaridengan menggunakan taraf nyata α/2
10
RegresiLinear Berganda
PengujianModel
RegresiBerganda
Langkah-Langkah Pengujian :
3. Menentukan nilai t-hitung
k khitung
k
bt
Sb
k =banyaknya variabel bebas
1 2
1 2
...
2 2 2
...1
k
k
YX X X
k
k k X X X
SSb
X nX r
1 2
2 0 1 1 2 2
...
...
1k
k k
YX X X
Y b Y b X Y b X Y b X YS
n k
= Kesalahan Baku Penduga bkkSb
1 2 ... kYX X XS = Standar Error variabel Y berdasarkanvariabel X yang diketahui
1 2 ... kX X Xr = Koefisien korelasi sederhana antar X1 danX2 atau Xk
11
db;α/2 db;α/2
RegresiLinear Berganda
PengujianModel
RegresiBerganda
Langkah-Langkah Pengujian :
4. Menentukan daerah keputusan
Daerah keputusan untuk menerima atau menolakH0 dengan derajat bebas dan taraf nyata α untuk ujidua arah sebagai berikut
5. Menentukan keputusan
Nilai t-hitung > t tabel TOLAK H0
Nilai t-hitung < t tabel TIDAK TOLAK H0
12
RegresiLinear Berganda
UjiSignifikansi
SecaraSimultan
Pengujian signifikansi terhadap model secara simultan(bersama-sama) dimaksudkan untuk melihat
kemampuan seluruh variabel bebas mampu menjelaskankeragaman (memperkirakan) variabel tidak bebas Y
Langkah-Langkah Pengujian :
1. Menentukan dugaan sementara (Hipotesis)
H0 : ß1 = ß2 = …. = ßk =0H1 : ß1 ≠ ß2 ≠ … ≠ ßk ≠ 0
Hipotesis yang akan diuji adalah kemampuanvariabel bebas menjelaskan tingkah laku variabeltidak bebas.
Minimal ada 1 variabel X yang mempengaruhivariabel Y
13
RegresiLinear Berganda
UjiSignifikansi
SecaraSimultan
Langkah-Langkah Pengujian :
2. Menentukan daerah kritis (penolakan H0)
Untuk uji ini digunakan Tabel F.Daerah kritis ditentukan oleh nilai Tabel F :-derajat bebas pembilang pada kolom = (k-1)-derajat bebas penyebut pada baris = (n-k)-taraf nyata tingkat kesalahan (α)-n merupakan jumlah sampel-k merupakan banyaknya variabel
3. Menentukan nilai F hitung
2
2
( 1)
(1 )( )
Rk
FR
n k
R2 adalah koefisien determinasi
14
RegresiLinear Berganda
UjiSignifikansi
SecaraSimultan
Langkah-Langkah Pengujian :
4. Menentukan daerah keputusan
a. Menentukan wilayah H0 dan H1b. Membandingkan nilai F hitung dengan F tabel
;( 1);( )hit k n kF F
15
RegresiLinear Berganda
UjiSignifikansi
SecaraSimultan
Langkah-Langkah Pengujian :
4. Menentukan Keputusan
Jika nilai F Hitung > F Tabel maka TOLAK H0
Kesimpulan apabila keputusan Tolak H0 adalah“variabel bebas secara simultan dapatmenjelaskan variabel tidak bebas, Model dapatdigunakan”.
16
RegresiLinear Berganda
Langkah-Langkah Pengujian :
1. Menentukan dugaan sementara (Hipotesis)
H0 : ρ = 0 (tidak ada korelasi linear)H1 : ρ ≠ 0 (ada korelasi linear)
Tentukan pengujian hipotesis tentang ρ yang dapatdituliskan sbb:
Uji KoefisienKorelasiRegresiLinear
Berganda
( )
a. Uji 2 arah
H0 : ρ = 0H1 : ρ > 0 (ada korelasi positif)
b. Uji 1 arah
H0 : ρ = 0H1 : ρ < 0 (ada korelasi negatif)
c. Uji 1 arah
17
RegresiLinear Berganda
Uji KoefisienKorelasiRegresiLinear
Berganda
Langkah-Langkah Pengujian :
2. Menentukan daerah kritis
Daerah kritis ditentukan oleh nilai pada tabel t;-derajat bebas (db) = n-k-1-Tingkat signifikansi/ taraf nyata α (uji 1 arah) atautaraf nyata α/2 (uji 2 arah)
( )
3. Menentukan nilai statistik pengujian
2
1
1
R n kt
R
|R|= harga mutlak koef korelasi link = banyaknya variabel bebas
4. Menentukan daerah keputusan
α;(n-k-1)
Uji 1 Araht>tα;(n-k-1)
H0 ditolak
18
RegresiLinear Berganda
Uji KoefisienKorelasiRegresiLinear
Berganda
Langkah-Langkah Pengujian :
( )
4. Menentukan daerah keputusan
Uji 1 Araht>tα/2;(n-k-1)
α/2;(n-k-1)α/2;(n-k-1)
5. Menentukan keputusan
Jika nilai t hitung > t tabelTOLAK H0
Kesimpulan apabila keputusan Tolak H0 adalahAda korelasi linear yang nyata antara variabelindependent dengan variabel dependen.
19
RegresiLinear Berganda
Asumsi danPelanggaran
AsumsiRegresi
Berganda
Asumsi-asumsi yang harus dipenuhi agar diperolehhasil yang tidak bias.
Asumsi Regresi Berganda
Variabel tidak bebas dan variabel bebas memilikihubungan yang linear (bila tidak linear maka datanya
harus dtransformasikan dulu).
Parabola maka diturunkan , bergelombang (oscillatory) maka dibuat inverse trigonometric, exponential maka
ditarik logaritma
Variabel tidak bebas harus bersifat kontinu atau berskalainterval
Nilai keragaman atau residu (Y-Ŷ) harus sama untuk setiapnilai Y
Antar variabel bebas harus tidak berkorelasi
20
RegresiLinear Berganda
PelanggaranAsumsiRegresi
Berganda1
Multikolinearitas
Terdapat hubungan linear yang sempurna antaravariabel bebas
Salah satu akibat adanya hubungan linear tersebutmaka koefisien regresi dari variabel bebas tidak
dapat ditentukan (standar errornya tidak terhingga)
21
RegresiLinear Berganda
Beberapa Cara Untuk MengenaliMultikolinearitas
Variabel bebas secara simultan berpengaruh nyata(uji F) namun secara parsial berpengaruh tidaknyata (uji t)
Nilai koefisien determinasi R2 sangat besar, variabelbebas berpengaruh tidak nyata (uji t)
Nilai koefisien korelasi parsial yaitu rYX1X2, rYX2X1dan rX1X2Y ada yang lebih besar dari koefisiendeterminasinya
PelanggaranAsumsiRegresi
Berganda1
22
RegresiLinear Berganda
Beberapa Cara MenanganiMultikolinearitas
Membuang variabel bebas yang diperkirakansebagai penyebab multikolinier. Hal ini terlihat darinilai korelasi parsial antar variabel bebas yang tinggi.
Menambah observasi atau data lagi
PelanggaranAsumsiRegresi
Berganda1
23
RegresiLinear Berganda
PelanggaranAsumsiRegresi
Berganda2
Heteroskedastisitas
Nilai varians dari error tidak konstan/ tidakidentik
Akibat dari terjadinya heterokedastisitas akanmembuat nilai varians membesar yang akanberdampak pada :1. Pengujian parameter regresi dengan uji t
menjadi tidak valid2. Selang kepercayaan cenderung melebar
24
RegresiLinear Berganda
Beberapa Cara MendeteksiHeterokedastisitas
Metode grafik, menghubungkan Y dan e2=(Y-Ŷ)2, apabila hubungannya makin membesar ataumengecil seiring bertambahnya Y, maka tidakterjadi heterokedastisitas
Uji Korelasi Rank Spearman, dengan menggunakanuji statistik t (bandingkan dengan Tabel t db=8)
PelanggaranAsumsiRegresi
Berganda2
2
21 6
( 1)
i
s
dr
n n
2
2, 2
1
s
s
r nt db n
r
25
RegresiLinear Berganda
Cara Mengatasi Heterokedastisitas
PelanggaranAsumsiRegresi
Berganda2
Heterokedastisitas tidak bersifat merusakkebiasaan dan konsistensi nilai penduga.
Untuk mengatasinya dapat dilakukan denganmetode kuadrat terkecil tertimbang , dengan
nilai tertimbang dapat dilakukan berdasarkanapriori atau observasi
26
RegresiLinear Berganda
PelanggaranAsumsiRegresi
Berganda3
Autokorelasi
Komponen error berkorelasi berdasarkan urutan waktuatau berkorelasi pada dirinya sendiri
Beberapa penyebab :1. Kelembaman, biasanya terjadi dalam fenomena
ekonomi dimana sesuatu akan mempengaruhi sesuatuyg lain mengikuti siklus bisnis atau saling terkait.
2. Terjadi bias dalam spesifikasi akibat adanya beberapavariabel penting tidak tercakup dalam model
3. Bentuk fungsi yang digunakan tidak tepat. Misalseharusnya bentuk non linear digunakan linear dansebaliknya.
4. Manipulasi data, misal data time series dicatat dalamtriwulanan kemudian data dibuat menjadi bulanandengan cara interpolasi atau ekstrapolasi.
27
RegresiLinear Berganda
Cara Mendeteksi Autokorelasi
Metode grafik yang menghubungkan antara error (e) atau residu dengan waktu, apabila terdapathubungan yang sistematis baik meningkat ataumenurun menunjukkan adanya autokorelasi
Melakukan Uji Durbin Watson, rasio dari jumlahkuadrat perbedaan dalam residual yang berturut-turut terhadap jumlah kuadrat regresi.
PelanggaranAsumsiRegresi
Berganda3
2
1
2
2
1
n
t t
t
n
t
t
e e
d
e
28
RegresiLinear Berganda
Uji Durbin Watson
PelanggaranAsumsiRegresi
Berganda3
Prosedur Pengujian :
SusunPersamaanRegresi dandapatkan ei
Hitungnilai d
Tentukannilai kritis
dari d
untukbatas
bawahdL
untukbatas
atas dU
TentukanHipotesis
H0: Tidakada
auto-korelasi
H1:
Adaauto-
korelasi
Daerah keputusan;
Tolak H0 jika d<dL
dan d>4-dL
29
RegresiLinear Berganda
Ukuran yang sering dipakai untuk memilih calonindependen variabel dalam pembentukan persamaan
regresi yang terbaik yaitu Adjusted R2 yang merupakan perbaikan dari R2
Cara MemilihIndependen
Variabel
Enter
• Memasukansemua calonvar inpendenkemudiankeluarkansatu persatusecarabergantian. LakukanhinggamendapatknilaiAdjusted R2
tertinggi.
BacwardElimination
• Memasukkansemua varindependenkemudiankeluarkanyang memilikikorelasiparsialterendahdengan vardependen. LakukanhinggamendapatnilaiAdjusted R2
tertinggi
Forward Elimination
• Memasukanvarindependensatu persatudimulai dariyang memilikikorelasiparsialtertinggidengan vardependen. LakukanhinggamendapatnilaiAdjusted R2
tertinggi
Stepwise Elimination
• GabunganantarametodeBackward dan Forward Elimination.
30
REGRESI LOGISTIK
Jika variabel respon yang dimiliki bersifat kategorik, lebih khusus
lagi bersifat dikotomi (memiliki dua buah nilai) maka dikenal sebagai
regresi logistik biner (binary logistic regression)
Regresi logistik (logistic regression) variabel tidak bebasnya
merupakan variabel dummy (0 dan 1).
Contoh: pengaruh beberapa rasio keuangan terhadap keterlambatan
penyampaian laporan keuangan.
Maka variabel tidak bebasnya adalah 0 jika terlambat
dan 1 jika tidak terlambat (tepat).
Regresi logistik tidak memerlukan asumsi normalitas, meskipun
screening data outliers tetap dapat dilakukan
REGRESI LOGISTIK
Modelnya menggunakan transformasi logit. Pada
model ini, yang diregresikan adalah peluang variabel
respon = 1.
Model umum regresi logistik biner adalah :
Uji Hipotesis dalam REGRESI LOGISTIKUntuk memeriksa peranan variabel-variabel bebas (x) dalam model,
dilakukan penguiian terhadap parameter model (β). Penguiian secara
simultan -> uii G, sedangkan secara parsial -> uji Wald.
Statistik uji G
adalah uji rasio kemungkinan (likelihood ratio test) yang digunakan
untuk menguji peranan variabel bebas di dalam model secara
bersama-sama. Rumus umum uii G untuk menguii hipotesis :
Statistik G ~ sebaran χ2 dengan derajat bebas k.
Kriteria keputusan yang diambil yaitu menolak H0 bila Ghitung > χ2 α(k)
Uji Hipotesis dalam REGRESI LOGISTIK
Statistik uji Wald
uji WaId digunakan untuk menguji parameter βi secara parsial.
Hipotesis yang diuji adalah :
H0 : βi = 0
H1 : βi ≠ 0
Formula untuk statistik Wald adalah :
Secara teori statistik W ini mengikuti sebaran normal baku jika H0 benar.
Kriteria keputusan adalah H0 ditolak jika |W| > Zα/2.
Uji Hipotesis dalam REGRESI LOGISTIK
Goodness of Fit
adalah suatu alat statistik yang digunakan untuk pengujian kebaikan
atau kecocokan model yang dipostulatkan dibandingkan dengan data
yang diamati.
Dikatakan baik, jika ada kesesuaian antara model dengan data yang
diamati.
Metode yang digunakan untuk goodness of fit pada data kategorik
adalah metode Pearson, Deviance dan Hosmer-Lemeshow, dengan
hipotesis uji:
H0 : Model yang dipostulatkan layak
H1 : Model yang dipostulatkan tidak layak
Interpretasi dalam REGRESI LOGISTIK
Interpretasi regresi logistik menggunakan odds ratio (ψ) atau
kemungkinan, yang menjelaskan berapa lipat kenaikan atau penurunan
peluang Y = 1, jika nilai variabel bebas (X) berubah sebesar nilai
tertentu.
Nilai odds ratio selalu positif. Hubungan antara odds ratio (ψ) dan
parameter model (β) adalah :
jika ψab adalah odds ratio antara objek dengan nilai X=b terhadap objek
dengan nilai X=a.
Jika β > 0 maka odds-ratio akan ψ > 1
Jika β = 0 maka odds-ratio akan ψ = 1
Jika β < 0 maka odds-ratio akan ψ < 1
Interpretasi dalam REGRESI LOGISTIK
Contoh:
Diperoleh β bentuk pendapatan per bulan (satuan juta rupiah) sebesar 0,2,
maka odds ratio antara orang yang berpenghasilan 2 juta terhadap orang
yang berpenghasilan 1 juta adalah :
Artinya, orang yang berpenghasilan 2 juta rupiah memiliki kecenderungan
1,35 kali lipat lebih berhasil daripada yang berpenghasilan 1 juta.
Interpretasi dalam REGRESI LOGISTIK
Output Case Processing Summary menghilangkan variabel yang tidak
diperhitungkan dalam model.
Output classification table diatas menjelaskan bahwa persentase variabel
yang diprediksi sebesar 88,9 persen adalah baik, dan dari perbandingan
antara kedua nilai mengindikasikan tidak terdapatnya masalah
homoskedastisitas.
Pada output variables in equation signifikansi adalah 0,05 artinya model tidak
signifikan dan dengan demikian terima H0.
Pada output omnibus test menyatakan
bahwa hasil uji chi-square goodness of fit
lebih kecil dari 0,05, ini mengindikasikan
bahwa model adalah signifikan.
Hasil output pada Cox-Snell R2 dan
Nagelkerke R memiliki analogi sama
dengan nilai R-square pada regresi linier,
menyakatan bahwa sebanyak 50,2 persen
keragaman dapat dijelaskan oleh model,
sedangkan sisanya diluar model.
Hasil pada output Hosmer and Lemeshow Goodness-of-Fit Test
mengindikasikan bahwa kita dapat menerima H0 karena lebih dari 0,05 (1 >
0,05).
output classification table mengindikasikan dalam model regresi logistik, masih
terdapat masalah homoskedastisitas karena nilai persentase keseluruhan
adalah sama (100%).
output variables in the equation menunjukkan nilai signifikansi berdasarkan
Wald Statistic, jika model signifikan, maka nilai sig. adalah kurang dari 0,05.
Kolom Exp(B) menunjukkan nilai odds ratio yang dihasilkan. Nilai odds ratio
yang mendekati 1,0 mengindikasikan bahwa variabel independen tidak
mempengaruhi variabel dependen.
Output classplot diatas menunjukkan prediksi pada regresi logistik. Sumbu X
menujukkan probabilitas yang diprediksi, sedangkan sumbu Y menunjukkan
jumlah kasus yang diamati.