Upload
dinhthu
View
255
Download
1
Embed Size (px)
Citation preview
Analisis Regresi
Oleh :Dewi Rachmatin
Pendahuluan
Dalam penelitian biasanya digunakan suatu model atau hubungan fungsional antara peubah.
Dengan model kita berusaha memahami, menerangkan, mengendalikan dan kemudian memprediksikan kelakuan sistem yang diteliti.
Model juga menolong peneliti dalam menentukan hubungan kausal.
Rumusan hubungan tsb yang dinyatakan dalam bentuk hipotesis dan diuji berdasarkan data yang dikumpulkan kemudian.
Regresi Linear Sederhana
X adalah peubah bebas (prediktor)dan Y peubah tak bebas yang bergantung pada Y (respons). Y (respon) tidak dikontrol dalam percobaan. Nilainya (y) bergantung pada satu atau lebih peubah bebas, misalnya (nilainya) x1, x2,…,xk, yang galat pengukurannya dapat diabaikan dan sesungguhnya sering peubah tsb dikendalikan dalam percobaan. Jadi peubah bebas tsb bukanlah peubah acak tapi k besaran yang ditentukan sebelumnya oleh peneliti dan tidak mempunyai sifat-sifat distribusi.
Yang akan dibahas adalah regresi linear yang menyangkut hanya satu peubah saja.
Nyatakan sampel acak ukuran n dengan himpunan :{(xi,yi);i=1,2,…,n}. yi merupakan nilai dari peubah acak Yi selanjutnya akan ditulis Y|x “peubah acak yang berkaitan dengan nilai tetap x”
Rataan Y|x berkaitan linear dengan x dalam bentuk persamaan : α dan β adalah dua parameter yang akan ditaksir dari data sampel
xxY βαµ +=|
Bila semua rataan terletak pada satu garis lurus maka :
dengan asumsi : Ei galat yang bersifat acak dan rataannya = 0 dan variansinya konstan.
Setiap pengamatan (xi,yi) dalam sampel memenuhi :
εi adalah nilai yang dicapai Ei bila Yi berharga yi
iii Ex Y ++= βα
iii xy εβα ++=
Demikian pula persamaan regresi :
Tiap pasangan pengamatan memenuhi :
bxay +=ˆ
sisadisebut ; iiii e ebxay ++=
(xi,yi)
εi eibxay +=ˆ
xxY βαµ +=|
Cara peminimuman untuk menaksir parameter dinamakan metode kuadrat terkecil (least square method), yaitu a dan b dicari sehingga JKG minimum
Turunkan JKG terhadap a dan b maka diperoleh
( )∑∑==
−−==n
iii
n
ii bxayeJKG
1
2
1
2
( ) ( )
( ) ( ) i
n
iii
n
iii
xbxayb
JKG
bxaya
JKG
∑
∑
=
=
−−−=∂
∂
−−−=∂
∂
1
1
2
2
Samakan persamaan tsb dengan nol maka diperoleh persamaan normal :
Sehingga diperoleh : i
n
i
n
iii
n
ii
n
ii
n
ii
yxxbxa
yxbna
∑ ∑∑
∑∑
= ==
==
=+
=+
1 1
2
1
11
xbya
xxn
yxyxnb
n
ii
n
ii
n
ii
n
ii
n
iii
−=
−
−
=
∑∑
∑∑∑
==
===2
11
2
111
Sifat Penaksir Kuadrat Terkecil
Di samping anggapan bahwa galat Ei dalam model merupakan peubah acak dengan rataan nol, misalkan selanjutnya bahwa Ei berdistribusi normal dengan variansi sama σ2 , danE1, E2,…,En saling bebas dari suatu pengamatan ke pengamatan berikutnya dalam percobaan. Dengan asumsi kenormalan tsb kita dapat mencari rataan dan variansi untuk penaksir αdan β.
iii ExY ++= βα
Misal penaksir α dan β adalah a dan b, selanjutnya akan disebut A dan B
Dapat ditunjukkan B berdistribusi normal dengan rataan :
variansi B :
Dapat ditunjukkan A berdistribusi normal dengan rataan :
variansi A :
βµ == )(BEB
( )∑=
−= n
ii
B
xx1
22 σσ
αµ =A
( )2
1
2
1
2
2 σσ∑
∑
=
=
−= n
ii
n
ii
A
xxn
x
Taksiran takbias untuk σ2 diberikan oleh
( ) ( )( )
2
22
1
2
1
2
−
−−−
−
=
−
−=
−=
∑∑==
n
YYXXBYY
nBJJ
nJKGS
n
iii
n
ii
xyyy
Selang Kepercayaan dan Uji Keberartian
Akan diuji H0 : β = 0 (model tak linear) lawan H1 : β ≠ 0 (model linear) dan pilih taraf keberartian α=5%
Statistik ujinya : Tolak jika T < -tα/2 atau T > tα/2
Statistik T dapat digunakan untuk membentuk selang kepercayaan untuk β dengan kepercayaan (1- α)100% :
2~/ −−
= nxx
tJS
BT β
xxxx JstB
JstB 2/2/ αα β +<<−
Tolak H0 jika selang kepercayaan tidak memuat nol dan sebaliknyaUji Hipotesis untuk α :
Akan diuji H0 : α = 0 (garis melalui titik asal) lawan H1 : α ≠ 0 (garis tidak melalui titik asal) dan pilih taraf keberartian α=5%
Statistik ujinya :
Tolak jika T < -tα/2 atau T > tα/2
2
1
2
~/
−
=∑
−= n
xx
n
ii
tnJxS
AT α
Statistik T dapat digunakan untuk membentuk selang kepercayaan untuk α dengan kepercayaan (1-α)100% :
Tolak H0 jika selang kepercayaan tidak memuat nol dan sebaliknya
xx
ii
xx
ii
nJ
xstA
nJ
xstA
∑∑== +<<−
2
1
22/
2
1
22/ αα
α
Langkah Penentuan Koefisien Regresi Linear dengan SPSS 10 for Windows
Analyze, Regression, Linear Masukkan y sebagai dependent dan x sebagai
independent(s), pilih method : Enter Contoh : Cocokkan regresi linear untuk masalah :
apakah benar kecepatan suhu ditentukan oleh suhu?Uji kebenarannya dengan data hasil percobaan pada tabel berikut
No. Kecepatan Reaksi (mol/detik)
Suhu (0 Celcius)
No. Kecepatan Reaksi (mol/detik)
Suhu (0 Celcius)
1 4.37 20.72 9 12.80 26.87
2 5.87 21.65 10 13.60 28.11
3 6.95 22.70 11 14.80 28.12
4 7.85 23.12 12 15.50 29.14
5 8.65 23.99 13 16.70 29.13
6 9.34 24.13 14 16.40 29.99
7 7.26 24.99 15 12.90 27.10
8 11.80 25.71
Kecepatan Reaksi (mol/detik) vs Suhu (Celcius)
suhu (celsius)
32302826242220
kece
pata
n re
aksi
(mol
/det
ik)
18
16
14
12
10
8
6
4
Dari diagram pencar (plot data Y terhadap X) terlihat bahwa kecepatan reaksi (Y) menaik jika suhu (X) menaik, jadi ada korelasi + antara Y dengan X
Trend (kecenderungan) data mengumpul di sekitar suatu garis lurus
Hasil Pencocokan Model dengan SPSS ver 10 Hasil uji t untuk H0 : α = 0 :
karena t hitung = -10.982 < -t0,025;13 = -2,160maka H0 : α = 0 (garis melalui titik asal) ditolak.
Hasil yang sama ditunjukkan oleh nilai-p :karena nilai-p = .000 < α , maka H0 : α = 0 (garis melalui titik asal) ditolak.
Hasil uji t untuk H0 : β = 0 :karena t hitung = 16.163 > t0,025;13 = 2,160maka H0 : β = 0 (model tidak linier) ditolak.
Juga, karena nilai-p = .000 < α , maka H0 : β = 0 (model tidak linier) ditolak.
Hasil yang sama ditunjukkan oleh selang kepercayaan, yaitu selang kepercayaan untuk α yaitu[-28,401 , -19,064] dan selang kepercayaan untuk βyaitu [1,170 , 1.532] keduanya tidak memuat nol
Jadi model regresi yang cocok untuk data tsb :
xy 351,1733,23ˆ +−=
Plot Data dan Garis Regresi
kecepatan reaksi (mol/detik)
suhu (celsius)
32302826242220
18
16
14
12
10
8
6
4
Observed
Linear
Pendekatan Analisis Variansi
SumberVariasi
JK(Jumlah Kuadrat)
dk(derajat kebebasan)
RK(Rataan Kuadrat)
f hitung
Regresi JKR=bJxy 1 RKR=JKR/1
JKR/s2
Sisa JKS (JKG)=JKT-JKR
n-2 RKSs2=JKS/n-2
Total JKT=Jyy n-1
Tolak H0 jika F > F1,n-2
atau tolak H0 jika f hitung > f tabel (dk1=1,dk2=n-2) Hasil uji kelinearan (uji F) menunjukkan nilai-p yang
sangat kecil mendekati nilai nol, hal ini menunjukkan bahwa H0 : model regresinya tidak linear ditolak atau H0 : β = 0 tidak ditolak. Artinya hasil pengujian mendukung hipotesis bahwa kecepatan reaksi ditentukan oleh suhu (kecepatan reaksi fungsi linear dari suhu)
Hasil yang sama ditunjukkan oleh :F hitung = 261,229 > F1,13;0,05 = 4,67
Uji t, Uji F dan Koefisien Determinasi
Uji t yang digunakan mempunyai dk = dk penyebut dalam nisbah F yaitu n-2 :
Uji t yang digunakan di sini adalah dua arah sedang uji F satu arah. Karena itu uji t lebih luas cakupannya daripada uji F karena dapat digunakan untuk menguji H0 : β < 0 vs H1 : β > 0
R2 disebut koefisien korelasi darab atau koefisien penentu (determinasi), 0 ≤ R2 ≤ 1
2n,12
2n Ft −− =
2i
2i2
)YY()YY(
JKTJKRR
∑∑
−−
==
R2 = 0 bila JKR = 0 atau JKS = JKT dan R2 = 1 bila JKR = JKT atau JKS = 0
JKR = 0 bila untuk setiap i. Ini berarti bahwa tidak peduli berapa nilai xi , taksiran yi yaitu
selalu = . Jadi yi tidak tergantung atau dipengaruhi oleh xi .
Sebaliknya jika R2 = 1 maka setiap prediksi yi tepat sekali sama sekali tidak ada yang meleset.
R2 dapat mengukur kecocokan data dengan model. Makin dekat R2 dengan 1 makin baik kecocokan data
dengan model dan sebaliknya makin dekat R2 dengan 0 makin jelek kecocokan tsb.
iy y
yyi =
Untuk contoh tadi R2 = 0,953 artinya sebesar 95,3% dari seluruh variasi yotal y diterangkan oleh model atau x dan masih ada sebesar 4,7% lagi variasi y yang tidak dapat diterangkan oleh model yang digunakan. Bagian sisanya yang 4,7% ini mungkin disebabkan oleh faktor lain yang gagal diperhitungkan dalam model
Uji F tidak dapat digunakan untuk mengukur besar pengaruh suatu peubah bebas atau faktor
Pemeriksaan Sisa (Sembiring, 1995)
Sisa bukan berarti sampah yang tidak berguna, sisa kaya akan informasi dan karena itu merupakan bagian yang amat penting dalam setiap analisis data.
Informasi dari data semula yang tidak terserap oleh model akan menjadi sisa
Jika semua pola yang ada pada data telah masuk ke dalam model maka sisa akan berbentuk acak tetapi jika model tidak mampu mengambil semua pola pada data maka sisa akan mempunyai kecenderungan tertentu.
iii YY −=ε
Dalam hal itu model belumlah baik betul, dalam arti masih dapat disempurnakan. Jika sisa sudah berbentuk acak maka anggapan tentang kenormalan dan kesamaan variansi dapat diiuji dari sisa !
Kita melihat kebaikan model dari R2 dan pengujian hipotesis mengenai koefisien regresi
Ketidakcocokan model dengan data dilihat dengan mengamati sisa. Begitu pula apakah ada pencilan dalam data dapat dilihat dengan mengamati sisa. Sisa secara kasar memberi keterangan tentang data yang tidak mengikuti pola umum model yang digunakan, ditandai oleh sisanya relatif besar
Makin besar sisa makin jauh data menyimpang dari model
Adanya pola yang teratur (sistematis) dalam sisa menunjukkan bahwa modelnya belumlah baik. Model yang sudah baik ditandai oleh pola sisa yang acak
Data pencilan sering terdapat dipinggir, mungkin muncul karena kesalahan mengamati atau mencatat tapi tidak jarang pula data itu sesungguhnya sejati. Salah satu kelemahan metode kuadrat terkecil adalah data aneh tsb mempunyai pengaruh yang proporsional lebih besar daripada data yang di tengah
Uji t dan F yang digunakan bersifat kekar, yang berarti bahwa anggapan kenormalan dan kesamaan variansi tidak perlu dipenuhi dengan ketat tapi cukup agak kasar
Tujuan pemeriksaan sisa :1. Apakah sisa telah berpola acak2. Apakah anggapan kenormalan tidak dilanggar3. Apakah variansi dapat dianggap tidak berubah 4. Apakah ada data yang tidak mengikuti pola
umum (pencilan)5. Apakah peubah yang masuk dalam model
mungkin bukan berbentuk linear6. Apakah peubah yang berpengaruh telah masuk
ke dalam model
Berikut beberapa plot sisa yang penting menurut N.Draper dan H. Smith, Applied Regression Analysis1. Plot sisa menurut besarnya2. Plot sisa menurut urutan pengambilan data, bila
diketahui3. Plot sisa terhadap 4. Plot sisa terhadap xij , j=1,2,…,k5. Menurut setiap cara yang wajar sesuai persoalannya misalnya rajah sisa terhadap peubah bebas yang tidak termasuk ke dalam model untuk menentukan apakah peubah itu sebaiknya masuk ke dalam model atau tidak
iy
Plot Sisa Menurut Besarnya
-3 -2 -1 0 1 2 3x
a x x x xxxx xx x
b x x x x xx x x x xx
c x xxxxxxxx x
d x xx x xxx xx x x
-3 -2 -1 0 1 2 3
Plot a agak setangkup dan memencar, agak acak dan lebih banyak di tengah. Tidak ada tanda bahwa anggapan keacakan dan kenormalan dilanggar
Plot b agak aneh datanya mengelompok Plot c terlihat satu data menyendiri di sebelah kanan
dan cukup jauh dari titik nol Plot d tidak menunjukkan keanehan, setangkup,
memencar dan acak
Plot Sisa Menurut Besarnyauntuk contoh sebelumnya
Error for Y with X from CURVEFIT, MOD_1 LINEAR
210-1-2-3
NO
OBS
16
14
12
10
8
6
4
2
0
Terlihat pada plot sisa menurut besarnya, ada data ke 7 yang memencil di sebelah kiri, sedang data yang lain mengumpul di bagian tengah, datanya memencar dan acak. Tidak ada tanda bahwa anggapan keacakan dan kenormalan dilanggar
Pengaruh waktu kadang masuk dalam model melalui urutan melakukan percobaan, contoh : suatu reaksi kimia mungkin dipengaruhi oleh cahaya sehingga pengamatan yang dilakukan waktu siang dan malam berlainan hasilnya. Suatu cara melihat apakah waktu mempengaruhi percobaan adalah membuat plot sisa menurut urutan pengambilan data
Sisa
a
b
c
waktu/urutan
jika data mengumpul di sekitar dua garis yang sejajar seperti (a), ini menunjukkan sisa tidak acak dan ada hubungan linier
jika data mengumpul di sekitar dua garis seperti (b), ini menunjukkan sisa tidak acak dan kesamaan variansi dilanggar dan transformasi pada respons y atau x mungkin diperlukan
Jika data mengumpul di sekitar dua kurva yang melengkung seperti (c), ini menunjukkan sisa tidak acak dan ada hubungan kuadratis
Plot Sisa vs
Fit for Y w ith X from CURVEFIT, MOD_1 LINEAR
1816141210864
Erro
r for
Y w
ith X
from
CU
RVE
FIT,
MO
D_1
LIN
EAR 2
1
0
-1
-2
-3
y
Plot Sisa vs x
suhu (celsius)
32302826242220
Erro
r for
Y w
ith X
from
CU
RV
EFI
T, M
OD
_1 L
INE
AR
2
1
0
-1
-2
-3
Kesimpulan
Plot sisa vs , plot sisa vs x dan plot sisa menurut besarnya menunjukkan pola yang sama, yaitu acak, memencar walau sisa untuk data ke 7 cukup besar dan memencil sendiri
Hasil uji K-S untuk sisa diperoleh nilai-p=0,360>0,05artinya H0 : sisa berdistribusi normal diterima
Karena anggapan kenormalan dan kesamaan variansi dipenuhi maka sisa terbaku : εi/σ berdistribusi N(0,1)dan di bawah anggapan keacakan εi/σ , i=1,2,…,n bebas satu sama lain
y
Matriks topi (proyeksi) H = X (X’X)-1 X’ “hoteling”amat berguna dalam pemeriksaan sisa . Matriks ini hanya tergantung pada matriks rancangan (peubah bebas) dan tidak tergantung pada respons (Y). Jika unsur diagonal matriks H yaitu hii besar berarti data jauh dari pusat data.
Pengamatan yang jauh dari pusat data (peubah bebas) berpengaruh besar terhadap koefisien regresi dan berpotensi sebagai pencilan.
Makin besar hii makin besar pengaruh pengamatan ke i
Makin besar ukuran sampel makin kecil pengaruh suatu titik data, sehingga pengaruh data pencilan dapat diabaikan
Pengukuran Berulang pada Respons