Upload
hadien
View
236
Download
0
Embed Size (px)
Citation preview
ANALISIS REGRESI PADA DATA OUTLIER
DENGAN MENGGUNAKAN LEAST TRIMMED SQUARE
(LTS) DAN MM-ESTIMASI
Heru Nurcahyadi
PROGRAM STUDI MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI
SYARIF HIDAYATULLAH
JAKARTA
2010 M / 1432 H
ii
PENGESAHAN UJIAN
Skripsi berjudul “Analisis Regresi pada Data Outlier dengan
Menggunkan Least Trimmed Square (LTS) dan MM-Estimasi” yang ditulis
oleh Heru Nurcahyadi, NIM 105094003092 telah diuji dan dinyatakan lulus
dalam sidang Munaqosyah Fakultas Sains dan Teknologi Universitas Islam
Negeri Syarif Hidayatullah Jakarta pada tanggal 19 Mei 2009. Skripsi ini telah
diterima sebagai salah satu satu syarat untuk memperoleh gelar sarjana strata satu
(S1) Program Studi Matematika.
Menyetujui :
Penguji 1, Penguji 2,
Yanne Irene, M.Si Gustina Elfiyanti, M.Si
NIP. 19741231 2005012 018 NIP. 19820820 200901 2006
Pembimbing 1, Pembimbing 2,
Summa’inna, M.Si Bambang Ruswandi, M.Stat
NIP. 150 408 699 NIP. 0305 108 301
Mengetahui :
Dekan Fakultas Sains dan Teknologi Ketua Program Studi Matematika,
DR. Syopiansyah Jaya Putra, M.Sis Yanne Irene, M.Si
NIP. 19680117 200112 1 001 NIP. 19741231 2005012 018
PERSEMBAHAN
Skripsi ini aku persembahkan untuk kedua orang tuaku,
keluarga besarku, dan keluarga besar Prodi Matematika
MOTTO
‘Karena sesungguhnya sesudah kesulitan itu ada kemudahan, dan
sesungguhnya sesudah kesulitan itu ada kemudahan. Maka apabila kamu telah
selesai (dari sesuatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang
lain, dan hanya kepada Tuhanmulah kamu berharap.’
(QS. Alam Nasyrah ayat 5-8) “pelajarilah ilmu
Barang siapa mempelajarinya karena ALLAH, itu Taqwa.
Menuntutnya, itu Ibadah.
Mengulang-ngulangnya, itu Tasbih.
Membahasnya, itu Jihad.
Mengajarkannya kepada orang yang tidak tahu, itu Sedekah.
Memberikannya kepada ahlinya, itu mendekatkan diri kepada ALLAH.”
(Muhammad bin Muhammad al-Ghazali).
iii
PERNYATAAN
DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-
BENAR HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN
SEBAGAI SKRIPSI ATAU KARYA ILMIAH PADA PERGURUAN TINGGI
ATAU LEMBAGA MANAPUN.
Jakarta, 15 Desember 2010
Heru Nurcahyadi
105094003092
vi
ABSTRACT
Regression analysis is a statistical methodology that describes the
relationship of independent variables and the dependent variable. From the
relationship it established a model that can be used to predict the value of the
dependent variable using the dependent variable. The resulting model is derived
from the method of least square (LS), which must satisfy some assumptions. With
the existence of a data which is not similar to most other data, called outliers,
then the LS method using the resulting regression model did not meet the
assumptions and regression models did not fit with the data.
Outlier on the x-direction is called leverage can be detected by using the
h-hat matrix, while the y-direction is called discrepancies can be detected by
using the externally studentized residual, and the influence can be detected by
using DFFITS and COOK'SD.
method of least trimmed square (LTS) to produce regression
models that fit to the data even though half of the data is outlier data,
because it has a high value of breakdown point that is 50%. Other robust
methods that have a breakdown point of 50% is MM-Estimate that use the
S-Estimated initial iteration. LTS model is very good at simple regression
analysis compared with MM-estimation seen from the estimated residual
scale. While the multiple regression analysis of MM-Estimation is better
when compared with the LTS seen from the estimated residual scale.
Keywords: least square (LS), outlier, leverage, h-hat matrix,
discrepancies, externally studentized residual, value influences, DFFITS,
COOK'SD, least trimmed square (LTS), breakdown point, robust method,
MM-estimation, S-estimation.
v
ABSTRAK
Analisis regresi adalah metodologi statistika yang menggambarkan
hubungan atau pengaruh dari varibel independen dan variable dependen. Dari
hubungan itu dibentuk suatu model yang bisa digunakan untuk memprediksikan
nilai variable dependen dengan menggunakan variable dependen. Model yang
dihasilkan diturunkan dari metode least square (LS), yang harus memenuhi
beberapa asumsi. Dengan adanya suatu data yang tidak sejenis dengan sebagian
data yang lain, yang disebut outlier, maka penggunaan metode LS model regresi
yang dihasilkan tidak memenuhi asumsinya dan model regresinya tidak fit dengan
data.
Outlier pada arah-x disebut leverage dapat dideteksi dengan menggunakan
h-hat matrik, sedangkan pada arah-y disebut discrepancy dapat dideteksi dengan
menggunakan externally studentized residual, dan nilai influence dapat dideteksi
dengan menggunakan DFFITS dan COOK’SD.
metode least trimmed square (LTS) dapat menghasilkan model regresi
yang fit terhadap data walaupun setengah dari datanya merupakan data outlier,
karena mempunyai nilai breakdown point yang tinggi yaitu 50%. Metode robust
yang lain yang mempunyai breakdown point 50% adalah MM-Estimasi yang
menggunkan iterasi awal S-Estimasi. Model LTS sangat baik pada analisi regresi
sederhana dibandingkan MM-estimasi dilihat dari estimasi skala residualnya.
Sedangkan pada analisis regresi berganda MM-estimasi lebih baik jika
dibandingkan dengan LTS dilihat dari estimasi skala residualnya.
Kata kunci: least square (LS), Outlier, leverage, h-hat matrik,
discrepancy, externally studentized residual, DFFITS, COOK’SD, least trimmed
square (LTS), breakdown point, metode robust, MM-Estimasi, S-Estimasi.
vii
KATA PENGANTAR
بسم هللا اار حمن اار حيم
Assalamu’alaikum Wr. Wb.
Puji syukur kehadirat Allah SWT yang telah memberi rahmat dan karunia-
Nya sehingga penulis dapat menyelesaikan skripsi ini. Shalawat serta salam tak
lupa disampaikan kepada Nabi Muhammad SAW. Skripsi ini adalah syarat
kelulusan yang harus ditempuh dalam menyelesaikan pendidikan sarjana strata
satu Program Studi Matematika Fakultas Sains dan Teknologi Universitas Islam
Negeri Syarif Hidayatullah Jakarta.
Kami mengucapkan terima kasih kepada para pihak yang telah banyak
membantu dalam penyelesaian skripsi ini, di antaranya :
1. Dr. Syopiansyah Jaya Putra, M.Sis, Dekan Fakultas Sains dan Teknologi .
2. Yanne Irene, M.Si, sebagai Ketua Program Studi Matematika dan dosen
penguji I.
3. Suma’inna, M.Si, Sekretaris Program Studi Matematika dan dosen
Pembimbing I.
4. Bambang Ruswandi, M.Stat, dosen pembimbing II
5. Seluruh dosen Prodi Matematika yang telah memberikan ilmu-ilmu yang
sangat bermanfaat bagi penulis.
6. Seluruh civitas akademika Fakultas Sains dan Teknologi atas bantuannya
dalam bidang administrasi.
viii
7. Kedua orang tuaku: H. Ahyad dan Hj. Nurhayati, adikku: Herwin Adriyan,
dan keluargaku yang senantiasa mendoakan dan memberikan semangat selalu
pada penulis dalam penyelesaian skripsi ini.
8. Pamanku, Sersan Satu Unang Sunarya dan keluarganya yang telah banyak
mendorong dan membantu dalam penyelesaian skripsi ini.
9. Mukhlis, Dede Kurniawan, Syakur, dan Perdy atas persahabatannya selama
ini, semoga selalu kekal hingga akhir waktu.
10. Seluruh teman-teman angkatan 2004, 2005, 2006, 2007, dan 2008 semoga
Allah tetap mengekalkan ukhuwah kita.
Kritik dan saran sangat kami harapkan demi penyempurnaan skripsi.
Mohon maaf bila ada kekurangan. Semoga skripsi ini dapat bermanfaat bagi para
pembaca, khususnya bagi penulis pribadi.
Wassalamu’alaikum Wr.Wb.
Jakarta, 15 Desember 2010
Penulis
ix
DAFTAR ISI
HALAMAN JUDUL .............................................................................. i
PENGESAHAN UJIAN ......................................................................... . ii
PERNYATAAN ...................................................................................... . iii
PERSEMBAHAN DAN MOTTO ............................................................ iv
ABSTRAK ............................................................................................... v
ABSTRACT ............................................................................................. vi
KATA PENGANTAR ........................................................................... vii
DAFTAR ISI ........................................................................................... ix
DAFTAR TABEL .................................................................................. xi
DAFTAR GAMBAR ................................................................................. xiii
DAFTAR LAMPIRAN ........................................................................... . xiv
BAB I. PENDAHULUAN ..................................................................... 1
1.1. Latar Belakang ................................................................... 1
1.2. Permasalahan...................................................................... 4
1.3. Pembatasan Masalah .......................................................... 4
1.4. Tujuan Penulisan ................................................................ 5
1.5. Manfaat Penulisan .............................................................. 5
BAB II. LANDASAN TEORI ................................................................. 6
2.1. Model Persamaan Regresi Linear………………………… 6
2.2. Outlier Dalam Regresi: Sumber, Jenis danDeteksi Outlier… 11
2.3. Robust Estimasi…………………………………………... 26
x
BAB III. ROBUST ESTIMASI PADA REGRESI ................................... 37
3.1. Least Trimmed Square ....................................................... 37
3.2. MM-Estimasi ..................................................................... 45
BAB IV. APLIKASI MODEL .................................................................. 52
4.1. Aplikasi pada Regresi Sederhana ....................................... 52
4.2. Aplikasi pada Regresi Berganda ........................................ 60
BAB V. KESIMPULAN DAN SARAN .................................................. 65
5.1. Kesimpulan ........................................................................ 65
5.2. Saran ................................................................................... 61
REFERENSI ............................................................................................ 67
LAMPIRAN .............................................................................................. 68
xiii
DAFTAR GAMBAR
Gambar 2.1 : Model Regresi Linear Sederhana ................................................. 7
Gambar 2.2 : Garis Least Square ....................................................................... 9
Gambar 2.3 : Outlier pada Arah-y ................................................................... 14
Gambar 2.4 : Outlier pada Arah-x ................................................................... 15
Gambar 2.5 : Outlier pada (xk,yk) ….. ............................................................. 16
Gambar 2.6 : Fungsi Huber .............................................................................. 25
Gambar 2.7 : Fungsi Bisquare ........................................................................ 31
Gambar 4.1 : Plot Leverage ... ......................................................................... 53
Gambar 4.2 : Scatterplot dan Garis Least Square ........................................... 56
Gambar 4.3 : Distribusi Normal Residual Data Pensiunan .............................. 56
Gambar 4.4 : Garis Least Trimmed Square Data Pensiunan ............................ 57
Gambar 4.5 : Garis MM-Estimasi Data Pensiunan .......................................... 59
Gambar 4.6 : Distribusi Normal Data Table (4.5) ........................................... 62
xi
DAFTAR TABEL
Tabel 3.3.1: Efisiensi Asimptotik S-Estimator ................................................ 51
Tabel 4.1 : dana pensiunan ........................................................................... 52
Tabel 4.2 : pemeriksaan data outlier pada arah-x dana pensiunan ................ 53
Tabel 4.3 : pemeriksaan data outlier pada arah-y dana pensiunan ................ 54
Tabel 4.4 : Perbandingan LS, LTS, MM-Estimasi Dana Pensiunan ............. 59
Tabel 4.5 : Data Survival Time ..................................................................... 60
Tabel 4.6 : pemeriksaan data outlier pada data table 4.5 . ............................ 62
Tabel 4.7 : Perbandingan LS, LTS, MM-Estimasi data tabel 4.5 ................. 64
xiv
DAFTAR LAMPIRAN
Lampiran 1 : Data Dana Pensiunan ................................................................. 68
Lampiran 2 : Pemeriksaan Data Outlier pada Arah-x Dana Pensiunan .......... 68
Lampiran 3 : Pemeriksaan Data Outlier pada Arah-y Dana Pensiunan .......... 69
Lampiran 4 : Data Survival Time .................................................................... 70
Lampiran 5 : Pemeriksaan Leverage Data Survival Time ….. ........................ 71
Lampiran 6 : Pemeriksaan Discrepancy Data Survival Time …..................... 72
Lampiran 7 : Pemeriksaan Nilai Influence Data Survival Time ….. ............... 73
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Model matematik dalam statistika merupakan penyederhanaan dari realitas
atau permasalahan yang diteliti oleh statistikawan. Oleh karena itu, diperlukan
asumsi-asumsi agar model tersebut dapat menggambarkan permasalahannya.
Selain itu, asumsi diperlukan agar dapat merumuskan apa yang statistikawan
ketahui atau terka (conjectures) mengenai penganalisisan data atau masalah
permodelan statistik yang dihadapinya, dan pada saat yang bersamaan asumsi
diperlukan agar model yang dihasilkan dapat memudahkan (manageable) dalam
sudut pandang teoritik dan komputasinya. Salah satu asumsi yang paling banyak
ditemukan dalam satatistik adalah asumsi kenormalan, yang telah ada selama 2
abad, asumsi kenormalan menjadi kerangka berpikir dalam semua metode statistik
inferensi, yaitu: Regresi, analisis variansi, analisis multivarit, model runtun waktu
dan lain-lain. Bahkan terdapat justifikasi untuk asumsi kenormalan dengan
argumen teori yaitu teorema limit pusat.
Sering kali dalam prakteknya asumsi kenormalan terpenuhi secara
aproksimasi pada sebagian besar data observasi. Bahkan, beberapa observasi
berbeda pola atau bahkan tidak berpola mengikuti distribusi normal. Hal ini
dikarenakan observasi yang “tidak normal”, observasi yang terpisah dari obsevasi-
observasi lainnya yang dikenal dengan data outlier. Dengan data outlier asumsi
kenormalan seringkali tidak terpenuhi, walupun jumlah data cukup besar.
2
Sehingga statistikawan kemungkinan melakukan kesalahan dalam memodelkan
suatu fenomena dengan adanya kehadiran data outlier. Oleh karena itu, diperlukan
metode yang bisa mengatasi masalah tersebut.
Dalam mengatasi data outlier harus dilihat dari sumber munculnya data
yang menjadi outlier tersebut. Outlier mungkin ada karena adanya data
terkontaminasi, yaitu adanya kesalahan pada saat melakukan pengambilan sampel
pada populasi. Outlier yang disebabkan oleh data terkontaminasi dapat
dihapuskan dari data penelitian atau jika memungkinkan dilakukan sampling
ulang. Akan tetapi, jika setelah melakukan beberapa kali sampling ulang namun
data outlier tetap muncul maka data tersebut jangan dihapuskan dari data
penelitian, karena analisis data yang dihasilkan akan tidak mencerminkan populasi
yang diteliti. Outlier pada kasus tersebut digolongkan pada kasus yang jarang.
Untuk mengatasinya diperlukan metode lain supaya analisis data dengan hadirnya
data outlier tetap tahan (robust) terhadap asumsi yang diterapkan pada
penganalisisan datanya. Metode tersebut dikenal dengan Metode Robust. Metode
inilah yang akan jadi penelitain penulis pada tugas akhir ini.
Model matematik dalam statistika yang banyak ditemukan dalam berbagai
bidang adalah model regresi. Model regresi merupakan suatu model yang
menggambarkan hubungan dari variabel dependen dengan variabel-variabel
independen, dengan adanya hubungan tersebut diharapkan variabel independen
dapat memprediksikan nilai-nilai variabel dependen. Model regresi
mengasumsikan bahwa error dari model tersebut harus berdistribusi normal,
bervariansi konstan, dan saling independen antar observasi. Dengan adanya
3
outlier pada data regresi mengakibatkan model regresi tidak memenuhi asumsinya
dan model regresi tidak cocok (fit) terhadap data yang akan dimodelkan, karena
nilai koefisien dari model regresi tersebut sangat dipengaruhi oleh adanya outlier.
Oleh karena itu, model yang dihasilkan tidak dapat digunakan untuk
memprediksikan. Sehingga, outlier pada regresi harus diatasi.
Salah satu metode guna mengatasi outlier pada regresi adalah metode
robust. Metode robust yang akan dipakai pada tugas akhir ini adalah MM-
Estimasi dan least trimmed square (LTS) merupakan dua metode yang
mempunyai nilai breakdown point yang tinggi yaitu hampir 50%. MM-estimasi
merupakan metode robust dengan iterasi point estimasi dari model regresi. Dalam
MM-estimasi dibutuhkan iterasi awal (initial) dan iterasi akhir (final). LTS
merupakan metode dengan pertama-tama menghitung h, banyak data yang
menjdikan estimasi Robust, dengan sebelumnya menyusun residual kuadrat dari
yang terkecil sampai dengan yang terbesar.
Disamping penanganan outlier pada regresi, yang lebih penting adalah
pengidentifikasian data yang menjadi outlier. Metode pengidentifikasian yang
digunakan pada tugas akhir ini adalah dengan melihat leverage, nilai discrepancy,
dan nilai influence-nya. leverage hanya menggambarkan kasus yang terjadi pada
variabel independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh
kasus tesebut dari nilai mean himpunan data variabel independen. Sedangkan
discrepancy merupakan jarak antara nilai prediksi dengan nilai observasi dari
variabel dependen (Y), yaitu ˆi iY Y , yang merupakan nilai dari residual, ie .
Pada dasarnya, nilai yang menjadi outlier menyebabkan nilai residual menjadi
4
besar dan tidak jatuh pada garis regresi. dan yang terakhir nilai influence
merupakan kombinasi dari ukuran leverage dan discrepancy yang
menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika
kasus ke-i dihilangkan dari himpunan data.
1.2 Permasalahan
1. Bagaimana pengidentifikasian outlier dengan menggunakan leverage,
nilai discrepancy, dan nilai influence dari data regresi.
2. Bagaimana cara mengestimasi nilai-nilai parameter model regresi
dengan adanya data outlier dengan menggunakan Least trimmed
square (LTS) dan MM-Estimasi pada data regresi tersebut.
3. Bagaimana perbandingan model regresi yang dihasilkan dengan
menggunakan Least trimmed square (LTS) dan MM-Estimasi.
1.3 Pembatasan Masalah
Pada skripsi ini, permasalahan akan dibatasi, yaitu sebagai berikut:
1. Data outlier diasumsikan bukan berasal dari sumber kesalahan
sampling, akan tetapi data outlier tersebut merupakan kejadian yang
khusus atau jarang.
2. Pengidentifikasian outlier menggunakan metode h-matriks untuk
mengidentifikasi nilai leverage, metode externally studentized
residual untuk mengidentifikasi nilai discrepancy, dan metode
DFFIT’S dan Cook’sD untuk mengidentifikasi niali influence.
5
3. Penanganan data outlier pada regresi akan digunakan metode MM-
Estimasi dan Least Trimmed Square, kemudian perbandingannya
hanya dengan melihat estimasi skala residualnya.
4. Asumsi regresi yang dipakai hanya asumsi kenormalan.
1.4 Tujuan Penulisan
1. Mengidentifikasikan data outlier dengan menggunakan leverage, nilai
discrepancy, dan nilai influence dari data regresi, sehingga diketahui
data yang menjadi outlier dari sekumpulan data regresi.
2. Mengetahui cara mengestimasi nilai-nilai model parameter regresi
dengan adanya data outlier dengan menggunakan Least trimmed
square (LTS) dan MM-Estimasi pada data regresi.
3. Membandingkan model regresi yang dihasilkan dengan menggunakan
Least trimmed square (LTS) dan MM-Estimasi.
1.5 Manfaat Penulisan
1. Dapat mengetahui cara pengidentifikasian outlier dengan
menggunakan leverage, nilai discrepancy, dan nilai influence dari data
regresi.
2. Dapat mengetahui pengestimasian nilai-nilai model parameter regresi
dengan adanya data outlier dengan menggunakan Least trimmed
square (LTS) dan MM-Estimasi pada data regresi.
3. Dapat mengetahui perbandingan model regresi yang dihasilkan
dengan menggunakan Least trimmed square (LTS) dan MM-
Estimasi.
6
BAB II
LANDASAN TEORI
2.1 Model Persamaan Regresi Linear
Analisis regresi merupakan suatu proses pencarian model matematika
terbaik yang cocok dengan data yang menghubungkan variabel dependen (juga
biasa disebut respon) dengan variabel independen (prediktor). Bentuk umum
model regresi linear adalah:
yEy 2.1
Dengan,
y = variabel dependen
yE = ekspektasi dari y.
= random error.
Model regresi di atas tidak mempertimbangkan sejumlah variabel
independen (x) yang berkorelasi sangat kuat dengan variabel dependen (y),
dengan menggunakan variabel independen maka keakuratan dalam mengestiamsi
yE dapat diperoleh. Sehingga yE dapat diestimasi dengan bentuk persamaan
linear, yaitu:
xyE 10 2.2
Dengan model probabilistik, Persamaan 2.2 di atas ditulis dengan:
7
xy 10 2.3
Persamaan 2.3 di atas disebut Model Linear Orde-Pertama atau Model
Linear Sederhana, karena hanya terdapat satu variabel independen dengan :
y = variabel dependen.
x = variabel independen.
yE = x10 = komponen deterministik.
0 = intercept pada sumbu y, titik potong dengan sumbu y.
1 = kemiringan dari garis regresi, yaitu sejumlah kenaikan (atau
penurunan) dari mean y untuk setiap kenaikan (atau penurunan) 1-unit x.
= komponen random error.
Jika terdapat variabel independen lebih dari satu, maka modelnya disebut
Model Regresi Linear Berganda atau Model Regresi Linear Umum dengan
persamaan modelnya sebagai berikut :
kk xxxy .....2210 2.4
Pada Persamaan-persamaan di atas (2.3 dan 2.4) terdapat komponen
random error ( ). Distribusi dari menentukan seberapa ”bagusnya” model yang
1 2 3 4
1
2
3
4
0
1
xyE 10
x
y
Gambar 2.1 Model Regresi Linear Sederhana
8
menggambarkan hubungan sebenarnya antara variabel dependen y dan variabel
independen x. Ada empat asumsi yang menyangkut distribusi dari , yaitu [1] :
1.Mean distribusi probabilitas dari adalah 0. Artinya rata-rata error
pada percobaan yang dilakukan secara tak hingga adalah 0 untuk setiap
pengambilan variabel independen. Asusmsi ini mengakibatkan nilai mean dari y,
untuk setiap nilai x yang diberikan adalah xyE 10 .
2.Variansi distribusi probabilitas dari adalah konstan untuk setiap
pengambilan variabel independen.
3.Distribusi probabilitas dari berdistribusi normal.
4.Error dari setiap dua observasi adalah independen. Artinya error dari
salah satu nilai y tidak memberikan pengaruh terhadap error dari nilai y yang lain.
Dari persamaan-persamaan di atas nilai koefisien yaitu 0 dan i (untuk i
= 1 sampai dengan k) tidak diketahui karena merupakan nilai parameter. Oleh
karena itu, dibutuhkan data sampel untuk mengestimasi koefisien-koefisien
tersebut.
Misalkan kYYY ,....,, 21 merupakan variabel random berdistribusi normal
dengan mean masing-masing ixyE 0 , dengan i = 1, 2, ....,k, dan variansi
yang tidak diketahui 2 Misalkan akan dicari model regresi linear sederhana.
Fungsi likelihood dari variabel random kYYY ,....,, 21 adalah:
k
i
ii
k
k
i
ii
xy
xyL
1
2
102
2
2
12
2
10
2
2
10
2
1exp
2
1
2exp
2
1,,
9
Untuk memaksimumkan fungsi 2
10 ,, L , atau ekuivalen dengan
meminimumkan:
2
1
2
10
22
102
2ln2
,,ln
k
i
ii xyk
L ,
harus dipilih 0 dan 1 dengan meminimumkan:
k
i
ii xyH1
2
1010 ,
Karena yEyxy iii 10 merupakan jarak vertikal dari titik
ii yx , terhadap garis yEy . Oleh karena itu, 10 ,H merepresentasikan
jumlah kuadrat tersebut. Dengan memilih 0 dan 1 sedemikian hingga jumlah
kuadrat dari jarak tersebut minimum dengan seperti itu artinya garis lurus
yEy mem-fitting data. Oleh karena itu, metode ini disebut Metode Least
square [1].
Untuk meminimumkan 10 ,H , harus dicari 0
,
0
10
H dan
0
,
1
10
H ,
110 xyE ii yx ,
yEyi
Gambar 2.2 Garis Least Square
10
xyk
xy
xky
xyH
k
i
i
k
i
i
k
i
i
k
i
i
k
i
ii
1
1
1
0
1
10
1
1
10
0
10
ˆ
0
012,
Jadi dari penurunan diatas di dapat xy 10ˆˆ , notasi merupakan
notasi estimator untuk nilai parameter , sedangkan untuk nilai 1 adalah
sebagai berikut:
k
i
i
k
i
ii
k
i
ii
k
i
i
k
i
ik
i
i
k
i
ii
k
i
i
k
i
ik
i
k
i
i
ii
k
i
i
k
i
i
k
i
k
i
iii
k
i
iiii
k
i
iii
xkx
yxkyx
yxkyxxkx
k
x
xkarenaxxkxykxy
xk
x
kxk
x
kyxy
xxxxyxy
xykarenaxxxyxy
xxyH
1
22
1
1
1
2
1
2
1
1
1
2
1
2
1
1
1
2
11
1
1
1
1
2
1
1
1
1 1
10
1
2
11
1
10
1
10
ˆ
0
0
0
0
02,
Jadi dari penurunan di atas nilai dari 1 yang merupakan estimator dari 1
adalah
k
i
i
k
i
ii
xkx
yxkyx
1
22
11
, dengan k merupakan jumlah data sampel.
11
2.2 Outlier Dalam Regresi: Sumber, Jenis dan Deteksi Outlier
2.2.1 Sumber Outlier
Outlier adalah satu atau lebih data yang tidak biasa, yang tidak cocok dari
sebagian data lainnya (one or more atypical data points that do not fit with the
rest of the data). Outlier mungkin disebabkan karena dalam melakukan observasi
melakukan beberapa kesalahan, hal ini yang biasa disebut observasi
terkontaminasi, juga bisa outlier merepresentasikan observasi yang akurat dari
kasus yang jarang. Apapun sumber outlier, dalam beberapa kasus menyebabkan
dampak yang sangat besar dalam mengestimasi koefisien regresi , standar error,
dan estimasi keseluruhan variabel prediktor, 2R .[2]
Outlier muncul karena data terkontaminasi dalam beberapa cara.
Observasi yang terkontaminasi dapat dan harus diminimalisir dengan prosedur
penelitian dan pengolahan data yang hati-hati. Observasi yang terkontaminasi
disebabkan [2]:
1. Kesalahan pelaksanaan prosedur penelitian; misalnya: interviewer salah baca
dalam beberapa pertanyaan, atau eksperimenter melakukan yang salah atau
perlakuan yang kurang sempurna.
2. Ketidakakuratan dalam pengukuran variabel dependen; misalnya peralatan
mengalami kerusakan sehingga pengukuran variabel dependen tidak akurat.
3. Kesalahan penulisan atau pengetikan data.
4. Kesalahan perhitungan dari pengukuran; mislnya peneliti kurang tepat
menghitung sejumlah variabel independen atau membuat kesalahan dalam
perhitungan dari ukuran
12
5. Partisipan yang kurang perhatian. Misal dala kasus tertentu, partisipan sedang
dalam keadaan lelah, sakit atau mabuk, dan tidak mampu merespon dengan
baik terhadap materi percobaan.
Tiap statistik diagnostik yang akan dibahas nanti, secara potensial dapat
menolong dalam pendeketsian data yang terkontaminasi. Ketika peneliti
mendeteksi outlier, perlakuan pertamanya adalah melihat kemungkinan bahwa
outlier merupakan data yang terkontaminasi. Data dan perhitungan harus
diperiksa keakurasiannya. Jika dapat diverifikasi bahwa outlier merupakan data
yang terkontaminasi, maka data tersebut tidak harus dimasukkan dalam
penganalisisan data. Jika memungkinkan, peneliti bisa mengganti data yang
terkontaminasi ini dengan data yang benar dari kasus yang ditelitinya, atau
menghapusnya dari himpunan data yang diteliti.
Untuk kasus yang lain, outlier dapat juga merepresentasikan data yang
valid, tidak terkontaminasi, akan tetapi outlier tersebut merupakan kasus yang
jarang dalam populasi. Ketika outlier yang dideteksi bukan data yang
terkontaminasi, maka outlier dapat diperlakukan dengan dua penekanan dalam
mengatasi outlier. Pertama, mengeliminasi pengaruh dari kasus jarang tersebut.
Kedua, outlier mungkin merepresentasikan signal yang halus dari suatu fenomena
yang sangat penting atau ketidak-tepatan dari penentuan model regresi yang telah
diujikan, dan penelitian berusaha untuk memahami kasus yang jarang ini sebagai
sesuatu yang membawa ke bentuk yang sangat penting dalam penelitian ilmiah.
13
2.2.2 Jenis Outlier
Analisis regresi memberikan suatu model yang menggambarkan
hubungan dari beberapa variabel independen ( iX , i = 1,2,…n) dengan variabel
dependen ( , 1,2,....,iY i n ). Model regresi tersebut didapatkan dengan
menggunkan metode estimasi kuadrat terkecil (least square estimate). Metode LS
didasarkan pada asumsi bahwa error dari model yang dihasilkan harus
berdistribusi normal. Karena dengan error berdistribusi normal metode LS
memberikan estimasi parameter yang optimal bagi model regresi tersebut [3].
Akan tetapi, dengan adanya data outlier asumsi kenormalan model regresi
tersebut akan tidak terpenuhi [5]. Seperti diketahui pada analisis regresi, terdapat
satu variabel dependen yang digambarkan pada scatterplot sebagai arah y, dan
beberapa variabel independen pada scatterplot digambarkan sebagai arah x. Oleh
karena itu, keberadaan data outlier mungkin teredapat pada arah-y atau pada arah-
x atau di keduanya.
Data outlier pada arah-y akan memberikan nilai residual r yang sangat
besar (positif atau negatif). Hal ini disebabkan karena data yang menjadi outlier
mempunyai jarak yang sangat besar terhadap garis LS. Seperti yang ditunjukkan
gambar (2.3.a) yang merupakan scatterplot dan garis LS dari enam titik,
1 1 6 6, ,...., ,x y x y , yang hampir terletak pada suatu garis lurus (garis LS). Oleh
karena itu, penyelesaian LS kecocokannya sangat bagus untuk ke-6 data tersebut.
Akan tetapi, andaikan dengan data yang sama, tetapi data ke-4 merupakan data
outlier, yaitu 4y yang disebabkan karena ada suatu kesalahan, maka titik 4 4,x y
mungkin akan jauh dari garis ideal (garis LS). Hal ini digambarkan pada gambar
14
Gambar 2.3 (a). Enam data asli dan garis LS-nya. (b). Data yang
sama dengan data pada (a), tetapi dengan outlier dalam arah-y,
yaitu 4y .
(2.3.b). titk data yang ke-4 bergeser ke atas dan jauh dari posisi asalnya
(ditunjukkan dengan bulatan), dan titik ke-4 itu memberikan pengaruh yang besar
pada garis LS, yang sangat berbeda dari garis LS pada gambar (2.3.a) yaitu garis
LS tidak memberikan kecocokan terhadap ke-6 data tersebut.
Sedangkan data outlier pada arah-x, memberikan pengaruh yang sangat
besar pada estimator metode LS karena outlier pada arah-x akan membalikkan
garis LS. oleh karena itu, outlier pada arah-x disebut sebagai titik leverage [3].
Seperti ditunjukkan pada gambar (2.4.a) yang merupakan scatterplot dan garis LS
dari lima titik data 1 1 5 5, ,..., ,x y x y yang hampir terletak pada suatu garis lurus
(garis LS). Misalkan dengan data yang sama akan tetapi titik 1x adalah outlier
yang disebabkan karena suatu kesalahan. Maka, garis LS akan berbalik dari
keadaan yang digambarkan pada gambar (2.4.a), seperti yang ditunjukkan pada
gambar( 2.4.b). Hal ini dapat dijelaskan sebagai berikut: karena 1x terletak jauh,
maka residual 1r dari garis asal (seperti yang ditunjukkan pada gambar 2.4.a)
15
menjadi sangat besar (negatif), berkontribusi terhadap besarnya jumlah 5 2
1 iir
untuk garis tersebut. Oleh karena itu, garis asal tidak dapat dipilih dari prespektif
LS, dan tentunya garis pada gambar (2.4.b) mempunyai nilai 5 2
1 iir
yang
terkecil, karena itu garis asal dibalikkan menjadi garis pada gambar (2.4.b) untuk
mengurangi besarnya nilai 2
1r , bahkan jika keempat bentuk lainnya, 2 2 2 2
2 3 4 5, , ,r r r r ,
sedikit dinaikkan [3].
Secara umum, suatu observasi ,k kx y dikatakan suatu titik leverage
ketika kx terletak jauh dari sebagian besar data observasi ix dalam sampel. Sebagai
catatan, bahwa suatu titik leverage tidak memasukkan nilai ky ke dalam
perhitungan, jadi titik ,k kx y tidak harus perlu menjadi outlier pada regresi.
Ketika ,k kx y dekat terhadap garis regresi yang ditentukan dengan sebagian
besar data, maka hal itu dapat diperkirakan sebagai titik leverage yang bagus
seperti ditunjukkan pada gambar (2.5). Oleh karena itu, untuk mengatakan bahwa
,k kx y adalah suatu titik leverage hanya merujuk pada kepotensialannya
Gambar 2.4 (a). Data asal dengan lima titik dan garis LS-nya. (b).
Data yang sama dengan data (a), tetapi dengan satu data outlier
pada arah-x, yaitu 1x .
16
mempengaruhi secara kuat terhadap koefisien-koefisien regresi (disebabkan
keterpencilannya komponen kx saja). Titik ,k kx y tidak harus dipandang
menyebabkan pengaruh yang besar terhadap koefisien-koefisien regresi, karena
mungkin saja titik ,k kx y tepat pada garis yang ditentukan kecendrungannya
dengan sebagian besar himpunan data lainnya [3].
Dalam regresi berganda, 1,...,i ipx x terletak pada suatu ruang berdimensi p.
Suatu titik leverage tetap didefinisikan sebagai suatu titik 1,..., ,k kp kx x y di mana
1,...,k kpx x merupakan titik-titik yang terpisah dari himpunan data 1,...,i ipx x .
Seperti sebelumnya, suatu titik leverage yang berpotensial berpengaruh besar
pada koefisien regresi LS, bergantung pada nilai aktual dari .ky akan tetapi pada
situasi ini, akan sangat susah mengidentifikasi titik-titik leverage, karena
dimensinya yang tinggi [3].
Gambar 2.5 Titik ,k kx y merupakan titik leverage karena kx terpencil.
Akan tetapi, ,k kx y bukan outlier regresi karena cocok dengan pola
kelineran sebagian himpunan titik data lainnya.
17
2.2.3 Deteksi outlier
Data outlier dapat dikenali dengan pemerikasaan visual dari data mentahnya
(raw) atau dari diagram pencar dari variabel independen dan variabel dependen.
Dalam kasus ketika terdapat lebih dari dua variabel independen, beberapa outlier
mungkin akan sangat sulit dideteksi dengan pemeriksaan visual. Oleh karena itu,
dibutuhkan alat bantu pada pemeriksaan visual dengan menggunakan uji statistik
tertentu yang dikenal dengan regresi diagnostik yang dapat membantu dalam
pendeteksian outlier. Regresi diagnostik merupakan kasus statistik, artinya
mungkin akan terdapat satu nilai dari tiap diagnostik statistik dari tiap n-kasus
dalam himpunan data. Suatu sampel dengan 150 kasus akan menghasilkan 150
nilai dari tiap diagnostik statistiknya, salah satunya merepresentasikan tiap kasus
dalam himpunan data tersebut. Regresi diagnostik statistik digunakan untuk
memeriksa tiga karakteristik yang secara potensial merupakan data outlier.
Pertama adalah leverage: yang menggambarkan seberapa tidak biasanya kasus
tersebut dalam bentuk variabel independnya?. Kedua adalah discrepancy (jarak)
antara nilai prediksi dan nilai observasi pada variabel hasil (Y). Ketiga adalah
influence, yang menggambarkan besaran dari perubahan koefisien regresi jika
outlier dihilangkan dari himpunan data. Secara konseptual, influence
merepresentasikan perkalian dari leverage dan discepancy. Tiap karakteristik ini
harus diperiksa, karena ketiganya mengidentifikasi aspek-aspek yang berbeda dari
data outlier.
18
1. Leverage
Leverage hanya menggambarkan kasus yang terjadi pada variabel
independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh kasus
tesebut dari nilai mean himpunan data variabel independen. Jika hanya terdapat
satu variabel independen, leverage dapat ditentukan sebagai [2]:
2
ii 2
1leverage = h
i XX M
n x
2.5
dengan hii adalah leverage kasus ke-i, n banyaknya data, Xi adalah nilai untuk
kasus ke-i, MX adalah mean dari X, dan 2x merupakan jumlah kuadrat n kasus
dari simpangan Xi dari meannya. Jika kasus ke-i bernilai MX, maka bentuk kedua
dari persamaan di atas akan 0 dan hii akan memiliki nilai kemungkinan yang
minimum, 1
n. Misalkan kasus ke-i skor pada X menjadi jauh dan jauh dari MX,
maka akan menaikkan hii. Nilai maksimum dari hii adalah 1 nilai mean dari
leverage untuk n-kasus dalam suatu sampel adalah 1iihM k n , dengan k
merupakan jumlah variabel independen.
Perhitungan leverage di atas untuk kasus dengan satu variabel independen,
dapat digeneralisasi untuk kasus dengan variabel independen lebih dari satu.
Untuk kasus dengan banyak variabel independen, yang menjadi menarik adalah
seberapa jauh nilai-nilai untuk tiap k variabel untuk kasus ke-i, 1 3, ,...,i i ikX X X ,
dari centroid variabel independen, centroid merupakan mean dari data,
1 2, ,..., kM M M . Penghitungan nilai hii untuk kasus ini dengan menggunakan
persamaan [4]:
19
1
' '
H X X X X 2.6
dengan H merupakan matrik n n dan X merupakan matrik 1n k . Dengan n
merupakan banyaknya data, dan k merupakan jumlah koefisein k variabel
independen ditambah 1 sebagai nilai konstanta 0 . Diagonal dari H berisi nilai-
nilai leverage. Jadi, leverage untuk kasus ke-i, hii, merupakan nilai dari baris ke-i
dan kolom ke-i darai H.
Penentuan nilai yang memiliki leverage yang besar didasarkan pada nilai
cutoff. Nilai hii yang melebihi nilai cutoff dideteksi sebagai outlier. Adapun nilai
cutoff yang telah ditentukan dari [2], adalah 2 1k n untuk data yang banyak
15n , sedangkan untuk data yang sedikit 15n digunakan cutoff
3 1 .k n 1n k . Dengan n merupakan banyaknya data, dan k merupakan
jumlah koefisein k variabel independen ditambah 1 sebagai nilai konstanta
0 .
2. Discrepancy
Diagnostik statistik untuk data outlier yang kedua adalah discrepancy atau
jarak antara nilai prediksi dengan nilai observasi dari variabel dependen (Y), yaitu
ˆi iY Y , yang merupakan nilai dari residual, ie . Pada dasarnya, nilai yang
menjadi outlier menyebabkan nilai residual menjadi besar dan tidak jatuh pada
garis regresi. Nilai discrepancy penghitungannya dengan menggunakan dua
metode yaitu Internally Studentized Residuals dan Externally Studentized
Residuals.
20
Internally studentized residuals menunjukkan satu dari dua hal yang
menyangkut residual mentah (raw). Ekspektasi dari variansi residual untuk kasus
ke-i diekspresikan sebagai [2]:
i residualvariansi e MS 1 iih 2.7
Dengan residualMS merupakan estimasi dari keseluruhan variansi dari residual
sekitar garis regresi = 2 21 1 .R y n k hii merupakan leverage dari
kasus ke-i. standar deviasi dari residualdari kasus ke-i adalah
1ie residual iisd MS h 2.8
Internally studentized residuals merupakan rasio dari besaran nilai residual dari
kasus ke-i dengan standar deviasi dari residual kasus ke-i [2], yaitu:
iInternally studentized residuals
i
i
e
e
sd 2.9
Besar dari Internally studentized residuals berjarak antara 0 dan
1n k . Sungguh tidak menguntungkan, Internally studentized residuals tidak
mengikuti distribusi standar statistk, karena persamaan (2.9) penyebut dan
pembilangnya tidak saling bebas. Jadi Internally studentized residuals tidak bisa
diinterpretasi menggunakan kurva normal atau t tabel. Dengan demikian,
kebanyakan yang lebih disukai dalam menghitung discrepancy adalah dengan
menggunakan Externally Studentized Residuals.
Externally Studentized Residuals merupakan isu yang kedua dalam
perhitungan data yang merupakan outlier. Externally Studentized Residuals
menunjukkan isu ini dengan memisalkan apa yang terjadi jika kasus yang
21
dianggap outlier dihapuskan dari himpunan data. Misalkan Y
i i
nilai perediksi
kasus ke-i, tetapi kasus ke-i dihapuskan dari himpunan data. Outlier berkontribusi
secara substansial terhadap estimasi variansi residual sekitar garis regresi,
.residualMS Sedangkan residual i
MS untuk variansi residual dengan kasus ke-i yang
merupakan outlier dihapuskan dari data. Misalkan id sebagai perbedaan antara
data asli observasi, Y, dengan nilai prediksi untuk kasus ke-i yang berasal dari
himpunan data dengan kasus ke-i dihapuskan, yaitu:
ˆi i i i
d Y Y . Externally
studentized residuals untuk kasus ke-i, it , dihitung sebagai berikut [2]:
i
ii
d
dt
SE 2.10
Paralel dengan Persamaan (2.9), pembilang dari persamaan (2.10)
merupakan residual yang mana untuk kasus ke-i dihapuskan dan penyebut
merupakan standar error dengan kasus ke-i diahapuskan. Residual yang
dihapuskan, id , dapat dihitung dengan menggunakan residual awal, ie , yaitu
dengan
1
ii
ii
ed
h
2.11
dan nilai standar residual juga dapat dihitung dengan:
1i
residual i
d
ii
MSSE
h
2.12
jika persamaan-persamaan di atas dimasukkan ke (2.10), maka it menjadi:
22
1
ii
iiresidual i
et
MS h
2.13
Penentuan nilai outlier berdasarkan nilai Externally studentized residuals
lebih banyak digunakan. Karena jika model regresi cocok dengan data, maka
Externally studentized residuals akan mengikuti distribusi t dengan 1df n k
[2]. Penentuan nilai cutoff –nya berdasrkan distribusi t, jika nilai it lebih besar
dari nilai tabelt dengan derajat kepercayaan , maka data tersebut memiliki nilai
discrepancy yang besar dan dikategorikan sebagai outlier.
3. Nilai Influence
Metode yang ketiga dalam diagnostik statistik untuk mendeteksi adanya
outlier adalah dengan penentuan nilai influence. Ukuran dari influence merupakan
kombinasi dari ukuran leverage dan discrepancy yang menginformasikan
mengenai bagaimana perubahan dari persamaan regresi jika kasus ke-i
dihilangkan dari himpunan data. Dua jenis pengukuran influnece yang biasa
digunakan, pertama adalah ukuran ke-influence-an global, yaitu DFFITS dan
Cook’sD, yang memberikan informasi mengenai bagaimana kasus ke-i
mempengaruhi keseluruhan krarkteristik dari persamaan regresi. jenis yang kedua
adalah ukuran ke-influnece-an khusus, yaitu DFBETAS, yang menginformasikan
mengenai bagaimana kasus ke-i mempengaruhi tiap-tiap koefisien regresi.
umumnya, keduanya dalam pengukuran ke-influence-an harus diperiksa.
Untuk mengukur ke-influence-an global digunakan statistik DFFITS
(kependekan dari difference in fit standardized), dan Cook’sD, seperti externally
studentized residuals, keduanya merupakan aspek yang membandingkan
23
persamaan regresi ketika kasus ke-i dimasukkan dan tidak dimasukkan dalam
perhitungan himpunan data.
Ukuran pertama dalam mengukur ke-influence-an adalah DFFITS, yang
didefinisikan sebagai berikut [2]:
ˆ ˆi i i
i
iiresidual i
Y YDFFITS
MS h
2.14
dengan ˆiY merupakan nilai prediksi ketika kasus ke-i dimasukkan ke dalam
himpunan data,
ˆi i
Y merupakan nilai prediksi ketika kasus ke-i dihapuskan dari
himpunan data, residual i
MS merupakan nilai variansi dari residual ketika kasus
ke-i dihapuskan dari himpunan data dan iih merupakan nilai leverage seperti yang
didefinisikan pada (2.5 dan 2.6). Pembilang pada (2.14) disebut DFFIT, yang
menginformasikan seberapa besar nilai prediksi kasus ke-i akan berubah dalam
unit data observasi Y jika kasus ke-i dihapuskan dari data. Penyebut pada (2.14)
memberikan standardisasi DFFIT sehingga DFFITSi mengestimasi nilai dari
standar deviasi di mana ˆiY , nilai prediksi untuk kasus ke-i, akan berubah jika
kasus ke-i dihapuskan dari data.
Seperti telah disebutkan di atas ukuran ke-influence-an merupakan
perkalian dari leverage dan discrepancy. Oleh karena itu, DFFITS dapat
diekspresikan dengan [2]:
1
iii i
ii
hDFFITS t
h
2.15
24
secara aljabar ekuivalen dengan (2.14). Dengan it merupakan externally
studentized residuals yang didefinisikan pada (2.13) dan iih merupakan leverage
yang didefinisikan pada (2.5 dan 2.6). Jika nilai it dan iih keduanya naik, maka
besar dari DFFITS juga akan ikut naik hal ini menunjukkan kasus tersebut
mempunyai pengaruh yang besar pada hasil analisis redresi. DFFITS = 0 ketika
kasus ke-i persis terletak pada garis regresi sehingga ˆiY tidak mengalami
perubahan ketika kasus i dihapuskan. Jika terletak pada centroid data sampel
masih tetap memberikan beberapa pengaruh (influence), karena nilia minimum
dari iih adalah 1n
. Tanda dari DFFITS akan positif jika
ˆ ˆi i i
Y Y dan negatif
ketika
ˆ ˆi i i
Y Y .
Ukuran kedua untuk mengukur ke-influence-an global pada hasil model
regresi karena kasus ke-i adalah Cook’sD, yang didefinisikan sebagai dengan [2]:
2ˆ ˆ
'1
i i i
i
residual
Y YCook sD
k MS
2.16
dengan ˆiY merupakan nilai prediksi ketika kasus ke-i dimasukkan ke dalam
himpunan data,
ˆi i
Y merupakan nilai prediksi ketika kasus ke-i dihapuskan dari
himpunan data, k merupakan jumlah koefisien model regresi, dan residualMS
merupakan nilai variansi dari residual. Jadi, Cook’sD membandingkan nilai
prediksi dari Y dengan kasus i dimasukkan dan dihapuskan dari data. Penyebut
25
pada persamaan (2.16) di atas memberikan nilai yang distandardisasi. Tidak
seperti DFFITS, Cook’sD akan selalu 0 , tidak bisa negatif.
DFFITS dan Cook’sD dua ukuran yang berhubugan. Oleh karena itu,
DFFITS dan Cook’sD mempunyai persamaan matematik sebagai berikut [2]:
2
'1
residual ii
i
residual
DFFITS MSCook sD
k MS
2.17
DFFITS dan Cook’sD merupakan statisitk dapat saling dipertukarkan,
keduanya dapat digunakan untuk memberikan informasi mengenai ke-influence-
an dari kasus i yang merupakan outlier. Penentuan kasus i sebagai outlier
berdasarkan cutoff masing-masing. Untuk DFFITS, nilai DFFITS (dengan
mengabaikan tandanya) yang besarnya 1 untuk data ukuran kecil 15n dan
sedang dideteksi sebagai outlier. Sedangkan untuk data yang ukuran besar, nilai
DFFITS 1
2k
n
merupakan data outlier. Untuk Cook’sD digunakan nilai
cutoff 1.0 atau dengan nilai kritik dari distribusi F dengan 0.50 dan
1, 1df k n k , jika nilai Cook’sD melebihi nilai kritik dari distribusi F
dideteksi sebagai outlier [2].
BFBETASij merupakan jenis kedua dari ke-influence-an statistik yang
penting jika peneliti ingin memfokuskan pada koefisien regresi tertentu dalam
persamaannya. BFBETASij merupakan perbandingan koefisien-koefisien regresi
ketika kasus ke-i dimasukkan versus tidak dimasukkan pada data.
BFBETASij untuk kasus ke-i didefinisikan sebagai berikut [2]:
26
j i
j j i
ijDFBETASSE
2.18
pada persamaan di atas, pembilang merupakan perbedaan dari koefisien
dengan seluruh data dimasukkan, j , dengan koefisien jika kasus ke-i
dihilangkan, j i
. Penyebut, j i
SE , merupakan standar error dari j i
setelah
data ke-i dihapuskan. Pembagian dengan j i
SE memberikan nilai yang telah
distandardisasi, gunanya untuk mengintrepretasi secara umum pengaruh dari
kasus ke-i untuk semua koefisien regresi. Tiap kasus data akan memiliki (k + 1)
BFBETASij yang berkorepodensi dengan tiap koefisien regresi dalam
persamaannya termasuk intercept 0 .
Penentuan kasus yang memiliki ke-influence-an yang merupakan outlier
berdasarkan BFBETASij adalah kasus yang memiliki 1ijDFBETAS untuk
ukuran sampel yang kecil dan sedang, sedangkan untuk ukuran sampel yang besar
ditentukan dengan cutoff 2
ijDFBETASn
[2].
2.3 Robust Estimasi
2.3.1 M-Estimasi
Suatu estimator yang hampir baik (variansi kecil) untuk berbagai jenis
distribusi, tidak perlu yang terbaik untuk sebarang dari salah satunya., disebut
suatu Robust Estimator. yaitu suatu estimator yang dihubungkan dengan solusi
dari persamaan:
1
0n
i
i
x
2.19
27
1w x jika x k
kjika k x
x
Persamaan (2.19) di atas sering disebut robust M-estimator (dinotasikan
dengan ) karena persamaan (2.19) tersebut dapat dianggap sebagai maksimum
likelihood estimator. Jadi dalam menemukan suatu robust M-estimator harus
dipilih suatu fungsi yang akan memberikan suatu estimator yang baik untuk
tiap distribusi pada himpunan ruang lingkupnya.
Fungsi yang telah dikenal adalah fungsi Huber yang merupakan
kombinasi yang dihubungkan dengan distribusi normal dan distribusi
eksponensial ganda, yaitu [5]:
,
, ,
, ,
x k x k
x k x k
k k x
2.20
yang diturunkan dari fungsi x , dengan fungsi x adalah sebagai berikut
[5]:
2
22x
x jika x kx
k x k jika x k
2.21
Fungsi x berbentuk quadratik pada pusatnya, tetapi naik secara linear
ke takterhingga seperti dapat dilihat pada gambar (2.6). M-estimasi yang
berkorespodensi dengan kasus limit k dan 0k merupakan mean dan
median. Nilai k yang dipilih adalah yang membawa ke asymptotik variansi
(keefesiensian yang diberikan) pada distribusi normal. Persamaan (2.21) di atas
mempunyai fungsi bobot:
28
Dengan fungsi Huber masalah lain muncul, yaitu jika digandakan tiap
1 2, ,..., ,nX X X estimator seperti X dan median juga akan ganda. Salah satu cara
dalam mengatasi kesulitan ini adalah dengan pemecahan yang lain, tetapi sama
hasilnya, yaiut dengan memecahkan persamaan:
1
0n
i
i
x
d
2.22
dengan d merupakan suatu estimasi skala yang robust. Nilai d yang sering
digunakan adalah [6]:
0.6745
i imedian x median xd
2.23
pembagi 0.675 dimasukkan ke dalam definisi Persamaan (2.23) adalah karena d
merupakan suatu estimasi yang konsisten dari jika data sampel munsul dari
distribusi normal [6]. Jadi, dapat di aproksimasi dengan d di bawah asumsi
distribusi normal.
Gambar 2.6 Fungsi Huber dan Fungsi
29
Skema pemilihan d juga memberikan suatu petunjuk dalam pemilihan nilai
k. karena jika data sampel muncul dari distribusi normal, maka dapat diharapkan
kebanyakan nilai-nilai 1 2, ,..., nx x x memenuhi pertidaksamaan [6]:
ixk
d
2.24
kemudian [6]:
i ix x
d d
2.25
Sebagai ilustrasi, jika seluruh nilai-nilai yang memenuhi pertidaksamaan
(2.24), maka Persamaan (2.22) menjadi:
1 1
0n n
i i
i i
x x
d d
2.26
Persamaan (2.2.6) mempunyai pemecahan ,x yang tentu saja yang lebih
diinginkan karena bersesuaian dengan distribusi normal. Karena d
mengaproksimasi , nilai-nilai popular dari k yang digunakan adalah 1.5 dan 2.0
[6], karena dengan pemilihan tersebut kebanyakan variable biasanya akan
memenuhi Pertidaksamaan (2.24).
Selain hal di atas, suatu proses iterasi harus selalu digunakan untuk
memecahkan Persamaan (2.22). salah satu skema yang akan digambarkan adalah
Metode Newton. Misal 0 merupakan estimasi awal dari , seperti
0ˆ
imedian x . Aproksimasi bagian sebelah kiri persamaan (2.22) dengan
kedua awal ekspansi deret Taylor dari 0 untuk didapatkan:
30
'0 00
1 1
ˆ ˆ 1ˆ 0,n n
i i
i i
x x
d d d
2.27
hasil dari (2.24) memberikan estimasi yag kedua dari ,
0
1
1 0
' 0
1
ˆ
ˆ ˆ ,ˆ
ni
i
ni
i
xd
d
x
d
2.28
Persamaan (2.28) disebut langkah pertama dari M-estimasi dari , jika
digunakan 1 pada tempat 0 , didapatkan 2 , langkah kedua M-estiamsi dari .
Proses ini dapat berlangsun sampai mendapatkan sebarang tingkat akurasi yang
diinginkan. Dengan fungsi , penyebut pada bentuk kedua Persamaan (2.28),
yaitu:
' 0
1
ˆ,
ni
i
x
d
khususnya secara mudah dihitung karena ' 1, ,x k x k dan nol
jika lainnya. Jadi penyebut tersebut merupakan penjumlahan sedehana bilangan-
bilangan 1 2, ,..., nx x x sedemikian hingga 0ˆ .ix d k
Selain fungsi dan Huber, suatu fungsi lain yang sering digunakan
juga adalah fungsi dan Bisquare, yang didefinisikan sebagai [5]:
32
1 1
1
x k jika x kx
jika x k
2.29
dengan fungsi Bisquare sebagai berikut:
31
3 56 12 6
1
x x xjika x k
x k k k k k k
jika x k
2.30
Fungsi pada Persamaan (2.29) dan (2.30) digambarkan pada gambar 2.7
berikut:
Disamping fungsi estimasi Bisquare yang telah didefinisikan pada
Persamaan (2.29) dan (2.30) di atas, salah satu fungsi yang serimg digunakan juga
adalah fungsi optimal, yang didefinisikan [5]:
Dan fungsi optimal didefinisikan dengan:
Gambar 2.7 Fungsi Estimasi dan Bisquare
2.31
2
2 4 6 8
2
1 2 3 4
2
3.25 3
1.792 2 3
22
xk jika
k
x x x x xx k h h h h jika
k k k k k
x xjika
k
32
3 5 7
1 2 3 4
0 3
2 3
2
xjika
k
x x x x xx k g g g g jika
k k k k k
xx jika
k
Dengan
11 1
22 2
33 3
44 2
1.944,2
1.728,4
0.312,6
0.016,8
gg h
gg h
gg h
gg h
2.3.2 Trimmed Mean
Pendekatan lain selain M-estimasi dalam mengestimasi lokasi pada data
yang mengandung outlier adalah Trimmed Mean. Dengan Trimmed Mean dalam
data yang mengandung outlier seolah-olah membuang bagain data yang terbesar
dan terkecilnya. Secara jelasnya, misalkan 0,1 2 dan 1m n
dengan [.] menunujukkan bagian bulatnya, dan -Trimmed Mean didefinisikan
sebagai [5]:
( )
1
1
2
n m
i
i m
x xn m
2.33
dengan ix merupakan statistik terurut.
2.32
33
Trimmed Mean secara sepintas seperti menekan atau memadatkan data
observasi. akan tetapi, tidak demikian. Karena hasilnya pada akhirnya merupakan
fungsi untuk seluruh data observasi. Kasus khusus untuk 0 dan 0.5
merupakan mean sampel dan median sampel.
2.3.3 Ukuran ke-Robust-an
Tujuan dari metode robust secara kasar dapat dikatakan adalah untuk
mengembangkan estimasi yang mempunyai suatu kelakuan yang “baik” dalam
suatu “lingkungan” model.
Diantara ukuran yang mengukur ke-robust-an adalah:
1. Influence Function (IF)
Sebelum mendefinisikan IF terlebih dahulu akan didefinisikan dulu kurva
sensitive (sensitive curve (SC)), yaitu: misal 0x suatu outlier yang ditambahkan
kedalam himpunan data, maka SC dari suatu estimasi untuk titik sampel
1,...., nx x adalah perbedaan dari
1 0 1ˆ ˆ,..., , ,...,n nx x x x x ,
yang merupakan fungsi lokasi outlier 0x
Fungsi influence dari suatu estimator merupakan suatu jenis asimptotik
dari SC yang mengaproksimasi kelakuan dari ketika data sampel yang terdapat
bagian kecil dari outlier, yang secara matematik didefinisikan sebagai [5]:
0
ˆ 00
ˆ ˆ1IF ,F lim
xF Fx
2.34
34
0 0ˆ 1 F
.
dengan 0x merupakan titik massa pada 0x , yaitu distribusi yang sedemikian
hingga 0 1P x x dan “ ” merupakan tanda yang menyatakan limit dari
kanan. Jika terdiri dari p parameter-parameter yang tak diketahui, maka
merupakan vektor p-dimensi dan begitu halnya dengan IF-nya.
Kuantitas 0
ˆ 1 xF adalah nilai asimptotik dari estimasi ketika
distribusi yang membangunnya adalah F dan bagian dari outlier sama dengan
0x . Jadi jika kecil kuantitas tersebut dapat diaproksimasi dengan [5]:
0 ˆ 0
ˆ ˆ1 IF ,xF F x F
2.35
dan bias 0
ˆ ˆ1 xF F diaproksimasi dengan ˆ 0IF ,x F
IF dapat dianggap sebagai kasus khusus dari kurva sensitif, dalam
pengertian berikut: ketika ditambahkan observasi yang baru 0x terhadap sampel
1, , nx x bagian yang terkontaminasi adalah 1 1n , dan juga didefinisikan SC
yang distandardisasi, yaitu sebagai berikut:
1 1 0 1
n 0
1 1 0 1
ˆ ˆ, , , , ,SC ,
1 1
ˆ ˆ1 , , , , ,
n n n n
n n n n
x x x x xx
n
n x x x x x
2.36
yang serupa dengan Persamaan (2.34) dengan 1 1n yang
diharapkan adalah jika ix nya i.i.d dengan distribusi F, maka
0 0SC IF ,x x F untuk n yang besar dapat dibuat tepat. Misal untuk tiap 0x ,
35
0SC x merupakan variabel random, dan jika merupakan M-estimasi lokasi
dengan mempunyai batas dan fungsi- yang kontinu, atau merupakan trimmed
mean, maka untuk tiap 0x [5]
ˆ0 . . 0SC IF ,n a sx x F
2.36
dengan “a.s.”merupakan kekonvergenan dengan probabilitas 1 (“almost
sure” convergen). Hasil ini diperluas untuk M-estiamasi lokasi yaitu:
0
ˆ 0 '
ˆIF ,
ˆ
xx F
E x
, 2.37
dan untuk M-estimasi skala adalah:
0
ˆ 0 '
ˆˆIF ,
ˆ ˆ
xx F
E x x
. 2.38
2. Breakdown point (BP)
Breakdown point suatu titik estimasi dari parameter adalah kuantitas
terbesar dari keterkontaminasian (proporsi dari outlier) yang terdapat dalam data
sedemikian hingga tetap memberikan informasi mengenai , mengenai
distribusi dari titik-titik yang bukan outlier dalam himpunan data tersebut.
Misal merentang atas suatu himpunan . Kelayakan dari estimasi
untuk memberikan informasi mengenai yang terkontaminasi harusnya tidak
dapat mengantarkan ke tak terhinggaan atau terhadap batas dari , jika
tidak kosong. Sebagai contoh, untuk skala atau sebaran parameter didapatkan
36
0, , dan estimasi harus tetap terbatas, dan juga terbatas jauh dari 0, dalam
pengertian bahwa jarak antara dan 0 harus lebih besar dari suatu nilai positif.
Menurut [5] suatu asimptotik kontaminasi BP dari suatu estimasi pada F,
dinotasikan * ˆ, ,F adalah nilai * 0,1 sedemikian hingga untuk * ,
ˆ 1 F G sebagai suatu fungsi dari G yang tetap terbatas, dan juga
terbatas dari batas . Definisi tersebut bermaksud bahwa terdapat suatu batas dan
himpunan yang tertutup K sedemikian hingga K (dengan
merupakan batas dari ) sedemikian hingga
*ˆ 1 dan .F G K G 2.39
37
BAB III
ROBUST ESTIMASI PADA REGRESI
3.1 Least trimmed square (LTS)
Sebelum membahas mengenai least trimmed square (LTS), akan
diketengahkan dahulu sifat-sifat ke-equivariant- an yang harus dimiliki oleh suatu
estimator ( penggunaan kata “equivariant” dalam statistic merujuk pada
transformasi sebagaimana mestinya, dan kata lawannya yaitu invariant merujuk
pada kuantitas yang tetap tidak berubah), yaitu: regresi equivariant, skala
equivariant, dan affine equivariant.
Suatu estimator T disebut sebagai regresi equivariant jika memenuhi:
, ; 1,...., , ; 1,...., ,i i i i iT y i n T y i n x x v x v 3.1
dengan v merupakan sebarang vektor kolom. Suatu estimator T disebut sebagai
skala equivariant jika memenuhi:
, ; 1,...., , ; 1,...., ,i i i iT cy i n cT y i n x x 3.2
untuk sebarang konstanta c. skala equivariant menyebabkan bahwa kecocokan
secara esensial independen dari pemilihan satuan pengukuran pada variabel
respons y. Sedangakan, suatu estimator T adalah affine equivariant jika
memenuhi:
1, ; 1,...., , ; 1,...., ,i i i iT y i n T y i n x A A x 3.3
untuk sebarang matrik persegi A yang nonsingular . dengan kata-kata, affine
equivariant berarti bahwa suatu transformasi linear dari ix yang harus
38
mentransformasikan estimator T , karena 1ˆ .i i iy T T x x A A Hal ini
memperbolehkan penggunaan system koordinat lain dari variabel eksplanatori,
dengan tanpa mempengaruhi pengestimasian ˆiy .
Dari [3] dinyatakan suatu teorema yang menyatakan bahwa:
Teorema 3.1. Sebarang regresi equivariant dari estimator T memenuhi:
* , 2 1n T Z n p n
pada seluruh sampel Z.
Menurut [3] least trimmed square didefinisiskan sebagai:
2
ˆ1 :
minh
i i n
r
3.4
dengan sebelumnya menyusun residual kuadrat dari yang terkecil sampai dengan
yang terbesar, yaitu:
2 2 2
1: 2: :...
n n n nr r r
kemudian menambahkan hanya bentuk h yang pertama dari bentuk-bentuk ini.
Dengan 2 1h n , sehingga LTS akan memiliki breakdown point yang sama
dengan 2 2n p n [Rousseeuw] dengan p merupakan jumlah variabel
independen dan notasi [] menyatakan bagian bilangan bulat terbesar yang kurang
dari atau sama dengan bilangan bulat tersebut. Selain itu, untuk
2 1 2h n p LTS yang mungkin mencapai nilai maksimum dari
39
teorema 3.1 di atas. Sebelum memerikasa sifat-sifat ke-robust-an dari LTS, akan
dijelaskan dahulu ke-equivariant-an dari LTS, yaitu sebagai berikut:
Lemma 3.1 Suatu estimator LTS merupakan regresi, skala, dan affine
equivariant.
Bukti. Regresi equvariant seperti yang telah dinyatakan pada (3.1-3.3),
maka untuk LTS regresi equivariant berdasarkan kesamaan sebagai berikut:
2 2
1 1: :
,h h
i i i i i
i ii n i n
y y
x v x v θ x θ
untuk sebarang vektor kolom v . Untuk skala dan affine equivariant dibuktikan
sama seperti di atas.
Sifat ke-robust-an dari LTS didasarkan pada breakdown point-nya, yang
didefinisikan [3]:
Nilai breakdown point dari metode LTS yang didefinisikan pada (3.4)
dengan sama dengan:
* , 2 1 .n T Z n p n 3.5
Bukti. Dalam usaha membuktikannya diasumsikan bahwa semua observasi
dengan 1, , 0i ipx x dihapuskan dan observasi-observasinya merupakan dalam
kedaan umum. Yang dimaksud dengan kedaan umum adalah jika sebarang p dari
variabel independen menentukan θ secara unik
Langkah pertama adalah dengan menunjukkan bahwa
* , 2 1n T Z n p n karena sampel , ; 1,...,i iZ y i n x terdiri dari
n titik dalam kondisi yang umum, hal ini akan memenuhi:
2 1 2h n p
40
yang merupakan selalu positif, dengan V adalah himpunan dari semua x dengan
jarak terhadap V tidak lebih dari , Andaikanθ meminimumkan (3.4) untuk Z,
dan dinotasikan dengan H yang berkorespodensi dengan hyperplane yang
diberikan dengan persamaan .y xθ diberikan max ,i iM r dengan .i i ir y x θ
sekarang akan dikonstruksikan sebarang sampel terkontaminasi
' ' ', ; 1,....,i iZ y i n x dengan menyimpan 2 1 2n n p n p
observasi-observasi dari Z dan dengan menggantikan yang lainnya dengan nilai-
nilai yang berubah-rubah. Hal ini cukup untuk membuktikan bahwa 'θ -θ
terbatas, dengan 'θ berkorepodensi terhadap 'Z yang dinotasikan dengan H
’, jadi
hyperpalne H’ yang berkorespodensi merupakan hal yang berbeda dari H. tanpa
kehilangan keumumannya diasumsikan bahwa ' ,θ θ karena itu, 'H H. Dengan
teorema dimensi dari aljabar linear, irisan dari 'H H mempunyai dimensi 1.p
jika 'H Hpr merupakan proyeksi vertical dari 'H H terhadap 0 ,y
berdasarkan hal itu, paling banyak 1p dari ix yang bagus (bukan outlier) dapat
terletak pada 'H H .pr
Sekarang didefinisikan A sebagai himpunan
observasi-observasi bagus yang tersisa. Sekarang misalkan sebarang ,a ayx
termasuk di A, dan a a ar y x θ dan ' '.a a ar y x θ konstruksikan vertikal plane
2-dimensi Pa melalui ,a ayx dan tegak lurus terhadap 'H H .pr sebelumnya
1inf 0; terdapat suatu 1 dimensi subruang dari 0 ,sedemikian
2
hingga meliputi sekurang-kurangnya dari i
p y
p
V
V x
41
akan dikonstruksikan nilai residual pada Pa yaitu sebagai berikut [3]:
i i i i ir y y x θ x θ dengan tan ,i x θ dengan merupakan sudut
dalam 2, 2 yang dibentuk antara H dengan garis horizontal pada Pa . Oleh
karena itu, merupakan sudut antara garis tegak lurus terhadap H dan 0,1 ,
karena itu:
'
2
,1 0,1 1arccos arccos
,1 0,1 1
θ
θ θ
dan akhirnya didapat tan . θ
Berdasarkan hal itu, maka:
' ' '
'
'
tan tan
tan tan
,
a a a ar r
x θ x θ
θ θ
karena
2 2 ' ' ' 'θ -θ θ θ θ θ θ θ θ θ
berdasarkan pertidaksamaan di atas didapat:
' 2 ,a ar r 'θ -θ θ
dengan ar dan '
ar adalah residual yang berhubungan dengan H dan H’
berkorespodensi dengan titik , .a ayx Sekarang jumlah dari h residual kuadrat
pertama dari sampel baru Z’ yang berhubungan dengan θ yang terdahulu, dengan
sekurang-kurangnya 1 2n p h dari residual-residual ini menjadi sama
42
seperti sebelumnya, yaitu kurang dari atau sama dengan 2.hM karena 'θ
berkorespodensi dengan Z’ berdasarkan hal itu juga didapatkan
2' ' ' 2
1 :
.h
i i
i i n
y hM
x θ
jika sekarang diasumsikan bahwa
2 1 ,M h 'θ -θ θ
maka, untuk semua a di A memenuhi
' ' 2 1 ,a ar r M h θ θ θ
jadi
' ' 1 .a a a ar r r r M h M M h
Sekarang perhatikan bahwa 1.n A h
oleh karena itu, himpunan h
dari ' ',i iyx
harus terdiri sekurang-kurangnya satu dari , ,a ayx
jadi
2 2
' ' 2
1 :
,h
i i a
i i n
y r hM
' 'x θ
suatu kontradiksi. Ini menyebabkan bahwa
2 1M h 'θ θ θ
untuk semua sampel 'Z .
Langkah kedua adalah mendapatkan Pertidaksamaan sebaliknya yaitu
* , 2 1n T Z n p n yang segera didapatkan berdasarkan teorema 3.1
dan lemma 3.1
43
Cara lain menginterpretasikan Persamaan (3.5) adalah dengan mengatakan
bahwa T akan tetapi terbatas jika lebih dari 1
12
n p observasi tidak
terkontaminasi. Nilai dari h menghasilkan nilai yang maksimum dari breakdown
point. Di lain sisi, jumlah observasi yang jelek n A harus tetap kurang dari h
dan 1A p harus sekurang-kurangnya h. nilai yang terbaik dari h adalah
kemudian diperoleh dengan meminimumkan A atas h yang terletak pada
1A n h dan 1 ,A h p yang menghasilkan 2 1 2 .h n p pada
umumnya, h mungkin bergantung pada beberapa proporsi trimming , umpanya
dengan 1 1h n p atau 1 1.h n Maka dengan
breakdown point *
n sama dengan proporsi ini. Untuk mendekati 50%, maka
akan didapatkan LTS estimator, sedangkan untuk mendekati 0%, maka akan
didapatkan LS estimator [3].
Suatu LTS estimator juga akan memenuhi sifat kecocokan yang tepat,
yang dinyatakan sebagai berikut[3]:
Jika terdapat beberapa θ sedemikian hingga cenedrung (strictly) lebih dari
12
1n p dari suatu observasi yang memenuhi i iy x θ secara tepat dan dalam
posisi yang umum, maka penyelesaian LTS sama dengan θ apapun bentuk
observasinya.
LTS mempunyai kekonvergenan 1
2n
, dengan efesiensi keasimptotikan
terhadap distribusi normal seperti M-estimator yang didefinisikan dengan [3]:
44
1, 1 2
0, lainnya,
x xx
3.6
Persamaan (3.6) disebut tipe-Huber skipped mean dalam kasus estimasi
lokasi sama dengan yang didefinisikan pada Persamaan (2.20).
Langkah-langkah penentuan estimasi dengan menggunkan LTS
dapat dijelaskan sebagai berikut:
1. Bentuk subsampel dengan tiap subsampel ini terdiri dari
h observasi.
2. Untuk tiap subsampel dihitung:
3. Hitung jumlah kuadarat dari tiap subsampel:
4. Solusi yang dipilih adalah yang memberikan nilai paling
kecil.
1n h
1
:
1
1
:
1
1
.
.
.
1
h
i n
i
nn h
i n
i n h
y yh
y yh
21 1
:
1
21 1
:
1
.
.
.
h
i n
i
nn h n h
i n
i n h
SQ y y
SQ y y
jy j
SQ
45
3.2 MM-Estimasi
Pendekatan estimasi robust regresi dengan ix dan iy yang mungkin
terdapat outlier adalah dengan menggunkan suatu M-estimasi yang
didefinisikan sebagai [5]:
1
ˆ
minˆ
ni
i
r
3.7
dengan suatu yang terbatas dan suatu permulaan skala yang memliki
breakdown point yang tinggi. Skala akan dibutuhkan untuk memenuhi syarat-
syarat tertentu yang akan didiskusikan kemudian. Jika mempunyai turunan ,
maka,
0
0ˆ
ni
i
i
r
x 3.8
dengan adalah redescending (non-monoton). Menyebabkan pengestimasian
pada Persamaan (3.7) mungkin memiliki banyak solusi dikarenakan memiliki
minum lokal dari fungsi pada sisi kiri Persamaan (3.7), dan umumnya hanya satu
solusi (solusi terbaik) yang menyebabkan minimum global dari yang
didefinisikan pada (3.7). salah satu metode yang digunakan untuk
mengaproksimasi yang didefinisikan pada (3.7) adalah metode MM-estimasi.
Metode MM-estimasi didefinisikan kedalam tiga langkah. Langkah
pertama adalah menghitung estimasi ˆ *β yang memiliki breakdown point yang
tinggi, misalnya LTS atau least median square (LMS) . dalam langkah pertama ini
46
tidak diperlukan robust estimator yang efesien. Langkah kedua adalah
menghitung suatu M-estimasi skala dengan 50% breakdown point yang
dihitung dari residual *ˆir β dari estimasi robust yang cocok pada langkah awal.
Langkah terakhir, mencari solusi dari persamaan (3.8), yang memenuhi:
*ˆ ˆS Sβ β 3.9
dengan
1
ˆˆ
ˆ
ni
i
rS
Sekarang akan dijelaskan secara detail langkah-langkah di atas. Estimasi
awal yang robust 0 harus regresi, skala dan affine equivariant yang telah
didefinisikan di subbab 3.1 di atas, yang memastikan bahwa memberikan sifat-
sifat yang sama. Salah satu estimasi yang akan dibahas adalah estimasi
berdasarkan pada robust skala residual. Yang didefinisikan sebagai berikut: misal
ˆ ˆ r merupakan suatu skala equivariant dari robust estimasi skala yang
berdasarkan pada suatu vektor residual
1 ,..., .nr r r 3.9
Maka suatu regresi esrimasi dapat difenisikan sebagai:
ˆ ˆmin .
r 3.10
47
Estimasi demikian merupakan regresi, skala, dan affine equivariant, dan
disebut sebagai S-Estimasi [3].
Sebaraan r didefinisikan sebagai solusi dari [3]:
1
1
ˆ
ni
i
rK
n
3.11
Dengan K disamakan dengan ,E dengan merupakan normal
standar. Dengan fungsi harus memenuhi kondisi di bawah ini [5]:
(S1). merupakan simetrik dan terdiferensial secara kontinu, dan
0 0.
(S2). Terdapat 0c sedemikian hingga merupakan cendrung naik pada
0,c dan konstan pada , .c
Jika terjadi lebih dari satu penyelesaian pada (3.11), maka jadikan
r sama dengan supremum dari himpunan penyelesaiannya; ini artinya
ˆ ˆ ˆsup ; 1 .in r K r jika tidak terdapat penyelesaian pada
(3.11), maka jadikan r = 0.
Karena kondisi (S2), 'x x akan selalu nol dari nilai x tertentu,
jadi merupakan fungsi redescending. Fungsi yang demikian contohnya adalah
fungsi Biweight Tuckey’s yang didefinisikan [5]:
2 4 6
2 4
6
untuk 2 2 6
untuk .6
x x xx c
c cx
cx c
3.12
48
Persamaan (3.12) sama dengan yang dinyatakan pada Persamaan (2.29),
fungsi yang lain yang bisa digunakan adalah fungsi yang dinyatkan pada (2.31)
Untuk menunjukkan breakdown point dari S-estimator adalah 50%, di
mana suatu kondisi tambahan pada fungsi dibutuhkan, yaitu:
(S3).
1
2
K
c
Kondisi ini mudah dipenuhi. Pada kasus (3.27) dengan ,K E
diterima dengan menggunkan 1.547c .
Berikut adalah lemma dan beberapa teorema yang diturunkan dari (S1)
sampai dengan (S3), yaitu sebagai berikut:
Lemma 3.3.1. untuk tiap memenuhi kondisi (S1)-(S3) dan untuk tiap n,
terdapat konstanta positif dan sedemikian hingga estimator yang
diberikan (3.11) memenuhi:
1i
ˆmed ,..., med .i n ii
r r r r
Di sini imed atau 1ˆ ,..., nr r mungkin nol.
Teorema 3.3.1. untuk setiap yang memenuhi (S1)-(S3), selalu terdapat suatu
solusi terahadap (3.25).
Teorema 3.3.2. suatu S-estimator yang dibentuk dari suatu fungsi yang
memnuhi (S1)-(S3) memiliki breakdown point
* 2 2n n p n
49
untuk sebarang sampel , ; 1,....,i iy i nx dalam posisi umum.
Teorema 3.3.2 menyebabkan bahwa jika terdapat beberapa β sedemikian
hingga sekurang-kurangnya 2 1n n p dari titik-titik yang memenuhi
i iy x β secara tepat dan pada posisi yang umum, maka S-estimasi untuk vektor
regresi akan sama dengan β apapun observasi yang lainnya.
Jika kondisi (S3) diganti dengan
,
K
c
dengan 12
0 , maka S-estimator yang berkorespodensi mempunyai
breakdown point cendrung terhadap * ketika n . Jika hal itu
diasumsikan bahwa K E dalam usaha untuk mendapatkan suatu estimasi
skala yang konsisten terhadap residual yang terdistribusi normal. Disamping
resistansinya yang tinggi terhadap data yang terkontaminasi , S-estimator juga
berkelakuan baik ketika data tidak terkontaminasi. Untuk melihat hal ini, akan
dilihat keasimptotikan kelakuan S-estimator pada model Gaussian, dengan
,i iyx merupakan variabel random i.i.d yang memenuhi
0 ,i i iy e x β 3.13
ix mengikuti suatu distribusi H, dan ie independen terhadap ix dan berdistribusi
0e untuk 0 0 . Sebelum melihat keasimptotikan kenormalan dari S-
estimasi akan diketengahkan dulu teorema yang menjamin kekonvergenan dari
estimator S-estimasi, yaitu sebagai berikut:
50
Teorema 3.3.3. misal merupakan suatu fungsi yang memenuhi (S1) dan (S2),
dengan turunan ' . asumsikan bahwa:
1. u u tidak naik untuk 0u ;
2. ,HE x dan H merupakan suatu kepadatan.
Misal ,i iyx i.i.d yang yang memenuhi model pada (3.28), dan misalkan
ˆnβ merupakan penyelesaian dari (3.25) untuk titik n yang pertama, dan
1ˆ ˆˆ ˆ ,...., .n n n nr r β β jika n maka
0. .
ˆn
a sβ β
dan
0. .
ˆn
a s
dengan a.s. menyatakan selalu konvergen (absolutely converge).
Selanjutnya akan ditunjukkan keasimptotikan kenormalan dari S-
estimator, yang dinyatakan dalam sebuah teorema, yaitu sebagai berikut:
Teorema 3.3.4. dengan tanpa kehilangan keumumannya misalkan 0 0β dan
0 1 . Jika kondisi dari teorema 3.3.3 terpenuhi dan
1. terdiferensial pada seluruh titik tetapi terhingga, maka ' dan
' 0;d
2. E t
H x x merupakan nonsingular dan 3
,E H
x maka:
51
12
212 '
0n 0,n N E d d
tβ β x xL
dan
12
2
0 2n 0, .n
y E d yN
y y d y
L
Karena teorema 3.3.4, maka dapat dihitung keasimptotikan keefisiensian e
dari S-estimator yag berasal dari fungsi yang didefimisikan pada (3.12) untuk
nilai-nilai breakdown point * yang berbeda-beda. Seperti yang ditunjukkan pada
table di bawah ini:
Tabel 3.3.1. Efisiensi Asimptotik S-Estimator untuk Nilai-nilai *
yang Berbeda-beda, dengan Menggunakan Fungsi Biweight Tuckey’s
* e c K
50% 28.7% 1.547 0.1995
45% 37.0% 1.756 0.2312
40% 46.2% 1.988 0.2634
35% 56.0% 2.251 0.2957
30% 66.1% 2.560 0.3278
25% 75.9% 2.937 0.3593
20% 84.7% 3.420 0.3899
15% 91.7% 4.096 0.4194
10% 96.6% 5.182 0.4475
Dari tabel 3.3.1 di atas terlihat bahwa nilai-nilai c yang lebih besar dari
1.547 menghasilkan keasimptotikan efisiensi yang bagus terhadap model utama
Gaussian, tetapi mempunyai breakdown point yang kecil.
52
BAB IV
APLIKASI MODEL
4.1 Aplikasi Pada Regresi Sederhana
Data yang digunakan adalah data perusahaan asuransi pensiunan Belanda
dari 18 cabang perusahaan. Data ini terdiri dari data yaitu: pendapatan premi yang
merupakan variabel independen dan premi cadangan yang merupakan variabel
dependen.[3]
Data terlampir pada lampiran I.
4.1.1 Pemeriksaan Outlier
Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu
apakah dalam data tersebut terdapat outlier pada arah-y atau arah-x atau ada pada
keduanya.
a. Pemeriksaan Leverage
Leverage disebabkan adanya data outlier pada arah-x, deteksi yang digunakan
adalah dengan melihat nilai hii dan dengan membandingkan nilai centroidnya.
Data yang lebih besar dari nilai centroid (mean) variabel independen dan nilai hii
yang melebihi nilai cutoff 3 1k n dengan k merupakan banyaknya variabel
independen dan n adalah banyaknya data, digolongkan sebagai data yang tidak
biasa (outlier). Mean dari data dana pensiun adalah 176.0222, dan nilai cutoff dari
nilai h adalah 0.33. untuk data dana pensiun didapatkan lima data pertama dari
nilai centroid dan nilai-nilai h-nya ditabelkan pada 4.2, sebagian data lainnya
dilampirkan.
53
Tabel 4.2 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada
arah-x
Untuk menentukan mana yang menjadi nilai leverage akan dihipotesisikan
bahwa
H0: ℎi ≤ 𝑐𝑢𝑡𝑜𝑜𝑓, 𝑚𝑎𝑘𝑎 �؆𝑢𝑘𝑎𝑛 𝑑𝑎𝑡𝑎 𝑜𝑢𝑡𝑙𝑖𝑒𝑟
H1: ℎ𝑖 > 𝑐𝑢𝑡𝑜𝑓𝑓, 𝑚𝑎𝑘𝑎 𝑑𝑎𝑡𝑎 𝑚𝑒𝑟𝑢𝑝𝑎𝑘𝑎𝑛 𝑜𝑢𝑡𝑙𝑖𝑒𝑟
Dari perhitungan didapatkan bahwa data ke-18 mempunyai h18 yaitu
0.873729, melebihi nilai cutoff-nya yaitu 0.33. oleh karena itu, H0 ditolak utnuk
data ke-18, artinya data ke-18 merupakan outlier. sedangkan untuk sisa data yang
lain nilai dari hi kurang dari nilai cutoff yang ditentukan. Pemeriksaan data outlier
dengan penntuan nilai hi dilampirkan. Untuk lebih jelasnya disajikan gambar
(4.1), yang menyajikan leverage dan variabel independen
No x y centroid hii cutoff
1. 10.4 272.2 176.02 0.070383 0.33
2. 15.6 212.9 176.02 0.069467 0.33
3. 16.2 120.7 176.02 0.069363 0.33
4. 17.9 163.6 176.02 0.069071 0.33
5. 37.8 226.1 176.02 0.065883 0.33
x
lev
era
ge
1400120010008006004002000
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
index plot leverage Vs. data independen
Gambar 4.1 indeks plot leverage Vs. data variabel
independen (xi)
54
b. Pemeriksaan Outlier pada Arah-y (Nilai Discrepancy)
Nilai discrepancy merupakan jarak antara nilai prediksi dengan nilai
observasi variabel dependen, yaitu ˆi iY Y , yang merupakan nilai dari residual,
ie . nilai yang menjadi outlier menyebabkan nilai residual menjadi besar dan tidak
jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan
dua metode yaitu Internally Studentized Residuals dan Externally Studentized
Residuals. Pemeriksaan data outlier pada arah-y pada tugas akhir ini hanya akan
digunakan dengan metode Externally Studentized Residuals (ti). Penentuan nilai
outlier berdasarkan nilai Externally studentized residuals berdasarkan Penentuan
nilai cutoff –nya yang mengikuti distribusi t dengan 1.df n k jika nilai it
lebih besar dari nilai tabelt dengan derajat kepercayaan 𝛼 2 , maka data tersebut
memiliki nilai discrepancy yang besar dan dikategorikan sebagai outlier. Dan
diberikan hipotesis:H0: −𝑡𝑡𝑎𝑏𝑒𝑙 ≤ 𝑡𝑖 ≤ 𝑡𝑡𝑎𝑏𝑒𝑙 ,𝑚𝑎𝑘𝑎 �晦�𝑢𝑘𝑎𝑛 𝑑𝑎𝑡𝑎 𝑜𝑢𝑡𝑙𝑖𝑒𝑟
H1: 𝑡𝑖 > 𝑡𝑡𝑎𝑏𝑒𝑙 𝑎𝑡𝑎𝑢 𝑡𝑖 < 𝑡�㡣𝑎𝑏𝑒𝑙 ,𝑚𝑎𝑘𝑎 𝑑𝑎�〰�𝑎 𝑚𝑒𝑟𝑢𝑝𝑎𝑘𝑎𝑛 𝑜𝑢𝑡𝑙𝑖𝑒𝑟
Untuk data dana pensiun di atas Penentuan nilai outlier berdasarkan nilai
Externally studentized residuals, dengan nilai ttabel = 2.120 pada 𝛼 2 =
0.05 2 = 0.025 disajikan lima data pertama dalam table 4.3, untuk data yang
lainnya dilampirkan.
Tabel 4.3 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada
arah-y No x y Externally studentized residuals (ti) t0.025,16 Jenis data
1. 10.4 272.2 -0.52552 2.120 Bukan
2. 15.6 212.9 -0.63674 2.120 Bukan
3. 16.2 120.7 -0.76284 2.120 Bukan
4. 17.9 163.6 -0.71694 2.120 Bukan
5. 37.8 226.1 -0.76536 2.120 Bukan
55
Dari tabel 4.3 di atas nilai Externally studentized residuals yang lebih dari
ttabel adalah data ke-15 dan data ke-18 dengan masing-masing nilai Externally
studentized residuals adalah 3,058 dan -4,90717. Oleh karena itu, H0 pada kedua
data ini ditolak artinya kedua data tersebut merupakan outlier.
Deteksi outlier yang selanjutnya adalah dengan melihat nilai dari jarak
Cook’s dan DFFITS (kependekan dari difference in fit standardized), yang
digunkan untuk mendeteksi adanya outlier yang menjadi nilai influence. Ukuran
dari influence merupakan kombinasi dari ukuran leverage dan discrepancy yang
menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika
kasus ke-i dihilangkan dari himpunan data. Penentuan nilai DFFITS dan Cook’s.
Jika nilai DFFITS dan Cook’s 1 atau < -1 maka dikategorikan sebagai outlier.
Pendeteksian outlier dengan DFFITS dan Cook’s menghasilkan data ke-18
sebagai outlier ke-18 sebagai outlier dengan nilai DFFITS = -12.9082 yang
kurang dari nilai cutoff , -1, dan Cook’s distance = 34.1087 yang lebih dari nilai
cutoff, 1, untuk pendeteksian data yang lainnya terlampir.
Dari pendeteksian leverage, nilai discrepancy, nilai DFFITS dan Cook’s
didapatkan data outlier yaitu: data ke-15 yang merupakan outlier pada arah-y dan
data ke-18 yang merupakan nilai leverage dan yang meberikan nilai influence
terhadap model regresi.
4.1.2 Analisis Regresi
a. Metode Least Square
Penerapan metode least square pada data dana pensiun dari perusahan
asuransi Belanda di atas menghasilkan persamaan model:
ˆ = 632.301 + 5.018 y x (4.1)
56
RESI1
Pe
rce
nt
200010000-1000-2000
99
95
90
80
70
60
50
40
30
20
10
5
1
Mean
<0.010
-5.05275E-13
StDev 771.3
N 18
KS 0.241
P-Value
Probability Plot of RESI1Normal
Gambar 4.3 Distribusi Normal dari Residual Data Dana
Pensiunan
x
y
1400120010008006004002000
8000
7000
6000
5000
4000
3000
2000
1000
0
18
17
1615
14
1312
1110
9
8
7
6
54321
Scatterplot of y vs x
Persamaan (4.1) dapat digambarkan sebagai berikut:
Garis least square dari data dana pensiunan sangat dipengaruhi oleh data ke-
18, seperti dapat dilihat pada gambar (4.2) di atas, garis LS tidak melwati
sebagian besar data, tetapi, lebih menuju ke data18. Dan nilai estimasi skala
residual yang menunjukkan ke-fit-an garis LS terhadap data sebesar 795,1.
Dengan metode LS variabel independen dapat menjelaskan variabel dependen
koefisien R sebesar 82,16%. Akan tetapi, persamaan (4.1) tidak memenuhi
asumsi dari metode LS yaitu asumsi kenormalan residual, seperti dapat dilihat
pada gambar berikut ini:
Gambar 4.2 Scatterplot dan Garis Least Square dari Data
Dana Pension
57
0 200 400 600 800 1000 1200 1400
x
0
4000
8000
12000
y
Gambar 4.4 Garis LTS untuk Data Dana Pensiunan
Distribusi dari residual data pensiunan tidak memenuhi asumsi kenormalan.
Hal ini dapat ditunjukkan dengan gambar (4.3) dan dengan uji kenormalan
kolomorgov-semirnov, nilai dari P-value bahwa data normal hanya 0.001, kurang
dari tingkat siginfikansi = 0.05. oleh karena itu, persamaan tersebut tidak dapat
digunakan untuk analisis regresi dari data dana pensiunan dari ke-18 cabang
perusahaan asuransi Belanda.
b. metode Least Trimmed Square (LTS)
Analisis regresi untuk data dana pensiunan karena tidak dapat menggunakan
metode LS, maka akan digunakan metode lain yang Robust terhadao kehadiran
outlier yaitu data ke-15 dan data ke-18. Persamaan model yang didapatkan dari
metode LTS adalah:
ˆ =181.6062+8.9183y x (4.2)
Persamaan dari (4.2) dapat digambarkan sebagai berikut:
58
Dari gambar (4.4) di atas garis LTS melewati keabanyakan titik data dan
mengabaikan pengaruh dari titik ke-18. Persamaan (4.2) jika dibandingkan
dengan persamaan (4.1) maka, pada persamaan (4.2) 0 atau intercept-nya adalah
181,6062, sedangkan pada persamaan (4.1) nilainya adalah 632,301. Sangat besar
sekali, karena pada persamaan (4.1) sangat dipengaruhi oleh outlier, sedangkan
pada (4.2) tidak terpengaruh. Untuk persamaan (4.2) nilai koefisien, 1 , adalah
8,9183, sedangkan pada persamaan (4.1) adalah 5,018. Dengan metode LTS nilai
koefisien R-square adalah 90,37% lebih besar dari R-square dengan
menggunakan metode LS. Dan nilai estimasi skala residual dari LTS adalah
354,2, nilai yang sangat kecil jika dibandingkan dengan estimasi skala yang
dihasilka oleh metode LS. Tidak seperti metode LS yang harus memenuhi
beberapa asumsi, metode LTS tidak perlu memenuhi asumsi seperti asumsi pada
metode LS. metode LTS memilik breakdown point yang tinggi, yaitu 50%, artinya
persamaan (4.2) tetap akan memberikan kecocokan data yang tepat walupun data
outliernya hampir setengahnya dari keseluruhan data.
c. Metode MM-Estimasi
Metode yang selanjutnya adalah MM-estimasi dengan menggunakan S-
estimasi sebagai initial estimasinya. Persamaan yang dihasilkan dengan metode
ini adalah:
ˆ 126.8782 8.4298y x (4.3)
Persamaan (4.3) digambarkan sebagai berikut:
59
0 200 400 600 800 1000 1200 1400
x
0
2000
4000
6000
y
Dari gambar (4.5) di atas garis MM-estimasi melewati garis ke-18 dan tetap
memberikan kecocokan terhadap data yang lainnya. Persamaan (4.3) mempunyai
konstanta, 0 , adalah 126,8782 lebih kecil dari dua metode sebelumnya, dan nilai
koefisien, 1 , adalah 8,4298 yang juga lebih kecil dari metode LTS. Dengan
metode MM-estimasi niali koefisien R2 adalah 71,7% , nilai yang lebih kecil dari
kedua metode sebelumnya. Metode MM-estimasi dengan S-estimasi sebagi
estimasi awal mempunyai breakdown point yang tinggi yaitu 50% sama seperti
metode LTS dan dengan keefisiensian terhadap distribusi normal sekitar 85%.
Gambaran perbandingan yang lengkap diberikan oleh tabel 4.4 berikut ini:
Table 4.4 perbandingan nilai-nilai intercept, koefisien, skala estimasi, dan R2
dari metode LS, LTS dan MM-estimasi.
No Metode Regresi Intercept Koefisien Estimasi Skala Residual R2
1. LS 632,301 5,018 795,1 81,15%
2. LTS 181,6062 8,9183 354,2 90,37%
3. MM-estimasi 126,8782 8,4298 395 71,7%
Gambar 4.5 garis MM-estimasi untuk Data Dana Pensiunan
60
4.2 Aplikasi Pada Regresi Berganda
Data yang digunakan adalah data yang diperoleh dari [7] yang terdiri dari
empat variabel independen yaitu: blood clotting (pembekuan darah(x1)),
prognostic index (x2), enzyme function test (x3), liver function test (x4), dan variabl
dependennya adalah survival time. Data berjumlah 54 buah. Pada tabel 4.5 adalah
4 data pertama dan sebagiannya dilampirkan.
Tabel 4.5 Data Survival Time
no x1 x2 x3 x4 y
1 6.7 62 81 2.59 200
2 5.1 59 66 1.7 101
3 7.4 57 83 2.16 204
4 6.5 73 41 2.01 101
4.2.1 Pemeriksaan Outlier
Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu
apakah dalam data tersebut terdapat oulier pada arah-y atau arah-x atau ada pada
keduanya.
a. Pemeriksaan Leverage
Data yang lebih besar dari nilai centroid (mean) variabel independen dan
nilai hii yang melebihi nilai cutoff 2 1k n digolongkan sebagai outlier. Nilai-
nilai centroid dari keempat variabel independen adalah 5.783333, 63.42593,
77.2037, 2.744259. dan nial cutoff-nya adalah 0,1852. Data yang termasuk outlier
pada data survival time tabel (4.5) adalah data ke-16, 28, 32, 38, dan 43 dengan
nilai hii masing-masing adalah 0,189087, 0,264561, 0,219006, 0,31775, 0,260665
61
yang semuanya lebih besar dari nilai cutoff, 0,1852. Untuk pemeriksaan data
ditabelkan pada (4.6), data yang lainnya terlampir.
b. Pemeriksaan Discrepancy
Penentuan nilai outlier berdasarkan nilai Externally studentized residuals
berdasarkan Penentuan nilai cutoff –nya yang mengikuti distribusi t dengan
1.df n k jika nilai it lebih besar dari nilai tabelt dengan derajat kepercayaan
, maka data tersebut memiliki nilai discrepancy yang besar dan dikategorikan
sebagai outlier. Untuk data pada tabel (4.5) nilai tabelt dengan derajat kepercayaan
= 0.05 adalah 2,01. Nilai discrepancy-nya adalah data ke-17 dan 21 dengan
nilai Externally studentized residuals masing-masing adalah 2.2679, 10.0852 yang
lebih besar dari nilai tabelt . Untuk pemeriksaan datanya ditabelkan pada (4.6), data
yang lainnya terlampir.
Deteksi outlier yang selanjutnya adalah dengan melihat nilai dari jarak
Cook’s dan DFFITS, penentuan outlier dengan menggunkan Cook’s distance
adalah jika nilai yang melebihi Ftabel dengan 1, 1df k n k dengan 0.05
, maka data tersebut digolongkan sebagai outlier. Sedangkan penentuan outlier
berdasarkan nilai DFFITS adalah nilai yang melebihi 2 1k n . Nilai Ftabel
untuk data tabel (4.4) adalah 2,21, sedangkan nilai cutoff untuk penentuan
berdasarkan DFFITS adalah 0,61. Dari data pada tabel (4.5) yang menjadi data
outlier adalah data ke-17, 21, dan 32. Untuk pemeriksaan data ditabelkan pada
(4.6) selengkapnya dilampirkan.
62
RESI1
Pe
rce
nt
3002001000-100-200
99
95
90
80
70
60
50
40
30
20
10
5
1
Mean
<0.010
1.578984E-15
StDev 59.29
N 54
KS 0.161
P-Value
Probability Plot of RESI1Normal
Gambar 4.6 Normal Plot dari Residual Persamaan
(4.4)
Tabel 4.6 Pemeriksaan data outlier pada data tabel 4.5
no leverage discrepancy influence
hii cutoff ti cutoff Dffit cutoff
1. 0.039845 0.1852 -0.5893 2.01 -0.12005 0,61
2. 0.036983 0.1852 0.0746 2.01 0.01462 0,61
3. 0.106676 0.1852 -0.6346 2.01 -0.21928 0,61
4. 0.081727 0.1852 -0.06 2.01 -0.01791 0,61
5. 0.124131 0.1852 1.0872 2.01 0.4093 0,61
6. 0.08127 0.1852 0.4743 2.01 0.14107 0,61
4.2.2 Analisis Regresi
a. Metode Least Square
Penerapan metode least square pada data tabel (4.5) di atas menghasilkan
model:
1 2 3 4ˆ -620.0512 33.8520 4.2701 4.1111 12.1025y x x x x (4.4)
karena residual yang dihasilakn oleh persamaan (4.5) tidak berdistribusi
normal hal ini ditunjukan pada gambar (4.6) berikut:
63
Dan uji kenormalan tidak terpenuhi karena nilai P-value-nya 0,01 lebih
kesil dari tingkat kepercayaan 0,05. Oleh karena itu, Persamaan (4.4) di atas tidak
dapat digunakan kerena tidak memnuhi asumis untuk metode LS, yaitu asumsi
kenormalan. R-square yang dihasilkan dari metode LS ini adalah 83,35%. Dan
menghasilkan residual standar error sebesar 61,67.
b. Metode Least Trimmed Square
Penerapan metode least trimmed square pada data tabel (4.4) di atas
menghasilkan model:
1 2 3 4ˆ -478.9261 29.3677 3.1154 3.2763 15.0201y x x x x (4.5)
dengan metode LTS R-square yang dihasilkan adalah 91,1% lebih besar dari yang
dihasilkan oleh metode LS. dan nilai konstanta dari LTS (persamaan 4.5) jika
dibandingkan dengan persamaan (4.4) lebih kecil, dan untuk koefisien-koefisien
1 2 3, ,x x x persamaan (4.5) juga lebih kecil dari persamaan (4.4). sedangkan nilai
koefisien x4 pada persamaan (4.5) lebih besar dari persamaan (4.4). dan
persamaan (4.5) menghasilkan estimasi residual error sebesar 24,8 lebih kecil
dari persamaan (4.4)
c. Metode MM-Estimasi
Penerapan metode MM-estimasi pada data tabel (4.4) di atas menghasilkan
model:
𝑦 = −353.6101 + 25.8923𝑥1 + 2.4334𝑥2 + 2.7282𝑥3 + 0.4754𝑥4.(4.6)
Dengan metode MM-estimasi, R-square yang dihasilkan adalah 94,1%
lebih besar dari yang dihasilkan oleh dua metode sebelumnya dan menghasilkan
estimasi residual sebesar 20,96 lebih kecil jika dibandingkan dengan kedua
metode sebelumnya. Dan juga nilai konstanta dan koefisien persamaan (4.6)
64
memiliki nilai-nilai yang kecil jika dibandingkan dengan kedua metode
sebelumnya. Gambaran perbandingan yang lengkap diberikan oleh tabel 4.6
berikut ini:
Table 4.6 perbandingan nilai-nilai intercept, koefisien, skala estimasi, dan R2
dari metode LS, LTS dan MM-estimasi.
No
Metode
Regresi Intercept
Koefisien Estimasi
Skala
Residual
R2
x1 x2 x3 x4
1. LS -620,051 33,8520 4,2701 4,1111 12,1025 61,67 83,35%
2. LTS -478,926 29,3677 3,1154 3,2763 15,0201 24,8 91,3%
3. MM-
estimasi -353,610 25,8923 2,4334 2,7282 0,4754 20,96 94,1%
65
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Pendeteksian outlier yang dibahas terdiri dari pendeteksian leverage,
pendeteksian discrepancy, dan nilai influence dapat digunakan deteksi
menggunakan nilai hii, pendeteksian nilai discrepancy menggunakan externally
studentized residual (ti), pendeteksian nilai influence dapat digunakan DFIIT’S
dan Cook’S distance. Ketiga metode ini dibandingkan dengan suatu nilai cutoff.
Jika ketiga nilai tersebut melebihi masing-masing nilai cutoff-nya maka suatu data
dideteksi sebagai outlier.
Kehadiran data outlier pada regresi akan memberikan nilai-nilai konstanta
dan koefisien pada model regresi membesar jika menggunakan metode least
square. Selain itu, nilai estimasi skala residual yang menggambarkan ke-fit-an
suatu garis least square besar. Hal itu tidak terjadi pada analisis regresi yang
menggunakan metode least trimmed square dan MM-estimasi. Nilai konstanta
dan nilai-nilai koefisien dari metode least trimmed square dan MM-estimasi tidak
terpengaruh oleh kehadiran data outlier, bahkan jika data outlier itu pun hamper
setengah banyaknya darri data, karena kedua metode tersebut mempunyai nilai
breakdown point sampai 50%. Dan estimasi skala residual dari metode least
trimmed square dan MM-estimasi lebih kecil dibandingkan dengan metode least
square.
66
Sedangkan jika least trimmed square (LTS) dibandingkan dengan metode
MM-estimasi, metode LTS pada analisis regresi sederhana (satu variable
independen) memberikan nilai estimasi skala residual lebih kecil dari nilai
estimasi skala residual metode MM-estimasi. Sedangkan untuk analisis regresi
berganda metode MM-estimasi menunjukkan estiamsi skala residual yang lebih
besar dari metode LTS.
5.2 Saran
Pada tugas akhir ini hanya digunakan dua metode robust yaitu least
trimmed square dan MM-estimasi. Oleh karena itu, untuk penelitian yang lain
supaya digunakan metode robust yang lainnya seperti Least median square
(LMS), least winsorized square (LWS) dan lain sebagainya. Kemudian data yang
digunakan lebih beragam lagi supaya bisa melihat metode mana yang cocok
digunakan.
67
REFERENSI
[1] Mendenheell, Wiliam, A second Course in statistics: Regression
Analysis. Edisi kelima. Prentice Hall, New Jersey, 1996
[2] Cohen, Jacob, Applied Multiple Regression/Correlation Analysis For The
Behavioral Sciences. Edisi ketiga. Lawrence Erlbaum Associate. New Jersey.
2003
[3] Rousseeuw, Peter J., Annick M.Leroy, robust regression and outlier
detection. John Wiley & Sons, 1986
[4] Weisberg, Sanford, Applied Linear Regression, Edisi ketiga. John Willey
and Sons, Inc Publication. Hoboken, New Jersey. 2005
[5] Yohai, Victor J., Robust Statistics Theory and Methods. John Wiley and
Sons Ltd. England, 2006.
[6] Hoog, R.V., Allen T. Craig, Introduction to Mathematical Statistics.
Edisi kelima. Prentice Hall international, inc., Englewood Cliffs, New Jersey.
1996.
[8] Soemartini, pencilan (outlier). 2007.
68
Lampiran I
Tabel 4.1 dana pensiun untuk 18 cabang
Lampiran II
Tabel 4.2 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada
arah-x
No x y
1. 10.4 272.2
2. 15.6 212.9
3. 16.2 120.7
4. 17.9 163.6
5. 37.8 226.1
6. 46.9 622.9
7. 52.4 1353.2
8. 52.9 363.6
9. 71 951.7
10. 73.9 307.2
11. 16.3 588.4
12. 77 952.5
13. 131.2 1157.3
14. 151 2105.6
15. 206.1 3581.4
16. 314.7 3404.7
17. 470.8 4095.3
18. 1406.3 6802.7
No x y centroid hii cutoff Jenis data
1. 10.4 272.2 176.02 0.070383 0.33 Bukan
2. 15.6 212.9 176.02 0.069467 0.33 Bukan
3. 16.2 120.7 176.02 0.069363 0.33 Bukan
4. 17.9 163.6 176.02 0.069071 0.33 Bukan
5. 37.8 226.1 176.02 0.065883 0.33 Bukan
6. 46.9 622.9 176.02 0.064568 0.33 Bukan
7. 52.4 1353.2 176.02 0.063817 0.33 Bukan
8. 52.9 363.6 176.02 0.06375 0.33 Bukan
9. 71 951.7 176.02 0.061518 0.33 Bukan
10. 73.9 307.2 176.02 0.061193 0.33 Bukan
11. 16.3 588.4 176.02 0.069346 0.33 Bukan
12. 77 952.5 176.02 0.060856 0.33 Bukan
13. 131.2 1157.3 176.02 0.056642 0.33 Bukan
69
Lampiran III
Tabel 4.3 pemeriksaan data outlier pada dana pensiun untuk 18 cabang pada
arah-y
no x y Externally studentized
residuals t0.05
Jenis
data
1. 10.4 272.2 -0.52552 2.120 Bukan
2. 15.6 212.9 -0.63674 2.120 Bukan
3. 16.2 120.7 -0.76284 2.120 Bukan
4. 17.9 163.6 -0.71694 2.120 Bukan
5. 37.8 226.1 -0.76536 2.120 Bukan
6. 46.9 622.9 -0.30918 2.120 Bukan
7. 52.4 1353.2 0.58285 2.120 Bukan
8. 52.9 363.6 -0.68267 2.120 Bukan
9. 71 951.7 -0.04641 2.120 Bukan
10. 73.9 307.2 -0.89794 2.120 Bukan
11. 16.3 588.4 -0.15881 2.120 Bukan
12. 77 952.5 -0.08324 2.120 Bukan
13. 131.2 1157.3 -0.16745 2.120 Bukan
14. 151 2105.6 0.92182 2.120 Bukan
15. 206.1 3581.4 3.058 2.120 Outlier
16. 314.7 3404.7 1.63126 2.120 Bukan
17. 470.8 4095.3 1.51935 2.120 Bukan
18. 1406.3 6802.7 -4.90717 2.120 Outlier
14. 151 2105.6 176.02 0.055894 0.33 Bukan
15. 206.1 3581.4 176.02 0.056045 0.33 Bukan
16. 314.7 3404.7 176.02 0.065951 0.33 Bukan
17. 470.8 4095.3 176.02 0.102526 0.33 Bukan
18. 1406.3 6802.7 176.02 0.873729 0.33 Outlier
70
Lampiran IV
Table 4.5 survival time
No x1 x2 x3 x4 y
1 6.7 62 81 2.59 200
2 5.1 59 66 1.7 101
3 7.4 57 83 2.16 204
4 6.5 73 41 2.01 101
5 7.8 65 115 4.3 509
6 5.8 38 72 1.42 80
7 5.7 46 63 1.91 80
8 3.7 68 81 2.57 127
9 6 67 92 2.5 202
10 3.7 76 94 2.4 203
11 6.3 84 83 4.13 329
12 6.7 51 43 1.86 65
13 5.8 83 88 3.95 330
14 7.7 62 67 3.4 168
15 7.4 74 68 2.4 217
16 6 85 28 2.98 87
17 3.7 51 41 1.55 34
18 7.3 68 74 3.56 215
19 5.6 57 87 3.02 172
20 5.2 52 76 2.85 109
21 5.8 96 114 3.95 830
22 3.4 83 53 1.12 136
23 6.7 26 68 2.1 70
24 5.8 67 86 3.4 220
25 6.3 59 100 2.95 276
26 5.8 61 73 3.5 144
27 5.2 52 86 2.45 181
28 11.2 76 90 5.59 574
29 5.2 54 56 2.71 72
30 5.8 76 59 2.58 178
31 3.2 64 65 0.74 71
32 8.7 45 23 2.52 58
33 5 59 73 3.5 116
34 5.8 72 93 3.3 295
35 5.4 58 70 2.64 115
36 5.3 57 99 2.6 184
37 2.6 74 86 2.05 118
38 4.3 8 120 2.85 120
39 4.8 61 76 2.45 151
40 5.4 52 88 1.81 148
41 5.2 49 72 1.84 95
71
42 3.6 28 99 1.3 75
43 8.8 90 88 6.4 483
44 6.5 56 77 2.85 153
45 3.4 77 93 1.48 191
46 6.5 40 84 3 123
47 4.5 73 106 3.05 311
48 4.8 86 101 4.1 398
49 5.1 67 77 2.86 158
50 3.9 82 108 4.55 310
51 6.6 77 46 1.95 124
52 6.4 85 40 1.21 125
53 6.4 59 85 2.33 198
54 8.8 78 72 3.2 313
Lampiran V
Pemeriksaan leverage data table 4.5
No x1 x2 x3 x4 y cutoff HI1 Jenis data
1 6.7 62 81 2.59 200 0.1852 0.039845 bukan
2 5.1 59 66 1.7 101 0.1852 0.036983 bukan
3 7.4 57 83 2.16 204 0.1852 0.106676 bukan
4 6.5 73 41 2.01 101 0.1852 0.081727 bukan
5 7.8 65 115 4.3 509 0.1852 0.124131 bukan
6 5.8 38 72 1.42 80 0.1852 0.08127 bukan
7 5.7 46 63 1.91 80 0.1852 0.047382 bukan
8 3.7 68 81 2.57 127 0.1852 0.060138 bukan
9 6 67 92 2.5 202 0.1852 0.055526 bukan
10 3.7 76 94 2.4 203 0.1852 0.07453 bukan
11 6.3 84 83 4.13 329 0.1852 0.065277 bukan
12 6.7 51 43 1.86 65 0.1852 0.080764 bukan
13 5.8 83 88 3.95 330 0.1852 0.059973 bukan
14 7.7 62 67 3.4 168 0.1852 0.050458 bukan
15 7.4 74 68 2.4 217 0.1852 0.08157 bukan
16 6 85 28 2.98 87 0.1852 0.189087 outlier
17 3.7 51 41 1.55 34 0.1852 0.151355 bukan
18 7.3 68 74 3.56 215 0.1852 0.038603 bukan
19 5.6 57 87 3.02 172 0.1852 0.027375 bukan
20 5.2 52 76 2.85 109 0.1852 0.044225 bukan
21 5.8 96 114 3.95 830 0.1852 0.153731 bukan
22 3.4 83 53 1.12 136 0.1852 0.141251 bukan
23 6.7 26 68 2.1 70 0.1852 0.124505 bukan
72
24 5.8 67 86 3.4 220 0.1852 0.02792 bukan
25 6.3 59 100 2.95 276 0.1852 0.055787 bukan
26 5.8 61 73 3.5 144 0.1852 0.055338 bukan
27 5.2 52 86 2.45 181 0.1852 0.031417 bukan
28 11.2 76 90 5.59 574 0.1852 0.264561 outlier
29 5.2 54 56 2.71 72 0.1852 0.083994 bukan
30 5.8 76 59 2.58 178 0.1852 0.042994 bukan
31 3.2 64 65 0.74 71 0.1852 0.106039 bukan
32 8.7 45 23 2.52 58 0.1852 0.219006 outlier
33 5 59 73 3.5 116 0.1852 0.092267 bukan
34 5.8 72 93 3.3 295 0.1852 0.033969 bukan
35 5.4 58 70 2.64 115 0.1852 0.028826 bukan
36 5.3 57 99 2.6 184 0.1852 0.047335 bukan
37 2.6 74 86 2.05 118 0.1852 0.105797 bukan
38 4.3 8 120 2.85 120 0.1852 0.31775 outlier
39 4.8 61 76 2.45 151 0.1852 0.027146 bukan
40 5.4 52 88 1.81 148 0.1852 0.061503 bukan
41 5.2 49 72 1.84 95 0.1852 0.038149 bukan
42 3.6 28 99 1.3 75 0.1852 0.148072 bukan
43 8.8 90 88 6.4 483 0.1852 0.260665 outlier
44 6.5 56 77 2.85 153 0.1852 0.026771 bukan
45 3.4 77 93 1.48 191 0.1852 0.132737 bukan
46 6.5 40 84 3 123 0.1852 0.068236 bukan
47 4.5 73 106 3.05 311 0.1852 0.068364 bukan
48 4.8 86 101 4.1 398 0.1852 0.09949 bukan
49 5.1 67 77 2.86 158 0.1852 0.027048 bukan
50 3.9 82 108 4.55 310 0.1852 0.177734 bukan
51 6.6 77 46 1.95 124 0.1852 0.085847 bukan
52 6.4 85 40 1.21 125 0.1852 0.174638 bukan
53 6.4 59 85 2.33 198 0.1852 0.050524 bukan
54 8.8 78 72 3.2 313 0.1852 0.123695 bukan
Lampiran VI
PEMERIKSAAN DISCREPANCY DATA TABLE 4.5
no TRES1 ttabel Jenis data
1 -0.5893 2.01 bukan
2 0.0746 2.01 bukan
3 -0.6346 2.01 bukan
4 -0.06 2.01 bukan
5 1.0872 2.01 bukan
6 0.4743 2.01 bukan
7 0.4706 2.01 bukan
8 -0.5425 2.01 bukan
73
9 -1.2699 2.01 bukan
10 -0.708 2.01 bukan
11 -0.2344 2.01 bukan
12 0.6928 2.01 bukan
13 -0.1704 2.01 bukan
14 -0.896 2.01 bukan
15 -0.6398 2.01 bukan
16 -0.1818 2.01 bukan
17 2.2679 2.01 outlier
18 -0.8199 2.01 bukan
19 -0.5737 2.01 bukan
20 -0.2622 2.01 bukan
21 10.0852 2.01 outlier
22 0.9634 2.01 bukan
23 0.8161 2.01 bukan
24 -0.6061 2.01 bukan
25 -0.2639 2.01 bukan
26 -0.5839 2.01 bukan
27 0.3227 2.01 bukan
Lampiran VII
Pemeriksaan outlier berdasarkan DFFIT dan COOK’s distance data table
4.5
no COOK1 cutoff DFIT1 cutoff Jenis data
1 0.00292 2.31 -0.12005 0.61 bukan
2 0.00004 2.31 0.01462 0.61 bukan
3 0.00974 2.31 -0.21928 0.61 bukan
4 0.00007 2.31 -0.01791 0.61 bukan
5 0.03338 2.31 0.4093 0.61 bukan
6 0.00404 2.31 0.14107 0.61 bukan
7 0.00224 2.31 0.10496 0.61 bukan
8 0.00382 2.31 -0.13724 0.61 bukan
9 0.01873 2.31 -0.30792 0.61 bukan
10 0.00816 2.31 -0.20093 0.61 bukan
11 0.00078 2.31 -0.06194 0.61 bukan
12 0.00852 2.31 0.20535 0.61 bukan
13 0.00038 2.31 -0.04304 0.61 bukan
14 0.00857 2.31 -0.20654 0.61 bukan
15 0.00736 2.31 -0.19068 0.61 bukan
16 0.00157 2.31 -0.08777 0.61 bukan
17 0.16915 2.31 0.95775 0.61 outlier
18 0.00543 2.31 -0.1643 0.61 bukan
19 0.00188 2.31 -0.09625 0.61 bukan
74
20 0.00065 2.31 -0.05641 0.61 bukan
21 1.20946 2.31 4.29843 0.61 outlier
22 0.03058 2.31 0.39071 0.61 bukan
23 0.01907 2.31 0.30775 0.61 bukan
24 0.00214 2.31 -0.10272 0.61 bukan
25 0.00084 2.31 -0.06415 0.61 bukan
26 0.00405 2.31 -0.14133 0.61 bukan
27 0.00069 2.31 0.05813 0.61 bukan
28 0.07152 2.31 0.59798 0.61 bukan
29 0.00265 2.31 0.114 0.61 bukan
30 0.00003 2.31 0.01183 0.61 bukan
31 0.00772 2.31 0.1951 0.61 bukan
32 0.08309 2.31 0.6478 0.61 outlier
33 0.00449 2.31 -0.14865 0.61 bukan
34 0.00023 2.31 -0.03372 0.61 bukan
35 0.00037 2.31 -0.04252 0.61 bukan
36 0.00898 2.31 -0.21172 0.61 bukan
37 0.01367 2.31 -0.26027 0.61 bukan
38 0.03792 2.31 0.43278 0.61 bukan
39 0.00005 2.31 0.01628 0.61 bukan
40 0.00154 2.31 -0.08696 0.61 bukan
41 0.00029 2.31 0.03755 0.61 bukan
42 0.01024 2.31 0.22459 0.61 bukan
43 0.00848 2.31 -0.20406 0.61 bukan
44 0.00205 2.31 -0.10065 0.61 bukan
45 0.01016 2.31 -0.22386 0.61 bukan
46 0.00358 2.31 -0.13276 0.61 bukan
47 0.00013 2.31 -0.02564 0.61 bukan
48 0.00356 2.31 0.13228 0.61 bukan
49 0.00153 2.31 -0.08668 0.61 bukan
50 0.03622 2.31 -0.42486 0.61 bukan
51 0.00236 2.31 -0.10755 0.61 bukan
52 0.00251 2.31 -0.11097 0.61 bukan
53 0.00234 2.31 -0.10732 0.61 bukan
54 0.00903 2.31 -0.21096 0.61 bukan